찾다

 >  Q&A  >  본문

python - 對於不同文件夾的特徵提取策略問題

問題描述:

有很多文件夾,一個文件夾下有很多文件。目的是將每個文件夾的特徵提取出來,特徵規定是該文件夾下的一個或少量文件(名,內容hash及相對位置)。有什麼較好的算法或策略來解決該問題嗎?

  1. 我想的是暴力求解,但這效率低下。直接把该文件夾下的文件與其它文件夾下所有的文件做比較,如果有相同的,则该文件夾的下一个文件又去比较其它所有的,如果不同,则说明这个文件可以表达出该文件夹的特征。然后每个文件夹都这么做。

  2. 統計方法。按順序將每個文件夾的文件排序,選最大最小及中位數文件來作每個文件夾的特徵。但會出現這麼個問題,兩個文件夾可能就只有一個或少量文件不同,使用這種策略會產生遺漏,無法準確提取出所有文件夾的特徵。

因此,我希望是在既能保證效率又能保證準確率的情況下來對這問題進行求解。希望各位表哥能隨便提提建議或意見,指導指導。thx。

迷茫迷茫2787일 전367

모든 응답(1)나는 대답할 것이다

  • 高洛峰

    高洛峰2017-04-18 10:32:51

    현재 폴더에서 고정된 수의 파일을 무작위로 선택하고 파일 이름, 크기, 수정 시간, 권한 등을 결합하여 해시를 만든 다음 심각도를 결정합니다. 일반적으로 반복률은 그리 높지 않습니다. , 파일 이름과 크기가 동일하더라도 일반적으로 수정 시간이 다르기 때문입니다.

    회신하다
    0
  • 취소회신하다