問題描述:
有很多文件夾,一個文件夾下有很多文件。目的是將每個文件夾的特徵提取出來,特徵規定是該文件夾下的一個或少量文件(名,內容hash及相對位置)。有什麼較好的算法或策略來解決該問題嗎?
我想的是暴力求解,但這效率低下。直接把该文件夾下的文件與其它文件夾下所有的文件做比較,如果有相同的,则该文件夾的下一个文件又去比较其它所有的,如果不同,则说明这个文件可以表达出该文件夹的特征。然后每个文件夹都这么做。
統計方法。按順序將每個文件夾的文件排序,選最大最小及中位數文件來作每個文件夾的特徵。但會出現這麼個問題,兩個文件夾可能就只有一個或少量文件不同,使用這種策略會產生遺漏,無法準確提取出所有文件夾的特徵。
因此,我希望是在既能保證效率又能保證準確率的情況下來對這問題進行求解。希望各位表哥能隨便提提建議或意見,指導指導。thx。
高洛峰2017-04-18 10:32:51
Randomly select a fixed number of files from the current folder, combine their file names, sizes, modification times, permissions, etc. to make a hash, and then determine the duplication rate. Generally, the repetition rate will not be very high, because even if the file names and The size is the same, but the modification time is generally different.