去重复

WBOY
WBOY原創
2016-06-23 14:18:05930瀏覽

有一文件里有十几万行数据。。。如何去重复。。。大小写一样的只能算一个。。


回复讨论(解决方案)

行的概念是?
如果100字符/行,20万行也就20~60M而已

file 读进来
array_unique 
然后写回去

如果觉得空间不够
就逐行读取求MD5并保存(如果平均行长小于32,占的内存还多些)
同时写入文件
遇到某行的MD5已存在了,这行就不写了

文件结构怎么样?贴一段出来,估计斑竹可以帮你解决。

感觉这玩意不用php,用linux的shell工具会更快

例如

cat file | sort -u  > file

如果你还要考虑大小写的问题的话,直接在上面的命令加 -f 既忽略大小写

cat file | sort -u -f > file

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn