Heim  >  Artikel  >  Backend-Entwicklung  >  找数据重复部分

找数据重复部分

WBOY
WBOYOriginal
2016-08-31 08:54:53848Durchsuche

  1. 现在有一批通讯录数据(10000多个人的通讯录)需要找出每两个人的通讯录的重复部分(就是谁和谁的通讯录重复了多少条)要所有人的通讯录都两两比对一遍
    例如 有 ABCDE四个人的通讯录 找出 AB AC AD AE BC BD BE CD CE DE 之间的通讯录重复条数

手机号重复 就认为这两条通讯录重复
这个是数据表,有10000多个人通讯录
找数据重复部分

找数据重复部分

list字段存的json就是通讯录的内容
一个人通讯录 100条到1000条不等
找数据重复部分

我目前尝试的做法是,一下取出所有人的通讯录,然后拿第一个人跟剩下所有人的进行比对(foreach这个数组,里面嵌套foreach) 然后拿第二个人的跟剩下所有人的比对,以此类推.
脚本部分代码
找数据重复部分
找数据重复部分
找数据重复部分

然后运行脚本 脚本跑了20多个小时 才跑了一半左右 内存,CPU占用也比较高 脚本效率太低了

请教一下,有没有更好方法来找出这批数据的重复部分,或者脚本怎么优化优化

谢谢大家

回复内容:

  1. 现在有一批通讯录数据(10000多个人的通讯录)需要找出每两个人的通讯录的重复部分(就是谁和谁的通讯录重复了多少条)要所有人的通讯录都两两比对一遍
    例如 有 ABCDE四个人的通讯录 找出 AB AC AD AE BC BD BE CD CE DE 之间的通讯录重复条数

手机号重复 就认为这两条通讯录重复
这个是数据表,有10000多个人通讯录
找数据重复部分

找数据重复部分

list字段存的json就是通讯录的内容
一个人通讯录 100条到1000条不等
找数据重复部分

我目前尝试的做法是,一下取出所有人的通讯录,然后拿第一个人跟剩下所有人的进行比对(foreach这个数组,里面嵌套foreach) 然后拿第二个人的跟剩下所有人的比对,以此类推.
脚本部分代码
找数据重复部分
找数据重复部分
找数据重复部分

然后运行脚本 脚本跑了20多个小时 才跑了一半左右 内存,CPU占用也比较高 脚本效率太低了

请教一下,有没有更好方法来找出这批数据的重复部分,或者脚本怎么优化优化

谢谢大家

<code class="php">$data = array(
    array('id'=>1,'name'=>1),
    array('id'=>2,'name'=>2),
    array('id'=>3,'name'=>3),
    array('id'=>1,'name'=>2)
);
$ret = array();
# 数据遍历一次,以计算重复key作为key新建数据,如果存在value +1,如果不存在设置为1
foreach($data as $k=>$v){
    $_id = $v['id'];
    $_name = $v['name'];
    if (array_key_exists($_id, $ret)) {
        $ret[$_id]++;
    }else{
        $ret[$_id] = 1;
    }
}
# 遍历结果
foreach($ret as $k=>$v){
    echo "{$k}出现{$v}次\n";
}
#print_r($id)
</code>
Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn