首頁 >後端開發 >php教程 >mysql - php根据相似度查找重复数据怎么实现？

mysql - php根据相似度查找重复数据怎么实现？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB原創: 2016-06-06 20:10:321206瀏覽

有一个具有几千条数据的表，数据库用的mysql，想寻找一个算法根据数据的相似度查找重复的数据，并将其罗列出来，有能提供方法或思路的兄弟们欢迎来凑，先谢过了！

回复内容：

1.首先，题主应该选一个相似度的计算维度，比如content字段，type字段等；
2.其次，题主考虑一下各个字段的权重，比如type字段必须相同，则让type字段使用typeWeight（例如赋值0.8）作为乘积的因子，而content字段本身是比较长的，所以需要计算出一个hash值，比如使用md5计算出一个32位hash值，然后把这个hash值按照16进制计算得到10进制数，再给一个权重contentWeight（例如0.2），另外再选取一个字段，比如description描述字段，再给一个权重descriptionWeight...
3.最后得到一个当前插入到表中的记录综合hash，typeWeight(contentHashcontentWeight+descriptionHash*descriptionWeight +...),可能会涉及到大整数计算，不过PHP有BCMATH扩展可以使用，最终得到一个数值的综合hash值，保存到数据库的一个字段中，这个东西就可以理解为本条记录的特征值。

看你的需求,方法还是挺多而来,比如说2个字符串的距离,如汉明距离。

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：php框架 - php的命名空间使用是否省去了include和require的作用下一篇：css - php 生成的word文件怎么把图片显示出来并且样式正确？

看更多

mysql - php根据相似度查找重复数据怎么实现？

回复内容：

相關文章