去除相似度较高的内容-php教程-PHP中文網

首頁

後端開發

php教程

去除相似度较高的内容

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 06, 2016 pm 08:39 PM

mysqlphp全文搜尋

如何去除相似度较高的内容？可以不择手段！

如下面三条笑话几乎是一样的，只是个别符号和换行不换行的差别。假设现在有30万条数据，其中有几万条是这样具有高相似度的，我要怎么做才能把这些数据筛选出来？

可以不择手段，最好是ＰＨＰ/MySQL，客户端之类的。

哥应邀参加前任婚礼，和一帮陌生人坐一桌，旁边一哥们问我是新娘什么人？我回答，我只是来看一下以前战斗过的地方！没想到一桌子的人举起酒杯：
大家都是战友，干杯，多喝点，一会讨论战斗经验！

哥应邀参加前任婚礼，和一帮陌生人坐一桌，旁边一哥们问我：“是新娘什么人？” 我回答，我只是来看一下以前战斗过的地方！
没想到一桌子的人举起酒杯：“大家都是战友，干杯，多喝点，一会讨论战斗经验！”

哥应邀参加前任婚礼，和一帮陌生人坐一桌，旁边一哥们问我是新娘什么人？我回答，我只是来看一下以前战斗过的地方！没想到一桌子的人举起酒杯：大家都是战友，干杯，多喝点，一会讨论战斗经验！

回复内容：

如何去除相似度较高的内容？可以不择手段！

可以不择手段，最好是ＰＨＰ/MySQL，客户端之类的。

哥应邀参加前任婚礼，和一帮陌生人坐一桌，旁边一哥们问我是新娘什么人？我回答，我只是来看一下以前战斗过的地方！没想到一桌子的人举起酒杯：
大家都是战友，干杯，多喝点，一会讨论战斗经验！

哥应邀参加前任婚礼，和一帮陌生人坐一桌，旁边一哥们问我：“是新娘什么人？” 我回答，我只是来看一下以前战斗过的地方！
没想到一桌子的人举起酒杯：“大家都是战友，干杯，多喝点，一会讨论战斗经验！”

哥应邀参加前任婚礼，和一帮陌生人坐一桌，旁边一哥们问我是新娘什么人？我回答，我只是来看一下以前战斗过的地方！没想到一桌子的人举起酒杯：大家都是战友，干杯，多喝点，一会讨论战斗经验！

只回答相似度处理

与 similar_text() 函数相比，levenshtein() 函数更快，但similar_text() 函数能通过更少的必需修改次数提供更精确的结果，在追求速度而少精确度，并且字符串长度有限时可以考虑使用 levenshtein() 函数，而且 similar_text() 对中文支持的并不好

最后留一个自己捣鼓的：通过余弦定理+分词计算文本相似度PHP版

https://github.com/xiaobeicn/text-similarity-php

要求不高的话直接用similar_text吧，DEMO: http://3v4l.org/iBXvC

如果只是多出几个标点符号、换行的话，那可以去掉那些符号、换行，然后比较字符串md5的值。当然，如果文字的顺序变大很大，这个也就不行了

说白了就是文章摘要算法如果是我的话分词肯定不够还要上词性分析留下名词动词做特征能更准一些

我给你一个我认为最靠谱的方案
（1）对文章进行词性划分，只保留动词和名词部分，比如
哥应邀参加前任婚礼，和一帮陌生人坐一桌，旁边一哥们问我是新娘什么人？我回答，我只是来看一下以前战斗过的地方！没想到一桌子的人举起酒杯：
大家都是战友，干杯，多喝点，一会讨论战斗经验！

这段文字我认为特征是婚礼新娘战斗就被经验战友
（2）你需要很多的例子，比如10000篇，根据这一万篇，大致推断整个30万文本中所有可能重要的词汇，根据经验这个个词汇表如果不处理会超过10w个
（3）使用特征提取算法精简词汇表，至于怎么特征提取这至少是烟酒生课程才会讲的，都是数学，这样你会把10w个词缩减到3000左右
（4）用这3000个词表示每一个文本，比如w1=[0,0,1,1,.....0,..1,,0...1..0...]我们不考虑词频，这样的数据结构用位图非常容易转化为字符串
（5）使用Hash表对所有文本进行去重
这样的效率是最高的，但是肯定有误差，因为特征提取本身就是信息量减少的过程，来换取最快的速度，但是可以做到任何一个新文本来，分词的过程不计，几乎是O(1)的时间复杂度

再提供一种思路：去掉所有标点符号、空格以及换行符之后用动态规划算法计算“编辑距离/Levenshtein距离”（即把字符串s1经过变换得到s2的最少编辑次数，其中一次编辑可以是添加一个字符、删除一个字符或者修改一个字符）。比较容易实现，效率也不错（大约就是O(N^2)其中N是字符串长度）

这个算法貌似是信息学竞赛的经典算法，搜一下“字符串编辑距离”应该就能找到（维基百科也有），如果不想用库的话可以考虑该方法

我想说的也是编辑距离，楼上已经说了。

http://www.cnblogs.com/liangxiaxu/archive/2012/05/05/2484972.html

余弦定理和simhash都不错，后者是谷歌发明的

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

PHP的當前狀態：查看網絡開發趨勢Apr 13, 2025 am 12:20 AM

PHP在現代Web開發中仍然重要，尤其在內容管理和電子商務平台。 1)PHP擁有豐富的生態系統和強大框架支持，如Laravel和Symfony。 2)性能優化可通過OPcache和Nginx實現。 3)PHP8.0引入JIT編譯器，提升性能。 4)雲原生應用通過Docker和Kubernetes部署，提高靈活性和可擴展性。

PHP與其他語言：比較Apr 13, 2025 am 12:19 AM

PHP適合web開發，特別是在快速開發和處理動態內容方面表現出色，但不擅長數據科學和企業級應用。與Python相比，PHP在web開發中更具優勢，但在數據科學領域不如Python；與Java相比，PHP在企業級應用中表現較差，但在web開發中更靈活；與JavaScript相比，PHP在後端開發中更簡潔，但在前端開發中不如JavaScript。

PHP與Python：核心功能Apr 13, 2025 am 12:16 AM

PHP和Python各有優勢，適合不同場景。 1.PHP適用於web開發，提供內置web服務器和豐富函數庫。 2.Python適合數據科學和機器學習，語法簡潔且有強大標準庫。選擇時應根據項目需求決定。

PHP：網絡開發的關鍵語言Apr 13, 2025 am 12:08 AM

PHP是一種廣泛應用於服務器端的腳本語言，特別適合web開發。 1.PHP可以嵌入HTML，處理HTTP請求和響應，支持多種數據庫。 2.PHP用於生成動態網頁內容，處理表單數據，訪問數據庫等，具有強大的社區支持和開源資源。 3.PHP是解釋型語言，執行過程包括詞法分析、語法分析、編譯和執行。 4.PHP可以與MySQL結合用於用戶註冊系統等高級應用。 5.調試PHP時，可使用error_reporting()和var_dump()等函數。 6.優化PHP代碼可通過緩存機制、優化數據庫查詢和使用內置函數。 7

PHP：許多網站的基礎Apr 13, 2025 am 12:07 AM

PHP成為許多網站首選技術棧的原因包括其易用性、強大社區支持和廣泛應用。 1)易於學習和使用，適合初學者。 2)擁有龐大的開發者社區，資源豐富。 3)廣泛應用於WordPress、Drupal等平台。 4)與Web服務器緊密集成，簡化開發部署。

超越炒作：評估當今PHP的角色Apr 12, 2025 am 12:17 AM

PHP在現代編程中仍然是一個強大且廣泛使用的工具，尤其在web開發領域。 1)PHP易用且與數據庫集成無縫，是許多開發者的首選。 2)它支持動態內容生成和麵向對象編程，適合快速創建和維護網站。 3)PHP的性能可以通過緩存和優化數據庫查詢來提升，其廣泛的社區和豐富生態系統使其在當今技術棧中仍具重要地位。