php计算title标题相似比

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB原创: 2016-06-07 11:45:121339浏览

采集时常常要对网站内容进行重复判断，php判断正文内容比较困难，对于标题的判断还是比较简单，只要过滤标题中的版权，再用similar_text计算
<?php /* * php计算title标题相似比 by enenba.com * * @param string $title_1 题目1 * @param string $title_2 题目2 * @return float $percent 相似百分比 */ function title_similar($title_1,$title_2) { $title_1 = get_real_title($title_1); $title_2 = get_real_title($title_2); similar_text($title_1, $title_2, $percent); return $percent; } /** * php采集文章题目并去版权 * @param string $html 需要采集的html源代码 * @return string */ function get_real_title($str){ $str = str_replace(array('-','—','|'),'_',$str); $splits = explode('_', $str); $l = 0; foreach ($splits as $tp){ $len = strlen($tp); if ($l } $tt = trim(htmlspecialchars($tt)); return $tt; } //以下是测试 $title_1 = '代号PHPCMS V9产品正式发布公测版本 - 站长之家'; $title_2 = 'PHPCMS再战江湖 V9产品正式发布公测版本 - 站长网 admin5.com'; $percent = title_similar($title_1,$title_2); echo '相似百分比：'.$percent.'%'; echo " \n"; ?> http://blog.ddian.cn/?post=874

AD：真正免费，域名+虚机+企业邮箱=0元

声明：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：公共模块禁止直接访问下一篇：自定义UBB的实现

查看更多

php计算title标题相似比

相关文章