PHP抽取网页标题并剔除不相关的seo关键字

首頁

後端開發

php教程

PHP抽取网页标题并剔除不相关的seo关键字_PHP教程

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 13, 2016 pm 05:44 PM

phpseo關鍵字在場景我們抽取標題的網頁

场景描述:

过往我们在抽取网页标题的时候，都会直接抽取之间的内容. 但实际情况是这样,例如javaeye 的一篇文章 http://www.iteye.com/news/21643 , 的内容为 "10年软件开发教会我最重要的10件事 - 非技术 - ITeye资讯", 但实际引用中我们期望的标题应该为 "10年软件开发教会我最重要的10件事". 所以标题后面堆砌了很多不相关的关键字(应该是为了 seo 吧). 所以我们希望过滤掉这些关键字. 有下面的方法可以参考:

1. 查找 h1 等标签.(分析sina news 一些网站之后, 觉得不可行,会有很多干扰)

2. 从全文去标题后，将之间的内容切割(按 _ | -)为 a1,a2,a3,a4，然后从最长的词组a3开始从全文查找. 如果查找成功,那么开始向左边迭代查询 a2,a1,直到查询失败为止。左侧失败后，再继续向右迭代，同理. (这里我采用的是这种方法)

Php代码
/**
* @author pqcc
* @date: 2011-06-18
* Description: 给定一个网页内容，提取网页的标题. 提取的标题不包括 seo 关键字.
* e.g: 一篇新闻标题的从直接抽取结果为 "大学英语四六级本周六开考 909万人参考_新浪教育_新浪网", * 但我们希望的结果是:"大学英语四六级本周六开考 909万人参考". * 适用范围: 文章最终页标题的提取, 不包括专题页等. */ class TitlePurify{ private $matches_preg = [-_s|—]; function getTitle($contents){/*{{{*/ $preg = "/<title>]*>([w| ||W]*?)/i";
 preg_match($preg, $contents, $matches);
 if(count($matches) return "标题抽取失败";
 }
 $title = $matches[1];
 return $this->trimTitle($title, $contents);
 }/*}}}*/

 function trimMeta($contents){/*{{{*/
 // 首先去除内容, <meta> 内容. $preg = "/<title>]*>([w| ||W]*?)/i";
 $contents = preg_replace($preg, , $contents);
 $preg = "/]*>/i";
 $contents = preg_replace($preg, , $contents);
 return $contents;
 }/*}}}*/

 // 获取长度最长的 item 所处的index.
 function getMaxIndex($titles){/*{{{*/
 $maxItemIndex = 0;
 $maxLength = 0;
 $loop = 0;
 foreach($titles as $item){
 if(strlen($item)>$maxLength){
 $maxLength = strlen($item);
 $maxItemIndex = $loop;
 }
 $loop++;
 }
 return $maxItemIndex;
 }/*}}}*/

 function trim($title, $titles, $contents, $maxItemIndex){/*{{{*/
 //@todo : 此处可优化contents
 // 如果查找成功. result = tempTitle.
 $tempTitle = $titles[$maxItemIndex];
 $result = $tempTitle;
 $count = count($titles);
 // while 从当前index 向左进行迭代(直到到达第一个或者匹配失败才中止).
 $leftIndex = $maxItemIndex-1;
 while(true && $leftIndex>=0){
 // tempTitle+左一个.
 preg_match("/({$this->matches_preg}+{$tempTitle})/i", $title, $matches);
 if(count($matches)>1){
 // temp 用于匹配失败后,进行回滚.
 $temp = $titles[$leftIndex] . $matches[1];
 $tempTitle = $titles[$leftIndex] . $matches[1];
 // 继续拿着 tempTitle 去匹配.
 preg_match("/$tempTitle/i", $contents, $matches);
 // 如果查找失败....
 if(count($matches) $tempTitle = $temp;
 break;
 }else{
 $result = $tempTitle;
 }
 }else{ // 正常情况下, 不会出现该情况.
 break;
 }
 $leftIndex--;&

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

如何使PHP應用程序更快May 12, 2025 am 12:12 AM

tomakephpapplicationsfaster，關注台詞：1）useopcodeCachingLikeLikeLikeLikeLikePachetoStorePreciledScompiledScriptbyTecode.2）MinimimiedAtabaseSqueriSegrieSqueriSegeriSybysequeryCachingandeffeftExting.3）Leveragephp7 leveragephp7 leveragephp7 leveragephpphp7功能forbettercodeefficy.4）

PHP性能優化清單：立即提高速度May 12, 2025 am 12:07 AM

到ImprovephPapplicationspeed，關注台詞：1）啟用opcodeCachingwithapCutoredUcescriptexecutiontime.2）實現databasequerycachingingusingpdotominiminimizedatabasehits.3）usehttp/2tomultiplexrequlexrequestsandreduceconnection.4 limitesclection.4.4

PHP依賴注入：提高代碼可檢驗性May 12, 2025 am 12:03 AM

依赖注入（DI）通过显式传递依赖关系，显著提升了PHP代码的可测试性。1）DI解耦类与具体实现，使测试和维护更灵活。2）三种类型中，构造函数注入明确表达依赖，保持状态一致。3）使用DI容器管理复杂依赖，提升代码质量和开发效率。

PHP性能優化：數據庫查詢優化May 12, 2025 am 12:02 AM

DatabasequeryoptimizationinPHPinvolvesseveralstrategiestoenhanceperformance.1)Selectonlynecessarycolumnstoreducedatatransfer.2)Useindexingtospeedupdataretrieval.3)Implementquerycachingtostoreresultsoffrequentqueries.4)Utilizepreparedstatementsforeffi

簡單指南：帶有PHP腳本的電子郵件發送May 12, 2025 am 12:02 AM

phpisusedforsenderemailsduetoitsbuilt-inmail（）函數andsupportivelibrariesLikePhpMailerAndSwiftMailer.1）usethemail（）functionForbasiceMails，butithasimails.2）butithasimail.2）

PHP性能：識別和修復瓶頸May 11, 2025 am 12:13 AM

PHP性能瓶颈可以通过以下步骤解决：1)使用Xdebug或Blackfire进行性能分析，找出问题所在；2)优化数据库查询并使用缓存，如APCu；3)使用array_filter等高效函数优化数组操作；4)配置OPcache进行字节码缓存；5)优化前端，如减少HTTP请求和优化图片；6)持续监控和优化性能。通过这些方法，可以显著提升PHP应用的性能。

PHP的依賴注入：快速摘要May 11, 2025 am 12:09 AM

依賴性注射（DI）InphpisadesignPatternthatManages和ReducesClassDeptions，增強量強制性，可驗證性和MATIALWINABIOS.ItallowSpasspassingDepentenciesLikEdenciesLikedAbaseConnectionStoclasseconnectionStoclasseSasasasasareTers，interitationAseTestingEaseTestingEaseTestingEaseTestingEasingAndScalability。

提高PHP性能：緩存策略和技術May 11, 2025 am 12:08 AM

cachingimprovesphpermenceByStorcyResultSofComputationsorqucrouctationsorquctationsorquickretrieval，reducingServerLoadAndenHancingResponsetimes.feftectivestrategiesinclude：1）opcodecaching，whereStoresCompiledSinmememorytssinmemorytoskipcompliation; 2）datacaching datacachingsingMemccachingmcachingmcachings

See all articles