PHP 抽取网页标题并剔除不相关的seo关键字
场景描述:
过往我们在抽取网页标题的时候,都会直接抽取 之间的内容. 但实际情况是这样,例如javaeye 的一篇文章 http://www.iteye.com/news/21643 , 的内容为 "10年软件开发教会我最重要的10件事 - 非技术 - ITeye资讯", 但实际引用中我们期望的标题应该为 "10年软件开发教会我最重要的10件事". 所以标题后面堆砌了很多不相关的关键字(应该是为了 seo 吧). 所以我们希望过滤掉这些关键字. 有下面的方法可以参考:
1. 查找 h1 等标签.(分析sina news 一些网站之后, 觉得不可行,会有很多干扰)
2. 从全文去标题后,将 之间的内容切割(按 _ | -)为 a1,a2,a3,a4,然后从最长的词组a3开始从全文查找. 如果查找成功,那么开始向左边迭代查询 a2,a1,直到查询失败为止 。左侧失败后,再继续向右迭代,同理. (这里我采用的是这种方法)
<?php /** * @author pqcc <[email protected]> * @date: 2011-06-18 * Description: 给定一个网页内容,提取网页的标题. 提取的标题不包括 seo 关键字. * e.g: 一篇新闻标题的从<title>直接抽取结果为 "大学英语四六级本周六开考 909万人参考_新浪教育_新浪网", * 但我们希望的结果是:"大学英语四六级本周六开考 909万人参考". * 适用范围: 文章最终页标题的提取, 不包括专题页等. */class TitlePurify{ private $matches_preg = '[-_\s|—]'; function getTitle($contents){/*{{{*/ $preg = "/<title>]*>([\w|\t|\r|\W]*?)/i"; preg_match($preg, $contents, $matches); if(count($matches)trimTitle($title, $contents); }/*}}}*/ function trimMeta($contents){/*{{{*/ // 首先去除 <title> 内容, <meta> 内容. $preg = "/<title>]*>([\w|\t|\r|\W]*?)/i"; $contents = preg_replace($preg, '', $contents); $preg = "/<meta>]*>/i"; $contents = preg_replace($preg, '', $contents); return $contents; }/*}}}*/ // 获取长度最长的 item?所处的index. function getMaxIndex($titles){/*{{{*/ $maxItemIndex = 0; $maxLength = 0; $loop = 0; foreach($titles as $item){ if(strlen($item)>$maxLength){ $maxLength = strlen($item); $maxItemIndex = $loop; } $loop++; } return $maxItemIndex; }/*}}}*/ function trim($title, $titles, $contents, $maxItemIndex){/*{{{*/ [email protected] : 此处可优化contents // 如果查找成功. result = tempTitle. $tempTitle = $titles[$maxItemIndex]; $result = $tempTitle; $count = count($titles); // while 从当前index 向左进行迭代(直到到达第一个或者匹配失败才中止). $leftIndex = $maxItemIndex-1; while(true && $leftIndex>=0){ // tempTitle+左一个. preg_match("/({$this->matches_preg}+{$tempTitle})/i", $title, $matches); if(count($matches)>1){ // temp 用于匹配失败后,进行回滚. $temp = $titles[$leftIndex] . $matches[1]; $tempTitle = $titles[$leftIndex] . $matches[1]; // 继续拿着 tempTitle 去匹配. preg_match("/$tempTitle/i", $contents, $matches); // 如果查找失败.... if(count($matches)matches_preg}+)/i", $title, $matches); if(count($matches)>1){ // temp 用于匹配失败后,进行回滚. $temp = $matches[1] . $titles[$rightIndex]; $tempTitle = $matches[1] . $titles[$rightIndex]; // 继续拿着 tempTitle 去匹配. preg_match("/$tempTitle/i", $contents, $matches); // 如果查找失败.... if(count($matches)trimMeta($contents); // 配置切割标题的规则. $titles = preg_split("/$this->matches_preg/i", $title); $count = count($titles); //var_dump($titles);exit; // 将当前最长的 item 从全文查找. $maxItemIndex = $this->getMaxIndex($titles); $tempTitle = $titles[$maxItemIndex]; preg_match("/$tempTitle/i", $contents, $matches); // 如果查找失败.... if(count($matches)trim($title, $titles, $contents, $maxItemIndex); }/*}}}*/}// ------------- test code ------------------------------function convertEncoding($contents){ preg_match("/charset=([\w|\-]+);?/i", $contents, $match); $charset = isset($match[1])? $match[1] : 'UTF-8'; $contents = mb_convert_encoding($contents, 'UTF-8', $charset); return $contents;}$url = 'http://china.nba.com/news/4/2011/0617/61383331/10451.html';$contents = file_get_contents($url);$contents = convertEncoding($contents);$startTime = microtime();$purify = new TitlePurify();$title = $purify->getTitle($contents);$endTime = microtime();echo "标题: $title ";echo "cost: " . ($endTime-$startTime);?></title> </title> </title> </title>

PHPは主に手順プログラミングですが、オブジェクト指向プログラミング(OOP)もサポートしています。 Pythonは、OOP、機能、手続き上のプログラミングなど、さまざまなパラダイムをサポートしています。 PHPはWeb開発に適しており、Pythonはデータ分析や機械学習などのさまざまなアプリケーションに適しています。

PHPは1994年に発信され、Rasmuslerdorfによって開発されました。もともとはウェブサイトの訪問者を追跡するために使用され、サーバー側のスクリプト言語に徐々に進化し、Web開発で広く使用されていました。 Pythonは、1980年代後半にGuidovan Rossumによって開発され、1991年に最初にリリースされました。コードの読みやすさとシンプルさを強調し、科学的コンピューティング、データ分析、その他の分野に適しています。

PHPはWeb開発と迅速なプロトタイピングに適しており、Pythonはデータサイエンスと機械学習に適しています。 1.PHPは、単純な構文と迅速な開発に適した動的なWeb開発に使用されます。 2。Pythonには簡潔な構文があり、複数のフィールドに適しており、強力なライブラリエコシステムがあります。

PHPは、多数のWebサイトとアプリケーションをサポートし、フレームワークを通じて開発ニーズに適応するため、近代化プロセスで依然として重要です。 1.PHP7はパフォーマンスを向上させ、新機能を紹介します。 2。Laravel、Symfony、Codeigniterなどの最新のフレームワークは、開発を簡素化し、コードの品質を向上させます。 3.パフォーマンスの最適化とベストプラクティスは、アプリケーションの効率をさらに改善します。

phphassiblasifly-impactedwebdevevermentandsbeyondit.1)itpowersmajorplatformslikewordpratsandexcelsindatabase interactions.2)php'sadaptableability allowsitale forlargeapplicationsusingframeworkslikelavel.3)

PHPタイプは、コードの品質と読みやすさを向上させるためのプロンプトがあります。 1)スカラータイプのヒント:php7.0であるため、基本データ型は、int、floatなどの関数パラメーターで指定できます。 3)ユニオンタイプのプロンプト:PHP8.0であるため、関数パラメーターまたは戻り値で複数のタイプを指定することができます。 4)Nullable Typeプロンプト:null値を含めることができ、null値を返す可能性のある機能を処理できます。

PHPでは、クローンキーワードを使用してオブジェクトのコピーを作成し、\ _ \ _クローンマジックメソッドを使用してクローン動作をカスタマイズします。 1.クローンキーワードを使用して浅いコピーを作成し、オブジェクトのプロパティをクローン化しますが、オブジェクトのプロパティはクローニングしません。 2。\ _ \ _クローン法は、浅いコピーの問題を避けるために、ネストされたオブジェクトを深くコピーできます。 3.クローニングにおける円形の参照とパフォーマンスの問題を避けるために注意し、クローニング操作を最適化して効率を向上させます。

PHPはWeb開発およびコンテンツ管理システムに適しており、Pythonはデータサイエンス、機械学習、自動化スクリプトに適しています。 1.PHPは、高速でスケーラブルなWebサイトとアプリケーションの構築においてうまく機能し、WordPressなどのCMSで一般的に使用されます。 2。Pythonは、NumpyやTensorflowなどの豊富なライブラリを使用して、データサイエンスと機械学習の分野で驚くほどパフォーマンスを発揮しています。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

Dreamweaver Mac版
ビジュアル Web 開発ツール
