ホームページ  >  記事  >  バックエンド開発  >  PHP で Baidu ページと対応する文字列をクロールする方法

PHP で Baidu ページと対応する文字列をクロールする方法

墨辰丷
墨辰丷オリジナル
2018-06-11 17:36:061496ブラウズ

この記事では、Baidu に含まれる PHP の方法、Baidu のホットワードと Baidu のスナップショットを主に紹介し、Baidu ページをキャプチャするための PHP のテクニックと、それに対応する文字列分析を例とともに説明します。

この記事の例では、PHP で Baidu に含まれる Baidu ホット ワード、Baidu スナップショットを取得する方法について説明します。詳細は次のとおりです。

Get Baidu 付属:

<?php
/*
抓取百度收录代码
*/
function baidu($s){
 $baidu="http://www.baidu.com/s?wd=site%3A".$s;
 $site=file_get_contents($baidu);
 //$site=iconv("gb2312", "UTF-8", $site);
 ereg("找到相关网页(.*)篇,", $site,$count);
 $count=str_replace("找到相关网页","",$count);
 $count=str_replace("篇,","",$count);
 $count=str_replace("约","",$count);
 $count=str_replace(",","",$count);
 return $count[0];
}
echo baidu(www.jb51.net);
 //获取脚本之家在百度中的收录数量
?>

Get Baidu のホットワード

<?php 
/** 
* @return array 返回百度的热词数据(数组返回) 
*/ 
function getBaiduHotKeyWord()
{
$templateRss = file_get_contents(&#39;http://top.baidu.com/rss_xml.php?p=top10&#39;);
if (preg_match(&#39;/<table>(.*)<\/table>/is&#39;, $templateRss, $_description)) {
$templateRss = $_description [0];
$templateRss = str_replace("&", "&", $templateRss);
}
$templateRss = "<?xml version=1.0 encoding=GBK?>" . $templateRss;
$xml = @simplexml_load_String($templateRss);
foreach ($xml->tbody->tr as $temp) {
if (!empty ($temp->td->a)) {
$keyArray [] = trim(($temp->td->a));
}
}
return $keyArray;
}
print_r(getBaiduHotKeyWord());

これはインターネットで見つけたものを少し修正したもので、次のように書きます。コードを php ファイルに追加します
Baidu に含まれる情報と Baidu スナップショット時間

<?php
 $domain = "//www.jb51.net/"; *欲查询的域名*/
 $site_url = &#39;http://www.baidu.com/s?wd=site%3A&#39;;
 $all = $site_url.$domain; /*域名所有收录的网址*/
 $today = $all.&#39;&lm=1&#39;; /*域名今日收录的网址*/
 $utf_pattern = "/找到相关结果数(.*)个/";
 $kz_pattern = "/<span class="g">(.*)</span>/"; /*用以匹配快照日期的字符串*/
 $times = "/d{4}-d{1,2}-d{1,2}/"; /*匹配快照日期的正则表达式,如:2011-8-4*/
 $s0 = @file_get_contents($all); /*将site:www.jb51.net的网页置入$s0字符串中*/
 $s1 = @file_get_contents($today);
 preg_match($utf_pattern,$s0,$all_num); /*匹配"找到相关结果数*个"*/
 preg_match($utf_pattern,$s1,$today_num);
 preg_match($kz_pattern,$s0,$temp);
 preg_match($times,$temp[0],$screenshot);
 if($all_num[1] == "")
  $all_num[1] = 0;
 if($today_num[1] == "")
  $today_num[1] = 0;
 if($screenshot[0] == "")
  $screenshot[0] = "暂无快照";
?>
<html>
 <head>
 <title>Test</title>
 </head>
<body>
 <table>
 <tr>
  <td>日期</td><td>百度收录</td><td>百度今日收录</td><td>百度快照日期</td>
 </tr>
 <tr>
  <td><?php echo date(&#39;m月d日G时&#39;);?> </td><td>
  <?php echo $all_num[1]; ?></td><td>
  <?php echo $today_num[1]; ?></td><td>
  <?php echo $screenshot[0]; ?></td>
 </tr>
 </table>
 <p>百度收录:<a href="<?php echo $all; ?>" target="_blank">
 <?php echo $all_num[1]; ?></a></p>
 <p>百度今日收录:<a href="<?php echo $today; ?>" target="_blank">
 <?php echo $today_num[1]; ?></a></p>
 <p>百度快照日期:<a href="<?php echo $all; ?>">
 <?php echo $screenshot[0]; ?></a></p>
</body>
</html>

概要: 上記がこの記事の全内容です。皆さんの学習に役立つことを願っています。

関連する推奨事項:

多次元配列の走査と削除の設定を実装するための php メソッド

php の実装ファイルのコピーと移動に関するヒント

コレクション クラス Snoopy に基づいて Thunder VIP アカウントをキャプチャするための php メソッド

以上がPHP で Baidu ページと対応する文字列をクロールする方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。