インターネットの急速な発展により、情報爆発の時代が到来しました。このような時代において、検索エンジンは私たちが情報を取得するための主要なツールとなり、検索エンジンから得られる膨大なデータは私たちの想像を超えています。ただし、特定の分野の研究者やデータ アナリストにとって、必要な情報はこれらの検索結果のデータのほんの一部である可能性があります。この場合、必要なデータを正確に取得するにはクローラーを使用する必要があります。
この記事では、PHP を使用して、Baidu の検索結果から必要なデータを抽出する簡単なクローラー プログラムを作成します。このプログラムの核心は、PHP の cURL ライブラリを使用して HTTP リクエストをシミュレートし、正規表現やその他のメソッドを使用して HTML ページを解析することです。
アイデア
クローラー プログラムの作成を開始する前に、いくつかの質問を明確にする必要があります。
- 目標: Baidu の検索結果ページからクロールする必要があります。どのようなデータですか?
- URL: データを取得するにはどの URL が必要ですか?
- データ形式: Baidu の検索結果ページのデータの形式は何ですか?
どのようなデータを取得する必要があるかを考えるとき、キーワード「PHP クローラー」を例に考えてみましょう。このキーワードを Baidu で検索すると、次の情報が表示されます。
- 検索結果の総数
- #各検索結果のタイトル
- 各検索結果の説明検索結果
- 各検索結果の URL
次に、Baidu の検索結果、説明、URL から各結果のタイトルを抽出することを目標として定義できます。
データを取得するための最初のステップは、取得したい URL を明確にすることです。この例では、取得する必要がある URL は次のとおりです: https://www.baidu.com/s?wd=php クローラー
。 Baidu の検索バーに「php クローラー」と入力すると、この URL に自動的にジャンプできます。
次に、解析するデータの形式を理解する必要があります。この場合、検索結果は次のような HTML コードの形式で存在します。
<div class="result c-container "> <h3 class="t"> <a href="http://www.example.com/" target="_blank" class="c-showurl"> www.example.com </a> <em>PHP</em> 爬虫是什么? - PHP 入门教程 - 极客学院 </h3> <div class="c-abstract"> <span class=" newTimeFactor_before_abs">2天前 - </span> <em>PHP</em> 爬虫是一种方便快捷的数据采集方式 ... 目前的爬虫主要是通过<a href="https://www.baidu.com/s?wd=python%20爬虫&rsp=1&f=8&ie=utf-8&tn=95754739_hao_pg" target="_blank" class="text-underline">python 爬虫</a>实现。相比于 <a href="https://www.baidu.com/link?url=zdiwLoE_LR5bzae8ifgYsYXBfvatKGD0D6Yjli9c8_nsisbDmnS-r8l7g-5G2NI79x6yO8NnDdnLqhNuqOZtedHjiOZbhsDNwkFx3pW6yBt&wd=&eqid=f774f5d00003a46c000000065f51fc9a" target="_blank" class="text-underline">PHP</a>,<a href="https://www.baidu.com/link?url=zdiwLoE_LR5bzae8ifgYsYXBfvatKGD0D6Yjli9c8_ns isbDmnS-r8l7g-5G2NI79x6yO8NnDdnLqhNuqOZtedHjiOZbhsDNwkFx3pW6yBt& wd=&eqid=f774f5d00003a46c000000065f51fc9a" target="_blank" class="text-underline">PHP</a> 一般用作... </div> </div>
上記の HTML コード スニペットでは、各検索結果が 取得したいデータの形式と解析する必要がある HTML データの形式が明確になったので、クローラー プログラムの作成を開始できます。 PHP クローラー コードを 3 つのステップに分割しました: PHP の cURL ライブラリを使用して HTTP リクエストを送信できます。 Baidu の検索結果の HTML ページを取得します。この例では、検索ページの URL を この例では、cURL ライブラリによって提供されるオプションの多くを使用します。たとえば、ブラウザによって送信される HTTP リクエストをシミュレートするリクエスト ヘッダーを設定したり、リクエスト メソッドを GET に設定したり、タイムアウトを設定したりできます。 Baidu 検索結果の HTML ページを取得した後、それを解析して必要な情報を取得する必要があります。この例では、PHP の正規表現を使用して HTML ページを解析します。 次は、HTML ページからタイトル、説明、リンクを抽出するために使用する正規表現です: 上記のコードでは、PHP の正規表現を使用してすべての検索結果と一致します。次に、ループを使用してすべての検索結果を調べ、必要なタイトル、説明、リンクを抽出します。 HTML から取得したタイトルと説明には HTML タグが含まれるため、 上記のコードでは、必要なデータを取得しました。後は結果を配列の形式で返すだけです。クローラー プログラム全体を関数にカプセル化し、取得したデータを配列の形式で返します。 キーワードをパラメーターとして受け取り、この関数を呼び出してタイトルのキーワードを取得できます。 Baidu の検索結果の説明とリンク。 この記事では、PHP を使用して、Baidu の検索結果から必要なデータを抽出する簡単なクローラー プログラムを作成しました。このプログラムは、PHP の cURL ライブラリを使用して HTTP リクエストをシミュレートし、正規表現などのメソッドを使用して HTML ページを解析します。この例を通じて、クローラーがどのように動作するか、および PHP を使用してクローラーを作成する方法を深く理解できます。実際のプロジェクトでは、必要に応じてこのプログラムを変更して、必要なデータを取得できます。 <div class="result c-container "> タグ内に記述します。各検索結果には、HTML 形式 <code><h3 class="t"></h3>
に対応するタイトルがあり、リンク アドレスは <a></a>
タグ内にネストされます。各検索結果には、HTML 形式 <a></a>
タグ内に class="c-showurl"
を含む URL も含まれています。 コードの記述
Baidu 検索結果の HTML ページを取得します
$url
変数に保存します。次に、cURL ハンドルを作成し、URL の設定、リクエスト ヘッダーの設定、プロキシの設定、タイムアウトの設定、リクエスト メソッドの GET への設定などの多くのオプションを設定し、最後にこのハンドルを実行して HTML ページを取得します。 <?php
$url = "https://www.baidu.com/s?wd=php%20爬虫";
// 创建curl句柄
$ch = curl_init();
// 设置curl选项
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate');
curl_setopt($ch, CURLOPT_HEADER, true);
curl_setopt(
$ch,
CURLOPT_HTTPHEADER,
[
'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
'Referer: https://www.baidu.com/',
'Connection: keep-alive',
]
);
curl_setopt($ch, CURLOPT_TIMEOUT, 30);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_CUSTOMREQUEST, "GET");
//执行curl句柄
$result = curl_exec($ch);
HTML ページの解析
<?php
$result = curl_exec($ch);
// 匹配所有搜索结果
preg_match_all(
'/<div.*?class="result.*?">.*?<h3 id="a-href-s-s-a">.*?<a.*?href="(.*?)".*?>s*(.*?)s*</a>.*?</h3>.*?<div.*?class="c-abstract.*?">(.*?)</div>.*?</div>/',
$result,
$matches
);
// 提取搜索结果中的标题、描述和链接
$data = [];
for ($i=0; $i<count($matches[0]); $i++) {
$data[] = [
'title' => strip_tags($matches[2][$i]), // 去除标题中的 HTML 标签
'description' => strip_tags($matches[3][$i]), // 去除描述中的 HTML 标签
'link' => $matches[1][$i]
];
};
// 关闭curl句柄
curl_close($ch);
strip_tags
関数を使用してそれらを削除します。 結果を返す
<?php
function spider_baidu($keyword) {
$url = "https://www.baidu.com/s?wd=" . urlencode($keyword);
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate');
curl_setopt($ch, CURLOPT_HEADER, true);
curl_setopt(
$ch,
CURLOPT_HTTPHEADER,
[
'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
'Referer: https://www.baidu.com/',
'Connection: keep-alive',
]
);
curl_setopt($ch, CURLOPT_TIMEOUT, 30);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_CUSTOMREQUEST, "GET");
$result = curl_exec($ch);
preg_match_all(
'/<div.*?class="result.*?">.*?<h3 id="a-href-s-s-a">.*?<a.*?href="(.*?)".*?>s*(.*?)s*</a>.*?</h3>.*?<div.*?class="c-abstract.*?">(.*?)</div>.*?</div>/',
$result,
$matches
);
$data = [];
for ($i=0; $i<count($matches[0]); $i++) {
$data[] = [
'title' => strip_tags($matches[2][$i]),
'description' => strip_tags($matches[3][$i]),
'link' => $matches[1][$i]
];
};
curl_close($ch);
return $data;
}
結論
以上がPHP クローラーの実践: Baidu の検索結果から必要なデータを抽出するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

php把负数转为正整数的方法:1、使用abs()函数将负数转为正数,使用intval()函数对正数取整,转为正整数,语法“intval(abs($number))”;2、利用“~”位运算符将负数取反加一,语法“~$number + 1”。

实现方法:1、使用“sleep(延迟秒数)”语句,可延迟执行函数若干秒;2、使用“time_nanosleep(延迟秒数,延迟纳秒数)”语句,可延迟执行函数若干秒和纳秒;3、使用“time_sleep_until(time()+7)”语句。

php字符串有下标。在PHP中,下标不仅可以应用于数组和对象,还可应用于字符串,利用字符串的下标和中括号“[]”可以访问指定索引位置的字符,并对该字符进行读写,语法“字符串名[下标值]”;字符串的下标值(索引值)只能是整数类型,起始值为0。

php除以100保留两位小数的方法:1、利用“/”运算符进行除法运算,语法“数值 / 100”;2、使用“number_format(除法结果, 2)”或“sprintf("%.2f",除法结果)”语句进行四舍五入的处理值,并保留两位小数。

在php中,可以使用substr()函数来读取字符串后几个字符,只需要将该函数的第二个参数设置为负值,第三个参数省略即可;语法为“substr(字符串,-n)”,表示读取从字符串结尾处向前数第n个字符开始,直到字符串结尾的全部字符。

判断方法:1、使用“strtotime("年-月-日")”语句将给定的年月日转换为时间戳格式;2、用“date("z",时间戳)+1”语句计算指定时间戳是一年的第几天。date()返回的天数是从0开始计算的,因此真实天数需要在此基础上加1。

方法:1、用“str_replace(" ","其他字符",$str)”语句,可将nbsp符替换为其他字符;2、用“preg_replace("/(\s|\ \;||\xc2\xa0)/","其他字符",$str)”语句。

查找方法:1、用strpos(),语法“strpos("字符串值","查找子串")+1”;2、用stripos(),语法“strpos("字符串值","查找子串")+1”。因为字符串是从0开始计数的,因此两个函数获取的位置需要进行加1处理。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

WebStorm Mac版
便利なJavaScript開発ツール

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

ホットトピック



