インターネットとビッグデータ時代の到来により、より多くのデータが収集され、活用されるようになりました。 Web ページからデータを取得する多くの方法の中で、クローラー テクノロジーは最も強力で効率的な方法であると言えます。
実際のアプリケーション シナリオでは、多くの場合、Web ページから特定のデータ、特に Web ページ内のテーブル データを取得する必要があります。したがって、この記事では、PHP クローラー テクノロジを使用して、Web ページ内の表形式のデータを取得および解析する方法を紹介します。
クローラー コードの作成を開始する前に、PHP クローラー ライブラリをインストールして構成する必要があります。ここでは、PHP Simple HTML DOM Parser ライブラリを使用することを選択します。これは、HTML ドキュメント内のタグと属性を簡単に解析でき、一般的に使用される DOM 操作メソッドをいくつか提供する軽量の HTML パーサーです。このライブラリは、composer ツールを使用して簡単にインストールおよび構成できます。
Web ページ データをキャプチャするコードを記述する前に、まずターゲット Web ページの構造とデータ形式を分析する必要があります。必要なデータを正確に見つけて取得できます。ここでは、ブログ Web サイトの記事リスト ページを例に挙げます。以下に示すように、複数行のデータといくつかのテーブル要素が含まれています:
<table> <thead> <tr> <th>编号</th> <th>标题</th> <th>作者</th> <th>发布时间</th> </tr> </thead> <tbody> <tr> <td>1</td> <td><a href="/articles/1">PHP爬虫实战</a></td> <td>张三</td> <td>2022-06-01 08:00:00</td> </tr> <tr> <td>2</td> <td><a href="/articles/2">Python数据可视化</a></td> <td>李四</td> <td>2022-06-02 09:00:00</td> </tr> <!-- more rows --> </tbody> </table>
この Web ページのテーブルは < で構成されています;table>
、<thead>、<code><tbody>、<code><tr> などのタグで構成され、その中に <code>ae20bdd317918ca68efdc799512a9b39
テーブルの列ヘッダーの定義に使用され、92cee25da80fac49f6fb6eec5fd2c22a
はテーブルの行データの定義に使用され、b6c5a531a458a2e790c1fd6421739d1c
は3499910bf9dac5ae3c52d5ede7383485
タグはセルデータの定義に使用され、記事タイトルへのリンクを表します。
ターゲット Web ページの分析結果を使用して、テーブル データを取得するクローラ コードを記述できます。
まず、ターゲット Web ページをロードし、file_get_html()
メソッドを使用してそれを DOM オブジェクトに変換する必要があります。次に、find()
メソッドを使用して、データが配置されている要素を選択できます。たとえば、table > tbody > tr
は、 の子を選択することを意味します。 f5d188ed2c074f8b944552db028f98a1
要素 92cee25da80fac49f6fb6eec5fd2c22a
の下にあるすべての a34de1251f0d9fe1e645927f19a896e8
タグ、つまりテーブル内のデータのすべての行。コードは次のとおりです。
$url = 'http://example.com/articles'; $html = file_get_html($url); $rows = array(); foreach ($html->find('table > tbody > tr') as $row) { // 解析表格数据 }
次に、データの各行を走査し、セル データを解析し、後続の処理のために配列に保存する必要があります。具体的には、find('td')
メソッドを使用して、各行要素の子要素 b6c5a531a458a2e790c1fd6421739d1c
を選択し、そのテキスト コンテンツまたはリンク アドレスを取得できます。コードは次のとおりです。
$url = 'http://example.com/articles'; $html = file_get_html($url); $rows = array(); foreach ($html->find('table > tbody > tr') as $row) { $data = array(); // 获取单元格文本内容或链接地址 $columns = $row->find('td'); $data['id'] = $columns[0]->plaintext; $data['title'] = $columns[1]->find('a', 0)->plaintext; $data['link'] = $columns[1]->find('a', 0)->href; $data['author'] = $columns[2]->plaintext; $data['date'] = $columns[3]->plaintext; $rows[] = $data; }
上記のコードでは、$data
配列は、id
、title を含む現在の行のデータを保存します。
、author
、date
はそれぞれテーブルの列に対応し、link
は記事タイトルのリンク アドレスです。 $rows[] = $data
ステートメントを使用して、$data
配列を $rows
配列に追加します。
最後に、データをデータベースに保存したり、Excel ファイルにエクスポートしたりするなど、必要に応じてデータをさらに処理して保存できます。
この記事では、PHP Simple HTML DOM Parser ライブラリを使用して Web テーブル データをクロールする方法を紹介します。対象となるWebページの構造やデータ形式を解析し、対応するDOM操作方法を利用することで、必要なデータを迅速に見つけて取得することができ、さまざまなデータ分析や活用シーンを実現します。もちろん、クローラー技術も Web サイトの利用規制やポリシーに準拠するよう注意する必要があり、過度に使用したり、他者の権利を侵害したりすることはできません。
以上がPHP クローラーの実践: Web テーブル データをクロールする方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。