ホームページ  >  記事  >  バックエンド開発  >  PHP クローラーの実践: Web テーブル データをクロールする方法

PHP クローラーの実践: Web テーブル データをクロールする方法

WBOY
WBOYオリジナル
2023-06-13 09:35:231435ブラウズ

インターネットとビッグデータ時代の到来により、より多くのデータが収集され、活用されるようになりました。 Web ページからデータを取得する多くの方法の中で、クローラー テクノロジーは最も強力で効率的な方法であると言えます。

実際のアプリケーション シナリオでは、多くの場合、Web ページから特定のデータ、特に Web ページ内のテーブル データを取得する必要があります。したがって、この記事では、PHP クローラー テクノロジを使用して、Web ページ内の表形式のデータを取得および解析する方法を紹介します。

  1. PHP クローラー ライブラリのインストールと構成

クローラー コードの作成を開始する前に、PHP クローラー ライブラリをインストールして構成する必要があります。ここでは、PHP Simple HTML DOM Parser ライブラリを使用することを選択します。これは、HTML ドキュメント内のタグと属性を簡単に解析でき、一般的に使用される DOM 操作メソッドをいくつか提供する軽量の HTML パーサーです。このライブラリは、composer ツールを使用して簡単にインストールおよび構成できます。

  1. ターゲット Web ページの分析

Web ページ データをキャプチャするコードを記述する前に、まずターゲット Web ページの構造とデータ形式を分析する必要があります。必要なデータを正確に見つけて取得できます。ここでは、ブログ Web サイトの記事リスト ページを例に挙げます。以下に示すように、複数行のデータといくつかのテーブル要素が含まれています:

<table>
  <thead>
    <tr>
      <th>编号</th>
      <th>标题</th>
      <th>作者</th>
      <th>发布时间</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>1</td>
      <td><a href="/articles/1">PHP爬虫实战</a></td>
      <td>张三</td>
      <td>2022-06-01 08:00:00</td>
    </tr>
    <tr>
      <td>2</td>
      <td><a href="/articles/2">Python数据可视化</a></td>
      <td>李四</td>
      <td>2022-06-02 09:00:00</td>
    </tr>
    <!-- more rows -->
  </tbody>
</table>

この Web ページのテーブルは &lt で構成されています;table><thead>、<code><tbody>、<code><tr> などのタグで構成され、その中に <code>ae20bdd317918ca68efdc799512a9b39 テーブルの列ヘッダーの定義に使用され、92cee25da80fac49f6fb6eec5fd2c22a はテーブルの行データの定義に使用され、b6c5a531a458a2e790c1fd6421739d1c3499910bf9dac5ae3c52d5ede7383485 タグはセルデータの定義に使用され、記事タイトルへのリンクを表します。

  1. クローラ コードの記述

ターゲット Web ページの分析結果を使用して、テーブル データを取得するクローラ コードを記述できます。

まず、ターゲット Web ページをロードし、file_get_html() メソッドを使用してそれを DOM オブジェクトに変換する必要があります。次に、find() メソッドを使用して、データが配置されている要素を選択できます。たとえば、table > tbody > tr は、 の子を選択することを意味します。 f5d188ed2c074f8b944552db028f98a1 要素 92cee25da80fac49f6fb6eec5fd2c22a の下にあるすべての a34de1251f0d9fe1e645927f19a896e8 タグ、つまりテーブル内のデータのすべての行。コードは次のとおりです。

$url = 'http://example.com/articles';
$html = file_get_html($url);

$rows = array();
foreach ($html->find('table > tbody > tr') as $row) {
  // 解析表格数据
}

次に、データの各行を走査し、セル データを解析し、後続の処理のために配列に保存する必要があります。具体的には、find('td') メソッドを使用して、各行要素の子要素 ​​b6c5a531a458a2e790c1fd6421739d1c を選択し、そのテキスト コンテンツまたはリンク アドレスを取得できます。コードは次のとおりです。

$url = 'http://example.com/articles';
$html = file_get_html($url);

$rows = array();
foreach ($html->find('table > tbody > tr') as $row) {
  $data = array();
  
  // 获取单元格文本内容或链接地址
  $columns = $row->find('td');
  $data['id'] = $columns[0]->plaintext;
  $data['title'] = $columns[1]->find('a', 0)->plaintext;
  $data['link'] = $columns[1]->find('a', 0)->href;
  $data['author'] = $columns[2]->plaintext;
  $data['date'] = $columns[3]->plaintext;
    
  $rows[] = $data;
}

上記のコードでは、$data 配列は、idtitle を含む現在の行のデータを保存します。 author date はそれぞれテーブルの列に対応し、link は記事タイトルのリンク アドレスです。 $rows[] = $data ステートメントを使用して、$data 配列を $rows 配列に追加します。

最後に、データをデータベースに保存したり、Excel ファイルにエクスポートしたりするなど、必要に応じてデータをさらに処理して保存できます。

  1. 概要

この記事では、PHP Simple HTML DOM Parser ライブラリを使用して Web テーブル データをクロールする方法を紹介します。対象となるWebページの構造やデータ形式を解析し、対応するDOM操作方法を利用することで、必要なデータを迅速に見つけて取得することができ、さまざまなデータ分析や活用シーンを実現します。もちろん、クローラー技術も Web サイトの利用規制やポリシーに準拠するよう注意する必要があり、過度に使用したり、他者の権利を侵害したりすることはできません。

以上がPHP クローラーの実践: Web テーブル データをクロールする方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。