PHP の Web スクレイピング テクニック: URL からページ情報を抽出する
PHP では、タイトルなどの特定のページ情報を効率的に抽出できます。ユーザーが提供した URL から、画像、説明を取得します。これを実現する方法は次のとおりです。
Simple_html_dom ライブラリの使用:
実装を容易にするために、simple_html_dom ライブラリの使用を検討してください。
<code class="php">require 'simple_html_dom.php'; $html = file_get_html($url); $title = $html->find('title', 0); $image = $html->find('img', 0); echo $title->plaintext."\n"; echo $image->src;</code>
外部ライブラリなし:
DOMDocument の使用は理想的なアプローチではないかもしれませんが、正規表現を使用して外部ライブラリを回避することもできます。ただし、HTML ではその複雑さのため、この方法はお勧めできません。
<code class="php">$data = file_get_contents($url); preg_match('/<title>([^<]+)<\/title>/i', $data, $matches); $title = $matches[1]; preg_match('/<img[^>]*src=["\']([^\'"]+)["\'][^>]*>/i', $data, $matches); $img = $matches[1]; echo $title."\n"; echo $img;</code>
この手法では、正規表現を使用してページ タイトルを抽出し、続いてページから最初の画像を抽出する方法を示します。
以上がPHP を使用して URL からページ情報を抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。