使用 PHP 进行网页抓取
问题:
如何提取标题、来自指定 URL 的图像、文本或描述,无需 PHP 中的外部库?
答案:
要简化此任务,请考虑使用 simple_html_dom 库。以下示例演示了如何使用此库获取标题和第一张图像:
<code class="php">require 'simple_html_dom.php'; $html = file_get_html('http://www.google.com/'); $title = $html->find('title', 0); $image = $html->find('img', 0); echo $title->plaintext . "<br>\n"; echo $image->src;</code>
如果您希望避免使用外部库,则可以使用正则表达式提取数据,但不建议在 HTML 中使用此方法。
<code class="php">$data = file_get_contents('http://www.google.com/'); preg_match('/<title>([^<]+)<\/title>/i', $data, $matches); $title = $matches[1]; preg_match('/<img[^>]*src=["\']([^\'"']+)["\'][^>]*>/i', $data, $matches); $img = $matches[1]; echo $title . "<br>\n"; echo $img;</code>
以上是如何进行网页抓取的详细内容。更多信息请关注PHP中文网其他相关文章!