Maison >développement back-end >tutoriel php >Comment extraire les informations de page des URL à l'aide de PHP

Comment extraire les informations de page des URL à l'aide de PHP

DDD
DDDoriginal
2024-10-17 18:59:03856parcourir

How to Extract Page Information from URLs Using PHP

Techniques de Web Scraping en PHP : extraction d'informations de page à partir d'URL

En PHP, vous pouvez extraire efficacement des informations de page spécifiques, telles que le titre , image et description, à partir d'une URL fournie par un utilisateur. Voici les méthodes pour y parvenir :

Utilisation de la bibliothèque Simple_html_dom :

Envisagez d'utiliser la bibliothèque simple_html_dom pour faciliter la mise en œuvre.

<code class="php">require 'simple_html_dom.php';
$html = file_get_html($url);
$title = $html->find('title', 0);
$image = $html->find('img', 0);

echo $title->plaintext."\n";
echo $image->src;</code>

Sans bibliothèques externes :

Bien que l'utilisation de DOMDocument ne soit peut-être pas l'approche idéale, vous pouvez également éviter les bibliothèques externes avec des expressions régulières. Cependant, cette approche n'est pas recommandée pour le HTML en raison de sa complexité.

<code class="php">$data = file_get_contents($url);
preg_match('/<title>([^<]+)<\/title>/i', $data, $matches);
$title = $matches[1];

preg_match('/<img[^>]*src=["\']([^\'"]+)["\'][^>]*>/i', $data, $matches);
$img = $matches[1];

echo $title."\n";
echo $img;</code>

Cette technique montre comment extraire le titre de la page à l'aide d'expressions régulières, puis extraire la première image de la page.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn