Maison >développement back-end >Problème PHP >Comment lire le code source de la page Web redirigée en PHP

Comment lire le code source de la page Web redirigée en PHP

PHPz
PHPzoriginal
2023-03-31 09:05:091640parcourir

PHP est un langage de script côté serveur largement utilisé qui aide les développeurs à créer des applications Web dynamiques. Cependant, les développeurs PHP ont parfois besoin de lire le code source d'une page Web externe, qui peut être un lien de saut. Dans cet article, nous allons apprendre à utiliser PHP pour lire le code source d'un lien de redirection.

Remarque : dans cet article, nous supposerons que vous êtes déjà familier avec le langage PHP et que vous avez une compréhension de base des protocoles HTML et HTTP.

Étape 1 : Ouvrez le lien à l'aide de cURL

cURL est une bibliothèque de traitement des URL en PHP. Afin de lire le code source de la page Web liée, nous devons utiliser cURL pour ouvrir le lien. Voici le code de base pour utiliser cURL pour ouvrir une page Web en PHP :

$url = 'http://www.example.com';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$output = curl_exec($ch);
curl_close($ch);

Dans le code ci-dessus, nous définissons d'abord l'adresse du lien de la page Web à lire, puis créons un handle cURL, définissons l'option d'accès le lien, envoyez la demande cURL et obtenez le résultat de la réponse. Le résultat est enregistré dans la variable $output.

Étape 2 : Gérer les liens de saut

Dans certains cas, le lien que nous ouvrons peut être un lien de saut, ce qui signifie qu'il redirigera vers un autre lien. Afin d'obtenir le code source de la page Web redirigée, nous devons vérifier les informations d'en-tête de réponse pour déterminer s'il existe un en-tête Location. S'il existe, cela signifie qu'il s'agit d'un lien de saut et que l'adresse du lien redirigé est stockée dans Location. Nous devons utiliser cURL pour ouvrir ce lien redirigé afin d'obtenir le code source.

Voici l'exemple de code :

$url = 'http://www.example.com';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
$output = curl_exec($ch);
$info = curl_getinfo($ch);
curl_close($ch);

if ($info['http_code'] == 301 || $info['http_code'] == 302) {
    $url = $info['redirect_url'];
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    $output = curl_exec($ch);
    curl_close($ch);
}

Dans le code ci-dessus, nous avons ajouté une option curl_setopt : CURLOPT_FOLLOWLOCATION. Cette option indique à cURL de suivre les messages de redirection et d'ouvrir automatiquement de nouveaux liens. Ensuite, nous obtenons les informations d’en-tête de réponse et déterminons s’il existe des informations de redirection. S'il existe, nous utilisons la fonction curl_init() pour créer un nouveau handle cURL, ouvrir le lien de redirection et obtenir le code source.

Étape 3 : Analyser le code source

Après avoir obtenu le code source de la page Web, nous devons l'analyser davantage afin de pouvoir traiter les données. Nous pouvons utiliser la classe DOMDocument intégrée de PHP pour analyser les documents HTML.

Ce qui suit est un exemple de code :

$url = 'http://www.example.com';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
$output = curl_exec($ch);
$info = curl_getinfo($ch);
curl_close($ch);

if ($info['http_code'] == 301 || $info['http_code'] == 302) {
    $url = $info['redirect_url'];
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    $output = curl_exec($ch);
    curl_close($ch);
}

$doc = new DOMDocument();
@$doc->loadHTML($output);
$elements = $doc->getElementsByTagName('html');
$title = $doc->getElementsByTagName('title')->item(0)->nodeValue;

Dans le code ci-dessus, nous créons d'abord un objet DOMDocument, puis appelons la fonction loadHTML() pour transmettre le code source de la page Web obtenu en tant que paramètre. Ensuite, nous utilisons la fonction getElementsByTagName() pour obtenir l'élément spécifié et l'attribut nodeValue pour obtenir le contenu textuel de l'élément. Dans cet exemple, nous obtenons l’élément HTML et l’élément title.

Étape 4 : Traiter les données

Enfin, nous pouvons traiter les données obtenues et les stocker ou les afficher selon les besoins. Voici un exemple simple :

$url = 'http://www.example.com';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
$output = curl_exec($ch);
$info = curl_getinfo($ch);
curl_close($ch);

if ($info['http_code'] == 301 || $info['http_code'] == 302) {
    $url = $info['redirect_url'];
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    $output = curl_exec($ch);
    curl_close($ch);
}

$doc = new DOMDocument();
@$doc->loadHTML($output);
$title = $doc->getElementsByTagName('title')->item(0)->nodeValue;
echo "源码标题是:" . $title . "\n";
echo "HTML源码是:" . $output;

Dans le code ci-dessus, nous obtenons d'abord le titre de la page Web, puis produisons directement le code source HTML.

Conclusion

Dans cet article, nous avons appris à utiliser PHP pour lire le code source de la page Web redirigée. En utilisant cURL pour ouvrir des liens, traiter les liens de saut, analyser les documents HTML et traiter les données, nous pouvons facilement lire le code source des liens de saut de la page Web. Il s'agit d'une compétence très utile lorsque vous devez utiliser des robots d'exploration Web, l'analyse de données, l'exploration de données et d'autres scénarios.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn