Maison >développement back-end >tutoriel php >Introduction au framework de robots d'exploration basé sur PHP et explication détaillée des exemples d'application

Introduction au framework de robots d'exploration basé sur PHP et explication détaillée des exemples d'application

王林original: 2023-06-14 15:58:191729parcourir

Avec la croissance explosive des informations sur Internet, une grande quantité de données est stockée sur les sites Web, ce qui revêt une valeur importante pour de nombreux utilisateurs. Par conséquent, la technologie des robots d’exploration est progressivement devenue un moyen puissant d’utiliser les données Internet.

Cet article présente un framework de crawler basé sur le langage PHP : Guzzle et Goutte. Guzzle est un client HTTP développé pour PHP qui peut être utilisé pour envoyer des requêtes HTTP et interagir avec les ressources REST. Goutte est son complément. Il s'agit d'un framework de robot d'exploration Web basé sur Guzzle qui peut facilement obtenir du contenu Web et effectuer une extraction et une analyse de données.

Tout d'abord, nous devons installer Guzzle et Goutte en PHP. Il peut être installé via Composer. La commande spécifique est la suivante :

composer require guzzlehttp/guzzle
composer require fabpot/goutte

Une fois l'installation terminée, apprenons d'abord comment utiliser Guzzle. Nous pouvons utiliser le code suivant pour envoyer une requête HTTP GET et obtenir le contenu de la réponse :

<?php
use GuzzleHttpClient;

$client = new Client();
$response = $client->get('https://www.example.com');
echo $response->getBody();

Ce code crée d'abord un objet GuzzleClient, puis utilise la méthode get() pour envoyer une requête GET à l'URL spécifiée et obtenir la réponse. contenu. . Appelez la méthode getBody() pour obtenir le contenu du corps de la réponse.

Goutte est un framework de robot d'exploration développé sur la base de Guzzle, et son utilisation est également très simple. Voici un exemple simple d'utilisation de Goutte :

<?php
use GoutteClient;

$client = new Client();
$crawler = $client->request('GET', 'https://www.example.com');
$crawler->filter('h1')->each(function ($node) {
    echo $node->text() . "
";
});

Ce code utilise Goutte pour créer un objet Client et envoie une requête GET à l'URL spécifiée, puis obtient le corps de la réponse et l'analyse dans un objet DOM. $crawler->filter('h1') est un filtre qui spécifie tous les nœuds de balise h1 de la page, puis il appelle la méthode each() Pour chaque nœud de balise h1, la fonction anonyme spécifiée sera exécutée, où. $node est l'objet nœud actuel et sa méthode text() peut obtenir le contenu textuel du nœud.

Jetons un coup d'œil à un exemple plus complet ci-dessous, qui montre comment utiliser Goutte pour explorer les questions et réponses sur Zhihu, et enregistrer le nom d'utilisateur, le contenu de la réponse, le nombre de likes et le temps de réponse dans un fichier CSV :

<?php
use GoutteClient;

$client = new Client();
$crawler = $client->request('GET', 'https://www.zhihu.com/question/21774949');
$fp = fopen('output.csv', 'w');
fputcsv($fp, ['User', 'Content', 'Votes', 'Time']);
$crawler->filter('.List-item')->each(function ($node) use ($fp) {
    $user = $node->filter('.AuthorInfo .Popover')->text();
    $content = $node->filter('.RichText')->text();
    $votes = $node->filter('.Voters')->text();
    $time = $node->filter('.ContentItem-time')->text();
    fputcsv($fp, [$user, $content, $votes, $time]);
});
fclose($fp);

Ce code explore d'abord la page portant l'ID de question 21774949 sur Zhihu, puis utilise un descripteur de fichier pour écrire la ligne d'en-tête CSV dans le fichier output.csv. Ensuite, utilisez la méthode filter() pour rechercher tous les nœuds de questions et réponses sur la page, puis exécutez une fonction anonyme sur chaque nœud. Dans la fonction anonyme, utilisez la méthode filter() pour trouver le nom de chaque utilisateur, le contenu de la réponse, le nombre de likes et le temps de réponse, et utilisez la méthode fputcsv() pour écrire ces quatre champs dans le fichier. Fermez enfin le descripteur de fichier.

En résumé, il est très simple d'utiliser Guzzle et Goutte pour créer un framework de robots d'exploration, et il est très flexible et évolutif et peut être appliqué à divers scénarios, y compris, mais sans s'y limiter, l'exploration de données, l'optimisation du référencement et d'autres domaines. Cependant, veuillez noter que tout robot d'exploration doit se conformer au fichier robots.txt du site Web pour éviter d'imposer une charge excessive au site Web cible et de porter atteinte à la vie privée des utilisateurs.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Stratégies anti-exploration courantes pour les robots d'exploration Web PHPArticle suivant：Stratégies anti-exploration courantes pour les robots d'exploration Web PHP

Articles Liés

Voir plus