Maison  >  Article  >  développement back-end  >  Utilisez le composant Crawler pour analyser le HTML dans Laravel

Utilisez le composant Crawler pour analyser le HTML dans Laravel

巴扎黑
巴扎黑original
2017-08-07 17:10:225264parcourir

Cet article présente principalement l'utilisation du composant Crawler de Symfony pour analyser le HTML dans Laravel. Les amis dans le besoin peuvent s'y référer

Le nom complet de Crawler est DomCrawler, qui est un composant du framework Symfony. Ce qui est scandaleux, c'est que DomCrawler n'a pas de documentation en chinois et que Symfony n'a pas traduit cette partie, donc le développement avec DomCrawler ne peut être exploré que petit à petit. Je vais maintenant résumer l'expérience du processus d'utilisation.

Tout d'abord, installez


composer require symfony/dom-crawler
composer require symfony/css-selector

css-seelctor est un sélecteur CSS Certaines fonctions seront utilisées lors de la sélection. nœuds avec CSS. L'exemple utilisé dans le manuel

est


use Symfony\Component\DomCrawler\Crawler;
$html = <<<‘HTML‘
Hello World!
Hello Crawler!
HTML;
$crawler = new Crawler($html);
foreach ($crawler as $domElement)
{
var_dump($domElement->nodeName);
}

et le résultat imprimé est


<.>

string ‘html‘ (length=4)
Parce que le nodeName de ce code html est html et que mon anglais n'est pas bon, j'ai pensé que le programme n'était pas correct lorsque j'ai commencé à l'utiliser. . .

Dans le processus d'utilisation réel, si le nouveau robot ($html) a des caractères tronqués, cela doit être lié à l'encodage de la page, vous pouvez donc utiliser la méthode suivante, initialiser d'abord le robot, puis ajouter un nœud


$crawler = new Crawler();
$crawler->addHtmlContent($html);
Le deuxième paramètre de addHtmlContent est charset, et la valeur par défaut est utf-8.

Pour d'autres exemples, veuillez vous référer à la documentation officielle, http://symfony.com/doc/current/components/dom_crawler.html

Enregistrez les usages que vous essayez au travail

Méthode filterXPath(string $xpath), selon le manuel, le paramètre de cette méthode est $xpath, et p, p et d'autres blocs sont souvent utilisés.


echo $crawler->filterXPath(‘//body/p‘)->text();
echo $crawler->filterXPath(‘//body/p‘)->last()->text();
La sortie est le texte du premier et du prochain bloc de balises p


var_dump($crawler->filterXPath(‘//body‘)->html());
Le sortie Le html


foreach ($crawler->filterXPath(‘//body/p‘) as $i => $node) {
$c = new Crawler($node);
echo $c->filter(‘p‘)->text();
}
filterXPath dans le corps obtient un tableau de blocs DOMElement. Chaque bloc DOMElement peut utiliser un nouvel objet d'exploration pour continuer l'analyse

.


$nodeValues =
$crawler->filterXPath(‘//body/p‘)->each(function (Crawler $node, $i) {
return $node->text();
});
crawler fournit chaque boucle et utilise des fonctions de fermeture pour simplifier le code. Cependant, veuillez noter que cette façon d'écrire $nodeValues ​​​​​​aboutit à un tableau, qui nécessite un traitement supplémentaire.

D'autres usages


echo $crawler->filterXPath(‘//body/p‘)->attr(‘class‘);
permettent d'obtenir la valeur de l'attribut de classe correspondant au premier p tag "message"


$crawler->filterXPath(‘//p[@class="样式"]‘)->filter(‘a‘)->attr(‘href‘);
$crawler->filterXPath(‘//p[@class="样式"]‘)->filter(‘a>img‘)->extract(array(‘alt‘, ‘href‘))
Ci-dessus sont quelques méthodes pour obtenir les attributs de la balise

le filtre est différent de filterXPath Le manuel indique le sélecteur CSS, pas Très clair. Je comprends qu'il s'agit d'un élément contenu dans le nœud XPath tel que p. La situation spécifique doit être essayée dans le développement réel.

De manière générale, j'ai l'impression que DomCrawler est plus facile à utiliser qu'un simple dom HTML. C'est peut-être parce que je l'utilise plus facilement.

Ce qui précède ne sont que les fonctions de base de Crawler. Pour plus d'utilisation, veuillez vous référer aux fonctions dans la partie Crawler du manuel symfony

http://api.symfony.com/3.2. /Symfony/Component/DomCrawler/Crawler .html

Le principal problème avec Crawler est qu'il y a trop peu d'exemples. Il n'y a pas d'exemples d'utilisation dans le manuel des fonctions, vous ne pouvez donc l'explorer qu'en utilisation réelle. . . .

la documentation de Symfony sur DomCrawler, qui contient quelques exemples

http://symfony.com/doc/current/components/dom_crawler.html

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn