ホームページ  >  記事  >  バックエンド開発  >  Crawlerコンポーネントを使用してlaravelでHTMLを分析する

Crawlerコンポーネントを使用してlaravelでHTMLを分析する

巴扎黑
巴扎黑オリジナル
2017-08-07 17:10:225346ブラウズ

この記事では、laravel で HTML を解析するための Symfony の Crawler コンポーネントの使用法を主に紹介します。必要な友人は参照してください。

Crawler の正式名は DomCrawler で、Symfony フレームワークのコンポーネントです。とんでもないのは、DomCrawler には中国語のドキュメントがなく、Symfony はこの部分を翻訳していないため、DomCrawler を使用した開発は少しずつしか探索できないことです。ここで使用プロセスの経験をまとめます。

まず、CSSセレクターである


composer require symfony/dom-crawler
composer require symfony/css-selector

css-seelctorをインストールします。cssでノードを選択する際にいくつかの機能が使用されます

マニュアルで使用されている例は


use Symfony\Component\DomCrawler\Crawler;
$html = <<<‘HTML‘
Hello World!
Hello Crawler!
HTML;
$crawler = new Crawler($html);
foreach ($crawler as $domElement)
{
var_dump($domElement->nodeName);
}

出力結果です。は


string ‘html‘ (length=4)

このHTMLコードのnodeNameがhtmlで、私の英語が苦手なので、使い始めたときはプログラムが間違っているのかと思いました。 。 。

実際の使用過程で、新しいクローラ($html)が文字化けしている場合は、ページのエンコーディングが関係しているはずなので、以下の方法でクローラを初期化してから、ノード

の2番目のノードを追加します。

$crawler = new Crawler();
$crawler->addHtmlContent($html);

addHtmlContent パラメータは charset で、デフォルトは utf-8 です。

他の例については、公式ドキュメント http://symfony.com/doc/current/components/dom_crawler.html を参照してください

仕事で少しずつ試した使用法を記録してください

filterXPath(string $ xpath) メソッドはマニュアルに従ってください 上でも述べたように、このメソッドのパラメータは $xpath であり、p や p などのブロックがよく使用されます。フィルターの出力 新しいクローラー オブジェクトを使用して解析を続行します


echo $crawler->filterXPath(‘//body/p‘)->text();
echo $crawler->filterXPath(‘//body/p‘)->last()->text();

クローラーは各ループを提供し、コードを簡素化するためにクロージャー関数を使用します。 ただし、この方法で $nodeValues を記述すると、結果は配列になることに注意してください。さらに処理が必要になります。


その他の使い方


var_dump($crawler->filterXPath(‘//body‘)->html());

最初のpタグに対応するclass属性の値「message」を取得できます


foreach ($crawler->filterXPath(‘//body/p‘) as $i => $node) {
$c = new Crawler($node);
echo $c->filter(‘p‘)->text();
}

上記はタグ属性を取得するいくつかの方法です

filter と filterXPath は異なります。マニュアルには css セレクターと書かれていますが、p のような XPath ノードに含まれる要素であると理解しています。具体的な状況は実際の開発で試す必要があります。 一般的に、単純な HTML dom よりも DomCrawler の方が使いやすいと感じます。

上記は Crawler の基本的な機能です。さらに詳しい使用方法については、symfony マニュアルの Crawler 部分の機能を参照してください


http://api.symfony.com/3.2/Symfony/Component/DomCrawler/Crawler .html

Crawler の主な問題は、やはり使用例が少なすぎ、機能マニュアルにも使用例がないため、実際に使用して調べるしかありません。 。 。 。

DomCrawler に関する symfony のドキュメント。いくつかの例があります

http://symfony.com/doc/current/components/dom_crawler.html

以上がCrawlerコンポーネントを使用してlaravelでHTMLを分析するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。