PHP の DOMDocument: HTML ドキュメントの解析と操作
HTML ドキュメントを操作する場合、DOM (ドキュメント オブジェクト モデル) は構造化されたドキュメントの内容をオブジェクト指向で表現したもの。 PHP の DOMDocument クラスを使用すると、HTML ドキュメントをノード レベルで操作したり変更したりできます。
DOMDocument を使用して HTML ドキュメントを解析するには、次の手順に従います。
- DOMDocument オブジェクトを作成し、 loadHTML() を使用して HTML コンテンツをロードします。
- DOMXPath を使用して、解析されたコンテンツをクエリおよび操作しますdocument.
この例では、すべての
を抽出したいと考えています。 HTML テーブルからタグを抽出し、その内容を分析します。ただし、指定したコードでは結果から HTML タグが削除されており、これは望ましくありません。
HTML タグを保持するには、DOMDocument が HTML ドキュメント全体を階層ツリー構造として表すことを理解する必要があります。さまざまな要素 (
タグや タグなど) とテキストを表すノード。
$dom = new DOMDocument();
@$dom->loadHTML($html);
$xpath = new DOMXPath($dom);
$trs = $xpath->query('//tr[@id="showContent"]');
foreach ($trs as $tr) {
echo $dom->saveXML($tr);
echo '<br>';
}
このコードでは、 saveXML() を使用して、各
の実際の HTML 表現を出力します。タグを作成し、タグとその内容を保持します。これらの
のみをクエリすることで、 ID が「showContent」の div 内のタグを使用すると、ドキュメントの特定の部分に焦点を当てることができます。
から特定の情報を抽出するには、タグ (タグに含まれるリンクなど) を確認すると、さらに XPath クエリや DOM ナビゲーション テクニックを使用して、必要な特定のノードにドリルダウンできます。以上がPHP の DOMDocument はテーブルから HTML ` タグをどのように抽出して保存できますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。
声明:この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。