PHP を使用して HTML/XML を解析および処理するにはどうすればよいですか?

Question

HTML/XML を解析してそこから情報を抽出するにはどうすればよいですか?

P粉520545753 · Answer

シンプルな HTML DOM パーサー を試してください。

HTML DOM パーサーは PHP 5 で書かれており、非常に簡単な方法で HTML を操作できます。
PHP 5 が必要です。
無効な HTML をサポートします。
jQuery と同様に、セレクターを使用して HTML ページ上のタグを検索します。
HTML から 1 行でコンテンツを抽出します。
注: 名前が示すように、単純なタスクに役立ちます。 HTML パーサーの代わりに正規表現を使用するため、より複雑なタスクの場合は非常に遅くなります。コードベースの大部分は 2008 年に書かれており、それ以降はわずかな改良が加えられただけです。最新の PHP コーディング標準に従っていないため、最新の PSR 準拠プロジェクトに組み込むのは困難です。＃＃＃＃＃＃例：＃＃＃＃＃＃

リーリー

HTML要素を変更する方法:

リーリー

HTML からコンテンツを抽出する: リーリースラッシュドットを取得:

リーリー

P粉619896145 · Answer

ネイティブ XML 拡張機能

私は、ネイティブ XML 拡張機能のの 1 つを使用することを好みます。これは、通常、PHP を使用した場合、すべてのサードパーティライブラリよりも高速であり、マークアップに対して必要なすべての制御を提供するためです。

ドム

DOM は、実際の (壊れた) HTML を解析して変更することができ、XPath クエリ < /a> を実行できます。これは libxml に基づいています。

DOM を使った作業が生産的になるまでには時間がかかりますが、私の意見では、時間をかける価値はあります。 DOM は言語に依存しないインターフェイスであるため、複数の言語で実装されているため、プログラミング言語を変更する必要がある場合は、その言語の DOM API の使用方法をすでに知っている可能性が高くなります。

DOM 拡張機能の使用方法は StackOverflow で幅広く取り上げられているため、DOM 拡張機能を使用することを選択した場合、遭遇する問題のほとんどは Stack を検索/参照することで確実に解決できます。オーバーフロー。

基本的な使用例と一般概念の概要は、他の回答にあります。

XMLリーダー

XMLReader は、DOM と同様、libxml に基づいています。 HTML パーサーモジュールをトリガーする方法がわからないため、破損した HTML を解析するために XMLReader を使用することは、libxml の HTML パーサーモジュールを使用するように明示的に指示できる DOM を使用することほど強力ではない可能性があります。

基本的な使用例は別の回答に記載されています。

XML パーサー

XML パーサーライブラリも libxml に基づいており、

SAX スタイルの XML プッシュパーサーを実装しています。おそらくメモリ管理には DOM や SimpleXML よりも優れた選択肢ですが、XMLReader によって実装されたプルパーサーよりも使用するのが困難です。

シンプルXml

SimpleXML は、HTML が有効な XHTML であることがわかっている場合のオプションです。壊れた HTML を解析する必要がある場合は、ブロックされてしまうため、SimpleXml を考慮しないでください。

基本的な使用例

が提供されており、PHP マニュアルには他の多くの例が記載されています。

サードパーティライブラリ (libxml ベース)

サードパーティのライブラリを使用したい場合は、文字列解析の代わりに以下の

DOM

/libxml を実際に使用することをお勧めします。

FluentDom

HTMLPageDom

phpQuery

これは「放棄されたソフトウェアとバグ: 自己責任で使用してください」と説明されていますが、最小限のメンテナンスが行われているようです。

ラミナスダム

fDOMドキュメント

セイバー/xml

流体XML

サードパーティ (libxml に基づいていない)

DOM/libxml をベースに構築する利点は、ネイティブ拡張機能をベースに構築しているため、すぐに優れたパフォーマンスが得られることです。ただし、すべてのサードパーティライブラリがこの方法を採用しているわけではありません。その一部を

に以下に示します。

PHP シンプルな HTML DOM パーサー

通常、このパーサーは推奨しません。コードベースはひどいもので、パーサー自体は非常に遅く、メモリを大量に消費します。すべての jQuery セレクター (subselector など) が使用できるわけではありません。 libxml ベースのライブラリは、これを簡単に上回るパフォーマンスを発揮するはずです。

PHP HTML パーサー

繰り返しになりますが、このパーサーはお勧めしません。 CPU使用率が高いとかなり遅くなります。作成した DOM オブジェクトのメモリをクリアする機能もありません。これらの問題は、入れ子になったループで特に深刻です。文書自体は不正確でスペルミスが含まれており、2016 年 4 月 14 日以降修正の対応は行われていません。

HTML5

上記を使用して HTML5 を解析できますが、 HTML5 で許可されているタグが原因で、奇妙なことが起こる可能性があります。したがって、HTML5 の場合は、専用のパーサーの使用を検討することをお勧めします。これらは PHP で記述されているため、低レベル言語でコンパイルされた拡張機能と比較してパフォーマンスが低下し、メモリ使用量が増加することに注意してください。