ホームページ >ウェブフロントエンド >htmlチュートリアル >完璧なHTML解析エンジン(Jumony)の詳細説明
おそらく多くの人は、現在の HTML パーサーで十分であり、単純な正規表現でも HTML ドキュメントを操作するニーズをすでに満たしていると考えるでしょう。はい、実際、インターネット上の HTML ドキュメントの大部分は XHTML 仕様を満たしており、その解析には強力なパーサーは必要ありません。ただし、強力なパーサーと完璧なパーサーは別のものです。
Jumony Core はまず、ほぼ完璧な HTML 解析エンジンを提供し、その解析結果はブラウザーの解析結果に限りなく近づきます。終了タグのない要素、オプションの終了タグのある要素、タグ属性、CSS セレクターとスタイルのいずれであっても、すべての合法および違法の HTML ドキュメントがブラウザーによって解析され、Jumony はそれらをサンプルに解析します。つまり、Jumony の解析結果はブラウザの解析結果と同じであるため、HTML ドキュメントが認識できるかどうかを心配する必要はなくなります。ブラウザがそれを読み取ることができれば、Jumony はそれを理解できます。
完璧と強力の間には 1 ステップしかありませんが、完璧なパーサーを使用すると、HTML ソース ドキュメントを気にする必要がなくなります。
以下は、Jumony パーサーでサポートされている機能の不完全なリストです
テキストから HTML を解析できるだけでなく、Jumony の API はインターネットからドキュメント分析を直接取得し、HTTP ヘッダーに基づいてエンコーディングを自動的に識別できます: Jumony に次ぐ HTML 解析オープンソース プロジェクトである
new JumonyParser().LoadDocument( "www.php.cn/" ).Find( ".post_item a.titlelnk" )
HtmlAgilityPack は長い間廃止されています長年経った今でも、最も基本的な ff9c23ada1bcecdd1a0fb5d5a0f18437 要素の解析には問題があります。
HTML を完璧に解析するだけではあまりメリットはありません。実際、ほとんどの HTML ドキュメントは二級パーサーや単純な正規表現を使用できます。これを分析すると、なぜ Jumony が必要になるのでしょうか。 ?
その答えは、HTML エンジンは DOM 構造を解析するだけではないということです。
次のシナリオを考えてみましょう: 要素の表示スタイルに none 値を設定する必要があります。ブラウザでは、要件を満たすには単純な element.style.display = "none" だけが必要です。これで、パーサーを通じて必要な DOM を取得しましたが、スタイルを設定するために文字列を連結する必要がありますか?
その必要はありません。Jumony は CSS スタイルの解析をサポートしており、一部の CSS スタイルの略語ルールも認識できます。Jumony では、要素のスタイルの設定はブラウザーと同じくらい簡単です:
element.Style( "display", "none" )
この例をもう一度見てみましょう: < ; p style="padding: 5px">94b3e26ee717c64999d7867364b1b4a3 この要素にpadding-left: 0pxを設定するとどうなるでしょうか?
Jumony では、結果は次のようになります:
<p style="padding-left: 0px; padding-right: 5px; padding-top:5px; padding-bottom: 5px"></p>
ほら、パディング属性は魔法のように自動的に拡張されます。
CSS セレクターは、HTML の世界で人気のあるクエリ言語であり、多くのブラウザーでサポートされています。 Jumony は、ほぼ完全な CSS3 セレクターもサポートしています (ランタイム疑似クラスと疑似オブジェクトを除く)。セレクターを使用すると、HTML 内で関心のあるオブジェクトを簡単に見つけることができます。たとえば、ブログ パークのホームページにあるすべての記事のタイトルを取得します:
new JumonyParser().LoadDocument( "www.php.cn/" ).Find( ".post_item a.titlelnk" )
キャッチ、分析、選択をすべて一度に行うだけで、取得したデータをコンソールに出力できます:
foreach( var title = new JumonyParser().LoadDocument( "www.php.cn/" ).Find( ".post_item a.titlelnk" ) ) Console.WriteLine( title.InnerText() );
。 Jumony デバイスリストでサポートされている CSS3 選択:
セレクター | 説明 |
* | すべての要素を選択 |
p a | 子孫要素を選択 |
p>a | 子要素を選択 |
p+a | 隣接する要素を選択 |
p~a | 後続要素を選択 |
[属性] | 選択する属性が存在します |
[attr=value] | 属性値の完全一致 |
[attr~=value] | 属性値の近似一致 |
[ attr^=value] | 属性値の一致が開始されました |
[attr*=value] | 属性値には一致する |
[attr$=value]が含まれています | 属性値の終了一致 |
[attr!=value] | 属性値の負の一致 |
:not | negative pseudo-class |
:一人っ子 | 唯一の子要素擬似クラス |
:only-of-type | only-of-type擬似クラス |
:empty | 空要素疑似クラス |
構造化擬似クラス | |
:nth-last-of-type | 構造化擬似クラス |
:first-child | 構造化擬似クラス |
:最後の子供 | 構造化擬似クラス |
:first-of-type | 構造化擬似クラス |
:last-of-type | 構造化擬似クラス |
Jumony Core 3 では、HTML 仕様をカスタマイズしたり、独自のパーサーを実装したり、他の DOM モデルを Jumony に移植したりすることができます。独自の CSS セレクター擬似クラス、または jQuery スタイルなどの独自の API を変更することもできます。
Jumony Core には、Web サイトのクロール、jQuery スタイル API の提供、Web サイト開発、MHT ファイルの作成、HAP 解析結果に対する CSS セレクター サポートの追加など、多くの派生プロジェクトがあります。これらのプロジェクトはすべて Jumony Core の恩恵を受けています。強力な機能。
【関連おすすめ】
2. HTML開発マニュアル
3. php.cnオリジナルのHTML5ビデオチュートリアル
以上が完璧なHTML解析エンジン(Jumony)の詳細説明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。