ホームページ >ウェブフロントエンド >htmlチュートリアル >完璧なHTML解析エンジン(Jumony)の詳細説明

完璧なHTML解析エンジン(Jumony)の詳細説明

零下一度
零下一度オリジナル
2017-05-04 14:57:377392ブラウズ

おそらく多くの人は、現在の HTML パーサーで十分であり、単純な正規表現でも HTML ドキュメントを操作するニーズをすでに満たしていると考えるでしょう。はい、実際、インターネット上の HTML ドキュメントの大部分は XHTML 仕様を満たしており、その解析には強力なパーサーは必要ありません。ただし、強力なパーサーと完璧なパーサーは別のものです。

Jumony Core はまず、ほぼ完璧な HTML 解析エンジンを提供し、その解析結果はブラウザーの解析結果に限りなく近づきます。終了タグのない要素、オプションの終了タグのある要素、タグ属性、CSS セレクターとスタイルのいずれであっても、すべての合法および違法の HTML ドキュメントがブラウザーによって解析され、Jumony はそれらをサンプルに解析します。つまり、Jumony の解析結果はブラウザの解析結果と同じであるため、HTML ドキュメントが認識できるかどうかを心配する必要はなくなります。ブラウザがそれを読み取ることができれば、Jumony はそれを理解できます。

完璧と強力の間には 1 ステップしかありませんが、完璧なパーサーを使用すると、HTML ソース ドキュメントを気にする必要がなくなります。

以下は、Jumony パーサーでサポートされている機能の不完全なリストです

特性 例子
孤立的7f19db43d97d2d4008bb10f655c09c49解析为文本 3499910bf9dac5ae3c52d5ede7383485>5db79b134e9f6b82c0b36e0489ee08ed应当解析为3499910bf9dac5ae3c52d5ede7383485>5db79b134e9f6b82c0b36e0489ee08ed
标记属性(没有值的属性) f396c7ee6581b8a2c1feb962c201109c
元素丢失结束标签 e388a4556c0f65e1904146cc1a846bee43091600189d2e5d073500b021ca54e8测试链接94b3e26ee717c64999d7867364b1b4a3
可选结束标签元素
"body", "colgroup", "dd", "dt", "head", "html", "li", "option", "p", "tbody", "td", "tfoot", "th", "thead", "tr"
e388a4556c0f65e1904146cc1a846beeabce388a4556c0f65e1904146cc1a846bee123
无结束标签元素
「area」、「base」、「basefont」、「br」、「col」、「frame」、「hr」、「img」、「input」、「isindex」、「link」、「meta」、「 param", "wbr", "bgsound", "spacer", "keygen"
4faf7b57895b870867b99beee44351ac
CDataElement < ;script>if ( 1
"script", "style", "textarea", "title"
事前にフォーマットされた要素 e03b848252eb9375d56be284e690e873前にスペースがありますbc5574f69a0cba105bc93bd3dc13c4ec
属性値には一重引用符を使用してください 23c2a0f93dfc1aa97f21b2a308c549dd
属性値には二重引用符を使用します f44e9f560ddd6897b2d1683eecdd16c6
属性値がありません (ただし、等号はあります) 2de933bd81cf0e954926b4b4a48640c3
の前にスペースがあります属性値 0b261544b911285ff17e93667d236647
解析HTML宣言 52fd30f2e0e16ff688f05d82c46121fa


テキストから HTML を解析できるだけでなく、Jumony の API はインターネットからドキュメント分析を直接取得し、HTTP ヘッダーに基づいてエンコーディングを自動的に識別できます: Jumony に次ぐ HTML 解析オープンソース プロジェクトである

new JumonyParser().LoadDocument( "www.php.cn/" ).Find( ".post_item a.titlelnk" )

HtmlAgilityPack は長い間廃止されています長年経った今でも、最も基本的な ff9c23ada1bcecdd1a0fb5d5a0f18437 要素の解析には問題があります。

2. CSS スタイル設定のサポート

HTML を完璧に解析するだけではあまりメリットはありません。実際、ほとんどの HTML ドキュメントは二級パーサーや単純な正規表現を使用できます。これを分析すると、なぜ Jumony が必要になるのでしょうか。 ?

その答えは、HTML エンジンは DOM 構造を解析するだけではないということです。

次のシナリオを考えてみましょう: 要素の表示スタイルに none 値を設定する必要があります。ブラウザでは、要件を満たすには単純な element.style.display = "none" だけが必要です。これで、パーサーを通じて必要な DOM を取得しましたが、スタイルを設定するために文字列を連結する必要がありますか?

その必要はありません。Jumony は CSS スタイルの解析をサポートしており、一部の CSS スタイルの略語ルールも認識できます。Jumony では、要素のスタイルの設定はブラウザーと同じくらい簡単です:

element.Style( "display", "none" )

この例をもう一度見てみましょう: < ; p style="padding: 5px">94b3e26ee717c64999d7867364b1b4a3 この要素にpadding-left: 0pxを設定するとどうなるでしょうか?

Jumony では、結果は次のようになります:

<p style="padding-left: 0px; padding-right: 5px; padding-top:5px; padding-bottom: 5px"></p>

ほら、パディング属性は魔法のように自動的に拡張されます。

3. CSS 3 セレクターのサポート

CSS セレクターは、HTML の世界で人気のあるクエリ言語であり、多くのブラウザーでサポートされています。 Jumony は、ほぼ完全な CSS3 セレクターもサポートしています (ランタイム疑似クラスと疑似オブジェクトを除く)。セレクターを使用すると、HTML 内で関心のあるオブジェクトを簡単に見つけることができます。たとえば、ブログ パークのホームページにあるすべての記事のタイトルを取得します:

new JumonyParser().LoadDocument( "www.php.cn/" ).Find( ".post_item a.titlelnk" )

キャッチ、分析、選択をすべて一度に行うだけで、取得したデータをコンソールに出力できます:

 foreach( var title = new JumonyParser().LoadDocument( "www.php.cn/" ).Find( ".post_item a.titlelnk" ) )
  Console.WriteLine( title.InnerText() );

。 Jumony デバイスリストでサポートされている CSS3 選択:

nth-child
セレクター 説明
* すべての要素を選択
p a 子孫要素を選択
p>a 子要素を選択
p+a 隣接する要素を選択
p~a 後続要素を選択
[属性] 選択する属性が存在します
[attr=value] 属性値の完全一致
[attr~=value] 属性値の近似一致
[ attr^=value] 属性値の一致が開始されました
[attr*=value] 属性値には一致する
[attr$=value]が含まれています 属性値の終了一致
[attr!=value] 属性値の負の一致
:not negative pseudo-class
:一人っ子 唯一の子要素擬似クラス
:only-of-type only-of-type擬似クラス
:empty 空要素疑似クラス
構造化擬似クラス
:nth-last-of-type 構造化擬似クラス
:first-child 構造化擬似クラス
:最後の子供 構造化擬似クラス
:first-of-type 構造化擬似クラス
:last-of-type 構造化擬似クラス


4. 強力なスケーラビリティ

Jumony Core 3 では、HTML 仕様をカスタマイズしたり、独自のパーサーを実装したり、他の DOM モデルを Jumony に移植したりすることができます。独自の CSS セレクター擬似クラス、または jQuery スタイルなどの独自の API を変更することもできます。

Jumony Core には、Web サイトのクロール、jQuery スタイル API の提供、Web サイト開発、MHT ファイルの作成、HAP 解析結果に対する CSS セレクター サポートの追加など、多くの派生プロジェクトがあります。これらのプロジェクトはすべて Jumony Core の恩恵を受けています。強力な機能。

【関連おすすめ】

1. 無料のHTMLオンラインビデオチュートリアル

2. HTML開発マニュアル

3. php.cnオリジナルのHTML5ビデオチュートリアル

以上が完璧なHTML解析エンジン(Jumony)の詳細説明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。