ホームページ >ウェブフロントエンド >htmlチュートリアル >Jsoupコード解釈パート4-パーサー(パート1)_html/css_WEB-ITnose

Jsoupコード解釈パート4-パーサー(パート1)_html/css_WEB-ITnose

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBオリジナル: 2016-06-21 08:57:32978ブラウズ

Java の世界で最高の HTML 解析ライブラリとして、Jsoup のパーサー実装は非常に代表的です。この部分は Jsoup の最も複雑な部分でもあり、データ構造、ステートマシン、さらにはコンパイラに関するある程度の知識が必要です。幸いなことに、HTML 構文は複雑ではなく、解析は DOM ツリーに到達するだけなので、コンパイラーの入門としては非常に適しています。このすべてを飲み込むことを期待しないでください。コーヒーを一杯入れて、謎を味わいましょう。

基本

コンパイラー

コンピューター言語を別のコンピューター言語 (通常はマシンコード、アセンブリ、または JVM バイトなどの低レベル言語) に変換します。コーディングのプロセスはと呼ばれます。編集。コンパイラ(Compiler)はコンピュータサイエンスの重要な分野であり、長年の歴史を持ち、近年では言語間コンパイルの隆盛やDSL概念の普及なども相まって、さまざまな汎用言語が次々と登場しています。、コンパイラは非常に重要な分野になっています。

コンパイラ分野に関連する 3 つの古典的な書籍として知られています。Dragon Book「Compilers: Principles, Techniques, and Tools」、Tiger Book「X での最新のコンパイラ実装 (X はさまざまな言語を表します)」、およびクジラの本「高度なコンパイラの設計と実装」。その中で、Dragon Book はコンパイル理論に最適な選択肢として認識されていますが、後者の 2 つは実践にとってより有益です。さらに、@assemblerhead にはコンパイラに関する優れた入門ブログシリーズがあります: http://www.cnblogs.com/Ninputer/archive/2011/06/07/2074632.html

コンパイラの基本プロセスは次のとおりです。

字句解析、構文解析、意味解析はコンパイラのフロントエンドとも呼ばれ、その後のターゲット生成や最適化などに至る中間コード生成までを指します。コンパイルに属しますサーバーのバックエンド。コンパイラのフロントエンドテクノロジは非常に成熟しており、字句解析や構文解析を自動的に実行する yacc のようなツールがあります (Java には同様のツール ANTLR があります)。一方、バックエンドテクノロジはより複雑であり、現在注目されています。コンパイラの研究。

以上を述べたので、HTML に戻りましょう。 HTML は宣言型言語であり、その最終出力は実行可能なターゲット言語ではなく、ブラウザーのグラフィカルページであることが理解できるため、ここでは Translate を Render に変更しました。

Jsoup (同様の HTML パーサーを含む) では、Lex (字句解析) と Parse (文法解析) の 2 ステップのみが実行され、HTML パースの最終出力結果は DOM ツリーになります。。 HTML のセマンティック解析とレンダリングについては、Ctrip UED チームによる記事「ブラウザの仕組み: レンダリングエンジン、HTML 解析」を読むとよいでしょう。

ステートマシン

Jsoup の字句解析と構文解析は両方ともステートマシンを使用します。ステートマシンは、たとえば、私たちがよく扱う正規表現はステートマシンを使用して実装される特別なプログラムモデルとして理解できます。

これは、状態と遷移の 2 つの部分で構成されます。状態遷移の可能性に応じて、ステートマシンは DFA (決定的有限状態マシン) と NFA (非決定的有限状態マシン) に分類されます。ここでは例として最も単純な正規表現「a[b]*」を示します。まずこれをステートマシン DFA にマッピングします。これは次のようになります。

ステートマシン自体です。プログラミングモデルここでは、プログラムを使用して実装してみます。最も直接的な方法はおそらく次のとおりです。

public void process(StringReader reader) throws StringReader.EOFException { char ch; switch (state) { case Init: ch = reader.read(); if (ch == 'a') { state = State.AfterA; accum.append(ch); } break; case AfterA: ... break; case AfterB: ... break; case Accept: ... break; }}

このような単純なステートマシンを作成することに問題はありませんが、少し面倒です。複雑な状況では不快です。標準的なステートマシンのソリューションもあります。これは、最初に状態遷移テーブルを作成し、次にこのテーブルを使用してステートマシンを構築します。この方法の問題は、純粋な状態転送しか実行できず、コードレベルで入出力を操作できないことです。

Jsoup ではステートパターンを使用してステートマシンを実装しています。初めて見たとき、とても目を引きました。状態パターンは、状態と対応する動作をバインドする設計パターンの一種です。ステートマシンの実装過程では、ステート転送処理を実装するために使用するのが最適です。

「a[b]*」例の状態モードは次のように実装されます。ここでは Jsoup と同じメソッドが使用され、列挙を使用して状態モードを実装します。 PS: 私は github で Jsoup コードをフォークし、このシリーズの記事を投稿し、いくつかのコードに中国語のコメントを追加しました。興味がある場合は、https://github.com/code4craft/jsoup-learning をチェックしてください。この記事で説明されているいくつかのステートマシンの完全な実装は、このリポジトリのパス https://github.com/code4craft/jsoup-learning/tree/master/src/main/java/us/codecraft/learning の下にあります。

public class StateModelABStateMachine implements ABStateMachine {State state;StringBuilder accum;enum State { Init { @Override public void process(StateModelABStateMachine stateModelABStateMachine, StringReader reader) throws StringReader.EOFException { char ch = reader.read(); if (ch == 'a') { stateModelABStateMachine.state = AfterA; stateModelABStateMachine.accum.append(ch); } } }, Accept { ... }, AfterA { ... }, AfterB { ... };public void process(StateModelABStateMachine stateModelABStateMachine, StringReader reader) throws StringReader.EOFException { } }public void process(StringReader reader) throws StringReader.EOFException { state.process(this, reader); }}

次の記事では、Jsoup 字句解析から始めて、ステートマシンの使用について説明します。

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：CKEditor 4.5.7 リリース、ビジュアル HTML editor_html/css_WEB-ITnose次の記事：CKEditor 4.5.7 リリース、ビジュアル HTML editor_html/css_WEB-ITnose

続きを見る

Jsoupコード解釈パート4-パーサー(パート1)_html/css_WEB-ITnose

基本

コンパイラー

ステート マシン

関連記事

ステートマシン