ダンダンダン!最後に、Jsoup の機能である CSS セレクターの部分に来ます。 Selector は、私が作成したクローラー フレームワークである Webmagic の開発の焦点でもあります。ストリートファイターの写真を添付しました。将来、Webmagic が Jsoup に挑戦できることを願っています。
select メカニズム
Jsoup の select パッケージのクラス構造は次のとおりです:
Jsoup を初めて紹介したとき、NodeVisitor と Selector についてはすでに言及しました。 Selector は選択部分の外部ファサードであり、NodeVisitor はツリーを走査するための基礎となる API です。CSS Selector も NodeVisitor に基づいて走査されます。
Jsoup 選択の中核は Evaluator です。 Selector によって渡された式は QueryParser を通過し、最終的に Evaluator にコンパイルされます。 Evaluator は、メソッドが 1 つだけある抽象クラスです:
public abstract boolean matches(Element root, Element element);
ここではルートが渡され、場合によってはツリーをトラバースするために使用されることに注意してください。
エバリュエーターの設計は簡潔かつ明確であり、すべてのセレクター表現ワードが対応するエバリュエーターにコンパイルされます。たとえば、#xx は Id、.xx はクラス、[] は属性に対応します。これは、w3c の CSS セレクター仕様の補足です: http://www.w3.org/TR/CSS2/selector.html
もちろん、Jsoup は、これらだけでは十分ではありません (Evaluator Perform 用)。 And/Or の組み合わせ)、StructuralEvaluator (スクリーニング用の DOM ツリー構造と組み合わせます)。
ここで最も懸念されるのは、「div ul li」のような親子構造を実装する方法です。これの実装は StructuralEvaluator.Parent にあります。コードを貼り付けます:
static class Parent extends StructuralEvaluator { public Parent(Evaluator evaluator) { this.evaluator = evaluator; }public boolean matches(Element root, Element element) { if (root == element) return false;Element parent = element.parent(); while (parent != root) { if (evaluator.matches(root, parent)) return true; parent = parent.parent(); } return false; }}
ここに Parent にはエバリュエーター属性が含まれており、すべての親ノードはこのエバリュエーターに基づいて検証されます。 Parent はネストできるため、式 "div ul li" は最終的に And(Parent(And(Parent(Tag("div")), Tag("ul")),Tag("li" ) にコンパイルされることに注意してください。 )) このような評価者の組み合わせ。
選択部分は想像よりシンプルで、コードも非常に読みやすいです。パーサー部分を学習した後は、この部分はよく理解できるはずです。
webmagic の今後の計画について
webmagic は、HTML で指定されたテキストを取得するために使用されるクローラ フレームワークです。そのメカニズムは、webmagic を除いて Jsoup の Evaluator と非常によく似ています。一時的にセレクターはより単純な API にカプセル化されますが、エバリュエーターは式を直接追加します。以前、DSL をカスタマイズして HTML を作成することを検討しましたが、Jsoup のソース コードを確認すると、それを実装できることがわかりました。書きやすくて分かりやすいのが難点です。
実際、Jsoup のソース コードを確認すると、基本的に、各クラスが実際の概念的な抽象化に対応していることがわかります。
次の記事では、最後の部分であるホワイトリストと HTML フィルタリング メカニズムについて説明します。
最後に、この一連の記事とコードの github アドレスはまだ添付されています: https://github.com/code4craft/jsoup-learning

HTMLは、Webページ構造の構築の基礎です。 1。HTMLは、コンテンツ構造とセマンティクス、および使用などを定義します。タグ。 2. SEO効果を改善するために、などのセマンティックマーカーを提供します。 3.タグを介したユーザーの相互作用を実現するには、フォーム検証に注意してください。 4. JavaScriptと組み合わせて、動的効果を実現するなどの高度な要素を使用します。 5.一般的なエラーには、閉じられていないラベルと引用されていない属性値が含まれ、検証ツールが必要です。 6.最適化戦略には、HTTP要求の削減、HTMLの圧縮、セマンティックタグの使用などが含まれます。

HTMLは、Webページを構築するために使用される言語であり、タグと属性を使用してWebページの構造とコンテンツを定義します。 1)htmlは、などのタグを介してドキュメント構造を整理します。 2)ブラウザはHTMLを分析してDOMを構築し、Webページをレンダリングします。 3)マルチメディア関数を強化するなど、HTML5の新機能。 4)一般的なエラーには、閉じられていないラベルと引用されていない属性値が含まれます。 5)最適化の提案には、セマンティックタグの使用とファイルサイズの削減が含まれます。

webdevelopmentReliesOnhtml、css、andjavascript:1)htmlStructuresContent、2)cssStylesit、および3)Javascriptaddsinteractivity、形成、

HTMLの役割は、タグと属性を使用してWebページの構造とコンテンツを定義することです。 1。HTMLは、読みやすく理解しやすいようなタグを介してコンテンツを整理します。 2。アクセシビリティとSEOを強化するには、セマンティックタグなどを使用します。 3. HTMLコードの最適化により、Webページの読み込み速度とユーザーエクスペリエンスが向上する可能性があります。

HTML、CSS、およびJavaScriptは、Web開発の3つの柱です。 1。HTMLは、Webページ構造を定義し、などなどのタグを使用します。2。CSSは、色、フォントサイズなどのセレクターと属性を使用してWebページスタイルを制御します。

HTMLはWeb構造を定義し、CSSはスタイルとレイアウトを担当し、JavaScriptは動的な相互作用を提供します。 3人はWeb開発で職務を遂行し、共同でカラフルなWebサイトを構築します。

HTMLは、簡単に学習しやすく、結果をすばやく見ることができるため、初心者に適しています。 1)HTMLの学習曲線はスムーズで簡単に開始できます。 2)基本タグをマスターして、Webページの作成を開始します。 3)柔軟性が高く、CSSおよびJavaScriptと組み合わせて使用できます。 4)豊富な学習リソースと最新のツールは、学習プロセスをサポートしています。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

Dreamweaver Mac版
ビジュアル Web 開発ツール

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター
