検索
ホームページウェブフロントエンドhtmlチュートリアルJsoup コード解釈パート 7 - CSS Selector_html/css_WEB-ITnose の実装

ダンダンダン!最後に、Jsoup の機能である CSS セレクターの部分に来ます。 Selector は、私が作成したクローラー フレームワークである Webmagic の開発の焦点でもあります。ストリートファイターの写真を添付し​​ました。将来、Webmagic が Jsoup に挑戦できることを願っています。

select メカニズム

Jsoup の select パッケージのクラス構造は次のとおりです:

Jsoup を初めて紹介したとき、NodeVisitor と Selector についてはすでに言及しました。 Selector は選択部分の外部ファサードであり、NodeVisitor はツリーを走査するための基礎となる API です。CSS Selector も NodeVisitor に基づいて走査されます。

Jsoup 選択の中核は Evaluator です。 Selector によって渡された式は QueryParser を通過し、最終的に Evaluator にコンパイルされます。 Evaluator は、メソッドが 1 つだけある抽象クラスです:

public abstract boolean matches(Element root, Element element);

ここではルートが渡され、場合によってはツリーをトラバースするために使用されることに注意してください。

エバリュエーターの設計は簡潔かつ明確であり、すべてのセレクター表現ワードが対応するエバリュエーターにコンパイルされます。たとえば、#xx は Id、.xx はクラス、[] は属性に対応します。これは、w3c の CSS セレクター仕様の補足です: http://www.w3.org/TR/CSS2/selector.html

もちろん、Jsoup は、これらだけでは十分ではありません (Evaluator Perform 用)。 And/Or の組み合わせ)、StructuralEvaluator (スクリーニング用の DOM ツリー構造と組み合わせます)。

ここで最も懸念されるのは、「div ul li」のような親子構造を実装する方法です。これの実装は StructuralEvaluator.Parent にあります。コードを貼り付けます:

static class Parent extends StructuralEvaluator { public Parent(Evaluator evaluator) { this.evaluator = evaluator; }public boolean matches(Element root, Element element) { if (root == element) return false;Element parent = element.parent(); while (parent != root) { if (evaluator.matches(root, parent)) return true; parent = parent.parent(); } return false; }}

ここに Parent にはエバリュエーター属性が含まれており、すべての親ノードはこのエバリュエーターに基づいて検証されます。 Parent はネストできるため、式 "div ul li" は最終的に And(Parent(And(Parent(Tag("div")), Tag("ul")),Tag("li" ) にコンパイルされることに注意してください。 )) このような評価者の組み合わせ。

選択部分は想像よりシンプルで、コードも非常に読みやすいです。パーサー部分を学習した後は、この部分はよく理解できるはずです。

webmagic の今後の計画について

webmagic は、HTML で指定されたテキストを取得するために使用されるクローラ フレームワークです。そのメカニズムは、webmagic を除いて Jsoup の Evaluator と非常によく似ています。一時的にセレクターはより単純な API にカプセル化されますが、エバリュエーターは式を直接追加します。以前、DSL をカスタマイズして HTML を作成することを検討しましたが、Jsoup のソース コードを確認すると、それを実装できることがわかりました。書きやすくて分かりやすいのが難点です。

実際、Jsoup のソース コードを確認すると、基本的に、各クラスが実際の概念的な抽象化に対応していることがわかります。

次の記事では、最後の部分であるホワイトリストと HTML フィルタリング メカニズムについて説明します。

最後に、この一連の記事とコードの github アドレスはまだ添付されています: https://github.com/code4craft/jsoup-learning

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
HTML:Webページの構造の構築HTML:Webページの構造の構築Apr 14, 2025 am 12:14 AM

HTMLは、Webページ構造の構築の基礎です。 1。HTMLは、コンテンツ構造とセマンティクス、および使用などを定義します。タグ。 2. SEO効果を改善するために、などのセマンティックマーカーを提供します。 3.タグを介したユーザーの相互作用を実現するには、フォーム検証に注意してください。 4. JavaScriptと組み合わせて、動的効果を実現するなどの高度な要素を使用します。 5.一般的なエラーには、閉じられていないラベルと引用されていない属性値が含まれ、検証ツールが必要です。 6.最適化戦略には、HTTP要求の削減、HTMLの圧縮、セマンティックタグの使用などが含まれます。

テキストからウェブサイトへ:HTMLの力テキストからウェブサイトへ:HTMLの力Apr 13, 2025 am 12:07 AM

HTMLは、Webページを構築するために使用される言語であり、タグと属性を使用してWebページの構造とコンテンツを定義します。 1)htmlは、などのタグを介してドキュメント構造を整理します。 2)ブラウザはHTMLを分析してDOMを構築し、Webページをレンダリングします。 3)マルチメディア関数を強化するなど、HTML5の新機能。 4)一般的なエラーには、閉じられていないラベルと引用されていない属性値が含まれます。 5)最適化の提案には、セマンティックタグの使用とファイルサイズの削減が含まれます。

HTML、CSS、およびJavaScriptの理解:初心者向けガイドHTML、CSS、およびJavaScriptの理解:初心者向けガイドApr 12, 2025 am 12:02 AM

webdevelopmentReliesOnhtml、css、andjavascript:1)htmlStructuresContent、2)cssStylesit、および3)Javascriptaddsinteractivity、形成、

HTMLの役割:Webコンテンツの構造HTMLの役割:Webコンテンツの構造Apr 11, 2025 am 12:12 AM

HTMLの役割は、タグと属性を使用してWebページの構造とコンテンツを定義することです。 1。HTMLは、読みやすく理解しやすいようなタグを介してコンテンツを整理します。 2。アクセシビリティとSEOを強化するには、セマンティックタグなどを使用します。 3. HTMLコードの最適化により、Webページの読み込み速度とユーザーエクスペリエンスが向上する可能性があります。

HTMLとコード:用語を詳しく見るHTMLとコード:用語を詳しく見るApr 10, 2025 am 09:28 AM

htmlisaspecifictypeofcodefocuseduructuringwebcontent

HTML、CSS、およびJavaScript:Web開発者に不可欠なツールHTML、CSS、およびJavaScript:Web開発者に不可欠なツールApr 09, 2025 am 12:12 AM

HTML、CSS、およびJavaScriptは、Web開発の3つの柱です。 1。HTMLは、Webページ構造を定義し、などなどのタグを使用します。2。CSSは、色、フォントサイズなどのセレクターと属性を使用してWebページスタイルを制御します。

HTML、CSS、およびJavaScriptの役割:コアの責任HTML、CSS、およびJavaScriptの役割:コアの責任Apr 08, 2025 pm 07:05 PM

HTMLはWeb構造を定義し、CSSはスタイルとレイアウトを担当し、JavaScriptは動的な相互作用を提供します。 3人はWeb開発で職務を遂行し、共同でカラフルなWebサイトを構築します。

HTMLは初心者のために簡単に学ぶことができますか?HTMLは初心者のために簡単に学ぶことができますか?Apr 07, 2025 am 12:11 AM

HTMLは、簡単に学習しやすく、結果をすばやく見ることができるため、初心者に適しています。 1)HTMLの学習曲線はスムーズで簡単に開始できます。 2)基本タグをマスターして、Webページの作成を開始します。 3)柔軟性が高く、CSSおよびJavaScriptと組み合わせて使用​​できます。 4)豊富な学習リソースと最新のツールは、学習プロセスをサポートしています。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター