ホームページ  >  記事  >  Java  >  Java で特定のクラス名を持つ HTML DIV タグからデータを効率的に抽出する方法

Java で特定のクラス名を持つ HTML DIV タグからデータを効率的に抽出する方法

Susan Sarandon
Susan Sarandonオリジナル
2024-10-24 17:03:02260ブラウズ

How to Efficiently Extract Data from HTML DIV Tags with a Specific Class Name in Java?

Java HTML 解析

Web スクレイピング アプリケーションを使用する場合、HTML ページからデータを効果的に抽出する必要があります。このシナリオのタスクは、指定された CSS クラス名を持つ特定の DIV タグからデータを取得することです。 HTML の各行でクラス名を検索する現在のアプローチは機能しますが、最適ではない可能性があります。

代替としての Jsoup

Jsoup の使用を検討してください。 HTML処理用のライブラリです。 Jsoup は不正な HTML を処理するように設計されており、jQuery のようなタグ セレクターを使用して Java で HTML を解析するための便利な構文を提供します。

Jsoup の使用

Jsoup を使用するには、次の手順に従います。手順:

  1. Jsoup ライブラリをプロジェクトにインポートします。
  2. HTML ソース コードから Jsoup ドキュメント オブジェクトを作成します。
  3. select メソッドを使用して DIV を見つけます。指定された CSS クラス名を持つタグ。
  4. text() などのメソッドを使用して抽出されたデータにアクセスし、テキスト コンテンツを取得するか、attr("href") でリンク URL を取得します。

例:

<code class="java">import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

Document doc = Jsoup.parse(html);
Elements divs = doc.select("div.classname");

for (Element div : divs) {
    if (div.hasClass("classname")) {
        System.out.println("Text: " + div.text());
        System.out.println("Link: " + div.attr("href"));
    }
}</code>

以上がJava で特定のクラス名を持つ HTML DIV タグからデータを効率的に抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。