ホームページ  >  記事  >  Java  >  Java を使用して HTML ドキュメントからデータを抽出するにはどうすればよいですか?

Java を使用して HTML ドキュメントからデータを抽出するにはどうすればよいですか?

Barbara Streisand
Barbara Streisandオリジナル
2024-10-25 02:11:29595ブラウズ

How can I extract data from HTML documents using Java?

Java HTML 解析

Web サイトからデータを取得するには、まず HTML ドキュメントの構造を理解する必要があります。 HTML 要素は、各要素のタイプとコンテンツを指定するタグを使用して編成されます。

たとえば、次の HTML は、特定の CSS クラスを持つ div タグを表します。

<code class="html"><div class="classname"></div></code>

Java でこのタグからデータを取得するには、Java HTML パーサー ライブラリを使用できます。 1 つのオプションは jsoup です。これにより、jQuery のような構文を使用した便利な HTML 解析が可能になります。

<code class="java">import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

String html = "<div class=\"classname\">Data to be scraped</div>";
Document doc = Jsoup.parse(html);

boolean usesClass = doc.select("div.classname").hasAttr("class");
String text = doc.select("div.classname").text();
String link = doc.select("div.classname").attr("href");</code>

jsoup を使用すると、要素に特定のクラスがあるかどうかを簡単に確認したり、そのテキスト コンテンツを取得したり、属性を取得したりできます。そうかもしれません。

以上がJava を使用して HTML ドキュメントからデータを抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。