Maison  >  Article  >  Java  >  Comment puis-je extraire des données de documents HTML à l’aide de Java ?

Comment puis-je extraire des données de documents HTML à l’aide de Java ?

Barbara Streisand
Barbara Streisandoriginal
2024-10-25 02:11:29595parcourir

How can I extract data from HTML documents using Java?

Analyse HTML Java

Pour obtenir des données à partir d'un site Web, vous devez d'abord comprendre la structure du document HTML. Les éléments HTML sont organisés à l'aide de balises, qui spécifient le type et le contenu de chaque élément.

Par exemple, le code HTML suivant représente une balise div avec une classe CSS spécifique :

<code class="html"><div class="classname"></div></code>

Pour localiser et récupérer les données de cette balise en Java, vous pouvez utiliser une bibliothèque d'analyseur HTML Java. Une option est jsoup, qui permet une analyse HTML pratique à l'aide d'une syntaxe de type jQuery :

<code class="java">import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

String html = "<div class=\"classname\">Data to be scraped</div>";
Document doc = Jsoup.parse(html);

boolean usesClass = doc.select("div.classname").hasAttr("class");
String text = doc.select("div.classname").text();
String link = doc.select("div.classname").attr("href");</code>

Avec jsoup, vous pouvez facilement vérifier si un élément a une classe spécifique, récupérer son contenu textuel ou obtenir des attributs. c'est peut-être le cas.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn