Analyse HTML Java
Lorsque vous travaillez avec des applications de web scraping, il devient nécessaire d'extraire efficacement les données des pages HTML. Dans ce scénario, la tâche consiste à obtenir des données à partir de balises DIV spécifiques avec un nom de classe CSS donné. Bien que l'approche actuelle consistant à rechercher le nom de la classe dans chaque ligne HTML soit fonctionnelle, elle n'est peut-être pas optimale.
Jsoup comme alternative
Envisagez d'utiliser Jsoup bibliothèque pour le traitement HTML. Jsoup est conçu pour gérer le HTML mal formé et fournit une syntaxe pratique pour analyser le HTML en Java à l'aide de sélecteurs de balises de type jQuery.
Utiliser Jsoup
Pour utiliser Jsoup, suivez ces étapes :
Par exemple :
<code class="java">import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.select.Elements; Document doc = Jsoup.parse(html); Elements divs = doc.select("div.classname"); for (Element div : divs) { if (div.hasClass("classname")) { System.out.println("Text: " + div.text()); System.out.println("Link: " + div.attr("href")); } }</code>
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!