Maison  >  Article  >  Java  >  Comment extraire des données de page Web dans des programmes Java avec Jsoup ?

Comment extraire des données de page Web dans des programmes Java avec Jsoup ?

Linda Hamilton
Linda Hamiltonoriginal
2024-10-30 21:47:30938parcourir

How to Extract Web Page Data into Java Programs with Jsoup?

Extraction de données de pages Web pour les programmes Java

L'extraction d'informations de pages Web vers des programmes Java nécessite une technique spécifique connue sous le nom de web scraping. Le web scraping implique l'analyse du contenu HTML pour identifier et extraire les données ciblées.

Une approche fortement recommandée consiste à utiliser l'analyseur HTML Jsoup, réputé pour sa prise en charge du sélecteur CSS de type jQuery et amélioré pour la compatibilité des boucles. Voici un exemple de code Java qui illustre le processus de scraping Web :

<code class="java">import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class WebScraper {

    public static void main(String[] args) throws Exception {
        // Target URL
        String url = "https://www.bestbuy.com/site/best-buy-insignia-55-class-f30-series-led-4k-uhd-smart-fire-tv/6494164.p?skuId=6494164";

        // Connect to the URL and parse HTML content
        Document document = Jsoup.connect(url).get();

        // Get product information using CSS selectors
        String title = document.select("h1.page-title").text();
        String price = document.select(".priceView-customer-price").text();
        String description = document.select(".product-lang-en-us .product-description-rich-html").text();

        // Print results</code>

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn