Maison  >  Article  >  Java  >  JAVA explore les données des pages Web jsoup

JAVA explore les données des pages Web jsoup

TmDGl
TmDGloriginal
2020-04-29 18:13:08182parcourir

Concernant les données d'exploration qui ont émergé ces dernières années, la plupart des gens utilisent Python pour explorer. Pour certaines personnes, elles ne savent toujours pas que Java peut également effectuer une exploration des données. Ensuite, l'éditeur partagera avec vous un article sur l'exploration des données de pages Web avec Java.

Le but de l'exploration des données est d'obtenir les informations de page renvoyées par la requête et de filtrer les données souhaitées.

Pour faire court, commençons ci-dessous :

1. Préparation de l'environnement

Si l'outil est Eclipse ou IDEA

Configurer maven

2 .Importer les dépendances liées à jsoup

                                                                         lt;version>1.13.1< /version>

3. Commencez à configurer un projet pour écrire du code My. le code est le suivant :

public static void main(String[] args) throws Exception { Scanner sc = new Scanner(System.in) ; System.out.println("Veuillez entrer le mot-clé de recherche !!! "); String input = sc.next(); //Obtenir la demande d'URL, trouvez la demande ici vous-même String url = "https://search .xx.com/Search?keyword="+input; //Analyser le page Web (le document renvoyé par jsoup est ici l'objet document de page) Document document = Jsoup.parse(new URL(url), 30000); //All js Toutes les méthodes peuvent être utilisées ici, voici pour obtenir l'identifiant dans le div cible d'analyse Element element = document.getElementById("x_goodsList"); System.out.println(element.html()); //Obtenir le div cible d'analyse Toutes les balises li dans Elements elements = document.getElementsByTag("li "); //Parcourez tout le contenu de la balise li pour(Element el : elements){

//Parfois, il y a plus d'images à explorer. Tous les sites Web utilisent le chargement paresseux. L'attribut obtenu est source-data-lazy-img au lieu de src

/*

img est l'image explorée,

price est le prix exploré,

name est le nom du produit analysé

*/

String img = el.getElementsByTag("img").eq(0).attr("src"); .getElementsByClass("p-price").eq(0).text(); String name = el.getElementsByClass("p-name").eq(0).text(); ======================="); System.out.println(img); System.out.println(prix); System.out .println( name); >

Enfin, les amis qui sont intéressés par l'exploration de données devraient se dépêcher et essayer. Ici, je vais mettre fin à tous les comportements d'exploration illégaux, hahaha. . Grimpez et jouez, il n'y a rien à ne pas grimper.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn