Maison  >  Article  >  Java  >  Introduction à la méthode d'utilisation de Jsoup pour implémenter la technologie des robots

Introduction à la méthode d'utilisation de Jsoup pour implémenter la technologie des robots

不言
不言avant
2019-03-08 15:37:543381parcourir

Cet article vous présente la méthode d'utilisation de Jsoup pour implémenter la technologie des robots. Il a une certaine valeur de référence. Les amis dans le besoin peuvent s'y référer.

1. Brève description de Jsoup

Il existe de nombreux frameworks de robots pris en charge en Java, tels que WebMagic, Spider, Jsoup, etc. Aujourd'hui, nous utilisons Jsoup pour implémenter un programme d'exploration simple.

Jsoup dispose d'une API très pratique pour traiter les documents HTML, comme le référencement de la méthode de traversée des documents des objets DOM, le référencement de l'utilisation des sélecteurs CSS, etc., afin que nous puissions utiliser Jsoup pour maîtriser rapidement l'exploration des données de page. .

2. Démarrage rapide

1) Écrire une page HTML

Les informations sur le produit du tableau dans le la page est à nous Les données à explorer. Parmi eux, les attributs sont le nom du produit de la classe pname et les images du produit appartenant à la classe pimg.

2) Utilisez HttpClient pour lire les pages HTML

HttpClient est un outil de traitement des données du protocole Http. Il peut être utilisé pour lire des pages HTML dans des programmes Java en tant que flux d'entrée. Vous pouvez télécharger le package jar HttpClient depuis http://hc.apache.org/.

3) Utilisez Jsoup pour analyser la chaîne html

Obtenu en introduisant l'outil Jsoup et en appelant directement la méthode parse pour analyser une chaîne décrivant le contenu du page html Un objet Document. L'objet Document obtient le contenu spécifié sur la page HTML en exploitant l'arborescence DOM. Pour les API associées, veuillez vous référer à la documentation officielle de Jsoup : https://jsoup.org/cookbook/

Ci-dessous, nous utilisons Jsoup pour obtenir le nom du produit et les informations de prix spécifiées dans le code HTML ci-dessus.

Jusqu'à présent, nous avons implémenté la fonction d'utilisation de HttpClient+Jsoup pour explorer les données des pages HTML. Ensuite, nous rendons l'effet plus intuitif, comme l'enregistrement des données analysées dans la base de données et l'enregistrement des images sur le serveur.

3. Enregistrez les données de la page analysée

1) Enregistrez les données ordinaires dans la base de données

Encapsulez les données analysées dans des beans d'entité et stockées dans la base de données.

2) Enregistrez l'image sur le serveur

Enregistrez l'image sur le serveur localement en téléchargeant l'image directement.

4. Résumé

Ce cas implémente simplement l'utilisation de HttpClient+Jsoup pour explorer les données du réseau. Il existe de nombreux endroits qui valent la peine d'être explorés, que je vous expliquerai plus tard.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer