Web crawler - Comment utiliser Java pour explorer des informations et créer un système de classement ?

Question

Il se trouve qu’il y a un projet intéressant à réaliser tout en apprenant Java Web. Notre école exige une carte de crédit pour les courses matinales. Le Service des Sports propose un site Internet de renseignements, mais ne fournit pas d'interface. Je souhaite créer un backend de site Web/WeChat pour capturer les informations du site Web de l'école et les stocker dans une base de données. Les utilisateurs peuvent ensuite les interroger via mon site Web/WeChat...

PHP中文网 · Answer

Je l'ai juste dit avec désinvolture, parce que je n'ai pensé à aucune méthode.

Utilisez Jsoup pour explorer les données de la page, haha

代言 · Answer

Pensez à quelques points, parlons brièvement :
1. Capture de données, vous pouvez écrire votre propre programme d'exploration, formuler des règles de temps pour l'exploration des données, etc.
2. Traitement des données, capturer le contenu de la page Web via jsoup ou. autre Méthode pour extraire le contenu efficace de la page Web et concevoir la structure des données. L'ID d'étudiant doit être unique. Il peut y avoir une table d'étudiant et une table d'enregistrement de course du matin, qui sont liées via l'ID d'étudiant 3. Ma compréhension personnelle. est de trier par le nombre de fois, car après y avoir réfléchi, si le tri par heure est déraisonnable, car il n'y a aucun moyen de juger l'heure réelle du matin, alors je parlerai simplement par le nombre de fois ici. stocker directement le champ du nombre d'exécutions dans la table des étudiants, réduire les requêtes via la table d'enregistrement et améliorer l'efficacité signifie conserver ce champ lorsque le traitement des données est requis

三叔 · Answer

D'une manière générale, vous obtenez les données souhaitées (comme le package jsoup) basées sur l'élément httpclient这样的工具将返回包拿到，解析报文实体（这里指html页面），接下来就是利用xpath、正则、类似于jQuery方式解析DOM Si c'est encore trop gênant, vous pouvez utiliser le framework webmagic

.

巴扎黑 · Answer

Simuler la connexion : utilisez un navigateur pour ouvrir la page de connexion et observez l'URL qui reçoit l'identifiant et le mot de passe de l'étudiant ; publiez les données sur l'URL lors de la simulation de connexion ; analysez les informations du champ Set-cookie de l'en-tête de réponse
Capture de données : lancez une demande d'obtention sur la page de données sportives (apportez le champ de cookie obtenu à l'étape précédente), obtenez la réponse, puis effectuez une analyse régulière pour obtenir les données

Recommandation : pour mettre en cache les données que les utilisateurs interrogent à chaque fois, par exemple pendant 2 heures, il est recommandé d'utiliser redis ; la base de données peut stocker les données interrogées, récupérez d'abord les données de redis, si elles ne peuvent pas être récupérées, simulez la connexion pour obtenir de nouvelles données. Quant à la couche base de données, je pense personnellement qu'elle n'est pas nécessaire si elle est disponible, vous pouvez également effectuer une analyse des données et ainsi de suite

.

Web crawler - Comment utiliser Java pour explorer des informations et créer un système de classement ?

répondre à tous(4)je répondrai