Maison >Problème commun >Que signifie l'exploration des données ?

Que signifie l'exploration des données ?

青灯夜游original: 2020-07-24 16:12:4729503parcourir

L'exploration de données signifie : l'utilisation d'un programme d'exploration de sites Web pour obtenir les informations de contenu requises sur le site Web, telles que du texte, des vidéos, des images et d'autres données. Un robot d'exploration Web (web spider) est un programme ou un script qui analyse automatiquement les informations du World Wide Web selon certaines règles.

A quoi sert d'acquérir quelques connaissances sur l'exploration des données ?

Par exemple : les moteurs de recherche souvent utilisés par tout le monde (Google, Sogou)

Lorsque les utilisateurs recherchent les mots-clés correspondants sur le moteur de recherche Google, Google fera des mots-clés ; sont analysées, et les entrées possibles les plus adaptées à l'utilisateur sont trouvées à partir des pages Web « incluses » et présentées à l'utilisateur. Ensuite, comment obtenir ces pages Web est ce que le robot d'exploration doit faire, et bien sûr comment ; pousser les pages Web les plus précieuses vers l'utilisateur est également Il doit être combiné avec l'algorithme correspondant, ce qui implique la connaissance de l'exploration de données ;

Pour les applications plus petites, par exemple, nous comptons la charge de travail du travail de test, ce qui nécessite de compter le nombre de commandes de modifications par semaine/mois , le nombre de défauts enregistrés par jira et le contenu spécifique ;

Il y a aussi la récente Coupe du Monde, si vous voulez compter les données de chaque joueur/ pays et stocker les données pour d'autres utilisations ;

Il est également nécessaire de faire des analyses à travers certaines données en fonction de vos propres intérêts et passe-temps (statistiques de popularité d'un livre/film). données des pages Web existantes, puis effectuer des analyses avec les données obtenues. Analyse spécifique/travail statistique, etc.

Quelles connaissances de base sont nécessaires pour apprendre un robot d'exploration simple ?

Je divise les connaissances de base en deux parties :

1. Connaissances de base du front-end

HTML/JSON, CSS

Documents de référence :

http://www.w3school.com.cn/h.asp

http://www.w3school.com.cn/ajax/

http://www.w3school.com.cn/json/

https://www.php.cn/course/list/1.html

https://www.php .cn /course/list/2.html

https://www.html.cn/

2. Connaissances liées à la programmation Python

(1) Connaissances de base de Python

Connaissances de base en grammaire, dictionnaires, listes, fonctions, expressions régulières, JSON, etc.

Matériels de référence :

http://www. runoob.com /python3/python3-tutorial.html

https://www.py.cn/

https://www.php.cn/course/list/30.html

(2) Bibliothèques Python couramment utilisées :

Utilisation de la bibliothèque urllib de Python (j'utilise davantage de fonctions urlretrieve dans ce module, l'utilisant principalement pour sauvegarder certaines ressources acquises (documents/images /mp3 /Vidéo, etc.))

Bibliothèque pyMysql de Python (connexion et ajout à la base de données, suppression, modification et requête)

module python bs4 (nécessite un sélecteur css, une connaissance de l'arborescence html domTree, etc., selon le sélecteur css/balise/attribut html pour localiser le contenu dont nous avons besoin)

requêtes python (comme son nom l'indique, ce module est utilisé pour envoyer des requêtes/POST/Get, etc., à obtenir un objet Response)

le module os de python (ce module fournit une méthode très riche pour traiter les fichiers et les répertoires. La fonction os.path.join/exists est plus couramment utilisée)

Références : Pour cette partie, vous pouvez vous référer au document API d'interface des modules correspondants

Informations détaillées :

Un robot d'exploration Web est un programme qui extrait automatiquement des pages Web. pages du World Wide Web pour les moteurs de recherche et constitue un élément important des moteurs de recherche.

Les robots d'exploration traditionnels partent de l'URL d'une ou plusieurs pages Web initiales et obtiennent l'URL sur la page Web initiale. Pendant le processus d'exploration de la page Web, ils extraient en permanence de nouvelles URL de la page actuelle et les placent. dans la file d'attente jusqu'à ce que certaines conditions d'arrêt soient remplies.

Le flux de travail du robot d'exploration ciblé est plus compliqué. Il doit filtrer les liens sans rapport avec le sujet selon un certain algorithme d'analyse de page Web, conserver les liens utiles et les placer dans la file d'attente des URL en attente d'exploration. Ensuite, il sélectionnera l'URL de la page Web à explorer ensuite dans la file d'attente selon une certaine stratégie de recherche, et répétera le processus ci-dessus jusqu'à ce qu'il s'arrête lorsqu'une certaine condition du système est atteinte.

De plus, toutes les pages Web explorées par les robots d'exploration seront stockées par le système, soumises à certaines analyses, filtrages et indexations pour des requêtes et des récupérations ultérieures pour les robots d'exploration ciblés, ce processus nécessite que les résultats d'analyse obtenus puissent également ; fournir des commentaires et des conseils pour les futurs processus d’exploration.

Par rapport aux robots d'exploration Web généraux, les robots d'exploration ciblés doivent également résoudre trois problèmes principaux :

(1) Description ou définition de la cible d'exploration

(2) Analyse et ; filtrage de pages Web ou de données ;

(3) Stratégie de recherche d'URL.

Tutoriel recommandé : "Tutoriel Python"

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Python php json css ajax 正则表达式 html 接口对象选择器算法数据库 http https 搜索引擎 jira

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Quelles sont les trois sources du big data ?Article suivant：Quelles sont les trois sources du big data ?

Articles Liés

Voir plus