Maison >développement back-end >Tutoriel Python >Rendre Python plus pratique : une introduction aux bibliothèques standard de Python couramment utilisées
Quelles sont les bibliothèques communes Python en Python que les programmeurs ne peuvent pas supprimer ? À tel point que je suis devenu accro. Aujourd'hui, nous allons trier ces Bibliothèques Python couramment utilisées. Vous pouvez ajouter ou modifier le contenu de la bibliothèque associée dans la zone de commentaires ou m'envoyer un message privé.
Présentez d'abord la bibliothèque beautifulsoup, car lorsque je suis entré en contact pour la première fois avec crawler, j'ai vu tout le monde recommander fortement cette bibliothèque. Je l'ai utilisé plus tard et je l'ai trouvé vraiment bien. Mais les programmeurs, comment peuvent-ils mourir dans une bibliothèque, haha.
Le processus d'installation de plusieurs bibliothèques ne sera pas décrit à nouveau. Veuillez vous référer à anaconda. -_-.
Les exemples suivants sont tous testés en utilisant ceci.
html = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="myclass" name="dromouse"><b>The Dormouse's story</b></p> <p class="story">Once upon a time there were three little sisters; and their names were <a href="http://example.com/elsie" class="myclass" id="box"><!-- Elsie --></a>, <a href="http://example.com/lacie" class="myclass" id="box1">Lacie</a> and <a href="http://example.com/tillie" class="myclass" id="box2">Tillie</a>; and they lived at the bottom of a well.</p> <p class="story">...</p> """
BeautifulSoup
Beautiful Soup prend en charge l'analyseur HTML de la bibliothèque standard Python et prend également en charge certains analyseurs tiers. Par exemple lxml HTML, lxml XML, html5lib. Ces bibliothèques doivent cependant être installées, sinon elles utiliseront la bibliothèque standard interne de Python.
Il existe deux façons de créer de magnifiques objets à soupe.
1. Soup=BeautifulSoup(html) #Utiliser du contenu variable pour créer
2. soup=BeautifulSoup('mysite.html') #Utiliser des fichiers locaux pour créer
BeautifulSoup convertit le HTML en une structure arborescente complexe. Chaque nœud est un objet Python. Les étudiants ayant des connaissances en front-end sauront qu'il est similaire à un objet DOM. Il existe environ quatre types d'objets dans BeautifulSoup, Tag, NavigableString, BeautifulSoup et Comment. Étant donné que la plupart de nos opérations quotidiennes consistent à extraire des informations de chaque balise, je décrirai brièvement les objets Tag couramment utilisés.
Tag
la balise est une balise HTML.
Par exemple, en-tête, titre, a, p, etc. en HTML.
En fonctionnement réel, nous trouverons le tag requis via le sélecteur, puis obtiendrons les informations requises en actionnant l'objet Tag. Dans BeautifulSoup, findAll() et find() sont couramment utilisés pour rechercher dans l'arborescence des documents afin d'obtenir les balises dont vous avez besoin. Dans le même temps, BeautifulSoup prend également en charge la syntaxe CSS pour la recherche, la méthode select() et le type de retour est la liste.
ps :
1.findAll() est équivalent à find_all()
2 Si vous en savez plus sur le front-end, utilisez. la méthode select() pour comparer en douceur.
find()
find() est équivalent à limit=1 dans findAll(), mais find() renvoie le résultat, findAll() renvoie une liste .
Sélecteur CSS
Beautifulsoup prend en charge les sélecteurs de syntaxe CSS pour trouver les balises requises.
select(CSS选择器) 例: soup.select('.myclass #box') #后代选择器 soup.select('head>title') #子选择器 soup.select('div+p') #相邻兄弟选择器 soup.select('div~p’) #后续兄弟选择器
En même temps, vous pouvez également ajouter une recherche d'attributs.
soup.select('.myclass a[id="box"]')
La méthode select() renvoie une liste.
Ce qui précède sont presque les fonctions couramment utilisées de BeautifulSoup
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!