Maison >interface Web >tutoriel HTML >Les paragraphes HTML sont automatiquement indentés de deux espaces
Comment analyser des documents HTML à l'aide de Python et BeautifulSoup est la suivante : chargez le document HTML et créez un objet BeautifulSoup. Utilisez les objets BeautifulSoup pour rechercher et traiter des éléments de balise, tels que : Rechercher une balise spécifique : soupe.find(tag_name) Rechercher toutes les balises spécifiques : soupe.find_all(tag_name) Rechercher des balises avec des attributs spécifiques : soupe.find(tag_name, {'attribute ': 'value'}) extrait le contenu textuel ou la valeur d'attribut de l'étiquette. Ajustez le code si nécessaire pour obtenir des informations spécifiques.
Objectif :
Apprendre à analyser des documents HTML à l'aide de Python et de la bibliothèque BeautifulSoup.
Connaissances essentielles :
Code :
from bs4 import BeautifulSoup # 加载 HTML 文档 html_doc = """ <html> <head> <title>HTML 文档</title> </head> <body> <h1>标题</h1> <p>段落</p> </body> </html> """ # 创建 BeautifulSoup 对象 soup = BeautifulSoup(html_doc, 'html.parser') # 获取标题标签 title_tag = soup.find('title') print(title_tag.text) # 输出:HTML 文档 # 获取所有段落标签 paragraph_tags = soup.find_all('p') for paragraph in paragraph_tags: print(paragraph.text) # 输出:段落 # 获取特定属性的值 link_tag = soup.find('link', {'rel': 'stylesheet'}) print(link_tag['href']) # 输出:样式表链接
Cas pratique :
Un cas pratique simple consiste à utiliser BeautifulSoup pour extraire des informations spécifiées à partir d'une page Web reptile. Par exemple, vous pouvez utiliser le code suivant pour extraire les questions et réponses de Stack Overflow :
import requests from bs4 import BeautifulSoup url = 'https://stackoverflow.com/questions/31207139/using-beautifulsoup-to-extract-specific-attribute' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') questions = soup.find_all('div', {'class': 'question-summary'}) for question in questions: question_title = question.find('a', {'class': 'question-hyperlink'}).text question_body = question.find('div', {'class': 'question-snippet'}).text print(f'问题标题:{question_title}') print(f'问题内容:{question_body}') print('---')
Ce n'est qu'un des nombreux exemples d'utilisation de BeautifulSoup pour analyser des documents HTML. Vous pouvez ajuster le code pour obtenir différentes informations en fonction de vos besoins spécifiques.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!