Maison  >  Article  >  interface Web  >  Les paragraphes HTML sont automatiquement indentés de deux espaces

Les paragraphes HTML sont automatiquement indentés de deux espaces

王林
王林original
2024-04-09 12:15:011105parcourir

Comment analyser des documents HTML à l'aide de Python et BeautifulSoup est la suivante : chargez le document HTML et créez un objet BeautifulSoup. Utilisez les objets BeautifulSoup pour rechercher et traiter des éléments de balise, tels que : Rechercher une balise spécifique : soupe.find(tag_name) Rechercher toutes les balises spécifiques : soupe.find_all(tag_name) Rechercher des balises avec des attributs spécifiques : soupe.find(tag_name, {'attribute ': 'value'}) extrait le contenu textuel ou la valeur d'attribut de l'étiquette. Ajustez le code si nécessaire pour obtenir des informations spécifiques.

HTML 段落自动缩进两空格

Analyser des documents HTML à l'aide de Python et BeautifulSoup

Objectif :
Apprendre à analyser des documents HTML à l'aide de Python et de la bibliothèque BeautifulSoup.

Connaissances essentielles :

  • Bases de Python
  • Connaissance HTML et XML

Code :

from bs4 import BeautifulSoup

# 加载 HTML 文档
html_doc = """
<html>
<head>
<title>HTML 文档</title>
</head>
<body>
<h1>标题</h1>
<p>段落</p>
</body>
</html>
"""

# 创建 BeautifulSoup 对象
soup = BeautifulSoup(html_doc, 'html.parser')

# 获取标题标签
title_tag = soup.find('title')
print(title_tag.text)  # 输出:HTML 文档

# 获取所有段落标签
paragraph_tags = soup.find_all('p')
for paragraph in paragraph_tags:
    print(paragraph.text)  # 输出:段落

# 获取特定属性的值
link_tag = soup.find('link', {'rel': 'stylesheet'})
print(link_tag['href'])  # 输出:样式表链接

Cas pratique :
Un cas pratique simple consiste à utiliser BeautifulSoup pour extraire des informations spécifiées à partir d'une page Web reptile. Par exemple, vous pouvez utiliser le code suivant pour extraire les questions et réponses de Stack Overflow :

import requests
from bs4 import BeautifulSoup

url = 'https://stackoverflow.com/questions/31207139/using-beautifulsoup-to-extract-specific-attribute'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

questions = soup.find_all('div', {'class': 'question-summary'})
for question in questions:
    question_title = question.find('a', {'class': 'question-hyperlink'}).text
    question_body = question.find('div', {'class': 'question-snippet'}).text
    print(f'问题标题:{question_title}')
    print(f'问题内容:{question_body}')
    print('---')

Ce n'est qu'un des nombreux exemples d'utilisation de BeautifulSoup pour analyser des documents HTML. Vous pouvez ajuster le code pour obtenir différentes informations en fonction de vos besoins spécifiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn