Maison >développement back-end >Tutoriel Python >Comment extraire efficacement les attributs HREF du HTML à l'aide de BeautifulSoup ?
Extraire HREF de BeautifulSoup
Lorsque vous travaillez avec des documents HTML à l'aide de BeautifulSoup, l'extraction d'attributs spécifiques comme href peut être essentielle. Cet article fournit des solutions pour récupérer efficacement les valeurs href, même dans les scénarios où plusieurs balises sont présentes.
Utiliser find_all pour la récupération HREF
Pour cibler uniquement des balises avec des attributs href , utilisez la méthode find_all comme suit :
<code class="python"># Python2 from BeautifulSoup import BeautifulSoup html = '''<a href="some_url">next</a> <span class="class"><a href="another_url">later</a></span>''' soup = BeautifulSoup(html) for a in soup.find_all('a', href=True): print "Found the URL:", a['href']</code>
Cette approche vous permet de parcourir toutes les balises a trouvées et d'imprimer leurs valeurs href. Notez que pour les versions BeautifulSoup antérieures à 4, le nom de la méthode était findAll.
Récupération de toutes les balises avec HREF
Si vous souhaitez obtenir toutes les balises possédant des attributs href, vous pouvez omettez simplement le paramètre name :
<code class="python">href_tags = soup.find_all(href=True)</code>
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!