Méthode Python pour extraire les hyperliens des pages Web-Tutoriel Python-php.cn

Maison

développement back-end

Tutoriel Python

Méthode Python pour extraire les hyperliens des pages Web

高洛峰

Feb 22, 2017 pm 04:52 PM

De nombreuses personnes envisagent d'utiliser Python pour le développement de robots lorsqu'elles apprennent Python pour la première fois. Puisque vous souhaitez effectuer un robot d'exploration, vous devez d'abord explorer la page Web et extraire l'adresse du lien hypertexte de la page Web. Cet article partagera avec vous une méthode simple, à laquelle vous pourrez vous référer si nécessaire.

Ce qui suit est la méthode d'implémentation la plus simple. Tout d'abord, capturez la page Web cible, puis obtenez le lien hypertexte via une correspondance régulière de l'attribut href dans la balise a

Le code. est la suivante :

import urllib2
import re
 
url = &#39;http://www.sunbloger.com/&#39;
 
req = urllib2.Request(url)
con = urllib2.urlopen(req)
doc = con.read()
con.close()
 
links = re.findall(r&#39;href\=\"(http\:\/\/[a-zA-Z0-9\.\/]+)\"&#39;, doc)
for a in links:
  print a

Pour plus d'articles liés à la méthode Python d'extraction d'hyperliens à partir de pages Web , veuillez faire attention au site Web PHP chinois !

Déclaration

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article connexe

La compréhension des tuples est-elle possible à Python? Si oui, comment et sinon pourquoi?Apr 28, 2025 pm 04:34 PM

L'article discute de l'impossibilité de la compréhension des tuples dans Python en raison de l'ambiguïté de la syntaxe. Des alternatives comme l'utilisation de Tuple () avec des expressions de générateur sont suggérées pour créer efficacement les tuples. (159 caractères)

Que sont les modules et les packages dans Python?Apr 28, 2025 pm 04:33 PM

L'article explique les modules et les packages dans Python, leurs différences et leur utilisation. Les modules sont des fichiers uniques, tandis que les packages sont des répertoires avec un fichier __init__.py, organisant des modules connexes hiérarchiquement.

Qu'est-ce que Docstring in Python?Apr 28, 2025 pm 04:30 PM

L'article traite des docstrings dans Python, de leur utilisation et des avantages. Problème principal: Importance des docstrings pour la documentation du code et l'accessibilité.

Qu'est-ce qu'une fonction lambda?Apr 28, 2025 pm 04:28 PM

L'article traite des fonctions de lambda, de leurs différences par rapport aux fonctions régulières et de leur utilité dans les scénarios de programmation. Toutes les langues ne les soutiennent pas.

Qu'est-ce qu'une pause, continue et passer à Python?Apr 28, 2025 pm 04:26 PM

L'article discute de Break, Continuation et passe dans Python, expliquant leurs rôles dans le contrôle de l'exécution de la boucle et du flux de programme.

Qu'est-ce qu'une passe à Python?Apr 28, 2025 pm 04:25 PM

L'article traite de l'instruction «Pass» dans Python, une opération nul utilisée comme espace réservée dans des structures de code comme les fonctions et les classes, permettant une implémentation future sans erreurs de syntaxe.

Pouvons-nous passer une fonction comme un argument dans Python?Apr 28, 2025 pm 04:23 PM

L'article traite des fonctions de passage comme des arguments dans Python, mettant en évidence des avantages tels que la modularité et les cas d'utilisation tels que le tri et les décorateurs.

Quelle est la différence entre / et // dans Python?Apr 28, 2025 pm 04:21 PM

L'article discute / et // des opérateurs en python: / pour la vraie division, // pour la division de plancher. Le principal problème est de comprendre leurs différences et leurs cas d'utilisation. Compte de caractéristiques: 158

See all articles

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

3 Il y a quelques semainesByDDD

Comment réparer KB5055523 ne parvient pas à s'installer dans Windows 11?

2 Il y a quelques semainesByDDD

Inzoi: Comment postuler à l'école et à l'université

3 Il y a quelques semainesByDDD

Comment réparer KB5055518 ne parvient pas à s'installer dans Windows 10?

2 Il y a quelques semainesByDDD

Roblox: Dead Rails - Comment invoquer et vaincre Nikola Tesla

4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

MantisBT

Mantis est un outil Web de suivi des défauts facile à déployer, conçu pour faciliter le suivi des défauts des produits. Cela nécessite PHP, MySQL et un serveur Web. Découvrez nos services de démonstration et d'hébergement.

Version crackée d'EditPlus en chinois

Petite taille, coloration syntaxique, ne prend pas en charge la fonction d'invite de code

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

ZendStudio 13.5.1 Mac

Puissant environnement de développement intégré PHP

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.

Afficher plus

Sujets chauds

Où se trouve l’entrée de connexion pour la messagerie Gmail ?

7801

1644

1402

1299

1236