ホームページ  >  記事  >  バックエンド開発  >  Python は 4 つの方法を使用して、現在のページ内のすべてのリンクの比較分析を実行します。

Python は 4 つの方法を使用して、現在のページ内のすべてのリンクの比較分析を実行します。

黄舟
黄舟オリジナル
2017-08-20 10:28:382034ブラウズ

この記事では、Python で現在のページ内のすべてのリンクを取得する方法を主に紹介し、Python でページのリンクを取得する 4 つの一般的な方法を比較および分析します。また、必要な iframe フレーム内のリンクを取得する方法も付属しています。この記事の次の

例では、現在のページ内のすべてのリンクを取得する Python の 4 つのメソッドについて説明します。参考のために皆さんと共有してください。詳細は次のとおりです:


'''
得到当前页面所有连接
'''
import requests
import re
from bs4 import BeautifulSoup
from lxml import etree
from selenium import webdriver
url = 'http://www.testweb.com'
r = requests.get(url)
r.encoding = 'gb2312'
# 利用 re (太黄太暴力!)
matchs = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\&#39;).+?(?=\&#39;)" , r.text)
for link in matchs:
  print(link)
print()
# 利用 BeautifulSoup4 (DOM树)
soup = BeautifulSoup(r.text,&#39;lxml&#39;)
for a in soup.find_all(&#39;a&#39;):
  link = a[&#39;href&#39;]
  print(link)
print()
# 利用 lxml.etree (XPath)
tree = etree.HTML(r.text)
for link in tree.xpath("//@href"):
  print(link)
print()
# 利用selenium(要开浏览器!)
driver = webdriver.Firefox()
driver.get(url)
for link in driver.find_elements_by_tag_name("a"):
  print(link.get_attribute("href"))
driver.close()

注: ページに iframe が含まれている場合、iframe に含まれるページのすべてのタグは、上記の 4 つの方法では取得できません。 ! !このとき:


rreee

以上がPython は 4 つの方法を使用して、現在のページ内のすべてのリンクの比較分析を実行します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。