ホームページ >バックエンド開発 >Python チュートリアル >Python は 4 つの方法を使用して、現在のページ内のすべてのリンクの比較分析を実行します。

Python は 4 つの方法を使用して、現在のページ内のすべてのリンクの比較分析を実行します。

黄舟オリジナル: 2017-08-20 10:28:382136ブラウズ

この記事では、Python で現在のページ内のすべてのリンクを取得する方法を主に紹介し、Python でページのリンクを取得する 4 つの一般的な方法を比較および分析します。また、必要な iframe フレーム内のリンクを取得する方法も付属しています。この記事の次の

例では、現在のページ内のすべてのリンクを取得する Python の 4 つのメソッドについて説明します。参考のために皆さんと共有してください。詳細は次のとおりです:

&#39;&#39;&#39;
得到当前页面所有连接
&#39;&#39;&#39;
import requests
import re
from bs4 import BeautifulSoup
from lxml import etree
from selenium import webdriver
url = &#39;http://www.testweb.com&#39;
r = requests.get(url)
r.encoding = &#39;gb2312&#39;
# 利用 re （太黄太暴力！）
matchs = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\&#39;).+?(?=\&#39;)" , r.text)
for link in matchs:
  print(link)
print()
# 利用 BeautifulSoup4 （DOM树）
soup = BeautifulSoup(r.text,&#39;lxml&#39;)
for a in soup.find_all(&#39;a&#39;):
  link = a[&#39;href&#39;]
  print(link)
print()
# 利用 lxml.etree （XPath）
tree = etree.HTML(r.text)
for link in tree.xpath("//@href"):
  print(link)
print()
# 利用selenium（要开浏览器！）
driver = webdriver.Firefox()
driver.get(url)
for link in driver.find_elements_by_tag_name("a"):
  print(link.get_attribute("href"))
driver.close()

注: ページに iframe が含まれている場合、iframe に含まれるページのすべてのタグは、上記の 4 つの方法では取得できません。！！このとき:

rreee

以上がPython は 4 つの方法を使用して、現在のページ内のすべてのリンクの比較分析を実行します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：Python がログインを必要とする Web サイトのクロールコード例を実装する方法次の記事：Python がログインを必要とする Web サイトのクロールコード例を実装する方法

続きを見る