この記事では、Python で現在のページ内のすべてのリンクを取得する方法を主に紹介し、Python でページのリンクを取得する 4 つの一般的な方法を比較および分析します。また、必要な iframe フレーム内のリンクを取得する方法も付属しています。この記事の次の
例では、現在のページ内のすべてのリンクを取得する Python の 4 つのメソッドについて説明します。参考のために皆さんと共有してください。詳細は次のとおりです:
''' 得到当前页面所有连接 ''' import requests import re from bs4 import BeautifulSoup from lxml import etree from selenium import webdriver url = 'http://www.testweb.com' r = requests.get(url) r.encoding = 'gb2312' # 利用 re (太黄太暴力!) matchs = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" , r.text) for link in matchs: print(link) print() # 利用 BeautifulSoup4 (DOM树) soup = BeautifulSoup(r.text,'lxml') for a in soup.find_all('a'): link = a['href'] print(link) print() # 利用 lxml.etree (XPath) tree = etree.HTML(r.text) for link in tree.xpath("//@href"): print(link) print() # 利用selenium(要开浏览器!) driver = webdriver.Firefox() driver.get(url) for link in driver.find_elements_by_tag_name("a"): print(link.get_attribute("href")) driver.close()
注: ページに iframe が含まれている場合、iframe に含まれるページのすべてのタグは、上記の 4 つの方法では取得できません。 ! !このとき:
以上がPython は 4 つの方法を使用して、現在のページ内のすべてのリンクの比較分析を実行します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。