搜尋
首頁後端開發Python教學基於Python的Web爬蟲技術詳解

基於Python的Web爬蟲技術詳解

Jun 17, 2023 am 10:28 AM
pythonweb爬蟲技術詳解

隨著網路和大數據時代的到來,越來越多的資料被動態產生並呈現在網頁中,這就為資料收集和處理帶來了新的挑戰。這時候Web爬蟲技術就應運而生。 Web爬蟲技術是指透過編寫程式自動取得網路上的資訊的技術。 Python作為一種強大的程式語言,具有簡單易學、高效易用、跨平台等優點,已成為Web爬蟲開發中的重要選擇。

本文將系統地介紹Python中常用的Web爬蟲技術,包括請求模組、解析模組、儲存模組等面向。

一、請求模組

請求模組是Web爬蟲的核心,它可以模擬瀏覽器發送請求,取得需要的頁面內容。常用的請求模組有urllib、Requests和Selenium。

  1. urllib

urllib是Python自帶的一個HTTP請求模組,可以根據URL從網路上取得網頁數據,支援URL編碼、修改請求頭、post、 cookie等功能。常用的函式有urllib.request.urlopen()、urllib.request.urlretrieve()、urllib.request.build_opener()等。

透過urllib.request.urlopen()函數可以得到網站的原始碼:

import urllib.request

response = urllib.request.urlopen('http://www.example.com/')
source_code = response.read().decode('utf-8')
print(source_code)
  1. Requests

Requests是一個Python第三方函式庫,它比urllib更簡單易用,支援cookie、POST、代理等功能。常用的函數有requests.get()、requests.post()、requests.request()等。

透過requests.get()函數可以得到回應的內容:

import requests

response = requests.get('http://www.example.com/')
source_code = response.text
print(source_code)
  1. #Selenium

Selenium是一個自動化測試工具,在Web爬蟲中,它可以透過啟動一個瀏覽器來模擬人的操作,能夠實現獲取JS動態產生的頁面資料等功能。常用的函式有selenium.webdriver.Chrome()、selenium.webdriver.Firefox()、selenium.webdriver.PhantomJS()等。

透過Selenium取得網頁原始碼:

from selenium import webdriver

browser = webdriver.Chrome()  # 打开Chrome浏览器
browser.get('http://www.example.com/')
source_code = browser.page_source  # 获取网页源代码
print(source_code)

二、解析模組

#得到網頁原始碼後,下一步就是解析這個檔案了。 Python中常用的解析模組有正規表示式、BeautifulSoup和PyQuery。

  1. 正規表示式

正規表示式是一個神奇而強大的工具,它可以按照模式匹配字串,可以快速提取所需的資料。 Python中可以使用re模組來呼叫正規表示式。

例如,提取網頁中的所有連結:

import re

source_code = """
<!DOCTYPE html>
<html>
<head>
    <title>Example</title>
</head>
<body>
    <a href="http://www.example.com/">example</a>
    <a href="http://www.google.com/">google</a>
</body>
</html>
"""

pattern = re.compile('<a href="(.*?)">(.*?)</a>')  # 匹配所有链接
results = re.findall(pattern, source_code)

for result in results:
    print(result[0], result[1])
  1. BeautifulSoup

Beautiful Soup是Python的一個函式庫,它可以將HTML檔或XML檔案解析成樹狀結構,以便方便地取得HTML/XML檔案中的資料。它支援多種解析器,常用的有Python內建的html.parser、lxml和html5lib。

例如,解析出網頁中的所有連結:

from bs4 import BeautifulSoup

source_code = """
<!DOCTYPE html>
<html>
<head>
    <title>Example</title>
</head>
<body>
    <a href="http://www.example.com/">example</a>
    <a href="http://www.google.com/">google</a>
</body>
</html>
"""

soup = BeautifulSoup(source_code, 'html.parser')
links = soup.find_all('a')

for link in links:
    print(link.get('href'), link.string)
  1. PyQuery

PyQuery是一個類似jQuery的Python函式庫,它將HTML文件轉換成類似jQuery的結構,可以透過CSS選擇器直接取得網頁中的元素。它依賴lxml庫。

例如,解析出網頁中的所有連結:

from pyquery import PyQuery as pq

source_code = """
<!DOCTYPE html>
<html>
<head>
    <title>Example</title>
</head>
<body>
    <a href="http://www.example.com/">example</a>
    <a href="http://www.google.com/">google</a>
</body>
</html>
"""

doc = pq(source_code)
links = doc('a')

for link in links:
    print(link.attrib['href'], link.text_content())

三、儲存模組

得到所需的資料後,下一步就是將資料儲存到本機或資料庫中。 Python中常用的儲存模組有檔案模組、MySQLdb、pymongo等。

  1. 檔案模組

檔案模組可以將資料儲存到本機,常用的檔案模組有CSV、JSON、Excel等。其中,CSV模組是最常用的檔案模組之一,它可以將資料寫入到CSV檔案中。

例如,將資料寫入CSV檔案:

import csv

filename = 'example.csv'
data = [['name', 'age', 'gender'],
        ['bob', 25, 'male'],
        ['alice', 22, 'female']]

with open(filename, 'w', encoding='utf-8', newline='') as f:
    writer = csv.writer(f)
    for row in data:
        writer.writerow(row)
  1. MySQLdb

MySQLdb是Python連結MySQL資料庫的一個函式庫,它支援事務、遊標等多種功能。

例如,將資料儲存到MySQL資料庫:

import MySQLdb

conn = MySQLdb.connect(host='localhost', port=3306, user='root', 
                       passwd='password', db='example', charset='utf8')
cursor = conn.cursor()

data = [('bob', 25, 'male'), ('alice', 22, 'female')]

sql = "INSERT INTO users (name, age, gender) VALUES (%s, %s, %s)"

try:
    cursor.executemany(sql, data)
    conn.commit()
except:
    conn.rollback()

cursor.close()
conn.close()
  1. pymongo

pymongo是Python連結MongoDB資料庫的一個函式庫,它支援多種操作,如增刪改查等。

例如,將資料儲存到MongoDB資料庫:

import pymongo

client = pymongo.MongoClient('mongodb://localhost:27017/')
db = client['example']
collection = db['users']

data = [{'name': 'bob', 'age': 25, 'gender': 'male'}, 
        {'name': 'alice', 'age': 22, 'gender': 'female'}]

collection.insert_many(data)

四、總結

Python中的Web爬蟲技術包括請求模組、解析模組和儲存模組等方面,其中,請求模組是Web爬蟲的核心,解析模組是獲取資料的重要管道,儲存模組是將資料持久化的必經之路。 Python在Web爬蟲開發中具有簡單易學、高效易用、跨平台等優點,已成為Web爬蟲開發中的重要選擇。

以上是基於Python的Web爬蟲技術詳解的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
Numpy數組與使用數組模塊創建的數組有何不同?Numpy數組與使用數組模塊創建的數組有何不同?Apr 24, 2025 pm 03:53 PM

numpyArraysareAreBetterFornumericalialoperations andmulti-demensionaldata,而learthearrayModuleSutableforbasic,內存效率段

Numpy數組的使用與使用Python中的數組模塊陣列相比如何?Numpy數組的使用與使用Python中的數組模塊陣列相比如何?Apr 24, 2025 pm 03:49 PM

numpyArraySareAreBetterForHeAvyNumericalComputing,而lelethearRayModulesiutable-usemoblemory-connerage-inderabledsswithSimpleDatateTypes.1)NumpyArsofferVerverVerverVerverVersAtility andPerformanceForlargedForlargedAtatasetSetsAtsAndAtasEndCompleXoper.2)

CTYPES模塊與Python中的數組有何關係?CTYPES模塊與Python中的數組有何關係?Apr 24, 2025 pm 03:45 PM

ctypesallowscreatingingangandmanipulatingc-stylarraysinpython.1)usectypestoInterfacewithClibrariesForperfermance.2)createc-stylec-stylec-stylarraysfornumericalcomputations.3)passarraystocfunctions foreforfunctionsforeffortions.however.however,However,HoweverofiousofmemoryManageManiverage,Pressiveo,Pressivero

在Python的上下文中定義'數組”和'列表”。在Python的上下文中定義'數組”和'列表”。Apr 24, 2025 pm 03:41 PM

Inpython,一個“列表” isaversatile,mutableSequencethatCanholdMixedDatateTypes,而“陣列” isamorememory-sepersequeSequeSequeSequeSequeRingequiringElements.1)列表

Python列表是可變還是不變的?那Python陣列呢?Python列表是可變還是不變的?那Python陣列呢?Apr 24, 2025 pm 03:37 PM

pythonlistsandArraysareBothable.1)列表Sareflexibleandsupportereceneousdatabutarelessmory-Memory-Empefficity.2)ArraysareMoremoremoremoreMemoremorememorememorememoremorememogeneSdatabutlesserversEversementime,defteringcorcttypecrecttypececeDepeceDyusagetoagetoavoavoiDerrors。

Python vs. C:了解關鍵差異Python vs. C:了解關鍵差異Apr 21, 2025 am 12:18 AM

Python和C 各有優勢,選擇應基於項目需求。 1)Python適合快速開發和數據處理,因其簡潔語法和動態類型。 2)C 適用於高性能和系統編程,因其靜態類型和手動內存管理。

Python vs.C:您的項目選擇哪種語言?Python vs.C:您的項目選擇哪種語言?Apr 21, 2025 am 12:17 AM

選擇Python還是C 取決於項目需求:1)如果需要快速開發、數據處理和原型設計,選擇Python;2)如果需要高性能、低延遲和接近硬件的控制,選擇C 。

達到python目標:每天2小時的力量達到python目標:每天2小時的力量Apr 20, 2025 am 12:21 AM

通過每天投入2小時的Python學習,可以有效提升編程技能。 1.學習新知識:閱讀文檔或觀看教程。 2.實踐:編寫代碼和完成練習。 3.複習:鞏固所學內容。 4.項目實踐:應用所學於實際項目中。這樣的結構化學習計劃能幫助你係統掌握Python並實現職業目標。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。