什麼是爬蟲？爬蟲的基本流程是什麼？-Python教學-PHP中文網

首頁

後端開發

Python教學

什麼是爬蟲？爬蟲的基本流程是什麼？

零下一度

Jul 23, 2017 pm 01:41 PM

python3什麼筆記

網路爬蟲是一種程式,主要用於搜尋引擎,它將一個網站的所有內容與連結進行閱讀,並建立相關的全文索引到資料庫中,然後跳到另一個網站.樣子好像一隻大蜘蛛.
當人們在網路上(如google)搜尋關鍵字時,其實就是比對資料庫中的內容,找出與使用者相符的.網路爬蟲程式的品質決定了搜尋引擎的能力,如google的搜尋引擎明顯要比百度好,就是因為它的網路爬蟲程式高效,程式設計結構好.

一、什麼是爬蟲　

#　　首先簡單的理解一下爬蟲。即請求網站並且提取自己所需的資料的一個過程。至於怎麼爬如何爬，將是後面學習的內容，暫且不必深究。透過我們的程序，可以代替我們向伺服器發送請求，然後進行批量、大量的資料的下載。

二、爬蟲的基本流程

#發起請求：透過url向伺服器發起request請求，請求可以包含額外的header資訊。
取得回應內容：如果伺服器正常回應，那我們將會收到一個response，response就是我們所要求的網頁內容，或許包含HTML， Json字串或二進位的資料（影片、圖片）等。
解析內容：如果是HTML程式碼，則可以使用網頁解析器進行解析，如果是Json數據，則可以轉換成Json物件進行解析，如果是二進制的數據，則可以儲存到檔案進行進一步處理。
儲存資料：可以儲存到本機文件，也可以儲存到資料庫（MySQL，Redis，Mongodb等）

　三、request請求包含什麼

　　　　當我們透過瀏覽器向伺服器發送request請求時，這個request包含了一些什麼資訊呢？我們可以透過chrome的開發者工具進行說明（如果不知道如何使用看本篇備註）。

請求方式：最常用的請求方式包含get請求和post請求。 post請求在開發中最常見的是透過表單提交，從使用者角度來講，最常見的就是登入驗證。當你需要輸入一些資訊進行登入的時候，這次請求即為post請求。
url統一資源定位符：一個網址，一張圖片，一個影片等都可以用url去定義。當我們要求一個網頁時，我們可以查看network標籤，第一個通常是一個document，也就是說這個document是一個未加外部圖片、css、js等渲染的html代碼，在這個document的下面我們會看到一系列的jpg，js等，這是瀏覽器根據html代碼發起的一次又一次的請求，而請求的地址，即為html文檔中圖片、js等的url地址
#request headers：請求頭，包括這次請求的請求類型，cookie資訊以及瀏覽器類型等。這個請求頭在我們進行網頁抓取的時候還是有些作用的，伺服器會透過解析請求頭來進行資訊的審核，判斷這次請求是一次合法的請求。所以當我們透過程式偽裝瀏覽器進行請求的時候，就可以設定一下請求頭的資訊。
請求體：post請求會把使用者資訊包裝在form-data裡面進行提交，因此相較於get請求，post請求的Headers標籤的內容會多出Form Data這個資訊包。 get請求可以簡單的理解為普通的搜尋回車，訊息將會以?間隔添加在url的後面。

　四、response包含什麼

##回應狀態：透過Headers中的General可以看到status code。 200表示成功，301跳轉，404找不到網頁，502伺服器錯誤等。
回應頭：包括了內容的類型，cookie訊息等。 ######
回應體：請求的目的就是為了得到回應體，包括html程式碼，Json以及二進位資料等。

　五、簡單的請求示範

　　　　透過Python的request庫進行網頁請求：

#　　　　輸出的結果就是尚未渲染的網頁程式碼，也就是請求體的內容。可以查看回應頭的資訊：

　　　　##檢視狀態碼：##　　#　　

#CC

##HHHOaF

HHHa號

也可以將請求頭加入到請求資訊裡面：

抓取圖片（百度標誌

　　　　2）：

使用Selenium web

　　　　##使用Selenium web

###　　」 #######　　　　#########　　　　###輸入print(driver.page_source)可以看到，這次的程式碼是渲染之後的程式碼。 ############【備註】chrome瀏覽器的使用#####################F12開啟開發者工具#### ####################　　############### ######　　###Elements標籤顯示了明顯後的HTML程式碼。 ##################Network標籤################　　#########　　###Network標籤下有瀏覽器請求的數據，點開可以查看詳細的信息，如上提到的request headers、response headers等等。 ################

以上是什麼是爬蟲？爬蟲的基本流程是什麼？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

Python中的合併列表：選擇正確的方法May 14, 2025 am 12:11 AM

Tomergelistsinpython，YouCanusethe操作員，estextMethod，ListComprehension，Oritertools

如何在Python 3中加入兩個列表？May 14, 2025 am 12:09 AM

在Python3中，可以通過多種方法連接兩個列表：1)使用運算符，適用於小列表，但對大列表效率低；2)使用extend方法，適用於大列表，內存效率高，但會修改原列表；3)使用*運算符，適用於合併多個列表，不修改原列表；4)使用itertools.chain，適用於大數據集，內存效率高。

Python串聯列表字符串May 14, 2025 am 12:08 AM

使用join()方法是Python中從列表連接字符串最有效的方法。 1)使用join()方法高效且易讀。 2)循環使用運算符對大列表效率低。 3)列表推導式與join()結合適用於需要轉換的場景。 4)reduce()方法適用於其他類型歸約，但對字符串連接效率低。完整句子結束。

Python執行，那是什麼？May 14, 2025 am 12:06 AM

pythonexecutionistheprocessoftransformingpypythoncodeintoExecutablestructions.1）InternterPreterReadSthecode，ConvertingTingitIntObyTecode，whepythonvirtualmachine（pvm）theglobalinterpreterpreterpreterpreterlock（gil）the thepythonvirtualmachine（pvm）

Python：關鍵功能是什麼May 14, 2025 am 12:02 AM

Python的關鍵特性包括：1.語法簡潔易懂，適合初學者；2.動態類型系統，提高開發速度；3.豐富的標準庫，支持多種任務；4.強大的社區和生態系統，提供廣泛支持；5.解釋性，適合腳本和快速原型開發；6.多範式支持，適用於各種編程風格。

Python：編譯器還是解釋器？May 13, 2025 am 12:10 AM

Python是解釋型語言，但也包含編譯過程。 1）Python代碼先編譯成字節碼。 2）字節碼由Python虛擬機解釋執行。 3）這種混合機制使Python既靈活又高效，但執行速度不如完全編譯型語言。

python用於循環與循環時：何時使用哪個？May 13, 2025 am 12:07 AM

UseeAforloopWheniteratingOveraseQuenceOrforAspecificnumberoftimes; useAwhiLeLoopWhenconTinuingUntilAcIntiment.forloopsareIdealForkNownsences，而WhileLeleLeleLeleLeleLoopSituationSituationsItuationsItuationSuationSituationswithUndEtermentersitations。