搜尋
首頁後端開發Python教學什麼是爬蟲?爬蟲的基本流程是什麼?

什麼是爬蟲?爬蟲的基本流程是什麼?

Jul 23, 2017 pm 01:41 PM
python3什麼筆記

    網路爬蟲是一種程式,主要用於搜尋引擎,它將一個網站的所有內容與連結進行閱讀,並建立相關的全文索引到資料庫中,然後跳到另一個網站.樣子好像一隻大蜘蛛.
當人們在網路上(如google)搜尋關鍵字時,其實就是比對資料庫中的內容,找出與使用者相符的.網路爬蟲程式的品質決定了搜尋引擎的能力,如google的搜尋引擎明顯要比百度好,就是因為它的網路爬蟲程式高效,程式設計結構好.

一、什麼是爬蟲 

#  首先簡單的理解一下爬蟲。即請求網站並且提取自己所需的資料的一個過程。至於怎麼爬如何爬,將是後面學習的內容,暫且不必深究。透過我們的程序,可以代替我們向伺服器發送請求,然後進行批量、大量的資料的下載。

二、爬蟲的基本流程

  1. #發起請求:透過url向伺服器發起request請求,請求可以包含額外的header資訊。

  2. 取得回應內容:如果伺服器正常回應,那我們將會收到一個response,response就是我們所要求的網頁內容,或許包含HTML, Json字串或二進位的資料(影片、圖片)等。

  3. 解析內容:如果是HTML程式碼,則可以使用網頁解析器進行解析,如果是Json數據,則可以轉換成Json物件進行解析,如果是二進制的數據,則可以儲存到檔案進行進一步處理。

  4. 儲存資料:可以儲存到本機文件,也可以儲存到資料庫(MySQL,Redis,Mongodb等) 

#  

  三、request請求包含什麼

    當我們透過瀏覽器向伺服器發送request請求時,這個request包含了一些什麼資訊呢?我們可以透過chrome的開發者工具進行說明(如果不知道如何使用看本篇備註)。

  1. 請求方式:最常用的請求方式包含get請求和post請求。 post請求在開發中最常見的是透過表單提交,從使用者角度來講,最常見的就是登入驗證。當你需要輸入一些資訊進行登入的時候,這次請求即為post請求。

  2. url統一資源定位符:一個網址,一張圖片,一個影片等都可以用url去定義。當我們要求一個網頁時,我們可以查看network標籤,第一個通常是一個document,也就是說這個document是一個未加外部圖片、css、js等渲染的html代碼,在這個document的下面我們會看到一系列的jpg,js等,這是瀏覽器根據html代碼發起的一次又一次的請求,而請求的地址,即為html文檔中圖片、js等的url地址

  3. #request headers:請求頭,包括這次請求的請求類型,cookie資訊以及瀏覽器類型等。 這個請求頭在我們進行網頁抓取的時候還是有些作用的,伺服器會透過解析請求頭來進行資訊的審核,判斷這次請求是一次合法的請求。所以當我們透過程式偽裝瀏覽器進行請求的時候,就可以設定一下請求頭的資訊。

  4. 請求體:post請求會把使用者資訊包裝在form-data裡面進行提交,因此相較於get請求,post請求的Headers標籤的內容會多出Form Data這個資訊包。 get請求可以簡單的理解為普通的搜尋回車,訊息將會以?間隔添加在url的後面。

  

 四、response包含什麼

  1. ##回應狀態:透過Headers中的General可以看到status code。 200表示成功,301跳轉,404找不到網頁,502伺服器錯誤等。
  2. 回應頭:包括了內容的類型,cookie訊息等。 ######
  3. 回應體:請求的目的就是為了得到回應體,包括html程式碼,Json以及二進位資料等。

 

  五、簡單的請求示範

    透過Python的request庫進行網頁請求:

    

#    輸出的結果就是尚未渲染的網頁程式碼,也就是請求體的內容。可以查看回應頭的資訊:

    

    ##檢視狀態碼:##  #  

#CC

##HHHOaF

CC

HHHa號

  • CHH
  •  
也可以將請求頭加入到請求資訊裡面:

    

    

抓取圖片(百度標誌

    2):

        
  •  

     
  • 六、如何解決JavaScript渲染問題 

#    

使用Selenium web

    ##使用Selenium web

    ##使用Selenium web

    ##使用Selenium web

###  」 #######    #########    ###輸入print(driver.page_source)可以看到,這次的程式碼是渲染之後的程式碼。 ############【備註】chrome瀏覽器的使用#####################F12開啟開發者工具#### ####################  ############### ######  ###Elements標籤顯示了明顯後的HTML程式碼。 ##################Network標籤################  #########  ###Network標籤下有瀏覽器請求的數據,點開可以查看詳細的信息,如上提到的request headers、response headers等等。 ################

以上是什麼是爬蟲?爬蟲的基本流程是什麼?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
Python中的合併列表:選擇正確的方法Python中的合併列表:選擇正確的方法May 14, 2025 am 12:11 AM

Tomergelistsinpython,YouCanusethe操作員,estextMethod,ListComprehension,Oritertools

如何在Python 3中加入兩個列表?如何在Python 3中加入兩個列表?May 14, 2025 am 12:09 AM

在Python3中,可以通過多種方法連接兩個列表:1)使用 運算符,適用於小列表,但對大列表效率低;2)使用extend方法,適用於大列表,內存效率高,但會修改原列表;3)使用*運算符,適用於合併多個列表,不修改原列表;4)使用itertools.chain,適用於大數據集,內存效率高。

Python串聯列表字符串Python串聯列表字符串May 14, 2025 am 12:08 AM

使用join()方法是Python中從列表連接字符串最有效的方法。 1)使用join()方法高效且易讀。 2)循環使用 運算符對大列表效率低。 3)列表推導式與join()結合適用於需要轉換的場景。 4)reduce()方法適用於其他類型歸約,但對字符串連接效率低。完整句子結束。

Python執行,那是什麼?Python執行,那是什麼?May 14, 2025 am 12:06 AM

pythonexecutionistheprocessoftransformingpypythoncodeintoExecutablestructions.1)InternterPreterReadSthecode,ConvertingTingitIntObyTecode,whepythonvirtualmachine(pvm)theglobalinterpreterpreterpreterpreterlock(gil)the thepythonvirtualmachine(pvm)

Python:關鍵功能是什麼Python:關鍵功能是什麼May 14, 2025 am 12:02 AM

Python的關鍵特性包括:1.語法簡潔易懂,適合初學者;2.動態類型系統,提高開發速度;3.豐富的標準庫,支持多種任務;4.強大的社區和生態系統,提供廣泛支持;5.解釋性,適合腳本和快速原型開發;6.多範式支持,適用於各種編程風格。

Python:編譯器還是解釋器?Python:編譯器還是解釋器?May 13, 2025 am 12:10 AM

Python是解釋型語言,但也包含編譯過程。 1)Python代碼先編譯成字節碼。 2)字節碼由Python虛擬機解釋執行。 3)這種混合機制使Python既靈活又高效,但執行速度不如完全編譯型語言。

python用於循環與循環時:何時使用哪個?python用於循環與循環時:何時使用哪個?May 13, 2025 am 12:07 AM

UseeAforloopWheniteratingOveraseQuenceOrforAspecificnumberoftimes; useAwhiLeLoopWhenconTinuingUntilAcIntiment.forloopsareIdealForkNownsences,而WhileLeleLeleLeleLeleLoopSituationSituationsItuationsItuationSuationSituationswithUndEtermentersitations。

Python循環:最常見的錯誤Python循環:最常見的錯誤May 13, 2025 am 12:07 AM

pythonloopscanleadtoerrorslikeinfiniteloops,modifyingListsDuringteritation,逐個偏置,零indexingissues,andnestedloopineflinefficiencies

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具