python爬蟲看哪本書-Python教學-PHP中文網

首頁

後端開發

Python教學

python爬蟲看哪本書

爱喝马黛茶的安东尼

Jun 12, 2019 am 10:52 AM

python爬蟲

作為一種便捷地收集網路資訊並從中抽取出可用資訊的方式，網路爬蟲技術變得越來越有用。使用Python這樣的簡單程式語言，你可以使用少量程式設計技能就可以爬取複雜的網站。

python爬蟲看哪本書

《用Python寫網路爬蟲》作為使用Python來爬取網路資料的傑出指南，講解了從靜態頁面爬取資料的方法以及使用快取來管理伺服器負載的方法。此外，本書還介紹如何使用AJAX URL和Firebug擴充來爬取數據，以及更多有關爬取技術的真相，例如使用瀏覽器渲染、管理cookie、透過提交表單從受驗證碼保護的複雜網站中抽取數據等。本書使用Scrapy創建了一個高級網路爬蟲，並對一些真實的網站進行了爬取。

相關推薦：《python影片教學》

python爬蟲看哪本書

#《用Python寫網路爬蟲》介紹如下內容：

透過追蹤連結來爬取網站；

使用lxml從頁面中抽取資料；

建立執行緒爬蟲來並行爬取頁面；

將下載的內容進行緩存，以降低頻寬消耗；

解析依賴JavaScript的網站；

與表單和會話進行互動；

#解決受保護頁面的驗證碼問題；

對AJAX呼叫進行逆向工程；

使用Scrapy建立進階爬蟲。

本書讀者物件

本書是為想要建立可靠的資料爬取解決方案的開發人員所寫的，本書假定讀者俱有一定的Python程式設計經驗。當然，具備其他程式語言開發經驗的讀者也可以閱讀本書，並理解書中涉及的概念和原則。

作者簡介 · · · · · ·

#Richard Lawson來自澳大利亞，畢業於墨爾本大學電腦科學專業。畢業後，他創辦了一家專注於網路爬蟲的公司，為超過50個國家的業務提供遠距工作。他精通於世界語，可以使用漢語和韓語對話，並且積極投入開源軟體。他目前在牛津大學攻讀研究生學位，並利用業餘時間研發自主無人機。

目錄· · · · · ·

第1章網路爬蟲簡介1

1.1　網路爬蟲何時有用1

1.2　網路爬蟲是否合法2

1.3　背景調研3

1.3.1　檢查robots.txt　3

## 1.3.2　檢查網站地圖4

1.3.3　估算網站大小5

1.3.4　識別網站所用技術7

#1.3.5　尋找網站所有者7

1.4　寫第一個網路爬蟲8

1.4.1　下載網頁9

1.4.2　網站地圖爬蟲12

1.4.3　ID遍歷爬蟲13

1.4.4　連結爬蟲15

1.5　本章小結22

第2章資料擷取

#2.1　分析網頁23

2.2　三種網頁抓取方法26

2.2.1　正規表示式26

2.2.2　Beautiful Soup　28

2.2.3　Lxml　30

2.2.4　效能比較32

2.2.5　結論35

2.2.6　為鏈結爬蟲新增抓取回呼35

2.3　本章小結38

第3章下載快取39

3.1　為連結爬蟲新增快取支援39

3.2　磁碟快取42

3.2. 1　實作44

3.2.2　快取測試46

#3.2.3　節省磁碟空間46

3.2.4　清理過期資料47

3.2.5.5缺點48

3.3　資料庫快取49

3.3.1　NoSQL是什麼50

3.3.2　安裝MongoDB　50

3.3.3　MongoDB概述50

#3.3.4　MongoDB快取實作52

3.3.5　壓縮54

3.3.6　快取測試54

3.4　本章小結55

#第4章並發下載57

4.1　100萬個網頁57

4.2　串列爬蟲60

#4.3　多執行緒爬蟲60

4.3.1　執行緒與進程如何運作61

4.3.2　實作61

4.3.3　多進程爬蟲63

4.4　效能67

#4.4　效能67

#4.5　本章小結68

第5章動態內容69

5.1　動態網頁範例69

5.2　對動態網頁進行逆向工程72

5.3　渲染動態網頁77

5.3.1　PyQt還是PySide　785.3.2　執行JavaScript　78

5.3.3　使用WebKit與網站互動80

5.3.4　Selenium　85

5.4　本章小結88

第6章表單互動89

#6.1　登入表單90

6.2　支援內容更新的登入腳本擴充97

6.3　使用Mechanize模組實作自動化表單處理100

6.4　本章小結102

第7章驗證碼處理103

###7.1　註冊帳號103######7.2　光纖字元辨識106#####7.3　處理複雜驗證碼111######7.3.1　使用驗證碼處理服務112######7.3.2　9kw入門112###

7.3.3　與註冊功能集成119

7.4　本章小結120

第8章Scrapy　121

8.1　安裝121

8.2　啟動專案122

8.2.1　定義模型123

8.2.2　建立爬蟲124

#8.2.3　使用shell指令抓取128

8.2.4　檢查結果129

8.2.5　中斷與恢復爬蟲132

8.3　使用Portia編寫可視化爬蟲133

#8.3.1　安裝133

#8.3.2　標註136

8.3.3　優化爬蟲138

8.3.4　檢查結果140

8.4　使用Scrapely實現自動化抓取141

8.5　本章小結142

第9章總結143

9.1　Google搜尋引擎143

#9.2　Facebook　148

#9.2. 1　網站148

9.2.2　API　150

9.3　Gap　151

9.4　寶馬153

9.5　

#9.4　寶馬153######9.5　157#本章小結157######157####1157###157137####157####1571137####157####157137#。

以上是python爬蟲看哪本書的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

Python與C：學習曲線和易用性Apr 19, 2025 am 12:20 AM

Python更易學且易用，C 則更強大但複雜。 1.Python語法簡潔，適合初學者，動態類型和自動內存管理使其易用，但可能導致運行時錯誤。 2.C 提供低級控制和高級特性，適合高性能應用，但學習門檻高，需手動管理內存和類型安全。

Python vs. C：內存管理和控制Apr 19, 2025 am 12:17 AM

Python和C 在内存管理和控制方面的差异显著。1.Python使用自动内存管理，基于引用计数和垃圾回收，简化了程序员的工作。2.C 则要求手动管理内存，提供更多控制权但增加了复杂性和出错风险。选择哪种语言应基于项目需求和团队技术栈。

科學計算的Python：詳細的外觀Apr 19, 2025 am 12:15 AM

Python在科學計算中的應用包括數據分析、機器學習、數值模擬和可視化。 1.Numpy提供高效的多維數組和數學函數。 2.SciPy擴展Numpy功能，提供優化和線性代數工具。 3.Pandas用於數據處理和分析。 4.Matplotlib用於生成各種圖表和可視化結果。

Python和C：找到合適的工具Apr 19, 2025 am 12:04 AM

選擇Python還是C 取決於項目需求：1)Python適合快速開發、數據科學和腳本編寫，因其簡潔語法和豐富庫；2)C 適用於需要高性能和底層控制的場景，如係統編程和遊戲開發，因其編譯型和手動內存管理。

數據科學和機器學習的PythonApr 19, 2025 am 12:02 AM

Python在數據科學和機器學習中的應用廣泛，主要依賴於其簡潔性和強大的庫生態系統。 1）Pandas用於數據處理和分析，2）Numpy提供高效的數值計算，3）Scikit-learn用於機器學習模型構建和優化，這些庫讓Python成為數據科學和機器學習的理想工具。

學習Python：2小時的每日學習是否足夠？Apr 18, 2025 am 12:22 AM

每天學習Python兩個小時是否足夠？這取決於你的目標和學習方法。 1)制定清晰的學習計劃，2)選擇合適的學習資源和方法，3)動手實踐和復習鞏固，可以在這段時間內逐步掌握Python的基本知識和高級功能。

Web開發的Python：關鍵應用程序Apr 18, 2025 am 12:20 AM

Python在Web開發中的關鍵應用包括使用Django和Flask框架、API開發、數據分析與可視化、機器學習與AI、以及性能優化。 1.Django和Flask框架：Django適合快速開發複雜應用，Flask適用於小型或高度自定義項目。 2.API開發：使用Flask或DjangoRESTFramework構建RESTfulAPI。 3.數據分析與可視化：利用Python處理數據並通過Web界面展示。 4.機器學習與AI：Python用於構建智能Web應用。 5.性能優化：通過異步編程、緩存和代碼優