作為一種便捷地收集網路資訊並從中抽取出可用資訊的方式,網路爬蟲技術變得越來越有用。使用Python這樣的簡單程式語言,你可以使用少量程式設計技能就可以爬取複雜的網站。
《用Python寫網路爬蟲》作為使用Python來爬取網路資料的傑出指南,講解了從靜態頁面爬取資料的方法以及使用快取來管理伺服器負載的方法。此外,本書還介紹如何使用AJAX URL和Firebug擴充來爬取數據,以及更多有關爬取技術的真相,例如使用瀏覽器渲染、管理cookie、透過提交表單從受驗證碼保護的複雜網站中抽取數據等。本書使用Scrapy創建了一個高級網路爬蟲,並對一些真實的網站進行了爬取。
相關推薦:《python影片教學》
#《用Python寫網路爬蟲》介紹如下內容:
透過追蹤連結來爬取網站;
使用lxml從頁面中抽取資料;
建立執行緒爬蟲來並行爬取頁面;
將下載的內容進行緩存,以降低頻寬消耗;
解析依賴JavaScript的網站;
與表單和會話進行互動;
#解決受保護頁面的驗證碼問題;
對AJAX呼叫進行逆向工程;
使用Scrapy建立進階爬蟲。
本書讀者物件
本書是為想要建立可靠的資料爬取解決方案的開發人員所寫的,本書假定讀者俱有一定的Python程式設計經驗。當然,具備其他程式語言開發經驗的讀者也可以閱讀本書,並理解書中涉及的概念和原則。
作者簡介 · · · · · ·
#Richard Lawson來自澳大利亞,畢業於墨爾本大學電腦科學專業。畢業後,他創辦了一家專注於網路爬蟲的公司,為超過50個國家的業務提供遠距工作。他精通於世界語,可以使用漢語和韓語對話,並且積極投入開源軟體。他目前在牛津大學攻讀研究生學位,並利用業餘時間研發自主無人機。
目錄· · · · · ·
目錄
第1章網路爬蟲簡介1
1.1 網路爬蟲何時有用1
1.2 網路爬蟲是否合法2
1.3 背景調研3
1.3.1 檢查robots.txt 3
1.3.1 檢查robots.txt 3## 1.3.2 檢查網站地圖41.3.3 估算網站大小51.3.4 識別網站所用技術7#1.3.5 尋找網站所有者71.4 寫第一個網路爬蟲81.4.1 下載網頁91.4.2 網站地圖爬蟲121.4.3 ID遍歷爬蟲13 1.4.4 連結爬蟲151.5 本章小結22
第2章資料擷取
#2.1 分析網頁23 2.2 三種網頁抓取方法262.2.1 正規表示式262.2.2 Beautiful Soup 282.2.3 Lxml 30 2.2.4 效能比較322.2.5 結論352.2.6 為鏈結爬蟲新增抓取回呼352.3 本章小結38
第3章下載快取39
3.1 為連結爬蟲新增快取支援393.2 磁碟快取423.2. 1 實作443.2.2 快取測試46#3.2.3 節省磁碟空間463.2.4 清理過期資料473.2.5.5缺點483.3 資料庫快取493.3.1 NoSQL是什麼503.3.2 安裝MongoDB 503.3.3 MongoDB概述50#3.3.4 MongoDB快取實作523.3.5 壓縮543.3.6 快取測試543.4 本章小結55
#第4章並發下載57
4.1 100萬個網頁574.2 串列爬蟲60#4.3 多執行緒爬蟲604.3.1 執行緒與進程如何運作614.3.2 實作614.3.3 多進程爬蟲634.4 效能67
#4.4 效能67
#4.5 本章小結68
第5章動態內容695.1 動態網頁範例69
5.2 對動態網頁進行逆向工程72
5.3 渲染動態網頁77
5.3.1 PyQt還是PySide 785.3.2 執行JavaScript 78
5.3.3 使用WebKit與網站互動80
5.3.4 Selenium 85
5.4 本章小結88
第6章表單互動89#6.1 登入表單90
6.2 支援內容更新的登入腳本擴充97
6.3 使用Mechanize模組實作自動化表單處理100
6.4 本章小結102
第7章驗證碼處理103###7.1 註冊帳號103######7.2 光纖字元辨識106#####7.3 處理複雜驗證碼111######7.3.1 使用驗證碼處理服務112######7.3.2 9kw入門112###7.3.3 與註冊功能集成119
7.4 本章小結120
第8章Scrapy 121
8.1 安裝121
8.2 啟動專案122
8.2.1 定義模型123
8.2.2 建立爬蟲124
#8.2.3 使用shell指令抓取128
8.2.4 檢查結果129
8.2.5 中斷與恢復爬蟲132
8.3 使用Portia編寫可視化爬蟲133
#8.3.1 安裝133
#8.3.2 標註136
8.3.3 優化爬蟲138
8.3.4 檢查結果140
8.4 使用Scrapely實現自動化抓取141
8.5 本章小結142
第9章總結143
9.1 Google搜尋引擎143
#9.2 Facebook 148
#9.2. 1 網站148
9.2.2 API 150
9.3 Gap 151
9.4 寶馬153
9.5
#9.4 寶馬153######9.5 157#本章小結157######157####1157###157137####157####1571137####157####157137#。以上是python爬蟲看哪本書的詳細內容。更多資訊請關注PHP中文網其他相關文章!