作為一種便捷地收集網路資訊並從中抽取出可用資訊的方式,網路爬蟲技術變得越來越有用。使用Python這樣的簡單程式語言,你可以使用少量程式設計技能就可以爬取複雜的網站。
《用Python寫網路爬蟲》作為使用Python來爬取網路資料的傑出指南,講解了從靜態頁面爬取資料的方法以及使用快取來管理伺服器負載的方法。此外,本書還介紹如何使用AJAX URL和Firebug擴充來爬取數據,以及更多有關爬取技術的真相,例如使用瀏覽器渲染、管理cookie、透過提交表單從受驗證碼保護的複雜網站中抽取數據等。本書使用Scrapy創建了一個高級網路爬蟲,並對一些真實的網站進行了爬取。
相關推薦:《python影片教學》
#《用Python寫網路爬蟲》介紹如下內容:
透過追蹤連結來爬取網站;
使用lxml從頁面中抽取資料;
建立執行緒爬蟲來並行爬取頁面;
將下載的內容進行緩存,以降低頻寬消耗;
解析依賴JavaScript的網站;
與表單和會話進行互動;
#解決受保護頁面的驗證碼問題;
對AJAX呼叫進行逆向工程;
使用Scrapy建立進階爬蟲。
本書讀者物件
本書是為想要建立可靠的資料爬取解決方案的開發人員所寫的,本書假定讀者俱有一定的Python程式設計經驗。當然,具備其他程式語言開發經驗的讀者也可以閱讀本書,並理解書中涉及的概念和原則。
作者簡介 · · · · · ·
#Richard Lawson來自澳大利亞,畢業於墨爾本大學電腦科學專業。畢業後,他創辦了一家專注於網路爬蟲的公司,為超過50個國家的業務提供遠距工作。他精通於世界語,可以使用漢語和韓語對話,並且積極投入開源軟體。他目前在牛津大學攻讀研究生學位,並利用業餘時間研發自主無人機。
目錄· · · · · ·
目錄
第1章網路爬蟲簡介1
1.1 網路爬蟲何時有用1
1.2 網路爬蟲是否合法2
1.3 背景調研3
1.3.1 檢查robots.txt 3
1.3.1 檢查robots.txt 3## 1.3.2 檢查網站地圖41.3.3 估算網站大小51.3.4 識別網站所用技術7#1.3.5 尋找網站所有者71.4 寫第一個網路爬蟲81.4.1 下載網頁91.4.2 網站地圖爬蟲121.4.3 ID遍歷爬蟲13 1.4.4 連結爬蟲151.5 本章小結22
第2章資料擷取
#2.1 分析網頁23 2.2 三種網頁抓取方法262.2.1 正規表示式262.2.2 Beautiful Soup 282.2.3 Lxml 30 2.2.4 效能比較322.2.5 結論352.2.6 為鏈結爬蟲新增抓取回呼352.3 本章小結38
第3章下載快取39
3.1 為連結爬蟲新增快取支援393.2 磁碟快取423.2. 1 實作443.2.2 快取測試46#3.2.3 節省磁碟空間463.2.4 清理過期資料473.2.5.5缺點483.3 資料庫快取493.3.1 NoSQL是什麼503.3.2 安裝MongoDB 503.3.3 MongoDB概述50#3.3.4 MongoDB快取實作523.3.5 壓縮543.3.6 快取測試543.4 本章小結55
#第4章並發下載57
4.1 100萬個網頁574.2 串列爬蟲60#4.3 多執行緒爬蟲604.3.1 執行緒與進程如何運作614.3.2 實作614.3.3 多進程爬蟲634.4 效能67
#4.4 效能67
#4.5 本章小結68
第5章動態內容695.1 動態網頁範例69
5.2 對動態網頁進行逆向工程72
5.3 渲染動態網頁77
5.3.1 PyQt還是PySide 785.3.2 執行JavaScript 78
5.3.3 使用WebKit與網站互動80
5.3.4 Selenium 85
5.4 本章小結88
第6章表單互動89#6.1 登入表單90
6.2 支援內容更新的登入腳本擴充97
6.3 使用Mechanize模組實作自動化表單處理100
6.4 本章小結102
第7章驗證碼處理103###7.1 註冊帳號103######7.2 光纖字元辨識106#####7.3 處理複雜驗證碼111######7.3.1 使用驗證碼處理服務112######7.3.2 9kw入門112###7.3.3 與註冊功能集成119
7.4 本章小結120
第8章Scrapy 121
8.1 安裝121
8.2 啟動專案122
8.2.1 定義模型123
8.2.2 建立爬蟲124
#8.2.3 使用shell指令抓取128
8.2.4 檢查結果129
8.2.5 中斷與恢復爬蟲132
8.3 使用Portia編寫可視化爬蟲133
#8.3.1 安裝133
#8.3.2 標註136
8.3.3 優化爬蟲138
8.3.4 檢查結果140
8.4 使用Scrapely實現自動化抓取141
8.5 本章小結142
第9章總結143
9.1 Google搜尋引擎143
#9.2 Facebook 148
#9.2. 1 網站148
9.2.2 API 150
9.3 Gap 151
9.4 寶馬153
9.5
#9.4 寶馬153######9.5 157#本章小結157######157####1157###157137####157####1571137####157####157137#。以上是python爬蟲看哪本書的詳細內容。更多資訊請關注PHP中文網其他相關文章!

Python更易學且易用,C 則更強大但複雜。 1.Python語法簡潔,適合初學者,動態類型和自動內存管理使其易用,但可能導致運行時錯誤。 2.C 提供低級控制和高級特性,適合高性能應用,但學習門檻高,需手動管理內存和類型安全。

Python和C 在内存管理和控制方面的差异显著。1.Python使用自动内存管理,基于引用计数和垃圾回收,简化了程序员的工作。2.C 则要求手动管理内存,提供更多控制权但增加了复杂性和出错风险。选择哪种语言应基于项目需求和团队技术栈。

Python在科學計算中的應用包括數據分析、機器學習、數值模擬和可視化。 1.Numpy提供高效的多維數組和數學函數。 2.SciPy擴展Numpy功能,提供優化和線性代數工具。 3.Pandas用於數據處理和分析。 4.Matplotlib用於生成各種圖表和可視化結果。

選擇Python還是C 取決於項目需求:1)Python適合快速開發、數據科學和腳本編寫,因其簡潔語法和豐富庫;2)C 適用於需要高性能和底層控制的場景,如係統編程和遊戲開發,因其編譯型和手動內存管理。

Python在數據科學和機器學習中的應用廣泛,主要依賴於其簡潔性和強大的庫生態系統。 1)Pandas用於數據處理和分析,2)Numpy提供高效的數值計算,3)Scikit-learn用於機器學習模型構建和優化,這些庫讓Python成為數據科學和機器學習的理想工具。

每天學習Python兩個小時是否足夠?這取決於你的目標和學習方法。 1)制定清晰的學習計劃,2)選擇合適的學習資源和方法,3)動手實踐和復習鞏固,可以在這段時間內逐步掌握Python的基本知識和高級功能。

Python在Web開發中的關鍵應用包括使用Django和Flask框架、API開發、數據分析與可視化、機器學習與AI、以及性能優化。 1.Django和Flask框架:Django適合快速開發複雜應用,Flask適用於小型或高度自定義項目。 2.API開發:使用Flask或DjangoRESTFramework構建RESTfulAPI。 3.數據分析與可視化:利用Python處理數據並通過Web界面展示。 4.機器學習與AI:Python用於構建智能Web應用。 5.性能優化:通過異步編程、緩存和代碼優

Python在開發效率上優於C ,但C 在執行性能上更高。 1.Python的簡潔語法和豐富庫提高開發效率。 2.C 的編譯型特性和硬件控制提升執行性能。選擇時需根據項目需求權衡開發速度與執行效率。


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3漢化版
中文版,非常好用

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具