作為一種便捷地收集網路資訊並從中抽取出可用資訊的方式,網路爬蟲技術變得越來越有用。使用Python這樣的簡單程式語言,你可以使用少量程式設計技能就可以爬取複雜的網站。
《用Python寫網路爬蟲》作為使用Python來爬取網路資料的傑出指南,講解了從靜態頁面爬取資料的方法以及使用快取來管理伺服器負載的方法。此外,本書還介紹如何使用AJAX URL和Firebug擴充來爬取數據,以及更多有關爬取技術的真相,例如使用瀏覽器渲染、管理cookie、透過提交表單從受驗證碼保護的複雜網站中抽取數據等。本書使用Scrapy創建了一個高級網路爬蟲,並對一些真實的網站進行了爬取。
相關推薦:《python影片教學》
#《用Python寫網路爬蟲》介紹如下內容:
透過追蹤連結來爬取網站;
使用lxml從頁面中抽取資料;
建立執行緒爬蟲來並行爬取頁面;
將下載的內容進行緩存,以降低頻寬消耗;
解析依賴JavaScript的網站;
與表單和會話進行互動;
#解決受保護頁面的驗證碼問題;
對AJAX呼叫進行逆向工程;
使用Scrapy建立進階爬蟲。
本書讀者物件
本書是為想要建立可靠的資料爬取解決方案的開發人員所寫的,本書假定讀者俱有一定的Python程式設計經驗。當然,具備其他程式語言開發經驗的讀者也可以閱讀本書,並理解書中涉及的概念和原則。
作者簡介 · · · · · ·
#Richard Lawson來自澳大利亞,畢業於墨爾本大學電腦科學專業。畢業後,他創辦了一家專注於網路爬蟲的公司,為超過50個國家的業務提供遠距工作。他精通於世界語,可以使用漢語和韓語對話,並且積極投入開源軟體。他目前在牛津大學攻讀研究生學位,並利用業餘時間研發自主無人機。
目錄· · · · · ·
目錄
第1章網路爬蟲簡介1
1.1 網路爬蟲何時有用1
1.2 網路爬蟲是否合法2
1.3 背景調研3
1.3.1 檢查robots.txt 3
1.3.1 檢查robots.txt 3## 1.3.2 檢查網站地圖41.3.3 估算網站大小51.3.4 識別網站所用技術7#1.3.5 尋找網站所有者71.4 寫第一個網路爬蟲81.4.1 下載網頁91.4.2 網站地圖爬蟲121.4.3 ID遍歷爬蟲13 1.4.4 連結爬蟲151.5 本章小結22
第2章資料擷取
#2.1 分析網頁23 2.2 三種網頁抓取方法262.2.1 正規表示式262.2.2 Beautiful Soup 282.2.3 Lxml 30 2.2.4 效能比較322.2.5 結論352.2.6 為鏈結爬蟲新增抓取回呼352.3 本章小結38
第3章下載快取39
3.1 為連結爬蟲新增快取支援393.2 磁碟快取423.2. 1 實作443.2.2 快取測試46#3.2.3 節省磁碟空間463.2.4 清理過期資料473.2.5.5缺點483.3 資料庫快取493.3.1 NoSQL是什麼503.3.2 安裝MongoDB 503.3.3 MongoDB概述50#3.3.4 MongoDB快取實作523.3.5 壓縮543.3.6 快取測試543.4 本章小結55
#第4章並發下載57
4.1 100萬個網頁574.2 串列爬蟲60#4.3 多執行緒爬蟲604.3.1 執行緒與進程如何運作614.3.2 實作614.3.3 多進程爬蟲634.4 效能67
#4.4 效能67
#4.5 本章小結68
第5章動態內容695.1 動態網頁範例69
5.2 對動態網頁進行逆向工程72
5.3 渲染動態網頁77
5.3.1 PyQt還是PySide 785.3.2 執行JavaScript 78
5.3.3 使用WebKit與網站互動80
5.3.4 Selenium 85
5.4 本章小結88
第6章表單互動89#6.1 登入表單90
6.2 支援內容更新的登入腳本擴充97
6.3 使用Mechanize模組實作自動化表單處理100
6.4 本章小結102
第7章驗證碼處理103###7.1 註冊帳號103######7.2 光纖字元辨識106#####7.3 處理複雜驗證碼111######7.3.1 使用驗證碼處理服務112######7.3.2 9kw入門112###7.3.3 與註冊功能集成119
7.4 本章小結120
第8章Scrapy 121
8.1 安裝121
8.2 啟動專案122
8.2.1 定義模型123
8.2.2 建立爬蟲124
#8.2.3 使用shell指令抓取128
8.2.4 檢查結果129
8.2.5 中斷與恢復爬蟲132
8.3 使用Portia編寫可視化爬蟲133
#8.3.1 安裝133
#8.3.2 標註136
8.3.3 優化爬蟲138
8.3.4 檢查結果140
8.4 使用Scrapely實現自動化抓取141
8.5 本章小結142
第9章總結143
9.1 Google搜尋引擎143
#9.2 Facebook 148
#9.2. 1 網站148
9.2.2 API 150
9.3 Gap 151
9.4 寶馬153
9.5
#9.4 寶馬153######9.5 157#本章小結157######157####1157###157137####157####1571137####157####157137#。以上是python爬蟲看哪本書的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于Seaborn的相关问题,包括了数据可视化处理的散点图、折线图、条形图等等内容,下面一起来看一下,希望对大家有帮助。

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于进程池与进程锁的相关问题,包括进程池的创建模块,进程池函数等等内容,下面一起来看一下,希望对大家有帮助。

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于简历筛选的相关问题,包括了定义 ReadDoc 类用以读取 word 文件以及定义 search_word 函数用以筛选的相关内容,下面一起来看一下,希望对大家有帮助。

VS Code的确是一款非常热门、有强大用户基础的一款开发工具。本文给大家介绍一下10款高效、好用的插件,能够让原本单薄的VS Code如虎添翼,开发效率顿时提升到一个新的阶段。

pythn的中文意思是巨蟒、蟒蛇。1989年圣诞节期间,Guido van Rossum在家闲的没事干,为了跟朋友庆祝圣诞节,决定发明一种全新的脚本语言。他很喜欢一个肥皂剧叫Monty Python,所以便把这门语言叫做python。

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于数据类型之字符串、数字的相关问题,下面一起来看一下,希望对大家有帮助。

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于numpy模块的相关问题,Numpy是Numerical Python extensions的缩写,字面意思是Python数值计算扩展,下面一起来看一下,希望对大家有帮助。


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3 Linux新版
SublimeText3 Linux最新版

記事本++7.3.1
好用且免費的程式碼編輯器

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

禪工作室 13.0.1
強大的PHP整合開發環境