首頁  >  文章  >  後端開發  >  python的爬蟲框架有哪些

python的爬蟲框架有哪些

爱喝马黛茶的安东尼
爱喝马黛茶的安东尼原創
2019-06-12 15:38:358311瀏覽

python的爬蟲框架有哪些

python的爬蟲框架有哪些?以下為大家介紹一個常用的python爬蟲的十大框架:

一、Scrapy

Scrapy框架是一套較成熟的Python爬蟲框架,是使用Python開發的快速、高層次的資訊爬取框架,可以有效率的爬取web頁面並提取出結構化資料。

Scrapy應用範圍很廣,爬蟲開發、資料探勘、資料監測、自動化測試等。

二、PySpider

是國人用python寫的一個強大的網路爬蟲框架。主要功能如下:

1、強大的WebUI,包含:腳本編輯器、任務監控器,專案管理器和結果檢視器;
2、多資料庫支持,包括:MySQL, MongoDB, Redis, SQLite, Elasticsearch; PostgreSQL with SQLAlchemy等;
3、使用RabbitMQ, Beanstalk, Redis 和Kombu作為訊息佇列;
4、支援任務優先權設定、定時任務、失敗後重試等;
5、支援分散式爬蟲

三、Crawley

高速爬取對應網站的內容,支援關聯式與非關聯式資料庫,資料可匯出為JSON、XML等

相關推薦:《python影片教學

四、Portia 

##視覺化爬取網頁內容

五、newspaper

提取新聞、文章以及內容分析


#六、python-goose

#java寫的文章擷取工具


七、Beautiful Soup

名氣大,整合了一些常用爬蟲需求。缺點:不能加載JS。

Beautiful Soup 是一個可以從HTML或XML檔案中提取資料的Python庫.它能夠透過你喜歡的轉換器實現慣用的文件導航,查找,修改文件的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間。這個我是使用的特別頻繁的。在取得html元素,都是bs4完成的。

八、mechanize

優點:可以載入JS。缺點:文檔嚴重缺失。不過透過官方的example以及人肉嘗試的方法,還是勉強能用的。


九、selenium

這是一個呼叫瀏覽器的driver,透過這個函式庫你可以直接呼叫瀏覽器完成某些操作,例如輸入驗證碼。


十、cola

一個分散式爬蟲框架。專案整體設計有點糟,模組間耦合度較高。


 

以上是python的爬蟲框架有哪些的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn