python的爬蟲框架有哪些?以下為大家介紹一個常用的python爬蟲的十大框架:
一、Scrapy
Scrapy框架是一套較成熟的Python爬蟲框架,是使用Python開發的快速、高層次的資訊爬取框架,可以有效率的爬取web頁面並提取出結構化資料。
Scrapy應用範圍很廣,爬蟲開發、資料探勘、資料監測、自動化測試等。
二、PySpider
是國人用python寫的一個強大的網路爬蟲框架。主要功能如下:
1、強大的WebUI,包含:腳本編輯器、任務監控器,專案管理器和結果檢視器;
2、多資料庫支持,包括:MySQL, MongoDB, Redis, SQLite, Elasticsearch; PostgreSQL with SQLAlchemy等;
3、使用RabbitMQ, Beanstalk, Redis 和Kombu作為訊息佇列;
4、支援任務優先權設定、定時任務、失敗後重試等;
5、支援分散式爬蟲
三、Crawley
高速爬取對應網站的內容,支援關聯式與非關聯式資料庫,資料可匯出為JSON、XML等
相關推薦:《python影片教學》
四、Portia
##視覺化爬取網頁內容五、newspaper
提取新聞、文章以及內容分析
#六、python-goose
七、Beautiful Soup
八、mechanize
優點:可以載入JS。缺點:文檔嚴重缺失。不過透過官方的example以及人肉嘗試的方法,還是勉強能用的。
九、selenium
十、cola
以上是python的爬蟲框架有哪些的詳細內容。更多資訊請關注PHP中文網其他相關文章!