网络爬虫 - python爬虫爬取资料，是直接生成Excel文件还是存入Mysql有利于后期处理。

Question

要处理的文件不多，就是几万条，都是些简单的处理，Excel暂时也够用。大概思路两条： 1、python抓到的数据通过Python DB API 储存到mysql中再做处理。2、直接把爬取到的资料用Phthon XlsxWriter模块生成Execl文件...

大家讲道理 · Answer

我遇到類似的問題, 最後選的是用 excel.
這個完全看你的需求.哪個方便選哪個. 先說下我的情況.

我當時的需求每次只爬幾百條數據, 而且每次都是用完就扔.
所以用excel 更方便些. 操作excel 我用的openpyxl.
只用來保存爬取的數據, 不操作樣式, 用起來還蠻簡單的.

看你的資料有幾萬條, 如果考慮以後還會持續增加的話, 還是直接存資料庫以後操作比較方便.
話又說回來, 如果覺得現在存excel 也能滿足自己需求的, 而且更方便的話, 存excel 也行.
以後隨著資料增長, 覺得excel 不能滿足需求了, 寫個腳本直接把excel 裡的資料導入資料庫裡.

看題主還擔心不熟悉 MySQL, 這個完全不是問題, 學過其他資料庫的話, 學 MySQL 也不是難事.

阿神 · Answer

資料庫

遲早要接觸的

資料少直接文字檔案儲存都比 Excel 好...

PHPz · Answer

我覺得這個和用什麼資料庫儲存沒關係，可以爬蟲爬取的資料存進execl裡面，後期再自己寫程式將execl資料導入資料庫，這樣也能提高爬蟲處理的速度，如果在爬取過程中入庫就不太好了

PHPz · Answer

不懂mysql 就直接用 openpyxl

伊谢尔伦 · Answer

存成csv文字檔, 照樣可以用Excel開啟,也方便導入資料庫.

怪我咯 · Answer

<p>SQLite</p>

大家讲道理 · Answer

資料少併發不高用Sqlite唄~不熟sql用ORM唄~例如peewee~

巴扎黑 · Answer

後製肯定使用資料庫。