网络爬虫 - python爬虫爬取资料，是直接生成Excel文件还是存入Mysql有利于后期处理。

Question

要处理的文件不多，就是几万条，都是些简单的处理，Excel暂时也够用。大概思路两条： 1、python抓到的数据通过Python DB API 储存到mysql中再做处理。2、直接把爬取到的资料用Phthon XlsxWriter模块生成Execl文件...

大家讲道理 · Answer

我遇到过类似的问题, 最后选的是用 excel.
这个完全看你的需求.哪个方便选哪个. 先说下我的情况.

我当时的需求每次只爬几百条数据, 而且每次都是用完就扔.
所以用 excel 更方便些. 操作 excel 我用的 openpyxl.
只用来保存爬取的数据, 不操作样式, 用起来还是蛮简单的.

看你的数据有几万条, 如果考虑以后还会持续增加的话, 还是直接存数据库以后操作比较方便.
话又说回来, 如果觉得现在存 excel 也能满足自己需求的, 而且更方便的话, 存 excel 也行.
以后随着数据增长, 觉得 excel 不能满足需求了, 写个脚本直接把 excel 里的数据导入数据库里.

看题主还担心不熟悉 MySQL, 这个完全不是问题, 学过其他数据库的话, 学 MySQL 也不是难事.

阿神 · Answer

数据库

迟早要接触的

数据少直接文本文件存储都比 Excel 好...

PHPz · Answer

我觉得这个和用什么数据库存储没关系，可以爬虫爬取的数据存进execl里面，后期再自己写程序将execl数据导入数据库，这样也能提高爬虫处理的速度，如果在爬取过程中入库就不太好了

PHPz · Answer

不懂mysql 就直接用 openpyxl

伊谢尔伦 · Answer

存成csv文本文件, 照样可以用Excel打开,也方便导入数据库.

怪我咯 · Answer

<p>SQLite</p>

大家讲道理 · Answer

数据少并发不高用Sqlite呗~不熟sql用ORM呗~例如peewee~

巴扎黑 · Answer

后期处理肯定使用数据库。

网络爬虫 - python爬虫爬取资料，是直接生成Excel文件还是存入Mysql有利于后期处理。

全部回复(8)我来回复