要处理的文件不多,就是几万条,都是些简单的处理,Excel暂时也够用。大概思路两条:
1、python抓到的数据通过Python DB API 储存到mysql中再做处理。
2、直接把爬取到的资料用Phthon XlsxWriter模块生成Execl文件(.xlsx)。
不知道哪条路线对自动生成文件和后期的处理比较方便。自己不太会用mysql,所以比较倾向用XlsxWriter模块生成Execl文件,只是看了XlsxWriter模块的一些文档,也只是编写数据内容和格式,然后生成Execl文件,不知道有没有爬取的数据自动生成Execl文件比较简单的实现(有一些爬虫的框架可以实现,但是暂时没有学习框架,因为只是想实现一些简单的功能而已)。
大家讲道理2017-04-18 10:22:34
私も同様の問題に遭遇しましたが、最終的な選択は Excel を使用することでした。
どちらを選択するかはあなたのニーズ次第です。まず私の状況について話させてください。
Excel を使用する方が便利でした。
それだけでした。クロールされたデータを保存するために使用されます。操作スタイルは非常に簡単です。
今後データが大きくなってくると、Excelでは対応しきれなくなると思うので、直接インポートするスクリプトを書きます。 Excel のデータをデータベースに変換します。
質問者は MySQL に慣れていないことを心配していますが、他のデータベースを学習したことがあれば、MySQL を学習することはまったく問題ありません。
阿神2017-04-18 10:22:34
データベース
遅かれ早かれ、あなたにご連絡しなければなりません
データが少なく、テキスト ファイルを直接保存できるため、Excel よりも優れています...
PHPz2017-04-18 10:22:34
これは、ストレージに使用されるデータベースとは関係ないと思います。クローラーによってクロールされたデータは、後で execl データをデータベースにインポートするプログラムを作成できます。これにより、速度も向上します。クローラー処理中にデータベースに保存される場合はあまり良くありません
大家讲道理2017-04-18 10:22:34
データが少なく同時実行性が低い場合は、Sqlite を使用してください。SQL に慣れていない場合は、たとえば、peewee~
を使用してください。