ホームページ  >  に質問  >  本文

网络爬虫 - python爬虫爬取资料,是直接生成Excel文件还是存入Mysql有利于后期处理。

要处理的文件不多,就是几万条,都是些简单的处理,Excel暂时也够用。大概思路两条:

1、python抓到的数据通过Python DB API 储存到mysql中再做处理。
2、直接把爬取到的资料用Phthon XlsxWriter模块生成Execl文件(.xlsx)。

不知道哪条路线对自动生成文件和后期的处理比较方便。自己不太会用mysql,所以比较倾向用XlsxWriter模块生成Execl文件,只是看了XlsxWriter模块的一些文档,也只是编写数据内容和格式,然后生成Execl文件,不知道有没有爬取的数据自动生成Execl文件比较简单的实现(有一些爬虫的框架可以实现,但是暂时没有学习框架,因为只是想实现一些简单的功能而已)。

大家讲道理大家讲道理2714日前840

全員に返信(8)返信します

  • 大家讲道理

    大家讲道理2017-04-18 10:22:34

    私も同様の問題に遭遇しましたが、最終的な選択は Excel を使用することでした。
    どちらを選択するかはあなたのニーズ次第です。まず私の状況について話させてください。

    当時の私のニーズは、毎回数百個のデータをクロールするだけで、そのたびにデータを破棄していました。

    Excel を使用する方が便利でした。
    それだけでした。クロールされたデータを保存するために使用されます。操作スタイルは非常に簡単です。

    データが何千件あるかにもよりますが、今後も増え続けることを考えると、後で操作するために直接データベースに保存した方が便利です。 Excelで保存することもできますので、今すぐExcelに保存しておくと便利です

    今後データが大きくなってくると、Excelでは対応しきれなくなると思うので、直接インポートするスクリプトを書きます。 Excel のデータをデータベースに変換します。

    質問者は MySQL に慣れていないことを心配していますが、他のデータベースを学習したことがあれば、MySQL を学習することはまったく問題ありません。

    返事
    0
  • 阿神

    阿神2017-04-18 10:22:34

    データベース

    遅かれ早かれ、あなたにご連絡しなければなりません

    データが少なく、テキスト ファイルを直接保存できるため、Excel よりも優れています...

    返事
    0
  • PHPz

    PHPz2017-04-18 10:22:34

    これは、ストレージに使用されるデータベースとは関係ないと思います。クローラーによってクロールされたデータは、後で execl データをデータベースにインポートするプログラムを作成できます。これにより、速度も向上します。クローラー処理中にデータベースに保存される場合はあまり良くありません

    返事
    0
  • PHPz

    PHPz2017-04-18 10:22:34

    mysql が理解できない場合は、openpyxl を使用してください

    返事
    0
  • 伊谢尔伦

    伊谢尔伦2017-04-18 10:22:34

    CSV テキスト ファイルとして保存すると、Excel で開くことができ、データベースにインポートすることもできて便利です。

    返事
    0
  • 怪我咯

    怪我咯2017-04-18 10:22:34

    SQLite

    返事
    0
  • 大家讲道理

    大家讲道理2017-04-18 10:22:34

    データが少なく同時実行性が低い場合は、Sqlite を使用してください。SQL に慣れていない場合は、たとえば、peewee~

    を使用してください。

    返事
    0
  • 巴扎黑

    巴扎黑2017-04-18 10:22:34

    後処理には必ずデータベースを使用してください。

    返事
    0
  • キャンセル返事