Rumah  >  Soal Jawab  >  teks badan

网络爬虫 - python爬虫爬取资料,是直接生成Excel文件还是存入Mysql有利于后期处理。

要处理的文件不多,就是几万条,都是些简单的处理,Excel暂时也够用。大概思路两条:

1、python抓到的数据通过Python DB API 储存到mysql中再做处理。
2、直接把爬取到的资料用Phthon XlsxWriter模块生成Execl文件(.xlsx)。

不知道哪条路线对自动生成文件和后期的处理比较方便。自己不太会用mysql,所以比较倾向用XlsxWriter模块生成Execl文件,只是看了XlsxWriter模块的一些文档,也只是编写数据内容和格式,然后生成Execl文件,不知道有没有爬取的数据自动生成Execl文件比较简单的实现(有一些爬虫的框架可以实现,但是暂时没有学习框架,因为只是想实现一些简单的功能而已)。

大家讲道理大家讲道理2764 hari yang lalu906

membalas semua(8)saya akan balas

  • 大家讲道理

    大家讲道理2017-04-18 10:22:34

    Saya menghadapi masalah yang sama, dan pilihan terakhir ialah menggunakan excel.
    Semuanya bergantung pada keperluan anda yang mana lebih mudah untuk anda pilih.

    Keperluan saya pada masa itu hanya untuk merangkak beberapa ratus keping data pada satu-satu masa, dan saya akan membuangnya selepas setiap penggunaan
    Jadi lebih mudah untuk menggunakan excel, saya menggunakan openpyxl.
    Ia hanya digunakan untuk menyimpan data yang dirangkak tidak memerlukan manipulasi gaya, jadi ia agak mudah untuk digunakan.

    Ia bergantung kepada berapa ribu keping data yang anda miliki Jika anda menganggap ia akan terus meningkat pada masa hadapan, lebih mudah untuk menyimpannya terus dalam pangkalan data untuk operasi kemudian. jika anda fikir menyimpannya dalam Excel sekarang boleh memenuhi keperluan anda, Dan jika ia lebih mudah, anda juga boleh menyimpannya dalam excel
    Apabila data berkembang pada masa hadapan, saya rasa excel tidak dapat memenuhi permintaan, jadi Saya menulis skrip untuk mengimport terus data dalam excel ke dalam pangkalan data

    Melihat soalan itu, penyoal bimbang dia tidak biasa dengan MySQL Ini tidak menjadi masalah sama sekali Jika anda telah mempelajari pangkalan data lain, belajar MySQL tidak sukar.

    balas
    0
  • 阿神

    阿神2017-04-18 10:22:34

    Pangkalan data

    Lambat laun kita perlu menghubungi satu sama lain

    Dengan kurang data, storan fail teks langsung adalah lebih baik daripada Excel...

    balas
    0
  • PHPz

    PHPz2017-04-18 10:22:34

    Saya rasa ini tiada kaitan dengan pangkalan data yang digunakan untuk penyimpanan Anda boleh menyimpan data yang dirangkak oleh perangkak ke dalam execl, dan kemudian menulis program anda sendiri untuk mengimport data execl ke dalam pangkalan data kelajuan pemprosesan crawler. Jika semasa proses merangkak Tidak baik untuk memasukkannya ke dalam storan

    balas
    0
  • PHPz

    PHPz2017-04-18 10:22:34

    Jika anda tidak faham mysql, gunakan sahaja openpyxl

    balas
    0
  • 伊谢尔伦

    伊谢尔伦2017-04-18 10:22:34

    Simpannya sebagai fail teks csv, yang masih boleh dibuka dengan Excel dan juga mudah untuk diimport ke dalam pangkalan data.

    balas
    0
  • 怪我咯

    怪我咯2017-04-18 10:22:34

    SQLite

    balas
    0
  • 大家讲道理

    大家讲道理2017-04-18 10:22:34

    Jika anda mempunyai sedikit data dan konkurensi rendah, gunakan Sqlite Jika anda tidak biasa dengan SQL, gunakan ORM, contohnya, peewee~

    balas
    0
  • 巴扎黑

    巴扎黑2017-04-18 10:22:34

    Pasti menggunakan pangkalan data untuk pemprosesan pasca.

    balas
    0
  • Batalbalas