Bagaimanakah sklearn melatih set data berskala besar - Limpahan Tindanan

Question

Soalan 1: Sekarang saya mempunyai lebih daripada 400,000 keping data Saya perlu menggunakan beberapa jenis algoritma klasifikasi pembelajaran mesin untuk membina model untuk data ini Masalah yang saya hadapi ialah data terlalu besar dan tidak boleh dibaca sekaligus. jadi saya ingin bertanya apa yang perlu dilakukan dengan data? Soalan 2: Terdapat sesuatu tentang pengesahan silang sklearn...

三叔 · Answer

Saya telah mengkaji perlombongan data dan analisis data besar baru-baru ini Berkenaan soalan 1, saya mempunyai idea untuk rujukan anda: kerana ia tidak boleh dibaca sekali gus, anda boleh membina model data teragih, membaca data dalam kelompok dan menentukan. alamat datanode ( Ia boleh menjadi nama pembolehubah), buat namenode (jadual yang sepadan dengan nama dan alamat), dan kemudian apabila mendapatkan data, mula-mula mengesahkan alamat dalam namenode (pembolehubah yang sepadan dengan data yang diperlukan), dan kemudian akses alamat untuk mendapatkan Data diproses. Oleh kerana saya seorang pemula, saya hanya memberikan pemikiran peribadi saya. Jawapannya tidak unik dan hanya untuk rujukan Jika anda tidak suka, jangan kritik.

仅有的幸福 · Answer

400,000 tidak banyak, paling banyak beberapa gigabait...
Jika memori benar-benar sekecil 8G, maka ia masih bergantung pada senario khusus anda Contohnya, hanya mengira tf-idf, satu penjana, hanya tf terakhir Kamus -idf ada dalam ingatan.

Pengesahan silang hanyalah untuk memilih yang mempunyai ralat yang paling kecil Di sebalik pengaruh yang anda nyatakan sebelum ini adalah konsep boosting.

仅有的幸福 · Answer

Tapak web Soal Jawab jenis ini adalah yang terbaik untuk mempunyai satu soalan dan satu lubang Jika perlu, dua soalan berasingan boleh digunakan untuk menyambungkan pautan untuk mengelakkan soalan berlaras dua

(1) Lihat Bagaimana untuk mengoptimumkan kelajuan, anda akan mendapati terdapat banyak cara untuk mengawal eksperimen, termasuk (a) menggunakan algoritma mudah sebanyak mungkin (b) memprofilkan penggunaan memori dan kelajuan berdasarkan keadaan kehidupan sebenar ( c) Cuba gantikan semua gelung bersarang dengan tatasusunan Numpy (d) Gunakan Cython Wrapper jika perlu untuk menala pustaka fungsi C/C++ yang lebih cekap. Ini hanyalah prinsip dan arahan asas Sebenarnya, ia masih bergantung pada analisis kesesakan masalah yang anda ingin kendalikan, sama ada kelajuan atau ruang Selepas mengoptimumkan kod, anda boleh mempertimbangkan sama ada untuk menggunakan pengkomputeran selari dan kaedah lain

(2) Soalan anda perlu membezakan antara keperluan matematik dan empirikal.

Bagaimanakah sklearn melatih set data berskala besar - Limpahan Tindanan

membalas semua(3)saya akan balas