Rumah  >  Artikel  >  Peranti teknologi  >  Sepuluh repositori GitHub untuk AutoML

Sepuluh repositori GitHub untuk AutoML

王林
王林ke hadapan
2023-04-12 11:43:091758semak imbas

Terobosan dalam kecerdasan buatan dan pembelajaran mesin ialah dua topik paling menarik sepanjang dua dekad yang lalu. Jurutera pembelajaran mesin dan sains data memerlukan penyelidikan yang meluas dan kerja keras untuk memahami dan menjalankan model mereka dengan berkesan.

Sepuluh repositori GitHub untuk AutoML

Walaupun ia mungkin berbeza bagi setiap orang, langkah pembelajaran mesin tradisional termasuk:

  1. Pengumpulan data
  2. Penerokaan data
  3. Penyediaan data
  4. Kejuruteraan ciri
  5. Pemilihan
  6. Latihan model
  7. Pelarasan hiperparameter
  8. Ramalan

Walaupun 8 langkah mungkin kelihatan tidak seberapa apabila membina model pembelajaran mesin, bermula dengan langkah di atas akan mengambil sedikit masa untuk disempurnakan!

Masalah semakin meruncing apabila pengamal pembelajaran mesin bukan pakar melalui langkah-langkah ini buat kali pertama proses ini selalunya mengambil lebih banyak masa dan sumber untuk diselesaikan, dan walaupun begitu, hasil akhirnya mungkin tidak seperti yang diharapkan.

AutoML berguna dengan mengautomasikan kebanyakan proses penciptaan model untuk pakar dan bukan pakar.

Apakah pembelajaran mesin automatik (AutoML)?

Pembelajaran mesin automatik, sering dipanggil AutoML, menjadikan pembelajaran mesin lebih mudah. AutoML menjadikan pembelajaran mesin lebih mudah diakses oleh pakar pembelajaran bukan mesin menggunakan pemprosesan automatik yang dilakukan oleh rangka kerja tertentu.

Ia memfokuskan pada mempercepatkan penyelidikan kecerdasan buatan dan meningkatkan kecekapan model pembelajaran mesin.

Proses pembelajaran mesin tradisional memfokuskan pada kesemua 8 langkah yang dinyatakan sebelum ini, manakala AutoML meliputi dua langkah:

  1. Pemerolehan data dikumpul sebelum menyimpan data ke dalam gudang data , proses menapis dan membersihkan data yang digunakan.
  2. Ramalan merujuk kepada output sebenar yang dikembalikan oleh model tertentu dan model terlatih berkemungkinan mengembalikan ramalan akhir yang tepat.

Rangka kerja penerokaan data, penyediaan data, kejuruteraan ciri, pemilihan model, latihan model dan penalaan model akhir akan meliputi 6 langkah lain.

Faedah AutoML

  • Meningkatkan produktiviti
  • Hasil akhir yang lebih baik
  • Meminimumkan ralat
  • Melanjutkan pembelajaran mesin

Rangka Kerja Popular AutoML

Sekarang kita telah membincangkan apa itu AutoML dan memahami beberapa kelebihannya, kami akan merangkumi 10 rangka kerja AutoML teratas, tempat untuk mencarinya dan fungsi yang ditawarkannya.

1. Google AutoML

Google AutoML ialah salah satu rangka kerja paling terkenal yang tersedia dan menduduki tempat pertama dalam senarai kami. Google telah melancarkan banyak rangka kerja AutoML, seperti Google AutoML vision, Google AutoML Natural Language, dsb.

2. Automatik SKLearn

Pengguna yang pernah didedahkan kepada pembelajaran mesin sebelum ini mungkin biasa dengan nama SKlearn. Sebagai tambahan kepada pustaka sci-kit-learn yang popular, Auto SKLearn ialah rangka kerja pembelajaran mesin sumber terbuka yang mengendalikan automasi tugas pembelajaran mesin.

Rangka kerja Auto Sklearn dapat melaksanakan pemilihan model, penalaan hiperparameter dan penciriannya, yang merupakan ciri unik rangka kerja Auto SKlearn.

Dengan melakukan pemilihan model, Auto SKlearn secara automatik akan mencari algoritma terbaik yang boleh menangani masalah yang diberikan oleh pengguna.

Beralih ke ciri kedua Auto SKlearn, kami mempunyai penalaan hiperparameter. Sebagai salah satu langkah terakhir untuk mana-mana mesin atau model pembelajaran mendalam, pengguna harus mencari parameter model terbaik untuk mengoptimumkan hasil. Tugasan ini memerlukan banyak masa dan boleh diautomasikan dengan mudah melalui rangka kerja tersebut.

Faedah unik dan muktamad menggunakan Auto SKlearn ialah keupayaannya untuk melaksanakan pencirian automatik. Perwakilan ialah proses menukar data mentah kepada maklumat yang boleh digunakan.

3.TPot

TPOT, juga dikenali sebagai Tree Pipeline Optimization Tool, ialah salah satu pakej perisian autoML sumber terbuka python yang terawal. Ia memberi tumpuan kepada mengoptimumkan saluran paip pembelajaran mesin menggunakan pengaturcaraan genetik.

Matlamat utama TPOT adalah untuk membina saluran paip ML secara automatik dengan menggabungkan perwakilan pepohon ekspresi fleksibel bagi saluran paip dengan algoritma carian stokastik seperti pengaturcaraan genetik.

Sila ambil perhatian bahawa TPOT berfungsi di atas pustaka sci-kit-learn yang mesti dipasang terlebih dahulu.

4.AutoKeras

AutoKeras ialah perpustakaan sumber terbuka yang dibina untuk AutoML dan model pembelajaran mendalam, yang pada asalnya dibangunkan oleh DATA Labs.

Auto Keras membantu mesin bukan pakar dan peminat pembelajaran mendalam menjalankan dan melatih model mereka dengan usaha yang minimum. Auto Keras bertujuan menjadikan pembelajaran mesin boleh diakses oleh semua orang dan merupakan alat yang hebat untuk pemula

5. Ludwig

Ludwig ialah rangka kerja autoML sumber terbuka yang memfokuskan pada memasang dan melatih model pembelajaran mendalam menggunakan sistem fail konfigurasi mudah.

Dengan membenarkan pengguna menyediakan fail konfigurasi yang mentakrifkan input dan output model tertentu dan jenis data masing-masing, rangka kerja Ludwig akan memanfaatkan data ini untuk membina model pembelajaran mendalamnya berdasarkan sifat yang dinyatakan sebelum ini.

6. MLBOX

MLBOX semakin meningkat dan pantas menjadi salah satu alatan rangka kerja pembelajaran mesin automatik teratas.

Menurut dokumentasi rasmi MLBOX, ia menyediakan faedah berikut:

  • Pembacaan pantas dan prapemprosesan/pembersihan/pemformatan data yang diedarkan.
  • Pemilihan ciri yang sangat mantap dan pengesanan kebocoran.
  • Pengoptimuman hiperparameter tepat dalam ruang dimensi tinggi.
  • Model ramalan terkini untuk pengelasan dan regresi (Pembelajaran Mendalam, Susun, LightGBM, dsb.).
  • Gunakan penjelasan model untuk membuat ramalan.

7. AutoGloun

AutoGlounDitujukan kepada pengamal pembelajaran mesin pakar dan bukan pakar, memfokuskan pada penyepaduan tindanan automatik, pembelajaran mendalam dan aplikasi dunia Nyata daripada data jadual.

Menurut dokumentasi dalam talian AutoGloun, AutoGLoun membolehkan pengguna untuk:

  • Membina pembelajaran mendalam dan penyelesaian ML klasik untuk data mentah dengan cepat dengan hanya beberapa baris prototaip kod.
  • Memanfaatkan teknologi terkini (jika sesuai) secara automatik tanpa kepakaran.
  • Manfaatkan penalaan hiperparameter automatik, pemilihan/penyepaduan model, carian seni bina dan pemprosesan data.
  • Perbaiki/ubah suai model tersuai dan saluran paip data dengan mudah, atau sesuaikan AutoGluon untuk kes penggunaan tertentu.

8. Microsoft Neural Network Intelligence (NNI)

Microsoft Neural Network Intelligence , juga dikenali sebagai NNI, ialah kit alat yang direka untuk pembelajaran mendalam Automate feature engineering , carian seni bina saraf, penalaan hiperparameter dan pemampatan model.

Alat NNI menyokong PyTorch, TensorFlow, Scikit-learn, XGBoost, LightGBM dan rangka kerja lain. Faedah utama menggunakan Rangkaian Neural Microsoft ialah carian seni bina saraf, alat NNI menyokong pelbagai jejak (carian grid, evolusi teratur, IRL berasaskan dasar, dll.) dan satu pukulan (DARTS, ENAS FBNet, dll.) carian seni bina saraf. .

Alat ini menyediakan pelbagai algoritma penalaan hiperparameter, seperti pengoptimuman Bayesian, carian menyeluruh dan carian heuristik. Lihat fail README NNI di Github untuk mengetahui lebih lanjut tentang perkara lain yang ditawarkan oleh alat ini.

9. TransmogrifAI

TransmogrifAI direka untuk membantu pembangun meningkatkan produktiviti pembelajaran mesin. TransmogrifAI berjalan pada Apache Spark.

Seperti yang dinyatakan secara ringkas dalam Github readme pada Transmogrif, "Dengan automasi, ia boleh mencapai ketepatan hampir dengan penalaan model secara manual, dan dalam masa hampir 100x lebih sedikit." >Seperti rangka kerja autoML lain yang dinyatakan, alat TransmogrifAI mampu memilih algoritma terbaik untuk set data yang dipilih pengguna.

10. Pembelajaran Mesin Automatik H2O

H2O autoML

ialah alat rangka kerja sumber terbuka yang dicipta oleh H2O yang menyokong pengaturcaraan R dan Python.

Ia juga menyokong algoritma statistik dan pembelajaran mesin yang paling banyak digunakan, termasuk mesin penggalak kecerunan, model linear umum dan pembelajaran mendalam.

Antara muka autoML H2O menampung pengguna pembelajaran mesin baharu dengan memerlukan seberapa sedikit parameter yang mungkin. Tugas utama pengguna apabila menggunakan alat H2O adalah untuk menyediakan set data.

Alat AutoML Berguna Lain

1. Hypertunity

Hypertunity

ialah alat ringan yang direka untuk dioptimumkan menggunakan pakej ringan Hiperparameter model yang diberikan. Ia adalah modular, ringkas dan boleh dilanjutkan untuk membolehkan pelaksanaan penjadualan lancar.

Hypertunity menyokong pengoptimuman Bayesian menggunakan GPyOpt, penjadual serasi Slurm dan visualisasi masa nyata menggunakan Tensorboard (melalui pemalam HParams).

2. Dragonfly

Dragonfly

ialah alat autoML sumber terbuka yang direka untuk pengoptimuman Bayesian berskala.

Pengoptimuman Bayesian digunakan untuk menilai fungsi kotak hitam yang sangat mahal melebihi pengoptimuman biasa.

Dragonfly membenarkan pengguna baharu menyelesaikan ralat pengoptimuman Bayesian berskala dengan pengetahuan minimum.

3. Ray Tune

Sebagai alat pengoptimuman hiperparameter kedua kami,

Ray Tune

ialah rangka kerja bersatu untuk menskalakan aplikasi AI dan Python.

Ia membolehkan penskalaan beban kerja AI yang mudah melalui pemprosesan data teragih, latihan teragih, penalaan hiperparameter boleh skala, pembelajaran tetulang boleh skala dan perkhidmatan boleh atur cara boleh skala.

4. Pembelajaran Graf Automatik

Pembelajaran Graf Automatik ialah rangka kerja autoML unik yang memfokuskan pada pembelajaran mesin bagi set data graf, sangat mudah dan ringkas.

Mereka menggunakan set data untuk mengekalkan set data bagi pembelajaran mesin berasaskan graf berdasarkan Pytorch Geometric atau Set Data daripada Perpustakaan Graf Dalam.

Repositori GitHub untuk Pembelajaran Mesin Automatik

Dengan kemajuan dalam bidang mesin dan pembelajaran mendalam, keperluan untuk pakar pembelajaran mesin telah meningkat dengan ketara tanpa ditangani.

Di sinilah automasi alatan dan teknik pembelajaran mesin masuk, membolehkan pengguna baharu membina model yang berfungsi sepenuhnya dan sangat dioptimumkan dengan lebih mudah berbanding sebelum ini.

Ringkasnya, apabila mencari alat pembelajaran mesin automatik yang sempurna, anda harus menumpukan pada perkara yang anda cuba capai dengan model tertentu dan bahagian tepat proses pembelajaran mesin yang ingin anda automasi. Kami mengesyorkan agar anda mencuba sendiri beberapa alatan autoML di atas dan hanya menggunakan alat yang anda rasa cekap dan mudah digunakan.

Atas ialah kandungan terperinci Sepuluh repositori GitHub untuk AutoML. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam