Rumah  >  Artikel  >  Peranti teknologi  >  Mendedahkan rahsia kemenangan dalam pertandingan data: menganalisis kelebihan A100 dalam 200 permainan

Mendedahkan rahsia kemenangan dalam pertandingan data: menganalisis kelebihan A100 dalam 200 permainan

PHPz
PHPzke hadapan
2023-04-21 19:55:071293semak imbas

2022 ialah tahun besar untuk AI, dan juga untuk pertandingan data, dengan jumlah hadiah wang merentas semua platform melebihi $5 juta.

Baru-baru ini, platform analisis persaingan pembelajaran mesin ML Contests menjalankan statistik berskala besar pada pertandingan data 2022. Laporan baharu mengimbas kembali semua kejadian penting pada tahun 2022. Berikut ialah kompilasi teks asal.

Sorotan:

  • Pemilihan alat untuk peserta yang berjaya: Python, Pydata, Pytorch dan pepohon keputusan yang dirangsang kecerunan.
  • Pembelajaran mendalam belum lagi menggantikan pokok keputusan yang dirangsang kecerunan, walaupun yang pertama sering meningkat dalam nilai apabila membiasakan diri dengan kaedah penggalak.
  • Transformer terus mendominasi NLP dan mula bersaing dengan rangkaian neural konvolusi dalam penglihatan komputer.
  • Pertandingan data hari ini merangkumi pelbagai bidang penyelidikan, termasuk visi komputer, NLP, analisis data, robotik, analisis siri masa, dsb.
  • Model ensemble besar masih biasa dalam kalangan penyelesaian yang menang, dan beberapa penyelesaian model tunggal juga menang.
  • Terdapat berbilang platform pertandingan data aktif.
  • Komuniti persaingan data terus berkembang, termasuk dalam bidang akademik.
  • Kira-kira 50% daripada pemenang adalah pasukan seorang dan 50% daripada pemenang adalah pemenang kali pertama.
  • Sesetengah orang menggunakan perkakasan mewah, tetapi sumber percuma seperti Google Colab juga boleh memenangi permainan.

Peraduan dan Trend

Peraduan dengan hadiah wang terbesar ialah peraduan Snow Cast Showdown Drivendata yang ditaja oleh Biro Penambakan A.S.. Peserta menerima hadiah wang $500,000 dan direka bentuk untuk membantu meningkatkan pengurusan bekalan air dengan menyediakan anggaran aliran air salji yang tepat untuk wilayah yang berbeza di seluruh Barat. Seperti biasa, Drivendata telah menulis artikel terperinci tentang perlawanan dan mempunyai laporan penyelesaian terperinci yang patut dibaca.

Persaingan paling popular pada tahun 2022 ialah pertandingan Ramalan Lalai Ekspres American Express Kaggle, yang bertujuan untuk meramalkan sama ada pelanggan akan membayar balik pinjaman mereka. Lebih daripada 4,000 pasukan bertanding, dengan hadiah wang $100,000 diagihkan kepada empat pasukan teratas. Buat pertama kali tahun ini, penyertaan kali pertama dimenangi oleh pasukan satu orang menggunakan rangkaian neural dan model LightGBM.

Persaingan bebas terbesar ialah Cabaran Audit AI Universiti Stanford, yang menawarkan kumpulan ganjaran $71,000 untuk "model, penyelesaian, set data dan alat" terbaik untuk mencari cara menyelesaikan masalah "sistem semakan AI diskriminasi haram".

Tiga pertandingan berdasarkan ramalan kewangan semuanya di Kaggle: ramalan Bursa Saham Tokyo JPX, ramalan pasaran Ubiquant dan ramalan crypto G-Research.

Dalam perbandingan dalam arah yang berbeza, penglihatan komputer menyumbang kepada perkadaran tertinggi, NLP menduduki tempat kedua, dan masalah membuat keputusan berurutan (pembelajaran pengukuhan) semakin meningkat. Kaggle bertindak balas terhadap pertumbuhan populariti ini dengan memperkenalkan pertandingan simulasi pada tahun 2020. Aicrowd juga menganjurkan banyak pertandingan pembelajaran pengukuhan. Pada tahun 2022, 25 daripada acara Interaktif tersebut berjumlah lebih daripada $300,000.

Dalam pertandingan rasmi NeurIPS 2022 Real Robot Challenge, peserta mesti belajar mengawal robot tiga jari untuk menggerakkan kiub ke lokasi sasaran atau meletakkannya pada titik tertentu dalam ruang, dan Menghadap ke arah yang betul. Strategi peserta dijalankan pada robot fizikal setiap minggu, dan keputusan dikemas kini pada papan pendahulu. Anugerah itu ialah hadiah $5,000 dan penghormatan akademik untuk berucap di Simposium NeurIPS.

Platform

Walaupun orang ramai sudah biasa dengan Kaggle dan Tianchi, pada masa ini terdapat banyak platform pertandingan pembelajaran mesin yang membentuk ekosistem yang aktif.

Gambar di bawah menunjukkan perbandingan platform 2022:

Mendedahkan rahsia kemenangan dalam pertandingan data: menganalisis kelebihan A100 dalam 200 permainan

Berikan sedikit contoh:

  • Kaggle ialah salah satu platform yang paling mantap, ia telah diperoleh oleh Google pada 2017 dan mempunyai komuniti terbesar, baru-baru ini menarik 10 juta pengguna. Menjalankan pertandingan dengan hadiah di Kaggle boleh menjadi sangat mahal. Selain menganjurkan pertandingan, Kaggle juga membenarkan pengguna mengehos set data, nota dan model.
  • Codalab ialah platform pertandingan sumber terbuka yang diselenggarakan oleh Universiti Paris - Saclay. Sesiapa sahaja boleh mendaftar, menjadi tuan rumah atau menyertai peraduan. Ia menyediakan sumber CPU percuma untuk membuat kesimpulan bahawa penganjur pertandingan boleh menambah perkakasan mereka sendiri.
  • Zindi ialah platform yang lebih kecil dengan komuniti yang sangat aktif yang menumpukan pada menghubungkan institusi dengan saintis data di Afrika. Drivendata memfokuskan pada pertandingan impak sosial dan telah membangunkan pertandingan untuk NASA dan organisasi lain. Pertandingan sentiasa diikuti dengan laporan penyelidikan yang mendalam.
  • Pada asalnya projek penyelidikan di Institut Teknologi Persekutuan Switzerland (EPFL), Aicrowd kini merupakan salah satu daripada lima platform pertandingan teratas. Ia menganjurkan beberapa pertandingan rasmi NeurIPS.

Mendedahkan rahsia kemenangan dalam pertandingan data: menganalisis kelebihan A100 dalam 200 permainan

Academia

Kebanyakan hadiah wang daripada pertandingan dijalankan pada platform besar daripada industri , tetapi pertandingan pembelajaran mesin jelas mempunyai sejarah yang lebih kaya dalam bidang akademik, seperti yang dibincangkan oleh Isabelle Guyon dalam ceramah jemputan NeurIPS beliau tahun ini.

NeurIPS ialah salah satu persidangan pembelajaran mesin akademik yang paling berprestij di dunia Kertas kerja pembelajaran mesin yang paling penting dalam dekad yang lalu sering dibentangkan pada persidangan itu, termasuk AlexNet, GAN, Transformer. dan GPT-3.

NeurIPS pertama kali mengadakan bengkel Cabaran Data dalam Pembelajaran Mesin (CIML) pada 2014, dan terdapat komponen persaingan sejak 2017. Sejak itu, persaingan dan jumlah wang hadiah terus berkembang, mencecah hampir $400,000 pada Disember 2022.

Persidangan pembelajaran mesin lain turut menganjurkan pertandingan, termasuk CVPR, ICPR, IJCAI, ICRA, ECCV, PCIC dan AutoML.

Hadiah

Kira-kira separuh daripada semua pertandingan pembelajaran mesin mempunyai kumpulan hadiah melebihi $10,000. Tidak dinafikan bahawa banyak pertandingan menarik mempunyai hadiah yang kecil, dan laporan ini hanya menganggap mereka yang mempunyai hadiah wang atau penghormatan akademik. Selalunya, pertandingan data yang dikaitkan dengan persidangan akademik berprestij memberikan pemenang dengan geran perjalanan untuk menghadiri persidangan tersebut.

Walaupun sesetengah platform kejohanan cenderung mempunyai kumpulan hadiah yang lebih besar daripada yang lain secara purata (lihat carta perbandingan platform), banyak platform menganjurkan sekurang-kurangnya satu kumpulan hadiah pada 2022 Pertandingan Sangat Besar - The sepuluh pertandingan teratas mengikut jumlah hadiah wang termasuk yang dijalankan di DrivenData, Kaggle, CodaLab dan AIcrowd.

Cara untuk menang

Tinjauan ini menganalisis teknik yang digunakan oleh algoritma pemenang melalui soal selidik dan pemerhatian kod.

Secara konsisten, Python adalah bahasa pilihan untuk pemenang peraduan, yang mungkin bukan keputusan yang tidak dijangkakan untuk orang ramai. Daripada mereka yang menggunakan Python, kira-kira separuh terutamanya menggunakan Jupyter Notebook, dan separuh lagi menggunakan skrip Python standard.

Mendedahkan rahsia kemenangan dalam pertandingan data: menganalisis kelebihan A100 dalam 200 permainan

Penyelesaian yang menang menggunakan kebanyakan R ialah: Amir Ghazi menang di Kaggle untuk meramalkan pemenang kejohanan Bola Keranjang Kolej Lelaki Amerika 2022 permainan. Dia melakukan ini dengan menggunakan — nampaknya menyalin verbatim — kod daripada penyelesaian pemenang pertandingan 2018 yang ditulis oleh Guru Besar Kaggle Darius Barušauskas. Sungguh tidak percaya, Darius turut beraksi dalam perlumbaan ini pada 2022, menggunakan pendekatan baharu dan menduduki tempat ke-593.

Python pakej yang digunakan oleh pemenang

Apabila melihat pakej yang digunakan dalam penyelesaian yang menang, keputusan menunjukkan bahawa semua pemenang menggunakan Python pada tahap tertentu timbunan PyData.

Kategori pakej perisian paling popular kepada tiga kategori - kit alat teras, kategori NLP dan kategori penglihatan komputer.

Mendedahkan rahsia kemenangan dalam pertandingan data: menganalisis kelebihan A100 dalam 200 permainan

Antaranya, pertumbuhan rangka kerja pembelajaran mendalam PyTorch telah stabil, dan lonjakannya dari 2021 ke 2022 sangat jelas: PyTorch telah hilang daripada menjadi penyelesaian yang menang kepada 77% meningkat kepada 96%.

Daripada 46 penyelesaian yang menang menggunakan pembelajaran mendalam, 44 menggunakan PyTorch sebagai rangka kerja utama mereka dan hanya dua menggunakan TensorFlow. Lebih menarik lagi, salah satu daripada dua pertandingan yang dimenangi menggunakan TensorFlow, Pertandingan Terumbu Karang Penghalang Besar Kaggle, menawarkan hadiah wang tambahan $50,000 kepada pasukan yang menang menggunakan TensorFlow. Satu lagi pertandingan yang dimenangi menggunakan TensorFlow menggunakan API Keras peringkat tinggi.

Mendedahkan rahsia kemenangan dalam pertandingan data: menganalisis kelebihan A100 dalam 200 permainan

Sementara terdapat 3 pemenang menggunakan kilat-pytorch dan 1 menggunakan fastai - kedua-duanya dibina di atas PyTorch di atas - tetapi yang luas majoriti orang menggunakan PyTorch secara langsung.

Kini boleh dikatakan bahawa sekurang-kurangnya dalam perlumbaan data, PyTorch telah memenangi pertempuran rangka kerja pembelajaran mesin. Ini konsisten dengan trend penyelidikan pembelajaran mesin yang lebih luas.

Perlu diingat bahawa kami tidak menemui contoh pasukan yang menang menggunakan perpustakaan rangkaian saraf lain, seperti JAX (dibina oleh Google dan digunakan oleh DeepMind), PaddlePaddle (dibangunkan oleh Baidu) atau MindSpore (dibangunkan oleh Huawei).

Penglihatan Komputer

Alat cenderung untuk menguasai dunia, tetapi teknologi tidak. Pada CVPR 2022, seni bina ConvNext telah diperkenalkan sebagai "ConvNet of the 2020s" dan terbukti mengatasi prestasi model berasaskan Transformer terkini. Ia digunakan dalam sekurang-kurangnya dua penyelesaian penglihatan komputer yang memenangi persaingan, dan CNN secara keseluruhan kekal sebagai seni bina rangkaian saraf paling popular di kalangan pemenang pertandingan penglihatan komputer setakat ini.

Mendedahkan rahsia kemenangan dalam pertandingan data: menganalisis kelebihan A100 dalam 200 permainan

Penglihatan komputer sangat serupa dengan pemodelan bahasa dalam penggunaan model pra-latihan: pada set data awam seperti ImageNet ), seni bina yang mudah difahami yang dilatih. Repositori yang paling popular ialah Hugging Face Hub, boleh diakses melalui timm, yang menjadikannya sangat mudah untuk memuatkan versi pra-latihan berpuluh-puluh model penglihatan komputer yang berbeza.

Kelebihan menggunakan model pra-latihan adalah jelas: imej dunia sebenar dan teks yang dijana oleh manusia mempunyai beberapa ciri biasa, dan menggunakan model pra-latihan boleh membawa pengetahuan akal, yang serupa kepada Yu menggunakan set data latihan yang lebih besar dan lebih umum.

Selalunya, model pra-latihan diperhalusi – dilatih lebih lanjut – berdasarkan data khusus tugasan (seperti data yang disediakan oleh penganjur pertandingan), tetapi tidak selalu. Pemenang Cabaran Padanan Imej menggunakan model pra-latihan tanpa sebarang penalaan halus - "Disebabkan kualiti (berbeza) latihan dan data ujian dalam pertandingan ini, kami tidak menggunakan latihan yang disediakan untuk penalaan halus. kerana kami fikir ia tidak begitu berkesan." Keputusan itu membuahkan hasil.

Setakat ini jenis model penglihatan komputer pra-latihan yang paling popular di kalangan pemenang 2022 ialah EfficientNet, yang, seperti namanya, mempunyai kelebihan kurang intensif sumber berbanding model lain .

Mendedahkan rahsia kemenangan dalam pertandingan data: menganalisis kelebihan A100 dalam 200 permainan

Pemprosesan Bahasa Asli

Sejak penubuhannya pada 2017, model berasaskan Transformer telah menguasai bahasa semula jadi pemprosesan Bidang pemprosesan bahasa (NLP). Transformer ialah "T" dalam BERT dan GPT, dan juga teras ChatGPT.

Oleh itu, tidak menghairankan bahawa semua penyelesaian yang menang dalam pertandingan pemprosesan bahasa semula jadi mempunyai model berasaskan Transformer sebagai terasnya. Tidak menghairankan bahawa semuanya dilaksanakan dalam PyTorch. Mereka semua menggunakan model pra-latihan, dimuatkan menggunakan perpustakaan Transformers Hugging Face, dan hampir kesemuanya menggunakan versi Microsoft Research bagi model DeBERTa - biasanya deberta-v3-large.

Kebanyakan daripada mereka memerlukan sumber pengkomputeran yang ketara. Sebagai contoh, pemenang AI4Code Google menjalankan A100 (80GB) selama kira-kira 10 hari untuk melatih satu deberta-v3-large untuk penyelesaian akhir mereka. Pendekatan ini adalah pengecualian (menggunakan model induk tunggal dan pemisahan kereta api/penilaian tetap) - semua penyelesaian lain menggunakan model ensemble yang berat, dan hampir kesemuanya menggunakan beberapa bentuk pengesahan silang lipatan k. Sebagai contoh, pemenang pertandingan Komen Toksik Jigsaw menggunakan purata wajaran keluaran 15 model.

Ensembel berasaskan transformer kadangkala digunakan bersama LSTM atau LightGBM, dan terdapat juga sekurang-kurangnya dua contoh pelabelan pseudo yang digunakan secara berkesan dalam penyelesaian yang menang.

XGBoost pernah sinonim dengan Kaggle. Walau bagaimanapun, LightGBM jelas merupakan perpustakaan GBDT kegemaran bagi pemenang 2022 - pemenang menyebut LightGBM sebanyak kali dalam laporan penyelesaian atau soal selidik mereka apabila CatBoost dan XGBoost digabungkan, CatBoost berada di tempat kedua, dan XGBoost secara mengejutkan menduduki tempat ketiga.

Pengkomputeran dan Perkakasan

Mendedahkan rahsia kemenangan dalam pertandingan data: menganalisis kelebihan A100 dalam 200 permainan

Seperti yang dijangkakan, kebanyakan pemenang menggunakan GPU untuk latihan— — Ini boleh meningkatkan prestasi latihan pokok yang dirangsang kecerunan dan sebenarnya diperlukan untuk rangkaian saraf dalam. Sebilangan besar penerima anugerah mempunyai akses kepada kluster yang disediakan oleh majikan atau universiti mereka, selalunya termasuk GPU.

Agak menghairankan, kami tidak menemui sebarang contoh Unit Pemprosesan Tensor Google, TPU, digunakan untuk melatih model yang menang. Kami juga tidak melihat mana-mana model pemenang dilatih pada cip siri M Apple, yang telah disokong oleh PyTorch sejak Mei 2022.

Colab, penyelesaian buku nota awan Google, adalah popular, dengan seorang pemenang di peringkat Percuma, seorang di peringkat Pro dan seorang lagi di Pro+ (kami tidak dapat mengesahkan pemenang keempat) atau menggunakan pakej yang digunakan oleh Colab).

Perkakasan peribadi tempatan diutamakan berbanding perkakasan awan, walaupun sembilan pemenang menyebut GPU yang mereka gunakan untuk latihan tanpa menyatakan sama ada mereka menggunakan GPU tempatan atau awan.

Mendedahkan rahsia kemenangan dalam pertandingan data: menganalisis kelebihan A100 dalam 200 permainan

GPU yang paling popular ialah kad pemecut AI canggih terkini NVIDIA A100 (di sini kami meletakkan A100 40GB dan A100 80GB bersama-sama, kerana pemenang tidak selalu dapat membezakannya), dan selalunya berbilang A100 - contohnya, pemenang pertandingan Zindi's Turtle Recall menggunakan 8 A100 (40GB) GPU, dan dua pemenang lain menggunakan 4 A100.

Pembentukan Pasukan

Banyak pertandingan membenarkan sehingga 5 peserta setiap pasukan, pasukan boleh terdiri daripada individu atau pasukan yang lebih kecil sebelum tarikh akhir penyerahan keputusan "Gabung" mereka bersama sebelum tarikh akhir.

Sesetengah pertandingan membenarkan pasukan yang lebih besar, contohnya, Cabaran Data Terbuka Waymo membenarkan sehingga 10 orang setiap pasukan.

Mendedahkan rahsia kemenangan dalam pertandingan data: menganalisis kelebihan A100 dalam 200 permainan

Kesimpulan

Ini adalah pandangan kasar pada pertandingan pembelajaran mesin 2022. Harap anda boleh mendapatkan maklumat berguna di dalamnya.

Terdapat banyak pertandingan baharu yang menarik akan datang pada tahun 2023 dan kami tidak sabar-sabar untuk mengeluarkan lebih banyak cerapan apabila ia berakhir.

Atas ialah kandungan terperinci Mendedahkan rahsia kemenangan dalam pertandingan data: menganalisis kelebihan A100 dalam 200 permainan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam