Rumah >Peranti teknologi >AI >Masa depan CV adalah pada 68 gambar ini? Google Brain melihat secara mendalam ImageNet: model teratas semuanya gagal untuk diramalkan
Dalam sepuluh tahun yang lalu, ImageNet pada dasarnya telah menjadi "barometer" dalam bidang penglihatan komputer Jika kadar ketepatan telah bertambah baik, anda akan tahu sama ada terdapat teknologi baru yang keluar.
"Mempertingkatkan kedudukan" sentiasa menjadi penggerak di sebalik inovasi model, mendorong ketepatan Top-1 model kepada 90%+, yang lebih tinggi daripada manusia.
Tetapi adakah set data ImageNet benar-benar berguna seperti yang kita fikirkan?
Banyak kertas telah mempersoalkan ImageNet, seperti liputan data, isu berat sebelah, sama ada label lengkap, dsb.
Perkara yang paling penting ialah, adakah ketepatan 90% model itu benar-benar tepat?
Baru-baru ini, penyelidik dari pasukan Google Brain dan University of California, Berkeley, meneliti semula keputusan ramalan beberapa model sota dan mendapati bahawa ketepatan sebenar model tersebut mungkin telah dipandang remeh!
Pautan kertas: https://arxiv.org/pdf/2205.04596.pdf
Setiap kesilapan yang dilakukan penyelidik dengan menguji beberapa model teratas Lakukan semakan manual dan klasifikasi untuk mendapatkan cerapan tentang ralat ekor panjang pada set data penanda aras.
Fokus utama adalah pada penilaian subset berbilang label ImageNet Model terbaik telah mencapai ketepatan Top-1 sebanyak 97%.
Analisis kajian mendedahkan bahawa hampir separuh daripada apa yang dipanggil ralat ramalan bukanlah ralat sama sekali dan turut ditemui dalam imej Berbilang label baharu telah ditambah, yang bermaksud bahawa jika keputusan ramalan tidak disemak secara manual, prestasi model ini mungkin "dipandang rendah"!
Penganotasi data sumber ramai yang tidak mahir selalunya melabel data dengan salah, yang sangat mempengaruhi ketulenan ketepatan model.
Untuk menentukur set data ImageNet dan menggalakkan kemajuan yang baik pada masa hadapan, penyelidik menyediakan versi terkini set penilaian berbilang label dalam artikel dan menggabungkan 68 contoh dengan ralat yang jelas dalam model sota ramalan ke dalam data baharu Kumpul ImageNet-Major untuk memudahkan penyelidik CV akan datang mengatasi kes-kes buruk ini
Bayar balik "hutang teknikal"
Mulakan sahaja dari tajuk artikel "Bila doh menjadi bagel ?" Dapat dilihat bahawa penulis memberi tumpuan terutamanya kepada isu label dalam ImageNet, yang juga merupakan isu sejarah.
Gambar di bawah adalah contoh kekaburan label yang sangat tipikal Label dalam gambar ialah "doh", dan hasil ramalan model ialah "bagel".
Secara teorinya, model ini tidak mempunyai ralat ramalan, kerana doh sedang dibakar dan akan menjadi bagel, jadi ia adalah doh dan bagel.
Dapat dilihat bahawa model sebenarnya telah dapat meramalkan bahawa doh ini akan "menjadi" bagel, tetapi ia tidak mendapat markah ini dari segi ketepatan.
Malah, menggunakan tugas pengelasan set data ImageNet standard sebagai kriteria penilaian, masalah seperti kekurangan berbilang label, bunyi label dan kategori yang tidak ditentukan tidak dapat dielakkan.
Dari perspektif pengotor sumber ramai yang bertanggungjawab untuk mengenal pasti objek sedemikian, ini adalah teka-teki semantik dan juga falsafah yang hanya boleh diselesaikan melalui pelabelan berbilang, Oleh itu, perkara utama penambahbaikan dalam set data terbitan ImageNet ialah masalah pelabelan.
Sudah 16 tahun sejak penubuhan ImageNet Para pengotor dan pembangun model pada masa itu pastinya tidak mempunyai pemahaman yang kaya tentang data seperti yang mereka lakukan hari ini, dan ImageNet adalah kapasiti besar awal, secara relatif. set data beranotasi dengan baik, jadi ImageNet Ia secara semula jadi menjadi standard untuk kedudukan CV.
Tetapi bajet untuk pelabelan data jelas tidak sebesar model yang sedang dibangunkan, jadi memperbaiki masalah pelabelan telah menjadi semacam hutang teknikal.
Untuk mencari baki ralat dalam ImageNet, penyelidik menggunakan model ViT-3B standard dengan 3 bilion parameter (mampu mencapai ketepatan 89.5%), dengan JFT-3B sebagai model terlatih dan halus- ditala pada ImageNet-1K.
Menggunakan set data ImageNet2012_multilabel sebagai set ujian, ViT-3B pada mulanya mencapai ketepatan 96.3%, di mana model itu jelas salah meramalkan 676 imej, dan kemudian menjalankan penyelidikan mendalam tentang contoh ini.
Apabila melabelkan semula data, penulis tidak memilih crowdsourcing, tetapi membentuk pasukan 5 pengulas pakar untuk melakukan pelabelan, kerana jenis ralat pelabelan ini sukar dikenal pasti untuk bukan profesional.
Sebagai contoh, dalam gambar (a), pencatat biasa mungkin hanya menulis "jadual", tetapi sebenarnya terdapat banyak objek lain dalam gambar, seperti skrin, monitor, mug, dll.
Subjek gambar (b) ialah dua orang, tetapi labelnya adalah pagar piket (pagar), yang jelas tidak sempurna label yang mungkin termasuk tali leher, pakaian seragam, dsb .
Gambar (c) juga merupakan contoh yang jelas. Jika hanya "gajah Afrika" ditanda, gading itu mungkin diabaikan.
Gambar (d) dilabel pantai tasik, tetapi sebenarnya tidak salah untuk melabelkannya sebagai pantai.
Untuk meningkatkan kecekapan anotasi, penyelidik turut membangunkan alat khusus yang boleh memaparkan kategori, skor ramalan, label dan imej yang diramalkan oleh model secara serentak.
Dalam sesetengah kes, mungkin masih terdapat pertikaian tentang pelabelan antara kumpulan pakar Pada masa ini, imej akan dimasukkan ke dalam carian Google untuk membantu dalam pelabelan.
Sebagai contoh, dalam satu contoh, hasil ramalan model termasuk teksi, tetapi tiada jenama teksi dalam gambar kecuali "sedikit kuning".
Anotasi imej ini didapati terutamanya melalui carian imej Google bahawa latar belakang imej itu adalah jambatan ikonik Kemudian penyelidik mencari bandar di mana imej itu terletak dan mendapatkan imej teksi di bandar itu mengakui bahawa gambar ini memang mengandungi teksi dan bukan kereta biasa. Dan perbandingan dari reka bentuk plat lesen juga mengesahkan bahawa ramalan model itu betul.
Selepas semakan awal kesilapan yang ditemui pada beberapa peringkat penyelidikan, penulis mula-mula membahagikannya kepada dua kategori berdasarkan keterukan:
1 maksud label, dan ramalan model tiada kaitan dengan label;
2. Ralat kecil (Minor): Label mungkin salah atau tidak lengkap, mengakibatkan ralat ramalan. Pembetulan memerlukan semakan pakar terhadap data.
Bagi 155 ralat utama yang dibuat oleh model ViT-3B, para penyelidik menemui tiga model lain untuk meramalkan bersama-sama untuk meningkatkan kepelbagaian hasil ramalan.
Terdapat 68 ralat utama yang gagal diramalkan oleh keempat-empat model tersebut setiap model Hasilnya sememangnya ralat besar.
68 contoh ini mempunyai beberapa ciri umum Yang pertama ialah model sota yang dilatih dengan cara yang berbeza telah membuat kesilapan pada subset ini dan penyemak pakar juga percaya bahawa keputusan ramalan adalah tidak relevan sama sekali.
Set data 68 imej juga cukup kecil untuk memudahkan penilaian manual oleh penyelidik seterusnya Jika 68 contoh ini ditakluki pada masa hadapan, model CV mungkin mencapai kejayaan baharu.
Dengan menganalisis data, penyelidik membahagikan ralat ramalan kepada empat jenis:
1 ;
2. Berbutir halus dengan perbendaharaan kata (OOV), di mana model mengenal pasti kelas yang kategorinya betul tetapi tidak wujud untuk objek dalam
3. Korelasi palsu, di mana label yang diramalkan dibaca daripada konteks imej;
4.
Selepas menyemak 676 ralat asal, penyelidik mendapati bahawa 298 daripadanya sepatutnya betul, atau telah ditentukan bahawa label asal adalah salah atau bermasalah.
Secara umumnya, empat kesimpulan boleh dibuat daripada hasil penyelidikan artikel:
1 Apabila model berskala besar dan berketepatan tinggi lain Apabila model tidak membuat ramalan baharu, kira-kira 50% daripadanya adalah berbilang label baharu yang betul;
2 Model ketepatan yang lebih tinggi tidak menunjukkan korelasi yang jelas antara kategori dan keterukan ralat;
<.>3. Prestasi model SOTA hari ini pada subset berbilang label yang dinilai manusia sebahagian besarnya sepadan atau melebihi prestasi manusia pakar yang terbaik 4 penambahbaikan klasifikasi. Mungkin masalah pelabelan imej masih perlu menunggu teknologi pemprosesan bahasa semula jadi diselesaikan?Atas ialah kandungan terperinci Masa depan CV adalah pada 68 gambar ini? Google Brain melihat secara mendalam ImageNet: model teratas semuanya gagal untuk diramalkan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!