Rumah >Peranti teknologi >AI >Pada era pasca Sora, bagaimanakah pengamal CV memilih model? Konvolusi atau ViT, pembelajaran diselia atau paradigma CLIP

Pada era pasca Sora, bagaimanakah pengamal CV memilih model? Konvolusi atau ViT, pembelajaran diselia atau paradigma CLIP

PHPzke hadapan: 2024-02-19 09:57:021043semak imbas

Ketepatan ImageNet pernah menjadi penunjuk utama untuk menilai prestasi model, tetapi dalam medan penglihatan pengiraan hari ini, penunjuk ini nampaknya tidak lengkap secara beransur-ansur.

Memandangkan model penglihatan komputer menjadi lebih kompleks, kepelbagaian model yang tersedia telah meningkat dengan ketara, daripada ConvNets kepada Vision Transformers. Kaedah latihan juga telah berkembang kepada pembelajaran diselia sendiri dan latihan pasangan teks imej seperti CLIP, dan tidak lagi terhad kepada latihan diselia pada ImageNet.

Walaupun ketepatan ImageNet adalah penunjuk penting, ia tidak mencukupi untuk menilai prestasi model sepenuhnya. Seni bina, kaedah latihan dan set data yang berbeza boleh menyebabkan model berfungsi secara berbeza pada tugasan yang berbeza, jadi bergantung semata-mata pada ImageNet untuk menilai model mungkin mempunyai had. Apabila model melebihi set data ImageNet dan ketepatan mencapai ketepuan, keupayaan generalisasi model pada tugas lain mungkin diabaikan. Oleh itu, pelbagai faktor perlu dipertimbangkan untuk menilai prestasi dan kebolehgunaan model.

Walaupun ketepatan ImageNet CLIP serupa dengan ResNet, pengekod visualnya lebih mantap dan boleh dipindahkan. Ini mendorong penyelidik untuk meneroka kelebihan unik CLIP yang tidak jelas apabila mempertimbangkan hanya metrik ImageNet. Ini menyerlahkan kepentingan menganalisis sifat lain untuk membantu menemui model yang berguna.

Selain itu, penanda aras tradisional tidak dapat menilai sepenuhnya keupayaan model untuk mengendalikan cabaran visual dunia sebenar, seperti pelbagai sudut kamera, keadaan pencahayaan atau oklusi. Model yang dilatih pada set data seperti ImageNet sering mendapati sukar untuk memanfaatkan prestasi mereka dalam aplikasi praktikal kerana keadaan dan senario dunia sebenar lebih pelbagai.

Soalan-soalan ini telah membawa kekeliruan baharu kepada pengamal dalam bidang: Bagaimana untuk mengukur model visual? Dan bagaimana untuk memilih model visual yang sesuai dengan keperluan anda?

Dalam kertas kerja baru-baru ini, penyelidik dari MBZUAI dan Meta menjalankan perbincangan mendalam mengenai isu ini.

Pada era pasca Sora, bagaimanakah pengamal CV memilih model? Konvolusi atau ViT, pembelajaran diselia atau paradigma CLIP

Tajuk kertas: ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy
215. pdf

Penyelidikan memfokuskan pada tingkah laku model di luar ketepatan ImageNet, menganalisis prestasi model utama dalam bidang penglihatan komputer, termasuk ConvNeXt dan Vision Transformer (ViT), yang kedua-duanya berprestasi di bawah seliaan dan Prestasi paradigma latihan CLIP.

Model yang dipilih mempunyai bilangan parameter yang sama dan ketepatan yang hampir sama pada ImageNet-1K di bawah setiap paradigma latihan, memastikan perbandingan yang adil. Para penyelidik mendalami satu siri ciri model, seperti jenis ralat ramalan, keupayaan generalisasi, invarian perwakilan yang dipelajari, penentukuran, dsb., memfokuskan pada ciri model tanpa latihan tambahan atau penalaan halus, dengan harapan untuk terus Rujukan disediakan. oleh pengamal menggunakan model terlatih.

Pada era pasca Sora, bagaimanakah pengamal CV memilih model? Konvolusi atau ViT, pembelajaran diselia atau paradigma CLIP

Dalam analisis, penyelidik mendapati terdapat perbezaan besar dalam tingkah laku model antara seni bina dan paradigma latihan yang berbeza. Sebagai contoh, model yang dilatih di bawah paradigma CLIP menghasilkan ralat klasifikasi yang lebih sedikit daripada yang dilatih di ImageNet. Walau bagaimanapun, model yang diselia adalah ditentukur dengan lebih baik dan umumnya mengatasi prestasi pada penanda aras keteguhan ImageNet. ConvNeXt mempunyai kelebihan pada data sintetik, tetapi lebih berorientasikan tekstur daripada ViT. Sementara itu, ConvNeXt yang diselia menunjukkan prestasi yang baik pada banyak penanda aras, dengan prestasi kebolehpindahan yang setanding dengan model CLIP.

Adalah dapat dilihat bahawa pelbagai model menunjukkan kelebihan mereka dengan cara yang unik, dan kelebihan ini tidak dapat ditangkap oleh satu penunjuk. Para penyelidik menekankan bahawa metrik penilaian yang lebih terperinci diperlukan untuk memilih model dengan tepat dalam konteks tertentu dan untuk mencipta penanda aras ImageNet-agnostik baharu.

Berdasarkan pemerhatian ini, ketua saintis Meta AI Yann LeCun mengetweet semula kajian itu dan menyukainya:

Pada era pasca Sora, bagaimanakah pengamal CV memilih model? Konvolusi atau ViT, pembelajaran diselia atau paradigma CLIP

🎜

Pemilihan model

Untuk model yang diselia, penyelidik menggunakan DeiT3-Base/16 terlatih ViT, yang mempunyai seni bina yang sama seperti ViT-Base/16, tetapi kaedah latihan telah ditambah baik, ConvNeXt -Asas telah digunakan. Untuk model CLIP, penyelidik menggunakan pengekod visual ViT-Base/16 dan ConvNeXt-Base dalam OpenCLIP.

Sila ambil perhatian bahawa prestasi model ini sedikit berbeza daripada model OpenAI asal. Semua pusat pemeriksaan model boleh didapati di halaman utama projek GitHub. Perbandingan model terperinci ditunjukkan dalam Jadual 1:

Pada era pasca Sora, bagaimanakah pengamal CV memilih model? Konvolusi atau ViT, pembelajaran diselia atau paradigma CLIP

Untuk proses pemilihan model, pengkaji memberi penerangan terperinci:

1 Memandangkan pengkaji menggunakan model yang telah dilatih, dia tidak boleh mengawal tempoh latihan Kuantiti dan kualiti sampel data yang dilihat.

2. Untuk menganalisis ConvNets dan Transformers, banyak kajian terdahulu telah membandingkan ResNet dan ViT. Perbandingan ini secara amnya tidak kondusif untuk ConvNet, kerana ViT biasanya dilatih dengan resipi yang lebih maju dan mencapai ketepatan ImageNet yang lebih tinggi. ViT juga mempunyai beberapa elemen reka bentuk seni bina, seperti LayerNorm, yang tidak dimasukkan ke dalam ResNet apabila ia dicipta bertahun-tahun yang lalu. Oleh itu, untuk penilaian yang lebih seimbang, kami membandingkan ViT dengan ConvNeXt, wakil moden ConvNet yang berprestasi setanding dengan Transformers dan berkongsi banyak reka bentuk.

3. Dari segi mod latihan, penyelidik membandingkan mod penyeliaan dan mod CLIP. Model yang diselia telah mengekalkan prestasi terkini dalam penglihatan komputer. Model CLIP, sebaliknya, berprestasi baik dari segi generalisasi dan kebolehpindahan dan menyediakan sifat untuk menghubungkan perwakilan visual dan linguistik.

4 Memandangkan model yang diselia sendiri menunjukkan tingkah laku yang serupa dengan model yang diselia dalam ujian awal, ia tidak disertakan dalam keputusan. Ini mungkin disebabkan oleh fakta bahawa mereka akhirnya diselia dengan penalaan halus pada ImageNet-1K, yang menjejaskan kajian banyak ciri.

Seterusnya, mari kita lihat cara penyelidik menganalisis atribut yang berbeza. . dalam . Ia menggunakan metrik nisbah ralat (lebih rendah adalah lebih baik) untuk mengukur prestasi model pada faktor tertentu berbanding dengan ketepatan keseluruhan, membolehkan analisis ralat model bernuansa. Hasil pada ImageNet-X menunjukkan:

1 Berbanding model diselia, model CLIP membuat ralat yang lebih sedikit dalam ketepatan ImageNet.

2. Semua model dipengaruhi terutamanya oleh faktor kompleks seperti oklusi.

3. Tekstur adalah faktor yang paling mencabar bagi semua model.

Bias Bentuk/Tekstur

Bias Tekstur Bentuk mengesan sama ada model bergantung pada pintasan tekstur rapuh dan bukannya isyarat bentuk peringkat tinggi. Bias ini boleh dikaji dengan menggabungkan imej bercanggah kiu bagi kategori bentuk dan tekstur yang berbeza. Pendekatan ini membantu memahami sejauh mana keputusan model berdasarkan bentuk berbanding tekstur. Para penyelidik menilai bias bentuk-tekstur pada set data konflik kiu dan mendapati bahawa bias tekstur model CLIP adalah lebih kecil daripada model yang diselia, manakala bias bentuk model ViT lebih tinggi daripada ConvNets.

Pada era pasca Sora, bagaimanakah pengamal CV memilih model? Konvolusi atau ViT, pembelajaran diselia atau paradigma CLIP

Penentukuran model

Penentukuran boleh mengukur sama ada keyakinan ramalan model konsisten dengan ketepatan sebenar, yang boleh diukur melalui penunjuk seperti penentukuran yang dijangkakan plot kebolehpercayaan dan histogram keyakinan alat visual untuk penilaian. Penentukuran dinilai pada ImageNet-1K dan ImageNet-R, mengklasifikasikan ramalan kepada 15 tahap. Semasa eksperimen, penyelidik memerhati perkara berikut:

Pada era pasca Sora, bagaimanakah pengamal CV memilih model? Konvolusi atau ViT, pembelajaran diselia atau paradigma CLIP

1. Model CLIP terlalu yakin, manakala model yang diselia kurang yakin.

2 ConvNeXt yang diselia melakukan penentukuran yang lebih baik daripada ViT yang diselia.

Keteguhan dan kebolehpindahan

Keteguhan dan kebolehpindahan model adalah penting untuk menyesuaikan diri dengan perubahan dalam pengedaran data dan tugasan baharu. Para penyelidik menilai keteguhan menggunakan pelbagai varian ImageNet dan mendapati bahawa walaupun prestasi purata model ViT dan ConvNeXt adalah setanding, kecuali untuk ImageNet-R dan ImageNet-Sketch, model yang diselia umumnya mengatasi prestasi CLIP dari segi keteguhan . Dari segi kebolehpindahan, ConvNeXt yang diselia mengatasi prestasi ViT dan hampir setanding dengan prestasi model CLIP, seperti yang dinilai pada penanda aras VTAB menggunakan 19 set data.

Pada era pasca Sora, bagaimanakah pengamal CV memilih model? Konvolusi atau ViT, pembelajaran diselia atau paradigma CLIP

Synthetic Data

pug-imagenet dan set data sintetik lain dapat mengawal faktor-faktor seperti sudut dan tekstur kamera. Prestasi pada data. PUG-ImageNet mengandungi imej ImageNet fotorealistik dengan variasi sistematik dalam faktor seperti pose dan pencahayaan, dan prestasi diukur sebagai ketepatan 1 teratas mutlak. Para penyelidik memberikan keputusan mengenai faktor yang berbeza dalam PUG-ImageNet dan mendapati bahawa ConvNeXt mengatasi ViT dalam hampir semua faktor. Ini menunjukkan bahawa ConvNeXt mengatasi ViT pada data sintetik, manakala jurang untuk model CLIP adalah lebih kecil kerana ketepatan model CLIP adalah lebih rendah daripada model diselia, yang mungkin berkaitan dengan ketepatan ImageNet asal yang lebih rendah.

Pada era pasca Sora, bagaimanakah pengamal CV memilih model? Konvolusi atau ViT, pembelajaran diselia atau paradigma CLIP

Invarian transformasi

Invarian transformasi merujuk kepada keupayaan model untuk menghasilkan perwakilan yang konsisten yang tidak dipengaruhi oleh transformasi input seperti penskalaan atau pergerakan, dengan itu mengekalkan Sifat ini membolehkan model membuat generalisasi dengan baik merentas input yang berbeza tetapi serupa secara semantik. Kaedah yang digunakan termasuk mengubah saiz imej untuk invarian skala, memindahkan tanaman untuk invarian kedudukan dan melaraskan peleraian model ViT menggunakan benam kedudukan terinterpolasi.

Mereka menilai invarian skala, gerakan dan resolusi pada ImageNet-1K dengan mengubah skala/kedudukan tanaman dan resolusi imej. ConvNeXt mengatasi ViT dalam latihan yang diselia. Secara keseluruhannya, model ini lebih teguh untuk transformasi skala/resolusi berbanding dengan pergerakan. Untuk aplikasi yang memerlukan keteguhan tinggi untuk penskalaan, anjakan dan peleraian, keputusan menunjukkan bahawa ConvNeXt yang diselia mungkin merupakan pilihan terbaik.

Pada era pasca Sora, bagaimanakah pengamal CV memilih model? Konvolusi atau ViT, pembelajaran diselia atau paradigma CLIP

Ringkasan

Secara keseluruhannya, setiap model mempunyai kelebihan tersendiri. Ini menunjukkan bahawa pemilihan model harus bergantung pada kes penggunaan sasaran, kerana metrik prestasi standard mungkin mengabaikan nuansa kritikal tugas tertentu. Tambahan pula, banyak penanda aras sedia ada diperoleh daripada ImageNet, yang juga berat sebelah penilaian. Membangunkan penanda aras baharu dengan pengedaran data yang berbeza adalah penting untuk menilai model dalam persekitaran perwakilan dunia yang lebih nyata.

Berikut ialah ringkasan rumusan artikel ini:

ConvNet dengan Transformer

11 lebih baik daripada Supervised ConvNeXt invariant invariant inbenches lebih baik. transformasi data dan mempamerkan kemudahalihan dan keteguhan yang lebih baik.

2. ConvNeXt berprestasi lebih baik daripada ViT pada data sintetik.

3. ViT mempunyai sisihan bentuk yang lebih besar.

Penyeliaan lwn. CLIP

1 Walaupun model CLIP lebih unggul dari segi kebolehpindahan, ConvNeXt yang diselia menunjukkan prestasi yang kompetitif dalam tugasan ini. Ini menunjukkan potensi model yang diselia.

2. Model yang diselia menunjukkan prestasi yang lebih baik pada penanda aras keteguhan, mungkin kerana model ini adalah semua varian ImageNet.

3 Model CLIP mempunyai kecenderungan bentuk yang lebih besar dan ralat pengelasan yang lebih sedikit berbanding dengan ketepatan ImageNet.

Atas ialah kandungan terperinci Pada era pasca Sora, bagaimanakah pengamal CV memilih model? Konvolusi atau ViT, pembelajaran diselia atau paradigma CLIP. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

架构 github transformer https

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Princeton DeepMind menggunakan matematik untuk membuktikan: LLM bukan burung nuri rawak! "Lebih besar skala, lebih kuat keupayaan" mempunyai asas teoriArtikel seterusnya：Princeton DeepMind menggunakan matematik untuk membuktikan: LLM bukan burung nuri rawak! "Lebih besar skala, lebih kuat keupayaan" mempunyai asas teori

Artikel berkaitan

Lihat lagi