Rumah >Peranti teknologi >AI >Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

王林ke hadapan: 2023-04-11 23:10:011458semak imbas

Walaupun ImageNet telah lama menyelesaikan misi sejarahnya, ia masih merupakan set data utama dalam bidang penglihatan komputer.

Pada tahun 2016, kadar ketepatan sota model klasifikasi yang dilatih pada ImageNet masih kurang daripada 80% sehingga hari ini, generalisasi sifar pukulan berdasarkan pra-latihan berskala besar model sahaja boleh mencapai ketepatan 80.1%.

Baru-baru ini LAION melatih satu jenama baru ViT-G/14 CLIP Model, pada set data ImageNet, ketepatan OpenAI CLIP asal hanya 75.4%, manakala OpenCLIP mencapai ketepatan tangkapan sifar sebanyak 80.1% dan mencapai tangkapan sifar sebanyak 74.9% pada MS Pengambilan Imej COCO (Recall@5), yang juga model CLIP sumber terbuka paling berkuasa pada masa ini .

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

LAION bermaksud Rangkaian Terbuka Kecerdasan Buatan Berskala Besar Ia adalah organisasi bukan untung dengan ahli dari seluruh dunia, bertujuan untuk menyediakan Kecerdasan Buatan berskala besar kepada awam Skala model pembelajaran mesin, set data dan kod yang berkaitan. Mereka mendakwa mereka benar-benar Open AI, 100% bukan untung dan 100% percuma.

Rakan yang berminat boleh update model CLIP yang mereka ada!

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Alamat model: https://huggingface.co/laion/CLIP-ViT-bigG-14 -laion2B-39B-b160k

Prestasi khusus model OpenCLIP pada setiap set data ditunjukkan dalam jadual di bawah.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Keupayaan sifar tangkapan

Secara umumnya, model komputer visi (CV) berprestasi baik dalam pelbagai tugas Prestasi sota pada adalah berdasarkan data latihan dalam bidang tertentu dan tidak boleh digeneralisasikan kepada bidang atau tugas lain, menyebabkan pemahaman terhad tentang sifat umum dunia visual.

Masalah generalisasi adalah penting terutamanya dalam bidang yang kekurangan sejumlah besar data latihan.

Sebaik-baiknya, model CV harus mempelajari kandungan semantik imej dan bukannya memfokuskan terlalu banyak pada label tertentu dalam set latihan. Sebagai contoh, untuk imej anjing, model harus dapat memahami bahawa terdapat anjing dalam imej, dan seterusnya memahami bahawa terdapat pokok di latar belakang, waktu siang hari, anjing itu berada di atas rumput, dsb. .

Tetapi keputusan semasa yang diperoleh dengan menggunakan "latihan klasifikasi" adalah betul-betul bertentangan dengan jangkaan Model ini belajar untuk menolak perwakilan dalaman anjing ke dalam "ruang vektor anjing" yang sama dan menolak kucing ke dalam "ruang vektor kucing" yang sama, jawapan kepada semua soalan adalah binari, iaitu sama ada imej itu boleh diselaraskan dengan label kategori.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Melatih semula model klasifikasi untuk tugasan baharu juga merupakan penyelesaian, tetapi latihan itu sendiri memerlukan banyak masa dan kewangan pelaburan untuk mengumpul set data klasifikasi dan model kereta api.

Nasib baik, model CLIP OpenAI ialah model pengelasan yang sangat fleksibel dan biasanya boleh digunakan dalam tugas pengelasan baharu tanpa latihan semula.

Mengapa CLIP boleh Zero-Shot

Pralatihan Bahasa-Imej Kontrastif (CLIP, Contrastive Language-Image Pretraining) ialah model yang dikeluarkan oleh OpenAI pada 2021, terutamanya berdasarkan Transformer.

CLIP terdiri daripada dua model, pengekod Transformer untuk menukar teks kepada pembenaman dan Transformer Visual (ViT) untuk mengekod imej.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Kedua-dua model teks dan imej dalam CLIP dioptimumkan semasa pra-latihan untuk menjajarkan teks dan imej yang serupa dalam ruang vektor. Semasa proses latihan, pasangan imej-teks dalam data ditolak lebih rapat bersama dalam ruang vektor, manakala vektor imej dan teks yang bukan milik pasangan dipisahkan.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Terdapat beberapa perbezaan antara CLIP dan model klasifikasi umum:

Pertama, OpenAI menggunakan data yang dirangkak daripada Latihan Internet pada set data berskala sangat besar yang mengandungi 400 juta pasangan imej teks, faedahnya ialah:

1 Latihan CLIP hanya memerlukan "pasangan teks imej" dan tidak memerlukan label kelas tertentu, dan Jenis data ini adalah. banyak terdapat dalam dunia dalam talian yang berteraskan media sosial hari ini.

2. Set data yang besar bermakna keupayaan CLIP untuk memahami konsep teks biasa dalam imej.

3. Deskriptor teks selalunya mengandungi pelbagai ciri dalam imej, bukan sekadar ciri kategori, yang bermaksud imej dan perwakilan teks yang lebih komprehensif boleh diwujudkan.

Kelebihan di atas juga merupakan faktor utama dalam keupayaan CLIP untuk mewujudkan Zero-shot Pengarang kertas itu juga membandingkan model ResNet-101 dan model CLIP yang dilatih khas pada ImageNet, dan menggunakannya pada data lain yang diperolehi. daripada Set ImageNet, rajah di bawah menunjukkan perbandingan prestasi.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Ia boleh dilihat bahawa walaupun ResNet-101 dilatih pada ImageNet, prestasinya pada set data yang serupa adalah lebih baik daripada CLIP Performance pada tugas yang sama adalah jauh lebih teruk.

Apabila menggunakan model ResNet pada medan lain, kaedah biasa ialah "probe linear", iaitu ciri yang dipelajari dalam beberapa lapisan terakhir model ResNet dimasukkan ke dalam pengelas linear, dan kemudian Fine- ditala untuk set data tertentu.

Dalam kertas CLIP, pengesanan linear ResNet-50 dibandingkan dengan CLIP tangkapan sifar Kesimpulannya ialah dalam senario yang sama, CLIP tangkapan sifar berprestasi lebih baik daripada ResNet dalam pelbagai tugas .

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Walau bagaimanapun, perlu diperhatikan bahawa Zero-shot tidak mengatasi prestasi pengesanan linear apabila diberi lebih banyak sampel latihan.

Klasifikasi tangkapan sifar menggunakan CLIP

Seperti yang anda boleh ketahui daripada penerangan di atas, pengekod imej dan teks boleh mencipta vektor 512 dimensi yang memetakan imej input dan input teks kepada yang sama ruang vektor.

Menggunakan CLIP untuk pengelasan sifar pukulan bermakna meletakkan maklumat kategori ke dalam ayat teks.

Sebagai contoh, jika anda memasukkan imej dan ingin menentukan sama ada kategorinya ialah kereta, burung atau kucing, anda boleh mencipta tiga rentetan teks untuk mewakili kategori:

T1 mewakili kereta: foto kereta

T2 mewakili burung: foto burung

T3 mewakili kucing: foto kucing

Masukkan perihalan kategori ke dalam teks pengekod, dan A vektor boleh diperolehi yang boleh mewakili kategori.

Anggapkan bahawa input adalah foto kucing Gunakan model ViT untuk mengekodnya Selepas memperoleh vektor imej, hitung jarak kosinus antaranya dan vektor kategori sebagai persamaan adalah yang tertinggi, bermakna kategori imej adalah milik kucing.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Seperti yang anda lihat, label kategori bukanlah perkataan yang mudah, tetapi berdasarkan templat "foto {label }" Format diformat semula menjadi ayat, yang boleh dilanjutkan kepada ramalan kategori tanpa kekangan latihan.

Dalam percubaan, menggunakan templat gesaan ini meningkatkan ketepatan klasifikasi ImageNet sebanyak 1.3 mata peratusan Walau bagaimanapun, templat gesaan tidak sentiasa meningkatkan prestasi Dalam penggunaan sebenar, ia perlu diuji berdasarkan set data yang berbeza.

Pelaksanaan Python

Ia juga sangat mudah untuk menggunakan CLIP untuk klasifikasi tangkapan sifar Pengarang memilih set data frgfm/imagenette dalam Hugging Face sebagai demonstrasi labels , dan semuanya disimpan sebagai nilai integer.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Menggunakan CLIP untuk pengelasan memerlukan menukar label nilai integer kepada kandungan teks yang sepadan.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Sebelum mengira secara langsung persamaan antara tag dan foto, anda perlu memulakan model CLIP, yang boleh dilaksanakan menggunakan CLIP yang ditemui melalui Hugging Face transformer.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Pengubah teks tidak boleh membaca teks secara langsung, tetapi memerlukan satu set nilai integer dipanggil ID token (atau input_ID), di mana setiap A unik integer mewakili perkataan atau sub-perkataan (iaitu token).

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Masukkan tensor yang ditukar ke dalam pengubah teks untuk mendapatkan pembenaman teks label

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Perhatikan bahawa pada masa ini CLIP Vektor keluaran belum dinormalisasi, dan keputusan persamaan yang diperoleh selepas pendaraban titik adalah tidak tepat.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Seterusnya, anda boleh memilih imej dalam set data untuk ujian dan mendapatkan vektor imej selepas proses pemprosesan yang sama.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Selepas menukar imej kepada vektor dengan dimensi (1, 3, 224, 224), masukkannya ke dalam model untuk mendapatkan pembenaman

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Langkah seterusnya ialah mengira persamaan produk titik antara benam imej dan sepuluh benam teks label dalam set data yang mempunyai skor tertinggi ialah kategori yang diramalkan.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Model memberikan hasil untuk pemain kaset (pemain kaset), dalam keseluruhan set data Selepas dijalankan sekali lagi, kita boleh mendapatkan ketepatan 98.7%

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Selain klasifikasi Zero-shot, carian berbilang mod, pengesanan sasaran, Model generatif seperti pembahagian Dall-E dan Stable OpenAI, CLIP membuka pintu baharu kepada penglihatan komputer.

Atas ialah kandungan terperinci Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Python Token input transformer https prompt embedding word

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Adakah pembantu suara itu bagus? Baik, tetapi tidak cukup baikArtikel seterusnya：Adakah pembantu suara itu bagus? Baik, tetapi tidak cukup baik

Artikel berkaitan

Lihat lagi