Rumah >Peranti teknologi >AI >He Kaiming bekerjasama dengan MIT: Rangka kerja mudah mencapai kejayaan terkini dalam penjanaan imej tanpa syarat

He Kaiming bekerjasama dengan MIT: Rangka kerja mudah mencapai kejayaan terkini dalam penjanaan imej tanpa syarat

王林
王林ke hadapan
2023-12-15 09:57:28886semak imbas

Bos besar He Yuming belum lagi menyertai MIT secara rasmi, tetapi penyelidikan kerjasama pertama dengan MIT telah keluar:

Beliau dan guru dan pelajar MIT telah membangunkan rangka kerja penjanaan imej bersyarat sendiri, yang dipanggil RCG Kod tersebut telah menjadi sumber terbuka) .

Struktur rangka kerja ini sangat mudah tetapi kesannya luar biasa Ia secara langsung melaksanakan

SOTA baharu penjanaan imej tanpa syarat pada set data ImageNet-1K.

He Kaiming bekerjasama dengan MIT: Rangka kerja mudah mencapai kejayaan terkini dalam penjanaan imej tanpa syarat

Imej yang dijana tidak memerlukan sebarang anotasi manusia

(iaitu, kata gesaan, label kelas, dll.) , dan boleh mencapai kedua-dua kesetiaan dan kepelbagaian.

He Kaiming bekerjasama dengan MIT: Rangka kerja mudah mencapai kejayaan terkini dalam penjanaan imej tanpa syarat

Dengan cara ini, ia bukan sahaja meningkatkan tahap penjanaan imej tanpa syarat dengan ketara, tetapi juga bersaing dengan kaedah penjanaan bersyarat terbaik semasa.

Dalam kata-kata pasukan He Yuming:

Jurang prestasi yang lama antara tugas penjanaan bersyarat dan tanpa syarat akhirnya telah dirapatkan pada masa ini.

Jadi, bagaimana sebenarnya ia dilakukan?

Penjanaan bersyarat kendiri serupa dengan pembelajaran penyeliaan kendiri

Pertama sekali, apa yang dipanggil penjanaan tanpa syarat bermakna model itu secara langsung menangkap kandungan penjanaan pengedaran data tanpa bantuan isyarat input.

Cara latihan ini sukar, jadi sentiasa ada jurang prestasi yang besar dengan penjanaan bersyarat - sama seperti pembelajaran tanpa pengawasan tidak boleh dibandingkan dengan pembelajaran diselia

Sama seperti pembelajaran penyeliaan kendiri telah muncul, ia juga telah mengubah keadaan ini

Dalam bidang penjanaan imej tanpa syarat, terdapat juga kaedah penjanaan keadaan kendiri sama dengan konsep pembelajaran penyeliaan kendiri.

Berbanding dengan penjanaan tanpa syarat tradisional yang hanya memetakan pengedaran hingar kepada pengedaran imej, kaedah ini terutamanya menetapkan proses penjanaan piksel pada

agihan perwakilan yang diperoleh daripada pengedaran data itu sendiri.

Ia dijangka melangkaui penjanaan imej bersyarat dan menggalakkan pembangunan aplikasi seperti

reka bentuk molekul atau penemuan ubatyang tidak memerlukan anotasi manusia(Inilah sebabnya penjanaan imej bersyarat berkembang dengan baik, kita juga harus memberi perhatian kepada generasi tanpa syarat ).

Kini, berdasarkan konsep penjanaan bersyarat kendiri ini, pasukan He Kaiming mula-mula membangunkan

model resapan perwakilan RDM.

Dipintas daripada imej melalui pengekod imej yang diselia sendiri, terutamanya digunakan untuk menjana perwakilan imej penyeliaan kendiri berdimensi rendah

He Kaiming bekerjasama dengan MIT: Rangka kerja mudah mencapai kejayaan terkini dalam penjanaan imej tanpa syarat

Seni bina terasnya adalah seperti berikut:

Pertama ialah lapisan input, yang bertanggungjawab untuk mengunjurkan perwakilan kepada dimensi tersembunyi C , diikuti oleh N blok yang disambungkan sepenuhnya, dan akhirnya lapisan keluaran, yang bertanggungjawab untuk menayang semula

(menukar) ciri terpendam lapisan tersembunyi kepada dimensi perwakilan asal.

Setiap lapisan termasuk lapisan LayerNorm, lapisan SiLU dan lapisan linear. . : mewakili seni bina penjanaan imej bersyarat RCG

Ia merupakan rangka kerja penjanaan syarat kendiri ringkas yang terdiri daripada

He Kaiming bekerjasama dengan MIT: Rangka kerja mudah mencapai kejayaan terkini dalam penjanaan imej tanpa syarat tiga komponen

:

Satu ialah pengekod imej SSL

, yang digunakan untuk , yang digunakan untuk padat mewakili pengedaran.

Salah satunya ialah RDM, yang digunakan untuk memodelkan dan mengambil sampel pengedaran ini.

Yang terakhir ialah penjana piksel MAGE, yang digunakan untuk memproses imej mengikut perwakilan. MAGE berfungsi dengan menambahkan topeng rawak pada imej token dan meminta rangkaian membina semula token yang hilang yang dikondisikan pada perwakilan yang diekstrak daripada imej yang sama

Selepas ujian, didapati keputusan akhir menunjukkan bahawa walaupun The struktur rangka kerja penjanaan keadaan diri ini adalah mudah, tetapi kesannya sangat baik Pada ImageNet 256×256, RCG mencapai FID sebanyak

3.56 dan IS sebanyak 186.9 (Skor Permulaan).

Sebagai perbandingan, kaedah penjanaan tanpa syarat yang paling berkuasa sebelum ini mempunyai skor FID 7.04 dan skor IS 123.5.

He Kaiming bekerjasama dengan MIT: Rangka kerja mudah mencapai kejayaan terkini dalam penjanaan imej tanpa syarat

Untuk RCG, ia bukan sahaja berprestasi baik dalam penjanaan bersyarat, tetapi juga berprestasi pada tahap yang sama malah melebihi model penanda aras dalam bidang ini

Akhir sekali, tanpa bimbingan pengelas, prestasi RCG masih boleh ditingkatkan lagi kepada 3.31(FID) dan 253.4(IS).

Pasukan menyatakan:

Keputusan ini menunjukkan bahawa model penjanaan imej bersyarat mempunyai potensi besar dan boleh melakar era baharu dalam bidang ini

Pengenalan pasukan

Terdapat tiga pengarang dalam artikel ini:

He Kaiming bekerjasama dengan MIT: Rangka kerja mudah mencapai kejayaan terkini dalam penjanaan imej tanpa syarat

. pengarang Beliau ialah Li Tianhong, seorang pelajar kedoktoran di MIT Beliau lulus dari Kelas Yao Universiti Tsinghua dengan ijazah sarjananya ialah teknologi penderiaan bersepadu silang. Laman utama peribadinya sangat menarik, dan dia juga mempunyai koleksi resipi - penyelidikan dan memasak adalah dua perkara yang paling dia minati

Pengarang lain adalah dari Jabatan Kejuruteraan Elektrik dan Sains Komputer di MIT

(EECS) He Kaiming bekerjasama dengan MIT: Rangka kerja mudah mencapai kejayaan terkini dalam penjanaan imej tanpa syaratProfesor Dina Katabi, pengarah MIT Wireless Networks and Mobile Computing Center, ialah pemenang Hadiah Sloan tahun ini dan telah dipilih sebagai ahli akademik Akademi Sains Kebangsaan.

Akhirnya, pengarang yang sepadan ialah He Mingming Dia secara rasmi akan kembali ke akademik tahun depan dan meninggalkan Meta untuk menyertai Jabatan Kejuruteraan Elektrik dan Sains Komputer di MIT, di mana dia akan menjadi rakan sekerja dengan Dina Katabi.

He Kaiming bekerjasama dengan MIT: Rangka kerja mudah mencapai kejayaan terkini dalam penjanaan imej tanpa syarat

Sila klik pautan berikut untuk melihat kertas kerja: https://arxiv.org/abs/2312.03701He Kaiming bekerjasama dengan MIT: Rangka kerja mudah mencapai kejayaan terkini dalam penjanaan imej tanpa syarat

Atas ialah kandungan terperinci He Kaiming bekerjasama dengan MIT: Rangka kerja mudah mencapai kejayaan terkini dalam penjanaan imej tanpa syarat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam