Rumah > Artikel > Peranti teknologi > He Kaiming bekerjasama dengan MIT: Rangka kerja mudah mencapai kejayaan terkini dalam penjanaan imej tanpa syarat
Bos besar He Yuming belum lagi menyertai MIT secara rasmi, tetapi penyelidikan kerjasama pertama dengan MIT telah keluar:
Beliau dan guru dan pelajar MIT telah membangunkan rangka kerja penjanaan imej bersyarat sendiri, yang dipanggil RCG Kod tersebut telah menjadi sumber terbuka) .
Struktur rangka kerja ini sangat mudah tetapi kesannya luar biasa Ia secara langsung melaksanakanSOTA baharu penjanaan imej tanpa syarat pada set data ImageNet-1K.
Imej yang dijana tidak memerlukan sebarang anotasi manusia(iaitu, kata gesaan, label kelas, dll.) , dan boleh mencapai kedua-dua kesetiaan dan kepelbagaian.
Dengan cara ini, ia bukan sahaja meningkatkan tahap penjanaan imej tanpa syarat dengan ketara, tetapi juga bersaing dengan kaedah penjanaan bersyarat terbaik semasa. Dalam kata-kata pasukan He Yuming: Jurang prestasi yang lama antara tugas penjanaan bersyarat dan tanpa syarat akhirnya telah dirapatkan pada masa ini. Jadi, bagaimana sebenarnya ia dilakukan? Penjanaan bersyarat kendiri serupa dengan pembelajaran penyeliaan kendiriPertama sekali, apa yang dipanggil penjanaan tanpa syarat bermakna model itu secara langsung menangkap kandungan penjanaan pengedaran data tanpa bantuan isyarat input. Cara latihan ini sukar, jadi sentiasa ada jurang prestasi yang besar dengan penjanaan bersyarat - sama seperti pembelajaran tanpa pengawasan tidak boleh dibandingkan dengan pembelajaran diseliaSama seperti pembelajaran penyeliaan kendiri telah muncul, ia juga telah mengubah keadaan iniDalam bidang penjanaan imej tanpa syarat, terdapat juga kaedah penjanaan keadaan kendiri sama dengan konsep pembelajaran penyeliaan kendiri. Berbanding dengan penjanaan tanpa syarat tradisional yang hanya memetakan pengedaran hingar kepada pengedaran imej, kaedah ini terutamanya menetapkan proses penjanaan piksel pada
agihan perwakilan yang diperoleh daripada pengedaran data itu sendiri.
Ia dijangka melangkaui penjanaan imej bersyarat dan menggalakkan pembangunan aplikasi sepertireka bentuk molekul atau penemuan ubatyang tidak memerlukan anotasi manusia(Inilah sebabnya penjanaan imej bersyarat berkembang dengan baik, kita juga harus memberi perhatian kepada generasi tanpa syarat ).
Kini, berdasarkan konsep penjanaan bersyarat kendiri ini, pasukan He Kaiming mula-mula membangunkanmodel resapan perwakilan RDM.
Dipintas daripada imej melalui pengekod imej yang diselia sendiri, terutamanya digunakan untuk menjana perwakilan imej penyeliaan kendiri berdimensi rendah Seni bina terasnya adalah seperti berikut: Pertama ialah lapisan input, yang bertanggungjawab untuk mengunjurkan perwakilan kepada dimensi tersembunyi C , diikuti oleh N blok yang disambungkan sepenuhnya, dan akhirnya lapisan keluaran, yang bertanggungjawab untuk menayang semula(menukar) ciri terpendam lapisan tersembunyi kepada dimensi perwakilan asal.
Setiap lapisan termasuk lapisan LayerNorm, lapisan SiLU dan lapisan linear. . : mewakili seni bina penjanaan imej bersyarat RCG Ia merupakan rangka kerja penjanaan syarat kendiri ringkas yang terdiri daripadatiga komponen
:
Satu ialah pengekod imej SSL
, yang digunakan untuk , yang digunakan untuk padat mewakili pengedaran.
Salah satunya ialah RDM, yang digunakan untuk memodelkan dan mengambil sampel pengedaran ini.
Yang terakhir ialah penjana piksel MAGE, yang digunakan untuk memproses imej mengikut perwakilan. MAGE berfungsi dengan menambahkan topeng rawak pada imej token dan meminta rangkaian membina semula token yang hilang yang dikondisikan pada perwakilan yang diekstrak daripada imej yang sama
Selepas ujian, didapati keputusan akhir menunjukkan bahawa walaupun The struktur rangka kerja penjanaan keadaan diri ini adalah mudah, tetapi kesannya sangat baik Pada ImageNet 256×256, RCG mencapai FID sebanyak
3.56 dan IS sebanyak 186.9 (Skor Permulaan). Sebagai perbandingan, kaedah penjanaan tanpa syarat yang paling berkuasa sebelum ini mempunyai skor FID 7.04 dan skor IS 123.5.Untuk RCG, ia bukan sahaja berprestasi baik dalam penjanaan bersyarat, tetapi juga berprestasi pada tahap yang sama malah melebihi model penanda aras dalam bidang ini
Akhir sekali, tanpa bimbingan pengelas, prestasi RCG masih boleh ditingkatkan lagi kepada 3.31(FID) dan 253.4(IS).
Pasukan menyatakan:
Keputusan ini menunjukkan bahawa model penjanaan imej bersyarat mempunyai potensi besar dan boleh melakar era baharu dalam bidang ini
Terdapat tiga pengarang dalam artikel ini:
. pengarang Beliau ialah Li Tianhong, seorang pelajar kedoktoran di MIT Beliau lulus dari Kelas Yao Universiti Tsinghua dengan ijazah sarjananya ialah teknologi penderiaan bersepadu silang. Laman utama peribadinya sangat menarik, dan dia juga mempunyai koleksi resipi - penyelidikan dan memasak adalah dua perkara yang paling dia minati
Pengarang lain adalah dari Jabatan Kejuruteraan Elektrik dan Sains Komputer di MIT(EECS) Profesor Dina Katabi, pengarah MIT Wireless Networks and Mobile Computing Center, ialah pemenang Hadiah Sloan tahun ini dan telah dipilih sebagai ahli akademik Akademi Sains Kebangsaan.
Akhirnya, pengarang yang sepadan ialah He Mingming Dia secara rasmi akan kembali ke akademik tahun depan dan meninggalkan Meta untuk menyertai Jabatan Kejuruteraan Elektrik dan Sains Komputer di MIT, di mana dia akan menjadi rakan sekerja dengan Dina Katabi.
Sila klik pautan berikut untuk melihat kertas kerja: https://arxiv.org/abs/2312.03701
Atas ialah kandungan terperinci He Kaiming bekerjasama dengan MIT: Rangka kerja mudah mencapai kejayaan terkini dalam penjanaan imej tanpa syarat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!