Rumah > Artikel > Peranti teknologi > Pasukan Zhu Jun memperoleh sumber terbuka model penyebaran pelbagai mod berskala besar pertama berdasarkan Transformer di Universiti Tsinghua, dan ia telah siap sepenuhnya selepas penulisan semula teks dan imej.
Dilaporkan bahawa GPT-4 akan dikeluarkan minggu ini, dan pelbagai mod akan menjadi salah satu sorotannya. Model bahasa besar semasa menjadi antara muka universal untuk memahami pelbagai modaliti dan boleh memberikan teks balasan berdasarkan maklumat modal yang berbeza Walau bagaimanapun, kandungan yang dihasilkan oleh model bahasa besar hanya terhad kepada teks. Sebaliknya, model resapan semasa DALL・E 2, Imagen, Stable Diffusion, dsb. telah mencetuskan revolusi dalam penciptaan visual, tetapi model ini hanya menyokong satu fungsi silang mod dari teks ke imej dan masih jauh. daripada model generatif sejagat. Model besar multi-modal akan dapat membuka keupayaan pelbagai modaliti dan merealisasikan penukaran antara mana-mana modaliti, yang dianggap sebagai hala tuju pembangunan masa depan model generatif sejagat.
Pasukan TSAIL yang diketuai oleh Profesor Zhu Jun dari Jabatan Sains Komputer di Universiti Tsinghua baru-baru ini menerbitkan kertas kerja "Satu Transformer Sesuai Semua Pengagihan dalam Resapan Pelbagai Modal pada Skala", yang yang pertama menerbitkan multi-modal Beberapa kerja penerokaan pada model generatif telah membolehkan transformasi bersama antara mod arbitrari.
Pautan kertas: https://ml.cs. tsinghua.edu.cn/diffusion/unidiffuser.pdf
Kod sumber terbuka: https://github.com/thu-ml/unidiffuser
Pengarang pertama kertas kerja ini, Bao Fan, kini merupakan pelajar kedoktoran. Beliau adalah pencadang Analytic-DPM sebelum ini hanya satu) untuk kerja cemerlangnya dalam model penyebaran yang memenangi anugerah yang disiapkan secara bebas oleh unit tanah besar).
Selain itu, Machine Heart sebelum ini telah melaporkan algoritma pantas DPM-Solver yang dicadangkan oleh pasukan TSAIL, yang masih merupakan algoritma penjanaan terpantas untuk model resapan. Model besar berbilang modal ialah paparan tertumpu pengumpulan algoritma dan prinsip mendalam jangka panjang pasukan model probabilistik dalam. Kolaborator dalam kerja ini termasuk Li Chongxuan dari Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin, Cao Yue dari Institut Penyelidikan Zhiyuan Beijing dan lain-lain.
Perlu diingat bahawa kertas dan kod projek ini adalah sumber terbuka.
Paparan kesan
Rajah 8 di bawah menunjukkan kesan UniDiffuser pada penjanaan bersama imej dan teks:
Rajah 9 di bawah menunjukkan kesan UniDiffuser pada teks-ke-gambar:
Rajah 10 berikut menunjukkan kesan UniDiffuser pada imej-ke-teks:
Rajah berikut 11 Menunjukkan kesan UniDiffuser pada penjanaan imej tanpa syarat:
Rajah 12 di bawah menunjukkan kesan UniDiffuser pada penulisan semula imej:
Rajah 15 berikut menunjukkan bahawa UniDiffuser boleh melompat ke sana ke mari antara dua mod grafik dan teks:
seperti yang ditunjukkan dalam Rajah 16 di bawah UniDiffuser boleh menginterpolasi dua imej sebenar:
Pasukan penyelidik membahagikan reka bentuk model generatif umum kepada dua sub-masalah:
Rangka kerja pemodelan kebarangkalian
Untuk rangka kerja pemodelan kebarangkalian, pasukan penyelidik mencadangkan UniDiffuser, sebuah A rangka kerja pemodelan kebarangkalian untuk model resapan. UniDiffuser boleh memodelkan semua pengedaran dalam data berbilang mod secara eksplisit, termasuk pengedaran marginal, pengedaran bersyarat dan pengedaran bersama. Pasukan penyelidik mendapati bahawa pembelajaran model resapan tentang pengedaran berbeza boleh disatukan ke dalam satu perspektif: mula-mula menambah saiz hingar tertentu pada data dua modaliti, dan kemudian meramalkan hingar pada data dua modaliti. Jumlah hingar pada dua data modal menentukan pengedaran khusus. Sebagai contoh, menetapkan saiz hingar teks kepada 0 sepadan dengan taburan bersyarat bagi gambar rajah Vincentian, menetapkan saiz bunyi teks kepada nilai maksimum sepadan dengan taburan penjanaan imej tanpa syarat; teks dengan nilai yang sama sepadan dengan pengedaran penjanaan imej tanpa syarat. Mengikut perspektif bersatu ini, UniDiffuser hanya perlu membuat sedikit pengubahsuaian pada algoritma latihan model penyebaran asal untuk mempelajari semua pengedaran di atas pada masa yang sama - seperti yang ditunjukkan dalam rajah di bawah, UniDiffuser menambah hingar pada semua mod pada masa yang sama bukannya mod tunggal, masukkan magnitud hingar yang sepadan dengan semua mod, dan hingar yang diramalkan pada semua mod.
Mengambil mod bimodal sebagai contoh, fungsi objektif latihan terakhir adalah seperti berikut:
di mana
mewakili data ,
mewakili bunyi Gaussian standard yang ditambahkan pada dua mod,
mewakili saiz (iaitu, masa) bunyi yang ditambahkan oleh kedua-dua mod dan kedua-duanya diambil secara bebas daripada {1,2,…,T} ,
ialah rangkaian ramalan hingar yang meramalkan hingar pada dua modaliti secara serentak.
Selepas latihan, UniDiffuser dapat mencapai penjanaan tanpa syarat, bersyarat dan bersama dengan menetapkan dua modaliti kepada rangkaian ramalan hingar pada masa yang sesuai. Sebagai contoh, menetapkan masa teks kepada 0 boleh mencapai penjanaan teks ke imej; penjanaan bersama imej dan teks.
Algoritma latihan dan pensampelan UniDiffuser disenaraikan di bawah. Dapat dilihat bahawa algoritma ini hanya mempunyai perubahan kecil berbanding model penyebaran asal dan mudah untuk dilaksanakan.
Selain itu, kerana UniDiffuser memodelkan kedua-dua pengagihan bersyarat dan tanpa syarat, UniDiffuser secara semula jadi menyokong bimbingan tanpa pengelas . Rajah 3 di bawah menunjukkan kesan penjanaan bersyarat UniDiffuser dan penjanaan bersama di bawah skala bimbingan yang berbeza:
Seni Bina Rangkaian
Berkenaan dengan seni bina rangkaian, pasukan penyelidik mencadangkan untuk menggunakan seni bina berasaskan pengubah untuk parameter rangkaian ramalan hingar. Khususnya, pasukan penyelidik mengguna pakai seni bina U-ViT yang dicadangkan baru-baru ini. U-ViT menganggap semua input sebagai token dan menambah sambungan berbentuk U antara blok pengubah. Pasukan penyelidik juga menggunakan strategi Resapan Stabil untuk menukar data modaliti berbeza kepada ruang terpendam dan kemudian memodelkan model resapan. Perlu diingat bahawa seni bina U-ViT juga berasal dari pasukan penyelidikan ini dan telah bersumberkan terbuka di https://github.com/baoff/U-ViT.
UniDiffuser terlebih dahulu berbanding dengan Versatile Diffusion. Resapan Serbaguna ialah model penyebaran pelbagai mod yang lalu berdasarkan rangka kerja berbilang tugas. Pertama, UniDiffuser dan Versatile Diffusion dibandingkan pada kesan teks-ke-imej. Seperti yang ditunjukkan dalam Rajah 5 di bawah, UniDiffuser adalah lebih baik daripada Resapan Serbaguna dalam kedua-dua Skor CLIP dan metrik FID di bawah skala panduan tanpa pengelas yang berbeza.
Kemudian UniDiffuser dan Versatile Diffusion melakukan perbandingan gambar-ke-teks. Seperti yang ditunjukkan dalam Rajah 6 di bawah, UniDiffuser mempunyai Skor CLIP yang lebih baik pada imej-ke-teks.
UniDiffuser juga dibandingkan dengan model teks-ke-graf khusus untuk FID tangkapan sifar pada MS-COCO. Seperti yang ditunjukkan dalam Jadual 1 di bawah, UniDiffuser boleh mencapai hasil yang setanding dengan model teks-ke-graf khusus.
Atas ialah kandungan terperinci Pasukan Zhu Jun memperoleh sumber terbuka model penyebaran pelbagai mod berskala besar pertama berdasarkan Transformer di Universiti Tsinghua, dan ia telah siap sepenuhnya selepas penulisan semula teks dan imej.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!