Rumah  >  Artikel  >  Peranti teknologi  >  AltDiffusion-m18, alat serba boleh untuk menjana teks dan imej berbilang bahasa

AltDiffusion-m18, alat serba boleh untuk menjana teks dan imej berbilang bahasa

WBOY
WBOYke hadapan
2023-05-07 18:37:081241semak imbas

Pada masa ini, pemilihan teks bukan bahasa Inggeris dan model penjanaan imej adalah terhad, dan pengguna selalunya perlu menterjemah gesaan ke dalam bahasa Inggeris sebelum memasuki model. Ini bukan sahaja akan menyebabkan beban operasi tambahan, tetapi juga kesilapan bahasa dan budaya dalam proses terjemahan akan menjejaskan ketepatan imej yang dihasilkan.

Pasukan FlagAI dari Institut Penyelidikan Zhiyuan mempelopori kaedah latihan yang cekap, menggunakan model pra-latihan berbilang bahasa yang digabungkan dengan Stable Diffusion untuk melatih model penjanaan teks dan imej berbilang bahasa - AltDiffusion-m18, menyokong 18 jenis Penjanaan imej teks bahasa.

Termasuk Cina, Inggeris, Jepun, Thai, Korea, Hindi, Ukraine, Arab, Turki, Vietnam, Poland, Belanda, Portugis, Itali, Sepanyol, Jerman, Perancis, Rusia.

Wajah berpeluk: https://huggingface.co/BAAI/AltDiffusion-m18

GitHub: https://github.com/FlagAI-Open/FlagAI/blob/master/examples/AltDiffusion -m18

AltDiffusion-m18 mencapai Resapan Stabil 95~99% kesan dalam penilaian objektif skor FID, IS, CLIP dalam bahasa Inggeris, mencapai tahap optimum dalam bahasa Cina dan Jepun, dan diisi dalam baki 15 kategori. Jurang dalam model penjanaan teks dan gambar bahasa telah banyak memenuhi permintaan kukuh industri untuk penjanaan teks dan gambar berbilang bahasa. Terima kasih khas kepada Pasukan Penyelidikan Resapan Stabil kerana memberikan nasihat mengenai kerja ini.

Selain itu, laporan teknologi inovatif berkaitan AltDiffusion-m18 "AltCLIP: Mengubah Pengekod Bahasa dalam CLIP untuk Keupayaan Bahasa Lanjutan" telah diterima oleh Penemuan ACL 2023.

Sorotan Teknikal

1 AltCLIP baharu, pembinaan cekap dan kos rendah model T2I berbilang bahasa

AltDiffusion dikeluarkan tahun lepas -m9, berdasarkan Stable Diffusion v1.4, pasukan Zhiyuan secara inovatif menggantikan menara bahasa dengan menara berbilang bahasa AltCLIP, dan menggunakan data berbilang bahasa dalam sembilan bahasa untuk penalaan halus, memanjangkan Stable Diffusion yang asal yang hanya menyokong bahasa Inggeris untuk menyokong 9 bahasa yang berbeza.

AltCLIP: https://github.com/FlagAI-Open/FlagAI/tree/master/examples/AltCLIP-m18

Dan AltDiffusion-m18 adalah berdasarkan Latihan Stabil Diffusion v2.1. Menara bahasa baharu Stable Diffusion v2.1 ialah lapisan kedua terbalik OpenCLIP Oleh itu, AltCLIP baharu menggunakan lapisan kedua terbalik OpenCLIP sebagai sasaran penyulingan untuk melatih semula, dan berdasarkan m9, ia hanya akan menggunakan lapisan CrossAttention K. dan matriks V dalam Unet diperluaskan kepada kaedah latihan dua peringkat, seperti yang ditunjukkan dalam rajah di bawah:

开源AltDiffusion-m18 ,18种语言文图生成all in one

- Fasa 1: Ia ditemui lebih awal dalam eksperimen m9 yang menyempurnakan matriks K dan V Perkara utama yang perlu dipelajari ialah penjajaran konsep teks dan gambar, jadi peringkat pertama latihan m18 terus menggunakan data 18 bahasa untuk menyempurnakan K dan matriks V. Di samping itu, percubaan telah membuktikan bahawa mengurangkan resolusi imej daripada 512*512 kepada 256*256 tidak kehilangan maklumat semantik imej. Oleh itu, dalam peringkat pertama pembelajaran penjajaran konsep imej teks, resolusi 256*256 digunakan untuk latihan, yang mempercepatkan latihan.

- Peringkat kedua: Untuk meningkatkan lagi kualiti imej yang dijana, parameter penuh Unet dilatih pada data 18 bahasa menggunakan resolusi 512*512. Selain itu, 10% daripada teks dibuang untuk latihan tanpa syarat untuk menyampaikan inferens bimbingan tanpa pengelas.

- Selain itu, teknik latihan berpandu tanpa pengelas diguna pakai untuk meningkatkan lagi kualiti penjanaan.

Keputusan penilaian terkini menunjukkan bahawa AltCLIP-m18 mengatasi CLIP dan mencapai tahap optimum dalam tugasan pengambilan sifar (sampel sifar) Cina dan Inggeris ⬇️

开源AltDiffusion-m18 ,18种语言文图生成all in one

Pada penanda aras klasifikasi imej berbilang bahasa, AltCLIP-m9 (versi awal, menyokong 9 bahasa) dan AltCLIP-m18 mencapai tahap optimum ⬇️

开源AltDiffusion-m18 ,18种语言文图生成all in one

Begitu juga, terima kasih kepada AltCLIP With idea inovatif untuk menukar menara, AltDiffusion-m18 juga boleh disambungkan dengan lancar kepada semua model Stable Diffusion dan alatan ekologi yang dibina pada CLIP asal Semua alatan yang menyokong Stable Diffusion seperti Stable Diffusion WebUI, DreamBooth, dll. boleh digunakan. kepada AltDiffusion-m18. Tidak menyakitkan untuk bermula dan kebolehmainan yang hebat!

2 Kesan penjanaan berbilang bahasa diselaraskan, dengan prestasi unggul dan butiran yang tepat

Dengan sokongan AltCLIP baharu, AltDiffusion-m18 telah mencapai 95~99% daripada kesan Stable Diffusion asal dalam penilaian skor FID, IS dan CLIP Inggeris, dan telah mencapai prestasi paling maju dalam 17 bahasa termasuk Cina dan Jepun. Prestasi AltDiffusion-m18 ditunjukkan dalam jadual berikut:

开源AltDiffusion-m18 ,18种语言文图生成all in one

Dalam bahasa Inggeris, Cina dan Jepun, AltDiffusion-m18 mempunyai kesan yang lebih baik dan lebih terperinci daripada hasil penjanaan model lain. Tepat:

开源AltDiffusion-m18 ,18种语言文图生成all in one

AltDiffusion-m18 dalam (a) di atas boleh menjana hasil yang sangat konsisten dengan Stable Diffusion yang asal, dan lebih baik daripada China domestik yang lain. -Model dwibahasa Inggeris dalam pemahaman segera , contohnya: "Beruang yang disumbat", "Foto hitam putih", "kucing" dan konsep lain yang gagal dijana dalam model dwibahasa Cina-Inggeris domestik yang lain boleh berjaya dijana dalam AltDiffusion . Fenomena yang sama berlaku dalam bahasa Cina dan Jepun.

"Sofa hitam, lantai kayu" dalam (b) di atas hanya dijana dengan betul oleh AltDiffusion-m18.

"Beruang" dalam (c) di atas, Japanese Stable Diffusion tersalah menjana "manusia", tetapi AltDiffusion-m18 boleh menjana "bear" dengan betul.

Selain itu, pasukan Zhiyuan FlagEval membangunkan alat penilaian model penjanaan imej dan teks ImageEval. Selepas penilaian, ketepatan AltDiffusion-m18 dalam objek entiti dan dimensi kuantiti entiti melebihi model peer domestik masing-masing sebanyak 11% dan 10% (Nota: Kaedah dan keputusan penilaian ImageEval akan dikeluarkan secara terbuka dalam masa terdekat, jadi kekal ditala).

3 Penyelamat teks dan imej bahasa kecil, menyediakan sistem rujukan untuk teks berbilang bahasa dan model penjanaan imej

AltDiffusion-m18 mempelajari bias bahasa yang berbeza daripada data berbilang bahasa, Ia membantu pengguna melepasi ambang terjemahan bahasa dan memintas terjemahan budaya, mengurangkan kehilangan maklumat budaya di sebalik bahasa. Seperti yang ditunjukkan dalam rajah di bawah, garis muka budak kecil yang dijana oleh gesaan Cina dan Jepun adalah lebih "gaya Asia", manakala budak kecil yang dihasilkan oleh gesaan bahasa Inggeris dan bahasa Eropah yang lain adalah lebih "gaya Eropah dan Amerika".

开源AltDiffusion-m18 ,18种语言文图生成all in one

Apa yang lebih menarik ialah butiran gambar yang dijana oleh gesaan haiwan dalam bahasa berbeza​​​juga berbeza. Seperti yang ditunjukkan dalam rajah di bawah, walaupun gambar yang dihasilkan dalam bahasa yang berbeza adalah sangat konsisten secara keseluruhan, terdapat perbezaan halus pada latar belakang gambar dan butiran ciri wajah Corgi.

开源AltDiffusion-m18 ,18种语言文图生成all in one

Secara amnya, AltDiffusion-m18 menyediakan rangka rujukan asas untuk teks berbilang bahasa dan model penjanaan imej. Pengguna yang bahasa ibundanya termasuk Sepanyol, Jerman dan Perancis boleh menikmati keseronokan AIGC tanpa perlu menterjemahkan gesaan dalam fikiran mereka ke dalam bahasa Inggeris. Pakar latihan AI juga boleh terus mengoptimumkan berdasarkan AltDiffusion-m18 dengan menggabungkan DreamBooth, ControlNet dan LoRA, atau menggunakan penalaan halus korpus dalam bahasa lain untuk mendapatkan kesan penjanaan teks dan imej yang lebih baik.

Pada masa yang sama, FlagAI (github.com/FlagAI-Open/FlagAI), projek sumber terbuka sehenti untuk algoritma model besar, model dan alatan, juga menyediakan alatan inferens latihan dan API untuk semua orang muat turun dan gunakan AltDiffusion-m18 dengan cepat.

Atas ialah kandungan terperinci AltDiffusion-m18, alat serba boleh untuk menjana teks dan imej berbilang bahasa. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam