cari
RumahPeranti teknologiAIAltDiffusion-m18, alat serba boleh untuk menjana teks dan imej berbilang bahasa

Pada masa ini, pemilihan teks bukan bahasa Inggeris dan model penjanaan imej adalah terhad, dan pengguna selalunya perlu menterjemah gesaan ke dalam bahasa Inggeris sebelum memasuki model. Ini bukan sahaja akan menyebabkan beban operasi tambahan, tetapi juga kesilapan bahasa dan budaya dalam proses terjemahan akan menjejaskan ketepatan imej yang dihasilkan.

Pasukan FlagAI dari Institut Penyelidikan Zhiyuan mempelopori kaedah latihan yang cekap, menggunakan model pra-latihan berbilang bahasa yang digabungkan dengan Stable Diffusion untuk melatih model penjanaan teks dan imej berbilang bahasa - AltDiffusion-m18, menyokong 18 jenis Penjanaan imej teks bahasa.

Termasuk Cina, Inggeris, Jepun, Thai, Korea, Hindi, Ukraine, Arab, Turki, Vietnam, Poland, Belanda, Portugis, Itali, Sepanyol, Jerman, Perancis, Rusia.

Wajah berpeluk: https://huggingface.co/BAAI/AltDiffusion-m18

GitHub: https://github.com/FlagAI-Open/FlagAI/blob/master/examples/AltDiffusion -m18

AltDiffusion-m18 mencapai Resapan Stabil 95~99% kesan dalam penilaian objektif skor FID, IS, CLIP dalam bahasa Inggeris, mencapai tahap optimum dalam bahasa Cina dan Jepun, dan diisi dalam baki 15 kategori. Jurang dalam model penjanaan teks dan gambar bahasa telah banyak memenuhi permintaan kukuh industri untuk penjanaan teks dan gambar berbilang bahasa. Terima kasih khas kepada Pasukan Penyelidikan Resapan Stabil kerana memberikan nasihat mengenai kerja ini.

Selain itu, laporan teknologi inovatif berkaitan AltDiffusion-m18 "AltCLIP: Mengubah Pengekod Bahasa dalam CLIP untuk Keupayaan Bahasa Lanjutan" telah diterima oleh Penemuan ACL 2023.

Sorotan Teknikal

1 AltCLIP baharu, pembinaan cekap dan kos rendah model T2I berbilang bahasa

AltDiffusion dikeluarkan tahun lepas -m9, berdasarkan Stable Diffusion v1.4, pasukan Zhiyuan secara inovatif menggantikan menara bahasa dengan menara berbilang bahasa AltCLIP, dan menggunakan data berbilang bahasa dalam sembilan bahasa untuk penalaan halus, memanjangkan Stable Diffusion yang asal yang hanya menyokong bahasa Inggeris untuk menyokong 9 bahasa yang berbeza.

AltCLIP: https://github.com/FlagAI-Open/FlagAI/tree/master/examples/AltCLIP-m18

Dan AltDiffusion-m18 adalah berdasarkan Latihan Stabil Diffusion v2.1. Menara bahasa baharu Stable Diffusion v2.1 ialah lapisan kedua terbalik OpenCLIP Oleh itu, AltCLIP baharu menggunakan lapisan kedua terbalik OpenCLIP sebagai sasaran penyulingan untuk melatih semula, dan berdasarkan m9, ia hanya akan menggunakan lapisan CrossAttention K. dan matriks V dalam Unet diperluaskan kepada kaedah latihan dua peringkat, seperti yang ditunjukkan dalam rajah di bawah:

开源AltDiffusion-m18 ,18种语言文图生成all in one

- Fasa 1: Ia ditemui lebih awal dalam eksperimen m9 yang menyempurnakan matriks K dan V Perkara utama yang perlu dipelajari ialah penjajaran konsep teks dan gambar, jadi peringkat pertama latihan m18 terus menggunakan data 18 bahasa untuk menyempurnakan K dan matriks V. Di samping itu, percubaan telah membuktikan bahawa mengurangkan resolusi imej daripada 512*512 kepada 256*256 tidak kehilangan maklumat semantik imej. Oleh itu, dalam peringkat pertama pembelajaran penjajaran konsep imej teks, resolusi 256*256 digunakan untuk latihan, yang mempercepatkan latihan.

- Peringkat kedua: Untuk meningkatkan lagi kualiti imej yang dijana, parameter penuh Unet dilatih pada data 18 bahasa menggunakan resolusi 512*512. Selain itu, 10% daripada teks dibuang untuk latihan tanpa syarat untuk menyampaikan inferens bimbingan tanpa pengelas.

- Selain itu, teknik latihan berpandu tanpa pengelas diguna pakai untuk meningkatkan lagi kualiti penjanaan.

Keputusan penilaian terkini menunjukkan bahawa AltCLIP-m18 mengatasi CLIP dan mencapai tahap optimum dalam tugasan pengambilan sifar (sampel sifar) Cina dan Inggeris ⬇️

开源AltDiffusion-m18 ,18种语言文图生成all in one

Pada penanda aras klasifikasi imej berbilang bahasa, AltCLIP-m9 (versi awal, menyokong 9 bahasa) dan AltCLIP-m18 mencapai tahap optimum ⬇️

开源AltDiffusion-m18 ,18种语言文图生成all in one

Begitu juga, terima kasih kepada AltCLIP With idea inovatif untuk menukar menara, AltDiffusion-m18 juga boleh disambungkan dengan lancar kepada semua model Stable Diffusion dan alatan ekologi yang dibina pada CLIP asal Semua alatan yang menyokong Stable Diffusion seperti Stable Diffusion WebUI, DreamBooth, dll. boleh digunakan. kepada AltDiffusion-m18. Tidak menyakitkan untuk bermula dan kebolehmainan yang hebat!

2 Kesan penjanaan berbilang bahasa diselaraskan, dengan prestasi unggul dan butiran yang tepat

Dengan sokongan AltCLIP baharu, AltDiffusion-m18 telah mencapai 95~99% daripada kesan Stable Diffusion asal dalam penilaian skor FID, IS dan CLIP Inggeris, dan telah mencapai prestasi paling maju dalam 17 bahasa termasuk Cina dan Jepun. Prestasi AltDiffusion-m18 ditunjukkan dalam jadual berikut:

开源AltDiffusion-m18 ,18种语言文图生成all in one

Dalam bahasa Inggeris, Cina dan Jepun, AltDiffusion-m18 mempunyai kesan yang lebih baik dan lebih terperinci daripada hasil penjanaan model lain. Tepat:

开源AltDiffusion-m18 ,18种语言文图生成all in one

AltDiffusion-m18 dalam (a) di atas boleh menjana hasil yang sangat konsisten dengan Stable Diffusion yang asal, dan lebih baik daripada China domestik yang lain. -Model dwibahasa Inggeris dalam pemahaman segera , contohnya: "Beruang yang disumbat", "Foto hitam putih", "kucing" dan konsep lain yang gagal dijana dalam model dwibahasa Cina-Inggeris domestik yang lain boleh berjaya dijana dalam AltDiffusion . Fenomena yang sama berlaku dalam bahasa Cina dan Jepun.

"Sofa hitam, lantai kayu" dalam (b) di atas hanya dijana dengan betul oleh AltDiffusion-m18.

"Beruang" dalam (c) di atas, Japanese Stable Diffusion tersalah menjana "manusia", tetapi AltDiffusion-m18 boleh menjana "bear" dengan betul.

Selain itu, pasukan Zhiyuan FlagEval membangunkan alat penilaian model penjanaan imej dan teks ImageEval. Selepas penilaian, ketepatan AltDiffusion-m18 dalam objek entiti dan dimensi kuantiti entiti melebihi model peer domestik masing-masing sebanyak 11% dan 10% (Nota: Kaedah dan keputusan penilaian ImageEval akan dikeluarkan secara terbuka dalam masa terdekat, jadi kekal ditala).

3 Penyelamat teks dan imej bahasa kecil, menyediakan sistem rujukan untuk teks berbilang bahasa dan model penjanaan imej

AltDiffusion-m18 mempelajari bias bahasa yang berbeza daripada data berbilang bahasa, Ia membantu pengguna melepasi ambang terjemahan bahasa dan memintas terjemahan budaya, mengurangkan kehilangan maklumat budaya di sebalik bahasa. Seperti yang ditunjukkan dalam rajah di bawah, garis muka budak kecil yang dijana oleh gesaan Cina dan Jepun adalah lebih "gaya Asia", manakala budak kecil yang dihasilkan oleh gesaan bahasa Inggeris dan bahasa Eropah yang lain adalah lebih "gaya Eropah dan Amerika".

开源AltDiffusion-m18 ,18种语言文图生成all in one

Apa yang lebih menarik ialah butiran gambar yang dijana oleh gesaan haiwan dalam bahasa berbeza​​​juga berbeza. Seperti yang ditunjukkan dalam rajah di bawah, walaupun gambar yang dihasilkan dalam bahasa yang berbeza adalah sangat konsisten secara keseluruhan, terdapat perbezaan halus pada latar belakang gambar dan butiran ciri wajah Corgi.

开源AltDiffusion-m18 ,18种语言文图生成all in one

Secara amnya, AltDiffusion-m18 menyediakan rangka rujukan asas untuk teks berbilang bahasa dan model penjanaan imej. Pengguna yang bahasa ibundanya termasuk Sepanyol, Jerman dan Perancis boleh menikmati keseronokan AIGC tanpa perlu menterjemahkan gesaan dalam fikiran mereka ke dalam bahasa Inggeris. Pakar latihan AI juga boleh terus mengoptimumkan berdasarkan AltDiffusion-m18 dengan menggabungkan DreamBooth, ControlNet dan LoRA, atau menggunakan penalaan halus korpus dalam bahasa lain untuk mendapatkan kesan penjanaan teks dan imej yang lebih baik.

Pada masa yang sama, FlagAI (github.com/FlagAI-Open/FlagAI), projek sumber terbuka sehenti untuk algoritma model besar, model dan alatan, juga menyediakan alatan inferens latihan dan API untuk semua orang muat turun dan gunakan AltDiffusion-m18 dengan cepat.

Atas ialah kandungan terperinci AltDiffusion-m18, alat serba boleh untuk menjana teks dan imej berbilang bahasa. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Mengotomatisasi Pemeriksaan Kualiti Data dengan DagsterMengotomatisasi Pemeriksaan Kualiti Data dengan DagsterApr 11, 2025 am 11:44 AM

Jaminan Kualiti Data: Pemeriksaan Automatik dengan Dagster dan Harapan Hebat Mengekalkan kualiti data yang tinggi adalah penting untuk perniagaan yang didorong data. Apabila jumlah data dan sumber meningkat, kawalan kualiti manual menjadi tidak cekap dan terdedah kepada kesilapan.

Adakah kerangka utama mempunyai peranan dalam era AI?Adakah kerangka utama mempunyai peranan dalam era AI?Apr 11, 2025 am 11:42 AM

Main Frames: Wira Unsung Revolusi AI Walaupun pelayan cemerlang dalam aplikasi tujuan umum dan mengendalikan pelbagai pelanggan, kerangka utama dibina untuk tugas tinggi, misi kritikal. Sistem yang kuat ini sering dijumpai di Heavil

Bagaimana cara memilih LLM yang sesuai untuk perniagaan anda? - Analytics VidhyaBagaimana cara memilih LLM yang sesuai untuk perniagaan anda? - Analytics VidhyaApr 11, 2025 am 11:37 AM

Memilih Model Bahasa Besar yang Besar (LLM) untuk Perniagaan Anda: Panduan Komprehensif Proliferasi LLM yang pesat seperti GPT-4O, LLAMA, dan Claude membentangkan perniagaan dengan cabaran penting: memilih model optimum untuk keperluan khusus mereka.

AI 50 2025: Ejen AI bergerak melampaui sembangAI 50 2025: Ejen AI bergerak melampaui sembangApr 11, 2025 am 11:33 AM

2025: AI bergerak melampaui menjawab soalan untuk menyelesaikan tugas Kecerdasan buatan memasuki era baru. Walaupun tahun -tahun sebelumnya menyaksikan AI terutamanya memberi tumpuan kepada menjawab pertanyaan dan menjana kandungan, 2025 menandakan peralihan yang ketara ke arah AI Activel

Undang -undang Automasi, NTT Research Butiran 'Fizik AI' KumpulanUndang -undang Automasi, NTT Research Butiran 'Fizik AI' KumpulanApr 11, 2025 am 11:32 AM

Memastikan keselamatan AI memerlukan penubuhan pengawal yang teguh dan membangunkan perkhidmatan AI yang boleh dijelaskan bebas dari bias dan halusinasi. Perisikan mestilah bukan sahaja pintar tetapi juga boleh dipercayai dan bertanggungjawab. Fizik Seni yang baru dibentuk oleh NTT Research

Mistral besar 2 vs Claude 3.5 Sonnet: Mana yang lebih baik?Mistral besar 2 vs Claude 3.5 Sonnet: Mana yang lebih baik?Apr 11, 2025 am 11:30 AM

Pengenalan Dalam bidang dinamik kecerdasan buatan, inovasi tidak pernah berdiri diam, dan model baru terus muncul, bersaing untuk perhatian dan aplikasi. Antara terobosan terkini adalah Mistral Besar 2 dan Anther

Berikut adalah lebih banyak pemikiran mengenai Deepseek dari pemimpin kebingungan.Berikut adalah lebih banyak pemikiran mengenai Deepseek dari pemimpin kebingungan.Apr 11, 2025 am 11:28 AM

Kejayaan terobosan DeepSeek terus memancarkan analisis post-mortem, mendorong refleksi mengenai inovasi model dalam landskap AI global semasa. Analisis ini melampaui kesan pasaran, memberi tumpuan kepada implikasi untuk penyelidikan yang berterusan.

Memo Shopify Memo Menggambarkan Pendekatan Bull ke AIMemo Shopify Memo Menggambarkan Pendekatan Bull ke AIApr 11, 2025 am 11:24 AM

Shopify memo dalaman bocor: merangkul AI dan menjadi penanda aras industri Memo Shopify dalaman yang bocor menunjukkan bahawa syarikat itu secara aktif memeluk AI dan merawatnya sebagai jangkaan asas. Dalam memorandum, Ketua Pegawai Eksekutif Tobias Lütke menekankan bahawa penerapan AI harus diintegrasikan ke dalam kerja harian pekerja dan menjadi reaksi naluri. "Misi Shopify adalah untuk membina platform perisian terbaik yang tidak dapat dipertikaikan untuk membantu perniagaan masa depan yang terbaik berkembang dan berkembang. Untuk berbuat demikian, kita perlu mengekalkan teknologi kami lebih awal daripada masa dan menggunakan semua alat terbaik untuk membantu para peniaga kami mencapai kejayaan di luar imaginasi kami yang terdahulu. Dan ini memerlukan kami untuk menjadi satu langkah ke depan." Mengapa perubahan proaktif ini diperlukan? Lüt

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.