


AltDiffusion-m18, alat serba boleh untuk menjana teks dan imej berbilang bahasa
Pada masa ini, pemilihan teks bukan bahasa Inggeris dan model penjanaan imej adalah terhad, dan pengguna selalunya perlu menterjemah gesaan ke dalam bahasa Inggeris sebelum memasuki model. Ini bukan sahaja akan menyebabkan beban operasi tambahan, tetapi juga kesilapan bahasa dan budaya dalam proses terjemahan akan menjejaskan ketepatan imej yang dihasilkan.
Pasukan FlagAI dari Institut Penyelidikan Zhiyuan mempelopori kaedah latihan yang cekap, menggunakan model pra-latihan berbilang bahasa yang digabungkan dengan Stable Diffusion untuk melatih model penjanaan teks dan imej berbilang bahasa - AltDiffusion-m18, menyokong 18 jenis Penjanaan imej teks bahasa.
Termasuk Cina, Inggeris, Jepun, Thai, Korea, Hindi, Ukraine, Arab, Turki, Vietnam, Poland, Belanda, Portugis, Itali, Sepanyol, Jerman, Perancis, Rusia.
Wajah berpeluk: https://huggingface.co/BAAI/AltDiffusion-m18
GitHub: https://github.com/FlagAI-Open/FlagAI/blob/master/examples/AltDiffusion -m18
AltDiffusion-m18 mencapai Resapan Stabil 95~99% kesan dalam penilaian objektif skor FID, IS, CLIP dalam bahasa Inggeris, mencapai tahap optimum dalam bahasa Cina dan Jepun, dan diisi dalam baki 15 kategori. Jurang dalam model penjanaan teks dan gambar bahasa telah banyak memenuhi permintaan kukuh industri untuk penjanaan teks dan gambar berbilang bahasa. Terima kasih khas kepada Pasukan Penyelidikan Resapan Stabil kerana memberikan nasihat mengenai kerja ini.
Selain itu, laporan teknologi inovatif berkaitan AltDiffusion-m18 "AltCLIP: Mengubah Pengekod Bahasa dalam CLIP untuk Keupayaan Bahasa Lanjutan" telah diterima oleh Penemuan ACL 2023.
Sorotan Teknikal
1 AltCLIP baharu, pembinaan cekap dan kos rendah model T2I berbilang bahasa
AltDiffusion dikeluarkan tahun lepas -m9, berdasarkan Stable Diffusion v1.4, pasukan Zhiyuan secara inovatif menggantikan menara bahasa dengan menara berbilang bahasa AltCLIP, dan menggunakan data berbilang bahasa dalam sembilan bahasa untuk penalaan halus, memanjangkan Stable Diffusion yang asal yang hanya menyokong bahasa Inggeris untuk menyokong 9 bahasa yang berbeza.
AltCLIP: https://github.com/FlagAI-Open/FlagAI/tree/master/examples/AltCLIP-m18
Dan AltDiffusion-m18 adalah berdasarkan Latihan Stabil Diffusion v2.1. Menara bahasa baharu Stable Diffusion v2.1 ialah lapisan kedua terbalik OpenCLIP Oleh itu, AltCLIP baharu menggunakan lapisan kedua terbalik OpenCLIP sebagai sasaran penyulingan untuk melatih semula, dan berdasarkan m9, ia hanya akan menggunakan lapisan CrossAttention K. dan matriks V dalam Unet diperluaskan kepada kaedah latihan dua peringkat, seperti yang ditunjukkan dalam rajah di bawah:
- Fasa 1: Ia ditemui lebih awal dalam eksperimen m9 yang menyempurnakan matriks K dan V Perkara utama yang perlu dipelajari ialah penjajaran konsep teks dan gambar, jadi peringkat pertama latihan m18 terus menggunakan data 18 bahasa untuk menyempurnakan K dan matriks V. Di samping itu, percubaan telah membuktikan bahawa mengurangkan resolusi imej daripada 512*512 kepada 256*256 tidak kehilangan maklumat semantik imej. Oleh itu, dalam peringkat pertama pembelajaran penjajaran konsep imej teks, resolusi 256*256 digunakan untuk latihan, yang mempercepatkan latihan.
- Peringkat kedua: Untuk meningkatkan lagi kualiti imej yang dijana, parameter penuh Unet dilatih pada data 18 bahasa menggunakan resolusi 512*512. Selain itu, 10% daripada teks dibuang untuk latihan tanpa syarat untuk menyampaikan inferens bimbingan tanpa pengelas.
- Selain itu, teknik latihan berpandu tanpa pengelas diguna pakai untuk meningkatkan lagi kualiti penjanaan.
Keputusan penilaian terkini menunjukkan bahawa AltCLIP-m18 mengatasi CLIP dan mencapai tahap optimum dalam tugasan pengambilan sifar (sampel sifar) Cina dan Inggeris ⬇️
Pada penanda aras klasifikasi imej berbilang bahasa, AltCLIP-m9 (versi awal, menyokong 9 bahasa) dan AltCLIP-m18 mencapai tahap optimum ⬇️
Begitu juga, terima kasih kepada AltCLIP With idea inovatif untuk menukar menara, AltDiffusion-m18 juga boleh disambungkan dengan lancar kepada semua model Stable Diffusion dan alatan ekologi yang dibina pada CLIP asal Semua alatan yang menyokong Stable Diffusion seperti Stable Diffusion WebUI, DreamBooth, dll. boleh digunakan. kepada AltDiffusion-m18. Tidak menyakitkan untuk bermula dan kebolehmainan yang hebat!
2 Kesan penjanaan berbilang bahasa diselaraskan, dengan prestasi unggul dan butiran yang tepat
Dengan sokongan AltCLIP baharu, AltDiffusion-m18 telah mencapai 95~99% daripada kesan Stable Diffusion asal dalam penilaian skor FID, IS dan CLIP Inggeris, dan telah mencapai prestasi paling maju dalam 17 bahasa termasuk Cina dan Jepun. Prestasi AltDiffusion-m18 ditunjukkan dalam jadual berikut:
Dalam bahasa Inggeris, Cina dan Jepun, AltDiffusion-m18 mempunyai kesan yang lebih baik dan lebih terperinci daripada hasil penjanaan model lain. Tepat:
AltDiffusion-m18 dalam (a) di atas boleh menjana hasil yang sangat konsisten dengan Stable Diffusion yang asal, dan lebih baik daripada China domestik yang lain. -Model dwibahasa Inggeris dalam pemahaman segera , contohnya: "Beruang yang disumbat", "Foto hitam putih", "kucing" dan konsep lain yang gagal dijana dalam model dwibahasa Cina-Inggeris domestik yang lain boleh berjaya dijana dalam AltDiffusion . Fenomena yang sama berlaku dalam bahasa Cina dan Jepun.
"Sofa hitam, lantai kayu" dalam (b) di atas hanya dijana dengan betul oleh AltDiffusion-m18.
"Beruang" dalam (c) di atas, Japanese Stable Diffusion tersalah menjana "manusia", tetapi AltDiffusion-m18 boleh menjana "bear" dengan betul.
Selain itu, pasukan Zhiyuan FlagEval membangunkan alat penilaian model penjanaan imej dan teks ImageEval. Selepas penilaian, ketepatan AltDiffusion-m18 dalam objek entiti dan dimensi kuantiti entiti melebihi model peer domestik masing-masing sebanyak 11% dan 10% (Nota: Kaedah dan keputusan penilaian ImageEval akan dikeluarkan secara terbuka dalam masa terdekat, jadi kekal ditala).
3 Penyelamat teks dan imej bahasa kecil, menyediakan sistem rujukan untuk teks berbilang bahasa dan model penjanaan imej
AltDiffusion-m18 mempelajari bias bahasa yang berbeza daripada data berbilang bahasa, Ia membantu pengguna melepasi ambang terjemahan bahasa dan memintas terjemahan budaya, mengurangkan kehilangan maklumat budaya di sebalik bahasa. Seperti yang ditunjukkan dalam rajah di bawah, garis muka budak kecil yang dijana oleh gesaan Cina dan Jepun adalah lebih "gaya Asia", manakala budak kecil yang dihasilkan oleh gesaan bahasa Inggeris dan bahasa Eropah yang lain adalah lebih "gaya Eropah dan Amerika".
Apa yang lebih menarik ialah butiran gambar yang dijana oleh gesaan haiwan dalam bahasa berbezajuga berbeza. Seperti yang ditunjukkan dalam rajah di bawah, walaupun gambar yang dihasilkan dalam bahasa yang berbeza adalah sangat konsisten secara keseluruhan, terdapat perbezaan halus pada latar belakang gambar dan butiran ciri wajah Corgi.
Secara amnya, AltDiffusion-m18 menyediakan rangka rujukan asas untuk teks berbilang bahasa dan model penjanaan imej. Pengguna yang bahasa ibundanya termasuk Sepanyol, Jerman dan Perancis boleh menikmati keseronokan AIGC tanpa perlu menterjemahkan gesaan dalam fikiran mereka ke dalam bahasa Inggeris. Pakar latihan AI juga boleh terus mengoptimumkan berdasarkan AltDiffusion-m18 dengan menggabungkan DreamBooth, ControlNet dan LoRA, atau menggunakan penalaan halus korpus dalam bahasa lain untuk mendapatkan kesan penjanaan teks dan imej yang lebih baik.
Pada masa yang sama, FlagAI (github.com/FlagAI-Open/FlagAI), projek sumber terbuka sehenti untuk algoritma model besar, model dan alatan, juga menyediakan alatan inferens latihan dan API untuk semua orang muat turun dan gunakan AltDiffusion-m18 dengan cepat.
Atas ialah kandungan terperinci AltDiffusion-m18, alat serba boleh untuk menjana teks dan imej berbilang bahasa. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Jaminan Kualiti Data: Pemeriksaan Automatik dengan Dagster dan Harapan Hebat Mengekalkan kualiti data yang tinggi adalah penting untuk perniagaan yang didorong data. Apabila jumlah data dan sumber meningkat, kawalan kualiti manual menjadi tidak cekap dan terdedah kepada kesilapan.

Main Frames: Wira Unsung Revolusi AI Walaupun pelayan cemerlang dalam aplikasi tujuan umum dan mengendalikan pelbagai pelanggan, kerangka utama dibina untuk tugas tinggi, misi kritikal. Sistem yang kuat ini sering dijumpai di Heavil

Memilih Model Bahasa Besar yang Besar (LLM) untuk Perniagaan Anda: Panduan Komprehensif Proliferasi LLM yang pesat seperti GPT-4O, LLAMA, dan Claude membentangkan perniagaan dengan cabaran penting: memilih model optimum untuk keperluan khusus mereka.

2025: AI bergerak melampaui menjawab soalan untuk menyelesaikan tugas Kecerdasan buatan memasuki era baru. Walaupun tahun -tahun sebelumnya menyaksikan AI terutamanya memberi tumpuan kepada menjawab pertanyaan dan menjana kandungan, 2025 menandakan peralihan yang ketara ke arah AI Activel

Memastikan keselamatan AI memerlukan penubuhan pengawal yang teguh dan membangunkan perkhidmatan AI yang boleh dijelaskan bebas dari bias dan halusinasi. Perisikan mestilah bukan sahaja pintar tetapi juga boleh dipercayai dan bertanggungjawab. Fizik Seni yang baru dibentuk oleh NTT Research

Pengenalan Dalam bidang dinamik kecerdasan buatan, inovasi tidak pernah berdiri diam, dan model baru terus muncul, bersaing untuk perhatian dan aplikasi. Antara terobosan terkini adalah Mistral Besar 2 dan Anther

Kejayaan terobosan DeepSeek terus memancarkan analisis post-mortem, mendorong refleksi mengenai inovasi model dalam landskap AI global semasa. Analisis ini melampaui kesan pasaran, memberi tumpuan kepada implikasi untuk penyelidikan yang berterusan.

Shopify memo dalaman bocor: merangkul AI dan menjadi penanda aras industri Memo Shopify dalaman yang bocor menunjukkan bahawa syarikat itu secara aktif memeluk AI dan merawatnya sebagai jangkaan asas. Dalam memorandum, Ketua Pegawai Eksekutif Tobias Lütke menekankan bahawa penerapan AI harus diintegrasikan ke dalam kerja harian pekerja dan menjadi reaksi naluri. "Misi Shopify adalah untuk membina platform perisian terbaik yang tidak dapat dipertikaikan untuk membantu perniagaan masa depan yang terbaik berkembang dan berkembang. Untuk berbuat demikian, kita perlu mengekalkan teknologi kami lebih awal daripada masa dan menggunakan semua alat terbaik untuk membantu para peniaga kami mencapai kejayaan di luar imaginasi kami yang terdahulu. Dan ini memerlukan kami untuk menjadi satu langkah ke depan." Mengapa perubahan proaktif ini diperlukan? Lüt


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

Penyesuai Pelayan SAP NetWeaver untuk Eclipse
Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.