Rumah >Peranti teknologi >AI >AI menghasilkan gambar dengan lebih pantas, lebih cantik dan lebih memahami pemikiran anda. Apakah rahsia teknikal yang telah ditanam oleh model gambar Vincent yang cantik?

AI menghasilkan gambar dengan lebih pantas, lebih cantik dan lebih memahami pemikiran anda. Apakah rahsia teknikal yang telah ditanam oleh model gambar Vincent yang cantik?

WBOYasal: 2024-08-12 19:02:22659semak imbas

Dengan pelancaran model besar dan menekan butang pemecut, gambar rajah Vincentian sudah pasti salah satu arahan aplikasi yang paling hangat.

Sejak kelahiran Stable Diffusion, terdapat aliran model besar Wen Shengtu yang tidak berkesudahan di dalam dan luar negara, dan rasanya seperti "berperang antara tuhan" untuk seketika. Hanya dalam beberapa bulan, gelaran "Artis AI Terkuat" telah bertukar tangan beberapa kali. Setiap lelaran teknologi terus menolak had atas kualiti dan kelajuan penjanaan imej AI.

Jadi sekarang, kita boleh dapatkan mana-mana gambar yang kita mahu dengan memasukkan beberapa perkataan. Sama ada poster komersial peringkat profesional atau foto hiper-realistik, ketepatan pemetaan AI telah memukau kami. Malah AI memenangi Anugerah Fotografi Dunia Sony 2023. Sebelum hadiah utama diumumkan, "foto" ini telah dipamerkan di Somerset House di London - jika pengarang tidak mendedahkannya secara terbuka, tiada siapa yang mungkin mengetahui bahawa foto itu sebenarnya dicipta oleh AI. E Eldagse dan generasi AInya bekerja "Ahli Elektrik"

AI menghasilkan gambar dengan lebih pantas, lebih cantik dan lebih memahami pemikiran anda. Apakah rahsia teknikal yang telah ditanam oleh model gambar Vincent yang cantik?

Cara menjadikan gambar yang dilukis oleh AI lebih cantik, yang tidak dapat dipisahkan daripada juruteknik AI untuk bertahan.

Isu keenam "AIGC Experience School" menjemput pakar teknikal Carta Doubao Vincent Li Liang dan arkitek penyelesaian NVIDIA Zhao Yijia untuk memberikan kami analisis mendalam tentang sebab model Carta Vincent menghasilkan gambar yang lebih cantik, lebih pantas, dan lebih memahami niat pengguna.

Siaran langsung dimulakan oleh Li Liang terlebih dahulu membedah secara terperinci peningkatan teknikal model rajah Vincent model besar tempatan "top-notch" - model besar ByteDance Doubao.

Li Liang berkata bahawa masalah yang ingin diselesaikan oleh pasukan Doubao terutamanya merangkumi tiga aspek: pertama, bagaimana untuk mencapai padanan imej dan teks yang lebih kukuh untuk memenuhi reka bentuk idea pengguna kedua, cara menjana imej yang lebih cantik untuk memberikan yang lebih muktamad; pengalaman pengguna; yang ketiga ialah cara menghasilkan gambar dengan lebih cepat untuk memenuhi panggilan perkhidmatan berskala ultra besar. Dari segi padanan imej dan teks, pasukan Doubao bermula dengan data, menapis dan menapis data imej dan teks yang besar, dan akhirnya menyimpan ratusan bilion imej berkualiti tinggi dalam pangkalan data. Di samping itu, pasukan itu juga melatih khas model bahasa besar berbilang modal untuk tugas rekapitulasi. Model ini akan menerangkan secara lebih komprehensif dan objektif perhubungan fizikal imej dalam gambar.

Selepas mempunyai data imej dan teks yang berkualiti tinggi dan terperinci, jika anda ingin memanfaatkan kekuatan model dengan lebih baik, anda perlu meningkatkan keupayaan modul pemahaman teks. Pasukan ini menggunakan model bahasa besar dwibahasa asli sebagai pengekod teks, yang meningkatkan keupayaan model untuk memahami bahasa Cina dengan ketara Oleh itu, dalam menghadapi elemen kebangsaan seperti "Dinasti Tang" dan "Pesta Tanglung", model rajah Doubao dan Vincent. juga menunjukkan pemahaman yang lebih mendalam.

AI menghasilkan gambar dengan lebih pantas, lebih cantik dan lebih memahami pemikiran anda. Apakah rahsia teknikal yang telah ditanam oleh model gambar Vincent yang cantik?

Untuk seni bina model Diffsuion, pasukan Doubao juga menyuntik rahsia unik Mereka menggunakan UNet untuk menskala secara berkesan Dengan meningkatkan bilangan parameter, model graf Doubao·Vensen meningkatkan lagi pemahaman pasangan teks imej dan tinggi. -kemampuan kesetiaan.

AI menghasilkan gambar dengan lebih pantas, lebih cantik dan lebih memahami pemikiran anda. Apakah rahsia teknikal yang telah ditanam oleh model gambar Vincent yang cantik?

Mensasarkan gaya estetik yang paling jelas yang dirasai secara intuitif oleh pengguna, pasukan Doubao telah memperkenalkan bimbingan estetik profesional dan sentiasa memberi perhatian kepada keutamaan estetik pengguna dan orang ramai. Pada masa yang sama, pasukan itu juga bekerja keras pada data dan seni bina model. Banyak kali, perbandingan antara imej yang pengguna dapat dan paparan demo adalah seperti "pertunjukan pembeli" dan "pertunjukan penjual". Malah, gesaan yang diberikan tidak cukup terperinci dan jelas untuk model, dan gambar rajah Doubao Vincent model memperkenalkan "Rephraser", sambil mengikut niat asal pengguna, menambah penerangan yang lebih terperinci pada perkataan gesaan, supaya semua pengguna akan mengalami kesan penjanaan yang lebih sempurna.

AI menghasilkan gambar dengan lebih pantas, lebih cantik dan lebih memahami pemikiran anda. Apakah rahsia teknikal yang telah ditanam oleh model gambar Vincent yang cantik?

Untuk menjadikan model menghasilkan gambar dengan lebih pantas dan mengurangkan kos setiap gambar, pasukan Doubao turut memberikan idea penyelesaian masalah baharu dalam kaedah penyulingan model tersebut rangka kerja penyulingan model yang mengekalkan prestasi hampir tanpa kerugian sambil memampatkan bilangan langkah denoising.

AI menghasilkan gambar dengan lebih pantas, lebih cantik dan lebih memahami pemikiran anda. Apakah rahsia teknikal yang telah ditanam oleh model gambar Vincent yang cantik?

Seterusnya, arkitek penyelesaian NVIDIA Zhao Yijia bermula daripada teknologi asas dan menerangkan dua seni bina model SD dan DIT berasaskan Unet yang paling utama bagi Vincent Graph serta ciri-cirinya yang sepadan, dan memperkenalkan alat Tensorrt, Tensorrt-How NVIDIA seperti LLM , Triton dan Nemo Megatron menyediakan sokongan untuk menggunakan model dan membantu model besar membuat alasan dengan lebih cekap.

Zhao Yijia mula-mula berkongsi penjelasan terperinci tentang prinsip model di sebalik Stable Diffusion, dan menghuraikan prinsip kerja komponen utama seperti Clip, VAE dan Unet. Apabila Sora menjadi popular, ia juga menjadi popular dengan seni bina DiT (Diffusion Transformer) di belakangnya. Zhao Yijia seterusnya membuat perbandingan menyeluruh tentang kelebihan SD dan DiT dari tiga aspek: struktur model, ciri dan penggunaan kuasa pengkomputeran.

AI menghasilkan gambar dengan lebih pantas, lebih cantik dan lebih memahami pemikiran anda. Apakah rahsia teknikal yang telah ditanam oleh model gambar Vincent yang cantik?

Apabila menggunakan resapan Stabil untuk menjana imej, anda sering merasakan bahawa kandungan perkataan pantas dibentangkan dalam hasil yang dijana, tetapi imej itu bukan yang anda mahukan Ini kerana resapan Stabil berdasarkan pemaparan teks tidak bagus mengawal imej, seperti komposisi, pergerakan, ciri muka, hubungan ruang, dsb. Oleh itu, berdasarkan prinsip kerja resapan Stabil, penyelidik telah mereka bentuk banyak modul kawalan untuk mengimbangi kelemahan resapan Stabil. Zhao Yijia menambah wakil penyesuai IP dan ControlNet. AI menghasilkan gambar dengan lebih pantas, lebih cantik dan lebih memahami pemikiran anda. Apakah rahsia teknikal yang telah ditanam oleh model gambar Vincent yang cantik?

Jika kita ingin mempercepatkan kelajuan inferens model graf Vincent intensif pengiraan, sokongan teknikal NVIDIA memainkan peranan penting. Zhao Yijia memperkenalkan alat Nvidia TensorRT dan TensorRT-LLM, yang mengoptimumkan proses inferens model penjanaan imej dan teks melalui konvolusi berprestasi tinggi, penjadualan yang cekap dan teknologi penggunaan teragih. Pada masa yang sama, Ada, Hopper dan seni bina perkakasan BlackWell yang akan datang sudah menyokong latihan dan inferens FP8, yang akan membawa pengalaman yang lebih lancar untuk latihan model.

AI menghasilkan gambar dengan lebih pantas, lebih cantik dan lebih memahami pemikiran anda. Apakah rahsia teknikal yang telah ditanam oleh model gambar Vincent yang cantik?

Selepas enam siaran langsung yang menarik, "AIGC Experience Party" yang dilancarkan bersama oleh Volcano Engine, NVIDIA, tapak ini dan CMO CLUB telah mencapai kesimpulan yang berjaya. Melalui enam episod ini, saya percaya semua orang mempunyai pemahaman yang lebih mendalam tentang cara AIGC berubah daripada "menarik" kepada "berguna". Kami juga mengharapkan "Sekolah Pengalaman AIGC" bukan sahaja kekal dalam perbincangan program, tetapi juga mempercepatkan proses peningkatan pintar dalam bidang pemasaran secara praktikal.

Semak alamat kesemua enam isu "AIGC Experience School": https://vtizr.xetlk.com/s/7CjTy

Atas ialah kandungan terperinci AI menghasilkan gambar dengan lebih pantas, lebih cantik dan lebih memahami pemikiran anda. Apakah rahsia teknikal yang telah ditanam oleh model gambar Vincent yang cantik?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

架构分布式 transformer stable diffusion https AIGC prompt

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：Prestasi SOTA, Universiti Washington membangunkan model Transformer untuk menukar spektrum jisim kepada jujukan peptida, diterbitkan dalam sub-jurnal AlamArtikel seterusnya：Prestasi SOTA, Universiti Washington membangunkan model Transformer untuk menukar spektrum jisim kepada jujukan peptida, diterbitkan dalam sub-jurnal Alam

Artikel berkaitan

Lihat lagi