cari
RumahPeranti teknologiAIPermudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi

Model resapan telah menjadi model penjanaan teks ke imej arus perdana, yang boleh membimbing penjanaan imej berkualiti tinggi dan kaya kandungan melalui gesaan teks

Jika gesaan input terlalu ringkas, model sedia ada gagal dalam pemahaman semantik dan penaakulan akal Terdapat batasan dalam semua aspek, yang akan membawa kepada penurunan ketara dalam kualiti imej yang dijana

Pasukan Lin Liang dari Makmal HCP Universiti Sun Yat-sen mencadangkan denda yang mudah dan berkesan -kaedah penalaan dipanggil SUR-penyesuai, bertujuan untuk meningkatkan ketepatan model dalam naratif Pemahaman isyarat seksual. Kaedah ini ialah penyesuai pemahaman semantik dan inferens, sesuai untuk model resapan terlatih dan mempunyai ciri kecekapan parameter

Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi

Sila klik pautan berikut untuk melihat kertas: https://arxiv.org/ abs/2305.05189

Alamat sumber terbuka: https://github.com/Qrange-group/SUR-adapter

Untuk mencapai matlamat ini, para penyelidik mula-mula mengumpul dan membuat anotasi set data yang dipanggil SURD. Set data ini mengandungi lebih daripada 57,000 sampel berbilang modal, setiap sampel mengandungi gesaan naratif yang ringkas, gesaan berasaskan kata kunci yang kompleks dan imej berkualiti tinggi

Para penyelidik menggabungkan gesaan naratif Perwakilan semantik diselaraskan dengan isyarat yang kompleks , dan pengetahuan tentang model bahasa besar (LLM) dipindahkan ke penyesuai SUR melalui penyulingan pengetahuan, supaya pemahaman semantik yang kuat dan keupayaan penaakulan boleh diperoleh untuk membina perwakilan semantik teks berkualiti tinggi untuk penjanaan teks-ke-imej. Kemudian, mereka menyelaraskan perwakilan semantik gesaan naratif dengan gesaan kompleks dan memindahkan pengetahuan model bahasa besar (LLM) kepada penyesuai SUR melalui penyulingan pengetahuan untuk dapat memperoleh pemahaman semantik yang kukuh dan keupayaan penaakulan untuk membina kualiti tinggi perwakilan semantik tekstual Untuk penjanaan teks-ke-imej

Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi

Kami menjalankan eksperimen dengan menyepadukan berbilang LLM dan model resapan yang telah dilatih dan mendapati kaedah ini boleh membolehkan model resapan memahami dan menaakul tentang bahasa semula jadi yang ringkas. penerangan tanpa merendahkan kualiti imej

Pendekatan ini boleh menjadikan model resapan teks-ke-imej lebih mudah digunakan, memberikan pengalaman pengguna yang lebih baik, menggalakkan lagi pembangunan model generatif teks-ke-imej yang mesra pengguna, dan mengimbangi kemudahan yang mudah. gesaan naratif dan gesaan berasaskan kata kunci Jurang semantik antara

Pengenalan latar belakang

Pada masa ini, model pra-latihan teks-ke-imej yang diwakili oleh resapan stabil telah menjadi salah satu model asas yang paling penting dalam bidang kandungan yang dijana kecerdasan buatan, dalam penyuntingan imej, video Ia memainkan peranan penting dalam tugas seperti penjanaan dan penjanaan objek 3D

Pada masa ini, keupayaan semantik model penyebaran terlatih ini bergantung terutamanya pada pengekod teks (seperti CLIP), dan keupayaan pemahaman semantik mereka secara langsung mempengaruhi kesan penjanaan model resapan

Artikel ini mula-mula menguji ketepatan pemadanan imej-teks resapan Stabil dengan membina kategori soalan lazim dalam tugasan menjawab soalan visual (VQA), seperti "mengira", "warna" dan "tindakan". Kami akan mengira dan menguji secara manual

Berikut adalah contoh membina pelbagai gesaan, lihat jadual di bawah untuk butiran

Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi

Menurut keputusan yang ditunjukkan dalam jadual di bawah, artikel itu mendedahkan pra graf Vincent semasa -model resapan terlatih Terdapat masalah pemahaman semantik yang serius. Ketepatan padanan teks imej untuk sebilangan besar soalan adalah kurang daripada 50%, malah dalam sesetengah soalan, ketepatan hanya 0%

Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi

Untuk mendapatkan imej yang memenuhi syarat penjanaan teks, kami perlu mencari cara untuk meningkatkan resapan pra-latihan Keupayaan semantik pengekod artikel ini dalam model

Gambaran keseluruhan kaedah

Kandungan ditulis semula: 1. Prapemprosesan data kita boleh pelajari

daripada laman web dalam talian model resapan yang biasa digunakan lexica.art Dapatkan sejumlah besar pasangan teks imej daripada , civitai.com dan stablediffusionweb. Kemudian, kami perlu membersihkan dan menapis data ini untuk mendapatkan lebih daripada 57,000 data triplet berkualiti tinggi (termasuk gesaan kompleks, gesaan ringkas dan gambar) dan membentuknya menjadi set data SURD

🎜

Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi

Seperti yang ditunjukkan dalam rajah di bawah, gesaan kompleks merujuk kepada syarat gesaan teks yang diperlukan oleh model penyebaran apabila menjana imej Biasanya gesaan ini mempunyai format dan penerangan yang kompleks. Gesaan ringkas ialah perihalan teks bagi imej yang dijana melalui BLIP Ia menggunakan format bahasa yang konsisten dengan penerangan manusia Secara umumnya, gesaan mudah yang konsisten dengan penerangan bahasa manusia biasa menyukarkan model penyebaran imej yang cukup konsisten dari segi semantik, dan Petua yang kompleks (yang pengguna secara berseloroh memanggil "mantra" model penyebaran) boleh mencapai hasil yang memuaskan

Kandungan yang perlu ditulis semula ialah: 2. Penyulingan semantik model bahasa besar

Artikel ini memperkenalkan kaedah A yang menggunakan struktur Penyesuai Transformer untuk menyaring ciri semantik model bahasa besar dalam lapisan tersembunyi tertentu, dan memperoleh ciri semantik akhir dengan menggabungkan secara linear maklumat model bahasa besar berpandukan Penyesuai dengan output ciri semantik oleh pengekod teks asal

Model bahasa besar menggunakan model LLaMA dengan saiz yang berbeza, dan parameter bahagian UNet model resapan dibekukan semasa keseluruhan proses latihan

Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggiKandungan yang perlu ditulis semula ialah: 3 . Memandangkan struktur artikel ini memperkenalkan modul yang boleh dipelajari dalam proses inferens model besar pra-latihan, ia memusnahkan kualiti penjanaan imej asal model pra-latihan pada tahap tertentu Oleh itu, kualiti penjanaan imej perlu dikembalikan ke tahap kualiti penjanaan model pra-latihan asal

Artikel ini menggunakan tiga kali ganda dalam set data SURD dan memperkenalkan fungsi kehilangan kualiti yang sepadan semasa proses latihan untuk memulihkan kualiti penjanaan imej. Secara khususnya, artikel ini berharap ciri semantik yang diperolehi melalui modul baharu boleh diselaraskan sebaik mungkin dengan ciri semantik isyarat kompleks

Rajah berikut menunjukkan rangka kerja penalaan halus penyesuai SUR untuk model penyebaran terlatih . Bahagian kanan ialah struktur rangkaian Penyesuai

Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi

Hasil eksperimen

Untuk prestasi penyesuai SUR, artikel ini menganalisis prestasi penyesuai SUR daripada dua aspek: padanan kualiti imej Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi

Di satu pihak, mengikut yang berikut Jadual menunjukkan bahawa penyesuai SUR boleh menyelesaikan masalah ketidakpadanan semantik yang biasa dalam model penyebaran graf Vincentian dan sesuai untuk tetapan eksperimen yang berbeza. Di bawah kategori kriteria semantik yang berbeza, ketepatan juga telah dipertingkatkan pada tahap tertentu

Sebaliknya, kertas kerja ini menggunakan penunjuk penilaian kualiti imej biasa seperti BRISQUE untuk membandingkan model resapan pralatihan asal dan resapan selepas menggunakan SUR -penyesuai Kualiti imej yang dijana oleh model telah diuji secara statistik, dan kami dapati bahawa tiada perbezaan yang ketara antara kedua-duanya.

Kami juga menjalankan ujian soal selidik keutamaan manusia

Melalui analisis di atas, dapat disimpulkan bahawa kaedah yang dicadangkan mampu mengurangkan masalah yang wujud dalam teks ke imej yang telah dilatih di samping mengekalkan kualiti penjanaan imej . Masalah ketidakpadanan imej-teks

juga boleh ditunjukkan secara kualitatif melalui contoh penjanaan imej berikut Untuk analisis dan butiran yang lebih terperinci, sila rujuk artikel ini dan gudang sumber terbuka

. Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggiKandungan yang perlu ditulis semula ialah :

Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi

Pengenalan kepada HCP Lab

Profesor Lin Li mengasaskan Makmal Gabungan Perisikan Objek-Mesin-Manusia (HCP Lab) Universiti Sun Yat-sen pada tahun 2010. Dalam beberapa tahun kebelakangan ini, makmal telah mencapai keputusan akademik yang kaya dalam bidang pemahaman kandungan multimodal, penaakulan kausal dan kognitif, dan kecerdasan yang terkandung. Makmal ini telah memenangi banyak anugerah sains dan teknologi dalam dan luar negara serta anugerah kertas terbaik, dan komited untuk membangunkan teknologi dan platform kecerdasan buatan peringkat produk

Atas ialah kandungan terperinci Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Penyusunan Tahunan Terkini Teknik Kejuruteraan TerbaikPenyusunan Tahunan Terkini Teknik Kejuruteraan TerbaikApr 10, 2025 am 11:22 AM

Bagi anda yang mungkin baru dalam lajur saya, saya secara meluas meneroka kemajuan terkini di AI di seluruh papan, termasuk topik seperti yang terkandung AI, penaakulan AI, terobosan berteknologi tinggi di AI, kejuruteraan segera, latihan AI, Fielding of AI, AI Re Re,

Pelan Tindakan Benua AI Eropah: Gigafactories, Lab Data, dan Green AIPelan Tindakan Benua AI Eropah: Gigafactories, Lab Data, dan Green AIApr 10, 2025 am 11:21 AM

Pelan Tindakan Benua AI yang bercita -cita tinggi Eropah bertujuan untuk mewujudkan EU sebagai pemimpin global dalam kecerdasan buatan. Unsur utama ialah penciptaan rangkaian AI Gigafactories, setiap perumahan sekitar 100,000 cip AI maju - empat kali kapasiti

Adakah cerita ejen Microsoft cukup untuk mencipta lebih banyak peminat?Adakah cerita ejen Microsoft cukup untuk mencipta lebih banyak peminat?Apr 10, 2025 am 11:20 AM

Pendekatan Bersatu Microsoft ke Aplikasi Ejen AI: Kemenangan yang jelas untuk Perniagaan Pengumuman baru -baru ini Microsoft mengenai keupayaan ejen AI baru terkesan dengan persembahan yang jelas dan bersatu. Tidak seperti banyak pengumuman teknologi yang terjatuh di TE

Menjual Strategi AI kepada Pekerja: Manifesto CEO ShopifyMenjual Strategi AI kepada Pekerja: Manifesto CEO ShopifyApr 10, 2025 am 11:19 AM

Memo CEO Shopify Tobi Lütke baru -baru ini dengan berani mengisytiharkan penguasaan AI sebagai harapan asas bagi setiap pekerja, menandakan peralihan budaya yang signifikan dalam syarikat. Ini bukan trend seketika; Ini adalah paradigma operasi baru yang disatukan ke p

IBM melancarkan kerangka utama Z17 dengan integrasi AI penuhIBM melancarkan kerangka utama Z17 dengan integrasi AI penuhApr 10, 2025 am 11:18 AM

Kerangka utama Z17 IBM: Mengintegrasikan AI untuk operasi perniagaan yang dipertingkatkan Bulan lalu, di ibu pejabat New York IBM, saya menerima pratonton keupayaan Z17. Membina kejayaan Z16 (dilancarkan pada tahun 2022 dan menunjukkan pendapatan yang berterusan berkembang

5 chatgpt meminta berhenti bergantung kepada orang lain dan mempercayai diri anda sepenuhnya5 chatgpt meminta berhenti bergantung kepada orang lain dan mempercayai diri anda sepenuhnyaApr 10, 2025 am 11:17 AM

Buka kunci keyakinan yang tidak dapat disangkal dan menghapuskan keperluan untuk pengesahan luaran! Lima chatgpt ini akan membimbing anda ke arah kepercayaan diri yang lengkap dan peralihan transformatif dalam persepsi diri. Cukup salin, tampal, dan sesuaikan dengan pendahuluan

AI berbahaya sama dengan fikiran andaAI berbahaya sama dengan fikiran andaApr 10, 2025 am 11:16 AM

Kajian baru -baru ini oleh Anthropic, sebuah syarikat keselamatan dan penyelidikan kecerdasan buatan, mula mendedahkan kebenaran tentang proses -proses yang kompleks ini, menunjukkan kerumitan yang mengganggu sama dengan domain kognitif kita sendiri. Kecerdasan semulajadi dan kecerdasan buatan mungkin lebih serupa daripada yang kita fikirkan. Mengintip di dalam: Kajian Interpretasi Antropik Penemuan baru dari penyelidikan yang dijalankan oleh antropik mewakili kemajuan yang signifikan dalam bidang interpretasi mekanistik, yang bertujuan untuk membalikkan pengkomputeran dalaman AI -bukan hanya memerhatikan apa yang AI lakukan, tetapi memahami bagaimana ia melakukannya di tahap neuron buatan. Bayangkan cuba memahami otak dengan melukis kebakaran neuron apabila seseorang melihat objek tertentu atau berfikir tentang idea tertentu. A

Dragonwing mempamerkan momentum kelebihan qualcommDragonwing mempamerkan momentum kelebihan qualcommApr 10, 2025 am 11:14 AM

Dragonwing Qualcomm: Lonjakan Strategik ke Perusahaan dan Infrastruktur Qualcomm secara agresif memperluaskan jangkauannya di luar mudah alih, mensasarkan pasaran perusahaan dan infrastruktur di seluruh dunia dengan jenama Dragonwing yang baru. Ini bukan sekadar rebran

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

Muat turun versi mac editor Atom

Muat turun versi mac editor Atom

Editor sumber terbuka yang paling popular

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

SecLists

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan