


Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi
Model resapan telah menjadi model penjanaan teks ke imej arus perdana, yang boleh membimbing penjanaan imej berkualiti tinggi dan kaya kandungan melalui gesaan teks
Jika gesaan input terlalu ringkas, model sedia ada gagal dalam pemahaman semantik dan penaakulan akal Terdapat batasan dalam semua aspek, yang akan membawa kepada penurunan ketara dalam kualiti imej yang dijana
Pasukan Lin Liang dari Makmal HCP Universiti Sun Yat-sen mencadangkan denda yang mudah dan berkesan -kaedah penalaan dipanggil SUR-penyesuai, bertujuan untuk meningkatkan ketepatan model dalam naratif Pemahaman isyarat seksual. Kaedah ini ialah penyesuai pemahaman semantik dan inferens, sesuai untuk model resapan terlatih dan mempunyai ciri kecekapan parameter
Sila klik pautan berikut untuk melihat kertas: https://arxiv.org/ abs/2305.05189
Alamat sumber terbuka: https://github.com/Qrange-group/SUR-adapter
Untuk mencapai matlamat ini, para penyelidik mula-mula mengumpul dan membuat anotasi set data yang dipanggil SURD. Set data ini mengandungi lebih daripada 57,000 sampel berbilang modal, setiap sampel mengandungi gesaan naratif yang ringkas, gesaan berasaskan kata kunci yang kompleks dan imej berkualiti tinggi
Para penyelidik menggabungkan gesaan naratif Perwakilan semantik diselaraskan dengan isyarat yang kompleks , dan pengetahuan tentang model bahasa besar (LLM) dipindahkan ke penyesuai SUR melalui penyulingan pengetahuan, supaya pemahaman semantik yang kuat dan keupayaan penaakulan boleh diperoleh untuk membina perwakilan semantik teks berkualiti tinggi untuk penjanaan teks-ke-imej. Kemudian, mereka menyelaraskan perwakilan semantik gesaan naratif dengan gesaan kompleks dan memindahkan pengetahuan model bahasa besar (LLM) kepada penyesuai SUR melalui penyulingan pengetahuan untuk dapat memperoleh pemahaman semantik yang kukuh dan keupayaan penaakulan untuk membina kualiti tinggi perwakilan semantik tekstual Untuk penjanaan teks-ke-imej
Kami menjalankan eksperimen dengan menyepadukan berbilang LLM dan model resapan yang telah dilatih dan mendapati kaedah ini boleh membolehkan model resapan memahami dan menaakul tentang bahasa semula jadi yang ringkas. penerangan tanpa merendahkan kualiti imej
Pendekatan ini boleh menjadikan model resapan teks-ke-imej lebih mudah digunakan, memberikan pengalaman pengguna yang lebih baik, menggalakkan lagi pembangunan model generatif teks-ke-imej yang mesra pengguna, dan mengimbangi kemudahan yang mudah. gesaan naratif dan gesaan berasaskan kata kunci Jurang semantik antara
Pengenalan latar belakang
Pada masa ini, model pra-latihan teks-ke-imej yang diwakili oleh resapan stabil telah menjadi salah satu model asas yang paling penting dalam bidang kandungan yang dijana kecerdasan buatan, dalam penyuntingan imej, video Ia memainkan peranan penting dalam tugas seperti penjanaan dan penjanaan objek 3D
Pada masa ini, keupayaan semantik model penyebaran terlatih ini bergantung terutamanya pada pengekod teks (seperti CLIP), dan keupayaan pemahaman semantik mereka secara langsung mempengaruhi kesan penjanaan model resapan
Artikel ini mula-mula menguji ketepatan pemadanan imej-teks resapan Stabil dengan membina kategori soalan lazim dalam tugasan menjawab soalan visual (VQA), seperti "mengira", "warna" dan "tindakan". Kami akan mengira dan menguji secara manual
Berikut adalah contoh membina pelbagai gesaan, lihat jadual di bawah untuk butiran
Menurut keputusan yang ditunjukkan dalam jadual di bawah, artikel itu mendedahkan pra graf Vincent semasa -model resapan terlatih Terdapat masalah pemahaman semantik yang serius. Ketepatan padanan teks imej untuk sebilangan besar soalan adalah kurang daripada 50%, malah dalam sesetengah soalan, ketepatan hanya 0%
Untuk mendapatkan imej yang memenuhi syarat penjanaan teks, kami perlu mencari cara untuk meningkatkan resapan pra-latihan Keupayaan semantik pengekod artikel ini dalam model
Gambaran keseluruhan kaedah
Kandungan ditulis semula: 1. Prapemprosesan data kita boleh pelajari
daripada laman web dalam talian model resapan yang biasa digunakan lexica.art Dapatkan sejumlah besar pasangan teks imej daripada , civitai.com dan stablediffusionweb. Kemudian, kami perlu membersihkan dan menapis data ini untuk mendapatkan lebih daripada 57,000 data triplet berkualiti tinggi (termasuk gesaan kompleks, gesaan ringkas dan gambar) dan membentuknya menjadi set data SURD
🎜Seperti yang ditunjukkan dalam rajah di bawah, gesaan kompleks merujuk kepada syarat gesaan teks yang diperlukan oleh model penyebaran apabila menjana imej Biasanya gesaan ini mempunyai format dan penerangan yang kompleks. Gesaan ringkas ialah perihalan teks bagi imej yang dijana melalui BLIP Ia menggunakan format bahasa yang konsisten dengan penerangan manusia Secara umumnya, gesaan mudah yang konsisten dengan penerangan bahasa manusia biasa menyukarkan model penyebaran imej yang cukup konsisten dari segi semantik, dan Petua yang kompleks (yang pengguna secara berseloroh memanggil "mantra" model penyebaran) boleh mencapai hasil yang memuaskan
Kandungan yang perlu ditulis semula ialah: 2. Penyulingan semantik model bahasa besar
Artikel ini memperkenalkan kaedah A yang menggunakan struktur Penyesuai Transformer untuk menyaring ciri semantik model bahasa besar dalam lapisan tersembunyi tertentu, dan memperoleh ciri semantik akhir dengan menggabungkan secara linear maklumat model bahasa besar berpandukan Penyesuai dengan output ciri semantik oleh pengekod teks asal
Model bahasa besar menggunakan model LLaMA dengan saiz yang berbeza, dan parameter bahagian UNet model resapan dibekukan semasa keseluruhan proses latihan
Kandungan yang perlu ditulis semula ialah: 3 .
Memandangkan struktur artikel ini memperkenalkan modul yang boleh dipelajari dalam proses inferens model besar pra-latihan, ia memusnahkan kualiti penjanaan imej asal model pra-latihan pada tahap tertentu Oleh itu, kualiti penjanaan imej perlu dikembalikan ke tahap kualiti penjanaan model pra-latihan asal
Artikel ini menggunakan tiga kali ganda dalam set data SURD dan memperkenalkan fungsi kehilangan kualiti yang sepadan semasa proses latihan untuk memulihkan kualiti penjanaan imej. Secara khususnya, artikel ini berharap ciri semantik yang diperolehi melalui modul baharu boleh diselaraskan sebaik mungkin dengan ciri semantik isyarat kompleks
Rajah berikut menunjukkan rangka kerja penalaan halus penyesuai SUR untuk model penyebaran terlatih . Bahagian kanan ialah struktur rangkaian Penyesuai
Hasil eksperimen
Untuk prestasi penyesuai SUR, artikel ini menganalisis prestasi penyesuai SUR daripada dua aspek: padanan kualiti imej
Di satu pihak, mengikut yang berikut Jadual menunjukkan bahawa penyesuai SUR boleh menyelesaikan masalah ketidakpadanan semantik yang biasa dalam model penyebaran graf Vincentian dan sesuai untuk tetapan eksperimen yang berbeza. Di bawah kategori kriteria semantik yang berbeza, ketepatan juga telah dipertingkatkan pada tahap tertentu
Sebaliknya, kertas kerja ini menggunakan penunjuk penilaian kualiti imej biasa seperti BRISQUE untuk membandingkan model resapan pralatihan asal dan resapan selepas menggunakan SUR -penyesuai Kualiti imej yang dijana oleh model telah diuji secara statistik, dan kami dapati bahawa tiada perbezaan yang ketara antara kedua-duanya.
Kami juga menjalankan ujian soal selidik keutamaan manusia
Melalui analisis di atas, dapat disimpulkan bahawa kaedah yang dicadangkan mampu mengurangkan masalah yang wujud dalam teks ke imej yang telah dilatih di samping mengekalkan kualiti penjanaan imej . Masalah ketidakpadanan imej-teks
juga boleh ditunjukkan secara kualitatif melalui contoh penjanaan imej berikut Untuk analisis dan butiran yang lebih terperinci, sila rujuk artikel ini dan gudang sumber terbuka
. Kandungan yang perlu ditulis semula ialah :
Pengenalan kepada HCP Lab
Profesor Lin Li mengasaskan Makmal Gabungan Perisikan Objek-Mesin-Manusia (HCP Lab) Universiti Sun Yat-sen pada tahun 2010. Dalam beberapa tahun kebelakangan ini, makmal telah mencapai keputusan akademik yang kaya dalam bidang pemahaman kandungan multimodal, penaakulan kausal dan kognitif, dan kecerdasan yang terkandung. Makmal ini telah memenangi banyak anugerah sains dan teknologi dalam dan luar negara serta anugerah kertas terbaik, dan komited untuk membangunkan teknologi dan platform kecerdasan buatan peringkat produk
Atas ialah kandungan terperinci Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Memanfaatkan kuasa AI di peranti: Membina CLI Chatbot Peribadi Pada masa lalu, konsep pembantu AI peribadi kelihatan seperti fiksyen sains. Bayangkan Alex, seorang peminat teknologi, bermimpi seorang sahabat AI yang pintar, yang tidak bergantung

Pelancaran AI4MH mereka berlaku pada 15 April, 2025, dan Luminary Dr. Tom Insel, M.D., pakar psikiatri yang terkenal dan pakar neurosains, berkhidmat sebagai penceramah kick-off. Dr. Insel terkenal dengan kerja cemerlangnya dalam penyelidikan kesihatan mental dan techno

"Kami mahu memastikan bahawa WNBA kekal sebagai ruang di mana semua orang, pemain, peminat dan rakan kongsi korporat, berasa selamat, dihargai dan diberi kuasa," kata Engelbert, menangani apa yang telah menjadi salah satu cabaran sukan wanita yang paling merosakkan. Anno

Pengenalan Python cemerlang sebagai bahasa pengaturcaraan, terutamanya dalam sains data dan AI generatif. Manipulasi data yang cekap (penyimpanan, pengurusan, dan akses) adalah penting apabila berurusan dengan dataset yang besar. Kami pernah meliputi nombor dan st

Sebelum menyelam, kaveat penting: Prestasi AI adalah spesifik yang tidak ditentukan dan sangat digunakan. Dalam istilah yang lebih mudah, perbatuan anda mungkin berbeza -beza. Jangan ambil artikel ini (atau lain -lain) sebagai perkataan akhir -sebaliknya, uji model ini pada senario anda sendiri

Membina portfolio AI/ML yang menonjol: Panduan untuk Pemula dan Profesional Mewujudkan portfolio yang menarik adalah penting untuk mendapatkan peranan dalam kecerdasan buatan (AI) dan pembelajaran mesin (ML). Panduan ini memberi nasihat untuk membina portfolio

Hasilnya? Pembakaran, ketidakcekapan, dan jurang yang melebar antara pengesanan dan tindakan. Tak satu pun dari ini harus datang sebagai kejutan kepada sesiapa yang bekerja dalam keselamatan siber. Janji Agentic AI telah muncul sebagai titik perubahan yang berpotensi. Kelas baru ini

Impak segera berbanding perkongsian jangka panjang? Dua minggu yang lalu Openai melangkah ke hadapan dengan tawaran jangka pendek yang kuat, memberikan akses kepada pelajar A.S. dan Kanada.


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SecLists
SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.

PhpStorm versi Mac
Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).

Muat turun versi mac editor Atom
Editor sumber terbuka yang paling popular

ZendStudio 13.5.1 Mac
Persekitaran pembangunan bersepadu PHP yang berkuasa