Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi-AI-php.cn

Rumah

Peranti teknologi

Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 13, 2023 am 09:25 AM

aikereta api

Model resapan telah menjadi model penjanaan teks ke imej arus perdana, yang boleh membimbing penjanaan imej berkualiti tinggi dan kaya kandungan melalui gesaan teks

Jika gesaan input terlalu ringkas, model sedia ada gagal dalam pemahaman semantik dan penaakulan akal Terdapat batasan dalam semua aspek, yang akan membawa kepada penurunan ketara dalam kualiti imej yang dijana

Pasukan Lin Liang dari Makmal HCP Universiti Sun Yat-sen mencadangkan denda yang mudah dan berkesan -kaedah penalaan dipanggil SUR-penyesuai, bertujuan untuk meningkatkan ketepatan model dalam naratif Pemahaman isyarat seksual. Kaedah ini ialah penyesuai pemahaman semantik dan inferens, sesuai untuk model resapan terlatih dan mempunyai ciri kecekapan parameter

Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi

Sila klik pautan berikut untuk melihat kertas: https://arxiv.org/ abs/2305.05189

Alamat sumber terbuka: https://github.com/Qrange-group/SUR-adapter

Untuk mencapai matlamat ini, para penyelidik mula-mula mengumpul dan membuat anotasi set data yang dipanggil SURD. Set data ini mengandungi lebih daripada 57,000 sampel berbilang modal, setiap sampel mengandungi gesaan naratif yang ringkas, gesaan berasaskan kata kunci yang kompleks dan imej berkualiti tinggi

Para penyelidik menggabungkan gesaan naratif Perwakilan semantik diselaraskan dengan isyarat yang kompleks , dan pengetahuan tentang model bahasa besar (LLM) dipindahkan ke penyesuai SUR melalui penyulingan pengetahuan, supaya pemahaman semantik yang kuat dan keupayaan penaakulan boleh diperoleh untuk membina perwakilan semantik teks berkualiti tinggi untuk penjanaan teks-ke-imej. Kemudian, mereka menyelaraskan perwakilan semantik gesaan naratif dengan gesaan kompleks dan memindahkan pengetahuan model bahasa besar (LLM) kepada penyesuai SUR melalui penyulingan pengetahuan untuk dapat memperoleh pemahaman semantik yang kukuh dan keupayaan penaakulan untuk membina kualiti tinggi perwakilan semantik tekstual Untuk penjanaan teks-ke-imej

Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi

Kami menjalankan eksperimen dengan menyepadukan berbilang LLM dan model resapan yang telah dilatih dan mendapati kaedah ini boleh membolehkan model resapan memahami dan menaakul tentang bahasa semula jadi yang ringkas. penerangan tanpa merendahkan kualiti imej

Pendekatan ini boleh menjadikan model resapan teks-ke-imej lebih mudah digunakan, memberikan pengalaman pengguna yang lebih baik, menggalakkan lagi pembangunan model generatif teks-ke-imej yang mesra pengguna, dan mengimbangi kemudahan yang mudah. gesaan naratif dan gesaan berasaskan kata kunci Jurang semantik antara

Pengenalan latar belakang

Pada masa ini, model pra-latihan teks-ke-imej yang diwakili oleh resapan stabil telah menjadi salah satu model asas yang paling penting dalam bidang kandungan yang dijana kecerdasan buatan, dalam penyuntingan imej, video Ia memainkan peranan penting dalam tugas seperti penjanaan dan penjanaan objek 3D

Pada masa ini, keupayaan semantik model penyebaran terlatih ini bergantung terutamanya pada pengekod teks (seperti CLIP), dan keupayaan pemahaman semantik mereka secara langsung mempengaruhi kesan penjanaan model resapan

Artikel ini mula-mula menguji ketepatan pemadanan imej-teks resapan Stabil dengan membina kategori soalan lazim dalam tugasan menjawab soalan visual (VQA), seperti "mengira", "warna" dan "tindakan". Kami akan mengira dan menguji secara manual

Berikut adalah contoh membina pelbagai gesaan, lihat jadual di bawah untuk butiran

Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi

Menurut keputusan yang ditunjukkan dalam jadual di bawah, artikel itu mendedahkan pra graf Vincent semasa -model resapan terlatih Terdapat masalah pemahaman semantik yang serius. Ketepatan padanan teks imej untuk sebilangan besar soalan adalah kurang daripada 50%, malah dalam sesetengah soalan, ketepatan hanya 0%

Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi

Untuk mendapatkan imej yang memenuhi syarat penjanaan teks, kami perlu mencari cara untuk meningkatkan resapan pra-latihan Keupayaan semantik pengekod artikel ini dalam model

Gambaran keseluruhan kaedah

Kandungan ditulis semula: 1. Prapemprosesan data kita boleh pelajari

daripada laman web dalam talian model resapan yang biasa digunakan lexica.art Dapatkan sejumlah besar pasangan teks imej daripada , civitai.com dan stablediffusionweb. Kemudian, kami perlu membersihkan dan menapis data ini untuk mendapatkan lebih daripada 57,000 data triplet berkualiti tinggi (termasuk gesaan kompleks, gesaan ringkas dan gambar) dan membentuknya menjadi set data SURD

🎜

Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi

Seperti yang ditunjukkan dalam rajah di bawah, gesaan kompleks merujuk kepada syarat gesaan teks yang diperlukan oleh model penyebaran apabila menjana imej Biasanya gesaan ini mempunyai format dan penerangan yang kompleks. Gesaan ringkas ialah perihalan teks bagi imej yang dijana melalui BLIP Ia menggunakan format bahasa yang konsisten dengan penerangan manusia Secara umumnya, gesaan mudah yang konsisten dengan penerangan bahasa manusia biasa menyukarkan model penyebaran imej yang cukup konsisten dari segi semantik, dan Petua yang kompleks (yang pengguna secara berseloroh memanggil "mantra" model penyebaran) boleh mencapai hasil yang memuaskan

Kandungan yang perlu ditulis semula ialah: 2. Penyulingan semantik model bahasa besar

Artikel ini memperkenalkan kaedah A yang menggunakan struktur Penyesuai Transformer untuk menyaring ciri semantik model bahasa besar dalam lapisan tersembunyi tertentu, dan memperoleh ciri semantik akhir dengan menggabungkan secara linear maklumat model bahasa besar berpandukan Penyesuai dengan output ciri semantik oleh pengekod teks asal

Model bahasa besar menggunakan model LLaMA dengan saiz yang berbeza, dan parameter bahagian UNet model resapan dibekukan semasa keseluruhan proses latihan

Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi Kandungan yang perlu ditulis semula ialah: 3 . Memandangkan struktur artikel ini memperkenalkan modul yang boleh dipelajari dalam proses inferens model besar pra-latihan, ia memusnahkan kualiti penjanaan imej asal model pra-latihan pada tahap tertentu Oleh itu, kualiti penjanaan imej perlu dikembalikan ke tahap kualiti penjanaan model pra-latihan asal

Artikel ini menggunakan tiga kali ganda dalam set data SURD dan memperkenalkan fungsi kehilangan kualiti yang sepadan semasa proses latihan untuk memulihkan kualiti penjanaan imej. Secara khususnya, artikel ini berharap ciri semantik yang diperolehi melalui modul baharu boleh diselaraskan sebaik mungkin dengan ciri semantik isyarat kompleks

Rajah berikut menunjukkan rangka kerja penalaan halus penyesuai SUR untuk model penyebaran terlatih . Bahagian kanan ialah struktur rangkaian Penyesuai

Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi

Hasil eksperimen

Untuk prestasi penyesuai SUR, artikel ini menganalisis prestasi penyesuai SUR daripada dua aspek: padanan kualiti imej Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi

Di satu pihak, mengikut yang berikut Jadual menunjukkan bahawa penyesuai SUR boleh menyelesaikan masalah ketidakpadanan semantik yang biasa dalam model penyebaran graf Vincentian dan sesuai untuk tetapan eksperimen yang berbeza. Di bawah kategori kriteria semantik yang berbeza, ketepatan juga telah dipertingkatkan pada tahap tertentu

Sebaliknya, kertas kerja ini menggunakan penunjuk penilaian kualiti imej biasa seperti BRISQUE untuk membandingkan model resapan pralatihan asal dan resapan selepas menggunakan SUR -penyesuai Kualiti imej yang dijana oleh model telah diuji secara statistik, dan kami dapati bahawa tiada perbezaan yang ketara antara kedua-duanya.

Kami juga menjalankan ujian soal selidik keutamaan manusia

Melalui analisis di atas, dapat disimpulkan bahawa kaedah yang dicadangkan mampu mengurangkan masalah yang wujud dalam teks ke imej yang telah dilatih di samping mengekalkan kualiti penjanaan imej . Masalah ketidakpadanan imej-teks

juga boleh ditunjukkan secara kualitatif melalui contoh penjanaan imej berikut Untuk analisis dan butiran yang lebih terperinci, sila rujuk artikel ini dan gudang sumber terbuka

. Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi Kandungan yang perlu ditulis semula ialah :

Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi

Pengenalan kepada HCP Lab

Profesor Lin Li mengasaskan Makmal Gabungan Perisikan Objek-Mesin-Manusia (HCP Lab) Universiti Sun Yat-sen pada tahun 2010. Dalam beberapa tahun kebelakangan ini, makmal telah mencapai keputusan akademik yang kaya dalam bidang pemahaman kandungan multimodal, penaakulan kausal dan kognitif, dan kecerdasan yang terkandung. Makmal ini telah memenangi banyak anugerah sains dan teknologi dalam dan luar negara serta anugerah kertas terbaik, dan komited untuk membangunkan teknologi dan platform kecerdasan buatan peringkat produk

Atas ialah kandungan terperinci Permudahkan gesaan gambar rajah Vincent, model LLM menjana imej berkualiti tinggi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Cara Membina Pembantu AI Peribadi Anda Dengan Huggingface SmollmApr 18, 2025 am 11:52 AM

Memanfaatkan kuasa AI di peranti: Membina CLI Chatbot Peribadi Pada masa lalu, konsep pembantu AI peribadi kelihatan seperti fiksyen sains. Bayangkan Alex, seorang peminat teknologi, bermimpi seorang sahabat AI yang pintar, yang tidak bergantung

AI untuk Kesihatan Mental dianalisis dengan penuh perhatian melalui inisiatif baru yang menarik di Stanford UniversityApr 18, 2025 am 11:49 AM

Pelancaran AI4MH mereka berlaku pada 15 April, 2025, dan Luminary Dr. Tom Insel, M.D., pakar psikiatri yang terkenal dan pakar neurosains, berkhidmat sebagai penceramah kick-off. Dr. Insel terkenal dengan kerja cemerlangnya dalam penyelidikan kesihatan mental dan techno

Kelas Draf WNBA 2025 memasuki liga yang semakin meningkat dan melawan gangguan dalam talianApr 18, 2025 am 11:44 AM

"Kami mahu memastikan bahawa WNBA kekal sebagai ruang di mana semua orang, pemain, peminat dan rakan kongsi korporat, berasa selamat, dihargai dan diberi kuasa," kata Engelbert, menangani apa yang telah menjadi salah satu cabaran sukan wanita yang paling merosakkan. Anno

Panduan Komprehensif untuk Struktur Data Terbina Python - Analytics VidhyaApr 18, 2025 am 11:43 AM

Pengenalan Python cemerlang sebagai bahasa pengaturcaraan, terutamanya dalam sains data dan AI generatif. Manipulasi data yang cekap (penyimpanan, pengurusan, dan akses) adalah penting apabila berurusan dengan dataset yang besar. Kami pernah meliputi nombor dan st

Tayangan pertama dari model baru Openai berbanding dengan alternatifApr 18, 2025 am 11:41 AM

Sebelum menyelam, kaveat penting: Prestasi AI adalah spesifik yang tidak ditentukan dan sangat digunakan. Dalam istilah yang lebih mudah, perbatuan anda mungkin berbeza -beza. Jangan ambil artikel ini (atau lain -lain) sebagai perkataan akhir -sebaliknya, uji model ini pada senario anda sendiri

AI Portfolio | Bagaimana untuk membina portfolio untuk kerjaya AI?Apr 18, 2025 am 11:40 AM

Membina portfolio AI/ML yang menonjol: Panduan untuk Pemula dan Profesional Mewujudkan portfolio yang menarik adalah penting untuk mendapatkan peranan dalam kecerdasan buatan (AI) dan pembelajaran mesin (ML). Panduan ini memberi nasihat untuk membina portfolio

AI AI apa yang boleh dimaksudkan untuk operasi keselamatanApr 18, 2025 am 11:36 AM

Hasilnya? Pembakaran, ketidakcekapan, dan jurang yang melebar antara pengesanan dan tindakan. Tak satu pun dari ini harus datang sebagai kejutan kepada sesiapa yang bekerja dalam keselamatan siber. Janji Agentic AI telah muncul sebagai titik perubahan yang berpotensi. Kelas baru ini

Google Versus Openai: AI berjuang untuk pelajarApr 18, 2025 am 11:31 AM

Impak segera berbanding perkongsian jangka panjang? Dua minggu yang lalu Openai melangkah ke hadapan dengan tawaran jangka pendek yang kuat, memberikan akses kepada pelajar A.S. dan Kanada.

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang laluByDDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang laluByDDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

3 minggu yang laluByDDD

Penjimatan di R.E.P.O. Dijelaskan (dan simpan fail)

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows - Cara Mencari Orang Panda

4 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.