Saingan Midjourney ada di sini! 'Master Penyesuaian' Google StyleDrop meletupkan bulatan seni AI-AI-php.cn

Rumah

Peranti teknologi

Saingan Midjourney ada di sini! 'Master Penyesuaian' Google StyleDrop meletupkan bulatan seni AI

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 05, 2023 pm 01:33 PM

GoogleModel

Sebaik sahaja Google StyleDrop keluar, ia serta-merta melanda internet.

Memandangkan Malam Berbintang Van Gogh, AI menjadi pakar Van Gogh Selepas pemahaman peringkat atasan tentang gaya abstrak ini, ia boleh mencipta lukisan yang tidak terkira banyaknya.

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Satu lagi gaya kartun, objek yang saya nak lukis jauh lebih comel.

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Malah, ia boleh mengawal butiran dengan tepat dan mereka bentuk logo gaya asli.

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Pesona StyleDrop ialah anda hanya memerlukan satu gambar sebagai rujukan, tidak kira betapa rumitnya gaya artistik itu, anda boleh menyahkonstruk dan mencipta semula ia.

Netizen menyatakan bahawa ini adalah satu lagi alat AI yang menghapuskan pereka.

Penyelidikan letupan StyleDrop ialah produk terbaharu daripada pasukan penyelidik Google.

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Alamat kertas: https://arxiv.org/pdf/2306.00983.pdf

Kini, dengan alatan seperti StyleDrop, anda bukan sahaja boleh melukis dengan lebih kawalan, tetapi anda juga boleh menyelesaikan kerja halus yang tidak dapat dibayangkan sebelum ini, seperti melukis logo.

Malah saintis NVIDIA menggelarnya sebagai pencapaian "penomenal".

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

"Penyesuaian" induk

Pengarang kertas itu memperkenalkan bahawa inspirasi untuk StyleDrop datang daripada Penitis mata (penyerapan warna) /alat pemetik warna).

Begitu juga, StyleDrop juga berharap semua orang boleh dengan cepat dan mudah "memilih" gaya daripada satu/beberapa imej rujukan untuk menjana imej gaya itu.

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Seorang sloth boleh mempunyai 18 gaya:

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Panda mempunyai 24 gaya:

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Lukisan cat air yang dilukis oleh kanak-kanak dikawal dengan sempurna oleh StyleDrop, malah kertas Lipatan mempunyai telah dipulihkan.

Saya perlu katakan, ia terlalu kuat.

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Terdapat juga StyleDrop yang merujuk kepada reka bentuk huruf Inggeris dalam gaya yang berbeza:

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Ia juga huruf gaya Van Gogh.

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Terdapat juga lukisan garisan. Lukisan garisan adalah imej yang sangat abstrak dan memerlukan rasional yang sangat tinggi dalam gubahan gambar.

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Sapuan bayang keju dalam gambar asal dipulihkan kepada objek dalam setiap gambar.

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Rujuk penciptaan LOGO Android.

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Di samping itu, para penyelidik juga memperluaskan keupayaan StyleDrop, bukan sahaja untuk menyesuaikan gaya, digabungkan dengan DreamBooth, tetapi juga untuk menyesuaikan kandungan .

Sebagai contoh, masih dalam gaya Van Gogh, hasilkan lukisan gaya yang serupa untuk Corgi kecil:

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Ini satu lagi, Corgi di bawah terasa seperti "Sphinx" pada piramid Mesir.

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Bagaimanakah ia berfungsi?

StyleDrop dibina pada Muse dan terdiri daripada dua bahagian penting:

Salah satunya ialah penalaan halus yang berkesan bagi parameter Transformer visual yang dihasilkan, dan yang lain ialah lelaran dengan kereta api maklum balas.

Kemudian, penyelidik mensintesis imej daripada dua model yang diperhalusi.

Muse ialah model sintesis teks-ke-imej terbaharu berdasarkan Transformer imej yang dijana topeng. Ia mengandungi dua modul sintesis untuk penjanaan imej asas (256 × 256) dan resolusi super (512 × 512 atau 1024 × 1024).

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Setiap modul terdiri daripada pengekod teks T, pengubah G, pensampel S dan pengekod imej Ia terdiri daripada penyahkod E dan penyahkod D.

T memetakan gesaan teks t∈T ke ruang benam berterusan E. G memproses pembenaman teks e ∈ E untuk menjana logaritma jujukan token visual l ∈ L. S mengekstrak jujukan token visual v ∈ V daripada logaritma melalui penyahkodan berulang yang menjalankan beberapa langkah inferens pengubah yang dikondisikan pada pembenaman teks e dan token visual dinyahkod daripada langkah sebelumnya.

Akhir sekali, D memetakan jujukan token diskret ke ruang piksel I. Secara ringkasnya, diberi teks gesaan t, komposisi imej I adalah seperti berikut:

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Rajah 2 ialah seni bina lapisan pengubah Muse yang dipermudahkan, yang telah diubah suai sebahagiannya untuk menyokong Penalaan Halus Cekap Parameter (PEFT) dan penyesuai.

Gunakan pengubah lapisan L untuk memproses jujukan token visual yang dipaparkan dalam warna hijau di bawah keadaan pembenaman teks e. Parameter yang dipelajari θ digunakan untuk membina pemberat untuk penalaan penyesuai.

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Untuk melatih θ, dalam banyak kes, penyelidik hanya boleh memberikan gambar sebagai rujukan gaya.

Penyelidik perlu melampirkan gesaan teks secara manual. Mereka mencadangkan pendekatan ringkas dan bertemplat untuk membina gesaan teks yang terdiri daripada penerangan kandungan diikuti dengan frasa gaya perihalan.

Sebagai contoh, penyelidik menggunakan "kucing" untuk menerangkan objek dalam Jadual 1 dan menambahkan "lukisan cat air" sebagai penerangan gaya.

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Memasukkan penerangan kandungan dan gaya dalam gesaan teks adalah penting kerana ia membantu memisahkan kandungan daripada gaya, iaitu penyelidikan Matlamat utama kakitangan.

Rajah 3 menunjukkan latihan berulang dengan maklum balas.

Apabila latihan pada imej rujukan gaya tunggal (kotak oren), sesetengah imej yang dijana oleh StyleDrop mungkin mempamerkan kandungan yang diekstrak daripada imej rujukan gaya (kotak merah, imej Latar belakang mengandungi rumah yang serupa kepada imej gaya).

Imej lain (kotak biru) lebih baik memisahkan gaya daripada kandungan. Latihan berulang StyleDrop pada sampel yang baik (kotak biru) menghasilkan keseimbangan yang lebih baik antara gaya dan kesetiaan teks (kotak hijau).

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Di sini penyelidik juga menggunakan dua kaedah:

-Score CLIP

Kaedah ini digunakan untuk mengukur penjajaran imej dan teks. Oleh itu, ia boleh menilai kualiti imej yang dijana dengan mengukur skor CLIP (iaitu, persamaan kosinus pembenaman CLIP visual dan tekstual).

Penyelidik boleh memilih imej CLIP dengan markah tertinggi. Mereka memanggil kaedah ini CLIP-feedback iterative training (CF).

Dalam eksperimen, penyelidik mendapati bahawa menggunakan skor CLIP untuk menilai kualiti imej sintetik ialah cara yang berkesan untuk meningkatkan ingatan semula (iaitu, kesetiaan teks) tanpa kehilangan kesetiaan Gaya yang berlebihan.

Walau bagaimanapun, skor CLIP mungkin tidak sejajar sepenuhnya dengan niat manusia, atau menangkap atribut gaya halus.

-HF

Maklum balas manusia (HF) ialah kaedah yang menyuntik niat pengguna terus ke dalam penilaian kualiti imej sintetik dengan cara yang lebih langsung.

Dalam penalaan halus LLM untuk pembelajaran pengukuhan, HF telah membuktikan kuasa dan keberkesanannya.

HF boleh digunakan untuk mengimbangi ketidakupayaan skor CLIP untuk menangkap atribut gaya halus.

Pada masa ini, sejumlah besar penyelidikan telah memfokuskan pada masalah pemperibadian model penyebaran teks ke imej untuk mensintesis imej yang mengandungi berbilang gaya peribadi.

Penyelidik menunjukkan cara DreamBooth dan StyleDrop boleh digabungkan dengan cara yang mudah untuk memperibadikan kedua-dua gaya dan kandungan.

Ini dilakukan dengan mengambil sampel daripada dua taburan generatif yang diubah suai, dipandu oleh θs untuk gaya dan θc untuk kandungan, secara bebas pada gaya dan imej rujukan kandungan masing-masing Parameter penyesuai terlatih.

Tidak seperti produk sedia ada, pendekatan pasukan tidak memerlukan latihan bersama parameter yang boleh dipelajari pada pelbagai konsep, yang membawa kepada keupayaan gabungan yang lebih besar, Kerana penyesuai pra-latihan dilatih pada topik dan gaya individu secara berasingan.

Proses pensampelan keseluruhan penyelidik mengikuti penyahkodan berulang Persamaan (1), dengan cara pensampelan logaritma yang berbeza dalam setiap langkah penyahkodan.

Biarkan t sebagai gesaan teks dan c sebagai gesaan teks tanpa deskriptor gaya Logaritma dikira dalam langkah k seperti berikut:

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

. Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Di mana: γ digunakan untuk mengimbangi StyleDrop dan DreamBooth - jika γ ialah 0, kami mendapat StyleDrop, jika 1, kami mendapat DreamBooth.

Dengan menetapkan γ dengan sewajarnya, kita boleh mendapatkan imej yang sesuai.

Persediaan percubaan

Setakat ini, tiada Pelarasan gaya model generatif imej teks telah dikaji secara meluas.

Oleh itu, penyelidik mencadangkan rancangan eksperimen baharu:

-Pengumpulan data

The penyelidik mengumpul berpuluh-puluh gambar dalam gaya yang berbeza, daripada cat air dan lukisan minyak, ilustrasi rata, rendering 3D kepada arca daripada bahan yang berbeza.

-Konfigurasi Model

Penyelidik menggunakan penyesuai untuk menala StyleDrop berasaskan Muse. Untuk semua percubaan, pengoptimum Adam digunakan untuk mengemas kini berat penyesuai untuk 1000 langkah dengan kadar pembelajaran 0.00003. Melainkan dinyatakan sebaliknya, penyelidik menggunakan StyleDrop untuk mewakili model pusingan kedua, yang dilatih pada lebih daripada 10 imej sintetik dengan maklum balas manusia.

- Penilaian

Penilaian kuantitatif laporan penyelidikan berdasarkan CLIP, mengukur ketekalan gaya dan penjajaran teks. Selain itu, penyelidik menjalankan kajian keutamaan pengguna untuk menilai ketekalan gaya dan penjajaran teks.

Seperti yang ditunjukkan dalam rajah, hasil pemprosesan StyleDrop 18 gambar gaya berbeza dikumpul oleh penyelidik.

Seperti yang anda lihat, StyleDrop mampu menangkap nuansa tekstur, lorekan dan struktur pelbagai gaya, memberikan anda kawalan yang lebih baik terhadap gaya berbanding sebelum ini.

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Sebagai perbandingan, penyelidik juga memperkenalkan hasil DreamBooth pada Imagen, DreamBooth's LoRA mengenai Hasil Resapan Stabil pelaksanaan dan penyongsangan tekstual.

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Hasil khusus ditunjukkan dalam jadual, penjajaran imej-teks manusia (Teks) dan penjajaran gaya visual (Gaya ) Penunjuk penilaian skor (atas) dan skor CLIP (bawah).

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Perbandingan kualitatif bagi (a) DreamBooth, (b) StyleDrop dan (c) DreamBooth + StyleDrop:

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Di sini, penyelidik menggunakan dua metrik skor CLIP yang dinyatakan di atas - skor teks dan gaya.

Untuk skor teks, penyelidik mengukur persamaan kosinus antara imej dan pembenaman teks. Untuk skor gaya, penyelidik mengukur persamaan kosinus antara rujukan gaya dan pembenaman imej sintetik.

Para penyelidik menjana sejumlah 1520 imej untuk 190 gesaan teks. Walaupun penyelidik berharap skor akhir akan lebih tinggi, metriknya tidak sempurna.

Sementara latihan berulang (IT) meningkatkan skor teks, yang selaras dengan matlamat penyelidik.

Walau bagaimanapun, sebagai pertukaran, markah gaya mereka pada model pusingan pertama dikurangkan kerana mereka dilatih pada imej sintetik dan gaya mungkin berat sebelah oleh pilih kasih.

DreamBooth pada Imagen adalah lebih rendah daripada StyleDrop dalam skor gaya (0.644 lwn. 0.694 untuk HF).

Para penyelidik mendapati bahawa peningkatan dalam skor gaya DreamBooth pada Imagen tidak jelas (0.569 → 0.644), manakala peningkatan StyleDrop pada Muse adalah lebih jelas (0.556 → 0.694).

Penyelidik menganalisis bahawa penalaan halus gaya pada Muse lebih berkesan berbanding Imagen.

Selain itu, untuk kawalan berbutir halus, StyleDrop menangkap perbezaan gaya yang halus, seperti offset warna, penggredan atau kawalan sudut tajam.

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Komen hangat daripada netizen

Jika pereka mempunyai StyleDrop, kecekapan kerja 10x lebih pantas telah pun bermula .

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Satu hari AI, 10 tahun kehidupan manusia, AIGC berkembang pada kelajuan cahaya, jenis kelajuan cahaya yang membutakan mata manusia!

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Alat hanya mengikut trend, dan yang sepatutnya dihapuskan telah pun dihapuskan.

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Alat ini lebih mudah digunakan berbanding Midjourney untuk membuat logo.

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Atas ialah kandungan terperinci Saingan Midjourney ada di sini! 'Master Penyesuaian' Google StyleDrop meletupkan bulatan seni AI. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Let's Dance: Gerakan berstruktur untuk menyempurnakan jaring saraf manusia kitaApr 27, 2025 am 11:09 AM

Para saintis telah mengkaji secara meluas rangkaian saraf manusia dan mudah (seperti yang ada di C. elegans) untuk memahami fungsi mereka. Walau bagaimanapun, soalan penting timbul: Bagaimana kita menyesuaikan rangkaian saraf kita sendiri untuk berfungsi dengan berkesan bersama -sama dengan novel AI s

New Google Leak mendedahkan perubahan langganan untuk Gemini AIApr 27, 2025 am 11:08 AM

Gemini Google Advanced: Tahap Langganan Baru di Horizon Pada masa ini, mengakses Gemini Advanced memerlukan pelan premium AI $ 19.99/bulan. Walau bagaimanapun, laporan Pihak Berkuasa Android menunjukkan perubahan yang akan datang. Kod dalam google terkini p

Bagaimana Pecutan Analisis Data Menyelesaikan Bots Tersembunyi AIApr 27, 2025 am 11:07 AM

Walaupun gembar -gembur di sekitar keupayaan AI maju, satu cabaran penting bersembunyi dalam perusahaan AI perusahaan: kesesakan pemprosesan data. Walaupun CEO merayakan kemajuan AI, jurutera bergelut dengan masa pertanyaan yang perlahan, saluran paip yang terlalu banyak, a

Markitdown MCP boleh menukar mana -mana dokumen ke Markdowns!Apr 27, 2025 am 09:47 AM

Dokumen pengendalian tidak lagi hanya mengenai pembukaan fail dalam projek AI anda, ia mengenai mengubah kekacauan menjadi kejelasan. Dokumen seperti PDF, PowerPoints, dan perkataan banjir aliran kerja kami dalam setiap bentuk dan saiz. Mengambil semula berstruktur

Bagaimana cara menggunakan Google ADK untuk ejen bangunan? - Analytics VidhyaApr 27, 2025 am 09:42 AM

Memanfaatkan kuasa Kit Pembangunan Ejen Google (ADK) untuk membuat ejen pintar dengan keupayaan dunia sebenar! Tutorial ini membimbing anda melalui membina ejen perbualan menggunakan ADK, menyokong pelbagai model bahasa seperti Gemini dan GPT. W

Penggunaan SLM Over LLM untuk Penyelesaian Masalah Berkesan - Analisis VidhyaApr 27, 2025 am 09:27 AM

Ringkasan: Model bahasa kecil (SLM) direka untuk kecekapan. Mereka lebih baik daripada model bahasa yang besar (LLM) dalam persekitaran yang kurang sensitif, masa nyata dan privasi. Terbaik untuk tugas-tugas berasaskan fokus, terutamanya di mana kekhususan domain, kawalan, dan tafsiran lebih penting daripada pengetahuan umum atau kreativiti. SLMs bukan pengganti LLM, tetapi mereka sesuai apabila ketepatan, kelajuan dan keberkesanan kos adalah kritikal. Teknologi membantu kita mencapai lebih banyak sumber. Ia sentiasa menjadi promoter, bukan pemandu. Dari era enjin stim ke era gelembung internet, kuasa teknologi terletak pada tahap yang membantu kita menyelesaikan masalah. Kecerdasan Buatan (AI) dan AI Generatif Baru -baru ini tidak terkecuali

Bagaimana cara menggunakan model Google Gemini untuk tugas penglihatan komputer? - Analytics VidhyaApr 27, 2025 am 09:26 AM

Memanfaatkan kekuatan Google Gemini untuk Visi Komputer: Panduan Komprehensif Google Gemini, chatbot AI terkemuka, memanjangkan keupayaannya di luar perbualan untuk merangkumi fungsi penglihatan komputer yang kuat. Panduan ini memperincikan cara menggunakan

Gemini 2.0 Flash vs O4-Mini: Bolehkah Google lebih baik daripada Openai?Apr 27, 2025 am 09:20 AM

Landskap AI pada tahun 2025 adalah elektrik dengan kedatangan Flash Gemini 2.0 Google dan Openai's O4-mini. Model-model canggih ini, yang dilancarkan minggu-minggu, mempunyai ciri-ciri canggih yang setanding dan skor penanda aras yang mengagumkan. Perbandingan mendalam ini

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

1 bulan yang laluByDDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang laluByDDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

1 bulan yang laluByDDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

2 minggu yang laluByDDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

3 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

SublimeText3 Linux versi baharu

SublimeText3 Linux versi terkini

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7753

1643

1398

1293

1234