Rumah >Peranti teknologi >AI >Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka

Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka

WBOY
WBOYke hadapan
2024-04-25 17:25:301020semak imbas

Baru-baru ini, Model Penyebaran telah mencapai kemajuan yang ketara dalam bidang penjanaan imej, membawa peluang pembangunan yang belum pernah berlaku sebelum ini kepada tugas penjanaan imej dan penjanaan video. Walaupun hasil yang mengagumkan, sifat denoising berulang pelbagai langkah yang wujud dalam proses inferens model resapan menghasilkan kos pengiraan yang tinggi. Baru-baru ini, satu siri algoritma penyulingan model resapan telah muncul untuk mempercepatkan proses inferens model resapan. Kaedah-kaedah ini secara kasar boleh dibahagikan kepada dua kategori: i) penyulingan pemuliharaan trajektori; ii) penyulingan pembinaan semula trajektori. Walau bagaimanapun, kedua-dua jenis kaedah ini akan dihadkan oleh siling kesan terhad atau perubahan dalam domain output.

Untuk menyelesaikan masalah ini, pasukan teknikal ByteDance mencadangkan model konsistensi segmentasi trajektori yang dipanggil Hyper-SD. Sumber terbuka Hyper-SD juga telah diiktiraf oleh Ketua Pegawai Eksekutif Huggingface Clem Delangue.

Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka

Model ini ialah rangka kerja penyulingan model resapan baru yang menggabungkan kelebihan penyulingan memelihara trajektori dan penyulingan pembinaan semula trajektori untuk memampatkan bilangan langkah denoising sambil mengekalkan prestasi hampir tanpa kerugian. Berbanding dengan algoritma pecutan model resapan sedia ada, kaedah ini mencapai hasil pecutan yang sangat baik. Selepas percubaan yang meluas dan ulasan pengguna, Hyper-SD+ boleh mencapai prestasi penjanaan imej peringkat SOTA dalam 1 hingga 8 langkah pada kedua-dua seni bina SDXL dan SD1.5.

Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka

  • Laman utama projek: https://hyper-sd.github.io/

  • Pautan kertas: https://arxiv.org/abs/2404.13686

    /Hugging
  • // /huggingface.co/ByteDance/Hyper-SD
  • Pautan Demo generasi satu langkah: https://huggingface.co/spaces/ByteDance/Hyper-SDXL-1Step-T2I
  • lukisan masa nyata papan pautan Demo: https: //huggingface.co/spaces/ByteDance/Hyper-SD15-Scribble
  • Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka

PengenalanPenyulingan model terbahagi kepada dua kaedah penyulingan yang sedia ada untuk diflasikan kepada dua model penyulingan penyulingan pemuliharaan trajektori dan penyulingan pembinaan semula Trajektori. Teknik penyulingan pemuliharaan trajektori bertujuan untuk mengekalkan trajektori asal persamaan pembezaan biasa (ODE) yang sepadan dengan resapan. Prinsipnya adalah untuk mengurangkan langkah inferens dengan memaksa model suling dan model asal menghasilkan output yang serupa. Walau bagaimanapun, perlu diingat bahawa walaupun pecutan boleh dicapai, kaedah sedemikian boleh menyebabkan penurunan dalam kualiti penjanaan disebabkan oleh kapasiti model yang terhad dan ralat yang tidak dapat dielakkan semasa latihan dan pemasangan. Sebaliknya, kaedah pembinaan semula trajektori secara langsung menggunakan titik akhir pada trajektori atau imej sebenar sebagai sumber utama penyeliaan, mengabaikan langkah perantaraan trajektori, dan boleh mengurangkan bilangan langkah inferens dengan membina semula trajektori yang lebih berkesan dan melaksanakannya dalam masa yang terhad. Terokai potensi model anda dalam beberapa langkah, membebaskannya daripada kekangan trajektori asal. Walau bagaimanapun, ini selalunya mengakibatkan domain keluaran model dipercepatkan tidak konsisten dengan model asal, mengakibatkan hasil suboptimum.

Kertas kerja ini mencadangkan model ketekalan segmentasi trajektori (pendek kata Hyper-SD) yang menggabungkan kelebihan strategi pemeliharaan trajektori dan pembinaan semula. Khususnya, algoritma mula-mula memperkenalkan penyulingan konsistensi segmentasi trajektori untuk menguatkuasakan konsistensi dalam setiap segmen dan secara beransur-ansur mengurangkan bilangan segmen untuk mencapai konsistensi sepenuh masa. Strategi ini menyelesaikan masalah prestasi suboptimum model konsisten disebabkan oleh keupayaan pemasangan model yang tidak mencukupi dan pengumpulan ralat inferens. Selepas itu, algoritma menggunakan pembelajaran maklum balas manusia (RLHF) untuk menambah baik kesan penjanaan model bagi mengimbangi kehilangan kesan penjanaan model semasa proses pecutan dan menjadikannya lebih baik disesuaikan dengan penaakulan langkah rendah. Akhir sekali, algoritma menggunakan penyulingan pecahan untuk meningkatkan prestasi penjanaan satu langkah dan mencapai model resapan konsisten langkah sepenuh masa yang ideal melalui LORA bersatu, mencapai keputusan cemerlang dalam kesan penjanaan.

Kaedah

1

Penyulingan Konsisten (CD) [24] dan Model Trajektori Konsisten (CTM) [4] kedua-duanya bertujuan untuk menukar model resapan kepada model yang konsisten untuk keseluruhan julat langkah masa [0, T] melalui penyulingan satu pukulan. Walau bagaimanapun, model penyulingan ini selalunya gagal mencapai keoptimuman disebabkan oleh batasan dalam keupayaan pemasangan model. Diilhamkan oleh objektif konsistensi lembut yang diperkenalkan dalam CTM, kami memperhalusi proses latihan dengan membahagikan keseluruhan julat langkah masa [0, T] kepada segmen k dan melakukan penyulingan model yang konsisten sekeping demi selangkah.

Pada peringkat pertama, kami menetapkan k=8 dan menggunakan model penyebaran asal untuk memulakan Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka dan Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka. Langkah masa mula Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka diambil secara seragam secara rawak daripada Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka. Kemudian, kami mengambil contoh langkah masa akhir Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka, di mana Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka dikira seperti berikut:

Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka

Kehilangan latihan dikira seperti berikut:

Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka

Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka

di mana Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbukaPercepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbukadiwakili oleh persamaan 3 dan diwakili oleh persamaan

purata bergerak model pelajar (EMA).

Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbukaSeterusnya, kami memulihkan berat model dari peringkat sebelumnya dan meneruskan latihanPercepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka, secara beransur-ansur mengurangkan k kepada [4,2,1]. Perlu diingat bahawa k=1 sepadan dengan skema latihan CTM standard. Untuk metrik jarak d, kami menggunakan campuran kerugian adversarial dan kerugian ralat kuasa dua min (MSE). Dalam eksperimen, kami mendapati bahawa kerugian MSE lebih berkesan apabila nilai ramalan dan sasaran hampir (cth., untuk k=8, 4), manakala kerugian lawan meningkat apabila perbezaan antara nilai ramalan dan sasaran meningkat . menjadi lebih tepat (contohnya, untuk k=2, 1). Oleh itu, kami secara dinamik meningkatkan berat kehilangan lawan dan mengurangkan berat kehilangan MSE sepanjang fasa latihan. Selain itu, kami juga menyepadukan mekanisme gangguan bunyi untuk meningkatkan kestabilan latihan. Ambil proses Penyulingan Konsensus Segmen Trajektori (TSCD) dua peringkat sebagai contoh. Seperti yang ditunjukkan dalam rajah di bawah, kami melakukan penyulingan konsistensi bebas pada peringkat pertama dalam tempoh masa Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka dan

, dan kemudian melakukan penyulingan trajektori konsistensi global berdasarkan hasil penyulingan konsistensi dua tempoh sebelumnya.

Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka

Proses algoritma lengkap adalah seperti berikut:
Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka

2 Pembelajaran maklum balas manusia

Selain penyulingan, kami menggabungkan pembelajaran maklum balas untuk meningkatkan prestasi model resapan dipercepat. Khususnya, kami meningkatkan kualiti penjanaan model dipercepatkan dengan memanfaatkan maklum balas daripada keutamaan estetik manusia dan model persepsi visual sedia ada. Untuk maklum balas estetik, kami menggunakan peramal estetik LAION dan model ganjaran keutamaan estetik yang disediakan dalam ImageReward untuk membimbing model menjana lebih banyak imej estetik, seperti ditunjukkan di bawah:

Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka

🎜

di mana Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka ialah model ganjaran estetik, termasuk peramal estetik set data LAION dan model ImageReward, c ialah gesaan teks, Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka digunakan bersama-sama dengan fungsi ReLU sebagai kehilangan engsel. Selain maklum balas daripada keutamaan estetik, kami ambil perhatian bahawa model persepsi visual sedia ada yang membenamkan pengetahuan terdahulu yang kaya tentang imej juga boleh berfungsi sebagai penyedia maklum balas yang baik. Secara empirik, kami mendapati bahawa model pembahagian contoh boleh membimbing model untuk menjana objek yang berstruktur dengan baik. Khususnya, kami mula-mula meresap hingar pada imej Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka kepada Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka dalam ruang terpendam, selepas itu, serupa dengan ImageReward, kami melakukan denoising berulang sehingga langkah masa tertentu Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka dan meramalkan terus Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka. Selepas itu, kami memanfaatkan model segmentasi contoh persepsi untuk menilai prestasi penjanaan struktur dengan mengkaji perbezaan antara anotasi segmentasi tika untuk imej sebenar dan ramalan segmentasi tika untuk imej terdenois, seperti berikut:

Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka

di mana Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka ialah model segmentasi tika (cth. SOLO). Model pembahagian contoh boleh menangkap dengan lebih tepat kecacatan struktur imej yang dijana dan memberikan isyarat maklum balas yang lebih disasarkan. Perlu diingat bahawa sebagai tambahan kepada model segmentasi contoh, model persepsi lain juga boleh digunakan. Model persepsi ini boleh berfungsi sebagai maklum balas pelengkap kepada estetika subjektif, lebih memfokuskan pada kualiti generatif objektif. Oleh itu, model resapan kami yang dioptimumkan dengan isyarat maklum balas boleh ditakrifkan sebagai:

Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka

3 Peningkatan penjanaan satu langkah

Disebabkan oleh had yang wujud dalam kehilangan konsistensi, penjanaan satu langkah dalam rangka kerja model ketekalan. ideal. Seperti yang dianalisis dalam CM, model penyulingan konsensus menunjukkan ketepatan yang sangat baik dalam membimbing titik akhir trajektori Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka pada kedudukan Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka. Oleh itu, penyulingan pecahan adalah kaedah yang sesuai dan berkesan untuk meningkatkan lagi kesan penjanaan satu langkah model TSCD kami. Khususnya, kami memajukan penjanaan lanjut melalui teknik penyulingan padanan agihan (DMD) yang dioptimumkan. DMD meningkatkan output model dengan menggunakan dua fungsi pemarkahan berbeza: pengedaran Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka daripada model guru dan Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka daripada model palsu. Kami menggabungkan kerugian ralat kuasa dua (MSE) dengan penyulingan berasaskan skor untuk meningkatkan kestabilan latihan. Dalam proses ini, teknik pembelajaran maklum balas manusia yang disebutkan di atas juga disepadukan untuk memperhalusi model kami untuk menghasilkan imej dengan kesetiaan tinggi dengan berkesan.

Dengan menyepadukan strategi ini, kaedah kami bukan sahaja mencapai keputusan inferens langkah rendah yang sangat baik pada kedua-dua SD1.5 dan SDXL (dan tidak memerlukan Bimbingan Pengelas), tetapi juga mencapai model ketekalan global yang ideal tanpa memerlukan setiap nombor tertentu. daripada langkah digunakan untuk melatih UNet atau LoRA untuk mencapai model penaakulan langkah rendah bersatu.

Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka

Eksperimen

Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka

Perbandingan kuantitatif pelbagai algoritma pecutan sedia ada pada SD1.5 dan SDXL, dapat dilihat bahawa Hyper-SD jauh lebih baik daripada kaedah terkini

Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka

Selain itu, Hyper-SD boleh menggunakan satu model untuk mencapai pelbagai inferens langkah rendah Penunjuk kuantitatif di atas juga menunjukkan kesan kaedah kami apabila menggunakan model bersatu untuk inferens.

Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka

Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka

Visualisasi kesan pecutan pada SD1.5 dan SDXL secara intuitif menunjukkan keunggulan Hyper-SD dalam mempercepatkan inferens model resapan.

Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka

Sebilangan besar Kajian Pengguna juga menunjukkan keunggulan Hyper-SD berbanding pelbagai algoritma pecutan sedia ada.

Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka

LoRA dipercepatkan yang dilatih oleh Hyper-SD sangat serasi dengan pelbagai gaya model asas angka Vincent.

Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka

Pada masa yang sama, LoRA Hyper-SD juga boleh menyesuaikan diri dengan ControlNet sedia ada untuk mencapai penjanaan imej terkawal berkualiti tinggi pada bilangan langkah yang rendah.

Ringkasan

Makalah ini mencadangkan Hyper-SD, rangka kerja pecutan model resapan bersatu yang boleh meningkatkan dengan ketara keupayaan penjanaan model resapan dalam situasi langkah rendah dan mencapai prestasi SOTA baharu berdasarkan SDXL dan SD15. Kaedah ini menggunakan penyulingan konsistensi segmentasi trajektori untuk meningkatkan keupayaan pemeliharaan trajektori semasa proses penyulingan dan mencapai kesan penjanaan yang hampir dengan model asal. Kemudian, potensi model pada kiraan langkah yang sangat rendah dipertingkatkan dengan memanfaatkan lagi pembelajaran maklum balas manusia dan penyulingan pecahan variasi, menghasilkan penjanaan model yang lebih optimum dan cekap. Kertas kerja itu juga menggunakan sumber terbuka pemalam Lora untuk SDXL dan SD15 daripada inferens 1 hingga 8 langkah, serta model SDXL satu langkah yang berdedikasi, bertujuan untuk menggalakkan lagi pembangunan komuniti AI generatif.

Atas ialah kandungan terperinci Percepatkan model resapan, jana imej tahap SOTA dalam 1 langkah terpantas, Byte Hyper-SD ialah sumber terbuka. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:jiqizhixin.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam