Rumah >Peranti teknologi >AI >Pasukan He Kaiming dan Xie Saining berjaya mengikuti penerokaan model penyebaran dekonstruksi dan akhirnya mencipta pengekod auto denoising yang sangat dipuji.

Pasukan He Kaiming dan Xie Saining berjaya mengikuti penerokaan model penyebaran dekonstruksi dan akhirnya mencipta pengekod auto denoising yang sangat dipuji.

PHPzke hadapan: 2024-01-29 14:15:051297semak imbas

Denoising Diffusion Model (DDM) ialah kaedah yang kini digunakan secara meluas dalam penjanaan imej. Baru-baru ini, pasukan empat orang Xinlei Chen, Zhuang Liu, Xie Saining dan He Kaiming menjalankan kajian dekonstruksi ke atas DDM. Dengan melucutkan komponennya secara beransur-ansur, mereka mendapati bahawa keupayaan penjanaan DDM secara beransur-ansur menurun, tetapi keupayaan pembelajaran perwakilan masih mengekalkan tahap tertentu. Ini menunjukkan bahawa beberapa komponen dalam DDM mungkin tidak penting untuk pembelajaran perwakilan.

Untuk model generatif semasa dalam bidang seperti penglihatan komputer, denoising dianggap sebagai kaedah teras. Kaedah jenis ini sering dipanggil model resapan denoising (DDM) Dengan mempelajari pengekod auto denoising (DAE), ia boleh menghapuskan pelbagai tahap hingar dengan berkesan melalui proses resapan.

Kaedah ini mencapai kualiti penjanaan imej yang sangat baik dan amat sesuai untuk menghasilkan imej sebenar simulasi beresolusi tinggi seperti foto. Prestasi model generatif ini sangat baik sehingga hampir boleh dianggap mempunyai keupayaan pengecaman yang kuat dan keupayaan untuk memahami kandungan visual yang dihasilkan.

Walaupun DAE ialah teras kepada model generatif semasa, kertas terawal "Mengekstrak dan mengarang ciri teguh dengan pengekod automatik yang tidak dikenali" adalah untuk mempelajari perwakilan data melalui kaedah yang diselia. Kertas kerja ini mencadangkan kaedah yang mampu mengekstrak dan menggabungkan ciri-ciri teguh. Ia bertujuan untuk meningkatkan prestasi tugasan pembelajaran yang diselia dengan mempelajari perwakilan berguna data input melalui penyahkod pengekodan automatik. Kejayaan penerapan pendekatan ini menunjukkan kepentingan DAE dalam model generatif.

Dalam komuniti pembelajaran perwakilan semasa, varian berdasarkan "bunyi topeng" dianggap sebagai DAE yang paling berjaya, seperti meramalkan teks yang hilang dalam bahasa (seperti BERT) atau jubin yang hilang dalam imej.

Walaupun varian berasaskan topeng secara eksplisit menyatakan perkara yang tidak diketahui dan apa yang diketahui, ia berbeza dengan ketara daripada tugas mengeluarkan bunyi tambahan. Dalam tugas mengasingkan bunyi aditif, tiada maklumat eksplisit tersedia untuk membimbing pemprosesan. Walau bagaimanapun, DDM semasa untuk tugasan generatif adalah berdasarkan bunyi tambahan, yang bermaksud bahawa kandungan yang tidak diketahui dan diketahui mungkin tidak dilabelkan secara eksplisit semasa mempelajari perwakilan. Oleh itu, perbezaan ini mungkin menyebabkan varian berasaskan topeng mempamerkan kesan berbeza dalam memproses bunyi aditif.

Baru-baru ini, terdapat peningkatan penyelidikan tentang keupayaan pembelajaran perwakilan DDM (Deep Denoising Model). Kajian ini secara langsung mengguna pakai model DDM terlatih (asalnya digunakan untuk tugas penjanaan) dan menilai kualiti perwakilan mereka dalam tugas pengiktirafan. Aplikasi model berorientasikan generatif ini telah membawa kepada hasil yang menarik.

Walau bagaimanapun, kajian perintis ini turut mendedahkan beberapa isu yang tidak dapat diselesaikan: model sedia ada ini direka untuk tugas penjanaan, bukan tugas pengiktirafan, jadi kami tidak dapat menentukan sama ada keupayaan perwakilan mereka didorong oleh denoising atau penyebaran Diperolehi daripada proses pemanduan.

Kajian oleh Xinlei Chen et al ini mengambil langkah besar dalam arah penyelidikan ini. . DDM yang dihasilkan sebaliknya melatih model berorientasikan pengecaman. Idea teras penyelidikan ini adalah untuk menyahbina DDM dan mengubah suainya langkah demi langkah sehingga ia bertukar menjadi DAE klasik.

Melalui proses penyelidikan dekonstruktif ini, mereka meneroka dengan teliti setiap aspek DDM moden dari segi matlamat perwakilan pembelajaran. Proses penyelidikan membawa komuniti AI pemahaman baharu tentang komponen utama yang diperlukan oleh DAE untuk mempelajari perwakilan yang baik. Pasukan He Kaiming dan Xie Saining berjaya mengikuti penerokaan model penyebaran dekonstruksi dan akhirnya mencipta pengekod auto denoising yang sangat dipuji.

Anehnya, mereka mendapati komponen utama utama ialah tokenizer, yang berfungsi untuk mencipta ruang terpendam berdimensi rendah. Menariknya, pemerhatian ini sebahagian besarnya bebas daripada tokenizer khusus - mereka meneroka VAE standard, VAE peringkat jubin, AE peringkat jubin, pengekod PCA peringkat jubin. Mereka mendapati bahawa perkara yang menjadikan DAE diwakili dengan baik ialah ruang terpendam berdimensi rendah, bukan tokenizer khusus.

Terima kasih kepada keberkesanan PCA, pasukan menyahbina keseluruhannya dan akhirnya mendapat seni bina ringkas yang sangat serupa dengan DAE klasik (lihat Rajah 1).
Mereka menggunakan PCA peringkat jubin untuk menayangkan imej ke dalam ruang terpendam, menambah hingar dan menayangkannya semula melalui PCA songsang. Pengekod auto kemudian dilatih untuk meramalkan imej yang dinyahnosekan.

Proses dekonstruksi pasukan juga mendedahkan banyak lagi sifat menarik antara DDM dan DAE klasik.

Sebagai contoh, mereka mendapati keputusan yang baik boleh dicapai dengan l-DAE walaupun dengan tahap hingar tunggal (iaitu penjadualan hingar tanpa DDM). Menggunakan hingar berbilang peringkat bertindak seperti beberapa bentuk penambahan data, yang boleh memberi manfaat, tetapi bukan faktor penyumbang.

Berdasarkan pemerhatian ini, pasukan percaya bahawa keupayaan pencirian DDM diperoleh terutamanya melalui proses yang didorong oleh denoising dan bukannya proses yang didorong oleh penyebaran.

Akhirnya, pasukan juga membandingkan keputusannya dengan penanda aras sebelumnya. Di satu pihak, keputusan baharu adalah lebih baik daripada kaedah yang tersedia sebelum ini: ini dijangka, kerana model tersebut merupakan titik permulaan untuk proses dekonstruksi. Sebaliknya, hasil seni bina baharu tidak sebaik kaedah pembelajaran kontrastif asas dan kaedah berasaskan topeng, tetapi jurang itu dikurangkan sedikit. Ini juga menunjukkan bahawa terdapat ruang untuk penyelidikan lanjut dalam hala tuju penyelidikan DAE dan DDM.

Latar Belakang: Model Denoising Diffusion

Titik permulaan untuk kajian dekonstruktif ini ialah Model Denoising Diffusion (DDM).

Pasukan He Kaiming dan Xie Saining berjaya mengikuti penerokaan model penyebaran dekonstruksi dan akhirnya mencipta pengekod auto denoising yang sangat dipuji.

Bagi DDM, sila rujuk kertas kerja "Model resapan mengalahkan GAN pada sintesis imej" dan "Model Resapan Boleh Skala dengan Transformer" serta laporan berkaitan di laman web ini "U-Net, yang mendominasi model resapan, akan digantikan, Xie Saining et al. Memperkenalkan Transformer dan mencadangkan DiT》.

Menyahbina model resapan denoising

Apa yang kami fokuskan di sini ialah proses penyahbinaannya - proses ini dibahagikan kepada tiga peringkat. Yang pertama ialah menukar tetapan tertumpu penjanaan dalam DiT kepada satu lagi yang menjurus kepada pembelajaran penyeliaan kendiri. Seterusnya, mari kita dekonstruk secara beransur-ansur dan permudahkan tokenizer. Akhirnya, mereka cuba membuat kejuruteraan terbalik sebanyak mungkin reka bentuk dipacu DDM untuk membawa model lebih dekat kepada DAE klasik.

Mengubah hala DDM kepada pembelajaran seliaan sendiri

Walaupun dari segi konsep, DDM ialah satu bentuk DAE, ia pada asalnya dibangunkan untuk tugas penjanaan imej. Banyak reka bentuk dalam DDM ditujukan kepada tugas generatif. Sesetengah reka bentuk tidak sesuai untuk pembelajaran penyeliaan sendiri (cth. melibatkan label kategori yang lain tidak diperlukan apabila kualiti visual tidak dipertimbangkan).

Dalam bahagian ini, pasukan akan menyesuaikan tujuan DDM kepada pembelajaran penyeliaan kendiri. Jadual 1 menunjukkan perkembangan fasa ini.

Pasukan He Kaiming dan Xie Saining berjaya mengikuti penerokaan model penyebaran dekonstruksi dan akhirnya mencipta pengekod auto denoising yang sangat dipuji.

Alih keluar pelaziman kategori

Langkah pertama ialah mengalih keluar proses pelaziman kategori dalam model garis dasar.

Tanpa diduga, mengalih keluar pelaziman kategori meningkatkan ketepatan probe linear dengan ketara (daripada 57.5% kepada 62.1%), tetapi kualiti penjanaan menurun dengan ketara seperti yang dijangkakan (FID daripada 11.6 kepada 34.2).

Pasukan membuat hipotesis bahawa mengkondisikan model secara langsung pada label kategori mungkin mengurangkan keperluan model untuk mengekod maklumat tentang label kategori. Mengalih keluar pelaziman kategori akan memaksa model mempelajari lebih banyak semantik

Menyahbina VQGAN

DiT Proses latihan tokenizer VQGAN yang diwarisi daripada LDM menggunakan berbilang istilah kerugian: kehilangan pembinaan semula pengekodan automatik, KL divergence Kehilangan penyelarasan, kehilangan persepsi berdasarkan VGG yang diawasi rangkaian yang dilatih untuk klasifikasi ImageNet, kehilangan lawan menggunakan diskriminator. Pasukan itu menjalankan kajian ablasi mengenai dua kerugian terakhir, lihat Jadual 1.

Sudah tentu, mengalih keluar kedua-dua kerugian akan menjejaskan kualiti penjanaan, tetapi dalam indeks ketepatan pengesanan linear, mengalih keluar kerugian persepsi akan menurunkannya daripada 62.5% kepada 58.4%, manakala mengalih keluar kerugian lawan akan menjadikannya meningkat daripada 58.4% kepada 59.0%. Selepas mengalih keluar kerugian lawan, tokenizer pada asasnya ialah VAE.

Menggantikan Penjadualan Bunyi

Pasukan mempelajari skim penjadualan hingar yang lebih mudah untuk menyokong pembelajaran diselia sendiri.

Pasukan He Kaiming dan Xie Saining berjaya mengikuti penerokaan model penyebaran dekonstruksi dan akhirnya mencipta pengekod auto denoising yang sangat dipuji.

Secara khusus, biarkan faktor penskalaan isyarat γ^2_t melemahkan secara linear dalam julat 1>γ^2_t≥0. Ini membolehkan model meletakkan lebih kuasa ke dalam imej yang lebih tajam. Ini dengan ketara meningkatkan ketepatan pengesanan linear daripada 59.0% kepada 63.4%.

Menyahbina tokenizer

Seterusnya, kami menyahbina tokenizer VAE melalui banyak penyederhanaan. Mereka membandingkan empat varian pengekod auto sebagai tokenizer, yang setiap satunya adalah versi ringkas daripada versi sebelumnya:

Va Konvolusi: Ini adalah hasil daripada langkah penyahkonstruksian sebelumnya; rangkaian neural convolutional dalam.
VAE peringkat jubin: Tukar input kepada jubin.
AE peringkat jubin: Istilah penyelarasan VAE dialih keluar, menjadikan VAE pada asasnya menjadi AE, dan pengekod dan penyahkodnya ialah unjuran linear.
PCA peringkat jubin: Varian lebih ringkas yang melakukan Analisis Komponen Utama (PCA) pada ruang jubin. Adalah mudah untuk menunjukkan bahawa PCA adalah bersamaan dengan kes khas AE.

Oleh kerana bekerja dengan jubin adalah mudah, pasukan memvisualisasikan penapis tiga tokenizer peringkat jubin dalam ruang jubin, lihat Rajah 4.

Pasukan He Kaiming dan Xie Saining berjaya mengikuti penerokaan model penyebaran dekonstruksi dan akhirnya mencipta pengekod auto denoising yang sangat dipuji.

Jadual 2 meringkaskan ketepatan pengesanan linear DiT apabila menggunakan empat varian tokenizer ini.

Pasukan He Kaiming dan Xie Saining berjaya mengikuti penerokaan model penyebaran dekonstruksi dan akhirnya mencipta pengekod auto denoising yang sangat dipuji.

Mereka memerhatikan keputusan berikut:

Untuk DDM melaksanakan pembelajaran penyeliaan kendiri dengan baik, dimensi tersirat tokenizer adalah penting.
Untuk pembelajaran penyeliaan kendiri, resolusi tinggi, DDM berasaskan piksel berprestasi lemah (lihat Rajah 5.

Menjadi pengekod auto denoising klasik

Matlamat seterusnya untuk penyahbinaan sedekat mungkin dengan DAE klasik iaitu untuk mengalih keluar semua aspek yang menjadikan DDM berasaskan PCA semasa berbeza daripada DAE klasik. DAE meramalkan data yang jelas sasaran ramalan mempengaruhi kualiti perwakilan

Alih keluar penskalaan input Pasukan He Kaiming dan Xie Saining berjaya mengikuti penerokaan model penyebaran dekonstruksi dan akhirnya mencipta pengekod auto denoising yang sangat dipuji.

Dalam DDM moden, input mempunyai faktor penskalaan γ_t, tetapi ini tidak selalunya dilakukan dalam DAE klasik

Dengan menetapkan γ_t ≡ 1, pasukan ditemui bahawa ia mencapai ketepatan 63.6% (lihat Jadual 3), yang lebih baik daripada model dengan pembolehubah γ_t (62.4%) Ini menunjukkan bahawa dalam senario semasa, ketepatan input adalah lebih baik

Gunakan PCA songsang untuk beroperasi pada ruang imej

Setakat ini untuk semua entri yang diterokai sebelum ini (kecuali Rajah 5), model telah dijalankan dalam ruang tersirat yang dijana oleh tokenizer (Rajah 2(b)). seperti DAE untuk beroperasi secara langsung pada ruang imej sementara masih mencapai ketepatan kedudukan yang sangat baik Pasukan mendapati bahawa sejak PCA digunakan, ini boleh dicapai menggunakan PCA songsang Lihat Rajah 1.

Dengan membuat pengubahsuaian ini pada bahagian input (masih meramalkan output pada ruang tersirat), kita boleh mendapat ketepatan 63.6% (Jadual 3) dan jika kita terus menggunakannya pada bahagian output (iaitu Meramalkan output pada ruang imej menggunakan PCA songsang menghasilkan ketepatan 63.9%. Kedua-dua keputusan menunjukkan bahawa keputusan yang diperoleh dengan mengendalikan ruang imej menggunakan PCA songsang adalah serupa dengan yang diramalkan pada ruang terpendam Imej asal

Walaupun PCA songsang boleh mendapatkan sasaran yang diramalkan dalam ruang imej, sasarannya bukanlah imej asal kerana PCA ialah pengekod lossy untuk mana-mana dimensi yang dikurangkan d. Penyelesaian yang lebih semula jadi adalah dengan meramalkan imej asal secara langsung

Apabila membiarkan rangkaian meramalkan imej asal, "bunyi" yang diperkenalkan terdiri daripada dua bahagian: bunyi Gaussian aditif (nya. dimensi intrinsik ialah d) dan ralat pembinaan semula PCA (dimensi intrinsiknya ialah d − d (D ialah 768). ketepatan pengesanan linear sebanyak 64.5%. Isipadunya secara konsep sangat mudah: inputnya ialah imej yang bising, di mana bunyi itu ditambahkan pada ruang tersirat PCA, dan ramalannya ialah imej bersih asal (Rajah 1).

Paras Bunyi Tunggal

Akhirnya, didorong oleh rasa ingin tahu, pasukan itu juga mengusahakan varian dengan tahap hingar tunggal. Mereka menegaskan bahawa hingar berbilang peringkat yang dicapai melalui penjadualan hingar adalah sifat proses resapan DDM. DAE klasik secara konsep tidak semestinya memerlukan pelbagai tahap hingar.

Mereka menetapkan aras hingar σ kepada pemalar √(1/3). Menggunakan hingar satu peringkat ini, ketepatan model adalah 61.5% yang dihormati, iaitu hanya tiga peratusan peningkatan mata berbanding 64.5% yang dicapai dengan hingar berbilang peringkat.

Menggunakan hingar berbilang peringkat adalah serupa dengan bentuk penambahan data dalam DAE: ia berfaedah, tetapi bukan pemboleh. Ini juga bermakna bahawa kuasa perwakilan DDM datang terutamanya daripada proses yang didorong oleh denoising dan bukannya daripada proses yang didorong oleh resapan.

Ringkasan

Ringkasnya, pasukan menyahbina DDM moden dan menukarnya menjadi DAE klasik.

Mereka mengalih keluar banyak reka bentuk moden dan secara konsep mengekalkan hanya dua reka bentuk yang diwarisi daripada DDM moden: ruang tersirat dimensi rendah (di sinilah bunyi ditambah) dan hingar berbilang peringkat.

Mereka menggunakan item terakhir dalam Jadual 3 sebagai contoh DAE akhir (ditunjukkan dalam Rajah 1). Mereka memanggil kaedah ini latent Denoising Autoencoder (latent denoising autoencoder), disingkatkan sebagai l-DAE.

Analisis dan Perbandingan

Memvisualisasikan Bunyi Tersirat

Secara konsep, l-DAE ialah satu bentuk DAE yang belajar untuk membuang bunyi yang ditambahkan pada ruang tersirat. Kerana PCA adalah mudah, bunyi yang tersirat dalam PCA songsang boleh digambarkan dengan mudah.

Rajah 7 membandingkan bunyi yang ditambahkan pada piksel dan bunyi yang ditambahkan pada ruang terpendam. Tidak seperti hingar piksel, hingar tersirat sebahagian besarnya tidak bergantung pada resolusi imej. Jika PCA peringkat jubin digunakan sebagai tokenizer, corak bunyi tersirat ditentukan terutamanya oleh saiz jubin.

Pasukan He Kaiming dan Xie Saining berjaya mengikuti penerokaan model penyebaran dekonstruksi dan akhirnya mencipta pengekod auto denoising yang sangat dipuji.

Keputusan penolakan

Rajah 8 menunjukkan lebih banyak contoh keputusan penolakan berdasarkan l-DAE. Ia boleh dilihat bahawa kaedah baru boleh mendapatkan hasil ramalan yang lebih baik, walaupun bunyinya kuat.

Pasukan He Kaiming dan Xie Saining berjaya mengikuti penerokaan model penyebaran dekonstruksi dan akhirnya mencipta pengekod auto denoising yang sangat dipuji.

Pembesaran Data

Perlu diambil perhatian bahawa tiada satu pun model yang dibentangkan di sini menggunakan penambahan data: hanya pemangkasan kawasan tengah imej digunakan, tiada saiz semula rawak atau penyangkalan warna. Pasukan melakukan penyelidikan lanjut dan diuji menggunakan penambahan data ringan untuk l-DAE akhir:

Pasukan He Kaiming dan Xie Saining berjaya mengikuti penerokaan model penyebaran dekonstruksi dan akhirnya mencipta pengekod auto denoising yang sangat dipuji.

Keputusannya bertambah baik sedikit. Ini menunjukkan bahawa keupayaan pembelajaran perwakilan l-DAE sebahagian besarnya bebas daripada penambahan data. Tingkah laku yang sama telah diperhatikan dalam MAE, lihat kertas kerja He Kaiming et al. "Pengekod auto bertopeng ialah pelajar penglihatan boleh skala", yang agak berbeza daripada kaedah pembelajaran kontrastif.

Zaman latihan

Semua eksperimen terdahulu adalah berdasarkan latihan selama 400 zaman. Mengikut reka bentuk MAE, pasukan itu juga mengkaji latihan 800 dan 1600 zaman:

Pasukan He Kaiming dan Xie Saining berjaya mengikuti penerokaan model penyebaran dekonstruksi dan akhirnya mencipta pengekod auto denoising yang sangat dipuji.

Sebaliknya, apabila nombor zaman meningkat daripada 400 kepada 800, MAE mendapat keuntungan yang ketara (4%); Hampir tiada keuntungan (0.2%) apabila bilangan zaman meningkat daripada 300 kepada 600.

Saiz model

Semua model terdahulu adalah berdasarkan varian DiT-L, dan pengekod dan penyahkodnya ialah ViT-1/2L (separuh kedalaman ViT-L). Pasukan ini terus melatih model pelbagai saiz dengan pengekod ialah ViT-B atau ViT-L (penyahkod sentiasa sama saiz dengan pengekod):

Pasukan He Kaiming dan Xie Saining berjaya mengikuti penerokaan model penyebaran dekonstruksi dan akhirnya mencipta pengekod auto denoising yang sangat dipuji.

Anda boleh lihat: Apabila saiz model berubah daripada ViT-B Apabila diperbesarkan kepada ViT-L, keuntungan besar sebanyak 10.6% boleh diperolehi.

Bandingkan model asas sebelumnya

Akhir sekali, untuk lebih memahami kesan pelbagai jenis kaedah pembelajaran penyeliaan kendiri, pasukan menjalankan perbandingan, dan hasilnya ditunjukkan dalam Jadual 4.

Pasukan He Kaiming dan Xie Saining berjaya mengikuti penerokaan model penyebaran dekonstruksi dan akhirnya mencipta pengekod auto denoising yang sangat dipuji.

Menariknya, l-DAE menunjukkan prestasi yang agak baik berbanding MAE, dengan hanya penurunan 1.4% (ViT-B) atau 0.8% (ViT-L). Sebaliknya, pasukan itu juga menyatakan bahawa MAE lebih cekap dalam latihan kerana ia hanya memproses jubin yang tidak bertopeng. Walau bagaimanapun, jurang ketepatan antara kaedah dipacu MAE dan DAE telah dikurangkan ke tahap yang besar.

Akhirnya, mereka juga mendapati bahawa kaedah berasaskan autoenkoder (MAE dan l-DAE) masih mempunyai kekurangan berbanding kaedah pembelajaran kontrastif di bawah protokol ini, terutamanya apabila modelnya kecil. Mereka akhirnya berkata: "Kami berharap penyelidikan kami dapat menarik lebih banyak perhatian kepada penyelidikan pembelajaran penyeliaan sendiri menggunakan kaedah berasaskan autoenkoder."

Atas ialah kandungan terperinci Pasukan He Kaiming dan Xie Saining berjaya mengikuti penerokaan model penyebaran dekonstruksi dan akhirnya mencipta pengekod auto denoising yang sangat dipuji.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

架构常量 for Token 继承 transformer bert https

Kenyataan：

Artikel ini dikembalikan pada:jiqizhixin.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Syarikat pemasaran pautan penuh AI "Altron Lightyear" menyelesaikan pembiayaan Siri A+ sebanyak AS$15 juta, dengan Meitu dan Cathay mengetuai pelaburan bersamaArtikel seterusnya：Syarikat pemasaran pautan penuh AI "Altron Lightyear" menyelesaikan pembiayaan Siri A+ sebanyak AS$15 juta, dengan Meitu dan Cathay mengetuai pelaburan bersama

Artikel berkaitan

Lihat lagi