Rumah >Peranti teknologi >AI >Byte mencadangkan model pensampelan semula imej tidak simetri, dengan prestasi anti-mampatan terkemuka SOTA pada JPEG dan WebP

Byte mencadangkan model pensampelan semula imej tidak simetri, dengan prestasi anti-mampatan terkemuka SOTA pada JPEG dan WebP

王林ke hadapan: 2023-05-02 09:55:121529semak imbas

Tugas Penskalaan Semula Imej (LR) bersama-sama mengoptimumkan operasi pensampelan turun dan naikkan imej Dengan mengurangkan dan memulihkan resolusi imej, ia boleh digunakan untuk menjimatkan ruang storan atau lebar jalur penghantaran. Dalam aplikasi praktikal, seperti pengedaran berbilang peringkat perkhidmatan atlas, imej resolusi rendah yang diperoleh melalui pensampelan rendah selalunya tertakluk kepada pemampatan lossy, dan pemampatan lossy selalunya membawa kepada penurunan ketara dalam prestasi algoritma sedia ada.

Baru-baru ini, ByteDance - Volcano Engine Multimedia Laboratory mencuba pengoptimuman prestasi pensampelan semula imej di bawah pemampatan lossy buat kali pertama, mereka bentuk rangka kerja Pensampelan Semula boleh balik asimetrik , berdasarkan dua pemerhatian di bawah rangka kerja ini, model pensampelan semula imej anti-mampatan SAIN selanjutnya dicadangkan. Kajian ini mengasingkan satu set modul rangkaian boleh balik kepada dua bahagian: pensampelan semula dan simulasi mampatan, menggunakan taburan Gaussian bercampur untuk memodelkan kehilangan maklumat bersama yang disebabkan oleh kemerosotan resolusi dan herotan mampatan, dan menggabungkannya dengan operator JPEG yang boleh dibezakan untuk hujung ke- menamatkan latihan , yang meningkatkan keteguhan kepada algoritma pemampatan biasa.

Pada masa ini untuk penyelidikan pensampelan semula imej, kaedah SOTA adalah berdasarkan Rangkaian Boleh Terbalik untuk membina fungsi bijektif (fungsi bijektif), dan operasi positifnya menukarkan resolusi tinggi (HR) Imej adalah ditukar kepada imej resolusi rendah (LR) dan satu siri pembolehubah tersembunyi yang mematuhi taburan normal piawai.

Disebabkan oleh ciri-ciri rangkaian boleh balik, pengendali pensampelan turun dan pensampelan naik mengekalkan tahap simetri yang tinggi, yang menyukarkan imej LR termampat untuk melepasi pengendali pensampelan yang telah dipelajari kepada memulihkan. Untuk meningkatkan keteguhan kepada mampatan lossy, kajian ini mencadangkan model pensampelan semula imej tahan mampatan SAIN (Self-Asimetri berdasarkan rangka kerja boleh balik asimetri Iterbalik Nkerja).

Inovasi teras model SAIN adalah seperti berikut:

Mencadangkan rangka kerja pensampelan semula imej boleh balik asimetri Ia menyelesaikan masalah kemerosotan prestasi disebabkan oleh simetri yang ketat dalam kaedah sebelumnya; mencadangkan modul boleh terbalik yang dipertingkatkan (E-InvBlock), yang meningkatkan keupayaan pemasangan model sambil berkongsi sejumlah besar parameter dan operasi, sambil memodelkan sebelum dan selepas pemampatan kedua-dua set imej LR membolehkan model melakukan pemulihan mampatan dan pensampelan melalui operasi songsang.
Bina taburan Gaussian bercampur yang boleh dipelajari, modelkan kehilangan maklumat bersama yang disebabkan oleh pengurangan resolusi dan pemampatan lossy, dan secara langsung mengoptimumkan parameter pengedaran melalui teknik penparameteran semula, yang lebih konsisten dengan pembolehubah tersembunyi taburan sebenar.

Model SAIN telah disahkan untuk prestasi di bawah pemampatan JPEG dan WebP, dan prestasinya pada berbilang set data awam adalah jauh mendahului model SOTA yang berkaitan telah dipilih untuk Lisan AAI 2023.

Byte mencadangkan model pensampelan semula imej tidak simetri, dengan prestasi anti-mampatan terkemuka SOTA pada JPEG dan WebP

Alamat kertas: https://arxiv.org/abs/2303.02353
Pautan kod: https://github.com/yang-jin-hai/SAIN

Pensampelan Semula Asimetri rangka kerja

Byte mencadangkan model pensampelan semula imej tidak simetri, dengan prestasi anti-mampatan terkemuka SOTA pada JPEG dan WebP

Rajah 1 Rajah model Dwi-IRN.

Untuk meningkatkan prestasi anti-mampatan, penyelidikan ini mula-mula mereka bentuk rangka kerja pensampelan semula imej boleh balik asimetri, mencadangkan skema garis dasar model Dual-IRN, dan dianalisis secara mendalam Selepas kekurangan skim ini, model SAIN telah dicadangkan untuk pengoptimuman selanjutnya. Seperti yang ditunjukkan dalam rajah di atas, model Dwi-IRN mengandungi dua cawangan, di mana D-IRN dan U-IRN ialah dua set rangkaian boleh balik yang mempelajari bijection antara imej HR dan imej LR pra-mampatan/pasca-mampatan. .

Semasa fasa latihan, model Dwi-IRN melepasi kecerunan antara dua cawangan melalui pengendali JPEG yang boleh dibezakan. Dalam fasa ujian, model menggunakan D-IRN untuk menurunkan sampel untuk mendapatkan imej LR berkualiti tinggi Selepas pemampatan sebenar dalam persekitaran sebenar, model kemudian menggunakan U-IRN dengan pemampatan sedar untuk melengkapkan pemulihan mampatan dan peningkatan.

Rangka kerja asimetri sedemikian membolehkan operator pensampelan naik dan turun untuk mengelakkan perhubungan boleh balik yang ketat Selesaikan punca algoritma pemampatan yang memusnahkan simetri proses pensampelan naik dan turun 🎜> ialah berbanding dengan penyelesaian simetri SOTA, prestasi anti-mampatan bertambah baik.

Selepas itu, penyelidik menjalankan analisis lanjut ke atas model Dwi-IRN dan memerhatikan dua fenomena berikut:

Pertama , ukur persamaan CKA ciri lapisan tengah bagi dua cabang D-IRN dan U-IRN. Seperti yang ditunjukkan dalam (b) di atas, ciri output lapisan terakhir D-IRN (iaitu, imej LR berkualiti tinggi yang dijana oleh rangkaian) sangat serupa dengan ciri output lapisan cetek U-IRN, menunjukkan tingkah laku cetek U-IRN lebih dekat dengan simulasi kehilangan pensampelan, manakala tingkah laku dalam lebih dekat dengan simulasi kehilangan mampatan.
Kedua, kira taburan sebenar pembolehubah tersembunyi di lapisan tengah dua cawangan D-IRN dan U-IRN. Seperti yang ditunjukkan dalam (c) (d) di atas, pembolehubah pendam D-IRN tanpa penderiaan termampat memenuhi andaian taburan normal unimodal secara keseluruhan, manakala pembolehubah terpendam U-IRN dengan penderiaan termampat menunjukkan bentuk berbilang modal. menunjukkan bahawa bentuk kehilangan maklumat yang disebabkan oleh pemampatan lossy adalah lebih kompleks.

Berdasarkan analisis di atas, penyelidik mengoptimumkan model dari banyak aspek Model SAIN yang terhasil bukan sahaja mengurangkan bilangan parameter rangkaian sebanyak hampir separuh, tetapi juga mencapai lebih jauh penambahbaikan.

Butiran model SAIN

Byte mencadangkan model pensampelan semula imej tidak simetri, dengan prestasi anti-mampatan terkemuka SOTA pada JPEG dan WebP

Rajah 2 rajah model SAIN.

Seni bina model SAIN ditunjukkan dalam rajah di atas, dan empat penambahbaikan utama berikut telah dibuat:

1. Rangka kerja keseluruhan . Berdasarkan persamaan ciri lapisan tengah, satu set modul rangkaian boleh balik dipisahkan kepada dua bahagian: pensampelan semula dan simulasi mampatan, membentuk seni bina asimetri diri untuk mengelak daripada menggunakan dua set lengkap rangkaian boleh balik. Dalam fasa ujian, gunakan transformasi ke hadapan

Byte mencadangkan model pensampelan semula imej tidak simetri, dengan prestasi anti-mampatan terkemuka SOTA pada JPEG dan WebP

untuk mendapatkan imej LR berkualiti tinggi, mula-mula gunakan transformasi songsang

Byte mencadangkan model pensampelan semula imej tidak simetri, dengan prestasi anti-mampatan terkemuka SOTA pada JPEG dan WebP

lakukan pemulihan mampatan, dan kemudian gunakan transformasi songsang

Byte mencadangkan model pensampelan semula imej tidak simetri, dengan prestasi anti-mampatan terkemuka SOTA pada JPEG dan WebP

untuk pensampelan semula.

Struktur rangkaian . E-InvBlock dicadangkan berdasarkan andaian bahawa kehilangan mampatan boleh dipulihkan dengan bantuan maklumat frekuensi tinggi Satu transformasi tambahan ditambahkan pada modul, supaya dua set imej LR sebelum dan selepas pemampatan boleh dimodelkan dengan cekap semasa berkongsi. sejumlah besar operasi.

3. Berdasarkan taburan sebenar pembolehubah terpendam, adalah dicadangkan untuk menggunakan taburan Gaussian campuran yang boleh dipelajari untuk memodelkan kehilangan maklumat bersama yang disebabkan oleh pensampelan rendah dan mampatan lossy, dan mengoptimumkan parameter taburan hujung ke hujung melalui teknik penparameteran semula.

4. Fungsi kehilangan berbilang direka untuk mengekang kebolehbalikan rangkaian dan meningkatkan ketepatan pembinaan semula Pada masa yang sama, operasi mampatan sebenar diperkenalkan ke dalam fungsi kehilangan untuk meningkatkan keteguhan kepada skim mampatan sebenar. Evaluasi Eksperimen dan Kesan

Set data penilaian ialah set pengesahan DIV2K dan empat set ujian standard Set5, Set14, BSD100 dan Urban100.

Penunjuk penilaian kuantitatif ialah:

PSNR: Nisbah Isyarat-ke-Bunyi Puncak, nisbah isyarat-ke-bunyi puncak, mencerminkan ralat kuasa dua min antara imej yang dibina semula dan imej asal, lebih tinggi lebih baik; 🎜>

Dalam eksperimen perbandingan dalam Jadual 1 dan Rajah 3, skor PSNR dan SSIM SAIN pada semua set data adalah jauh mendahului model pensampelan semula imej SOTA. Pada QF yang agak rendah, kaedah sedia ada biasanya mengalami kemerosotan prestasi yang teruk, manakala model

SAIN masih mengekalkan prestasi optimum.

Byte mencadangkan model pensampelan semula imej tidak simetri, dengan prestasi anti-mampatan terkemuka SOTA pada JPEG dan WebP

Jadual 1 Percubaan perbandingan, membandingkan kualiti mampatan JPEG (QF) berbeza pada set data DIV2K Kualiti pembinaan semula (PSNR/SSIM).

Byte mencadangkan model pensampelan semula imej tidak simetri, dengan prestasi anti-mampatan terkemuka SOTA pada JPEG dan WebP

Rajah 3 Percubaan perbandingan, membandingkan JPEG QF berbeza pada empat set ujian standard kualiti pembinaan semula ( PSNR).

Dalam hasil visualisasi dalam Rajah 4, dapat dilihat dengan jelas bahawa imej HR yang dipulihkan oleh SAIN adalah

lebih jelas dan tepat .

Byte mencadangkan model pensampelan semula imej tidak simetri, dengan prestasi anti-mampatan terkemuka SOTA pada JPEG dan WebP

Rajah 4 Perbandingan hasil visualisasi kaedah berbeza di bawah pemampatan JPEG (pembesaran ×4).

Dalam eksperimen ablasi dalam Jadual 2, penyelidik juga membandingkan beberapa calon lain untuk latihan digabungkan dengan pemampatan sebenar. Calon ini lebih tahan terhadap mampatan daripada model sedia ada simetri sepenuhnya (IRN), tetapi masih lebih rendah daripada model SAIN dari segi bilangan parameter dan ketepatan.

Byte mencadangkan model pensampelan semula imej tidak simetri, dengan prestasi anti-mampatan terkemuka SOTA pada JPEG dan WebP

Jadual 2 Eksperimen ablasi untuk keseluruhan rangka kerja dan strategi latihan.

Dalam hasil visualisasi dalam Rajah 5, penyelidik membandingkan hasil pembinaan semula model pensampelan semula imej yang berbeza di bawah herotan mampatan WebP. Ia boleh didapati bahawa model SAIN juga menunjukkan skor pembinaan semula tertinggi di bawah skema pemampatan WebP dan boleh memulihkan butiran imej dengan jelas dan tepat, membuktikan keserasian

SAIN dengan skema pemampatan yang berbeza.

Byte mencadangkan model pensampelan semula imej tidak simetri, dengan prestasi anti-mampatan terkemuka SOTA pada JPEG dan WebP

Rajah 5 Perbandingan kualitatif dan kuantitatif kaedah berbeza di bawah pemampatan WebP (pembesaran ×2).

Selain itu, kajian itu juga menjalankan eksperimen ablasi ke atas taburan Gaussian bercampur, E-InvBlock dan fungsi kehilangan, membuktikan bahawa penambahbaikan ini memberi impak positif kepada keputusan .

Ringkasan dan Tinjauan

Makmal Multimedia Enjin Gunung Berapi mencadangkan model berdasarkan rangka kerja boleh balik asimetri untuk pensampelan semula imej anti-mampatan: SAIN. Model ini terdiri daripada dua bahagian: pensampelan semula dan simulasi mampatan Ia menggunakan taburan Gaussian campuran untuk memodelkan kehilangan maklumat bersama yang disebabkan oleh pengurangan resolusi dan herotan mampatan Ia digabungkan dengan pengendali JPEG yang boleh dibezakan untuk latihan hujung ke hujung -InvBlock dicadangkan untuk mempertingkatkan model Keupayaan pemasangan sangat meningkatkan keteguhan kepada algoritma pemampatan biasa.

Makmal Multimedia Enjin Gunung Berapi ialah pasukan penyelidikan di bawah ByteDance Ia komited untuk meneroka teknologi termaju dalam bidang multimedia dan mengambil bahagian dalam kerja penyeragaman antarabangsa Banyak algoritma inovatif serta penyelesaian perisian dan perkakasannya telah meluas digunakan dalam Douyin, Douyin, dsb. Perniagaan multimedia untuk produk seperti Xigua Video, dan menyediakan perkhidmatan teknikal kepada pelanggan peringkat perusahaan Volcano Engine. Sejak penubuhan makmal, banyak kertas kerja telah dipilih ke dalam persidangan antarabangsa terkemuka dan jurnal perdana, dan telah memenangi beberapa kejohanan pertandingan teknikal antarabangsa, anugerah inovasi industri dan anugerah kertas terbaik.

Pada masa hadapan, pasukan penyelidik akan terus mengoptimumkan prestasi model pensampelan semula imej di bawah pemampatan lossy, dan seterusnya meneroka senario aplikasi yang lebih kompleks seperti pensampelan semula video anti-mampatan dan sewenang-wenangnya persampelan semula pembesaran.

Atas ialah kandungan terperinci Byte mencadangkan model pensampelan semula imej tidak simetri, dengan prestasi anti-mampatan terkemuka SOTA pada JPEG dan WebP. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

架构 signal function github 算法 https 性能优化

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Mengapakah sesetengah pembuat kereta utama memikirkan semula pelaburan pemanduan autonomi mereka?Artikel seterusnya：Mengapakah sesetengah pembuat kereta utama memikirkan semula pelaburan pemanduan autonomi mereka?

Artikel berkaitan

Lihat lagi