Rumah >Peranti teknologi >AI >Byte mencadangkan model pensampelan semula imej tidak simetri, dengan prestasi anti-mampatan terkemuka SOTA pada JPEG dan WebP
Tugas Penskalaan Semula Imej (LR) bersama-sama mengoptimumkan operasi pensampelan turun dan naikkan imej Dengan mengurangkan dan memulihkan resolusi imej, ia boleh digunakan untuk menjimatkan ruang storan atau lebar jalur penghantaran. Dalam aplikasi praktikal, seperti pengedaran berbilang peringkat perkhidmatan atlas, imej resolusi rendah yang diperoleh melalui pensampelan rendah selalunya tertakluk kepada pemampatan lossy, dan pemampatan lossy selalunya membawa kepada penurunan ketara dalam prestasi algoritma sedia ada.
Baru-baru ini, ByteDance - Volcano Engine Multimedia Laboratory mencuba pengoptimuman prestasi pensampelan semula imej di bawah pemampatan lossy buat kali pertama, mereka bentuk rangka kerja Pensampelan Semula boleh balik asimetrik , berdasarkan dua pemerhatian di bawah rangka kerja ini, model pensampelan semula imej anti-mampatan SAIN selanjutnya dicadangkan. Kajian ini mengasingkan satu set modul rangkaian boleh balik kepada dua bahagian: pensampelan semula dan simulasi mampatan, menggunakan taburan Gaussian bercampur untuk memodelkan kehilangan maklumat bersama yang disebabkan oleh kemerosotan resolusi dan herotan mampatan, dan menggabungkannya dengan operator JPEG yang boleh dibezakan untuk hujung ke- menamatkan latihan , yang meningkatkan keteguhan kepada algoritma pemampatan biasa.
Pada masa ini untuk penyelidikan pensampelan semula imej, kaedah SOTA adalah berdasarkan Rangkaian Boleh Terbalik untuk membina fungsi bijektif (fungsi bijektif), dan operasi positifnya menukarkan resolusi tinggi (HR) Imej adalah ditukar kepada imej resolusi rendah (LR) dan satu siri pembolehubah tersembunyi yang mematuhi taburan normal piawai.
Disebabkan oleh ciri-ciri rangkaian boleh balik, pengendali pensampelan turun dan pensampelan naik mengekalkan tahap simetri yang tinggi, yang menyukarkan imej LR termampat untuk melepasi pengendali pensampelan yang telah dipelajari kepada memulihkan. Untuk meningkatkan keteguhan kepada mampatan lossy, kajian ini mencadangkan model pensampelan semula imej tahan mampatan SAIN (Self-Asimetri berdasarkan rangka kerja boleh balik asimetri Iterbalik Nkerja).
Inovasi teras model SAIN adalah seperti berikut:
Model SAIN telah disahkan untuk prestasi di bawah pemampatan JPEG dan WebP, dan prestasinya pada berbilang set data awam adalah jauh mendahului model SOTA yang berkaitan telah dipilih untuk Lisan AAI 2023.
Rajah 1 Rajah model Dwi-IRN.
Untuk meningkatkan prestasi anti-mampatan, penyelidikan ini mula-mula mereka bentuk rangka kerja pensampelan semula imej boleh balik asimetri, mencadangkan skema garis dasar model Dual-IRN, dan dianalisis secara mendalam Selepas kekurangan skim ini, model SAIN telah dicadangkan untuk pengoptimuman selanjutnya. Seperti yang ditunjukkan dalam rajah di atas, model Dwi-IRN mengandungi dua cawangan, di mana D-IRN dan U-IRN ialah dua set rangkaian boleh balik yang mempelajari bijection antara imej HR dan imej LR pra-mampatan/pasca-mampatan. .
Semasa fasa latihan, model Dwi-IRN melepasi kecerunan antara dua cawangan melalui pengendali JPEG yang boleh dibezakan. Dalam fasa ujian, model menggunakan D-IRN untuk menurunkan sampel untuk mendapatkan imej LR berkualiti tinggi Selepas pemampatan sebenar dalam persekitaran sebenar, model kemudian menggunakan U-IRN dengan pemampatan sedar untuk melengkapkan pemulihan mampatan dan peningkatan.
Rangka kerja asimetri sedemikian membolehkan operator pensampelan naik dan turun untuk mengelakkan perhubungan boleh balik yang ketat Selesaikan punca algoritma pemampatan yang memusnahkan simetri proses pensampelan naik dan turun 🎜> ialah berbanding dengan penyelesaian simetri SOTA, prestasi anti-mampatan bertambah baik.
Selepas itu, penyelidik menjalankan analisis lanjut ke atas model Dwi-IRN dan memerhatikan dua fenomena berikut:
Berdasarkan analisis di atas, penyelidik mengoptimumkan model dari banyak aspek Model SAIN yang terhasil bukan sahaja mengurangkan bilangan parameter rangkaian sebanyak hampir separuh, tetapi juga mencapai lebih jauh penambahbaikan.
Butiran model SAINRajah 2 rajah model SAIN.
Seni bina model SAIN ditunjukkan dalam rajah di atas, dan empat penambahbaikan utama berikut telah dibuat:
1. Rangka kerja keseluruhan . Berdasarkan persamaan ciri lapisan tengah, satu set modul rangkaian boleh balik dipisahkan kepada dua bahagian: pensampelan semula dan simulasi mampatan, membentuk seni bina asimetri diri untuk mengelak daripada menggunakan dua set lengkap rangkaian boleh balik. Dalam fasa ujian, gunakan transformasi ke hadapan
untuk mendapatkan imej LR berkualiti tinggi, mula-mula gunakan transformasi songsang
lakukan pemulihan mampatan, dan kemudian gunakan transformasi songsang
untuk pensampelan semula.
Struktur rangkaian . E-InvBlock dicadangkan berdasarkan andaian bahawa kehilangan mampatan boleh dipulihkan dengan bantuan maklumat frekuensi tinggi Satu transformasi tambahan ditambahkan pada modul, supaya dua set imej LR sebelum dan selepas pemampatan boleh dimodelkan dengan cekap semasa berkongsi. sejumlah besar operasi.
3. Berdasarkan taburan sebenar pembolehubah terpendam, adalah dicadangkan untuk menggunakan taburan Gaussian campuran yang boleh dipelajari untuk memodelkan kehilangan maklumat bersama yang disebabkan oleh pensampelan rendah dan mampatan lossy, dan mengoptimumkan parameter taburan hujung ke hujung melalui teknik penparameteran semula.
4. Fungsi kehilangan berbilang direka untuk mengekang kebolehbalikan rangkaian dan meningkatkan ketepatan pembinaan semula Pada masa yang sama, operasi mampatan sebenar diperkenalkan ke dalam fungsi kehilangan untuk meningkatkan keteguhan kepada skim mampatan sebenar. Evaluasi Eksperimen dan Kesan
Penunjuk penilaian kuantitatif ialah:
SAIN masih mengekalkan prestasi optimum.
Jadual 1 Percubaan perbandingan, membandingkan kualiti mampatan JPEG (QF) berbeza pada set data DIV2K Kualiti pembinaan semula (PSNR/SSIM).
Rajah 3 Percubaan perbandingan, membandingkan JPEG QF berbeza pada empat set ujian standard kualiti pembinaan semula ( PSNR).
Dalam hasil visualisasi dalam Rajah 4, dapat dilihat dengan jelas bahawa imej HR yang dipulihkan oleh SAIN adalahlebih jelas dan tepat .
Rajah 4 Perbandingan hasil visualisasi kaedah berbeza di bawah pemampatan JPEG (pembesaran ×4).
Dalam eksperimen ablasi dalam Jadual 2, penyelidik juga membandingkan beberapa calon lain untuk latihan digabungkan dengan pemampatan sebenar. Calon ini lebih tahan terhadap mampatan daripada model sedia ada simetri sepenuhnya (IRN), tetapi masih lebih rendah daripada model SAIN dari segi bilangan parameter dan ketepatan.
Jadual 2 Eksperimen ablasi untuk keseluruhan rangka kerja dan strategi latihan.
Dalam hasil visualisasi dalam Rajah 5, penyelidik membandingkan hasil pembinaan semula model pensampelan semula imej yang berbeza di bawah herotan mampatan WebP. Ia boleh didapati bahawa model SAIN juga menunjukkan skor pembinaan semula tertinggi di bawah skema pemampatan WebP dan boleh memulihkan butiran imej dengan jelas dan tepat, membuktikan keserasianSAIN dengan skema pemampatan yang berbeza.
Rajah 5 Perbandingan kualitatif dan kuantitatif kaedah berbeza di bawah pemampatan WebP (pembesaran ×2).
Selain itu, kajian itu juga menjalankan eksperimen ablasi ke atas taburan Gaussian bercampur, E-InvBlock dan fungsi kehilangan, membuktikan bahawa penambahbaikan ini memberi impak positif kepada keputusan .Ringkasan dan Tinjauan
Makmal Multimedia Enjin Gunung Berapi mencadangkan model berdasarkan rangka kerja boleh balik asimetri untuk pensampelan semula imej anti-mampatan: SAIN. Model ini terdiri daripada dua bahagian: pensampelan semula dan simulasi mampatan Ia menggunakan taburan Gaussian campuran untuk memodelkan kehilangan maklumat bersama yang disebabkan oleh pengurangan resolusi dan herotan mampatan Ia digabungkan dengan pengendali JPEG yang boleh dibezakan untuk latihan hujung ke hujung -InvBlock dicadangkan untuk mempertingkatkan model Keupayaan pemasangan sangat meningkatkan keteguhan kepada algoritma pemampatan biasa.Makmal Multimedia Enjin Gunung Berapi ialah pasukan penyelidikan di bawah ByteDance Ia komited untuk meneroka teknologi termaju dalam bidang multimedia dan mengambil bahagian dalam kerja penyeragaman antarabangsa Banyak algoritma inovatif serta penyelesaian perisian dan perkakasannya telah meluas digunakan dalam Douyin, Douyin, dsb. Perniagaan multimedia untuk produk seperti Xigua Video, dan menyediakan perkhidmatan teknikal kepada pelanggan peringkat perusahaan Volcano Engine. Sejak penubuhan makmal, banyak kertas kerja telah dipilih ke dalam persidangan antarabangsa terkemuka dan jurnal perdana, dan telah memenangi beberapa kejohanan pertandingan teknikal antarabangsa, anugerah inovasi industri dan anugerah kertas terbaik. Pada masa hadapan, pasukan penyelidik akan terus mengoptimumkan prestasi model pensampelan semula imej di bawah pemampatan lossy, dan seterusnya meneroka senario aplikasi yang lebih kompleks seperti pensampelan semula video anti-mampatan dan sewenang-wenangnya persampelan semula pembesaran.
Atas ialah kandungan terperinci Byte mencadangkan model pensampelan semula imej tidak simetri, dengan prestasi anti-mampatan terkemuka SOTA pada JPEG dan WebP. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!