Rumah > Artikel > Peranti teknologi > Gambar boleh memulihkan video! Kertas AAAAI 2023 mencadangkan algoritma baharu untuk pengimejan mampatan syot kilat
Artikel ini dicetak semula dengan kebenaran AI New Media Qubit (ID akaun awam: QbitAI Sila hubungi sumber untuk mencetak semula).
Dengan pembangunan algoritma optik, kami kini boleh "menangkap" isyarat dimensi tinggi menggunakan penderia dimensi rendah.
Sebagai contoh, berikut ialah "foto" yang kami ambil dengan penderia 2D, yang kelihatan penuh dengan data bising:
Namun, melalui data yang terkandung dalam "foto" ini kita boleh memulihkan video yang dinamik!
kedengaran menakjubkan, tetapi melalui kaedah yang dipanggil Pengimejan Mampat Syot Kilat (Pengimejan Mampat Syot Kilat, SCI ) kaedah memang boleh dicapai.
Kaedah ini boleh mengambil sampel data berdimensi tinggi sebagai ukuran dua dimensi, dengan itu mencapai pemerolehan isyarat visual berdimensi tinggi yang cekap.
Ambil kamera sebagai contoh Walaupun ia adalah penderia 2D, jika anda mencari cara untuk menambah peranti ukuran peranti micromirror digital di belakang lensa kamera (Peranti Micromirror Digital. , DMD, ini Ia adalah peranti yang boleh mengawal sumber cahaya dengan tepat) , terdapat cara untuk menggunakan kamera biasa untuk melakukan pengukuran pengurangan dimensi pada data berdimensi tinggi, mendapatkan data 2D mudah, dan kemudian memulihkan dimensi tinggi Isyarat visual 3D.
Sebagai contoh, kadar bingkai kamera biasa adalah sangat rendah, dan ia hanya boleh mengambil berpuluh-puluh foto sesaat (dengan andaian ia boleh mengambil 30 foto).
Apabila kita ingin merakam objek bergerak berkelajuan tinggi, selagi kita menambah peranti micromirror digital ini pada kamera biasa, ia akan memampatkan isyarat video sepanjang dimensi masa . Setiap kali kita mengambil gambar Satu foto boleh memulihkan beberapa atau bahkan berpuluh-puluh bingkai foto (iaitu, memulihkan video) .
Andaikan bahawa kadar mampatan pratetap untuk peranti micromirror digital ialah 10. Kemudian, mengambil satu foto sekarang boleh memulihkan 10 foto (atau video yang mengandungi 10 bingkai foto) ), dan kadar bingkai kamera juga telah meningkat sebanyak 10 kali ganda, menjadi dapat mengambil 300 foto dalam satu saat.
Kini persoalan timbul, bagaimana untuk memulihkan isyarat dimensi tinggi asal secekap mungkin daripada data pengukuran dimensi rendah yang dimampatkan yang bising ini?
Dengan pembangunan pembelajaran mendalam, pelbagai algoritma pembinaan semula telah dicadangkan, bagaimanapun, ketepatan dan kestabilan isyarat yang dibina semula bagi algoritma ini masih belum cukup baik.
Untuk tujuan ini, penyelidik dari Universiti Hong Kong, Akademi Sains Cina dan Universiti West Lake mencadangkan kaedah Model Keseimbangan Dalam(DEQ) untuk pengimejan mampatan syot kilat video , telah disertakan dalam AAAI 2023:
Kaedah ini bukan sahaja meningkatkan ketepatan dan kestabilan pembinaan semula, tetapi juga mengoptimumkan lagi jejak memori— —
Algoritma hanya memerlukan ingatan tahap malar semasa latihan dan ujian, iaitu: apabila menggunakan pembelajaran mendalam, ruang memori yang digunakantidak berubah mengikut kedalaman rangkaian (Apabila menggunakan kaedah pengoptimuman tradisional, ruang memori yang digunakan tidak berubah mengikut bilangan lelaran) .
Mari kita lihat.
Memanfaatkan reka bentuk perkakasan optik baru dan algoritma pengimejan, Sistem Pengimejan Mampat Syot Kilat (Pengimejan Mampat Syot Kilat, SCI) boleh melaksanakan data berdimensi tinggi sebagai ukuran dua dimensi dalam satu syot kilat pensampelan pengukuran untuk mencapai pemerolehan isyarat visual berdimensi tinggi yang cekap.
Seperti yang ditunjukkan dalam Rajah 1, sistem SCI boleh dibahagikan kepada dua bahagian, pengekodan perkakasan dan penyahkodan perisian:
Mengambil rakaman video sebagai contoh, melalui pengekodan perkakasan, sistem SCI mengambil sampel data video dan memampatkannya dalam dimensi masa selepas itu, Algoritma digunakan untuk membina semula data video berdimensi tinggi yang asal.
Pertimbangkan sistem SCI video di sini, seperti yang ditunjukkan dalam Video 1. Bahagian atas video menunjukkan ukuran mampatan yang diperoleh oleh bahagian perkakasan sistem SCI, dan bahagian bawah video menunjukkan hasil video dipulihkan menggunakan algoritma yang dicadangkan dalam kertas .
Jelas sekali, keseluruhan proses pengimejan perlu menyelesaikan masalah songsang: Cara memulihkan video daripada ukuran mampatan yang bising.
Walaupun terdapat banyak kaedah pembinaan semula yang boleh menyelesaikan masalah songsang pengimejan SCI, kaedah ini masing-masing mempunyai kelemahannya sendiri, seperti yang ditunjukkan dalam Rajah 2:
△Rajah 2. Kaedah sedia ada dan isu utama pembinaan semula SCI
Antaranya, algoritma pengoptimuman tradisional (a) prestasi terhad.
Dengan pembangunan pembelajaran mendalam, rangkaian mendalam hujung ke hujung (b) dan kaedah terungkap (c) walaupun mereka boleh meningkatkan prestasi, mereka pasti peningkatan kedalaman rangkaian berlapis mengalami keperluan memori yang semakin meningkat dan memerlukan reka bentuk model yang teliti.
Plug and Play(PnP)Framework(d)Sambil menikmati kelebihan regularization dipacu data dan pengoptimuman berulang yang fleksibel, algoritma ini mestilah tetapan Parameter diperlukan untuk memastikan keputusan yang tepat, malah beberapa strategi yang kompleks perlu diguna pakai untuk mendapatkan prestasi yang memuaskan.
Berbanding dengan kaedah lain, kertas kerja mencadangkan algoritma baharu DE-RNN dan DE-GAP untuk memastikan ketepatan dan kestabilan hasil pembinaan semula Prestasi hasil pembinaan semula boleh menumpu kepada A tahap yang lebih tinggi, seperti yang ditunjukkan dalam Rajah 3:
△ Rajah 3. Perbandingan hasil pembinaan semula antara DE-GAP dan kaedah lain
Secara umumnya, dalam lepas Keputusan pembinaan semula kaedah seperti RNN dan PnP adalah tidak stabil, malah prestasinya semakin merosot dalam lelaran jangka panjang.
Walau bagaimanapun, hasil pembinaan semula DE-GAP boleh mengekalkan peningkatan prestasi apabila bilangan lelaran meningkat, dan akhirnya menumpu kepada hasil yang stabil.
Bagaimana ini dilakukan?
Untuk menyelesaikan masalah kaedah sebelumnya dan mencapai pembinaan semula SCI yang lebih maju, kertas kerja ini mencadangkan idea baharu buat kali pertama -
Gunakan model DEQ untuk menyelesaikan masalah songsang pembinaan semula SCI video.
Model DEQ pertama kali dicadangkan pada 2019 dan digunakan terutamanya dalam tugas pemprosesan bahasa jujukan panjang berskala besar dalam pemprosesan bahasa semula jadi.
Seperti yang ditunjukkan dalam Rajah 4, model DEQ boleh menyelesaikan secara langsung untuk titik tetap dalam proses perambatan ke hadapan dan perambatan belakang melalui kaedah mencari akar seperti kaedah lelaran Newton, dengan itu hanya menggunakan memori tahap malar dengan Berkesan melaksanakan rangkaian tak terhingga dalam:
△ Rajah 4. Kaedah titik tetap untuk menyelesaikan model DEQ (kiri) dan penggunaan memori tahap malar ( kanan) )
(Rajah 4 adalah daripada kertas: S. Bai et al, "Model keseimbangan dalam", NeurIPS 2019.)
Secara khusus, kertas ini ialah kali pertama Model DEQ digunakan pada dua rangka kerja pembinaan semula SCI video sedia ada: RNN dan PnP.
Kesannya juga sangat baik adalah setara dengan merealisasikan rangkaian dalam yang tidak terhingga hanya menggunakan memori peringkat malar bersamaan dengan merealisasikan langkah pengoptimuman berulang yang tidak terhingga, dan secara langsung dalam lelaran proses pengoptimuman Selesaikan untuk titik tetap.
Seperti yang ditunjukkan dalam Rajah 5, kertas itu mereka bentuk fungsi lelaran digabungkan dengan model DEQ untuk RNN dan PnP masing-masing, di mana x ialah hasil pembinaan semula, y ialah ukuran mampatan, dan Φ ialah matriks ukuran:
△ Rajah 5. Fungsi lelaran RNN dan PnP digabungkan dengan model DEQ masing-masing
(Sila lihat butiran proses terbitan khusus dan kertas perambatan ke hadapan dan ke belakang)
Kertas ini menjalankan eksperimen ke atas enam set data SCI klasik dan data sebenar Berbanding dengan kaedah sebelumnya, hasil pembinaan semula keseluruhan adalah lebih baik.
Seperti yang ditunjukkan dalam Jadual 1, secara purata, kaedah ini mencapai kira-kira 0.1dB peningkatan dalam PSNR dan kira-kira 0.04 peningkatan dalam SSIM. Penambahbaikan dalam SSIM menunjukkan bahawa kaedah ini boleh membina semula imej dengan struktur yang agak halus:
△ Jadual 1. PSNR algoritma berbeza pada enam set data klasik untuk pembinaan semula SCI video (dB) dan SSIM
Rajah 6 ialah perbandingan hasil pembinaan semula algoritma yang berbeza pada set data klasik, dan pembentangan beberapa butiran adalah lebih lancar dan jelas:
△Rajah 6
Rajah 7 ialah perbandingan hasil pembinaan semula algoritma yang berbeza pada data sebenar, dan kesannya lebih baik berbanding:
△Rajah 7
Lebih banyak hasil eksperimen boleh didapati dalam kertas.
Pada masa ini, kod kertas itu adalah sumber terbuka, dan rakan-rakan yang berminat boleh menggunakannya~
(Video penjelasan penulis juga dilampirkan di penghujung artikel, yang menerangkannya dalam istilah mudah)
Alamat kertas:
https://www .php.cn/link/b8002139cdde66b87638f7f91d169d96
Alamat kod:
https: //www.php.cn/link/fa95123aa5f89781ed4e89a55eb2edcc
Video penjelasan kertas oleh pengarang:
Bahasa Inggeris: https://www.bilibili.com/video/BV1X54y1g7D9/
Bahasa Cina: https://www.bilibili.com/video/BV1V54y137QK/
Plastik Kantonis: https://www.bilibili.com/video/BV1224y1G7ee/
Atas ialah kandungan terperinci Gambar boleh memulihkan video! Kertas AAAAI 2023 mencadangkan algoritma baharu untuk pengimejan mampatan syot kilat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!