Rumah  >  Artikel  >  Peranti teknologi  >  Penulisan semula tajuk: Penjejakan kertas pelajar cemerlang ICCV 2023, Github telah memperoleh 1.6K bintang, maklumat komprehensif seperti sihir!

Penulisan semula tajuk: Penjejakan kertas pelajar cemerlang ICCV 2023, Github telah memperoleh 1.6K bintang, maklumat komprehensif seperti sihir!

PHPz
PHPzke hadapan
2023-10-11 11:29:14698semak imbas

1. Maklumat kertas

Kertas pelajar terbaik ICCV2023 tahun ini telah dianugerahkan kepada qianqian wang dari Universiti Cornell, yang kini merupakan penyelidik pasca doktoral di University of California, Berkeley!标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

2

Dalam bidang anggaran gerakan video, penulis menunjukkan bahawa kaedah tradisional terbahagi kepada dua jenis: penjejakan ciri jarang dan aliran optik padat. Walaupun kedua-dua kaedah telah terbukti berkesan dalam aplikasi masing-masing, kedua-dua kaedah tidak menangkap gerakan dalam video sepenuhnya. Aliran optik berpasangan tidak dapat menangkap trajektori gerakan dalam tetingkap masa yang lama, manakala penjejakan jarang tidak dapat memodelkan gerakan semua piksel Untuk merapatkan jurang ini, banyak kajian telah cuba menganggarkan trajektori piksel padat dan jarak jauh dalam video secara serentak. Kaedah kajian ini berbeza daripada hanya memautkan medan aliran optik dua bingkai kepada meramalkan secara langsung trajektori setiap piksel merentas berbilang bingkai. Walau bagaimanapun, kaedah ini selalunya hanya mempertimbangkan konteks terhad apabila menganggarkan pergerakan dan mengabaikan maklumat yang jauh dari segi masa atau ruang. Rabun jauh ini boleh membawa kepada pengumpulan ralat dalam trajektori yang panjang, serta ketidakkonsistenan spatiotemporal dalam anggaran gerakan. Walaupun sesetengah kaedah mempertimbangkan konteks jangka panjang, kaedah tersebut masih beroperasi dalam domain 2D, yang mungkin membawa kepada kehilangan penjejakan dalam peristiwa oklusi. 标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

Secara keseluruhan, anggaran trajektori padat dan jarak jauh dalam video kekal sebagai masalah yang tidak dapat diselesaikan dalam bidang tersebut. Masalah ini melibatkan tiga cabaran utama: 1) Bagaimana untuk mengekalkan ketepatan trajektori dalam urutan yang panjang, 2) Bagaimana untuk mengesan lokasi titik di bawah oklusi, 3) Bagaimana untuk mengekalkan konsistensi spatiotemporal

Dalam artikel ini, Penulis mencadangkan gerakan video novel kaedah anggaran yang menggunakan semua maklumat dalam video untuk menganggarkan trajektori gerakan lengkap setiap piksel secara bersama. Kaedah ini dipanggil "OmniMotion" dan ia menggunakan perwakilan kuasi-3D. Dalam perwakilan ini, volum 3D standard dipetakan kepada volum tempatan pada setiap bingkai. Pemetaan ini berfungsi sebagai sambungan fleksibel kepada geometri berbilang paparan dinamik dan boleh mensimulasikan gerakan kamera dan pemandangan secara serentak. Perwakilan ini bukan sahaja memastikan ketekalan gelung tetapi juga menjejaki semua piksel semasa oklusi. Pengarang mengoptimumkan perwakilan ini untuk setiap video, menyediakan penyelesaian untuk gerakan sepanjang video. Selepas pengoptimuman, perwakilan ini boleh ditanya pada mana-mana koordinat berterusan video untuk mendapatkan trajektori gerakan yang merangkumi keseluruhan video

Kaedah yang dicadangkan dalam kertas ini boleh: 1) Menjana perwakilan lengkap yang konsisten secara global untuk semua titik dalam keseluruhan trajektori gerakan video , 2) titik penjejakan melalui oklusi, dan 3) memproses video sebenar dengan pelbagai kombinasi tindakan kamera dan adegan. Pada penanda aras penjejakan video TAP, kaedah ini berprestasi baik, jauh mengatasi kaedah sebelumnya.

3. Kaedah

Kertas ini mencadangkan kaedah berasaskan pengoptimuman masa ujian untuk menganggar gerakan padat dan jarak jauh daripada jujukan video. Mula-mula, mari kita berikan gambaran keseluruhan kaedah yang dicadangkan dalam kertas kerja:

Input

: Kaedah pengarang mengambil set bingkai dan pasangan anggaran gerakan bising (seperti medan aliran optik) sebagai input.

  • Operasi Kaedah: Menggunakan input ini, kaedah ini bertujuan untuk mencari perwakilan gerakan yang lengkap dan konsisten di peringkat global untuk keseluruhan video.
  • Ciri Hasil: Selepas pengoptimuman, perwakilan ini boleh disoal dengan mana-mana piksel mana-mana bingkai dalam video, menghasilkan trajektori gerakan yang lancar dan tepat merentas keseluruhan video. Kaedah ini juga mengenal pasti apabila titik tersumbat dan boleh menjejaki titik yang melalui oklusi.
  • Isi Teras:
  • OmniMotion Representation
  • : Dalam bahagian seterusnya, pengarang mula-mula menerangkan representasi asas mereka, yang dipanggil OmniMotion.
  1. Proses pengoptimuman: Seterusnya, pengarang menerangkan proses pengoptimuman cara memulihkan perwakilan ini daripada video.
  2. Kaedah ini boleh memberikan perwakilan gerakan video yang komprehensif dan koheren, dan boleh menyelesaikan masalah yang mencabar dengan berkesan seperti oklusi. Sekarang mari kita ketahui lebih lanjut mengenainya

3.1 Volume 3D Canonical

Kandungan video diwakili oleh volum biasa bernama G, yang bertindak sebagai peta tiga dimensi bagi pemandangan yang diperhatikan. Sama seperti yang dilakukan dalam NeRF, mereka mentakrifkan rangkaian berasaskan koordinat nerf yang memetakan setiap koordinat 3D biasa uvw dalam G kepada ketumpatan σ dan warna c Ketumpatan yang disimpan dalam G memberitahu kita di mana permukaan berada dalam ruang biasa. Apabila digabungkan dengan bijection 3D, ini membolehkan kami menjejak permukaan pada berbilang bingkai dan memahami hubungan oklusi. Warna yang disimpan dalam G membolehkan kami mengira kehilangan fotometrik semasa pengoptimuman.

3.2 bijection 3D

Kertas ini memperkenalkan pemetaan bijection berterusan, dilambangkan sebagai , yang mengubah titik 3D daripada sistem koordinat tempatan kepada sistem koordinat 3D kanonik. Koordinat kanonik ini berfungsi sebagai rujukan atau "indeks" yang konsisten dalam masa untuk titik pemandangan atau trajektori 3D. Kelebihan utama menggunakan pemetaan bijektif ialah ketekalan berkala yang mereka sediakan dalam titik 3D antara bingkai yang berbeza, kerana semuanya berasal dari titik kanonik yang sama.

Persamaan pemetaan dari titik 3D dari satu bingkai tempatan ke bingkai yang lain ialah:

标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

Untuk menangkap gerakan dunia nyata yang kompleks, bijection ini diparameterkan sebagai Rangkaian Neural Songsang (INN). Pilihan Real-NVP sebagai model dipengaruhi oleh kesederhanaan dan sifatnya yang boleh diterbalikkan secara analitikal. Real-NVP melaksanakan pemetaan bijektif dengan menggunakan transformasi asas yang dipanggil lapisan gandingan affine. Lapisan ini membelah input supaya satu bahagian kekal tidak berubah manakala bahagian lain mengalami transformasi afin.

Untuk meningkatkan lagi seni bina ini, kita boleh melakukannya dengan mesyaratkan kod terpendam latent_i setiap bingkai. Oleh itu, semua pemetaan boleh balik i ditentukan oleh rangkaian pemetaan rangkaian boleh balik tunggal, tetapi ia mempunyai kod terpendam yang berbeza

3.3 Mengkomputer gerakan bingkai ke bingkai

Mengira semula gerakan antara bingkai

Bahagian ini menerangkan cara mengira gerakan 2D untuk sebarang querypixel dalam bingkai i. Secara intuitif, piksel pertanyaan mula-mula "diangkat" kepada 3D dengan titik pensampelan pada sinar, kemudian titik 3D ini "dipetakan" ke rangka sasaran j menggunakan pemetaan bijection i dan pemetaan j, diikuti dengan penggubahan alfa daripada sampel yang berbeza" Titik 3D yang dipetakan ini "diberikan" dan akhirnya "diunjurkan" kembali ke dalam 2D ​​untuk mendapatkan surat-menyurat yang diandaikan.

标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

4. Perbandingan eksperimen

标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

Jadual data eksperimen ini menunjukkan prestasi pelbagai kaedah anggaran gerakan pada tiga set data - Kinetik, DAVIS dan RGB-Stacking. Untuk menilai prestasi kaedah individu, empat metrik digunakan: AJ, purata, OA dan TC. Sebagai tambahan kepada dua kaedah yang dicadangkan oleh pengarang (kami (TAP-Net) dan kami (RAFT)), terdapat 7 kaedah lain. Perlu diingat bahawa kedua-dua kaedah pengarang berprestasi baik pada kebanyakan metrik dan set data. Khususnya, kaedah (RAFT) kami mencapai hasil terbaik pada AJ, purata dan OA untuk ketiga-tiga set data, sambil menjadi yang kedua terbaik pada TC. Kaedah (TAP-Net) kami juga mencapai prestasi cemerlang yang serupa pada beberapa langkah. Sementara itu, kaedah lain mempunyai prestasi bercampur pada metrik ini. Perlu dinyatakan bahawa kaedah pengarang dan kaedah "Deformable Sprites" menganggarkan gerakan global melalui pengoptimuman masa ujian pada setiap video, manakala semua kaedah lain menggunakan pendekatan ke hadapan untuk melakukan anggaran gerakan secara tempatan. Secara ringkasnya, kaedah pengarang mengatasi semua kaedah lain yang diuji dari segi ketepatan kedudukan, ketepatan oklusi dan kesinambungan temporal, menunjukkan kelebihan ketara

标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

Ini ialah jadual keputusan eksperimen ablasi untuk set data DAVIS . Eksperimen ablasi dijalankan untuk mengesahkan sumbangan setiap komponen kepada prestasi keseluruhan sistem. Terdapat empat kaedah yang disenaraikan dalam jadual ini, tiga daripadanya ialah versi yang mengalih keluar komponen utama tertentu dan versi "Penuh" terakhir merangkumi semua komponen.

  1. Tiada boleh terbalik: Versi ini mengalih keluar komponen "kebolehbalikan". Berbanding dengan kaedah penuh, semua metriknya turun dengan ketara, terutamanya pada AJ dan , yang menunjukkan bahawa keterbalikan memainkan peranan penting dalam keseluruhan sistem.
  2. Tiada fotometrik: Versi ini mengalih keluar komponen "fotometrik". Walaupun prestasinya lebih rendah daripada versi "Penuh", prestasinya lebih baik berbanding versi "tidak boleh diterbalikkan". Ini menunjukkan bahawa walaupun komponen fotometri memainkan peranan tertentu dalam meningkatkan prestasi, kepentingannya mungkin lebih rendah daripada komponen boleh balik.
  3. Pensampelan seragam: Versi ini menggunakan strategi pensampelan bersatu. Prestasinya juga kurang sedikit berbanding versi penuh, tetapi masih lebih baik daripada versi "ketidakbolehbalikan" dan "aluminium".
  4. Full: Ini adalah versi penuh dengan semua komponen dan ia mencapai prestasi terbaik pada semua metrik. Ini menunjukkan bahawa setiap komponen menyumbang kepada peningkatan prestasi, terutamanya apabila semua komponen disepadukan, sistem boleh mencapai prestasi terbaik.

标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

Secara keseluruhan, keputusan eksperimen ablasi ini menunjukkan bahawa walaupun setiap komponen mempunyai peningkatan prestasi tertentu, ia boleh diterbalikkan Seks mungkin komponen yang paling penting, kerana tanpanya, penalti prestasi akan menjadi berat

5. Eksperimen ablasi yang dilakukan pada set data DAVIS dalam kerja ini memberikan kami cerapan berharga, mendedahkan peranan kritikal setiap komponen terhadap prestasi sistem keseluruhan. Daripada keputusan percubaan, kita dapat melihat dengan jelas bahawa komponen kebolehbalikan memainkan peranan penting dalam rangka kerja keseluruhan. Apabila komponen kritikal ini tiada, prestasi sistem menurun dengan ketara. Ini seterusnya menekankan kepentingan mempertimbangkan kebolehbalikan dalam analisis video dinamik. Pada masa yang sama, walaupun kehilangan komponen fotometri juga membawa kepada kemerosotan prestasi, ia nampaknya tidak mempunyai kesan yang besar terhadap prestasi seperti kebolehbalikan. Di samping itu, walaupun strategi pensampelan bersatu mempunyai kesan tertentu terhadap prestasi, impaknya agak kecil berbanding dengan dua yang pertama. Akhir sekali, pendekatan lengkap menyepadukan semua komponen ini dan menunjukkan kepada kami prestasi terbaik yang boleh dicapai di bawah semua pertimbangan. Secara keseluruhannya, kerja ini memberikan peluang berharga untuk mendapatkan cerapan tentang cara pelbagai komponen dalam analitis video berinteraksi antara satu sama lain dan sumbangan khusus mereka kepada prestasi keseluruhan, dengan itu menekankan keperluan untuk pendekatan bersepadu semasa mereka bentuk dan mengoptimumkan algoritma pemprosesan video KEPENTINGAN#🎜 🎜#

Walau bagaimanapun, seperti kebanyakan kaedah anggaran gerakan, kaedah kami menghadapi kesukaran dalam mengendalikan gerakan pantas dan sangat tidak tegar serta struktur kecil. Dalam senario ini, kaedah surat-menyurat berpasangan mungkin tidak menyediakan surat-menyurat yang boleh dipercayai yang mencukupi untuk kaedah kami mengira gerakan global yang tepat. Selain itu, disebabkan oleh sifat tidak cembung yang tinggi bagi masalah pengoptimuman yang mendasari, kami mendapati bahawa untuk video sukar tertentu, proses pengoptimuman kami boleh menjadi sangat sensitif kepada pemula. Ini boleh menyebabkan minima setempat yang tidak optimum, contohnya, susunan permukaan yang salah atau objek pendua dalam ruang kanonik, yang kadangkala sukar untuk diperbetulkan melalui pengoptimuman.

标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!Akhirnya, pendekatan kami boleh menjadi mahal secara pengiraan dalam bentuk semasa. Pertama, proses pengumpulan aliran melibatkan pengiraan menyeluruh bagi semua aliran berpasangan, yang berkembang secara kuadratik dengan panjang jujukan. Tetapi kami percaya bahawa kebolehskalaan proses ini boleh dipertingkatkan dengan meneroka kaedah pemadanan yang lebih cekap, seperti pepohon perbendaharaan kata atau pemadanan berasaskan kerangka utama, dan mengambil inspirasi daripada gerakan struktur dan kesusasteraan SLAM. Kedua, seperti kaedah lain yang menggunakan perwakilan tersirat saraf, kaedah kami melibatkan proses pengoptimuman yang agak panjang. Penyelidikan terkini dalam bidang ini boleh membantu mempercepatkan proses ini dan seterusnya memanjangkannya kepada urutan yang lebih panjang

6 Kesimpulan Kaedah pengoptimuman masa ujian baharu dicadangkan untuk menganggarkan pergerakan yang lengkap dan konsisten di seluruh dunia video. Perwakilan gerakan video baharu diperkenalkan, dipanggil OmniMotion, yang terdiri daripada volum standard kuasi-3D dan bijeksi kanonik tempatan untuk setiap bingkai. OmniMotion boleh memproses video biasa dengan tetapan kamera dan dinamik pemandangan yang berbeza serta menghasilkan gerakan jarak jauh yang tepat dan lancar melalui oklusi. Penambahbaikan yang ketara berbanding kaedah tercanggih sebelum ini dicapai, secara kualitatif dan kuantitatif.

Kandungan yang perlu ditulis semula ialah: Pautan asal: https://mp.weixin.qq.com/s/HOIi5y9j-JwUImhpHPYgkg# 🎜🎜 #

Atas ialah kandungan terperinci Penulisan semula tajuk: Penjejakan kertas pelajar cemerlang ICCV 2023, Github telah memperoleh 1.6K bintang, maklumat komprehensif seperti sihir!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam