標題重寫：ICCV 2023優秀學生論文跟踪，Github已經獲得1.6K star，彷彿魔法般的全面信息！-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

標題重寫：ICCV 2023優秀學生論文跟踪，Github已經獲得1.6K star，彷彿魔法般的全面信息！

PHPz

Oct 11, 2023 am 11:29 AM

自動駕駛論文

1. 論文資訊

今年的ICCV2023 best student paper頒給了康乃爾大學的qianqian wang，目前是加州大學柏克萊分校的博士後研究員! 标题重写：ICCV 2023优秀学生论文跟踪，Github已经获得1.6K star，仿佛魔法般的全面信息！

#2. 領域背景

标题重写：ICCV 2023优秀学生论文跟踪，Github已经获得1.6K star，仿佛魔法般的全面信息！

在影片運動估計領域，作者指出傳統方法主要分為兩種：稀疏特徵追蹤和密集光流。雖然這兩種方法都在各自的應用中被證明有效，但它們都無法完整地捕捉到影片中的運動。成對的光流無法捕捉長時間視窗內的運動軌跡，而稀疏追蹤則無法模擬所有像素的運動

為了彌補這一差距，許多研究都試圖在影片中同時估計密集和長距離的像素軌跡。這些研究的方法多種多樣，從簡單地將兩幀光流場連結起來，到直接預測在多個畫面中的每個像素軌跡。但這些方法在估計運動時往往只考慮有限的上下文，並忽略了時間或空間上較遠的資訊。這種短視可能導致長軌跡中的錯誤累積，以及運動估計中的時空不一致。儘管某些方法考慮了長時間的上下文，但它們仍然在2D領域進行操作，這可能在遮蔽事件中導致追蹤遺失。

總的來說，影片中的密集和長距離軌跡估計仍然是該領域一個尚未解決的問題。這個問題涉及到三個主要挑戰：1）如何在長序列中保持軌蹟的準確性，2）如何在遮擋情況下跟踪點的位置，3）如何保持時空的一致性

在這在文章中，作者提出了一種新穎的視訊運動估計方法，該方法利用影片中的所有資訊來共同估計每個像素的完整運動軌跡。這種方法被稱為"OmniMotion"，它採用了一種準3D的表示形式。在這種表示形式中，一個標準的3D體被映射到每一幀的局部volume。這種映射作為動態多視圖幾何的一種靈活擴展，可以同時模擬相機和場景的運動。這種表示形式不僅確保了循環的一致性，還能在遮擋時追蹤所有的像素。作者為每個影片優化了這種表示形式，從而為整個影片的運動提供了解決方案。經過最佳化後，這種表示形式可以在影片的任何連續座標上查詢，以獲得跨越整個影片的運動軌跡

本文提出的這種方法可以：1) 為整個影片中的所有點生成全域一致的完整運動軌跡，2) 追蹤經過遮蔽的點，以及3) 處理具有各種相機和場景動作組合的實際影片。在TAP視訊追蹤基準測試中，該方法表現出色，遠遠超越了先前的方法。

3. 方法

論文提出了一種基於測試時最佳化的方法，用於從影片序列中估計密集和長距離的運動。首先來對論文提出的方法來一個總覽：

輸入：作者的方法以一組幀和成對的噪聲運動估計（例如光流場）作為輸入。
方法操作：利用這些輸入，方法尋求為整個影片找到一個完整且全域一致的運動表示。
結果特點：優化後，這種表示可以用影片中任何影格的任何像素進行查詢，從而產生一個跨整個影片的平滑、準確的運動軌跡。這個方法還能辨識何時有點被遮擋，並且可以追蹤經過遮擋的點。
核心內容：

OmniMotion表示：在後續部分，作者首先描述了他們的基本表示，稱為OmniMotion。
優化過程：接著，作者描述如何從影片中恢復此表示的最佳化過程。

這種方法能夠提供一個全面且連貫的視訊運動表示，並且能夠有效地解決遮蔽等挑戰性問題。現在我們來詳細了解一下

标题重写：ICCV 2023优秀学生论文跟踪，Github已经获得1.6K star，仿佛魔法般的全面信息！

3.1 Canonical 3D volume

影片內容由一個名為G的典型volume表示，該volume充當觀察到的場景的三維地圖。與NeRF中的做法類似，他們定義了一個基於座標的網路nerf，它為G中的每個典型3D座標uvw映射到一個密度σ和顏色c。 G中儲存的密度告訴我們典型空間中的表面位置。當與3D雙射結合使用時，這使我們能夠追蹤多幀的表面並理解遮蔽關係。 G中儲存的顏色則允許我們在最佳化期間計算光度損失。

3.2 3D bijections

本文介紹了一個連續的雙射映射，記為，它將3D點從局部座標系轉換到一個規範的3D座標系。這個規範座標作為一個場景點或3D軌跡在時間上的一致引用或「索引」。使用雙射映射的主要優勢是它們在不同幀之間的3D點提供的週期一致性，因為它們都源自於同一個規範點。

從一個局部影格到另一個的3D點的映射方程式為：

标题重写：ICCV 2023优秀学生论文跟踪，Github已经获得1.6K star，仿佛魔法般的全面信息！

#為了捕捉複雜的真實世界運動，這些雙射被參數化為可逆神經網路(INNs)。選擇Real-NVP作為模型是受到其簡單性和其解析可逆性的屬性的影響。 Real-NVP透過使用稱為仿射耦合層的基本變換來實現雙射映射。這些層將輸入分割，使一部分保持不變，而另一部分則進行仿射變換。

為了進一步增強這個架構，我們可以透過對每一幀的潛碼latent_i進行條件化來實現。因此，所有的可逆映射mapping i都是由一個單一的可逆網絡mappingnet決定，但它們具有不同的潛碼latent code

3.3 Computing frame-to-frame motion

#重新計算幀間運動

在這部分，描述如何為幀i中的任何查詢像素querypixel計算2D運動。直觀地說，首先通過在射線上採樣點將查詢像素“提升”到3D，然後使用雙射mapping i和mapping j將這些3D點“映射”到目標幀j，接著通過alpha合成從不同的樣本“渲染」這些映射的3D點，最後「投影」回2D以獲得一個假定的對應關係。

标题重写：ICCV 2023优秀学生论文跟踪，Github已经获得1.6K star，仿佛魔法般的全面信息！

4. 實驗對比

标题重写：ICCV 2023优秀学生论文跟踪，Github已经获得1.6K star，仿佛魔法般的全面信息！

這份實驗資料表展示了在三個資料集－Kinetics、DAVIS和RGB-Stacking上，多種運動估計方法的表現。為了評估各個方法的效能，使用了四個度量標準：AJ、avg、OA和TC。除了作者提出的兩種方法（我們的（TAP-Net）和我們的（RAFT）），還有其他7種方法。值得注意的是，作者的兩種方法在大部分度量和資料集上都表現出色。具體來說，我們的（RAFT）方法在所有三個資料集的AJ、avg和OA上取得了最佳成績，而在TC上則次佳。我們的（TAP-Net）方法在某些測量上也達到了類似的優異表現。同時，其他方法在這些測量上的表現則參差不齊。需要提及的是，作者的方法和「Deformable Sprites」方法透過在每個影片上的測試時間最佳化來估計全局運動，而其他所有方法都採用前向方式在局部進行運動估計。總結來說，作者的方法在位置精度、遮擋精度和時間連續性上都超越了其他所有測試的方法，展現出了顯著的優勢

标题重写：ICCV 2023优秀学生论文跟踪，Github已经获得1.6K star，仿佛魔法般的全面信息！

這是一個針對DAVIS資料集的消融實驗結果表。消融實驗是為了驗證每個組件對整個系統表現的貢獻大小。這個表格中列出了四種方法，其中三種是移除了某個關鍵元件的版本，而最後的"Full"版本包含了所有元件。

No invertible：此版本移除了「可逆性」元件。與完整方法相比，它的所有指標都大幅下降，尤其是在 AJ 和上，這表明可逆性在整個系統中起著至關重要的作用。
No photometric：此版本移除了「光度」元件。儘管其性能比"Full"版本低，但與「無可逆性」的版本相比，其表現得更好。這說明，儘管光度組件對於性能提升起到了一定的作用，但其重要性可能低於可逆性組件。
Uniform sampling：此版本使用了統一的取樣策略。它的性能也比完整版本稍低，但仍然優於“無可逆性”和“無光度”版本。
Full：這是包含所有元件的完整版本，它在所有指標上都取得了最佳表現。這表明每個組件都對效能提升有所貢獻，尤其是在整合了所有組件後，系統能夠達到最佳的效能。

标题重写：ICCV 2023优秀学生论文跟踪，Github已经获得1.6K star，仿佛魔法般的全面信息！

總的來說，這個消融實驗的結果顯示，雖然每個組件都對表現有一定的提升，但可逆性可能是最重要的元件，因為沒有它的話，效能損失會非常嚴重

5. 討論

标题重写：ICCV 2023优秀学生论文跟踪，Github已经获得1.6K star，仿佛魔法般的全面信息！

這份工作中對DAVIS資料集進行的消融實驗為我們提供了寶貴的洞察，揭示了每個組件對整個系統性能的關鍵作用。從實驗結果中，我們可以明確地看到可逆性組件在整體框架中扮演了至關重要的角色。當缺少這項關鍵組件時，系統的效能大幅下降。這進一步強調了在動態視訊分析中考慮可逆性的重要性。同時，儘管光度組件的缺失也會導致性能下降，但它對性能的影響似乎不如可逆性那麼大。此外，統一的採樣策略雖然對性能有一定的影響，但與前兩者相比，其影響相對較小。最後，完整的方法整合了所有這些組件，為我們展示了在所有考慮因素下所能達到的最佳性能。總體來說，這份工作為我們提供了一個深入了解視頻分析中各個組件如何相互作用，以及它們對整體性能的具體貢獻的寶貴機會，從而強調了在設計和優化視頻處理算法時採用綜合方法的重要性

但是，像許多運動估計方法一樣，我們的方法在處理快速和高度非剛性運動以及細小結構時面臨困難。在這些情境下，成對的對應方法可能無法為我們的方法提供足夠的可靠對應關係來計算精確的全局運動。另外，由於基礎優化問題的高度非凸性質，我們觀察到，對於某些困難的視頻，我們的優化過程可能對初始化非常敏感。這可能會導致次優的局部最小值，例如，錯誤的表面排序或在規範空間中的重複對象，有時這些問題很難透過最佳化來修正。

最後，我們的方法在其當前形式下可能在計算上是昂貴的。首先，流量收集過程涉及全面計算所有的成對流，這與序列長度呈二次比例增長。但我們相信，透過探索更有效率的匹配方法，例如詞彙樹或基於關鍵影格的匹配，並從結構運動和SLAM文獻中獲取靈感，可以提高這一過程的可擴展性。其次，與其他使用神經隱式表示的方法一樣，我們的方法涉及一個相對較長的最佳化過程。此領域的近期研究可能有助於加速這一過程，並進一步擴展到更長的序列

6.結論

本文提出了一個新的測試時最佳化方法，用於估計整個影片的完整和全局一致的運動。引入了一個新的視頻運動表示，稱為OmniMotion，它包括一個準3D標準volume和每幀的local-canonical雙射。 OmniMotion可以處理具有不同攝影機設定和場景動態的普通視頻，並透過遮擋產生準確且平滑的長距離運動。在品質和數量上，都比以前的最先進方法取得了顯著的改善。

标题重写：ICCV 2023优秀学生论文跟踪，Github已经获得1.6K star，仿佛魔法般的全面信息！

需要重寫的內容是：原文連結：https://mp.weixin.qq.com/s/HOIi5y9j-JwUImhpHPYgkg

以上是標題重寫：ICCV 2023優秀學生論文跟踪，Github已經獲得1.6K star，彷彿魔法般的全面信息！的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

论文插图也能自动生成了，用到了扩散模型，还被ICLR接收Jun 27, 2023 pm 05:46 PM

生成式AI已经风靡了人工智能社区，无论是个人还是企业，都开始热衷于创建相关的模态转换应用，比如文生图、文生视频、文生音乐等等。最近呢，来自ServiceNowResearch、LIVIA等科研机构的几位研究者尝试基于文本描述生成论文中的图表。为此，他们提出了一种FigGen的新方法，相关论文还被ICLR2023收录为了TinyPaper。图片论文地址：https://arxiv.org/pdf/2306.00800.pdf也许有人会问了，生成论文中的图表有什么难的呢？这样做对于科研又有哪些帮助呢

聊天截图曝出AI顶会审稿潜规则！AAAI 3000块即可strong accept？Apr 12, 2023 am 08:34 AM

正值AAAI 2023论文截止提交之际，知乎上突然出现了一张AI投稿群的匿名聊天截图。其中有人声称，自己可以提供「3000块一个strong accept」的服务。爆料一出，顿时引起了网友们的公愤。不过，先不要着急。知乎大佬「微调」表示，这大概率只是「口嗨」而已。据「微调」透露，打招呼和团伙作案这个是任何领域都不能避免的问题。随着openreview的兴起，cmt的各种弊端也越来越清楚，未来留给小圈子操作的空间会变小，但永远会有空间。因为这是个人的问题，不是投稿系统和机制的问题。引入open r

CVPR 2023放榜，录用率25.78%！2360篇论文被接收，提交量暴涨至9155篇Apr 13, 2023 am 09:37 AM

刚刚，CVPR 2023发文称：今年，我们收到了创纪录的9155份论文（比CVPR2022增加了12%），并录用了2360篇论文，接收率为25.78%。据统计，CVPR的投稿量在2010-2016的7年间仅从1724增加到2145。在2017年后则迅速飙升，进入快速增长期，2019年首次突破5000，至2022年投稿数已达到8161份。可以看到，今年提交了共9155份论文确实创下了最高记录。疫情放开后，今年的CVPR顶会将在加拿大举行。今年采用单轨会议的形式，并取消了传统Oral的评选。谷歌研究

上交大校友获最佳论文，机器人顶会CoRL 2022奖项公布Apr 11, 2023 pm 11:43 PM

自 2017 年首次举办以来，CoRL 已经成为了机器人学与机器学习交叉领域的全球顶级学术会议之一。CoRL 是面向机器人学习研究的 single-track 会议，涵盖机器人学、机器学习和控制等多个主题，包括理论与应用。2022年的CoRL大会于12月14日至18日在新西兰奥克兰举行。本届大会共收到504篇投稿，最终接收34篇Oral论文、163篇Poster论文，接收率为39%。目前，CoRL 2022 公布了最佳论文奖、最佳系统论文奖、特别创新奖等全部奖项。宾夕法尼亚大学GRASP实验

Nature新规：用ChatGPT写论文可以，列为作者不行Apr 11, 2023 pm 01:13 PM

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。面对ChatGPT，Nature终于坐不住了。本周，这家权威学术出版机构下场，针对ChatGPT代写学研文章、被列为作者等一系列问题，给了定性。具体来说，Nature列出两项原则：（1）任何大型语言模型工具（比如ChatGPT）都不能成为论文作者；（2）如在论文创作中用过相关工具，作者应在“方法”或“致谢”或适当的部分明确说明。现在，上述要求已经添进作者投稿指南中。近段时间，ChatGPT染指学研圈情况越来越多。去年1

学术专用版ChatGPT火了，一键完成论文润色、代码解释、报告生成Apr 04, 2023 pm 01:05 PM

用 ChatGPT 辅助写论文这件事，越来越靠谱了。 ChatGPT 发布以来，各个领域的从业者都在探索 ChatGPT 的应用前景，挖掘它的潜力。其中，学术文本的理解与编辑是一种极具挑战性的应用场景，因为学术文本需要较高的专业性、严谨性等，有时还需要处理公式、代码、图谱等特殊的内容格式。现在，一个名为「ChatGPT 学术优化（chatgpt_academic）」的新项目在 GitHub 上爆火，上线几天就在 GitHub 上狂揽上万 Star。项目地址：https://github.com/

快速学习InstructGPT论文的关键技术点：跟随李沐掌握ChatGPT背后的技术Apr 24, 2023 pm 04:04 PM

在ChatGPT走红之后，很多关注技术的同学都在问一个问题：有没有什么学习资料可以让我们系统地了解ChatGPT背后的原理？由于OpenAI还没有发布ChatGPT相关论文，这一问题变得棘手起来。不过，从OpenAI关于ChatGPT的博客中我们知道，ChatGPT用到的方法和它的兄弟模型——InstructGPT一样，只不过InstructGPT是在GPT-3上微调的，而ChatGPT则是基于GPT-3.5。在数据收集工作上，二者也存在一些差别。博客链接：ht

DeepMind用AI重写排序算法；将33B大模型塞进单个消费级GPUJun 12, 2023 pm 06:49 PM

目录：FastersortingalgorithmsdiscoveredusingdeepreinforcementlearningVideo-LLaMA:AnInstruction-tunedAudio-VisualLanguageModelforVideoUnderstandingPatch-based3DNaturalSceneGenerationfromaSingleExampleSpatio-temporalDiffusionPointProcessesSpQR:ASparse-Qua

See all articles