標註之殤
靜態物體偵測(SOD),包括交通號誌、導向卡和交通錐,大多數演算法是資料驅動深度神經網絡,需要大量的訓練資料。現在的做法通常是對大量的訓練樣本在 LiDAR 掃描的點雲資料上進行手動標註,以修復長尾案例。
手動標註難以捕捉真實場景的變異性和複雜性,通常無法考慮遮蔽、不同的光照條件和多樣的視角(如圖1的黃色箭頭) 。 整個製程鏈路長、極度耗時、容易出錯、成本相當高(如圖2)。 所以目前公司都尋求自動標註方案,特別是基於純視覺,畢竟不是每輛車都有光達。
VRSO 是一種以視覺為主、面向靜態物件標註的標註系統,主要利用了SFM、2D物件偵測和實例分割結果的訊息,整體效果:
- 標註的平均投影誤差僅2.6像素,約為Waymo標註的四分之一(10.6像素)
- 與人工標註相比,速度提高了約16倍
對於靜態物體,VRSO透過實例分割和輪廓提取關鍵點,解決了從不同視角整合和去重靜態物件的挑戰,以及由於遮蔽問題而導致觀察不足的困難,從而提高了標註的準確性。 從圖1上看,與Waymo Open資料集的手動標註結果相比,VRSO展示了更高的穩健性和幾何精度。
(都看到這裡了,不如大拇指往上滑,點擊最上方的卡片關注我,整個操作只會花你1.328 秒,然後帶走未來所有乾貨,萬一有用呢~)
破局之法
VRSO系統主要分為兩部分:場景重建與靜態物件標註。
重建部分不是重點,就是基於 SFM 演算法來恢復圖片 pose 和稀疏的 3D 關鍵點。
靜態物件標註演算法,配合偽代碼,大致流程是(以下會分步驟詳細展開):
- 採用現成的2D物件偵測與分割演算法產生候選
- 利用SFM 模型中的3D-2D 關鍵點對應關係來追蹤跨幀的2D 實例
- 引入重投影一致性來優化靜態物件的3D註解參數
1.追蹤關聯
- step 1:根據SFM 模型的關鍵點提取3D 邊界框內的3D 點。
- step 2:根據 2D-3D 匹配關係計算每個 3D 點在 2D 地圖上的座標。
- step 3:基於 2D 地圖座標和實例分割角點來決定目前 2D 地圖上 3D 點的對應實例。
- step 4:確定每個 2D 影像的 2D 觀察值與 3D 邊界框之間的對應關係。
2.proposal 產生
對靜態物件的 3D 框參數(位置、方向、大小)進行整個影片剪輯的初始化。 SFM 的每個關鍵點都有準確的3D位置和對應的 2D 影像。對於每個 2D 實例,提取 2D 實例遮罩內的特徵點。然後,一組對應 3D 關鍵點可以被視為 3D 邊界框的候選。
路牌被表示為在空間中具有方向的矩形,它有6個自由度,包括平移(、、)、方向(θ)和大小(寬度和高度)。考慮到其深度,交通號誌具有7個自由度。交通錐的表示方式與交通號誌類似。
3.proposal refine
- step 1:從 2D 實例分割中擷取每個靜態物件的輪廓。
- step 2:為輪廓輪廓擬合最小定向邊界框(OBB)。
- step 3:擷取最小邊界框的頂點。
- step 4:根據頂點和中心點計算方向,並決定頂點順序。
- step 5:基於2D偵測和實例分割結果進行了分割和合併過程。
- step 6:偵測並拒絕包含遮蔽的觀察值。從2D實例分割蒙版中擷取頂點要求每個標示牌的四個角落都可見。如果有遮擋,從實例分割中提取軸對齊邊界框(AABB),並計算AABB與2D檢測框之間的面積比。如果沒有遮擋,這兩種面積計算方法應該是接近的。
4.三角化
透過三角化在3D條件下取得靜態物件的初始頂點值。
透過檢查在場景重建期間由 SFM 和實例分割獲得的3D邊界框中的關鍵點數量,只有關鍵點數量超過閾值的實例被認為是穩定且有效的觀測。對於這些實例,相應的 2D 邊界框被視為有效的觀測。透過多張影像的 2D 觀測,將 2D邊界框頂點進行三角化,以取得邊界框的座標。
對於沒有在遮罩上區分「左下、左上、右上、右上和右下」頂點的圓形標牌,需要辨識這些圓形標牌。使用 2D 偵測結果作為圓形物體的觀測結果,使用 2D 實例分割遮罩進行輪廓擷取。透過最小平方法擬合演算法計算出中心點和半徑。圓形標誌的參數包括中心點(、、)、方向(θ)和半徑()。
5.tracking refine
追蹤基於 SFM 的特徵點匹配。根據 3D 邊界框頂點的歐式距離和 2D 邊界框投影 IoU 來決定是否合併這些分開的實例。一旦合併完成,實例內的 3D 特徵點可以聚集以關聯更多的2D特徵點。進行迭代2D-3D關聯,直到無法增加任何2D特徵點。
6.最終參數最佳化
以矩形標牌為例,可最佳化的參數包含位置(、、)、方向(θ)和大小(、),總共六個自由度。主要步驟包括:
- 將六個自由度轉換為四個 3D 點,並計算旋轉矩陣。
- 將轉換後的四個 3D 點投影到2D影像上。
- 計算投影結果與實例分割所得到的角點結果之間的殘差。
- 使用Huber 進行最佳化更新邊界框參數
標註效果
總結一下
VRSO 框架實現了靜態物件高精度和一致的3D標註,緊密整合了檢測、分割和SFM 演算法,消除了智慧駕駛標註中的人工幹預,提供了與基於LiDAR的手動標註相媲美的結果。和廣泛認可的Waymo Open Dataset進行了定性和定量評估:與人工標註相比,速度提高了約16倍,同時保持了最佳的一致性和準確性。以上是效率狂增16倍! VRSO:純視覺靜態物件3D標註,打通資料閉環!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

写在前面&笔者的个人理解三维Gaussiansplatting(3DGS)是近年来在显式辐射场和计算机图形学领域出现的一种变革性技术。这种创新方法的特点是使用了数百万个3D高斯,这与神经辐射场(NeRF)方法有很大的不同,后者主要使用隐式的基于坐标的模型将空间坐标映射到像素值。3DGS凭借其明确的场景表示和可微分的渲染算法,不仅保证了实时渲染能力,而且引入了前所未有的控制和场景编辑水平。这将3DGS定位为下一代3D重建和表示的潜在游戏规则改变者。为此我们首次系统地概述了3DGS领域的最新发展和关

您一定记得,尤其是如果您是Teams用户,Microsoft在其以工作为重点的视频会议应用程序中添加了一批新的3DFluent表情符号。在微软去年宣布为Teams和Windows提供3D表情符号之后,该过程实际上已经为该平台更新了1800多个现有表情符号。这个宏伟的想法和为Teams推出的3DFluent表情符号更新首先是通过官方博客文章进行宣传的。最新的Teams更新为应用程序带来了FluentEmojis微软表示,更新后的1800表情符号将为我们每天

0.写在前面&&个人理解自动驾驶系统依赖于先进的感知、决策和控制技术,通过使用各种传感器(如相机、激光雷达、雷达等)来感知周围环境,并利用算法和模型进行实时分析和决策。这使得车辆能够识别道路标志、检测和跟踪其他车辆、预测行人行为等,从而安全地操作和适应复杂的交通环境.这项技术目前引起了广泛的关注,并认为是未来交通领域的重要发展领域之一。但是,让自动驾驶变得困难的是弄清楚如何让汽车了解周围发生的事情。这需要自动驾驶系统中的三维物体检测算法可以准确地感知和描述周围环境中的物体,包括它们的位置、

当八卦开始传播新的Windows11正在开发中时,每个微软用户都对新操作系统的外观以及它将带来什么感到好奇。经过猜测,Windows11就在这里。操作系统带有新的设计和功能更改。除了一些添加之外,它还带有功能弃用和删除。Windows11中不存在的功能之一是Paint3D。虽然它仍然提供经典的Paint,它对抽屉,涂鸦者和涂鸦者有好处,但它放弃了Paint3D,它提供了额外的功能,非常适合3D创作者。如果您正在寻找一些额外的功能,我们建议AutodeskMaya作为最好的3D设计软件。如

ChatGPT给AI行业注入一剂鸡血,一切曾经的不敢想,都成为如今的基操。正持续进击的Text-to-3D,就被视为继Diffusion(图像)和GPT(文字)后,AIGC领域的下一个前沿热点,得到了前所未有的关注度。这不,一款名为ChatAvatar的产品低调公测,火速收揽超70万浏览与关注,并登上抱抱脸周热门(Spacesoftheweek)。△ChatAvatar也将支持从AI生成的单视角/多视角原画生成3D风格化角色的Imageto3D技术,受到了广泛关注现行beta版本生成的3D模型,

对于自动驾驶应用来说,最终还是需要对3D场景进行感知。道理很简单,车辆不能靠着一张图像上得到感知结果来行驶,就算是人类司机也不能对着一张图像来开车。因为物体的距离和场景的和深度信息在2D感知结果上是体现不出来的,而这些信息才是自动驾驶系统对周围环境作出正确判断的关键。一般来说,自动驾驶车辆的视觉传感器(比如摄像头)安装在车身上方或者车内后视镜上。无论哪个位置,摄像头所得到的都是真实世界在透视视图(PerspectiveView)下的投影(世界坐标系到图像坐标系)。这种视图与人类的视觉系统很类似,

一些原神“奇怪”的关键词,在这两天很有关注度,明明搜索指数没啥变化,却不断有热议话题蹦窜。例如了龙王、钟离等“转变”立绘激增,虽在网络上疯传了一阵子,但是经过追溯发现这些是合理、常规的二创同人。如果单是这些,倒也翻不起多大的热度。按照一部分网友的说法,除了原神自身就有热度外,发现了一件格外醒目的事情:原神3d同人作者shirakami已经被捕。这引发了不小的热议。为什么被捕?关键词,原神3D动画。还是越过了线(就是你想的那种),再多就不能明说了。经过多方求证,以及新闻报道,确实有此事。自从去年发

原标题:Radocc:LearningCross-ModalityOccupancyKnowledgethroughRenderingAssistedDistillation论文链接:https://arxiv.org/pdf/2312.11829.pdf作者单位:FNii,CUHK-ShenzhenSSE,CUHK-Shenzhen华为诺亚方舟实验室会议:AAAI2024论文思路:3D占用预测是一项新兴任务,旨在使用多视图图像估计3D场景的占用状态和语义。然而,由于缺乏几何先验,基于图像的场景


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Dreamweaver CS6
視覺化網頁開發工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),