靜態物體偵測(SOD),包括交通號誌、導向卡和交通錐,大多數演算法是資料驅動深度神經網絡,需要大量的訓練資料。現在的做法通常是對大量的訓練樣本在 LiDAR 掃描的點雲資料上進行手動標註,以修復長尾案例。
手動標註難以捕捉真實場景的變異性和複雜性,通常無法考慮遮蔽、不同的光照條件和多樣的視角(如圖1的黃色箭頭) 。 整個製程鏈路長、極度耗時、容易出錯、成本相當高(如圖2)。 所以目前公司都尋求自動標註方案,特別是基於純視覺,畢竟不是每輛車都有光達。
VRSO 是一種以視覺為主、面向靜態物件標註的標註系統,主要利用了SFM、2D物件偵測和實例分割結果的訊息,整體效果:
對於靜態物體,VRSO透過實例分割和輪廓提取關鍵點,解決了從不同視角整合和去重靜態物件的挑戰,以及由於遮蔽問題而導致觀察不足的困難,從而提高了標註的準確性。 從圖1上看,與Waymo Open資料集的手動標註結果相比,VRSO展示了更高的穩健性和幾何精度。
(都看到這裡了,不如大拇指往上滑,點擊最上方的卡片關注我,整個操作只會花你1.328 秒,然後帶走未來所有乾貨,萬一有用呢~)
VRSO系統主要分為兩部分:場景重建與靜態物件標註。
重建部分不是重點,就是基於 SFM 演算法來恢復圖片 pose 和稀疏的 3D 關鍵點。
靜態物件標註演算法,配合偽代碼,大致流程是(以下會分步驟詳細展開):
對靜態物件的 3D 框參數(位置、方向、大小)進行整個影片剪輯的初始化。 SFM 的每個關鍵點都有準確的3D位置和對應的 2D 影像。對於每個 2D 實例,提取 2D 實例遮罩內的特徵點。然後,一組對應 3D 關鍵點可以被視為 3D 邊界框的候選。
路牌被表示為在空間中具有方向的矩形,它有6個自由度,包括平移(、、)、方向(θ)和大小(寬度和高度)。考慮到其深度,交通號誌具有7個自由度。交通錐的表示方式與交通號誌類似。
透過三角化在3D條件下取得靜態物件的初始頂點值。
透過檢查在場景重建期間由 SFM 和實例分割獲得的3D邊界框中的關鍵點數量,只有關鍵點數量超過閾值的實例被認為是穩定且有效的觀測。對於這些實例,相應的 2D 邊界框被視為有效的觀測。透過多張影像的 2D 觀測,將 2D邊界框頂點進行三角化,以取得邊界框的座標。
對於沒有在遮罩上區分「左下、左上、右上、右上和右下」頂點的圓形標牌,需要辨識這些圓形標牌。使用 2D 偵測結果作為圓形物體的觀測結果,使用 2D 實例分割遮罩進行輪廓擷取。透過最小平方法擬合演算法計算出中心點和半徑。圓形標誌的參數包括中心點(、、)、方向(θ)和半徑()。
追蹤基於 SFM 的特徵點匹配。根據 3D 邊界框頂點的歐式距離和 2D 邊界框投影 IoU 來決定是否合併這些分開的實例。一旦合併完成,實例內的 3D 特徵點可以聚集以關聯更多的2D特徵點。進行迭代2D-3D關聯,直到無法增加任何2D特徵點。
以矩形標牌為例,可最佳化的參數包含位置(、、)、方向(θ)和大小(、),總共六個自由度。主要步驟包括:
##也有一些具有挑戰性的長尾案例,例如極低的解析度和照明不足。
以上是效率狂增16倍! VRSO:純視覺靜態物件3D標註,打通資料閉環!的詳細內容。更多資訊請關注PHP中文網其他相關文章!