同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀

PHPz

Apr 09, 2023 pm 01:41 PM

模型研究論文

本文解讀我們獲得 CVPR 2022 最佳學生論文獎的工作《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation》。論文研究的問題是基於單張影像估計物體在 3D 空間中的位姿。在現有方法中，基於PnP 幾何優化的位姿估計方法往往透過深度網路提取2D-3D 關聯點，然而因為位姿最適解在反向傳播時存在不可導的問題，難以實現以位姿誤差作為損失對網路進行穩定的端到端訓練，此時2D-3D 關聯點依賴其他代理損失的監督，這對於位姿估計而言不是最佳的訓練目標。

為解決這個問題，我們從理論出發，提出了EPro-PnP 模組，其輸出位姿的機率密度分佈而非單一的位姿最優解，從而將不可導的最優位姿替換為了可導的機率密度，實現了穩定的端到端訓練。 EPro-PnP 通用性強，適用於各類特定任務和數據，可以用於改進現有的基於 PnP 的位姿估計方法，也可以藉助其靈活性訓練全新的網絡。從更一般的意義來說，EPro-PnP 本質是將常見的分類 softmax 帶入到了連續域，理論上可以推廣至訓練一般的嵌套了優化層的模型。

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀

論文連結：https://arxiv.org/abs/2203.13254

程式碼連結：https://github.com/tjiiv-cprg/EPro-PnP

一、前言

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀

######################## #######我們研究的是3D 視覺中的一個經典問題：基於單張RGB 影像定位其中的3D 物件。具體而言，給定一張含有 3D 物件投影的影像，我們的目標是確定物體座標係到相機座標系的剛體變換。此剛體變換稱為物體的位姿，記作y，其包含兩部分：1）位置（position）分量，可用3x1 的位移向量t 表示，2）朝向（orientation）分量，可用3x3 的旋轉矩陣R 表示。 #####################針對此問題，現有方法可分為明確與隱式兩大類。顯式方法也可稱作######直接位姿預測######，即使用前饋神經網路（FFN）直接輸出物體位姿的各個分量，通常是：1）預測物體的深度，2）找出物體中心點在影像上的2D 投影位置，3）預測物體的朝向（朝向的特定處理方法可能比較複雜）。利用標有物體真實位姿的影像數據，可以設計損失函數直接監督位姿預測結果，輕鬆實現網路的端到端訓練。然而，這樣的網路缺乏可解釋性，在規模較小的資料集上易於過度擬合。在 3D 目標偵測任務中，顯式方法佔據主流，尤其是對於規模較大的資料集（例如 nuScenes）。 ##################

隱式方法則是基於幾何最佳化的位姿估計方法，最典型的代表是基於 PnP 的位姿估計方法。這類方法中，首先需要在影像座標系中找出N 個2D 點（第i 點2D 坐標記作同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀），同時在物體座標系中找出與之相關聯的N 個3D 點（第i 點3D 坐標記作），有時還需要取得各對點的關聯權重（第i 對點的關聯權重記作#）。根據透視投影約束，這 N 對 2D-3D 加權關聯點隱式地定義了物體的最優位姿。具體而言，我們可以找出使重投影誤差最小的物體位姿同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀：

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀，表示加權重投影誤差，是位姿的函數。表示含有內參的相機投影函數，表示元素乘積。 PnP 方法常見於物體幾何形狀已知的 6 自由度位姿估計任務中。

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀

基於 PnP 的方法也需要前饋網路去預測 2D-3D 關聯點集同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀。相較於直接位姿預測，這項深度學習結合傳統幾何視覺演算法的模型有非常好的可解釋性，其泛化表現較為穩定，但在以往的工作中模型的訓練方法有缺陷。很多方法透過建構代理損失函數，去監督 X 這一中間結果，這對位姿而言不是最優的目標。例如，已知物體形狀的前提下，可以預先選取到物體的 3D 關鍵點，然後訓練網路找出對應的 2D 投影點位置。這也意味著代理損失只能學習 X 中的部分變量，因此不夠靈活。如果我們不知道訓練集中物體的形狀，需要從零開始學習 X 中的全部內容該怎麼辦？

顯示和隱式方法的優勢互補，如果能夠透過監督PnP 輸出的位姿結果，端到端地訓練網路去學習關聯點集X ，則可以將二者優勢結合。為實現這一目標，一些近期研究利用隱函數求導實現了 PnP 層的反向傳播。然而，PnP 中的 argmin 函數在某些點是不連續不可導的，使得反向傳播並不穩定，直接訓練難以收斂。

###

二、EPro-PnP 方法介紹

##1、EPro-PnP 模組

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀

##為了實現穩定的端到端訓練，我們提出了

端對端機率PnP（end-to-end probabilistic PnP），即EPro-PnP##。其基本思想是將隱式位姿視為一個機率分佈，則其機率密度對於 X 是可導的。首先基於重投影誤差定義位姿的似然函數：同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀 #若使用無資訊先驗，則位姿的後驗機率密度為似然函數的歸一化結果：

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀可以注意到，以上公式與常用的分類softmax 公式

分數接近，其實EPro-PnP 的本質就是將softmax從離散閾值搬到了連續閾，把求和同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀 ##換成了積分。 2、KL 散度損失

在訓練模型的過程中，已知物件真實位姿

，則可以定義目標位姿分佈同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀。此時可以計算 KL 散度作為訓練網路所使用的損失函數（因固定，也可以理解為交叉熵損失函數）。在目標趨近於Dirac 函數的情況下，基於KL 散度的損失函數可以簡化為以下形式：同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀

##如對其求導則有：

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀

可見，此損失函數由兩項構成，第一項（記作同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀）試圖降低位元姿真值的重投影誤差，第二項（記作）試圖增加預測位姿各處的重投影誤差。二者方向相反，效果如下圖（左）所示。作為類比，右邊就是我們在訓練分類網路時常用的分類交叉熵損失。

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀

3、蒙特卡羅位元姿損失

#需要注意到，KL 損失中的第二項同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀中含有積分，這一積分沒有解析解，因此必須透過數值方法來近似。綜合考慮通用性，精確度和計算效率，我們採用蒙特卡羅方法，透過取樣來模擬位姿分佈。

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀

具體而言，我們採用了一個重要性取樣演算法－Adaptive Multiple Importance Sampling（AMIS），計算出K個帶有權重同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀的位姿樣本，我們將此過程稱為蒙特卡羅PnP：

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀

據此，第二項同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀可以近似為關於權重的函數，且可以反向傳播：

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀

位元姿取樣的視覺化效果如下圖所示：

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀

4、針對PnP 解算器的導數正則化

儘管蒙特卡羅PnP 損失可以用於訓練網路得到高品質的位姿分佈，但在推理階段，還是需要通過PnP最佳化求解器來得到最優位姿解同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀。常用的高斯 - 牛頓及其衍生演算法透過迭代最佳化求解，其迭代增量是由代價函數的一階和二階導數決定的。要使 PnP 的解更接近真值，可以將代價函數的導數進行正規化。設計正規化損失函數如下：

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀

其中，同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀為高斯- 牛頓迭代增量，與代價函數的一階和二階導數有關，且可以反向傳播，表示距離測量，對於位置使用smooth L1，對於朝向使用cosine similarity。當不一致時，此損失函數促使迭代增量同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀指向實際真值。

三、基於EPro-PnP 的位姿估計網路

#我們在6 自由度位姿估計和3D 目標偵測兩個子任務上分別使用了不同的網路。其中，對於6 自由度位姿估計，在ICCV 2019 的CDPN 網路的基礎上稍加修改並用EPro-PnP 訓練，用來進行ablation studies；對於3D 目標檢測，在ICCVW 2021 的FCOS3D 基礎上設計了全新的變形關聯（deformable correspondence）檢測頭，以證明EPro-PnP 可以訓練網絡在沒有物體形狀知識的情況下直接學出所有2D-3D 點和關聯權重，從而展現EPro-PnP 在應用方面的靈活性。

1、用於 6 自由度位姿估計的稠密關聯網路

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀

網路架構如上圖所示，只是在原始 CDPN 的基礎上修改了輸出層。原始 CDPN 使用已偵測到的物件 2D 方塊裁切出區域影像，輸入到 ResNet34 backbone 中。原版 CDPN 將位置與朝向解耦為兩個分支，位置分支使用直接預測的明確方法，而朝向分支使用稠密關聯和 PnP 的隱式方法。為了研究 EPro-PnP，改動後的網路只保留了稠密關聯分支，其輸出為 3 個通道的 3D 座標圖，以及 2 個通道關聯權重，其中關聯權重經過了 spatial softmax 和 global weight scaling。增加 spatial softmax 目的是對權重同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀進行歸一化，使其具有類似 attention map 的性質，可以關注相對重要的區域，實驗證明權重歸一化也是穩定收斂的關鍵。 Global weight scaling 反映了位姿分佈的集中程度。此網路僅需 EPro-PnP 的蒙特卡洛位姿損失就可以訓練，此外可以增加導數正則化，以及在物體形狀已知的情況下增加額外的 3D 座標回歸損失。

2、用於 3D 目標偵測的變形關聯網路

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀

網路結構如上圖所示。整體而言是基於 FCOS3D 偵測器，參考 deformable DETR 設計的網路結構。在 FCOS3D 的基礎上，保留其 centerness 和 classification 層，而將其原有的位姿預測層替換為 object embedding 和 reference point 層，用於產生 object query。參考 deformable DETR，我們透過預測相對於 reference point 的偏移量得到 2D 取樣位置（也就得到了同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀）。採樣後的 feature 經由 attention 操作聚合為 object feature，用於預測物件層級的結果（3D score，weight scale，3D box size 等）。此外，採樣後各點的 feature 在加入 object embedding 並經由 self attention 處理後輸出各點所對應的的 3D 座標同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀 ##和關聯權重#。所預測的全部可由 EPro-PnP 的蒙特卡羅位姿損失訓練得到，不需要額外正則化就可以收斂並有較高的精度。在此基礎上，可以增加導數正則化損失和輔助損失進一步提升精度。

四、實驗結果

1、6 自由度位姿估計任務

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀

使用LineMOD 資料集實驗，並嚴格與CDPN baseline 進行比對，主要結果如上。可見，增加 EPro-PnP 損失進行端到端訓練，精確度顯著提升（ 12.70）。繼續增加導數正則化損失，精度進一步提升。在此基礎上，使用原版CDPN 的訓練結果初始化並增加epoch（保持總epoch 數與原版CDPN 的完整三階段訓練一致）可以使精度進一步提升，其中預訓練CDPN 的優勢部分來自CDPN 訓練時有額外的mask 監督。

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀 #

上圖是 EPro-PnP 與各種領先方法的比較。由較落後的CDPN 改進而來的EPro-PnP 在精度上接近SOTA，並且EPro-PnP 的架構簡潔，完全基於PnP 進行位姿估計，不需要額外進行顯式深度估計或位姿精修，因此在效率上也有優勢。

2、3D 目標偵測任務

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀

#使用 nuScenes 資料集實驗，與其他方法比較結果如上圖所示。 EPro-PnP 不僅相對 FCOS3D 有了明顯提升，也超越了當時的 SOTA、FCOS3D 的另一個改良版 PGD。更重要的是，EPro-PnP 目前是唯一在 nuScenes 資料集上使用幾何最佳化方法估計位姿的。因nuScenes 資料集規模較大，端到端訓練的直接位姿估計網路已具有較好性能，而我們的結果說明了端到端地訓練基於幾何優化的模型能做到在大數據集上取得更加優異的性能。

3、視覺化分析

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀

#上圖顯示了 EPro-PnP 訓練的稠密關聯網路的預測結果。其中，關聯權重圖同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀對影像中的重要區域進行了高光，類似於 attention 機制。由損失函數分析可知，高光區域對應的是重投影不確定性較低以及對位姿變動較為敏感的區域。

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀

3D 目標偵測的結果如上圖所示。其中左上視圖顯示了變形關聯網絡採樣出的2D 點位置，紅色表示同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀水平X 分量較高的帶你，綠色表示垂直Y 分量較高的點。綠點一般位於物體上下兩端，其主要作用是透過物體高度來推算物體的距離，此特性並非人為指定，完全是自由訓練的結果。右圖顯示了俯視圖上的偵測結果，其中藍色雲圖表示物體中心點位置的分佈密度，反映了物體定位的不確定性。一般遠處的物體定位不確定性大於近處的物體。

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀

EPro-PnP 的另一個重要優點在於，能夠透過預測複雜的多峰分佈來表示朝向的模糊性。如上圖所示，Barrier 由於物體本身旋轉對稱，朝向經常出現相差180° 的兩個峰值；Cone 本身沒有特定的朝向，因此預測結果在各個方向均有分佈；Pedestrian 雖不完全旋轉對稱，但因圖像不清晰，不易判斷正面和背面，有時也會出現兩個峰值。這個機率特性使得 EPro-PnP 對於對稱物體不需要在損失函數上做任何特殊處理。

五、總結

EPro-PnP 將原本不可導的最優位姿轉變為可導的位姿機率密度，使得基於PnP 幾何最佳化的位姿估計網路可實現穩定且靈活的端到端訓練。 EPro-PnP 可應用於一般的 3D 物體位姿估計問題，即使在未知 3D 物體幾何形狀的情況下，也可以透過端到端訓練學習得到物體的 2D-3D 關聯點。因此，EPro-PnP 拓寬了網路設計的可能性，例如我們提出的變形關聯網絡，這在以往是不可能訓練的。

此外，EPro-PnP 也可以直接被用於改進現有的基於 PnP 的位姿估計方法，透過端到端訓練釋放現有網路的潛力，提升位姿估計精度。從更一般的意義來說，EPro-PnP 本質是將常見的分類softmax 帶入到了連續域，不僅可用於其他基於幾何優化的3D 視覺問題，理論上還可以推廣至訓練一般的嵌套了優化層的模型。

以上是同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼？這是一作的解讀的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除