過去幾年,在自動駕駛和 VR 等應用的推動下,使用 2D 和 3D 感測器(如 RGB 感測器、LiDARs 或雷達)進行人體姿態估計取得了很大進展。但是,這些感測器在技術上和實際使用中都存在一些限制。首先成本高,一般家庭或小型企業往往承擔不起 LiDAR 和雷達感測器的費用。其次,這些感測器對於日常和家用而言太過耗電。
至於 RGB 相機,狹窄的視野和惡劣的照明條件會對基於相機的方法造成嚴重影響。遮蔽成為阻礙基於相機的模型在影像中產生合理姿態預測的另一個障礙。室內場景尤其難搞,家具通常會擋住人。更重要的是,隱私問題阻礙了在非公共場所使用這些技術,許多人不願意在家中安裝攝影機記錄自己的行為。但在醫療領域,出於安全、健康等原因,許多老年人有時必須在攝影機和其他感測器的幫助下進行即時監控。
近日,CMU 的三位研究者在論文《DensePose From WiFi》中提出,在某些情況下,WiFi 訊號可以作為RGB 影像的替代來進行人體感知。照明和遮蔽對用於室內監控的 WiFi 解決方案影響不大。 WiFi 訊號有助於保護個人隱私,所需的相關設備也能以合理的價格買到。關鍵的一點是,許多家庭都安裝了 WiFi,因此這項技術有可能擴展到監控老年人的健康狀況或識別家中的可疑行為。
論文網址:https://arxiv.org/pdf/2301.00250.pdf
研究者想要解決的問題如下圖1 第一行所示。 給定 3 個 WiFi 發射器和 3 個對應的接收器,能否在多人的雜亂環境中檢測和復原密集人體姿態對應關係(圖 1 第四行)? 要注意的是,許多 WiFi 路由器(如 TP-Link AC1750)都有 3 個天線,因此本文方法只需要 2 個這樣的路由器。每個路由器的價格約為 30 美元,這意味著整個設定仍然比 LiDAR 和雷達系統便宜得多。
為了實現如圖1 第四行的效果,研究者從電腦視覺的深度學習架構中獲得靈感,提出了一種可以基於WiFi 執行密集姿態估計的神經網路架構,並實現了在有遮蔽和多人的場景中僅利用WiFi 訊號來估計密集姿態。
下圖左為以影像為基礎的 DensePose,圖右為基於 WiFi 的 DensePose。
圖來源:推特@AiBreakfast
##另外,值得一提的是,論文一二作均為華人。論文一作 Jiaqi Geng 在去年 8 月取得了 CMU 機器人專業碩士學位,二作 Dong Huang 現為 CMU 高級專案科學家。
方法介紹
#想要利用WiFi 產生人體表面的UV 座標需要三個元件:先透過振幅和相位步驟對原始CSI( Channel-state-information,表示發射訊號波與接收訊號波之間的比值)訊號進行清理處理;然後,將處理過的CSI 樣本透過雙分支編碼器- 解碼器網路轉換為2D 特徵圖;接著將2D 特徵圖饋送到一個叫做DensePose-RCNN 架構中(主要是把2D 影像轉換為3D 人體模型),以估計UV 圖。
原始CSI 樣本帶有雜訊(見圖3 (b)),不僅如此,大多數基於WiFi 的解決方案都忽略了CSI 訊號相位,而專注於訊號的振幅(見圖3 (a ))。然而丟棄相位資訊會對模型性能產生負面影響。因此,該研究執行清理(sanitization)處理以獲得穩定的相位值,從而更好的利用 CSI 資訊。
為了從一維CSI 訊號估計出空間域中的UV 映射,首先需要將網路輸入從CSI域轉換到空間域。本文採用 Modality Translation Network 完成(如圖 4)。經過一番操作,就可以得到由 WiFi 訊號產生的影像域中的 3×720×1280 場景表示。
在圖像域中獲得3×720×1280 場景表示後,研究採用類似於DensePose-RCNN 的網路架構WiFi-DensePose RCNN 來預測人體UV 圖。具體而言,在 WiFi-DensePose RCNN(圖 5)中,研究使用 ResNet-FPN 作為主幹,並從獲得的 3 × 720 × 1280 影像特徵圖中提取空間特徵。然後將輸出輸送到區域提議網路。為了更好地利用不同來源的互補訊息,WiFi-DensePose RCNN 還包含兩個分支,DensePose head 和 Keypoint head,之後處理結果被合併輸入到 refinement 單元。
然而從隨機初始化訓練 Modality Translation Network 和 WiFi-DensePose RCNN 網路需要大量時間(約 80 小時)。為了提高訓練效率,研究將一個基於影像的 DensPose 網路遷移到基於 WiFi 的網路中(詳見圖 6)。
直接初始化基於WiFi 的網路與基於圖像的網路權重無法運作,因此,該研究首先訓練了一個基於圖像的DensePose-RCNN 模型作為教師網絡,學生網絡由modality translation 網路和WiFi-DensePose RCNN 組成。這樣做的目的是最小化學生模型與教師模型產生的多層特徵圖之間的差異。
表1 結果顯示,基於WiFi 的方法得到了很高的AP@50 值,為87.2,這表明模型可以有效地檢測出人體bounding boxes 的大致位置。 AP@75 相對較低,值為 35.6,這表示人體細節沒有完美估計值。
表2 結果顯示dpAP・GPS@50 和dpAP・GPSm@50 值較高,但dpAP・GPS@75 和dpAP・GPSm @75 值較低。這表明本文模型在估計人體軀幹的姿勢方面表現良好,但在檢測四肢等細節方面仍有困難。
表 3 和表 4 的定量結果顯示,基於影像的方法比基於 WiFi 的方法產生了非常高的 AP。基於 WiFi 的模型 AP-m 值與 AP-l 值的差異相對較小。該研究認為這是因為離相機遠的人在圖像中佔據的空間更少,這導致關於這些物體的資訊更少。相反,WiFi 訊號包含了整個場景中的所有訊息,而不管拍攝主體的位置。
#以上是全身追蹤、不怕遮擋,CMU兩位華人做了個基於WiFi訊號的DensePose的詳細內容。更多資訊請關注PHP中文網其他相關文章!