開放域偵測問題,指的是在上游利用大量網路上爬取的圖文對或某一類別的人工標註資料進行訓練,如何在下游場景上實現任意類別偵測的問題。開放域偵測方法在產業界的應用主要包括自動駕駛系統路面物體偵測,雲端全場景偵測等。
#論文網址:https://arxiv.org/abs/2209.09407
本篇分享的是NeurIPS 2022 入選論文《DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection》,該論文對開放域偵測問題提出了一種針對多資料來源聯合高效的並行訓練框架,同時建構了額外的知識庫來提供類別間的隱式關係。同時 DetCLIP 在微軟舉辦的 ECCV2022 OdinW (Object Detection in the Wild[1]) 比賽上以 24.9% 的平均偵測指標取得了 zero-shot 偵測賽道第一名。
問題介紹
隨著使用基於網路爬取的圖片文字對訓練的多模態預訓練模型(如CLIP) 的流行,以及其在zero -shot 分類領域體現出的卓越性能,越來越多的方法嘗試將這種能力遷移至開放域的dense 預測(如任意類別檢測、分割等)。現有方法往往使用預先訓練好的分類大模型進行特徵層面的蒸餾[1] 或透過對caption 打偽標籤加自訓練的方式進行學習[2],但這樣往往會受限制於分類大模型的性能以及caption 標註不完全的問題。
現有SOTA 開放域偵測模型GLIP[3]透過將偵測資料的格式轉換為Grounding 資料的格式進行多重資料來源的聯合訓練,充分利用不同資料來源的優勢(偵測資料集對常見類別有較為完全的標註,而Grounding 資料集對類別cover 區間的範圍較大)。然而,我們發現將類別名詞簡拼接的方式導致模型整體的學習效率降低,同時直接使用類別單字作為文字輸入無法提供細粒度的類別之間的先驗關係。
圖1:多資料來源聯合預訓練開放域偵測模型pipeline
模型框架
如下圖所示,基於ATSS[4]單階段偵測模型搭建,DetCLIP 包含了一個影像編碼器 來獲得檢測框的圖像特徵,以及一個文字編碼器來獲得類別的文字特徵。接著基於上述影像特徵及文字特徵來計算對應的分類對齊損失、中心點損失以及迴歸損失。
圖2:DetCLIP 模型框架
如圖2 右上及左上所示,本文的主要創新點是1)提出以並行輸入處理多資料來源物件- 文字聯合訓練的框架,優化訓練效率;2)建構一個額外的物件知識庫輔助開放域檢測訓練。
多重資料來源並行輸入預訓練框架
相對於GLIP 中將detection 資料透過拼接類別名詞的方式轉換為grounding 形式(串列),我們透過將 grounding 資料中的對應名詞詞組抽取出來和detection 中的類別作為獨立的輸入,輸入到text encoder 中(並行),避免不必要的attention 計算,實現更高的訓練效率。
圖3:DetCLIP 並行輸入預訓練框架與GLIP 對比
##物件知識庫為了解決不同資料來源的類別空間不統一問題(同樣類別名稱不同,或類別包含等) 以及為類別之間的關係提供先驗信息,我們構建了物體知識庫來實現更有效率的訓練。
建構:我們同時綜合檢測資料中的類別、image-text pair 中的名詞詞組以及對應定義來建立物件知識庫。
使用:1. 我們使用物件知識庫的定義對現有的偵測資料中的類別單字進行擴充,以提供類別之間關係的先驗資訊(Concept Enrichment) 。
圖4:使用物件知識庫對類別單字釋義擴充範例
2. 由於grounding 資料以及image-caption 中資料存在caption 標註不完全的問題(圖片上出現的類別在caption 中並沒有出現),導致訓練這些圖片的時候可以作為負樣本的類別數目極少,進而使得模型對於一些不常見類別的區分度較少。因此我們從物件知識庫中隨機選取物體名詞作為負樣本類別,提升模型對稀少類別特徵的區分度( Negative Samples)。
圖5:引入物件知識庫中的類別作為負樣本類別
#3. 對於無框標註的image-text pair 數據,我們透過華為諾亞自研大模型FILIP[5]和預訓練好的RPN 對其進行標註,使其可以轉化為正常的grounding 資料進行訓練。同時為了緩解caption 中對圖片上物體不完全標註的問題,我們使用了物體知識庫的所有類別詞組作為打偽標籤的候選類別(第二行),與僅使用caption 中的類別標註效果(第一行) 比較如下:
圖6:引入物件知識庫中的類別為偽標籤候選類別
實驗結果我們在下游LVIS 偵測資料集(1203 類別) 上驗證了所提方法的開放域偵測效能,可以看出在基於swin-t backbone 的架構上,DetCLIP 相對於現有SOTA 模型GLIP 取得了9.9% AP 提升,在Rare 類別上更是提升了12.4% AP,儘管相對於GLIP 我們只使用了少於其一半的資料量,注意訓練集中未包含LVIS 中任何圖片。
表1:LVIS 上不同方法Zero-shot transfer performance 比較
#在訓練效率上,基於相同32 張V100 的硬體條件,GLIP-T 的訓練時間是DetCLIP-T 的5 倍(10.7K GPU hrs vs. 2.0K GPU hrs)。在測試效率上,基於單張 V100,DetCLIP-T 的推理效率 2.3 FPS (0.4 秒每張圖)是 GLIP-T 的 0.12 FPS (8.6 秒每張圖)的 20 倍。我們同時單獨研究了 DetCLIP 的關鍵創新 (平行框架和物體知識庫) 對精確度的影響。
表3:DetCLIP 在LVIS 資料集上的消融研究結果
##視覺化結果如下圖所示,基於相同的swin-t backbone,在LVIS 資料集上的視覺化效果相對於GLIP 來說有了明顯的提升,尤其是在稀有類別的標註以及標註的完整程度。
#圖7:DetCLIP 與GLIP 在LVIS 資料集上預測結果的視覺化對比#
以上是NeurIPS 2022 | 開放域偵測新方法DetCLIP,推理效率提升20倍的詳細內容。更多資訊請關注PHP中文網其他相關文章!

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

記事本++7.3.1
好用且免費的程式碼編輯器

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器