搜尋
首頁科技週邊人工智慧2023年電信AI公司頂會論文及競賽分享

2023年電信AI公司頂會論文及競賽分享

Jan 11, 2024 pm 10:18 PM
電信 ai 公司 頂會 論文 競賽 分享

近年來,中國電信在人工智慧技術方向持續努力。 2023年11月28日,中國電信數位智慧科技分公司正式更名為中電信人工智慧科技有限公司(以下簡稱「電信AI公司」)。 2023年,電信AI公司在21項國內外頂級AI競賽中連續獲獎,申請了100多項專利,並在CVPR、ACM MM、ICCV等頂級會議和期刊上發表了30多篇論文,展現了國資央企在人工智慧技術領域佈局的初步成果

作為中國電信開展人工智慧業務的專業公司,電信AI公司是一家科技型、能力型和平台型企業。公司致力於攻克人工智慧核心技術、研究尖端技術和推動產業空間拓展,旨在成為百億級的人工智慧服務商。在過去的兩年中,電信AI公司成功地自主研發了一系列創新應用成果,如星河AI演算法倉賦能平台、星雲AI四級算力平台和星辰通用基礎大模型等。現在,公司擁有800多名員工,平均年齡31歲,其中80%為研發人員,70%來自於國內外網路大廠和AI頭部企業。為了加速大模型時代的研發進展,公司擁有2,500多張A100等值算力的訓練卡以及300多位專職的資料標註人員。同時,公司也聯合上海人工智慧實驗室、西安交通大學、北京郵電大學和智源研究院等科學研究機構,面向中國電信的6000萬視聯網和數億用戶場景,共同打造國際一流的人工智慧技術和應用

接下來,我們將回顧並分享電信AI公司在2023年所取得的一些重要研究成果。本次分享將介紹AI研發中心CV演算法團隊在ICCV 2023賽事中獲得Temporal Action Localisation賽道冠軍的技術成果。 ICCV是國際電腦視覺領域的三大頂級會議之一,每兩年舉辦一次,業界評價極高。本文將分享該團隊在此次挑戰中所採用的演算法思路與方案

ICCV 2023感知測試挑戰-時間動作定位冠軍技術分享

2023年電信AI公司頂會論文及競賽分享

比賽概況和團隊背景

DeepMind發起的ICCV 2023首屆感知測試挑戰旨在評估模型在視訊、音訊和文字模態中的能力。該競賽涵蓋了四個技能領域、四種推理類型和六個計算任務,以全面評估多模態感知模型的能力。其中,Temporal Action Localisation賽道的核心任務是對未剪輯的影片內容進行深入理解和準確的動作定位,該技術對自動駕駛系統、視訊監控分析等多種應用場景具有重要意義

本次比賽中,參賽團隊由電信AI公司交通演算法方向的成員組成,該團隊名為CTCV。電信AI公司在電腦視覺技術領域深入研究,並累積了豐富的經驗。其技術成果已在城市治理、交通治安等多個業務領域廣泛應用,並持續服務大量使用者

引言是一篇文章的開頭部分,旨在引起讀者的興趣並提供背景資訊。一個好的引言可以吸引讀者的注意力,概括文章的主題,並激發讀者繼續閱讀的慾望。寫引言時,要注意語言簡潔明了,內容準確有力。引言的目的是為了引導讀者進入文章的主題,因此需要引用相關的事實、數據或引人思考的問題。總之,引言是文章的門戶,可以決定讀者是否繼續閱讀下去

影片理解的一個挑戰性問題是在影片中定位和分類動作的任務,即時序動作定位(Temporal Action Localisation, TAL)

TAL技術近期取得了顯著進展。舉例來說,TadTR和ReAct採用了類似DETR的基於Transformer的解碼器來進行動作偵測,將動作實例建模為一組可學習的集合。而TallFormer則利用基於Transformer的編碼器來擷取視訊表徵

儘管以上方法在時序動作定位方面已經取得了良好的效果,但在視訊感知能力方面存在一些限制。要更好地定位動作實例,可靠的視訊特徵表達是關鍵。我們的團隊首先採用VideoMAE-v2框架,加入adapter linear層,訓練了具有兩種不同主幹網路的動作類別預測模型,並使用模型分類層前一層進行TAL任務的特徵提取。接下來,我們利用改進的ActionFormer框架訓練了TAL任務,並修改了WBF方法以適​​應TAL任務。最終,我們的方法在評測集上實現了0.50的mAP,排名第一,領先第二名的團隊3個百分點,比Google DeepMind提供的基準模型高出34個百分點

2 競賽解決方案

2023年電信AI公司頂會論文及競賽分享

演算法概覽如下圖所示:

2.1 資料增強

2023年電信AI公司頂會論文及競賽分享

在Temporal Action Localisation賽道中,CTCV團隊使用的資料集是未經修剪的用於動作定位的視頻,具有高分辨率,並且包含多個動作實例的特點。透過分析資料集,發現訓練集相較於驗證集缺少了三個類別的標籤。為了確保模型驗證的充分​​性以及滿足競賽的要求,團隊收集了少量的視訊數據,並將其加入訓練資料集中,以豐富訓練樣本。同時為了簡化標註過程,每個影片預設只包含一個動作

請參考圖2中自主擷取的視訊範例

2.2 動作辨識與特徵提取

#近年來,出現了許多基於大規模資料訓練的基礎模型,這些模型透過零樣本識別、線性探測、提示微調、微調等方法,將基礎模型的強大泛化能力應用到多個下游任務中,有效推動了人工智慧領域的多個方面的進步

TAL賽道中的動作定位和辨識十分具有挑戰性。例如,"假裝將某物撕成碎片"和"將某物撕成碎片"這兩個動作非常相似,這無疑給特徵層面帶來了更大的挑戰。因此,直接使用現有的預訓練模型來提取特徵的效果並不理想

因此,我們團隊透過解析JSON標註文件,將TAL資料集轉換為動作辨識資料集。然後,我們以Vit-B和Vit-L為主幹網絡,在VideoMAE-v2網絡後增加adapter層和用於分類的linear層,訓練同資料域下的動作分類器。我們也將動作分類模型去除linear層,用於影片特徵的擷取。 VitB模型的特徵維度為768,而ViTL模型的特徵維度為1024。當我們同時將這兩種特徵進行concat時,我們產生了一個新的特徵,維度為1792,這個特徵將作為訓練時序動作定位模型的替代品。在訓練的初期,我們嘗試了音訊特徵,但實驗結果發現mAP指標有所下降。因此,在後續的實驗中,我們沒有考慮到音頻特徵

2.3 時序動作定位

Actionformer是一個以時間為序的動作定位設計的anchor-free模型。它融合了多尺度特徵和時間維度的局部自註意力。在本次競賽中,CTCV團隊選擇Actionformer作為動作定位的基準模型,用於預測動作發生的邊界(起止時間)和類別

CTCV團隊對動作邊界回歸和動作分類任務進行了統一處理。相對於基線訓練結構,首先將視訊特徵編碼到多尺度的Transformer中。然後在模型的迴歸和分類的head分支中引入了特徵金字塔層,以增強網路特徵表達能力,每個時間步驟的head分支會產生一個動作候選。同時,透過增加head數量到32,並引入fpn1D結構,進一步提升了模型的定位與辨識能力

1-D的2.4 WBF

#加權盒子融合(Weighted Boxes Fusion,簡稱WBF)是一種創新的偵測框融合方法。此方法利用所有偵測框的置信度來建構最終的預測框,在影像目標偵測中表現出了不錯的效果。與NMS和soft-NMS方法不同,加權盒子融合不會捨棄任何預測結果,而是利用所有提出的邊界框的置信度分數來建構平均的盒子。這種方法大大提高了預測矩形的準確性

在WBF的啟發下,CTCV團隊將動作的一維邊界框類比為一維線段,並對WBF方法進行了修改,使其適用於TAL任務。實驗結果顯示此方法的有效性,如圖3所示

2023年電信AI公司頂會論文及競賽分享

改進後的一維WBF示意圖如圖3所示

3 實驗結果

3.1 評估指標。 評估標準

評估指標是mAP,用於本次挑戰賽。 mAP是透過計算不同動作類別和IoU閾值的平均精確度來確定的。 CTCV團隊以0.1的增量評估IoU閾值,範圍從0.1到0.5

3.2 實驗細節重寫如下:

為了得到多樣化的模型,CTCV團隊對訓練資料集進行了80%的重複採樣,總共進行了5次。分別採用了Vit-B、Vit-L和concat的特徵進行模型訓練,成功得到了15個多樣化的模型。最終,這些模型的評估結果被輸入到WBF模組,並為每個模型結果分配了相同的融合權重

實驗結果如下圖所示:

表1中顯示了不同特徵的效能比較。第一行和第二行展示了使用ViT-B和ViT-L特徵的結果。第三行展示了ViT-B和ViT-L特徵級聯的結果

在實驗過程中,CTCV團隊發現級聯特徵的平均精確度(mAP)略低於ViT-L,但仍優於ViT-B。儘管如此,透過在驗證集上的各種方法表現,我們將不同特徵在評測集的預測結果藉助WBF進行融合,最終提交到系統的mAP為0.50

需要重新改寫的內容是:4 結論

CTCV團隊在本次競賽中採取了多項策略來提升效能。首先,他們透過資料收集來增強驗證集中缺失的類別的訓練資料。其次,他們利用VideoMAE-v2框架加入adapter層來訓練視訊特徵提取器,並透過改進的ActionFormer框架來訓練TAL任務。此外,他們還修改了WBF方法以有效地融合測試結果。最終,CTCV團隊在評測集上取得了0.50的mAP,名列第一。 電信AI公司一直秉持著「科技從業務中來,到業務中去」的發展理念。他們將競賽視為檢驗和提陞技術能力的重要平台,並透過參與競賽不斷優化和完善技術方案,為客戶提供更高品質的服務。同時,參與競賽也為團隊成員提供了寶貴的學習與成長機會

以上是2023年電信AI公司頂會論文及競賽分享的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:搜狐。如有侵權,請聯絡admin@php.cn刪除
脫衣舞用法教程指南文章脫衣舞用法教程指南文章May 13, 2025 am 10:43 AM

有關使用distressai創建色情圖片/視頻的教程:1。打開相應的工具Web鏈接; 2。單擊工具按鈕; 3。根據頁面提示上傳所需的生產內容; 4。保存並享受結果。

[帶AI的吉卜力風格圖像]介紹如何使用Chatgpt和版權創建免費圖像[帶AI的吉卜力風格圖像]介紹如何使用Chatgpt和版權創建免費圖像May 13, 2025 am 01:57 AM

OpenAI發布的最新模型GPT-4o,不僅能生成文本,還具備圖像生成功能,引發廣泛關注。其中最受矚目的功能便是“吉卜力風格插畫”的生成。只需將照片上傳至ChatGPT,並給出簡單的指令,即可生成宛如吉卜力工作室作品般夢幻的圖像。本文將詳細解讀實際操作流程、效果感受,以及需要注意的錯誤和版權問題。 OpenAI發布的最新模型“o3”詳情請點擊此處⬇️ OpenAI o3(ChatGPT o3)詳解:特性、定價體系及o4-mini介紹 吉卜力風格文章的英文版請點擊此處⬇️ 利用ChatGPT創作吉

解釋在地方政府中使用和實施CANTGPT的示例!還介紹了禁止的地方政府解釋在地方政府中使用和實施CANTGPT的示例!還介紹了禁止的地方政府May 13, 2025 am 01:53 AM

作為一種新的交流方法,在地方政府中使用和引入Chatgpt引起了人們的關注。儘管這種趨勢在廣泛的領域正在發展,但一些地方政府拒絕使用Chatgpt。 在本文中,我們將介紹地方政府中ChatGPT實施的示例。我們將通過各種改革實例,包括支持文件創建和與公民對話,從而探索如何通過各種改革實例來實現地方政府服務的質量和效率提高。 不僅旨在減少員工工作量並改善公民的便利性的地方政府官員,而且都對高級用例感興趣。

chatgpt中的福卡式風格提示是什麼?示例句子的詳盡解釋!chatgpt中的福卡式風格提示是什麼?示例句子的詳盡解釋!May 13, 2025 am 01:52 AM

您是否聽說過一個名為“福卡斯提示系統”的框架?諸如ChatGpt之類的語言模型非常出色,但是適當的提示對於發揮其潛力至關重要。福卡(Fukatsu)提示是旨在提高輸出準確性的最受歡迎的提示技術之一。 本文解釋了福卡式風格提示的原理和特徵,包括特定的用法方法和示例。此外,我們還引入了其他眾所周知的及時模板和有用的技術來及時設計,因此,根據這些設計,我們將介紹C。

什麼是chatgpt搜索?解釋主要功能,用法和費用結構!什麼是chatgpt搜索?解釋主要功能,用法和費用結構!May 13, 2025 am 01:51 AM

CHATGPT搜索:使用創新的AI搜索引擎有效獲取最新信息! 在本文中,我們將徹底解釋OpenAI提供的新的ChatGpt功能“ ChatGpt搜索”。讓我們仔細研究一下功能,用法以及該工具如何根據實時網絡信息和直觀的易用性來幫助您提高信息收集效率。 chatgpt搜索提供了一種對話互動搜索體驗,該體驗在舒適,隱藏的環境中回答用戶問題,以隱藏廣告

易於理解的解釋如何在Chatgpt和提示中創建構圖!易於理解的解釋如何在Chatgpt和提示中創建構圖!May 13, 2025 am 01:50 AM

信息爆炸的現代社會,創作出令人信服的文章並非易事。如何在有限的時間和精力內,發揮創造力,撰寫出吸引讀者的文章,需要高超的技巧和豐富的經驗。 這時,作為革命性的寫作輔助工具,ChatGPT 備受矚目。 ChatGPT 利用龐大的數據訓練出的語言生成模型,能夠生成自然流暢、精煉的文章。 本文將介紹如何有效利用 ChatGPT,高效創作高質量文章的技巧。我們將逐步講解使用 ChatGPT 的寫作流程,並結合具體案例,詳細闡述其優缺點、適用場景以及安全使用注意事項。 ChatGPT 將成為作家克服各種障礙,

如何使用chatgpt創建圖!還解釋了插圖的加載和插件如何使用chatgpt創建圖!還解釋了插圖的加載和插件May 13, 2025 am 01:49 AM

使用AI創建圖表的有效指南 視覺材料對於有效傳達信息至關重要,但是創建它需要大量時間和精力。但是,由於AI技術(例如Chatgpt和dall-e 3)的興起,圖表創建過程正在發生巨大變化。本文使用這些尖端工具提供了有關有效而有吸引力的圖創建方法的詳細說明。它涵蓋了從想法到完成的所有內容,並包含大量信息,可用於創建圖表,從可以使用的特定步驟,提示,插件和API以及如何使用圖像一代AI“ dall-e 3.”)

易於理解的解釋Chatgpt加上定價結構和付款方式!易於理解的解釋Chatgpt加上定價結構和付款方式!May 13, 2025 am 01:48 AM

解锁ChatGPT Plus:费用、支付方式及升级指南 全球瞩目的顶尖生成式AI,ChatGPT已广泛应用于日常生活和商业领域。虽然ChatGPT基本免费,但付费版ChatGPT Plus提供多种增值服务,例如插件、图像识别等,显著提升工作效率。本文将详细解读ChatGPT Plus的收费标准、支付方式及升级流程。 OpenAI最新图像生成技术“GPT-4o图像生成”详情请点击: GPT-4o图像生成详解:使用方法、提示词示例、商业应用及与其他AI的差异 目录 ChatGPT Plus费用 Ch

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器