2023 年テレコム AI 企業サミットの論文と競合他社の共有-AI-php.cn

ホームページ

テクノロジー周辺機器

2023 年テレコム AI 企業サミットの論文と競合他社の共有

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 11, 2024 pm 10:18 PM

テレコムAI企業カンファレンス論文競争トップシェア

近年、チャイナテレコムは人工知能技術の方向に熱心に取り組み続けています。 2023 年 11 月 28 日、中国電信デジタル知能技術分公司は正式に中国電信人工知能技術有限公司 (以下「電信 AI 会社」といいます) に社名を変更しました。 2023 年、Telecom AI Company は 21 の国内外のトップ AI コンペティションで連続受賞し、100 件以上の特許を申請し、CVPR、ACM MM、ICCV などのトップ会議やジャーナルで 30 以上の論文を発表し、そのパフォーマンスを実証しました。国有中央企業人工知能技術分野における予備的な成果

中国電信が人工知能ビジネスを実行する専門会社として、Telecom AI Company はテクノロジーベース、能力ベース、プラットフォームベースの企業です。同社は、人工知能の中核技術を征服し、最先端技術を研究し、産業空間の拡大を促進することに尽力し、数百億レベルの人工知能サービスプロバイダーになることを目指しています。過去 2 年間、Telecom AI Company は、Galaxy AI Algorithm Warehouse Empowerment Platform、Nebula AI Level 4 Computing Power Platform、Star Universal Basic Large Model など、一連の革新的なアプリケーション成果の独自開発に成功してきました。現在、同社の従業員数は800名を超え、平均年齢は31歳で、そのうち8割が研究開発担当者、7割が国内外の大手インターネット企業や大手AI企業出身者となっている。大型モデルの時代における研究開発の進歩を加速するために、同社は A100 と同等の計算能力を備えた 2,500 枚を超えるトレーニングカードと 300 人を超えるフルタイムのデータアノテーションスタッフを擁しています。同時に、同社は上海人工知能研究所、西安交通大学、北京郵電大学、知源研究所などの科学研究機関とも協力し、世界クラスの人工知能技術と中国向け技術を共同で開発します。テレコムの 6,000 万のビデオネットワークと数億のユーザーシナリオ。

次に、2023 年に通信 AI 企業が達成したいくつかの重要な科学研究結果をレビューし、共有します。この共有では、ICCV 2023 イベントの時間的アクションローカリゼーショントラックチャンピオンシップで優勝した AI R&D センターの CV アルゴリズムチームの技術的成果を紹介します。 ICCV は、コンピュータビジョン分野における国際的な 3 つのトップカンファレンスの 1 つであり、2 年ごとに開催され、業界で高い評価を得ています。この記事では、この課題でチームが採用したアルゴリズムのアイデアとソリューションを共有します

ICCV 2023 知覚テストチャレンジタイムアクションポジショニングチャンピオンテクノロジー共有

2023 年テレコム AI 企業サミットの論文と競合他社の共有

ゲーム概要とチーム背景

DeepMind が開始した ICCV 2023 の最初の知覚テストチャレンジは、ビデオ、オーディオ、テキストモダリティにおけるモデルの機能を評価することを目的としています。このコンテストでは、4 つのスキル領域、4 つの推論タイプ、および 6 つの計算タスクを対象として、マルチモーダル知覚モデルの機能を包括的に評価します。その中でも、時間的動作位置特定トラックの中心的なタスクは、未編集のビデオコンテンツを深く理解し、正確な動作位置を特定することであり、この技術は自動運転システムやビデオ監視分析などのさまざまなアプリケーションシナリオにとって非常に重要です##。

# 本コンテストでは、テレコム AI カンパニーのトラフィックアルゴリズムディレクションのメンバーで構成されたチーム (CTCV と呼ばれます) が参加します。通信 AI 企業は、コンピュータービジョンテクノロジーの分野で徹底的な研究を行い、豊富な経験を蓄積してきました。その技術成果は都市ガバナンスや交通セキュリティなど多くのビジネス分野で幅広く活用され、多くのユーザーに提供され続けています

序文は記事の始まりであり、読者に興味を持ってもらい、背景情報を提供することを目的としています。優れた導入部は読者の注意を引き、記事のトピックを要約し、読み続けたいと思わせるものです。紹介文を書くときは、簡潔で明確な言葉と正確で強力な内容に注意を払う必要があります。導入の目的は、読者を記事の主題に導くことであるため、関連する事実、データ、または示唆に富む質問を引用する必要があります。つまり、導入部分は記事への入り口であり、読者が読み続けるかどうかを決定することができます。

ビデオ理解における困難な問題は、ビデオ内のアクションをローカライズして分類するタスク、つまり時間的アクションローカリゼーション (TAL) です。

TAL テクノロジーは最近大きく進歩しました。たとえば、TadTR と ReAct は、アクション検出に DETR と同様の Transformer ベースのデコーダを採用し、アクションインスタンスを学習可能なセットとしてモデル化します。 TallFormer は、Transformer ベースのエンコーダーを使用してビデオ表現を抽出します

上記の方法は時間的アクションの位置決めにおいて良好な結果を達成しましたが、ビデオ認識能力にはいくつかの制限があります。アクションインスタンスをより適切にローカライズするには、信頼性の高いビデオ特徴表現が鍵となります。私たちのチームはまず VideoMAE-v2 フレームワークを採用し、アダプター線形層を追加し、2 つの異なるバックボーンネットワークを使用してアクションカテゴリ予測モデルをトレーニングし、モデル分類層の前の層を使用して TAL タスクの特徴を抽出しました。次に、改良された ActionFormer フレームワークを使用して TAL タスクをトレーニングし、TAL タスクに適応するように WBF メソッドを変更しました。最終的に、私たちの手法は評価セットで mAP 0.50 を達成し、第 1 位にランクされ、2 位のチームより 3 パーセントポイント上回っており、Google DeepMind が提供するベースラインモデルよりも 34 パーセントポイント高かったです。

2 競合ソリューション

アルゴリズムの概要を以下に示します:

2.1 データの強化 2023 年テレコム AI 企業サミットの論文と競合他社の共有

時間的アクションローカリゼーショントラックでは、CTCV チームが使用するデータセットは、アクションローカリゼーション用にトリミングされていないビデオであり、高解像度で、複数のアクションインスタンスの特性が含まれています。データセットを分析したところ、トレーニングセットには検証セットと比較して 3 つのカテゴリラベルが欠けていることがわかりました。モデル検証の適切性を確保し、競技の要件を満たすために、チームは少量のビデオデータを収集し、それをトレーニングデータセットに追加してトレーニングサンプルを充実させました。同時に、注釈プロセスを簡素化するために、各ビデオプリセットにはアクションが 1 つだけ含まれています

図 2 の自分で収集したビデオサンプルを参照してください

2.2 行動認識と特徴抽出

近年、大規模データトレーニングに基づいた多くの基本モデルが登場しており、これらのモデルは、ゼロサンプル認識、線形検出、プロンプト微調整などの方法を通じて、基本モデルの強力な一般化機能を複数の下流タスクに適用しています。調整、微調整を行い、人工知能分野のさまざまな側面での進歩を効果的に促進します。

TAL トラックでの動きの位置特定と認識は非常に困難です。たとえば、「何かを引き裂くふりをする」と「何かをバラバラに引き裂く」という 2 つのアクションは非常に似ており、これは間違いなく機能レベルに大きな課題をもたらします。したがって、既存の事前トレーニング済みモデルを直接使用して特徴を抽出する効果は理想的ではありません

したがって、私たちのチームは、JSON アノテーションファイルを解析することによって、TAL データセットをアクション認識データセットに変換しました。次に、Vit-B と Vit-L をバックボーンネットワークとして使用し、VideoMAE-v2 ネットワークの後に分類用のアダプター層と線形層を追加し、同じデータドメインでアクション分類器をトレーニングします。また、アクション分類モデルから線形レイヤーを削除し、それをビデオ特徴抽出に使用します。 VitB モデルのフィーチャー次元は 768 ですが、ViTL モデルのフィーチャー次元は 1024 です。これら 2 つの特徴を同時に連結すると、次元 1792 の新しい特徴が生成されます。これは、時間的アクション位置特定モデルをトレーニングするための代替として使用されます。トレーニングの初期段階では音声機能を試しましたが、実験の結果、mAP インデックスが低下することがわかりました。したがって、その後の実験ではオーディオ機能

を考慮しませんでした。

2.3 タイミングアクションの位置決め

Actionformer は、時間順にアクションを配置するように設計されたアンカーフリーモデルです。これには、時間次元におけるマルチスケールの機能と局所的な自己注意が組み込まれています。このコンペティションで、CTCV チームは、アクションポジショニングのベンチマークモデルとして Actionformer を選択しました。これは、アクションの境界 (開始時間と終了時間) とカテゴリを予測するために使用されます

CTCV チームは、アクション境界回帰タスクとアクション分類タスクを統合処理しました。ベースラインのトレーニング構造と比較して、ビデオ特徴はまずマルチスケールの Transformer にエンコードされます。次に、モデルの回帰および分類のヘッドブランチに特徴ピラミッドレイヤーが導入され、ネットワークの特徴表現能力が強化され、各タイムステップのヘッドブランチでアクション候補が生成されます。同時に、ヘッド数を 32 個に増やし、fpn1D 構造を導入することで、モデルの位置決めおよび識別能力がさらに向上しました。

1-D の 2.4 WBF

Weighted Boxes Fusion (WBF) は、革新的な検出フレームフュージョン方法です。この方法は、すべての検出フレームの信頼度を使用して最終予測フレームを構築し、画像ターゲットの検出で良好な結果を示します。 NMS およびソフト NMS 手法とは異なり、重み付きボックスフュージョンは予測を破棄しませんが、提案されたすべての境界ボックスの信頼スコアを利用して平均ボックスを構築します。この方法により、長方形の予測精度が大幅に向上します

WBF に触発されて、CTCV チームはアクションの 1 次元境界ボックスを 1 次元の線分に類推し、TAL タスクに適したものになるように WBF 手法を修正しました。図 3

に示すように、実験結果はこの方法の有効性を示しています。

2023 年テレコム AI 企業サミットの論文と競合他社の共有改良された 1 次元 WBF 図を図 3

に示します。

3 実験結果

3.1 評価指標。評価基準＃＃＃

今回のチャレンジで使用する評価指標はmAPです。 mAP は、さまざまなアクションカテゴリと IoU しきい値にわたる平均精度を計算することによって決定されます。 CTCV チームは、IoU しきい値を 0.1 から 0.5

の範囲で 0.1 刻みで評価します。

3.2 実験の詳細は次のように書き換えられます:

多様なモデルを取得するために、CTCV チームはトレーニングデータセットの 80% を合計 5 回再サンプリングしました。 Vit-B、Vit-L、concat の機能をモデルのトレーニングに使用し、15 個の多様なモデルを取得することに成功しました。最後に、これらのモデルの評価結果が WBF モジュールに入力され、同じ融合重みが各モデル結果に割り当てられます

実験結果は次のとおりです:

さまざまな機能のパフォーマンス比較を表 1 に示します。 1 行目と 2 行目は、ViT-B および ViT-L 機能を使用した結果を示しています。 3 行目は、ViT-B および ViT-L 機能カスケードの結果を示します

実験中、CTCV チームは、カスケードフィーチャーの平均精度 (mAP) が ViT-L よりわずかに低いものの、それでも ViT-B よりは優れていることを発見しました。それにもかかわらず、検証セットでさまざまな手法を実行することにより、WBF の助けを借りて評価セットのさまざまな特徴の予測結果を融合し、最終的にシステムに送信された mAP は 0.50

でした。

書き直す必要がある内容は次のとおりです。 4 結論

CTCV チームは、この大会でのパフォーマンスを向上させるために多くの戦略を採用しました。まず、データ収集を通じて、検証セット内の欠落しているクラスを使用してトレーニングデータを強化しました。次に、VideoMAE-v2 フレームワークを使用して、ビデオ特徴抽出機能をトレーニングするためのアダプター層を追加し、改良された ActionFormer フレームワークを通じて TAL タスクをトレーニングしました。さらに、テスト結果を効率的に融合するために WBF メソッドを修正しました。最終的に、CTCV チームは評価セットで mAP 0.50 を達成し、1 位にランクされました。通信 AI 企業は常に、「テクノロジーはビジネスから生まれ、ビジネスに行く」という開発哲学を堅持してきました。同社は、コンテストを技術力を試し、向上させるための重要なプラットフォームとして捉えており、顧客により質の高いサービスを提供するために、コンテストへの参加を通じて技術ソリューションの最適化と改善を続けています。同時に、コンテストへの参加は、チームメンバーにとって貴重な学習と成長の機会を提供します

以上が2023 年テレコム AI 企業サミットの論文と競合他社の共有の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は搜狐で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

外挿の包括的なガイドApr 15, 2025 am 11:38 AM

導入数週間で作物の進行を毎日観察する農民がいるとします。彼は成長率を見て、さらに数週間で彼の植物がどれほど背が高くなるかについて熟考し始めます。 thから

ソフトAIの台頭とそれが今日のビジネスにとって何を意味するかApr 15, 2025 am 11:36 AM

ソフトAIは、おおよその推論、パターン認識、柔軟な意思決定を使用して特定の狭いタスクを実行するように設計されたAIシステムとして定義されていますが、曖昧さを受け入れることにより、人間のような思考を模倣しようとします。しかし、これはBusineにとって何を意味しますか

AIフロンティア向けの進化するセキュリティフレームワークApr 15, 2025 am 11:34 AM

答えは明確です。クラウドコンピューティングには、クラウドネイティブセキュリティツールへの移行が必要であるため、AIはAIの独自のニーズに特化した新しい種類のセキュリティソリューションを要求します。クラウドコンピューティングとセキュリティレッスンの台頭で

3つの方法生成AIは起業家を増幅します：平均に注意してください！Apr 15, 2025 am 11:33 AM

起業家とAIと生成AIを使用して、ビジネスを改善します。同時に、すべてのテクノロジーと同様に、生成的AIが増幅器であることを覚えておくことが重要です。厳密な2024年の研究o

Andrew Ngによる埋め込みモデルに関する新しいショートコースApr 15, 2025 am 11:32 AM

埋め込みモデルのパワーのロックを解除する：Andrew Ngの新しいコースに深く飛び込むマシンがあなたの質問を完全に正確に理解し、応答する未来を想像してください。これはサイエンスフィクションではありません。 AIの進歩のおかげで、それはRになりつつあります

大規模な言語モデル（LLMS）の幻覚は避けられませんか？Apr 15, 2025 am 11:31 AM

大規模な言語モデル（LLM）と幻覚の避けられない問題 ChatGpt、Claude、GeminiなどのAIモデルを使用した可能性があります。これらはすべて、大規模なテキストデータセットでトレーニングされた大規模な言語モデル（LLMS）、強力なAIシステムの例です。

60％の問題 - AI検索がトラフィックを排出する方法Apr 15, 2025 am 11:28 AM

最近の研究では、AIの概要により、産業と検索の種類に基づいて、オーガニックトラフィックがなんと15〜64％減少する可能性があることが示されています。この根本的な変化により、マーケティング担当者はデジタルの可視性に関する戦略全体を再考することになっています。新しい

AI R＆Dの中心に人間が繁栄するようにするMITメディアラボApr 15, 2025 am 11:26 AM

Elon UniversityがDigital Future Centerを想像している最近のレポートは、300人近くのグローバルテクノロジーの専門家を調査しました。結果のレポート「2035年に人間である」は、ほとんどがTを超えるAIシステムの採用を深めることを懸念していると結論付けました。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 中国語版

中国語版、とても使いやすい

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、