ホームページ  >  記事  >  テクノロジー周辺機器  >  ACM MM2024 | NetEase Fuxi のマルチモーダル研究が再び国際的に評価され、特定分野におけるクロスモーダルな理解の新たな進歩を促進

ACM MM2024 | NetEase Fuxi のマルチモーダル研究が再び国際的に評価され、特定分野におけるクロスモーダルな理解の新たな進歩を促進

王林
王林オリジナル
2024-08-07 20:16:12989ブラウズ

ACM MM2024 | 网易伏羲多模态研究再获国际认可,推动特定领域跨模态理解新突破

1. 第 32 回 ACM International Conference on Multimedia (ACM MM) の論文採択結果が発表され、NetEase Fuxi の最新研究成果「キー ローカルの選択と再構築: 新しい特定ドメインの画像テキスト」検索手法が選ばれました。
  1. この論文の研究方向には、視覚言語事前トレーニング (VLP)、クロスモーダル画像およびテキスト検索 (CMITR)、およびその他の分野が含まれます。この選択は、NetEase Fuxi Lab のマルチモーダル機能が再び国際的に認められたことを示しており、現在、関連技術は NetEase Fuxi が自社開発したマルチモーダル インテリジェント アシスタント「Dan Qing Yue」に適用されています。
  2. ACM MM は、Association for Computing Machinery (ACM) によって開始され、マルチメディア処理、分析、コンピューティングの分野で最も影響力のあるトップ国際会議であり、マルチメディアの分野で推奨されるクラス A の国際学術会議でもあります。中国コンピュータ連盟による。 ACM MMは、この分野のトップカンファレンスとして、国内外の著名なメーカーや学者から広く注目を集めています。今年の ACM MM は合計 4,385 件の有効な原稿を受け取り、そのうち 1,149 件が会議に受理され、受理率は 26.20% でした。

    ACM MM2024 | 网易伏羲多模态研究再获国际认可,推动特定领域跨模态理解新突破

    中国の大手人工知能研究機関として、NetEase Fuxi は大規模モデル研究で 6 年近くの経験を蓄積し、豊富なアルゴリズムとエンジニアリングの経験を持ち、数十のテキストおよびマルチモーダル事前トレーニング モデルを作成しました。テキストの理解と生成のための大規模モデル、画像とテキストの理解のための大規模モデル、画像とテキストの生成のための大規模モデルなどが含まれます。これらの成果は、ゲーム分野での大規模モデルの適用を効果的に促進するだけでなく、クロスモーダル理解能力の開発のための強固な基盤を築きます。クロスモーダル理解機能は、複数のドメインの知識をより適切に統合し、豊富なデータ モダリティと情報を調整するのに役立ちます。

これに基づいて、NetEase Fuxi は、画像とテキストの理解の大規模モデルに基づいてさらに革新し、重要なローカル情報の選択と再構成に基づいて、複数の画像テキストを特定のフィールドで解決するクロスモーダル検索方法を提案しました。モーダル エージェントの相互作用の問題が技術的基盤を築きます。

以下は選ばれた論文の概要です:

「主要なローカルの選択と再構成: 新しい特定ドメイン画像テキスト検索方法」

主要なローカル情報の選択と再構成: 新しいドメイン固有の画像とテキスト検索手法

キーワード: 重要なローカル情報、細粒度、解釈可能

関与分野: 視覚言語事前学習(VLP)、クロスモーダル画像とテキスト検索(CMITR)

近年、視覚言語事前学習により、 -トレーニング (ビジョン) 言語事前トレーニング (VLP) モデルの台頭により、クロスモーダル画像テキスト検索 (CMITR) の分野で大きな進歩が見られました。 CLIP のような VLP モデルは、ドメイン全般の CMITR タスクでは良好なパフォーマンスを発揮しますが、特定のドメインの画像テキスト取得 (SDITR) ではパフォーマンスが不十分になることがよくあります。これは、特定のドメインには、一般的なドメインとは異なる固有のデータ特性があることが多いためです。

特定の領域では、画像はそれらの間で高度な視覚的類似性を示す場合がありますが、意味論的な違いは、画像内の特定のオブジェクト領域やテキスト内の意味のある単語など、重要な局所的な詳細に焦点を当てる傾向があります。これらのローカル セグメントの小さな変更であっても、コンテンツ全体に大きな影響を与える可能性があり、この重要なローカル情報の重要性が強調されます。したがって、SDITR では、モデルが重要なローカル情報フラグメントに焦点を当てて、共有表現空間における画像とテキストの特徴の表現を強化し、それによって画像とテキストの間の位置合わせ精度を向上させる必要があります。

このトピックでは、特定の分野の画像テキスト検索タスクにおける視覚言語事前トレーニング モデルの適用を検討し、特定の分野の画像テキスト検索タスクにおける局所特徴の利用の問題を研究します。主な貢献は、識別可能なきめの細かいローカル情報を利用して、共有表現空間における画像とテキストの配置を最適化する方法を提案することです。この目的のために、私たちは明示的なキーローカル情報の選択と再構成フレームワーク、およびマルチモーダルインタラクションに基づくキーローカルセグメント再構成戦略を設計します。これらの方法は、識別可能なきめの細かいローカル情報を効果的に利用し、それによって画像と広範で十分な情報を大幅に改善します。共有スペースでのテキストの配置の品質に関する実験により、提案された戦略の進歩と有効性が実証されました。

この論文に対する強力な支援と重要な研究貢献に対して、西安電子科学技術大学の IPIU 研究室に特別に感謝します。

這項研究成果不僅標誌著網易伏羲在多模態研究領域再次取得重要突破,也為特定領域的跨模態理解提供了全新的視角和技術支撐。優化圖像與文字在特定場景下的互動準確度,這項工作為跨模態理解技術在實際應用場景中的提升奠定了堅實的基礎。
目前,網易伏羲的多模態理解能力已在網易集團的多個業務部門廣泛應用,包括網易雷火、網易雲音樂、網易元氣等。這些應用程式涵蓋了諸如遊戲創新性文字捏臉玩法、跨模態資源搜尋、個人化內容推薦等多種場景,展現了巨大的業務價值。
未來,隨著研究的深入與技術進步,該成果有望促進人工智慧技術在教育、醫療、電子商務等多個行業的廣泛應用,為用戶提供更個人化和智慧化的服務體驗。網易伏羲也將持續深化與國內外頂尖學術機構的交流與合作,在更多前沿研究領域展開深入探索,共同推動人工智慧技術的發展,為建構一個更有效率、更智慧的社會貢獻。
掃描下方二維碼,立即體驗“丹青約”,享受“更懂你”的圖文並茂的多模互動體驗!

ACM MM2024 | 网易伏羲多模态研究再获国际认可,推动特定领域跨模态理解新突破

以上がACM MM2024 | NetEase Fuxi のマルチモーダル研究が再び国際的に評価され、特定分野におけるクロスモーダルな理解の新たな進歩を促進の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。