ACM MM2024 | NetEase Fuxi のマルチモーダル研究が再び国際的に評価され、特定分野におけるクロスモーダルな理解の新たな進歩を促進-AI-php.cn

ホームページ

テクノロジー周辺機器

ACM MM2024 | NetEase Fuxi のマルチモーダル研究が再び国際的に評価され、特定分野におけるクロスモーダルな理解の新たな進歩を促進

王林

Aug 07, 2024 pm 08:16 PM

AI絵について

ACM MM2024 | 网易伏羲多模态研究再获国际认可，推动特定领域跨模态理解新突破

1. 第 32 回 ACM International Conference on Multimedia (ACM MM) の論文採択結果が発表され、NetEase Fuxi の最新研究成果「キーローカルの選択と再構築: 新しい特定ドメインの画像テキスト」検索手法が選ばれました。

この論文の研究方向には、視覚言語事前トレーニング (VLP)、クロスモーダル画像およびテキスト検索 (CMITR)、およびその他の分野が含まれます。この選択は、NetEase Fuxi Lab のマルチモーダル機能が再び国際的に認められたことを示しており、現在、関連技術は NetEase Fuxi が自社開発したマルチモーダルインテリジェントアシスタント「Dan Qing Yue」に適用されています。
ACM MM は、Association for Computing Machinery (ACM) によって開始され、マルチメディア処理、分析、コンピューティングの分野で最も影響力のあるトップ国際会議であり、マルチメディアの分野で推奨されるクラス A の国際学術会議でもあります。中国コンピュータ連盟による。 ACM MMは、この分野のトップカンファレンスとして、国内外の著名なメーカーや学者から広く注目を集めています。今年の ACM MM は合計 4,385 件の有効な原稿を受け取り、そのうち 1,149 件が会議に受理され、受理率は 26.20% でした。
中国の大手人工知能研究機関として、NetEase Fuxi は大規模モデル研究で 6 年近くの経験を蓄積し、豊富なアルゴリズムとエンジニアリングの経験を持ち、数十のテキストおよびマルチモーダル事前トレーニングモデルを作成しました。テキストの理解と生成のための大規模モデル、画像とテキストの理解のための大規模モデル、画像とテキストの生成のための大規模モデルなどが含まれます。これらの成果は、ゲーム分野での大規模モデルの適用を効果的に促進するだけでなく、クロスモーダル理解能力の開発のための強固な基盤を築きます。クロスモーダル理解機能は、複数のドメインの知識をより適切に統合し、豊富なデータモダリティと情報を調整するのに役立ちます。

これに基づいて、NetEase Fuxi は、画像とテキストの理解の大規模モデルに基づいてさらに革新し、重要なローカル情報の選択と再構成に基づいて、複数の画像テキストを特定のフィールドで解決するクロスモーダル検索方法を提案しました。モーダルエージェントの相互作用の問題が技術的基盤を築きます。

以下は選ばれた論文の概要です:

「主要なローカルの選択と再構成: 新しい特定ドメイン画像テキスト検索方法」

主要なローカル情報の選択と再構成: 新しいドメイン固有の画像とテキスト検索手法

キーワード: 重要なローカル情報、細粒度、解釈可能

関与分野: 視覚言語事前学習(VLP)、クロスモーダル画像とテキスト検索(CMITR)

近年、視覚言語事前学習により、 -トレーニング (ビジョン) 言語事前トレーニング (VLP) モデルの台頭により、クロスモーダル画像テキスト検索 (CMITR) の分野で大きな進歩が見られました。 CLIP のような VLP モデルは、ドメイン全般の CMITR タスクでは良好なパフォーマンスを発揮しますが、特定のドメインの画像テキスト取得 (SDITR) ではパフォーマンスが不十分になることがよくあります。これは、特定のドメインには、一般的なドメインとは異なる固有のデータ特性があることが多いためです。

特定の領域では、画像はそれらの間で高度な視覚的類似性を示す場合がありますが、意味論的な違いは、画像内の特定のオブジェクト領域やテキスト内の意味のある単語など、重要な局所的な詳細に焦点を当てる傾向があります。これらのローカルセグメントの小さな変更であっても、コンテンツ全体に大きな影響を与える可能性があり、この重要なローカル情報の重要性が強調されます。したがって、SDITR では、モデルが重要なローカル情報フラグメントに焦点を当てて、共有表現空間における画像とテキストの特徴の表現を強化し、それによって画像とテキストの間の位置合わせ精度を向上させる必要があります。

このトピックでは、特定の分野の画像テキスト検索タスクにおける視覚言語事前トレーニングモデルの適用を検討し、特定の分野の画像テキスト検索タスクにおける局所特徴の利用の問題を研究します。主な貢献は、識別可能なきめの細かいローカル情報を利用して、共有表現空間における画像とテキストの配置を最適化する方法を提案することです。この目的のために、私たちは明示的なキーローカル情報の選択と再構成フレームワーク、およびマルチモーダルインタラクションに基づくキーローカルセグメント再構成戦略を設計します。これらの方法は、識別可能なきめの細かいローカル情報を効果的に利用し、それによって画像と広範で十分な情報を大幅に改善します。共有スペースでのテキストの配置の品質に関する実験により、提案された戦略の進歩と有効性が実証されました。

この論文に対する強力な支援と重要な研究貢献に対して、西安電子科学技術大学の IPIU 研究室に特別に感謝します。

這項研究成果不僅標誌著網易伏羲在多模態研究領域再次取得重要突破，也為特定領域的跨模態理解提供了全新的視角和技術支撐。優化圖像與文字在特定場景下的互動準確度，這項工作為跨模態理解技術在實際應用場景中的提升奠定了堅實的基礎。
目前，網易伏羲的多模態理解能力已在網易集團的多個業務部門廣泛應用，包括網易雷火、網易雲音樂、網易元氣等。這些應用程式涵蓋了諸如遊戲創新性文字捏臉玩法、跨模態資源搜尋、個人化內容推薦等多種場景，展現了巨大的業務價值。
未來，隨著研究的深入與技術進步，該成果有望促進人工智慧技術在教育、醫療、電子商務等多個行業的廣泛應用，為用戶提供更個人化和智慧化的服務體驗。網易伏羲也將持續深化與國內外頂尖學術機構的交流與合作，在更多前沿研究領域展開深入探索，共同推動人工智慧技術的發展，為建構一個更有效率、更智慧的社會貢獻。
掃描下方二維碼，立即體驗“丹青約”，享受“更懂你”的圖文並茂的多模互動體驗！

ACM MM2024 | 网易伏羲多模态研究再获国际认可，推动特定领域跨模态理解新突破

以上がACM MM2024 | NetEase Fuxi のマルチモーダル研究が再び国際的に評価され、特定分野におけるクロスモーダルな理解の新たな進歩を促進の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

AIインデックス2025を読む：AIはあなたの友人、敵、または副操縦士ですか？Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう：認知（何が起こっているのかを理解する）、感謝（利益を見る）、受け入れ（顔の課題）、責任（責任を見つける）。認知：人工知能はどこにでもあり、急速に発展しています私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

Meta Llama 3.2を始めましょう - 分析VidhyaApr 11, 2025 pm 12:04 PM

メタのラマ3.2：マルチモーダルとモバイルAIの前進メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。成功に基づいてo

AVバイト：Meta＆＃039; s llama 3.2、GoogleのGemini 1.5などApr 11, 2025 pm 12:01 PM

今週のAIの風景：進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

マシンと話すための人的費用：チャットボットは本当に気にすることができますか？Apr 11, 2025 pm 12:00 PM

つながりの慰めの幻想：私たちはAIとの関係において本当に繁栄していますか？この質問は、MIT Media Labの「AI（AHA）で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

PythonのScipy Libraryの理解Apr 11, 2025 am 11:57 AM

導入あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

ラマ3.2を実行する3つの方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

メタのラマ3.2：マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。その能力t

Dagsterでデータ品質チェックを自動化しますApr 11, 2025 am 11:44 AM

データ品質保証：ダグスターと大きな期待でチェックを自動化するデータ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

メインフレームはAI時代に役割を果たしていますか？Apr 11, 2025 am 11:42 AM

MainFrames：AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。これらの強力なシステムは、頻繁にヘビルで見られます

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。