8 つの言語で共通の 280 万のマルチモーダルコマンドと応答のペア、ビデオコンテンツをカバーする初のコマンドデータセット MIMIC-IT が登場-AI-php.cn

ホームページ

テクノロジー周辺機器

8 つの言語で共通の 280 万のマルチモーダルコマンドと応答のペア、ビデオコンテンツをカバーする初のコマンドデータセット MIMIC-IT が登場

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 13, 2023 am 10:34 AM

命令データセット

最近、AI 対話アシスタントは言語タスクにおいて大幅な進歩を遂げています。この大幅な改善は、LLM の強力な汎化能力に基づくだけでなく、命令のチューニングにも起因すると考えられます。これには、多様で質の高い指導を通じて、さまざまなタスクに関して LLM を微調整することが含まれます。

命令チューニングでゼロショットパフォーマンスを達成できる潜在的な理由の 1 つは、コンテキストを内部化することです。これは、ユーザー入力が常識的なコンテキストをスキップする場合に特に重要です。命令チューニングを組み込むことで、LLM はユーザーの意図を高度に理解できるようになり、これまで目に見えなかったタスクでも優れたゼロショット機能を発揮します。

ただし、理想的な AI 会話アシスタントは、複数のモダリティが関係するタスクを解決できる必要があります。これには、データセットに従って多様で高品質なマルチモーダルな命令を取得する必要があります。たとえば、LLaVAInstruct-150K データセット (LLaVA としても知られています) は、一般的に使用される視覚的言語指示に従うデータセットであり、COCO 画像、画像キャプションおよび GPT-4 Constructed から取得したターゲット境界ボックスに基づく指示と応答を使用します。ただし、LLaVA-Instruct-150K には 3 つの制限があります: 視覚的多様性が制限されていること、単一の視覚データとして画像を使用していること、および言語形態のみを含む文脈情報です。

AI 対話アシスタントによるこれらの限界の突破を促進するために、シンガポールの南洋理工大学とレドモンドのマイクロソフト研究所の学者は、マルチモーダルコンテキスト命令チューニングデータセット MIMIC を提案しました。 IT は、さまざまな現実のシナリオをカバーする、280 万のマルチモーダルコンテキストの命令と応答のペアを含むデータセットです。

8 つの言語で共通の 280 万のマルチモーダルコマンドと応答のペア、ビデオコンテンツをカバーする初のコマンドデータセット MIMIC-IT が登場

#論文アドレス: https://arxiv.org/pdf/2306.05425.pdf

さらに、命令と応答のペアを効率的に生成するために、研究者らは、自己命令メソッドにヒントを得た命令と応答のアノテーションの自動パイプラインである「Sythus」も導入しました。 Sythus は、システム情報、視覚的な注釈、およびコンテキスト内の例を使用して、言語モデル (GPT-4 または ChatGPT) をガイドし、視覚的なコンテキストに基づいてコマンドと応答のペアを生成します。これは、視覚的言語モデルの 3 つの基本的な機能である知覚、推論、および視覚的なコンテキストに基づいて生成されます。計画中。さらに、英語のコマンドと応答は7か国語に翻訳され、多言語での使用をサポートします。

研究者らが OpenFlamingo に基づくマルチモーダルモデル「Otter」を MIMIC-IT 上でトレーニングしたことは特に注目に値します。 ChatGPT と人間の両方で評価された Otter のマルチモーダル機能は、他の最近の視覚言語モデルを上回っています。

研究者らは一連のデモで、Otter のマルチモーダルな質問と回答機能を実証しました。

Q: 次にプレイされるカードはどれですか? ?

#A: チューブは 8 本です。こうすることで、ストレートを待ち続けることができます。

8 つの言語で共通の 280 万のマルチモーダルコマンドと応答のペア、ビデオコンテンツをカバーする初のコマンドデータセット MIMIC-IT が登場

#Q: 着陸したいのですが、どうすればよいですか?

#A: 左下のボタンを 1 回押して左に曲がり、着陸するときに右側のハンドブレーキを引きます。

#Q: 次に何をしますか?

8 つの言語で共通の 280 万のマルチモーダルコマンドと応答のペア、ビデオコンテンツをカバーする初のコマンドデータセット MIMIC-IT が登場

#A: 中央にボールをパスし、ゴールに向かって走り、得点のチャンスを狙います。

#次に、研究の詳細を見てみましょう。

MIMIC-IT データセット

MIMIC-IT データセットには、認識、推論、計画といった基本的な機能をカバーする、280 万のマルチモーダルな命令と応答のペアが含まれています。各命令にはマルチモーダルな会話コンテキストが伴うため、MIMIC-IT でトレーニングされた VLM が対話型命令で優れた習熟度を示し、ゼロショット汎化を実行できるようになります。

8 つの言語で共通の 280 万のマルチモーダルコマンドと応答のペア、ビデオコンテンツをカバーする初のコマンドデータセット MIMIC-IT が登場

LLaVA と比較した場合、MIMIC-IT の特徴は次のとおりです。

# (1) 一般的なシーン、自己中心的な視点シーン、屋内 RGB-D 画像など、さまざまなデータセットからの画像やビデオを含む多様なビジュアルシーン;

(2) 詳細画像 (またはビデオ）を視覚データとして;

(3) 複数のコマンドと応答のペアおよび複数の画像またはビデオを含むマルチモーダルコンテキスト情報;

(4) 英語、中国語、スペイン語、日本語、フランス語、ドイツ語、韓国語、アラビア語を含む 8 つの言語をサポートします。

#次の図は、この 2 つのコマンドと応答の比較を示しています (黄色のボックスは LLaVA)。

8 つの言語で共通の 280 万のマルチモーダルコマンドと応答のペア、ビデオコンテンツをカバーする初のコマンドデータセット MIMIC-IT が登場

##表 1 に示すように、MIMIC-IT のデータソースは、COCO、Spot-the-diff (SD)、ScanNetV2 (SN)、VisualStorytting (VIST)、 DenseCaption /アクティビティキャプション (DC)、TVCaption (TVC)、および Ego4D (E4D)。「Context」列の「lang.」は言語を表し、「vis.」はビジョンを表します。

Sythus: 自動コマンド応答ペア生成パイプライン

8 つの言語で共通の 280 万のマルチモーダルコマンドと応答のペア、ビデオコンテンツをカバーする初のコマンドデータセット MIMIC-IT が登場

同時に、研究者は Sythus (図 3) を提案しました。これは、複数の言語で高品質のコマンドと応答のペアを生成するための自動パイプラインです。 LLaVA によって提案されたフレームワークに基づいて、研究者らは ChatGPT を使用して、視覚的なコンテンツに基づいてコマンドと応答のペアを生成しました。生成されたコマンドと応答のペアの品質を保証するために、パイプラインはシステム情報、視覚的な注釈、およびコンテキスト内のサンプルを ChatGPT のプロンプトとして使用します。システム情報は、生成されるコマンドと応答のペアの予期されるトーンとスタイルを定義し、視覚的な注釈は境界ボックスや画像の説明などの基本的な画像情報を提供します。コンテキスト内の例は、ChatGPT がコンテキスト内で学習するのに役立ちます。

コアセットの品質はその後のデータ収集プロセスに影響を与えるため、研究者らはコールドスタート戦略を採用し、大規模なクエリを実行する前にコンテキスト内のサンプルを強化しました。コールドスタートフェーズでは、ヒューリスティックなアプローチが採用され、ChatGPT がシステム情報と視覚的な注釈を通じてのみコンテキスト内でサンプルを収集するように指示されます。このフェーズは、満足のいくコンテキスト内のサンプルが特定された後にのみ終了します。 4 番目のステップでは、コマンドと応答のペアが取得されると、パイプラインはそれらを中国語 (zh)、日本語 (ja)、スペイン語 (es)、ドイツ語 (de)、フランス語 (fr)、韓国語 (ko)、およびアラビア語に展開します。 (ar)。詳細については付録 C を、特定のタスクプロンプトについては付録 D を参照してください。

8 つの言語で共通の 280 万のマルチモーダルコマンドと応答のペア、ビデオコンテンツをカバーする初のコマンドデータセット MIMIC-IT が登場実験的評価

研究者らはその後、視覚言語モデルのさまざまなアプリケーションと潜在的な機能を実証しました ( VLM) でトレーニングされました。まず、研究者らは、MIMIC-IT データセットを使用して開発されたコンテキスト命令調整モデルである Otter を紹介しました。次に研究者らは、MIMIC-IT データセットで Otter をトレーニングするさまざまな方法を検討し、Otter を効果的に使用できる多くのシナリオについて議論しました。

図 5 は、さまざまなシナリオにおける Otter の応答の例です。 MIMIC-IT データセットでのトレーニングのおかげで、Otter は状況の理解と推論、状況に応じたサンプル学習、自己中心的な視覚アシスタントを提供できます。

8 つの言語で共通の 280 万のマルチモーダルコマンドと応答のペア、ビデオコンテンツをカバーする初のコマンドデータセット MIMIC-IT が登場

最後に、研究者らは一連のベンチマークテストで Otter と他の VLM のパフォーマンスの比較分析を実施しました。

ChatGPT の評価

以下の表 2 は、MMAGIBench フレームワークを使用した視覚言語モデルの研究者による評価を示しています [43] 】知覚力と推論力が幅広く評価されます。

8 つの言語で共通の 280 万のマルチモーダルコマンドと応答のペア、ビデオコンテンツをカバーする初のコマンドデータセット MIMIC-IT が登場

##人間評価

マルチモダリティアリーナ[32] は、Elo 評価システムを使用して、VLM 応答の有用性と一貫性を評価しています。図 6(b) は、Otter が優れた実用性と一貫性を示し、最近の VLM で最高の Elo 評価を達成していることを示しています。

少数ショットの文脈学習ベンチマーク評価

Otter は、マルチモデルである OpenFlamingo に基づいて微調整されています動的なコンテキスト学習のために設計されたアーキテクチャ。 MIMIC-IT データセットを使用して微調整した後、Otter は COCO Captioning (CIDEr) [27] の数ショット評価で OpenFlamingo を大幅に上回りました (図 6 (c) を参照)。予想どおり、微調整により、ゼロサンプル評価のパフォーマンスもわずかに向上します。

8 つの言語で共通の 280 万のマルチモーダルコマンドと応答のペア、ビデオコンテンツをカバーする初のコマンドデータセット MIMIC-IT が登場

# 図 6: ChatGPT ビデオ理解の評価。欠陥について話し合う。研究者たちはシステムメッセージとコマンド応答の例を繰り返し改善してきましたが、ChatGPT は言語幻覚を起こしやすいため、誤った応答を生成する可能性があります。多くの場合、より信頼性の高い言語モデルには自己指示データ生成が必要です。

将来の仕事。将来的には、研究者らは、LanguageTable や SayCan など、より具体的な AI データセットをサポートする予定です。研究者らは、命令セットを改善するために、より信頼できる言語モデルや生成技術を使用することも検討しています。

以上が8 つの言語で共通の 280 万のマルチモーダルコマンドと応答のペア、ビデオコンテンツをカバーする初のコマンドデータセット MIMIC-IT が登場の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

ほとんどが使用されています10 Power BIチャート - 分析VidhyaApr 16, 2025 pm 12:05 PM

Microsoft PowerBIチャートでデータ視覚化の力を活用する今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。データの視覚化は、このギャップを橋渡しし、生データを変換するi

AIのエキスパートシステムApr 16, 2025 pm 12:00 PM

エキスパートシステム：AIの意思決定力に深く飛び込みます医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。それが人工知能の専門家システムの力です。これらのシステムはプロを模倣します

3人の最高の雰囲気コーダーがこのAI革命をコードで分解するApr 16, 2025 am 11:58 AM

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

滑走路AIのGen-4：AIモンタージュはどのように不条理を超えることができますかApr 16, 2025 am 11:45 AM

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

5日間のISRO AI無料コースを登録する方法は？ - 分析VidhyaApr 16, 2025 am 11:43 AM

ISROの無料AI/MLオンラインコース：地理空間技術の革新へのゲートウェイインド宇宙研究機関（ISRO）は、インドのリモートセンシング研究所（IIRS）を通じて、学生と専門家に素晴らしい機会を提供しています。

AIのローカル検索アルゴリズムApr 16, 2025 am 11:40 AM

ローカル検索アルゴリズム：包括的なガイド大規模なイベントを計画するには、効率的なワークロード分布が必要です。従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。この記事では、Hill ClimbingとSimulについて説明します

OpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先しますApr 16, 2025 am 11:37 AM

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

プロンプト：ChatGptは偽のパスポートを生成しますApr 16, 2025 am 11:35 AM

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

ドリームウィーバー CS6

ビジュアル Web 開発ツール

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。