8 つの言語で共通の 280 万のマルチモーダル コマンドと応答のペア、ビデオ コンテンツをカバーする初のコマンド データ セット MIMIC-IT が登場
最近、AI 対話アシスタントは言語タスクにおいて大幅な進歩を遂げています。この大幅な改善は、LLM の強力な汎化能力に基づくだけでなく、命令のチューニングにも起因すると考えられます。これには、多様で質の高い指導を通じて、さまざまなタスクに関して LLM を微調整することが含まれます。
命令チューニングでゼロショット パフォーマンスを達成できる潜在的な理由の 1 つは、コンテキストを内部化することです。これは、ユーザー入力が常識的なコンテキストをスキップする場合に特に重要です。命令チューニングを組み込むことで、LLM はユーザーの意図を高度に理解できるようになり、これまで目に見えなかったタスクでも優れたゼロショット機能を発揮します。
ただし、理想的な AI 会話アシスタントは、複数のモダリティが関係するタスクを解決できる必要があります。これには、データセットに従って多様で高品質なマルチモーダルな命令を取得する必要があります。たとえば、LLaVAInstruct-150K データセット (LLaVA としても知られています) は、一般的に使用される視覚的言語指示に従うデータセットであり、COCO 画像、画像キャプションおよび GPT-4 Constructed から取得したターゲット境界ボックスに基づく指示と応答を使用します。ただし、LLaVA-Instruct-150K には 3 つの制限があります: 視覚的多様性が制限されていること、単一の視覚データとして画像を使用していること、および言語形態のみを含む文脈情報です。
AI 対話アシスタントによるこれらの限界の突破を促進するために、シンガポールの南洋理工大学とレドモンドのマイクロソフト研究所の学者は、マルチモーダル コンテキスト命令チューニング データ セット MIMIC を提案しました。 IT は、さまざまな現実のシナリオをカバーする、280 万のマルチモーダル コンテキストの命令と応答のペアを含むデータセットです。
#論文アドレス: https://arxiv.org/pdf/2306.05425.pdf
さらに、命令と応答のペアを効率的に生成するために、研究者らは、自己命令メソッドにヒントを得た命令と応答のアノテーションの自動パイプラインである「Sythus」も導入しました。 Sythus は、システム情報、視覚的な注釈、およびコンテキスト内の例を使用して、言語モデル (GPT-4 または ChatGPT) をガイドし、視覚的なコンテキストに基づいてコマンドと応答のペアを生成します。これは、視覚的言語モデルの 3 つの基本的な機能である知覚、推論、および視覚的なコンテキストに基づいて生成されます。計画中。さらに、英語のコマンドと応答は7か国語に翻訳され、多言語での使用をサポートします。
研究者らが OpenFlamingo に基づくマルチモーダル モデル「Otter」を MIMIC-IT 上でトレーニングしたことは特に注目に値します。 ChatGPT と人間の両方で評価された Otter のマルチモーダル機能は、他の最近の視覚言語モデルを上回っています。
研究者らは一連のデモで、Otter のマルチモーダルな質問と回答機能を実証しました。
Q: 次にプレイされるカードはどれですか? ?
#A: チューブは 8 本です。こうすることで、ストレートを待ち続けることができます。
#A: 左下のボタンを 1 回押して左に曲がり、着陸するときに右側のハンドブレーキを引きます。
#Q: 次に何をしますか?
#次に、研究の詳細を見てみましょう。
MIMIC-IT データセット
MIMIC-IT データセットには、認識、推論、計画といった基本的な機能をカバーする、280 万のマルチモーダルな命令と応答のペアが含まれています。各命令にはマルチモーダルな会話コンテキストが伴うため、MIMIC-IT でトレーニングされた VLM が対話型命令で優れた習熟度を示し、ゼロショット汎化を実行できるようになります。
LLaVA と比較した場合、MIMIC-IT の特徴は次のとおりです。
# (1) 一般的なシーン、自己中心的な視点シーン、屋内 RGB-D 画像など、さまざまなデータ セットからの画像やビデオを含む多様なビジュアル シーン;(2) 詳細画像 (またはビデオ)を視覚データとして;
(3) 複数のコマンドと応答のペアおよび複数の画像またはビデオを含むマルチモーダル コンテキスト情報;
(4) 英語、中国語、スペイン語、日本語、フランス語、ドイツ語、韓国語、アラビア語を含む 8 つの言語をサポートします。
#次の図は、この 2 つのコマンドと応答の比較を示しています (黄色のボックスは LLaVA)。
Sythus: 自動コマンド応答ペア生成パイプライン
コア セットの品質はその後のデータ収集プロセスに影響を与えるため、研究者らはコールド スタート戦略を採用し、大規模なクエリを実行する前にコンテキスト内のサンプルを強化しました。コールド スタート フェーズでは、ヒューリスティックなアプローチが採用され、ChatGPT がシステム情報と視覚的な注釈を通じてのみコンテキスト内でサンプルを収集するように指示されます。このフェーズは、満足のいくコンテキスト内のサンプルが特定された後にのみ終了します。 4 番目のステップでは、コマンドと応答のペアが取得されると、パイプラインはそれらを中国語 (zh)、日本語 (ja)、スペイン語 (es)、ドイツ語 (de)、フランス語 (fr)、韓国語 (ko)、およびアラビア語に展開します。 (ar)。詳細については付録 C を、特定のタスク プロンプトについては付録 D を参照してください。
実験的評価
研究者らはその後、視覚言語モデルのさまざまなアプリケーションと潜在的な機能を実証しました ( VLM) でトレーニングされました。まず、研究者らは、MIMIC-IT データセットを使用して開発されたコンテキスト命令調整モデルである Otter を紹介しました。次に研究者らは、MIMIC-IT データセットで Otter をトレーニングするさまざまな方法を検討し、Otter を効果的に使用できる多くのシナリオについて議論しました。
図 5 は、さまざまなシナリオにおける Otter の応答の例です。 MIMIC-IT データセットでのトレーニングのおかげで、Otter は状況の理解と推論、状況に応じたサンプル学習、自己中心的な視覚アシスタントを提供できます。
最後に、研究者らは一連のベンチマーク テストで Otter と他の VLM のパフォーマンスの比較分析を実施しました。
ChatGPT の評価
以下の表 2 は、MMAGIBench フレームワークを使用した視覚言語モデルの研究者による評価を示しています [43] 】 知覚力と推論力が幅広く評価されます。
##人間評価
マルチモダリティアリーナ[32] は、Elo 評価システムを使用して、VLM 応答の有用性と一貫性を評価しています。図 6(b) は、Otter が優れた実用性と一貫性を示し、最近の VLM で最高の Elo 評価を達成していることを示しています。
少数ショットの文脈学習ベンチマーク評価
Otter は、マルチモデルである OpenFlamingo に基づいて微調整されています動的なコンテキスト学習のために設計されたアーキテクチャ。 MIMIC-IT データセットを使用して微調整した後、Otter は COCO Captioning (CIDEr) [27] の数ショット評価で OpenFlamingo を大幅に上回りました (図 6 (c) を参照)。予想どおり、微調整により、ゼロサンプル評価のパフォーマンスもわずかに向上します。
# 図 6: ChatGPT ビデオ理解の評価。 欠陥について話し合う。研究者たちはシステム メッセージとコマンド応答の例を繰り返し改善してきましたが、ChatGPT は言語幻覚を起こしやすいため、誤った応答を生成する可能性があります。多くの場合、より信頼性の高い言語モデルには自己指示データ生成が必要です。
将来の仕事。将来的には、研究者らは、LanguageTable や SayCan など、より具体的な AI データセットをサポートする予定です。研究者らは、命令セットを改善するために、より信頼できる言語モデルや生成技術を使用することも検討しています。
以上が8 つの言語で共通の 280 万のマルチモーダル コマンドと応答のペア、ビデオ コンテンツをカバーする初のコマンド データ セット MIMIC-IT が登場の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Microsoft PowerBIチャートでデータ視覚化の力を活用する 今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。 データの視覚化は、このギャップを橋渡しし、生データを変換するi

エキスパートシステム:AIの意思決定力に深く飛び込みます 医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。 それが人工知能の専門家システムの力です。 これらのシステムはプロを模倣します

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

ISROの無料AI/MLオンラインコース:地理空間技術の革新へのゲートウェイ インド宇宙研究機関(ISRO)は、インドのリモートセンシング研究所(IIRS)を通じて、学生と専門家に素晴らしい機会を提供しています。

ローカル検索アルゴリズム:包括的なガイド 大規模なイベントを計画するには、効率的なワークロード分布が必要です。 従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。 この記事では、Hill ClimbingとSimulについて説明します

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

ドリームウィーバー CS6
ビジュアル Web 開発ツール

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。
