ホームページ  >  記事  >  テクノロジー周辺機器  >  マルチモーダル バージョン Llama2 がオンラインになり、Meta が AnyMAL をリリース

マルチモーダル バージョン Llama2 がオンラインになり、Meta が AnyMAL をリリース

WBOY
WBOY転載
2023-10-03 17:17:01841ブラウズ

複数のベンチマーク テストで業界最高のゼロショット パフォーマンスを更新しました。

さまざまなモーダル入力コンテンツ (テキスト、画像、ビデオ、オーディオ、IMU モーション センサー データ) を理解し、テキスト応答を生成できる統合モデル。このテクノロジーは、Llama 2 に基づいています。メタ。

昨日、マルチモーダル大規模モデル AnyMAL に関する研究が AI 研究コミュニティの注目を集めました。

大規模言語モデル (LLM) は、その巨大なサイズと複雑さで知られており、人間の言語を理解して表現する機械の能力を大幅に強化します。 LLM の進歩により、画像エンコーダと LLM の推論機能を組み合わせて、画像エンコーダと LLM の間のギャップを埋め、視覚言語の分野で大幅な進歩が可能になりました。これまでのマルチモーダル LLM 研究は、テキストと画像モデルなど、テキストと別のモダリティを組み合わせるモデル、またはオープンソースではない独自の言語モデルに焦点を当てていました。

マルチモーダル機能を実現し、LLM にさまざまなモダリティを組み込むためのより良い方法があれば、それは私たちに異なるエクスペリエンスをもたらすでしょうか?

マルチモーダル バージョン Llama2 がオンラインになり、Meta が AnyMAL をリリース

##Q 出力例

この問題について、META の研究者は最近 Anymal (Any-モダリティ拡張言語モデル)。これは、画像、ビデオ、オーディオ、IMU モーション センサー データなど、さまざまなモダリティからのデータを LLM のテキスト埋め込みスペースに変換するようにトレーニングされたマルチモーダル エンコーダーのコレクションです

マルチモーダル バージョン Llama2 がオンラインになり、Meta が AnyMAL をリリース

#論文アドレス: https://huggingface.co/papers/2309.16058

説明によると、この研究の主な貢献は次のとおりです:

    #提案マルチモーダル LLM を構築するための効率的でスケーラブルなソリューションです。この記事では、複数のモダリティ (例: 2 億の画像、220 万の音声セグメント、50 万の IMU 時系列、2,800 万のビデオ セグメント) を含む大規模なデータセットで事前トレーニングされた投影レイヤーを提供します。すべて同じ大規模モデル (LLaMA-2- 70B-chat) を使用して、インターリーブされたマルチモーダル コンテキスト キューを有効にします。
  • この研究では、3 つのモダリティ (画像、ビデオ、オーディオ) にわたるマルチモーダル命令セットを使用してモデルをさらに微調整し、単純な質問応答 (QA) を超えたさまざまな分野をカバーしました。タスク。このデータセットには手動で収集された高品質の指示データが含まれているため、この研究ではそれを複雑なマルチモーダル推論タスクのベンチマークとして使用します
  • この論文の最良のモデルは、さまざまなタスクを自動的に実行し、既存の文献のモデルと比較して、VQAv2 の相対精度は 7.0% 向上し、ゼロエラー COCO 画像字幕の CIDEr は 8.4% 向上しました。AudioCaps では CIDEr が 14.5% 向上し、新しい SOTA が作成されました。
事前トレーニング モーダル アライメントの内容を書き直す必要があります

ペアになったマルチモーダル データ (特定のモーダル信号とテキストを含む) を使用して、図 2 に示すように、この研究では、マルチモーダルな理解機能を達成するために LLM を事前トレーニングしました。具体的には、入力信号を特定の LLM のテキスト トークン埋め込み空間に投影する各モダリティの軽量アダプターをトレーニングします。このようにして、LLM のテキスト タグ埋め込み空間は、タグがテキストまたはその他のモダリティを表現できる共同タグ埋め込み空間になります。クリーンなサブセットは CAT メソッドを使用してフィルタリングされ、検出可能な顔をぼかしました。オーディオ アライメントの研究には、AudioSet (2.1M)、AudioCaps (46K)、および CLOTHO (5K) データ セットが使用されました。さらに、IMU とテキスト配置に Ego4D データセットも使用しました (528K)

大規模なデータセットの場合、事前トレーニングを 70B パラメーター モデルにスケールアップするには多くのリソースが必要となり、多くの場合 FSDP ラッパーの使用が必要になります。 on multiple 複数の GPU でモデルをスライスします。トレーニングを効果的にスケールするために、マルチモーダル設定で量子化戦略 (4 ビットおよび 8 ビット) を実装します。この設定では、モデルの LLM 部分がフリーズされ、モーダル トークナイザーのみがトレーニング可能になります。このアプローチにより、メモリ要件が 1 桁減少します。したがって、70B AnyMAL は、バッチ サイズ 4 の単一の 80GB VRAM GPU でトレーニングを完了できます。 FSDP と比較すると、この記事で提案する量子化方法は GPU リソースの半分しか使用しませんが、同じスループットを実現します

マルチモーダル バージョン Llama2 がオンラインになり、Meta が AnyMAL をリリース

マルチモーダル命令データ セットを微調整に使用するということは、マルチモーダル命令データ セットを微調整に使用することを意味します。さらに、さまざまな入力モダリティの命令に従うモデルの能力を向上させるために、研究では追加の微調整にマルチモーダル命令チューニング (MM-IT) データセットを使用しました。具体的には、応答ターゲットがテキスト命令とモーダル入力の両方に基づくように、入力を [] として連結します。研究は、(1) LLM パラメータを変更せずに投影層をトレーニングする、または (2) 低レベルの適応 (Low-Rank Adaptation) を使用して LM の動作をさらに調整する 2 つの状況について行われます。この研究では、手動で収集された命令調整されたデータセットと合成データの両方が使用されます。

マルチモーダル バージョン Llama2 がオンラインになり、Meta が AnyMAL をリリース実験と結果

画像タイトル生成は、画像に対応するタイトルを自動的に生成するために使用される人工知能テクノロジーです。このテクノロジーは、コンピューター ビジョンと自然言語処理手法を組み合わせて、画像の内容と特性を分析し、意味論と構文を理解することで、画像に関連する説明的なキャプションを生成します。画像キャプションの生成は、画像検索、画像注釈、画像検索など、多くの分野で幅広い用途があります。タイトルを自動生成することで、画像のわかりやすさや検索エンジンの精度が向上し、より良い画像検索や閲覧体験をユーザーに提供することができます。タスク (MM-IT-Cap)。見てわかるように、AnyMAL バリアントは両方のデータセットでベースラインよりも大幅に優れたパフォーマンスを示しています。特に、AnyMAL-13B バリアントと AnyMAL-70B バリアントの間にパフォーマンスに大きな差はありません。この結果は、画像キャプション生成の基礎となる LLM 機能が、画像に対応するキャプションを自動的に生成するために使用される人工知能技術であることを示しています。このテクノロジーは、コンピューター ビジョンと自然言語処理手法を組み合わせて、画像の内容と特性を分析し、意味論と構文を理解することで、画像に関連する説明的なキャプションを生成します。画像キャプションの生成は、画像検索、画像注釈、画像検索など、多くの分野で幅広い用途があります。キャプションの生成を自動化することで、画像の理解しやすさと検索エンジンの精度が向上し、ユーザーにより良い画像検索と閲覧エクスペリエンスが提供されます。このタスクの影響はそれほど大きくありませんが、データ サイズと登録方法に大きく依存します。

必要な書き直しは次のとおりです: マルチモーダル推論タスクに対する人間による評価

マルチモーダル バージョン Llama2 がオンラインになり、Meta が AnyMAL をリリース 図 3 は、ベースライン ( LLaVA: 勝率 34.4%、MiniGPT4: 勝率 27.0%) と比較すると、AnyMAL は強力なパフォーマンスを示し、実際の手動でラベル付けされたサンプル (勝率 41.1%) との差が小さくなっています。特に、完全な命令セットで微調整されたモデルは最高の優先順位の勝率を示し、人間による注釈付きの応答に匹敵する視覚的な理解と推論能力を示しました。 BLIP-2 と InstructBLIP は、公開 VQA ベンチマークでは良好なパフォーマンスを示しますが (表 4 を参照)、これらのオープン クエリではパフォーマンスが低いことにも注目してください (優先勝率はそれぞれ 4.1% と 16.7%)。

#VQA ベンチマーク

マルチモーダル バージョン Llama2 がオンラインになり、Meta が AnyMAL をリリース表 4 に、Hateful Meme データセット VQAv2 のパフォーマンスを示します。 、TextVQA、ScienceQA、VizWiz、OKVQA を比較し、文献で報告されているそれぞれのベンチマークのゼロショット結果と比較しました。私たちの研究は、推論時のオープン クエリでのモデルのパフォーマンスを最も正確に推定するためのゼロショット評価に焦点を当てています。

ビデオ QA ベンチマーク

表 6 に示すように、この研究では 3 つの困難なビデオ QA ベンチマークでモデルを評価しました。 マルチモーダル バージョン Llama2 がオンラインになり、Meta が AnyMAL をリリース

#オーディオ字幕の再生成

表 5 は、AudioCaps ベンチマーク データセットでのオーディオ字幕の再生成の結果を示しています。 AnyMAL は、文献にある他の最先端の音声字幕モデル (CIDEr 10.9pp、SPICE 5.8pp など) よりも大幅に優れており、提案された方法が視覚だけでなくさまざまなモダリティにも適用できることを示しています。テキスト 70B モデルは、7B および 13B バリアントと比較して明らかな利点を示しています。

マルチモーダル バージョン Llama2 がオンラインになり、Meta が AnyMAL をリリース

興味深いことに、AnyMAL 論文提出の方法、種類、タイミングに基づいて、Meta は新しく発売された複合現実/メタバース ヘッドセットを通じてマルチモーダル データを収集することを計画しているようです。これらの研究結果は、Meta の Metaverse 製品ラインに統合されるか、すぐに消費者向けアプリケーションで使用される可能性があります。

詳細については、元の記事をお読みください。

以上がマルチモーダル バージョン Llama2 がオンラインになり、Meta が AnyMAL をリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はjiqizhixin.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。