検索
ホームページテクノロジー周辺機器AIマルチモーダル バージョン Llama2 がオンラインになり、Meta が AnyMAL をリリース

複数のベンチマーク テストで業界最高のゼロショット パフォーマンスを更新しました。

さまざまなモーダル入力コンテンツ (テキスト、画像、ビデオ、オーディオ、IMU モーション センサー データ) を理解し、テキスト応答を生成できる統合モデル。このテクノロジーは、Llama 2 に基づいています。メタ。

昨日、マルチモーダル大規模モデル AnyMAL に関する研究が AI 研究コミュニティの注目を集めました。

大規模言語モデル (LLM) は、その巨大なサイズと複雑さで知られており、人間の言語を理解して表現する機械の能力を大幅に強化します。 LLM の進歩により、画像エンコーダと LLM の推論機能を組み合わせて、画像エンコーダと LLM の間のギャップを埋め、視覚言語の分野で大幅な進歩が可能になりました。これまでのマルチモーダル LLM 研究は、テキストと画像モデルなど、テキストと別のモダリティを組み合わせるモデル、またはオープンソースではない独自の言語モデルに焦点を当てていました。

マルチモーダル機能を実現し、LLM にさまざまなモダリティを組み込むためのより良い方法があれば、それは私たちに異なるエクスペリエンスをもたらすでしょうか?

マルチモーダル バージョン Llama2 がオンラインになり、Meta が AnyMAL をリリース

##Q 出力例

この問題について、META の研究者は最近 Anymal (Any-モダリティ拡張言語モデル)。これは、画像、ビデオ、オーディオ、IMU モーション センサー データなど、さまざまなモダリティからのデータを LLM のテキスト埋め込みスペースに変換するようにトレーニングされたマルチモーダル エンコーダーのコレクションです

マルチモーダル バージョン Llama2 がオンラインになり、Meta が AnyMAL をリリース

#論文アドレス: https://huggingface.co/papers/2309.16058

説明によると、この研究の主な貢献は次のとおりです:

    #提案マルチモーダル LLM を構築するための効率的でスケーラブルなソリューションです。この記事では、複数のモダリティ (例: 2 億の画像、220 万の音声セグメント、50 万の IMU 時系列、2,800 万のビデオ セグメント) を含む大規模なデータセットで事前トレーニングされた投影レイヤーを提供します。すべて同じ大規模モデル (LLaMA-2- 70B-chat) を使用して、インターリーブされたマルチモーダル コンテキスト キューを有効にします。
  • この研究では、3 つのモダリティ (画像、ビデオ、オーディオ) にわたるマルチモーダル命令セットを使用してモデルをさらに微調整し、単純な質問応答 (QA) を超えたさまざまな分野をカバーしました。タスク。このデータセットには手動で収集された高品質の指示データが含まれているため、この研究ではそれを複雑なマルチモーダル推論タスクのベンチマークとして使用します
  • この論文の最良のモデルは、さまざまなタスクを自動的に実行し、既存の文献のモデルと比較して、VQAv2 の相対精度は 7.0% 向上し、ゼロエラー COCO 画像字幕の CIDEr は 8.4% 向上しました。AudioCaps では CIDEr が 14.5% 向上し、新しい SOTA が作成されました。
事前トレーニング モーダル アライメントの内容を書き直す必要があります

ペアになったマルチモーダル データ (特定のモーダル信号とテキストを含む) を使用して、図 2 に示すように、この研究では、マルチモーダルな理解機能を達成するために LLM を事前トレーニングしました。具体的には、入力信号を特定の LLM のテキスト トークン埋め込み空間に投影する各モダリティの軽量アダプターをトレーニングします。このようにして、LLM のテキスト タグ埋め込み空間は、タグがテキストまたはその他のモダリティを表現できる共同タグ埋め込み空間になります。クリーンなサブセットは CAT メソッドを使用してフィルタリングされ、検出可能な顔をぼかしました。オーディオ アライメントの研究には、AudioSet (2.1M)、AudioCaps (46K)、および CLOTHO (5K) データ セットが使用されました。さらに、IMU とテキスト配置に Ego4D データセットも使用しました (528K)

大規模なデータセットの場合、事前トレーニングを 70B パラメーター モデルにスケールアップするには多くのリソースが必要となり、多くの場合 FSDP ラッパーの使用が必要になります。 on multiple 複数の GPU でモデルをスライスします。トレーニングを効果的にスケールするために、マルチモーダル設定で量子化戦略 (4 ビットおよび 8 ビット) を実装します。この設定では、モデルの LLM 部分がフリーズされ、モーダル トークナイザーのみがトレーニング可能になります。このアプローチにより、メモリ要件が 1 桁減少します。したがって、70B AnyMAL は、バッチ サイズ 4 の単一の 80GB VRAM GPU でトレーニングを完了できます。 FSDP と比較すると、この記事で提案する量子化方法は GPU リソースの半分しか使用しませんが、同じスループットを実現します

マルチモーダル バージョン Llama2 がオンラインになり、Meta が AnyMAL をリリース

マルチモーダル命令データ セットを微調整に使用するということは、マルチモーダル命令データ セットを微調整に使用することを意味します。さらに、さまざまな入力モダリティの命令に従うモデルの能力を向上させるために、研究では追加の微調整にマルチモーダル命令チューニング (MM-IT) データセットを使用しました。具体的には、応答ターゲットがテキスト命令とモーダル入力の両方に基づくように、入力を [] として連結します。研究は、(1) LLM パラメータを変更せずに投影層をトレーニングする、または (2) 低レベルの適応 (Low-Rank Adaptation) を使用して LM の動作をさらに調整する 2 つの状況について行われます。この研究では、手動で収集された命令調整されたデータセットと合成データの両方が使用されます。

マルチモーダル バージョン Llama2 がオンラインになり、Meta が AnyMAL をリリース実験と結果

画像タイトル生成は、画像に対応するタイトルを自動的に生成するために使用される人工知能テクノロジーです。このテクノロジーは、コンピューター ビジョンと自然言語処理手法を組み合わせて、画像の内容と特性を分析し、意味論と構文を理解することで、画像に関連する説明的なキャプションを生成します。画像キャプションの生成は、画像検索、画像注釈、画像検索など、多くの分野で幅広い用途があります。タイトルを自動生成することで、画像のわかりやすさや検索エンジンの精度が向上し、より良い画像検索や閲覧体験をユーザーに提供することができます。タスク (MM-IT-Cap)。見てわかるように、AnyMAL バリアントは両方のデータセットでベースラインよりも大幅に優れたパフォーマンスを示しています。特に、AnyMAL-13B バリアントと AnyMAL-70B バリアントの間にパフォーマンスに大きな差はありません。この結果は、画像キャプション生成の基礎となる LLM 機能が、画像に対応するキャプションを自動的に生成するために使用される人工知能技術であることを示しています。このテクノロジーは、コンピューター ビジョンと自然言語処理手法を組み合わせて、画像の内容と特性を分析し、意味論と構文を理解することで、画像に関連する説明的なキャプションを生成します。画像キャプションの生成は、画像検索、画像注釈、画像検索など、多くの分野で幅広い用途があります。キャプションの生成を自動化することで、画像の理解しやすさと検索エンジンの精度が向上し、ユーザーにより良い画像検索と閲覧エクスペリエンスが提供されます。このタスクの影響はそれほど大きくありませんが、データ サイズと登録方法に大きく依存します。

必要な書き直しは次のとおりです: マルチモーダル推論タスクに対する人間による評価

マルチモーダル バージョン Llama2 がオンラインになり、Meta が AnyMAL をリリース 図 3 は、ベースライン ( LLaVA: 勝率 34.4%、MiniGPT4: 勝率 27.0%) と比較すると、AnyMAL は強力なパフォーマンスを示し、実際の手動でラベル付けされたサンプル (勝率 41.1%) との差が小さくなっています。特に、完全な命令セットで微調整されたモデルは最高の優先順位の勝率を示し、人間による注釈付きの応答に匹敵する視覚的な理解と推論能力を示しました。 BLIP-2 と InstructBLIP は、公開 VQA ベンチマークでは良好なパフォーマンスを示しますが (表 4 を参照)、これらのオープン クエリではパフォーマンスが低いことにも注目してください (優先勝率はそれぞれ 4.1% と 16.7%)。

#VQA ベンチマーク

マルチモーダル バージョン Llama2 がオンラインになり、Meta が AnyMAL をリリース表 4 に、Hateful Meme データセット VQAv2 のパフォーマンスを示します。 、TextVQA、ScienceQA、VizWiz、OKVQA を比較し、文献で報告されているそれぞれのベンチマークのゼロショット結果と比較しました。私たちの研究は、推論時のオープン クエリでのモデルのパフォーマンスを最も正確に推定するためのゼロショット評価に焦点を当てています。

ビデオ QA ベンチマーク

表 6 に示すように、この研究では 3 つの困難なビデオ QA ベンチマークでモデルを評価しました。 マルチモーダル バージョン Llama2 がオンラインになり、Meta が AnyMAL をリリース

#オーディオ字幕の再生成

表 5 は、AudioCaps ベンチマーク データセットでのオーディオ字幕の再生成の結果を示しています。 AnyMAL は、文献にある他の最先端の音声字幕モデル (CIDEr 10.9pp、SPICE 5.8pp など) よりも大幅に優れており、提案された方法が視覚だけでなくさまざまなモダリティにも適用できることを示しています。テキスト 70B モデルは、7B および 13B バリアントと比較して明らかな利点を示しています。

マルチモーダル バージョン Llama2 がオンラインになり、Meta が AnyMAL をリリース

興味深いことに、AnyMAL 論文提出の方法、種類、タイミングに基づいて、Meta は新しく発売された複合現実/メタバース ヘッドセットを通じてマルチモーダル データを収集することを計画しているようです。これらの研究結果は、Meta の Metaverse 製品ラインに統合されるか、すぐに消費者向けアプリケーションで使用される可能性があります。

詳細については、元の記事をお読みください。

以上がマルチモーダル バージョン Llama2 がオンラインになり、Meta が AnyMAL をリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用:個人的なチャットボットCLIの構築 最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。 ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますメンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加します2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。 アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaPythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。 大規模なデータセットを処理する場合、効率的なデータ操作(ストレージ、管理、アクセス)が重要です。 以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項:AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この(または他の)記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は?AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は?Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築:初心者と専門家向けガイド 説得力のあるポートフォリオを作成することは、人工知能(AI)と機械学習(ML)で役割を確保するために重要です。 このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかエージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果?燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。 しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai:学生のためのAIの戦いGoogle対Openai:学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ? 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境