ケンブリッジチームのオープンソース: マルチモーダル大規模モデル RAG アプリケーションを強化する、初の事前トレーニング済みユニバーサルマルチモーダルポストインタラクティブナレッジリトリーバー

ケンブリッジチームのオープンソース: マルチモーダル大規模モデル RAG アプリケーションを強化する、初の事前トレーニング済みユニバーサルマルチモーダルポストインタラクティブナレッジリトリーバー

PHPz

Mar 25, 2024 pm 08:50 PM

aiオープンソース電車

紙のリンク: https://arxiv.org/abs/2402.08327
デモリンク: https://u60544-b8d4-53eaa55d.westx.seetacloud.com:8443 /
#プロジェクトホームページのリンク: https://preflmr.github.io/
#背景

#大規模なマルチモーダルモデル (GPT4-Vision、Gemini など) は強力な一般的な画像およびテキスト理解機能を示していますが、専門知識が必要な問題を処理する場合、そのパフォーマンスは満足のいくものではありません。 GPT4-Vision でさえ、知識集約型の質問 (図 1 を参照) に効果的に答えることができず、多くのエンタープライズレベルのアプリケーションに課題をもたらします。

GPT4-Vision は、PreFLMR マルチモーダル知識検索ツールを通じて関連する知識を取得し、正確な回答を生成できます。この図は、モデルの実際の出力を示しています。ケンブリッジチームのオープンソース: マルチモーダル大規模モデル RAG アプリケーションを強化する、初の事前トレーニング済みユニバーサルマルチモーダルポストインタラクティブナレッジリトリーバー

検索拡張生成 (RAG) は、この問題を解決するためのシンプルかつ効果的な方法を提供し、マルチモーダルな大規模モデルを特定の分野の「ドメイン」のようにします。その動作原理は次のとおりです: まず、軽量のナレッジリトリーバー (Knowledge Retriever) を使用して、専門データベース (Wikipedia やエンタープライズナレッジベースなど) から関連する専門知識を取得します。次に、大規模モデルがこの知識と質問を入力として受け取ります。そして正確な答えを出力します。マルチモーダル知識抽出器の知識「想起能力」は、大規模モデルが推論の質問に答えるときに正確な専門知識を取得できるかどうかに直接影響します。

最近、ケンブリッジ大学情報工学部の人工知能研究室は、初の事前トレーニング済みユニバーサルマルチモーダルポストインタラクティブ知識検索を完全にオープンソース化しました。 PreFLMR

(事前トレーニングされたファイングレインレイトインタラクションマルチモーダルレトリバー)。 PreFLMR は、従来の一般的なモデルと比較して、次のような特徴があります。

PreFLMR は、テキスト検索、画像検索、知識検索などの複数のサブタスクを効果的に解決できる一般的な事前トレーニングモデルです。このモデルは、数百万レベルのマルチモーダルデータで事前トレーニングされており、複数の下流の検索タスクで適切に実行されます。さらに、PreFLMR は優れた基本モデルとして、プライベートデータに合わせて微調整した後、すぐに優れたドメイン固有モデルに開発できます。

図 2: PreFLMR モデルは、同時に複数のタスクで優れたマルチモーダル検索パフォーマンスを達成し、非常に強力な事前トレーニングベースとなります。。モデル。

2. 従来の密パッセージ検索 (DPR) は、クエリ (Query) またはドキュメント (Document) を表すために 1 つのベクトルのみを使用します。 NeurIPS 2023 で Cambridge チームが公開した FLMR モデルは、DPR の単一ベクトル表現設計がきめ細かい情報損失につながる可能性があり、その結果、詳細な情報照合が必要な検索タスクで DPR のパフォーマンスが低下する可能性があることを証明しました。特にマルチモーダルタスクでは、ユーザーのクエリには複雑なシーン情報が含まれており、それを 1 次元ベクトルに圧縮すると、特徴の表現能力が大幅に阻害されます。 PreFLMR は FLMR の構造を継承および改良し、マルチモーダルな知識検索において独自の利点をもたらします。

# 図 3: PreFLMR はクエリ (クエリ、左側の 1、2) を文字レベル (トークン) でエンコードします。レベル）、3）、ドキュメント（ドキュメント、右の4）は、すべての情報を1次元ベクトルに圧縮するDPRシステムと比較して、きめ細かい情報を得ることができるという利点があります。

3. PreFLMR は、ユーザーが入力した指示に従って、画像内のアイテムに関連するドキュメントを抽出できます (「次の質問に答えるために使用できるドキュメントを抽出する」など)。「画像内のアイテムに関連するドキュメントを抽出する」) 関連するドキュメントがナレッジベースから抽出され、マルチモーダル大規模モデルによる専門知識の質問と回答のタスクのパフォーマンスが大幅に向上します。

図 4: PreFLMR は、画像からドキュメントを抽出する、質問に基づいてドキュメントを抽出する、質問に基づいてドキュメントを抽出するマルチモーダルクエリを同時に処理できます。と写真を一緒に。

ケンブリッジ大学チームは、サイズの異なる 3 つのモデルをオープンソース化しました。小規模から大規模までのモデルのパラメーターは次のとおりです: PreFLMR_ViT-B (207M)、PreFLMR_ViT-L ( 422M) )、PreFLMR_ViT-G (2B)、ユーザーが実際の条件に応じて選択できます。

オープンソースモデル PreFLMR 自体に加えて、このプロジェクトはこの研究の方向性において 2 つの重要な貢献も行いました:

このプロジェクトと同時に、一般知識検索のトレーニングと評価のための大規模なデータセットであるマルチタスクマルチモーダル知識検索ベンチマーク (M2KR) がオープンソース化され、これには学術分野で広く研究されている 10 個の検索サブタスクが含まれます。コミュニティに登録されており、合計 100 万件以上の検索が行われています。
論文の中で、ケンブリッジ大学のチームは、さまざまなサイズと性能の画像エンコーダとテキストエンコーダを比較し、拡張パラメータと事前トレーニングマルチモーダルポストインタラクティブ知識検索システムを要約しました。将来の一般的な検索モデルに経験的なガイダンスを提供するベストプラクティス。

以下では、M2KR データセット、PreFLMR モデル、実験結果解析について簡単に紹介します。

M2KR データセット

一般的なマルチモーダル検索モデルを大規模に事前トレーニングして評価するために、著者は公開されている 10 個のデータセットをコンパイルし、それを次の形式に変換しました。統一された質問文書検索形式。これらのデータセットの本来のタスクには、画像キャプション、マルチモーダルダイアログなどが含まれます。以下の図は、5 つのタスクに対する質問 (1 行目) と対応するドキュメント (2 行目) を示しています。

#図 5: M2KR データセットの知識抽出タスクの一部

PreFLMR 検索モデル

# 図 6: PreFLMR のモデル構造。クエリはトークンレベルの機能としてエンコードされます。クエリ行列内のベクトルごとに、PreFLMR はドキュメント行列内で最も近いベクトルを見つけてドット積を計算し、これらの最大ドット積を合計して最終的な関連性を取得します。

PreFLMR モデルは、NeurIPS 2023 で公開されたファイングレインレイトインタラクションマルチモーダルレトリバー (FLMR) に基づいており、モデルの改良と M2KR での大規模な事前トレーニングが行われています。 DPR と比較して、FLMR および PreFLMR は、すべてのトークンベクトルで構成される行列を使用してドキュメントとクエリを特徴付けます。トークンには、テキストトークンとテキスト空間に投影された画像トークンが含まれます。遅延相互作用は、2 つの表現行列間の相関を効率的に計算するためのアルゴリズムです。具体的な方法は、クエリ行列内のベクトルごとに、ドキュメント行列内の最も近いベクトルを見つけて、ドット積を計算することです。これらの最大ドット積が合計されて、最終的な相関関係が得られます。このようにして、各トークンの表現が最終的な相関関係に明示的に影響を与えることができるため、トークンレベルのきめ細かい情報が維持されます。専用のポストインタラクティブ検索エンジンのおかげで、PreFLMR はわずか 0.2 秒で 400,000 のドキュメントから 100 の関連ドキュメントを抽出でき、RAG シナリオでの使いやすさが大幅に向上します。

PreFLMR の事前トレーニングは、次の 4 つの段階で構成されます。

テキストエンコーダーの事前トレーニング: まず、PreFLMR のテキストエンコーダーとして MSMAARCO (純粋なテキスト知識検索データセット) 上で後期対話型テキスト検索モデルを事前トレーニングしました。
画像テキスト投影レイヤーの事前トレーニング: 次に、M2KR で画像テキスト投影レイヤーをトレーニングし、他の部分をフリーズします。この段階では、モデルがテキスト情報に過度に依存しないようにすることを目的として、投影された画像ベクトルのみを検索に使用します。
継続的な事前トレーニング: 次に、E-VQA での高品質の知識集約型視覚的質問応答タスクのトレーニングを継続します。 M2KR テキストエンコーダと画像 - テキストプロジェクションレイヤー。この段階では、PreFLMR の詳細な知識検索機能を向上させることを目的としています。
ユニバーサル検索トレーニング: 最後に、M2KR データセット全体ですべての重みをトレーニングし、画像エンコーダーのみをフリーズします。同時に、クエリテキストエンコーダーとドキュメントテキストエンコーダーのパラメーターのロックが解除され、別々にトレーニングされます。この段階は、PreFLMR の一般的な検索機能を向上させることを目的としています。

同時に、著者らは、PreFLMR をサブデータセット (OK-VQA、Infoseek など) でさらに微調整して、より優れた検索パフォーマンスを得ることができることを示しています。特定のタスク。

実験結果と垂直拡張

最良の検索結果: 最もパフォーマンスの高い PreFLMR モデルは、画像エンコーダーとして ViT-G と ColBERT ベースを使用します。 -v2 はテキストエンコーダとして、合計 20 億のパラメータ。 7 つの M2KR 取得サブタスク (WIT、OVEN、Infoseek、E-VQA、OKVQA など) でベースラインモデルを超えるパフォーマンスを実現します。

拡張ビジュアルエンコーディングはより効果的です。著者は、画像エンコーダ ViT を ViT-B (86M) から ViT-L (307M) にアップグレードすると大幅なパフォーマンスの向上が得られるが、テキストエンコーダ ColBERT を Expanding ベースからアップグレードすることを発見しました。 (110M) から大規模 (345M) まではパフォーマンスの低下とトレーニングの不安定性をもたらしました。実験結果は、後のインタラクティブなマルチモーダル検索システムでは、ビジュアルエンコーダのパラメータを増やすと、より大きな利益がもたらされることを示しています。同時に、画像テキスト投影に複数のクロスアテンション層を使用すると、単一層を使用する場合と同じ効果が得られるため、画像テキスト投影ネットワークの設計をそれほど複雑にする必要はありません。

PreFLMR により、RAG がより効果的になります。知識集約型の視覚的な質問応答タスクでは、PreFLMR を使用した検索強化により、最終システムのパフォーマンスが大幅に向上しました。Infoseek と EVQA でそれぞれ 94% に達しました。効果が 275% 向上。簡単な微調整の後、BLIP-2 ベースのモデルは、数千億のパラメータを備えた PALI-X モデルや、Google API で強化された PaLM-Bison レンズシステムを上回ることができます。

結論

ケンブリッジ人工知能研究所によって提案された PreFLMR モデルは、初のオープンソースの汎用後期対話型マルチモーダル検索モデルです。 M2KR 上の数百万のデータで事前トレーニングした後、PreFLMR は複数の取得サブタスクで優れたパフォーマンスを示します。 M2KR データセット、PreFLMR モデルの重み、およびコードは、プロジェクトのホームページ https://preflmr.github.io/ で入手できます。

#リソースを展開

以上がケンブリッジチームのオープンソース: マルチモーダル大規模モデル RAG アプリケーションを強化する、初の事前トレーニング済みユニバーサルマルチモーダルポストインタラクティブナレッジリトリーバーの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか？サプライチェーン管理協会（ASCM）のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

1つの会社がAIを永遠に変えるために静かに取り組んでいる方法Apr 26, 2025 am 11:12 AM

分散型AI革命は静かに勢いを増しています。今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI（DEAI）を移行します。派手なコマーシャルとは異なり

Nvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますApr 26, 2025 am 11:11 AM

エンタープライズAIはデータ統合の課題に直面していますエンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

aiは芸術とデザインの未来のために新しい絵を描きますApr 26, 2025 am 11:10 AM

AI：芸術とデザインの未来人工知能（AI）は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

エージェントAIとのズームがどのように革命を起こしているか：会議からマイルストーンまでApr 26, 2025 am 11:09 AM

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。エージェントAIの定義 huang d

大学に対する実存的な脅威Apr 26, 2025 am 11:08 AM

AIは教育に革命をもたらしますか？この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

プロトタイプ：アメリカの科学者は海外の仕事を探していますApr 26, 2025 am 11:07 AM

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32％増加しました。以前の世論調査では、調査した研究者の75％がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50％の削減の可能性があることを示しています。基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35