検索
ホームページテクノロジー周辺機器AINOMIC EmbeddingsでRAGシステムを強化します

マルチモーダル検索された生成(RAG)システムは、テキスト、画像、オーディオ、ビデオなどの多様なデータ型を統合してAIに革命をもたらしています。 これは、テキストのみに焦点を当てている伝統的なぼろを上回ります。 重要な進歩は、ノミックビジョンの埋め込みであり、視覚データとテキストデータのための統一されたスペースを作成し、シームレスなクロスモーダル相互作用を可能にします。 高度なモデルは、高品質の埋め込みを生成し、情報の検索を改善し、異なるコンテンツフォーム間のギャップを埋める、最終的にユーザーエクスペリエンスを濃縮します。

学習目標

    マルチモーダルラグの基本と、従来のぼろきらに対するその利点を把握してください。
  • テキストと画像の埋め込みスペースを統一する際の名目視力の埋め込みの役割を理解してください。
  • ノミックビジョンの埋め込みとクリップモデルを比較し、パフォーマンスベンチマークを分析します。
  • ノミックビジョンとテキストの埋め込みを使用して、PythonにマルチモーダルRAGシステムを実装してください。
  • マルチモーダル検索のためにPDFSからテキストおよび視覚データを抽出および処理することを学びます。
  • *この記事は、***
  • データサイエンスブログソンの一部です
  • 目次

マルチモーダルラグとは? nomic vision Embeddings ノミックビジョンの埋め込みのパフォーマンスベンチマーク

ノミックビジョン埋め込みを備えたマルチモーダルラグの実践的なPython実装

    ステップ1:必要なライブラリのインストール
  • ステップ2:OpenAI APIキーの設定とインポートライブラリ
  • ステップ3:PDF
  • から画像を抽出します
  • ステップ4:PDF
  • からテキストを抽出します
      ステップ5:抽出されたテキストと画像を保存
    • ステップ6:テキストデータのチャンキング
    • ステップ7:NOMIC Embedding Modelsの読み込み
    • ステップ8:埋め込みの生成
    • ステップ9:qdrantにテキスト埋め込みを保存
    • ステップ10:qdrantに画像埋め込みを保存
    • ステップ11:マルチモーダルレトリバーの作成
    • ステップ12:ラングチェーンでマルチモーダルラグを構築します
    • モデルのクエリ
    • 結論
    • よくある質問
    マルチモーダルラグとは?
  • マルチモーダルRAGは、多様なデータ型を組み込むことにより、従来のぼろきれに基づいて構築される重要なAIの進歩を表しています。主にテキストを処理する従来のシステムとは異なり、マルチモーダルラグプロセスと複数のデータフォームを同時に統合します。これは、さまざまなモダリティにわたるより包括的な理解とコンテキスト対応の応答につながります。
  • キーマルチモーダルラグコンポーネント:
    • データの摂取:さまざまなソースからのデータは、特殊なプロセッサを使用して摂取され、検証、クリーニング、および正規化を確保します。
    • ベクトル表現:モダリティは、ニューラルネットワーク(例:画像のクリップ、テキスト用のバート)を使用して処理され、統一されたベクター埋め込みを作成し、セマンティック関係を維持します。
    • ベクトルデータベースストレージ:
    • 埋め込みは、効率的な検索のためにインデックス作成技術(HNSW、FAISS)を使用して最適化されたベクターデータベース(QDRANT)に保存されます。 クエリ処理:
    • 着信クエリが分析され、保存されたデータと同じベクトル空間に変換され、関連するモダリティを識別し、検索のための埋め込みを生成するために使用されます。
    • nomic vision Embeddings
    • ノミックビジョン埋め込みは重要な革新であり、視覚データとテキストデータのための統一された埋め込みスペースを作成します。 NOMIC AIによって開発されたNOMIC Embed Vision V1およびV1.5は、テキストの対応物と同じ潜在スペースを共有しています(NOMIC Embed Text V1およびV1.5)。これにより、テキストから画像への取得などのマルチモーダルタスクに最適になります。 比較的小さなパラメーターカウント(92m)で、NOMIC Embed Visionは大規模なアプリケーションで効率的です。

    クリップモデルの制限へのアドレス指定:

    クリップはゼロショット機能に優れている間、そのテキストエンコーダーは画像検索を超えたタスクでパフォーマンスを下回ります(MTEBベンチマークで示されています)。 NOMIC Embed Visionは、ビジョンエンコーダーをNOMIC Embedテキスト潜在スペースと整列させることにより、これに対処します。

    NOMIC Embed Visionは、NOMIC Embedテキストとともにトレーニングされ、テキストエンコーダをフリーズし、画像テキストペアでVisionエンコーダーをトレーニングしました。これにより、最適な結果とNOMIC Embed Text Embeddingsとの後方互換性が保証されます。

    ノミックビジョンの埋め込みのパフォーマンスベンチマーク

    クリップモデルは、ゼロショット機能では印象的ですが、セマンティックの類似性(MTEBベンチマーク)などの単峰性タスクの弱点を示しています。 NOMIC Embed Visionは、そのビジョンエンコーダーをNOMIC Embed Text Latent Spaceに合わせることでこれを克服し、画像、テキスト、マルチモーダルタスク(Imagenet Zero-Shot、MTEB、DataComp Benchmarks)にわたって強力なパフォーマンスをもたらします。 Enhancing RAG Systems with Nomic Embeddings

    ノミックビジョン埋め込みを備えたマルチモーダルラグの実践的なPython実装

    このチュートリアルは、テキストと画像を含むPDFから情報を取得するマルチモーダルRAGシステムを構築します(T4 GPUを使用してGoogle Colabを使用)。

    ステップ1:ライブラリのインストール

    必要なPythonライブラリをインストール:Openai、Qdrant、Transformers、Torch、Pymupdfなど(Brevityのためにコードは省略されていますが、オリジナルに存在します。)Enhancing RAG Systems with Nomic Embeddings

    ステップ2:OpenAI APIキーの設定とインポートライブラリ

    OpenAI APIキーを設定し、必要なライブラリをインポートします(Pymupdf、Pil、Langchain、Openaiなど)。 (Brevityのためにコードが省略されました。)

    ステップ3:PDF

    から画像を抽出します

    pymupdfを使用してpdfから画像を抽出し、それらをディレクトリに保存します。 (Brevityのためにコードが省略されました。)

    ステップ4:PDF

    からテキストを抽出します pymupdfを使用して、各PDFページからテキストを抽出します。 (Brevityのためにコードが省略されました。)

    ステップ5:抽出されたデータの保存

    抽出された画像とテキストを保存します。 (Brevityのためにコードが省略されました。)

    ステップ6:テキストデータのチャンキング

    抽出されたテキストをLangchainの

    を使用して小さなチャンクに分割します。 (Brevityのためにコードが省略されました。)RecursiveCharacterTextSplitter

    ステップ7:NOMIC Embedding Modelsの読み込み

    Faceのトランスを抱きしめて、Nomicのテキストとビジョン埋め込みモデルをロードします。 (Brevityのためにコードが省略されました。)

    ステップ8:埋め込みの生成

    テキストと画像の埋め込みを生成します。 (Brevityのためにコードが省略されました。)

    ステップ9:qdrantにテキスト埋め込みを保存

    qdrantコレクションにテキストの埋め込みを保存します。 (Brevityのためにコードが省略されました。)

    ステップ10:qdrantに画像埋め込みを保存

    別のqdrantコレクションに画像の埋め込みを格納します。 (Brevityのためにコードが省略されました。)

    ステップ11:マルチモーダルレトリバーの作成

    クエリに基づいて関連するテキストと画像の埋め込みを取得する関数を作成します。 (Brevityのためにコードが省略されました。)

    ステップ12:ラングチェーンでマルチモーダルラグを構築します

    LangChainを使用して、取得したデータを処理し、言語モデル(GPT-4など)を使用して応答を生成します。 (Brevityのためにコードが省略されました。)

    モデルのクエリ

    サンプルクエリは、PDF内のテキストと画像の両方から情報を取得するシステムの能力を示しています。 (簡潔にするために省略されたクエリと出力の例ですが、オリジナルに存在します。)

    結論

    NOMIC Vision Embeddingsはマルチモーダルラグを大幅に強化し、視覚データとテキストデータの間のシームレスな相互作用を可能にします。 これは、クリップなどのモデルの制限に対処し、統一された埋め込みスペースを提供し、さまざまなタスクでパフォーマンスを向上させます。 これは、生産環境でより豊かでコンテキストを意識したユーザーエクスペリエンスにつながります。

    キーテイクアウト

    マルチモーダルラグは、より包括的な理解のために多様なデータ型を統合します。
      NOMIC Vision Embeddings改善された情報検索のための視覚データとテキストデータを統合します。
    • システムは、効率的な検索のために特殊な処理、ベクトル表現、およびストレージを使用します。
    • NOMIC Embed Visionは、単峰性のタスクにおけるClipの制限を克服します
    • よくある質問
    • (BrevityのためにFAQは省略されていますが、オリジナルに存在します。)
    • 注:コードスニペットは簡潔に省略されていますが、コア機能とステップは正確に説明されたままです。 元の入力には広範なコードが含まれていました。それをすべて含めると、この応答は過度に長くなります。 完全なコード実装については、元の入力を参照してください。

以上がNOMIC EmbeddingsでRAGシステムを強化しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
迅速なエンジニアリングにおける思考のグラフは何ですか迅速なエンジニアリングにおける思考のグラフは何ですかApr 13, 2025 am 11:53 AM

導入 迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

Genaiエージェントとの電子メールマーケティングを組織に最適化しますGenaiエージェントとの電子メールマーケティングを組織に最適化しますApr 13, 2025 am 11:44 AM

導入 おめでとう!あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apr 13, 2025 am 11:40 AM

導入 今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

ChatGptは10億人のユーザーにヒットしますか? 「わずか数週間で2倍になりました」とOpenai CEOは言いますChatGptは10億人のユーザーにヒットしますか? 「わずか数週間で2倍になりました」とOpenai CEOは言いますApr 13, 2025 am 11:23 AM

「ユーザーは何人いますか?」彼は突き出した。 「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。 「わずか数週間で2倍になったと言った」とアンダーソンは続けた。 「私はそのprivと言いました

PIXTRAL -12B:Mistral AI'の最初のマルチモーダルモデル-Analytics VidhyaPIXTRAL -12B:Mistral AI'の最初のマルチモーダルモデル-Analytics VidhyaApr 13, 2025 am 11:20 AM

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか?これで、画像とTexの両方を採用できます

生成AIアプリケーションのエージェントフレームワーク - 分析Vidhya生成AIアプリケーションのエージェントフレームワーク - 分析VidhyaApr 13, 2025 am 11:13 AM

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか?これでa

金融セクターにおける生成AIの応用金融セクターにおける生成AIの応用Apr 13, 2025 am 11:12 AM

導入 金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

オンライン学習とパッシブアグレッシブアルゴリズムのガイドオンライン学習とパッシブアグレッシブアルゴリズムのガイドApr 13, 2025 am 11:09 AM

導入 データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター