検索
ホームページテクノロジー周辺機器AIDeepseek Janus ProでマルチモーダルRAGを強化します

2025年1月27日に発売された

Deepseek Janus Pro 1Bは、テキストプロンプトから画像を処理および生成するために構築された高度なマルチモーダルAIモデルです。テキストに基づいて画像を理解して作成する機能により、この10億パラメーターバージョン(1b)は、テキストから画像の生成や画像の理解など、幅広いアプリケーションに効率的なパフォーマンスを提供します。さらに、写真から詳細なキャプションを作成することに優れているため、創造的なタスクと分析タスクの両方に汎用性の高いツールになります。

学習目標

    その機能を強化するアーキテクチャと重要な機能を分析します。
  • 基礎となるデザインとそのパフォーマンスへの影響の調査。
  • 検索された世代(RAG)システムを構築するための段階的なガイド。
  • Deepseek Janus Proを実世界のアプリケーションに使用しています。
  • Deepseek Janus ProがAI駆動型のソリューションを最適化する方法を理解してください
  • この記事は、

データサイエンスブログの一部として公開されました。 目次学習目標deepseek janus pro?

Janus Pro 1Bの主要な機能とデザインの側面

    Unified Transformer Architecture
  • 最適化されたトレーニング戦略
    • deepseek janus pro 1bモデル
    • ステップ1。ステップ1。 PDF
    ステップ4。保存された画像からのクエリと検索
  • ステップ5。JanusProモデル
    • ステップ6をロードします。
    • deepseek janus proとは?
    • Deepseek Janus Proは、テキストと画像処理を統合し、テキストプロンプトから画像を理解し、生成できるマルチモーダルAIモデルです。 10億パラメーターバージョン(1B)は、テキストからイメージの生成や画像理解タスクなどのアプリケーション間で効率的なパフォーマンスを実現するように設計されています。
    • DeepseekのJanus Proシリーズでは、利用可能な主要なモデルは
    • 「Janus Pro 1B」と「Janus Pro 7B」です。これは、主にパラメーターサイズが大きく、7Bモデルが大幅に大きく、テキストから画像の生成タスクのパフォーマンスを向上させます。Janus Pro 1b

      の重要な機能と設計の側面

      • アーキテクチャ:Janus Proは統一されたトランスアーキテクチャを使用しますが、視覚エンコードを個別の経路に分離して、画像の理解と作成タスクの両方でパフォーマンスを向上させます。
      • 機能
      • :テキストプロンプトに基づいて、画像の理解と新しいものの生成の両方に関連するタスクに優れています。 384×384の画像入力をサポートします 画像エンコーダ
      • :画像理解タスクの場合、ヤヌスはSiglipを使用して画像をエンコードします。 Siglipは、Clipのフレームワークを使用しているが、損失関数をペアワイズシグモイド損失に置き換える画像埋め込みモデルです。画像生成のために、JanusはLlamagenの既存のエンコーダを使用しています。Llamagenは、自動脱着画像生成モードです。ラマゲンは、大規模な言語モデルの次のトークン予測パラダイムを視覚生成に適用する画像世代モデルのファミリーです
      • オープンソース:
      • MITライセンスの下でGitHubで入手できます。モデルの使用は、DeepSeekモデルライセンスによって支配されています。
      • また、読んでください:Deepseek Janus Pro 7b?にアクセスする方法 画像理解と生成のための分離されたアーキテクチャ

      Janus-Proは、画像の理解と生成の両方に単一の視覚エンコーダーに依存するのではなく、視覚エンコードのために別々の特殊な経路を採用することにより、以前のマルチモーダルモデルから分岐します。

      画像理解エンコーダー。 Deepseek Janus ProでマルチモーダルRAGを強化します

      画像生成エンコーダー。

      この経路は、テキストの説明に基づいて画像を合成します。

      この分離されたアーキテクチャは、タスク固有の最適化を促進し、解釈と創造的統合の間の対立を緩和します。独立したエンコーダーは、統合された自己回帰トランスによって処理される入力機能を解釈します。これにより、マルチモーダルの理解と生成コンポーネントの両方が、最も適切なエンコード方法を独立して選択できます。 また読む:DeepseekのJanus ProがDall-E 3に対してどのように積み重なっているのか? モデルアーキテクチャの重要な機能
      • 1。視覚的理解と生成のためのデュアルパスウェイアーキテクチャ
      • 視覚的理解経路:マルチモーダル理解タスクの場合、Janus ProはSiglip-Lを視覚エンコーダとして使用します。これは、最大384×384の解像度の画像入力をサポートします。この高解像度サポートにより、モデルはより多くの画像の詳細をキャプチャできるようになり、視覚的理解の精度が向上します。
      視覚生成経路

      :画像生成タスクの場合、Janus Proは16のダウンサンプリングレートを備えたLlamagenトークネザーを使用して、より詳細な画像を生成します。

      2。統一されたトランスアーキテクチャ

      共有変圧器のバックボーンは、使用されています。生の入力を機能に変換するための独立したエンコーディング方法は、統一された自己回帰トランスによって処理されます。

      3。最適化されたトレーニング戦略

      以前のヤヌスのトレーニングでは、モデルに3段階のトレーニングプロセスがありました。最初の段階は、アダプターと画像ヘッドのトレーニングに焦点を当てました。第2段階では、統一された事前トレーニングを処理しました。その間、理解エンコーダと生成エンコーダーを除くすべてのコンポーネントがパラメーターを更新します。ステージIIIは、トレーニング中に理解エンコーダのパラメーターをさらにロック解除することにより、ステージIIに基づいて監督された微調整を取り上げました。

      これはJanus Pro:

      で改善されました

      ステージIのトレーニングステップを増やすことにより、Imagenetデータセットで十分なトレーニングを許可します。 さらに、ステージIIでは、テキストからイメージまでの生成トレーニングのために、イメージネットデータが完全に削除されました。代わりに、通常のテキストから画像へのデータを使用して、モデルをトレーニングして、密な説明に基づいて画像を生成しました。これは、トレーニング効率と全体的なパフォーマンスを改善することがわかった。

        さあ、Deepseek Janus Pro:
      • を使用してマルチモーダルラグを構築しましょう Deepseek Janus Pro 1Bモデルを備えた
      • マルチモーダルラグ
      • 次の手順では、Deepseek Janus Pro 1Bモデルに基づいて画像を照会するためのマルチモーダルRAGシステムを構築します。
      ステップ1。必要なライブラリをインストール

      ステップ2。画像の埋め込みを保存するためのモデル

      Byaldiは、マルチモーダルRAGシステムをセットアップするための使いやすいフレームワークを提供します。上記のコードから見たように、visual機能を使用して効率的なドキュメントインデックスを作成するために設計されたモデルであるColqwen2をロードします。

      ステップ3。画像のロードPDF

    !pip install byaldi ollama pdf2image
    !sudo apt-get install -y poppler-utils
    !git clone https://github.com/deepseek-ai/Janus.git
    !pip install -e ./Janus

    このPDFを使用して、次のステップでRAGシステムを照会して構築します。上記のコードでは、画像PDFとベクトルを保存します。

    ステップ4。保存された画像からのクエリと検索
    import os
    from pathlib import Path
    from byaldi import RAGMultiModalModel
    import ollama
    # Initialize RAGMultiModalModel
    model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")

    PDFのページからの関連ページは取得され、クエリに基づいてoutput_image.pngとして保存されます。

    ステップ5。JanusProモデルをロードします

    !pip install byaldi ollama pdf2image
    !sudo apt-get install -y poppler-utils
    !git clone https://github.com/deepseek-ai/Janus.git
    !pip install -e ./Janus
    • vlchatprocessor.from_pretrained(「deepseek-ai/janus-pro-1b」)マルチモーダル入力(画像とテキスト)を処理するために前処理されたプロセッサをロードします。このプロセッサは、モデルの入力データ(テキストや画像など)を処理および準備します。
    • トークン剤はvlchatprocessorから抽出されます。テキスト入力をトークン化し、テキストをモデルに適した形式に変換します。
    • automodelforcausallm.from_pretrained(“ deepseek-ai/janus-pro-1b”)
    • 事前に訓練されたJanus Proモデル、特に因果言語モデリング用。 また、マルチモーダル会話形式
    • は、ユーザーがテキストと画像の両方を入力する場所で設定されています。 load_pil_images(conversation)
    • は、会話オブジェクトにリストされている画像をロードし、PIL画像形式に変換する可能性が高い関数です。これは、Pythonでの画像処理に一般的に使用されます。 プロセッサこれは、マルチモーダルプロセッサのインスタンスです(deepseek janus proモデルの
    • vlchatprocessor
    • )。テキストと画像データの両方を入力として取得します。 prepare_inputs_embeds(inputs)
    • は、処理された入力(入力にテキストと画像の両方を含む)を取得し、モデルが応答を生成するために必要な埋め込みを準備するメソッドです。
    • ステップ6。出力生成 コードは、準備された入力埋め込み(テキストと画像)を使用して、DeepSeek Janus Pro 1Bモデルから応答を生成します。パディング、開始/終了トークン、最大トークンの長さ、キャッシュとサンプリングの使用など、いくつかの構成設定を使用します。応答が生成された後、トークンIDをトークン剤を使用して人間の読み取り可能なテキストにデコードします。デコードされた出力は、回答変数に保存されます
    • このcolabノートブックにはコード全体が存在しています。
    • クエリの出力

    別のクエリの出力

    import os
    from pathlib import Path
    from byaldi import RAGMultiModalModel
    import ollama
    # Initialize RAGMultiModalModel
    model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")

    「フランスの収益はどうでしたか?」

    上記の応答は正確ではありません。関連するページはthecolqwen2レトリバーによって取得されましたが、deepseek janus pro 1bモデルはページから正確な回答を生成できませんでした。正確な答えは2億ドルでなければなりません 別のクエリの出力

    Deepseek Janus ProでマルチモーダルRAGを強化します

    “「FY20の開始以来のプロモーションの数は何ですか? "

    上記の応答は、PDFに記載されているテキストと一致するため、正しいです。

    結論

    結論として、Deepseek Janus Pro 1Bモデルは、画像の理解と生成タスクの両方を最適化する分離されたアーキテクチャを備えたマルチモーダルAIの大幅な進歩を表しています。これらのタスクに個別のビジュアルエンコーダーを利用し、トレーニング戦略を改善することにより、Janus Proはテキストから画像の生成と画像分析のパフォーマンスを強化します。この革新的なアプローチ(Deepseek Janus Proを使用したマルチモーダルRAG)とオープンソースのアクセシビリティは、AI駆動型の視覚的理解と作成におけるさまざまなアプリケーションの強力なツールになります。

    キーテイクアウト

    二重経路を備えたマルチモーダルAI
      :Janus Pro 1Bは、テキストと画像処理の両方を統合し、画像理解(Siglip)と画像生成(Llamagen)に個別のエンコーダーを使用して、タスク固有のパフォーマンスを強化します。
    1. 分離されたアーキテクチャ:モデルは、視覚エンコードを異なる経路に分離し、画像の理解と生成のための独立した最適化を可能にし、タスクの処理における競合を最小限に抑えます。
    2. Unified Transformer Backbone :共有トランスアーキテクチャは、テキストと画像の特徴をマージし、より効果的なAIパフォーマンスのためにマルチモーダルデータ融合を合理化します。
    3. 改善されたトレーニング戦略:
    4. Janus Proの最適化されたトレーニングアプローチには、ステージIのステップの増加と、ステージIIでの専門的なテキストから画像データの使用が含まれ、トレーニング効率と出力品質を大幅に向上させます。 オープンソースのアクセシビリティ:
    5. Janus Pro 1Bは、MITライセンスの下でGitHubで利用でき、さまざまなAI駆動型アプリケーションでの広範な使用と適応を奨励しています。
    6. この記事に示されているメディアは、Analytics Vidhyaが所有しておらず、著者の裁量で使用されています。
    7. よくある質問
    8. q1。 Deepseek Janus Pro 1Bとは? Deepseek Janus Pro 1Bは、テキストと画像処理の両方を統合するように設計されたマルチモーダルAIモデルであり、テキストの説明から画像を理解し、生成できます。テキストから画像の生成や画像理解などのタスクで効率的なパフォーマンスのための10億パラメーターを備えています。 Janus Pro 1Bのアーキテクチャはどのように機能しますか? Janus Proは、分離された視覚エンコードを備えた統一されたトランスアーキテクチャを使用しています。これは、画像の理解と生成のために別々の経路を採用し、各タスクのタスク固有の最適化を可能にすることを意味します。 Janus Proのトレーニングプロセスは、以前のバージョンとどのように異なりますか? Janus Proは、トレーニングステップを増やし、特殊なテキストから画像へのデータを支持してImagenetデータセットを削除し、効率とパフォーマンスの向上のためのより良い微調整に焦点を当てることにより、以前のトレーニング戦略を改善します。 q4。 Janus Pro 1Bを使用することで、どのようなアプリケーションが恩恵を受けることができますか? Janus Pro 1Bは、画像とテキスト処理機能の両方を必要とするテキストから画像の生成、画像理解、およびマルチモーダルAIアプリケーションを含むタスク

      Ansなどの他のモデルと比較してどのように比較されますか。 DeepSeekによると、Janus-Pro-7BはGenevalやDPG-BenchなどのベンチマークでDall-E 3を上回ります。 Janus-Proは、理解/生成を分離し、安定した画像生成のデータ/モデルをスケールし、統一され、柔軟で費用効率の高い構造を維持します。どちらのモデルもテキストからイメージの生成を実行しますが、Janus-Proも画像キャプションを提供します。

以上がDeepseek Janus ProでマルチモーダルRAGを強化しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
サム・アルトマンなどが現在、AIの最新の進捗のための新しいゲージとしてバイブを使用している理由サム・アルトマンなどが現在、AIの最新の進捗のための新しいゲージとしてバイブを使用している理由May 06, 2025 am 11:12 AM

AIフィールドの評価メトリックとしての「バイブ」の使用の増加について説明しましょう。この分析は、AIの進歩に関する私の進行中のフォーブスコラムの一部であり、AI開発の複雑な側面を調査します(こちらのリンクを参照)。 AI評価のバイブ TRADI

Robotaxiの未来を建設するWaymo工場内Robotaxiの未来を建設するWaymo工場内May 06, 2025 am 11:11 AM

Waymo's Arizona Factory:大量生産する自動運転ジャガー以上 アリゾナ州フェニックスの近くに位置するWaymoは、自律的なジャガーIペースの電気SUVの艦隊を生産する最先端の施設を運営しています。 この239,000平方フィートの工場がオープンしました

内部S&PグローバルのコアでAIを使用したデータ駆動型変換内部S&PグローバルのコアでAIを使用したデータ駆動型変換May 06, 2025 am 11:10 AM

S&PグローバルのチーフデジタルソリューションオフィサーであるJigar Kocherlakotaは、同社のAIの旅、戦略的買収、将来に焦点を当てたデジタル変革について議論しています。 変革的なリーダーシップの役割と将来の準備ができています コチェルラコタの役割

スーパーアプリの台頭:デジタルエコシステムで繁栄する4つのステップスーパーアプリの台頭:デジタルエコシステムで繁栄する4つのステップMay 06, 2025 am 11:09 AM

アプリからエコシステムまで:デジタル景観のナビゲート デジタル革命は、ソーシャルメディアとAIをはるかに超えています。 私たちは、「すべてのアプリ」の台頭を目撃しています。 サムa

MasterCardとVisaはAIエージェントを解き放ち、あなたのために買い物をしますMasterCardとVisaはAIエージェントを解き放ち、あなたのために買い物をしますMay 06, 2025 am 11:08 AM

MasterCardのエージェント給与:AI搭載の支払いは、コマースに革命をもたらします VisaのAIを搭載したトランザクション機能は見出しになりましたが、MasterCardはトークン化、信頼、およびエージェントに基づいて構築されたより高度なAI-Native支払いシステムであるエージェントペイを発表しました。

Bocking the Bold:Future VenturesのTransformative Innovation PlaybookBocking the Bold:Future VenturesのTransformative Innovation PlaybookMay 06, 2025 am 11:07 AM

Future Ventures Fund IV:新しいテクノロジーに200万ドルの賭け Future Venturesは最近、過度にサブスクライブされたファンドIVを閉鎖し、合計2億ドルです。 Steve Jurvetson、Maryanna Saenko、およびNico Enriquezが管理するこの新しい基金は、重要なInvを表しています

AIが急上昇すると、企業はSEOからGEOに移行しますAIが急上昇すると、企業はSEOからGEOに移行しますMay 05, 2025 am 11:09 AM

AIアプリケーションの爆発により、企業は従来の検索エンジン最適化(SEO)から生成エンジン最適化(GEO)に移行しています。 Googleがシフトをリードしています。その「AIの概要」機能は、10億人以上のユーザーにサービスを提供しており、ユーザーがリンクをクリックする前に完全な回答を提供しています。 [^2] 他の参加者も急速に上昇しています。 ChatGpt、Microsoft Copilot、Perplexityは、従来の検索結果を完全にバイパスする新しい「Answer Engine」カテゴリを作成しています。 これらのAIに生成された回答にビジネスが表示されない場合、従来の検索結果で高くランク付けされていても、潜在的な顧客は決してあなたを見つけることはありません。 SEOからGeoまで - これは正確に何を意味しますか? 何十年もの間

これらの経路のどれが今日のAIをプッシュして賞賛されるAGIになることについての大きな賭けこれらの経路のどれが今日のAIをプッシュして賞賛されるAGIになることについての大きな賭けMay 05, 2025 am 11:08 AM

人工一般情報(AGI)への潜在的なパスを探りましょう。 この分析は、AIの進歩に関する私の進行中のフォーブスコラムの一部であり、AGIと人工的な緊急事態(ASI)を達成する複雑さを掘り下げています。 (関連するアートを参照してください

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール