Deepseek Janus ProでマルチモーダルRAGを強化します-AI-php.cn

ホームページ

テクノロジー周辺機器

Deepseek Janus ProでマルチモーダルRAGを強化します

William Shakespeare

Mar 05, 2025 am 09:47 AM

2025年1月27日に発売された

Deepseek Janus Pro 1Bは、テキストプロンプトから画像を処理および生成するために構築された高度なマルチモーダルAIモデルです。テキストに基づいて画像を理解して作成する機能により、この10億パラメーターバージョン（1b）は、テキストから画像の生成や画像の理解など、幅広いアプリケーションに効率的なパフォーマンスを提供します。さらに、写真から詳細なキャプションを作成することに優れているため、創造的なタスクと分析タスクの両方に汎用性の高いツールになります。

学習目標

基礎となるデザインとそのパフォーマンスへの影響の調査。
検索された世代（RAG）システムを構築するための段階的なガイド。
Deepseek Janus ProがAI駆動型のソリューションを最適化する方法を理解してください
この記事は、

データサイエンスブログの一部として公開されました。 目次学習目標deepseek janus pro？

Janus Pro 1Bの主要な機能とデザインの側面

Unified Transformer Architecture
最適化されたトレーニング戦略
- deepseek janus pro 1bモデル
- ステップ1。ステップ1。 PDF
ステップ4。保存された画像からのクエリと検索
ステップ5。JanusProモデル
- ステップ6をロードします。
- DeepseekのJanus Proシリーズでは、利用可能な主要なモデルは
```
!pip install byaldi ollama pdf2image
!sudo apt-get install -y poppler-utils
!git clone https://github.com/deepseek-ai/Janus.git
!pip install -e ./Janus
```
このPDFを使用して、次のステップでRAGシステムを照会して構築します。上記のコードでは、画像PDFとベクトルを保存します。
ステップ4。保存された画像からのクエリと検索
```
import os
from pathlib import Path
from byaldi import RAGMultiModalModel
import ollama
# Initialize RAGMultiModalModel
model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")
```
PDFのページからの関連ページは取得され、クエリに基づいてoutput_image.pngとして保存されます。
ステップ5。JanusProモデルをロードします
```
!pip install byaldi ollama pdf2image
!sudo apt-get install -y poppler-utils
!git clone https://github.com/deepseek-ai/Janus.git
!pip install -e ./Janus
```
- vlchatprocessor.from_pretrained（「deepseek-ai/janus-pro-1b」）マルチモーダル入力（画像とテキスト）を処理するために前処理されたプロセッサをロードします。このプロセッサは、モデルの入力データ（テキストや画像など）を処理および準備します。
- automodelforcausallm.from_pretrained（“ deepseek-ai/janus-pro-1b”）
- 事前に訓練されたJanus Proモデル、特に因果言語モデリング用。また、、マルチモーダル会話形式
別のクエリの出力
```
import os
from pathlib import Path
from byaldi import RAGMultiModalModel
import ollama
# Initialize RAGMultiModalModel
model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")
```
「フランスの収益はどうでしたか？」

上記の応答は正確ではありません。関連するページはthecolqwen2レトリバーによって取得されましたが、deepseek janus pro 1bモデルはページから正確な回答を生成できませんでした。正確な答えは2億ドルでなければなりません別のクエリの出力

“「FY20の開始以来のプロモーションの数は何ですか？ "

上記の応答は、PDFに記載されているテキストと一致するため、正しいです。

結論

結論として、Deepseek Janus Pro 1Bモデルは、画像の理解と生成タスクの両方を最適化する分離されたアーキテクチャを備えたマルチモーダルAIの大幅な進歩を表しています。これらのタスクに個別のビジュアルエンコーダーを利用し、トレーニング戦略を改善することにより、Janus Proはテキストから画像の生成と画像分析のパフォーマンスを強化します。この革新的なアプローチ（Deepseek Janus Proを使用したマルチモーダルRAG）とオープンソースのアクセシビリティは、AI駆動型の視覚的理解と作成におけるさまざまなアプリケーションの強力なツールになります。
キーテイクアウト

二重経路を備えたマルチモーダルAI
1. 分離されたアーキテクチャ：モデルは、視覚エンコードを異なる経路に分離し、画像の理解と生成のための独立した最適化を可能にし、タスクの処理における競合を最小限に抑えます。
2. Unified Transformer Backbone ：共有トランスアーキテクチャは、テキストと画像の特徴をマージし、より効果的なAIパフォーマンスのためにマルチモーダルデータ融合を合理化します。
3. Janus Proの最適化されたトレーニングアプローチには、ステージIのステップの増加と、ステージIIでの専門的なテキストから画像データの使用が含まれ、トレーニング効率と出力品質を大幅に向上させます。オープンソースのアクセシビリティ：
4. この記事に示されているメディアは、Analytics Vidhyaが所有しておらず、著者の裁量で使用されています。
5. q1。 Deepseek Janus Pro 1Bとは？ Deepseek Janus Pro 1Bは、テキストと画像処理の両方を統合するように設計されたマルチモーダルAIモデルであり、テキストの説明から画像を理解し、生成できます。テキストから画像の生成や画像理解などのタスクで効率的なパフォーマンスのための10億パラメーターを備えています。 Janus Pro 1Bのアーキテクチャはどのように機能しますか？ Janus Proは、分離された視覚エンコードを備えた統一されたトランスアーキテクチャを使用しています。これは、画像の理解と生成のために別々の経路を採用し、各タスクのタスク固有の最適化を可能にすることを意味します。 Janus Proのトレーニングプロセスは、以前のバージョンとどのように異なりますか？ Janus Proは、トレーニングステップを増やし、特殊なテキストから画像へのデータを支持してImagenetデータセットを削除し、効率とパフォーマンスの向上のためのより良い微調整に焦点を当てることにより、以前のトレーニング戦略を改善します。 q4。 Janus Pro 1Bを使用することで、どのようなアプリケーションが恩恵を受けることができますか？ Janus Pro 1Bは、画像とテキスト処理機能の両方を必要とするテキストから画像の生成、画像理解、およびマルチモーダルAIアプリケーションを含むタスク
  Ansなどの他のモデルと比較してどのように比較されますか。 DeepSeekによると、Janus-Pro-7BはGenevalやDPG-BenchなどのベンチマークでDall-E 3を上回ります。 Janus-Proは、理解/生成を分離し、安定した画像生成のデータ/モデルをスケールし、統一され、柔軟で費用効率の高い構造を維持します。どちらのモデルもテキストからイメージの生成を実行しますが、Janus-Proも画像キャプションを提供します。

以上がDeepseek Janus ProでマルチモーダルRAGを強化しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

サム・アルトマンなどが現在、AIの最新の進捗のための新しいゲージとしてバイブを使用している理由

AIフィールドの評価メトリックとしての「バイブ」の使用の増加について説明しましょう。この分析は、AIの進歩に関する私の進行中のフォーブスコラムの一部であり、AI開発の複雑な側面を調査します（こちらのリンクを参照）。 AI評価のバイブ TRADI

Robotaxiの未来を建設するWaymo工場内May 06, 2025 am 11:11 AM

Waymo's Arizona Factory：大量生産する自動運転ジャガー以上アリゾナ州フェニックスの近くに位置するWaymoは、自律的なジャガーIペースの電気SUVの艦隊を生産する最先端の施設を運営しています。この239,000平方フィートの工場がオープンしました

内部S＆PグローバルのコアでAIを使用したデータ駆動型変換May 06, 2025 am 11:10 AM

S＆PグローバルのチーフデジタルソリューションオフィサーであるJigar Kocherlakotaは、同社のAIの旅、戦略的買収、将来に焦点を当てたデジタル変革について議論しています。変革的なリーダーシップの役割と将来の準備ができていますコチェルラコタの役割

スーパーアプリの台頭：デジタルエコシステムで繁栄する4つのステップMay 06, 2025 am 11:09 AM

アプリからエコシステムまで：デジタル景観のナビゲートデジタル革命は、ソーシャルメディアとAIをはるかに超えています。私たちは、「すべてのアプリ」の台頭を目撃しています。サムa

MasterCardとVisaはAIエージェントを解き放ち、あなたのために買い物をしますMay 06, 2025 am 11:08 AM

MasterCardのエージェント給与：AI搭載の支払いは、コマースに革命をもたらします VisaのAIを搭載したトランザクション機能は見出しになりましたが、MasterCardはトークン化、信頼、およびエージェントに基づいて構築されたより高度なAI-Native支払いシステムであるエージェントペイを発表しました。

Bocking the Bold：Future VenturesのTransformative Innovation PlaybookMay 06, 2025 am 11:07 AM

Future Ventures Fund IV：新しいテクノロジーに200万ドルの賭け Future Venturesは最近、過度にサブスクライブされたファンドIVを閉鎖し、合計2億ドルです。 Steve Jurvetson、Maryanna Saenko、およびNico Enriquezが管理するこの新しい基金は、重要なInvを表しています

AIが急上昇すると、企業はSEOからGEOに移行しますMay 05, 2025 am 11:09 AM

AIアプリケーションの爆発により、企業は従来の検索エンジン最適化（SEO）から生成エンジン最適化（GEO）に移行しています。 Googleがシフトをリードしています。その「AIの概要」機能は、10億人以上のユーザーにサービスを提供しており、ユーザーがリンクをクリックする前に完全な回答を提供しています。 [^2] 他の参加者も急速に上昇しています。 ChatGpt、Microsoft Copilot、Perplexityは、従来の検索結果を完全にバイパスする新しい「Answer Engine」カテゴリを作成しています。これらのAIに生成された回答にビジネスが表示されない場合、従来の検索結果で高くランク付けされていても、潜在的な顧客は決してあなたを見つけることはありません。 SEOからGeoまで - これは正確に何を意味しますか？何十年もの間

これらの経路のどれが今日のAIをプッシュして賞賛されるAGIになることについての大きな賭けMay 05, 2025 am 11:08 AM

人工一般情報（AGI）への潜在的なパスを探りましょう。この分析は、AIの進歩に関する私の進行中のフォーブスコラムの一部であり、AGIと人工的な緊急事態（ASI）を達成する複雑さを掘り下げています。（関連するアートを参照してください

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。