2025年1月27日啟動的DeepSeek Janus Pro 1B是一種高級多模式模型,該模型構建了用於處理和生成文本提示的圖像。該10億個參數版本(1B)具有理解和創建圖像的能力,可為廣泛的應用程序提供有效的性能,包括文本到圖像生成和圖像理解。此外,它擅長從照片中製作詳細的標題,使其成為創意和分析任務的多功能工具。
學習目標
> > data Science Blogathon的一部分。 內容表>學習目標
>什麼是deepseek janus pro?
>
此途徑從圖像中提取語義特徵。
視覺理解途徑:
>共享的變壓器主鍊是underfortext和圖像特徵融合。將原始輸入轉換為功能的獨立編碼方法由統一自動回歸變壓器處理。
。在Janus Pro中得到了改進:
通過增加I階段I的訓練步驟,可以在Imagenet數據集上進行足夠的培訓。
>步驟2。保存圖像嵌入的模型
步驟3。加載圖像PDF
!pip install byaldi ollama pdf2image !sudo apt-get install -y poppler-utils !git clone https://github.com/deepseek-ai/Janus.git !pip install -e ./Janus我們使用此PDF在接下來的一步中查詢並構建一個抹布系統。在上面的代碼中,我們將圖像pdf與向量一起存儲。
import os from pathlib import Path from byaldi import RAGMultiModalModel import ollama # Initialize RAGMultiModalModel model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")
根據查詢,從PDF頁面中的頁面中的相關頁面被檢索並保存為output_image.png。
!pip install byaldi ollama pdf2image !sudo apt-get install -y poppler-utils !git clone https://github.com/deepseek-ai/Janus.git !pip install -e ./Janus
import os from pathlib import Path from byaldi import RAGMultiModalModel import ollama # Initialize RAGMultiModalModel model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")
>另一個查詢
“法國的收入是多少?
>另一個查詢的輸出
“”自FY20開始以來的促銷數量是多少?
上述響應是正確的,因為它與PDF中提到的文本匹配。
鑰匙要點
ans,什麼樣的應用程序可以受益。 Janus Pro 1b對於涉及文本到圖像生成,圖像理解和多模式AI應用程序的任務特別有用,這些應用程序需要圖像和文本處理功能
Q5。 Janus-Pro如何與其他模型(如Dall-E 3?ans)進行比較。根據DeepSeek的說法,Janus-Pro-7b在基準(例如Geneval和DPG基礎)的基準中優於DALL-E 3。 Janus-Pro將理解/生成分開,縮放數據/模型以生成穩定的圖像,並保持統一,靈活和具有成本效益的結構。儘管這兩種模型都執行文本形像生成,但Janus-Pro還提供圖像字幕,DALL-E 3不。
以上是使用DeepSeek Janus Pro增強多模式抹布的詳細內容。更多資訊請關注PHP中文網其他相關文章!