2025年1月27日启动的DeepSeek Janus Pro 1B是一种高级多模式模型,该模型构建了用于处理和生成文本提示的图像。该10亿个参数版本(1B)具有理解和创建图像的能力,可为广泛的应用程序提供有效的性能,包括文本到图像生成和图像理解。此外,它擅长从照片中制作详细的标题,使其成为创意和分析任务的多功能工具。
学习目标
> > data Science Blogathon的一部分。 内容表>学习目标
>什么是deepseek janus pro?
>
此途径从图像中提取语义特征。
视觉理解途径:
>共享的变压器主链是underfortext和图像特征融合。将原始输入转换为功能的独立编码方法由统一自动回归变压器处理。
。在Janus Pro中得到了改进:
通过增加I阶段I的训练步骤,可以在Imagenet数据集上进行足够的培训。
>步骤2。保存图像嵌入的模型
步骤3。加载图像PDF
!pip install byaldi ollama pdf2image !sudo apt-get install -y poppler-utils !git clone https://github.com/deepseek-ai/Janus.git !pip install -e ./Janus我们使用此PDF在接下来的一步中查询并构建一个抹布系统。在上面的代码中,我们将图像pdf与向量一起存储。
import os from pathlib import Path from byaldi import RAGMultiModalModel import ollama # Initialize RAGMultiModalModel model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")
根据查询,从PDF页面中的页面中的相关页面被检索并保存为output_image.png。
!pip install byaldi ollama pdf2image !sudo apt-get install -y poppler-utils !git clone https://github.com/deepseek-ai/Janus.git !pip install -e ./Janus
import os from pathlib import Path from byaldi import RAGMultiModalModel import ollama # Initialize RAGMultiModalModel model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")
>另一个查询
“法国的收入是多少?
>另一个查询的输出
“”自FY20开始以来的促销数量是多少?
上述响应是正确的,因为它与PDF中提到的文本匹配。
钥匙要点
ans,什么样的应用程序可以受益。 Janus Pro 1b对于涉及文本到图像生成,图像理解和多模式AI应用程序的任务特别有用,这些应用程序需要图像和文本处理功能
Q5。 Janus-Pro如何与其他模型(如Dall-E 3?ans)进行比较。根据DeepSeek的说法,Janus-Pro-7b在基准(例如Geneval和DPG基础)的基准中优于DALL-E 3。 Janus-Pro将理解/生成分开,缩放数据/模型以生成稳定的图像,并保持统一,灵活和具有成本效益的结构。尽管这两种模型都执行文本形象生成,但Janus-Pro还提供图像字幕,DALL-E 3不。
以上是使用DeepSeek Janus Pro增强多模式抹布的详细内容。更多信息请关注PHP中文网其他相关文章!