2025年1月27日启动的DeepSeek Janus Pro 1B是一种高级多模式模型,该模型构建了用于处理和生成文本提示的图像。该10亿个参数版本(1B)具有理解和创建图像的能力,可为广泛的应用程序提供有效的性能,包括文本到图像生成和图像理解。此外,它擅长从照片中制作详细的标题,使其成为创意和分析任务的多功能工具。
学习目标
分析其架构和关键功能,以增强其功能。
- 探索基础设计及其对性能的影响。
- >逐步构建检索型生成(RAG)系统的分步指南。
- >利用DeepSeek Janus Pro 10亿个模型用于现实世界应用。
- 了解DeepSeek Janus Pro如何优化AI驱动的解决方案。
- >本文是
> > data Science Blogathon的一部分。 内容表>学习目标
>什么是deepseek janus pro?- > janus pro 1b
-
- >>统一的变压器体系结构
>优化的训练策略
- 多模式抹布,带有deepseek janus pro 1b pro 1b pro 1b模型
- 步骤1。 pdf
- 步骤4。查询和从保存的图像中查询和检索步骤5。加载Janus Pro模型
- 步骤6。
的关键特征和设计方面
- 架构:Janus Pro使用统一的变压器体系结构,但将视觉编码分解为单独的途径,以提高图像理解和创建任务中的性能。 >功能
- :它在与图像的理解和基于文本提示的新生成有关的任务中脱颖而出。它支持384×384图像输入。 > 图像编码器
- :为了理解任务,Janus使用siglip编码图像。 Siglip是一种使用Clip框架的图像嵌入模型,但用成对的Sigmoid损失代替了损耗函数。对于图像生成,Janus使用了Lamagen的现有编码器,这是一种自回归图像生成模式。 Lallamagen是一个图像生成模型的家族,将大型语言模型的下一句范式应用于视觉一代> > 开源:
- >可在MIT许可下在GitHub上获得,并由DeepSeek Model许可管理。 也请阅读:如何访问DeepSeek Janus Pro 7b? 用于图像理解和生成的
通过采用单独的专门途径进行视觉编码,而不是依靠单个视觉编码器来了解图像理解和生成。
>
此途径从图像中提取语义特征。
- >
- 图像生成编码。 >这种解耦的架构有助于特定于任务的优化,减轻解释和创造性综合之间的冲突。独立编码器解释输入特征,然后由统一自回归变压器处理。这允许多模式理解和生成组件独立选择其最合适的编码方法。 也请阅读:DeepSeek的Janus Pro如何与DALL-E 3?
- >模型体系结构的关键功能 1。视觉理解和发电 的双道路架构
视觉理解途径:
:对于图像生成任务,Janus Pro使用Lamagen令牌以16的下降速率下降速度来生成更详细的图像。
- 现在,让我们使用DeepSeek Janus Pro构建多模式抹布:
- 在以下步骤中,我们将构建一个多模式的抹布系统,以根据DeepSeek Janus Pro 1b模型查询图像。 >步骤1。安装必要的库
2。统一变压器体系结构
>共享的变压器主链是underfortext和图像特征融合。将原始输入转换为功能的独立编码方法由统一自动回归变压器处理。
。3。优化的培训策略
在以前的Janus培训中,该模型进行了三阶段的训练过程。第一阶段的重点是训练适配器和图像头。第二阶段处理的统一预处理,在此期间,除了理解编码器和生成编码器以外的所有组件都具有其参数更新。第三阶段涵盖了受监督的微调,在第二阶段通过进一步解锁培训期间的理解编码参数。在Janus Pro中得到了改进:
通过增加I阶段I的训练步骤,可以在Imagenet数据集上进行足够的培训。
-
此外,在第二阶段,对于文本到图像生成培训,将图像数据完全删除。取而代之的是,正常的文本到图像数据被用来训练模型以基于密集的描述生成图像。发现这可以提高训练效率和整体表现。
>步骤2。保存图像嵌入的模型
Byaldi提供了一个易于使用的框架,用于设置多模式抹布系统。从上面的代码中可以看出,我们加载colqwen2,该模型旨在使用视觉功能进行有效的文档索引。
步骤3。加载图像PDF
!pip install byaldi ollama pdf2image !sudo apt-get install -y poppler-utils !git clone https://github.com/deepseek-ai/Janus.git !pip install -e ./Janus我们使用此PDF在接下来的一步中查询并构建一个抹布系统。在上面的代码中,我们将图像pdf与向量一起存储。
>
>步骤4。从保存的图像中查询和检索import os from pathlib import Path from byaldi import RAGMultiModalModel import ollama # Initialize RAGMultiModalModel model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")
根据查询,从PDF页面中的页面中的相关页面被检索并保存为output_image.png。
步骤5。加载Janus Pro模型
!pip install byaldi ollama pdf2image !sudo apt-get install -y poppler-utils !git clone https://github.com/deepseek-ai/Janus.git !pip install -e ./Janus
- > vlchatprocessor.from_pretrated(“ deepseek-ai/janus-pro-1b”)加载用于处理多模式输入(图像和文本)的预处理的处理器。该处理器将为模型处理并准备输入数据(例如文本和图像)。 从vlchatprocessor提取令牌。它将对文本输入进行示意,将文本转换为适合模型的格式。
- > automodelforcausallm.from_pretaining(“ deepseek-ai/janus-pro-1b”)
- >加载预先训练的Janus Pro模型,专门用于因果语言建模。> >也设置了一个多模式对话格式 在用户输入文本和图像的位置。
- 。 > load_pil_images(对话)是一个函数,它可能会加载对话对象中列出的图像并将它们转换为pil映像格式,该函数通常用于python中的图像处理。 >
- 处理器以下是多模式处理器的实例(来自deepseek janus pro模型的 vlchatprocessor
- ),将文本数据和图像数据同时作为输入。 preeg_inputs_embeds(inputs)是一种采用处理后的输入(输入包含文本和图像)的方法,并准备模型生成响应所需的嵌入。 步骤6。输出生成
- >代码使用准备好的输入嵌入(文本和图像)从DeepSeek Janus Pro 1b模型中生成响应。它使用多种配置设置,例如填充,启动/结束令牌,最大令牌长度以及是否使用缓存和采样。生成响应后,它使用令牌器将令牌ID解码为可读的文本。解码的输出存储在答案变量中。 >
>
>查询的输出import os from pathlib import Path from byaldi import RAGMultiModalModel import ollama # Initialize RAGMultiModalModel model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")
>另一个查询
的输出
“法国的收入是多少?
即使Thecolqwen2检索器检索了相关页面,DeepSeek Janus Pro 1b模型也无法从页面中产生准确的答案,
即使相关页面已检索到相关页面,上述响应也不准确。确切的答案应为$ 2B。>另一个查询的输出
“”自FY20开始以来的促销数量是多少?
上述响应是正确的,因为它与PDF中提到的文本匹配。
结论
总之,DeepSeek Janus Pro 1b模型代表了多模式AI的重大进步,其脱钩体系结构优化了图像理解和生成任务。通过使用单独的视觉编码器来完成这些任务并完善其培训策略,Janus Pro在文本到图像生成和图像分析方面提供了增强的性能。这种创新的方法(带有DeepSeek Janus Pro的多模式抹布)与其开源可访问性相结合,使其成为AI驱动的视觉理解和创建中各种应用的强大工具。钥匙要点
带有双途径的多模式AI
- :Janus pro 1b使用单独的编码来集成文本和图像处理,用于图像理解(Siglip)和图像生成(Llamagen),增强了特定于任务的性能。
- 脱钩体系结构: 模型将视觉编码分开为不同的途径,从而为图像理解和生成提供了独立的优化,从而最大程度地减少了处理任务中的冲突。
- > >统一变压器骨干 :共享的变压器架构合并了文本和图像的功能,简化了多模式数据融合以提高AI性能。
- 改进的培训策略:
> >开源可访问性: - Janus Pro 1b在MIT许可下可在GitHub上获得,鼓励在各种AI驱动的应用程序中广泛使用和适应。 >本文所示的媒体不归Analytics Vidhya拥有,并由作者的酌情决定使用。
- 常见问题 > Q1。什么是deepseek janus pro 1b?
ans,什么样的应用程序可以受益。 Janus Pro 1b对于涉及文本到图像生成,图像理解和多模式AI应用程序的任务特别有用,这些应用程序需要图像和文本处理功能
Q5。 Janus-Pro如何与其他模型(如Dall-E 3?ans)进行比较。根据DeepSeek的说法,Janus-Pro-7b在基准(例如Geneval和DPG基础)的基准中优于DALL-E 3。 Janus-Pro将理解/生成分开,缩放数据/模型以生成稳定的图像,并保持统一,灵活和具有成本效益的结构。尽管这两种模型都执行文本形象生成,但Janus-Pro还提供图像字幕,DALL-E 3不。
以上是使用DeepSeek Janus Pro增强多模式抹布的详细内容。更多信息请关注PHP中文网其他相关文章!

让我们讨论“共鸣”作为AI领域的评估度量的上升。该分析是我正在进行的《福布斯》列的一部分,探索了AI开发的复杂方面(请参见此处的链接)。 AI评估中的共鸣 传统

Waymo的亚利桑那工厂:批量生产自动驾驶美洲虎及以后 Waymo位于亚利桑那州凤凰城附近,经营着最先进的设施,生产其自动jaguar i-pace电动SUV机队。 这个239,000平方英尺的工厂开业

标准普尔全球首席数字解决方案官Jigar Kocherlakota讨论了公司的AI旅程,战略收购和未来的数字化转型。 变革性的领导角色和未来的准备团队 Kocherlakota的角色

从应用到生态系统:导航数字景观 数字革命远远超出了社交媒体和AI。 我们正在见证“所有应用程序”的兴起 - 综合数字生态系统整合了生活的各个方面。 山姆A。

万事达卡代理工资:AI驱动的付款革新商业 虽然Visa的AI驱动交易功能成为头条新闻,但万事达卡揭开了代理商的薪酬,是建立在代币化,信任和代理的基础上的更高级的AI本地支付系统

Future Ventures Fund IV:一项耗资2亿美元的新技术押注 Future Ventures最近关闭了其超额认购的IV,总计2亿美元。 这项由史蒂夫·朱维森(Steve Jurvetson),玛丽娜·萨恩科(Maryanna Saenko)和尼科·恩里克斯(Nico Enriquez)管理的新基金代表

随着AI应用的爆炸式增长,企业正从传统的搜索引擎优化(SEO)转向生成式引擎优化(GEO)。 谷歌正引领这一转变。其“AI概述”功能已服务于超过十亿用户,在用户点击链接之前提供完整的答案。[^2] 其他参与者也在迅速崛起。ChatGPT、微软Copilot和Perplexity正在创造一种全新的“答案引擎”类别,完全绕过了传统的搜索结果。 如果您的企业没有出现在这些AI生成的答案中,潜在客户可能永远不会发现您——即使您在传统的搜索结果中排名靠前。 从SEO到GEO——这究竟意味着什么? 几十年来

让我们探索人工通用智能(AGI)的潜在途径。 该分析是我正在进行的《福布斯》列的AI进步的一部分,并深入研究了实现AGI和人工超智慧(ASI)的复杂性。 (请参阅相关艺术


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

SublimeText3汉化版
中文版,非常好用

适用于 Eclipse 的 SAP NetWeaver 服务器适配器
将Eclipse与SAP NetWeaver应用服务器集成。

PhpStorm Mac 版本
最新(2018.2.1 )专业的PHP集成开发工具

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

记事本++7.3.1
好用且免费的代码编辑器