首页 >科技周边 >人工智能 >使用DeepSeek Janus Pro增强多模式抹布

使用DeepSeek Janus Pro增强多模式抹布

William Shakespeare
William Shakespeare原创
2025-03-05 09:47:10195浏览

2025年1月27日启动的DeepSeek Janus Pro 1B是一种高级多模式模型,该模型构建了用于处理和生成文本提示的图像。该10亿个参数版本(1B)具有理解和创建图像的能力,可为广泛的应用程序提供有效的性能,包括文本到图像生成和图像理解。此外,它擅长从照片中制作详细的标题,使其成为创意和分析任务的多功能工具。

学习目标

分析其架构和关键功能,以增强其功能。>
    探索基础设计及其对性能的影响。
  • >逐步构建检索型生成(RAG)系统的分步指南。
  • >利用DeepSeek Janus Pro 10亿个模型用于现实世界应用。
  • 了解DeepSeek Janus Pro如何优化AI驱动的解决方案。
  • >本文是

> > data Science Blogathon的一部分。 内容表>学习目标

>什么是deepseek janus pro?

  • > janus pro 1b
    • >>统一的变压器体系结构
  • >优化的训练策略
    • 多模式抹布,带有deepseek janus pro 1b pro 1b pro 1b模型
    • 步骤1。 pdf
    • 步骤4。查询和从保存的图像中查询和检索步骤5。加载Janus Pro模型
    • 步骤6。
    什么是deepseek janus pro?
  • > DeepSeek Janus Pro是一种多模式AI模型,它集成了文本和图像处理,能够理解和生成文本提示中的图像。 10亿个参数版本(1B)旨在跨文本到图像生成和图像理解任务等应用程序的有效性能。
  • 在DeepSeek的Janus Pro系列下,可用的主要模型是,它们的参数大小主要不同,7B模型明显更大,并且在文本到图像中的性能提高了,两者都在文本到图像中提供了改善的性能;两者都可以认为是基于视觉上下文的多模型模型。Janus Pro 1b

    的关键特征和设计方面

    • 架构:Janus Pro使用统一的变压器体系结构,但将视觉编码分解为单独的途径,以提高图像理解和创建任务中的性能。
    • >功能
    • :它在与图像的理解和基于文本提示的新生成有关的任务中脱颖而出。它支持384×384图像输入。 >
    • 图像编码器
    • :为了理解任务,Janus使用siglip编码图像。 Siglip是一种使用Clip框架的图像嵌入模型,但用成对的Sigmoid损失代替了损耗函数。对于图像生成,Janus使用了Lamagen的现有编码器,这是一种自回归图像生成模式。 Lallamagen是一个图像生成模型的家族,将大型语言模型的下一句范式应用于视觉一代> >
    • 开源:
    • >可在MIT许可下在GitHub上获得,并由DeepSeek Model许可管理。 也请阅读:如何访问DeepSeek Janus Pro 7b?
    • 用于图像理解和生成的
    脱钩体系结构

    通过采用单独的专门途径进行视觉编码,而不是依靠单个视觉编码器来了解图像理解和生成。

    使用DeepSeek Janus Pro增强多模式抹布>

    图像理解编码器。

    此途径从图像中提取语义特征。

      >
    • 图像生成编码。 >这种解耦的架构有助于特定于任务的优化,减轻解释和创造性综合之间的冲突。独立编码器解释输入特征,然后由统一自回归变压器处理。这允许多模式理解和生成组件独立选择其最合适的编码方法。
    • 也请阅读:DeepSeek的Janus Pro如何与DALL-E 3?
    • >模型体系结构的关键功能 1。视觉理解和发电
    • 的双道路架构

    视觉理解途径:视觉生成途径

    :对于图像生成任务,Janus Pro使用Lamagen令牌以16的下降速率下降速度来生成更详细的图像。

      2。统一变压器体系结构

      >共享的变压器主链是underfortext和图像特征融合。将原始输入转换为功能的独立编码方法由统一自动回归变压器处理。

      3。优化的培训策略

      在以前的Janus培训中,该模型进行了三阶段的训练过程。第一阶段的重点是训练适配器和图像头。第二阶段处理的统一预处理,在此期间,除了理解编码器和生成编码器以外的所有组件都具有其参数更新。第三阶段涵盖了受监督的微调,在第二阶段通过进一步解锁培训期间的理解编码参数。

      在Janus Pro中得到了改进:

      通过增加I阶段I的训练步骤,可以在Imagenet数据集上进行足够的培训。
        此外,在第二阶段,对于文本到图像生成培训,将图像数据完全删除。取而代之的是,正常的文本到图像数据被用来训练模型以基于密集的描述生成图像。发现这可以提高训练效率和整体表现。
      • 现在,让我们使用DeepSeek Janus Pro构建多模式抹布: 带有DeepSeek Janus Pro 1b模型的多模式抹布
      • 在以下步骤中,我们将构建一个多模式的抹布系统,以根据DeepSeek Janus Pro 1b模型查询图像。
      • >步骤1。安装必要的库

      >步骤2。保存图像嵌入的模型

      Byaldi提供了一个易于使用的框架,用于设置多模式抹布系统。从上面的代码中可以看出,我们加载colqwen2,该模型旨在使用视觉功能进行有效的文档索引。

      步骤3。加载图像PDF

    !pip install byaldi ollama pdf2image
    !sudo apt-get install -y poppler-utils
    !git clone https://github.com/deepseek-ai/Janus.git
    !pip install -e ./Janus
    我们使用此PDF在接下来的一步中查询并构建一个抹布系统。在上面的代码中,我们将图像pdf与向量一起存储。

    >

    >步骤4。从保存的图像中查询和检索
    import os
    from pathlib import Path
    from byaldi import RAGMultiModalModel
    import ollama
    # Initialize RAGMultiModalModel
    model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")

    根据查询,从PDF页面中的页面中的相关页面被检索并保存为output_image.png。

    步骤5。加载Janus Pro模型

    !pip install byaldi ollama pdf2image
    !sudo apt-get install -y poppler-utils
    !git clone https://github.com/deepseek-ai/Janus.git
    !pip install -e ./Janus
    • > vlchatprocessor.from_pretrated(“ deepseek-ai/janus-pro-1b”)加载用于处理多模式输入(图像和文本)的预处理的处理器。该处理器将为模型处理并准备输入数据(例如文本和图像)。
    • 从vlchatprocessor提取令牌。它将对文本输入进行示意,将文本转换为适合模型的格式。>
    • > automodelforcausallm.from_pretaining(“ deepseek-ai/janus-pro-1b”)
    • >加载预先训练的Janus Pro模型,专门用于因果语言建模。> >也设置了一个多模式对话格式
    • 在用户输入文本和图像的位置。
    • > load_pil_images(对话)是一个函数,它可能会加载对话对象中列出的图像并将它们转换为pil映像格式,该函数通常用于python中的图像处理。
    • >
    • 处理器以下是多模式处理器的实例(来自deepseek janus pro模型的
    • vlchatprocessor
    • ),将文本数据和图像数据同时作为输入。 preeg_inputs_embeds(inputs)是一种采用处理后的输入(输入包含文本和图像)的方法,并准备模型生成响应所需的嵌入。
    • 步骤6。输出生成
    • >代码使用准备好的输入嵌入(文本和图像)从DeepSeek Janus Pro 1b模型中生成响应。它使用多种配置设置,例如填充,启动/结束令牌,最大令牌长度以及是否使用缓存和采样。生成响应后,它使用令牌器将令牌ID解码为可读的文本。解码的输出存储在答案变量中。
    • >
    整个代码都存在于此COLAB笔记本中。

    >

    >查询的输出
    import os
    from pathlib import Path
    from byaldi import RAGMultiModalModel
    import ollama
    # Initialize RAGMultiModalModel
    model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")

    >另一个查询

    的输出

    “法国的收入是多少? 使用DeepSeek Janus Pro增强多模式抹布

    即使Thecolqwen2检索器检索了相关页面,DeepSeek Janus Pro 1b模型也无法从页面中产生准确的答案,

    即使相关页面已检索到相关页面,上述响应也不准确。确切的答案应为$ 2B。

    >另一个查询的输出

    “”自FY20开始以来的促销数量是多少? 使用DeepSeek Janus Pro增强多模式抹布

    上述响应是正确的,因为它与PDF中提到的文本匹配。

    结论

    总之,DeepSeek Janus Pro 1b模型代表了多模式AI的重大进步,其脱钩体系结构优化了图像理解和生成任务。通过使用单独的视觉编码器来完成这些任务并完善其培训策略,Janus Pro在文本到图像生成和图像分析方面提供了增强的性能。这种创新的方法(带有DeepSeek Janus Pro的多模式抹布)与其开源可访问性相结合,使其成为AI驱动的视觉理解和创建中各种应用的强大工具。

    钥匙要点

    带有双途径的多模式AI

      :Janus pro 1b使用单独的编码来集成文本和图像处理,用于图像理解(Siglip)和图像生成(Llamagen),增强了特定于任务的性能。
    1. 脱钩体系结构:
    2. 模型将视觉编码分开为不同的途径,从而为图像理解和生成提供了独立的优化,从而最大程度地减少了处理任务中的冲突。
    3. > >统一变压器骨干
    4. :共享的变压器架构合并了文本和图像的功能,简化了多模式数据融合以提高AI性能。
    5. 改进的培训策略:>
    6. >开源可访问性:
    7. Janus Pro 1b在MIT许可下可在GitHub上获得,鼓励在各种AI驱动的应用程序中广泛使用和适应。
    8. >本文所示的媒体不归Analytics Vidhya拥有,并由作者的酌情决定使用。
    9. 常见问题 > Q1。什么是deepseek janus pro 1b?
    ans。 DeepSeek Janus Pro 1b是一种多模式AI模型,旨在集成文本和图像处理,能够理解和生成文本描述中的图像。它具有10亿参数,可在文本到图像生成和图像理解等任务中有效地执行。 Janus Pro 1b的架构如何工作? Janus Pro使用带有脱钩的视觉编码的统一变压器体系结构。这意味着它采用单独的途径来理解和生成,从而可以针对每个任务进行特定于任务的优化。 Janus Pro的训练过程与以前的版本有何不同? Janus Pro通过提高培训步骤,放弃Imagenet数据集而利用专门的文本图数据,并专注于更好的微调以提高效率和性能。> Q4。使用Janus Pro 1b?

    ans,什么样的应用程序可以受益。 Janus Pro 1b对于涉及文本到图像生成,图像理解和多模式AI应用程序的任务特别有用,这些应用程序需要图像和文本处理功能

    Q5。 Janus-Pro如何与其他模型(如Dall-E 3?

    ans)进行比较。根据DeepSeek的说法,Janus-Pro-7b在基准(例如Geneval和DPG基础)的基准中优于DALL-E 3。 Janus-Pro将理解/生成分开,缩放数据/模型以生成稳定的图像,并保持统一,灵活和具有成本效益的结构。尽管这两种模型都执行文本形象生成,但Janus-Pro还提供图像字幕,DALL-E 3不。

    以上是使用DeepSeek Janus Pro增强多模式抹布的详细内容。更多信息请关注PHP中文网其他相关文章!

    声明:
    本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn