搜索
首页科技周边人工智能使用DeepSeek Janus Pro增强多模式抹布

2025年1月27日启动的DeepSeek Janus Pro 1B是一种高级多模式模型,该模型构建了用于处理和生成文本提示的图像。该10亿个参数版本(1B)具有理解和创建图像的能力,可为广泛的应用程序提供有效的性能,包括文本到图像生成和图像理解。此外,它擅长从照片中制作详细的标题,使其成为创意和分析任务的多功能工具。

学习目标

分析其架构和关键功能,以增强其功能。>
    探索基础设计及其对性能的影响。
  • >逐步构建检索型生成(RAG)系统的分步指南。
  • >利用DeepSeek Janus Pro 10亿个模型用于现实世界应用。
  • 了解DeepSeek Janus Pro如何优化AI驱动的解决方案。
  • >本文是

> > data Science Blogathon的一部分。 内容表>学习目标

>什么是deepseek janus pro?

  • > janus pro 1b
    • >>统一的变压器体系结构
  • >优化的训练策略
    • 多模式抹布,带有deepseek janus pro 1b pro 1b pro 1b模型
    • 步骤1。 pdf
    • 步骤4。查询和从保存的图像中查询和检索步骤5。加载Janus Pro模型
    • 步骤6。
    什么是deepseek janus pro?
  • > DeepSeek Janus Pro是一种多模式AI模型,它集成了文本和图像处理,能够理解和生成文本提示中的图像。 10亿个参数版本(1B)旨在跨文本到图像生成和图像理解任务等应用程序的有效性能。
  • 在DeepSeek的Janus Pro系列下,可用的主要模型是,它们的参数大小主要不同,7B模型明显更大,并且在文本到图像中的性能提高了,两者都在文本到图像中提供了改善的性能;两者都可以认为是基于视觉上下文的多模型模型。Janus Pro 1b

    的关键特征和设计方面

    • 架构:Janus Pro使用统一的变压器体系结构,但将视觉编码分解为单独的途径,以提高图像理解和创建任务中的性能。
    • >功能
    • :它在与图像的理解和基于文本提示的新生成有关的任务中脱颖而出。它支持384×384图像输入。 >
    • 图像编码器
    • :为了理解任务,Janus使用siglip编码图像。 Siglip是一种使用Clip框架的图像嵌入模型,但用成对的Sigmoid损失代替了损耗函数。对于图像生成,Janus使用了Lamagen的现有编码器,这是一种自回归图像生成模式。 Lallamagen是一个图像生成模型的家族,将大型语言模型的下一句范式应用于视觉一代> >
    • 开源:
    • >可在MIT许可下在GitHub上获得,并由DeepSeek Model许可管理。 也请阅读:如何访问DeepSeek Janus Pro 7b?
    • 用于图像理解和生成的
    脱钩体系结构

    通过采用单独的专门途径进行视觉编码,而不是依靠单个视觉编码器来了解图像理解和生成。

    使用DeepSeek Janus Pro增强多模式抹布>

    图像理解编码器。

    此途径从图像中提取语义特征。

      >
    • 图像生成编码。 >这种解耦的架构有助于特定于任务的优化,减轻解释和创造性综合之间的冲突。独立编码器解释输入特征,然后由统一自回归变压器处理。这允许多模式理解和生成组件独立选择其最合适的编码方法。
    • 也请阅读:DeepSeek的Janus Pro如何与DALL-E 3?
    • >模型体系结构的关键功能 1。视觉理解和发电
    • 的双道路架构

    视觉理解途径:视觉生成途径

    :对于图像生成任务,Janus Pro使用Lamagen令牌以16的下降速率下降速度来生成更详细的图像。

      2。统一变压器体系结构

      >共享的变压器主链是underfortext和图像特征融合。将原始输入转换为功能的独立编码方法由统一自动回归变压器处理。

      3。优化的培训策略

      在以前的Janus培训中,该模型进行了三阶段的训练过程。第一阶段的重点是训练适配器和图像头。第二阶段处理的统一预处理,在此期间,除了理解编码器和生成编码器以外的所有组件都具有其参数更新。第三阶段涵盖了受监督的微调,在第二阶段通过进一步解锁培训期间的理解编码参数。

      在Janus Pro中得到了改进:

      通过增加I阶段I的训练步骤,可以在Imagenet数据集上进行足够的培训。
        此外,在第二阶段,对于文本到图像生成培训,将图像数据完全删除。取而代之的是,正常的文本到图像数据被用来训练模型以基于密集的描述生成图像。发现这可以提高训练效率和整体表现。
      • 现在,让我们使用DeepSeek Janus Pro构建多模式抹布: 带有DeepSeek Janus Pro 1b模型的多模式抹布
      • 在以下步骤中,我们将构建一个多模式的抹布系统,以根据DeepSeek Janus Pro 1b模型查询图像。
      • >步骤1。安装必要的库

      >步骤2。保存图像嵌入的模型

      Byaldi提供了一个易于使用的框架,用于设置多模式抹布系统。从上面的代码中可以看出,我们加载colqwen2,该模型旨在使用视觉功能进行有效的文档索引。

      步骤3。加载图像PDF

    !pip install byaldi ollama pdf2image
    !sudo apt-get install -y poppler-utils
    !git clone https://github.com/deepseek-ai/Janus.git
    !pip install -e ./Janus
    我们使用此PDF在接下来的一步中查询并构建一个抹布系统。在上面的代码中,我们将图像pdf与向量一起存储。

    >

    >步骤4。从保存的图像中查询和检索
    import os
    from pathlib import Path
    from byaldi import RAGMultiModalModel
    import ollama
    # Initialize RAGMultiModalModel
    model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")

    根据查询,从PDF页面中的页面中的相关页面被检索并保存为output_image.png。

    步骤5。加载Janus Pro模型

    !pip install byaldi ollama pdf2image
    !sudo apt-get install -y poppler-utils
    !git clone https://github.com/deepseek-ai/Janus.git
    !pip install -e ./Janus
    • > vlchatprocessor.from_pretrated(“ deepseek-ai/janus-pro-1b”)加载用于处理多模式输入(图像和文本)的预处理的处理器。该处理器将为模型处理并准备输入数据(例如文本和图像)。
    • 从vlchatprocessor提取令牌。它将对文本输入进行示意,将文本转换为适合模型的格式。>
    • > automodelforcausallm.from_pretaining(“ deepseek-ai/janus-pro-1b”)
    • >加载预先训练的Janus Pro模型,专门用于因果语言建模。> >也设置了一个多模式对话格式
    • 在用户输入文本和图像的位置。
    • > load_pil_images(对话)是一个函数,它可能会加载对话对象中列出的图像并将它们转换为pil映像格式,该函数通常用于python中的图像处理。
    • >
    • 处理器以下是多模式处理器的实例(来自deepseek janus pro模型的
    • vlchatprocessor
    • ),将文本数据和图像数据同时作为输入。 preeg_inputs_embeds(inputs)是一种采用处理后的输入(输入包含文本和图像)的方法,并准备模型生成响应所需的嵌入。
    • 步骤6。输出生成
    • >代码使用准备好的输入嵌入(文本和图像)从DeepSeek Janus Pro 1b模型中生成响应。它使用多种配置设置,例如填充,启动/结束令牌,最大令牌长度以及是否使用缓存和采样。生成响应后,它使用令牌器将令牌ID解码为可读的文本。解码的输出存储在答案变量中。
    • >
    整个代码都存在于此COLAB笔记本中。

    >

    >查询的输出
    import os
    from pathlib import Path
    from byaldi import RAGMultiModalModel
    import ollama
    # Initialize RAGMultiModalModel
    model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")

    >另一个查询

    的输出

    “法国的收入是多少? 使用DeepSeek Janus Pro增强多模式抹布

    即使Thecolqwen2检索器检索了相关页面,DeepSeek Janus Pro 1b模型也无法从页面中产生准确的答案,

    即使相关页面已检索到相关页面,上述响应也不准确。确切的答案应为$ 2B。

    >另一个查询的输出

    “”自FY20开始以来的促销数量是多少? 使用DeepSeek Janus Pro增强多模式抹布

    上述响应是正确的,因为它与PDF中提到的文本匹配。

    结论

    总之,DeepSeek Janus Pro 1b模型代表了多模式AI的重大进步,其脱钩体系结构优化了图像理解和生成任务。通过使用单独的视觉编码器来完成这些任务并完善其培训策略,Janus Pro在文本到图像生成和图像分析方面提供了增强的性能。这种创新的方法(带有DeepSeek Janus Pro的多模式抹布)与其开源可访问性相结合,使其成为AI驱动的视觉理解和创建中各种应用的强大工具。

    钥匙要点

    带有双途径的多模式AI

      :Janus pro 1b使用单独的编码来集成文本和图像处理,用于图像理解(Siglip)和图像生成(Llamagen),增强了特定于任务的性能。
    1. 脱钩体系结构:
    2. 模型将视觉编码分开为不同的途径,从而为图像理解和生成提供了独立的优化,从而最大程度地减少了处理任务中的冲突。
    3. > >统一变压器骨干
    4. :共享的变压器架构合并了文本和图像的功能,简化了多模式数据融合以提高AI性能。
    5. 改进的培训策略:>
    6. >开源可访问性:
    7. Janus Pro 1b在MIT许可下可在GitHub上获得,鼓励在各种AI驱动的应用程序中广泛使用和适应。
    8. >本文所示的媒体不归Analytics Vidhya拥有,并由作者的酌情决定使用。
    9. 常见问题 > Q1。什么是deepseek janus pro 1b?
    ans。 DeepSeek Janus Pro 1b是一种多模式AI模型,旨在集成文本和图像处理,能够理解和生成文本描述中的图像。它具有10亿参数,可在文本到图像生成和图像理解等任务中有效地执行。 Janus Pro 1b的架构如何工作? Janus Pro使用带有脱钩的视觉编码的统一变压器体系结构。这意味着它采用单独的途径来理解和生成,从而可以针对每个任务进行特定于任务的优化。 Janus Pro的训练过程与以前的版本有何不同? Janus Pro通过提高培训步骤,放弃Imagenet数据集而利用专门的文本图数据,并专注于更好的微调以提高效率和性能。> Q4。使用Janus Pro 1b?

    ans,什么样的应用程序可以受益。 Janus Pro 1b对于涉及文本到图像生成,图像理解和多模式AI应用程序的任务特别有用,这些应用程序需要图像和文本处理功能

    Q5。 Janus-Pro如何与其他模型(如Dall-E 3?

    ans)进行比较。根据DeepSeek的说法,Janus-Pro-7b在基准(例如Geneval和DPG基础)的基准中优于DALL-E 3。 Janus-Pro将理解/生成分开,缩放数据/模型以生成稳定的图像,并保持统一,灵活和具有成本效益的结构。尽管这两种模型都执行文本形象生成,但Janus-Pro还提供图像字幕,DALL-E 3不。

    以上是使用DeepSeek Janus Pro增强多模式抹布的详细内容。更多信息请关注PHP中文网其他相关文章!

    声明
    本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
    为什么山姆·奥特曼(Sam Altman)和其他人现在将氛围用作AI最新进展的新规格为什么山姆·奥特曼(Sam Altman)和其他人现在将氛围用作AI最新进展的新规格May 06, 2025 am 11:12 AM

    让我们讨论“共鸣”作为AI领域的评估度量的上升。该分析是我正在进行的《福布斯》列的一部分,探索了AI开发的复杂方面(请参见此处的链接)。 AI评估中的共鸣 传统

    在Waymo工厂建造Robotaxi的未来在Waymo工厂建造Robotaxi的未来May 06, 2025 am 11:11 AM

    Waymo的亚利桑那工厂:批量生产自动驾驶美洲虎及以后 Waymo位于亚利桑那州凤凰城附近,经营着最先进的设施,生产其自动jaguar i-pace电动SUV机队。 这个239,000平方英尺的工厂开业

    在S&P Global的数据驱动转换内,AI处于核心在S&P Global的数据驱动转换内,AI处于核心May 06, 2025 am 11:10 AM

    标准普尔全球首席数字解决方案官Jigar Kocherlakota讨论了公司的AI旅程,战略收购和未来的数字化转型。 变革性的领导角色和未来的准备团队 Kocherlakota的角色

    超级应用的兴起:在数字生态系统中蓬勃发展的4个步骤超级应用的兴起:在数字生态系统中蓬勃发展的4个步骤May 06, 2025 am 11:09 AM

    从应用到生态系统:导航数字景观 数字革命远远超出了社交媒体和AI。 我们正在见证“所有应用程序”的兴起 - 综合数字生态系统整合了生活的各个方面。 山姆A。

    万事达卡和签证释放AI代理商为您购物万事达卡和签证释放AI代理商为您购物May 06, 2025 am 11:08 AM

    万事达卡代理工资:AI驱动的付款革新商业 虽然Visa的AI驱动交易功能成为头条新闻,但万事达卡揭开了代理商的薪酬,是建立在代币化,信任和代理的基础上的更高级的AI本地支付系统

    支持大胆:未来冒险的变革创新剧本支持大胆:未来冒险的变革创新剧本May 06, 2025 am 11:07 AM

    Future Ventures Fund IV:一项耗资2亿美元的新技术押注 Future Ventures最近关闭了其超额认购的IV,总计2亿美元。 这项由史蒂夫·朱维森(Steve Jurvetson),玛丽娜·萨恩科(Maryanna Saenko)和尼科·恩里克斯(Nico Enriquez)管理的新基金代表

    随着AI的使用飙升,公司从SEO转移到GEO随着AI的使用飙升,公司从SEO转移到GEOMay 05, 2025 am 11:09 AM

    随着AI应用的爆炸式增长,企业正从传统的搜索引擎优化(SEO)转向生成式引擎优化(GEO)。 谷歌正引领这一转变。其“AI概述”功能已服务于超过十亿用户,在用户点击链接之前提供完整的答案。[^2] 其他参与者也在迅速崛起。ChatGPT、微软Copilot和Perplexity正在创造一种全新的“答案引擎”类别,完全绕过了传统的搜索结果。 如果您的企业没有出现在这些AI生成的答案中,潜在客户可能永远不会发现您——即使您在传统的搜索结果中排名靠前。 从SEO到GEO——这究竟意味着什么? 几十年来

    大量赌注这些途径将推动当今的AI成为珍贵的AGI大量赌注这些途径将推动当今的AI成为珍贵的AGIMay 05, 2025 am 11:08 AM

    让我们探索人工通用智能(AGI)的潜在途径。 该分析是我正在进行的《福布斯》列的AI进步的一部分,并深入研究了实现AGI和人工超智慧(ASI)的复杂性。 (请参阅相关艺术

    See all articles

    热AI工具

    Undresser.AI Undress

    Undresser.AI Undress

    人工智能驱动的应用程序,用于创建逼真的裸体照片

    AI Clothes Remover

    AI Clothes Remover

    用于从照片中去除衣服的在线人工智能工具。

    Undress AI Tool

    Undress AI Tool

    免费脱衣服图片

    Clothoff.io

    Clothoff.io

    AI脱衣机

    Video Face Swap

    Video Face Swap

    使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

    热工具

    SublimeText3汉化版

    SublimeText3汉化版

    中文版,非常好用

    适用于 Eclipse 的 SAP NetWeaver 服务器适配器

    适用于 Eclipse 的 SAP NetWeaver 服务器适配器

    将Eclipse与SAP NetWeaver应用服务器集成。

    PhpStorm Mac 版本

    PhpStorm Mac 版本

    最新(2018.2.1 )专业的PHP集成开发工具

    螳螂BT

    螳螂BT

    Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

    记事本++7.3.1

    记事本++7.3.1

    好用且免费的代码编辑器