搜索
首页科技周边人工智能用假嵌入增强破布系统

>多模式检索仪(RAG)系统正在通过整合多种数据类型(TEXT,图像,音频和视频)来彻底改变AI,从而获得更多细微差别和上下文感知的响应。 这超过了传统的抹布,这仅关注文本。 一个关键的进步是通讯嵌入,为视觉和文本数据创建了一个统一的空间,从而实现了无缝的跨模式交互。 高级模型会生成高质量的嵌入,改善信息检索并弥合不同内容形式之间的差距,最终丰富用户体验。

学习目标

  • 掌握了多模式抹布的基本原理及其优势比传统抹布。
  • 了解嵌入统一文本和图像嵌入空间中的作用。
  • 比较剪辑模型的somic视觉嵌入,分析性能基准。
  • >使用somic Vision和Text Embeddings在Python中实现多模式的RAG系统。
  • 学习从PDF中提取和处理多模式检索的文本和视觉数据。

*本文是*** 数据科学blogathon的一部分。

目录的

>

    什么是多模式的抹布?
  • nive vision嵌入
  • >杂志嵌入的性能基准
  • python实施多模式抹布,带有通知嵌入
    • >步骤1:安装必要的库
    • >步骤2:设置OpenAI API键并导入库
    • >
    • 步骤3:从PDF
    • 中提取图像
    • 步骤4:从PDF
    • 提取文本
    • 步骤5:保存提取的文本和图像
    • 步骤6:块文本数据
    • >步骤7:加载名词嵌入模型
    • 步骤8:生成嵌入
    • >步骤9:将文本嵌入在qdrant
    • 中存储
    • >步骤10:将图像嵌入在qdrant
    • >步骤11:创建一个多模式猎犬
    • 步骤12:用兰链构建多模式抹布
  • 查询模型
  • 结论
  • 常见问题
什么是多模式的抹布?

>多模式抹布代表了一个显着的AI进步,这是通过合并多种数据类型来基于传统抹布的。与主要处理文本的传统系统不同,多模式抹布处理并同时集成了多个数据表格。这导致了更全面的理解和背景感知的反应。

键多模式抹布组件:

  • >数据摄入:来自各种来源的数据是使用专用处理器摄入的,确保验证,清洁和归一化。
  • >
  • >向量表示:>使用神经网络(例如,图像的剪辑,文本的剪辑,bert for Text)来处理统一的矢量嵌入,保留语义关系。
  • > 使用索引技术(HNSW,FAISS),将> >向量数据库存储:
  • 嵌入嵌入在优化的矢量数据库(例如qdrant)中,以有效检索。 查询处理:
  • >传入查询被分析,转换为与存储数据相同的向量空间,并用于识别相关模态并生成用于搜索的嵌入。
  • nive vision嵌入

解决剪贴模型限制:

>

>剪辑以零拍功能出色时,其文本编码在图像检索之外的任务中表现不佳(如MTEB基准测试所示)。 Nimic Embed Vision通过将其视觉编码器与嵌入式文本潜在空间保持一致来解决这一点。

媒体嵌入视觉与提名嵌入文本一起训练,冻结文本编码器并在图像文本对上训练视觉编码器。这样可以确保最佳的结果和与名词嵌入文本嵌入的向后兼容性。

>

>杂志嵌入的性能基准Enhancing RAG Systems with Nomic Embeddings

剪辑模型虽然在零拍功能方面令人印象深刻,但在语义相似性(MTEB基准)等单峰任务中显示出弱点。通用嵌入视觉通过将其视觉编码器与名词嵌入文本潜在空间保持一致,从而克服了这一点,从而在图像,文本和多模式任务(Imagenet Zero-Shot,MTEB,MTEB,DataComp Benchmarks)中产生了强大的性能。

python实施多模式抹布,带有通知嵌入

本教程构建了一个多模式抹布系统,从包含文本和图像的PDF检索信息(使用带有T4 GPU的Google Colab)。

>步骤1:安装库Enhancing RAG Systems with Nomic Embeddings

安装必要的Python库:OpenAI,QDRANT,Transformers,Torch,Pymupdf等

>步骤2:设置OpenAI API键并导入库

>

>设置OpenAI API密钥并导入所需的库(Pymupdf,PIL,Langchain,OpenAI等)。 (为简短而省略了代码。)

步骤3:从PDF

中提取图像

>使用pymupdf从PDF提取图像,然后将其保存到目录中。 (为简短而省略了代码。)

步骤4:从PDF

提取文本

>使用pymupdf从每个PDF页面中提取文本。 (为简短而省略了代码。)

步骤5:保存提取的数据

>保存提取的图像和文本。 (为简短而省略了代码。)

步骤6:块文本数据

>使用Langchain'sRecursiveCharacterTextSplitter将提取的文本分为较小的块。 (为简短而省略了代码。)

>步骤7:加载名词嵌入模型

>使用拥抱面孔的变形金刚加载Nomic的文本和视觉嵌入模型。 (为简短而省略了代码。)

步骤8:生成嵌入

生成文本和图像嵌入。 (为简短而省略了代码。)

>步骤9:将文本嵌入在qdrant

中存储

>将文本嵌入在QDrant集合中。 (为简短而省略了代码。)

>步骤10:将图像嵌入在qdrant

>将图像嵌入在单独的QDrant集合中。 (为简短而省略了代码。)

>步骤11:创建一个多模式猎犬

>创建一个函数,以根据查询检索相关的文本和图像嵌入。 (为简短而省略了代码。)

步骤12:用兰链构建多模式抹布

>使用Langchain处理被检索的数据并使用语言模型(例如GPT-4)生成响应。 (为简短而省略了代码。)

查询模型

>示例查询演示了系统从PDF中从文本和图像中检索信息的能力。 (示例查询和输出省略了,但在原始中存在。

结论

钥匙要点

多模式抹布整合了多种数据类型,以更全面地理解。 nive vision嵌入统一视觉和文本数据以改进信息检索。

该系统使用专门的处理,向量表示和存储以进行有效检索。
    nimic嵌入视力克服了剪辑在单峰任务中的局限性。
  • 常见问题
  • (为简洁而省略了常见问题,但以原始形式存在。)
  • >

    注意:为简短而省略了代码片段,但核心功能和步骤仍然准确地描述了。 原始输入包含广泛的代码;包括所有这些都会使这一响应过长。 请参阅原始输入以进行完整的代码实现。

    >

以上是用假嵌入增强破布系统的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
在LLMS中调用工具在LLMS中调用工具Apr 14, 2025 am 11:28 AM

大型语言模型(LLMS)的流行激增,工具称呼功能极大地扩展了其功能,而不是简单的文本生成。 现在,LLM可以处理复杂的自动化任务,例如Dynamic UI创建和自主a

多动症游戏,健康工具和AI聊天机器人如何改变全球健康多动症游戏,健康工具和AI聊天机器人如何改变全球健康Apr 14, 2025 am 11:27 AM

视频游戏可以缓解焦虑,建立焦点或支持多动症的孩子吗? 随着医疗保健在全球范围内挑战,尤其是在青年中的挑战,创新者正在转向一种不太可能的工具:视频游戏。现在是世界上最大的娱乐印度河之一

没有关于AI的投入:获胜者,失败者和机遇没有关于AI的投入:获胜者,失败者和机遇Apr 14, 2025 am 11:25 AM

“历史表明,尽管技术进步推动了经济增长,但它并不能自行确保公平的收入分配或促进包容性人类发展,”乌托德秘书长Rebeca Grynspan在序言中写道。

通过生成AI学习谈判技巧通过生成AI学习谈判技巧Apr 14, 2025 am 11:23 AM

易于使用,使用生成的AI作为您的谈判导师和陪练伙伴。 让我们来谈谈。 对创新AI突破的这种分析是我正在进行的《福布斯》列的最新覆盖范围的一部分,包括识别和解释

泰德(Ted)从Openai,Google,Meta透露出庭,与我自己自拍泰德(Ted)从Openai,Google,Meta透露出庭,与我自己自拍Apr 14, 2025 am 11:22 AM

在温哥华举行的TED2025会议昨天在4月11日举行了第36版。它有来自60多个国家 /地区的80个发言人,包括Sam Altman,Eric Sc​​hmidt和Palmer Luckey。泰德(Ted)的主题“人类重新构想”是量身定制的

约瑟夫·斯蒂格利兹(Joseph Stiglitz约瑟夫·斯蒂格利兹(Joseph StiglitzApr 14, 2025 am 11:21 AM

约瑟夫·斯蒂格利茨(Joseph Stiglitz)是2001年著名的经济学家,是诺贝尔经济奖的获得者。斯蒂格利茨认为,AI可能会使现有的不平等和合并权力恶化,并在几个主导公司的手中加剧,最终破坏了经济的经济。

什么是图形数据库?什么是图形数据库?Apr 14, 2025 am 11:19 AM

图数据库:通过关系彻底改变数据管理 随着数据的扩展及其特征在各个字段中的发展,图形数据库正在作为管理互连数据的变革解决方案的出现。与传统不同

LLM路由:策略,技术和Python实施LLM路由:策略,技术和Python实施Apr 14, 2025 am 11:14 AM

大型语言模型(LLM)路由:通过智​​能任务分配优化性能 LLM的快速发展的景观呈现出各种各样的模型,每个模型都具有独特的优势和劣势。 有些在创意内容gen上表现出色

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。