jina嵌入式V2:革命性的长期文本嵌入
当前的文本嵌入模型(例如BERT)受到512 token处理限制的限制,从而阻碍了他们的冗长文档的性能。 这种限制通常会导致背景损失和不准确的理解。 Jina Embeddings V2通过支持8192代币,保留关键环境并显着提高所处理信息在广泛文本中的准确性和相关性,从而超过了这一限制。这代表了处理复杂文本数据的重大进步。关键学习点
- 在处理长文档时,了解传统模型等传统模型的局限性。
- >学习Jina嵌入式V2如何通过其8192 token的容量和高级体系结构来克服这些限制。
- 在法律研究,内容管理和生成AI中发现现实世界的应用 >在使用拥抱的面部图书馆将Jina Embeddings V2整合到项目中的实用经验。
- >本文是数据科学博客马拉松的一部分。
表
嵌入长文档的挑战建筑创新和培训方法
性能评估- 现实世界应用
- 模型比较
- 使用Jina Embeddings v2与拥抱的脸
- 结论
- 常见问题
- 嵌入长文档的挑战
- > 处理长文件在自然语言处理(NLP)中提出了重大挑战。传统方法在细分市场中处理文本,导致上下文截断和碎片嵌入,这些嵌入方式歪曲了原始文档。这将导致:
增加的计算需求
更高的内存消耗降低了需要全面了解文本的任务的性能
-
Jina Embeddings V2通过将令牌限制提高到
- ,无需过度细分并维护文档的语义完整性。
- 建筑创新和培训方法
- Jina Embeddings V2通过最先进的创新增强了Bert的功能:
- >带有线性偏见(alibi)的注意:
- 封闭式线性单元(GLU):
glu,以提高变压器效率而闻名,用于进料层中。 Geglu和Reglu等变体用于根据模型大小来优化性能。 > 优化培训: -
>预读:
- >使用蒙版语言建模(MLM)在巨大的清洁爬行语料库(C4)上进行训练。
- > 与文本对进行微调:对语义上相似的文本对的嵌入。 硬性负面微调:
- 通过纳入挑战性的分心示例来改善排名和检索。 >记忆效率训练:
- 混合精度训练和激活检查点等技术可确保对较大批量尺寸的可伸缩性,对于对比度学习至关重要。
- 在软玛克斯操作之前,
m ,使其计算多样化。 该模型使用编码器变体,其中所有令牌彼此参与,与语言建模中使用的因果变体不同。
- >在诸如nordationqa之类的任务中擅长,其中完整的文档上下文至关重要。> 长文档处理:
- 即使使用8192 token序列也保持MLM精度。
-
此图表比较跨检索和聚类任务的嵌入模型性能。
>现实世界应用程序
- >法律和学术研究:
是搜索和分析法律文件和学术论文的理想选择。 内容管理系统: - 有效的标记,聚类和大型文档存储库的检索。 >生成ai:
- >增强了AI生成的摘要和及时的基于及时的模型。 >电子商务: >改进产品搜索和推荐系统。
- > 模型比较
Jina Embeddings V2不仅在处理长序列方面,而且在与OpenAI的Text-ex-embedding-dada-002等专有模型竞争中脱颖而出。 它的开源性质可确保可访问性。
使用jina嵌入式v2与拥抱的脸步骤1:安装
>步骤2:使用jina嵌入与变压器
!pip install transformers !pip install -U sentence-transformers
输出:
import torch from transformers import AutoModel from numpy.linalg import norm cos_sim = lambda a, b: (a @ b.T) / (norm(a) * norm(b)) model = AutoModel.from_pretrained('jinaai/jina-embeddings-v2-base-en', trust_remote_code=True) embeddings = model.encode(['How is the weather today?', 'What is the current weather like today?']) print(cos_sim(embeddings, embeddings))
处理长序列:
>步骤3:使用jina嵌入与句子转换器
embeddings = model.encode(['Very long ... document'], max_length=2048)
(提供了使用库的类似代码,以及设置的说明。)>
sentence_transformers
max_seq_length
Jina Embeddings V2是NLP的重大进步,有效地解决了处理长文件的局限性。 它的功能改善了现有的工作流,并解锁了使用长形式文本的新可能性。
键外观(原始结论中总结了关键点)>
>常见问题
(汇总了常见问题的答案) - >法律和学术研究:
绩效评估
Jina Embeddings V2在各种基准测试中实现最新性能,包括大量的文本嵌入基准(MTEB)和新的长期数据集。 关键结果包括:
分类:
亚马逊极性和有毒对话分类等任务中的最高准确性。
在分组相关文本(PatentClustering和WikicitiesClustering)中优于竞争者。
- 检索:
以上是Jina Embeddings V2:处理长文件很容易的详细内容。更多信息请关注PHP中文网其他相关文章!

用Microsoft Power BI图来利用数据可视化的功能 在当今数据驱动的世界中,有效地将复杂信息传达给非技术观众至关重要。 数据可视化桥接此差距,转换原始数据i

专家系统:深入研究AI的决策能力 想象一下,从医疗诊断到财务计划,都可以访问任何事情的专家建议。 这就是人工智能专家系统的力量。 这些系统模仿Pro

首先,很明显,这种情况正在迅速发生。各种公司都在谈论AI目前撰写的代码的比例,并且这些代码的比例正在迅速地增加。已经有很多工作流离失所

从数字营销到社交媒体的所有创意领域,电影业都站在技术十字路口。随着人工智能开始重塑视觉讲故事的各个方面并改变娱乐的景观

ISRO的免费AI/ML在线课程:通向地理空间技术创新的门户 印度太空研究组织(ISRO)通过其印度遥感研究所(IIR)为学生和专业人士提供了绝佳的机会

本地搜索算法:综合指南 规划大规模活动需要有效的工作量分布。 当传统方法失败时,本地搜索算法提供了强大的解决方案。 本文探讨了爬山和模拟

该版本包括三种不同的型号,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,标志着向大语言模型景观内的特定任务优化迈进。这些模型并未立即替换诸如

Chip Giant Nvidia周一表示,它将开始制造AI超级计算机(可以处理大量数据并运行复杂算法的机器),完全是在美国首次在美国境内。这一消息是在特朗普总统SI之后发布的


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

安全考试浏览器
Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

记事本++7.3.1
好用且免费的代码编辑器

MinGW - 适用于 Windows 的极简 GNU
这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

PhpStorm Mac 版本
最新(2018.2.1 )专业的PHP集成开发工具