jina嵌入式V2:革命性的长期文本嵌入
当前的文本嵌入模型(例如BERT)受到512 token处理限制的限制,从而阻碍了他们的冗长文档的性能。 这种限制通常会导致背景损失和不准确的理解。 Jina Embeddings V2通过支持8192代币,保留关键环境并显着提高所处理信息在广泛文本中的准确性和相关性,从而超过了这一限制。这代表了处理复杂文本数据的重大进步。关键学习点
表
嵌入长文档的挑战建筑创新和培训方法
性能评估增加的计算需求
更高的内存消耗降低了需要全面了解文本的任务的性能
绩效评估
Jina Embeddings V2在各种基准测试中实现最新性能,包括大量的文本嵌入基准(MTEB)和新的长期数据集。 关键结果包括:
分类:
亚马逊极性和有毒对话分类等任务中的最高准确性。
在分组相关文本(PatentClustering和WikicitiesClustering)中优于竞争者。
>现实世界应用程序
Jina Embeddings V2不仅在处理长序列方面,而且在与OpenAI的Text-ex-embedding-dada-002等专有模型竞争中脱颖而出。 它的开源性质可确保可访问性。
使用jina嵌入式v2与拥抱的脸
步骤1:安装
>步骤2:使用jina嵌入与变压器
!pip install transformers !pip install -U sentence-transformers
输出:
import torch from transformers import AutoModel from numpy.linalg import norm cos_sim = lambda a, b: (a @ b.T) / (norm(a) * norm(b)) model = AutoModel.from_pretrained('jinaai/jina-embeddings-v2-base-en', trust_remote_code=True) embeddings = model.encode(['How is the weather today?', 'What is the current weather like today?']) print(cos_sim(embeddings, embeddings))
处理长序列:
>步骤3:使用jina嵌入与句子转换器
embeddings = model.encode(['Very long ... document'], max_length=2048)(提供了使用
库的类似代码,以及设置的说明。)>
sentence_transformers
max_seq_length
Jina Embeddings V2是NLP的重大进步,有效地解决了处理长文件的局限性。 它的功能改善了现有的工作流,并解锁了使用长形式文本的新可能性。
键外观(原始结论中总结了关键点)>
>常见问题
(汇总了常见问题的答案)注意:图像以其原始格式和位置保留。
以上是Jina Embeddings V2:处理长文件很容易的详细内容。更多信息请关注PHP中文网其他相关文章!