首页 >科技周边 >人工智能 >Jina Embeddings V2:处理长文件很容易

Jina Embeddings V2:处理长文件很容易

William Shakespeare
William Shakespeare原创
2025-03-09 10:01:08710浏览

jina嵌入式V2:革命性的长期文本嵌入

当前的文本嵌入模型(例如BERT)受到512 token处理限制的限制,从而阻碍了他们的冗长文档的性能。 这种限制通常会导致背景损失和不准确的理解。 Jina Embeddings V2通过支持8192代币,保留关键环境并显着提高所处理信息在广泛文本中的准确性和相关性,从而超过了这一限制。这代表了处理复杂文本数据的重大进步。

关键学习点

    在处理长文档时,了解传统模型等传统模型的局限性。
  • >学习Jina嵌入式V2如何通过其8192 token的容量和高级体系结构来克服这些限制。
  • 探索Jina Embeddings V2的创新特征,包括Alibi,Glu及其三阶段训练方法。
  • 在法律研究,内容管理和生成AI中发现现实世界的应用
  • >在使用拥抱的面部图书馆将Jina Embeddings V2整合到项目中的实用经验。
  • >本文是数据科学博客马拉松的一部分。
> 目录的

嵌入长文档的挑战

建筑创新和培训方法

性能评估
  • 现实世界应用
  • 模型比较
  • 使用Jina Embeddings v2与拥抱的脸
  • 结论
  • 常见问题
  • 嵌入长文档的挑战
  • >
  • 处理长文件在自然语言处理(NLP)中提出了重大挑战。传统方法在细分市场中处理文本,导致上下文截断和碎片嵌入,这些嵌入方式歪曲了原始文档。这将导致:

增加的计算需求

更高的内存消耗

降低了需要全面了解文本的任务的性能
    Jina Embeddings V2通过将令牌限制提高到 8192
  • ,无需过度细分并维护文档的语义完整性。
  • 建筑创新和培训方法
  • Jina Embeddings V2通过最先进的创新增强了Bert的功能:
    • >带有线性偏见(alibi)的注意:
    • 封闭式线性单元(GLU): glu,以提高变压器效率而闻名,用于进料层中。 Geglu和Reglu等变体用于根据模型大小来优化性能。 >
    • 优化培训: Jina Embeddings V2采用三阶段训练过程:
    • >预读:
        >使用蒙版语言建模(MLM)在巨大的清洁爬行语料库(C4)上进行训练。
      • > 与文本对进行微调:对语义上相似的文本对的嵌入。
      • 硬性负面微调:
      • 通过纳入挑战性的分心示例来改善排名和检索。
      • >记忆效率训练:
      • 混合精度训练和激活检查点等技术可确保对较大批量尺寸的可伸缩性,对于对比度学习至关重要。
      • 在软玛克斯操作之前,m
    • ,使其计算多样化。 该模型使用编码器变体,其中所有令牌彼此参与,与语言建模中使用的因果变体不同。

    绩效评估Jina Embeddings v2: Handling Long Documents Made Easy

    Jina Embeddings V2在各种基准测试中实现最新性能,包括大量的文本嵌入基准(MTEB)和新的长期数据集。 关键结果包括:

    分类:

    亚马逊极性和有毒对话分类等任务中的最高准确性。

    Jina Embeddings v2: Handling Long Documents Made Easy

    群集:

    在分组相关文本(PatentClustering和WikicitiesClustering)中优于竞争者。

      检索:
    • >在诸如nordationqa之类的任务中擅长,其中完整的文档上下文至关重要。>
    • 长文档处理:
    • 即使使用8192 token序列也保持MLM精度。
    • 此图表比较跨检索和聚类任务的嵌入模型性能。

      >现实世界应用程序

      • >法律和学术研究:是搜索和分析法律文件和学术论文的理想选择。
      • 内容管理系统:
      • 有效的标记,聚类和大型文档存储库的检索。
      • >生成ai:
      • >增强了AI生成的摘要和及时的基于及时的模型。 >电子商务:
      • >改进产品搜索和推荐系统。
      • >
      • 模型比较

      Jina Embeddings V2不仅在处理长序列方面,而且在与OpenAI的Text-ex-embedding-dada-002等专有模型竞争中脱颖而出。 它的开源性质可确保可访问性。

      使用jina嵌入式v2与拥抱的脸

      步骤1:安装

      >步骤2:使用jina嵌入与变压器

      !pip install transformers
      !pip install -U sentence-transformers

      输出:

      import torch
      from transformers import AutoModel
      from numpy.linalg import norm
      
      cos_sim = lambda a, b: (a @ b.T) / (norm(a) * norm(b))
      
      model = AutoModel.from_pretrained('jinaai/jina-embeddings-v2-base-en', trust_remote_code=True)
      
      embeddings = model.encode(['How is the weather today?', 'What is the current weather like today?'])
      
      print(cos_sim(embeddings, embeddings))

      处理长序列: Jina Embeddings v2: Handling Long Documents Made Easy

      >步骤3:使用jina嵌入与句子转换器

      embeddings = model.encode(['Very long ... document'], max_length=2048)
      (提供了使用

      库的类似代码,以及设置的说明。)>

      sentence_transformers max_seq_length

      结论

      Jina Embeddings v2: Handling Long Documents Made Easy Jina Embeddings V2是NLP的重大进步,有效地解决了处理长文件的局限性。 它的功能改善了现有的工作流,并解锁了使用长形式文本的新可能性。

      键外观(原始结论中总结了关键点)>

      >常见问题

      (汇总了常见问题的答案)

      注意:图像以其原始格式和位置保留。

以上是Jina Embeddings V2:处理长文件很容易的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn