ホームページ >テクノロジー周辺機器 >AI >Jina Embeddings V2:長いドキュメントの処理が簡単になりました

Jina Embeddings V2:長いドキュメントの処理が簡単になりました

William Shakespeare
William Shakespeareオリジナル
2025-03-09 10:01:08707ブラウズ

Jina Embeddings v2:革命の長い文書のテキスト埋め込み

BERTなどの現在のテキスト埋め込みモデルは、512トークンの処理制限によって制約され、長いドキュメントでパフォーマンスを妨げます。 この制限は、多くの場合、コンテキストの損失と不正確な理解につながります。 Jina Embeddings V2は、最大8192トークンまでのシーケンスをサポートし、重要なコンテキストを維持し、広範なテキスト内で処理された情報の精度と関連性を大幅に改善することにより、この制限を上回ります。これは、複雑なテキストデータの処理における大きな進歩を表しています。

キー学習ポイント

長いドキュメントを処理するときのBertのような伝統的なモデルの制限を理解してください。
    Jina Embeddings v2が8192トークンの容量と高度なアーキテクチャを通じてこれらの制限を克服する方法を学ぶ。
  • Alibi、Glu、およびその3段階のトレーニング方法を含むJina Embeddings V2の革新的な機能の調査。
  • 法的研究、コンテンツ管理、および生成AIにおける現実世界のアプリケーションの発見。
  • Jina Embeddings v2を抱きしめてフェイスライブラリを使用してプロジェクトに統合する実践的な経験を積む。
  • この記事は、データサイエンスブログの一部です
  • 目次

長い文書を埋め込むことの課題 建築革新とトレーニング方法

パフォーマンス評価

実際のアプリケーション

モデルの比較
  • 顔を抱きしめてジナ埋め込みv2を使用します
  • 結論
  • よくある質問
  • 長い文書を埋め込むことの課題
  • 長いドキュメントの処理は、自然言語処理(NLP)に大きな課題を提示します。従来の方法セグメントでテキストを処理し、コンテキストの切り捨てと断片化された埋め込みにつながり、元のドキュメントを誤って伝えます。これは次のとおりです
  • 計算需要の増加
  • メモリ消費量が多い

テキストの包括的な理解を必要とするタスクでのパフォーマンスの低下

Jina Embeddings v2は、トークンの制限を

8192

に増やし、過度のセグメンテーションの必要性を排除し、ドキュメントのセマンティックの完全性を維持することにより、これらの問題に直接対処します。
  • 建築的革新とトレーニング方法
  • Jina Embeddings v2は、最先端のイノベーションでBertの能力を高めます:
    • 線形バイアス(Alibi)を使用した
    • 注意:Alibiは、従来の位置埋め込みを注意スコアに適用される線形バイアスに置き換えます。これにより、モデルは、トレーニング中に遭遇したものよりもはるかに長いシーケンスにモデルを効果的に外挿することができます。 以前の単方向実装とは異なり、Jina Embeddings V2は双方向のバリアントを使用して、エンコードタスクとの互換性を確保します。
    • ゲート線形ユニット(GLU):GLUは、変圧器の効率を改善することで知られていますが、フィードフォワードレイヤーで使用されています。 GegluやRegluなどのバリアントは、モデルサイズに基づいてパフォーマンスを最適化するために採用されています。
    • 最適化されたトレーニング:
    • Jina Embeddings v2は3段階のトレーニングプロセスを採用しています:
        事前削除:
      • マスクされた言語モデリング(MLM)を使用して、巨大なクリーンクロールコーパス(c4)で訓練されています。
      • テキストペアを使用した微調整:
      • 意味的に類似したテキストペアの埋め込みを調整します。 ハードネガティブな微調整:
      • 挑戦的なディストラクタの例を組み込むことでランキングと検索を改善します。
      • メモリ効率の高いトレーニング:混合精度トレーニングやアクティベーションチェックポイントなどのテクニックは、より大きなバッチサイズのスケーラビリティを確保します。
      Alibi Atternessは、SoftMax操作の前に各注意スコアに線形バイアスを組み込んでいます。各注意ヘッドは、一意の定数スカラー
    • m
    を使用して、計算を多様化します。 このモデルは、言語モデリングで使用される因果バリアントとは異なり、すべてのトークンが互いに注意を払うエンコーダーバリアントを使用します。

    Jina Embeddings v2: Handling Long Documents Made Easyパフォーマンス評価

    Jina Embeddings v2は、大規模なテキスト埋め込みベンチマーク(MTEB)や新しいロングドキュメントデータセットなど、さまざまなベンチマークで最先端のパフォーマンスを実現します。 重要な結果は次のとおりです

    分類:Amazonの極性や有毒な会話分類などのタスクの最大の精度。

    > Jina Embeddings v2: Handling Long Documents Made Easy

    クラスタリング:

    関連するテキストのグループ化の競合他社(PatentClustering and WikicitiesClustering)を上回る。

      検索:
    • 完全なドキュメントコンテキストが重要な項目qaのようなタスクで優れています。 長いドキュメントの処理:
    • 8192トークンシーケンスでもMLMの精度を維持します。
    • このチャートは、シーケンスの長さがさまざまな検索タスクとクラスタリングタスク全体の埋め込みモデルのパフォーマンスを比較します。

      実世界のアプリケーション

      • 法律および学術研究:法的文書や学術論文の検索と分析に最適です。
      • コンテンツ管理システム:大規模なドキュメントリポジトリの効率的なタグ付け、クラスタリング、および取得。>
      • 生成ai:AI生成された要約とプロンプトベースのモデルを強化します
      • e-commerce:
      • 製品検索および推奨システムを改善します
      • モデルの比較

      Jina Embeddings v2は、長いシーケンスの処理だけでなく、OpenaiのText-dembedding-aad-002などの独自モデルとの競合にも優れています。 そのオープンソースの性質により、アクセシビリティが保証されます

      hugging hugging faceでジナ埋め込みv2を使用してください

      ステップ1:インストール

      ステップ2:変圧器でジナ埋め込みを使用

    !pip install transformers
    !pip install -U sentence-transformers

    output:

    import torch
    from transformers import AutoModel
    from numpy.linalg import norm
    
    cos_sim = lambda a, b: (a @ b.T) / (norm(a) * norm(b))
    
    model = AutoModel.from_pretrained('jinaai/jina-embeddings-v2-base-en', trust_remote_code=True)
    
    embeddings = model.encode(['How is the weather today?', 'What is the current weather like today?'])
    
    print(cos_sim(embeddings, embeddings))

    長いシーケンスの取り扱い:Jina Embeddings v2: Handling Long Documents Made Easy

    ステップ3:Jina Embeddingsを使用して文を変換する(

    embeddings = model.encode(['Very long ... document'], max_length=2048)
    ライブラリを使用した同様のコードが提供されており、設定の指示

    。)。)

    sentence_transformersmax_seq_length結論

    Jina Embeddings v2: Handling Long Documents Made EasyJina Embeddings v2は、NLPの大幅な進歩であり、長いドキュメントの処理の制限に効果的に対処しています。 その機能は、既存のワークフローを改善し、長い形式のテキストを操作するための新しい可能性のロックを解除します。

    キーテイクアウェイ(元の結論からキーポイントを要約)

    よくある質問

    (FAQへの要約された回答)

    注:画像は元の形式と場所で保持されています。

以上がJina Embeddings V2:長いドキュメントの処理が簡単になりましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。