ホームページ >テクノロジー周辺機器 >AI >Jina Embeddings V2:長いドキュメントの処理が簡単になりました
Jina Embeddings v2:革命の長い文書のテキスト埋め込み
BERTなどの現在のテキスト埋め込みモデルは、512トークンの処理制限によって制約され、長いドキュメントでパフォーマンスを妨げます。 この制限は、多くの場合、コンテキストの損失と不正確な理解につながります。 Jina Embeddings V2は、最大8192トークンまでのシーケンスをサポートし、重要なコンテキストを維持し、広範なテキスト内で処理された情報の精度と関連性を大幅に改善することにより、この制限を上回ります。これは、複雑なテキストデータの処理における大きな進歩を表しています。キー学習ポイント
長い文書を埋め込むことの課題 建築革新とトレーニング方法
パフォーマンス評価実際のアプリケーション
モデルの比較テキストの包括的な理解を必要とするタスクでのパフォーマンスの低下
Jina Embeddings v2は、トークンの制限を8192
に増やし、過度のセグメンテーションの必要性を排除し、ドキュメントのセマンティックの完全性を維持することにより、これらの問題に直接対処します。パフォーマンス評価
Jina Embeddings v2は、大規模なテキスト埋め込みベンチマーク(MTEB)や新しいロングドキュメントデータセットなど、さまざまなベンチマークで最先端のパフォーマンスを実現します。 重要な結果は次のとおりです
分類:Amazonの極性や有毒な会話分類などのタスクの最大の精度。>
関連するテキストのグループ化の競合他社(PatentClustering and WikicitiesClustering)を上回る。
実世界のアプリケーション
Jina Embeddings v2は、長いシーケンスの処理だけでなく、OpenaiのText-dembedding-aad-002などの独自モデルとの競合にも優れています。 そのオープンソースの性質により、アクセシビリティが保証されます
hugging hugging faceでジナ埋め込みv2を使用してくださいステップ1:インストール
ステップ2:変圧器でジナ埋め込みを使用
!pip install transformers !pip install -U sentence-transformers
output:
import torch from transformers import AutoModel from numpy.linalg import norm cos_sim = lambda a, b: (a @ b.T) / (norm(a) * norm(b)) model = AutoModel.from_pretrained('jinaai/jina-embeddings-v2-base-en', trust_remote_code=True) embeddings = model.encode(['How is the weather today?', 'What is the current weather like today?']) print(cos_sim(embeddings, embeddings))
長いシーケンスの取り扱い:
ステップ3:Jina Embeddingsを使用して文を変換する(
embeddings = model.encode(['Very long ... document'], max_length=2048)ライブラリを使用した同様のコードが提供されており、設定の指示
。)。)
sentence_transformers
max_seq_length
結論
Jina Embeddings v2は、NLPの大幅な進歩であり、長いドキュメントの処理の制限に効果的に対処しています。 その機能は、既存のワークフローを改善し、長い形式のテキストを操作するための新しい可能性のロックを解除します。
キーテイクアウェイ(元の結論からキーポイントを要約)
よくある質問
(FAQへの要約された回答)注:画像は元の形式と場所で保持されています。
以上がJina Embeddings V2:長いドキュメントの処理が簡単になりましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。