Jina Embeddings V2：長いドキュメントの処理が簡単になりました-AI-php.cn

ホームページ

テクノロジー周辺機器

Jina Embeddings V2：長いドキュメントの処理が簡単になりました

William Shakespeare

Mar 09, 2025 am 10:01 AM

Jina Embeddings v2：革命の長い文書のテキスト埋め込み

BERTなどの現在のテキスト埋め込みモデルは、512トークンの処理制限によって制約され、長いドキュメントでパフォーマンスを妨げます。この制限は、多くの場合、コンテキストの損失と不正確な理解につながります。 Jina Embeddings V2は、最大8192トークンまでのシーケンスをサポートし、重要なコンテキストを維持し、広範なテキスト内で処理された情報の精度と関連性を大幅に改善することにより、この制限を上回ります。これは、複雑なテキストデータの処理における大きな進歩を表しています。

キー学習ポイント

長いドキュメントを処理するときのBertのような伝統的なモデルの制限を理解してください。

Alibi、Glu、およびその3段階のトレーニング方法を含むJina Embeddings V2の革新的な機能の調査。
Jina Embeddings v2を抱きしめてフェイスライブラリを使用してプロジェクトに統合する実践的な経験を積む。
この記事は、データサイエンスブログの一部です
目次

長い文書を埋め込むことの課題建築革新とトレーニング方法

パフォーマンス評価

実際のアプリケーション

モデルの比較

顔を抱きしめてジナ埋め込みv2を使用します
結論
よくある質問
長い文書を埋め込むことの課題

テキストの包括的な理解を必要とするタスクでのパフォーマンスの低下

Jina Embeddings v2は、トークンの制限を

8192

に増やし、過度のセグメンテーションの必要性を排除し、ドキュメントのセマンティックの完全性を維持することにより、これらの問題に直接対処します。

建築的革新とトレーニング方法
- 注意：Alibiは、従来の位置埋め込みを注意スコアに適用される線形バイアスに置き換えます。これにより、モデルは、トレーニング中に遭遇したものよりもはるかに長いシーケンスにモデルを効果的に外挿することができます。以前の単方向実装とは異なり、Jina Embeddings V2は双方向のバリアントを使用して、エンコードタスクとの互換性を確保します。
- ゲート線形ユニット（GLU）：GLUは、変圧器の効率を改善することで知られていますが、フィードフォワードレイヤーで使用されています。 GegluやRegluなどのバリアントは、モデルサイズに基づいてパフォーマンスを最適化するために採用されています。
- Jina Embeddings v2は3段階のトレーニングプロセスを採用しています：
  - マスクされた言語モデリング（MLM）を使用して、巨大なクリーンクロールコーパス（c4）で訓練されています。
  - 意味的に類似したテキストペアの埋め込みを調整します。ハードネガティブな微調整：
  - メモリ効率の高いトレーニング：混合精度トレーニングやアクティベーションチェックポイントなどのテクニックは、より大きなバッチサイズのスケーラビリティを確保します。
  Alibi Atternessは、SoftMax操作の前に各注意スコアに線形バイアスを組み込んでいます。各注意ヘッドは、一意の定数スカラー
を使用して、計算を多様化します。このモデルは、言語モデリングで使用される因果バリアントとは異なり、すべてのトークンが互いに注意を払うエンコーダーバリアントを使用します。
パフォーマンス評価

Jina Embeddings v2は、大規模なテキスト埋め込みベンチマーク（MTEB）や新しいロングドキュメントデータセットなど、さまざまなベンチマークで最先端のパフォーマンスを実現します。重要な結果は次のとおりです
分類：Amazonの極性や有毒な会話分類などのタスクの最大の精度。
>
クラスタリング：
関連するテキストのグループ化の競合他社（PatentClustering and WikicitiesClustering）を上回る。
- 完全なドキュメントコンテキストが重要な項目qaのようなタスクで優れています。長いドキュメントの処理：
```
!pip install transformers
!pip install -U sentence-transformers
```
output：
```
import torch
from transformers import AutoModel
from numpy.linalg import norm

cos_sim = lambda a, b: (a @ b.T) / (norm(a) * norm(b))

model = AutoModel.from_pretrained('jinaai/jina-embeddings-v2-base-en', trust_remote_code=True)

embeddings = model.encode(['How is the weather today?', 'What is the current weather like today?'])

print(cos_sim(embeddings, embeddings))
```
長いシーケンスの取り扱い：

ステップ3：Jina Embeddingsを使用して文を変換する（
```
embeddings = model.encode(['Very long ... document'], max_length=2048)
```
ライブラリを使用した同様のコードが提供されており、設定の指示
。）。）

sentence_transformersmax_seq_length結論

Jina Embeddings v2は、NLPの大幅な進歩であり、長いドキュメントの処理の制限に効果的に対処しています。その機能は、既存のワークフローを改善し、長い形式のテキストを操作するための新しい可能性のロックを解除します。

キーテイクアウェイ（元の結論からキーポイントを要約）

よくある質問
（FAQへの要約された回答）

注：画像は元の形式と場所で保持されています。

以上がJina Embeddings V2：長いドキュメントの処理が簡単になりましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

個人的なハッキングはかなり激しいクマになりますMay 11, 2025 am 11:09 AM

サイバー攻撃が進化しています。一般的なフィッシングメールの時代は終わりました。サイバー犯罪の将来は超個人化されており、高度にターゲットを絞った攻撃を作成するために、容易に利用可能なオンラインデータとAIを活用しています。あなたの仕事を知っている詐欺師を想像してください、あなたのf

教皇レオXIVは、AIが彼の名前の選択にどのように影響したかを明らかにしますMay 11, 2025 am 11:07 AM

枢機of大学への彼の就任演説では、シカゴ生まれのロバート・フランシス・プレボスト、新たに選出された教皇レオ14世は、彼の同名の教皇レオXIIIの影響について議論しました。

初心者および専門家向けのFastapi -MCPチュートリアル-Analytics VidhyaMay 11, 2025 am 10:56 AM

このチュートリアルでは、モデルコンテキストプロトコル（MCP）とFastAPIを使用して、大規模な言語モデル（LLM）と外部ツールを統合する方法を示しています。 FastAPIを使用して簡単なWebアプリケーションを構築し、それをMCPサーバーに変換し、Lを有効にします

DIA-1.6B TTS：最高のテキストからダイアログの生成モデル - 分析VidhyaMay 11, 2025 am 10:27 AM

DIA-1.6Bを探索：資金がゼロの2人の学部生によって開発された画期的なテキストからスピーチモデル！この16億個のパラメーターモデルは、笑い声やくしゃみなどの非言語的手がかりを含む、非常に現実的なスピーチを生成します。この記事ガイド

AIがメンターシップをこれまで以上に意味のあるものにする3つの方法May 10, 2025 am 11:17 AM

私は心から同意します。私の成功は、メンターの指導に密接に関連しています。特にビジネス管理に関する彼らの洞察は、私の信念と実践の基盤を形成しました。この経験は、メンターへの私のコミットメントを強調しています

AIは、鉱業で新しい可能性を発掘しますMay 10, 2025 am 11:16 AM

AIはマイニング機器を強化しました採掘操作環境は厳しく危険です。人工知能システムは、最も危険な環境から人間を排除し、人間の能力を高めることにより、全体的な効率とセキュリティを改善するのに役立ちます。人工知能は、マイニング操作で使用される自動運転トラック、ドリル、ローダーの電源にますます使用されています。これらのAI搭載車両は、危険な環境で正確に動作し、それにより安全性と生産性が向上します。一部の企業は、大規模な鉱業作業のために自動鉱業車両を開発しています。挑戦的な環境で動作する機器には、継続的なメンテナンスが必要です。ただし、メンテナンスは重要なデバイスをオフラインに保ち、リソースを消費する可能性があります。より正確なメンテナンスとは、高価で必要な機器の稼働時間が増加し、大幅なコスト削減を意味します。 AI駆動型