検索
ホームページテクノロジー周辺機器AIJina Embeddings V2:長いドキュメントの処理が簡単になりました

Jina Embeddings v2:革命の長い文書のテキスト埋め込み

BERTなどの現在のテキスト埋め込みモデルは、512トークンの処理制限によって制約され、長いドキュメントでパフォーマンスを妨げます。 この制限は、多くの場合、コンテキストの損失と不正確な理解につながります。 Jina Embeddings V2は、最大8192トークンまでのシーケンスをサポートし、重要なコンテキストを維持し、広範なテキスト内で処理された情報の精度と関連性を大幅に改善することにより、この制限を上回ります。これは、複雑なテキストデータの処理における大きな進歩を表しています。

キー学習ポイント

長いドキュメントを処理するときのBertのような伝統的なモデルの制限を理解してください。
    Jina Embeddings v2が8192トークンの容量と高度なアーキテクチャを通じてこれらの制限を克服する方法を学ぶ。
  • Alibi、Glu、およびその3段階のトレーニング方法を含むJina Embeddings V2の革新的な機能の調査。
  • 法的研究、コンテンツ管理、および生成AIにおける現実世界のアプリケーションの発見。
  • Jina Embeddings v2を抱きしめてフェイスライブラリを使用してプロジェクトに統合する実践的な経験を積む。
  • この記事は、データサイエンスブログの一部です
  • 目次

長い文書を埋め込むことの課題 建築革新とトレーニング方法

パフォーマンス評価

実際のアプリケーション

モデルの比較
  • 顔を抱きしめてジナ埋め込みv2を使用します
  • 結論
  • よくある質問
  • 長い文書を埋め込むことの課題
  • 長いドキュメントの処理は、自然言語処理(NLP)に大きな課題を提示します。従来の方法セグメントでテキストを処理し、コンテキストの切り捨てと断片化された埋め込みにつながり、元のドキュメントを誤って伝えます。これは次のとおりです
  • 計算需要の増加
  • メモリ消費量が多い

テキストの包括的な理解を必要とするタスクでのパフォーマンスの低下

Jina Embeddings v2は、トークンの制限を

8192

に増やし、過度のセグメンテーションの必要性を排除し、ドキュメントのセマンティックの完全性を維持することにより、これらの問題に直接対処します。
  • 建築的革新とトレーニング方法
  • Jina Embeddings v2は、最先端のイノベーションでBertの能力を高めます:
    • 線形バイアス(Alibi)を使用した
    • 注意:Alibiは、従来の位置埋め込みを注意スコアに適用される線形バイアスに置き換えます。これにより、モデルは、トレーニング中に遭遇したものよりもはるかに長いシーケンスにモデルを効果的に外挿することができます。 以前の単方向実装とは異なり、Jina Embeddings V2は双方向のバリアントを使用して、エンコードタスクとの互換性を確保します。
    • ゲート線形ユニット(GLU):GLUは、変圧器の効率を改善することで知られていますが、フィードフォワードレイヤーで使用されています。 GegluやRegluなどのバリアントは、モデルサイズに基づいてパフォーマンスを最適化するために採用されています。
    • 最適化されたトレーニング:
    • Jina Embeddings v2は3段階のトレーニングプロセスを採用しています:
        事前削除:
      • マスクされた言語モデリング(MLM)を使用して、巨大なクリーンクロールコーパス(c4)で訓練されています。
      • テキストペアを使用した微調整:
      • 意味的に類似したテキストペアの埋め込みを調整します。 ハードネガティブな微調整:
      • 挑戦的なディストラクタの例を組み込むことでランキングと検索を改善します。
      • メモリ効率の高いトレーニング:混合精度トレーニングやアクティベーションチェックポイントなどのテクニックは、より大きなバッチサイズのスケーラビリティを確保します。
      Alibi Atternessは、SoftMax操作の前に各注意スコアに線形バイアスを組み込んでいます。各注意ヘッドは、一意の定数スカラー
    • m
    を使用して、計算を多様化します。 このモデルは、言語モデリングで使用される因果バリアントとは異なり、すべてのトークンが互いに注意を払うエンコーダーバリアントを使用します。

    Jina Embeddings v2: Handling Long Documents Made Easyパフォーマンス評価

    Jina Embeddings v2は、大規模なテキスト埋め込みベンチマーク(MTEB)や新しいロングドキュメントデータセットなど、さまざまなベンチマークで最先端のパフォーマンスを実現します。 重要な結果は次のとおりです

    分類:Amazonの極性や有毒な会話分類などのタスクの最大の精度。

    > Jina Embeddings v2: Handling Long Documents Made Easy

    クラスタリング:

    関連するテキストのグループ化の競合他社(PatentClustering and WikicitiesClustering)を上回る。

      検索:
    • 完全なドキュメントコンテキストが重要な項目qaのようなタスクで優れています。 長いドキュメントの処理:
    • 8192トークンシーケンスでもMLMの精度を維持します。
    • このチャートは、シーケンスの長さがさまざまな検索タスクとクラスタリングタスク全体の埋め込みモデルのパフォーマンスを比較します。

      実世界のアプリケーション

      • 法律および学術研究:法的文書や学術論文の検索と分析に最適です。
      • コンテンツ管理システム:大規模なドキュメントリポジトリの効率的なタグ付け、クラスタリング、および取得。>
      • 生成ai:AI生成された要約とプロンプトベースのモデルを強化します
      • e-commerce:
      • 製品検索および推奨システムを改善します
      • モデルの比較

      Jina Embeddings v2は、長いシーケンスの処理だけでなく、OpenaiのText-dembedding-aad-002などの独自モデルとの競合にも優れています。 そのオープンソースの性質により、アクセシビリティが保証されます

      hugging hugging faceでジナ埋め込みv2を使用してください

      ステップ1:インストール

      ステップ2:変圧器でジナ埋め込みを使用

    !pip install transformers
    !pip install -U sentence-transformers

    output:

    import torch
    from transformers import AutoModel
    from numpy.linalg import norm
    
    cos_sim = lambda a, b: (a @ b.T) / (norm(a) * norm(b))
    
    model = AutoModel.from_pretrained('jinaai/jina-embeddings-v2-base-en', trust_remote_code=True)
    
    embeddings = model.encode(['How is the weather today?', 'What is the current weather like today?'])
    
    print(cos_sim(embeddings, embeddings))

    長いシーケンスの取り扱い:Jina Embeddings v2: Handling Long Documents Made Easy

    ステップ3:Jina Embeddingsを使用して文を変換する(

    embeddings = model.encode(['Very long ... document'], max_length=2048)
    ライブラリを使用した同様のコードが提供されており、設定の指示

    。)。)

    sentence_transformersmax_seq_length結論

    Jina Embeddings v2: Handling Long Documents Made EasyJina Embeddings v2は、NLPの大幅な進歩であり、長いドキュメントの処理の制限に効果的に対処しています。 その機能は、既存のワークフローを改善し、長い形式のテキストを操作するための新しい可能性のロックを解除します。

    キーテイクアウェイ(元の結論からキーポイントを要約)

    よくある質問

    (FAQへの要約された回答)

    注:画像は元の形式と場所で保持されています。

以上がJina Embeddings V2:長いドキュメントの処理が簡単になりましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
外挿の包括的なガイド外挿の包括的なガイドApr 15, 2025 am 11:38 AM

導入 数週間で作物の進行を毎日観察する農民がいるとします。彼は成長率を見て、さらに数週間で彼の植物がどれほど背が高くなるかについて熟考し始めます。 thから

ソフトAIの台頭とそれが今日のビジネスにとって何を意味するかソフトAIの台頭とそれが今日のビジネスにとって何を意味するかApr 15, 2025 am 11:36 AM

ソフトAIは、おおよその推論、パターン認識、柔軟な意思決定を使用して特定の狭いタスクを実行するように設計されたAIシステムとして定義されていますが、曖昧さを受け入れることにより、人間のような思考を模倣しようとします。 しかし、これはBusineにとって何を意味しますか

AIフロンティア向けの進化するセキュリティフレームワークAIフロンティア向けの進化するセキュリティフレームワークApr 15, 2025 am 11:34 AM

答えは明確です。クラウドコンピューティングには、クラウドネイティブセキュリティツールへの移行が必要であるため、AIはAIの独自のニーズに特化した新しい種類のセキュリティソリューションを要求します。 クラウドコンピューティングとセキュリティレッスンの台頭 で

3つの方法生成AIは起業家を増幅します:平均に注意してください!3つの方法生成AIは起業家を増幅します:平均に注意してください!Apr 15, 2025 am 11:33 AM

起業家とAIと生成AIを使用して、ビジネスを改善します。同時に、すべてのテクノロジーと同様に、生成的AIが増幅器であることを覚えておくことが重要です。厳密な2024年の研究o

Andrew Ngによる埋め込みモデルに関する新しいショートコースAndrew Ngによる埋め込みモデルに関する新しいショートコースApr 15, 2025 am 11:32 AM

埋め込みモデルのパワーのロックを解除する:Andrew Ngの新しいコースに深く飛び込む マシンがあなたの質問を完全に正確に理解し、応答する未来を想像してください。 これはサイエンスフィクションではありません。 AIの進歩のおかげで、それはRになりつつあります

大規模な言語モデル(LLMS)の幻覚は避けられませんか?大規模な言語モデル(LLMS)の幻覚は避けられませんか?Apr 15, 2025 am 11:31 AM

大規模な言語モデル(LLM)と幻覚の避けられない問題 ChatGpt、Claude、GeminiなどのAIモデルを使用した可能性があります。 これらはすべて、大規模なテキストデータセットでトレーニングされた大規模な言語モデル(LLMS)、強力なAIシステムの例です。

60%の問題 -  AI検索がトラフィックを排出す​​る方法60%の問題 - AI検索がトラフィックを排出す​​る方法Apr 15, 2025 am 11:28 AM

最近の研究では、AIの概要により、産業と検索の種類に基づいて、オーガニックトラフィックがなんと15〜64%減少する可能性があることが示されています。この根本的な変化により、マーケティング担当者はデジタルの可視性に関する戦略全体を再考することになっています。 新しい

AI R&Dの中心に人間が繁栄するようにするMITメディアラボAI R&Dの中心に人間が繁栄するようにするMITメディアラボApr 15, 2025 am 11:26 AM

Elon UniversityがDigital Future Centerを想像している最近のレポートは、300人近くのグローバルテクノロジーの専門家を調査しました。結果のレポート「2035年に人間である」は、ほとんどがTを超えるAIシステムの採用を深めることを懸念していると結論付けました。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール