jina嵌入式V2:革命性的長期文本嵌入
當前的文本嵌入模型(例如BERT)受到512 token處理限制的限制,從而阻礙了他們的冗長文檔的性能。 這種限制通常會導致背景損失和不准確的理解。 Jina Embeddings V2通過支持8192代幣,保留關鍵環境並顯著提高所處理信息在廣泛文本中的準確性和相關性,從而超過了這一限制。這代表了處理複雜文本數據的重大進步。關鍵學習點
表
嵌入長文檔的挑戰建築創新和培訓方法
性能評估增加的計算需求
更高的內存消耗降低了需要全面了解文本的任務的性能
績效評估
Jina Embeddings V2在各種基準測試中實現最新性能,包括大量的文本嵌入基準(MTEB)和新的長期數據集。 關鍵結果包括:
分類:
亞馬遜極性和有毒對話分類等任務中的最高準確性。
在分組相關文本(PatentClustering和WikicitiesClustering)中優於競爭者。
>現實世界應用程序
Jina Embeddings V2不僅在處理長序列方面,而且在與OpenAI的Text-ex-embedding-dada-002等專有模型競爭中脫穎而出。 它的開源性質可確保可訪問性。
使用jina嵌入式v2與擁抱的臉
步驟1:安裝
>步驟2:使用jina嵌入與變壓器
!pip install transformers !pip install -U sentence-transformers
輸出:
import torch from transformers import AutoModel from numpy.linalg import norm cos_sim = lambda a, b: (a @ b.T) / (norm(a) * norm(b)) model = AutoModel.from_pretrained('jinaai/jina-embeddings-v2-base-en', trust_remote_code=True) embeddings = model.encode(['How is the weather today?', 'What is the current weather like today?']) print(cos_sim(embeddings, embeddings))
處理長序列:
>步驟3:使用jina嵌入與句子轉換器
embeddings = model.encode(['Very long ... document'], max_length=2048)(提供了使用
庫的類似代碼,以及設置的說明。)>
sentence_transformers
max_seq_length
Jina Embeddings V2是NLP的重大進步,有效地解決了處理長文件的局限性。 它的功能改善了現有的工作流,並解鎖了使用長形式文本的新可能性。
鍵外觀(原始結論中總結了關鍵點)>
>常見問題
(匯總了常見問題的答案)注意:圖像以其原始格式和位置保留。
以上是Jina Embeddings V2:處理長文件很容易的詳細內容。更多資訊請關注PHP中文網其他相關文章!