Maison >Périphériques technologiques >IA >Jina Embeddings V2: Manipulation de longs documents facilite
Jina Embeddings V2: révolutionner l'intégration de texte à long document
Les modèles d'intégration de texte actuels, tels que Bert, sont limités par une limite de traitement de 512-token, entravant leurs performances avec de longs documents. Cette limitation entraîne souvent une perte de contexte et une compréhension inexacte. Jina incorpore V2 dépasse cette restriction en soutenant des séquences jusqu'à 8192 jetons, en préservant un contexte crucial et en améliorant considérablement la précision et la pertinence des informations traitées dans des textes étendus. Cela représente une progression majeure dans la gestion des données textuelles complexes.
Cet article fait partie du blogathon de la science des données.
Table des matières
Les défis de l'intégration de documents longs
Traitement Les documents longs présentent des défis importants dans le traitement du langage naturel (NLP). Les méthodes traditionnelles traitent le texte dans les segments, conduisant à une troncature de contexte et à des intégres fragmentés qui dénaturent le document original. Il en résulte:
Jina Embeddings V2 aborde directement ces problèmes en augmentant la limite de jeton à 8192 , en éliminant le besoin d'une segmentation excessive et en maintenant l'intégrité sémantique du document.
Innovations architecturales et méthodologie de formation
Jina Embeddings V2 améliore les capacités de Bert avec des innovations de pointe:
L'attention Alibi incorpore un biais linéaire dans chaque score d'attention avant l'opération Softmax. Chaque tête d'attention utilise un scalaire constant unique, m , diversifiant son calcul. Le modèle utilise la variante du codeur où tous les jetons s'occupent les uns des autres, contrairement à la variante causale utilisée dans la modélisation du langage.
Évaluation des performances
Jina Embeddings V2 atteint des performances de pointe dans diverses références, y compris le texte de référence en texte massif (MTEB) et de nouveaux ensembles de données à long terme. Les résultats clés incluent:
Ce graphique compare les performances du modèle d'intégration à travers les tâches de récupération et de clustering avec des longueurs de séquences variables.
Applications du monde réel
Comparaison du modèle
Jina Embeddings V2 excelle non seulement dans la manipulation de longues séquences, mais aussi en rivalisant avec des modèles propriétaires comme le texte-emballage d'Openai-ADA-002. Sa nature open source assure l'accessibilité.
Utilisation de Jina Embeddings V2 avec un visage étreint
Étape 1: Installation
!pip install transformers !pip install -U sentence-transformers
Étape 2: Utilisation des incorporations de jina avec des transformateurs
import torch from transformers import AutoModel from numpy.linalg import norm cos_sim = lambda a, b: (a @ b.T) / (norm(a) * norm(b)) model = AutoModel.from_pretrained('jinaai/jina-embeddings-v2-base-en', trust_remote_code=True) embeddings = model.encode(['How is the weather today?', 'What is the current weather like today?']) print(cos_sim(embeddings, embeddings))
Sortie:
Gestion des séquences longues:
embeddings = model.encode(['Very long ... document'], max_length=2048)
Étape 3: Utilisation des incorporations de jina avec des transformateurs de phrase
(Code similaire à l'aide de la bibliothèque sentence_transformers
est fourni, ainsi que des instructions pour le réglage max_seq_length
.)
Conclusion
Jina Embeddings V2 est une progression significative dans la PNL, abordant efficacement les limites du traitement des documents longs. Ses capacités améliorent les flux de travail existants et débloquent de nouvelles possibilités pour travailler avec du texte long.
Les plats clés à retenir (points clés résumés de la conclusion d'origine)
Questions fréquemment posées (Réponses résumées aux FAQ)
Remarque: Les images sont conservées dans leur format et leur emplacement d'origine.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!