recherche
MaisonPériphériques technologiquesIAJina Embeddings V2: Manipulation de longs documents facilite

Jina Embeddings V2: révolutionner l'intégration de texte à long document

Les modèles d'intégration de texte actuels, tels que Bert, sont limités par une limite de traitement de 512-token, entravant leurs performances avec de longs documents. Cette limitation entraîne souvent une perte de contexte et une compréhension inexacte. Jina incorpore V2 dépasse cette restriction en soutenant des séquences jusqu'à 8192 jetons, en préservant un contexte crucial et en améliorant considérablement la précision et la pertinence des informations traitées dans des textes étendus. Cela représente une progression majeure dans la gestion des données textuelles complexes.

Points d'apprentissage clés

  • Comprendre les limites des modèles traditionnels comme Bert lors du traitement des documents longs.
  • Apprendre comment Jina Embeddings V2 surmonte ces limites à travers sa capacité 8192 et son architecture avancée.
  • Exploration des caractéristiques innovantes de Jina Embeddings V2, y compris Alibi, Glu, et sa méthodologie de formation en trois étapes.
  • Découvrir les applications du monde réel dans la recherche juridique, la gestion du contenu et l'IA générative.
  • acquérir une expérience pratique dans l'intégration de Jina Embeddings V2 dans des projets utilisant des bibliothèques de visage étreintes.

Cet article fait partie du blogathon de la science des données.

Table des matières

  • Les défis de l'intégration de documents longs
  • Innovations architecturales et méthodologie de formation
  • Évaluation des performances
  • Applications du monde réel
  • Comparaison du modèle
  • Utilisation de Jina Embeddings V2 avec un visage étreint
  • Conclusion
  • Les questions fréquemment posées

Les défis de l'intégration de documents longs

Traitement Les documents longs présentent des défis importants dans le traitement du langage naturel (NLP). Les méthodes traditionnelles traitent le texte dans les segments, conduisant à une troncature de contexte et à des intégres fragmentés qui dénaturent le document original. Il en résulte:

  • augmentation des demandes de calcul
  • Consommation de mémoire plus élevée
  • Réduction des performances des tâches nécessitant une compréhension complète du texte

Jina Embeddings V2 aborde directement ces problèmes en augmentant la limite de jeton à 8192 , en éliminant le besoin d'une segmentation excessive et en maintenant l'intégrité sémantique du document.

Innovations architecturales et méthodologie de formation

Jina Embeddings V2 améliore les capacités de Bert avec des innovations de pointe:

  • Attention avec les biais linéaires (Alibi): Alibi remplace les intérêts de position traditionnels avec un biais linéaire appliqué aux scores d'attention. Cela permet au modèle d'extrapoler efficacement les séquences beaucoup plus longtemps que celles rencontrées pendant l'entraînement. Contrairement aux implémentations unidirectionnelles précédentes, Jina Embeddings V2 utilise une variante bidirectionnelle, assurant la compatibilité avec les tâches de codage.
  • Unités linéaires fermées (GLU): GLU, connue pour améliorer l'efficacité du transformateur, est utilisée dans les couches à action directe. Des variantes comme Geglu et Reglu sont utilisées pour optimiser les performances en fonction de la taille du modèle.
  • Formation optimisée: Jina Embeddings V2 utilise un processus de formation en trois étapes:
    • pré-entraînement: formé sur le corpus Colossal Clean Crawled (C4) en utilisant la modélisation du langage masqué (MLM).
    • Fonction avec des paires de texte: Aligne des intégres pour des paires de texte sémantiquement similaires.
    • Fonction d'adaptation négative dure: Améliore le classement et la récupération en incorporant des exemples de distracteur difficiles.
    • Formation économe en mémoire: Techniques comme la formation de précision mixte et le point de contrôle d'activation Assurent l'évolutivité des plus grandes tailles de lots, cruciale pour l'apprentissage contrastif.

Jina Embeddings v2: Handling Long Documents Made Easy

L'attention Alibi incorpore un biais linéaire dans chaque score d'attention avant l'opération Softmax. Chaque tête d'attention utilise un scalaire constant unique, m , diversifiant son calcul. Le modèle utilise la variante du codeur où tous les jetons s'occupent les uns des autres, contrairement à la variante causale utilisée dans la modélisation du langage.

Évaluation des performances

Jina Embeddings v2: Handling Long Documents Made Easy

Jina Embeddings V2 atteint des performances de pointe dans diverses références, y compris le texte de référence en texte massif (MTEB) et de nouveaux ensembles de données à long terme. Les résultats clés incluent:

  • Classification: Top précision dans les tâches comme Amazon Polarity et Toxic Conversations Classification.
  • Clustering: surpasse les concurrents dans le regroupement des textes connexes (patentcluster et wikicities Clustering).
  • Retrievale: Excelle dans des tâches comme narrativeqa, où le contexte complet du document est crucial.
  • Gestion des documents longs: maintient la précision MLM même avec des séquences de 8192.

Jina Embeddings v2: Handling Long Documents Made Easy

Ce graphique compare les performances du modèle d'intégration à travers les tâches de récupération et de clustering avec des longueurs de séquences variables.

Applications du monde réel

  • Recherche juridique et académique: Idéal pour la recherche et l'analyse des documents juridiques et des articles académiques.
  • Systèmes de gestion de contenu: Tagging, regroupement et récupération efficaces des grands référentiels de documents.
  • AI génératif: Améliore les résumés générés par l'AI et les modèles basés sur l'invite.
  • e-commerce: Améliore les systèmes de recherche et de recommandation de produits.

Comparaison du modèle

Jina Embeddings V2 excelle non seulement dans la manipulation de longues séquences, mais aussi en rivalisant avec des modèles propriétaires comme le texte-emballage d'Openai-ADA-002. Sa nature open source assure l'accessibilité.

Utilisation de Jina Embeddings V2 avec un visage étreint

Étape 1: Installation

!pip install transformers
!pip install -U sentence-transformers

Étape 2: Utilisation des incorporations de jina avec des transformateurs

import torch
from transformers import AutoModel
from numpy.linalg import norm

cos_sim = lambda a, b: (a @ b.T) / (norm(a) * norm(b))

model = AutoModel.from_pretrained('jinaai/jina-embeddings-v2-base-en', trust_remote_code=True)

embeddings = model.encode(['How is the weather today?', 'What is the current weather like today?'])

print(cos_sim(embeddings, embeddings))

Sortie:

Jina Embeddings v2: Handling Long Documents Made Easy

Gestion des séquences longues:

embeddings = model.encode(['Very long ... document'], max_length=2048)

Étape 3: Utilisation des incorporations de jina avec des transformateurs de phrase

(Code similaire à l'aide de la bibliothèque sentence_transformers est fourni, ainsi que des instructions pour le réglage max_seq_length.)

Jina Embeddings v2: Handling Long Documents Made Easy

Conclusion

Jina Embeddings V2 est une progression significative dans la PNL, abordant efficacement les limites du traitement des documents longs. Ses capacités améliorent les flux de travail existants et débloquent de nouvelles possibilités pour travailler avec du texte long.

Les plats clés à retenir (points clés résumés de la conclusion d'origine)

Questions fréquemment posées (Réponses résumées aux FAQ)

Remarque: Les images sont conservées dans leur format et leur emplacement d'origine.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Les plus utilisés à 10 graphiques BI - Analytics vidhyaLes plus utilisés à 10 graphiques BI - Analytics vidhyaApr 16, 2025 pm 12:05 PM

Exploitation de la puissance de la visualisation des données avec les graphiques Microsoft Power BI Dans le monde actuel axé sur les données, la communication efficace des informations complexes à un public non technique est cruciale. La visualisation des données comble cet écart, transformant les données brutes i

Systèmes experts en IASystèmes experts en IAApr 16, 2025 pm 12:00 PM

Systèmes experts: une plongée profonde dans le pouvoir de prise de décision de l'IA Imaginez avoir accès à des conseils d'experts sur n'importe quoi, des diagnostics médicaux à la planification financière. C'est le pouvoir des systèmes experts en intelligence artificielle. Ces systèmes imitent le pro

Trois des meilleurs codeurs d'ambiance décomposent cette révolution de l'IA dans le codeTrois des meilleurs codeurs d'ambiance décomposent cette révolution de l'IA dans le codeApr 16, 2025 am 11:58 AM

Tout d'abord, il est évident que cela se produit rapidement. Diverses entreprises parlent des proportions de leur code actuellement écrites par l'IA, et elles augmentent à un clip rapide. Il y a déjà beaucoup de déplacement de l'emploi

Gen-4 de la piste AI: Comment Ai Montage peut-il aller au-delà de l'absurditéGen-4 de la piste AI: Comment Ai Montage peut-il aller au-delà de l'absurditéApr 16, 2025 am 11:45 AM

L'industrie cinématographique, aux côtés de tous les secteurs créatifs, du marketing numérique aux médias sociaux, se dresse à un carrefour technologique. Alors que l'intelligence artificielle commence à remodeler tous les aspects de la narration visuelle et à changer le paysage du divertissement

Comment s'inscrire pendant 5 jours ISRO AI Free Courses? - Analytique VidhyaComment s'inscrire pendant 5 jours ISRO AI Free Courses? - Analytique VidhyaApr 16, 2025 am 11:43 AM

Cours en ligne GRATUIT AI / ML d'ISRO: Une passerelle vers l'innovation technologique géospatiale L'Organisation indienne de recherche spatiale (ISRO), par le biais de son Institut indien de télédétection (IIRS), offre une opportunité fantastique aux étudiants et aux professionnels de

Algorithmes de recherche locaux dans l'IAAlgorithmes de recherche locaux dans l'IAApr 16, 2025 am 11:40 AM

Algorithmes de recherche locaux: un guide complet La planification d'un événement à grande échelle nécessite une distribution efficace de la charge de travail. Lorsque les approches traditionnelles échouent, les algorithmes de recherche locaux offrent une solution puissante. Cet article explore l'escalade et le simul

Openai change de mise au point avec GPT-4.1, priorise le codage et la rentabilitéOpenai change de mise au point avec GPT-4.1, priorise le codage et la rentabilitéApr 16, 2025 am 11:37 AM

La version comprend trois modèles distincts, GPT-4.1, GPT-4.1 Mini et GPT-4.1 Nano, signalant une évolution vers des optimisations spécifiques à la tâche dans le paysage du modèle grand langage. Ces modèles ne remplacent pas immédiatement les interfaces orientées utilisateur comme

L'invite: Chatgpt génère de faux passeportsL'invite: Chatgpt génère de faux passeportsApr 16, 2025 am 11:35 AM

Le géant de la puce Nvidia a déclaré lundi qu'il commencerait à fabriquer des superordinateurs d'IA - des machines qui peuvent traiter de grandes quantités de données et exécuter des algorithmes complexes - entièrement aux États-Unis pour la première fois. L'annonce intervient après le président Trump Si

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Commandes de chat et comment les utiliser
1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌

Outils chauds

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Puissant environnement de développement intégré PHP

PhpStorm version Mac

PhpStorm version Mac

Le dernier (2018.2.1) outil de développement intégré PHP professionnel

Listes Sec

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.

DVWA

DVWA

Damn Vulnerable Web App (DVWA) est une application Web PHP/MySQL très vulnérable. Ses principaux objectifs sont d'aider les professionnels de la sécurité à tester leurs compétences et leurs outils dans un environnement juridique, d'aider les développeurs Web à mieux comprendre le processus de sécurisation des applications Web et d'aider les enseignants/étudiants à enseigner/apprendre dans un environnement de classe. Application Web sécurité. L'objectif de DVWA est de mettre en pratique certaines des vulnérabilités Web les plus courantes via une interface simple et directe, avec différents degrés de difficulté. Veuillez noter que ce logiciel

VSCode Windows 64 bits Télécharger

VSCode Windows 64 bits Télécharger

Un éditeur IDE gratuit et puissant lancé par Microsoft