Maison > Article > Périphériques technologiques > Aucune annotation manuelle requise ! LLM prend en charge l'apprentissage par intégration de texte : prend facilement en charge 100 langues et s'adapte à des centaines de milliers de tâches en aval.
L'intégration de texte (incorporation de mots) est une technologie de base dans le domaine du traitement du langage naturel (NLP). Elle peut mapper le texte dans l'espace sémantique et le convertir en représentation vectorielle dense. Cette méthode a été largement utilisée dans diverses tâches de PNL, notamment la recherche d'informations (RI), la réponse aux questions, le calcul de similarité de texte et les systèmes de recommandation. Grâce à l'intégration de texte, nous pouvons mieux comprendre la signification et la relation du texte, améliorant ainsi l'efficacité des tâches de PNL.
Dans le domaine de la recherche d'informations (RI), la première étape de la récupération utilise généralement des intégrations de texte pour le calcul de similarité. Il fonctionne en rappelant un petit ensemble de documents candidats dans un corpus à grande échelle, puis effectue des calculs fins. La récupération basée sur l'intégration est également un élément important de la génération augmentée par récupération (RAG). Il permet aux grands modèles de langage (LLM) d'accéder à des connaissances externes dynamiques sans modifier les paramètres du modèle. De cette manière, le système IR peut mieux utiliser les incorporations de texte et les connaissances externes pour améliorer les résultats de récupération.
Bien que les premières méthodes d'apprentissage intégrant du texte telles que word2vec et GloVe soient largement utilisées, leurs caractéristiques statiques limitent la capacité de capturer des informations contextuelles riches en langage naturel. Cependant, avec l'essor des modèles de langage pré-entraînés, certaines nouvelles méthodes telles que Sentence-BERT et SimCSE ont réalisé des progrès significatifs sur les ensembles de données d'inférence en langage naturel (NLI) en affinant BERT pour apprendre l'intégration de texte. Ces méthodes exploitent les capacités contextuelles de BERT pour mieux comprendre la sémantique et le contexte du texte, améliorant ainsi la qualité et l'expressivité des intégrations de texte. Grâce à la combinaison de pré-formation et de réglage fin, ces méthodes sont capables d'apprendre des informations sémantiques plus riches à partir de corpus à grande échelle pour le traitement du langage naturel
Pour améliorer les performances et la robustesse de l'intégration de texte, des méthodes avancées telles que E5 et BGE Multi -une formation par étapes a été utilisée. Ils sont d’abord pré-entraînés sur des milliards de paires de textes faiblement supervisés puis affinés sur plusieurs jeux de données annotés. Cette stratégie peut améliorer efficacement les performances de l’intégration de texte.
Les méthodes multi-étapes existantes présentent encore deux défauts :
1 La construction d'un pipeline de formation complexe en plusieurs étapes nécessite beaucoup de travail d'ingénierie pour gérer un grand nombre de paires de corrélation.
2. Le réglage fin repose sur des ensembles de données collectés manuellement, qui sont souvent limités par la diversité des tâches et la couverture linguistique.
La plupart des méthodes utilisent des encodeurs de style BERT et ignorent les progrès de la formation d'un meilleur LLM et des techniques associées.
L'équipe de recherche de Microsoft a récemment proposé une méthode de formation à l'intégration de texte simple et efficace pour surmonter certaines des lacunes des méthodes précédentes. Cette approche ne nécessite pas de conceptions de pipeline complexes ni d'ensembles de données construits manuellement, mais exploite LLM pour synthétiser diverses données textuelles. Grâce à cette approche, ils ont pu générer des intégrations de texte de haute qualité pour des centaines de milliers de tâches d'intégration de texte dans près de 100 langues, tandis que l'ensemble du processus de formation a nécessité moins de 1 000 étapes.
Lien papier : https://arxiv.org/abs/2401.00368
Plus précisément, les chercheurs ont utilisé une stratégie d'incitation en deux étapes, en incitant d'abord le groupe de tâches des candidats au brainstorming LLM, puis l'invite LLM génère des données pour une tâche donnée à partir du pool.
Afin de couvrir différents scénarios d'application, les chercheurs ont conçu plusieurs modèles d'invite pour chaque type de tâche et ont combiné les données générées par différents modèles pour accroître la diversité.
Les résultats expérimentaux prouvent que lors du réglage fin « uniquement des données synthétiques », Mistral-7B atteint des performances très compétitives sur les benchmarks BEIR et MTEB lorsque le réglage fin des données synthétiques et annotées est ajouté, atteignez les performances sota ;
L'utilisation de grands modèles de langage (LLM) de pointe tels que GPT-4 pour synthétiser des données attire de plus en plus d'attention. , qui peut améliorer le modèle en termes de diversité de capacités multitâches et multilingues, qui peut ensuite former des intégrations de texte plus robustes qui fonctionnent bien dans diverses tâches en aval (telles que la récupération sémantique, le calcul de similarité de texte, le clustering).
Pour générer diverses données synthétiques, les chercheurs ont proposé une taxonomie simple qui classe d'abord les tâches d'intégration, puis utilise différents modèles d'invite pour chaque type de tâche.
Tâches asymétriques
Comprend les tâches où la requête et le document sont sémantiquement liés mais ne se paraphrasent pas.
En fonction de la longueur de la requête et du document, les chercheurs ont divisé les tâches asymétriques en quatre sous-catégories : la correspondance courte-longue (requête courte et document long, un scénario typique dans les moteurs de recherche commerciaux), la correspondance longue-courte, court - Match court et match long-long.
Pour chaque sous-catégorie, les chercheurs ont conçu un modèle d'invite en deux étapes, invitant d'abord LLM à réfléchir à une liste de tâches, puis générant un exemple spécifique des conditions définies par la tâche, le résultat de GPT-4 était pour l'essentiel cohérent ; La qualité est très élevée.
Dans des expériences préliminaires, les chercheurs ont également essayé d'utiliser une seule invite pour générer des paires de définitions de tâches et de documents d'interrogation, mais la diversité des données n'était pas aussi bonne que la méthode en deux étapes mentionnée ci-dessus.
Les tâches de symétrie
incluent principalement des requêtes et des documents avec une sémantique similaire mais des formes de surface différentes.
Deux scénarios d'application sont étudiés dans cet article : la similarité de texte sémantique monolingue (STS) et la récupération bi-texte, et deux modèles d'invite différents sont conçus pour chaque scénario, personnalisés en fonction de leurs objectifs spécifiques depuis la définition de la tâche. est relativement simple, l’étape de brainstorming peut être omise.
Afin d'augmenter encore la diversité des mots d'invite et d'améliorer la diversité des données synthétiques, les chercheurs ont ajouté plusieurs espaces réservés à chaque tableau d'invite et les ont échantillonnés de manière aléatoire au moment de l'exécution. Par exemple, "{query_length}" représente Sampled from. l'ensemble "{moins de 5 mots, 5-10 mots, au moins 10 mots}".
Afin de générer des données multilingues, les chercheurs ont échantillonné la valeur de « {langue} » dans la liste des langues de XLM-R, en accordant plus de poids aux langues à hautes ressources ; le format sera ignoré lors de l'analyse ; les doublons sont également supprimés en fonction de la correspondance exacte des chaînes.
Étant donné une paire requête-document associée, utilisez d'abord la requête d'origine q+ pour générer une nouvelle instruction q_inst, où "{task_definition}" est un espace réservé pour intégrer une description en une phrase du symbole de tâche.
Pour les données synthétiques générées, le résultat de l'étape de brainstorming est utilisé ; pour d'autres ensembles de données, tels que MS-MARCO, les chercheurs créent manuellement des définitions de tâches et les appliquent à toutes les requêtes de l'ensemble de données sans modifier les fichiers. N'importe quel préfixe de commande à la fin.
De cette façon, l'index du document est pré-construit et les tâches à effectuer peuvent être personnalisées en modifiant uniquement le côté requête.
À partir d'un LLM pré-entraîné, ajoutez un jeton [EOS] à la fin de la requête et du document, puis introduisez-le dans le LLM pour obtenir les intégrations de requête et de document en obtenant le vecteur [EOS] de la dernière couche.
Utilisez ensuite la perte InfoNCE standard pour calculer la perte des négatifs intra-lot et des négatifs durs.
où ℕ représente l'ensemble de tous les négatifs, est utilisé pour calculer le score de correspondance entre la requête et le document, t est un hyperparamètre de température, fixé à 0,02 dans l'expérience
Les chercheurs ont utilisé le service Azure OpenAI pour générer 500 000 échantillons, contenant 150 000 instructions uniques, dont 25 % ont été générées par GPT-3.5-Turbo et le reste par GPT-4. , qui a consommé un total de 180 millions de jetons.
La langue principale est l'anglais, couvrant un total de 93 langues ; pour 75 langues à faibles ressources, il y a en moyenne environ 1 000 échantillons par langue.
En termes de qualité des données, les chercheurs ont constaté qu'une partie des résultats de GPT-3.5-Turbo ne suivait pas strictement les directives spécifiées dans le modèle d'invite, mais malgré cela, la qualité globale était toujours acceptable, et préliminaire les expériences ont également prouvé que l'utilisation de cela présente les avantages d'un sous-ensemble de données.
Ajustement et évaluation du modèle
Les chercheurs ont utilisé la perte ci-dessus pour affiner le Mistral-7B pré-entraîné pendant 1 époque, ont suivi la méthode d'entraînement de RankLLaMA et ont utilisé LoRA avec le rang 16. .
Pour réduire davantage les besoins en mémoire GPU, des technologies telles que les points de contrôle de gradient, l'entraînement de précision mixte et DeepSpeed ZeRO-3 sont utilisées.
En termes de données de formation, des données synthétiques générées et 13 ensembles de données publics ont été utilisés, ce qui a donné environ 1,8 million d'exemples après échantillonnage.
Pour une comparaison équitable avec certains travaux antérieurs, les chercheurs rapportent également les résultats lorsque la seule supervision des annotations est l'ensemble de données de classement des chapitres MS-MARCO, et évaluent également le modèle sur le benchmark MTEB.
Comme vous pouvez le voir dans le tableau ci-dessous, le modèle "E5mistral-7B + données complètes" obtenu dans l'article a obtenu la note moyenne la plus élevée dans le benchmark MTEB, soit 2,4 de plus que le précédent point du modèle le plus avancé.
Dans le paramètre "avec données synthétiques uniquement", aucune donnée annotée n'est utilisée pour l'entraînement, mais les performances sont toujours très compétitives.
Les chercheurs ont également comparé plusieurs modèles commerciaux d'intégration de texte, mais le manque de transparence et de documentation de ces modèles a empêché une comparaison équitable.
Cependant, il ressort des résultats de comparaison des performances de récupération sur le benchmark BEIR que le modèle formé est dans une large mesure supérieur au modèle commercial actuel.
Récupération multilingue
Pour évaluer les capacités multilingues du modèle, les chercheurs ont mené une évaluation sur l'ensemble de données MIRACL, qui contient des requêtes annotées par l'homme et des jugements de pertinence en 18 langues.
Les résultats montrent que le modèle surpasse mE5-large dans les langues à ressources élevées, notamment en anglais, et que ses performances sont meilleures. Cependant, pour les langues à faibles ressources, le modèle n'est toujours pas idéal par rapport à mE5-base.
Les chercheurs attribuent cela au fait que Mistral-7B a été pré-entraîné principalement sur des données anglaises, une méthode que les modèles prédictifs multilingues peuvent utiliser pour combler cette lacune.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!