Maison >Périphériques technologiques >IA >Extraction d'informations sans échantillon en parlant à GPT
La tendance actuelle selon laquelle les grands modèles à usage général remplacent les modèles propriétaires personnalisés pour des tâches spécifiques émerge progressivement. Cette approche a considérablement réduit le coût marginal de l'application des modèles d'IA. Cela soulève une question : est-il possible de parvenir à une extraction d'informations sur un échantillon nul sans formation ?
La technologie d'extraction d'informations est un élément important de la création de graphiques de connaissances. Si elle peut être mise en œuvre sans aucune formation, elle abaissera considérablement le seuil d'analyse des données et contribuera à la construction automatisée d'une base de connaissances.
Nous avons construit un système IE général sans tir - GPT4IE (GPT pour Extraction d'Informations) en utilisant une méthode d'ingénierie rapide sur GPT-3.5, et avons découvert que GPT3.5 peut extraire automatiquement la structure des informations de la phrase originale . Prend en charge le chinois et l'anglais, et le code de l'outil est open source.
URL de l'outil : https://cocacola-lab.github.io/GPT4IE/
Code : https://github.com/cocacola-lab/GPT4IE
L'objectif de l'extraction d'informations (IE) est d'extraire des informations structurées à partir d'un texte non structuré, y compris la triple extraction entité-relation (Entity-relation Extract, RE), la reconnaissance d'entité nommée (Named Entity Recognition (NER ) et Extraction d'événements (EE)[1][2][3][4][5]. De nombreuses études ont commencé à s'appuyer sur la technologie IE pour automatiser le travail zéro-shot/quelques-shots, comme l'IE clinique [6].
Récemment, les grands modèles linguistiques pré-entraînés (LLM) ont extrêmement bien fonctionné sur de nombreuses tâches en aval, et peuvent même être réalisés avec seulement quelques exemples comme guide sans réglage fin. À partir de là, nous soulevons une question : Est-il possible de réaliser des tâches IE sans tir via des invites uniquement ? Nous essayons d'utiliser la méthode d'invite pour créer un système IE général à échantillon nul pour GPT-3.5 - GPT4IE (GPT pour l'extraction d'informations) . Combiné avec GPT3.5 et des astuces, il est capable d'extraire automatiquement des informations structurées à partir de phrases originales.
2 -En 3.5, lancez IE. Il existe trois tâches prises en charge : RE, NER et EE, et les trois tâches sont bilingues en chinois et en anglais. L'utilisateur doit saisir une phrase et formuler une liste de types d'extraction (c'est-à-dire une liste de relations, une liste d'entités principales, une liste d'entités de queue, une liste de types d'entités ou une liste d'événements). Les détails sont les suivants :Le but de la tâche RE est d'extraire des triplets du texte, tels que "(Chine, capitale, Pékin)", "("L'amour royal de Ruyi au palais", avec , Zhou Xun)". Le format de saisie requis est le suivant (les éléments avec "*" représentent des champs non obligatoires. Nous avons défini des valeurs par défaut pour ces options, mais pour plus de flexibilité, nous prenons en charge les listes spécifiées définies par l'utilisateur, les mêmes ci-dessous) :
Phrase d'entrée : Texte d'entrée
Phrase de saisie : Texte de saisie
stl : ['organisation ', 'personne', 'emplacement', 'pays']
otl : ['personne', 'emplacement', 'pays', 'organisation', 'ville']
Sortie : . 3.2 RE Exemple II
Entrée :
SENTENCE D'ENTRÉE : "Rugao Biography" est une série télévisée émotionnelle de cour costumée, réalisée par Wang Jun, avec Zhou Xun, Huo Jianhua, Zhang Junning, Dong Jie , Xin Zhilei, Tong Yao, Li Chun, Wu Junmei et d'autres.
rtl: ['Album', 'Date de création', 'Altitude', 'Langue officielle', 'Région', 'Père', 'Chanteur', 'Producteur', 'Réalisateur', 'Capitale' ', 'vedette', 'président', 'ascendance', 'épouse', 'mère', 'climat', 'région', 'protagoniste', 'code postal', 'abréviation', 'entreprise produite', 'enregistré Capitale", "Scénariste", "Fondateur", "École de fin d'études", "Nationalité", "Code professionnel", "Dynastie", "Auteur", "Parolier", "Ville", "Invité", "Emplacement du siège social", "Population", "Porte-parole", "Adapté de", "Principal", "Mari", "Hôte", "Chanson thème", "Années d'études", "Composition", "numéro", "heure de sortie", " box-office', 'acteur', 'doublage', 'primé']
stl : ['pays', 'région administrative', 'œuvres littéraires', 'personnages', 'œuvres cinématographiques et télévisuelles ', 'école', 'livre', 'lieu', 'personnage historique', 'attraction', 'chanson', 'sujet majeur', 'entreprise', 'émission de variétés télévisée', 'institution', 'Entreprise/ Marque', 'Figure de divertissement']
otl: ['Pays', 'Personnage', 'Texte', 'Date', 'Lieu', 'Climat', 'Ville', 'Chanson', ' Entreprise', 'Numéro', 'Album de musique', 'École', 'Travail', 'Langue']Sortie :
3.3 NER Exemple 1
Phrase d'entrée :Bob a travaillé pour Google à Pékin, la capitale de la Chine.
etl : ['LOC', 'MISC', 'ORG', 'PER' ]
Sortie :
3.4 NER Exemple 2
Entrée :
Phrase d'entrée : Au cours des cinq dernières années, sous la direction de la théorie de Deng Xiaoping, le Parti Zhi Gong a suivi la ligne de base de l'étape primaire du socialisme et a travaillé dur pour mettre en œuvre le dixième congrès du Parti Zhi Gong pour faire jouer pleinement les fonctions des partis politiques participants et renforcer sa propre construction.
etl : ['Organisation', 'Emplacement', 'Personnes']
Sortie :
3.5 EE Exemple 1
Entrez :
Phrase d'entrée :Hier, Bob et les siens ont divorcé à Guangzhou.
etl : {'Personnel:Elect' : ['Personne', 'Entité', 'Position', 'Time épouse' , 'Place'], 'Business:Declare-Faillite' : ['Org', 'Time', 'Place'], 'Justice:Arrest-Jail' : ['Person', 'Agent', 'Crime', ' Heure', 'Lieu'], 'Vie:Divorce': ['Personne', 'Heure', 'Lieu'], 'Vie:Blessure': ['Agent', 'Victime', 'Instrument', 'Heure' , 'Place']}
Sortie :
3.6 EE Exemple 2
Entrée :
Entrée envoyée ence : : Lors de la finale de la Coupe du monde au Qatar 2022 , l'Argentine a battu de peu la France aux tirs au but.
etl : {'Comportement organisationnel-Grève' : ['Durée', 'Affiliation', 'Nombre de grévistes', 'Personnel de grève'], 'Comportement de compétition-Promotion' : ['Durée', ' Fête promotionnelle', 'Événement promotionnel'], 'Finance/Trading-Stock limité':['Durée', 'Stock limité'], 'Relations organisationnelles-Licenciement': ['Heure', 'Partie licenciée', 'Personnel licencié ' ']}
Sortie :
3.7 Exemple trois d'EE (un exemple d'erreur intéressant)
Entrée :
Phrase de saisie : : Moi J'ai divorcé de lui aujourd'hui
etl : {'Comportement organisationnel-Grève' : ['Durée', 'Affiliation', 'Nombre de grévistes', 'Personnel de grève'], 'Comportement de compétition-Promotion' : [ ' Heure', 'Partie de promotion', 'Événement de promotion'], 'Finance/Trading-Stock limité' : ['Heure', 'Stock limité'], 'Relations organisationnelles-Licenciement' : ['Heure', 'Partie de licenciement' , 'Personnel licencié']}
Sortie :
De toute évidence, la sortie ci-dessus est fausse, l'etl personnalisé est : {'divorce': ['time', 'person'] }, le résultat est :
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!