Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Informationsextraktion ohne Stichprobe durch Kommunikation mit GPT

Informationsextraktion ohne Stichprobe durch Kommunikation mit GPT

WBOY
WBOYnach vorne
2023-04-13 09:13:021701Durchsuche

Der aktuelle Trend, dass universelle große Modelle exklusive, auf bestimmte Aufgaben zugeschnittene Modelle ersetzen, zeichnet sich allmählich ab. Dieser Ansatz hat die Grenzkosten der KI-Modellanwendung erheblich gesenkt. Dies wirft die Frage auf: Ist es möglich, eine Informationsextraktion ohne Stichprobe ohne Schulung zu erreichen?

Die Informationsextraktionstechnologie ist ein wichtiger Bestandteil beim Aufbau eines Wissensgraphen. Wenn sie überhaupt ohne Schulung implementiert werden kann, wird sie die Schwelle von erheblich senken Datenanalyse. Förderlich für die Realisierung einer automatisierten Wissensdatenbankkonstruktion.

Wir bauen ein allgemeines Zero-Sample-IE-System auf, indem wir die Prompt-Engineering-Methode für GPT-3.5 verwenden – GPT4IE (GPT für Informationsextraktion) und stellte fest, dass GPT3.5 automatisch strukturierte Informationen aus Originalsätzen extrahieren kann. Unterstützt sowohl Chinesisch als auch Englisch und der Toolcode ist Open Source.

Tool-URL: https://cocacola-lab.github.io/GPT4IE/​ #🎜🎜 #

Code: ​https://github.com/cocacola-lab/GPT4IE​

1 Hintergrundeinführung

Das Ziel der Informationsextraktion (IE) besteht darin, strukturierte Informationen aus unstrukturiertem Text zu extrahieren, einschließlich der Dreifachextraktion von Entity-Relations (Entity-Relation Extract (RE), Erkennung benannter Entitäten (NER) und Ereignisextraktion (EE) [1][2][3][4][5]. Viele Studien haben begonnen, sich auf die IE-Technologie zu verlassen, um Zero-Shot-/Wenige-Shot-Arbeiten zu automatisieren, wie zum Beispiel die klinische IE [6].

In letzter Zeit haben vorab trainierte Sprachmodelle (LLMs) in großem Maßstab bei vielen nachgelagerten Aufgaben eine hervorragende Leistung erbracht, selbst wenn die Anleitung nur auf wenige Beispiele beschränkt ist Bedarf an Feinabstimmung. Daraus stellen wir die Frage: Ist es möglich, Zero-Shot-IE-Aufgaben nur über Eingabeaufforderungen zu implementieren? Wir versuchen, die Prompt-Methode zu verwenden, um ein allgemeines Zero-Sample-IE-System für GPT-3.5 zu erstellen – GPT4IE (GPT für Informationsextraktion) . In Kombination mit GPT3.5 und Hinweisen ist es in der Lage, automatisch strukturierte Informationen aus Originalsätzen zu extrahieren. Nr ) in der Vorlage mit der Eingabe des Benutzers, um eine Eingabeaufforderung (Eingabeaufforderung) zu bilden, diese in GPT-3.5 einzugeben und mit dem IE fortzufahren. Es gibt drei unterstützte Aufgaben: RE, NER und EE, und alle drei Aufgaben sind zweisprachig in Chinesisch und Englisch. Der Benutzer muss einen Satz eingeben und eine Liste von Extraktionstypen formulieren (d. h. Beziehungsliste, Kopfentitätsliste, Endentitätsliste, Entitätstypliste oder Ereignisliste). Die Details sind wie folgt:

Das Ziel der RE-Aufgabe besteht darin, Tripel aus Text zu extrahieren, wie zum Beispiel „(China, Hauptstadt, Beijing)“, „(„Ruyis königliche Liebe im Palast“, mit Zhou Xun in der Hauptrolle)“. Das erforderliche Eingabeformat ist wie folgt (die Elemente mit „*“ stellen nicht erforderliche Felder dar. Wir haben Standardwerte für diese Optionen festgelegt, unterstützen aber aus Flexibilitätsgründen benutzerdefinierte Listen, siehe unten): #🎜 🎜##🎜🎜 #

Eingabesatz: Eingabetext

Liste der Beziehungstypen (rtl)*: ['Relation Typ 1', ' Beziehungstyp 2', ...]

Subjekttypliste (stl)* : ['Kopf-Entitätstyp 1', 'Kopf-Entitätstyp 2', .. .]
  • Objekttypliste (otl)* : ['Tail-Entity-Typ 1', 'Tail-Entity-Typ 2', ...]
  • # 🎜🎜#
  • OpenAI-API-Schlüssel: OpenAI-API-Schlüssel (Wir stellen einige der verfügbaren Schlüssel in Github zum Beispiel zur Verfügung.)
  • #🎜 🎜#NER task
  • zielt darauf ab, Entitäten aus Text zu extrahieren, wie zum Beispiel „(LOC, Beijing)“, „(Character, Zhou Enlai)“. Bei der NER-Aufgabe lautet das Eingabeformat wie folgt:
  • Eingabesatz: Eingabetext
  • # 🎜🎜# Liste der Entitätstypen (etl)*: ['Entitätstyp 1', 'Entitätstyp 2', ...]

OpenAI-API-Schlüssel: OpenAI-API key# 🎜🎜#

  • EETask wurde entwickelt, um Ereignisse aus Klartext zu extrahieren, wie zum Beispiel „{Life-Divorce: {Person: Bob, Zeit: heute, Ort: Amerika}}“, „{Wettbewerbsaktion-Promotion: {Zeit: Keine, Promotion-Party: Northwest Wolves, Promotion-Event: Kampf um die Spitze der chinesischen League One}}“. Das Eingabeformat ist wie folgt:
    • Eingabesatz: Eingabetext
    • Ereignistypliste (etl)* : {'Ereignistyp 1': [' Argumentrolle 1', 'Argumentrolle 2', ...], ...}
    • OpenAI-API-Schlüssel: OpenAI-API-Schlüssel #🎜🎜 #

    3 Werkzeugverwendungsbeispiel

    3.1 RE-Beispiel eins#🎜 ### ### 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#Eingabe:#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#Eingabe Satz🎜🎜#: Bob hat für Google gearbeitet in Peking, der Hauptstadt Chinas. ', 'person-place_lived', 'person-company', 'person-nationality', 'company-founders', 'country-administrative_divisions', 'person-children', 'country-capital ', 'deceased_person-place_of_death', 'neighborhood-neighborhood_of', 'person-place_of_birth']

    stl: ['Organisation' , 'Person', 'Standort' , 'Land']

    otl: ['Person', 'Standort', 'Land ', 'Organisation', 'Stadt ']

    Ausgabe:

    #🎜 🎜 ## 🎜🎜 ## 🎜 🎜 ## 🎜🎜#3.2 RE Beispiel 2#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#Eingabe:#🎜🎜 ## 🎜 🎜##🎜 🎜#Eingabesatz: „Ruyis königliche Liebe im Palast“ ist ein emotionales Palastdrama in antiken Kostümen unter der Regie von Wang Jun mit Zhou Xun, Huo Jianhua, Zhang Junning, Dong Jie, Xin Zhilei, Tong Yao, Li Chun, Wu Junmei und andere.

    rtl: ['Album', 'Gründungsdatum', 'Höhe', 'Amtssprache', 'Gebiet', „Vater“, „Sänger“, „Produzent“, „Regisseur“, „Hauptstadt“, „Hauptdarsteller“, „Vorsitzender“, „Abstammung“, „Frau“, „Mutter“, „Klima“, „Bereich“, „Protagonist“. ', 'Postleitzahl', 'Abkürzung', 'Produktionsfirma', 'Eingetragenes Kapital', 'Drehbuchautor', 'Gründer', 'Abschlussschule', 'Nationalität', 'Berufscode', 'Dynastie', 'Autor' , „Texter“, „Stadt“, „Gast“, „Standort des Hauptsitzes“, „Bevölkerung“, „Sprecher“, „Adaptiert von“, „Schulleiter“, „Ehemann“, „Gastgeber“, „Titellied“, „ Studienjahre“, „Komposition“, „Anzahl“, „Veröffentlichungszeit“, „Abendkasse“, „Schauspiel“, „Synchronisation“, „Auszeichnung“]

    #🎜🎜 #stl: ['Land', 'Verwaltungsregion', 'Literarische Werke', 'Charaktere', 'Film- und Fernsehwerke', 'Schule', 'Buchwerke', 'Ort', „Historische Figur“, „Attraktion“, „Lied“, „Disziplin“, „Unternehmen“, „TV-Varieté-Show“, „Institution“, „Unternehmen/Marke“, „Unterhaltungsfigur“]

    Informationsextraktion ohne Stichprobe durch Kommunikation mit GPT

    otl: ['Land', 'Person', 'Text', 'Datum', 'Ort', 'Klima', 'Stadt', 'Lied' , „Unternehmen“, „Nummer“, „Musikalbum“, „Schule“, „Arbeit“, „Sprache“]Ausgabe: #🎜 #### ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#3.3 Ner Beispiel 1🎜🎜#🎜 🎜#🎜🎜 # 🎜🎜#

    Eingabesatz:

    Bob arbeitete für Google in Peking, der Hauptstadt Chinas 'PER']

    #🎜🎜 ## 🎜🎜#Ausgabe:#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#### 🎜🎜 ## 🎜🎜## 3.4 NER Beispiel 2

    Eingabe:

    Eingabesatz: In den letzten fünf Jahren ist die Zhigong-Partei unter der Führung der Deng-Xiaoping-Theorie der Grundlinie der Primärstufe des Sozialismus gefolgt und hat hart daran gearbeitet, den zehnten Kongress der Zhigong-Partei voll umzusetzen Auf die Funktionen der beteiligten Parteien eingehen und die eigenen Grundaufgaben stärken.

    etl: ['Organisation', 'Standort', 'Personen']

    Ausgabe:

    Informationsextraktion ohne Stichprobe durch Kommunikation mit GPT

    3.5 EE Beispiel 1

    Eintreten:

    Eingabesatz:Gestern wurden Bob und seine Frau in Guangzhou geschieden.

    etl: {'Personnel:Elect': ['Person', 'Entity', 'Position', 'Time Wife ' , 'Ort'], 'Business:Declare-Insolvency': ['Org', 'Time', 'Place'], 'Justice:Arrest-Jail': ['Person', 'Agent', 'Crime', ' Zeit“, „Ort“], „Leben:Scheidung“: [‚Person‘, ‚Zeit‘, ‚Ort‘], ‚Leben:Verletzen‘: [‘Agent‘, ‚Opfer‘, ‚Instrument‘, ‚Zeit‘ , 'Ort']}

    Ausgabe:

    Informationsextraktion ohne Stichprobe durch Kommunikation mit GPT

    3.6 EE-Beispiel 2

    Eingabe:

    Eingabe Satz: : Beim Finale der Weltmeisterschaft 2022 in Katar Argentinien besiegte Frankreich knapp im Elfmeterschießen.

    etl: {'Organisatorisches Verhalten-Streik': ['Zeit', 'Zugehörigkeit', 'Anzahl der Streikenden', 'Streikpersonal'], 'Wettbewerbsverhalten-Förderung': ['Zeit', ' Werbeparty“, „Werbeveranstaltung“], „Finanzen/Handel – begrenzter Lagerbestand“:[‚Zeit‘, ‚Limitierter Lagerbestand‘], ‚Organisationsbeziehungen – Entlassung‘: [‚Zeit‘, ‚Entlassene Partei‘, ‚Entlassenes Personal ' ']}

    Ausgabe:

    Informationsextraktion ohne Stichprobe durch Kommunikation mit GPT

    3.7 EE-Beispiel drei (ein interessantes Fehlerbeispiel)

    Eingabe:

    Eingabesatz:: ich Ich habe mich heute von ihm scheiden lassen. Zeit“, „Promotion Party“, „Promotion Event“], „Finance/Trading-Limited Stock“: [„Time“, „Limit Stock“], „Organizational Relations-Dismissal“: [„Time“, „Dismissal Party“ , 'Entlassenes Personal']}

    Ausgabe:

    Offensichtlich ist die obige Ausgabe falsch, die benutzerdefinierte ETL lautet: {'Scheidung': ['Zeit', 'Person'] }, Die Ausgabe lautet:

    Informationsextraktion ohne Stichprobe durch Kommunikation mit GPT

Das obige ist der detaillierte Inhalt vonInformationsextraktion ohne Stichprobe durch Kommunikation mit GPT. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen