Heim > Artikel > Technologie-Peripheriegeräte > Informationsextraktion ohne Stichprobe durch Kommunikation mit GPT
Der aktuelle Trend, dass universelle große Modelle exklusive, auf bestimmte Aufgaben zugeschnittene Modelle ersetzen, zeichnet sich allmählich ab. Dieser Ansatz hat die Grenzkosten der KI-Modellanwendung erheblich gesenkt. Dies wirft die Frage auf: Ist es möglich, eine Informationsextraktion ohne Stichprobe ohne Schulung zu erreichen?
Die Informationsextraktionstechnologie ist ein wichtiger Bestandteil beim Aufbau eines Wissensgraphen. Wenn sie überhaupt ohne Schulung implementiert werden kann, wird sie die Schwelle von erheblich senken Datenanalyse. Förderlich für die Realisierung einer automatisierten Wissensdatenbankkonstruktion.
Wir bauen ein allgemeines Zero-Sample-IE-System auf, indem wir die Prompt-Engineering-Methode für GPT-3.5 verwenden – GPT4IE (GPT für Informationsextraktion) und stellte fest, dass GPT3.5 automatisch strukturierte Informationen aus Originalsätzen extrahieren kann. Unterstützt sowohl Chinesisch als auch Englisch und der Toolcode ist Open Source.
Tool-URL: https://cocacola-lab.github.io/GPT4IE/ #🎜🎜 #
Code: https://github.com/cocacola-lab/GPT4IE
Das Ziel der Informationsextraktion (IE) besteht darin, strukturierte Informationen aus unstrukturiertem Text zu extrahieren, einschließlich der Dreifachextraktion von Entity-Relations (Entity-Relation Extract (RE), Erkennung benannter Entitäten (NER) und Ereignisextraktion (EE) [1][2][3][4][5]. Viele Studien haben begonnen, sich auf die IE-Technologie zu verlassen, um Zero-Shot-/Wenige-Shot-Arbeiten zu automatisieren, wie zum Beispiel die klinische IE [6].
In letzter Zeit haben vorab trainierte Sprachmodelle (LLMs) in großem Maßstab bei vielen nachgelagerten Aufgaben eine hervorragende Leistung erbracht, selbst wenn die Anleitung nur auf wenige Beispiele beschränkt ist Bedarf an Feinabstimmung. Daraus stellen wir die Frage: Ist es möglich, Zero-Shot-IE-Aufgaben nur über Eingabeaufforderungen zu implementieren? Wir versuchen, die Prompt-Methode zu verwenden, um ein allgemeines Zero-Sample-IE-System für GPT-3.5 zu erstellen – GPT4IE (GPT für Informationsextraktion) . In Kombination mit GPT3.5 und Hinweisen ist es in der Lage, automatisch strukturierte Informationen aus Originalsätzen zu extrahieren. Nr ) in der Vorlage mit der Eingabe des Benutzers, um eine Eingabeaufforderung (Eingabeaufforderung) zu bilden, diese in GPT-3.5 einzugeben und mit dem IE fortzufahren. Es gibt drei unterstützte Aufgaben: RE, NER und EE, und alle drei Aufgaben sind zweisprachig in Chinesisch und Englisch. Der Benutzer muss einen Satz eingeben und eine Liste von Extraktionstypen formulieren (d. h. Beziehungsliste, Kopfentitätsliste, Endentitätsliste, Entitätstypliste oder Ereignisliste). Die Details sind wie folgt:
Eingabesatz: Eingabetext
Liste der Beziehungstypen (rtl)*: ['Relation Typ 1', ' Beziehungstyp 2', ...]
Subjekttypliste (stl)* : ['Kopf-Entitätstyp 1', 'Kopf-Entitätstyp 2', .. .]OpenAI-API-Schlüssel: OpenAI-API key# 🎜🎜#
3.1 RE-Beispiel eins#🎜 ### ### 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#Eingabe:#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#Eingabe Satz🎜🎜#: Bob hat für Google gearbeitet in Peking, der Hauptstadt Chinas. ', 'person-place_lived', 'person-company', 'person-nationality', 'company-founders', 'country-administrative_divisions', 'person-children', 'country-capital ', 'deceased_person-place_of_death', 'neighborhood-neighborhood_of', 'person-place_of_birth']
stl: ['Organisation' , 'Person', 'Standort' , 'Land']
otl: ['Person', 'Standort', 'Land ', 'Organisation', 'Stadt ']
Ausgabe:
#🎜 🎜 ## 🎜🎜 ## 🎜 🎜 ## 🎜🎜#3.2 RE Beispiel 2#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#Eingabe:#🎜🎜 ## 🎜 🎜##🎜 🎜#Eingabesatz: „Ruyis königliche Liebe im Palast“ ist ein emotionales Palastdrama in antiken Kostümen unter der Regie von Wang Jun mit Zhou Xun, Huo Jianhua, Zhang Junning, Dong Jie, Xin Zhilei, Tong Yao, Li Chun, Wu Junmei und andere.
rtl: ['Album', 'Gründungsdatum', 'Höhe', 'Amtssprache', 'Gebiet', „Vater“, „Sänger“, „Produzent“, „Regisseur“, „Hauptstadt“, „Hauptdarsteller“, „Vorsitzender“, „Abstammung“, „Frau“, „Mutter“, „Klima“, „Bereich“, „Protagonist“. ', 'Postleitzahl', 'Abkürzung', 'Produktionsfirma', 'Eingetragenes Kapital', 'Drehbuchautor', 'Gründer', 'Abschlussschule', 'Nationalität', 'Berufscode', 'Dynastie', 'Autor' , „Texter“, „Stadt“, „Gast“, „Standort des Hauptsitzes“, „Bevölkerung“, „Sprecher“, „Adaptiert von“, „Schulleiter“, „Ehemann“, „Gastgeber“, „Titellied“, „ Studienjahre“, „Komposition“, „Anzahl“, „Veröffentlichungszeit“, „Abendkasse“, „Schauspiel“, „Synchronisation“, „Auszeichnung“]
#🎜🎜 #stl: ['Land', 'Verwaltungsregion', 'Literarische Werke', 'Charaktere', 'Film- und Fernsehwerke', 'Schule', 'Buchwerke', 'Ort', „Historische Figur“, „Attraktion“, „Lied“, „Disziplin“, „Unternehmen“, „TV-Varieté-Show“, „Institution“, „Unternehmen/Marke“, „Unterhaltungsfigur“]
otl: ['Land', 'Person', 'Text', 'Datum', 'Ort', 'Klima', 'Stadt', 'Lied' , „Unternehmen“, „Nummer“, „Musikalbum“, „Schule“, „Arbeit“, „Sprache“]Ausgabe: #🎜 #### ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#3.3 Ner Beispiel 1🎜🎜#🎜 🎜#🎜🎜 # 🎜🎜#
Eingabesatz:
Bob arbeitete für Google in Peking, der Hauptstadt Chinas 'PER']#🎜🎜 ## 🎜🎜#Ausgabe:#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#### 🎜🎜 ## 🎜🎜## 3.4 NER Beispiel 2
Eingabe:
Eingabesatz: In den letzten fünf Jahren ist die Zhigong-Partei unter der Führung der Deng-Xiaoping-Theorie der Grundlinie der Primärstufe des Sozialismus gefolgt und hat hart daran gearbeitet, den zehnten Kongress der Zhigong-Partei voll umzusetzen Auf die Funktionen der beteiligten Parteien eingehen und die eigenen Grundaufgaben stärken.
etl: ['Organisation', 'Standort', 'Personen']
Ausgabe:
3.5 EE Beispiel 1
Eintreten:
Eingabesatz:Gestern wurden Bob und seine Frau in Guangzhou geschieden.
etl: {'Personnel:Elect': ['Person', 'Entity', 'Position', 'Time Wife ' , 'Ort'], 'Business:Declare-Insolvency': ['Org', 'Time', 'Place'], 'Justice:Arrest-Jail': ['Person', 'Agent', 'Crime', ' Zeit“, „Ort“], „Leben:Scheidung“: [‚Person‘, ‚Zeit‘, ‚Ort‘], ‚Leben:Verletzen‘: [‘Agent‘, ‚Opfer‘, ‚Instrument‘, ‚Zeit‘ , 'Ort']}
Ausgabe:
3.6 EE-Beispiel 2
Eingabe:
Eingabe Satz: : Beim Finale der Weltmeisterschaft 2022 in Katar Argentinien besiegte Frankreich knapp im Elfmeterschießen.
etl: {'Organisatorisches Verhalten-Streik': ['Zeit', 'Zugehörigkeit', 'Anzahl der Streikenden', 'Streikpersonal'], 'Wettbewerbsverhalten-Förderung': ['Zeit', ' Werbeparty“, „Werbeveranstaltung“], „Finanzen/Handel – begrenzter Lagerbestand“:[‚Zeit‘, ‚Limitierter Lagerbestand‘], ‚Organisationsbeziehungen – Entlassung‘: [‚Zeit‘, ‚Entlassene Partei‘, ‚Entlassenes Personal ' ']}
Ausgabe:
3.7 EE-Beispiel drei (ein interessantes Fehlerbeispiel)
Eingabe:
Eingabesatz:: ich Ich habe mich heute von ihm scheiden lassen. Zeit“, „Promotion Party“, „Promotion Event“], „Finance/Trading-Limited Stock“: [„Time“, „Limit Stock“], „Organizational Relations-Dismissal“: [„Time“, „Dismissal Party“ , 'Entlassenes Personal']}
Ausgabe:
Offensichtlich ist die obige Ausgabe falsch, die benutzerdefinierte ETL lautet: {'Scheidung': ['Zeit', 'Person'] }, Die Ausgabe lautet:
Das obige ist der detaillierte Inhalt vonInformationsextraktion ohne Stichprobe durch Kommunikation mit GPT. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!