Heim > Artikel > Technologie-Peripheriegeräte > Wie reibungslos ist die Leistung von GPT-4? Kann menschliches Schreiben übertroffen werden?
Die Zusammenfassungsgenerierung ist eine Aufgabe der Natural Language Generation (NLG), deren Hauptzweck darin besteht, lange Texte in kurze Zusammenfassungen zu komprimieren. Es kann auf eine Vielzahl von Inhalten angewendet werden, wie zum Beispiel Nachrichtenartikel, Quellcode und sprachübergreifende Texte.
Mit dem Aufkommen großer Modelle (LLM) gibt es keine herkömmlichen Methoden zur Feinabstimmung bestimmter Datensätze nicht mehr anwendbar.
Wir kommen nicht umhin zu fragen: Wie effektiv ist LLM bei der Erstellung von Zusammenfassungen?
Um diese Frage zu beantworten, führten Forscher der Peking-Universität eine ausführliche Diskussion im Artikel „Summarization is (Almost) Dead“ durch. Sie bewerteten die Leistung von LLM bei verschiedenen Zusammenfassungsaufgaben (einzelne Nachrichten, mehrere Nachrichten, Konversationen, Quellcode und sprachübergreifende Zusammenfassung) anhand von von Menschen erstellten Bewertungsdatensätzen. Nach quantitativen und qualitativen Vergleichen wurden von LLM erstellte Zusammenfassungen erstellt Beim Vergleich der vom fein abgestimmten Modell generierten Zusammenfassungen mit den vom fein abgestimmten Modell generierten Zusammenfassungen wurde festgestellt, dass die von LLM generierten Zusammenfassungen von menschlichen Bewertern deutlich bevorzugt wurden
Nach dem Vergleich von 100 in ACL, EMNLP und NAACL veröffentlichten Artikeln und COLING in den letzten 3 Jahren mit Nach der Stichprobe und Prüfung von Arbeiten im Zusammenhang mit Zusammenfassungsmethoden stellten die Forscher fest, dass der Hauptbeitrag von etwa 70 % der Arbeiten darin bestand, eine zusammenfassende Zusammenfassungsmethode vorzuschlagen und deren Wirksamkeit anhand eines Standarddatensatzes zu überprüfen. Daher heißt es in der Studie, dass „die Zusammenfassung (fast) tot ist“
Trotzdem sagten die Forscher, dass das Feld immer noch mit einigen Herausforderungen konfrontiert sei, etwa dem Bedarf an Referenzdatensätzen höherer Qualität und einer verbesserten Auswertung müssen gelöst werden Der Datensatz besteht aus 50 Proben.
Bei der Durchführung von Einzelnachrichten-, Mehrfachnachrichten- und Konversationszusammenfassungsaufgaben haben wir für die Simulation Methoden verwendet, die den CNN/DailyMail- und Multi-News-Datensatzkonstruktionsmethoden ähneln. Für die sprachübergreifende Zusammenfassungsaufgabe verwenden wir dieselbe Strategie wie die von Zhu et al. vorgeschlagene. Was die Codezusammenfassungsaufgabe betrifft, ist die von Bahrami et al. vorgeschlagene Methode
Nachdem der Datensatz erstellt wurde, ist der nächste Schritt die Methode. Insbesondere werden in diesem Artikel BART und T5 für einzelne Nachrichtenaufgaben verwendet; T5 und BART für sprachübergreifende Aufgaben;
In diesem Experiment wurden in der Studie menschliche Gutachter eingesetzt, um die Gesamtqualität verschiedener Abstracts zu vergleichen. Den Ergebnissen in Abbildung 1 zufolge übertreffen LLM-generierte Zusammenfassungen bei allen Aufgaben von Menschen erstellte Zusammenfassungen und von fein abgestimmten Modellen generierte Zusammenfassungen. Dies wirft die Frage auf: Warum ist LLM in der Lage, von Menschen erstellte Zusammenfassungen zu übertreffen? traditionell als makellos angesehen. Darüber hinaus deuten vorläufige Beobachtungen darauf hin, dass LLM-generierte Zusammenfassungen sehr glatt und kohärent sind
Tabelle 2 zeigt den Anteil von Halluzinationen in von Menschen verfassten Zusammenfassungen und GPT-4-generierten Zusammenfassungen.
In diesem Artikel wurde außerdem festgestellt, dass es bei von Menschen verfassten Referenzzusammenfassungen an mangelnder Flüssigkeit mangelt. Wie in Abbildung 2 (a) dargestellt, weisen von Menschen verfasste Referenzzusammenfassungen manchmal unvollständige Informationen auf. Und in Abbildung 2(b) zeigen einige von Menschen verfasste Referenzzusammenfassungen Halluzinationen.
Diese Studie ergab auch, dass die von fein abgestimmten Modellen generierten Zusammenfassungen normalerweise eine feste und strenge Länge haben, während LLM in der Lage ist, die Ausgabelänge basierend auf Eingabeinformationen anzupassen. Wenn die Eingabe außerdem mehrere Themen enthält, decken die vom fein abgestimmten Modell generierten Zusammenfassungen die Themen nur unzureichend ab, wie in Abbildung 3 dargestellt, während das LLM bei der Erstellung von Zusammenfassungen alle Themen erfassen kann
Gemäß Abbildung 4 zeigen die Ergebnisse, dass der menschliche Präferenzwert für große Modelle 50 % übersteigt, was zeigt, dass Menschen eine starke Präferenz für deren Zusammenfassung haben und die Fähigkeit von LLM bei der Textzusammenfassung hervorhebt
Das obige ist der detaillierte Inhalt vonWie reibungslos ist die Leistung von GPT-4? Kann menschliches Schreiben übertroffen werden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!