Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  „Social Master“ GPT-4! Wissen, wie man Ausdrücke interpretiert und über Psychologie spekuliert

„Social Master“ GPT-4! Wissen, wie man Ausdrücke interpretiert und über Psychologie spekuliert

WBOY
WBOYnach vorne
2023-07-22 20:29:131347Durchsuche

Stellen Sie sich vor, Sie besuchen eine lebhafte Cocktailparty voller angeregter Gespräche und dem Klirren der Gläser.

Zu diesem Zeitpunkt versteckst du dich als gemütlicher Beobachter glücklich in der Ecke. Doch selbst ohne im Mittelpunkt einer Party zu stehen, können Sie leicht die sozialen Beziehungen zwischen verschiedenen Menschen herausfinden, verstehen, was vor sich geht, und sogar offene und verdeckte soziale Botschaften entschlüsseln, indem Sie die verbalen und nonverbalen Hinweise der Menschen lesen.

Was wäre, wenn ein LLM dieses Niveau an sozialen Fähigkeiten reproduzieren könnte? Nein, das ist Koko Mind.

„Social Master“ GPT-4! Wissen, wie man Ausdrücke interpretiert und über Psychologie spekuliert

Öffnen Sie einfach ein Video und das Modell beginnt, den Gesichtsausdruck der Figur zu analysieren und Rückschlüsse auf die Emotionen der Figur zu ziehen.

Dann können Sie in der Eingabeaufforderungsleiste auf der rechten Seite auch Fragen stellen, damit die KI die Unterströmung der sozialen Rätsel im Video weiter analysieren kann.

(Seien wir ehrlich, das fällt manchen Menschen schwer)

„Social Master“ GPT-4! Wissen, wie man Ausdrücke interpretiert und über Psychologie spekuliertBilder

Koko Mind enthält 150 komplexe soziale Interaktionen mit mehreren Teilnehmern sowie Freitextfragen und -antworten.

Um Datenvielfalt und Skalierbarkeit zu gewährleisten und Datenkontamination zu vermeiden, werden alle sozialen Interaktionen, Fragen und Antworten von GPT-4 generiert und anschließend von menschlichen Experten überprüft.

Die Analysedaten basieren auf drei verschiedenen Quellen:

  • GPT-4-only: Diese Teilmenge wird von GPT-4 nur über Hinweise erstellt.
  • Basierend auf Filmen: Um eine Datenkontamination zu vermeiden, basiert dieser Teil der Daten auf verschiedenen Szenen, die aus Filmen extrahiert wurden, die nach 2022 veröffentlicht wurden. GPT-4 ist für die Gestaltung dieser Szenen verantwortlich, indem es eigene Elemente hinzufügt und gleichzeitig die Kernessenz beibehält.
  • Basierend auf ToMi: Dieser Abschnitt enthält Daten, die auf dem simulierten Datensatz ToMi basieren, bei dem physische Objekte an verschiedene Orte bewegt werden, ein klassischer Test der Theorie des Geistes. Natürlich müssen diese sozialen Interaktionen durch GPT-4 modifiziert und erweitert werden.

Die Anteile der drei Datenquellen sind wie folgt:

„Social Master“ GPT-4! Wissen, wie man Ausdrücke interpretiert und über Psychologie spekuliertBilder

Für jede soziale Interaktion werden Forscher verschiedene Fragen stellen, um die folgenden Aspekte zu untersuchen, die eng mit dem sozialen Verständnis zusammenhängen.

  • Theory of Mind: Fragen, die das Verständnis für die mentalen Zustände und Perspektiven anderer Menschen bewerten.
  • Soziale Normen: Fragen zur Identifizierung sozialer Werte und Normen in einer Situation.
  • Emotionserkennung: Probleme, die darauf abzielen, emotionale Elemente im Kontext zu identifizieren und zu verstehen.
  • Soziale Beziehungen: Konzentrieren Sie sich auf zwischenmenschliche Dynamiken und Beziehungen.
  • Kontrafaktische Fragen: Hypothetische Fragen, die darauf abzielen, alternative Ergebnisse oder Möglichkeiten zu erkunden.
  • Soziale Ratschläge: Fragen, die Ratschläge oder empfohlene Maßnahmen im Zusammenhang mit einer bestimmten Situation vorschlagen.

Die Forscher verwendeten text-davinci-003 als Referenz, um verschiedene Modelle nach AlpacaEval zu bewerten.

In dem die Forscher die nonverbalen Hinweise in den Klammern aus dem Kontext entfernten (z. B. nervös Kaffee trinken usw.).

Hier einige interessante Erkenntnisse:

  • Von den beiden Modellen zeigte GPT-4 im Vergleich zu Claude eine größere Sicherheit und Zuversicht bei der Identifizierung des Gewinnermodells.
  • Claude übertrifft GPT-4, wenn der Kontext keine nonverbalen Hinweise enthält und die Interaktionen entweder vollständig von GPT-4 generiert werden oder auf Filmen basieren.
  • Und wenn der Kontext nonverbale Hinweise enthält, dann ist GPT-4 immer besser als Claude.

(Eine mögliche Erklärung ist, dass GPT-4 ein multimodales Modell ist, das zusätzliche nonverbale Informationen besser verstehen kann.)

In einem Blogbeitrag zeichneten die Forscher Tabellen, die die Leistung deutlich erkennen lassen jedes Modells.

„Social Master“ GPT-4! Wissen, wie man Ausdrücke interpretiert und über Psychologie spekuliertBilder

Die Ergebnisse sind zwar in vielerlei Hinsicht aufregend, haben aber auch gewisse Einschränkungen. Erstens ist Koko Mind relativ klein, was die breite Anwendbarkeit und Vollständigkeit der Schlussfolgerungen der Forscher einschränken könnte.

Zweitens werden alle Interaktionen in Koko Mind von GPT-4 generiert und erfordern eine manuelle Überprüfung, was die Erweiterung des Datensatzes erschwert.

Obwohl Koko Mind im Datensatz von Menschen verifizierte Antworten bereitstellt, haben die Forscher diese Antworten bei der Auswertung nicht als Referenz verwendet, und da diese Antworten von GPT-4 generiert wurden, sind sie möglicherweise in Richtung GPT -4 verzerrt .

Zukünftige Forschung könnte sich darauf konzentrieren, wie Modelle mit vom Menschen validierten, maschinengenerierten Referenzantworten bewertet werden können.

Trotz der Existenz von Einschränkungen der einen oder anderen Art betrachten Forscher Koko Mind natürlich immer noch als Sprungbrett für zukünftige Forschungen im Zusammenhang mit sozialer Intelligenz, multimodalen Sprachmodellen usw.

Das obige ist der detaillierte Inhalt von„Social Master“ GPT-4! Wissen, wie man Ausdrücke interpretiert und über Psychologie spekuliert. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen