Maison >Périphériques technologiques >IA >'Maître social' GPT-4 ! Savoir interpréter les expressions et spéculer sur la psychologie

'Maître social' GPT-4 ! Savoir interpréter les expressions et spéculer sur la psychologie

WBOY
WBOYavant
2023-07-22 20:29:131410parcourir

Imaginez que vous assistez à un cocktail animé rempli de conversations animées et de bruits de verres qui tintent.

En ce moment, vous êtes un observateur tranquille, vous cachant joyeusement dans un coin. Pourtant, même sans être au centre d'une fête, vous pouvez facilement comprendre les relations sociales entre différentes personnes, comprendre ce qui se passe et même déchiffrer les messages sociaux manifestes et cachés en lisant les signaux verbaux et non verbaux des gens.

Et si un LLM pouvait reproduire ce niveau de compétences sociales ? Non, c'est ce qu'est Koko Mind.

Maître social GPT-4 ! Savoir interpréter les expressions et spéculer sur la psychologie

Ouvrez simplement une vidéo et le modèle commencera à analyser l'expression du personnage et à tirer des conclusions sur l'émotion du personnage.

Ensuite, vous pouvez également poser des questions dans la barre d'invite à droite pour laisser l'IA analyser plus en détail le courant sous-jacent des énigmes sociales dans la vidéo.

(Soyons honnêtes, c'est difficile pour certaines personnes)

Maître social GPT-4 ! Savoir interpréter les expressions et spéculer sur la psychologiePhotos

Koko Mind contient 150 interactions sociales multipartites complexes et des questions et réponses en texte libre.

Pour garantir la diversité et l'évolutivité des données et éviter la contamination des données, toutes les interactions sociales, questions et réponses sont générées par GPT-4 et ensuite vérifiées par des experts humains.

Les données d'analyse sont basées sur trois sources différentes :

  • GPT-4 uniquement : ce sous-ensemble est créé par GPT-4 uniquement via des astuces.
  • Basé sur des films : Pour éviter la contamination des données, cette partie des données est basée sur diverses scènes extraites de films sortis après 2022. GPT-4 est chargé de façonner ces scènes, en ajoutant ses propres éléments tout en conservant l'essence fondamentale.
  • Basé sur ToMi : Cette section contient des données alimentées par l'ensemble de données simulé ToMi, qui consiste à déplacer des objets physiques vers différents endroits, un test classique de la théorie de l'esprit. Bien entendu, ces interactions sociales doivent être modifiées et élargies par GPT-4.

Les proportions des trois sources de données sont les suivantes :

Maître social GPT-4 ! Savoir interpréter les expressions et spéculer sur la psychologiePhotos

Pour chaque interaction sociale, les chercheurs poseront diverses questions pour explorer les aspects suivants étroitement liés à la compréhension sociale.

  • Théorie de l'esprit : questions qui évaluent la compréhension des états mentaux et des perspectives des autres.
  • Normes sociales : Questions conçues pour identifier les valeurs et les normes sociales dans une situation.
  • Reconnaissance des émotions : Problèmes visant à identifier et à comprendre les éléments émotionnels en contexte.
  • Relations sociales : Focus sur la dynamique et les relations interpersonnelles.
  • Questions contrefactuelles : requêtes hypothétiques conçues pour explorer des résultats ou des possibilités alternatives.
  • Conseils sociaux : questions qui suggèrent des conseils ou des actions recommandées liées à une situation spécifique.

Les chercheurs ont utilisé text-davinci-003 comme référence pour évaluer différents modèles après AlpacaEval.

Dans lequel les chercheurs ont supprimé les indices non verbaux entre parenthèses du contexte (par exemple boire nerveusement du café, etc.).

Voici quelques points à retenir intéressants :

  • Parmi les deux modèles, GPT-4 a fait preuve d'une plus grande certitude et d'une plus grande confiance dans l'identification du modèle gagnant par rapport à Claude.
  • Claude surpasse GPT-4 lorsque le contexte n'a pas d'indices non verbaux et que les interactions sont soit entièrement générées par GPT-4, soit basées sur des films.
  • Et si le contexte contient des indices non verbaux, alors GPT-4 est toujours meilleur que Claude.

(Une explication possible est que GPT-4 est un modèle multimodal qui peut mieux comprendre des informations non verbales supplémentaires.)

Dans un article de blog, les chercheurs ont dessiné des tableaux permettant de voir clairement les performances. de chaque modèle.

Maître social GPT-4 ! Savoir interpréter les expressions et spéculer sur la psychologiePhotos

Les résultats, bien qu'excitants à bien des égards, présentent également certaines limites. Premièrement, Koko Mind est relativement petit, ce qui peut limiter la large applicabilité et l'exhaustivité des conclusions des chercheurs.

Deuxièmement, toutes les interactions dans Koko Mind sont générées par GPT-4 et nécessitent une vérification manuelle, ce qui rend l'ensemble de données difficile à étendre.

De plus, bien que Koko Mind fournisse des réponses vérifiées par des humains dans l'ensemble de données, les chercheurs n'ont pas utilisé ces réponses comme référence lors de l'évaluation, et comme ces réponses ont été générées par GPT-4, elles peuvent être biaisées en faveur de GPT-4. .

Les recherches futures pourraient se concentrer sur la manière d'évaluer des modèles avec des réponses de référence générées par des machines et validées par l'homme.

Bien sûr, malgré les limites d'une sorte ou d'une autre, les chercheurs considèrent toujours Koko Mind comme un tremplin pour de futures recherches liées à l'intelligence sociale, aux modèles de langage multimodaux, etc.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer