Maison >Périphériques technologiques >IA >Testez des modèles de personnalité/dépression/cognitifs avec de grands modèles ! Mesurer les traits psychologiques grâce au développement de l'intrigue du jeu

Testez des modèles de personnalité/dépression/cognitifs avec de grands modèles ! Mesurer les traits psychologiques grâce au développement de l'intrigue du jeu

王林avant: 2024-03-13 14:07:111255parcourir

La psychométrie joue un rôle important dans la santé mentale, la compréhension de soi et le développement personnel.

Les méthodes psychométriques traditionnelles reposent principalement sur le fait que les participants remplissent des questionnaires d'auto-évaluation, qui sont mesurés en rappelant les comportements et les émotions de la vie quotidienne.

Bien que ce type de méthode de mesure soit efficace et pratique, elle peut provoquer une résistance parmi les participants et réduire leur volonté de se faire tester.

Avec le développement de grands modèles de langage(LLM), de nombreuses études ont montré que le LLM peut présenter des traits de personnalité stables, imiter des émotions humaines subtiles et des modèles cognitifs, et peut également aider diverses expériences de simulation en sciences sociales. Il fournit de nouvelles idées de recherche. pour de nombreux domaines de recherche en psychologie tels que la psychologie pédagogique, la psychologie sociale, la psychologie culturelle, la psychologie clinique et le conseil psychologique.

Récemment, une équipe de recherche de l'Université Tsinghua a proposé un paradigme psychométrique innovant basé sur un système multi-agents basé sur un grand modèle de langage.

Testez des modèles de personnalité/dépression/cognitifs avec de grands modèles ! Mesurer les traits psychologiques grâce au développement de lintrigue du jeu

Différent des questionnaires d'auto-évaluation traditionnels, cette étude personnalise et génère un jeu narratif interactif pour chaque participant, et les utilisateurs peuvent personnaliser le type et le thème du jeu.

Au fur et à mesure que l'intrigue du jeu se développe, les participants doivent faire différents choix en fonction de diverses intrigues du point de vue de la première personne, affectant ainsi la progression de l'intrigue. En étudiant les choix des participants à des moments clés du jeu, leurs caractéristiques psychologiques peuvent être évaluées.

△Comparaison du paradigme psychométrique des questionnaires d'auto-évaluation (à gauche) et du paradigme psychométrique des jeux narratifs interactifs (à droite)

L'apport de cette étude se reflète principalement sous trois aspects :

Proposition d'un nouveau Le paradigme de mesure psychologique transforme les questionnaires traditionnels en mesures interactives basées sur le jeu ; en garantissant la fiabilité et la validité de la mesure psychologique, il améliore le sentiment d'immersion des participants et améliore l'expérience d'être testé.
Afin de réaliser la mesure de la gamification, cette étude propose un cadre d'interaction multi-agents basé sur un grand modèle de langage, nommé PsychoGAT (Psychological Game Agents), qui assure la généralisation de scénarios de tests psychologiques, avec des mesures robustesse dans différents paramètres de jeu.
Grâce à une évaluation par simulation automatisée et à une évaluation en personne réelle, sur des tâches telles que le test de personnalité MBTI, la mesure de la dépression PHQ-9, le test du piège de la pensée cognitive, etc., cette étude a montré des résultats significatifs en termes d'indicateurs statistiques psychométriques et d'indicateurs d'expérience utilisateur.

Ensuite, jetons un coup d’œil aux détails de l’étude.

À quoi ressemble PsychoGAT ?

△ Diagramme schématique du framework PsychoGAT

Processus d'interaction avec l'agent :

À partir d'un questionnaire de test psychologique traditionnel, les participants personnalisent le type et le thème du jeu, puis le concepteur du jeu (Game Designer) l'agent donne une vue d'ensemble aperçu de la conception du jeu.

Ensuite, l'agent de l'administrateur du jeu (Contrôleur de jeu) génère une intrigue de jeu spécifique. Au cours de ce processus, l'agent du commentateur (Critique) effectue plusieurs cycles de révision et d'optimisation du contenu généré par l'administrateur ; terminé L'intrigue finale du jeu sera présentée aux participants. Une fois que les participants auront fait les choix correspondants, l'administrateur favorisera le développement de l'intrigue sur la base de ce choix, en suivant ce cycle de processus interactif.

Description détaillée des fonctions de chaque agent :

Game Designer(Game Designer) : Utilisez la technologie CoT pour générer les grandes lignes du jeu narratif à la première personne et assurez-vous que les scénarios inclus dans cette histoire peut permettre la participation La personne présente le trait psychologique actuellement mesuré.

Dans le même temps, le questionnaire d'auto-évaluation psychologique standard est adapté en fonction du scénario actuel du jeu, rendant l'intégration des deux plus naturelle et fluide.

Game Controller(Game Controller) : Le questionnaire adapté sera instancié séquentiellement en fonction du scénario du jeu, le transformant en nœuds d'intrigue de l'histoire et offrant des options possibles aux participants.

Dans le même temps, l'administrateur du jeu renvoie les choix des participants à l'environnement de jeu et contrôle la direction de l'intrigue du jeu en fonction des choix des participants. Afin d'assurer la continuité de l'intrigue du jeu, l'agent administrateur adopte un mécanisme de « mise à jour de la mémoire ».

Commentateur (Critique) : Destiné à réviser et à optimiser le contenu généré par les administrateurs de jeux.

Cible principalement les trois problèmes suivants :

1) Optimisation de la cohérence : Au fur et à mesure que l'intrigue du jeu progresse, le problème des textes longs deviendra plus grave, rendant le mécanisme de « mise à jour de la mémoire » incapable de garantir pleinement la cohérence de l'intrigue.

2) Assurer l'impartialité : Les choix des participants affecteront le développement de l'intrigue du jeu, mais avant que les participants ne fassent un choix, l'administrateur ne doit pas prédéfinir la direction de l'intrigue, même si les participants ont reflété les choix précédents, une tendance évidente .

3) Correction des éléments manquants : effectuez un examen détaillé de l'intrigue du jeu générée par l'administrateur pour vérifier si elle offre une immersion de base dans le jeu.

Expériences et résultats

△ Comparaison de trois paradigmes de mesure psychologique courants : les questionnaires traditionnels, les entretiens avec un psychologue et l'évaluation gamifiée proposée dans cette étude.

Ce qui est mentionné ici, ce sont toutes les mesures automatisées basées sur l'IA. En particulier, les entretiens avec des psychologues font référence au paradigme actuel de l'entretien qui est combiné avec de grands modèles de langage et dans lequel de grands modèles de langage jouent le rôle de psychologues.

Dans la phase expérimentale, les chercheurs ont choisi trois tâches de mesure psychologique courantes : l'extraversion dans le test de personnalité MBTI, la détection de la dépression PHQ-9 et la détection des distorsions cognitives au stade précoce de la thérapie CBT.

Tout d'abord, les chercheurs l'ont comparé à des questionnaires psychologiques traditionnels matures pour tester la fiabilité psychométrique et la validité de l'étude. En outre, il est comparé à trois autres méthodes de mesure automatisées pour examiner l'expérience utilisateur de différentes méthodes de mesure.

Les chercheurs ont d'abord utilisé GPT-4 pour simuler le sujet et ont enregistré le processus de mesure et les résultats de mesure à l'aide de différentes méthodes de mesure. Ces enregistrements de mesures ont été utilisés pour calculer des indicateurs psychométriques ultérieurs de fiabilité et de validité, ainsi que des indicateurs d'expérience utilisateur.

Il existe deux indicateurs d'évaluation : les indicateurs de fiabilité et de validité et les indicateurs d'expérience utilisateur.

Indice de fiabilité et de validité : En psychométrie, pour évaluer si un outil de mesure est scientifique, il est généralement vérifié à partir de deux dimensions : la fiabilité(fiabilité) et la validité(validité).

Dans cette étude, deux grandeurs statistiques ont été sélectionnées pour mesurer la cohérence interne comme indicateurs de fiabilité : l'Alpha de Cronbach et le coefficient Pearson de Guttman ont été utilisés comme indicateur de validité pour mesurer respectivement la validité convergente) et la validité discriminante ( validité discriminante) .

Indicateurs d'expérience utilisateur, les indicateurs évalués manuellement comprennent :

1) Cohérence (Cohérence, CH) : Si la logique du contenu est cohérente
2) Interactivité (Interactivité, IA) : S'il y a ; une réponse appropriée et impartiale au choix de l'utilisateur ;
3) Intérêt (Intérêt, INT) : Si le processus de mesure est intéressant
4) Immersion (Immersion, IM) : Si le processus de mesure immerge les participants Remplacer ;
5) Satisfaction (Satisfaction, ST) : Satisfaction du processus global de mesure.

Voici les résultats expérimentaux.

Tout d'abord, les chercheurs ont testé si le PsychoGAT proposé dans cette étude pouvait être utilisé comme outil de mesure psychologique qualifié. Les résultats sont présentés dans le tableau ci-dessous.

△Résultats des tests de fiabilité et de validité de PsychoGAT (+réussite, ++bon, +++excellent)

En outre, les chercheurs ont comparé l'expérience utilisateur de différents paradigmes psychométriques et le jeu proposé dans cette étude L'évaluation est nettement meilleure que les autres méthodes en termes d'interactivité, de plaisir et d'immersion :

△Les résultats de l'expérience utilisateur de PsychoGAT et les résultats correspondants d'autres méthodes de comparaison

Afin de garantir la validité de l'évaluation manuelle, la recherche The Le personnel a calculé les résultats de l'évaluation manuelle et a constaté que la cohérence de l'évaluation des indicateurs de PsychoGAT est meilleure que celle des autres méthodes :

△L'indice d'expérience utilisateur de PsychoGAT est dû à la cohérence de la méthode de comparaison dans l'évaluation manuelle

Afin d'améliorer encore PsychoGAT Analysis, les chercheurs ont d'abord testé la fiabilité et la validité de la mesure de la gamification dans différents scénarios de jeu, ce qui est très robuste :

△La robustesse de PsychoGAT dans la mesure de la fiabilité et de la validité dans différents scénarios de jeu

Ensuite, le rôle de chaque agent dans PsychoGAT a été exploré :

△Le rôle des différents agents dans PsychoGAT

Enfin, dans Afin de présenter visuellement le contenu généré par le jeu de PsychoGAT, les chercheurs ont utilisé des nuages de mots pour visualiser le test d'extraversion et le test de dépression :

△Visualisation de la génération de scènes de jeu de la mesure d'extraversion et de la dépression de PsychoGAT.

Le contenu du test d'extraversion se concentre principalement sur les situations sociales, tandis que le test de dépression se concentre sur la pensée et les émotions personnelles.

Pour plus de détails sur la recherche, veuillez vous référer à l'article original.

Lien papier :https://www.php.cn/link/4bcd537b6c034e297f0030cf08887426

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

int 循环 Lambda https 自动化 gpt

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Explorer l'impact de la science des données sur la robotiqueArticle suivant：Explorer l'impact de la science des données sur la robotique

Articles Liés

Voir plus