ホームページ > 記事 > テクノロジー周辺機器 > 大型モデルを使用して性格/うつ病/認知モデルをテストします。ゲームのプロット開発を通じて心理的特性を測定する
心理測定は、メンタルヘルス、自己理解、個人の成長において重要な役割を果たします。
従来の心理測定法は、主に参加者が自己報告アンケートに記入することに依存しており、日常生活での行動や感情を思い出すことで測定されます。
このような測定方法は効率的で便利ですが、参加者間の抵抗を誘発し、測定への意欲を低下させる可能性があります。
大規模な言語モデル (LLM)の開発により、LLMは安定した性格特性を示し、人間の微妙な感情や認知パターンを模倣し、さまざまな社会的言語モデルを支援できることが多くの研究でわかっています。科学シミュレーション実験は、教育心理学、社会心理学、文化心理学、臨床心理学、心理カウンセリングなどの多くの心理学研究分野に新しい研究アイデアを提供します。
最近、清華大学の研究チームは、大規模な言語モデルに基づくマルチエージェント システムに基づく革新的な 心理測定パラダイムを提案しました。
従来の自己報告アンケートとは異なり、この研究では、各参加者 、ユーザー向けにカスタマイズされたインタラクティブな物語型のゲームが生成されます。 ゲームの種類とテーマをカスタマイズできます。
ゲームのプロットが展開するにつれて、参加者は一人称視点でさまざまなプロットに基づいてさまざまな選択をする必要があり、それによってプロットの進行に影響を与えます。ゲームの重要な瞬間における参加者の選択を研究することで、彼らの心理的特徴を評価することができます。
△自己申告アンケートの心理測定パラダイム(左)と対話型物語ゲームの心理測定パラダイム(右)の比較
この研究の貢献主に 3 つの側面に反映されています:
次に、研究の詳細を見てみましょう。
△PsychoGAT フレームワーク図
エージェント対話プロセス:
従来の心理テストのアンケートを基に、参加者はゲームの種類とテーマをカスタマイズし、その後、ゲーム デザイナー エージェントが全体的なゲーム デザインの概要を説明します。
次に、ゲーム コントローラー(ゲーム コントローラー) エージェントが特定のゲーム プロットを生成し、その過程で批評家 (批評家) エージェントが管理者にコメントします。生成されたコンテンツは複数回のレビューと最適化を受けます。最適化されたゲーム プロットが参加者に表示されます。参加者が対応する選択を行った後、管理者はこの対話型プロセス サイクルに従って、この選択に基づいてプロットの開発を促進します。
各エージェントの機能の詳細:主に次の 3 つの問題を対象としています。
1) 一貫性の最適化 : ゲームのプロットが進むにつれて、長いテキストの問題がより深刻になり、 「メモリ更新」メカニズムも、プロットの一貫性を完全に保証することはできません。
2)公平性を確保する: 参加者の選択はゲームのプロットの展開に影響しますが、参加者が選択する前に、管理者は、たとえ参加者が選択したとしても、プロットの方向性を事前に設定すべきではありません。以前の選択において明確な好みを示しました。
3)不足項目の修正: 管理者が作成したゲーム プロットを詳細にレビューし、基本的なゲームへの没入感があるかどうかを確認します。
△3 つの一般的な心理測定パラダイムの比較: 従来のアンケート、心理学者へのインタビュー、およびこの研究で提案されたゲーミフィケーションの評価。
ここで言及されているのはすべて AI に基づく自動測定です。特に心理学者の面接は、大規模な言語モデルと組み合わせられ、大規模な言語モデルが心理学者の役割を果たす現在の面接パラダイムを指します。 . .
実験段階で研究者らは、MBTI 性格検査における外向性、PHQ-9 うつ病の検出、CBT 療法の初期段階での認知の歪みの検出という 3 つの一般的な心理測定タスクを選択しました。
まず、研究者らは、研究の心理測定の信頼性と妥当性をテストするために、それを成熟した伝統的な心理アンケートと比較しました。さらに、他の 3 つの自動測定方法と比較して、さまざまな測定方法のユーザー エクスペリエンスを調査します。
研究者らはまず GPT-4 を使用して被験者をシミュレーションし、さまざまな測定方法を使用して測定プロセスと測定結果を記録しました。これらの測定記録は、その後の心理測定の信頼性および妥当性指標、およびユーザー エクスペリエンス指標を計算するために使用されました。
評価指標には、信頼性・妥当性指標とユーザーエクスペリエンス指標の2つがあります。
と判別妥当性 (判別妥当性) 。
:コンテンツのロジックが一貫している; 2) インタラクティブ性 (インタラクティブ性、IA)
: ユーザーの選択に対して適切かつ公平な応答があるかどうか; 3) 関心 (関心、INT)
: 測定プロセスが興味深いかどうか; 4) 没入感 (没入、IM)
: 測定プロセスによって参加者が没頭できるかどうか; 5) 満足度 (満足度) 、ST)
: プロセスに対する満足度の全体的な測定。 以下は実験結果です。
まず、本研究で提案したPsychoGATが適格な心理測定ツールとして利用できるかどうかを検証した結果を下表に示します。
△さまざまなゲーム シナリオにおける信頼性と妥当性を測定する PsychoGAT の堅牢性
次に、PsychoGAT における各エージェントの役割について検討しました。
△PsychoGAT におけるさまざまなエージェントの役割
最後に、PsychoGAT のゲーム生成コンテンツを視覚的に提示するために、研究者たちはワード クラウドを使用して外向性テストとうつ病を視覚化しました。テスト:
#△PsychoGAT は、外向測定と抑うつ測定のためのゲーム シナリオの視覚化を生成します。
外向性テストの内容は主に社会的状況に焦点を当てているのに対し、うつ病テストは個人の思考や感情に焦点を当てています。
研究の詳細については、元の論文を参照してください。
紙のリンク: https://www.php.cn/link/4bcd537b6c034e297f0030cf08887426
以上が大型モデルを使用して性格/うつ病/認知モデルをテストします。ゲームのプロット開発を通じて心理的特性を測定するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。