ホームページ >テクノロジー周辺機器 >AI >大型モデルを使用して性格/うつ病/認知モデルをテストします。ゲームのプロット開発を通じて心理的特性を測定する

大型モデルを使用して性格/うつ病/認知モデルをテストします。ゲームのプロット開発を通じて心理的特性を測定する

王林
王林転載
2024-03-13 14:07:111233ブラウズ

心理測定は、メンタルヘルス、自己理解、個人の成長において重要な役割を果たします。

従来の心理測定法は、主に参加者が自己報告アンケートに記入することに依存しており、日常生活での行動や感情を思い出すことで測定されます。

このような測定方法は効率的で便利ですが、参加者間の抵抗を誘発し、測定への意欲を低下させる可能性があります。

大規模な言語モデル (LLM)の開発により、LLMは安定した性格特性を示し、人間の微妙な感情や認知パターンを模倣し、さまざまな社会的言語モデルを支援できることが多くの研究でわかっています。科学シミュレーション実験は、教育心理学、社会心理学、文化心理学、臨床心理学、心理カウンセリングなどの多くの心理学研究分野に新しい研究アイデアを提供します。

最近、清華大学の研究チームは、大規模な言語モデルに基づくマルチエージェント システムに基づく革新的な 心理測定パラダイムを提案しました。

大型モデルを使用して性格/うつ病/認知モデルをテストします。ゲームのプロット開発を通じて心理的特性を測定する

従来の自己報告アンケートとは異なり、この研究では、各参加者 、ユーザー向けにカスタマイズされたインタラクティブな物語型のゲームが生成されます。 ゲームの種類とテーマをカスタマイズできます

ゲームのプロットが展開するにつれて、参加者は一人称視点でさまざまなプロットに基づいてさまざまな選択をする必要があり、それによってプロットの進行に影響を与えます。ゲームの重要な瞬間における参加者の選択を研究することで、彼らの心理的特徴を評価することができます。

大型モデルを使用して性格/うつ病/認知モデルをテストします。ゲームのプロット開発を通じて心理的特性を測定する

△自己申告アンケートの心理測定パラダイム(左)と対話型物語ゲームの心理測定パラダイム(右)の比較

この研究の貢献主に 3 つの側面に反映されています:

  • は、新しい心理測定パラダイムを提案し、従来のアンケートをゲームベースのインタラクティブな測定に変換します。心理測定の信頼性と妥当性を確保することに基づいて、参加者の感覚を高めます。没入感を高め、テスト体験を向上させます。
  • ゲーミフィケーションの測定を実現するために、この研究では、PsychoGAT (心理学) という名前の大規模言語モデルに基づくマルチエージェント インタラクション フレームワークを提案します。 Game AgentTs) により、心理テストのシナリオの一般化と、さまざまなゲーム設定下での測定の堅牢性が保証されます。
  • この研究では、自動化されたシミュレーション評価と実際の人物による評価を通じて、MBTI 性格テスト、PHQ-9 うつ病測定、認知的思考トラップ テストなどのタスクに関する心理統計的指標とユーザー エクスペリエンス指標の両方を達成しました。 。

次に、研究の詳細を見てみましょう。

PsychoGAT とはどのようなものですか?

大型モデルを使用して性格/うつ病/認知モデルをテストします。ゲームのプロット開発を通じて心理的特性を測定する

△PsychoGAT フレームワーク図

エージェント対話プロセス:

従来の心理テストのアンケートを基に、参加者はゲームの種類とテーマをカスタマイズし、その後、ゲーム デザイナー エージェントが全体的なゲーム デザインの概要を説明します。

次に、ゲーム コントローラー

(ゲーム コントローラー) エージェントが特定のゲーム プロットを生成し、その過程で批評家 (批評家) エージェントが管理者にコメントします。生成されたコンテンツは複数回のレビューと最適化を受けます。最適化されたゲーム プロットが参加者に表示されます。参加者が対応する選択を行った後、管理者はこの対話型プロセス サイクルに従って、この選択に基づいてプロットの開発を促進します。

各エージェントの機能の詳細:

  • ゲーム デザイナー(ゲーム デザイナー): CoT テクノロジーを使用して、最初に人物の物語 ゲームの概要と、現在測定されている心理的特性を参加者が示すことを可能にする状況がストーリーラインに含まれていることを確認します。
同時に、標準的な心理的自己報告アンケートが現在のゲームのストーリーラインに合わせて調整され、2 つの統合がより自然かつスムーズになります。

  • ゲーム コントローラー(ゲーム コントローラー): 適応されたアンケートは、ゲームのストーリー ラインに従って順番にインスタンス化され、ノードをプロットし、参加者が選択できるオプションを提供します。
同時に、ゲーム管理者は参加者の選択をゲーム環境に戻し、参加者の選択に基づいてゲームのストーリーの傾向を制御します。ゲーム プロットの継続性を実現するために、管理者エージェントは「メモリ更新」メカニズムを採用します。

  • コメンテーター (批評家): ゲーム管理者によって生成されたコンテンツをレビューし、最適化することを目的としています。

主に次の 3 つの問題を対象としています。

1) 一貫性の最適化 : ゲームのプロットが進むにつれて、長いテキストの問題がより深刻になり、 「メモリ更新」メカニズムも、プロットの一貫性を完全に保証することはできません。

2)公平性を確保する: 参加者の選択はゲームのプロットの展開に影響しますが、参加者が選択する前に、管理者は、たとえ参加者が選択したとしても、プロットの方向性を事前に設定すべきではありません。以前の選択において明確な好みを示しました。

3)不足項目の修正: 管理者が作成したゲーム プロットを詳細にレビューし、基本的なゲームへの没入感があるかどうかを確認します。

実験と結果

大型モデルを使用して性格/うつ病/認知モデルをテストします。ゲームのプロット開発を通じて心理的特性を測定する

△3 つの一般的な心理測定パラダイムの比較: 従来のアンケート、心理学者へのインタビュー、およびこの研究で提案されたゲーミフィケーションの評価。

ここで言及されているのはすべて AI に基づく自動測定です。特に心理学者の面接は、大規模な言語モデルと組み合わせられ、大規模な言語モデルが心理学者の役割を果たす現在の面接パラダイムを指します。 . .

実験段階で研究者らは、MBTI 性格検査における外向性、PHQ-9 うつ病の検出、CBT 療法の初期段階での認知の歪みの検出という 3 つの一般的な心理測定タスクを選択しました。

まず、研究者らは、研究の心理測定の信頼性と妥当性をテストするために、それを成熟した伝統的な心理アンケートと比較しました。さらに、他の 3 つの自動測定方法と比較して、さまざまな測定方法のユーザー エクスペリエンスを調査します。

研究者らはまず GPT-4 を使用して被験者をシミュレーションし、さまざまな測定方法を使用して測定プロセスと測定結果を記録しました。これらの測定記録は、その後の心理測定の信頼性および妥当性指標、およびユーザー エクスペリエンス指標を計算するために使用されました。

評価指標には、信頼性・妥当性指標とユーザーエクスペリエンス指標の2つがあります。

  • 信頼性と妥当性の指標: 心理測定学では、測定ツールが科学的であるかどうかを評価するために、一般に信頼性(信頼性)と妥当性#に基づきます。 ##(妥当性)2 次元で検証します。
この研究では、信頼性の指標として内部一貫性を測定するために、クロンバックのアルファとグットマンのラムダ 6 という 2 つの統計量が選択され、ピアソン係数がそれぞれ集約を測定するための妥当性の指標として使用されました。 ## (収束妥当性)

と判別妥当性 (判別妥当性)

    ユーザーエクスペリエンス指標
  • 、手動で評価される指標には以下が含まれます:
  • 1) 一貫性
(コヒーレンス、スイス)

:コンテンツのロジックが一貫している; 2) インタラクティブ性 (インタラクティブ性、IA)
: ユーザーの選択に対して適切かつ公平な応答があるかどうか; 3) 関心 (関心、INT)
: 測定プロセスが興味深いかどうか; 4) 没入感 (没入、IM)
: 測定プロセスによって参加者が没頭できるかどうか; 5) 満足度 (満足度) 、ST)
: プロセスに対する満足度の全体的な測定。 以下は実験結果です。

まず、本研究で提案したPsychoGATが適格な心理測定ツールとして利用できるかどうかを検証した結果を下表に示します。

△PsychoGAT の信頼性と妥当性テストの結果 (合格、良好、優れた)大型モデルを使用して性格/うつ病/認知モデルをテストします。ゲームのプロット開発を通じて心理的特性を測定する
さらに研究者は、ユーザーのさまざまな心理測定を比​​較しました。このパラダイムの経験を踏まえると、この研究で提案されたゲーム化された評価は、インタラクティブ性、楽しさ、没入感の点で他の方法よりも大幅に優れています:

△PsychoGAT のユーザー エクスペリエンスの結果は、次のようになります。他の比較方法の対応する結果と同様に大型モデルを使用して性格/うつ病/認知モデルをテストします。ゲームのプロット開発を通じて心理的特性を測定する
手動評価の有効性を確保するために、研究者は手動評価結果を計算し、PsychoGATの各指標における評価の一貫性は他の方法より優れています:

△PsychoGAT のユーザー エクスペリエンス指標は、手動評価における比較方法の一貫性によるものです。大型モデルを使用して性格/うつ病/認知モデルをテストします。ゲームのプロット開発を通じて心理的特性を測定する
PsychoGAT をさらに分析するために、研究者はまずさまざまなゲーム シナリオを調査しました。ゲーミフィケーション測定の状況、信頼性、妥当性は非常に堅牢です:
大型モデルを使用して性格/うつ病/認知モデルをテストします。ゲームのプロット開発を通じて心理的特性を測定する

△さまざまなゲーム シナリオにおける信頼性と妥当性を測定する PsychoGAT の堅牢性

次に、PsychoGAT における各エージェントの役割について検討しました。

大型モデルを使用して性格/うつ病/認知モデルをテストします。ゲームのプロット開発を通じて心理的特性を測定する

△PsychoGAT におけるさまざまなエージェントの役割

最後に、PsychoGAT のゲーム生成コンテンツを視覚的に提示するために、研究者たちはワード クラウドを使用して外向性テストとうつ病を視覚化しました。テスト:

大型モデルを使用して性格/うつ病/認知モデルをテストします。ゲームのプロット開発を通じて心理的特性を測定する

#△PsychoGAT は、外向測定と抑うつ測定のためのゲーム シナリオの視覚化を生成します。

外向性テストの内容は主に社会的状況に焦点を当てているのに対し、うつ病テストは個人の思考や感情に焦点を当てています。

研究の詳細については、元の論文を参照してください。

紙のリンク: https://www.php.cn/link/4bcd537b6c034e297f0030cf08887426

以上が大型モデルを使用して性格/うつ病/認知モデルをテストします。ゲームのプロット開発を通じて心理的特性を測定するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。