搜尋
首頁科技週邊人工智慧用大模型測試人格/憂鬱/認知模式!透過遊戲劇情發展測量心理特質

心理測量在精神健康、自我了解、和個人發展方面都扮演著重要的角色。

傳統的心理測量方法主要依賴參與者填寫自我報告問卷,透過回想日常生活中的行為和情緒來進行測量。

這樣的測量方式雖然有效率且便捷,但可能引發參與者的抗拒心理,降低被測意願。

隨著大語言模型(LLM)的發展,許多研究發現LLM能夠展現出穩定的人格特質,模仿人類細微的情緒與認知模式,還能輔助各種各樣的社會科學模擬實驗,為教育心理學、社會心理學、文化心理學、臨床心理學、心理諮商等諸多心理學研究領域,提供了新的研究思維。

近日,清華大學的研究團隊基於大語言模式的多智能體系統,提出一種創新性的心理測量範式

用大模型測試人格/憂鬱/認知模式!透過遊戲劇情發展測量心理特質

與傳統自我報告問卷不同的是,該研究為每位參與者客製化產生一個可互動的敘事類型遊戲,使用者可自訂遊戲的類型與主題

隨著遊戲劇情的發展,參與者需要以第一人稱視角,根據各種情節做出不同的選擇,從而影響劇情的進展。透過研究參與者在遊戲關鍵時刻的選擇,可以評估他們的心理特徵。

用大模型測試人格/憂鬱/認知模式!透過遊戲劇情發展測量心理特質

△自我報告問卷的心理測量範式(左)與互動敘事類遊戲的心理測量範式(右)對比

該研究的貢獻主要體現在三個方面:

  • 提出一種新的心理測量範式,將傳統問卷轉換成基於遊戲的互動測量;在保證心理測量信度和效度的基礎上,提升參與者的沉浸感,改善被測體驗。
  • 為了實現遊戲化的測量,研究提出一個基於大語言模型的多智能體互動框架,名為PsychoGAT (Psychological Game AgenTs),確保了心理測驗場景的泛化性,與不同遊戲設定下測量的穩健性。
  • 透過自動化模擬評估與真人評估,在MBTI人格測試,PHQ-9憂鬱測量,認知思考陷阱測試等任務上,該研究在心理測量學統計學指標和使用者體驗感指標上均展現出了顯著的優越性。

接下來,我們一起來看看研究的細節。

PsychoGAT長啥樣?

用大模型測試人格/憂鬱/認知模式!透過遊戲劇情發展測量心理特質

△PsychoGAT框架示意圖

智能體互動流程:

給定一個傳統的心理測驗問卷,參與者自訂遊戲類型和主題,然後由遊戲設計師(Game Designer)智能體給出整體的遊戲設計大綱。

然後,遊戲管理員(Game Controller)智能體產生一個具體的遊戲情節,在這個過程中評論員(Critic)智能體會對管理員生成內容進行多輪的審核與優化;優化完成後的遊戲情節會被展現給參與者,參與者做出相應的選擇後,管理員基於此選擇推動劇情發展,按照這樣的交互過程循環。

各智能體職能詳述:

  • 遊戲設計師#(Game Designer):利用CoT技術,產生第一人稱敘事遊戲的大綱,並確保這個故事線所包含的情景,能夠使得參與者表現出目前測量的心理特質。

同時,將標準的心理學自我報告問卷,根據當前遊戲故事線進行改編,使兩者的融合更為自然流暢。

  • 遊戲管理員(Game Controller):將改編後的問卷,依照遊戲的故事線,依序進行實例化,變成故事的情節節點,並提供可能的選項,供參與者選擇。

同時,遊戲管理員將參與者的選擇回傳給遊戲環境,並基於參與者的選擇,控制遊戲的劇情走向。為了實現遊戲情節的連貫性,管理者智能體採用「記憶更新」機制。

  • 評論者(Critic):旨在對遊戲管理員的生成內容進行審核與最佳化。

主要針對以下三個問題:

1)優化一致性:隨著遊戲劇情推進,長文本問題會變得更加嚴重,使得「記憶更新」機制也無法完全保證情節一致性。

2)確保無偏性:參與者的選擇會影響遊戲情節的發展,但在參與者不做出選擇之前,管理員不應該預設情節走向,即便先前的選擇中參與者體現出了明顯的傾向性。

3)改正漏缺項:對管理員產生的遊戲情節進行細節審核,檢查其是否具備基礎的遊戲沉浸感。

實驗及結果

用大模型測試人格/憂鬱/認知模式!透過遊戲劇情發展測量心理特質

△三種常見心理測量範式的比較:傳統問卷,心理學家會談,以及研究提出的遊戲化測評。

此處提到的均為基於AI的自動化測量,特別的,心理學家會談,指目前與大語言模型結合的,由大語言模型扮演心理學家的會談範式。

實驗階段,研究人員選擇了三個常見的心理測量任務:MBTI人格測驗中的外傾性,PHQ-9憂鬱檢測,以及CBT療法中前期的認知扭曲檢測。

首先,研究人員和成熟的傳統心理學問卷進行對比,旨在檢驗研究的心理測量信度和效度。進一步,和其他三種自動化測量方法進行對比,檢驗不同測量方法的使用者體驗。

研究者首先使用GPT-4模擬被測者,在不同的測量方法上記錄測量過程與測量結果。這些測量記錄被用來計算後續心理測量學信效度指標,以及使用者體驗感指標。

評估指標有兩個:信效度指標和使用者體驗感指標。

  • 信效度指標:心理測量學上,評估一個測量工具是否具有科學性,一般從信度(reliability)和效度(validity)兩個維度進行驗證。

在研究中,信度的指標選擇了兩個統計量來衡量內部一致性:Cronbach's Alpha和Guttman's Lambda 6;效度的指標採用皮爾森係數,分別衡量聚合效度(convergent validity)和區分效度 (discriminant validity)

  • 使用者體驗感指標,人工評估的指標包括:

1)一致性(Coherence, CH) :內容邏輯是否連貫;
2)交互性(Interactivity, IA):是否對使用者的選擇有恰當且無偏的回應;
3)趣味性(Interest , INT):測量過程是否有趣;
4)沉浸感(Immersion, IM):測量過程是否讓參與者沉浸代入;
5)滿意度 (Satisfaction, ST):整體測量過程的滿意度。

下面是實驗結果。

首先研究者檢驗了研究提出的PsychoGAT能夠作為一個合格的心理測量工具,結果如下表所示。

用大模型測試人格/憂鬱/認知模式!透過遊戲劇情發展測量心理特質
△PsychoGAT的信效度檢定結果( 通過, 良好,優秀)

進一步,研究者對比了不同心理測量範式的使用者體驗感,研究提出的遊戲化評估在互動性、趣味性和沈浸感上都顯著優於其他方法:

用大模型測試人格/憂鬱/認知模式!透過遊戲劇情發展測量心理特質

△PsychoGAT的用戶體驗感結果,以及其他對比方法的相應結果

為了確保人工評估的有效性,研究人員計算了人工評估結果,在PsychoGAT各指標優於其他方法上的評估一致性:

用大模型測試人格/憂鬱/認知模式!透過遊戲劇情發展測量心理特質
△PsychoGAT的使用者體驗感指標由於對比方法在人工評估上的一致性

為了對PsychoGAT做進一步分析,研究人員首先檢驗了不同遊戲場景下,遊戲化測量的信效度具有很好穩健性:

用大模型測試人格/憂鬱/認知模式!透過遊戲劇情發展測量心理特質

△PsychoGAT在不同遊戲場景下測量信效度的穩健性

接著,探討了每一個智能體在PsychoGAT中所扮演的角色:

用大模型測試人格/憂鬱/認知模式!透過遊戲劇情發展測量心理特質

△PsychoGAT不同智能體的作用

#最後,為了直觀呈現PsychoGAT的遊戲生成內容,研究人員用詞雲可視化了人格外傾性測試和憂鬱測試:

用大模型測試人格/憂鬱/認知模式!透過遊戲劇情發展測量心理特質

△PsychoGAT在外傾測量和憂鬱測量的遊戲場景生成視覺化。

外傾性測驗的內容主要集中在社交場景,而憂鬱測驗傾向於個人思考和情緒。

更多研究細節,可參考原論文。

論文連結:https://www.php.cn/link/4bcd537b6c034e297f0030cf08887426

#

以上是用大模型測試人格/憂鬱/認知模式!透過遊戲劇情發展測量心理特質的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
大多數使用的10個功率BI圖 - 分析Vidhya大多數使用的10個功率BI圖 - 分析VidhyaApr 16, 2025 pm 12:05 PM

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

AI的專家系統AI的專家系統Apr 16, 2025 pm 12:00 PM

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

三個最好的氛圍編碼器分解了這項代碼中的AI革命三個最好的氛圍編碼器分解了這項代碼中的AI革命Apr 16, 2025 am 11:58 AM

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

跑道AI的Gen-4:AI蒙太奇如何超越荒謬跑道AI的Gen-4:AI蒙太奇如何超越荒謬Apr 16, 2025 am 11:45 AM

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

如何註冊5天ISRO AI免費課程? - 分析Vidhya如何註冊5天ISRO AI免費課程? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

AI中的本地搜索算法AI中的本地搜索算法Apr 16, 2025 am 11:40 AM

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮Apr 16, 2025 am 11:37 AM

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

提示:chatgpt生成假護照提示:chatgpt生成假護照Apr 16, 2025 am 11:35 AM

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。