設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

用大模型測試人格 / 抑郁 / 認(rèn)知模式:通過游戲劇情發(fā)展測量心理特質(zhì),清華出品

量子位 2024/3/13 18:29:03 責(zé)編:清源

心理測量在精神健康、自我了解、和個人發(fā)展方面都發(fā)揮著重要的作用。

傳統(tǒng)的心理測量范式以自我報告類型的問卷為主,常常通過參與者回憶自己的日常生活行為模式或情緒狀態(tài)進(jìn)行測量。

這樣的測量方式雖然高效便捷,但可能引發(fā)參與者的抗拒心理,降低被測意愿。

隨著大語言模型(LLM)的發(fā)展,很多研究發(fā)現(xiàn) LLM 能夠展現(xiàn)出穩(wěn)定的人格特質(zhì),模仿人類細(xì)微的情緒與認(rèn)知模式,還能輔助各種各樣的社會科學(xué)仿真實(shí)驗(yàn),為教育心理學(xué)、社會心理學(xué)、文化心理學(xué)、臨床心理學(xué)、心理咨詢等諸多心理學(xué)研究領(lǐng)域,提供了新的研究思路。

近日,清華大學(xué)的研究團(tuán)隊基于大語言模型的多智能體系統(tǒng),提出一種創(chuàng)新性的心理測量范式。

圖片

與傳統(tǒng)自我報告問卷不同的是,該研究為每位參與者定制化生成一個可交互的敘事類型游戲,用戶可自定義游戲的類型與主題。

隨著游戲劇情的發(fā)展,參與者需要以第一人稱視角,選擇不同的決策行為,決定劇情的走向。通過分析參與者在游戲關(guān)鍵情節(jié)中的選擇,該研究可以測量其對應(yīng)的心理特質(zhì)。

圖片

自我報告問卷的心理學(xué)測量范式(左)與交互敘事類游戲的心理測量范式(右)對比

該研究的貢獻(xiàn)主要體現(xiàn)在三個方面:

  • 提出一種新的心理學(xué)測量范式,將傳統(tǒng)問卷轉(zhuǎn)化成基于游戲的交互測量;在保證心理測量信度和效度的基礎(chǔ)上,提升參與者的沉浸感,改善被測體驗(yàn)。

  • 為了實(shí)現(xiàn)游戲化的測量,該研究提出一種基于大語言模型的多智能體交互框架,名為 PsychoGAT (Psychological Game AgenTs),確保了心理學(xué)測試場景的泛化性,與不同游戲設(shè)置下測量的魯棒性。

  • 通過自動化仿真評估與真人評估,在 MBTI 人格測試,PHQ-9 抑郁測量,認(rèn)知思維陷阱測試等任務(wù)上,該研究在心理測量學(xué)統(tǒng)計學(xué)指標(biāo)和用戶體驗(yàn)感指標(biāo)上均展現(xiàn)出了顯著的優(yōu)越性。

接下來,我們一起來看看該研究的細(xì)節(jié)。

PsychoGAT 長啥樣?

圖片

PsychoGAT 框架示意圖

智能體交互流程:

給定一個傳統(tǒng)的心理學(xué)測試問卷,參與者自定義游戲類型和主題,然后由游戲設(shè)計師(Game Designer)智能體給出整體的游戲設(shè)計大綱。

然后,游戲管理員(Game Controller)智能體生成一個具體的游戲情節(jié),在這個過程中評論員(Critic)智能體會對管理員生成內(nèi)容進(jìn)行多輪的審核與優(yōu)化;優(yōu)化完成后的游戲情節(jié)會被展現(xiàn)給參與者,參與者做出相應(yīng)的選擇后,管理員基于此選擇推動劇情發(fā)展,按照這樣的交互過程循環(huán)。

各智能體職能詳述:

  • 游戲設(shè)計師(Game Designer):利用 CoT 技術(shù),生成第一人稱敘事游戲的大綱,并保證這個故事線中所包含的情景,能夠使得參與者表現(xiàn)出當(dāng)前測量的心理特質(zhì)。

與此同時,將標(biāo)準(zhǔn)的心理學(xué)自我報告問卷,根據(jù)當(dāng)前游戲故事線進(jìn)行改編,使兩者的融合更為自然流暢。

  • 游戲管理員(Game Controller):將改編后的問卷,按照游戲的故事線,依次進(jìn)行實(shí)例化,變成故事的情節(jié)節(jié)點(diǎn),并提供可能的選項,供參與者進(jìn)行選擇。

與此同時,游戲管理員將參與者的選擇返回給游戲環(huán)境,并基于參與者的選擇,控制游戲的劇情走向。為了實(shí)現(xiàn)游戲情節(jié)的連貫性,管理員智能體采用“記憶更新”機(jī)制。

  • 評論員(Critic):旨在對游戲管理員的生成內(nèi)容進(jìn)行審核與優(yōu)化。

主要針對以下三個問題:

1)優(yōu)化一致性:隨著游戲劇情推進(jìn),長文本問題會變得更加嚴(yán)重,使得“記憶更新”機(jī)制也無法完全保證情節(jié)一致性。

2)確保無偏性:參與者的選擇會影響游戲情節(jié)的發(fā)展,但在參與者不做出選擇之前,管理員不應(yīng)該預(yù)設(shè)情節(jié)走向,即便之前的選擇中參與者體現(xiàn)出了明顯的傾向性。

3)改正漏缺項:對管理員生成的游戲情節(jié)進(jìn)行細(xì)節(jié)審核,檢查其是否具備基礎(chǔ)的游戲沉浸感。

實(shí)驗(yàn)及結(jié)果

圖片

三種常見心理學(xué)測量范式的對比:傳統(tǒng)問卷,心理學(xué)家會談,以及該研究提出的游戲化測評。

此處提到的均為基于 AI 的自動化測量,特別的,心理學(xué)家會談,指目前與大語言模型結(jié)合的,由大語言模型扮演心理學(xué)家的會談范式。

實(shí)驗(yàn)階段,研究人員選擇了三個常見的心理學(xué)測量任務(wù):MBTI 人格測試中的外傾性,PHQ-9 抑郁檢測,以及 CBT 療法中前期的認(rèn)知扭曲檢測。

首先,研究人員和成熟的傳統(tǒng)心理學(xué)問卷進(jìn)行對比,旨在檢驗(yàn)該研究的心理測量信度和效度。進(jìn)一步,和其他三種自動化測量方法進(jìn)行對比,檢驗(yàn)不同測量方法的用戶體驗(yàn)。

研究人員首先使用 GPT-4 模擬被測者,在不同的測量方法上記錄測量過程與測量結(jié)果。這些測量記錄被用于計算后續(xù)心理測量學(xué)信效度指標(biāo),以及用戶體驗(yàn)感指標(biāo)。

評價指標(biāo)有兩個:信效度指標(biāo)和用戶體驗(yàn)感指標(biāo)。

  • 信效度指標(biāo):心理測量學(xué)上,評價一個測量工具是否具有科學(xué)性,一般從信度(reliability)和效度(validity)兩個維度進(jìn)行驗(yàn)證。

在該研究中,信度的指標(biāo)選擇了兩個統(tǒng)計學(xué)量來衡量內(nèi)部一致性:Cronbach’s Alpha 和 Guttman’s Lambda 6;效度的指標(biāo)采用皮爾森系數(shù),分別衡量聚合效度(convergent validity)和區(qū)分效度 (discriminant validity)。

  • 用戶體驗(yàn)感指標(biāo),人工評估的指標(biāo)包括:

1)一致性(Coherence, CH):內(nèi)容邏輯是否連貫;
2)交互性(Interactivity, IA):是否對用戶的選擇有恰當(dāng)且無偏的回應(yīng);
3)趣味性(Interest, INT):測量過程是否有趣;
4)沉浸感(Immersion, IM):測量過程是否讓參與者沉浸代入;
5)滿意度(Satisfaction, ST):整體測量過程的滿意度。

下面是實(shí)驗(yàn)結(jié)果。

首先研究人員檢驗(yàn)了該研究提出的 PsychoGAT 能夠作為一個合格的心理學(xué)測量工具,結(jié)果如下表所示。

圖片

PsychoGAT 的信效度檢驗(yàn)結(jié)果(+ 通過,++ 良好,+++ 優(yōu)秀)

進(jìn)一步,研究人員對比了不同心理測量范式的用戶體驗(yàn)感,該研究提出的游戲化測評在交互性、趣味性和沉浸感上都顯著優(yōu)于其他方法:

圖片

PsychoGAT 的用戶體驗(yàn)感結(jié)果,以及其他對比方法的相應(yīng)結(jié)果

為了確保人工評估的有效性,研究人員計算了人工評估結(jié)果,在 PsychoGAT 各指標(biāo)優(yōu)于其他方法上的評估一致性:

圖片

PsychoGAT 的用戶體驗(yàn)感指標(biāo)由于對比方法在人工評估上的一致性

為了對 PsychoGAT 做進(jìn)一步分析,研究人員首先檢驗(yàn)了不同游戲場景下,游戲化測量的信效度具有很好的魯棒性:

圖片

PsychoGAT 在不同游戲場景下測量信效度的魯棒性

接著,探究了每一個智能體在 PsychoGAT 中發(fā)揮的作用:

圖片

PsychoGAT 不同智能體的作用

最后,為了直觀呈現(xiàn) PsychoGAT 的游戲生成內(nèi)容,研究人員用詞云可視化了人格外傾性測試和抑郁測試:

圖片

PsychoGAT 在外傾性測量和抑郁測量的游戲場景生成可視化。

外傾性測試的內(nèi)容主要集中在社交場景,而抑郁測試傾向于個人思維和情緒。

更多研究細(xì)節(jié),可參考原論文。

論文鏈接:https://arxiv.org/abs/2402.12326

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:大模型,人工智能,心理學(xué)

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知