用大模型測(cè)試人格/抑郁/認(rèn)知模式!通過(guò)游戲劇情發(fā)展測(cè)量心理特質(zhì)
心理測(cè)量在精神健康、自我了解、和個(gè)人發(fā)展方面都發(fā)揮著重要的作用。
傳統(tǒng)的心理測(cè)量范式以自我報(bào)告類(lèi)型的問(wèn)卷為主,常常通過(guò)參與者回憶自己的日常生活行為模式或情緒狀態(tài)進(jìn)行測(cè)量。
這樣的測(cè)量方式雖然高效便捷,但可能引發(fā)參與者的抗拒心理,降低被測(cè)意愿。
隨著大語(yǔ)言模型(LLM)的發(fā)展,很多研究發(fā)現(xiàn)LLM能夠展現(xiàn)出穩(wěn)定的人格特質(zhì),模仿人類(lèi)細(xì)微的情緒與認(rèn)知模式,還能輔助各種各樣的社會(huì)科學(xué)仿真實(shí)驗(yàn),為教育心理學(xué)、社會(huì)心理學(xué)、文化心理學(xué)、臨床心理學(xué)、心理咨詢(xún)等諸多心理學(xué)研究領(lǐng)域,提供了新的研究思路。
近日,清華大學(xué)的研究團(tuán)隊(duì)基于大語(yǔ)言模型的多智能體系統(tǒng),提出一種創(chuàng)新性的心理測(cè)量范式。
與傳統(tǒng)自我報(bào)告問(wèn)卷不同的是,該研究為每位參與者定制化生成一個(gè)可交互的敘事類(lèi)型游戲,用戶(hù)可自定義游戲的類(lèi)型與主題。
隨著游戲劇情的發(fā)展,參與者需要以第一人稱(chēng)視角,選擇不同的決策行為,決定劇情的走向。通過(guò)分析參與者在游戲關(guān)鍵情節(jié)中的選擇,該研究可以測(cè)量其對(duì)應(yīng)的心理特質(zhì)。
△自我報(bào)告問(wèn)卷的心理學(xué)測(cè)量范式(左)與交互敘事類(lèi)游戲的心理測(cè)量范式(右)對(duì)比
該研究的貢獻(xiàn)主要體現(xiàn)在三個(gè)方面:
- 提出一種新的心理學(xué)測(cè)量范式,將傳統(tǒng)問(wèn)卷轉(zhuǎn)化成基于游戲的交互測(cè)量;在保證心理測(cè)量信度和效度的基礎(chǔ)上,提升參與者的沉浸感,改善被測(cè)體驗(yàn)。
- 為了實(shí)現(xiàn)游戲化的測(cè)量,該研究提出一種基于大語(yǔ)言模型的多智能體交互框架,名為PsychoGAT (Psychological Game AgenTs),確保了心理學(xué)測(cè)試場(chǎng)景的泛化性,與不同游戲設(shè)置下測(cè)量的魯棒性。
- 通過(guò)自動(dòng)化仿真評(píng)估與真人評(píng)估,在MBTI人格測(cè)試,PHQ-9抑郁測(cè)量,認(rèn)知思維陷阱測(cè)試等任務(wù)上,該研究在心理測(cè)量學(xué)統(tǒng)計(jì)學(xué)指標(biāo)和用戶(hù)體驗(yàn)感指標(biāo)上均展現(xiàn)出了顯著的優(yōu)越性。
接下來(lái),我們一起來(lái)看看該研究的細(xì)節(jié)。
PsychoGAT長(zhǎng)啥樣?
△PsychoGAT框架示意圖
智能體交互流程:
給定一個(gè)傳統(tǒng)的心理學(xué)測(cè)試問(wèn)卷,參與者自定義游戲類(lèi)型和主題,然后由游戲設(shè)計(jì)師(Game Designer)智能體給出整體的游戲設(shè)計(jì)大綱。
然后,游戲管理員(Game Controller)智能體生成一個(gè)具體的游戲情節(jié),在這個(gè)過(guò)程中評(píng)論員(Critic)智能體會(huì)對(duì)管理員生成內(nèi)容進(jìn)行多輪的審核與優(yōu)化;優(yōu)化完成后的游戲情節(jié)會(huì)被展現(xiàn)給參與者,參與者做出相應(yīng)的選擇后,管理員基于此選擇推動(dòng)劇情發(fā)展,按照這樣的交互過(guò)程循環(huán)。
各智能體職能詳述:
- 游戲設(shè)計(jì)師(Game Designer):利用CoT技術(shù),生成第一人稱(chēng)敘事游戲的大綱,并保證這個(gè)故事線(xiàn)中所包含的情景,能夠使得參與者表現(xiàn)出當(dāng)前測(cè)量的心理特質(zhì)。
與此同時(shí),將標(biāo)準(zhǔn)的心理學(xué)自我報(bào)告問(wèn)卷,根據(jù)當(dāng)前游戲故事線(xiàn)進(jìn)行改編,使兩者的融合更為自然流暢。
- 游戲管理員(Game Controller):將改編后的問(wèn)卷,按照游戲的故事線(xiàn),依次進(jìn)行實(shí)例化,變成故事的情節(jié)節(jié)點(diǎn),并提供可能的選項(xiàng),供參與者進(jìn)行選擇。
與此同時(shí),游戲管理員將參與者的選擇返回給游戲環(huán)境,并基于參與者的選擇,控制游戲的劇情走向。為了實(shí)現(xiàn)游戲情節(jié)的連貫性,管理員智能體采用“記憶更新”機(jī)制。
- 評(píng)論員(Critic):旨在對(duì)游戲管理員的生成內(nèi)容進(jìn)行審核與優(yōu)化。
主要針對(duì)以下三個(gè)問(wèn)題:
1)優(yōu)化一致性:隨著游戲劇情推進(jìn),長(zhǎng)文本問(wèn)題會(huì)變得更加嚴(yán)重,使得“記憶更新”機(jī)制也無(wú)法完全保證情節(jié)一致性。
2)確保無(wú)偏性:參與者的選擇會(huì)影響游戲情節(jié)的發(fā)展,但在參與者不做出選擇之前,管理員不應(yīng)該預(yù)設(shè)情節(jié)走向,即便之前的選擇中參與者體現(xiàn)出了明顯的傾向性。
3)改正漏缺項(xiàng):對(duì)管理員生成的游戲情節(jié)進(jìn)行細(xì)節(jié)審核,檢查其是否具備基礎(chǔ)的游戲沉浸感。
實(shí)驗(yàn)及結(jié)果
△三種常見(jiàn)心理學(xué)測(cè)量范式的對(duì)比:傳統(tǒng)問(wèn)卷,心理學(xué)家會(huì)談,以及該研究提出的游戲化測(cè)評(píng)。
此處提到的均為基于AI的自動(dòng)化測(cè)量,特別的,心理學(xué)家會(huì)談,指目前與大語(yǔ)言模型結(jié)合的,由大語(yǔ)言模型扮演心理學(xué)家的會(huì)談范式。
實(shí)驗(yàn)階段,研究人員選擇了三個(gè)常見(jiàn)的心理學(xué)測(cè)量任務(wù):MBTI人格測(cè)試中的外傾性,PHQ-9抑郁檢測(cè),以及CBT療法中前期的認(rèn)知扭曲檢測(cè)。
首先,研究人員和成熟的傳統(tǒng)心理學(xué)問(wèn)卷進(jìn)行對(duì)比,旨在檢驗(yàn)該研究的心理測(cè)量信度和效度。進(jìn)一步,和其他三種自動(dòng)化測(cè)量方法進(jìn)行對(duì)比,檢驗(yàn)不同測(cè)量方法的用戶(hù)體驗(yàn)。
研究人員首先使用GPT-4模擬被測(cè)者,在不同的測(cè)量方法上記錄測(cè)量過(guò)程與測(cè)量結(jié)果。這些測(cè)量記錄被用于計(jì)算后續(xù)心理測(cè)量學(xué)信效度指標(biāo),以及用戶(hù)體驗(yàn)感指標(biāo)。
評(píng)價(jià)指標(biāo)有兩個(gè):信效度指標(biāo)和用戶(hù)體驗(yàn)感指標(biāo)。
- 信效度指標(biāo):心理測(cè)量學(xué)上,評(píng)價(jià)一個(gè)測(cè)量工具是否具有科學(xué)性,一般從信度(reliability)和效度(validity)兩個(gè)維度進(jìn)行驗(yàn)證。
在該研究中,信度的指標(biāo)選擇了兩個(gè)統(tǒng)計(jì)學(xué)量來(lái)衡量?jī)?nèi)部一致性:Cronbach’s Alpha和Guttman’s Lambda 6;效度的指標(biāo)采用皮爾森系數(shù),分別衡量聚合效度(convergent validity)和區(qū)分效度 (discriminant validity)。
- 用戶(hù)體驗(yàn)感指標(biāo),人工評(píng)估的指標(biāo)包括:
1)一致性(Coherence, CH):內(nèi)容邏輯是否連貫;
2)交互性(Interactivity, IA):是否對(duì)用戶(hù)的選擇有恰當(dāng)且無(wú)偏的回應(yīng);
3)趣味性(Interest, INT):測(cè)量過(guò)程是否有趣;
4)沉浸感(Immersion, IM):測(cè)量過(guò)程是否讓參與者沉浸代入;
5)滿(mǎn)意度(Satisfaction, ST):整體測(cè)量過(guò)程的滿(mǎn)意度。
下面是實(shí)驗(yàn)結(jié)果。
首先研究人員檢驗(yàn)了該研究提出的PsychoGAT能夠作為一個(gè)合格的心理學(xué)測(cè)量工具,結(jié)果如下表所示。
△PsychoGAT的信效度檢驗(yàn)結(jié)果(+通過(guò),++良好,+++優(yōu)秀)
進(jìn)一步,研究人員對(duì)比了不同心理測(cè)量范式的用戶(hù)體驗(yàn)感,該研究提出的游戲化測(cè)評(píng)在交互性、趣味性和沉浸感上都顯著優(yōu)于其他方法:
△PsychoGAT的用戶(hù)體驗(yàn)感結(jié)果,以及其他對(duì)比方法的相應(yīng)結(jié)果
為了確保人工評(píng)估的有效性,研究人員計(jì)算了人工評(píng)估結(jié)果,在PsychoGAT各指標(biāo)優(yōu)于其他方法上的評(píng)估一致性:
△PsychoGAT的用戶(hù)體驗(yàn)感指標(biāo)由于對(duì)比方法在人工評(píng)估上的一致性
為了對(duì)PsychoGAT做進(jìn)一步分析,研究人員首先檢驗(yàn)了不同游戲場(chǎng)景下,游戲化測(cè)量的信效度具有很好魯棒性:
△PsychoGAT在不同游戲場(chǎng)景下測(cè)量信效度的魯棒性
接著,探究了每一個(gè)智能體在PsychoGAT中發(fā)揮的作用:
△PsychoGAT不同智能體的作用
最后,為了直觀呈現(xiàn)PsychoGAT的游戲生成內(nèi)容,研究人員用詞云可視化了人格外傾性測(cè)試和抑郁測(cè)試:
△PsychoGAT在外傾性測(cè)量和抑郁測(cè)量的游戲場(chǎng)景生成可視化。
外傾性測(cè)試的內(nèi)容主要集中在社交場(chǎng)景,而抑郁測(cè)試傾向于個(gè)人思維和情緒。
更多研究細(xì)節(jié),可參考原論文。