原來(lái)GPT-4是i型人格!大模型MBTI測(cè)試來(lái)了,來(lái)自字節(jié)
簡(jiǎn)直了,有人居然給大模型測(cè)了一波MBTI。
結(jié)果好家伙:
ChatGPT,典型的e人,哦不,“e?!薄孕拧⒐麛?,具有天生的領(lǐng)導(dǎo)能力;
GPT-4,妥妥的“i?!薄?jí)之后變成一個(gè)“無(wú)情”的專家機(jī)器,只專注于實(shí)現(xiàn)大家伙兒下的各種目標(biāo);
Bloom-7b,“i模”+1,主打一個(gè)負(fù)責(zé)和務(wù)實(shí);
百川-7b,“e?!笔且玻斆?、好奇、富有想象力;
還有開(kāi)源之光OpenLlama7b,大寫(xiě)的INFJ,據(jù)說(shuō)對(duì)人類有很強(qiáng)的洞察力,但只堅(jiān)持自己的價(jià)值觀。
圖片
Family who knows。。原來(lái)大模型也有自己的個(gè)性。
我猜那個(gè)一言不合就結(jié)束對(duì)話的必應(yīng),一定是某種“難搞”的i吧。。(狗頭)
圖片
具體來(lái)看看。
給大模型測(cè)MBTI
這項(xiàng)研究來(lái)自字節(jié)跳動(dòng)。
興許是MBTI這波人格測(cè)試太火(官方免費(fèi)測(cè)試鏈接可在文末自取),加上大模型有時(shí)真的很像個(gè)人。
作者便產(chǎn)生了一個(gè)“大膽的想法”:
不同的大模型是不是也有不同的個(gè)性?
圖片
(注:簡(jiǎn)單來(lái)說(shuō),MBTI人格測(cè)試就是從以下四大指標(biāo)來(lái)評(píng)價(jià)一個(gè)人的性格:
(1)能量來(lái)源是傾向于社交還是獨(dú)處,即外向(Extraversion)還是內(nèi)向(Introversion);(2)獲取信息的方式是偏向?qū)嵏校⊿ensing)還是直覺(jué)(Intuition);(3)做決定的方式是理性更多還是感性更多,即思考(Thinking)還是情感(Feeling);(4)生活方式偏計(jì)劃還是更喜歡靈活行動(dòng),或者說(shuō)看待外在世界的方式更偏向于主動(dòng)判斷(Judging)還是被動(dòng)感知(Perceiving)。
取各傾向的首字母來(lái)組成四個(gè)字母的評(píng)量結(jié)果,如“INFJ”或“ENFP”,可以將人分成16種人格類型?,F(xiàn)在網(wǎng)上主要根據(jù)首字母將人分為“i人”和“e人”兩大陣營(yíng)。)
說(shuō)干就干,他們首先選定了一波待測(cè)試模型(共計(jì)6個(gè)),所有都按照原始論文中的參數(shù)進(jìn)行訓(xùn)練。
不過(guò)由于資源限制,除了ChatGPT和GPT-4之外,都是一些參數(shù)為100億左右的小模型(OpenLlama7b-v2、Bloom7b、BaiChuan7b9、BaiChuan13b)。
由于MBTI一共包括93道多項(xiàng)選擇題,形式如下:
圖片
作者就讓每一個(gè)模型用一個(gè)概率值對(duì)這些問(wèn)題進(jìn)行回答,然后按照E-I/S-N/T-F/J-P這四個(gè)組合,進(jìn)行計(jì)分統(tǒng)計(jì)。
以下是各模型最終得分:
圖片
可以看到,不同模型人格確實(shí)不同——GPT-4屬于INTJ,ChatGPT屬于ENTJ,而70億參數(shù)的Bloom為ISTJ……
而從下圖我們能清晰的看到,不同模型在四大維度的具體表現(xiàn)并不一致,有的很傾向性很明顯,比如ChatGPT就特別I、特別N,GPT-4則特別N、特別T;反而B(niǎo)loom7b和BaiChuan13b,左邊的值和右邊的概率比基本為1:1。
圖片
除此之外,作者也發(fā)現(xiàn),在同一類模型中,S/N、T/F和J/P這三組值會(huì)表現(xiàn)出“遺傳性”,例如ChatGPT和GPT-4都被歸類為“NTJ”,而B(niǎo)aiChuan7b和BaiChuan13b都被分類為“NFP”。
同時(shí),在同一類模型中,模型參數(shù)更大,可能會(huì)更i(手動(dòng)狗頭)。
不信你看:GPT-4(INTJ)vs ChatGPT(ENTJ),BaiChun13b(INFP) vs BaiChuan7b(ENFP)。
而作者認(rèn)為,相比E型“模格”,像INTJ這樣的LLM可能具有更強(qiáng)的知識(shí)、推理和規(guī)劃能力,是為人類服務(wù)的最佳選擇。
i人站起來(lái)了(bushi)
用提示工程可以改變“模格”
簡(jiǎn)單確定不同大模型的確具有不同的人格之后,作者便產(chǎn)生了新的思考:
這種現(xiàn)象是否只是一種偶然,很容易被破壞和改變?
于是作者又開(kāi)始提出第二個(gè)問(wèn)題:
能不能通過(guò)簡(jiǎn)單的提示工程改變大模型的人格?
結(jié)論是能,但要看模型本身的理解能力。
在此,作者先分別在Bloom和百川大模型上施加了兩種提示方法。
一種是顯式提示,即在開(kāi)始回答MBTI問(wèn)題之前,先給模型一個(gè)諸如“你具有外向的個(gè)性,喜歡設(shè)想創(chuàng)新的概念,并且具有強(qiáng)烈的自發(fā)性和即興性”這樣的角色限定。
結(jié)果Bloom的人格類型從ISTJ變?yōu)镮NTP,S值減小,N值增大,變化不大。
而百川則沒(méi)有變化,還是ENFP。
圖片
△ exp-prompt代表顯式提示
于是作者又對(duì)它們施加隱式提示,如下表所示,用一些樣本回答作為含蓄提醒。
圖片
結(jié)果變化也不大,i還是i,e還是e。
△ inexp-prompt代表顯式提示
作者推測(cè),可能不是提示工程不行,是這倆模型理解能力不行,它們目前的水平還無(wú)法嚴(yán)格遵守人類的指令。
于是,他們又在ChatGPT上試了一下,結(jié)果不出所料,e變i了。
因此說(shuō)明,提示工程有用,但要看是誰(shuí)。
接著,作者又開(kāi)始思考,那么到底是什么影響了大模型的人格呢?
提出的假設(shè)是訓(xùn)練數(shù)據(jù)集(好比成長(zhǎng)環(huán)境)。
由此,開(kāi)始解決第三個(gè)問(wèn)題:
訓(xùn)練數(shù)據(jù)集對(duì)模型人格的影響有多大?
實(shí)驗(yàn)方法是用不同的語(yǔ)料庫(kù)來(lái)訓(xùn)練同一個(gè)模型,具體而言就是在Bloom和llama-v2上分別用中文維基百科語(yǔ)料庫(kù)、問(wèn)答語(yǔ)料庫(kù)和考試語(yǔ)料庫(kù)分別進(jìn)行訓(xùn)練再測(cè)試。
結(jié)果是除了i和e,這倆模型基本都有變化(llama-v2在中文維基百科語(yǔ)料庫(kù)上沒(méi)變可能是因?yàn)樵撃P椭熬蜎](méi)有再足夠多的中文上訓(xùn)練過(guò)),尤其在T/F和J/P維度上的得分幅度變動(dòng)較大。
圖片
靠譜嗎?
最后,想必你也會(huì)問(wèn):
用MBTI來(lái)評(píng)估模型人格到底靠譜嗎?
作者認(rèn)為:
首先,我們知道MBTI在可靠性和有效性方面其實(shí)還存在缺陷,只能作為一種性格測(cè)試的參考工具。不過(guò)確實(shí)也有公司和個(gè)人把它用作選人和選職業(yè)方向的粗略工具。
因此,它也可以作為評(píng)估大模型的一種粗略的指標(biāo)。
其次,在MBTI的四個(gè)維度之中,前倆參考意義不大,主要是T/F和J/P。
這是鑒于GPT-4和ChatGPT表現(xiàn)出比其他模型高得多的T值和J值。
而這倆值越高,可能說(shuō)明模型的知識(shí)水平以及任務(wù)分解和路徑規(guī)劃方面具有更大的潛力。
以上,你認(rèn)可這些大模型的“人格”嗎?
論文地址:https://arxiv.org/abs/2307.16180
友情鏈接:https://www.xpersonalitytest.com/free-personality-test