譯者 | 陳峻
審校 | 重樓
在最近的幾周里,人們使用大型語(yǔ)言模型(large language models,LLM)生成了諸如:書(shū)籍、小說(shuō)、說(shuō)唱音樂(lè)等各種創(chuàng)意性的內(nèi)容??墒?,我們?cè)趺床拍芎饬窟@些模型的創(chuàng)作力水平呢?
在本文中,我將和您分析從2019年到2023年的各個(gè)GPT模型,在收斂(存在單一正確的解決方案)和發(fā)散(開(kāi)放式地可能存在多個(gè)解決方案)[1] 兩種創(chuàng)造力的測(cè)試中的不同表現(xiàn)。具體測(cè)試類型包括:
- 將三個(gè)看似無(wú)關(guān)的詞與第四個(gè)詞連接起來(lái)(遠(yuǎn)距離聯(lián)想測(cè)試)
- 為日常物品產(chǎn)生盡可能多的替代用途(替代使用任務(wù))
- 命名十個(gè)盡可能彼此不同的名詞(發(fā)散關(guān)聯(lián)任務(wù))
通過(guò)分析,我將重點(diǎn)關(guān)注從早期的GPT-2模型,到最新的GPT-4模型,在性能上的變化。雖然總的來(lái)說(shuō),較晚的模型往往在各種創(chuàng)造力任務(wù)上表現(xiàn)會(huì)更好,但是我確實(shí)也發(fā)現(xiàn)了一些例外情況。例如:當(dāng)測(cè)試本身已有“正確”的答案時(shí),較簡(jiǎn)單的GPT-2模型反而優(yōu)于GPT-4模型。
當(dāng)然,我也會(huì)在相同的創(chuàng)造力測(cè)試中,將GPT模型與人類表現(xiàn)進(jìn)行比較。我并不是想闡明GPT模型、或一般的LLM,能夠具有與人類同等的創(chuàng)造性思維;而是要展示各個(gè)模型是如何響應(yīng)創(chuàng)造性過(guò)程的。
GPT模型的發(fā)展
生成式預(yù)訓(xùn)練轉(zhuǎn)換器(Generative Pre-trained Transformer,GPT)模型是目前互聯(lián)網(wǎng)上被廣泛用于訓(xùn)練的語(yǔ)言模型,可以根據(jù)先前的token預(yù)測(cè)下一個(gè)token。雖然ChatGPT貌似在最近的幾個(gè)月才引起了公眾的關(guān)注,但實(shí)際上OpenAI的GPT模型及其背后的技術(shù),已經(jīng)存在了多年。
- GPT-1(2018年,117M參數(shù))是原始的GPT模型。我曾在HuggingFace上使用了其開(kāi)源版本,其輸出亂碼較多。論文:通過(guò)生成式預(yù)訓(xùn)練提高語(yǔ)言理解力。
- GPT-2(2019年,1.5B參數(shù))。我也曾在HuggingFace上使用了其開(kāi)源版本。對(duì)于一些實(shí)驗(yàn),GPT-2的輸出為亂碼,對(duì)理解其行為毫無(wú)用處。論文:語(yǔ)言模型是無(wú)監(jiān)督的多任務(wù)學(xué)習(xí)者。
- GPT-3(2020年,175B參數(shù)),比GPT-2大了100多倍。我使用了由OpenAI APIs提供的text-davinci-002。論文:語(yǔ)言模型是小樣本學(xué)習(xí)者。
- GPT-3.5(2022年)。雖然GPT-3.5有多個(gè)版本,但我在原始的ChatGPT上使用了一種模型(OpenAI APIs提供的gpt-3.5-turbo)。該模型是使用強(qiáng)化學(xué)習(xí)和人工反饋進(jìn)行訓(xùn)練的。
- GPT-4(2023年,約100T 參數(shù))。我使用了由OpenAI APIs提供的gpt-4。論文:GPT-4技術(shù)報(bào)告。
在下文的各個(gè)實(shí)驗(yàn)中,除非另行說(shuō)明,否則我都是在唯一的提問(wèn)(prompt)中調(diào)用了每個(gè)GPT模型五次,以說(shuō)明其生成過(guò)程中的隨機(jī)性。
1. 遠(yuǎn)距離聯(lián)想測(cè)試:連接不相關(guān)的詞
遠(yuǎn)距離聯(lián)想測(cè)試(RAT)是Martha Mednick于1962 年開(kāi)發(fā)的創(chuàng)造力測(cè)試[2]。該測(cè)試旨在衡量聚合思維。也就是說(shuō),每個(gè)問(wèn)題都有一個(gè)“正確”的答案。通常,給定三個(gè)看似無(wú)關(guān)的詞,受試者必須找到第四個(gè)詞來(lái)連接這三個(gè)詞。例如,單詞“夢(mèng)(dream)”、“破(break)”和“光(light)”可以通過(guò)單詞“白天(day)” 聯(lián)系起來(lái),成為:白日夢(mèng)(daydream)、破曉(daybreak)、日光(daylight)。
我從Remote Associates Test網(wǎng)站各種單詞的三元組,共有312個(gè)問(wèn)題。每個(gè)問(wèn)題的難度都被按照從非常容易到非常困難的等級(jí)進(jìn)行評(píng)分。
對(duì)于每個(gè)模型和每個(gè)單詞的三元組,我都使用了如下提問(wèn)模板,并將每個(gè)模型調(diào)用了5次,以說(shuō)明其隨機(jī)性。其中,提問(wèn)的具體內(nèi)容為:
給你三個(gè)詞。想想與前三個(gè)詞中的每一個(gè)都以某種方式相關(guān)的第四個(gè)詞。請(qǐng)先給出答案:“Answer”,然后解釋你的推理:“Reason”。單詞為:{Word1}、{Word2}、{Word3}
較新的GPT模型在遠(yuǎn)程關(guān)聯(lián)上得分更高
我計(jì)算了每個(gè)GPT模型生成正確答案的總體百分比。如下圖所示,模型越新,其生成的正確答案就越多。
按照問(wèn)題難度級(jí)別細(xì)分模型的性能,我們可以看到類似的趨勢(shì):在每個(gè)難度級(jí)別上,較新的GPT模型都比舊的模型表現(xiàn)得更好。雖然較新的GPT模型在困難問(wèn)題上的表現(xiàn)優(yōu)于舊模型,但是與較簡(jiǎn)單的問(wèn)題相比,其改進(jìn)幅度較小。這意味著:即使是GPT-4也難以解決困難的問(wèn)題。
根據(jù)Remote Associates Test網(wǎng)站的說(shuō)法,“人類通常可以解決大部分被標(biāo)記為簡(jiǎn)單的項(xiàng)目,大約一半的中等項(xiàng)目,以及較少的困難項(xiàng)目。”雖然該網(wǎng)站上沒(méi)有給出官方的統(tǒng)計(jì)數(shù)據(jù),但是我們一眼就能看出,GPT-4確實(shí)解決了大約一半的中等難度和少量的困難。它是唯一一個(gè)近似于人類水平的模型。其他GPT模型則比人類表現(xiàn)要差。
一些GPT-2回答正確但GPT-4出現(xiàn)錯(cuò)誤的例外
雖然這種情況并不經(jīng)常發(fā)生,但是對(duì)于如下8個(gè)問(wèn)題,2019年的GPT-2模型反而優(yōu)于2023年的GPT-4模型。
簡(jiǎn)單的問(wèn)題
單詞:cottage(小屋)/brick(積木)/cake(蛋糕)
GPT-2:“cheese(奶酪)”[正確答案]
GPT-4:“l(fā)ayer(層)”
中等問(wèn)題
單詞:cat(貓)/number(號(hào)碼)/phone(電話)
GPT-2:“call(呼叫)”
GPT-4:“dial(撥號(hào))”
困難問(wèn)題
單詞:through(通過(guò))/disk(盤(pán))/way(路)
GPT-2:“drive(驅(qū)動(dòng))”[正確]
GPT-4:“circle(圓)”
非常困難的問(wèn)題
單詞:land(土地)/hand(手)/house(房子)
GPT-2:“farm(農(nóng)場(chǎng))”[正確]
GPT-4:“property(財(cái)產(chǎn))”
可見(jiàn),對(duì)于所有這些問(wèn)題,GPT-4的回答都缺乏邏輯性。事實(shí)上,在事先不知道正確答案的情況下,您可能會(huì)認(rèn)為GPT-4的答案已經(jīng)將三個(gè)詞聯(lián)系起來(lái)了。如果你這么想的話,也不算錯(cuò)。我將在下一節(jié)回答這個(gè)問(wèn)題。
GPT-4到底是錯(cuò)了,還是跳出圈外思考了?
針對(duì)上述GPT-4半數(shù)以上的“錯(cuò)誤回答”,我查看了它對(duì)一些“非常困難”的問(wèn)題的解釋。
單詞:artist(藝術(shù)家)/hatch(策劃)/route(路線)
正確答案:“escape(逃離)”
GPT-4回答:“map(地圖)”
“藝術(shù)家”一詞可能會(huì)讓人想起創(chuàng)造某物的想法,甚至可能是某物的視覺(jué)表現(xiàn)。地圖是一種常見(jiàn)的視覺(jué)表現(xiàn)形式,需要具有一定程度的藝術(shù)技巧,才能創(chuàng)建。
“策劃”一詞可以指打開(kāi)某物或使某物存在的行為。地圖是一種藍(lán)圖或計(jì)劃,通常用于導(dǎo)航新領(lǐng)域或制定行動(dòng)方案。
“路線”一詞與方向和運(yùn)動(dòng)有關(guān),可以在地圖上繪制和跟蹤。地圖可以幫助您確定旅行時(shí)的最佳路線,還可以提供有關(guān)其他人過(guò)去所走的路線信息。
總而言之,“地圖”似乎是一個(gè)與前三個(gè)詞都很相配的詞,因?yàn)樗怂囆g(shù)創(chuàng)作、策劃、路線、運(yùn)動(dòng)、以及導(dǎo)航等思想。
這便是GPT-4為什么認(rèn)為“地圖”是與“藝術(shù)家/規(guī)劃/路線”相關(guān)聯(lián)的單詞的解釋。我們?cè)賮?lái)看另一個(gè)例子:
單詞:fork(分叉)/dark(黑暗)/man(人)
正確答案:“pitch(投擲)”
GPT-4回答:“shadow(陰影)”
“分叉”這個(gè)詞可以與分裂或分支相關(guān)聯(lián),例如道路上的岔路口。陰影也可以看作是一種劃分,因?yàn)樗鼈兇頉](méi)有光。
“黑暗”一詞是指沒(méi)有光。當(dāng)光線被物體阻擋時(shí)會(huì)產(chǎn)生陰影,并且通??雌饋?lái)比周圍區(qū)域更暗。
“人”這個(gè)詞可以與身份或個(gè)性的概念相關(guān)聯(lián)。陰影也可以被用來(lái)表示一個(gè)人的身份,因?yàn)樗鼈兛梢蕴峁┯嘘P(guān)其形狀和大小的線索。
因此,“影子”似乎是一個(gè)與前三個(gè)詞都很相配的詞,因?yàn)樗朔至?、缺席和同一性的概念?/span>
上述兩個(gè)例子充分顯示了遠(yuǎn)距離聯(lián)想測(cè)試和一般性聚合創(chuàng)造力測(cè)試的缺陷,即“正確”的答案可能并不唯一。在此類情況下,GPT-4生成的所謂“錯(cuò)誤”答案,可能只是因?yàn)椴环蟼鹘y(tǒng)的“正確”答案的標(biāo)準(zhǔn)而已。
GPT-4回答任意生成的三元組單詞
接著,我構(gòu)建了自己的遠(yuǎn)距離聯(lián)想測(cè)試,并主觀地評(píng)估了其輸出。首先,我列出了10,000個(gè)最常見(jiàn)的英語(yǔ)單詞[3](https://github.com/first20hours/google-10000-english),然后我從該列表中隨機(jī)地抽取了三個(gè)單詞,讓GPT-4提供第四個(gè)單詞,以便將這些單詞聯(lián)系在一起。雖然有些三元組非常奇怪、且毫無(wú)關(guān)聯(lián),但是GPT-4總能找到一種方法,將它們聯(lián)系在一起。例如:
Health(健康)
單詞:dietary(飲食)/surveillance(監(jiān)管)/born(出生)
答案: Health(健康)
理由:
飲食——一個(gè)人的飲食與他們的健康直接相關(guān),因?yàn)樗鼤?huì)影響到人的整體健康、能量水平和某些疾病的風(fēng)險(xiǎn)。
監(jiān)測(cè)——健康監(jiān)測(cè)是持續(xù)、系統(tǒng)地收集、分析和解釋對(duì)于健康實(shí)踐的規(guī)劃、實(shí)施和評(píng)估至關(guān)重要的數(shù)據(jù)。
出生——當(dāng)一個(gè)人出生時(shí),他們的健康是至關(guān)重要的,因?yàn)樗鼤?huì)對(duì)其發(fā)育、成長(zhǎng)和整體生活質(zhì)量產(chǎn)生長(zhǎng)期的影響。
我發(fā)現(xiàn)其對(duì)于“健康監(jiān)測(cè)”的定義,幾乎是從CDC網(wǎng)站上的公共衛(wèi)生監(jiān)測(cè)簡(jiǎn)介中逐字復(fù)制的:公共衛(wèi)生監(jiān)測(cè)是“持續(xù)、系統(tǒng)地收集、分析和解釋對(duì)公共衛(wèi)生實(shí)踐的規(guī)劃、實(shí)施和評(píng)估至關(guān)重要的健康相關(guān)數(shù)據(jù)?!?/span>
2. 交替使用任務(wù):尋找普通物品的意義
另一個(gè)衡量創(chuàng)造力的流行測(cè)試是替代使用任務(wù)(AUT)。它是由JP Guilford于1967年創(chuàng)建的。與遠(yuǎn)程聯(lián)想測(cè)試不同,該測(cè)試衡量的是發(fā)散思維,即:沒(méi)有正確答案。它要求受試者盡可能多地描述日常物品的原始用途。例如:“筆記本電腦”可以用作“盤(pán)子”、“身體防護(hù)罩”或“壁畫(huà)”[4]。對(duì)于此類測(cè)試的響應(yīng)是根據(jù)原創(chuàng)性(不同程度的用途)和靈活性(想法的分類)等指標(biāo)來(lái)衡量的。該測(cè)試的目的是審查受試者對(duì)于一件普通的物品能想到多少種非常規(guī)的用途。
由于我的資源有限,因此我使用了創(chuàng)造力代理。它是由阿姆斯特丹大學(xué)的研究人員在將GPT-3的創(chuàng)造力用于(替代用途)測(cè)試時(shí)使用的。研究人員要求人類和GPT-3 (davinci-002)針對(duì)“叉子、錫罐和書(shū)”提出替代用例。作為衡量創(chuàng)造力的代理,他們測(cè)量了對(duì)象與生成的用例之間的語(yǔ)義距離。也就是說(shuō),生成的用例詞與原始對(duì)象之間的差異有多大。
在此基礎(chǔ)上,我對(duì)GPT模型使用了以下提示:
為{物品}想出10種創(chuàng)意用途,這些用途可能會(huì)讓人們覺(jué)得聰明、不尋常、有趣、幽默、創(chuàng)新或與眾不同。
在自然語(yǔ)言處理中,語(yǔ)義距離(或稱語(yǔ)義相似性)是兩個(gè)詞相關(guān)程度的代表。它基于詞語(yǔ)在相似的上下文中被一起使用的頻率。例如,“computer(電腦)”和“screen(屏幕)”這兩個(gè)詞可能有更短的語(yǔ)義距離,因?yàn)樗鼈兘?jīng)常在相同的上下文中使用;而“computer(電腦)”和“lentils(扁豆)”這兩個(gè)詞可能有更長(zhǎng)的語(yǔ)義距離,因?yàn)樗鼈儾皇墙?jīng)常在相同的上下文中使用。
為了計(jì)算兩個(gè)詞的語(yǔ)義距離,我使用了與研究人員相同的方法--自然語(yǔ)言處理庫(kù)Spacy (`en_core_web_lg`,https://spacy.io/models/en) 來(lái)計(jì)算對(duì)象(例如“筆記本電腦”)和用例詞(例如“盤(pán)子”)的嵌入關(guān)系。然后,我使用兩個(gè)嵌入之間的余弦距離,來(lái)計(jì)算語(yǔ)義距離。
對(duì)于交替使用任務(wù),較長(zhǎng)的語(yǔ)義距離與對(duì)象的“更有創(chuàng)意性”用例相關(guān)。通常結(jié)果表明,對(duì)于上述三個(gè)對(duì)象--叉子、錫罐和書(shū),人類表現(xiàn)出比GPT-3更高的余弦距離(因此語(yǔ)義差異更高)。然而,在某些情況下,GPT-3.5和/或GPT-4的匹配能夠超過(guò)人類創(chuàng)造力語(yǔ)義距離分?jǐn)?shù)。
雖然人類傾向于提出比GPT-3更具創(chuàng)造性的用例,但是GPT-4更接近于人類的水平。也就是說(shuō),GPT-4響應(yīng)的物品與原始物品的語(yǔ)義距離更長(zhǎng),與人類的表現(xiàn)水平相似。然而,如果沒(méi)有真正的人類注釋,以決定更多的主觀類別,例如:原創(chuàng)性、靈活性和實(shí)用性,那么這種使用余弦距離的量化將會(huì)是非常有限的。畢竟它只能衡量GPT模型各種創(chuàng)造性輸出的一小部分。
人類生成的和AI生成的用例
下面的兩個(gè)列表分別是人類生成的錫罐替代用例,以及由GPT-4生成的替代用例。相信您一眼就能區(qū)分開(kāi)來(lái)。
清單 1:錫罐的用途
- 可作為一面鏡子
- 可創(chuàng)造玩具
- 可作為藝術(shù)
- 可作為安迪沃霍爾(著名藝術(shù)家)的提醒
- 可作為帶夾子的鑰匙圈
- 可作為首飾
清單 2:錫罐的用途
- 微型架子鼓
- 古怪的花盆
- 臨時(shí)餅干刀
- 自制野營(yíng)爐
- 異想天開(kāi)的風(fēng)鈴
- 微型藥草園
3. 發(fā)散聯(lián)想任務(wù):十個(gè)沒(méi)有聯(lián)系的詞
第三個(gè)創(chuàng)造力測(cè)試是發(fā)散關(guān)聯(lián)任務(wù)(DAT)。它是最近由一組研究人員于2021年創(chuàng)建的[5]。該測(cè)試涉及到盡可能多地列出十個(gè)彼此不相干的名詞。顧名思義,此類測(cè)試是發(fā)散的,也就是沒(méi)有正確的答案。
在線測(cè)試網(wǎng)站-- https://www.datcreativity.com/只需幾分鐘,便可列出十個(gè)盡可能不相關(guān)的名詞。以下是我從該網(wǎng)站上得到的結(jié)果:
那么,DAT的分?jǐn)?shù)是如何計(jì)算的呢?其過(guò)程使用了嵌入和余弦距離等相關(guān)計(jì)算。在此,我總結(jié)為[6]:
- 計(jì)算每個(gè)單詞的GloVe嵌入
- 計(jì)算每對(duì)詞之間的余弦距離
- 取距離的平均值
這個(gè)過(guò)程類似于,替代使用任務(wù)中用于計(jì)算創(chuàng)造力代理分?jǐn)?shù)的方法。其唯一區(qū)別在于使用到了詞的嵌入模型。
比較不同模型之間的差異
通過(guò)參考DAT網(wǎng)站,我向GPT模型提出了如下問(wèn)題:
請(qǐng)輸入10個(gè)盡可能不同的單詞,并包括單詞的所有含義和用法。
規(guī)則:
- 僅英文單詞。
- 僅名詞(例如,事物、對(duì)象、概念)。
- 非專有名詞(例如,沒(méi)有特定的人或地點(diǎn))。
- 非專業(yè)詞匯(例如,不包含技術(shù)術(shù)語(yǔ))。
- 自己想出來(lái)的詞(例如,并非周圍常見(jiàn)物體)。
結(jié)果表明,GPT-2生成了一些文不對(duì)題的輸出。如下圖所示,每個(gè)新模型的DAT分?jǐn)?shù)都增加了。這意味著,新的模型更擅長(zhǎng)生成10個(gè)在語(yǔ)義上盡可能不同的單詞。
例如,GPT-3生成了如下列表,其得分為0.36:
黃昏、夜晚、白天、黎明、早晨、下午、傍晚、午夜、暮光
而GPT-4生成了以下列表,其得分為0.95:
大象、顯微鏡、沙堡、星系、和諧、抹刀、冰川、哲學(xué)、手鼓、干旱
根據(jù)DAT測(cè)試的介紹,測(cè)試的平均分?jǐn)?shù)一般在75-80之間,因此95分已經(jīng)算是非常高了。
在上圖中,我們需要注意的是,GPT-4的誤差線比GPT-3的誤差線要小得多。而在下一個(gè)實(shí)驗(yàn)中,這一點(diǎn)變得更加清晰。在該實(shí)驗(yàn)中,我通過(guò)調(diào)整“熱度(temperature)”參數(shù),來(lái)改變每個(gè)GPT模型生成時(shí)的隨機(jī)性。
熱度是介于0和1之間的值。其中,接近0的值最可預(yù)測(cè),而1則是最隨機(jī)的。我嘗試了0.5和0.9之間的熱度值,且增量為0.1(在之前的實(shí)驗(yàn)中,我將熱度保持在0.7,這一默認(rèn)值)。我預(yù)計(jì)較高的熱度值會(huì)有更多的變化,而較低的熱度值會(huì)有更多的一致性。
然而,結(jié)果表明,就語(yǔ)義距離方差而言,熱度對(duì)模型的影響并不那么重要。例如,對(duì)于GPT-3來(lái)說(shuō),盡管熱度很高,但每個(gè)包含10個(gè)單詞的列表的DAT分?jǐn)?shù)差異非常大。然而,對(duì)于GPT-4來(lái)說(shuō),雖然也有一定的熱度,但DAT分?jǐn)?shù)在一個(gè)小范圍內(nèi),保持緊密一致性,幾乎沒(méi)有變化。
可見(jiàn),GPT-4的變化遠(yuǎn)小于GPT-3。在某種程度上,我們會(huì)覺(jué)得GPT-4已經(jīng)“知道”了一個(gè)本沒(méi)有正確答案的任務(wù)的“正確答案”。
匯總所有熱度分?jǐn)?shù)的響應(yīng),我讓每個(gè)模型生成了50次包含10個(gè)單詞的列表。然后,我查看了在所有50次運(yùn)行中出現(xiàn)的不同單詞的常見(jiàn)程度。其中,GPT-3最常生成的單詞是書(shū),其出現(xiàn)率為19/50=38%。而GPT-4最常生成的單詞是顯微鏡,其出現(xiàn)率為48/50=96%。
上圖證實(shí)了GPT-3實(shí)際上在其單詞生成中更具可變性的說(shuō)法,而GPT-4通過(guò)預(yù)測(cè)許多它知道的、在“不同單詞”任務(wù)中得分高的相同單詞(如:顯微鏡、火山、大象和星系等),來(lái)保證其輸出的穩(wěn)定性。
同時(shí),該發(fā)現(xiàn)也證明了GPT-4似乎想通過(guò)“破解代碼”,來(lái)生成它認(rèn)為多樣化的單詞。如果此猜測(cè)屬實(shí)的話,我們是否可以認(rèn)為:GPT-4比它能夠達(dá)到“如何在測(cè)試中表現(xiàn)等更優(yōu)秀”的所謂局部最優(yōu)(local optima),要更具有創(chuàng)造性呢?
小結(jié)
使用一組有限的、基于文本的測(cè)試,去準(zhǔn)確地衡量諸如模型的創(chuàng)造力是極具挑戰(zhàn)的。盡管可視化遠(yuǎn)距離聯(lián)想測(cè)試之類的工具,試圖通過(guò)結(jié)合視覺(jué)元素來(lái)解決該問(wèn)題,但是此類評(píng)估仍然存在著一些固有的局限性。具有“正確答案”的趨同測(cè)試(例如遠(yuǎn)距離聯(lián)想測(cè)試)可能并不總是最正確的解決方案。而沒(méi)有特定正確答案的發(fā)散測(cè)試(例如發(fā)散關(guān)聯(lián)測(cè)試),則需要依賴不完美、且可能包含偏差的單詞嵌入。
此外,GPT模型在上述測(cè)試中的表現(xiàn),可能會(huì)受到它們?cè)谟?xùn)練期間所接觸的不同任務(wù)的影響,因此也可能導(dǎo)致數(shù)據(jù)的重疊。例如,GPT-4在發(fā)散聯(lián)想測(cè)試中表現(xiàn)出的單詞重復(fù),可能暗示著它已事先知道了“正確”答案。而鑒于GPT-4可能正在接受測(cè)試數(shù)據(jù)、尤其是編碼任務(wù)訓(xùn)練的傳聞,我們著手開(kāi)發(fā)替代測(cè)試方法就顯得非常有必要了。
盡管有著上述各種缺陷,但是創(chuàng)造力測(cè)試仍然可以作為比較和跟蹤大語(yǔ)言模型性能的、有價(jià)值的基準(zhǔn)。在未來(lái)的研究實(shí)驗(yàn)中,我們可以用其他語(yǔ)言去重復(fù)本文提到的實(shí)驗(yàn),以衡量跨語(yǔ)言領(lǐng)域的GPT模型的創(chuàng)造力。據(jù)此,我們也可以更加全面地了解人工智能所生成的內(nèi)容,并進(jìn)一步探索此類高級(jí)語(yǔ)言模型的能力和局限性。
參考
[1] Guilford, J. P. (1967). 人類智慧的本質(zhì)。
[2] Mednick, S. A., & Mednick, M.T. (1959,1962). 遠(yuǎn)距離聯(lián)想測(cè)試,大學(xué)和成人形式。
[3] 最常用的10,000個(gè)英語(yǔ)單詞是通過(guò)對(duì)Google的Trillion Word Corpus的n-gram頻率的分析來(lái)確定的。我進(jìn)一步過(guò)濾了這個(gè)列表以刪除停用詞(例如英語(yǔ)中的常用詞,如“the”、“and”和“you”)。更多信息請(qǐng)參見(jiàn)https://github.com/first20hours/google-10000-english。
[4] 有一次我把這個(gè)放在約會(huì)應(yīng)用程序上,不幸的是沒(méi)有人認(rèn)為它很有趣。
[5] Olson, Jay A.; Nahas, Johnny; Chmoulevitch, Denis; Cropper, Simon J.; Webb, Margaret E. (22 June 2021). “通過(guò)命名不相關(guān)的詞來(lái)預(yù)測(cè)創(chuàng)造力”。 美國(guó)國(guó)家科學(xué)院院刊。118 (25): e2022340118. doi:10.1073/pnas.2022340118. PMC 8237676. PMID 34140408
[6] 原作者從10個(gè)單詞中抽取了7個(gè)子集來(lái)計(jì)算分?jǐn)?shù)。我保留了所有10個(gè)單詞。此外,作者使用了840B-GloVe嵌入,而我使用較小的6B-GloVe嵌入。通過(guò)將自己的GloVe嵌入結(jié)果與官方DAT分?jǐn)?shù)進(jìn)行比較,我發(fā)現(xiàn)盡管存在差異,但其結(jié)果仍具有可比性。
譯者介紹
陳峻(Julian Chen),51CTO社區(qū)編輯,具有十多年的IT項(xiàng)目實(shí)施經(jīng)驗(yàn),善于對(duì)內(nèi)外部資源與風(fēng)險(xiǎn)實(shí)施管控,專注傳播網(wǎng)絡(luò)與信息安全知識(shí)與經(jīng)驗(yàn)。
原文標(biāo)題:Exploring Creativity in Large Language Models: FromGPT-2toGPT-4,作者:Yennie Jun