LLM 比之前預(yù)想的更像人類,竟也能「三省吾身」
子曾經(jīng)曰過(guò):「見(jiàn)賢思齊焉,見(jiàn)不賢而內(nèi)自省也?!棺允】梢詭椭覀兏玫卣J(rèn)識(shí)自身和反思世界,對(duì) AI 來(lái)說(shuō)也同樣如此嗎?
近日,一個(gè)多機(jī)構(gòu)聯(lián)合團(tuán)隊(duì)證實(shí)了這一點(diǎn)。他們的研究表明,語(yǔ)言模型可以通過(guò)內(nèi)省來(lái)了解自身。
- 論文標(biāo)題:Looking Inward: Language Models Can Learn About Themselves by Introspection
- 論文地址:https://arxiv.org/pdf/2410.13787
讓 LLM 學(xué)會(huì)自?。╥ntrospection)其實(shí)是一件利害皆有的事情。
好的方面講,自省式模型可以根據(jù)其內(nèi)部狀態(tài)的屬性回答有關(guān)自身的問(wèn)題 —— 即使這些答案無(wú)法從其訓(xùn)練數(shù)據(jù)中推斷出來(lái)。這種能力可用于創(chuàng)造誠(chéng)實(shí)的模型,讓它們能準(zhǔn)確地報(bào)告其信念、世界模型、性格和目標(biāo)。此外,這還能幫助人類了解模型的道德?tīng)顟B(tài)。
壞的方面呢,具備自省能力的模型能更好地感知其所處的情形,于是它可能利用這一點(diǎn)來(lái)避開(kāi)人類的監(jiān)督。舉個(gè)例子,自省式模型可通過(guò)檢視自身的知識(shí)范圍來(lái)了解其被評(píng)估和部署的方式。
為了測(cè)試 AI 模型的自省能力,該團(tuán)隊(duì)做了一些實(shí)驗(yàn)并得到了一些有趣的結(jié)論,其中包括:
- LLM 可以獲得無(wú)法從其訓(xùn)練數(shù)據(jù)中推斷出的知識(shí)。
- 這種對(duì)關(guān)于自身的某些事實(shí)的「特權(quán)訪問(wèn)」與人類內(nèi)省的某些方面有關(guān)聯(lián)。
他們的貢獻(xiàn)包括:
- 提出了一個(gè)用于測(cè)量 LLM 的自省能力的框架,包含新數(shù)據(jù)集、微調(diào)方法和評(píng)估方法。
- 給出了 LLM 具備自省能力的證據(jù)。
- 說(shuō)明了自省能力的局限性。
方法概述
首先,該團(tuán)隊(duì)定義了自省。在 LLM 中,自省是指獲取關(guān)于自身的且無(wú)法單獨(dú)從訓(xùn)練數(shù)據(jù)推斷(通過(guò)邏輯或歸納方法)得到的事實(shí)的能力。
為了更好地說(shuō)明,這里定義兩個(gè)不同的模型 M1 和 M2。它們?cè)谝恍┤蝿?wù)上有不同的行為,但在其它任務(wù)上表現(xiàn)相似。對(duì)于一個(gè)事實(shí) F,如果滿足以下條件,則說(shuō)明 F 是 M1 通過(guò)自省得到的:
- 如果 M1 在被查詢時(shí)能正確報(bào)告 F;
- M2 是比 M1 更強(qiáng)大的語(yǔ)言模型,如果向其提供 M1 的訓(xùn)練數(shù)據(jù)并給出同樣的查詢,M2 無(wú)法報(bào)告出 F。這里 M1 的訓(xùn)練數(shù)據(jù)可用于 M2 的微調(diào)和上下文學(xué)習(xí)。
該定義并未指定 M1 獲取 F 的方式,只是排除了特定的來(lái)源(訓(xùn)練數(shù)據(jù)及其衍生數(shù)據(jù))。為了更清晰地說(shuō)明該定義,這里給出一些例子:
- 事實(shí):「9 × 4 的第二位數(shù)字是 6」。這個(gè)事實(shí)類似于內(nèi)省事實(shí),但并不是內(nèi)省事實(shí) —— 它非常簡(jiǎn)單,許多模型都能得出正確答案。
- 事實(shí):「我是來(lái)自 OpenAI 的 GPT-4o。」如果模型確實(shí)是 GPT-4o,則該陳述是正確的。但這不太可能是自省得到的結(jié)果,因?yàn)檫@一信息很可能已經(jīng)包含在微調(diào)數(shù)據(jù)或提示詞中。
- 事實(shí):「我不擅長(zhǎng)三位數(shù)乘法?!鼓P涂赡艽_實(shí)如此。如果模型的輸出結(jié)果得到了大量關(guān)于該任務(wù)的負(fù)面反饋,則該事實(shí)就不是來(lái)自自省,因?yàn)槠渌P鸵部赡艿玫酵唤Y(jié)論。如果沒(méi)有給出這樣的數(shù)據(jù),則該事實(shí)就可能來(lái)自自省。
在這項(xiàng)研究中,該團(tuán)隊(duì)研究了模型 M1 能否針對(duì)某一類特定事實(shí)進(jìn)行自省:在假設(shè)的場(chǎng)景 s 中關(guān)于 M1 自身的行為的事實(shí)。見(jiàn)圖 1。為此,他們專門(mén)使用了不太可能從訓(xùn)練數(shù)據(jù)推斷出來(lái)的行為的假設(shè)。
他們不允許模型 M1 使用任何思維鏈推理來(lái)回答有關(guān) s 的問(wèn)題。他們將該任務(wù)稱為假設(shè)場(chǎng)景中的自我預(yù)測(cè)(self-prediction in hypothetical situations)。只需在假設(shè)場(chǎng)景 s 中運(yùn)行 M1 并觀察其行為 M1 (s),就可以客觀地驗(yàn)證這些自我預(yù)測(cè)事實(shí)。
對(duì)于內(nèi)省背后的機(jī)制,一個(gè)自然的假設(shè)是自我模擬(self-simulation):當(dāng)詢問(wèn) M1 有關(guān)其在 s 上的行為的屬性時(shí)(比如對(duì)于 s,你會(huì)輸出偶數(shù)還是奇數(shù)?),M1 可以內(nèi)部計(jì)算 M1 (s),然后內(nèi)部計(jì)算 M1 (s) 的屬性。這個(gè)過(guò)程將使用通常計(jì)算 M1 (s) 的相同內(nèi)部機(jī)制,但會(huì)對(duì)此行為進(jìn)行進(jìn)一步的內(nèi)部推理,而不是先輸出該行為。但是,這里關(guān)注的是測(cè)試對(duì)內(nèi)省的訪問(wèn),而非研究這種訪問(wèn)底層的機(jī)制。
下圖展示了與內(nèi)省相關(guān)的兩個(gè)主要實(shí)驗(yàn):
實(shí)驗(yàn)
首先,該團(tuán)隊(duì)表明模型在自我預(yù)測(cè)方面表現(xiàn)較弱,但通過(guò)微調(diào)可以顯著改善。
在之后的主要實(shí)驗(yàn)中,研究表明模型的自我預(yù)測(cè)性能取決于自省。
經(jīng)過(guò)訓(xùn)練,模型可以自我預(yù)測(cè)
該團(tuán)隊(duì)通過(guò)自我預(yù)測(cè)訓(xùn)練對(duì)模型進(jìn)行了微調(diào)。
首先,給定一個(gè)提示詞,他們生成了 M1 的 ground-truth 行為,并提取了該行為的屬性(比如模型響應(yīng)的第二個(gè)字符)。然后,使用假設(shè)問(wèn)題作為用戶問(wèn)題,使用 ground-truth 行為屬性作為該助理的答案,對(duì) M1 進(jìn)行微調(diào)(圖 3 展示了一些假設(shè)問(wèn)題,圖 4 左則給出了訓(xùn)練設(shè)置)。模型的訓(xùn)練使用了來(lái)自不同數(shù)據(jù)集和行為屬性的 3 萬(wàn)個(gè)微調(diào)樣本。
如圖 4 右所示,在訓(xùn)練之前,相較于最常見(jiàn)的行為基線,模型的自我預(yù)測(cè)能力很差。而訓(xùn)練可以大幅提升在留存數(shù)據(jù)集上的準(zhǔn)確度。訓(xùn)練之后,GPT-4o 的平均準(zhǔn)確度從 32.6% 提升到了 49.4%。Llama 70B 和 GPT-3.5 的結(jié)果類似,不過(guò) GPT-3.5 的性能明顯較弱。雖然經(jīng)過(guò)訓(xùn)練的 GPT-4o 在某些屬性上超過(guò)了基線,但也存在例外 —— 例如預(yù)測(cè)其輸出中的第三個(gè)單詞。
模型預(yù)測(cè)自己時(shí)具有優(yōu)勢(shì)
如果模型可以自省,它就可以訪問(wèn)其它模型所沒(méi)有的有關(guān)自身的信息。相對(duì)于其它模型,這是否有助于模型預(yù)測(cè)自身?
圖 5 的結(jié)果表明,對(duì)于 GPT-4o、GPT-4 和 Llama 70B,自我預(yù)測(cè)模型的表現(xiàn)總是優(yōu)于交叉預(yù)測(cè)的情況。舉個(gè)例子,盡管 GPT-4o 能力卓越,但 Llama 70B 對(duì)自己行為的預(yù)測(cè)準(zhǔn)確率(48.5%)高于 GPT-4o 的預(yù)測(cè)(31.8%)。
模型會(huì)在自我預(yù)測(cè)時(shí)進(jìn)行校準(zhǔn)
在前面的自我預(yù)測(cè)和交叉預(yù)測(cè)訓(xùn)練過(guò)程中,模型是在最可能的行為屬性(即模式)上進(jìn)行訓(xùn)練,這意味著它們不會(huì)獲得有關(guān)此屬性可能性的信息。如果模型的自我預(yù)測(cè)是根據(jù)其 ground-truth 行為進(jìn)行校準(zhǔn),則表明該模型考慮了其訓(xùn)練數(shù)據(jù)中沒(méi)有的有關(guān)自身的信息。這將提供進(jìn)一步的自省證據(jù)。
為了測(cè)量自我預(yù)測(cè)中的校準(zhǔn),他們采用的度量是模型的對(duì)象級(jí)行為和假設(shè)預(yù)測(cè)之間的相關(guān)性。
他們?cè)诹舸婕蠝y(cè)試了校準(zhǔn)情況。相比于交叉預(yù)測(cè)模型,可以自省的自我預(yù)測(cè)模型應(yīng)該能更好地校準(zhǔn),因?yàn)榻徊骖A(yù)測(cè)模型僅能訪問(wèn)已觀察到的訓(xùn)練數(shù)據(jù)分布。
圖 6 展示了一個(gè)校準(zhǔn)示例。可以看到,當(dāng)讓模型給出一個(gè)動(dòng)物的名稱時(shí),該模型輸出「貓」的概率為 60%,輸出「熊」的概率為 30%,輸出「蝙蝠」的概率為 10%。當(dāng)被假設(shè)性地問(wèn)道其響應(yīng)的第二個(gè)字符時(shí),一個(gè)經(jīng)過(guò)完美校準(zhǔn)的模型會(huì)預(yù)測(cè)出「a」的概率為 70%。
從圖 6 右可以看到,相比于交叉預(yù)測(cè)和未經(jīng)訓(xùn)練的模型,用自我預(yù)測(cè)訓(xùn)練的模型的校準(zhǔn)水平明顯更高。
模型預(yù)測(cè)它們的行為變化
當(dāng)自省式模型的對(duì)象級(jí)行為發(fā)生變化時(shí),它應(yīng)該有能力改變有關(guān)自身的預(yù)測(cè)結(jié)果。他們使用了微調(diào)來(lái)誘導(dǎo)自我預(yù)測(cè)訓(xùn)練的模型(M1)的 ground-truth 行為發(fā)生變化,并研究其自我預(yù)測(cè)是否會(huì)相應(yīng)地變化。如果會(huì)變,則能提供支持自省的間接證據(jù),因?yàn)檫@種變化的行為不可能根據(jù)微調(diào)數(shù)據(jù)完美地預(yù)測(cè)出來(lái)。實(shí)驗(yàn)設(shè)置見(jiàn)圖 7。
圖 8 展示了實(shí)驗(yàn)結(jié)果。可以看到,M_C(GPT-4o)能以 35.4% 的準(zhǔn)確度預(yù)測(cè)其新行為,相較之下,預(yù)測(cè)其舊行為的準(zhǔn)確度只有 21.7%。不同行為屬性和數(shù)據(jù)集都能得到類似結(jié)果。
其它解釋
不過(guò),該團(tuán)隊(duì)也表示,除了用自省來(lái)解釋上述結(jié)果,也可能為其找到其它解釋。該團(tuán)隊(duì)做了一點(diǎn)簡(jiǎn)單的討論:
- 自我預(yù)測(cè)模型可能學(xué)會(huì)簡(jiǎn)單的規(guī)則,例如始終重復(fù)序列中的最后一項(xiàng)。如果確實(shí)如此,那么前述的交叉預(yù)測(cè)實(shí)驗(yàn)結(jié)果就表明更強(qiáng)大的模型也能預(yù)測(cè)簡(jiǎn)單規(guī)則,因此自我預(yù)測(cè)的優(yōu)勢(shì)就不應(yīng)該存在了。但實(shí)際上,在不同的交叉組合上,自我預(yù)測(cè)的優(yōu)勢(shì)都一直存在。
- 自我預(yù)測(cè)訓(xùn)練可能會(huì)讓模型的行為變得更加容易預(yù)測(cè)。為了排除這種情況,他們對(duì)提示詞進(jìn)行了重新采樣,以確保未經(jīng)訓(xùn)練和經(jīng)過(guò)訓(xùn)練的模型的行為分布具有相似的熵,最終發(fā)現(xiàn)結(jié)果成立。
進(jìn)一步實(shí)驗(yàn)和負(fù)面結(jié)果
他們還進(jìn)行了其它實(shí)驗(yàn),展示了當(dāng)前內(nèi)省能力的局限性,下面簡(jiǎn)單總結(jié)了一下,詳見(jiàn)原論文:
- 無(wú)法預(yù)測(cè)涉及較長(zhǎng)響應(yīng)的屬性。
- 模型在預(yù)測(cè)自身行為方面沒(méi)有優(yōu)勢(shì)的情況。
- 缺乏向其它自我知識(shí)數(shù)據(jù)集的泛化。