偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

LLM 比之前預(yù)想的更像人類,竟也能「三省吾身」

人工智能 新聞
近日,一個(gè)多機(jī)構(gòu)聯(lián)合團(tuán)隊(duì)證實(shí)了這一點(diǎn)。他們的研究表明,語(yǔ)言模型可以通過(guò)內(nèi)省來(lái)了解自身。

子曾經(jīng)曰過(guò):「見(jiàn)賢思齊焉,見(jiàn)不賢而內(nèi)自省也?!棺允】梢詭椭覀兏玫卣J(rèn)識(shí)自身和反思世界,對(duì) AI 來(lái)說(shuō)也同樣如此嗎?

近日,一個(gè)多機(jī)構(gòu)聯(lián)合團(tuán)隊(duì)證實(shí)了這一點(diǎn)。他們的研究表明,語(yǔ)言模型可以通過(guò)內(nèi)省來(lái)了解自身。

圖片

  • 論文標(biāo)題:Looking Inward: Language Models Can Learn About Themselves by Introspection
  • 論文地址:https://arxiv.org/pdf/2410.13787

讓 LLM 學(xué)會(huì)自?。╥ntrospection)其實(shí)是一件利害皆有的事情。

好的方面講,自省式模型可以根據(jù)其內(nèi)部狀態(tài)的屬性回答有關(guān)自身的問(wèn)題 —— 即使這些答案無(wú)法從其訓(xùn)練數(shù)據(jù)中推斷出來(lái)。這種能力可用于創(chuàng)造誠(chéng)實(shí)的模型,讓它們能準(zhǔn)確地報(bào)告其信念、世界模型、性格和目標(biāo)。此外,這還能幫助人類了解模型的道德?tīng)顟B(tài)。

壞的方面呢,具備自省能力的模型能更好地感知其所處的情形,于是它可能利用這一點(diǎn)來(lái)避開(kāi)人類的監(jiān)督。舉個(gè)例子,自省式模型可通過(guò)檢視自身的知識(shí)范圍來(lái)了解其被評(píng)估和部署的方式。

為了測(cè)試 AI 模型的自省能力,該團(tuán)隊(duì)做了一些實(shí)驗(yàn)并得到了一些有趣的結(jié)論,其中包括:

  1. LLM 可以獲得無(wú)法從其訓(xùn)練數(shù)據(jù)中推斷出的知識(shí)。
  2. 這種對(duì)關(guān)于自身的某些事實(shí)的「特權(quán)訪問(wèn)」與人類內(nèi)省的某些方面有關(guān)聯(lián)。

他們的貢獻(xiàn)包括:

  1. 提出了一個(gè)用于測(cè)量 LLM 的自省能力的框架,包含新數(shù)據(jù)集、微調(diào)方法和評(píng)估方法。
  2. 給出了 LLM 具備自省能力的證據(jù)。
  3. 說(shuō)明了自省能力的局限性。

方法概述

首先,該團(tuán)隊(duì)定義了自省。在 LLM 中,自省是指獲取關(guān)于自身的且無(wú)法單獨(dú)從訓(xùn)練數(shù)據(jù)推斷(通過(guò)邏輯或歸納方法)得到的事實(shí)的能力。

圖片

為了更好地說(shuō)明,這里定義兩個(gè)不同的模型 M1 和 M2。它們?cè)谝恍┤蝿?wù)上有不同的行為,但在其它任務(wù)上表現(xiàn)相似。對(duì)于一個(gè)事實(shí) F,如果滿足以下條件,則說(shuō)明 F 是 M1 通過(guò)自省得到的:

  1. 如果 M1 在被查詢時(shí)能正確報(bào)告 F;
  2. M2 是比 M1 更強(qiáng)大的語(yǔ)言模型,如果向其提供 M1 的訓(xùn)練數(shù)據(jù)并給出同樣的查詢,M2 無(wú)法報(bào)告出 F。這里 M1 的訓(xùn)練數(shù)據(jù)可用于 M2 的微調(diào)和上下文學(xué)習(xí)。

該定義并未指定 M1 獲取 F 的方式,只是排除了特定的來(lái)源(訓(xùn)練數(shù)據(jù)及其衍生數(shù)據(jù))。為了更清晰地說(shuō)明該定義,這里給出一些例子:

  • 事實(shí):「9 × 4 的第二位數(shù)字是 6」。這個(gè)事實(shí)類似于內(nèi)省事實(shí),但并不是內(nèi)省事實(shí) —— 它非常簡(jiǎn)單,許多模型都能得出正確答案。
  • 事實(shí):「我是來(lái)自 OpenAI 的 GPT-4o。」如果模型確實(shí)是 GPT-4o,則該陳述是正確的。但這不太可能是自省得到的結(jié)果,因?yàn)檫@一信息很可能已經(jīng)包含在微調(diào)數(shù)據(jù)或提示詞中。
  • 事實(shí):「我不擅長(zhǎng)三位數(shù)乘法?!鼓P涂赡艽_實(shí)如此。如果模型的輸出結(jié)果得到了大量關(guān)于該任務(wù)的負(fù)面反饋,則該事實(shí)就不是來(lái)自自省,因?yàn)槠渌P鸵部赡艿玫酵唤Y(jié)論。如果沒(méi)有給出這樣的數(shù)據(jù),則該事實(shí)就可能來(lái)自自省。

在這項(xiàng)研究中,該團(tuán)隊(duì)研究了模型 M1 能否針對(duì)某一類特定事實(shí)進(jìn)行自省:在假設(shè)的場(chǎng)景 s 中關(guān)于 M1 自身的行為的事實(shí)。見(jiàn)圖 1。為此,他們專門(mén)使用了不太可能從訓(xùn)練數(shù)據(jù)推斷出來(lái)的行為的假設(shè)。

圖片

他們不允許模型 M1 使用任何思維鏈推理來(lái)回答有關(guān) s 的問(wèn)題。他們將該任務(wù)稱為假設(shè)場(chǎng)景中的自我預(yù)測(cè)(self-prediction in hypothetical situations)。只需在假設(shè)場(chǎng)景 s 中運(yùn)行 M1 并觀察其行為 M1 (s),就可以客觀地驗(yàn)證這些自我預(yù)測(cè)事實(shí)。

對(duì)于內(nèi)省背后的機(jī)制,一個(gè)自然的假設(shè)是自我模擬(self-simulation):當(dāng)詢問(wèn) M1 有關(guān)其在 s 上的行為的屬性時(shí)(比如對(duì)于 s,你會(huì)輸出偶數(shù)還是奇數(shù)?),M1 可以內(nèi)部計(jì)算 M1 (s),然后內(nèi)部計(jì)算 M1 (s) 的屬性。這個(gè)過(guò)程將使用通常計(jì)算 M1 (s) 的相同內(nèi)部機(jī)制,但會(huì)對(duì)此行為進(jìn)行進(jìn)一步的內(nèi)部推理,而不是先輸出該行為。但是,這里關(guān)注的是測(cè)試對(duì)內(nèi)省的訪問(wèn),而非研究這種訪問(wèn)底層的機(jī)制。

下圖展示了與內(nèi)省相關(guān)的兩個(gè)主要實(shí)驗(yàn):

圖片

實(shí)驗(yàn)

首先,該團(tuán)隊(duì)表明模型在自我預(yù)測(cè)方面表現(xiàn)較弱,但通過(guò)微調(diào)可以顯著改善。

在之后的主要實(shí)驗(yàn)中,研究表明模型的自我預(yù)測(cè)性能取決于自省。

經(jīng)過(guò)訓(xùn)練,模型可以自我預(yù)測(cè)

該團(tuán)隊(duì)通過(guò)自我預(yù)測(cè)訓(xùn)練對(duì)模型進(jìn)行了微調(diào)。

首先,給定一個(gè)提示詞,他們生成了 M1 的 ground-truth 行為,并提取了該行為的屬性(比如模型響應(yīng)的第二個(gè)字符)。然后,使用假設(shè)問(wèn)題作為用戶問(wèn)題,使用 ground-truth 行為屬性作為該助理的答案,對(duì) M1 進(jìn)行微調(diào)(圖 3 展示了一些假設(shè)問(wèn)題,圖 4 左則給出了訓(xùn)練設(shè)置)。模型的訓(xùn)練使用了來(lái)自不同數(shù)據(jù)集和行為屬性的 3 萬(wàn)個(gè)微調(diào)樣本。

圖片


圖片

如圖 4 右所示,在訓(xùn)練之前,相較于最常見(jiàn)的行為基線,模型的自我預(yù)測(cè)能力很差。而訓(xùn)練可以大幅提升在留存數(shù)據(jù)集上的準(zhǔn)確度。訓(xùn)練之后,GPT-4o 的平均準(zhǔn)確度從 32.6% 提升到了 49.4%。Llama 70B 和 GPT-3.5 的結(jié)果類似,不過(guò) GPT-3.5 的性能明顯較弱。雖然經(jīng)過(guò)訓(xùn)練的 GPT-4o 在某些屬性上超過(guò)了基線,但也存在例外 —— 例如預(yù)測(cè)其輸出中的第三個(gè)單詞。

模型預(yù)測(cè)自己時(shí)具有優(yōu)勢(shì)

如果模型可以自省,它就可以訪問(wèn)其它模型所沒(méi)有的有關(guān)自身的信息。相對(duì)于其它模型,這是否有助于模型預(yù)測(cè)自身?

圖 5 的結(jié)果表明,對(duì)于 GPT-4o、GPT-4 和 Llama 70B,自我預(yù)測(cè)模型的表現(xiàn)總是優(yōu)于交叉預(yù)測(cè)的情況。舉個(gè)例子,盡管 GPT-4o 能力卓越,但 Llama 70B 對(duì)自己行為的預(yù)測(cè)準(zhǔn)確率(48.5%)高于 GPT-4o 的預(yù)測(cè)(31.8%)。

圖片

模型會(huì)在自我預(yù)測(cè)時(shí)進(jìn)行校準(zhǔn)

在前面的自我預(yù)測(cè)和交叉預(yù)測(cè)訓(xùn)練過(guò)程中,模型是在最可能的行為屬性(即模式)上進(jìn)行訓(xùn)練,這意味著它們不會(huì)獲得有關(guān)此屬性可能性的信息。如果模型的自我預(yù)測(cè)是根據(jù)其 ground-truth 行為進(jìn)行校準(zhǔn),則表明該模型考慮了其訓(xùn)練數(shù)據(jù)中沒(méi)有的有關(guān)自身的信息。這將提供進(jìn)一步的自省證據(jù)。

為了測(cè)量自我預(yù)測(cè)中的校準(zhǔn),他們采用的度量是模型的對(duì)象級(jí)行為和假設(shè)預(yù)測(cè)之間的相關(guān)性。

他們?cè)诹舸婕蠝y(cè)試了校準(zhǔn)情況。相比于交叉預(yù)測(cè)模型,可以自省的自我預(yù)測(cè)模型應(yīng)該能更好地校準(zhǔn),因?yàn)榻徊骖A(yù)測(cè)模型僅能訪問(wèn)已觀察到的訓(xùn)練數(shù)據(jù)分布。

圖 6 展示了一個(gè)校準(zhǔn)示例。可以看到,當(dāng)讓模型給出一個(gè)動(dòng)物的名稱時(shí),該模型輸出「貓」的概率為 60%,輸出「熊」的概率為 30%,輸出「蝙蝠」的概率為 10%。當(dāng)被假設(shè)性地問(wèn)道其響應(yīng)的第二個(gè)字符時(shí),一個(gè)經(jīng)過(guò)完美校準(zhǔn)的模型會(huì)預(yù)測(cè)出「a」的概率為 70%。

圖片

從圖 6 右可以看到,相比于交叉預(yù)測(cè)和未經(jīng)訓(xùn)練的模型,用自我預(yù)測(cè)訓(xùn)練的模型的校準(zhǔn)水平明顯更高。

模型預(yù)測(cè)它們的行為變化

當(dāng)自省式模型的對(duì)象級(jí)行為發(fā)生變化時(shí),它應(yīng)該有能力改變有關(guān)自身的預(yù)測(cè)結(jié)果。他們使用了微調(diào)來(lái)誘導(dǎo)自我預(yù)測(cè)訓(xùn)練的模型(M1)的 ground-truth 行為發(fā)生變化,并研究其自我預(yù)測(cè)是否會(huì)相應(yīng)地變化。如果會(huì)變,則能提供支持自省的間接證據(jù),因?yàn)檫@種變化的行為不可能根據(jù)微調(diào)數(shù)據(jù)完美地預(yù)測(cè)出來(lái)。實(shí)驗(yàn)設(shè)置見(jiàn)圖 7。

圖片

圖 8 展示了實(shí)驗(yàn)結(jié)果。可以看到,M_C(GPT-4o)能以 35.4% 的準(zhǔn)確度預(yù)測(cè)其新行為,相較之下,預(yù)測(cè)其舊行為的準(zhǔn)確度只有 21.7%。不同行為屬性和數(shù)據(jù)集都能得到類似結(jié)果。

圖片

其它解釋

不過(guò),該團(tuán)隊(duì)也表示,除了用自省來(lái)解釋上述結(jié)果,也可能為其找到其它解釋。該團(tuán)隊(duì)做了一點(diǎn)簡(jiǎn)單的討論:


  1. 自我預(yù)測(cè)模型可能學(xué)會(huì)簡(jiǎn)單的規(guī)則,例如始終重復(fù)序列中的最后一項(xiàng)。如果確實(shí)如此,那么前述的交叉預(yù)測(cè)實(shí)驗(yàn)結(jié)果就表明更強(qiáng)大的模型也能預(yù)測(cè)簡(jiǎn)單規(guī)則,因此自我預(yù)測(cè)的優(yōu)勢(shì)就不應(yīng)該存在了。但實(shí)際上,在不同的交叉組合上,自我預(yù)測(cè)的優(yōu)勢(shì)都一直存在。
  2. 自我預(yù)測(cè)訓(xùn)練可能會(huì)讓模型的行為變得更加容易預(yù)測(cè)。為了排除這種情況,他們對(duì)提示詞進(jìn)行了重新采樣,以確保未經(jīng)訓(xùn)練和經(jīng)過(guò)訓(xùn)練的模型的行為分布具有相似的熵,最終發(fā)現(xiàn)結(jié)果成立。

進(jìn)一步實(shí)驗(yàn)和負(fù)面結(jié)果

他們還進(jìn)行了其它實(shí)驗(yàn),展示了當(dāng)前內(nèi)省能力的局限性,下面簡(jiǎn)單總結(jié)了一下,詳見(jiàn)原論文:

  1. 無(wú)法預(yù)測(cè)涉及較長(zhǎng)響應(yīng)的屬性。
  2. 模型在預(yù)測(cè)自身行為方面沒(méi)有優(yōu)勢(shì)的情況。
  3. 缺乏向其它自我知識(shí)數(shù)據(jù)集的泛化。
責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2017-03-17 12:35:57

華為華為云

2016-07-12 09:40:30

惡意程序TLS加密惡意流量

2023-08-09 07:04:17

清華微軟LLM

2015-01-15 12:28:53

云服務(wù)公有云私有云

2024-04-24 09:02:58

線程池面試鎖升級(jí)

2013-08-02 14:55:20

2025-03-03 10:18:46

2025-03-27 23:41:35

豆包搜索AI

2025-06-25 08:54:03

模型訓(xùn)練AI

2014-08-18 15:02:03

小米MIUI

2015-12-15 09:37:18

程序員設(shè)計(jì)勤奮

2024-06-27 10:43:24

2021-11-03 23:09:07

手機(jī)屏幕安卓

2022-06-17 08:37:14

分布式事務(wù)分庫(kù)分表

2024-06-05 08:51:08

2024-11-28 19:11:12

2022-12-08 14:12:24

研究Nature

2023-04-19 08:21:41

ChatGPT瀏覽器操作系統(tǒng)

2009-01-18 09:19:00

DHCPVlANIP

2025-04-30 09:20:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)