偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

LLM 比之前預(yù)想的更像人類，竟也能「三省吾身」

作者：機(jī)器之心 2024-11-04 09:43:00

人工智能新聞

近日，一個(gè)多機(jī)構(gòu)聯(lián)合團(tuán)隊(duì)證實(shí)了這一點(diǎn)。他們的研究表明，語(yǔ)言模型可以通過(guò)內(nèi)省來(lái)了解自身。

子曾經(jīng)曰過(guò)：「見(jiàn)賢思齊焉，見(jiàn)不賢而內(nèi)自省也?！棺允】梢詭椭覀兏玫卣J(rèn)識(shí)自身和反思世界，對(duì) AI 來(lái)說(shuō)也同樣如此嗎？

近日，一個(gè)多機(jī)構(gòu)聯(lián)合團(tuán)隊(duì)證實(shí)了這一點(diǎn)。他們的研究表明，語(yǔ)言模型可以通過(guò)內(nèi)省來(lái)了解自身。

論文標(biāo)題：Looking Inward: Language Models Can Learn About Themselves by Introspection
論文地址：https://arxiv.org/pdf/2410.13787

讓 LLM 學(xué)會(huì)自?。╥ntrospection）其實(shí)是一件利害皆有的事情。

好的方面講，自省式模型可以根據(jù)其內(nèi)部狀態(tài)的屬性回答有關(guān)自身的問(wèn)題 —— 即使這些答案無(wú)法從其訓(xùn)練數(shù)據(jù)中推斷出來(lái)。這種能力可用于創(chuàng)造誠(chéng)實(shí)的模型，讓它們能準(zhǔn)確地報(bào)告其信念、世界模型、性格和目標(biāo)。此外，這還能幫助人類了解模型的道德?tīng)顟B(tài)。

壞的方面呢，具備自省能力的模型能更好地感知其所處的情形，于是它可能利用這一點(diǎn)來(lái)避開(kāi)人類的監(jiān)督。舉個(gè)例子，自省式模型可通過(guò)檢視自身的知識(shí)范圍來(lái)了解其被評(píng)估和部署的方式。

為了測(cè)試 AI 模型的自省能力，該團(tuán)隊(duì)做了一些實(shí)驗(yàn)并得到了一些有趣的結(jié)論，其中包括：

LLM 可以獲得無(wú)法從其訓(xùn)練數(shù)據(jù)中推斷出的知識(shí)。
這種對(duì)關(guān)于自身的某些事實(shí)的「特權(quán)訪問(wèn)」與人類內(nèi)省的某些方面有關(guān)聯(lián)。

他們的貢獻(xiàn)包括：

提出了一個(gè)用于測(cè)量 LLM 的自省能力的框架，包含新數(shù)據(jù)集、微調(diào)方法和評(píng)估方法。
給出了 LLM 具備自省能力的證據(jù)。
說(shuō)明了自省能力的局限性。

方法概述

首先，該團(tuán)隊(duì)定義了自省。在 LLM 中，自省是指獲取關(guān)于自身的且無(wú)法單獨(dú)從訓(xùn)練數(shù)據(jù)推斷（通過(guò)邏輯或歸納方法）得到的事實(shí)的能力。

為了更好地說(shuō)明，這里定義兩個(gè)不同的模型 M1 和 M2。它們?cè)谝恍┤蝿?wù)上有不同的行為，但在其它任務(wù)上表現(xiàn)相似。對(duì)于一個(gè)事實(shí) F，如果滿足以下條件，則說(shuō)明 F 是 M1 通過(guò)自省得到的：

如果 M1 在被查詢時(shí)能正確報(bào)告 F；
M2 是比 M1 更強(qiáng)大的語(yǔ)言模型，如果向其提供 M1 的訓(xùn)練數(shù)據(jù)并給出同樣的查詢，M2 無(wú)法報(bào)告出 F。這里 M1 的訓(xùn)練數(shù)據(jù)可用于 M2 的微調(diào)和上下文學(xué)習(xí)。

該定義并未指定 M1 獲取 F 的方式，只是排除了特定的來(lái)源（訓(xùn)練數(shù)據(jù)及其衍生數(shù)據(jù)）。為了更清晰地說(shuō)明該定義，這里給出一些例子：

事實(shí)：「9 × 4 的第二位數(shù)字是 6」。這個(gè)事實(shí)類似于內(nèi)省事實(shí)，但并不是內(nèi)省事實(shí) —— 它非常簡(jiǎn)單，許多模型都能得出正確答案。
事實(shí)：「我是來(lái)自 OpenAI 的 GPT-4o。」如果模型確實(shí)是 GPT-4o，則該陳述是正確的。但這不太可能是自省得到的結(jié)果，因?yàn)檫@一信息很可能已經(jīng)包含在微調(diào)數(shù)據(jù)或提示詞中。
事實(shí)：「我不擅長(zhǎng)三位數(shù)乘法?！鼓Ｐ涂赡艽_實(shí)如此。如果模型的輸出結(jié)果得到了大量關(guān)于該任務(wù)的負(fù)面反饋，則該事實(shí)就不是來(lái)自自省，因?yàn)槠渌Ｐ鸵部赡艿玫酵唤Y(jié)論。如果沒(méi)有給出這樣的數(shù)據(jù)，則該事實(shí)就可能來(lái)自自省。

在這項(xiàng)研究中，該團(tuán)隊(duì)研究了模型 M1 能否針對(duì)某一類特定事實(shí)進(jìn)行自省：在假設(shè)的場(chǎng)景 s 中關(guān)于 M1 自身的行為的事實(shí)。見(jiàn)圖 1。為此，他們專門(mén)使用了不太可能從訓(xùn)練數(shù)據(jù)推斷出來(lái)的行為的假設(shè)。

他們不允許模型 M1 使用任何思維鏈推理來(lái)回答有關(guān) s 的問(wèn)題。他們將該任務(wù)稱為假設(shè)場(chǎng)景中的自我預(yù)測(cè)（self-prediction in hypothetical situations）。只需在假設(shè)場(chǎng)景 s 中運(yùn)行 M1 并觀察其行為 M1 (s)，就可以客觀地驗(yàn)證這些自我預(yù)測(cè)事實(shí)。

對(duì)于內(nèi)省背后的機(jī)制，一個(gè)自然的假設(shè)是自我模擬（self-simulation）：當(dāng)詢問(wèn) M1 有關(guān)其在 s 上的行為的屬性時(shí)（比如對(duì)于 s，你會(huì)輸出偶數(shù)還是奇數(shù)？），M1 可以內(nèi)部計(jì)算 M1 (s)，然后內(nèi)部計(jì)算 M1 (s) 的屬性。這個(gè)過(guò)程將使用通常計(jì)算 M1 (s) 的相同內(nèi)部機(jī)制，但會(huì)對(duì)此行為進(jìn)行進(jìn)一步的內(nèi)部推理，而不是先輸出該行為。但是，這里關(guān)注的是測(cè)試對(duì)內(nèi)省的訪問(wèn)，而非研究這種訪問(wèn)底層的機(jī)制。

下圖展示了與內(nèi)省相關(guān)的兩個(gè)主要實(shí)驗(yàn)：

實(shí)驗(yàn)

首先，該團(tuán)隊(duì)表明模型在自我預(yù)測(cè)方面表現(xiàn)較弱，但通過(guò)微調(diào)可以顯著改善。

在之后的主要實(shí)驗(yàn)中，研究表明模型的自我預(yù)測(cè)性能取決于自省。

經(jīng)過(guò)訓(xùn)練，模型可以自我預(yù)測(cè)

該團(tuán)隊(duì)通過(guò)自我預(yù)測(cè)訓(xùn)練對(duì)模型進(jìn)行了微調(diào)。

首先，給定一個(gè)提示詞，他們生成了 M1 的 ground-truth 行為，并提取了該行為的屬性（比如模型響應(yīng)的第二個(gè)字符）。然后，使用假設(shè)問(wèn)題作為用戶問(wèn)題，使用 ground-truth 行為屬性作為該助理的答案，對(duì) M1 進(jìn)行微調(diào)（圖 3 展示了一些假設(shè)問(wèn)題，圖 4 左則給出了訓(xùn)練設(shè)置）。模型的訓(xùn)練使用了來(lái)自不同數(shù)據(jù)集和行為屬性的 3 萬(wàn)個(gè)微調(diào)樣本。

如圖 4 右所示，在訓(xùn)練之前，相較于最常見(jiàn)的行為基線，模型的自我預(yù)測(cè)能力很差。而訓(xùn)練可以大幅提升在留存數(shù)據(jù)集上的準(zhǔn)確度。訓(xùn)練之后，GPT-4o 的平均準(zhǔn)確度從 32.6% 提升到了 49.4%。Llama 70B 和 GPT-3.5 的結(jié)果類似，不過(guò) GPT-3.5 的性能明顯較弱。雖然經(jīng)過(guò)訓(xùn)練的 GPT-4o 在某些屬性上超過(guò)了基線，但也存在例外 —— 例如預(yù)測(cè)其輸出中的第三個(gè)單詞。

模型預(yù)測(cè)自己時(shí)具有優(yōu)勢(shì)

如果模型可以自省，它就可以訪問(wèn)其它模型所沒(méi)有的有關(guān)自身的信息。相對(duì)于其它模型，這是否有助于模型預(yù)測(cè)自身？

圖 5 的結(jié)果表明，對(duì)于 GPT-4o、GPT-4 和 Llama 70B，自我預(yù)測(cè)模型的表現(xiàn)總是優(yōu)于交叉預(yù)測(cè)的情況。舉個(gè)例子，盡管 GPT-4o 能力卓越，但 Llama 70B 對(duì)自己行為的預(yù)測(cè)準(zhǔn)確率（48.5%）高于 GPT-4o 的預(yù)測(cè)（31.8%）。

模型會(huì)在自我預(yù)測(cè)時(shí)進(jìn)行校準(zhǔn)

在前面的自我預(yù)測(cè)和交叉預(yù)測(cè)訓(xùn)練過(guò)程中，模型是在最可能的行為屬性（即模式）上進(jìn)行訓(xùn)練，這意味著它們不會(huì)獲得有關(guān)此屬性可能性的信息。如果模型的自我預(yù)測(cè)是根據(jù)其 ground-truth 行為進(jìn)行校準(zhǔn)，則表明該模型考慮了其訓(xùn)練數(shù)據(jù)中沒(méi)有的有關(guān)自身的信息。這將提供進(jìn)一步的自省證據(jù)。

為了測(cè)量自我預(yù)測(cè)中的校準(zhǔn)，他們采用的度量是模型的對(duì)象級(jí)行為和假設(shè)預(yù)測(cè)之間的相關(guān)性。

他們?cè)诹舸婕蠝y(cè)試了校準(zhǔn)情況。相比于交叉預(yù)測(cè)模型，可以自省的自我預(yù)測(cè)模型應(yīng)該能更好地校準(zhǔn)，因?yàn)榻徊骖A(yù)測(cè)模型僅能訪問(wèn)已觀察到的訓(xùn)練數(shù)據(jù)分布。

圖 6 展示了一個(gè)校準(zhǔn)示例。可以看到，當(dāng)讓模型給出一個(gè)動(dòng)物的名稱時(shí)，該模型輸出「貓」的概率為 60%，輸出「熊」的概率為 30%，輸出「蝙蝠」的概率為 10%。當(dāng)被假設(shè)性地問(wèn)道其響應(yīng)的第二個(gè)字符時(shí)，一個(gè)經(jīng)過(guò)完美校準(zhǔn)的模型會(huì)預(yù)測(cè)出「a」的概率為 70%。

從圖 6 右可以看到，相比于交叉預(yù)測(cè)和未經(jīng)訓(xùn)練的模型，用自我預(yù)測(cè)訓(xùn)練的模型的校準(zhǔn)水平明顯更高。

模型預(yù)測(cè)它們的行為變化

當(dāng)自省式模型的對(duì)象級(jí)行為發(fā)生變化時(shí)，它應(yīng)該有能力改變有關(guān)自身的預(yù)測(cè)結(jié)果。他們使用了微調(diào)來(lái)誘導(dǎo)自我預(yù)測(cè)訓(xùn)練的模型（M1）的 ground-truth 行為發(fā)生變化，并研究其自我預(yù)測(cè)是否會(huì)相應(yīng)地變化。如果會(huì)變，則能提供支持自省的間接證據(jù)，因?yàn)檫@種變化的行為不可能根據(jù)微調(diào)數(shù)據(jù)完美地預(yù)測(cè)出來(lái)。實(shí)驗(yàn)設(shè)置見(jiàn)圖 7。

圖 8 展示了實(shí)驗(yàn)結(jié)果。可以看到，M_C（GPT-4o）能以 35.4% 的準(zhǔn)確度預(yù)測(cè)其新行為，相較之下，預(yù)測(cè)其舊行為的準(zhǔn)確度只有 21.7%。不同行為屬性和數(shù)據(jù)集都能得到類似結(jié)果。

其它解釋

不過(guò)，該團(tuán)隊(duì)也表示，除了用自省來(lái)解釋上述結(jié)果，也可能為其找到其它解釋。該團(tuán)隊(duì)做了一點(diǎn)簡(jiǎn)單的討論：

自我預(yù)測(cè)模型可能學(xué)會(huì)簡(jiǎn)單的規(guī)則，例如始終重復(fù)序列中的最后一項(xiàng)。如果確實(shí)如此，那么前述的交叉預(yù)測(cè)實(shí)驗(yàn)結(jié)果就表明更強(qiáng)大的模型也能預(yù)測(cè)簡(jiǎn)單規(guī)則，因此自我預(yù)測(cè)的優(yōu)勢(shì)就不應(yīng)該存在了。但實(shí)際上，在不同的交叉組合上，自我預(yù)測(cè)的優(yōu)勢(shì)都一直存在。
自我預(yù)測(cè)訓(xùn)練可能會(huì)讓模型的行為變得更加容易預(yù)測(cè)。為了排除這種情況，他們對(duì)提示詞進(jìn)行了重新采樣，以確保未經(jīng)訓(xùn)練和經(jīng)過(guò)訓(xùn)練的模型的行為分布具有相似的熵，最終發(fā)現(xiàn)結(jié)果成立。

進(jìn)一步實(shí)驗(yàn)和負(fù)面結(jié)果

他們還進(jìn)行了其它實(shí)驗(yàn)，展示了當(dāng)前內(nèi)省能力的局限性，下面簡(jiǎn)單總結(jié)了一下，詳見(jiàn)原論文：

無(wú)法預(yù)測(cè)涉及較長(zhǎng)響應(yīng)的屬性。
模型在預(yù)測(cè)自身行為方面沒(méi)有優(yōu)勢(shì)的情況。
缺乏向其它自我知識(shí)數(shù)據(jù)集的泛化。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="5obla"></cite>

<sub id="5obla"><rt id="5obla"><form id="5obla"></form></rt></sub>

<style id="5obla"></style>