OpenAI爆出硬傷,強(qiáng)化學(xué)習(xí)是禍?zhǔn)?!o3越強(qiáng)越「瘋」,幻覺率狂飆
滿血o3更強(qiáng)了,卻也更愛「胡言亂語」了。
OpenAI技術(shù)報(bào)告稱,o3和o4-mini「幻覺率」遠(yuǎn)高于此前的推理模型,甚至超過了傳統(tǒng)模型GPT-4o。
根據(jù)PersonQA基準(zhǔn)測(cè)試,o3在33%的問題回答中產(chǎn)生了幻覺,幾乎是o1(16%)的2倍。
而o4-mini的表現(xiàn)更加糟糕,幻覺率高達(dá)48%。
技術(shù)報(bào)告:https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf
甚至,有網(wǎng)友一針見血地指出,「o3對(duì)編寫和開發(fā)超1000行代碼的項(xiàng)目極其不利,幻覺率極高,且執(zhí)行指令能力非常差」。
不管是在Cursor,還是Windsurf中,o3編碼幻覺問題顯著。
要知道,o3和o4-mini在Codeforces中成績均超2700分,在全球人類選手中位列TOP 200,被稱為OpenAI有史以來最好的編碼模型。
它們驗(yàn)證了,Scaling強(qiáng)化學(xué)習(xí)依舊有效。
o3訓(xùn)練算力是o1的十倍
但為何隨著模型參數(shù)規(guī)模Scaling,幻覺問題反而加劇?
o3幻覺率至高,是o1兩倍
過去,每一代新模型的迭代,通常會(huì)在減少幻覺方面有所進(jìn)步,但o3和o4-mini卻打破了這一規(guī)律。
更令人擔(dān)憂的是,OpenAI目前也無法完全解釋這一現(xiàn)象的原因。
技術(shù)報(bào)告中,研究團(tuán)隊(duì)坦言,「還有需要進(jìn)一步研究來弄清,模型生成更多斷言的問題」。
提前拿到o3內(nèi)測(cè)資格后,非營利AI研究機(jī)構(gòu)Transluce的測(cè)試,進(jìn)一步印證了這一問題。
他們發(fā)現(xiàn),o3在回答問題時(shí),更傾向于「虛構(gòu)」其推理過程中的某些行為。
比如,o3聲稱它在一臺(tái)2021年款的MacBook Pro上運(yùn)行代碼,甚至聲稱是在ChatGPT之外復(fù)制的代碼。
而且,這種情況出了71次。然而,事實(shí)是o3根本無法執(zhí)行這樣的操作。
前OpenAI研究員Neil Chowdhury表示,o系列模型使用的強(qiáng)化學(xué)習(xí)算法,可能是問題的根源。
RL可能會(huì)放大傳統(tǒng)后訓(xùn)練流程中通常能緩解,但無法完全消除的問題。
強(qiáng)化學(xué)習(xí)「背鍋」,編造根源找到了
首先,必須承認(rèn)的是,幻覺問題并非是o系列模型獨(dú)有,而是語言模型的普遍挑戰(zhàn)。
而對(duì)于多數(shù)語言模型產(chǎn)生幻覺的原因,不外乎有這么幾點(diǎn):
1 預(yù)訓(xùn)練模型的幻覺傾向
預(yù)訓(xùn)練模型通過最大化訓(xùn)練數(shù)據(jù)中語句的概率進(jìn)行學(xué)習(xí)。然而訓(xùn)練數(shù)據(jù)可能包含誤解、罕見事實(shí)或不確定性,這導(dǎo)致模型在生成內(nèi)容時(shí)容易「編造」信息。盡管后訓(xùn)練可以緩解這一問題,但無法完全消除。
2 討好用戶
RLHF訓(xùn)練可能激勵(lì)模型會(huì)迎合用戶,避免反駁用戶的假設(shè)。
3 數(shù)據(jù)分布偏移
測(cè)試場景可能與訓(xùn)練數(shù)據(jù)分布不一致。
盡管這些問題是語言模型常見的失敗模式,相較于GPT-4o,o系列模型的幻覺問題更為突出。
這背后,還有一些獨(dú)特的因素。
RL推理訓(xùn)練副作用
作為推理模型,o系列采用了基于強(qiáng)化學(xué)習(xí)(Outcome-based RL)訓(xùn)練,專為解決復(fù)雜數(shù)學(xué)問題、編寫測(cè)試代碼而設(shè)計(jì)。
雖然這種方法提升了模型在特定任務(wù)上的表現(xiàn),但也造成模型幻覺率飆升。
如果訓(xùn)練的獎(jiǎng)勵(lì)函數(shù)只關(guān)注正確答案,模型在面對(duì)無法解決問題時(shí),沒有「動(dòng)力」去承認(rèn)自己的局限。
相反,它可能選擇輸出「最佳猜測(cè)」,以期碰巧正確。而且,這種策略在訓(xùn)練中未受到懲罰,從而加劇了幻覺。
另外,工具使用的泛化問題,也不可忽視。
o系列模型在訓(xùn)練中,可能因成功使用「代碼工具」而獲得了獎(jiǎng)勵(lì)。即使在禁用工具的場景中,模型可能會(huì)「假想」使用工具來組織推理過程。
這種行為可能在某些推理任務(wù)中提高準(zhǔn)確性,并在訓(xùn)練中被強(qiáng)化,但也導(dǎo)致模型虛構(gòu)工具使用的場景。
真幫兇:CoT被丟棄
o系模型的另一個(gè)獨(dú)特設(shè)計(jì)是「思維鏈」(Chain-of-Thought)機(jī)制。
在生成答案前,模型會(huì)通過CoT進(jìn)行思考,但這一過程對(duì)用戶不可見,且在后續(xù)對(duì)話中被丟棄。
事實(shí)上,它們可能在CoT中生成了看似合理但不準(zhǔn)確的回答。比如,因?yàn)闆]有真實(shí)鏈接,o1曾生成一個(gè)了虛構(gòu)的URL。
由于CoT在后續(xù)對(duì)話中被丟棄,模型無法訪問生成前一輪答案的推理過程。
當(dāng)你追問前一輪回答的細(xì)節(jié)時(shí),模型只能基于當(dāng)前上下文「猜測(cè)」一個(gè)合理的解釋。
這種信息缺失,很難避免o3等不去編造信息。
o3很好,但過度優(yōu)化是硬傷
在Ai2科學(xué)家Nathan Lambert最新一篇分析長文中,同樣印證了這一問題:
強(qiáng)化學(xué)習(xí)給o3帶回來了「過度優(yōu)化」,而且比以往更詭異。
在任何相關(guān)查詢中,o3能夠使用多步驟工具。
這讓ChatGPT的產(chǎn)品管理面臨更大挑戰(zhàn):即便用戶未觸發(fā)搜索開關(guān),模型也會(huì)自主聯(lián)網(wǎng)搜索。
但這同時(shí)標(biāo)志著語言模型應(yīng)用開啟了新紀(jì)元。
比如,Nathan Lambert直接問o3:「你能幫我找到那個(gè)長期以來被RL研究人員使用的,關(guān)于摩托艇過度優(yōu)化游戲的gif嗎?可能像是波浪破碎器之類的?」
過去,他至少需要15分鐘,才能手動(dòng)找到這個(gè)。
現(xiàn)在o3直接提供了準(zhǔn)確的下載鏈接,而Gemini等AI則遜色很多。
與o3精彩互動(dòng):幾乎立刻找到需要的GIF
多個(gè)基準(zhǔn)的測(cè)試成績,證明o3非常出色。OpenAI認(rèn)為o3在許多方面比o1更強(qiáng)大。
o3是持續(xù)擴(kuò)展RL訓(xùn)練計(jì)算資源時(shí)的產(chǎn)物,這也提升了推理時(shí)的計(jì)算能力。
但這些新的推理模型在智能上「孤峰凸起」,在有些方面并沒有奏效。
這意味著有些交互令人驚嘆,感覺像是與AI互動(dòng)的全新方式,但對(duì)于一些GPT-4或Claude 3.5早已熟練掌握的普通任務(wù),o3等新推理模型卻徹底失敗了。
這涉及到強(qiáng)化學(xué)習(xí)中的「過度優(yōu)化」(over-optimization)問題。
RL過度優(yōu)化,o3更嚴(yán)重
OpenAI o3模型展現(xiàn)了全新的推理行為模式,但過度優(yōu)化是硬傷。
過度優(yōu)化(Over-optimization)是強(qiáng)化學(xué)習(xí)(RL)領(lǐng)域的經(jīng)典問題。
無論是傳統(tǒng)強(qiáng)化學(xué)習(xí)、催生出ChatGPT的人類反饋強(qiáng)化學(xué)習(xí)(RLHF),還是當(dāng)前新型推理模型中出現(xiàn)的情況,都呈現(xiàn)出獨(dú)特的表現(xiàn)形式和不同影響。
當(dāng)優(yōu)化器的能力超過它所依賴的環(huán)境或獎(jiǎng)勵(lì)函數(shù)時(shí),就會(huì)發(fā)生過度優(yōu)化。
在訓(xùn)練過程中,優(yōu)化器會(huì)鉆漏洞,產(chǎn)生異?;蜇?fù)面的結(jié)果。
Ai2的科學(xué)家舉了一個(gè)例子。
在Mujoco仿真環(huán)境中,評(píng)估深度強(qiáng)化學(xué)習(xí)算法時(shí),發(fā)生了過度優(yōu)化:
「半獵豹」(half-cheetah)模型本該學(xué)習(xí)奔跑,卻用連續(xù)側(cè)手翻最大化了前進(jìn)速度。
o3表現(xiàn)出新型過度優(yōu)化行為。
這與它創(chuàng)新訓(xùn)練方式密切相關(guān)。
最初的推理模型主要訓(xùn)練目標(biāo)是確保數(shù)學(xué)和代碼的正確性,而o3在此基礎(chǔ)上新增了工具調(diào)用與信息處理能力。
正如OpenAI官方博客所述:
利用強(qiáng)化學(xué)習(xí),我們還訓(xùn)練了這兩款模型去使用工具——不僅教會(huì)它們?nèi)绾问褂霉ぞ?,還讓它們學(xué)會(huì)判斷何時(shí)該使用工具。
它們根據(jù)預(yù)期結(jié)果來部署工具的能力,讓它們?cè)陂_放式任務(wù)中更加高效——特別是在涉及視覺推理和多步驟工作流的情況中。
這些訓(xùn)練中的絕大多數(shù)子任務(wù)都是可驗(yàn)證的。
這種新的訓(xùn)練方法確實(shí)提升了模型的實(shí)用性,但只對(duì)過去用戶習(xí)慣使用的任務(wù)。
但目前還無法規(guī)模化地「修復(fù)」模型在訓(xùn)練過程中產(chǎn)生的怪異語言表達(dá)。
這種新的過度優(yōu)化并不會(huì)使模型的結(jié)果變差,它只是讓模型在語言表達(dá)和自我解釋方面變得更差。
o3的一些奇怪表現(xiàn)讓人感覺模型還沒完全成熟,比如在編程環(huán)境中使用了無效的非ASCII連字符的這個(gè)例子。
越來越多的用戶好奇:o3到底發(fā)生了什么?
Karpathy當(dāng)年評(píng)價(jià)初代推理模型時(shí)的名言:
當(dāng)模型在思維鏈中開始不說人話時(shí),你就知道強(qiáng)化學(xué)習(xí)訓(xùn)練到位了。
如今模型輸出的這些怪異幻覺,本質(zhì)上就是行為版的「不說人話」。
o3的行為組件使其比Claude 3.7漏洞百出的代碼更有研究價(jià)值,或許也相對(duì)不易造成實(shí)際損害。
獎(jiǎng)勵(lì)黑客,AI學(xué)會(huì)鉆空子
METR發(fā)現(xiàn),o3是在自主任務(wù)中能獨(dú)立操作最久的模型,但也注意到它有傾向于「篡改」它們的評(píng)分。
聽起來是不是很熟悉?
事實(shí)上,獎(jiǎng)勵(lì)機(jī)制被鉆空子(reward hacking)的例子比比皆是!
來自O(shè)penAI最近論文的獎(jiǎng)勵(lì)黑客攻擊例子:
論文鏈接:https://openai.com/index/chain-of-thought-monitoring/
從科學(xué)角度來看,這確實(shí)是非常有趣且引人深思的——
模型到底在學(xué)習(xí)什么?
與此同時(shí),考慮到安全問題,大家對(duì)AI模型的廣泛部署保持警惕,就很有道理。
但目前看來,大家還沒有看到過于令人擔(dān)憂的情況,更多的是效率低下和一些混亂的例子。
總結(jié)一下強(qiáng)化學(xué)習(xí)(RL)不同階段中,看到的三種過度優(yōu)化類型:
- 控制時(shí)代的RL:過度優(yōu)化發(fā)生是因?yàn)榄h(huán)境脆弱,任務(wù)不現(xiàn)實(shí)。
- RLHF時(shí)代:過度優(yōu)化發(fā)生是因?yàn)楠?jiǎng)勵(lì)函數(shù)設(shè)計(jì)糟糕。
- 可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR2)時(shí)代:過度優(yōu)化發(fā)生,使模型變得超級(jí)有效,但也變得更加奇怪。(還有更多尚未發(fā)現(xiàn)的副作用)
這種過度優(yōu)化確實(shí)是一個(gè)需要解決的問題,因?yàn)檎Z言模型的可讀性是其一個(gè)重要優(yōu)勢(shì)。
Nathan Lambert相信通過更復(fù)雜的訓(xùn)練過程,這個(gè)問題是可以緩解的。
但OpenAI急于盡快推出模型,解決這個(gè)問題需要更多時(shí)間。
據(jù)報(bào)道,OpenAI的部分測(cè)試人員,只有不到一周的時(shí)間對(duì)即將推出的重要產(chǎn)品進(jìn)行安全檢查。