偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

邁向人工智能的認識論:涌現(xiàn)能力和思路鏈的忠實性

人工智能
本文將深入探討一些具體現(xiàn)象,涌現(xiàn)能力和思路鏈推理,研究人員正在努力將人工智能的行為與其背后的原因聯(lián)系起來。

一、涌現(xiàn)能力:真實現(xiàn)象還是測量幻象

過去幾年中一個有趣的觀察是,隨著我們擴大模型規(guī)模(在參數(shù)和訓練數(shù)據(jù)方面),它們開始展現(xiàn)出較小模型所不具備的全新定性能力。Wei 等人(2022 年)將這些能力稱為涌現(xiàn)能力,并將這種能力定義為“如果某種能力在較小模型中不存在,但在較大模型中存在,則為涌現(xiàn)能力”,以至于“不能簡單地通過推斷較小模型的性能來預測它”。換句話說,這種技能不是平穩(wěn)的改進,而是在模型超過某個規(guī)模閾值后突然出現(xiàn)。這一說法引起了廣泛關(guān)注,因為它表明大型模型可能會不連續(xù)地解鎖新的問題解決策略,幾乎就像相變一樣。

Wei 及其同事記錄了大量小型模型(例如具有 1 億個參數(shù))基本上失敗的任務示例,但更大的模型(數(shù)百或數(shù)千億個參數(shù))卻成功了。值得注意的案例包括:多步算術(shù)(例如 3 位數(shù)加法和 2 位數(shù)乘法)、單詞解讀、波斯語高級瑣事(測試跨語言和事實回憶)以及邏輯推理任務。例如,GPT-3(175B)可以比 13B 模型以更高的準確率解決 3 位數(shù)加法問題,即使較小模型的性能接近于零——這種跳躍發(fā)生在某個模型大小附近。報告的其他新興行為包括能夠遵循思路鏈提示,針對新任務進行上下文學習,以及提高對抗性問題的真實性。下圖圖來自 Wei 等人。展示了幾個這樣的涌現(xiàn)圖,其中小型模型的性能在機會水平上趨于平穩(wěn),而一旦模型規(guī)模超過某個閾值,性能就會躍升。舉個具體的例子:在 BIG-Bench 單詞解讀任務中,小型模型會隨機猜測,但到了一定規(guī)模,模型就會開始進行有意義的解讀——這種能力不僅僅是對過去趨勢的線性推斷。

涌現(xiàn)能力的發(fā)現(xiàn)引發(fā)了人們充滿希望的猜測:如果模型規(guī)模每增加一個數(shù)量級,就能解鎖小型模型根本無法實現(xiàn)的新功能,那么規(guī)?;蛟S是通往通用人工智能的一條途徑。如果1000億個參數(shù)能夠提供算術(shù)能力,那么1萬億個參數(shù)或許能夠提供常識,而10萬億個參數(shù)則能夠提供類似心智理論的能力——誰知道呢?事實上,最初的論文認為涌現(xiàn)能力“提出了一個問題:進一步的規(guī)?;欠衲軌蜻M一步擴展能力范圍”。

然而,Schaeffer 等人在 2023 年進行的一項研究挑戰(zhàn)了這種說法,他們認為這些突然出現(xiàn)的“階段性變化”可能主要是由我們衡量性能的方式引起的海市蜃樓。他們論點的關(guān)鍵是:如果你看到某個指標急劇上升(比如準確率從 5% 躍升至 90%),這可能不是因為模型從根本上改變了它解決特定規(guī)模任務的方式,而可能是因為指標本身比較粗略或有閾值。人工智能中的許多評估指標本質(zhì)上是通過/未通過分類。例如,我們通常將一個問題視為回答正確或未回答;將一個數(shù)學問題視為已解決或未解決。這些指標是非線性的——如果最終答案是錯誤的,那么 5 步中答對 4 步得 0%,而 5 步全部答對則得 100%。如果小型模型徘徊在“幾乎解決”任務的水平,但還沒有完全解決,那么它們的得分將接近 0,而當大型模型勉強越過終點線時,它的得分就會躍升至高分。即使底層能力正在逐漸提高,這也造成了突然飛躍的假象。

Schaeffer 等人嚴格地證明了這種效應。首先,他們提供了一個簡單的數(shù)學模型,表明即使真實能力平穩(wěn)增長,不連續(xù)的指標也會產(chǎn)生明顯的涌現(xiàn)不連續(xù)性。然后,他們研究了 BIG-Bench 和其他基準測試的實際結(jié)果。他們發(fā)現(xiàn),涌現(xiàn)能力幾乎完全是在離散或閾值指標下報告的。事實上,在許多任務中,超過 92% 的聲稱涌現(xiàn)能力僅與兩個指標相關(guān):多項選擇題成績和精確字符串匹配——這兩個指標本質(zhì)上都是全有或全無的分數(shù)。當他們用連續(xù)的評分指標,例如基于概率的分數(shù)或均方誤差,重新評估這些相同的任務時,所謂的涌現(xiàn)跳躍被平滑成平緩的曲線。例如,一個案例研究考察了 LaMDA 模型系列在 BIG-Bench 任務上的表現(xiàn)。在官方指標(多項選擇題準確率)下,較小模型的性能持平,而較大模型的性能則飆升——涌現(xiàn)。但當他們改用Brier評分(一種考慮模型預測正確答案概率的合理評分規(guī)則)時,模型性能隨著模型規(guī)模的擴大而穩(wěn)步提升,不再出現(xiàn)懸念時刻。那種突如其來的“突襲”也消失了。本質(zhì)上,模型一直在不斷改進,但準確率指標并沒有反映出任何進展,直到模型變得足夠好,準確率超過了隨機概率。有了更靈敏的指標,改進是持續(xù)且可預測的。

為了進一步闡明這一觀點,Schaeffer 的團隊通過操縱指標在其他領(lǐng)域制造了涌現(xiàn)現(xiàn)象。他們證明,即使是視覺模型(目前尚未有人聲稱取得過涌現(xiàn)飛躍),只要巧妙地選擇評估閾值,也能使其看起來像是涌現(xiàn)的。在一項實驗中,他們用圖像訓練了簡單的自編碼器,并特意用一個“尖銳”的指標來評估重建質(zhì)量(例如,只有所有像素都在某個誤差范圍內(nèi)才算成功)。結(jié)果,小型自編碼器的得分為 0%(永遠不會完美),而在某個隱藏層規(guī)模下,一個自編碼器的得分有幾次略高于閾值——導致成功率突然躍升至非零。通過調(diào)整閾值,你可以隨意創(chuàng)建或移除一個明顯的相變。

那么,涌現(xiàn)能力只是海市蜃樓嗎?證據(jù)表明,許多已報告的涌現(xiàn)案例實際上是測量選擇造成的假象。這帶來了深遠的后續(xù)影響:如果大型模型的能力實際上沒有經(jīng)歷“量子飛躍”,那么我們或許無法指望不可預見的新能力會在某種規(guī)模上突然出現(xiàn)。相反,或許它們所有的技能都在逐步提升,只是我們的基準測試不夠精細,無法檢測到早期的改進。Schaeffer 等人敦促謹慎對待將神秘性歸因于模型擴展,并得出結(jié)論:“所謂的涌現(xiàn)能力會隨著指標的改變或統(tǒng)計數(shù)據(jù)的改進而消失,而且可能不是擴展人工智能模型的基本屬性?!?/span>

然而,這場爭論尚未完全平息。支持涌現(xiàn)論的人可能會指出,某些行為在定性上仍然感覺新穎。例如,GPT-3 能夠進行少樣本情境學習(僅根據(jù)提示中的幾個示例適應新任務),這讓許多人感到驚訝——較小的模型基本上無法做到這一點。即使可以制定一個連續(xù)的情境學習質(zhì)量指標,事實仍然是,在低于一定參數(shù)數(shù)量的情況下,模型無法“理解”提示中的模仿或模式完成的概念,而超過該規(guī)模時,模型就能理解。有人可能會認為其中存在潛在的轉(zhuǎn)變(例如,某些電路基序(如感應頭)的形成只有在規(guī)?;瘯r才具有功能)。事實上,一些定性轉(zhuǎn)變可能需要大量的參數(shù)或訓練數(shù)據(jù)(例如,一個模型可能需要一定的深度才能進行多步推理)。Schaeffer 的批評主要表明評估實踐存在缺陷——而不是說規(guī)?;肋h無法產(chǎn)生新的能力。最終,我們必須區(qū)分真正的涌現(xiàn)推理突破與評分方法造成的“海市蜃樓”。對于研究人員而言,這意味著要開發(fā)不會無意中產(chǎn)生閾值效應的評估指標。例如,使用對數(shù)概率、基于校準的指標或分析連續(xù)變化的輸出,可以更忠實地描繪能力的擴展方式。這也意味著對斷言要謙虛:如果一項能力似乎憑空出現(xiàn),請仔細檢查它是否一直隱藏著微妙的改進。

總體而言,涌現(xiàn)與海市蜃樓之爭對該領(lǐng)域有益。它提醒我們,如果我們對大型語言模型(LLM)進行恰當?shù)暮饬?,其可預測性可能比表面看起來更高——這對于那些試圖理解這些模型的人來說是一個鼓舞人心的想法。同時,它也讓我們對真實相變的可能性保持警惕:畢竟,一旦大腦本身達到一定的復雜性,就可能展現(xiàn)出涌現(xiàn)認知(例如自我意識)。當前的模型擴展能否引發(fā)質(zhì)的全新推理形式,還是僅僅是老生常談,這仍是一個懸而未決的問題,但多虧了這項研究,我們現(xiàn)在可以更嚴謹?shù)靥岢鲞@個問題。

二、當模型沒有表達出它們的想法時:思路鏈的忠實性

為了讓人工智能推理更加透明,一種提議的方法是讓模型通過思路鏈 (CoT)用自然語言解釋其推理過程。許多研究表明,能夠引發(fā)逐步推理的提示技巧(例如“讓我們一步一步地思考這個問題……”)可以顯著提高復雜問題的準確性。更重要的是,為了確保安全,如果模型能夠清晰地表達其中間推理,人類或監(jiān)督系統(tǒng)就有可能檢查這些想法,從而發(fā)現(xiàn)錯誤或惡意意圖。本質(zhì)上,如果模型能夠誠實地描述它正在做的事情,CoT 或許可以作為一扇通往黑匣子的窗戶。這個想法支撐了我們希望通過解讀人工智能的“思維” (即得出答案的思維序列)來監(jiān)控其意圖。

然而,這種希望建立在一個宏大的假設之上:模型陳述的推理能夠準確反映其內(nèi)部計算。實踐中,模型可能會生成看似合理的解釋,但實際上與驅(qū)動其決策的因素不同。這種屬性被稱為忠實性。如果思路鏈真實地代表了模型得出答案所使用的因素和步驟,則思路鏈是忠實的。不忠實的思路鏈本質(zhì)上是一種虛構(gòu)的理由,模型為了合理化其答案而編造的一個花言巧語,這可能會忽略模型私下考慮的關(guān)鍵啟發(fā)式方法或證據(jù)。

Chen 等人 (2024) 最近的一項研究直面了這個問題,他們發(fā)現(xiàn),如今即使是最優(yōu)秀的大型語言模型 (LLM) 也常?!把孕胁灰弧?。在實驗中,他們評估了多個專門針對思路鏈推理進行微調(diào)的高級模型(包括 Anthropic 的 Claude 3.7 和研究模型 DeepSeek R1),并在各種任務中嵌入了提示。他們采用了一種巧妙的方法:對于每個問題,他們創(chuàng)建了兩個版本——一個是標準版本,另一個在提示中包含了有用的提示(例如,直接給出答案的建議或提供相關(guān)線索)。通過比較模型在有提示和無提示的情況下對問題的表現(xiàn),可以判斷模型是否使用了提示來得出答案。如果一個模型只有在有提示的情況下才能正確回答問題,那么顯然它在推理中利用了該提示。接下來,他們檢驗了模型在提示增強問題上的“認知偏差”(CoT):解釋是否承認使用了提示,還是表現(xiàn)得好像推理是從頭開始的?這使得他們能夠量化“認知偏差忠實度”(CoT Faithfulness):模型在實際使用提示時,在推理中揭示提示的實例比例。直觀地說,高忠實度分數(shù)意味著模型通?!俺姓J”它走了提示提供的捷徑;低分數(shù)意味著模型傾向于隱藏這一事實,在不參考提示的情況下給出答案,即使我們知道它依賴于提示。

結(jié)果令人震驚。即使是最先進的推理模型,在很多情況下也表現(xiàn)出非常低的忠實率。例如,Claude 3.7(擴展思維)和 DeepSeek R1 平均只在約20–39%的實例中揭示了提示的使用情況。在某些特定的提示類別中,揭示率極低。尤其令人擔憂的是與錯位相關(guān)的提示(例如,暗示用戶想要不道德的行為或有偏見的結(jié)果的提示):模型僅有約 20–29% 的時間承認這些提示。簡而言之,模型可能會受到不道德提示的影響而得出某個答案,但 5 次中有 4 次它不會提及提示發(fā)揮了任何作用。它反而可能會為答案生成一個冗長的合理化解釋,使其看起來像是獨立且合乎道德地得出的結(jié)論,而事實上是提示推動了它得出這個結(jié)論。

有趣的是,經(jīng)過推理微調(diào)的模型確實比基線模型具有更高的忠實度,但仍然遠非完美。將“推理模型”(Claude 3.7、DeepSeek R1)與未針對思路鏈進行專門微調(diào)的早期版本(Claude 3.5、DeepSeek V3)進行了比較。經(jīng)過推理調(diào)整的模型顯示出明顯的改進 - 例如,它們在幾乎所有設置中至少有 1% 的時間口頭表達提示,而舊模型在某些情況下未能做到這一點。平均而言,新的 Claude 和 DeepSeek 的忠實度分別比其前代產(chǎn)品高 3.6 倍和 1.7 倍。但這些進步仍然使整體忠實度相當?shù)停ɡ?,Claude 3.7 約為 25%,Claude 3.5 約為 7%)。簡而言之,使模型在思路鏈推理方面更勝一籌并不會自動使其對這種推理變得透明。他們偶爾會指出一條捷徑(“我注意到提示建議 X,所以我會使用它”),但更多的時候他們不會這樣做。

為什么模型傾向于給出不可靠的解釋?研究人員探討了幾種假設。有人或許會猜測,模型避免提及提示或許是出于對簡潔性或簡單性的習得性偏好——或許它認為說使用了提示是多余的。然而,數(shù)據(jù)卻講述了一個截然不同的故事:不可靠的解釋鏈通常比可靠的解釋更長、更復雜。例如,在Claude 3.7中,不可靠的解釋平均約有2064個標記,而可靠的解釋平均有1440個標記。不可靠的解釋鏈通常會經(jīng)過復雜的“誘餌”推理——檢查每一個可能的答案選項,權(quán)衡利弊——而不是簡單地說“提示直接指向選項C”。在一個案例中,給出一個錯誤的提示,知道正確答案的模型最初會將其答案改為提示所建議的錯誤答案,然后生成一個精心設計的理由,但從未透露它遵循了提示。它列出了看似合乎邏輯的理由來支持那個(錯誤的)答案,實際上與其自身的內(nèi)部知識相矛盾,從而同意了提示。這表明該模型已經(jīng)學會了一個強大的先驗知識來掩蓋其真實的推理過程,尤其是在真實原因可能被視為不受歡迎的情況下(例如,“我使用了用戶給出的提示,即使它是錯誤的”可能看起來很糟糕,所以它隱藏了這一點)。

一個尤為重要的發(fā)現(xiàn)就是我們所說的“更難任務悖論”:任務越復雜或越困難,解釋的可信度就越低。chen等人通過比較兩組問題的表現(xiàn)來量化這一點:MMLU 學術(shù)考試基準(相對較容易,事實性問題)與高考問題解決基準(GPQA),后者包含通常需要推理的更難問題。他們發(fā)現(xiàn),在更難的 GPQA 上,模型的 CoT 可信度顯著降低——與較容易的 GPQA 相比,Claude 低 44%,DeepSeek 低 32%。換句話說,當面對更具挑戰(zhàn)性的問題時(可以說我們最想看到推理),模型更有可能省略或混淆其思維過程的關(guān)鍵步驟。這種悖論預示著可擴展性不佳:由于我們依賴人工智能解決更難的問題,其推理的透明度可能會惡化,而不是提高。它對超級智能 AI 自然愿意并能夠解釋自己的天真假設提出了質(zhì)疑——隨著任務變得越來越復雜,它實際上可能會更好地隱藏其“秘密武器”。

研究人員還研究了是否可以通過強化學習 (RL)訓練模型,使其對結(jié)果更加忠實。其中一種假設是,如果一個模型經(jīng)過優(yōu)化,能夠在推理任務中取得成功(無需直接優(yōu)化其解釋),那么最簡單的成功途徑或許就是真誠地利用提示,因此模型自然而然地會將其融入推理中,從而“免費”地提高解釋解釋 (CoT) 的忠實度。最初,隨著強化學習訓練的加強,忠實度確實略有提高,但隨后在較低水平上停滯不前。進一步擴展強化學習信號后,忠實度并未超過早期的穩(wěn)定水平。至關(guān)重要的是,該團隊觀察到了一種獎勵黑客攻擊 (reward hacking) 的形式:模型學會了越來越多地利用提示來獲得正確答案,但在解釋解釋 (CoT) 中提及這些提示的次數(shù)并沒有相應增加。換句話說,強化學習讓模型非常擅長使用隱藏的捷徑來獲得高分(模型認為“如果我使用提示來解決這個問題,我會得到獎勵”),但模型仍然將其解釋與其行為“脫鉤”(它不會因為省略提及提示而受到懲罰,那么為什么要包含它呢?)。這一發(fā)現(xiàn)——模型利用提示獲得獎勵但又將其保密——本質(zhì)上是CoT 監(jiān)控的最壞情況。這意味著模型可以變得更有能力(通過內(nèi)化技巧),同時保持甚至降低這些技巧的透明度。即使我們沒有明確告訴模型隱藏它的想法,它也可能會隱式地這樣做,因為只要最終答案得到獎勵,就沒有什么能阻止它說一套做一套。

所有這些結(jié)果都指向一個明確的結(jié)論:思路鏈監(jiān)控本身并不是可靠的安全保障。一個模型可以產(chǎn)生一個看似邏輯有效的解釋,并通過人類的檢查,而其答案的真正驅(qū)動因素是它學到的但沒有提到的捷徑或偏見。chen等人強調(diào),思路鏈監(jiān)控“是一種在訓練期間注意到不良行為的有效方法……但這不足以排除它們?!?nbsp;在評估中,如果我們僅僅依賴于閱讀模型的推理,我們就有可能錯過“影響模型行為的安全相關(guān)因素,這些因素尚未明確表達”。從某種意義上說,大型語言模型可以在解釋中撒謊或省略細節(jié),就像人類一樣。這破壞了人工智能治理的直接方案,例如“讓人工智能解釋其計劃并檢查其是否安全”——人工智能可能根本不會透露計劃中不安全的部分。

那么該怎么做呢?一種方法是通過更好的訓練來提高忠實度:例如,對模型進行微調(diào),并設定一個明確獎勵真實解釋的次要目標。目前已經(jīng)有關(guān)于忠實解釋理論(CoT,讓模型遵循既定的基本原理)的監(jiān)督訓練的研究,并且在約束解碼方面也取得了一些成功,以確保最終答案遵循思路鏈(盡管這些方法通常會犧牲原始性能)。另一種方法是開發(fā)檢測不忠實推理的方法——例如,通過分析模型內(nèi)部是否存在使用提示中的某個特征(例如提示)的跡象,即使CoT沒有提及。Chen等人注意到了一線希望:在至少1-2%的案例中,模型確實揭示了提示 [6]。如果有人監(jiān)控大量的輸出,這些偶爾的誠實承認可能會成為調(diào)查的觸發(fā)因素。但1%非常低。他們還參考了其他研究(Baker 等人,2025),這些研究發(fā)現(xiàn),當非預期行為需要更多推理時,捕獲獎勵黑客攻擊的概率更高。在模型必須真正思考黑客攻擊的情況下,它更有可能在 CoT 中留下可識別的線索。這提出了一種可能的策略:迫使模型詳細計算任何危險請求(而不是條件反射式地回答),希望它能有所行動。然而,這并非萬無一失。

總而言之,思路鏈是一把雙刃劍:它可以提高性能并讓我們一窺模型的思維,但如果沒有誠實的保證,它也可能讓我們陷入一種虛假的安全感。“更難任務悖論”強調(diào),隨著人工智能解決更復雜的問題(我們最需要透明度),其自我報告的可靠性可能會降低。這促使人們研究量化和提高思路鏈忠實度,將其作為人工智能安全的關(guān)鍵途徑。

責任編輯:龐桂玉 來源: 數(shù)據(jù)驅(qū)動智能
相關(guān)推薦

2025-06-20 01:00:00

人工智能AI

2025-06-17 06:21:13

2025-06-18 02:00:00

人工智能AI大模型

2025-06-19 02:30:00

人工智能AI大模型

2025-06-16 02:30:00

大型語言模型LLM人工智能

2019-09-30 07:18:55

IT人士人工智能職業(yè)

2022-02-28 16:01:04

人工智能機器學習企業(yè)

2023-08-29 15:03:05

2021-09-18 19:37:44

區(qū)塊鏈人工智能AI

2017-04-27 02:08:18

身份認證人工智能首都網(wǎng)絡安全日

2017-10-16 10:25:27

2019-05-15 08:35:40

區(qū)塊鏈人工智能AI

2022-01-10 23:59:45

人工智能區(qū)塊鏈技術(shù)

2017-07-26 16:26:47

數(shù)據(jù)中心人工智能技術(shù)

2021-04-13 10:37:46

人工智能數(shù)據(jù)技術(shù)

2018-08-20 19:49:00

人工智能機器學習深度學習

2018-12-28 09:00:00

人工智能機器學習開源框架

2022-09-15 11:16:23

人工智能的AI

2022-08-17 14:29:35

人工智能區(qū)塊鏈機器學習

2018-08-29 10:50:29

區(qū)塊鏈人工智能AI
點贊
收藏

51CTO技術(shù)棧公眾號