生成式AI進入第二幕:交大攜手創(chuàng)智學(xué)院提出「認知工程」,AI新紀元開始了
第二幕將催生一種全新的專業(yè):認知工程師 (Cognitive Engineers)— 專注于將人類或 AI 在各領(lǐng)域的深度認知提煉、結(jié)構(gòu)化并轉(zhuǎn)化為 AI 可學(xué)習(xí)的形式。
無論你是技術(shù)創(chuàng)造者還是使用者,理解這場認知革命都至關(guān)重要。我們正在從「AI as tools」向「AI as thinking partners」轉(zhuǎn)變,這不僅改變了技術(shù)的能力邊界,也改變了我們與技術(shù)協(xié)作的方式。
一、生成式 AI 的第一幕:輝煌與局限
第一幕取得的輝煌成就
2022 年末,ChatGPT 橫空出世,引發(fā)了一場席卷全球的 AI 革命。這場革命之所以深刻,正如比爾?蓋茨所言:「人生中讓我印象深刻的兩次技術(shù)革命演示,一次是現(xiàn)在操作系統(tǒng)的先驅(qū)『圖形用戶界面』,另一個就是以 ChatGPT 為代表的生成式人工智能技術(shù)?!股墒?AI 的出現(xiàn)不僅改變了我們與計算機交互的方式,更重塑了我們對人工智能能力邊界的認知。
從文本到代碼,從圖像到視頻,生成式 AI 展現(xiàn)了令人驚嘆的創(chuàng)造力。如今,你只需輸入一句簡單的指令,就能讓 AI 生成「兩艘海盜船在一杯咖啡中航行時相互爭斗的逼真特寫視頻」;你可以向它提出復(fù)雜的編程需求,它會為你編寫完整的代碼;你甚至可以請它以莎士比亞的風(fēng)格撰寫一篇關(guān)于量子物理學(xué)的論文。這些曾經(jīng)只存在于科幻小說中的場景,如今已成為我們?nèi)粘I畹囊徊糠帧I墒?AI 正在實現(xiàn)一種前所未有的民主化,讓高級智能服務(wù)不再局限于技術(shù)精英,而是向每個人敞開大門。
在過去的兩年里,我們經(jīng)歷了生成式 AI 的第一幕(2024 年 9 月前):以大規(guī)模預(yù)訓(xùn)練和提示工程為基礎(chǔ),實現(xiàn)了知識的高效存儲和檢索。這一階段的技術(shù)基礎(chǔ)建立在兩大核心支柱上:生成式預(yù)訓(xùn)練(Generative Pretraining)作為數(shù)據(jù)存儲機制,將世界知識壓縮到神經(jīng)網(wǎng)絡(luò)參數(shù)中;以及提示工程(Prompting Engineering)作為知識讀取方式,而且是通過人類最擅長的自然語言交互提取這些知識。
在標準基準測試上,第一幕 AI 取得了顯著進步。以 MMLU(大規(guī)模多任務(wù)理解測試)為例,從 2019 年到 2024 年,頂尖模型的性能從人類水平以下迅速攀升至超過 90% 的準確率,超越了人類表現(xiàn)。這些基準測試涵蓋各種知識領(lǐng)域和任務(wù)類型,從常識推理到專業(yè)知識,從語言理解到問題解決,AI 模型在幾乎所有領(lǐng)域都展現(xiàn)出了驚人的進步。
第一幕的根本局限
然而,隨著我們對生成式 AI 的深入應(yīng)用,第一幕的根本局限也日益凸顯,尤其在復(fù)雜推理能力方面的不足。
推理能力的短板最為突出。以 AIME(美國高中數(shù)學(xué)競賽)為例,即使是最先進的模型如 Qwen-2.5-Math,在面對 2024 年 AIME 的 30 道題目時,也只能正確回答 9-13 道。這表明,在需要深度數(shù)學(xué)推理的任務(wù)上,第一幕 AI 仍然與人類專家有明顯差距。
同樣,在 OS World Benchmark (評估 AI 操作電腦完成任務(wù)的能力) 等測試中,這些模型在使用計算機完成復(fù)雜任務(wù)時表現(xiàn)不佳。此類任務(wù)需要長鏈規(guī)劃、工具使用和環(huán)境交互,而現(xiàn)有模型往往難以維持連貫的長期計劃和適應(yīng)動態(tài)環(huán)境變化。
第一幕 AI 模型在這些復(fù)雜推理任務(wù)上的表現(xiàn)遠遠落后于其在文本理解等方面的成就。即使是 GPT-4o 這樣的頂尖模型,在需要深度思考的場景中仍然困難重重。
除了推理能力的短板外,第一幕 AI 還存在知識更新滯后的問題。模型的知識截止于其訓(xùn)練數(shù)據(jù)的時間點,無法自動獲取最新信息。這導(dǎo)致在快速變化的領(lǐng)域中,模型提供的信息可能已經(jīng)過時或不準確。
最根本的局限是深度思考能力的缺失。第一幕的模型更像是一個知識管理工具,善于檢索和整合已有信息,但難以進行真正的創(chuàng)造性思考或處理前所未見的復(fù)雜問題。它們無法像人類那樣進行長時間的深度思考,無法在思考過程中識別錯誤并調(diào)整方向,也無法連接遠距離的知識點形成新的見解。我們需要一個會深度思考的模型!
為什么(思考)推理能力如此重要?正如某位 OpenAI 科學(xué)家:「任何要完成的工作都會遇到障礙,而讓你繞過這些障礙的是你的推理能力?!?在實際應(yīng)用場景中,推理能力的重要性表現(xiàn)在多個方面:
- 數(shù)理推理:從證明數(shù)學(xué)定理到解決物理問題,強大的推理能力是科學(xué)研究的基礎(chǔ)。
- 工具調(diào)用:在處理「白酒和新能源推薦更有潛力的一支股票」這類請求時,模型需要理解查詢意圖,分解為子任務(wù),調(diào)用適當工具,并整合信息給出合理建議。
- 智能體規(guī)劃:執(zhí)行「幫我下單一款蘋果去年 3 月份新出的手機」等任務(wù)時,需要理解時間線索,識別產(chǎn)品,了解購買流程,并執(zhí)行多步操作。
- 更復(fù)雜場景:如 Deep Research(深度研究)、Computer Use(計算機使用)和 Codebase-Level Reasoning(代碼庫級推理)等任務(wù),都需要模型具備持續(xù)、連貫的推理能力和適應(yīng)性思考。
第一幕技術(shù)的總結(jié)
第一幕 AI 的推理局限引發(fā)了一個關(guān)鍵問題:僅通過預(yù)訓(xùn)練擴展能否實現(xiàn)復(fù)雜推理?行業(yè)內(nèi)已形成共識認為「預(yù)訓(xùn)練將要結(jié)束」,「僅通過預(yù)訓(xùn)練無法實現(xiàn) AGI」。通用 LLM 已在普通用戶需求領(lǐng)域趨于飽和,而前沿創(chuàng)新領(lǐng)域仍存在巨大的提升空間。
這種現(xiàn)象表明,我們遇到了預(yù)訓(xùn)練擴展的瓶頸。盡管投入更多數(shù)據(jù)和計算資源,模型在推理能力上的提升卻日漸減緩。我們需要一種根本性的范式轉(zhuǎn)變,而不僅僅是對現(xiàn)有方法的量化擴展。
總結(jié)第一幕的生成式 AI,我們可以看到其技術(shù)基礎(chǔ)是預(yù)訓(xùn)練和微調(diào)的結(jié)合。這一階段的 AI 模型:
- 能力特點:掌握海量已有知識,處理日常高頻任務(wù),完成簡單推理
- 局限性:知識更新滯后,難以深度思考,推理能力有限
正是這些局限促使我們轉(zhuǎn)向生成式 AI 的第二幕 —— 認知工程。我們需要一個真正會深度思考的模型,而不僅僅是一個高效的知識檢索工具。第二幕的到來,標志著 AI 從知識管理向認知管理的跨越,從信息處理向思維模擬的進化。這一轉(zhuǎn)變將如何實現(xiàn)?它又將帶來怎樣的革命性變化?這正是我們接下來要探討的內(nèi)容。
二、生成式 AI 的第二幕
在生成式 AI 的發(fā)展歷程中,我們正跨入一個激動人心的新階段 —— 第二幕:認知工程。這一轉(zhuǎn)變不僅僅是技術(shù)的迭代,更是 AI 能力本質(zhì)的重新定義。那么,什么是認知工程?它與第一幕的知識工程有何本質(zhì)區(qū)別?為什么它會在此時出現(xiàn)?這些問題將成為我們理解 AI 未來發(fā)展的關(guān)鍵。
最近,上海交通大學(xué)聯(lián)合創(chuàng)智學(xué)院,耗時超過半年,創(chuàng)建了教科書級別的長達 76 的文章(并提供了雙語版本),首次提出:「認知工程」的概念:認為生成式 AI 發(fā)展已進入第二幕,從原來的以預(yù)訓(xùn)練技術(shù)為核心的提示詞工程 (Prompt engineering) 轉(zhuǎn)變?yōu)橐?Test-Time scaling 為核心的認知工程 (Cognition Engineering),結(jié)合 400 多篇論文和最新的研究工作全景式介紹了 Test-time scaling 技術(shù)驅(qū)動下的范式變革。
- 論文標題:Generative AI Act II: Test Time Scaling Drives Cognition Engineering
- 英文論文地址:https://arxiv.org/pdf/2504.13828
- 中文論文地址:https://github.com/GAIR-NLP/cognition-engineering/blob/main/assets/Cognition_Engineering_zh.pdf
- 代碼地址:https://github.com/GAIR-NLP/cognition-engineering
圖:提示工程使人類首次通過自然語言與 AI 實現(xiàn)對話級交流;如今,認知工程則通過基于語言的思想,建立起我們與 AI 之間首次思維層面的連接 —— 宛如意識之間的直接對接。
這篇工作提供了什么?
該文章全面介紹了生成式 AI 發(fā)展第二幕的特點、技術(shù)手段、應(yīng)用前景、未來方向,并努力讓不同的人群都有所收獲,包括但不限于:
- 作為 AI 研究人員,您是否正在尋找突破大型語言模型當前瓶頸的新研究方向,尋找下一個 Scaling Law?
- 作為 AI 應(yīng)用工程師,您是否需要一個更加實戰(zhàn)經(jīng)驗的教程指導(dǎo)你如何把 Test-time Scaling 應(yīng)用到你的應(yīng)用場景里?
- 作為數(shù)據(jù)工程師,您是否想了解大模型第二幕下什么樣的數(shù)據(jù)更加寶貴(即數(shù)據(jù)工程 2.0)?
- 作為學(xué)生或 AI 新手,您是否希望有一個系統(tǒng)性框架來理解「認知工程」和「Test-time Scaling」的概念和應(yīng)用以及「傻瓜式」的入門代碼教程?RL Scaling 的訓(xùn)練技巧太多,如何系統(tǒng)性的整理?
- 作為教育工作者,您是否需要結(jié)構(gòu)化的教學(xué)資源來解釋「Test-time Scaling」?
- 作為投資者或決策者,您是否想了解生成式 AI 已進入的新階段, 通過「第一 / 二幕」框架獲得強化視野,提供深度的認知洞察?
特別的,該文章提供了如下的系統(tǒng)化資源:
- 如何在特定領(lǐng)域應(yīng)用 Test-time scaling 的工作流程圖總結(jié),以及數(shù)學(xué)、代碼、多模態(tài)、智能體、具身智能、安全對齊、檢索增強生成、評估等多個領(lǐng)域的應(yīng)用范例。
- 提高 Test-time scaling 的擴展效率方法的全面總結(jié),涉及并行采樣、樹搜索、多輪修正、長思維鏈等主流的 Test-time scaling 技術(shù)。
- 如何利用強化學(xué)習(xí)技術(shù)激發(fā)大模型長思維鏈能力,包括代碼教程、工作總結(jié)、訓(xùn)練問題的常見應(yīng)對策略。
- 不同領(lǐng)域的長思維鏈資源匯總。
- Test-Time scaling 前沿持續(xù)追蹤。
- ...
三、深度解讀三大擴展定律(Scaling Laws)
預(yù)訓(xùn)練階段(藍色區(qū)域):圖中的藍色知識節(jié)點之間存在天然連接(Innate Connection),這些連接是模型通過大規(guī)模預(yù)訓(xùn)練自然形成的。例如,「Earth」(地球)、「Gravity」(重力)和「Falling Objects」(落體)之間存在直接的天然關(guān)聯(lián),模型可以輕松理解「蘋果為什么會落下」這類問題。但注意「Kepler's Laws」(開普勒定律)和「Universal Gravitation」(萬有引力)這類更深層次的知識點與日?,F(xiàn)象之間并沒有直接連接。
后訓(xùn)練階段(綠色區(qū)域):通過額外的監(jiān)督學(xué)習(xí)和對齊訓(xùn)練,模型形成了更多學(xué)習(xí)得到的連接(Learned Connection)。圖中的綠色曲線顯示,這一階段的智能增長速度比預(yù)訓(xùn)練階段更快,但仍然有其極限。
測試時階段(紅色區(qū)域):這是認知工程的核心部分。在這一階段,模型能夠在推理過程中動態(tài)建立「推理連接」(Reasoned Connection),將遠距離的知識節(jié)點連接起來。圖中顯示,當面對一個問題(Query Start Node,Qs)時,模型不僅利用已有連接,還能通過推理建立新的連接路徑,最終到達目標節(jié)點(Query End Node,Qe)。
生成式 AI 的發(fā)展可以通過 Computation Scaling 模型來理解。
我們可以清晰地看到這一轉(zhuǎn)變的視覺化表達。圖表將 AI 的發(fā)展劃分為三個階段:Pre-training(預(yù)訓(xùn)練)、Post-training(后訓(xùn)練)和 Test-time(測試時),橫軸代表 Computation Scaling(計算擴展),縱軸代表 Intelligence(智能水平)。
階段一:預(yù)訓(xùn)練擴展
通過增加訓(xùn)練數(shù)據(jù)和模型參數(shù)來提升性能,但逐漸遇到天花板。
階段二:后訓(xùn)練擴展
通過精細調(diào)整、對齊和指令遵循進一步提升模型能力,但增長同樣趨于平緩。
階段三:測試時擴展
通過改變推理過程本身,打開了一個全新的擴展維度,性能曲線再次陡峭上升。
這種演進模式告訴我們一個重要事實:當一種擴展方式達到極限時,我們需要尋找新的擴展維度。測試時擴展正是這樣一種新維度,它不再僅僅關(guān)注「模型知道什么」,而是關(guān)注「模型如何思考」。
這種能力的本質(zhì)是:模型可以在推理過程中進行深度思考,動態(tài)構(gòu)建認知路徑,而不僅僅是檢索靜態(tài)知識。測試時階段的紅色曲線陡峭上升,表明這種方法帶來了智能水平的顯著提升。
四、認知工程
什么是認知工程?「認知工程是通過超越傳統(tǒng)預(yù)訓(xùn)練方法的 Test Time Scaling (測試時擴展) 范式,系統(tǒng)性構(gòu)建人工智能思維能力的方法論。它融合人類認知模式提煉和 AI 自主發(fā)現(xiàn)(如強化學(xué)習(xí)),有意識地培育人工系統(tǒng)的深度認知能力?!?/span>
DIKW 金字塔及其與認知工程范式的關(guān)系
認知工程代表了人工智能發(fā)展范式的根本轉(zhuǎn)變,其核心在于系統(tǒng)化地構(gòu)建 AI 系統(tǒng)的深度認知能力?;?DIKW(數(shù)據(jù) - 信息 - 知識 - 智慧)理論框架,這一新興領(lǐng)域致力于實現(xiàn)從知識層面向智慧層面的質(zhì)變突破。
在認知維度上,傳統(tǒng) AI 系統(tǒng)主要停留在數(shù)據(jù)和信息處理層面,大語言模型雖然實現(xiàn)了知識層面的突破,但認知工程更進一步,聚焦于智慧層面的核心特征:包括通過多層級復(fù)雜推理與元認知能力實現(xiàn)的深度思考;通過跨領(lǐng)域知識整合與新見解生成的創(chuàng)造性連接,以及根據(jù)問題復(fù)雜度自主調(diào)整思維過程的動態(tài)適應(yīng)能力。
與傳統(tǒng) AI 范式相比,認知工程展現(xiàn)出根本性差異:
- 在能力基礎(chǔ)上實現(xiàn)了從數(shù)據(jù) / 信息累積到知識 - 智慧轉(zhuǎn)化的轉(zhuǎn)變;
- 在學(xué)習(xí)方式上從行為模仿轉(zhuǎn)向思維過程模仿;
- 在系統(tǒng)特性方面將靜態(tài)知識庫升級為動態(tài)認知系統(tǒng);
- 在輸出模式上完成了從知識檢索到知識創(chuàng)造的跨越。這種范式轉(zhuǎn)變標志著 AI 發(fā)展進入以「思維質(zhì)量」為核心的新階段。
認知工程可以定義為:通過延長推理時間和學(xué)習(xí)人類認知過程,使大模型由第一幕的知識管理工具進化成具備深度思考能力的認知管理工具。這是一個從「知道什么」到「如何思考」的根本轉(zhuǎn)變。
我們可以通過知識圖譜的類比來直觀理解這一轉(zhuǎn)變。在第一幕中,大模型通過預(yù)訓(xùn)練獲取了大量的知識點(節(jié)點)和它們之間的常見關(guān)聯(lián)(邊),形成了一個龐大但相對靜態(tài)的知識網(wǎng)絡(luò)。當用戶提問時,模型主要在這個預(yù)先構(gòu)建的網(wǎng)絡(luò)中檢索和組合已有信息。這就像是在一個已經(jīng)鋪好的公路網(wǎng)上行駛,只能到達那些有道路相連的地方。
而在第二幕的認知工程中,模型獲得了一種新能力:它可以在推理過程中「修建新路」—— 也就是通過深度思考建立遠距離知識點之間的新連接。面對一個復(fù)雜問題,比如「量子力學(xué)與心理學(xué)有何關(guān)聯(lián)?」,第二幕的模型不再僅僅檢索已知的直接聯(lián)系(如果有的話),而是能夠通過多步推理,探索這兩個領(lǐng)域之間可能存在的聯(lián)系路徑,甚至發(fā)現(xiàn)前人未曾注意到的隱含關(guān)系。
這種能力的核心在于:模型可以在推理過程中動態(tài)構(gòu)建認知路徑,而不僅僅是檢索靜態(tài)知識。這正是人類深度思考的本質(zhì)特征之一。
五、為什么現(xiàn)在發(fā)展認知工程?
認知工程的興起并非偶然,而是對 AI 發(fā)展在 DIKW 金字塔中遭遇「智慧鴻溝」的直接回應(yīng)。盡管在知識檢索、內(nèi)容生成和基礎(chǔ)推理方面取得顯著進展,大語言模型在智慧層面仍存在明顯缺陷:
- 復(fù)雜推理局限:在多步邏輯推演(如數(shù)學(xué)證明、科學(xué)問題求解)中,當前大語言模型難以實現(xiàn)可靠的子問題分解與路徑探索。
- 知識靜態(tài)性缺陷:預(yù)訓(xùn)練模型存在知識固化問題,既無法自主更新知識體系,更缺乏提出原創(chuàng)假設(shè)的科學(xué)發(fā)現(xiàn)能力。
- 應(yīng)用需求升級:從模式匹配轉(zhuǎn)向復(fù)雜決策支持,用戶需求已超越知識檢索,要求系統(tǒng)具備多視角分析與創(chuàng)新洞察。
認知工程在此特定時刻興起,得益于多項技術(shù)突破的同步成熟。這些突破共同創(chuàng)造了必要條件,使 AI 得以從知識管理邁向深度認知能力。認知工程的崛起建立在三大關(guān)鍵技術(shù)支柱之上:
- 知識基礎(chǔ):訓(xùn)練數(shù)據(jù)從非結(jié)構(gòu)化文本升級為整合科學(xué)文獻、技術(shù)文檔、編程代碼庫的專業(yè)語料體系(如 Llama 2 的 2 萬億 token 知識生態(tài))。
- 測試時擴展技術(shù):傳統(tǒng)推理方法受限于固定輸出長度和單次生成范式。近期一系列技術(shù)突破顯著擴展了模型的推理能力:思維鏈提示(CoT) 引導(dǎo)模型像人類解題那樣逐步推理;樹狀搜索允許同時探索多條推理路徑而非局限于單一思路;自我修正與驗證技術(shù)進一步強化這些能力,使模型能評估自身推理、識別潛在錯誤并改進方法 —— 模擬人類元認知過程。
- 自訓(xùn)練技術(shù):通過強化學(xué)習(xí)框架(如 DeepSeek-R1),模型自主掌握反思 / 回溯等高級認知技能,并在可驗證獎勵機制中持續(xù)優(yōu)化推理策略。
六、如何使用 Test-Time Scaling 技術(shù)推動認知工程?
全文從兩個角度介紹了如何使用 Test-Time scaling 技術(shù)推動認知工程。
(1)Test-time scaling 方法
全文主要介紹了四種 Test-time scaling 方法:并行采樣、樹搜索、多輪修正和長思維鏈推理。對于每種 Test-time scaling 方法,涵蓋構(gòu)建方法、擴展規(guī)律以及如何從單個方法優(yōu)化角度提高擴展效率。此外,文章還在多個維度上比較了這些方法的優(yōu)劣勢,并討論如何有效地結(jié)合它們以提升性能。
提高 Test-time scaling 擴展效率的方法總結(jié)
不同 Test-time scaling 方法的比較
不同 Test-time scaling 方法的集成
(2)Test-time scaling 背后的訓(xùn)練策略
對于長思維鏈的 Test-time scaling 技術(shù),對于傳統(tǒng)的大語言模型,需要強化學(xué)習(xí)或者監(jiān)督微調(diào)技術(shù)解鎖其長思維鏈能力,該文章結(jié)合最新的工作,對于強化學(xué)習(xí)技術(shù),從訓(xùn)練算法、獎勵函數(shù)、策略模型、訓(xùn)練數(shù)據(jù)、多階段訓(xùn)練五個角度全面介紹其設(shè)計準則,此外論文還提供了配套的代碼教程。
應(yīng)用強化學(xué)習(xí)技術(shù)解鎖長思維鏈能力工作總結(jié)
解決強化學(xué)習(xí)訓(xùn)練常見問題的方法匯總
不同強化學(xué)習(xí)算法比較
不同獎勵類型的比較
對于使用監(jiān)督微調(diào)技術(shù)解鎖長思維鏈能力,該文章從訓(xùn)練數(shù)據(jù)來源、訓(xùn)練數(shù)據(jù)質(zhì)量、訓(xùn)練數(shù)據(jù)量、訓(xùn)練方法 、基模型五個角度全面介紹其設(shè)計準則,并匯總了常見的針對不同場景的長思維鏈資源。
七、數(shù)據(jù)工程 2.0: 認知數(shù)據(jù)工程
傳統(tǒng)人工智能主要關(guān)注知識獲取 —— 訓(xùn)練系統(tǒng)學(xué)習(xí)人類思維的成果。然而,認知工程要求一種根本性的不同:從思維成果轉(zhuǎn)向思維過程本身。這一轉(zhuǎn)變催生了一門新學(xué)科 —— 認知數(shù)據(jù)工程,它徹底改變了我們對有價值訓(xùn)練數(shù)據(jù)的理解。
認知數(shù)據(jù)來源于三個不同但互補的來源,每個來源都為開發(fā)過程帶來了獨特的優(yōu)勢和挑戰(zhàn):
來源 1:人類認知投射
盡管目前缺乏直接捕捉人類思維過程的腦機接口,我們?nèi)钥梢酝ㄟ^物理世界中的投射來獲取人類認知:
- 直接記錄的產(chǎn)物。專家問題解決過程的視頻記錄、出聲思考記錄以及詳細的研究日志,捕捉了認知過程的展開。這些記錄不僅保留了解決方案,還保留了專家思維中的混亂現(xiàn)實 —— 錯誤的開始、修改和突破。
- 工具介導(dǎo)的認知痕跡。復(fù)雜的認知活動在專用工具中留下了痕跡 —— 實驗室筆記本、協(xié)作白板會議、軟件開發(fā)中的版本控制系統(tǒng),以及科學(xué)論文通過草稿和修訂的逐步完善。這些工具作為代理,使隱含的認知過程變得顯性和可觀察。
- 前沿專業(yè)知識提取。最有價值的認知模式通常存在于領(lǐng)域前沿專家的頭腦中。這些模式需要精心設(shè)計的提取方法 —— 專門的訪談技術(shù)、定制的問題場景和高質(zhì)量的互動,將隱性知識提煉為顯性的推理軌跡。
來源 2:AI 生成的認知
通過適當?shù)莫剟顧C制和復(fù)雜的強化學(xué)習(xí)方法,AI 系統(tǒng)現(xiàn)在可以在環(huán)境中獨立生成有價值的認知數(shù)據(jù)或軌跡:
- 環(huán)境與獎勵的協(xié)同作用。當提供設(shè)計良好的環(huán)境、適當?shù)莫剟詈瘮?shù)和強大的初始化模型時,AI 系統(tǒng)可以通過擴展探索發(fā)現(xiàn)新的認知策略。這些策略可能與人類方法大不相同,但能達到同等或更優(yōu)的效果 —— 類似于 AlphaGo 著名的「第 37 手」,最初讓人類專家感到困惑,但最終證明非常有效。
- 自我對抗與對抗性發(fā)現(xiàn)。系統(tǒng)可以通過與自己競爭或面對越來越復(fù)雜的場景,生成越來越復(fù)雜的認知數(shù)據(jù),開發(fā)出僅靠模仿人類例子無法出現(xiàn)的推理策略。
- 認知發(fā)現(xiàn)中的規(guī)?;?yīng)。隨著計算資源的增加,AI 系統(tǒng)可以探索由于生物限制(如記憶、注意力跨度或處理速度)而無法為人類所及的認知路徑 —— 可能在從數(shù)學(xué)到藥物設(shè)計的各個領(lǐng)域中發(fā)現(xiàn)新的問題解決方法。
來源 3:人機協(xié)作生成
最有前景的或許是通過人機伙伴關(guān)系共同創(chuàng)造認知數(shù)據(jù):
- 軌跡采樣與人工過濾。AI 代理可以生成多樣化的解決路徑,然后由人類專家評估和提煉,結(jié)合機器生成的多樣性和人類對質(zhì)量和相關(guān)性的判斷。
- 人工種子與 AI 擴展。人類專家可以提供復(fù)雜領(lǐng)域中的初始推理示例,然后 AI 系統(tǒng)進行認知完成(即擴展、系統(tǒng)化變化和完成)—— 創(chuàng)建比僅靠人工標注更大的訓(xùn)練數(shù)據(jù)集。
- 迭代優(yōu)化循環(huán)。人工和 AI 的貢獻可以在漸進循環(huán)中交替進行,每一方都在對方工作的基礎(chǔ)上進行增強 —— 人工提供創(chuàng)造性飛躍或概念重構(gòu),AI 提供系統(tǒng)化的探索和邊緣案例。
這種認知數(shù)據(jù)建立了一類全新的數(shù)字資源,有可能推動 AI 能力超越僅靠自然數(shù)據(jù)收集或合成生成所能達到的水平。由此產(chǎn)生的認知數(shù)據(jù)存儲庫很可能變得與大規(guī)模計算資源一樣具有戰(zhàn)略價值,成為決定 AI 進步領(lǐng)導(dǎo)地位的關(guān)鍵因素。
預(yù)訓(xùn)練階段數(shù)據(jù)工程演變趨勢(左)與后訓(xùn)練階段數(shù)據(jù)工程演變趨勢(右)
該文章還從數(shù)學(xué)、代碼、多模態(tài)、智能體、具身智能、安全對齊、檢索增強生成、評估等多個角度介紹了 Test-time scaling 驅(qū)動下的認知工程的應(yīng)用實例以及未來發(fā)展方向:
Test-time scaling 技術(shù)在不同領(lǐng)域的應(yīng)用
Test-time scaling 技術(shù)在數(shù)學(xué)領(lǐng)域工作的時間線總結(jié)
論文還提供了手把手寫 RL Scaling 的代碼和對應(yīng)使用的數(shù)據(jù)集,讓每個感興趣的人都可以掌握這門技術(shù):
八、結(jié)語
站在 2025 年的視角回望生成式 AI 的發(fā)展歷程,我們見證了一場前所未有的認知革命。從第一幕的知識管理工具,到第二幕的認知工程,AI 正在經(jīng)歷一場本質(zhì)的蛻變。
第一幕以大規(guī)模預(yù)訓(xùn)練和提示工程為基礎(chǔ),創(chuàng)造了能夠理解和生成人類語言的強大模型。這些模型擅長知識檢索和簡單推理,為人類提供了前所未有的信息處理工具。然而,它們在深度思考、復(fù)雜推理和創(chuàng)新性任務(wù)上的局限也日益明顯。
第二幕的認知工程帶來了根本性的突破。通過測試時擴展技術(shù),AI 首次獲得了真正的深度思考能力;這場認知革命的影響深遠。在短期內(nèi),它將改變軟件開發(fā)、內(nèi)容創(chuàng)作和信息分析等領(lǐng)域的工作方式;在中期,它將重塑教育體系、科學(xué)研究和商業(yè)創(chuàng)新的流程;在長期,它可能會改變?nèi)祟惻c技術(shù)的關(guān)系本質(zhì),創(chuàng)造一種人機共生的新智能形態(tài)。
對于開發(fā)者,建議是:不要僅停留在 API 調(diào)用層面,深入了解認知工程的原理,學(xué)會設(shè)計能夠激發(fā) AI 深度思考的交互;對于研究者,尋找測試時擴展與新型架構(gòu)結(jié)合的創(chuàng)新點,探索認知與記憶的協(xié)同優(yōu)化;對于產(chǎn)業(yè)界,投資認知數(shù)據(jù)的收集與生成,打造滿足行業(yè)特定需求的認知模型。
無論你是技術(shù)創(chuàng)造者還是使用者,理解這場認知革命都至關(guān)重要。我們正在從「AI as tools」向「AI as thinking partners」轉(zhuǎn)變,這不僅改變了技術(shù)的能力邊界,也改變了我們與技術(shù)協(xié)作的方式。