偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

探討超長上下文推理的潛力

人工智能
上下文長度正以每年 30 倍的速度增長,前沿大模型利用上下文的能力也在快速提升。即便這種趨勢稍有放緩,這些重大突破也極有可能在不久的將來成為現(xiàn)實(shí)。

現(xiàn)代大語言模型已經(jīng)能夠一次性處理相當(dāng)于整本書的文本量,但我們是否曾想過,當(dāng)模型的“記憶”容量再擴(kuò)展成千上萬倍,足以容納長達(dá)數(shù)月乃至數(shù)年的交互信息時(shí),人工智能的能力邊界將會(huì)發(fā)生怎樣顛覆性的變化?

我們今天為大家?guī)淼奈恼?,作者的核心觀點(diǎn)是:超長上下文推理的真正潛力,并不僅僅是處理海量文檔,更在于它為實(shí)現(xiàn)人工智能的“持續(xù)學(xué)習(xí)”和規(guī)?;皬?qiáng)化學(xué)習(xí)”這兩大關(guān)鍵瓶頸提供了革命性的突破路徑。

文章指出,超長上下文窗口能讓 AI 系統(tǒng)在部署后,通過“記憶”和“反思”過往的交互案例來不斷學(xué)習(xí)和糾錯(cuò),這是解決當(dāng)前 AI 系統(tǒng)無法從經(jīng)驗(yàn)中成長這一核心障礙的關(guān)鍵。作者認(rèn)為,強(qiáng)大的長上下文推理不僅能支持模型處理時(shí)間跨度更長的復(fù)雜任務(wù)(例如需要數(shù)月才能驗(yàn)證的科研方向),還能通過驗(yàn)證復(fù)雜的推理鏈條為模型提供高質(zhì)量的訓(xùn)練信號(hào),甚至可以用來生成更逼真的強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境。

從理論上講,現(xiàn)代大語言模型能夠一次性處理相當(dāng)于多本書籍的文本量。以 Gemini 2.5 Pro 為例,其上下文窗口達(dá)到 100 萬 token,足以容納十本《哈利·波特與魔法石》的內(nèi)容1。但若能對更長的上下文進(jìn)行大量推理呢?如果大模型可以接收 100 億 token 的上下文,并且我們具備使之可以實(shí)現(xiàn)的硬件與算法,又將如何?

最直接的應(yīng)用場景自然是處理超長文檔[1]。但我們認(rèn)為長上下文推理的意義遠(yuǎn)不止于此:

  • 其一,它為模型部署后持續(xù)學(xué)習(xí)新知識(shí)提供了突破口 —— 而這也是當(dāng)前人工智能系統(tǒng)在實(shí)際應(yīng)用中的最大瓶頸之一。
  • 其二,它能極大推動(dòng)強(qiáng)化學(xué)習(xí)的擴(kuò)展:實(shí)現(xiàn)更復(fù)雜的推理、驗(yàn)證模型輸出,并生成高質(zhì)量的強(qiáng)化學(xué)習(xí)環(huán)境。
  • 但瓶頸依然存在。隨著強(qiáng)化學(xué)習(xí)任務(wù)時(shí)長增加,研究迭代周期會(huì)放緩。同時(shí)還需要硬件與算法的雙重突破,確保長上下文推理不會(huì)因速度或成本問題而難以落地。

值得注意的是,上下文長度正以每年 30 倍的速度增長[2],前沿大模型利用上下文的能力也在快速提升。即便這種趨勢稍有放緩,這些重大突破也極有可能在不久的將來成為現(xiàn)實(shí)。

1.超長上下文推理為持續(xù)學(xué)習(xí)提供了突破口

要使大語言模型真正具備經(jīng)濟(jì)價(jià)值[3],它們很可能需要"持續(xù)學(xué)習(xí)"的能力,即在模型部署后仍能不斷吸收新知識(shí)2。這種能力對于幫助 AI 系統(tǒng)從犯過的錯(cuò)誤中學(xué)習(xí)或培養(yǎng)研究直覺[4]非常重要。但當(dāng)前的大模型缺乏能在長對話或多輪交互中保留的“記憶”。

部分問題在于,當(dāng)前大模型的上下文窗口不夠長,難以支撐有效的持續(xù)學(xué)習(xí)。舉例來說,若通過截圖記錄工作歷程,100 萬 token 的上下文僅能支持 AI Agent 執(zhí)行半小時(shí)的電腦任務(wù) —— 遠(yuǎn)不足以獲取大量隱性知識(shí)3。但更長的上下文能帶來質(zhì)變:1000 萬 token 可覆蓋約 6 小時(shí)的電腦使用記錄,而 100 億 token 便能延伸至八個(gè)月!更樂觀地看,若僅憑文本和音頻 token 就能表征工作經(jīng)驗(yàn),約 4000 萬 token 或許已足以積累數(shù)月的“工作經(jīng)驗(yàn)”?。

一旦擁有超長上下文,模型便能直接從上下文窗口中的過往案例學(xué)習(xí)。例如,推理模型已展現(xiàn)出在思維鏈中自我糾錯(cuò)[5-6]的能力,將這些習(xí)得的修正方案保留在上下文中,將有助于模型未來解決類似問題。

這種“超大上下文窗口+上下文學(xué)習(xí)”的持續(xù)學(xué)習(xí)路徑已被探討多次。比如 Aman Sanger 在與 Cursor 團(tuán)隊(duì)交流時(shí)曾提及這一方向[7],Andrej Karpathy 也在 X 平臺(tái)上勾勒過其實(shí)現(xiàn)框架[8]:

(譯者注:這個(gè)框架的核心邏輯大概是,模型在完成任務(wù)時(shí),先試幾次 —> 記錄每次的結(jié)果和評估分?jǐn)?shù) —> 用一個(gè)“反思提示詞”讓模型自己總結(jié)經(jīng)驗(yàn) —> 把經(jīng)驗(yàn)寫成“l(fā)esson” —> 存起來,下次遇到類似任務(wù)時(shí)用上 —> 不斷迭代優(yōu)化。)

不過,有人可能會(huì)質(zhì)疑這種方法[9],理由是隱性知識(shí)很難存儲(chǔ)在基于先前上下文的文本摘要中 —— 這會(huì)導(dǎo)致關(guān)于任務(wù)執(zhí)行過程的豐富信息大量丟失。這種擔(dān)憂確有道理,但未必能否定該路徑的可行性。

首先,如果上下文窗口比現(xiàn)有模型大幾個(gè)數(shù)量級(jí),我們就有可能對上下文進(jìn)行深度優(yōu)化。這有望克服經(jīng)驗(yàn)壓縮中的信息損耗問題。例如,假設(shè)有一個(gè)大語言模型能夠存儲(chǔ)相當(dāng)于數(shù)月工作內(nèi)容的上下文,我們可以結(jié)合“sleep-time compute”[10]機(jī)制:讓模型利用(可預(yù)設(shè)的)空閑時(shí)間,將新獲取的信息與既有知識(shí)建立關(guān)聯(lián)進(jìn)行學(xué)習(xí)。通過大量推理計(jì)算和強(qiáng)化學(xué)習(xí)優(yōu)化后,所產(chǎn)生的學(xué)習(xí)上下文可能極為高效。當(dāng)前模型通過強(qiáng)化學(xué)習(xí)已顯著提升了對上下文的利用效率,而正如下一節(jié)將探討的,這方面仍有巨大提升空間。

如果問題在于以文本形式存儲(chǔ)信息,長上下文還可以與業(yè)界積極研究的其他方案結(jié)合。例如,token 可作為多種模態(tài)信息[11]的通用表征載體;又或者,隱性知識(shí)可以存儲(chǔ)在經(jīng)過學(xué)習(xí)的 KV 緩存[12]中,形成比文本摘要更密集的知識(shí)表征。

當(dāng)然,這些技術(shù)能否真正奏效,不僅取決于紙上談兵地?cái)U(kuò)大上下文窗口尺寸,還需要建設(shè)配套基礎(chǔ)設(shè)施,確保相關(guān)上下文(例如近期所有工作交互記錄)都能被數(shù)字化并輸入大語言模型[13]。

我們同樣需要關(guān)注長上下文在實(shí)際應(yīng)用中的效果 —— 即便模型理論支持 100 萬 token 的上下文窗口,但在遠(yuǎn)未達(dá)到該長度時(shí),其輸出就可能已經(jīng)開始混亂。以 Vending Bench 基準(zhǔn)測試[14]為例:模型需要運(yùn)營自動(dòng)售貨機(jī)賺取利潤,但往往在理論上下文窗口遠(yuǎn)未填滿時(shí)就出現(xiàn)“失控”,產(chǎn)生巨額虧損。在實(shí)際使用大語言模型時(shí)我們也能觀察到類似現(xiàn)象:模型在長對話中會(huì)對先前的錯(cuò)誤過度關(guān)注,導(dǎo)致用戶不得不開啟新對話重新開始。

2.能夠執(zhí)行大量長上下文推理有助于強(qiáng)化學(xué)習(xí)的規(guī)?;瘮U(kuò)展

要確保模型在長上下文窗口中保持邏輯連貫,一種方法是延續(xù)當(dāng)前強(qiáng)化學(xué)習(xí)與測試時(shí)計(jì)算擴(kuò)展的技術(shù)路線。例如,采用一定程度的端到端強(qiáng)化學(xué)習(xí)訓(xùn)練 —— 這種方法已為 OpenAI 的 Deep Research 系統(tǒng)[15]等產(chǎn)品提供了助力。它能提供訓(xùn)練信號(hào),幫助模型在回應(yīng)用戶的長查詢時(shí)保持前后一致性。

強(qiáng)大的長上下文推理能力正是強(qiáng)化學(xué)習(xí)持續(xù)擴(kuò)展的重要支撐。原因之一在于它支持更長的決策軌跡[16]:更大的上下文窗口允許模型對耗時(shí)任務(wù)[17]輸出更長的推理鏈條。

各基準(zhǔn)測試中模型的回答正變得越來越長,尤其是通常經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練[18]的推理模型。這進(jìn)一步加大了對長上下文推理的需求。

隨著大模型應(yīng)用于更復(fù)雜的長周期任務(wù),它們可能越來越多地面臨“稀疏獎(jiǎng)勵(lì)”問題 —— 即模型很難獲得明確的行為反饋信號(hào)。例如在 AI 研發(fā)中選擇研究方向時(shí),可能需要數(shù)月時(shí)間提出假設(shè)、設(shè)計(jì)和實(shí)施實(shí)驗(yàn),才能最終判斷出研究策略的優(yōu)劣。對于此類任務(wù),不僅單次決策軌跡長,更需要大量重復(fù)嘗試[19] —— 這能增加至少出現(xiàn)一次成功軌跡的概率,為模型提供學(xué)習(xí)范本?。

長上下文推理還能通過驗(yàn)證長模型輸出所需的復(fù)雜思維鏈,為推理模型提供高質(zhì)量獎(jiǎng)勵(lì)信號(hào)?。高質(zhì)量驗(yàn)證機(jī)制對 AI 的發(fā)展一直至關(guān)重要,OpenAI 用于改進(jìn) GPT-5 的“Universal Verifier[20]”就是明證。

此外,長上下文推理有助于生成強(qiáng)化學(xué)習(xí)環(huán)境(或其中的組成部分)。如 Kimi K2 的訓(xùn)練[21]就融合了 MCP[22] 服務(wù)器,利用大模型自動(dòng)生成大量模擬的“工具”、“智能體”、“任務(wù)”和“對話記錄”來為后訓(xùn)練階段創(chuàng)建高質(zhì)量的數(shù)據(jù)?。這個(gè)過程催生了長上下文推理的新需求場景,未來很可能擴(kuò)展到強(qiáng)化學(xué)習(xí)任務(wù)的創(chuàng)建。當(dāng)前這類環(huán)境大多通過程序化生成,但我們預(yù)期其質(zhì)量將持續(xù)提升[23]。而要構(gòu)建更高質(zhì)量的強(qiáng)化學(xué)習(xí)環(huán)境,有效運(yùn)用長思維鏈或智能體交互變得愈發(fā)關(guān)鍵,這正是長上下文能力的用武之地。

具體而言,我們認(rèn)為長上下文推理能在擴(kuò)展推理模型能力邊界方面發(fā)揮關(guān)鍵作用,使其勝任持續(xù)數(shù)周甚至數(shù)月的長周期任務(wù)。如果這種強(qiáng)化學(xué)習(xí)擴(kuò)展能帶來類似去年推理模型的進(jìn)步幅度,其影響將不可估量。

3.瓶頸:研究迭代速度放緩與潛在成本上升

這些強(qiáng)化學(xué)習(xí)的擴(kuò)展和持續(xù)學(xué)習(xí)能力的實(shí)現(xiàn),都需要付出代價(jià)。在發(fā)展道路上存在著諸多瓶頸和限制。

其中一個(gè)瓶頸是根本性的 —— 當(dāng) AI 模型執(zhí)行單次推理任務(wù)的時(shí)間被拉長到數(shù)周甚至數(shù)月時(shí),會(huì)直接拖慢整個(gè)科研的迭代速度,從而延緩技術(shù)創(chuàng)新的進(jìn)程。Noam Brown 在 Latent Space 播客[24]中犀利指出:

“隨著模型思考時(shí)間的延長,你會(huì)受到實(shí)際時(shí)鐘時(shí)間(wall-clock time)的制約。當(dāng)模型能夠即時(shí)響應(yīng)時(shí),實(shí)驗(yàn)迭代非常輕松。但當(dāng)它們需要三小時(shí)才能回應(yīng)時(shí),難度就完全不可同日而語了。

[...]

雖然可以在一定程度上將實(shí)驗(yàn)并行處理,但多數(shù)情況下,你必須先運(yùn)行并完成當(dāng)前實(shí)驗(yàn)、看到結(jié)果后,才能決定下一組實(shí)驗(yàn)的方向。我認(rèn)為這恰恰是 AI 研發(fā)需要長周期的最有力佐證”

另一大瓶頸在于成本。即便在理論上能實(shí)現(xiàn)長上下文推理,最終能否投入使用還要看成本是否可承受。需要硬件與推理算法[25]的雙重突破,否則模型運(yùn)行速度可能慢到無法接受,成本也會(huì)高昂得難以承受。成本問題已現(xiàn)端倪 —— Google DeepMind 就曾因高昂的成本[26]主動(dòng)放棄發(fā)布具備 1000 萬 token 上下文能力的 Gemini 1.5 Pro。

但總體而言,我們相信賦予語言模型長上下文推理能力將具有重大意義。它不僅能夠?qū)F(xiàn)有的推理范式推向新的高度,也能為 AI 系統(tǒng)賦能關(guān)鍵能力,使其在真實(shí)場景中發(fā)揮實(shí)用價(jià)值。盡管需要付出一定代價(jià),但這些瓶頸并非不可逾越。結(jié)合當(dāng)前上下文長度的增長趨勢與資源投入力度,這些影響可能很快就會(huì)顯現(xiàn)。

本文諸多觀點(diǎn)受 Will Brown 的啟發(fā),特此致謝。同時(shí)還要感謝 Lynette Bye 在寫作方面提供的寶貴建議,以及 Josh You 和 Jaime Sevilla 的反饋意見。

1 《哈利·波特與魔法石》約含 7.5 萬個(gè)單詞[27],即約 10 萬 token。

2 需注意,某些持續(xù)學(xué)習(xí)的定義[28]明確包含對新數(shù)據(jù)的訓(xùn)練(即更新模型參數(shù))。我們采用更寬泛的定義而不限定具體機(jī)制,因?yàn)槲覀冎饕P(guān)注模型在上下文環(huán)境中持續(xù)處理新信息的能力。

3 此計(jì)算基于每圖像約 250 token[29]、每秒 2 幀的設(shè)定。在 100 萬 token 的上下文窗口下,可處理時(shí)長約為 1,000,000 / (250 * 2) = 2000 秒(約 30 分鐘)。實(shí)際場景中可能需要更多 token,尤其在文本密集的計(jì)算機(jī)操作流中 —— 但這反而凸顯了長上下文推理能力的重要性。

4 例如,假設(shè)一人每日閱讀 3 萬 token 文本(約合三篇論文),其思維速度與語速同步(每分鐘 125 詞),且每日工作場景中保持 6 小時(shí)思考,則對應(yīng)新增 4.5 萬詞(6 萬 token)。日總量約 10 萬 token,年累積量約為 12×30×100,000 ≈ 3500 萬 token。實(shí)際數(shù)值可能更高,因?yàn)槿祟愃季S速度通常遠(yuǎn)超語言表達(dá)速度。

5 其他方法同樣有效。例如在研究過程中設(shè)置階段性獎(jiǎng)勵(lì)[30],可加速模型學(xué)習(xí)。

6 獎(jiǎng)勵(lì)信號(hào)未必僅基于最終結(jié)果 —— 基于過程的獎(jiǎng)勵(lì)[31]同樣具有促進(jìn)作用。

7 相關(guān)案例包括阿里通義實(shí)驗(yàn)室的 AgentScaler[32],其提出了構(gòu)建智能體任務(wù)環(huán)境的標(biāo)準(zhǔn)化流程。

責(zé)任編輯:武曉燕 來源: Baihai IDP
相關(guān)推薦

2024-04-03 10:05:00

LLM性能基準(zhǔn)測試

2025-09-10 09:38:56

2024-09-30 14:10:00

2022-04-24 15:37:26

LinuxCPU

2024-11-20 09:36:00

2025-10-20 09:06:00

2025-07-10 09:03:27

2024-03-11 13:20:00

模型AI

2017-05-11 14:00:02

Flask請求上下文應(yīng)用上下文

2024-09-05 08:24:09

2025-10-11 04:22:00

人工海馬體網(wǎng)絡(luò)LV-Eval

2023-10-18 09:25:08

模型推理

2025-05-28 11:46:52

強(qiáng)化學(xué)習(xí)模型AI

2025-02-26 00:16:56

RAGAI服務(wù)

2024-01-03 13:40:00

AI訓(xùn)練

2023-11-13 18:19:54

模型訓(xùn)練

2025-07-16 13:00:26

2012-12-31 10:01:34

SELinuxSELinux安全

2022-09-14 13:13:51

JavaScript上下文

2025-04-21 16:27:18

AIGPT?3.5工具
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)