偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<cite id="sumqa"></cite>^{<blockquote id="sumqa"></blockquote>}

<blockquote id="sumqa"></blockquote><sub id="sumqa"><s id="sumqa"></s></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

o1推理框架最新成果：斯坦福&伯克利提出元鏈?zhǔn)剿季S，升級(jí)模型推理能力

作者：量子位 2025-01-20 13:08:25

人工智能新聞

在最新的一篇長(zhǎng)達(dá)100頁(yè)的論文中，他們將o1模型背后的推理機(jī)制提煉成了一個(gè)通用的框架——元鏈?zhǔn)剿季S（Meta-CoT）。

o1背后的推理原理，斯坦福和伯克利幫我們總結(jié)好了！

在最新的一篇長(zhǎng)達(dá)100頁(yè)的論文中，他們將o1模型背后的推理機(jī)制提煉成了一個(gè)通用的框架——元鏈?zhǔn)剿季S（Meta-CoT）。

這個(gè)元鏈?zhǔn)剿季S（Meta-CoT）到底是什么意思呢？

簡(jiǎn)單來(lái)說(shuō)，它可以讓模型在推理過(guò)程中反思推理任務(wù)——

這樣不僅能得出結(jié)論，它還可以幫助我們找到更多新的研究思路和方法。

比如在經(jīng)典的24點(diǎn)問(wèn)題中，傳統(tǒng)的CoT雖然也能得出正確的結(jié)論，但是Meta-CoT在推理過(guò)程中不止會(huì)關(guān)注輸入的問(wèn)題，而是在推理過(guò)程中思考更多的子問(wèn)題并進(jìn)行嘗試：

這也是o1模型可以在HARP等數(shù)學(xué)基準(zhǔn)中大幅領(lǐng)先的原因：

SynthLabs公司的CEO Nathan Lile還自信地表示：

元鏈?zhǔn)剿季S（Meta-CoT）是通往超級(jí)智能（Superintelligence）的正確道路。下一波人工智能就是元鏈?zhǔn)剿季S（Meta-CoT）循環(huán)。

元鏈?zhǔn)剿季S(Meta-CoT)框架

為什么傳統(tǒng)CoT不管用了

在提出新框架之前，我們先要理解一個(gè)問(wèn)題：為什么傳統(tǒng)模型經(jīng)常在高級(jí)推理任務(wù)中“卡殼”。

其實(shí)啊，主要原因在于大語(yǔ)言模型的預(yù)訓(xùn)練和指令調(diào)整語(yǔ)料庫(kù)數(shù)據(jù)中，不包含真實(shí)數(shù)據(jù)生成過(guò)程。

以數(shù)學(xué)問(wèn)題為例，網(wǎng)上和教科書(shū)中雖有會(huì)有解答，但對(duì)于錯(cuò)誤的論證方法為何失效，卻很少有相關(guān)的資料，

如此一來(lái)，在遇到復(fù)雜推理問(wèn)題時(shí)，被中間環(huán)節(jié)困住的模型就很難調(diào)整到正確的思考方向。

而在全新的高中奧數(shù)水平數(shù)學(xué)基準(zhǔn)測(cè)試中，OpenAI的o1模型系列表現(xiàn)出眾，不僅遠(yuǎn)超以往的模型，而且問(wèn)題越難優(yōu)勢(shì)越明顯。

從生成tokens數(shù)量看，其他大語(yǔ)言模型生成的解決方案長(zhǎng)度與人類(lèi)相近，這也就是說(shuō)明，它們只是在搜索匹配訓(xùn)練數(shù)據(jù)。

而o1模型在簡(jiǎn)單問(wèn)題上生成的tokens數(shù)與人類(lèi)相當(dāng)，在高難度問(wèn)題上，生成tokens數(shù)則大幅增加，與傳統(tǒng)模型拉開(kāi)差距。

這表明o1模型的CoT覆蓋范圍更廣，能更好地接近真實(shí)數(shù)據(jù)生成過(guò)程。

Meta-CoT的主要思想

我們先來(lái)看一道2011年國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽的 “風(fēng)車(chē)問(wèn)題”：

平面上有至少兩個(gè)點(diǎn)的有限集合，假設(shè)任意三點(diǎn)不共線(xiàn)，從過(guò)其中一點(diǎn)的直線(xiàn)開(kāi)始，讓直線(xiàn)繞該點(diǎn)順時(shí)針旋轉(zhuǎn)，碰到集合中另一點(diǎn)時(shí)，新點(diǎn)成為旋轉(zhuǎn)軸繼續(xù)旋轉(zhuǎn)，此過(guò)程無(wú)限持續(xù)。能否選一個(gè)點(diǎn)和過(guò)該點(diǎn)的直線(xiàn)，讓集合中每個(gè)點(diǎn)都無(wú)限次成為旋轉(zhuǎn)軸呢？

官方給出的解答如下：

這道題的解答雖然很簡(jiǎn)短，不依賴(lài)先驗(yàn)知識(shí)，但卻是競(jìng)賽中最難的題之一，600 多名參賽者中只有少數(shù)人答對(duì)。

主要難點(diǎn)在于，它的解答過(guò)程不是線(xiàn)性的。很多人會(huì)選擇用凸包構(gòu)造或哈密頓圖論方法，最終都會(huì)失敗。

而答對(duì)的人主要是依靠大量幾何探索和歸納推理，才最終找到了答案。

也就是說(shuō)，這個(gè)解答過(guò)程不是從左到右按部就班生成的。

從潛在變量過(guò)程角度看，經(jīng)典思維鏈?zhǔn)菍?duì)潛在推理鏈進(jìn)行邊緣化，得出最終答案的概率。

但對(duì)于復(fù)雜問(wèn)題，真實(shí)解答生成過(guò)程應(yīng)該是解答的聯(lián)合概率分布，取決于潛在生成過(guò)程。

這就是團(tuán)隊(duì)所說(shuō)的元思維鏈（Meta - CoT）過(guò)程，使用這個(gè)思路，就可以大大提升大語(yǔ)言模型在復(fù)雜問(wèn)題上的推理能力。

內(nèi)部化搜索過(guò)程

Meta-CoT的一個(gè)重要步驟是，在面對(duì)高級(jí)推理問(wèn)題時(shí)，大語(yǔ)言模型會(huì)努力提高搜索的效率。

以前模型通常會(huì)使用Best-of-N方法，也就是獨(dú)立生成多個(gè)完整答案，然后挑出最好的，但這個(gè)方法比較耗時(shí)。

在Meta-CoT中，研究人員把推理過(guò)程想象成一個(gè)“步步走”的游戲，也就是馬爾可夫決策過(guò)程（MDP）。

在這個(gè)過(guò)程里，他們還引入一個(gè)過(guò)程獎(jiǎng)勵(lì)模型（PRM），它可以用來(lái)評(píng)估中間步驟能能否得出正確答案。

如果發(fā)現(xiàn)某個(gè)解答方向沒(méi)希望，模型就會(huì)盡快停下，回到可能成功的中間狀態(tài)，重新尋找解決方案。

這種樹(shù)搜索方法在簡(jiǎn)單推理任務(wù)里已經(jīng)顯出明顯的優(yōu)勢(shì)，在實(shí)際應(yīng)用中也有成功案例。

論文的主要作者之一Rafael Rafailov是斯坦福畢業(yè)的博士，也參加過(guò)很多數(shù)學(xué)競(jìng)賽，他表示這個(gè)新的搜索過(guò)程和他自己解答題目時(shí)的狀態(tài)也是一樣的：

評(píng)估解決方案的潛在方法、修剪沒(méi)有取得進(jìn)展的方向、探索其他可能的分支主張、嘗試根據(jù)直覺(jué)構(gòu)建通往最終目標(biāo)的路徑

合成元鏈?zhǔn)剿季S

另外一個(gè)挑戰(zhàn)在于，大模型通常會(huì)使用強(qiáng)化學(xué)習(xí)方法從過(guò)去經(jīng)驗(yàn)里學(xué)習(xí)好的推理策略，但當(dāng)遇到新領(lǐng)域的推理問(wèn)題時(shí)，用傳統(tǒng)RL訓(xùn)練出來(lái)的策略就不太好用了。

為了提高大模型解決不熟悉領(lǐng)域問(wèn)題的能力，研究人員嘗試在Meta-CoT中讓大模型把推理過(guò)程當(dāng)成一場(chǎng)“冒險(xiǎn)游戲”，也就是部分可觀測(cè)馬爾可夫決策過(guò)程（POMDP），非常適合用來(lái)升級(jí)模型。

在這個(gè)過(guò)程中，模型可以根據(jù)不同情況調(diào)整策略。

以下圖中的迷宮游戲?yàn)槔Ｐ鸵婚_(kāi)始可以隨意行走，但慢慢地，通過(guò)將不同的頂點(diǎn)加入到路徑數(shù)據(jù)集或刪除數(shù)據(jù)集中，就會(huì)逐漸找到正確的方向。

而且，通過(guò)過(guò)程監(jiān)督，模型能及時(shí)得到反饋，知道自己是否走在正確的解答道路上。

研究人員還發(fā)現(xiàn)，讓模型主動(dòng)探索不同的推理路徑，能大大提升它的表現(xiàn)。在實(shí)驗(yàn)里，模型會(huì)努力嘗試各種方法，結(jié)果在解決復(fù)雜問(wèn)題時(shí)，答對(duì)的概率也提高了很多。

論文還探討了通過(guò)搜索算法（如下圖中的蒙特卡羅樹(shù)搜索（MCTS）和A*搜索）生成合成訓(xùn)練數(shù)據(jù)的更多方法，這些方法可以幫助模型在上下文中學(xué)習(xí)并執(zhí)行復(fù)雜的搜索策略。

使用新框架的LLM表現(xiàn)全面提升

那么相比原始的CoT，使用Meta-CoT新框架的LLM性能到底變強(qiáng)了多少呢？下面一起來(lái)看看論文中的實(shí)驗(yàn)部分。

實(shí)驗(yàn)設(shè)計(jì)

在數(shù)據(jù)收集方面，本論文主要使用了多個(gè)數(shù)學(xué)問(wèn)題數(shù)據(jù)集，包括HARP、NuminaMath、Omni-MATH和OpenMathInstruct-2。通過(guò)對(duì)這些數(shù)據(jù)集進(jìn)行過(guò)濾和處理，生成了適合訓(xùn)練的合成數(shù)據(jù)。

實(shí)驗(yàn)中的模型包括當(dāng)前主流的多個(gè)LLM，包括Llama 3.1 8B、70B和GPT-4o等。

實(shí)驗(yàn)設(shè)計(jì)包括指令調(diào)優(yōu)和強(qiáng)化學(xué)習(xí)后訓(xùn)練兩個(gè)階段。指令調(diào)優(yōu)階段使用線(xiàn)性化的搜索軌跡進(jìn)行訓(xùn)練，強(qiáng)化學(xué)習(xí)后訓(xùn)練階段使用E-RL2目標(biāo)進(jìn)行訓(xùn)練。

在指令調(diào)優(yōu)階段，團(tuán)隊(duì)使用了多種優(yōu)化目標(biāo)，包括標(biāo)準(zhǔn)過(guò)程克隆方法和元鏈?zhǔn)剿季S優(yōu)化目標(biāo)。

在強(qiáng)化學(xué)習(xí)后訓(xùn)練階段，他們使用了不同的折扣率和優(yōu)化算法，如PPO和REINFORCE。

結(jié)果與分析

小規(guī)模的實(shí)驗(yàn)結(jié)果：在小規(guī)模實(shí)驗(yàn)中，使用MCTS和A*搜索算法生成的合成數(shù)據(jù)顯著提高了模型在復(fù)雜數(shù)學(xué)問(wèn)題上的表現(xiàn)。

上下文探索的實(shí)驗(yàn)結(jié)果：在上下文探索實(shí)驗(yàn)中，模型在數(shù)學(xué)問(wèn)題上的表現(xiàn)隨著上下文探索序列長(zhǎng)度的增加而提高。然而，過(guò)長(zhǎng)的序列長(zhǎng)度也會(huì)導(dǎo)致性能下降，這也提醒我們需要在探索和推理之間找到平衡。

回溯實(shí)驗(yàn)結(jié)果：在回溯實(shí)驗(yàn)中，o1、DeepSeek-R1、Gemini 2.0 Flash Thinking等模型在解答數(shù)學(xué)題的過(guò)程中，在復(fù)雜數(shù)學(xué)問(wèn)題上的表現(xiàn)都隨著回溯次數(shù)的增加而提高。這表明回溯是一種有效的錯(cuò)誤糾正機(jī)制。

綜合實(shí)驗(yàn)結(jié)果：綜合實(shí)驗(yàn)結(jié)果表明，使用元鏈?zhǔn)剿季S框架可以顯著提高LLMs在復(fù)雜推理任務(wù)上的表現(xiàn)。例如，使用 E-RL² 目標(biāo)訓(xùn)練的模型在HARP數(shù)學(xué)基準(zhǔn)測(cè)試中的表現(xiàn)比基線(xiàn)模型提高了約25%。

團(tuán)隊(duì)還在規(guī)劃更多數(shù)學(xué)研究

論文提出的通過(guò)自教推力器、A*算法等方法進(jìn)行合成的元鏈?zhǔn)剿季S（Meta-CoT）的框架，通過(guò)顯式建模推理過(guò)程和搜索過(guò)程，使得LLMs在各項(xiàng)常見(jiàn)的實(shí)驗(yàn)任務(wù)中進(jìn)行復(fù)雜推理的表現(xiàn)都有所提升。

團(tuán)隊(duì)成員也表示，未來(lái)會(huì)進(jìn)一步驗(yàn)證所提出方法效率的必要性，開(kāi)發(fā)出更有效的過(guò)程監(jiān)督和驗(yàn)證技術(shù)。

此外，針對(duì)當(dāng)前LLM普遍在數(shù)學(xué)問(wèn)題等邏輯性較強(qiáng)的任務(wù)上表現(xiàn)不佳的現(xiàn)象，他們還正在構(gòu)建大數(shù)學(xué)（Big Math） 項(xiàng)目。

這個(gè)項(xiàng)目的目標(biāo)是聚合超過(guò)50萬(wàn)個(gè)高質(zhì)量、可驗(yàn)證的數(shù)學(xué)問(wèn)題，并最終完全開(kāi)源！

對(duì)相關(guān)項(xiàng)目感興趣的朋友們可以點(diǎn)擊下面的鏈接了解更多內(nèi)容～

責(zé)任編輯：張燕妮來(lái)源：量子位

模型 AI 訓(xùn)練

相似話(huà)題

機(jī)器學(xué)習(xí)
2034內(nèi)容

深度學(xué)習(xí)
1699內(nèi)容

自然語(yǔ)言處理
 110內(nèi)容

語(yǔ)音識(shí)別
 107內(nèi)容
全部話(huà)題

同話(huà)題下的熱門(mén)內(nèi)容

VSCode AI 編程必裝！五款DeepSeek集成插件，每款都讓開(kāi)發(fā)效率飆升 ElementPlusX + RuoyiAI：Vue3 首個(gè) AI 開(kāi)發(fā)模板開(kāi)源了！OpenAI 停工一周，緊急調(diào)薪！Meta滅霸式天價(jià)挖8名OpenAI大佬！緊急回應(yīng)：我們被偷家了！與Meta沖突是支線(xiàn)任務(wù)！當(dāng)Gemini CLI遇見(jiàn)n8n：免費(fèi)擼Google頂級(jí)模型的玩法甭提靜態(tài)AI了，MIT新框架讓模型具備自學(xué)能力 Cursor + MCP：雙劍合璧，解鎖極致編程效率 Grok 4源代碼剛剛泄露！上線(xiàn)倒計(jì)時(shí)，馬斯克xAI估值破1130億，大模型要變天你的RAG系統(tǒng)安全么？

相關(guān)專(zhuān)題更多

HarmonyOS NEXT 高效開(kāi)發(fā)與創(chuàng)新實(shí)踐

馭浪者無(wú)疆：蛻變新生，以定馭變

2025-06-04 14:38:36

開(kāi)發(fā)者成長(zhǎng)學(xué)院 | 成長(zhǎng)有徑 · 代碼有方

2025-04-23 08:49:09

我收藏的內(nèi)容

微博

QQ

微信

復(fù)制鏈接

微信掃碼分享

51CTO業(yè)務(wù)

媒體
51CTO CIOAge HC3i Techplur
社區(qū)
51CTO博客軟考社區(qū)鴻蒙開(kāi)發(fā)者社區(qū)AI.x社區(qū)
教育
51CTO學(xué)堂精培企業(yè)培訓(xùn)CTO訓(xùn)練營(yíng)

51CTO學(xué)堂

51CTO學(xué)堂企業(yè)版

51CTO官微

51CTO

關(guān)于我們&條款

關(guān)于我們

新聞動(dòng)態(tài)

站點(diǎn)地圖

意見(jiàn)反饋

English

用戶(hù)協(xié)議

隱私協(xié)議

北京市海淀區(qū)中關(guān)村南1條甲1號(hào)ECO中科愛(ài)克大廈6-7層

北京市公安局海淀分局備案編號(hào)：110108002980號(hào)
營(yíng)業(yè)執(zhí)照京ICP備09067568號(hào)

Copyright ? 2005-2025 51CTO.COM 京ICP證060544 版權(quán)所有未經(jīng)許可請(qǐng)勿轉(zhuǎn)載

營(yíng)業(yè)執(zhí)照出版物經(jīng)營(yíng)許可證

友情鏈接

新浪科技騰訊科技網(wǎng)易科技鳳凰科技驅(qū)動(dòng)科技科技行者 TechWeb 艾瑞網(wǎng)站長(zhǎng)之家速途網(wǎng)中國(guó)經(jīng)濟(jì)新聞網(wǎng)IT之家工聯(lián)網(wǎng)極客公園 236視頻會(huì)議中國(guó)IDC圈企業(yè)網(wǎng)D1Net 投資界次方元火山引擎

51CTO技術(shù)棧公眾號(hào)

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

在線(xiàn)客服

媒體
51CTO CIOAge HC3i

社區(qū)
51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育
51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

感谢您访问我们的网站，您可能还对以下资源感兴趣：
偷偷摘套内射激情视频