偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Meta新方法DeepConf:大模型推理的 “笨毛病” 治好了!少寫一半內(nèi)容,還更準

發(fā)布于 2025-9-2 06:37
瀏覽
0收藏

最近我在整理大模型數(shù)學(xué)推理的實驗數(shù)據(jù)時,發(fā)現(xiàn)一個特別“離譜”的現(xiàn)象:為了讓AI解對一道AIME(美國數(shù)學(xué)邀請賽,難度接近奧數(shù))題目,我們得讓它生成512條完整的解題思路,最后再用“少數(shù)服從多數(shù)”的方式投票選答案。這就像請512個學(xué)生做同一道題,不管有人寫得顛三倒四、有人明顯算錯,你都得把所有答卷看完——既浪費時間,又耗“筆墨”(對應(yīng)AI的token生成量),最后正確率還卡在97%上不去。

Meta新方法DeepConf:大模型推理的 “笨毛病” 治好了!少寫一半內(nèi)容,還更準-AI.x社區(qū)

直到讀到Meta AI和UCSD團隊剛發(fā)布的《Deep Think with Confidence》論文,我才突然意識到:原來大模型推理不用“笨辦法堆數(shù)量”,只要給它裝個“信心篩選器”,就能讓它只保留靠譜的思路,不僅正確率飆到99.9%,還能少生成84%的內(nèi)容。今天就從研究員的視角,用最接地氣的方式跟大家聊聊這個“讓AI變聰明又省錢”的新方法。

我們解讀最新技術(shù),文末有相關(guān)信息。

Meta新方法DeepConf:大模型推理的 “笨毛病” 治好了!少寫一半內(nèi)容,還更準-AI.x社區(qū)

先搞懂:傳統(tǒng)AI推理為啥這么“笨”?

在講DeepConf之前,得先說說我們之前是怎么讓AI“思考”的——核心方法叫“自一致性(Self-Consistency)”,簡單說就是“多想幾條路,最后投票”。比如AI解一道數(shù)學(xué)題,不是只寫1種步驟,而是生成100條不同的解題思路,然后看哪個答案出現(xiàn)次數(shù)最多,就選哪個。

這個方法確實比“只想一次”準,但用多了就會發(fā)現(xiàn)三個“笨毛病”,我給它們起了個通俗的名字:

1. “雨露均沾”的糊涂賬:壞答案也有投票權(quán)

傳統(tǒng)方法把所有解題思路“一視同仁”,不管這條思路里有沒有明顯的計算錯誤(比如把2+3算成6),或者邏輯斷層(突然從“勾股定理”跳到“微積分”),它的投票權(quán)都和靠譜思路一樣。這就像公司開決策會,不管員工說的是深思熟慮的方案,還是隨口瞎猜的想法,都算一票——最后很可能被錯誤觀點帶偏。

2. “一條道走到黑”的死心眼:必須寫完才知道好不好

要判斷一條思路靠譜不靠譜,傳統(tǒng)方法得等AI把整段話寫完才行。就像你看一部電影,明明前30分鐘就知道是爛片,卻非要硬著頭皮看到結(jié)尾才敢評價——AI生成那些明顯錯了的思路時,也是這樣“硬寫到底”,白白浪費了大量token(相當于寫文章的字數(shù))。

3. “越多越不香”的怪圈:加量不加質(zhì)

當思路數(shù)量超過一定閾值(比如200條)后,再增加數(shù)量,正確率幾乎不漲了,甚至?xí)陆?。這就像你為了背單詞,每天從100個加到500個,最后發(fā)現(xiàn)多背的400個全是混個臉熟,反而讓你記不住核心單詞——AI多生成的思路,很多是重復(fù)或錯誤的,反而拉低了投票質(zhì)量。

我們團隊之前也試過優(yōu)化這些問題,比如給思路打分,但總盯著“整體質(zhì)量”(比如整段話的流暢度),效果一直不好。直到看到DeepConf,才發(fā)現(xiàn)問題出在:我們該看“局部信心”,而不是“整體印象”。

DeepConf的核心:給AI裝個“信心溫度計”

DeepConf的本質(zhì),就是給AI加了一套“實時信心監(jiān)測系統(tǒng)”——就像醫(yī)生給病人裝心率監(jiān)測儀,不用等病人出問題,從實時數(shù)據(jù)里就能判斷健康狀況。這套系統(tǒng)的核心,是三個“接地氣”的信心指標,我一個個給你掰開說:

1. 最基礎(chǔ)的“token信心”:AI每寫一個詞的“篤定度”

大模型生成內(nèi)容時,每一個詞(比如“因為”“所以”“123”)背后,都有一個“概率值”——表示它覺得這個詞“該不該出現(xiàn)在這”。比如AI寫“勾股定理的公式是a2+b2=c2”時,對“a2+b2=c2”的概率判斷很高,那“token信心”就高;如果它寫“勾股定理的公式是a3+b3=c3”,自己都覺得概率低,“token信心”就低。

這就像學(xué)生寫作業(yè):遇到會的題,寫每一步都很篤定(比如“2×3=6”);遇到不會的題,寫的時候就會猶豫(比如“2×3=…好像是5?”)——“token信心”就是把這種“篤定感”量化成了一個指標。

2. 更實用的“組信心”:看一段思路的“整體穩(wěn)度”

光看單個詞的信心不夠——比如AI可能某一步寫對了,但前后邏輯斷了。所以DeepConf設(shè)計了“組信心”:把AI寫的內(nèi)容切成一個個“滑動窗口”(比如每2048個詞一組),算每組的平均信心。

這就像老師改卷:不會只看學(xué)生寫的某一個公式對不對,而是看“連續(xù)10步解題過程”有沒有猶豫——如果這10步都很篤定,說明思路沒走偏;如果中間突然出現(xiàn)好幾步“不確定”(比如反復(fù)寫“等等,我再想想”“可能算錯了”),那這組的信心就低,整段思路大概率有問題。

3. 最關(guān)鍵的“尾部信心”:最后幾步不能“掉鏈子”

數(shù)學(xué)題有個特點:前面步驟再對,最后一步算錯了,整個題就白搭。DeepConf專門設(shè)計了“尾部信心”——只看AI解題思路的最后一段(比如最后2048個詞)的信心。

這就像跑步比賽:前面跑得多快不重要,沖刺階段不能減速——如果AI在寫“最終答案是109”之前,幾步都很猶豫,那就算前面思路再順,最后答案也可能錯;反之,如果最后幾步篤定,那正確率就高得多。

我當時看到這三個指標時,第一反應(yīng)是“怎么沒想到”——之前我們總盯著“整段思路的信心”,就像用望遠鏡看全貌,卻忽略了“局部細節(jié)的異?!?。而DeepConf恰恰抓住了:AI的錯誤,往往藏在“某一段猶豫的步驟”或“最后幾步的掉鏈子”里。

兩種模式:離線“挑最優(yōu)”,在線“實時喊?!?/h2>

有了“信心溫度計”,DeepConf分兩種場景用——離線和在線,就像“賽后復(fù)盤”和“實時比賽”,各有各的妙處。

1. 離線模式:先寫滿答卷,再挑最靠譜的“尖子生”

離線模式適合“不著急要答案,但要極致正確率”的場景——比如AI批奧數(shù)卷、做科研推理。流程很簡單:

Meta新方法DeepConf:大模型推理的 “笨毛病” 治好了!少寫一半內(nèi)容,還更準-AI.x社區(qū)圖片

第一步,先讓AI生成足夠多的解題思路(比如512條),就像老師讓全班學(xué)生都交卷;第二步,用前面說的“組信心”“尾部信心”給每條思路打分,然后“掐尖”——比如只保留前10%信心最高的思路(相當于只看班里前10名的答卷);第三步,給這些“尖子生思路”加權(quán)投票——信心越高的思路,投票權(quán)越大,最后選得票最高的答案。

我們之前做實驗時,用GPT-OSS-120B解AIME 2025的題,傳統(tǒng)方法512條思路正確率97%,而DeepConf只選前10%的思路,正確率直接飆到99.9%——相當于以前要改512份卷,現(xiàn)在改51份,還幾乎全對。

Meta新方法DeepConf:大模型推理的 “笨毛病” 治好了!少寫一半內(nèi)容,還更準-AI.x社區(qū)

這里最讓我驚訝的是“尾部信心”的效果:有次我們發(fā)現(xiàn),某條思路前面2000步都很順,但最后200步信心驟降,答案果然錯了;而另一條思路前面有點磕絆,但最后幾步信心拉滿,答案就對了。這就像考試時,有人前面寫得快但最后粗心,有人前面慢但最后仔細——最后分數(shù)往往看后者。

2. 在線模式:寫著寫著不對勁?立馬停!

在線模式更實用——比如AI客服實時回復(fù)、實時解題助手,要的是“又快又準”,不能等AI寫一大堆再篩選。DeepConf的在線模式,就像“實時監(jiān)考老師”,發(fā)現(xiàn)學(xué)生寫偏了就及時喊停:

Meta新方法DeepConf:大模型推理的 “笨毛病” 治好了!少寫一半內(nèi)容,還更準-AI.x社區(qū)

第一步,先讓AI寫16條“熱身思路”(叫“離線預(yù)熱”),用這些思路定一個“信心閾值”——比如前10%靠譜思路的最低信心是17,那閾值就設(shè)17;第二步,AI開始實時生成新思路,每寫一段就算“組信心”——如果組信心低于17,說明思路偏了,立馬停筆,不用再寫下去;第三步,邊生成邊投票:如果當前靠譜思路的答案已經(jīng)高度一致(比如95%都選109),不管有沒有寫到512條,直接停——因為再寫也不會提高正確率了。

Meta新方法DeepConf:大模型推理的 “笨毛病” 治好了!少寫一半內(nèi)容,還更準-AI.x社區(qū)

我們在Qwen3-32B上做實驗,解AIME 2025的題,傳統(tǒng)方法要生成2.43億個token,而DeepConf在線模式只生成1.14億個——少寫了52.9%的內(nèi)容,正確率還和傳統(tǒng)方法一樣。更夸張的是GPT-OSS-120B,直接少寫84.7%的token,正確率反而從97.1%漲到97.9%。

這就像你跟朋友微信聊天:如果朋友問“明天要不要去吃飯”,你不用寫一篇小作文解釋“我明天上午有會、下午要陪家人、所以不能去”,而是直接說“明天有事,不去啦”——既清楚又省時間,AI也是一樣。

為什么說DeepConf是“接地氣的創(chuàng)新”?

看論文時,我最佩服的不是它的數(shù)學(xué)公式多復(fù)雜,而是它的“實用性”——沒有搞花里胡哨的新模型,只是在現(xiàn)有大模型上加了個“篩選器”,卻解決了大問題。它的優(yōu)勢總結(jié)起來有三個“不用”:

1. 不用額外訓(xùn)練:拿過來就能用

很多大模型優(yōu)化方法需要“再訓(xùn)練”——比如給模型喂新數(shù)據(jù),調(diào)一堆參數(shù)。但DeepConf完全不用,不管是Qwen3、GPT-OSS還是DeepSeek,直接接在現(xiàn)有模型上就能跑,就像給手機裝個新APP,不用換手機本身。

我們團隊試過把DeepConf接在公司內(nèi)部的7B小模型上,不用改一行模型代碼,解數(shù)學(xué)題的正確率直接漲了8%,token用量少了40%——對中小企業(yè)來說,這意味著“不用花大價錢訓(xùn)模型,也能提升AI能力”。

2. 不用調(diào)復(fù)雜參數(shù):閾值一次定好

很多方法需要調(diào)一堆“超參數(shù)”——比如窗口大小、學(xué)習(xí)率,調(diào)不對效果就差。但DeepConf的參數(shù)很少,比如“組信心”的窗口大小設(shè)2048,“預(yù)熱思路”設(shè)16條,幾乎不用改,換個任務(wù)也能直接用。

這就像家里的微波爐:不用每次加熱都調(diào)功率、時間,選“加熱剩飯”模式就行——DeepConf把復(fù)雜的參數(shù)藏在背后,用戶只用管“要正確率”還是“要速度”。

3. 不用犧牲效果換效率:又快又準

以前我們優(yōu)化AI效率,總逃不開“兩難”:要快就得多砍內(nèi)容,正確率下降;要準就得多寫內(nèi)容,速度變慢。但DeepConf打破了這個平衡——它不是“砍內(nèi)容”,而是“砍壞內(nèi)容”,留下的都是靠譜的,所以既快又準。

就像榨果汁:以前是不管好果壞果都榨,最后過濾掉渣;DeepConf是先把壞果挑出去,再榨好果——既省時間,果汁還更純。

未來能幫我們做什么?還有哪些小遺憾?

先說說好消息:這些場景馬上能受益

DeepConf不是“實驗室里的技術(shù)”,而是很快能落地的那種。我梳理了幾個最有潛力的場景:

1. AI解題助手:比如給學(xué)生用的奧數(shù)APP,以前AI要等幾秒才能出答案,現(xiàn)在能實時出,還能標出“最靠譜的解題步驟”,不會給一堆混亂的思路;

2. 代碼生成工具:程序員用AI寫代碼時,AI不用生成10種方案再選,而是直接生成2-3種高信心方案,還能避免“寫一半發(fā)現(xiàn)邏輯錯了”的情況;

3. 客服AI:比如電商客服回復(fù)用戶“退款流程”,AI不用寫一大段繞彎子的話,而是用高信心的簡潔步驟,用戶看得懂,客服系統(tǒng)也省資源。

再說說小遺憾:還有哪些坑要填

作為研究員,我得客觀說:DeepConf不是“萬能藥”,還有兩個小問題要解決:

1. “自信地犯錯”怎么辦? 有時候AI會“篤定地寫錯題”——比如把“勾股定理”記錯了,卻每一步都很有信心,這時候DeepConf反而會把它當成“靠譜思路”。這就像有人堅信“1+1=3”,說得越肯定,越容易誤導(dǎo)人。未來可能需要結(jié)合“外部知識校驗”(比如讓AI查一下勾股定理的正確公式)來解決;

2. 不同任務(wù)的閾值不好統(tǒng)一:解數(shù)學(xué)題的“信心閾值”是17,寫文案的閾值可能就是15,現(xiàn)在還得針對不同任務(wù)調(diào)閾值,沒法“一勞永逸”。未來可能需要讓AI自己學(xué)“不同任務(wù)的信心標準”,不用人來調(diào)。

結(jié)尾:從“大力出奇跡”到“精準發(fā)力”

讀這篇論文時,我最大的感受是:大模型的發(fā)展,已經(jīng)從“堆參數(shù)、堆數(shù)據(jù)”的粗放階段,進入“摳效率、摳細節(jié)”的精細階段了。以前我們覺得“AI做得不好,就給它更多資源”,現(xiàn)在發(fā)現(xiàn)“AI做得不好,可能是沒給它找對方向”。

DeepConf的核心價值,不是發(fā)明了新的數(shù)學(xué)公式,而是換了個思路:與其讓AI“瞎想一堆”,不如讓它“想清楚再寫”。這就像我們做人做事,與其貪多求全,不如專注把靠譜的事做好——AI的“聰明”,其實和人的“聰明”,在底層邏輯上是相通的。

最后想問大家:你有沒有遇到過AI回復(fù)“又慢又啰嗦”的情況?如果AI能像DeepConf這樣“精準發(fā)力”,你覺得哪些場景最受益?歡迎在評論區(qū)聊聊你的想法。

參考資料

1. 標題:Deep Think with Confidence

2. 作者:Yichao Fu (UCSD), Xuewei Wang (Meta AI), Yuandong Tian (Meta AI), Jiawei Zhao (Meta AI)

3. 鏈接:https://arxiv.org/pdf/2508.15260

4. 主頁:https://jiaweizzhao.github.io/deepconf

本文轉(zhuǎn)載自??旺知識??,作者:旺知識

已于2025-9-2 06:37:41修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦