偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Meta新方法DeepConf：大模型推理的 “笨毛病” 治好了！少寫一半內(nèi)容，還更準

十一月雨_55

發(fā)布于 2025-9-2 06:37

瀏覽

0收藏

最近我在整理大模型數(shù)學(xué)推理的實驗數(shù)據(jù)時，發(fā)現(xiàn)一個特別“離譜”的現(xiàn)象：為了讓AI解對一道AIME（美國數(shù)學(xué)邀請賽，難度接近奧數(shù)）題目，我們得讓它生成512條完整的解題思路，最后再用“少數(shù)服從多數(shù)”的方式投票選答案。這就像請512個學(xué)生做同一道題，不管有人寫得顛三倒四、有人明顯算錯，你都得把所有答卷看完——既浪費時間，又耗“筆墨”（對應(yīng)AI的token生成量），最后正確率還卡在97%上不去。

Meta新方法DeepConf：大模型推理的 “笨毛病” 治好了！少寫一半內(nèi)容，還更準-AI.x社區(qū)

直到讀到Meta AI和UCSD團隊剛發(fā)布的《Deep Think with Confidence》論文，我才突然意識到：原來大模型推理不用“笨辦法堆數(shù)量”，只要給它裝個“信心篩選器”，就能讓它只保留靠譜的思路，不僅正確率飆到99.9%，還能少生成84%的內(nèi)容。今天就從研究員的視角，用最接地氣的方式跟大家聊聊這個“讓AI變聰明又省錢”的新方法。

我們解讀最新技術(shù)，文末有相關(guān)信息。

Meta新方法DeepConf：大模型推理的 “笨毛病” 治好了！少寫一半內(nèi)容，還更準-AI.x社區(qū)

先搞懂：傳統(tǒng)AI推理為啥這么“笨”？

在講DeepConf之前，得先說說我們之前是怎么讓AI“思考”的——核心方法叫“自一致性（Self-Consistency）”，簡單說就是“多想幾條路，最后投票”。比如AI解一道數(shù)學(xué)題，不是只寫1種步驟，而是生成100條不同的解題思路，然后看哪個答案出現(xiàn)次數(shù)最多，就選哪個。

這個方法確實比“只想一次”準，但用多了就會發(fā)現(xiàn)三個“笨毛病”，我給它們起了個通俗的名字：

1. “雨露均沾”的糊涂賬：壞答案也有投票權(quán)

傳統(tǒng)方法把所有解題思路“一視同仁”，不管這條思路里有沒有明顯的計算錯誤（比如把2+3算成6），或者邏輯斷層（突然從“勾股定理”跳到“微積分”），它的投票權(quán)都和靠譜思路一樣。這就像公司開決策會，不管員工說的是深思熟慮的方案，還是隨口瞎猜的想法，都算一票——最后很可能被錯誤觀點帶偏。

2. “一條道走到黑”的死心眼：必須寫完才知道好不好

要判斷一條思路靠譜不靠譜，傳統(tǒng)方法得等AI把整段話寫完才行。就像你看一部電影，明明前30分鐘就知道是爛片，卻非要硬著頭皮看到結(jié)尾才敢評價——AI生成那些明顯錯了的思路時，也是這樣“硬寫到底”，白白浪費了大量token（相當于寫文章的字數(shù)）。

3. “越多越不香”的怪圈：加量不加質(zhì)

當思路數(shù)量超過一定閾值（比如200條）后，再增加數(shù)量，正確率幾乎不漲了，甚至?xí)陆?。這就像你為了背單詞，每天從100個加到500個，最后發(fā)現(xiàn)多背的400個全是混個臉熟，反而讓你記不住核心單詞——AI多生成的思路，很多是重復(fù)或錯誤的，反而拉低了投票質(zhì)量。

我們團隊之前也試過優(yōu)化這些問題，比如給思路打分，但總盯著“整體質(zhì)量”（比如整段話的流暢度），效果一直不好。直到看到DeepConf，才發(fā)現(xiàn)問題出在：我們該看“局部信心”，而不是“整體印象”。

DeepConf的核心：給AI裝個“信心溫度計”

DeepConf的本質(zhì)，就是給AI加了一套“實時信心監(jiān)測系統(tǒng)”——就像醫(yī)生給病人裝心率監(jiān)測儀，不用等病人出問題，從實時數(shù)據(jù)里就能判斷健康狀況。這套系統(tǒng)的核心，是三個“接地氣”的信心指標，我一個個給你掰開說：

1. 最基礎(chǔ)的“token信心”：AI每寫一個詞的“篤定度”

大模型生成內(nèi)容時，每一個詞（比如“因為”“所以”“123”）背后，都有一個“概率值”——表示它覺得這個詞“該不該出現(xiàn)在這”。比如AI寫“勾股定理的公式是a2+b2=c2”時，對“a2+b2=c2”的概率判斷很高，那“token信心”就高；如果它寫“勾股定理的公式是a3+b3=c3”，自己都覺得概率低，“token信心”就低。

這就像學(xué)生寫作業(yè)：遇到會的題，寫每一步都很篤定（比如“2×3=6”）；遇到不會的題，寫的時候就會猶豫（比如“2×3=…好像是5？”）——“token信心”就是把這種“篤定感”量化成了一個指標。

2. 更實用的“組信心”：看一段思路的“整體穩(wěn)度”

光看單個詞的信心不夠——比如AI可能某一步寫對了，但前后邏輯斷了。所以DeepConf設(shè)計了“組信心”：把AI寫的內(nèi)容切成一個個“滑動窗口”（比如每2048個詞一組），算每組的平均信心。

這就像老師改卷：不會只看學(xué)生寫的某一個公式對不對，而是看“連續(xù)10步解題過程”有沒有猶豫——如果這10步都很篤定，說明思路沒走偏；如果中間突然出現(xiàn)好幾步“不確定”（比如反復(fù)寫“等等，我再想想”“可能算錯了”），那這組的信心就低，整段思路大概率有問題。

3. 最關(guān)鍵的“尾部信心”：最后幾步不能“掉鏈子”

數(shù)學(xué)題有個特點：前面步驟再對，最后一步算錯了，整個題就白搭。DeepConf專門設(shè)計了“尾部信心”——只看AI解題思路的最后一段（比如最后2048個詞）的信心。

這就像跑步比賽：前面跑得多快不重要，沖刺階段不能減速——如果AI在寫“最終答案是109”之前，幾步都很猶豫，那就算前面思路再順，最后答案也可能錯；反之，如果最后幾步篤定，那正確率就高得多。

我當時看到這三個指標時，第一反應(yīng)是“怎么沒想到”——之前我們總盯著“整段思路的信心”，就像用望遠鏡看全貌，卻忽略了“局部細節(jié)的異?！?。而DeepConf恰恰抓住了：AI的錯誤，往往藏在“某一段猶豫的步驟”或“最后幾步的掉鏈子”里。

兩種模式：離線“挑最優(yōu)”，在線“實時喊?！?/h2>
有了“信心溫度計”，DeepConf分兩種場景用——離線和在線，就像“賽后復(fù)盤”和“實時比賽”，各有各的妙處。

1. 離線模式：先寫滿答卷，再挑最靠譜的“尖子生”

離線模式適合“不著急要答案，但要極致正確率”的場景——比如AI批奧數(shù)卷、做科研推理。流程很簡單：

Meta新方法DeepConf：大模型推理的 “笨毛病” 治好了！少寫一半內(nèi)容，還更準-AI.x社區(qū) 圖片

第一步，先讓AI生成足夠多的解題思路（比如512條），就像老師讓全班學(xué)生都交卷；第二步，用前面說的“組信心”“尾部信心”給每條思路打分，然后“掐尖”——比如只保留前10%信心最高的思路（相當于只看班里前10名的答卷）；第三步，給這些“尖子生思路”加權(quán)投票——信心越高的思路，投票權(quán)越大，最后選得票最高的答案。

我們之前做實驗時，用GPT-OSS-120B解AIME 2025的題，傳統(tǒng)方法512條思路正確率97%，而DeepConf只選前10%的思路，正確率直接飆到99.9%——相當于以前要改512份卷，現(xiàn)在改51份，還幾乎全對。

Meta新方法DeepConf：大模型推理的 “笨毛病” 治好了！少寫一半內(nèi)容，還更準-AI.x社區(qū)

這里最讓我驚訝的是“尾部信心”的效果：有次我們發(fā)現(xiàn)，某條思路前面2000步都很順，但最后200步信心驟降，答案果然錯了；而另一條思路前面有點磕絆，但最后幾步信心拉滿，答案就對了。這就像考試時，有人前面寫得快但最后粗心，有人前面慢但最后仔細——最后分數(shù)往往看后者。

2. 在線模式：寫著寫著不對勁？立馬停！

在線模式更實用——比如AI客服實時回復(fù)、實時解題助手，要的是“又快又準”，不能等AI寫一大堆再篩選。DeepConf的在線模式，就像“實時監(jiān)考老師”，發(fā)現(xiàn)學(xué)生寫偏了就及時喊停：

Meta新方法DeepConf：大模型推理的 “笨毛病” 治好了！少寫一半內(nèi)容，還更準-AI.x社區(qū)

第一步，先讓AI寫16條“熱身思路”（叫“離線預(yù)熱”），用這些思路定一個“信心閾值”——比如前10%靠譜思路的最低信心是17，那閾值就設(shè)17；第二步，AI開始實時生成新思路，每寫一段就算“組信心”——如果組信心低于17，說明思路偏了，立馬停筆，不用再寫下去；第三步，邊生成邊投票：如果當前靠譜思路的答案已經(jīng)高度一致（比如95%都選109），不管有沒有寫到512條，直接停——因為再寫也不會提高正確率了。

Meta新方法DeepConf：大模型推理的 “笨毛病” 治好了！少寫一半內(nèi)容，還更準-AI.x社區(qū)

我們在Qwen3-32B上做實驗，解AIME 2025的題，傳統(tǒng)方法要生成2.43億個token，而DeepConf在線模式只生成1.14億個——少寫了52.9%的內(nèi)容，正確率還和傳統(tǒng)方法一樣。更夸張的是GPT-OSS-120B，直接少寫84.7%的token，正確率反而從97.1%漲到97.9%。

這就像你跟朋友微信聊天：如果朋友問“明天要不要去吃飯”，你不用寫一篇小作文解釋“我明天上午有會、下午要陪家人、所以不能去”，而是直接說“明天有事，不去啦”——既清楚又省時間，AI也是一樣。

為什么說DeepConf是“接地氣的創(chuàng)新”？

看論文時，我最佩服的不是它的數(shù)學(xué)公式多復(fù)雜，而是它的“實用性”——沒有搞花里胡哨的新模型，只是在現(xiàn)有大模型上加了個“篩選器”，卻解決了大問題。它的優(yōu)勢總結(jié)起來有三個“不用”：

1. 不用額外訓(xùn)練：拿過來就能用

很多大模型優(yōu)化方法需要“再訓(xùn)練”——比如給模型喂新數(shù)據(jù)，調(diào)一堆參數(shù)。但DeepConf完全不用，不管是Qwen3、GPT-OSS還是DeepSeek，直接接在現(xiàn)有模型上就能跑，就像給手機裝個新APP，不用換手機本身。

我們團隊試過把DeepConf接在公司內(nèi)部的7B小模型上，不用改一行模型代碼，解數(shù)學(xué)題的正確率直接漲了8%，token用量少了40%——對中小企業(yè)來說，這意味著“不用花大價錢訓(xùn)模型，也能提升AI能力”。

2. 不用調(diào)復(fù)雜參數(shù)：閾值一次定好

很多方法需要調(diào)一堆“超參數(shù)”——比如窗口大小、學(xué)習(xí)率，調(diào)不對效果就差。但DeepConf的參數(shù)很少，比如“組信心”的窗口大小設(shè)2048，“預(yù)熱思路”設(shè)16條，幾乎不用改，換個任務(wù)也能直接用。

這就像家里的微波爐：不用每次加熱都調(diào)功率、時間，選“加熱剩飯”模式就行——DeepConf把復(fù)雜的參數(shù)藏在背后，用戶只用管“要正確率”還是“要速度”。

3. 不用犧牲效果換效率：又快又準

以前我們優(yōu)化AI效率，總逃不開“兩難”：要快就得多砍內(nèi)容，正確率下降；要準就得多寫內(nèi)容，速度變慢。但DeepConf打破了這個平衡——它不是“砍內(nèi)容”，而是“砍壞內(nèi)容”，留下的都是靠譜的，所以既快又準。

就像榨果汁：以前是不管好果壞果都榨，最后過濾掉渣；DeepConf是先把壞果挑出去，再榨好果——既省時間，果汁還更純。

未來能幫我們做什么？還有哪些小遺憾？

先說說好消息：這些場景馬上能受益

DeepConf不是“實驗室里的技術(shù)”，而是很快能落地的那種。我梳理了幾個最有潛力的場景：

1. AI解題助手：比如給學(xué)生用的奧數(shù)APP，以前AI要等幾秒才能出答案，現(xiàn)在能實時出，還能標出“最靠譜的解題步驟”，不會給一堆混亂的思路；

2. 代碼生成工具：程序員用AI寫代碼時，AI不用生成10種方案再選，而是直接生成2-3種高信心方案，還能避免“寫一半發(fā)現(xiàn)邏輯錯了”的情況；

3. 客服AI：比如電商客服回復(fù)用戶“退款流程”，AI不用寫一大段繞彎子的話，而是用高信心的簡潔步驟，用戶看得懂，客服系統(tǒng)也省資源。

再說說小遺憾：還有哪些坑要填

作為研究員，我得客觀說：DeepConf不是“萬能藥”，還有兩個小問題要解決：

1. “自信地犯錯”怎么辦？有時候AI會“篤定地寫錯題”——比如把“勾股定理”記錯了，卻每一步都很有信心，這時候DeepConf反而會把它當成“靠譜思路”。這就像有人堅信“1+1=3”，說得越肯定，越容易誤導(dǎo)人。未來可能需要結(jié)合“外部知識校驗”（比如讓AI查一下勾股定理的正確公式）來解決；

2. 不同任務(wù)的閾值不好統(tǒng)一：解數(shù)學(xué)題的“信心閾值”是17，寫文案的閾值可能就是15，現(xiàn)在還得針對不同任務(wù)調(diào)閾值，沒法“一勞永逸”。未來可能需要讓AI自己學(xué)“不同任務(wù)的信心標準”，不用人來調(diào)。

結(jié)尾：從“大力出奇跡”到“精準發(fā)力”

讀這篇論文時，我最大的感受是：大模型的發(fā)展，已經(jīng)從“堆參數(shù)、堆數(shù)據(jù)”的粗放階段，進入“摳效率、摳細節(jié)”的精細階段了。以前我們覺得“AI做得不好，就給它更多資源”，現(xiàn)在發(fā)現(xiàn)“AI做得不好，可能是沒給它找對方向”。

DeepConf的核心價值，不是發(fā)明了新的數(shù)學(xué)公式，而是換了個思路：與其讓AI“瞎想一堆”，不如讓它“想清楚再寫”。這就像我們做人做事，與其貪多求全，不如專注把靠譜的事做好——AI的“聰明”，其實和人的“聰明”，在底層邏輯上是相通的。

最后想問大家：你有沒有遇到過AI回復(fù)“又慢又啰嗦”的情況？如果AI能像DeepConf這樣“精準發(fā)力”，你覺得哪些場景最受益？歡迎在評論區(qū)聊聊你的想法。

參考資料

1. 標題：Deep Think with Confidence

2. 作者：Yichao Fu (UCSD), Xuewei Wang (Meta AI), Yuandong Tian (Meta AI), Jiawei Zhao (Meta AI)

3. 鏈接：https://arxiv.org/pdf/2508.15260

4. 主頁：https://jiaweizzhao.github.io/deepconf

本文轉(zhuǎn)載自??旺知識??，作者：旺知識

標簽

已于2025-9-2 06:37:41修改

贊

收藏

回復(fù)

舉報

社區(qū)頭條

回復(fù)

相關(guān)推薦

檢索感知微調(diào)（RAFT），提升領(lǐng)域RAG效果的新方法

Syrupup ? 5617瀏覽 ? 0回復(fù)
無需訓(xùn)練，這個新方法實現(xiàn)了生成圖像尺寸、分辨率自由

輕薄滴假象 ? 3651瀏覽 ? 0回復(fù)
改變LoRA的初始化方式，北大新方法PiSSA顯著提升微調(diào)效果

輕薄滴假象 ? 3718瀏覽 ? 0回復(fù)
DeepMind升級Transformer，前向通過FLOPs最多可降一半

輕薄滴假象 ? 4070瀏覽 ? 0回復(fù)
檢索感知微調(diào)（RAFT），提升領(lǐng)域RAG效果的新方法

Syrupup ? 3995瀏覽 ? 0回復(fù)
“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法

angel ? 7091瀏覽 ? 0回復(fù)
如何解決模型的災(zāi)難性遺忘問題？清華大學(xué)提出新方法！

AI論文解讀 ? 6895瀏覽 ? 0回復(fù)
LLM 預(yù)訓(xùn)練加速的新方法：八種模型增長方案總結(jié)

amei2000go ? 6655瀏覽 ? 0回復(fù)
超過一半 AI 大模型回答錯誤，強如 GPT-4O 也翻車了

wsp_ping ? 5455瀏覽 ? 0回復(fù)
上大、騰訊等提出3D服裝合成新方法：ClotheDreamer

angel ? 4667瀏覽 ? 0回復(fù)
解決大型多模態(tài)模型的幻覺問題，新方法AITuning助力AI更可靠

AI論文解讀 ? 4360瀏覽 ? 0回復(fù)
Binary Block Masking：加快稀疏 Attention 的一種新方法

amei2000go ? 6144瀏覽 ? 0回復(fù)
時序預(yù)測數(shù)據(jù)處理新方法匯總：多粒度和頻域的可逆歸一化

海因斯DK ? 6195瀏覽 ? 0回復(fù)
一種實現(xiàn)符號鋼琴音樂聲音和譜表分離的GNN新方法

51CTO內(nèi)容精選 ? 3516瀏覽 ? 0回復(fù)
高效信息檢索新方法：LangChain中Retriever的多種高級策略

Halo咯咯 ? 5443瀏覽 ? 0回復(fù)
清華團隊提出精確學(xué)習(xí)新方法，提升AI泛化能力

AI論文解讀 ? 4385瀏覽 ? 0回復(fù)
Salesforce 新方法讓RAG效果飆升

大語言模型論文跟蹤 ? 3487瀏覽 ? 0回復(fù)
微軟、清華發(fā)布Agent創(chuàng)新方法，解決記憶、檢索大難題

Aceryt ? 2466瀏覽 ? 0回復(fù)
NeurIPS 2025 ｜給?模型“裝上先驗”的可信推理：DP 框架讓知識圖譜上的問答更準更穩(wěn)

知識圖譜科技 ? 2804瀏覽 ? 0回復(fù)

十一月雨_55

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

一文讀懂AI應(yīng)用上下文工程(Context Engineering) 2025-10-22 07:34:54發(fā)布
NUS+浙大+港中文聯(lián)合出品視覺強化學(xué)習(xí)全景綜述：200+研究拆解4大核心領(lǐng)域 2025-10-22 07:34:38發(fā)布

熱門推薦

微軟CVPR'25簡明教程：強化學(xué)習(xí)訓(xùn)練多模態(tài)智能體，構(gòu)建感知思考行動完整閉環(huán)！ 0回復(fù)

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

上一篇：微軟rStar2智能體：破解AI推理 “工具噪聲 + GPU 閑置” ，“智能體RL” 14B 逆襲 671B！

下一篇： RLC25強化學(xué)習(xí)之父Rich Sutton重磅：大模型內(nèi)置知識是死胡同，提出Oak超級智能新藍圖

社區(qū)精華內(nèi)容

目錄