偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

少花 85% 算力,推理能力反超 SOTA?Meta 新方法 DeepConf 太能打!

人工智能
在深入探討DeepConf的工作原理之前,我們先對它所要解決的問題建立一個(gè)清晰的認(rèn)知??梢园岩粋€(gè)試圖解決難題的標(biāo)準(zhǔn)大型語言模型,想象成一個(gè)獨(dú)自工作的專家。他們的第一次嘗試可能不錯(cuò),但可能包含一個(gè)關(guān)鍵錯(cuò)誤。

在大模型領(lǐng)域,我們一直遵循著一個(gè)簡單卻代價(jià)高昂的準(zhǔn)則:要得到更智能的答案,就投入更多計(jì)算資源。這種“暴力計(jì)算”方法,以“自一致性”等技術(shù)為典型代表,已成為解決復(fù)雜推理任務(wù)的標(biāo)準(zhǔn)方式。其核心思路是讓模型“思考”多種可能的解決方案——我們稱之為“推理軌跡”——然后通過多數(shù)投票來選出最終答案。

這種方法確實(shí)有效。但它的代價(jià)高得驚人。

想象一下,向一個(gè)大型語言模型提出一道研究生級別的數(shù)學(xué)競賽題。要將其準(zhǔn)確率從“不錯(cuò)”提升到“真正卓越”,你可能需要生成的推理路徑不是10條,不是50條,而是超過500條并行的思路。我們今天剖析的這篇論文《Deep Think with Confidence》揭示,在某個(gè)基準(zhǔn)測試中,用這種方法將準(zhǔn)確率從68%提升到82%,可能需要額外消耗1億個(gè)標(biāo)記。

這就是大型語言模型的困境:在“高性能”與“高成本”之間存在一種殘酷且不可持續(xù)的權(quán)衡。每向推理性能的階梯上邁進(jìn)一步,我們都要付出線性增長且往往高得令人望而卻步的計(jì)算代價(jià)。這一現(xiàn)實(shí)使得最強(qiáng)大的推理技術(shù)被束之高閣,只有擁有行星級計(jì)算預(yù)算的機(jī)構(gòu)才能觸及。

直到現(xiàn)在。

Meta AI和加州大學(xué)圣地亞哥分校的研究人員發(fā)表的一篇新論文,介紹了一種簡單、精妙且高效的方法——Deep Think with Confidence(DeepConf)。它不需要更多計(jì)算資源,而是以精準(zhǔn)的方式利用我們已有的計(jì)算能力。通過讓模型實(shí)時(shí)識(shí)別并放棄自身前景不佳的推理路徑,DeepConf在實(shí)現(xiàn)最先進(jìn)準(zhǔn)確性的同時(shí),將生成的標(biāo)記數(shù)量減少了高達(dá)84.7%。

這不僅僅是一種漸進(jìn)式改進(jìn)。這是我們處理機(jī)器推理方式的范式轉(zhuǎn)變。

上:AIME 2025上的DeepConf。下:使用DeepConf的并行思考,展示了在AIME 2025基準(zhǔn)測試中,與自一致性(cons@512)和單輪生成(pass@1)等基線相比,DeepConf顯著的準(zhǔn)確率提升和標(biāo)記減少。上:AIME 2025上的DeepConf。下:使用DeepConf的并行思考,展示了在AIME 2025基準(zhǔn)測試中,與自一致性(cons@512)和單輪生成(pass@1)等基線相比,DeepConf顯著的準(zhǔn)確率提升和標(biāo)記減少。

上:AIME 2025上的DeepConf。下:使用DeepConf的并行思考,展示了在AIME 2025基準(zhǔn)測試中,與自一致性(cons@512)和單輪生成(pass@1)等基線相比,DeepConf顯著的準(zhǔn)確率提升和標(biāo)記減少。

大型語言模型的困境:高性能與高成本之間的殘酷權(quán)衡

在深入探討DeepConf的工作原理之前,我們先對它所要解決的問題建立一個(gè)清晰的認(rèn)知??梢园岩粋€(gè)試圖解決難題的標(biāo)準(zhǔn)大型語言模型,想象成一個(gè)獨(dú)自工作的專家。他們的第一次嘗試可能不錯(cuò),但可能包含一個(gè)關(guān)鍵錯(cuò)誤。

為了改進(jìn)這一點(diǎn),行業(yè)開發(fā)了“自一致性”技術(shù)——論文中稱之為“并行思考”。這就像組建一個(gè)專家委員會(huì)。不再是一個(gè)專家,而是有數(shù)百個(gè)專家,都獨(dú)立解決同一個(gè)問題。

在這種模式下,標(biāo)準(zhǔn)的多數(shù)投票就像一個(gè)混亂的委員會(huì)會(huì)議室。每個(gè)專家——無論是才華橫溢的、平庸的,還是完全困惑的——都在喊出自己的最終答案。我們完全忽略他們的思考過程,只統(tǒng)計(jì)哪個(gè)答案被喊得最多。

這種方法存在兩個(gè)根本性缺陷:

  1. 效率低下:它把每個(gè)專家的時(shí)間視為同等寶貴。那些在第一步就迷失方向、花幾個(gè)小時(shí)在角落里涂鴉的專家,與那些有條不紊解決問題的專家獲得了相同的“計(jì)算時(shí)長”。
  2. 過于 naive:它假設(shè)所有觀點(diǎn)都是平等的。一個(gè)源自混亂、冗長且矛盾的推理路徑的最終答案,與一個(gè)源自清晰、邏輯嚴(yán)謹(jǐn)且直接的解決方案的答案被賦予同等權(quán)重。當(dāng)大多數(shù)“專家”都自信地犯錯(cuò)時(shí),這可能導(dǎo)致次優(yōu)結(jié)果。

這就是DeepConf出現(xiàn)之前的世界:一個(gè)充滿昂貴、嘈雜且低效的頭腦風(fēng)暴會(huì)議的世界。

DeepConf登場:更聰明地思考,而非更費(fèi)力地思考

DeepConf為我們的專家委員會(huì)會(huì)議室引入了一位熟練的主持人。這位主持人不只是等待最終答案,而是在每位專家的推理展開過程中仔細(xì)傾聽。

其核心思路極其直觀:推理軌跡的質(zhì)量可以通過模型自身的內(nèi)部置信度來判斷。

當(dāng)大型語言模型生成一個(gè)標(biāo)記時(shí),它不只是挑選一個(gè)詞。它會(huì)計(jì)算整個(gè)詞匯表上的概率分布。如果模型高度自信,“正確”下一個(gè)標(biāo)記的概率會(huì)非常高,而其他標(biāo)記的概率會(huì)很低。如果模型不確定,概率會(huì)分散到許多可能的標(biāo)記上。

DeepConf的主持人經(jīng)過訓(xùn)練,能夠識(shí)別這種不確定性。如果一位專家開始含糊其辭、猶豫不決或回溯(例如生成“等等,讓我再想想……”這樣的短語),主持人會(huì)將此視為低質(zhì)量推理路徑的信號(hào)。不會(huì)讓他們浪費(fèi)更多時(shí)間和精力,主持人會(huì)禮貌地介入:“感謝你的貢獻(xiàn),但讓我們把資源集中在更有前景的方向上?!?/span>

置信度測量和帶置信度的離線思考。置信度測量和帶置信度的離線思考。

這就是DeepConf的魔力。它是一個(gè)動(dòng)態(tài)的、基于置信度的過濾系統(tǒng)。它主要以兩種模式運(yùn)行:

  • 離線模式:所有專家完成推理后,主持人會(huì)回顧他們的推理記錄。然后,最終投票會(huì)根據(jù)每位專家在整個(gè)推理過程中的自信程度進(jìn)行加權(quán)。低置信度的論證會(huì)被降權(quán)或完全過濾掉。
  • 在線模式(真正的游戲規(guī)則改變者):這是實(shí)現(xiàn)巨大效率提升的關(guān)鍵。主持人會(huì)實(shí)時(shí)傾聽。一旦推理軌跡的置信度降至某個(gè)臨界閾值以下,生成過程就會(huì)停止。“專家”會(huì)在句子中途被打斷,從而節(jié)省了本會(huì)浪費(fèi)在完成一個(gè)有缺陷論證上的所有計(jì)算資源。

這種在線的早期停止機(jī)制,使得DeepConf能將標(biāo)記生成量削減80%以上,同時(shí)往往還能提高最終準(zhǔn)確率。它不再為糟糕的想法買單。

在線生成過程中的DeepConf。在線生成過程中的DeepConf。

傾聽的藝術(shù):DeepConf如何測量模型的置信度

那么,“主持人”究竟如何測量置信度呢?這不是尋找特定關(guān)鍵詞,而是基于模型內(nèi)部狀態(tài)的純數(shù)學(xué)過程。論文探討了多種指標(biāo),但最有效的指標(biāo)超越了簡單的標(biāo)記級分析。

  1. 標(biāo)記置信度:這是最基本的單位。它由最可能的下一個(gè)標(biāo)記的對數(shù)概率計(jì)算得出。高標(biāo)記置信度意味著模型對其即將邁出的下一步非?!按_定”或有把握。
  2. 組置信度:單次猶豫并不意味著整個(gè)論證有缺陷。為了避免過于草率,DeepConf使用“組置信度”。它會(huì)計(jì)算最近一段時(shí)間(例如過去2048個(gè)標(biāo)記)內(nèi)標(biāo)記置信度的平均值。這為推理軌跡的當(dāng)前健康狀態(tài)提供了一個(gè)更平滑、更可靠的信號(hào)。
  3. 最低組置信度:事實(shí)證明,這是一個(gè)極具預(yù)測力的指標(biāo)。整個(gè)推理鏈的質(zhì)量往往由其最薄弱的環(huán)節(jié)決定。DeepConf發(fā)現(xiàn),一條軌跡中所有滑動(dòng)窗口的最低置信度得分,是判斷整個(gè)軌跡是否可信的絕佳指標(biāo)。正是這個(gè)指標(biāo)構(gòu)成了早期停止機(jī)制的核心。如果這個(gè)移動(dòng)平均置信度下降,就強(qiáng)烈表明出現(xiàn)了關(guān)鍵的推理錯(cuò)誤。

從全局的、事后評估轉(zhuǎn)向局部的、實(shí)時(shí)信號(hào),這一轉(zhuǎn)變是解鎖如此巨大效率的核心技術(shù)創(chuàng)新。

技術(shù)深入:早期停止與加權(quán)投票的機(jī)制

對于那些想深入了解的人,我們來剖析一下其機(jī)制。尤其是在線模式下的過程,設(shè)計(jì)十分精妙。

上:AIME 2025上的DeepConf。下:使用DeepConf的并行思考,展示了DeepConf的類Python偽代碼。這為讀者提供了清晰的、按步驟的邏輯流程。上:AIME 2025上的DeepConf。下:使用DeepConf的并行思考,展示了DeepConf的類Python偽代碼。這為讀者提供了清晰的、按步驟的邏輯流程。

以下是在線算法(論文中的“算法2”)的分解:

1. 離線預(yù)熱:在處理主要問題之前,DeepConf會(huì)運(yùn)行少量初始推理軌跡(例如N_init = 16)。這有兩個(gè)目的:一是提供一組初始答案,更重要的是,讓DeepConf能夠建立一個(gè)置信度基線。

2. 設(shè)置閾值(s:從這個(gè)預(yù)熱集合中,DeepConf會(huì)計(jì)算16條軌跡中每條的“最低組置信度”。然后,它會(huì)基于這些分?jǐn)?shù)的某個(gè)百分位設(shè)置一個(gè)停止閾值s。例如,“DeepConf-low”(高效模式)會(huì)將閾值設(shè)置為只保留最自信的前10%軌跡。任何新軌跡的組置信度低于這個(gè)s,都會(huì)被終止。

3. 自適應(yīng)生成:現(xiàn)在,主生成循環(huán)開始。模型逐標(biāo)記地生成一條新軌跡。

  • 每生成一個(gè)標(biāo)記后,“組置信度”(過去約2048個(gè)標(biāo)記的移動(dòng)平均值)會(huì)更新。
  • 這個(gè)分?jǐn)?shù)會(huì)與閾值s進(jìn)行比較。
if group_confidence < s:    stop_generation()else:    continue_generation()

4. 共識(shí)檢查:每完成一條軌跡(未被提前停止的)后,系統(tǒng)會(huì)檢查到目前為止生成的答案是否達(dá)成共識(shí)。如果領(lǐng)先的答案獲得了絕對多數(shù)(例如>95%的加權(quán)投票),整個(gè)過程可以停止,從而節(jié)省更多計(jì)算資源。這被稱為“自適應(yīng)采樣”。

這種經(jīng)過校準(zhǔn)的早期停止閾值與整體共識(shí)檢查相結(jié)合,創(chuàng)造了一個(gè)既高效又能動(dòng)態(tài)響應(yīng)問題難度的系統(tǒng)。

結(jié)果出爐:效率與準(zhǔn)確性的巨大飛躍

論文中呈現(xiàn)的實(shí)證結(jié)果令人矚目。DeepConf在多種具有挑戰(zhàn)性的推理基準(zhǔn)測試(AIME、HMMT、GPQA)以及最先進(jìn)的開源模型(如DeepSeek、Qwen3和Meta自己的GPT-OSS系列)上進(jìn)行了測試。

離線設(shè)置下的置信度測量基準(zhǔn)測試。報(bào)告的是準(zhǔn)確率(%)。Cons@512和mean@512分別表示使用512條軌跡的多數(shù)投票和平均置信度。所有實(shí)驗(yàn)重復(fù)64次。離線設(shè)置下的置信度測量基準(zhǔn)測試。報(bào)告的是準(zhǔn)確率(%)。Cons@512和mean@512分別表示使用512條軌跡的多數(shù)投票和平均置信度。所有實(shí)驗(yàn)重復(fù)64次。

離線設(shè)置下的置信度測量基準(zhǔn)測試。報(bào)告的是準(zhǔn)確率(%)。Cons@512和mean@512分別表示使用512條軌跡的多數(shù)投票和平均置信度。所有實(shí)驗(yàn)重復(fù)64次。

  • 大幅減少標(biāo)記使用:在在線設(shè)置中,“DeepConf-low”始終能減少40-85%的標(biāo)記使用量。在AIME 2025基準(zhǔn)測試中,使用GPT-OSS-120B時(shí),它將標(biāo)記使用量削減了 84.7% 。這徹底改變了高端推理的經(jīng)濟(jì)性。
  • 提升準(zhǔn)確率:這種效率提升并未以性能為代價(jià)。在許多情況下,準(zhǔn)確率反而提高了。通過過濾掉低質(zhì)量軌跡的“噪音”,最終的多數(shù)投票變得更清晰、更準(zhǔn)確。DeepSeek-8B在AIME24上的準(zhǔn)確率從86.7%躍升至 92.5% (使用DeepConf后)。
  • 達(dá)到SOTA飽和:在極具難度的數(shù)學(xué)競賽AIME 2025上,DeepConf與GPT-OSS-120B結(jié)合,實(shí)現(xiàn)了令人難以置信的99.9%準(zhǔn)確率,實(shí)際上達(dá)到了該基準(zhǔn)測試的飽和狀態(tài)。

在線設(shè)置下的DeepConf基準(zhǔn)測試。在投票規(guī)模預(yù)算為512時(shí),多數(shù)投票和DeepConf(高/低)的準(zhǔn)確率(%)和標(biāo)記數(shù)(×10^8)。在線設(shè)置下的DeepConf基準(zhǔn)測試。在投票規(guī)模預(yù)算為512時(shí),多數(shù)投票和DeepConf(高/低)的準(zhǔn)確率(%)和標(biāo)記數(shù)(×10^8)。

這些結(jié)果并非偶然。在不同模型和數(shù)據(jù)集上,這種模式始終一致。DeepConf為大型語言模型推理提供了一條全新的、性能更優(yōu)的效率-性能曲線。

為何意義重大:計(jì)算高效推理的黎明

這項(xiàng)工作的意義遠(yuǎn)不止于學(xué)術(shù)基準(zhǔn)測試。DeepConf代表著向讓復(fù)雜AI推理變得實(shí)用且可及邁出的關(guān)鍵一步。

  • 普及SOTA性能:通過大幅降低成本,曾經(jīng)只有科技巨頭才能使用的技術(shù),現(xiàn)在初創(chuàng)公司、研究人員和小型企業(yè)也能切實(shí)部署。
  • 賦能復(fù)雜智能體:AI的未來在于能夠執(zhí)行多步驟任務(wù)的自主智能體。這些智能體依賴于長推理鏈,其中一個(gè)薄弱環(huán)節(jié)就可能破壞整個(gè)過程。DeepConf能夠及早修剪不良推理路徑,使這些智能體更可靠且運(yùn)行成本更低。
  • 更快的實(shí)時(shí)應(yīng)用:標(biāo)記減少直接轉(zhuǎn)化為更低的延遲。這為需要復(fù)雜推理但不能容忍長時(shí)間等待的應(yīng)用打開了大門,例如實(shí)時(shí)數(shù)據(jù)分析、復(fù)雜的客戶支持機(jī)器人和交互式創(chuàng)意工具。
  • 更綠色的AI:雖然不是主要關(guān)注點(diǎn),但近85%的標(biāo)記生成減少意味著推理所需的能源消耗大幅降低,有助于打造更可持續(xù)的AI生態(tài)系統(tǒng)。

前路展望:克服“自信的錯(cuò)誤”與規(guī)劃未來

沒有任何方法是完美無缺的。作者正確地指出,DeepConf的有效性取決于一個(gè)假設(shè):模型的置信度與正確性相關(guān)。當(dāng)模型“自信地犯錯(cuò)”時(shí)會(huì)發(fā)生什么?在這種情況下,DeepConf可能會(huì)激進(jìn)地過濾掉正確但“猶豫”的推理路徑,而偏向于一個(gè)有缺陷但斷言自信的路徑。

這凸顯了未來研究的一個(gè)關(guān)鍵領(lǐng)域:提高大型語言模型置信度的校準(zhǔn)度。我們需要的模型不僅知道正確答案,還知道“自己何時(shí)不知道”。

盡管如此,DeepConf仍是一項(xiàng)里程碑式的成就。它挑戰(zhàn)了在大型語言模型推理中占主導(dǎo)地位的“越多越好”理念,提供了一條更智能、更具可擴(kuò)展性且更實(shí)用的前進(jìn)道路。它提醒我們,有時(shí)最重大的突破并非來自制造更大的引擎,而是來自安裝更智能的節(jié)流閥。

核心要點(diǎn)

  • 問題:通過自一致性實(shí)現(xiàn)的高質(zhì)量大型語言模型推理成本極高,為廣泛采用設(shè)置了障礙。
  • 解決方案(DeepConf):一種新方法,利用模型自身的內(nèi)部置信度信號(hào)動(dòng)態(tài)過濾低質(zhì)量推理軌跡,通常是實(shí)時(shí)過濾。
  • 機(jī)制:通過對標(biāo)記的滑動(dòng)窗口計(jì)算“最低組置信度”,DeepConf能夠識(shí)別并及早終止前景不佳的生成路徑,節(jié)省大量計(jì)算資源。
  • 結(jié)果:DeepConf能將標(biāo)記生成量減少高達(dá)85%,同時(shí)在具有挑戰(zhàn)性的推理基準(zhǔn)測試上保持甚至提高最先進(jìn)的準(zhǔn)確率。
  • 影響:這項(xiàng)工作為更經(jīng)濟(jì)、可擴(kuò)展且高效的AI智能體和推理系統(tǒng)鋪平了道路,普及了頂級性能的獲取途徑。

參考文獻(xiàn)

Fu, Y., Wang, X., Tian, Y., & Zhao, J. (2025).Deep Think with Confidence . arXiv:2508.15260v1

責(zé)任編輯:武曉燕 來源: AIGC深一度
相關(guān)推薦

2025-09-01 07:43:25

2024-07-10 12:42:53

2021-11-26 10:02:22

擴(kuò)展業(yè)務(wù)領(lǐng)導(dǎo)者CIO

2025-08-29 09:09:00

AI模型數(shù)據(jù)

2022-01-07 09:56:49

自然語言神經(jīng)網(wǎng)絡(luò)人工智能

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡(luò)攻擊

2022-12-12 11:31:39

數(shù)據(jù)學(xué)習(xí)

2015-08-21 09:14:40

大數(shù)據(jù)

2010-04-01 09:30:57

2022-10-28 15:16:52

檢測數(shù)據(jù)

2022-07-07 10:47:16

IngressKubernetes

2019-07-12 13:50:36

物聯(lián)網(wǎng)大數(shù)據(jù)安全

2023-12-29 13:18:23

模型NeRFTICD

2025-09-19 14:53:34

2018-10-07 07:00:59

2023-08-21 11:29:50

智能數(shù)據(jù)

2024-01-23 17:33:36

2024-10-23 19:47:54

2009-07-31 08:56:59

ASP.NET頁面刷新

2023-07-06 15:29:52

數(shù)據(jù)中心能源回收
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)