偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

別讓大模型想太多了,過度思考會影響性能

發(fā)布于 2025-3-26 10:58
瀏覽
0收藏

加州大學伯克利分校、蘇黎世聯(lián)邦理工學院等多所高校的研究人員,深入剖析了大模型在執(zhí)行Agent任務時面臨的困境 ——過度思考。


為了量化這種行為,研究人員開發(fā)了一套系統(tǒng)評估框架,并通過4018條軌跡分析發(fā)現(xiàn),高推理努力配置的模型雖然解決了29.1%的問題,但成本高達1400美元;而低推理努力配置則以3.5倍更低的成本達到了21.0%的成功率。


此外,生成兩個低推理解決方案并選擇其中一個具有較低過度思考得分的方法,實現(xiàn)了27.3%的解決率,同時減少了43%的計算成本。這表明減輕過度思考不僅提高了推理效率,還顯著降低了成本。

別讓大模型想太多了,過度思考會影響性能-AI.x社區(qū)

開源地址:https://github.com/AlexCuadron/ThinkingAgent


過度思考是指,大模型過度依賴內部推理,而忽視了從環(huán)境中獲取或整合關鍵反饋的傾向。即使在資源不受限制的情況下,這種過度依賴內部推理的模型仍然會受到其不完整或不準確的世界模型的限制,從而導致錯誤的累積和決策能力的下降。


為了深入研究這種現(xiàn)象,研究人員通過分析智能體與環(huán)境之間的交互過程,識別出三種過度思考的典型表現(xiàn)模式。


首先是“分析癱瘓”(Analysis Paralysis),在這種情況下,模型過度專注于未來的規(guī)劃,而忽視了當前環(huán)境中的實際進展。它們會生成越來越復雜的行動序列,但卻難以系統(tǒng)地執(zhí)行這些計劃,從而陷入無休止的規(guī)劃循環(huán)中。

別讓大模型想太多了,過度思考會影響性能-AI.x社區(qū)

其次是“魯莽行動”(Rogue Actions),在這種模式下,模型在面對錯誤時會嘗試同時執(zhí)行多個相互依賴的行動,而沒有等待環(huán)境對前一個行動的反饋,模型試圖用內部模擬來替代真實的環(huán)境反饋。


最后是“過早脫離”(Premature Disengagement),在這種情況下,模型基于內部對問題空間的模擬而終止任務,而不是根據環(huán)境反饋來驗證解決方案的有效性。這種過度依賴內部推理的行為可能導致模型在沒有驗證的情況下就放棄任務,或者錯誤地認為問題無法解決。


為了量化過度思考行為,研究團隊開發(fā)了一種系統(tǒng)化的評分方法,使用大模型作為評判標準。該方法通過分析模型軌跡,識別出上述三種過度思考模式,并給出0到10分的評分,分數(shù)越高表示過度思考越嚴重。每個評分都附有詳細的理由,解釋所識別的模式及其嚴重程度。完整的評估提示和評分標準可以在附錄A中找到。

別讓大模型想太多了,過度思考會影響性能-AI.x社區(qū)

為了驗證自動化評估方法的可靠性,研究人員邀請了四位專家手動評定了20個隨機選擇的模型軌跡。通過標準化評分,研究團隊進行了全面的統(tǒng)計分析,探究過度思考行為與模型性能的關系,以及過度思考對推理模型和非推理模型的不同影響。


結果顯示,推理模型的過度思考得分顯著高于非推理模型,且兩者之間的相關性非常強,證實了自動評估方法的可靠性。


此外,研究團隊設計了一個系統(tǒng)化評估軌跡的提示,避免使用“過度思考”一詞以防止模型偏向自身定義。該提示圍繞過度思考的三種表現(xiàn)形式展開,即分析癱瘓、魯莽行為和過早脫離,并強調偏好內部推理鏈而非環(huán)境互動。

別讓大模型想太多了,過度思考會影響性能-AI.x社區(qū)

評分系統(tǒng)分為三檔:0-3分表示適當?shù)沫h(huán)境互動,4-7分表示偶爾過度依賴內部推理,8-10分則表示完全脫離環(huán)境反饋。


通過提供具體的例子,如模型得0分時會持續(xù)重試類似配置并在每次嘗試間等待反饋,而得10分時會生成多個互依動作而不等待環(huán)境響應,或基于內部推理提前結束任務,確保評分標準的透明和一致。


實驗結果表明,過度思考評分與任務解決率呈現(xiàn)出顯著的負相關性。推理模型的過度思考評分越高,其在軟件工程任務中的表現(xiàn)越差。這一趨勢在非推理模型中也得到了體現(xiàn),但其下降速度更快。例如,推理模型的趨勢線斜率為-7.894,而非推理模型的趨勢線斜率達到了-15.938。


在模型類型與過度思考的關系方面,作者們發(fā)現(xiàn)推理模型的過度思考傾向明顯高于非推理模型。實驗數(shù)據顯示,推理模型的平均過度思考評分為3.505,而非推理模型的平均評分為2.228。這種傾向可能是由于推理模型在訓練過程中被優(yōu)化為生成更長的推理鏈,從而在面對需要頻繁與環(huán)境互動的任務時,表現(xiàn)出更高的過度思考傾向。


此外,還研究了模型規(guī)模對過度思考的影響。實驗結果表明,模型規(guī)模與過度思考評分之間存在負相關性。較小的模型,如7B和14B參數(shù)的模型在交互式任務中表現(xiàn)出更高的過度思考傾向,而較大的模型如671B參數(shù)的模型則相對較低。這一現(xiàn)象可能與模型的復雜性和對環(huán)境反饋的處理能力有關。


本文轉自 AIGC開放社區(qū)  ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/Bs0IIkXel0ABS3HggdJRrw??


收藏
回復
舉報
回復
相關推薦