偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<rp id="fpj60"></rp>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

別讓大模型想太多了，過度思考會影響性能

發(fā)布于 2025-3-26 10:58

瀏覽

0收藏

加州大學伯克利分校、蘇黎世聯(lián)邦理工學院等多所高校的研究人員，深入剖析了大模型在執(zhí)行Agent任務時面臨的困境 ——過度思考。

為了量化這種行為，研究人員開發(fā)了一套系統(tǒng)評估框架，并通過4018條軌跡分析發(fā)現(xiàn)，高推理努力配置的模型雖然解決了29.1%的問題，但成本高達1400美元；而低推理努力配置則以3.5倍更低的成本達到了21.0%的成功率。

此外，生成兩個低推理解決方案并選擇其中一個具有較低過度思考得分的方法，實現(xiàn)了27.3%的解決率，同時減少了43%的計算成本。這表明減輕過度思考不僅提高了推理效率，還顯著降低了成本。

別讓大模型想太多了，過度思考會影響性能-AI.x社區(qū)

開源地址：https://github.com/AlexCuadron/ThinkingAgent

過度思考是指，大模型過度依賴內部推理，而忽視了從環(huán)境中獲取或整合關鍵反饋的傾向。即使在資源不受限制的情況下，這種過度依賴內部推理的模型仍然會受到其不完整或不準確的世界模型的限制，從而導致錯誤的累積和決策能力的下降。

為了深入研究這種現(xiàn)象，研究人員通過分析智能體與環(huán)境之間的交互過程，識別出三種過度思考的典型表現(xiàn)模式。

首先是“分析癱瘓”（Analysis Paralysis），在這種情況下，模型過度專注于未來的規(guī)劃，而忽視了當前環(huán)境中的實際進展。它們會生成越來越復雜的行動序列，但卻難以系統(tǒng)地執(zhí)行這些計劃，從而陷入無休止的規(guī)劃循環(huán)中。

別讓大模型想太多了，過度思考會影響性能-AI.x社區(qū)

其次是“魯莽行動”（Rogue Actions），在這種模式下，模型在面對錯誤時會嘗試同時執(zhí)行多個相互依賴的行動，而沒有等待環(huán)境對前一個行動的反饋，模型試圖用內部模擬來替代真實的環(huán)境反饋。

最后是“過早脫離”（Premature Disengagement），在這種情況下，模型基于內部對問題空間的模擬而終止任務，而不是根據環(huán)境反饋來驗證解決方案的有效性。這種過度依賴內部推理的行為可能導致模型在沒有驗證的情況下就放棄任務，或者錯誤地認為問題無法解決。

為了量化過度思考行為，研究團隊開發(fā)了一種系統(tǒng)化的評分方法，使用大模型作為評判標準。該方法通過分析模型軌跡，識別出上述三種過度思考模式，并給出0到10分的評分，分數(shù)越高表示過度思考越嚴重。每個評分都附有詳細的理由，解釋所識別的模式及其嚴重程度。完整的評估提示和評分標準可以在附錄A中找到。

別讓大模型想太多了，過度思考會影響性能-AI.x社區(qū)

為了驗證自動化評估方法的可靠性，研究人員邀請了四位專家手動評定了20個隨機選擇的模型軌跡。通過標準化評分，研究團隊進行了全面的統(tǒng)計分析，探究過度思考行為與模型性能的關系，以及過度思考對推理模型和非推理模型的不同影響。

結果顯示，推理模型的過度思考得分顯著高于非推理模型，且兩者之間的相關性非常強，證實了自動評估方法的可靠性。

此外，研究團隊設計了一個系統(tǒng)化評估軌跡的提示，避免使用“過度思考”一詞以防止模型偏向自身定義。該提示圍繞過度思考的三種表現(xiàn)形式展開，即分析癱瘓、魯莽行為和過早脫離，并強調偏好內部推理鏈而非環(huán)境互動。

別讓大模型想太多了，過度思考會影響性能-AI.x社區(qū)

評分系統(tǒng)分為三檔：0-3分表示適當?shù)沫h(huán)境互動，4-7分表示偶爾過度依賴內部推理，8-10分則表示完全脫離環(huán)境反饋。

通過提供具體的例子，如模型得0分時會持續(xù)重試類似配置并在每次嘗試間等待反饋，而得10分時會生成多個互依動作而不等待環(huán)境響應，或基于內部推理提前結束任務，確保評分標準的透明和一致。

實驗結果表明，過度思考評分與任務解決率呈現(xiàn)出顯著的負相關性。推理模型的過度思考評分越高，其在軟件工程任務中的表現(xiàn)越差。這一趨勢在非推理模型中也得到了體現(xiàn)，但其下降速度更快。例如，推理模型的趨勢線斜率為-7.894，而非推理模型的趨勢線斜率達到了-15.938。

在模型類型與過度思考的關系方面，作者們發(fā)現(xiàn)推理模型的過度思考傾向明顯高于非推理模型。實驗數(shù)據顯示，推理模型的平均過度思考評分為3.505，而非推理模型的平均評分為2.228。這種傾向可能是由于推理模型在訓練過程中被優(yōu)化為生成更長的推理鏈，從而在面對需要頻繁與環(huán)境互動的任務時，表現(xiàn)出更高的過度思考傾向。

此外，還研究了模型規(guī)模對過度思考的影響。實驗結果表明，模型規(guī)模與過度思考評分之間存在負相關性。較小的模型，如7B和14B參數(shù)的模型在交互式任務中表現(xiàn)出更高的過度思考傾向，而較大的模型如671B參數(shù)的模型則相對較低。這一現(xiàn)象可能與模型的復雜性和對環(huán)境反饋的處理能力有關。

本文轉自 AIGC開放社區(qū) ，作者：AIGC開放社區(qū)

原文鏈接:??https://mp.weixin.qq.com/s/Bs0IIkXel0ABS3HggdJRrw??

標簽

贊

收藏

回復

舉報

回復

相關推薦

AI大模型性能最新排名

開發(fā)者阿橙 ? 7864瀏覽 ? 0回復
模型崩潰！泛濫的AI會反噬自身！牛津大學研究發(fā)現(xiàn)：用AI生成數(shù)據來二次訓練大模型會產生無意義的內容！

51CTO技術棧 ? 3702瀏覽 ? 0回復
簡潔思考：輸出長度對大型語言模型推理和成本的影響

sbf_2000 ? 5717瀏覽 ? 0回復
最新研究：大語言模型使用Json格式輸出會降低模型性能嗎？

大語言模型論文跟蹤 ? 5529瀏覽 ? 0回復
大模型SFT暗藏大陷阱？梯度累計bug造成大范圍影響

kede96 ? 4067瀏覽 ? 0回復
研究發(fā)現(xiàn)：這三種任務不適合讓AI“想太多”

51CTO技術棧 ? 3179瀏覽 ? 0回復
Kaggle大模型競賽優(yōu)勝方案總結與思考

arnoldzhw ? 5541瀏覽 ? 0回復
為什么某些 batch size 會突然導致性能下降？

Baihai_IDP ? 3724瀏覽 ? 0回復
再談大模型向量，由向量檢索引起的思考

AI探索時代 ? 3522瀏覽 ? 0回復
突發(fā)，美國開始拉黑國產大模型公司！智譜官方回應：手握全鏈路大模型核心技術，無實質影響！

51CTO技術棧 ? 3243瀏覽 ? 0回復
RAG圈的DeepSeek，中科院DeepRAG讓大模型帶著“思考”檢索，性能提升21.99%

PaperAgent ? 5023瀏覽 ? 0回復
聊聊DeepSeek大模型對AI Agent的影響

王吉偉自頻道 ? 3325瀏覽 ? 0回復
從大模型性能優(yōu)化到DeepSeek部署

卓勝微wjp ? 7198瀏覽 ? 0回復
大模型面經：SFT和RL如何影響模型的泛化或記憶能力？

shizhi02 ? 4360瀏覽 ? 0回復
工具調用×大模型思考=超級智能體：ReAct 策略如何改變AI能力

九歌AI大模型 ? 3403瀏覽 ? 0回復
全球首個會“邊想邊干”的智能體發(fā)布：人類要被炒魷魚了？

算家計算 ? 2432瀏覽 ? 0回復
AI會“思考”嗎？重讀笛卡爾《談談方法》，解鎖智能與意識的百年謎題

上堵吟1 ? 2818瀏覽 ? 0回復
大模型如何讓機器人 “能思考、會學習”？這篇綜述講透了

十一月雨_55 ? 4189瀏覽 ? 0回復
Chroma：上下文退化-增加輸入 Tokens 長度對 LLM 性能的影響

AI取經路 ? 1355瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

剛剛，OpenAI發(fā)布GPT-image-1模型，更強吉卜力版本來啦 2025-04-24 09:57:36發(fā)布
字節(jié)跳動開源多模態(tài)AI Agent—UI-TARS-1.5 2025-04-23 11:55:00發(fā)布

熱門推薦

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達指令的第一句話 0回復

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術架構全解析 0回復

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉換為Markdown格式 0回復

關于RAG系統(tǒng)在多輪對話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復

上一篇：剛剛，OpenAI發(fā)布新文生圖模型，免費、逼真到難以分辨

下一篇：微軟、清華發(fā)布Agent創(chuàng)新方法，解決記憶、檢索大難題

社區(qū)精華內容

目錄

<blockquote id="ubqlw"></blockquote>

<u id="ubqlw"></u>

<center id="ubqlw"></center>

<pre id="ubqlw"><span id="ubqlw"></span></pre>