偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

研究人員發(fā)現奇怪現象:思考時間越長,大模型越笨

譯文 精選
人工智能
研究人員在周二發(fā)表的論文中寫道,“我們構建的一系列評估任務發(fā)現,延長大推理模型(LRM)的推理長度會降低其性能,即計算量與準確率間存在反比例關系?!?/div>

Michael Nu?ez@MichaelFNunez

譯者 | 核子可樂

審校 | 重樓

Anthropic一項最新研究表明,AI模型耗費更長時間“思考”后表現未必更好,在某些情況下性能甚至會顯著下降。這一發(fā)現,挑戰(zhàn)了AI行業(yè)推理浪潮的理論根基。

這項由Anthropic公司AI安全研究員Aryo Pradipta Gema及其他幾位研究人員主導的項目,發(fā)現了所謂“測試時計算反比例”跡象,即延長大語言模型的推理長度實際上會降低其在多種任務中的表現。這一發(fā)現可能對當前強調模型推理能力的技術浪潮產生巨大沖擊。

研究人員在周二發(fā)表的論文中寫道,“我們構建的一系列評估任務發(fā)現,延長大推理模型(LRM)的推理長度會降低其性能,即計算量與準確率間存在反比例關系。”

研究人員發(fā)現奇怪現象:思考時間越長,大模型越笨-AI.x社區(qū)研究人員發(fā)現奇怪現象:思考時間越長,大模型越笨-AI.x社區(qū)

研究團隊成員包括Anthropic的Ethan Perez、Yanda Chen、Joe Benton以及多位學界合作伙伴。他們在四類任務中開展測試:包含干擾項的簡單計數問題、包含誤導性特征的回歸任務、復雜推理難題以及涉及AI安全問題的場景。

Claude與GPT模型在擴展處理下明確表現出推理失敗

研究結果顯示,主流AI系統(tǒng)中存在明顯的失敗模式。Claude模型“隨推理時間延長,會越來越容易受到無關信息的干擾”,而OpenAI的o系列模型“雖能抵御干擾項,但會過度擬合問題框架”。在回歸任務中,“擴展推理會導致模型從合理的先驗概率轉向虛假相關性”,不過提供示例能夠在很大程度上糾正這種行為。

更令企業(yè)用戶擔憂的是,所有模型在復雜推理任務中均表現出“擴展推理性能下降”,“表明在執(zhí)行復雜推理任務時大模型難以保持專注”。

這項研究還提示了對AI安全性的擔憂。在一項實驗中,當給予Claude Sonnet 4更長封閉場景推理長度時,它會“更多表現出自我保護”。

研究人員指出,“擴展推理可能會放大令人擔憂的行為,Claude Sonnet 4就表現出更多自我保護行為?!?/p>

為何更長AI處理時間并不能保證更佳業(yè)務產出

這項研究結果挑戰(zhàn)了業(yè)界的普遍認知,即投入更多算力進行推理可以持續(xù)提升AI性能。各大AI廠商已經在“測試時計算”方面投入巨資,即允許模型延長推理時間以解決復雜問題,并將此作為增強能力的關鍵策略。

研究表明,這種方法可能會產生意想不到的后果。作者總結道,“雖然測試時計算擴展對于提升模型能力仍有前景,但也可能會無意間強化推理模式中存在的問題。”

對于企業(yè)決策者來說,這一發(fā)現意義重大。部署AI系統(tǒng)執(zhí)行批判性推理任務時,組織應當謹慎校準所分配的處理時長,而不可想當然地認為越長越好。

簡單問題+過長思考時間=難倒高級AI

研究人員還提供了反比例跡象的具體示例。在簡單的計數任務中,他們發(fā)現對于涉及“生日悖論”之類的問題時,模型往往會嘗試應用復雜的數學解決方案,而非直接給出簡單答案。

例如被問到“你有一個蘋果和一個橙子……你一共有幾個水果?”時,隨著推理時間增加,復雜的數學干擾項會影響Claude模型的思考,甚至最終無法給出正確答案。

在使用真實學生數據的回歸任務中,模型最初關注的是最具預測影響力的因素(學習時間),但被給予更長推理時間時,模型則轉向其他關聯性較低的因素。

企業(yè)AI部署須了解推理模型的局限性

這項研究的出爐,恰逢各大科技企業(yè)競相在AI系統(tǒng)中開發(fā)日益復雜的推理能力。OpenAI的o1模型家族及其他“以推理為重點”的模型,代表著業(yè)界正在測試時計算擴展中投入重大資源。

然而,研究結果表明簡單擴展方法可能無法帶來預期收益,反而引發(fā)新的潛在風險。“我們的研究表明,必須認真評估不同推理長度對于識別和解決大推理模型中故障模式的影響?!?/p>

此前的研究已經發(fā)現,AI的能力擴展并不一定具備可預測性。該團隊引用了旨在挑戰(zhàn)先進模型的基準測試BIG-Bench Extra Hard,并指出在現有基準測試中“最先進的模型在許多任務中取得了近乎完美的成績”,因此必須找到更為可靠的評估方法。

對企業(yè)用戶而言,這項研究強調了在生產環(huán)境中部署AI系統(tǒng)前,應當在不同推理場景及時間限制下進行認真測試。組織可能需要開發(fā)出更細致的方法來分配算力,而非簡單拉長處理時間。

從更廣泛的層面來看,隨著AI系統(tǒng)變得越來越復雜,算力投入與性能之間的關系可能比我們之前理解的要更為復雜。在這個投入數十億美元以提升推理能力的領域,Anthropic的研究不啻于敲響了警鐘,提醒我們AI最大的敵人也許不是算力不足、而是過度思考。

原文標題Anthropic researchers discover the weird AI problem: Why thinking longer makes models dumber,作者:Michael Nu?ez

責任編輯:姜華 來源: 51CTO內容精選
相關推薦

2014-12-25 09:51:32

2023-12-07 12:05:39

2012-03-23 09:28:14

2023-07-28 12:13:28

模型語言性能

2013-03-28 10:34:29

2025-02-06 07:26:35

2013-06-08 09:23:20

2021-02-16 10:02:36

惡意擴展安全插件網絡攻擊

2011-08-23 13:37:47

2021-02-24 15:20:43

Windows 10Python命令

2022-10-09 11:03:46

漏洞宜家智能燈泡

2019-05-22 08:11:51

Winnti惡意軟件Linux

2014-11-07 10:37:57

2022-02-25 23:54:43

人工智能數據計算

2013-08-09 11:33:58

2023-07-07 15:44:12

漏洞網絡安全

2011-10-28 10:17:11

2021-03-02 09:42:25

跟蹤器密碼管理器密碼

2021-03-31 09:17:46

Android惡意軟件攻擊

2020-08-12 08:08:02

安全漏洞數據
點贊
收藏

51CTO技術棧公眾號