偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

研究人員發(fā)現(xiàn)奇怪現(xiàn)象:思考時(shí)間越長,大模型越笨 原創(chuàng)

發(fā)布于 2025-7-28 07:43
瀏覽
0收藏

Anthropic一項(xiàng)最新研究表明,AI模型耗費(fèi)更長時(shí)間“思考”后表現(xiàn)未必更好,在某些情況下性能甚至?xí)@著下降。這一發(fā)現(xiàn),挑戰(zhàn)了AI行業(yè)推理浪潮的理論根基。

這項(xiàng)由Anthropic公司AI安全研究員Aryo Pradipta Gema及其他幾位研究人員主導(dǎo)的項(xiàng)目,發(fā)現(xiàn)了所謂“測試時(shí)計(jì)算反比例”跡象,即延長大語言模型的推理長度實(shí)際上會降低其在多種任務(wù)中的表現(xiàn)。這一發(fā)現(xiàn)可能對當(dāng)前強(qiáng)調(diào)模型推理能力的技術(shù)浪潮產(chǎn)生巨大沖擊。

研究人員在周二發(fā)表的論文中寫道,“我們構(gòu)建的一系列評估任務(wù)發(fā)現(xiàn),延長大推理模型(LRM)的推理長度會降低其性能,即計(jì)算量與準(zhǔn)確率間存在反比例關(guān)系?!?/p>

研究人員發(fā)現(xiàn)奇怪現(xiàn)象:思考時(shí)間越長,大模型越笨-AI.x社區(qū)

研究團(tuán)隊(duì)成員包括Anthropic的Ethan Perez、Yanda Chen、Joe Benton以及多位學(xué)界合作伙伴。他們在四類任務(wù)中開展測試:包含干擾項(xiàng)的簡單計(jì)數(shù)問題、包含誤導(dǎo)性特征的回歸任務(wù)、復(fù)雜推理難題以及涉及AI安全問題的場景。

Claude與GPT模型在擴(kuò)展處理下明確表現(xiàn)出推理失敗

研究結(jié)果顯示,主流AI系統(tǒng)中存在明顯的失敗模式。Claude模型“隨推理時(shí)間延長,會越來越容易受到無關(guān)信息的干擾”,而OpenAI的o系列模型“雖能抵御干擾項(xiàng),但會過度擬合問題框架”。在回歸任務(wù)中,“擴(kuò)展推理會導(dǎo)致模型從合理的先驗(yàn)概率轉(zhuǎn)向虛假相關(guān)性”,不過提供示例能夠在很大程度上糾正這種行為。

更令企業(yè)用戶擔(dān)憂的是,所有模型在復(fù)雜推理任務(wù)中均表現(xiàn)出“擴(kuò)展推理性能下降”,“表明在執(zhí)行復(fù)雜推理任務(wù)時(shí)大模型難以保持專注”。

這項(xiàng)研究還提示了對AI安全性的擔(dān)憂。在一項(xiàng)實(shí)驗(yàn)中,當(dāng)給予Claude Sonnet 4更長封閉場景推理長度時(shí),它會“更多表現(xiàn)出自我保護(hù)”。

研究人員指出,“擴(kuò)展推理可能會放大令人擔(dān)憂的行為,Claude Sonnet 4就表現(xiàn)出更多自我保護(hù)行為?!?/p>

為何更長AI處理時(shí)間并不能保證更佳業(yè)務(wù)產(chǎn)出

這項(xiàng)研究結(jié)果挑戰(zhàn)了業(yè)界的普遍認(rèn)知,即投入更多算力進(jìn)行推理可以持續(xù)提升AI性能。各大AI廠商已經(jīng)在“測試時(shí)計(jì)算”方面投入巨資,即允許模型延長推理時(shí)間以解決復(fù)雜問題,并將此作為增強(qiáng)能力的關(guān)鍵策略。

研究表明,這種方法可能會產(chǎn)生意想不到的后果。作者總結(jié)道,“雖然測試時(shí)計(jì)算擴(kuò)展對于提升模型能力仍有前景,但也可能會無意間強(qiáng)化推理模式中存在的問題?!?/p>

對于企業(yè)決策者來說,這一發(fā)現(xiàn)意義重大。部署AI系統(tǒng)執(zhí)行批判性推理任務(wù)時(shí),組織應(yīng)當(dāng)謹(jǐn)慎校準(zhǔn)所分配的處理時(shí)長,而不可想當(dāng)然地認(rèn)為越長越好。

簡單問題+過長思考時(shí)間=難倒高級AI

研究人員還提供了反比例跡象的具體示例。在簡單的計(jì)數(shù)任務(wù)中,他們發(fā)現(xiàn)對于涉及“生日悖論”之類的問題時(shí),模型往往會嘗試應(yīng)用復(fù)雜的數(shù)學(xué)解決方案,而非直接給出簡單答案。

例如被問到“你有一個(gè)蘋果和一個(gè)橙子……你一共有幾個(gè)水果?”時(shí),隨著推理時(shí)間增加,復(fù)雜的數(shù)學(xué)干擾項(xiàng)會影響Claude模型的思考,甚至最終無法給出正確答案。

在使用真實(shí)學(xué)生數(shù)據(jù)的回歸任務(wù)中,模型最初關(guān)注的是最具預(yù)測影響力的因素(學(xué)習(xí)時(shí)間),但被給予更長推理時(shí)間時(shí),模型則轉(zhuǎn)向其他關(guān)聯(lián)性較低的因素。

企業(yè)AI部署須了解推理模型的局限性

這項(xiàng)研究的出爐,恰逢各大科技企業(yè)競相在AI系統(tǒng)中開發(fā)日益復(fù)雜的推理能力。OpenAI的o1模型家族及其他“以推理為重點(diǎn)”的模型,代表著業(yè)界正在測試時(shí)計(jì)算擴(kuò)展中投入重大資源。

然而,研究結(jié)果表明簡單擴(kuò)展方法可能無法帶來預(yù)期收益,反而引發(fā)新的潛在風(fēng)險(xiǎn)?!拔覀兊难芯勘砻?,必須認(rèn)真評估不同推理長度對于識別和解決大推理模型中故障模式的影響?!?/p>

此前的研究已經(jīng)發(fā)現(xiàn),AI的能力擴(kuò)展并不一定具備可預(yù)測性。該團(tuán)隊(duì)引用了旨在挑戰(zhàn)先進(jìn)模型的基準(zhǔn)測試BIG-Bench Extra Hard,并指出在現(xiàn)有基準(zhǔn)測試中“最先進(jìn)的模型在許多任務(wù)中取得了近乎完美的成績”,因此必須找到更為可靠的評估方法。

對企業(yè)用戶而言,這項(xiàng)研究強(qiáng)調(diào)了在生產(chǎn)環(huán)境中部署AI系統(tǒng)前,應(yīng)當(dāng)在不同推理場景及時(shí)間限制下進(jìn)行認(rèn)真測試。組織可能需要開發(fā)出更細(xì)致的方法來分配算力,而非簡單拉長處理時(shí)間。

從更廣泛的層面來看,隨著AI系統(tǒng)變得越來越復(fù)雜,算力投入與性能之間的關(guān)系可能比我們之前理解的要更為復(fù)雜。在這個(gè)投入數(shù)十億美元以提升推理能力的領(lǐng)域,Anthropic的研究不啻于敲響了警鐘,提醒我們AI最大的敵人也許不是算力不足、而是過度思考。

原文標(biāo)題??Anthropic researchers discover the weird AI problem: Why thinking longer makes models dumber?,作者:Michael Nu?ez

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦