偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<var id="6wptc"><strong id="6wptc"></strong></var><blockquote id="6wptc"></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

研究人員發(fā)現(xiàn)奇怪現(xiàn)象：思考時(shí)間越長，大模型越笨原創(chuàng)

51CTO內(nèi)容精選

發(fā)布于 2025-7-28 07:43

瀏覽

0收藏

Anthropic一項(xiàng)最新研究表明，AI模型耗費(fèi)更長時(shí)間“思考”后表現(xiàn)未必更好，在某些情況下性能甚至?xí)@著下降。這一發(fā)現(xiàn)，挑戰(zhàn)了AI行業(yè)推理浪潮的理論根基。

這項(xiàng)由Anthropic公司AI安全研究員Aryo Pradipta Gema及其他幾位研究人員主導(dǎo)的項(xiàng)目，發(fā)現(xiàn)了所謂“測試時(shí)計(jì)算反比例”跡象，即延長大語言模型的推理長度實(shí)際上會降低其在多種任務(wù)中的表現(xiàn)。這一發(fā)現(xiàn)可能對當(dāng)前強(qiáng)調(diào)模型推理能力的技術(shù)浪潮產(chǎn)生巨大沖擊。

研究人員在周二發(fā)表的論文中寫道，“我們構(gòu)建的一系列評估任務(wù)發(fā)現(xiàn)，延長大推理模型（LRM）的推理長度會降低其性能，即計(jì)算量與準(zhǔn)確率間存在反比例關(guān)系?！?/p>

研究人員發(fā)現(xiàn)奇怪現(xiàn)象：思考時(shí)間越長，大模型越笨-AI.x社區(qū)

研究團(tuán)隊(duì)成員包括Anthropic的Ethan Perez、Yanda Chen、Joe Benton以及多位學(xué)界合作伙伴。他們在四類任務(wù)中開展測試：包含干擾項(xiàng)的簡單計(jì)數(shù)問題、包含誤導(dǎo)性特征的回歸任務(wù)、復(fù)雜推理難題以及涉及AI安全問題的場景。

Claude與GPT模型在擴(kuò)展處理下明確表現(xiàn)出推理失敗

研究結(jié)果顯示，主流AI系統(tǒng)中存在明顯的失敗模式。Claude模型“隨推理時(shí)間延長，會越來越容易受到無關(guān)信息的干擾”，而OpenAI的o系列模型“雖能抵御干擾項(xiàng)，但會過度擬合問題框架”。在回歸任務(wù)中，“擴(kuò)展推理會導(dǎo)致模型從合理的先驗(yàn)概率轉(zhuǎn)向虛假相關(guān)性”，不過提供示例能夠在很大程度上糾正這種行為。

更令企業(yè)用戶擔(dān)憂的是，所有模型在復(fù)雜推理任務(wù)中均表現(xiàn)出“擴(kuò)展推理性能下降”，“表明在執(zhí)行復(fù)雜推理任務(wù)時(shí)大模型難以保持專注”。

這項(xiàng)研究還提示了對AI安全性的擔(dān)憂。在一項(xiàng)實(shí)驗(yàn)中，當(dāng)給予Claude Sonnet 4更長封閉場景推理長度時(shí)，它會“更多表現(xiàn)出自我保護(hù)”。

研究人員指出，“擴(kuò)展推理可能會放大令人擔(dān)憂的行為，Claude Sonnet 4就表現(xiàn)出更多自我保護(hù)行為?！?/p>

為何更長AI處理時(shí)間并不能保證更佳業(yè)務(wù)產(chǎn)出

這項(xiàng)研究結(jié)果挑戰(zhàn)了業(yè)界的普遍認(rèn)知，即投入更多算力進(jìn)行推理可以持續(xù)提升AI性能。各大AI廠商已經(jīng)在“測試時(shí)計(jì)算”方面投入巨資，即允許模型延長推理時(shí)間以解決復(fù)雜問題，并將此作為增強(qiáng)能力的關(guān)鍵策略。

研究表明，這種方法可能會產(chǎn)生意想不到的后果。作者總結(jié)道，“雖然測試時(shí)計(jì)算擴(kuò)展對于提升模型能力仍有前景，但也可能會無意間強(qiáng)化推理模式中存在的問題?！?/p>

對于企業(yè)決策者來說，這一發(fā)現(xiàn)意義重大。部署AI系統(tǒng)執(zhí)行批判性推理任務(wù)時(shí)，組織應(yīng)當(dāng)謹(jǐn)慎校準(zhǔn)所分配的處理時(shí)長，而不可想當(dāng)然地認(rèn)為越長越好。

簡單問題+過長思考時(shí)間=難倒高級AI

研究人員還提供了反比例跡象的具體示例。在簡單的計(jì)數(shù)任務(wù)中，他們發(fā)現(xiàn)對于涉及“生日悖論”之類的問題時(shí)，模型往往會嘗試應(yīng)用復(fù)雜的數(shù)學(xué)解決方案，而非直接給出簡單答案。

例如被問到“你有一個(gè)蘋果和一個(gè)橙子……你一共有幾個(gè)水果？”時(shí)，隨著推理時(shí)間增加，復(fù)雜的數(shù)學(xué)干擾項(xiàng)會影響Claude模型的思考，甚至最終無法給出正確答案。

在使用真實(shí)學(xué)生數(shù)據(jù)的回歸任務(wù)中，模型最初關(guān)注的是最具預(yù)測影響力的因素（學(xué)習(xí)時(shí)間），但被給予更長推理時(shí)間時(shí)，模型則轉(zhuǎn)向其他關(guān)聯(lián)性較低的因素。

企業(yè)AI部署須了解推理模型的局限性

這項(xiàng)研究的出爐，恰逢各大科技企業(yè)競相在AI系統(tǒng)中開發(fā)日益復(fù)雜的推理能力。OpenAI的o1模型家族及其他“以推理為重點(diǎn)”的模型，代表著業(yè)界正在測試時(shí)計(jì)算擴(kuò)展中投入重大資源。

然而，研究結(jié)果表明簡單擴(kuò)展方法可能無法帶來預(yù)期收益，反而引發(fā)新的潛在風(fēng)險(xiǎn)?！拔覀兊难芯勘砻?，必須認(rèn)真評估不同推理長度對于識別和解決大推理模型中故障模式的影響?！?/p>

此前的研究已經(jīng)發(fā)現(xiàn)，AI的能力擴(kuò)展并不一定具備可預(yù)測性。該團(tuán)隊(duì)引用了旨在挑戰(zhàn)先進(jìn)模型的基準(zhǔn)測試BIG-Bench Extra Hard，并指出在現(xiàn)有基準(zhǔn)測試中“最先進(jìn)的模型在許多任務(wù)中取得了近乎完美的成績”，因此必須找到更為可靠的評估方法。

對企業(yè)用戶而言，這項(xiàng)研究強(qiáng)調(diào)了在生產(chǎn)環(huán)境中部署AI系統(tǒng)前，應(yīng)當(dāng)在不同推理場景及時(shí)間限制下進(jìn)行認(rèn)真測試。組織可能需要開發(fā)出更細(xì)致的方法來分配算力，而非簡單拉長處理時(shí)間。

從更廣泛的層面來看，隨著AI系統(tǒng)變得越來越復(fù)雜，算力投入與性能之間的關(guān)系可能比我們之前理解的要更為復(fù)雜。在這個(gè)投入數(shù)十億美元以提升推理能力的領(lǐng)域，Anthropic的研究不啻于敲響了警鐘，提醒我們AI最大的敵人也許不是算力不足、而是過度思考。

原文標(biāo)題：??Anthropic researchers discover the weird AI problem: Why thinking longer makes models dumber?，作者：Michael Nu?ez

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

AI系統(tǒng)

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

回復(fù)

相關(guān)推薦

2024年的百度大模型，離「錢」越來越近

liutao988 ? 3987瀏覽 ? 0回復(fù)
Scaling Law被證偽，谷歌研究人員實(shí)錘研究力挺小模型更高效，不局限于特定采樣技術(shù)！

51CTO技術(shù)棧 ? 4463瀏覽 ? 0回復(fù)
時(shí)間序列預(yù)測近期核心研究點(diǎn)總結(jié)

海因斯DK ? 6321瀏覽 ? 0回復(fù)
模型崩潰！泛濫的AI會反噬自身！牛津大學(xué)研究發(fā)現(xiàn)：用AI生成數(shù)據(jù)來二次訓(xùn)練大模型會產(chǎn)生無意義的內(nèi)容！

51CTO技術(shù)棧 ? 3698瀏覽 ? 0回復(fù)
麻省理工研究團(tuán)隊(duì)革新科學(xué)研究方式,通過多智能體智能圖推理實(shí)現(xiàn)科學(xué)發(fā)現(xiàn)自動化

xuxiangda ? 6306瀏覽 ? 0回復(fù)
大語言模型中自我發(fā)現(xiàn)的蘇格拉底方法

AIGC最前線 ? 4306瀏覽 ? 0回復(fù)
NeurIPS'24：針對時(shí)序預(yù)測中時(shí)間戳特征的研究

海因斯DK ? 5437瀏覽 ? 0回復(fù)
Kaggle大模型競賽優(yōu)勝方案總結(jié)與思考

arnoldzhw ? 5522瀏覽 ? 0回復(fù)
再談大模型向量，由向量檢索引起的思考

AI探索時(shí)代 ? 3509瀏覽 ? 0回復(fù)
微軟研究人員發(fā)布 AIOpsLab：面向 AIOps 代理的開源綜合人工智能框架

Halo咯咯 ? 3627瀏覽 ? 0回復(fù)
面向開發(fā)人員的 ChatGPT 提示工程

sulu637 ? 4245瀏覽 ? 0回復(fù)
奇奇怪怪的研究：RAG 如何提升 ASR 效果的研究

芝士AI吃魚 ? 4183瀏覽 ? 0回復(fù)
專門針對時(shí)間序列分類任務(wù)的時(shí)序大模型

海因斯DK ? 7169瀏覽 ? 0回復(fù)
別讓大模型想太多了，過度思考會影響性能

Aceryt ? 2805瀏覽 ? 0回復(fù)
融合語言模型的多模態(tài)大模型研究

zhcs333 ? 3524瀏覽 ? 0回復(fù)
對技術(shù)人員的一種勸告——關(guān)于技術(shù)至上的思考

AI探索時(shí)代 ? 1760瀏覽 ? 0回復(fù)
背后研究人員曝光！奧特曼：感受AGI！VibePPT將至，Manus曬對比測評

51CTO技術(shù)棧 ? 1654瀏覽 ? 0回復(fù)
大語言模型的關(guān)機(jī)抵抗現(xiàn)象

sbf_2000 ? 825瀏覽 ? 0回復(fù)
AI圈驚現(xiàn)“上下文崩潰”：為何模型越學(xué)越笨，斯坦福最新框架ACE給出答案

草臺AI ? 1369瀏覽 ? 0回復(fù)

51CTO內(nèi)容精選

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

如何使用n8n構(gòu)建AI工作流 10分鐘前發(fā)布
RAS 革命：從 RAG 到結(jié)構(gòu)化知識增強(qiáng)，破解 LLM 短板的新范式 2天前發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

別再怪AI“聽不懂人話”了，90%的返工和錯(cuò)誤，都錯(cuò)在你下達(dá)指令的第一句話 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢 0回復(fù)

關(guān)于RAG系統(tǒng)在多輪對話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復(fù)

上一篇：代理型人工智能終將取代傳統(tǒng)數(shù)據(jù)分析師嗎？

下一篇：如何在體育數(shù)據(jù)分析中使用機(jī)器學(xué)習(xí)？

社區(qū)精華內(nèi)容

目錄

<wbr id="z6jtf"><var id="z6jtf"><th id="z6jtf"></th></var></wbr>

<abbr id="z6jtf"></abbr>

<blockquote id="z6jtf"><dfn id="z6jtf"></dfn></blockquote>

<acronym id="z6jtf"></acronym>