偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Anthropic聯(lián)創(chuàng):Scaling Law沒崩,但推理成天價!有了TTT,2025年AI更加速

人工智能 新聞
Anthropic聯(lián)創(chuàng)發(fā)文表示,誰要是說Scaling Law撞墻了,那他絕對錯了!在25年,AI靠測試時計算還會繼續(xù)加速。不過,隨之而來的推理成本也是天價,o3的每個任務(wù)成本高達20美元,怎么辦?

Scaling Law要撞墻了?

Anthropic聯(lián)創(chuàng)Jack Clark反駁了這一說法:絕非如此!

在他看來,目前的AI發(fā)展還遠遠沒到極限,「所有告訴你AI進展正在放緩,或者Scaling Law正在撞墻的人,都是錯誤的?!?/span>

圖片

o3仍有很大的增長空間,但采用了不同的方法。

OpenAI的技術(shù)秘訣并不是讓模型變得更大,而是讓它們在運行時,使用強化學(xué)習(xí)和額外的計算能力。

這種「大聲思考」的能力,為Scaling開辟了全新的可能性。

而Jack Clark預(yù)計,這一趨勢在2025年還會加速,屆時,科技公司都會開始將大模型的傳統(tǒng)方法跟在訓(xùn)練和推理時使用計算的新方法相結(jié)合。

這個論斷,跟OpenAI首次推出o系列模型時的說法完全吻合了。

在同一時間,MIT的研究者也發(fā)現(xiàn),采用測試時訓(xùn)練(TTT)技術(shù),能顯著提高LLM進行邏輯推理和解決問題的能力。

圖片

論文地址:https://ekinakyurek.github.io/papers/ttt.pdf

Scaling Law撞墻,絕對錯了

在他的新聞通訊《Import AI》中,Clark對關(guān)于AI發(fā)展已到達瓶頸的觀點進行了反駁。

圖片

博文地址:https://jack-clark.net/

比如OpenAI的o3模型,就證明了AI極大的發(fā)展空間。

在現(xiàn)有強大基礎(chǔ)模型之上,采用一種新方法——讓大語言模型在推理時「邊思考邊執(zhí)行」,即測試時計算(test-time compute)。這種方式能帶來巨大的回報。

因此Clark預(yù)計,下一個合理的發(fā)展方向?qū)⑹峭瑫r擴展強化學(xué)習(xí)(RL)和底層基礎(chǔ)模型,這將帶來更為顯著的性能提升。

這意味著,隨著現(xiàn)有方法(大模型scaling)與新方法(強化學(xué)習(xí)驅(qū)動的測試時計算等)的結(jié)合,2025年的AI進展相對2024年會進一步加速。

OpenAI著名研究員Jason Wei也表示,更加關(guān)鍵的是,從o1到o3的進步也僅僅只用了3個月,這說明了在推動人工智能領(lǐng)域發(fā)展方面來講,強化學(xué)習(xí)驅(qū)動的推理擴展計算范式,會比預(yù)訓(xùn)練基礎(chǔ)模型的傳統(tǒng)擴展范式快得多。

圖片

這并非空談,Clark列舉了不少o3的亮眼成績來證明他的觀點。

首先,o3有效突破了「GPQA」科學(xué)理解基準(zhǔn)(88%),這彰顯了它在科學(xué)領(lǐng)域進行常識推理和解答的能力。

它在「ARC-AGI」這一任務(wù)上的表現(xiàn)優(yōu)于亞馬遜眾包平臺(MTurk)雇傭的人類工作者。

甚至,o3在FrontierMath上達到了25%的成績——這是一個由菲爾茲獎得主設(shè)計的數(shù)學(xué)測試,就在幾個月前,SOTA的成績僅為2%。

并且,在Codeforces上,o3獲得了2727分,排名第175。這讓它成為這一極其困難基準(zhǔn)上的最佳競技程序員之一。

模型成本將更難預(yù)測

Clark認(rèn)為,大多數(shù)人還沒有意識到未來進展的速度將會有多快。

「我認(rèn)為,基本上沒有人預(yù)見到——從現(xiàn)在開始,AI進展將會有多么急劇?!?/span>

同時,他也指出,算力成本是急速進展中的一個主要挑戰(zhàn)。

o3之所以如此優(yōu)秀,其中的一個原因是,它在推理時的運行成本更高。

o3的最先進版本需要的算力比基礎(chǔ)版多170倍,而基礎(chǔ)版的算力需求已經(jīng)超出了o1的需求,而o1本身所需的算力又超過了GPT-4。

圖片

o系列模型的性能與成本

Clark解釋說,這些基于推理擴展范式的新模型使得成本預(yù)測變得更加困難。

過去,模型的成本費用是很直觀的,主要取決于模型的大小和輸出長度。

但在o3這類模型中,由于其資源需求會根據(jù)具體任務(wù)的不同而變化,所以也更難直觀地給出模型執(zhí)行任務(wù)時的花費。

o3推理成本達新高

除了FrontierMath和Codeforces上的成績,o3在GPT Diamond Benchmar上,對于博士級的科學(xué)問題也拿到了87.7%,遠高于各自領(lǐng)域博士專家70%的平均分。

圖片

ARC-AGI基準(zhǔn)測試開發(fā)者、Keras之父Fran?ois Chollet,將o3的性能稱為「AI能力中令人驚訝且重要的階躍函數(shù)增長」

而這背后付出的代價,就是運行o3極高的成本。

之所以會造成如此高的成本,就是源于o3和其他模型處理問題方式的不同。

傳統(tǒng)的LLM主要依靠的是檢索存儲模式,但o3處理問題時,卻是靠實時創(chuàng)建新程序,來解決不熟悉的挑戰(zhàn)。

Chollet表示,o3系統(tǒng)的工作原理,似乎和谷歌DeepMind的AlphaZero國際象棋程序類似。后者會有條不紊地搜索可能的解決方案,直到找到正確方法。

圖片

這個過程也就解釋了,為什么o3需要如此多的算力——只為單個任務(wù),模型就需要處理多達3300萬個token。

跟當(dāng)前的AI系統(tǒng)相比,這種密集的token處理成本,簡直是天價!

高強度推理版本的每個任務(wù),運行費用約為20美元。

也就是說,100個測試任務(wù)的成本為2012美元,全套400個公共任務(wù)的成本則達到了6677美元(按平均每個任務(wù)花費17美元計算)。

而對于低強度推理版本,OpenAI尚未透露確切的成本,但測試顯示,此模型可以處理33至1.11億個token,每個任務(wù)需要約1.3分鐘的計算時間。

圖片

o3在ARC-AGI基準(zhǔn)測試中必須解決的視覺邏輯問題示例

等待Anthropic的下一步

所以,Anthropic下一步會給我們帶來什么呢?

目前,由于Anthropic尚未發(fā)布推理模型(reasoning model)或測試時模型(test-time model),來與OpenAI的o系列或Google的Gemini Flash Thinking競爭,Clark的這一番預(yù)測,不禁讓人好奇Anthropic的計劃。

他們之前宣布的Opus 3.5旗艦?zāi)P椭两袢詻]有確切消息。

開發(fā)周期長達一個月,過程充滿不確定性

在11月,Anthropic CEO Dario Amodei曾證實,公司正在開發(fā)Claude Opus的新版本。

起初,Opus 3.5定于今年發(fā)布,但后來Amodei再提到它時,只是說它會在「某個時刻」到來。

不過Amodei倒是透露,公司最近更新和發(fā)布的Haiku 3.5,性能已經(jīng)跟原始的Opus 3相匹敵,同時運行速度還更快,成本也更低。

圖片

其實,這也不僅僅是Anthropic面臨的問題。

自GPT-4亮相以來,LLM的功能并沒有取得重大飛躍,這種停滯已經(jīng)成為AI行業(yè)內(nèi)一種普遍的廣泛趨勢。

更多時候,新發(fā)布的模型只是微小的進步,跟之前有一些細(xì)微的差別。

開發(fā)更先進的LLM,為何如此復(fù)雜

在Lex Fridman的播客訪問中,Amodei詳細(xì)講述了開發(fā)這些AI模型的復(fù)雜性。

圖片

他表示,僅訓(xùn)練階段,就有可能會拖延數(shù)個月,還會需要大量的計算能力,用上數(shù)以萬計的專用芯片,如GPU或TPU。

預(yù)訓(xùn)練過后,模型將經(jīng)歷復(fù)雜的微調(diào)的過程,一個關(guān)鍵部分就是RLHF。

人類專家會煞費苦心地審查模型的輸出,根據(jù)不同標(biāo)準(zhǔn)對其進行評分,幫助模型學(xué)習(xí)和改進。

接下來,就是一系列內(nèi)部測試和外部審計,來檢查模型的安全問題,通常是與美國和英國的AI安全組織合作。

總之,Amodei總結(jié)道:雖然AI的突破在圈外人士看來,像一個巨大的科學(xué)飛躍,但其實很多進步都可以歸結(jié)為枯燥和無聊的技術(shù)細(xì)節(jié)。

在此過程中,最困難的部分通常是軟件開發(fā)、讓模型運行得更快,而不是重大的概念進步。

而且,每個新版本模型的「智能」和「個性」,也都會發(fā)生不可預(yù)測的變化。在他看來,正確訓(xùn)練模型與其說是一門科學(xué),不如說是一門藝術(shù)。

即使真正發(fā)布的Opus 3.5的性能有了提升,卻也不足以證明其高昂的運營成本是合理的。

不過,雖然有人認(rèn)為Anthropic沒有緊跟推理模型的步伐,已經(jīng)足以反映LLM擴展的巨大挑戰(zhàn);但不得不說,Opus 3.5也并非毫無意義。

顯然,它幫助訓(xùn)練了全新的Sonnet 3.5,它已經(jīng)成為了當(dāng)今市場上最受歡迎的LLM。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-12-16 07:15:00

2024-09-20 16:20:00

2024-11-11 14:00:00

AI模型

2024-11-11 17:35:11

2025-04-11 09:15:00

語言模型AI數(shù)據(jù)

2025-08-04 01:55:00

2024-09-29 13:07:16

2024-11-27 13:40:00

模型訓(xùn)練

2025-02-07 10:13:16

2025-03-17 09:25:00

AI模型谷歌

2025-05-30 01:30:00

Anthropic技巧AI

2025-07-10 11:23:24

AI工具產(chǎn)品

2024-03-29 06:39:43

2024-03-22 14:52:02

AI人工智能

2024-08-06 14:07:40

2024-11-14 18:40:57

2025-04-09 10:11:57

2024-11-13 15:00:42

2025-01-06 12:59:52

2020-02-21 14:15:40

SimpleDateFJava多線程
點贊
收藏

51CTO技術(shù)棧公眾號