OpenAI最強對手出現(xiàn)!馬斯克發(fā)布Grok-4,性能碾壓Claude 4兩倍! 精華
就在半小時前,馬斯克的Grok4終于正式發(fā)布了。
Grok3.5跳票。老馬的直播還遲到1h也是沒誰了,全世界都被耍猴。
最貴版本,300美刀,可以思考大幾十分鐘,一般人也用不上。
直播表示,Grok-4“能夠進行超人級別的推理”(It can reason at a superhuman level!),并且在多項高難度基準測試上實現(xiàn)了對現(xiàn)有頂尖模型的碾壓。
Artificial Analysis 獲得早期訪問權限并發(fā)布了 Grok 4 基準測試,數(shù)據(jù)著實恐怖。
今天的循環(huán)回到了XAI~
比所有研究生都聰明
馬斯克表示:“Grok-4幾乎在所有學科上都比人類研究生更聰明?!?/p>
繼續(xù)延續(xù)上一代的闊氣:
- Grok-4的訓練量是Grok 2的100倍。
- 在強化學習(RL)階段投入的算力,是市面上其他任何模型的10倍以上。
xAI認為,可靠的信號是強化學習成功的關鍵,而他們已經找到了讓模型在智能上實現(xiàn)巨大飛躍的路徑。
橫掃頂級推理基準,完勝Claude 4
Grok-4在多個被認為是衡量模型推理能力“天花板”的基準上,交出了一份近乎完美的答卷。
- AIME數(shù)學競賽滿分:在AIME25數(shù)學競賽上,Grok-4拿下了滿分!這是對模型邏輯推理和數(shù)學能力的終極考驗。但是圖畫的很漂亮,滿分是調用工具的結果,o3+工具也接近滿分。
- ARC-AGI基準翻倍:在私有的AGI能力測試集ARC-AGI v2上,Grok-4成為了首個突破10%門檻的模型,得分高達15.9%,是第二名Claude Opus 4的兩倍還多。
- Vending Bench奪魁:在另一個衡量復雜任務解決能力的Vending Bench上,Grok-4同樣取得第一,凈值是Claude Opus 4的兩倍。
馬斯克:“AI的終極推理測試,是在現(xiàn)實世界中運行。而這些數(shù)據(jù)表明,Grok-4正朝著解決真實、復雜問題的通用智能體方向大步邁進?!?/p>
更強的Agent能力與未來規(guī)劃
- 原生工具調用:Grok-4具備了原生的工具調用能力,這使其Agent形態(tài)的性能得到顯著提升。
- API與上下文:模型將通過xAI API提供,擁有256K的上下文窗口,并支持實時數(shù)據(jù)搜索。
- 多模態(tài)能力:除了文本,Grok-4在語音和視頻理解方面也進行了重點改進,語音交互速度提升2倍,為構建更強大的多模態(tài)智能體鋪平了道路。
關于下一步,xAI的目標非常明確:更快、更智能。編程(Coding)和更強大的多模態(tài)Agent將是接下來的核心焦點。
網友初步實測
天氣卡片是簡陋的。
寫文是低能的。
做題對了~
本文轉載自????探索AGI????,作者:獼猴桃
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦