偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Grok4跑分曝光:「人類最后考試」拿下45%,是Gemini 2.5兩倍,但網(wǎng)友不信

人工智能 新聞
馬斯克搭帳篷熬夜開發(fā)有效果了?這么高跑分,還不發(fā)布。

剛剛,Grok 4 和 Grok 4 Code 的基準測試結果疑似泄露。

X 博主 @legit_api 發(fā)帖稱,Grok 4 在 HLE(Humanities Last Exam,人類最后考試)上的標準得分是 35%,使用推理技術后提高到 45%;在 GPQA 上的得分是 87-88%;而Grok 4 Code 在 SWE Bench 上的得分則達到 72-75%。

image.png

這個跑分結果意味著什么?有網(wǎng)友將其與 OpenAI o3 和 Claude Opus 4 等競爭模型進行了對比。

Grok 4 在 HLE 上的標準得分約為 35%,使用推理技術后提升至 45%,最強成績比 OpenAI o3 的公開得分高出一倍,是 Claude 4 Opus 的四倍多。要知道 HLE 是一個自由回答測試,隨機猜測準確率僅約 5%,因此每個百分點的提升都非常困難。

在 GPQA(研究生級物理和天文學問題)上,Grok 4 得分 87-88%,與 OpenAI o3 的頂級表現(xiàn)相當,并明顯超過 Claude 4 Opus 的 79.6%。

Grok 4 在 AIME '25(2025 年美國數(shù)學奧賽)上得分 95%,遠超  Claude 4 Opus 的 75.5%,并略優(yōu)于 OpenAI o3 的 80-90%(取決于思維模式)。

此外,Grok 4 Code 在 SWEBench 的得分與 Claude 4 Opus 的 72.5% 相差不大,略高于 OpenAI o3。而在 Terminal-Bench 上,Claude 4 Opus 領先,得分 43.2%,xAI 尚未發(fā)布 Grok-4 的相關數(shù)據(jù)。

其中,網(wǎng)友討論最多的就是 Grok 4 在 HLE 上達到了驚人的 45%,幾乎是 Gemini 2.5 Pro 成績的兩倍。如果泄露的測試結果屬實,那么意味著 Grok 4 通過了 AI 基準測試中最艱難的一關。

image.png

還有網(wǎng)友建議關注「標準」得分,認為這是公開模型的基準,推理得分可能涉及實驗性配置。

不過,也有網(wǎng)友表示質疑,認為 Grok 4 的 HLE 分數(shù)不太可能這么高,這里面肯定有問題。

image.png

該網(wǎng)友給出的理由是,上次 xAI 報告了其他模型使用單次嘗試的結果,但對自己的模型卻使用了不同的報告方法。

image.png

@legit_api 回復稱,這些數(shù)字是真實的,但我們不知道配置。

image.png

有網(wǎng)友總結道,目前 Grok 4 泄露出來的所有基準成績,除了 HLE 以外,其他的看起來似乎還算「合理」。不過 HLE 能跑到這么高分又應該如何解釋呢?畢竟這個基準中包含很多晦澀難懂的信息檢索。

或許一切都要等待模型正式發(fā)布才能有答案了。

其實早在 7 月 1 日,外媒 TestingCatalog 就發(fā)文爆料,Grok 4 系列模型的相關信息在 xAI 開發(fā)者中控臺網(wǎng)站上泄露,包括旗艦模型 Grok 4 和編程模型 Grok 4 Code。

image.png

截圖顯示,Grok 4 僅支持文本模式,視覺、圖像生成及其他功能即將推出。Grok4 支持約 13 萬 tokens 上下文窗口,較許多競爭對手的前沿模型要小,這可能表明 xAI 在優(yōu)化推理速度和實時可用性,而非追求最大化的長上下文性能。從功能上來看,Grok 4 將包括函數(shù)調用、結構化輸出和推理能力。

還有網(wǎng)友扒出了 xAI 開發(fā)者中控臺的源代碼,這些代碼顯示,Grok 4 是一個在自然語言、數(shù)學和推理方面「擁有無可匹敵的能力」的通才模型,并在當?shù)貢r間 6 月 29 日完成了訓練,其標語為「Think Bigger and Smarter」。

image.png

截圖還顯示,Grok 4 Code 則是一款專為編程設計的模型,用戶可以直接向它提問代碼問題,也可以直接嵌入代碼編輯器中。

image.png

上個星期,馬斯克在推文中表示,他正「通宵達旦地開發(fā) Grok 4」,模型開發(fā)「進展良好」但仍需進行「最后一次大規(guī)模訓練」,特別是在專門代碼模型方面。為了這一目標,從上月底開始,馬斯克帶頭在辦公室內(nèi)支起帳篷睡覺,以全身心投入工作。

X 的工程師還出面回應了一下帳篷的問題。

tent.png

生成式 AI,都卷到這種地步了?

泄露的分數(shù)不僅刺激了廣大網(wǎng)友的小心臟,也在刺激著眾多 AI 科技公司。馬斯克今天雖然沒有如之前預測的那樣「官宣」Grok 4 開源,但表示推特上的 Grok 功能有了明顯的提升。

elon musk.png

有網(wǎng)友為此專門去問了 Grok,它認為 7 月更新是 Grok 4,但不完整。

image.png

再加上 Benchmark 成績已經(jīng)曝光,或許 Grok 4 過幾天就要正式發(fā)布了。

如果成績屬實,不管是架構的創(chuàng)新還是規(guī)模的擴展,Grok 都將推動一波 AI 大模型的發(fā)展,讓我們拭目以待。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2012-07-12 10:46:39

微軟

2025-04-01 09:17:00

2015-06-18 11:14:02

AndroidiOS應用下載

2015-12-07 09:23:13

PHP 7速度正式發(fā)布

2024-04-08 18:55:54

RustC++開發(fā)

2024-04-16 12:15:42

AI模型

2025-04-10 06:16:33

2025-06-04 04:25:00

Claude 4ChatGPT o3模型

2021-03-17 07:30:52

JavaARM騰訊

2014-04-10 11:27:30

DartDart SDK

2010-05-24 10:58:19

2025-07-02 14:42:03

AI代碼模型

2012-05-03 08:15:22

索尼

2025-07-03 08:50:20

2015-08-03 17:21:26

APP

2025-03-26 08:39:03

2009-08-21 18:55:59

Windows 7市場份額

2023-05-26 09:57:41

物聯(lián)網(wǎng)IOT

2019-08-06 14:48:47

軟件PowerPoint電腦

2009-06-03 09:16:54

FirefoxMozilla瀏覽器
點贊
收藏

51CTO技術棧公眾號