偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Grok4跑分曝光：「人類最后考試」拿下45%，是Gemini 2.5兩倍，但網(wǎng)友不信

2025-07-07 08:58:00

人工智能新聞

馬斯克搭帳篷熬夜開發(fā)有效果了？這么高跑分，還不發(fā)布。

剛剛，Grok 4 和 Grok 4 Code 的基準測試結(jié)果疑似泄露。

X 博主 @legit_api 發(fā)帖稱，Grok 4 在 HLE（Humanities Last Exam，人類最后考試）上的標準得分是 35%，使用推理技術(shù)后提高到 45%；在 GPQA 上的得分是 87-88%；而Grok 4 Code 在 SWE Bench 上的得分則達到 72-75%。

這個跑分結(jié)果意味著什么？有網(wǎng)友將其與 OpenAI o3 和 Claude Opus 4 等競爭模型進行了對比。

Grok 4 在 HLE 上的標準得分約為 35%，使用推理技術(shù)后提升至 45%，最強成績比 OpenAI o3 的公開得分高出一倍，是 Claude 4 Opus 的四倍多。要知道 HLE 是一個自由回答測試，隨機猜測準確率僅約 5%，因此每個百分點的提升都非常困難。

在 GPQA（研究生級物理和天文學(xué)問題）上，Grok 4 得分 87-88%，與 OpenAI o3 的頂級表現(xiàn)相當(dāng)，并明顯超過 Claude 4 Opus 的 79.6%。

Grok 4 在 AIME '25（2025 年美國數(shù)學(xué)奧賽）上得分 95%，遠超 Claude 4 Opus 的 75.5%，并略優(yōu)于 OpenAI o3 的 80-90%（取決于思維模式）。

此外，Grok 4 Code 在 SWEBench 的得分與 Claude 4 Opus 的 72.5% 相差不大，略高于 OpenAI o3。而在 Terminal-Bench 上，Claude 4 Opus 領(lǐng)先，得分 43.2%，xAI 尚未發(fā)布 Grok-4 的相關(guān)數(shù)據(jù)。

其中，網(wǎng)友討論最多的就是 Grok 4 在 HLE 上達到了驚人的 45%，幾乎是 Gemini 2.5 Pro 成績的兩倍。如果泄露的測試結(jié)果屬實，那么意味著 Grok 4 通過了 AI 基準測試中最艱難的一關(guān)。

還有網(wǎng)友建議關(guān)注「標準」得分，認為這是公開模型的基準，推理得分可能涉及實驗性配置。

不過，也有網(wǎng)友表示質(zhì)疑，認為 Grok 4 的 HLE 分數(shù)不太可能這么高，這里面肯定有問題。

該網(wǎng)友給出的理由是，上次 xAI 報告了其他模型使用單次嘗試的結(jié)果，但對自己的模型卻使用了不同的報告方法。

@legit_api 回復(fù)稱，這些數(shù)字是真實的，但我們不知道配置。

有網(wǎng)友總結(jié)道，目前 Grok 4 泄露出來的所有基準成績，除了 HLE 以外，其他的看起來似乎還算「合理」。不過 HLE 能跑到這么高分又應(yīng)該如何解釋呢？畢竟這個基準中包含很多晦澀難懂的信息檢索。

或許一切都要等待模型正式發(fā)布才能有答案了。

其實早在 7 月 1 日，外媒 TestingCatalog 就發(fā)文爆料，Grok 4 系列模型的相關(guān)信息在 xAI 開發(fā)者中控臺網(wǎng)站上泄露，包括旗艦?zāi)Ｐ?Grok 4 和編程模型 Grok 4 Code。

截圖顯示，Grok 4 僅支持文本模式，視覺、圖像生成及其他功能即將推出。Grok4 支持約 13 萬 tokens 上下文窗口，較許多競爭對手的前沿模型要小，這可能表明 xAI 在優(yōu)化推理速度和實時可用性，而非追求最大化的長上下文性能。從功能上來看，Grok 4 將包括函數(shù)調(diào)用、結(jié)構(gòu)化輸出和推理能力。

還有網(wǎng)友扒出了 xAI 開發(fā)者中控臺的源代碼，這些代碼顯示，Grok 4 是一個在自然語言、數(shù)學(xué)和推理方面「擁有無可匹敵的能力」的通才模型，并在當(dāng)?shù)貢r間 6 月 29 日完成了訓(xùn)練，其標語為「Think Bigger and Smarter」。

截圖還顯示，Grok 4 Code 則是一款專為編程設(shè)計的模型，用戶可以直接向它提問代碼問題，也可以直接嵌入代碼編輯器中。

上個星期，馬斯克在推文中表示，他正「通宵達旦地開發(fā) Grok 4」，模型開發(fā)「進展良好」但仍需進行「最后一次大規(guī)模訓(xùn)練」，特別是在專門代碼模型方面。為了這一目標，從上月底開始，馬斯克帶頭在辦公室內(nèi)支起帳篷睡覺，以全身心投入工作。

X 的工程師還出面回應(yīng)了一下帳篷的問題。

生成式 AI，都卷到這種地步了？

泄露的分數(shù)不僅刺激了廣大網(wǎng)友的小心臟，也在刺激著眾多 AI 科技公司。馬斯克今天雖然沒有如之前預(yù)測的那樣「官宣」Grok 4 開源，但表示推特上的 Grok 功能有了明顯的提升。

elon musk.png

有網(wǎng)友為此專門去問了 Grok，它認為 7 月更新是 Grok 4，但不完整。

再加上 Benchmark 成績已經(jīng)曝光，或許 Grok 4 過幾天就要正式發(fā)布了。

如果成績屬實，不管是架構(gòu)的創(chuàng)新還是規(guī)模的擴展，Grok 都將推動一波 AI 大模型的發(fā)展，讓我們拭目以待。

責(zé)任編輯：張燕妮來源：機器之心

Grok4 模型 AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<thead id="6huwp"><option id="6huwp"></option></thead>

<p id="6huwp"></p><samp id="6huwp"></samp>

<tt id="6huwp"></tt>