偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

訂閱費300刀,值嗎?馬斯克發(fā)布Grok 4登頂SOTA!一項突破上大分:訓(xùn)練階段就教AI用工具! 原創(chuàng)

發(fā)布于 2025-7-10 15:53
瀏覽
0收藏

編輯 | 伊風(fēng)

馬斯克,又雙叒叕意料之中地遲到了。

Grok 4 原定的直播足足晚了一個小時,馬老板終于姍姍來遲,開始了這場發(fā)布會。

訂閱費300刀,值嗎?馬斯克發(fā)布Grok 4登頂SOTA!一項突破上大分:訓(xùn)練階段就教AI用工具!-AI.x社區(qū)圖片

更加推遲上線的,則是大家原以為會同步上線的編程模型 Grok 4 Code —— 直接鴿到下個月發(fā)布,讓人有些小失望。

不過,接下來的幾個月,xAI 還將陸續(xù)推出一款多模態(tài)智能體,以及一款具備視頻理解與生成能力的綜合模型??梢哉f從7月到10月,Grok 4家族都持續(xù)有大動作出來,值得期待。

訂閱費300刀,值嗎?馬斯克發(fā)布Grok 4登頂SOTA!一項突破上大分:訓(xùn)練階段就教AI用工具!-AI.x社區(qū)圖片

回到這場直播,Grok 4 成為了絕對的主角。

本次共發(fā)布兩款模型:

  • Grok 4
  • Grok 4 Heavy:xAI 稱其為“多智能體版本”,多個 Grok 4 協(xié)同工作,性能進(jìn)一步提升。

“Grok 4 是全球最強大的 AI 模型?!?/p>

 馬斯克在直播中說:“它在所有學(xué)科上的學(xué)術(shù)水平都超過博士,無一例外。如果到明年 Grok 還沒發(fā)現(xiàn)點新的科學(xué)知識,我會感到很驚訝?!?/p>

Grok 4 Heavy 在列出的各項學(xué)術(shù)基準(zhǔn)測試中全面登頂,拿下 SOTA。

訂閱費300刀,值嗎?馬斯克發(fā)布Grok 4登頂SOTA!一項突破上大分:訓(xùn)練階段就教AI用工具!-AI.x社區(qū)圖片

價格也拉開了差距:

  • 普通版(Grok 4)為 每月 30 美元
  • 超大杯(Grok 4 Heavy)則高達(dá) 每月 300 美元!

訂閱費300刀,值嗎?馬斯克發(fā)布Grok 4登頂SOTA!一項突破上大分:訓(xùn)練階段就教AI用工具!-AI.x社區(qū)圖片

整場直播的演示環(huán)節(jié)不像上次Grok 3的發(fā)布如此密集。

但仍然有些“整活”環(huán)節(jié),讓人印象十分深刻!首先,就是為了展示Grok的語音交互能力,直接在直播里“拉踩”了OpenAI的4o,從下面這個演示里可以看到Grok的助手“伊芙”反應(yīng)更迅速、語氣更自然。

訂閱費300刀,值嗎?馬斯克發(fā)布Grok 4登頂SOTA!一項突破上大分:訓(xùn)練階段就教AI用工具!-AI.x社區(qū)

而另一個點,則是此前Grok 3發(fā)布時馬斯克就心心念念的AI手搓電子游戲。

到了Grok 4 AI已經(jīng)做的非常像模像樣了,馬斯克預(yù)計明年就有成熟的大型游戲能跑出來:

訂閱費300刀,值嗎?馬斯克發(fā)布Grok 4登頂SOTA!一項突破上大分:訓(xùn)練階段就教AI用工具!-AI.x社區(qū)圖片

1.碾壓一切的基準(zhǔn)成績——這不就是 AGI?

當(dāng) Grok 4 的基準(zhǔn)成績鋪天蓋地刷屏后,網(wǎng)友們幾乎給出了統(tǒng)一的結(jié)論:

這不就略等于是 AGI了嗎?

從官方發(fā)布的測試結(jié)果來看,Grok 4 在多個標(biāo)桿級任務(wù)中全面碾壓對手,毫無懸念地登頂各項榜單,成為當(dāng)前最強的 SOTA 模型。

訂閱費300刀,值嗎?馬斯克發(fā)布Grok 4登頂SOTA!一項突破上大分:訓(xùn)練階段就教AI用工具!-AI.x社區(qū)圖片

比如在 AI 社區(qū)關(guān)注的 Artificial Analysis 綜合測評中,Grok 從上代的 67 分,躍升至 73 分,實現(xiàn)了明顯的跨代突破。

訂閱費300刀,值嗎?馬斯克發(fā)布Grok 4登頂SOTA!一項突破上大分:訓(xùn)練階段就教AI用工具!-AI.x社區(qū)圖片

而在ARC-AGI基準(zhǔn)中,Grok 4也直接飛升,將一眾對手遠(yuǎn)遠(yuǎn)甩在后面。

這項測試的難度在于,它不是傳統(tǒng)的問答題,而是要求 AI 具備圖形推理、模式識別等“類人類直覺”能力,被視為檢驗“是否具備 AGI 潛力”的試金石。

訂閱費300刀,值嗎?馬斯克發(fā)布Grok 4登頂SOTA!一項突破上大分:訓(xùn)練階段就教AI用工具!-AI.x社區(qū)圖片

而在外界稱為“人類最后一場考試”(Humanity’s Last Exam)的評估中,Grok 4 Heavy 更是以 44.4% 的高分拔得頭籌,遠(yuǎn)超 Gemini 和 OpenAI 的 o3 模型。

訂閱費300刀,值嗎?馬斯克發(fā)布Grok 4登頂SOTA!一項突破上大分:訓(xùn)練階段就教AI用工具!-AI.x社區(qū)圖片

甚至在 Claude 曾參與過的“售貨機模擬商戰(zhàn)”實驗中,Grok 也橫空出世,成為最會賺錢的 AI 商人:

  • 最終凈利潤是 Claude 的兩倍多
  • 執(zhí)行時長更長

之所以有這么出色的戰(zhàn)績,是因為Grok 4能有效地制定策略,并在長時間內(nèi)保持一致性。

他們還提了一個超級瘋狂的計劃:如果有辦法把GPU的成本打下來。就可以嘗試搞一百萬臺自動售貨機,然后穩(wěn)穩(wěn)賺47億美元。。。

值得一提的是,Grok 4和Claude 4都超過了人類的經(jīng)商水平。

訂閱費300刀,值嗎?馬斯克發(fā)布Grok 4登頂SOTA!一項突破上大分:訓(xùn)練階段就教AI用工具!-AI.x社區(qū)圖片

不過,面對如此夢幻的數(shù)據(jù),我們也不能全然“上頭”,還是可以潑一點冷水:

首先,官方數(shù)據(jù)可能具備一些水分。例如,據(jù)此前披露,Grok 3 的部分成績采用了consensus@64”的方式,也就是一題跑 64 次,挑最好的結(jié)果出來展示——而對比模型則大多是“一次跑完”的標(biāo)準(zhǔn)流程,這顯然是個有些討巧的“刷榜”策略。

所以,Grok 4 的實際能力還需要權(quán)威的獨立榜單來進(jìn)一步驗證,建議大家蹲蹲民間榜單,綜合評估。

此外,這次 Grok 4 能打得這么猛,也離不開一個“外掛”:

 它已經(jīng)掌握了調(diào)用工具(tools)的能力 —— 不再是光靠語言模型硬算,而是能外接計算器、搜索器、甚至模擬瀏覽網(wǎng)頁??磥?,模型即Agent也是一個大趨勢。

2.訓(xùn)練飛躍:首次在訓(xùn)練階段引入工具使用

在 Grok 4 的訓(xùn)練過程中,xAI 做出了一項意義重大的突破:首次在訓(xùn)練階段就引入了工具使用機制。不再僅依賴語言模型自身的泛化能力,而是讓模型從一開始就學(xué)會如何調(diào)用搜索引擎、計算器等外部工具來完成任務(wù)。

這不僅是方法上的革新,更帶來了量級上的性能飛躍。

這個操作到底有多猛?看看下面這張圖就懂了——

訂閱費300刀,值嗎?馬斯克發(fā)布Grok 4登頂SOTA!一項突破上大分:訓(xùn)練階段就教AI用工具!-AI.x社區(qū)圖片

可以說,在“工具使用”這件事上,Grok 4 的可靠性和表現(xiàn)已經(jīng)把前幾代模型遠(yuǎn)遠(yuǎn)甩在身后。

而且,也有眼尖的網(wǎng)友發(fā)現(xiàn),Grok 4 heavy之后,性能還有上升空間。據(jù)爆料說,xAI內(nèi)部還有更強的模型因為成本問題沒有發(fā)布!

訂閱費300刀,值嗎?馬斯克發(fā)布Grok 4登頂SOTA!一項突破上大分:訓(xùn)練階段就教AI用工具!-AI.x社區(qū)圖片

不過,團隊也坦言,目前 Grok 使用的工具仍然比較原始。如果拿它與 Tesla 或 SpaceX 等工業(yè)場景中的工程工具相比,比如精密的物理模擬和有限元分析系統(tǒng),它還遠(yuǎn)遠(yuǎn)不夠。但馬斯克明確表示,今年晚些時候,xAI 將為 Grok 接入這些“真正的商業(yè)級工具鏈”,讓它具備解決現(xiàn)實科技問題的能力。

而馬斯克也提出,終極形態(tài)是將 Grok 與 Optimus(人形機器人)結(jié)合,實現(xiàn) AI 主動感知并操作現(xiàn)實世界。

一旦模型擁有了物理交互能力,它就可以自己“動手試驗”、修正假設(shè)、驗證反饋。換句話說,AI 不只是坐在云端思考,而是走進(jìn)現(xiàn)實世界動手改造它。這將給整個 AI 硬件生態(tài)帶來顛覆性的沖擊。

在Grok他們看來,通向 AGI 的路徑,已經(jīng)不再是“算力夠不夠”這么簡單的問題,而是一個“算力 + 工具 + 實體交互能力”三位一體的大模型工程。

而馬斯克也展望說一旦AI具備了該項能力,將引爆一個數(shù)千倍甚至百萬倍規(guī)模的新經(jīng)濟體。

3.寫在最后:Gemini 3、GPT-5都在路上了

雖然 Grok 4 的發(fā)布引發(fā)熱議,但戰(zhàn)局遠(yuǎn)未塵埃落定。

據(jù)X上的網(wǎng)友爆料,Gemini 3 很快就要登場了。谷歌最近的迭代速度真的既快又狠,眼見要成為領(lǐng)跑者了。

訂閱費300刀,值嗎?馬斯克發(fā)布Grok 4登頂SOTA!一項突破上大分:訓(xùn)練階段就教AI用工具!-AI.x社區(qū)圖片

而根據(jù)奧特曼此前的透露,GPT-5 將在今夏發(fā)布,照這個節(jié)奏,接下來一到兩個月內(nèi),大模型圈還會有更多炸點。

有網(wǎng)友說得很形象:

 “哪有什么AI撞墻期?根本看不到墻在哪里!” 

你看好今天發(fā)布的Grok 4嗎?

或者,你覺得下個最令人期待的大模型會是哪一家推出的?評論區(qū)聊聊你的觀點。

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:伊風(fēng)


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦