偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

戰(zhàn)報:馬斯克Grok4笑傲AI象棋大賽,DeepSeek沒干過o4-mini,Kimi K2被喊冤

人工智能 新聞
Grok 4表現(xiàn)最佳,DeepSeek R1表現(xiàn)強勁,但不敵o4-mini,Kimi K2最慘——都讓網(wǎng)友喊冤了。

最新戰(zhàn)報最新戰(zhàn)報:首屆AI國際象棋對戰(zhàn)……馬斯克家的Grok 4“遙遙領(lǐng)先”了。

是的,谷歌給大模型整了個國際象棋比賽:Kaggle AI象棋競賽。

在首日對決之后,參賽選手中OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2 Instruct、Gemini 2.5 Pro和2.5 Flash、Claude Opus 4、Grok 4都有了第一輪較量,結(jié)果——

Grok 4表現(xiàn)最佳,DeepSeek R1表現(xiàn)強勁,但不敵o4-mini,Kimi K2最慘——都讓網(wǎng)友喊冤了。

圖片

眼見自家Grok 4表現(xiàn)出色,馬斯克當然不會錯過PR良機,不過回應(yīng)略顯凡爾賽:

我們沒有刻意去訓練,這只是一個副作用。

圖片

u1s1誰又能為這么個“無厘頭”比賽專門刻意訓練呢?

當然,讓AI對戰(zhàn)國際象棋,過程比輸贏重要多了,畢竟谷歌發(fā)起這次比賽的初衷,就是測試“涌現(xiàn)”能力。

首屆Kaggle AI國際象棋競賽

本次比賽由谷歌發(fā)布,作為推廣Kaggle游戲競技場的一個環(huán)節(jié)。首次比賽以國際象棋開始。

參賽“選手”包括OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2 Instruct、Gemini 2.5 Pro和2.5 Flash、Claude Opus 4、Grok 4。

8月5日至8月7日每天10:30(太平洋時間)準時直播賽況。

圖片

除了各個頂級模型的象棋對決,直播還邀請了國際象棋特技大師中村光(Hikaru Nakamura)作為講解。

他于7歲那年開始學習國際象棋,到15歲時成為全美國際象棋冠軍并拿到GM頭銜,也是本屆EWC國際象棋(迄今為止規(guī)模最大的國際象棋錦標賽)的季軍。

圖片

在一天的角逐后,目前挺入半決賽圈的是Gemini 2.5 Pro、Grok 4、ChatGPT的o4-mini和o3。

吃瓜群眾坐等看ChatGPT的o4-mini和o3的“內(nèi)斗”,以及Gemini 2.5 Pro對戰(zhàn)Grok 4。

圖片

并且,所有在八分之一決賽中的比賽都以完美的4-0結(jié)束。實力差距非常明顯。

網(wǎng)友們分析了這次賽況,表示Grok 4在這次基準測試中“在戰(zhàn)術(shù)策略和速度上超越了所有其他模型”。

圖片

可是等等,現(xiàn)在不是才八進四么?這么快就下結(jié)論了?

讓我們一起看看各模型的具體表現(xiàn),是什么讓網(wǎng)友作出了如此高的評價:

Grok 4 vs Gemini 2.5 Flash

Grok4如同猛獸, 它輕松的表現(xiàn)就像“真正的GM”一樣下棋,成為當天最佳。

另一方面,Gemini Flash從一開始就處于劣勢,包括開局時吃王。

圖片


OpenAI o4-mini vs DeepSeek R1

在OpenAI o4-mini對陣DeepSeek R1的賽程中,R1開局強勁,但最終輸給了o4-mini。

比賽中雙方都犯了不少錯誤,但o4-mini率先抓住了R1犯下的失誤。

R1提供的推理雖然自信卻錯誤,而且對棋盤局勢的缺乏洞察導致它留下了棋子給o4-mini率先拿走。

圖片


Gemini 2.5 Pro vs Claude Opus 4

這場Gemini 2.5 Pro和Claude Opus 4的對陣是當天最佳對局,兩個模型都展示了高水平的棋藝。

Claude出現(xiàn)一些失誤,而Gemini Pro展現(xiàn)了強大的戰(zhàn)術(shù)視野,但給出的分析有時過于冗長。

圖片

Kimi K2 對陣o3

這是最快的四分之一決賽,Kimi K2被“碾壓”,主要是因為它反復堅持走非法棋步,o3以棄權(quán)獲勝,沒有太多值得分析的表現(xiàn)。

不過也有人替Kimi鳴不平:因為Kimi不是推理模型,長思考才能有更好的性能,步驟越往后,越需要長思考。

圖片

為什么是國際象棋?

所以為什么要選國際象棋來讓AI對戰(zhàn)?

這么說吧,國際象棋規(guī)則明確但復雜度高(10^120種可能局面),是測試AI決策能力的理想場景。

雖然有網(wǎng)友會產(chǎn)生誤讀,認為它是“越大越優(yōu)”,但實際上,這個數(shù)字已經(jīng)遠超窮舉法的適用范疇。

圖片

前些時間,陶哲軒在Lex訪談中提到:有些數(shù)學問題無法直接通過暴力計算來解決。例如國際象棋排列的數(shù)量,我們至今無法用計算機完全解決,但我們現(xiàn)在有AI,它們不會探索博弈樹中的每個位置,而是尋求近似值。

圖片

換句話講,讓AI去下國際象棋,考驗的其實是AI的涌現(xiàn)能力。

有位網(wǎng)友也關(guān)注到了這點,并對這次Grok 4的表現(xiàn)做出了總結(jié):

圖片

這位網(wǎng)友表示,在傳統(tǒng)AI中,模型實力源于領(lǐng)域特定訓練模(為任務(wù)量身定制);而在前沿AI中,模型實力源于一致性泛化(進化出能夠映射到一切事物的內(nèi)部世界結(jié)構(gòu))。國際象棋只是其中一種投射。

網(wǎng)友們普遍認為,國際象棋是一種很可靠的評估AI能力的方式。

圖片

也有網(wǎng)友對AI的下一個競技游戲進行了預測:或許會是UNO?(當然是開玩笑)

圖片

圖片

哪個AI最被看好?

在Kaggle AI象棋競賽正式開始之前,有網(wǎng)友在Manifold上發(fā)起了一個投票:誰會是這場AI象棋競賽的最終勝者?

起初,Gemini 2.5 Pro是最受歡迎的,o4緊隨其后。

圖片

但在八進四比賽后,該投票發(fā)生了明顯變化,Grok 4呈現(xiàn)壓倒性優(yōu)勢。

圖片

不過越是這樣就越讓人期待,會不會出現(xiàn)什么抓馬的意外呢?

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-08-11 14:12:35

GPT-4oAIGrok 4

2025-08-07 09:20:00

2025-07-11 11:58:59

多智能體Grok 4AI

2023-12-13 08:46:33

人工智能ChatGPT機器人

2023-12-12 17:53:27

馬斯克AIChatGPT

2025-06-30 01:00:00

2025-07-10 16:58:04

2025-07-14 14:36:29

馬斯克Grok 4AI

2025-07-14 01:55:00

2024-08-15 10:07:03

2025-09-22 11:36:10

2024-03-29 12:48:00

數(shù)據(jù)訓練

2024-04-01 13:06:52

Grok-1.5GPT-4人工智能

2025-09-23 09:18:40

2025-09-19 09:10:00

2024-03-18 14:17:06

大模型開源人工智能

2025-07-30 09:01:00

2025-02-11 11:19:52

2024-04-01 00:00:00

馬斯克Grok 1.5HumanEval

2025-07-15 18:08:04

點贊
收藏

51CTO技術(shù)棧公眾號