高中生用「我的世界」評測SOTA模型!Claude暫時領(lǐng)先,DeepSeek緊隨其后
「strawberry中有多少個r」和「在LSAT法學(xué)考試中獲得88分」哪個更難?
對于現(xiàn)如今的LMMs來說,通過各種人類「聽著就頭痛,看又看不懂」的基準(zhǔn)測試似乎已是家常便飯。
比如DeepSeek-R1發(fā)布時在6大基準(zhǔn)測試(包含AIME、MMLU、MATH-500等)中超過o1取得領(lǐng)先。
但是對于人類來說依靠直覺和下意識就能回答的問題,LLM們似乎集體有點(diǎn)「發(fā)懵」。
很難理解OpenAI的GPT-4能夠在LSAT考試中獲得第88百分位的成績,但卻無法數(shù)清楚「strawberry」中有多少r。
除了復(fù)雜的基準(zhǔn)測試,另外一種評價模型好壞的方式就是「競技場模式」。
比如可以在Chatbot Arena進(jìn)行上提問投票,選出面對相同問題時的「最佳模型」。
但是這種依靠Chat模式的評測依然不太直觀,于是各種各樣的創(chuàng)意評測就誕生了。
創(chuàng)意評測的魅力
Minecraft Benchmark(或 MC-Bench)像一個競技場,在一對一的挑戰(zhàn)中針對相同提示生成Minecraft作品。
「對決雙方」由用戶投票選擇哪個模型做得更好。
并且只有在投票后才能看到每個Minecraft建筑是由哪個AI制作的。
目前MC-Bench的榜單上,Claude3.7暫時領(lǐng)先,deepseek-r1位列第5,但是考慮到DeepSeek-R1的發(fā)布時間,Claude3.7、GPT-4.5和Gemini2.0都相當(dāng)于是「新一代」的模型了,期待DeepSeek-R2出來后的榜單!
像MC-Bench這樣的創(chuàng)意評測,優(yōu)勢非常明顯:普通人也能輕松參與,像「選美」一樣簡單直接。
創(chuàng)造MC-Bench項(xiàng)目的僅僅是一名高中生Adi Singh,在將Minecraft用于AI評測這件事情上,Adi Singh覺得Minecraft的價值不在游戲本身。
而是作為有史以來最暢銷的電子游戲,即使對于沒玩過Minecraft游戲的人來說,仍然可以選擇自己更喜歡的「方塊樣子」。
MC-Bench是合作開發(fā)的,除了Adi Singh外,貢獻(xiàn)者還有7位,包括了「提示詞創(chuàng)意官」、技術(shù)主管和開發(fā)者們。
并獲得了Anthropic、Google和阿里巴巴等公司的技術(shù)支持。
傳統(tǒng)LLM評測:嚴(yán)肅認(rèn)真但未必管用
傳統(tǒng)的AI基準(zhǔn)測試技術(shù)被證明不足,主要體現(xiàn)在以下幾個方面:
- 主場優(yōu)勢 (Overfitting to benchmarks):傳統(tǒng)的 AI 基準(zhǔn)測試往往基于特定類型的任務(wù)設(shè)計,這些任務(wù)對 AI 模型來說相對固定且簡單,這種過擬合就像一名「只會背題」的學(xué)生。
- 測試任務(wù)過于狹窄:傳統(tǒng)的測試任務(wù)多集中于單一維度的能力評估,如語言理解、邏輯推理、數(shù)學(xué)計算。
- 缺乏真實(shí)環(huán)境與開放性:傳統(tǒng)的基準(zhǔn)測試通常使用高度抽象化或理論化的環(huán)境,而這些環(huán)境往往不能反映現(xiàn)實(shí)世界中問題的開放性和不確定性。
- 難以衡量通用性與泛化能力:傳統(tǒng) AI 基準(zhǔn)測試往往無法有效衡量模型的通用性或泛化能力。
因此AI構(gòu)建者正在轉(zhuǎn)向更有創(chuàng)意的方法來評估Gen-AI模型的能力。
AI開發(fā)者們表示,我們也想玩點(diǎn)「新鮮的」。
MC-Bench的本質(zhì)是在測試AI模型的文本理解和編碼能力。
通過類似Chatbot Arena的方式來進(jìn)行模型評比。
對于為何選擇游戲,選擇Minecraft,Adi Singh覺得「游戲可能只是一種測試能動性推理的媒介,比現(xiàn)實(shí)生活更安全,也更適合測試目的,因此在我看來更為理想」。
從Adi Singh個人網(wǎng)站來看,他對于使用Minecraft方塊進(jìn)行AI評測應(yīng)該是「蓄謀已久」,Adi Singh展示很多利用大模型生成Minecraft方塊的精彩案例。
比如,gpt-4.5根據(jù)提示「構(gòu)建一艘在云層中飛行的蒸汽朋克風(fēng)格飛艇」。
再比如,claude-3.7-sonnet有一個令人印象非常深刻的Minecraft模型,根據(jù)提示「韓國友誼之鐘」生成。
并且,社區(qū)成員對MC-Bench的評價也很高。
比如目前就職于OpenAI的基礎(chǔ)研究員Aidan McLaughlin,對Minecraft Bench給予了很高的評價:你應(yīng)該密切關(guān)注MC-Bench!
Aidan McLaughlin同時給出了他認(rèn)為最佳的人工智能基準(zhǔn)應(yīng)具有:
- 審計數(shù)據(jù)的樂趣 (與其他所有基準(zhǔn)測試都不同)
- 測試真正關(guān)心的功能 (代碼、美學(xué)、意識)
- 甚至可以辨別頂級型號之間的性能差異
游戲測評AI似乎依然是「主流創(chuàng)意」
在Claude 3.7 Sonnet發(fā)布時說過,模型降低了在數(shù)學(xué)、競賽和編程方面的特化程度,有「更好」的思考能力。
那么如何評測新模型的「思考」能力呢?
答案就是游戲《寶可夢》,這不是開玩笑。
Claude通過配備了透過程序來操控游戲的特定「按鈕」。
甚至還在Twitch上直播了Claude玩游戲的全過程,可以看到它如何學(xué)習(xí)、思考并采取行動。
不論是傳統(tǒng)的基準(zhǔn)測試,還是類似MC-Bench的創(chuàng)意測試。
對于生成式AI的能力評測,目前依然沒有一個「一勞永逸」的標(biāo)準(zhǔn)。
傳統(tǒng)基準(zhǔn)測試的評估結(jié)果多采用單一的客觀分?jǐn)?shù)(如準(zhǔn)確率),忽視了人類實(shí)際感受和主觀評價的維度。
在生成式AI中,美學(xué)感知、創(chuàng)造力、直觀性往往更加重要,但這些因素很難在傳統(tǒng)的標(biāo)準(zhǔn)化測試中體現(xiàn)出來。
也許類似MC-Bench這樣的創(chuàng)意評測會給未來的AI評測帶來新的「范式」。
而新的AI評測「范式」也許會加速推動AI的發(fā)展。