偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

高中生用「我的世界」評測SOTA模型！Claude暫時領(lǐng)先，DeepSeek緊隨其后

作者：新智元 2025-03-31 09:20:00

人工智能新聞

AI頻頻刷新基準(zhǔn)測試紀(jì)錄，卻算不清「strawberry」里到底有幾個字母r，在人類看來很簡單的問題卻頻頻出錯。這種反差促使創(chuàng)意測評興起，例如由一名高中生開發(fā)的MC-Bench，用Minecraft方塊「競技場」模式評價AI能力。這種新的測評范式，或許更貼合人類對AI直觀、創(chuàng)造性能力的實(shí)際期待。

「strawberry中有多少個r」和「在LSAT法學(xué)考試中獲得88分」哪個更難？

對于現(xiàn)如今的LMMs來說，通過各種人類「聽著就頭痛，看又看不懂」的基準(zhǔn)測試似乎已是家常便飯。

比如DeepSeek-R1發(fā)布時在6大基準(zhǔn)測試（包含AIME、MMLU、MATH-500等）中超過o1取得領(lǐng)先。

但是對于人類來說依靠直覺和下意識就能回答的問題，LLM們似乎集體有點(diǎn)「發(fā)懵」。

很難理解OpenAI的GPT-4能夠在LSAT考試中獲得第88百分位的成績，但卻無法數(shù)清楚「strawberry」中有多少r。

除了復(fù)雜的基準(zhǔn)測試，另外一種評價模型好壞的方式就是「競技場模式」。

比如可以在Chatbot Arena進(jìn)行上提問投票，選出面對相同問題時的「最佳模型」。

但是這種依靠Chat模式的評測依然不太直觀，于是各種各樣的創(chuàng)意評測就誕生了。

創(chuàng)意評測的魅力

Minecraft Benchmark（或 MC-Bench）像一個競技場，在一對一的挑戰(zhàn)中針對相同提示生成Minecraft作品。

「對決雙方」由用戶投票選擇哪個模型做得更好。

并且只有在投票后才能看到每個Minecraft建筑是由哪個AI制作的。

目前MC-Bench的榜單上，Claude3.7暫時領(lǐng)先，deepseek-r1位列第5，但是考慮到DeepSeek-R1的發(fā)布時間，Claude3.7、GPT-4.5和Gemini2.0都相當(dāng)于是「新一代」的模型了，期待DeepSeek-R2出來后的榜單！

像MC-Bench這樣的創(chuàng)意評測，優(yōu)勢非常明顯：普通人也能輕松參與，像「選美」一樣簡單直接。

創(chuàng)造MC-Bench項(xiàng)目的僅僅是一名高中生Adi Singh，在將Minecraft用于AI評測這件事情上，Adi Singh覺得Minecraft的價值不在游戲本身。

而是作為有史以來最暢銷的電子游戲，即使對于沒玩過Minecraft游戲的人來說，仍然可以選擇自己更喜歡的「方塊樣子」。

MC-Bench是合作開發(fā)的，除了Adi Singh外，貢獻(xiàn)者還有7位，包括了「提示詞創(chuàng)意官」、技術(shù)主管和開發(fā)者們。

并獲得了Anthropic、Google和阿里巴巴等公司的技術(shù)支持。

傳統(tǒng)LLM評測：嚴(yán)肅認(rèn)真但未必管用

傳統(tǒng)的AI基準(zhǔn)測試技術(shù)被證明不足，主要體現(xiàn)在以下幾個方面：

主場優(yōu)勢 (Overfitting to benchmarks)：傳統(tǒng)的 AI 基準(zhǔn)測試往往基于特定類型的任務(wù)設(shè)計，這些任務(wù)對 AI 模型來說相對固定且簡單，這種過擬合就像一名「只會背題」的學(xué)生。
測試任務(wù)過于狹窄：傳統(tǒng)的測試任務(wù)多集中于單一維度的能力評估，如語言理解、邏輯推理、數(shù)學(xué)計算。
缺乏真實(shí)環(huán)境與開放性：傳統(tǒng)的基準(zhǔn)測試通常使用高度抽象化或理論化的環(huán)境，而這些環(huán)境往往不能反映現(xiàn)實(shí)世界中問題的開放性和不確定性。
難以衡量通用性與泛化能力：傳統(tǒng) AI 基準(zhǔn)測試往往無法有效衡量模型的通用性或泛化能力。

因此AI構(gòu)建者正在轉(zhuǎn)向更有創(chuàng)意的方法來評估Gen-AI模型的能力。

AI開發(fā)者們表示，我們也想玩點(diǎn)「新鮮的」。

MC-Bench的本質(zhì)是在測試AI模型的文本理解和編碼能力。

通過類似Chatbot Arena的方式來進(jìn)行模型評比。

對于為何選擇游戲，選擇Minecraft，Adi Singh覺得「游戲可能只是一種測試能動性推理的媒介，比現(xiàn)實(shí)生活更安全，也更適合測試目的，因此在我看來更為理想」。

從Adi Singh個人網(wǎng)站來看，他對于使用Minecraft方塊進(jìn)行AI評測應(yīng)該是「蓄謀已久」，Adi Singh展示很多利用大模型生成Minecraft方塊的精彩案例。

比如，gpt-4.5根據(jù)提示「構(gòu)建一艘在云層中飛行的蒸汽朋克風(fēng)格飛艇」。

再比如，claude-3.7-sonnet有一個令人印象非常深刻的Minecraft模型，根據(jù)提示「韓國友誼之鐘」生成。

并且，社區(qū)成員對MC-Bench的評價也很高。

比如目前就職于OpenAI的基礎(chǔ)研究員Aidan McLaughlin，對Minecraft Bench給予了很高的評價：你應(yīng)該密切關(guān)注MC-Bench！

Aidan McLaughlin同時給出了他認(rèn)為最佳的人工智能基準(zhǔn)應(yīng)具有：

審計數(shù)據(jù)的樂趣（與其他所有基準(zhǔn)測試都不同）
測試真正關(guān)心的功能（代碼、美學(xué)、意識）
甚至可以辨別頂級型號之間的性能差異

游戲測評AI似乎依然是「主流創(chuàng)意」

在Claude 3.7 Sonnet發(fā)布時說過，模型降低了在數(shù)學(xué)、競賽和編程方面的特化程度，有「更好」的思考能力。

那么如何評測新模型的「思考」能力呢？

答案就是游戲《寶可夢》，這不是開玩笑。

Claude通過配備了透過程序來操控游戲的特定「按鈕」。

甚至還在Twitch上直播了Claude玩游戲的全過程，可以看到它如何學(xué)習(xí)、思考并采取行動。

不論是傳統(tǒng)的基準(zhǔn)測試，還是類似MC-Bench的創(chuàng)意測試。

對于生成式AI的能力評測，目前依然沒有一個「一勞永逸」的標(biāo)準(zhǔn)。

傳統(tǒng)基準(zhǔn)測試的評估結(jié)果多采用單一的客觀分?jǐn)?shù)（如準(zhǔn)確率），忽視了人類實(shí)際感受和主觀評價的維度。

在生成式AI中，美學(xué)感知、創(chuàng)造力、直觀性往往更加重要，但這些因素很難在傳統(tǒng)的標(biāo)準(zhǔn)化測試中體現(xiàn)出來。

也許類似MC-Bench這樣的創(chuàng)意評測會給未來的AI評測帶來新的「范式」。

而新的AI評測「范式」也許會加速推動AI的發(fā)展。

責(zé)任編輯：張燕妮來源：新智元

AI 模型測試

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<kbd id="pgqe6"></kbd>