68頁論文再錘大模型競技場!Llama4發(fā)布前私下測試27個版本,只取最佳成績
大模型競技場的可信度,再次被錘。
最近一篇名為《排行榜幻覺》(The Leaderboard Illusion)的論文在學(xué)術(shù)圈引發(fā)關(guān)注。
圖片
它指出,如今被視為LLM領(lǐng)域首選排行榜的Chatbot Arena,存在諸多系統(tǒng)問題。比如:
- 少數(shù)大廠可以私下測試多個模型版本,Llama4在發(fā)布前甚至測了27個版本,然后只公開最佳表現(xiàn)。
- 數(shù)據(jù)訪問不平等,專有模型獲得的用戶反饋數(shù)據(jù)顯著多于開源模型。
- 試用Arena數(shù)據(jù)訓(xùn)練,可提升模型性能高達(dá)112%。
- 205個模型被悄悄靜默棄用,遠(yuǎn)超過官方列出的47個。
大神卡帕西也站出來表示,他個人也察覺出了一些異樣。
有一段時間,Claude-3.5是我覺得最好用的模型,但是在競技場中排名很低。當(dāng)時我在網(wǎng)上也看到了類似的反饋。
圖片
對于最新質(zhì)疑,大模型競技場官方Lmrena.ai已經(jīng)給出回應(yīng):
- 確實幫助廠商進行測試,最后發(fā)布最受歡迎的版本;
- 但這不代表競技場有偏見,排行榜反映數(shù)百萬人類的個人真實偏好。
圖片
快速刷榜不符合模型進步實際情況
具體來看這項研究,它收集了243個模型的200+萬場競技場battle,并結(jié)合私人真實測試,通過模擬實驗確定了不同情況下對模型排名的影響。
圖片
主要挖掘出了4方面問題。
圖片
第一,私人測試和有選擇性的結(jié)果報告。
少數(shù)大模型廠商(如Meta、Google、Amazon)被允許私下測試多個模型變體,并只公開最佳表現(xiàn)的版本。
比如,Meta在Llama 4發(fā)布前曾私下測試27個變體,加上多模態(tài)、代碼等榜單,Meta可能一共測試過43個變體。
圖片
這種“最佳N選1”策略導(dǎo)致排名膨脹。
例如,當(dāng)測試5個變體時,期望分?jǐn)?shù)增加了約20分;當(dāng)測試20個變體時,增加了約40分;當(dāng)測試50個變體時,增加了約50分。
圖片
研究團隊認(rèn)為,當(dāng)多個大模型廠商采用這種策略時,他們實際上是在相互競爭各自變體分布的最大值,而非真實的模型能力。
我們觀察到,像Google、OpenAI和xAI在短時間內(nèi)輪番霸榜,表明他們都在采用類似的策略。
例如,2024年11月期間,Google的Gemini (Exp 1114)、OpenAI的ChatGPT-4o (20241120)和Google的Gemini (Exp 1121)在一周內(nèi)先后占據(jù)榜首。類似地,2025年3月4日,OpenAI的GPT-4.5和xAI的Grok-3同一天爭奪榜首位置。
這種排行榜的快速變化不太可能反映真實的技術(shù)進步,因為開發(fā)和完善一個全新的基礎(chǔ)模型通常需要數(shù)月時間。
相反,這很可能是多個大模型廠商同時使用“最佳N選1”策略的結(jié)果,每個提供商都試圖優(yōu)化自己變體池中的最大值。
此外,團隊還發(fā)現(xiàn)大模型廠商可以撤回表現(xiàn)不好的模型。
第二,數(shù)據(jù)訪問不平等。專有模型獲得的用戶反饋數(shù)據(jù)顯著多于開源模型。
圖片
Google和OpenAI分別獲得了約19.2%和20.4%的所有測試數(shù)據(jù),而全部83個開放權(quán)重模型僅獲得約29.7%的數(shù)據(jù)。
圖片
第三,大模型廠商使用競技場數(shù)據(jù)進行訓(xùn)練,排名可以顯著提升。
我們觀察到,將競技場訓(xùn)練數(shù)據(jù)比例從0%增加到70%,在ArenaHard上的勝率從23.5%提高到了49.9%,實現(xiàn)了一倍多的增長。
這還是一個保守估計,因為部分提供商擁有數(shù)據(jù)訪問優(yōu)勢。
第四,研究發(fā)現(xiàn),許多模型被”靜默棄用”(減少采樣率至接近0%)。
在243個公開模型中,有205個被靜默棄用,遠(yuǎn)超過官方列出的47個。這種做法特別影響開源和開放權(quán)重模型,會導(dǎo)致排名不可靠。
圖片
在提出問題后,研究團隊還給出了5點改進建議:
- 禁止提交后撤回分?jǐn)?shù)
- 限制每個提供商的非正式模型數(shù)量
- 公平應(yīng)用模型棄用政策,所有模型一視同仁
- 實施公平采樣方法
- 提高模型棄用透明度,即時通知被淘汰模型
這項研究由Cohere團隊、普林斯頓大學(xué)、斯坦福大學(xué)等機構(gòu)研究人員共同提出。
其中Cohere也是一家大模型廠商,由Transformer作者Aidan Gomez等人創(chuàng)辦,推出了Command R+系列模型。
“競技場不應(yīng)該是唯一基準(zhǔn)參考”
大模型競技場誕生2年來,因為機制的特殊性,其參考價值越來越高,大廠發(fā)模型也必來這里打榜,甚至是將未發(fā)布模型提前在此預(yù)熱造勢。
它最大的優(yōu)勢在于基于人類偏好評估,用戶可以在同一平臺上同時運行多個聊天機器人模型,如GPT-4、ChatGPT-3.5等,并針對相同的問題或任務(wù)進行比較分析,可以更直觀感受不同模型的差異。
最近一段時間,由于Llama4刷榜風(fēng)波,給競技場的可信度也造成了一定影響。
圖片
對于這篇質(zhì)疑論文,官方現(xiàn)在已做出回應(yīng)。反駁了一些問題:
- LMArena模擬的缺陷:圖7/8中的模擬存在問題。這就像說:NBA球員的平均三分命中率是35%。斯蒂芬·庫里擁有NBA球員最高的三分命中率42%。這不公平,因為他來自NBA球員的分布,而所有球員都有相同的潛在平均水平。
- 數(shù)據(jù)不實:文章中的許多數(shù)據(jù)并不反映現(xiàn)實:請參閱幾天前發(fā)布的博客了解來自不同提供商測試模型數(shù)量的實際統(tǒng)計數(shù)據(jù)。例如,開放模型占比為40%,而非文章聲稱的8.8%!
- 112%性能提升的誤導(dǎo)性說法:這一說法基于LLM評判基準(zhǔn)而非競技場中的實際人類評估。
- 政策并非“不透明”:我們設(shè)計并公開分享了政策,且這一政策已存在一年多。
- 模型提供商并非只選擇“最佳分?jǐn)?shù)披露”:任何列在公共排行榜上的模型都必須是向所有人開放且有長期支持計劃的生產(chǎn)模型。我們會繼續(xù)使用新數(shù)據(jù)對模型進行至少一個月的測試。這些要點一直在我們的政策中明確說明。
- 展示非公開發(fā)布模型的分?jǐn)?shù)毫無意義:對于通過API或開放權(quán)重不公開可用的預(yù)發(fā)布模型顯示分?jǐn)?shù)沒有意義,因為社區(qū)無法使用這些模型或自行測試。這會違反我們一年多前就制定的政策。我們制定該政策正是為了明確這一規(guī)則:如果模型在排行榜上,它應(yīng)該可供使用。
- 模型移除不平等或不透明的說法不實:排行榜旨在反映社區(qū)興趣,對最佳AI模型進行排名。我們也會淘汰不再向公眾開放的模型,這些標(biāo)準(zhǔn)在我們與社區(qū)進行私人測試的整個期間都已在政策中公開說明。
至于情況到底如何,可能還要等子彈飛一會兒。
不過這倒是也給AI社區(qū)提了個醒,或許不能只參考一個榜單了。
卡帕西就給出了一個備選項:OpenRouter。
OpenRouter可以提供一個統(tǒng)一API接口來訪問使用不同模型,而且更加關(guān)注實際使用案例。
盡管在多樣性和使用量上還不夠優(yōu)秀,但我認(rèn)為它有很大潛力。
參考鏈接:
[1]https://arxiv.org/abs/2504.20879
[2]https://x.com/karpathy/status/1917546757929722115
[3]https://x.com/lmarena_ai/status/1917492084359192890