Meta坐不住了!高管辟謠:Llama4沒(méi)刷榜!訓(xùn)練沒(méi)有使用測(cè)試集!模型穩(wěn)定實(shí)現(xiàn)需要時(shí)間,bug正在修
原創(chuàng) 精選編輯 | 伊風(fēng)
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
Meta的辟謠來(lái)了!——沒(méi)刷榜、模型穩(wěn)定部署需要時(shí)間。
昨日,Llama 4收到許多網(wǎng)友實(shí)測(cè)后的“差評(píng)”,加之自稱內(nèi)部員工的人在國(guó)內(nèi)論壇上爆料Meta作弊,一時(shí)間流言四起。
這下Meta的高管們坐不住了,今天Meta 的生成式 AI 副總裁 Ahmad Al-Dahle在X平臺(tái)上表示該傳言“完全不屬實(shí)”,他先是象征性地夸了一句Llama 4,然后話鋒一轉(zhuǎn)開(kāi)始辟謠:
“話雖如此,我們也收到了關(guān)于在不同服務(wù)中模型表現(xiàn)質(zhì)量不一的反饋。由于我們?cè)谀P鸵粶?zhǔn)備好就立即發(fā)布了,所以我們預(yù)計(jì)各個(gè)平臺(tái)的公開(kāi)實(shí)現(xiàn)需要幾天時(shí)間才能完全穩(wěn)定下來(lái)。我們會(huì)繼續(xù)修復(fù) bug 并幫助合作伙伴完成接入。
關(guān)于有人聲稱我們?cè)谟?xùn)練中使用了測(cè)試集——這完全不屬實(shí),我們絕不會(huì)那樣做。我們最合理的理解是,大家目前遇到的質(zhì)量差異,主要是因?yàn)槟P偷木唧w實(shí)現(xiàn)還需要進(jìn)一步穩(wěn)定?!?/span>
圖片
評(píng)論區(qū)中,一些網(wǎng)友表示了理解,認(rèn)為模型在各個(gè)平臺(tái)有些邊緣情況需要修bug很正常。
圖片
也有網(wǎng)友對(duì)這波辟謠表示質(zhì)疑,“沒(méi)見(jiàn)過(guò)其他模型需要搞‘穩(wěn)定實(shí)施’的”。
圖片
有人補(bǔ)充說(shuō),可能與Llama 4新引入的一些技術(shù)有關(guān)。
圖片
話說(shuō)回來(lái),Llama 4“作弊”傳聞能持續(xù)發(fā)酵,Meta自身要背負(fù)很大的責(zé)任。
在報(bào)告中,Meta 使用了一個(gè)“實(shí)驗(yàn)性的、未公開(kāi)發(fā)布”的 Maverick 版本參加 LM Arena 基準(zhǔn)測(cè)試,進(jìn)一步助長(zhǎng)了傳言。
在圖表中,他們甚至備注了這個(gè)Maverick是做過(guò)對(duì)話場(chǎng)景優(yōu)化的。
圖片
這無(wú)異于為L(zhǎng)lama 4此后的各種流言和猜測(cè)埋下了一枚懷疑的種子。
傳聞開(kāi)始:Meta內(nèi)部員工稱,領(lǐng)導(dǎo)建議在后訓(xùn)中使用benchmark測(cè)試集
討論最初由“一畝三分地”論壇(該論壇專注于留學(xué)和求職的社區(qū)平臺(tái),在北美華人圈很有影響力)上的一篇帖子引發(fā),發(fā)帖人自稱是參與 Llama 4 訓(xùn)練的內(nèi)部員工,并表示因此已辭職。
經(jīng)過(guò)反復(fù)訓(xùn)練,其實(shí)內(nèi)部模型的表現(xiàn)依然未能達(dá)到開(kāi)源SOTA,甚至與之相差甚遠(yuǎn)。公司領(lǐng)導(dǎo)層建議將各個(gè)benchmark的測(cè)試集混合在post-training過(guò)程中,目的是希望能夠在各項(xiàng)指標(biāo)上交差,拿出一個(gè)“看起來(lái)可以的結(jié)果“。
圖片
原貼地址可移步:https://www.1point3acres.com/bbs/thread-1122600-1-1.html
然而,評(píng)論區(qū)出現(xiàn)了Meta員工,邀請(qǐng)“實(shí)名對(duì)線”。也有人指出“最近離職的VP根本不參與模型訓(xùn)練”等細(xì)節(jié)漏洞,讓貼主爆料中的真實(shí)性受到懷疑。
圖片
有人進(jìn)一步指出發(fā)帖人的矛盾之處:如果deadline是網(wǎng)友所爆料的4月底,何必在4月初就發(fā)布摻假的結(jié)果呢?
圖片
盡管如此,因?yàn)長(zhǎng)lama 4的實(shí)測(cè)表現(xiàn)真的很水,這個(gè)傳言暗合了許多人的心理預(yù)期。讓Meta的這個(gè)負(fù)面消息在未證實(shí)的情況下,就廣泛的傳播開(kāi)了。
Meta給出的模型效果不一致,網(wǎng)友實(shí)測(cè)很失望
昨日,外媒TechCrunch 也發(fā)表文章,直接指出 Meta 新 AI 模型的性能測(cè)試“有些誤導(dǎo)”。
“看起來(lái),Meta 部署到 LM Arena 的 Maverick 版本,與開(kāi)發(fā)者可廣泛訪問(wèn)的版本并不相同?!?/span>
X上的研究人員也發(fā)現(xiàn),Meta 可能為基準(zhǔn)評(píng)測(cè)而優(yōu)化了模型的“人設(shè)”,甚至不惜犧牲客觀性來(lái)博好感。他在實(shí)測(cè)分享時(shí)說(shuō)“Llama 4絕對(duì)被烹飪過(guò)頭了”。
圖片
他用來(lái)測(cè)試GPT 4o和Llama 4的問(wèn)題很簡(jiǎn)單:“AI領(lǐng)域工作的Nathan Lambert(博主自己)是誰(shuí)?”
圖片
GPT的回答相當(dāng)中肯、理性:
目前,沒(méi)有廣為人知、在人工智能領(lǐng)域具有代表性的重要人物叫 Nathan Lambert,他不像 Geoffrey Hinton、Yann LeCun 或 Fei-Fei Li 那樣出名。
但確實(shí)有一位名為 Nathan Lambert, PhD 的研究者,專注于機(jī)器學(xué)習(xí)和 AI 相關(guān)領(lǐng)域。
而Llama 4則立即開(kāi)啟了瘋狂話癆模式,在輸出冗長(zhǎng)的簡(jiǎn)歷后不忘強(qiáng)調(diào)“他是該領(lǐng)域最具影響力的人之一?!?/span>
一些網(wǎng)友甚至吐槽Llama 4要比Gemma 3 27B以及Llama系列的前代模型還差許多。
圖片
不過(guò),Llama 4能否在Meta VP許諾的“幾天后”穩(wěn)定下來(lái),并取得一個(gè)亮眼的成績(jī),還是一個(gè)未知數(shù)。或許,我們還是可以期待,在bug修繕后,模型性能會(huì)有一個(gè)臺(tái)階的躍升。
寫在最后:刷榜容易,刷新用戶的口碑難
Meta一系列迷惑的操作,也給其他模型公司敲了個(gè)警鐘。
首先,Llama 4的確在模型性能圖表中使用了“實(shí)驗(yàn)版本”有著特定優(yōu)化的Maverick模型進(jìn)行跑分。無(wú)疑將自己推向了“作弊”的塔西佗陷阱。
其次,Meta在模型剛出爐時(shí)就迫不及待地發(fā)布了,根本沒(méi)有在各個(gè)平臺(tái)調(diào)適到最佳性能。一位網(wǎng)友還建議Meta應(yīng)該向阿里Qwen學(xué)習(xí),做一個(gè)更友好的Web UI,讓大家能輕松接觸到前沿模型的能力。
最后,就是老生常談的大模型炒作與刷榜問(wèn)題了。如果一個(gè)模型被特意為基準(zhǔn)測(cè)試優(yōu)化后用于評(píng)測(cè),隨后卻向公眾發(fā)布一個(gè)“普通版本”,這會(huì)讓開(kāi)發(fā)者難以預(yù)測(cè)該模型在真實(shí)場(chǎng)景中的實(shí)際表現(xiàn)。這種行為也具有相當(dāng)?shù)恼`導(dǎo)性。
事實(shí)上,“模型無(wú)意中看過(guò)了答案”這事兒,在AI圈早已不是新聞。大模型的訓(xùn)練數(shù)據(jù)來(lái)源廣泛,覆蓋了互聯(lián)網(wǎng)上幾乎所有能爬到的內(nèi)容——而熱門基準(zhǔn)測(cè)試集,本身就經(jīng)常被引用、分享、分析。結(jié)果就是,模型可能在訓(xùn)練階段就接觸過(guò)這些“考試題”,在實(shí)際測(cè)試中自然能交出一份“優(yōu)等生”答卷。
因此,是時(shí)候重構(gòu)我們對(duì)AI能力評(píng)估的方式了。與其再迷信分?jǐn)?shù)排行榜,不如關(guān)注模型在真實(shí)任務(wù)中的表現(xiàn),比如長(zhǎng)時(shí)對(duì)話、一致性寫作、多輪推理這些“考不過(guò)但能干活”的場(chǎng)景。
最后,問(wèn)題來(lái)了,Llama 4家族中的超大杯Llama 4 Behemoth還值得我們期待嗎?















 
 
 














 
 
 
 