偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<u id="vhsy1"></u>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Meta坐不住了！高管辟謠：Llama4沒刷榜！訓(xùn)練沒有使用測試集！模型穩(wěn)定實(shí)現(xiàn)需要時(shí)間，bug正在修原創(chuàng)

51CTO技術(shù)棧

發(fā)布于 2025-4-8 12:55

瀏覽

0收藏

編輯 | 伊風(fēng)

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

Meta的辟謠來了！——沒刷榜、模型穩(wěn)定部署需要時(shí)間。

昨日，Llama 4收到許多網(wǎng)友實(shí)測后的“差評”，加之自稱內(nèi)部員工的人在國內(nèi)論壇上爆料Meta作弊，一時(shí)間流言四起。

這下Meta的高管們坐不住了，今天Meta 的生成式 AI 副總裁 Ahmad Al-Dahle在X平臺上表示該傳言“完全不屬實(shí)”，他先是象征性地夸了一句Llama 4，然后話鋒一轉(zhuǎn)開始辟謠：

“話雖如此，我們也收到了關(guān)于在不同服務(wù)中模型表現(xiàn)質(zhì)量不一的反饋。由于我們在模型一準(zhǔn)備好就立即發(fā)布了，所以我們預(yù)計(jì)各個(gè)平臺的公開實(shí)現(xiàn)需要幾天時(shí)間才能完全穩(wěn)定下來。我們會繼續(xù)修復(fù) bug 并幫助合作伙伴完成接入。

關(guān)于有人聲稱我們在訓(xùn)練中使用了測試集——這完全不屬實(shí)，我們絕不會那樣做。我們最合理的理解是，大家目前遇到的質(zhì)量差異，主要是因?yàn)槟Ｐ偷木唧w實(shí)現(xiàn)還需要進(jìn)一步穩(wěn)定。”

Meta坐不住了！高管辟謠：Llama4沒刷榜！訓(xùn)練沒有使用測試集！模型穩(wěn)定實(shí)現(xiàn)需要時(shí)間，bug正在修-AI.x社區(qū) 圖片

評論區(qū)中，一些網(wǎng)友表示了理解，認(rèn)為模型在各個(gè)平臺有些邊緣情況需要修bug很正常。

Meta坐不住了！高管辟謠：Llama4沒刷榜！訓(xùn)練沒有使用測試集！模型穩(wěn)定實(shí)現(xiàn)需要時(shí)間，bug正在修-AI.x社區(qū) 圖片

也有網(wǎng)友對這波辟謠表示質(zhì)疑，“沒見過其他模型需要搞‘穩(wěn)定實(shí)施’的”。

Meta坐不住了！高管辟謠：Llama4沒刷榜！訓(xùn)練沒有使用測試集！模型穩(wěn)定實(shí)現(xiàn)需要時(shí)間，bug正在修-AI.x社區(qū) 圖片

有人補(bǔ)充說，可能與Llama 4新引入的一些技術(shù)有關(guān)。

Meta坐不住了！高管辟謠：Llama4沒刷榜！訓(xùn)練沒有使用測試集！模型穩(wěn)定實(shí)現(xiàn)需要時(shí)間，bug正在修-AI.x社區(qū) 圖片

話說回來，Llama 4“作弊”傳聞能持續(xù)發(fā)酵，Meta自身要背負(fù)很大的責(zé)任。

在報(bào)告中，Meta 使用了一個(gè)“實(shí)驗(yàn)性的、未公開發(fā)布”的 Maverick 版本參加 LM Arena 基準(zhǔn)測試，進(jìn)一步助長了傳言。

在圖表中，他們甚至備注了這個(gè)Maverick是做過對話場景優(yōu)化的。

Meta坐不住了！高管辟謠：Llama4沒刷榜！訓(xùn)練沒有使用測試集！模型穩(wěn)定實(shí)現(xiàn)需要時(shí)間，bug正在修-AI.x社區(qū) 圖片

這無異于為Llama 4此后的各種流言和猜測埋下了一枚懷疑的種子。

傳聞開始：Meta內(nèi)部員工稱，領(lǐng)導(dǎo)建議在后訓(xùn)中使用benchmark測試集

討論最初由“一畝三分地”論壇（該論壇專注于留學(xué)和求職的社區(qū)平臺，在北美華人圈很有影響力）上的一篇帖子引發(fā)，發(fā)帖人自稱是參與 Llama 4 訓(xùn)練的內(nèi)部員工，并表示因此已辭職。

經(jīng)過反復(fù)訓(xùn)練，其實(shí)內(nèi)部模型的表現(xiàn)依然未能達(dá)到開源SOTA，甚至與之相差甚遠(yuǎn)。公司領(lǐng)導(dǎo)層建議將各個(gè)benchmark的測試集混合在post-training過程中，目的是希望能夠在各項(xiàng)指標(biāo)上交差，拿出一個(gè)“看起來可以的結(jié)果“。

Meta坐不住了！高管辟謠：Llama4沒刷榜！訓(xùn)練沒有使用測試集！模型穩(wěn)定實(shí)現(xiàn)需要時(shí)間，bug正在修-AI.x社區(qū) 圖片

原貼地址可移步：??https://www.1point3acres.com/bbs/thread-1122600-1-1.html??

然而，評論區(qū)出現(xiàn)了Meta員工，邀請“實(shí)名對線”。也有人指出“最近離職的VP根本不參與模型訓(xùn)練”等細(xì)節(jié)漏洞，讓貼主爆料中的真實(shí)性受到懷疑。

Meta坐不住了！高管辟謠：Llama4沒刷榜！訓(xùn)練沒有使用測試集！模型穩(wěn)定實(shí)現(xiàn)需要時(shí)間，bug正在修-AI.x社區(qū) 圖片

有人進(jìn)一步指出發(fā)帖人的矛盾之處：如果deadline是網(wǎng)友所爆料的4月底，何必在4月初就發(fā)布摻假的結(jié)果呢？

Meta坐不住了！高管辟謠：Llama4沒刷榜！訓(xùn)練沒有使用測試集！模型穩(wěn)定實(shí)現(xiàn)需要時(shí)間，bug正在修-AI.x社區(qū) 圖片

盡管如此，因?yàn)長lama 4的實(shí)測表現(xiàn)真的很水，這個(gè)傳言暗合了許多人的心理預(yù)期。讓Meta的這個(gè)負(fù)面消息在未證實(shí)的情況下，就廣泛的傳播開了。

Meta給出的模型效果不一致，網(wǎng)友實(shí)測很失望

昨日，外媒TechCrunch 也發(fā)表文章，直接指出 Meta 新 AI 模型的性能測試“有些誤導(dǎo)”。

“看起來，Meta 部署到 LM Arena 的 Maverick 版本，與開發(fā)者可廣泛訪問的版本并不相同?！?/p>

X上的研究人員也發(fā)現(xiàn)，Meta 可能為基準(zhǔn)評測而優(yōu)化了模型的“人設(shè)”，甚至不惜犧牲客觀性來博好感。他在實(shí)測分享時(shí)說“Llama 4絕對被烹飪過頭了”。

Meta坐不住了！高管辟謠：Llama4沒刷榜！訓(xùn)練沒有使用測試集！模型穩(wěn)定實(shí)現(xiàn)需要時(shí)間，bug正在修-AI.x社區(qū) 圖片

他用來測試GPT 4o和Llama 4的問題很簡單：“AI領(lǐng)域工作的Nathan Lambert（博主自己）是誰？”

Meta坐不住了！高管辟謠：Llama4沒刷榜！訓(xùn)練沒有使用測試集！模型穩(wěn)定實(shí)現(xiàn)需要時(shí)間，bug正在修-AI.x社區(qū) 圖片

GPT的回答相當(dāng)中肯、理性：

目前，沒有廣為人知、在人工智能領(lǐng)域具有代表性的重要人物叫 Nathan Lambert，他不像 Geoffrey Hinton、Yann LeCun 或 Fei-Fei Li 那樣出名。
但確實(shí)有一位名為 Nathan Lambert, PhD 的研究者，專注于機(jī)器學(xué)習(xí)和 AI 相關(guān)領(lǐng)域。

而Llama 4則立即開啟了瘋狂話癆模式，在輸出冗長的簡歷后不忘強(qiáng)調(diào)“他是該領(lǐng)域最具影響力的人之一?！?/p>

一些網(wǎng)友甚至吐槽Llama 4要比Gemma 3 27B以及Llama系列的前代模型還差許多。

Meta坐不住了！高管辟謠：Llama4沒刷榜！訓(xùn)練沒有使用測試集！模型穩(wěn)定實(shí)現(xiàn)需要時(shí)間，bug正在修-AI.x社區(qū) 圖片

不過，Llama 4能否在Meta VP許諾的“幾天后”穩(wěn)定下來，并取得一個(gè)亮眼的成績，還是一個(gè)未知數(shù)?；蛟S，我們還是可以期待，在bug修繕后，模型性能會有一個(gè)臺階的躍升。

寫在最后：刷榜容易，刷新用戶的口碑難

Meta一系列迷惑的操作，也給其他模型公司敲了個(gè)警鐘。

首先，Llama 4的確在模型性能圖表中使用了“實(shí)驗(yàn)版本”有著特定優(yōu)化的Maverick模型進(jìn)行跑分。無疑將自己推向了“作弊”的塔西佗陷阱。

其次，Meta在模型剛出爐時(shí)就迫不及待地發(fā)布了，根本沒有在各個(gè)平臺調(diào)適到最佳性能。一位網(wǎng)友還建議Meta應(yīng)該向阿里Qwen學(xué)習(xí)，做一個(gè)更友好的Web UI,讓大家能輕松接觸到前沿模型的能力。

最后，就是老生常談的大模型炒作與刷榜問題了。如果一個(gè)模型被特意為基準(zhǔn)測試優(yōu)化后用于評測，隨后卻向公眾發(fā)布一個(gè)“普通版本”，這會讓開發(fā)者難以預(yù)測該模型在真實(shí)場景中的實(shí)際表現(xiàn)。這種行為也具有相當(dāng)?shù)恼`導(dǎo)性。

事實(shí)上，“模型無意中看過了答案”這事兒，在AI圈早已不是新聞。大模型的訓(xùn)練數(shù)據(jù)來源廣泛，覆蓋了互聯(lián)網(wǎng)上幾乎所有能爬到的內(nèi)容——而熱門基準(zhǔn)測試集，本身就經(jīng)常被引用、分享、分析。結(jié)果就是，模型可能在訓(xùn)練階段就接觸過這些“考試題”，在實(shí)際測試中自然能交出一份“優(yōu)等生”答卷。

因此，是時(shí)候重構(gòu)我們對AI能力評估的方式了。與其再迷信分?jǐn)?shù)排行榜，不如關(guān)注模型在真實(shí)任務(wù)中的表現(xiàn)，比如長時(shí)對話、一致性寫作、多輪推理這些“考不過但能干活”的場景。

最后，問題來了，Llama 4家族中的超大杯Llama 4 Behemoth還值得我們期待嗎？

參考鏈接：

1.??https://techcrunch.com/2025/04/07/meta-exec-denies-the-company-artificially-boosted-llama-4s-benchmark-scores/??

2.??https://www.reddit.com/r/singularity/comments/1jspmq9/users_are_not_happy_with_llama_4_models/?utm_source=chatgpt.com??

本文轉(zhuǎn)載自??51CTO技術(shù)棧??，作者：伊風(fēng)

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

已于2025-4-8 12:57:35修改

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

回復(fù)

相關(guān)推薦

大模型融合！最新「進(jìn)化算法」全自動組合開源模型，刷榜多項(xiàng)基準(zhǔn)測試

duhorse ? 2328瀏覽 ? 0回復(fù)
Meta 發(fā)布Llama 3，能力直逼GPT-4,一己之力拉高開源大模型水位

51CTO技術(shù)棧 ? 4466瀏覽 ? 0回復(fù)
Flash Attention穩(wěn)定嗎？Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級波動

輕薄滴假象 ? 3090瀏覽 ? 0回復(fù)
Meta LlaMA 3模型深度解析

51CTO內(nèi)容精選 ? 4558瀏覽 ? 0回復(fù)
沒有標(biāo)記數(shù)據(jù)集，如何做大模型指令微調(diào)？介紹一款有潛力的標(biāo)記數(shù)據(jù)集生成模型

Syrupup ? 5970瀏覽 ? 0回復(fù)
Llama-4使用10萬塊GPU訓(xùn)練、更好開源，扎克伯格親口確認(rèn)！

Aceryt ? 3703瀏覽 ? 0回復(fù)
Meta開源多模態(tài)模型——Llama 3.2

Aceryt ? 3125瀏覽 ? 0回復(fù)
Meta三季度交卷！廣告收入大漲近20%，市值卻啪啪打臉，扎克伯格坦承交底：AI真的機(jī)會很大，Llama4明年年初

51CTO技術(shù)棧 ? 2329瀏覽 ? 0回復(fù)
模型訓(xùn)練之?dāng)?shù)據(jù)集操作——矩陣變換

AI探索時(shí)代 ? 1937瀏覽 ? 0回復(fù)
【模型測試】大模型評測工具OpenCompass使用方法總結(jié)

一起AI技術(shù) ? 3870瀏覽 ? 0回復(fù)
阿里前高管賈揚(yáng)清創(chuàng)業(yè)公司將被英偉達(dá)天價(jià)收購，對AI基建有何影響？

算家計(jì)算 ? 1538瀏覽 ? 0回復(fù)
Llama 4 凌晨震撼發(fā)布：Meta開源最強(qiáng)MoE多模態(tài)模型，1000萬上下文碾壓行業(yè)！

AI博物院 ? 1818瀏覽 ? 0回復(fù)
AI 輔助學(xué)習(xí)如何選大模型？兼初步測試 Llama 4

機(jī)器學(xué)習(xí)與數(shù)學(xué) ? 1493瀏覽 ? 0回復(fù)
Llama4 剛開源就要被網(wǎng)友玩壞了！

PaperAgent ? 1559瀏覽 ? 0回復(fù)
Llama 4效果不好，Meta承認(rèn)有問題

Aceryt ? 1839瀏覽 ? 0回復(fù)
Llama4 模型細(xì)節(jié) & 效果實(shí)測

NLP工作站 ? 1718瀏覽 ? 0回復(fù)
Meta放大招！Llama 4三大模型來襲，開源免費(fèi)還超能打

Halo咯咯 ? 2590瀏覽 ? 0回復(fù)
使用測試時(shí)間訓(xùn)練（TTT）生成一分鐘視頻

51CTO內(nèi)容精選 ? 1109瀏覽 ? 0回復(fù)
Llama4我的理解

熵減AI ? 559瀏覽 ? 0回復(fù)

51CTO技術(shù)棧

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測：真·超DS！ 1回復(fù)

Devin聯(lián)合創(chuàng)始人：別搞多智能體系統(tǒng)！微軟和OpenAI鼓吹的代理構(gòu)建理念大錯(cuò)特錯(cuò)！ 1回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇： Agent不會在2025爆發(fā)

下一篇：奧特曼采訪回應(yīng)“偷走”吉卜力！GPT4o大爆炸；套殼OpenAI也能成為大生意；今年AI可以幫編程提效10倍！

社區(qū)精華內(nèi)容

目錄