中國(guó)大模型頭名易主:全球盲測(cè)榜單上,Yi-Large與GPT-4o中文并列第一
上周,一個(gè)名為 “im-also-a-good-gpt2-chatbot” 的神秘模型突然現(xiàn)身大模型競(jìng)技場(chǎng) Chatbot Arena,排名直接超過 GPT-4-Turbo、Gemini 1 .5 Pro、Claude 3 0pus、Llama-3-70b 等各家國(guó)際大廠的當(dāng)家基座模型。隨后 OpenAI 揭開 “im-also-a-good-gpt2-chatbot” 神秘面紗 —— 正是 GPT-4o 的測(cè)試版本,OpenAI CEO Sam Altman 也在 Gpt-4o 發(fā)布后親自轉(zhuǎn)帖引用 LMSYS arena 盲測(cè)擂臺(tái)的測(cè)試結(jié)果。
由開放研究組織 LMSYS Org (Large Model Systems Organization)發(fā)布的 Chatbot Arena 已經(jīng)成為 OpenAI、Anthropic、Google、Meta 等國(guó)際大廠 “龍爭(zhēng)虎斗” 的當(dāng)紅擂臺(tái),以最開放與科學(xué)的評(píng)測(cè)方法,在大模型進(jìn)入第二年之際開放群眾投票。
時(shí)隔一周,在最新更新的排名中,類 “im-also-a-good-gpt2-chatbot” 的黑馬故事再次上演,這次排名飛速上漲的模型正是由中國(guó)大模型公司零一萬(wàn)物提交的 “Yi-Large” 千億參數(shù)閉源大模型。
在 LMSYS 盲測(cè)競(jìng)技場(chǎng)最新排名中,零一萬(wàn)物的最新千億參數(shù)模型 Yi-Large 總榜排名世界模型第 7,中國(guó)大模型中第一,已經(jīng)超過 Llama-3-70B、Claude 3 Sonnet;其中文分榜更是與 GPT4o 并列世界第一。
零一萬(wàn)物也由此成為了總榜上唯一一個(gè)自家模型進(jìn)入排名前十的中國(guó)大模型企業(yè)。在總榜上,GPT 系列占了前 10 的 4 個(gè),以機(jī)構(gòu)排序,零一萬(wàn)物 01.AI 僅次于 OpenAI, Google, Anthropic 之后,以開放金標(biāo)準(zhǔn)正式進(jìn)擊國(guó)際頂級(jí)大模型企業(yè)陣營(yíng)。
美國(guó)時(shí)間 2024 年 5 月 20 日剛刷新的 LMSYS Chatboat Arena 盲測(cè)結(jié)果,來自至今積累超過 1170 萬(wàn)的全球用戶真實(shí)投票數(shù):
值得一提的是,為了提高 Chatbot Arena 查詢的整體質(zhì)量,LMSYS 還實(shí)施了重復(fù)數(shù)據(jù)刪除機(jī)制,并出具了去除冗余查詢后的榜單。這個(gè)新機(jī)制旨在消除過度冗余的用戶提示,如過度重復(fù)的 “你好”。這類冗余提示可能會(huì)影響排行榜的準(zhǔn)確性。LMSYS 公開表示,去除冗余查詢后的榜單將在后續(xù)成為默認(rèn)榜單。
在去除冗余查詢后的總榜中, Yi-Large 的 Elo 得分更進(jìn)一步,與 Claude 3 Opus、GPT-4-0125-preview 并列第四。
LMSYS 中文榜
GPT-4o 和 Yi-Large 并列第一
值得國(guó)人關(guān)注的是,國(guó)內(nèi)大模型廠商中,智譜 GLM4、阿里 Qwen Max、Qwen 1.5、零一萬(wàn)物 Yi-Large、Yi-34B-chat 此次都有參與盲測(cè),在總榜之外,LMSYS 的語(yǔ)言類別上新增了英語(yǔ)、中文、法文三種語(yǔ)言評(píng)測(cè),開始注重全球大模型的多樣性。
Yi-Large 的中文語(yǔ)言分榜上拔得頭籌,與 OpenAI 官宣才一周的地表最強(qiáng) GPT4o 并列第一,Qwen-Max 和 GLM-4 在中文榜上也都表現(xiàn)不凡。
“最燒腦” 公開評(píng)測(cè)
Yi-Large 位居全球第二
在分類別的排行榜中,Yi-Large 同樣表現(xiàn)亮眼。編程能力、長(zhǎng)提問及最新推出的 “艱難提示詞” 的三個(gè)評(píng)測(cè)是 LMSYS 所給出的針對(duì)性榜單,以專業(yè)性與高難度著稱,可稱作大模型 “最燒腦” 的公開盲測(cè)。
在編程能力(Coding)排行榜上,Yi-Large 的 Elo 分?jǐn)?shù)超過 Anthropic 當(dāng)家旗艦?zāi)P?Claude 3 Opus,僅低于 GPT-4o,與 GPT-4-Turbo、GPT-4 并列第二。
長(zhǎng)提問(Longer Query)榜單上,Yi-Large 同樣位列全球第二,與 GPT-4-Turbo、GPT-4、Claude 3 Opus 并列。
艱難提示詞(Hard Prompts)則是 LMSYS 為了響應(yīng)社區(qū)要求,于此次新增的排行榜類別。這一類別包含來自 Arena 的用戶提交的提示,這些提示則經(jīng)過專門設(shè)計(jì),更加復(fù)雜、要求更高且更加嚴(yán)格。LMSYS 認(rèn)為,這類提示能夠測(cè)試最新語(yǔ)言模型面臨挑戰(zhàn)性任務(wù)時(shí)的性能。
在這一榜單上,Yi-Large 處理艱難提示的能力也得到印證,與 GPT-4-Turbo、GPT-4、Claude 3 Opus 并列第二。
LMSYS Chatbot Arena
后 benchmark 時(shí)代的風(fēng)向標(biāo)
如何為大模型給出客觀公正的評(píng)測(cè)一直是業(yè)內(nèi)廣泛關(guān)注的話題。為了在固定題庫(kù)中取得一份亮眼的評(píng)測(cè)分?jǐn)?shù),業(yè)內(nèi)出現(xiàn)了各式各樣的 “刷榜” 方法:將各種各樣的評(píng)測(cè)基準(zhǔn)訓(xùn)練集直接混入模型訓(xùn)練集中、用未對(duì)齊的模型跟已經(jīng)對(duì)齊的模型做對(duì)比等等,對(duì)嘗試了解大模型真實(shí)能力的人,的確呈現(xiàn) “眾說紛紜” 的現(xiàn)場(chǎng),更讓大模型的投資人摸不著北。
在經(jīng)過 2023 年一系列錯(cuò)綜復(fù)雜、亂象叢生的大模型評(píng)測(cè)浪潮之后,業(yè)界對(duì)于評(píng)測(cè)集的專業(yè)性和客觀性給予了更高的重視。而 LMSYS Org 發(fā)布的 Chatbot Arena 憑借其新穎的 “競(jìng)技場(chǎng)” 形式、測(cè)試團(tuán)隊(duì)的嚴(yán)謹(jǐn)性,成為目前全球業(yè)界公認(rèn)的基準(zhǔn)標(biāo)桿,連 OpenAI 在 GPT-4o 正式發(fā)布前,都在 LMSYS 上匿名預(yù)發(fā)布和預(yù)測(cè)試。
在海外大廠高管中,不只 Sam Altman,Google DeepMind 首席科學(xué)家 Jeff Dean 也曾引用 LMSYS Chatbot Arena 的排名數(shù)據(jù),來佐證 Bard 產(chǎn)品的性能。
OpenAI 創(chuàng)始團(tuán)隊(duì)成員 Andrej Karpathy 甚至公開表示,Chatbot Arena is “awesome”。
自身的旗艦?zāi)P桶l(fā)布后第一時(shí)間提交給 LMSYS,這一行為本身就展現(xiàn)了海外頭部大廠對(duì)于 Chatbot Arena 的極大尊重。這份尊重既來自于 LMSYS 作為研究組織的權(quán)威背書,也來自于其新穎的排名機(jī)制。
公開資料顯示,LMSYS Org 是一個(gè)開放的研究組織,由加州大學(xué)伯克利分校的學(xué)生和教師、加州大學(xué)圣地亞哥分校、卡耐基梅隆大學(xué)合作創(chuàng)立。雖然主要人員出自高校,但 LMSYS 的研究項(xiàng)目卻十分貼近產(chǎn)業(yè),他們不僅自己開發(fā)大語(yǔ)言模型,還向業(yè)內(nèi)輸出多種數(shù)據(jù)集(其推出的 MT-Bench 已是指令遵循方向的權(quán)威評(píng)測(cè)集)、評(píng)估工具,此外還開發(fā)分布式系統(tǒng)以加速大模型訓(xùn)練和推理,提供線上 live 大模型打擂臺(tái)測(cè)試所需的算力。
在形式上,Chatbot Arena 借鑒了搜索引擎時(shí)代的橫向?qū)Ρ仍u(píng)測(cè)思路。它首先將所有上傳評(píng)測(cè)的 “參賽” 模型隨機(jī)兩兩配對(duì),以匿名模型的形式呈現(xiàn)在用戶面前。隨后號(hào)召真實(shí)用戶輸入自己的提示詞,在不知道模型型號(hào)名稱的前提下,由真實(shí)用戶對(duì)兩個(gè)模型產(chǎn)品的作答給出評(píng)價(jià),在盲測(cè)平臺(tái) https://arena.lmsys.org/ 上,大模型們兩兩相比,用戶自主輸入對(duì)大模型的提問,模型 A、模型 B 兩側(cè)分別生成兩 PK 模型的真實(shí)結(jié)果,用戶在結(jié)果下方做出投票四選一:A 模型較佳、B 模型較佳,兩者平手,或是兩者都不好。提交后,可進(jìn)行下一輪 PK。
通過眾籌真實(shí)用戶來進(jìn)行線上實(shí)時(shí)盲測(cè)和匿名投票,Chatbot Arena 一方面減少偏見的影響,另一方面也最大概率避免基于測(cè)試集進(jìn)行刷榜的可能性,以此增加最終成績(jī)的客觀性。在經(jīng)過清洗和匿名化處理后,Chatbot Arena 還會(huì)公開所有用戶投票數(shù)據(jù)。得益于 “真實(shí)用戶盲測(cè)投票” 這一機(jī)制,Chatbot Arena 被稱為大模型業(yè)內(nèi)最有用戶體感的奧林匹克。
在收集真實(shí)用戶投票數(shù)據(jù)之后,LMSYS Chatbot Arena 還使用 Elo 評(píng)分系統(tǒng)來量化模型的表現(xiàn),進(jìn)一步優(yōu)化評(píng)分機(jī)制,力求公平反應(yīng)參與者的實(shí)力。
Elo 評(píng)分系統(tǒng),是一項(xiàng)基于統(tǒng)計(jì)學(xué)原理的權(quán)威性評(píng)價(jià)體系,由匈牙利裔美國(guó)物理學(xué)家 Arpad Elo 博士創(chuàng)立,旨在量化和評(píng)估各類對(duì)弈活動(dòng)的競(jìng)技水平。作為當(dāng)前國(guó)際公認(rèn)的競(jìng)技水平評(píng)估標(biāo)準(zhǔn),Elo 等級(jí)分制度在國(guó)際象棋、圍棋、足球、籃球、電子競(jìng)技等運(yùn)動(dòng)中都發(fā)揮著至關(guān)重要的作用。
更通俗地來講,在 Elo 評(píng)分系統(tǒng)中,每個(gè)參與者都會(huì)獲得基準(zhǔn)評(píng)分。每場(chǎng)比賽結(jié)束后,參與者的評(píng)分會(huì)基于比賽結(jié)果進(jìn)行調(diào)整。系統(tǒng)會(huì)根據(jù)參與者評(píng)分來計(jì)算其贏得比賽的概率,一旦低分選手擊敗高分選手,那么低分選手就會(huì)獲得較多的分?jǐn)?shù),反之則較少。通過引入 Elo 評(píng)分系統(tǒng),LMSYS Chatbot Arena 在最大程度上保證了排名的客觀公正。
Chatbot Arena 的評(píng)測(cè)過程涵蓋了從用戶直接參與投票到盲測(cè),再到大規(guī)模的投票和動(dòng)態(tài)更新的評(píng)分機(jī)制等多個(gè)方面,這些因素共同作用,確保了評(píng)測(cè)的客觀性、權(quán)威性和專業(yè)性。毫無(wú)疑問,這樣的評(píng)測(cè)方式能夠更準(zhǔn)確地反映出大模型在實(shí)際應(yīng)用中的表現(xiàn),為行業(yè)提供了一個(gè)可靠的參考標(biāo)準(zhǔn)。
Yi-Large 以小搏大緊追國(guó)際第一陣營(yíng)
登頂國(guó)內(nèi)大模型盲測(cè)
此次 Chatbot Arena 共有 44 款模型參賽,既包含了頂尖開源模型 Llama3-70B,也包含了各家大廠的閉源模型。
以最新公布的 Elo 評(píng)分來看,GPT-4o 以 1287 分高居榜首,GPT-4-Turbo、Gemini 1 5 Pro、Claude 3 0pus、Yi-Large 等模型則以 1240 左右的評(píng)分位居第二梯隊(duì);其后的 Bard (Gemini Pro)、Llama-3-70b-Instruct、Claude 3 sonnet 的成績(jī)則斷崖式下滑至 1200 分左右。
值得一提的是,排名前 6 的模型分別歸屬于海外巨頭 OpenAI、Google、Anthropic,零一萬(wàn)物位列全球第四機(jī)構(gòu),且 GPT-4、Gemini 1.5 Pro 等模型均為萬(wàn)億級(jí)別超大參數(shù)規(guī)模的旗艦?zāi)P?,其他模型也都在大幾千億參數(shù)級(jí)別。Yi-Large “以小搏大” 以僅僅千億參數(shù)量級(jí)緊追其后, 5 月 13 日一經(jīng)發(fā)布便沖上世界排名第七大模型,與海外大廠的旗艦?zāi)P吞幱谕惶蓐?duì)。在 LMSYS Chatbot Arena 截至 5 月 21 日的總榜上,阿里巴巴的 Qwen-Max 大模型 Elo 分?jǐn)?shù)為 1186,排名第 12;智譜 AI 的 GLM-4 大模型 Elo 分?jǐn)?shù)為 1175,排名第 15。
在當(dāng)前大模型步入商業(yè)應(yīng)用的浪潮中,模型的實(shí)際性能亟需通過具體應(yīng)用場(chǎng)景的嚴(yán)格考驗(yàn),以證明其真正的價(jià)值和潛力。過去那種僅要求表面光鮮的 “作秀式” 評(píng)測(cè)方式已不再具有實(shí)際意義。為了促進(jìn)整個(gè)大模型行業(yè)的健康發(fā)展,整個(gè)行業(yè)必須追求一種更為客觀、公正且權(quán)威的評(píng)估體系。
在這樣的背景下,一個(gè)如 Chatbot Arena 這樣能夠提供真實(shí)用戶反饋、采用盲測(cè)機(jī)制以避免操縱結(jié)果、并且能夠持續(xù)更新評(píng)分體系的評(píng)測(cè)平臺(tái),顯得尤為重要。它不僅能夠?yàn)槟P吞峁┕脑u(píng)估,還能夠通過大規(guī)模的用戶參與,確保評(píng)測(cè)結(jié)果的真實(shí)性和權(quán)威性。
無(wú)論是出于自身模型能力迭代的考慮,還是立足于長(zhǎng)期口碑的視角,大模型廠商應(yīng)當(dāng)積極參與到像 Chatbot Arena 這樣的權(quán)威評(píng)測(cè)平臺(tái)中,通過實(shí)際的用戶反饋和專業(yè)的評(píng)測(cè)機(jī)制來證明其產(chǎn)品的競(jìng)爭(zhēng)力。
這不僅有助于提升廠商自身的品牌形象和市場(chǎng)地位,也有助于推動(dòng)整個(gè)行業(yè)的健康發(fā)展,促進(jìn)技術(shù)創(chuàng)新和產(chǎn)品優(yōu)化。相反,那些選擇作秀式的評(píng)測(cè)方式,忽視真實(shí)應(yīng)用效果的廠商,模型能力與市場(chǎng)需求之間的鴻溝會(huì)越發(fā)明顯,最終將難以在激烈的市場(chǎng)競(jìng)爭(zhēng)中立足。
- LMSYS Chatbot Arena 盲測(cè)競(jìng)技場(chǎng)公開投票地址:https://arena.lmsys.org/
- LMSYS Chatbot Leaderboard 評(píng)測(cè)排行(滾動(dòng)更新):https://chat.lmsys.org/?leaderboard