偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

「全球最嚴(yán)榜單」,階躍拿下中國TOP 1!殺入世界前五,超過GPT-4o緊跟o1-mini

人工智能 新聞
在「全球最難LLM評測榜單」上,國產(chǎn)萬億參數(shù)模型殺入全球第五,拿下中國第一!國內(nèi)明星初創(chuàng)階躍星辰的這個自研模型太過亮眼,甚至引起了外國網(wǎng)友的熱議。

不低調(diào)了!

剛剛,國際權(quán)威榜單LiveBench最新榜單出爐,一個國產(chǎn)黑馬閃耀其中。

沒錯,它就是階躍星辰自研的萬億參數(shù)大模型Step-2。

Step-2以碾壓之勢,強勢殺入LiveBench全球前五,一舉奪得國內(nèi)TOP 1。

圖片

更讓人熱血沸騰的是,這款Step-2語言大模型,成為唯一一個沖進榜單前十的中國語言大模型。

根據(jù)榜單評測,Step-2成績逼近OpenAI o1-mini(2024-09-12),超越GPT-4o(2024-08-06)、Gemini 1.5 Pro 002等國際主流模型。

Step-2的真實表現(xiàn),徹底震驚了歪果仁。在Reddit和X上,可謂是熱議連連。

圖片

圖片

太令人印象深刻了!或許OpenAI、Anthropic、DeepMind發(fā)布萬億參數(shù)模型時,我們也能看到這一結(jié)果。

圖片

中國的LLM正在變得強大,一個全新模型登上LiveBench榜單第五名,而且在多個基準(zhǔn)測試中超越了GPT-4o,甚至在其中一個基準(zhǔn)上擊敗了o1-preview

如今,Step-2以王者姿態(tài),實至名歸。

趕超o1-preview,全憑驚人理解力

根據(jù)榜單,在IF Average(指令跟隨)一項中,Step-2的表現(xiàn)超越了所有上榜的國內(nèi)外模型。

甚至,連OpenAI o1-preview(2024-09-12)也被碾壓式擊敗,領(lǐng)先近10分。

這意味著,Step-2在語言生成上對細節(jié)有最強的控制力,模型能夠更好地理解和遵循人類指令。

比如,即便給出模糊的指令,憑借出色的理解能力,Step-2基于上下文推斷用戶的需求,精準(zhǔn)捕捉其真實意圖,提供更準(zhǔn)確、個性化的響應(yīng)。

Step-2的與眾不同在于,在知識覆蓋面和深度上,取得了實打?qū)嵉耐黄啤?/span>

不僅能處理常見的領(lǐng)域知識,還能更深層次理解、回答特定領(lǐng)域復(fù)雜問題。

在文字創(chuàng)作方面,Step-2更展現(xiàn)出了令人驚嘆的控制力。

它就像一位豐富的文字匠人,比如在創(chuàng)作古詩詞時,對字?jǐn)?shù)、格律、押韻、意境都可以做到精準(zhǔn)把握。

Step-2既能生成高質(zhì)量、有創(chuàng)意的文字內(nèi)容,又具備了出色的細節(jié)控制力,根據(jù)用戶指令對文本進行精準(zhǔn)調(diào)整和優(yōu)化。

大模型最權(quán)威評測,LeCun領(lǐng)銜

值得一提的是,LiveBench是由圖靈獎得主Yann LeCun聯(lián)手Abacus.AI、NYU、英偉達等多家機構(gòu)推出的LLM評測基準(zhǔn)。

其含金量,不言而喻。

而且,它被行業(yè)譽為「世界上第一個不可玩弄的LLM基準(zhǔn)測試」。

圖片

當(dāng)前,測試集污染,已經(jīng)成為公平評估大模型面臨的一個普遍問題。

就好比LLM在訓(xùn)練時偷看了測試數(shù)據(jù),使得原有評測失去了意義。

雖然業(yè)界嘗試通過人工/LLM打分來收集新提示詞和評估結(jié)果,但這種方法會引入新的偏差,特別是在評估復(fù)雜問題時表現(xiàn)不佳。

LiveBench就是為了破解這一難題而誕生。

這一創(chuàng)新基準(zhǔn)從數(shù)學(xué)、推理、編程、語言理解、指令遵循和數(shù)據(jù)分析在內(nèi)的多個復(fù)雜維度對模型進行評估。

而且,它還會每月定期更新,基于最新信息源的測試問題。

每個測試問題都配備了可驗證的、客觀的參考答案,這使得即使是較為復(fù)雜的問題也能夠準(zhǔn)確且自動地完成評分,無需依賴LLM作為評判標(biāo)準(zhǔn)。

圖片

項目地址:https://livebench.ai/#

為了確保測試的「新鮮度」,它采用了多種創(chuàng)新方法,保證測試內(nèi)容未受數(shù)據(jù)污染。

比如,精心設(shè)計基于最新數(shù)學(xué)競賽、arXiv論文、新聞文章和數(shù)據(jù)集的問題,同時收錄了來自現(xiàn)有評測基準(zhǔn)(如Big-Bench Hard、AMPS和IFEval)的改進版任務(wù)。

發(fā)布之初,研究團隊基于LiveBench對知名閉源模型進行評測,以及對參數(shù)規(guī)模從5億到1100億參數(shù)不等的數(shù)十個開源模型進行了評估。

測試結(jié)果卻令人深思:即使是最強大的模型,準(zhǔn)確率也未能突破65%的天花板。

圖片

足見,LiveBench在大模型評測中的權(quán)威性和挑戰(zhàn)性。

這也從側(cè)面說明了,能夠躋身TOP 5的模型,必定是真材實料、技術(shù)過硬的佼佼者。

那么,究竟是怎樣的技術(shù)實力,讓Step-2能夠在如此嚴(yán)苛的考驗下脫穎而出?

讓我們一起來揭開這個謎底...

萬億參數(shù)Step-2,是怎樣煉成的

今年3月,還是LLM戰(zhàn)場新玩家的階躍星辰,就一口氣發(fā)布了千億參數(shù)語言大模型Step-1、千億參數(shù)多模態(tài)大模型Step-1V,以及來自國內(nèi)大模型初創(chuàng)的首個萬億參數(shù)MoE語言大模型Step-2預(yù)覽版。

今年7月,Step-2正式亮相后,更是直接躋身國際頂尖模型的行列。

在數(shù)理邏輯、編程、中文知識、英文知識、指令跟隨等方面,Step-2的能力和使用體驗已經(jīng)全方位逼近GPT-4。

目前,階躍星辰已將Step-2接入了C端智能助手「躍問」,在躍問App和躍問網(wǎng)頁端皆可體驗。

圖片

體驗地址:https://yuewen.cn

從千億模型擴展到萬億參數(shù),并不是簡單的「大力出奇跡」,而是需要跨過技術(shù)上的「分水嶺」,對各個維度的要求都是水漲船高。

一旦其中任何維度出現(xiàn)短板,Scaling Law都將不再適用,出現(xiàn)「只投入,不產(chǎn)出」的尷尬局面。

為了訓(xùn)出強悍的Step-2,技術(shù)團隊在算法和系統(tǒng)方面都做出了大量的關(guān)鍵創(chuàng)新。

階躍星辰創(chuàng)始人、CEO姜大昕博士表示,模型擴大到萬億級別時,MoE幾乎是必選項,這是權(quán)衡了性能、參數(shù)量、訓(xùn)練成本、推理成本等各個維度后的最佳選擇。

要訓(xùn)練如此大規(guī)模的MoE模型,有兩條路可走:一是將已有模型進行向上復(fù)用(up-cycle)。

這個方案最大的好處,就在于省錢省力,算力需求低、訓(xùn)練效率高,但會限制模型能力的上限,容易造成比較嚴(yán)重的專家同質(zhì)化。

圖片

為了達到最優(yōu)性能,階躍星辰團隊選擇迎難而上,沒有采用第一種方案,而是完全自主研發(fā),從頭開始。

Step-2的架構(gòu)中采用了部分專家共享參數(shù)、異構(gòu)化專家等一系列新穎的設(shè)計,充分利用萬億參數(shù)。

雖然在MoE架構(gòu)中,每次訓(xùn)練或推理只會激活部分參數(shù),但背靠萬億總量,激活的參數(shù)量也能超越大部分稠密模型。

當(dāng)參數(shù)增長到萬億級別時,訓(xùn)練效率至關(guān)重要,這離不開高效且穩(wěn)定的系統(tǒng)部署。

高效,意味著GPU的使用效率高,讓有限的硬件輸出最多的算力;穩(wěn)定,意味著訓(xùn)練過程需要持續(xù)進行,不能輕易被故障打斷。

即使每張GPU日夜不停連續(xù)跑兩個月才出現(xiàn)一次故障,放在萬卡集群中,相當(dāng)于平均每10分鐘就有一張卡出問題。

如果沒有自動的故障檢測和恢復(fù)機制,每張卡出問題時都要恢復(fù)檢查點、重啟訓(xùn)練,不僅工程師不用睡覺了,模型的訓(xùn)練周期更是成倍拉長。

在Step-2訓(xùn)練過程中,階躍星辰的系統(tǒng)團隊突破了6D并行、極致顯存管理、完全自動化運維等關(guān)鍵技術(shù),從高效、穩(wěn)定兩個層面同時發(fā)力,才能在3個月的時間內(nèi)發(fā)布新模型。

如今,哪條是通往AGI的坦途,業(yè)內(nèi)大佬們依舊爭論不一。

從Step-2霸榜驚艷表現(xiàn),到多模型齊頭并進,階躍星辰展現(xiàn)出一家頂尖AI公司應(yīng)有的實力和遠見。

這不僅僅是一個技術(shù)突破的見證,更是一個關(guān)于中國AI力的最好注腳。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-02-18 09:00:00

2024-09-23 16:00:00

AI模型測評

2024-06-05 08:29:35

2024-09-29 13:07:16

2024-05-21 12:23:17

2024-05-21 12:22:38

2024-07-19 12:43:34

2024-07-22 15:13:24

2024-10-17 14:05:34

2024-12-09 07:00:00

o1-mini模型強化微調(diào)OpenAI

2024-05-24 14:04:04

2025-01-06 13:15:02

2024-09-19 17:44:04

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2025-04-15 08:01:12

2024-10-17 13:30:00

2025-04-08 02:26:00

2025-01-02 13:00:00

2025-05-22 13:42:28

大模型AIGPT-4o

2024-06-27 12:45:30

點贊
收藏

51CTO技術(shù)棧公眾號