偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

國(guó)產(chǎn)模型指令跟隨全球第一！來(lái)自LeCun親推的「最難作弊」大模型新榜單

作者：量子位 2024-11-21 13:00:00

人工智能新聞

圖靈獎(jiǎng)得主、Meta首席AI科學(xué)家楊立昆（Yann LeCun），聯(lián)合紐約大學(xué)等在今年6月推出。

What？？？

一直低調(diào)行事的國(guó)內(nèi)初創(chuàng)公司，旗下模型悄悄地躍升成國(guó)內(nèi)第一、世界第五（僅排在o1系列和Claude 3.5之后）！

而且是前十名中的唯一一家國(guó)產(chǎn)公司。

（該榜上國(guó)產(chǎn)第二名是阿里開(kāi)源的qwen2.5-72b-instruct，總榜第13）。

而且它登上的這個(gè)排行榜LiveBench，雖然現(xiàn)在還沒(méi)有大模型競(jìng)技場(chǎng)（LMSYS Chatboat Arena）那么廣為人知，但資格杠杠的——

圖靈獎(jiǎng)得主、Meta首席AI科學(xué)家楊立昆（Yann LeCun），聯(lián)合紐約大學(xué)等在今年6月推出。

號(hào)稱是“全球首個(gè)無(wú)法作弊的LLM基準(zhǔn)測(cè)試”。

而這次冷不丁殺出來(lái)的黑馬，其實(shí)比較熟悉國(guó)內(nèi)大模型競(jìng)爭(zhēng)格局的朋友們已經(jīng)猜到了——

Step系列，背后是大模型六小虎之一的階躍星辰。

指令跟隨高分拿下全球第一

在LiveBench榜單上，階躍星辰自研的萬(wàn)億參數(shù)語(yǔ)言大模型Step-2-16k-202411在Global Average上拿下57.68分。

位列總榜第五、國(guó)產(chǎn)第一。

這個(gè)榜單之前出現(xiàn)頻率不高，一方面是它確實(shí)很新，今年6月才剛推出；另一方面更加現(xiàn)實(shí)，那就是此前國(guó)產(chǎn)大模型并未在這個(gè)榜單塔尖取得傲人成績(jī)。

這倒也不耽誤榜單自身的實(shí)力——

LeCun和紐約大學(xué)等機(jī)構(gòu)聯(lián)手推出，專為大模型設(shè)計(jì)，目前包含6個(gè)類別的17個(gè)不同任務(wù)，每月更新新問(wèn)題。

目標(biāo)是確保榜單的問(wèn)題不易受到污染，并且能夠輕松、準(zhǔn)確、公平地進(jìn)行評(píng)估。

強(qiáng)調(diào)不易受到污染，是因?yàn)橛?xùn)練數(shù)據(jù)中包含了大量互聯(lián)網(wǎng)內(nèi)容，許多BenchMark很容易受到污染。

比如大家比較熟悉的數(shù)學(xué)測(cè)試集GSM8K，最近被證明有好些模型已經(jīng)在它這兒過(guò)擬合了。這顯然為評(píng)估模型能力帶來(lái)了困擾。

除了要小心BenchMark被污染，確保評(píng)估方式公平、無(wú)偏見(jiàn)也很重要。

一般來(lái)說(shuō)，大家都采用的是LLM擔(dān)任評(píng)委或人類當(dāng)裁判這兩種方式。而LiveBench選擇采用客觀、基本事實(shí)判斷來(lái)評(píng)估每個(gè)問(wèn)題。

那么，當(dāng)我們首次正視這個(gè)榜單的時(shí)候，我們還能從其中看出些什么？

先說(shuō)成績(jī)出色的Step-2。

IF Average一項(xiàng)，也就是指令跟隨，它以最高分拿下全球第一。

這個(gè)項(xiàng)目的內(nèi)容，是對(duì)《衛(wèi)報(bào)》近期新文章進(jìn)行改寫(xiě)、簡(jiǎn)化、總結(jié)或生成故事。

86.57這個(gè)成績(jī)是真的非常高——榜單上其余眾人（哪怕是OpenAI和Anthropic家的模型們）都在70-80分段，單項(xiàng)第二名的Meta-LLaMA-3.1-405b-instruct-turbo比它低了8分多。

這意味著，Step-2在語(yǔ)言生成上對(duì)細(xì)節(jié)有強(qiáng)控制力，理解能力max，然后更好地遵循人類指令。

更具體些可以理解為，當(dāng)我們普通人輸入語(yǔ)句顛倒、語(yǔ)意不清、表意模糊的非專業(yè)·真普通·prompt時(shí)，Step-2能結(jié)合上下文、具體情境推斷使用者的具體需求，把一個(gè)模糊指令從“360p”進(jìn)行“1080p”的理解，精準(zhǔn)捕捉模糊指令背后的真實(shí)意圖。

同時(shí)意味著內(nèi)容創(chuàng)作能力也很強(qiáng)，比如讓它創(chuàng)作一首古詩(shī)詞，它在字?jǐn)?shù)、格律、押韻、意境等方面，都能有精準(zhǔn)的把控。

完全自主研發(fā)，MoE架構(gòu)，萬(wàn)億參數(shù)

在這次因?yàn)長(zhǎng)iveBench又出來(lái)炸場(chǎng)一波之前，Step-2留給外界的最深刻印象，一定有一個(gè)是“國(guó)內(nèi)首個(gè)由初創(chuàng)公司推出的萬(wàn)億參數(shù)大模型”。

這有點(diǎn)像階躍風(fēng)格的具像化。在大模型六小虎中，階躍的Step系列發(fā)布最晚，但出手毫不含糊。

今年3月，Step-2在全球開(kāi)發(fā)者先鋒大會(huì)開(kāi)幕式預(yù)覽亮相，一下子就從前作Step-1的千億參數(shù)規(guī)模，拉升到了萬(wàn)億參數(shù)規(guī)模。

吊足了胃口后，夏天的WAIC 2024期間，Step-2推出正式版。

模型采用了MoE架構(gòu)。

一般而言，主流訓(xùn)練MoE模型有兩種方式，不然就基于已有模型通過(guò)upcycle（向上復(fù)用）開(kāi)始訓(xùn)練，不然就從頭開(kāi)始訓(xùn)練。

Upcycle方式所需算力相對(duì)更低、訓(xùn)練效率更高，但隨隨便便就到這種方式的天花板了。

比如基于拷貝復(fù)制得到的MoE模型，非常容易出現(xiàn)專家同質(zhì)化嚴(yán)重的情況。

而選擇從頭開(kāi)始訓(xùn)練MoE模型的話，能夠探得更高的模型上限，但作為代價(jià)，訓(xùn)練難度也會(huì)增大。

但階躍團(tuán)隊(duì)還是選擇了后者，選擇完全自主研發(fā)，選擇從頭開(kāi)始訓(xùn)練。

過(guò)程中，通過(guò)部分專家共享參數(shù)、異構(gòu)化專家設(shè)計(jì)等創(chuàng)新MoE架構(gòu)設(shè)計(jì)，Step-2這個(gè)混合專家模型中的每個(gè)專家都得到了充分訓(xùn)練。

故而，Step-2總參數(shù)量達(dá)到萬(wàn)億級(jí)別，每次訓(xùn)練或推理所激活的參數(shù)量也超過(guò)了市面上的大部分Dense模型。

此外，Step-2的訓(xùn)練過(guò)程中，階躍的系統(tǒng)團(tuán)隊(duì)突破了6D并行、極致顯存管理、完全自動(dòng)化運(yùn)維等關(guān)鍵技術(shù)，支撐起了整個(gè)模型的高效訓(xùn)練。

初亮相時(shí)，階躍官方表示：

Step-2在數(shù)理邏輯、編程、中文知識(shí)、英文知識(shí)、指令跟隨等方面體感全面逼近GPT-4。

結(jié)合這次LiveBench AI的成績(jī)來(lái)看，團(tuán)隊(duì)對(duì)Step-2的定位、優(yōu)勢(shì)所在，把握得很清晰。

基座模型技術(shù)能力強(qiáng)，關(guān)鍵是要讓人用起來(lái)才行。

官方消息是，Step-2已經(jīng)接入了階躍星辰的C端智能生活助手「躍問(wèn)」，Web端和App都可以試一把。

如果是開(kāi)發(fā)者，可以在階躍星辰開(kāi)放平臺(tái)通過(guò)API接入使用Step-2。

語(yǔ)言模型和多模態(tài)模型全都要

開(kāi)篇咱們提到，Step模型是一個(gè)系列，而Step-2是其語(yǔ)言模型的實(shí)力代表。

在這個(gè)系列中，除了語(yǔ)言模型，階躍星辰的多模態(tài)模型也很有看頭。

Step-1.5V是階躍星辰的多模理解大模型，這款模型在三個(gè)方面優(yōu)勢(shì)突出：

一是感知能力。創(chuàng)新的圖文混排訓(xùn)練方法，讓Step-1.5V能理解復(fù)雜圖表、流程圖、準(zhǔn)確感知物理空間復(fù)雜的幾何位置，還能夠處理高分辨率和極限長(zhǎng)寬比的圖像。

二是推理能力。根據(jù)圖像內(nèi)容進(jìn)行各類高級(jí)推理任務(wù)，如解答數(shù)學(xué)題、編寫(xiě)代碼、創(chuàng)作詩(shī)歌等。

三是視頻理解能力。它不僅能夠準(zhǔn)確識(shí)別視頻中的物體、人物和環(huán)境，還能夠理解視頻的整體氛圍和人物情緒。

生成方面，階躍手里有Step-1X圖像生成大模型。

Step-1X采用DiT（Diffusion Models with transformer）架構(gòu)，有600M、2B和8B三種不同的參數(shù)量，語(yǔ)意理解和圖像創(chuàng)意實(shí)現(xiàn)兩手抓。

具體而言，不管文本指令簡(jiǎn)單還是復(fù)雜，不管是畫(huà)單一對(duì)象還是多層次、復(fù)雜內(nèi)涵場(chǎng)景，它都能cover。

另外，該模型還支持針對(duì)中國(guó)元素的深度優(yōu)化，使生成內(nèi)容更適合國(guó)人的審美風(fēng)格。

至于語(yǔ)言模型和多模態(tài)模型全都要，階躍有自己的道理。

從成立一開(kāi)始，階躍星辰就明確了自身通往 AGI 的路線圖：

單模態(tài)——多模態(tài)——多模態(tài)理解和生成的統(tǒng)一——世界模型——AGI。

換言之，階躍的目標(biāo)是開(kāi)發(fā)出能夠?qū)崿F(xiàn)AGI的多模態(tài)大模型，并利用這些自主研發(fā)的大模型，創(chuàng)造新一代的AI應(yīng)用。

為著這個(gè)目標(biāo)，這一年多來(lái)，階躍已經(jīng)寫(xiě)下了屬于自己的答案。

研發(fā)迭代速度很快，不到一年，無(wú)論Step-1到Step-2，還是Step-1V到Step-1.5V，整體持續(xù)跑步前進(jìn)中。

產(chǎn)品也有自己的想法，沒(méi)有局限在ChatBot上。Step-2登頂國(guó)內(nèi)的同一天，階躍旗下的躍問(wèn)還上了一個(gè)新功能：

簡(jiǎn)單設(shè)置，就能通過(guò)iPhone 16右下方側(cè)邊的“相機(jī)控制”按鈕，一鍵調(diào)用“拍照問(wèn)”功能。

沒(méi)有iPhone 16的蘋(píng)果用戶，把系統(tǒng)升級(jí)到iOS18也能一步調(diào)用國(guó)產(chǎn)AI 了。

雖然已經(jīng)在六小虎中占據(jù)一席，但近日看階躍，仍然想以黑馬來(lái)形容它。

論技術(shù)和實(shí)力，Step-2能突然殺到業(yè)界權(quán)威榜單國(guó)內(nèi)第一，成為全球榜單前十唯一國(guó)產(chǎn)玩家。

大模型浪潮奔騰至今，已經(jīng)有快兩年的時(shí)間了。

兩年里，投身其中的技術(shù)從業(yè)者們都在（看似分布其實(shí)共同）打造一個(gè)愿景，一個(gè)許多人都愿意參與并與之聯(lián)系在一起的愿景。

有理由相信，階躍Step系列，以及中國(guó)的大模型們，都會(huì)因?yàn)樽吭降募夹g(shù)實(shí)力和不懈的創(chuàng)新追求，越來(lái)越熠熠生輝。

One More Thing

上個(gè)月，智源研究院推出辯論平臺(tái)FlagEval Debate，旨在通過(guò)引入模型辯論這一競(jìng)爭(zhēng)機(jī)制對(duì)大模型能力評(píng)估提供新的度量標(biāo)尺。

和大模型競(jìng)技場(chǎng)玩法有點(diǎn)類似，就是倆模型一個(gè)正方一個(gè)反方，雙盲測(cè)試，辯論完后用戶投票。

然后才揭曉正反雙方都是誰(shuí)。

模型辯論，主要靠的是信息理解、知識(shí)整合、邏輯推理、語(yǔ)言生成和對(duì)話能力。

當(dāng)然了，同時(shí)還能測(cè)復(fù)雜語(yǔ)境中信息的處理深度和遷移應(yīng)變能力，反映其學(xué)習(xí)與推理的進(jìn)步水平。

淺玩了一下，有些議題還蠻有意思。

比如“博物館著火，只能救一個(gè)，救貓還是救《蒙娜麗莎》”這個(gè)議題。

倆模型吵到后面，“貓有九條命”的話都說(shuō)出來(lái)了，笑死。

最后反復(fù)投了幾次，Step-2大勝o1。

看來(lái)它辯論能力也很強(qiáng)呀……

榜單官網(wǎng)：https://livebench.ai/#/blog

躍問(wèn)鏈接：https://yuewen.cn

FlagEval Debate官網(wǎng)：https://flageval.baai.org/#/debate

責(zé)任編輯：張燕妮來(lái)源：量子位

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="7hgu5"></sub>