偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型架構(gòu)創(chuàng)新已死?

人工智能
大模型的架構(gòu)創(chuàng)新,可能早就死了。好比烤鴨這道菜的菜譜公開之后,核心方法和步奏,都已經(jīng)被固定了。所以如果的大模型研發(fā),都無法再在架構(gòu)層面另起爐灶……那自研國產(chǎn)大模型,研它還能有啥用?

一場圍繞大模型自研和創(chuàng)新的討論,這兩天在技術(shù)圈里炸了鍋。

起初,前阿里技術(shù)VP賈揚(yáng)清,盆友圈爆料吐槽:有大廠新模型就是LLaMA架構(gòu),但為了表示不同,通過改變開源代碼名字、替換幾個變量名……

一石激起千層浪,更晚一些時候,“大廠”被與零一萬物關(guān)聯(lián),其剛發(fā)布的新模型Yi-34B被指與LLaMA架構(gòu)如出一轍。

零一萬物很快給出了說明和回應(yīng)。但熱議并未就此平息,甚至圍繞大模型原創(chuàng)、自研的標(biāo)準(zhǔn),開始被更進(jìn)一步爭論。

而初步激辯中指向的結(jié)論——冷峻又真實(shí):

大模型的架構(gòu)創(chuàng)新,可能早就死了。

好比烤鴨這道菜的菜譜公開之后,核心方法和步奏,都已經(jīng)被固定了。

所以如果的大模型研發(fā),都無法再在架構(gòu)層面另起爐灶……那自研國產(chǎn)大模型,研它還能有啥用?

爭議

就在近日,賈揚(yáng)清的吐槽,迅速火上了海外技術(shù)社區(qū)熱搜。

并且很快,零一萬物就被關(guān)聯(lián)起來。

圖片

因?yàn)榫驮赮i-34B首次推出后,迅速橫掃了各項(xiàng)中英文評測榜單,在英文領(lǐng)域也超越了Llama-2 70B和Falcon-180B等一眾大尺寸大模型……一時風(fēng)頭無兩、木秀于林。

賈揚(yáng)清爆料之后,一封Hugging Face的郵件也對外曝光了,郵件核心內(nèi)容,就是Yi模型與已經(jīng)開源的LLaMA架構(gòu)上存在重合,雖然張量命名不同,但按照開源社區(qū)的規(guī)則和規(guī)范,需要作出調(diào)整。

這也成為外界對于零一萬物和Yi-34B模型自研性的質(zhì)疑所在。

零一萬物很快給出了說明和回應(yīng),核心有兩點(diǎn):

第一,Yi模型確實(shí)沿用了公開的架構(gòu),但和LLaMA一樣,都基于的是GPT成熟結(jié)構(gòu)。

第二,大模型的研發(fā)中,模型結(jié)構(gòu)只是模型訓(xùn)練的一部分,還有包括數(shù)據(jù)工程、訓(xùn)練方法、baby sitting(訓(xùn)練過程監(jiān)測)的技巧、hyperparameter設(shè)置、評估方法以及對評估指標(biāo)在內(nèi)的核心技術(shù)挑戰(zhàn)和能力……在大量訓(xùn)練實(shí)驗(yàn)過程中,由于實(shí)驗(yàn)執(zhí)行需求對代碼做了更名,所以處于尊重開源社區(qū)的反饋,將代碼進(jìn)行更新,也為更好融入Transformer生態(tài)。

零一的回應(yīng),有人表示理解,比如開源社區(qū)領(lǐng)袖Stella Biderman,就認(rèn)為說誰抄襲LLaMA是無稽之談,因?yàn)樗凶龃竽P脱邪l(fā)的團(tuán)隊(duì),現(xiàn)在都幾乎“華山一條路”了。

圖片

但更多的激辯,還在持續(xù)。

激辯

辯論的核心話題,開始不斷指向——如何定義大模型的創(chuàng)新?創(chuàng)新的標(biāo)準(zhǔn)該是什么?

在一則廣為流傳的群聊記錄中,大模型領(lǐng)域知名“布道者”符堯博士,提出了現(xiàn)狀和困惑。

他認(rèn)為大模型主流架構(gòu),就是一個“天下詩歌不斷抄”的過程。LLaMA的架構(gòu)抄的Chinchilla,chinchilla抄的Gopher,Gopher抄的GPT3……每個都是一兩行的改動。

而且在Hugging Face上,架構(gòu)一模一樣但名字不同的模型比比皆是……

但需要強(qiáng)調(diào)的是,大模型的創(chuàng)新或不同,核心應(yīng)該關(guān)注的是訓(xùn)練方法和數(shù)據(jù)配比——而這些并不會反映在架構(gòu)上。

以及如果嚴(yán)格來論,目前國內(nèi)的自研大模型,不論是零一萬物的Yi,還是百川智能的Baichuan,或者阿里旗下的通義千問,架構(gòu)上和LLaMA都是一致的。

大模型的創(chuàng)新,看架構(gòu)沒有意義。

另一則廣為流傳的討論,來自猴子無限的尹伯昊,他表示自己親手玩過各類模型,自己也大模型從業(yè),可以說說自己的看法。

第一,目前使用LLaMA架構(gòu)已經(jīng)是開原模型的最優(yōu)解。因?yàn)長LaMA開源大模型已經(jīng)實(shí)現(xiàn)了斷崖式領(lǐng)先,有了大量工具鏈。國內(nèi)外各種大模型的預(yù)訓(xùn)練,也都是保持了相同或相似的架構(gòu)。

第二,相同的架構(gòu)可以做出完全不同的模型,因?yàn)榇竽P偷挠?xùn)練是一個充分的系統(tǒng)工程,考察的因素有很多,最后的能力和效果也與這個系統(tǒng)工程息息相關(guān)。

但尹伯昊也強(qiáng)調(diào),大模型創(chuàng)業(yè)者沒必要因?yàn)樽匝衑go作祟,就不強(qiáng)調(diào)使用已有框架。

從現(xiàn)在的趨勢來看,開源大模型生態(tài)的發(fā)展,其實(shí)有統(tǒng)一的架構(gòu),對于業(yè)內(nèi)更多開發(fā)者的切換利大于弊。

實(shí)際上,上述圈內(nèi)人的發(fā)言,也在進(jìn)一步揭露大模型的現(xiàn)狀和真相:

大模型架構(gòu)創(chuàng)新,早就結(jié)束了。

大模型架構(gòu)創(chuàng)新已死?

如果從大模型社區(qū)長期的發(fā)展過程來看,我們不難發(fā)現(xiàn)一種趨勢——向通用化收攏。

因?yàn)榛旧蠂H主流大模型都是基于Transformer的架構(gòu);而后對attention、activation、normalization、positional embedding等部分做一些改動工作。

簡而言之,Transformer這個架構(gòu)似乎已然是固定的狀態(tài)。

有圈內(nèi)團(tuán)隊(duì)舉例,好比讓不同的廚師都去做北京烤鴨,原材料和步驟定然是大同小異的(架構(gòu));而最終決定誰做出來的北京烤鴨更好吃,區(qū)別更多的是在于廚師本身對火候、烹調(diào)技術(shù)的掌握(數(shù)據(jù)參數(shù)、訓(xùn)練方法等)。

而這種討論,幾乎也打破了圈外對于熱潮中“大模型創(chuàng)新”、“國產(chǎn)大模型”的某些期待,認(rèn)為大模型的研發(fā),可以完全另起爐灶。

事實(shí)是,架構(gòu)層面,早就幾近定型了。

OpenAI用GPT-3徹底點(diǎn)燃了大模型架構(gòu)基礎(chǔ),LLaMA在GPT基礎(chǔ)上作出了總結(jié)并且對外開源,其后更多的玩家,沿著他們的藩籬前行。零一萬物在最新的聲明中也表示,GPT/LLaMA 的架構(gòu)正在漸成行業(yè)標(biāo)準(zhǔn)。

這種事實(shí),也讓更多圍觀這場爭議和討論的人聯(lián)想到智能手機(jī)的系統(tǒng)往事。

當(dāng)時iPhone發(fā)布,帶來了閉源的iOS。

其后開源陣營中,Android在谷歌的大力扶植中上位,成功成為開源世界的第一名,并在其后真正成為了幾乎“唯一的一個”。

所以GPT和LLaMA,是不是就是iOS和Android的重演?

然而區(qū)別于手機(jī)操作系統(tǒng),國產(chǎn)大模型或許還會有不同。

正如在討論中,大模型創(chuàng)新被強(qiáng)調(diào)的訓(xùn)練方法、數(shù)據(jù)配比,以及更加重要的開發(fā)者生態(tài)。

iOS和Android之時,完全是太平洋東岸的獨(dú)角戲。

但現(xiàn)在,大模型熱潮中,國產(chǎn)玩家其實(shí)面臨機(jī)遇,如果能在初期就能被全球開發(fā)者認(rèn)可,那最后獲得話語權(quán)和更長遠(yuǎn)定義權(quán)的,一定是生態(tài)最強(qiáng)的那個玩家。

責(zé)任編輯:姜華 來源: 量子位
相關(guān)推薦

2013-03-14 10:10:14

硅谷創(chuàng)新利潤

2019-02-22 08:00:00

Lambda架構(gòu)IOTA

2011-05-11 09:01:29

面向?qū)ο蠹夹g(shù)函數(shù)式語言

2011-01-07 10:18:28

RSSWeb

2022-09-15 10:44:42

SidecarIstioeBPFizer

2023-02-06 07:37:29

Java編程語言

2025-07-23 09:10:00

AI模型架構(gòu)

2014-01-06 09:36:53

IT部門BYODBYOA

2012-02-20 10:12:09

Java

2011-08-25 09:55:30

IBMPC大型機(jī)

2017-01-22 08:08:59

硬件科技新聞早報新聞解讀

2015-08-31 10:59:22

2011-12-07 10:20:19

Email新聞

2021-01-19 10:58:15

漏洞管理漏洞數(shù)據(jù)泄露

2021-04-19 08:17:42

MesosKubernetesLinux

2025-09-15 09:10:09

2020-02-29 15:18:10

DevOpsNoOps運(yùn)維

2013-01-31 17:23:20

RIM黑莓BB10

2020-02-19 11:35:21

iPhone越獲PP助手

2024-09-03 09:31:59

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號