偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

大模型架構(gòu)創(chuàng)新已死？

2023-11-15 15:37:21

大模型的架構(gòu)創(chuàng)新，可能早就死了。好比烤鴨這道菜的菜譜公開之后，核心方法和步奏，都已經(jīng)被固定了。所以如果的大模型研發(fā)，都無法再在架構(gòu)層面另起爐灶……那自研國產(chǎn)大模型，研它還能有啥用？

一場圍繞大模型自研和創(chuàng)新的討論，這兩天在技術圈里炸了鍋。

起初，前阿里技術VP賈揚清，盆友圈爆料吐槽：有大廠新模型就是LLaMA架構(gòu)，但為了表示不同，通過改變開源代碼名字、替換幾個變量名……

一石激起千層浪，更晚一些時候，“大廠”被與零一萬物關聯(lián)，其剛發(fā)布的新模型Yi-34B被指與LLaMA架構(gòu)如出一轍。

零一萬物很快給出了說明和回應。但熱議并未就此平息，甚至圍繞大模型原創(chuàng)、自研的標準，開始被更進一步爭論。

而初步激辯中指向的結(jié)論——冷峻又真實：

大模型的架構(gòu)創(chuàng)新，可能早就死了。

好比烤鴨這道菜的菜譜公開之后，核心方法和步奏，都已經(jīng)被固定了。

所以如果的大模型研發(fā)，都無法再在架構(gòu)層面另起爐灶……那自研國產(chǎn)大模型，研它還能有啥用？

爭議

就在近日，賈揚清的吐槽，迅速火上了海外技術社區(qū)熱搜。

并且很快，零一萬物就被關聯(lián)起來。

因為就在Yi-34B首次推出后，迅速橫掃了各項中英文評測榜單，在英文領域也超越了Llama-2 70B和Falcon-180B等一眾大尺寸大模型……一時風頭無兩、木秀于林。

賈揚清爆料之后，一封Hugging Face的郵件也對外曝光了，郵件核心內(nèi)容，就是Yi模型與已經(jīng)開源的LLaMA架構(gòu)上存在重合，雖然張量命名不同，但按照開源社區(qū)的規(guī)則和規(guī)范，需要作出調(diào)整。

這也成為外界對于零一萬物和Yi-34B模型自研性的質(zhì)疑所在。

零一萬物很快給出了說明和回應，核心有兩點：

第一，Yi模型確實沿用了公開的架構(gòu)，但和LLaMA一樣，都基于的是GPT成熟結(jié)構(gòu)。

第二，大模型的研發(fā)中，模型結(jié)構(gòu)只是模型訓練的一部分，還有包括數(shù)據(jù)工程、訓練方法、baby sitting（訓練過程監(jiān)測）的技巧、hyperparameter設置、評估方法以及對評估指標在內(nèi)的核心技術挑戰(zhàn)和能力……在大量訓練實驗過程中，由于實驗執(zhí)行需求對代碼做了更名，所以處于尊重開源社區(qū)的反饋，將代碼進行更新，也為更好融入Transformer生態(tài)。

零一的回應，有人表示理解，比如開源社區(qū)領袖Stella Biderman，就認為說誰抄襲LLaMA是無稽之談，因為所有做大模型研發(fā)的團隊，現(xiàn)在都幾乎“華山一條路”了。

但更多的激辯，還在持續(xù)。

激辯

辯論的核心話題，開始不斷指向——如何定義大模型的創(chuàng)新？創(chuàng)新的標準該是什么？

在一則廣為流傳的群聊記錄中，大模型領域知名“布道者”符堯博士，提出了現(xiàn)狀和困惑。

他認為大模型主流架構(gòu)，就是一個“天下詩歌不斷抄”的過程。LLaMA的架構(gòu)抄的Chinchilla，chinchilla抄的Gopher，Gopher抄的GPT3……每個都是一兩行的改動。

而且在Hugging Face上，架構(gòu)一模一樣但名字不同的模型比比皆是……

但需要強調(diào)的是，大模型的創(chuàng)新或不同，核心應該關注的是訓練方法和數(shù)據(jù)配比——而這些并不會反映在架構(gòu)上。

以及如果嚴格來論，目前國內(nèi)的自研大模型，不論是零一萬物的Yi，還是百川智能的Baichuan，或者阿里旗下的通義千問，架構(gòu)上和LLaMA都是一致的。

大模型的創(chuàng)新，看架構(gòu)沒有意義。

另一則廣為流傳的討論，來自猴子無限的尹伯昊，他表示自己親手玩過各類模型，自己也大模型從業(yè)，可以說說自己的看法。

第一，目前使用LLaMA架構(gòu)已經(jīng)是開原模型的最優(yōu)解。因為LLaMA開源大模型已經(jīng)實現(xiàn)了斷崖式領先，有了大量工具鏈。國內(nèi)外各種大模型的預訓練，也都是保持了相同或相似的架構(gòu)。

第二，相同的架構(gòu)可以做出完全不同的模型，因為大模型的訓練是一個充分的系統(tǒng)工程，考察的因素有很多，最后的能力和效果也與這個系統(tǒng)工程息息相關。

但尹伯昊也強調(diào)，大模型創(chuàng)業(yè)者沒必要因為自研ego作祟，就不強調(diào)使用已有框架。

從現(xiàn)在的趨勢來看，開源大模型生態(tài)的發(fā)展，其實有統(tǒng)一的架構(gòu)，對于業(yè)內(nèi)更多開發(fā)者的切換利大于弊。

實際上，上述圈內(nèi)人的發(fā)言，也在進一步揭露大模型的現(xiàn)狀和真相：

大模型架構(gòu)創(chuàng)新，早就結(jié)束了。

大模型架構(gòu)創(chuàng)新已死？

如果從大模型社區(qū)長期的發(fā)展過程來看，我們不難發(fā)現(xiàn)一種趨勢——向通用化收攏。

因為基本上國際主流大模型都是基于Transformer的架構(gòu)；而后對attention、activation、normalization、positional embedding等部分做一些改動工作。

簡而言之，Transformer這個架構(gòu)似乎已然是固定的狀態(tài)。

有圈內(nèi)團隊舉例，好比讓不同的廚師都去做北京烤鴨，原材料和步驟定然是大同小異的（架構(gòu)）；而最終決定誰做出來的北京烤鴨更好吃，區(qū)別更多的是在于廚師本身對火候、烹調(diào)技術的掌握（數(shù)據(jù)參數(shù)、訓練方法等）。

而這種討論，幾乎也打破了圈外對于熱潮中“大模型創(chuàng)新”、“國產(chǎn)大模型”的某些期待，認為大模型的研發(fā)，可以完全另起爐灶。

事實是，架構(gòu)層面，早就幾近定型了。

OpenAI用GPT-3徹底點燃了大模型架構(gòu)基礎，LLaMA在GPT基礎上作出了總結(jié)并且對外開源，其后更多的玩家，沿著他們的藩籬前行。零一萬物在最新的聲明中也表示，GPT/LLaMA 的架構(gòu)正在漸成行業(yè)標準。

這種事實，也讓更多圍觀這場爭議和討論的人聯(lián)想到智能手機的系統(tǒng)往事。

當時iPhone發(fā)布，帶來了閉源的iOS。

其后開源陣營中，Android在谷歌的大力扶植中上位，成功成為開源世界的第一名，并在其后真正成為了幾乎“唯一的一個”。

所以GPT和LLaMA，是不是就是iOS和Android的重演？

然而區(qū)別于手機操作系統(tǒng)，國產(chǎn)大模型或許還會有不同。

正如在討論中，大模型創(chuàng)新被強調(diào)的訓練方法、數(shù)據(jù)配比，以及更加重要的開發(fā)者生態(tài)。

iOS和Android之時，完全是太平洋東岸的獨角戲。

但現(xiàn)在，大模型熱潮中，國產(chǎn)玩家其實面臨機遇，如果能在初期就能被全球開發(fā)者認可，那最后獲得話語權和更長遠定義權的，一定是生態(tài)最強的那個玩家。

責任編輯：姜華來源：量子位

大模型人工智能

相似話題

2040內(nèi)容

1705內(nèi)容

自然語言處理

110內(nèi)容

107內(nèi)容

同話題下的熱門內(nèi)容

告別GPT！最強AI編程神器Cursor自研核心模型，速度快4倍，AI創(chuàng)業(yè)公司大佬：這是我用過最瘋狂的模型之一！網(wǎng)友：性價比不俗 OpenAI、Claude、通義、智譜、月暗，甚至谷歌，為什么全選擇Pytorch？早期論文成員爆料：LLM太笨重了，需要微型化 DeepSeek-OCR：用視覺模態(tài)給長文本“瘦身”，大模型處理效率再突破 LangChain V1.0 深度解析：手把手帶你跑通全新智能體架構(gòu)Cursor 2.0來了！可視化的Claude Code？大模型去全球接單平臺賺外快，98%慘遭老板退貨！ScaleAI宣布新智能體基準：AI絕對自動化幾乎為0，大多知名基準過時、封閉掌握RAG系統(tǒng)的七個優(yōu)秀GitHub存儲庫剛剛，Kimi開源新架構(gòu)，開始押注線性注意力

相關專題更多

戴爾在線研討會：從“模型驅(qū)動”到“數(shù)據(jù)驅(qū)動”的智算架構(gòu)創(chuàng)新

看懂惠普 ZBookX 移動工作站的設計美學與效能突破

2025-10-11 13:42:35

技術薈萃 | 親身體驗 | 交流盛宴

2025-04-23 08:49:09

我收藏的內(nèi)容

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<tt id="tym9h"></tt>