偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

混合專家系統(tǒng)里根本沒專家?開源MoE模型論文引網(wǎng)友熱議

開發(fā) 前端
作者比較了模型針對相鄰token選擇相同專家的概率,包括第一選擇一致率和第一二選擇一致率。第一二選擇一致是指,模型針對兩個token分別做出的第一和第二選擇,只要存在交集即視為一致。

紅極一時的開源MoE模型Mixtral,論文終于新鮮出爐!

除了披露了更多技術(shù)細節(jié),論文中還有一個結(jié)論引發(fā)了熱烈討論——

研究人員本想研究Mixtral是怎么根據(jù)話題分配專家的,結(jié)果發(fā)現(xiàn)專家的分配……和話題好像沒什么關(guān)系。

圖片圖片

而在大多數(shù)人的印象中,Mixtral里的8個專家,是分別負責處理不同領(lǐng)域的話題的……

論文的結(jié)論曝光后,不少網(wǎng)友開始認為“專家混合”這個說法,可能不那么貼切了:

圖片圖片

于是,針對Mixtral真實的工作機制,有網(wǎng)友給出了這樣的比喻:

所以,比起“專家的組合”,這樣的工作方式更像是一種硬盤陣列或者負載均衡?

圖片圖片

但也有網(wǎng)友表示了不同意見:

這個問題并不根屬于MoE,因為自己之前見過的MoE模型中,是發(fā)現(xiàn)了真·專家分工的現(xiàn)象的。

圖片圖片

那么,這究竟是怎么一回事呢?

實驗未發(fā)現(xiàn)專家按領(lǐng)域分布

在訓練過程中,作者觀察了Mixtral中是否有一些專家會針對某些特定領(lǐng)域進行專門化。

具體來說,作者計算了第0、15、31層在The Pile驗證集的不同子集(包含不同領(lǐng)域的文檔)上被選中的專家分布。

這些子集包括LaTeX格式的arXiv論文、生物學論文(PubMed摘要)、哲學論文(PhilPapers)和GitHub代碼等。

結(jié)果發(fā)現(xiàn),對這幾個層而言,除了數(shù)學領(lǐng)域(DM Mathematics)數(shù)據(jù)集的專家選擇略有不同外,其余數(shù)據(jù)集的專家分布都非常類似,并沒有體現(xiàn)出領(lǐng)域間有什么差別。

圖片圖片

而在數(shù)學問題上出現(xiàn)不同表現(xiàn)的原因,可能是由于其具有相對特殊的語法結(jié)構(gòu),進一步的探究也證實了這一想法。

他們發(fā)現(xiàn),專家選擇會被句子的語法結(jié)構(gòu)所影響,一些語法關(guān)鍵詞,比如英語中的“Question”或者代碼中的“self”,被分配到相同的專家的概率非常大。

圖片圖片

此外,定量的分析結(jié)果還發(fā)現(xiàn)了另一個專家分配規(guī)律——相鄰的token有很大概率被分配給同一專家。

作者比較了模型針對相鄰token選擇相同專家的概率,包括第一選擇一致率和第一二選擇一致率。

第一二選擇一致是指,模型針對兩個token分別做出的第一和第二選擇,只要存在交集即視為一致。

(比如第一個token的第一、二專家為分別為甲、乙,第二個token的第一、二專家分別為乙、丙,因為都包含了乙,就是一種第一二選擇一致的情況)

因Mixtral中有8個專家,因此在全隨機的選擇方式下,第一選擇一致率應(yīng)為12.5%(1/8),第一二選擇一致率應(yīng)為1 - (6/8) × (5/7),約為46%。

但實際測試發(fā)現(xiàn),Mixtral第一和第一二選擇一致率高于隨機情況,特別是中間的第15層,說明了模型在專家選擇上是具有傾向性的。

圖片圖片

論文地址:https://arxiv.org/abs/2401.04088

責任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2024-01-10 16:01:28

2024-11-11 13:24:02

2013-03-25 14:10:02

Windows Blu

2012-02-07 10:31:09

2025-02-17 03:00:00

LLMsMoELLM

2025-05-30 09:06:00

2022-04-18 15:56:49

AI模型系統(tǒng)

2024-08-06 08:16:05

2017-01-10 08:51:20

人工智能產(chǎn)城融合智能

2024-07-26 11:40:33

2021-07-09 10:26:34

人工智能AI人臉識別

2010-08-26 10:12:54

2021-04-28 06:52:46

程序員應(yīng)聘Java

2025-03-11 00:35:00

DeepSeektoC業(yè)務(wù)

2016-09-20 10:26:24

人工智能大數(shù)據(jù)

2013-01-18 14:00:59

VMware

2025-08-19 09:12:00

AI模型訓練

2018-10-23 10:39:42

智慧教育教育信息化云桌面

2011-05-12 09:19:36

海量數(shù)據(jù)庫管理

2021-12-21 21:52:05

微信冬至移動應(yīng)用
點贊
收藏

51CTO技術(shù)棧公眾號