偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

真·MoE?路由LLM最全面探索:一種筆記本也能玩的大模型Scaling Up研究

人工智能 新聞
來(lái)自中山大學(xué)和普渡大學(xué)的研究人員在基于上述海量的記錄做了一番探索之后,發(fā)現(xiàn)了一個(gè)現(xiàn)象,叫做Model-level Scaling Up。

事關(guān)路由LLM(Routing LLM),一項(xiàng)截至目前最全面的研究,來(lái)了——

共計(jì)收集和整理了涉及8500+個(gè)LLM,在12個(gè)Benchmark上的共2億條性能記錄!

圖片

先來(lái)簡(jiǎn)單科普一下路由LLM。

這種方法主要是把像ChatGPT、Qwen、DeepSeek這些成型的LLM當(dāng)作 “專家” ,當(dāng)給一個(gè)輸入的時(shí)候,有分類能力的Router(路由器)就會(huì)把這個(gè)輸入分配給合適的LLM處理。

如此一來(lái),就能實(shí)現(xiàn)高性能、低計(jì)算消耗、低幻覺等目標(biāo)。

而來(lái)自中山大學(xué)普渡大學(xué)的研究人員在基于上述海量的記錄做了一番探索之后,發(fā)現(xiàn)了一個(gè)現(xiàn)象,叫做Model-level Scaling Up。

一言蔽之,就是一個(gè)好的Router,可以讓路由LLM范式的性能隨著LLM候選數(shù)量的增加迅速變強(qiáng)。

隨后,他們通過這些數(shù)據(jù)構(gòu)建了針對(duì)Router設(shè)計(jì)的評(píng)測(cè)RouterEval。

值得注意的是,其他研究人員,也可以通過RouterEval在很少的計(jì)算資源下(如筆記本、單卡GPU上)就能參與到該路由LLM的研究當(dāng)中。

2億條記錄中發(fā)現(xiàn)的新現(xiàn)象

當(dāng)大多數(shù)研究人員和開發(fā)者第一次聽到Mixture-of-Expert (MoE) 的時(shí)候,可能第一反應(yīng)不是現(xiàn)在常見的對(duì)結(jié)構(gòu)中的FFN層進(jìn)行擴(kuò)展,以FFN層作為”expert”。

而是直接將每一個(gè)成型的LLM,比如ChatGPT、Qwen、DeepSeek等直接看做是”expert”。

實(shí)際上,這種范式也稱為路由LLM(Routing LLMs)。

圖片

簡(jiǎn)單地說,就是給定一個(gè)輸入input,一個(gè)具有一定分類能力的Router (路由器)會(huì)將input分配給指定的LLM進(jìn)行處理,以達(dá)到高性能、低計(jì)算消耗或者是低幻覺等各種各樣的目標(biāo),或組合目標(biāo)。

這類問題可以被認(rèn)為是分類問題、推薦系統(tǒng)問題、Agent規(guī)劃甚至是檢索問題(注意,不是檢索數(shù)據(jù)for LLM,而是檢索LLM for 數(shù)據(jù))。

一些典型的例子有:

  1. 人機(jī)客服切換:機(jī)器人客服無(wú)法解決問題的時(shí)候自動(dòng)切換到更高級(jí)的客服,比如更智能的機(jī)器人,甚至人類;
  2. 強(qiáng)弱LLM切換:比如困難問題給GPT4解決(費(fèi)用貴),簡(jiǎn)單問題給GPT3解決(費(fèi)用低)
圖片
△路由LLM (Routing LLMs)示意圖

路由LLM具有很高的應(yīng)用潛力和兼容性,不同LLM都可以被添加到LLM候選Pool中參與routing(包括異構(gòu)LLM,各種tuning/pretraining方法下得到的LLM,等等),而且可以發(fā)揮很強(qiáng)的性能。

比如最近UCB提出的Prompt-to-Leaderboard以很低的訓(xùn)練成本,以路由LLM的范式下實(shí)現(xiàn)和需要數(shù)十萬(wàn)個(gè)GPU訓(xùn)練得到的Grok3相當(dāng)?shù)男阅?,并登上Arena排行榜第一。

然而當(dāng)前路由LLM領(lǐng)域仍然存在一些挑戰(zhàn)影響了Router的發(fā)展:

  1. 缺乏統(tǒng)一的benchmark。各個(gè)研究都在小范圍的構(gòu)建各種的benchmark進(jìn)行研究;
  2. 當(dāng)前benchmark不夠全面:當(dāng)前的工作一般只涉及少量的LLM、evaluations,而且大多數(shù)是閉源不公開。

于是,研究團(tuán)隊(duì)收集并整理且開源了涉及8567個(gè)不同LLMs在12個(gè)evaluations下2億條性能記錄,并通過這些記錄發(fā)現(xiàn):

  1. Model-level Scaling Up現(xiàn)象:有一定能力的Router,可以使得routing llm范式下的性能隨著llm pool的擴(kuò)大而迅速上升。過去的研究由于涉及的不同LLM較少,不容易觀察到這個(gè)現(xiàn)象。
  2. 通過這些數(shù)據(jù),我們構(gòu)建了全面的針對(duì)Router設(shè)計(jì)的評(píng)測(cè)RouterEval。其全面性可以大大幫助Router設(shè)計(jì)的探索。鑒于該測(cè)評(píng)已經(jīng)整理良好且很簡(jiǎn)潔,可以被看做是傳統(tǒng)的分類問題,所有研究者都可以以很少的計(jì)算消耗(甚至單卡或筆記本電腦)參與該大模型的研究當(dāng)中。
圖片
△Model-level Scaling Up現(xiàn)象示意圖

利用2億條性能記錄,可以構(gòu)建完美Router,即oracle Router ro

圖片

接著,根據(jù)上式可以構(gòu)建不同性能的Router ro(p),其中wm為隨機(jī)Router,當(dāng)p→1時(shí),Router ro(p)越解決上界分類性能,當(dāng)p→0時(shí),ro(p)越接近隨機(jī)Router。

從上圖結(jié)果來(lái)看,隨著LLM候選的數(shù)量增加,不同的evaluation在具有一定能力的Router下呈現(xiàn)了Scaling Up現(xiàn)象。

而性能一般的Router,比如隨機(jī)Router則幾乎沒有Scaling Up現(xiàn)象。

且快速超過參考模型Ref. LLM的性能(參考模型一般是GPT4)。

另外團(tuán)隊(duì)還可以發(fā)現(xiàn)兩個(gè)有趣的現(xiàn)象:

圖片

RouterEval涉及的LLM的參數(shù)分布

  1. 弱LLM也能組合出非常強(qiáng)的性能。上圖給出了RouterEval中涉及的LLM的參數(shù)分布,LLM的參數(shù)為7B或以下的情況占優(yōu)。文章發(fā)現(xiàn),即使較弱的LLM也可以組合出不錯(cuò)的性能,比如5個(gè)性能在少于0.3的情況下,ro可以讓他們互補(bǔ)優(yōu)勢(shì)在MMLU上達(dá)到0.95(超越GPT4)的性能。
  2. 少量的LLM候選已經(jīng)足夠。從Model-level Scaling Up現(xiàn)象示意圖可以看到3-10個(gè)LLM候選的時(shí)候已經(jīng)可以達(dá)到非常不錯(cuò)的性能。而且此時(shí)的部署成本并不高,具有很高的性價(jià)比。

當(dāng)前Router的結(jié)果

通過測(cè)試當(dāng)前的已有的Routers的性能,可以發(fā)現(xiàn)現(xiàn)在Router仍然有很大的提升空間。

不過幸運(yùn)的是,RouterEval進(jìn)行的Router設(shè)計(jì)的實(shí)驗(yàn)不需要大量的計(jì)算資源,且可以融入不同的已有技術(shù),包括few-show learning,數(shù)據(jù)增強(qiáng)、推薦系統(tǒng)、正則化方法、預(yù)訓(xùn)練模型、額外數(shù)據(jù)等等.

因此Router將有希望快速得到實(shí)質(zhì)性改進(jìn)。

圖片

以及,和當(dāng)前一些其他范式的區(qū)別和關(guān)系如下:

圖片

  1. 推薦系統(tǒng):Routing LLM其實(shí)是特殊的推薦系統(tǒng),LLM的input是推薦系統(tǒng)中的user信息,LLM候選是推薦系統(tǒng)中的商品item,而性能記錄則是推薦系統(tǒng)中的歷史用戶書記記錄;
  2. LLM集成:一般LLM集成是post-decision,即讓多個(gè)LLM完成推理后再合并。而Routing LLM是pre-decision,即在LLM推理前就要決定是哪個(gè)LLM來(lái)處理;
  3. LLM Fusion:LLM融合主要針對(duì)是同質(zhì)的LLM的“合作”,而Routing LLM可以讓“異質(zhì)”(包括不開源)的LLM進(jìn)行“合作”
  4. Mixture-of-Experts (MoE): Routing LLM是model-level的MoE

當(dāng)然,研究團(tuán)隊(duì)也提出一些未來(lái)的挑戰(zhàn)。

首先就是缺乏數(shù)據(jù)。

要獲得足夠好的Router,當(dāng)然的數(shù)據(jù)仍然遠(yuǎn)遠(yuǎn)不夠,因?yàn)檫@些性能記錄的數(shù)據(jù)一般不開源,且掌握在大公司手中,這需要全社區(qū)的共同努力。目前也可以通過算法一定程度緩解數(shù)據(jù)缺乏的問題。

其次是如何保持在多LLM候選情況下的Router性能的問題。

當(dāng)LLM候選越多的時(shí)候,意味著Router要進(jìn)行更多類的分類,這對(duì)于Router的訓(xùn)練來(lái)說具有很高的挑戰(zhàn)性;

除此之外,還包括RouterEval目前只關(guān)注在性能

盡管routing llm可以考慮計(jì)算消耗、幻覺等其他目標(biāo)。但是目前性能的水平還遠(yuǎn)遠(yuǎn)不夠,如果現(xiàn)在就過度關(guān)注其他目標(biāo)的話,可能言辭尚早。另外,計(jì)算消耗和幻覺等目標(biāo)的數(shù)據(jù)不容易搜集,可能采集不到足夠多的LLM的記錄數(shù)據(jù),仍然需要全社區(qū)的努力。

最后,就是部署的難度。

即使足夠強(qiáng)的Router可以獲得,但是此時(shí)LLM候選的部署可能是新的瓶頸,這在計(jì)算機(jī)系統(tǒng)等領(lǐng)域中也有很多的研究角度,如計(jì)算負(fù)載,高效分配、動(dòng)態(tài)模型激活等。幸運(yùn)的是,從論文的觀察來(lái)看,3-10個(gè)LLM已經(jīng)能得到出色的結(jié)果。

GitHub和論文等地址放下面了,感興趣的小伙伴可以深入研究一下哦~

代碼地址:https://github.com/MilkThink-Lab/RouterEval

論文地址:https://arxiv.org/abs/2503.10657

論文合集:https://github.com/MilkThink-Lab/Awesome-Routing-LLMs

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2012-05-18 11:40:40

神舟筆記本

2025-05-22 04:00:00

PARSCALE大型語(yǔ)言模型LLM

2011-04-29 10:05:57

主板硬盤

2024-09-02 14:30:00

數(shù)據(jù)訓(xùn)練

2025-02-21 13:20:00

2024-08-27 00:00:01

AI應(yīng)用框架

2011-10-26 09:49:38

平板筆記本銷量

2024-04-10 09:29:16

LLM開源大模型

2012-04-13 11:24:46

蘋果筆記本

2011-08-03 16:30:25

2024-01-18 15:38:17

語(yǔ)言模型大型語(yǔ)言模型

2024-05-06 07:58:23

MoE模型系統(tǒng)

2024-02-06 10:38:10

昆侖萬(wàn)維大模型

2012-10-24 18:11:40

聯(lián)想IdeaPad Yog

2023-10-06 20:30:33

大模型LLMtoken

2017-08-08 11:15:29

筆記本Titan XpQuadro

2009-03-27 09:19:11

微軟Windows 7操作系統(tǒng)

2023-07-24 15:20:05

機(jī)器學(xué)習(xí)集成學(xué)習(xí)

2020-09-01 14:09:39

筆記本SSD存儲(chǔ)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)