AI五小時發(fā)現(xiàn)MoE新算法,比人類算法快5倍,成本狂降26%
AI,不僅在使用算法,更在創(chuàng)造算法。
其創(chuàng)造的新算法甚至比人類的還要快5倍。
加州大學伯克利分校的研究團隊提出了一種AI驅(qū)動的系統(tǒng)研究方法ADRS(AI-Driven Research for Systems),它可以通過“生成—評估—改進”的迭代循環(huán),實現(xiàn)算法的持續(xù)優(yōu)化。

基于現(xiàn)有的開源ADRS框架OpenEvolve,團隊在多個領(lǐng)域的案例研究表明,其發(fā)現(xiàn)的算法顯著優(yōu)于人類設計算法,實現(xiàn)了高達5倍的運行效率提升或26%的成本降低。

下面具體來看。
使用OpenEvolve發(fā)現(xiàn)新算法
如今,大型語言模型的巨大規(guī)模能夠通過混合專家架構(gòu)等變得易于管理。
在該模型中,路由器將輸入文本的每個token動態(tài)分配給少量特定的“專家”網(wǎng)絡。這使得請求在推理時僅需使用模型總參數(shù)的一小部分,從而極大提升了推理效率。
然而,這種架構(gòu)也帶來了一個關(guān)鍵的性能挑戰(zhàn)——如何在各專家間實現(xiàn)負載均衡。
不可避免地,某些專家會變得更受歡迎或“熱點化”,從而產(chǎn)生計算瓶頸。承載這些熱點專家的GPU會過載,而其他GPU則處于空閑狀態(tài),浪費了寶貴的資源。

解決方案是一種專家并行負載均衡器(Expert Parallelism Load Balancer,EPLB),該算法通過動態(tài)調(diào)整專家在GPU間的分布,以最小化負載不均、最大化系統(tǒng)吞吐量。
基礎(chǔ)版EPLB算法分三個階段運行:
1、將專家組分布到各個節(jié)點以平衡負載;2、為熱點專家創(chuàng)建副本;3、將這些副本分配到GPU上,進一步優(yōu)化負載均衡。
給定工作負載、MoE配置及GPU資源后,EPLB算法會確定各專家所需的副本數(shù)量,并將這些副本映射到具體GPU上。
可以說,EPLB算法追求兩個核心目標:
- 最小化負載不均衡:盡可能均勻地分配負載;
- 最小化運行時間:重新分配過程本身必須快速,以避免成為新的性能瓶頸。
該算法可直接影響生產(chǎn)環(huán)境中LLM服務的成本與性能表現(xiàn)。

在尋找更優(yōu)的EPLB算法時,團隊考慮了兩個基線方法。
首先,他們對DeepSeek開源的EPLB實現(xiàn)方案進行了評估。該方案采用貪心的“箱子裝載”策略:先按負載從高到低對專家排序,然后將每個專家放置到具有容量且負載最輕的GPU上。
此方案雖然簡單,但由于其用Python編寫,并通過for循環(huán)進行線性搜索以找到最適合的GPU,運行速度較慢。
平均而言,重新平衡這些專家大約需要540毫秒,實現(xiàn)的負載平衡因子為0.66(計算公式為:每GPU生成token的平均數(shù)量與最大數(shù)量之比)。
之后,團隊還將一個來自前沿實驗室的非公開實現(xiàn)納入考量。該實現(xiàn)方案避免了顯式迭代,在達到與開源算法相同負載系數(shù)的同時,將重新平衡算法的運行時間縮短至19.6毫秒。

為進一步優(yōu)化運行時間,研究團隊選擇用OpenEvolve來搜索EPLB算法。
實驗采用基于PyTorch實現(xiàn)的MoE模型分布式GPU推理引擎,工作負載為基于ShareGPT和GSM8K數(shù)據(jù)集的負載變化。
其優(yōu)化目標包含雙重維度:既要最大化負載均衡因子(即每GPU生成token平均數(shù)與最大數(shù)之比),又要降低負載變化時專家重平衡算法的運行時間。
因此,他們根據(jù)負載均衡因子與運行時間倒數(shù)的加權(quán)平均值對算法進行評分(評分越高代表算法越優(yōu))。
實驗使用80% Gemini 2.5 Flash與20% Gemini 2.5 Flash Lite混合配置運行OpenEvolve。進化過程以開源貪心算法作為初始程序,設置300次迭代上限。完整進化流程耗時約五小時,成本低于10美元。
OpenEvolve生成的新算法發(fā)現(xiàn)了一種巧妙的啟發(fā)式方法,用以替代線性for循環(huán)。

它沒有采用傳統(tǒng)的箱子裝載方式,而是通過對表示專家索引的張量進行重塑與轉(zhuǎn)置,利用PyTorch的高速張量操作,以“之字形”在高負載與低負載GPU之間交錯分配專家。
此外,OpenEvolve還引入了一些細微優(yōu)化,包括更完善的排序邏輯和更具適應性的張量重塑策略。
最終,該算法在保持與其他基線相當?shù)呢撦d平衡因子的同時,將運行時間縮短至僅3.7毫秒,較內(nèi)部參考實現(xiàn)的性能提升達5倍。
三位一作皆為華人

Audrey Cheng,本科畢業(yè)于普林斯頓大學運籌學和金融工程系,目前在加州大學伯克利分校計算機系攻讀博士,師從Ion Stoica和Natacha Crooks。
她的研究方向主要集中于數(shù)據(jù)庫系統(tǒng)的事務處理,尤其是利用調(diào)度算法提升系統(tǒng)性能。
此外,她還與Meta的Themis團隊密切合作,研究大規(guī)模系統(tǒng)中的一致性與隔離性,獲得過Meta博士研究獎學金。

Shu Liu,加州大學伯克利分校博士生,本科畢業(yè)于美國威斯康星大學麥迪遜分校應用數(shù)學專業(yè)。

Melissa Pan,加州大學伯克利分校計算機科學專業(yè)的博士二年級學生,師從Matei Zaharia教授,并隸屬于Sky Computing Lab。她的研究主要關(guān)注在大規(guī)模機器學習和數(shù)據(jù)中心系統(tǒng)中,將可持續(xù)性作為與效率同等重要的優(yōu)化目標。
在去伯克利之前,她在多倫多大學獲本科學位,在卡內(nèi)基梅隆大學獲得了碩士學位。
學術(shù)之余,Melissa Pan曾在IBM 擔任約三年的軟件工程師,參與Db2數(shù)據(jù)庫核心引擎的開發(fā),主要負責高可用性功能,例如備份、恢復和數(shù)據(jù)恢復。
One More Thing
無獨有偶,Nature官網(wǎng)前幾天也報道了一篇關(guān)于AI創(chuàng)造新算法的新聞。

Oh及其同事開發(fā)了一種能發(fā)現(xiàn)新型強化學習算法的元學習算法。
該架構(gòu)的元學習層與基礎(chǔ)層均采用神經(jīng)網(wǎng)絡。在元學習層,研究人員設計了一個充當強化學習算法的神經(jīng)網(wǎng)絡,并將其命名為元網(wǎng)絡。

通過元網(wǎng)絡,該算法在多項陌生任務中的表現(xiàn)超越了人類設計的強化學習算法。
看來,AI不僅能幫我們工作、幫我們學習,連創(chuàng)新也自己上手了。
下一個突破,可能還是它自己發(fā)明出來的。
論文鏈接:https://arxiv.org/abs/2510.06189
Github鏈接:https://github.com/UCB-ADRS/ADRS

































