偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<legend id="knqsp"><track id="knqsp"></track></legend>

<cite id="knqsp"></cite>

<blockquote id="knqsp"><p id="knqsp"></p></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

AI五小時發(fā)現(xiàn)MoE新算法，比人類算法快5倍，成本狂降26%

2025-10-27 08:30:00

人工智能新聞

加州大學伯克利分校的研究團隊提出了一種AI驅(qū)動的系統(tǒng)研究方法ADRS（AI-Driven Research for Systems），它可以通過“生成—評估—改進”的迭代循環(huán)，實現(xiàn)算法的持續(xù)優(yōu)化。

AI，不僅在使用算法，更在創(chuàng)造算法。

其創(chuàng)造的新算法甚至比人類的還要快5倍。

加州大學伯克利分校的研究團隊提出了一種AI驅(qū)動的系統(tǒng)研究方法ADRS（AI-Driven Research for Systems），它可以通過“生成—評估—改進”的迭代循環(huán)，實現(xiàn)算法的持續(xù)優(yōu)化。

基于現(xiàn)有的開源ADRS框架OpenEvolve，團隊在多個領(lǐng)域的案例研究表明，其發(fā)現(xiàn)的算法顯著優(yōu)于人類設計算法，實現(xiàn)了高達5倍的運行效率提升或26%的成本降低。

下面具體來看。

使用OpenEvolve發(fā)現(xiàn)新算法

如今，大型語言模型的巨大規(guī)模能夠通過混合專家架構(gòu)等變得易于管理。

在該模型中，路由器將輸入文本的每個token動態(tài)分配給少量特定的“專家”網(wǎng)絡。這使得請求在推理時僅需使用模型總參數(shù)的一小部分，從而極大提升了推理效率。

然而，這種架構(gòu)也帶來了一個關(guān)鍵的性能挑戰(zhàn)——如何在各專家間實現(xiàn)負載均衡。

不可避免地，某些專家會變得更受歡迎或“熱點化”，從而產(chǎn)生計算瓶頸。承載這些熱點專家的GPU會過載，而其他GPU則處于空閑狀態(tài)，浪費了寶貴的資源。

解決方案是一種專家并行負載均衡器（Expert Parallelism Load Balancer，EPLB），該算法通過動態(tài)調(diào)整專家在GPU間的分布，以最小化負載不均、最大化系統(tǒng)吞吐量。

基礎(chǔ)版EPLB算法分三個階段運行：

1、將專家組分布到各個節(jié)點以平衡負載；2、為熱點專家創(chuàng)建副本；3、將這些副本分配到GPU上，進一步優(yōu)化負載均衡。

給定工作負載、MoE配置及GPU資源后，EPLB算法會確定各專家所需的副本數(shù)量，并將這些副本映射到具體GPU上。

可以說，EPLB算法追求兩個核心目標：

最小化負載不均衡：盡可能均勻地分配負載；
最小化運行時間：重新分配過程本身必須快速，以避免成為新的性能瓶頸。

該算法可直接影響生產(chǎn)環(huán)境中LLM服務的成本與性能表現(xiàn)。

在尋找更優(yōu)的EPLB算法時，團隊考慮了兩個基線方法。

首先，他們對DeepSeek開源的EPLB實現(xiàn)方案進行了評估。該方案采用貪心的“箱子裝載”策略：先按負載從高到低對專家排序，然后將每個專家放置到具有容量且負載最輕的GPU上。

此方案雖然簡單，但由于其用Python編寫，并通過for循環(huán)進行線性搜索以找到最適合的GPU，運行速度較慢。

平均而言，重新平衡這些專家大約需要540毫秒，實現(xiàn)的負載平衡因子為0.66（計算公式為：每GPU生成token的平均數(shù)量與最大數(shù)量之比）。

之后，團隊還將一個來自前沿實驗室的非公開實現(xiàn)納入考量。該實現(xiàn)方案避免了顯式迭代，在達到與開源算法相同負載系數(shù)的同時，將重新平衡算法的運行時間縮短至19.6毫秒。

為進一步優(yōu)化運行時間，研究團隊選擇用OpenEvolve來搜索EPLB算法。

實驗采用基于PyTorch實現(xiàn)的MoE模型分布式GPU推理引擎，工作負載為基于ShareGPT和GSM8K數(shù)據(jù)集的負載變化。

其優(yōu)化目標包含雙重維度：既要最大化負載均衡因子（即每GPU生成token平均數(shù)與最大數(shù)之比），又要降低負載變化時專家重平衡算法的運行時間。

因此，他們根據(jù)負載均衡因子與運行時間倒數(shù)的加權(quán)平均值對算法進行評分（評分越高代表算法越優(yōu)）。

實驗使用80% Gemini 2.5 Flash與20% Gemini 2.5 Flash Lite混合配置運行OpenEvolve。進化過程以開源貪心算法作為初始程序，設置300次迭代上限。完整進化流程耗時約五小時，成本低于10美元。

OpenEvolve生成的新算法發(fā)現(xiàn)了一種巧妙的啟發(fā)式方法，用以替代線性for循環(huán)。

它沒有采用傳統(tǒng)的箱子裝載方式，而是通過對表示專家索引的張量進行重塑與轉(zhuǎn)置，利用PyTorch的高速張量操作，以“之字形”在高負載與低負載GPU之間交錯分配專家。

此外，OpenEvolve還引入了一些細微優(yōu)化，包括更完善的排序邏輯和更具適應性的張量重塑策略。

最終，該算法在保持與其他基線相當?shù)呢撦d平衡因子的同時，將運行時間縮短至僅3.7毫秒，較內(nèi)部參考實現(xiàn)的性能提升達5倍。

三位一作皆為華人

Audrey Cheng，本科畢業(yè)于普林斯頓大學運籌學和金融工程系，目前在加州大學伯克利分校計算機系攻讀博士，師從Ion Stoica和Natacha Crooks。

她的研究方向主要集中于數(shù)據(jù)庫系統(tǒng)的事務處理，尤其是利用調(diào)度算法提升系統(tǒng)性能。

此外，她還與Meta的Themis團隊密切合作，研究大規(guī)模系統(tǒng)中的一致性與隔離性，獲得過Meta博士研究獎學金。

Shu Liu，加州大學伯克利分校博士生，本科畢業(yè)于美國威斯康星大學麥迪遜分校應用數(shù)學專業(yè)。

Melissa Pan，加州大學伯克利分校計算機科學專業(yè)的博士二年級學生，師從Matei Zaharia教授，并隸屬于Sky Computing Lab。她的研究主要關(guān)注在大規(guī)模機器學習和數(shù)據(jù)中心系統(tǒng)中，將可持續(xù)性作為與效率同等重要的優(yōu)化目標。

在去伯克利之前，她在多倫多大學獲本科學位，在卡內(nèi)基梅隆大學獲得了碩士學位。

學術(shù)之余，Melissa Pan曾在IBM 擔任約三年的軟件工程師，參與Db2數(shù)據(jù)庫核心引擎的開發(fā)，主要負責高可用性功能，例如備份、恢復和數(shù)據(jù)恢復。

One More Thing

無獨有偶，Nature官網(wǎng)前幾天也報道了一篇關(guān)于AI創(chuàng)造新算法的新聞。

Oh及其同事開發(fā)了一種能發(fā)現(xiàn)新型強化學習算法的元學習算法。

該架構(gòu)的元學習層與基礎(chǔ)層均采用神經(jīng)網(wǎng)絡。在元學習層，研究人員設計了一個充當強化學習算法的神經(jīng)網(wǎng)絡，并將其命名為元網(wǎng)絡。

通過元網(wǎng)絡，該算法在多項陌生任務中的表現(xiàn)超越了人類設計的強化學習算法。

看來，AI不僅能幫我們工作、幫我們學習，連創(chuàng)新也自己上手了。

下一個突破，可能還是它自己發(fā)明出來的。

論文鏈接：https://arxiv.org/abs/2510.06189

Github鏈接：https://github.com/UCB-ADRS/ADRS

責任編輯：張燕妮來源：量子位

AI 模型算法

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="omltp"></sub>