AI已經(jīng)開始自己設(shè)計算法,并且超越頂尖人類專家,人類還能做什么?
AI已經(jīng)開始為自己設(shè)計算法,而且發(fā)現(xiàn)了比頂尖人類專家更優(yōu)的算法。
這不是科幻,而是正在發(fā)生的事實。
剛剛,谷歌DeepMind團(tuán)體的一篇論文登上Nature。

團(tuán)隊基于元學(xué)習(xí)(meta-learning)策略讓一群agents在多樣的環(huán)境中自由探索強(qiáng)化學(xué)習(xí)規(guī)則。然后在多樣的基準(zhǔn)測試平臺中(比如Atari、ProcGen等)進(jìn)行比較,結(jié)果AI發(fā)現(xiàn)的強(qiáng)化學(xué)習(xí)規(guī)則超越任何人工設(shè)計的規(guī)則,并且展示很強(qiáng)的通用性。
無獨有偶,我們今天重點介紹的是另一個開源項目的論文。

加州大學(xué)伯克利分校的研究員發(fā)布的一篇論文《門口的野蠻人:人工智能如何顛覆系統(tǒng)研究》,也同樣展現(xiàn)出AI正在通過自己加速實現(xiàn)自我進(jìn)化。
在計算機(jī)系統(tǒng)研究領(lǐng)域,一種稱之為AI驅(qū)動的系統(tǒng)研究(AI-Driven Research for Systems, ADRS)的新范式,正在迭代地生成、評估并完善算法方案。
在多個真實場景的案例中,ADRS發(fā)現(xiàn)的算法,性能遠(yuǎn)超世界一流研究者設(shè)計的方案,例如將運(yùn)行效率提升了5倍,或?qū)⒊杀窘档土?6%。
這一切的核心,在于AI改變了研究的本質(zhì)過程。
傳統(tǒng)的研究模式中,研究人員面對一個特定任務(wù),需要提出假說、設(shè)計方案、驗證方案。其中,設(shè)計與驗證環(huán)節(jié)占據(jù)了大量時間。而AI驅(qū)動的方法,將這個過程自動化為兩個核心步驟:大規(guī)模生成多樣化的解決方案,然后驗證并篩選出真正能解決問題的方案。
這個模式成功的關(guān)鍵,在于一個絕對可靠的驗證器。它必須能準(zhǔn)確判斷一個解決方案的好壞。
在很多領(lǐng)域,構(gòu)建這樣的驗證器非常困難。比如,驗證AI生成的程序是否完全正確,或者驗證一個對復(fù)雜問題的文字回答是否無懈可擊,都極具挑戰(zhàn)。
計算機(jī)系統(tǒng)研究領(lǐng)域,尤其是專注于性能優(yōu)化的方向,恰好是這種新范式的完美試驗場。
這里的驗證過程天然可靠。一個新算法好不好,比如一個新的調(diào)度算法、路由協(xié)議或資源管理器,可以直接在真實系統(tǒng)或高保真模擬器中實現(xiàn)出來。然后,研究人員只需在預(yù)設(shè)的負(fù)載下運(yùn)行它,測量其性能指標(biāo),比如吞吐量、延遲、成本等。數(shù)據(jù)不會說謊,結(jié)果一目了然。
這種得天獨厚的優(yōu)勢,讓系統(tǒng)研究成為了AI大展拳腳的舞臺。
AI正在重塑系統(tǒng)研究的流程
一個典型的系統(tǒng)性能研究,過程漫長,往往耗時數(shù)周甚至數(shù)月。
它通常分為五個階段:
- 問題表述:定義要解決的問題,比如提升系統(tǒng)吞吐量。
- 評估框架搭建:開發(fā)或使用一個能實現(xiàn)并評估解決方案的框架,可能是系統(tǒng)本身,也可能是一個模擬器。
- 解決方案設(shè)計:人工設(shè)計新的算法或策略。
- 評估與迭代:在框架中實現(xiàn)方案,對比基線,如果不理想,回到上一步重新設(shè)計。
- 論文撰寫:獲得理想結(jié)果后,記錄并發(fā)表。

根據(jù)對30多名系統(tǒng)研究生的調(diào)查,其中最耗時的迭代循環(huán),也就是(3)解決方案設(shè)計和(4)評估,占據(jù)了整個研究過程約40%的時間。
ADRS方法,正是將這最核心、最耗時的40%進(jìn)行了自動化。
它通過一個自動化的循環(huán),來替代研究人員進(jìn)行算法的探索和優(yōu)化。這個循環(huán)由五個組件構(gòu)成:
- 提示生成器:根據(jù)研究人員輸入的問題描述、上下文、甚至之前的失敗案例,創(chuàng)建用于生成新算法的提示。
- 解決方案生成器:將提示交給大語言模型(LLM),如GPT-4o或Gemini,生成新的算法代碼。
- 評估器:拿到新算法后,在模擬器或真實系統(tǒng)中運(yùn)行,根據(jù)性能給出一個分?jǐn)?shù),甚至定性的反饋。
- 存儲:一個數(shù)據(jù)庫,存放所有被生成過的解決方案、它們的得分以及評估反饋。
- 解決方案選擇器:從數(shù)據(jù)庫中挑選出一批有潛力的、或具有多樣性的方案,反饋給提示生成器,用于啟發(fā)下一輪的算法生成。

這五個組件形成了一個閉環(huán),AI在其中不斷自我進(jìn)化。研究人員則從繁瑣的算法設(shè)計和調(diào)試中解放出來,成為一個更高層次的引導(dǎo)者。他們定義問題,提供初始方向,并從AI生成的眾多方案中提煉洞見,形成一個強(qiáng)大的人機(jī)協(xié)作研究模式。
目前,已經(jīng)有多個開源或閉源的ADRS框架,如谷歌DeepMind的AlphaEvolve、開源的OpenEvolve以及LLM4AD等。
研究團(tuán)隊的案例研究,主要基于OpenEvolve框架展開。
AI發(fā)現(xiàn)的算法比人類專家更強(qiáng)
為了驗證ADRS的實際能力,研究人員在網(wǎng)絡(luò)、數(shù)據(jù)庫、分布式系統(tǒng)等多個領(lǐng)域,開展了11項系統(tǒng)任務(wù)的案例研究。所有研究均由不同的學(xué)生在2025年夏季并行進(jìn)行,他們使用了不同的參數(shù)配置,因此,這里展示的結(jié)果,應(yīng)被視為ADRS能力的下限。
隨著研究人員對如何高效使用這些框架的理解加深,以及框架和模型自身的進(jìn)化,未來的結(jié)果只會更令人震撼。
研究人員重點介紹四個最具代表性的案例。
案例一:在云上省錢,AI比頂會論文更懂行
公共云上有一種叫競價實例的服務(wù)器,比普通服務(wù)器便宜60%到90%,但它可能隨時被云廠商收回。這就帶來一個挑戰(zhàn):對于一個有截止日期的計算任務(wù),如何盡可能多地使用這種便宜但不穩(wěn)定的服務(wù)器,來最大化省錢,同時又保證任務(wù)不會延期?
這個問題是頂級學(xué)術(shù)會議NSDI'24一篇杰出論文的研究核心,該論文提出了當(dāng)時最先進(jìn)的(SOTA)策略,名為Uniform Progress。
研究人員使用OpenEvolve,讓AI來挑戰(zhàn)這個人類SOTA方案。
AI的進(jìn)化過程很有趣。它從一個簡單的貪心策略開始,在400次迭代中不斷學(xué)習(xí)。在早期,它學(xué)會了用一個滑動窗口來觀察近期的服務(wù)器穩(wěn)定性。迭代到180次左右,它引入了基于穩(wěn)定性的自適應(yīng)安全邊界。到350次迭代,它學(xué)會了動態(tài)調(diào)整這個邊界。
最終,在第389次迭代時,AI發(fā)現(xiàn)了一個人類專家沒有明確提出的策略:選擇性等待。
人類設(shè)計的Uniform Progress策略有個弱點,當(dāng)任務(wù)進(jìn)度落后時,它會不顧一切地使用任何可用的競價實例,哪怕這個實例只能用幾秒鐘。這會導(dǎo)致頻繁切換,浪費(fèi)大量時間在任務(wù)重啟上,研究人員稱之為轉(zhuǎn)換陷阱。
AI進(jìn)化出的策略更聰明。它會判斷,當(dāng)競價實例看起來不穩(wěn)定,且任務(wù)離截止日期還有足夠緩沖時,它會選擇等待,跳過這些質(zhì)量不高的機(jī)會,去抓更穩(wěn)定的時機(jī)。

結(jié)果,AI設(shè)計的算法在滿足所有截止日期的前提下,平均比人類SOTA方案多節(jié)省了7%的成本,在某些場景下節(jié)省高達(dá)16.7%。
研究人員進(jìn)一步將問題擴(kuò)展到更復(fù)雜的多區(qū)域場景,這個場景之前沒有已知的解決方案。AI同樣不負(fù)眾望,設(shè)計出的策略比一個精心設(shè)計的人類基線方案,多節(jié)省了26%的成本。
整個過程耗時5小時,成本不到20美元。
案例二:給大模型推理排兵布陣,AI把效率提升5倍
專家混合(MoE)是當(dāng)前非常流行的大模型架構(gòu)。它的推理負(fù)載均衡是一個難題:如何將成千上萬個專家模塊,合理地分配到不同的GPU上,讓每個GPU的計算負(fù)載盡可能均衡。
研究人員讓OpenEvolve來解決這個問題。初始方案來自一個開源實現(xiàn),它使用簡單的循環(huán)和貪心算法進(jìn)行分配,重新平衡一次專家需要540毫秒。
研究人員還有一個未公開的、來自前沿實驗室的參考實現(xiàn)作為基線。它使用了一種巧妙的蛇形放置啟發(fā)式算法,通過高效的張量操作替代了緩慢的循環(huán),將重新平衡時間縮短到了19.6毫秒,性能提升了27倍。
AI的進(jìn)化過程再次展現(xiàn)了它的學(xué)習(xí)能力。它獨立發(fā)現(xiàn)了類似蛇形放置的交錯技術(shù),學(xué)會了用張量重塑來替代Python循環(huán)??紤]到研究的基線方案并未公開,模型在訓(xùn)練數(shù)據(jù)中接觸到它的可能性微乎其微。

更令人驚訝的是,AI在重新發(fā)現(xiàn)的基礎(chǔ)上,還進(jìn)行了微創(chuàng)新,比如改進(jìn)了排序邏輯和更具自適應(yīng)性的重塑策略。
最終,AI生成的算法在負(fù)載均衡效果上與研究的高級基線持平,但將重新平衡的運(yùn)行時間,從19.6毫秒進(jìn)一步壓縮到了3.7毫秒。
這比研究人員實驗室精心設(shè)計的內(nèi)部方案,還要快5倍。
整個進(jìn)化過程耗時約5小時,成本不到10美元。
案例三:SQL查詢中LLM推理的優(yōu)化,將運(yùn)行時間減少3倍
該案例研究針對關(guān)系分析中的高成本問題。
SQL查詢對整個表調(diào)用大型語言模型,每行觸發(fā)單獨推理操作,導(dǎo)致大規(guī)模應(yīng)用時成本過高。
研究目標(biāo)是通過重新排序表的行和字段來最大化前綴緩存命中率(PHR),從而降低推理時間和成本。
由于n行m列表表有n!×(m!n)種可能排序,窮舉搜索不可行,需要設(shè)計高效的重排序算法。
研究團(tuán)隊使用OpenEvolve框架演化重排序策略,運(yùn)行100次迭代。
演化過程始于貪婪遞歸分組算法(GGR),該算法雖PHR表現(xiàn)良好但存在重復(fù)計數(shù)和深度遞歸問題。
AI經(jīng)過多次迭代優(yōu)化,最終演化出的策略實現(xiàn)了與GGR相似的PHR,同時將運(yùn)行時間減少3倍。

主要優(yōu)化包括:維護(hù)懶更新的全局頻率映射避免重復(fù)數(shù)據(jù)遍歷;用直接屬性映射替代慢速Pandas查找,將核心循環(huán)從高成本Pandas調(diào)用簡化為O(Nrows×Ncols)的Python操作;應(yīng)用局部啟發(fā)式方法進(jìn)行每行排序,通過最大化與前一行連續(xù)性并按值長度平方加權(quán)來重排字段。
這些優(yōu)化顯著提高了算法效率,同時保持了較高的緩存命中率,為大規(guī)模SQL查詢中的LLM推理提供了實用解決方案。
案例四:優(yōu)化事務(wù)調(diào)度,減少34%整體執(zhí)行時間
該案例研究針對事務(wù)處理系統(tǒng)中的性能瓶頸:共享數(shù)據(jù)沖突導(dǎo)致的事務(wù)調(diào)度問題。
研究目標(biāo)是尋找高效的事務(wù)調(diào)度順序,最小化整體執(zhí)行時間(makespan),提高系統(tǒng)吞吐量。
研究考慮了在線和離線兩種設(shè)置:在線設(shè)置中事務(wù)順序一旦確定不可更改,且調(diào)度算法需滿足O(n)時間復(fù)雜度;離線設(shè)置適用于確定性數(shù)據(jù)庫調(diào)度批量事務(wù),無先前研究結(jié)果。
研究團(tuán)隊使用OpenEvolve框架探索解決方案,運(yùn)行100次迭代。
在線設(shè)置下,最佳策略是現(xiàn)有的最短完成時間優(yōu)先(SMF)算法,OpenEvolve能夠從隨機(jī)調(diào)度基線重新發(fā)現(xiàn)該算法。
離線設(shè)置下,OpenEvolve發(fā)現(xiàn)了一種新算法,比SMF減少34%的makespan,表明框架可快速探索不同問題變體。
離線算法包含三部分:首先按寫入次數(shù)和長度對事務(wù)排序構(gòu)建初始序列;然后運(yùn)行完整貪心算法,嘗試將每個事務(wù)放在每個可能位置;最后執(zhí)行配對交換爬山算法并嘗試幾個隨機(jī)調(diào)度作為安全網(wǎng)。該算法擴(kuò)展了SMF的貪心直覺,時間復(fù)雜度為O(n2)。
這一結(jié)果不僅證明了基于沖突成本調(diào)度的有效性,也展示了OpenEvolve在輔助研究人員針對不同問題約束快速開發(fā)解決方案方面的潛力。
人類研究員的新角色:從造船者到領(lǐng)航員
ADRS的興起,預(yù)示著系統(tǒng)研究社區(qū)將迎來深刻的變革。當(dāng)AI越來越多地承擔(dān)算法發(fā)現(xiàn)和優(yōu)化的核心角色,人類研究員的角色也必須隨之進(jìn)化。
研究人員不再需要是那個在細(xì)節(jié)中反復(fù)打磨算法的工匠。
研究的重點將轉(zhuǎn)向更高層次的智力活動:問題的定義、創(chuàng)意的構(gòu)思,以及戰(zhàn)略方向的指引。
在這個新模式中,研究人員更像是一位擁有強(qiáng)大AI研究助手的導(dǎo)師。研究的工作是:
- 定義有意義、有價值的研究問題。
- 為AI的探索提供創(chuàng)造性的起點和邊界。
- 從AI生成的大量解決方案中,提煉出深刻的洞見和普適的規(guī)律。
這將創(chuàng)造一個強(qiáng)大的良性循環(huán):研究人員利用AI改進(jìn)計算機(jī)系統(tǒng),而更高效的系統(tǒng)又可以反過來加速AI自身的發(fā)展,最終形成一個研究發(fā)現(xiàn)的復(fù)合加速引擎。
為了更好地迎接這一轉(zhuǎn)變,研究人員基于實踐,總結(jié)了一些利用ADRS框架的最佳實踐。
在提示設(shè)計上,問題表述必須清晰具體,提供足夠的上下文,用示例來引導(dǎo)AI,并通過迭代不斷優(yōu)化提示。
在評估器構(gòu)建上,評估指標(biāo)必須與研究目標(biāo)強(qiáng)相關(guān),評估場景必須全面以防過擬合,反饋信息不僅要給分?jǐn)?shù),還要給出定性優(yōu)劣,并且評估過程本身必須高效。
在進(jìn)化策略上,需要平衡對新領(lǐng)域的探索和對已知優(yōu)質(zhì)解的利用,并根據(jù)搜索進(jìn)展自適應(yīng)地調(diào)整策略。
這一切都指向一個未來:研究人員將時間投入到工作中更具創(chuàng)造性和滿足感的部分。
AI正在接管算法設(shè)計,但這并非研究的終結(jié),而是一個全新的開始。

























