UCL博士生創(chuàng)業(yè)一年，造出最強(qiáng)AI「ML工程師」，OpenAI蓋戳認(rèn)證

作者：機(jī)器之心 2024-10-28 10:20:00

GPT-4o 結(jié)合 AIDE 框架平均獲得獎(jiǎng)牌數(shù)量，明顯優(yōu)于另外兩個(gè)開源 Agent 框架。

一、被忽略的「Agent 框架」

OpenAI 最近又有了新動(dòng)作，這次他們的野心更大了。

鑒于大型語言模型（ LLM ）強(qiáng)大的先驗(yàn)知識(shí)和行動(dòng)/反應(yīng)能力，讓 AI 訓(xùn)練 AI ，可還行？

幾個(gè)頂級(jí)大模型在機(jī)器學(xué)習(xí)自動(dòng)化工程上的表現(xiàn)如何？

人類距離 OpenAI AGI 路線圖上的 Level 3（ Agents ）還有多遠(yuǎn)？

懷揣這些問題，OpenAI 自行推出了一個(gè)新基準(zhǔn)測(cè)試—— MLE-bench ，嚴(yán)選 75 個(gè)與機(jī)器學(xué)習(xí)工程（ MLE ）相關(guān)的 Kaggle 競(jìng)賽題目。畢竟，目前「很少有基準(zhǔn)測(cè)試能夠全面衡量自主的端到端機(jī)器學(xué)習(xí)工程」。

結(jié)果發(fā)現(xiàn)，GPT-4o 結(jié)合 AIDE 框架平均獲得獎(jiǎng)牌數(shù)量，明顯優(yōu)于另外兩個(gè)開源 Agent 框架。

更令人驚訝的是，當(dāng)模型切換到 OpenAI o1-preview（據(jù)稱，突破了 LLM 推理極限）后，其表現(xiàn)又翻了一倍：

在大約 16.9% 的比賽中達(dá)到了相當(dāng)于 Kaggle 銅牌以上的水平，獎(jiǎng)牌數(shù)量也一騎絕塵。

而且，8 次嘗試后，o1-preview 的得分從單次嘗試的 16.9% 提高到了 34.1%。

有趣的是，論文本意是為了展示 OpenAI 自家模型（如 o1-preview ）的卓越能力，卻「意外」地讓一個(gè)名為 AIDE 的開源 Agent 框架脫穎而出，引發(fā)不少關(guān)注。

Meta FAIR 研究科學(xué)家主任田淵棟隨即發(fā)去賀電。

「這是一個(gè)絕佳例證，展示了開放式自我完善的外部循環(huán)（AIDE）如何引導(dǎo)強(qiáng)大的內(nèi)部循環(huán)（o1）實(shí)現(xiàn)驚人的能力飛躍?！箓惗卮髮W(xué)學(xué)院（ UCL ）教授、谷歌 DeepMind 高級(jí)研究員和開放環(huán)境學(xué)習(xí)團(tuán)隊(duì)負(fù)責(zé)人 Tim Rockt?schel 在X（前 Twitter ）上說，他同時(shí)領(lǐng)導(dǎo)著谷歌 Genie（ foundation world model ）項(xiàng)目。

UCL 名譽(yù)教授、谷歌 DeepMind 研究主任 Edward Grefenstette 認(rèn)為，AIDE 團(tuán)隊(duì)「構(gòu)建的東西很大程度上支撐和影響了 OpenAI 的智能體路線圖?！?/span>

DeepMind 研究員、倫敦大學(xué)學(xué)院教授 Sebastian Riedel 欣喜地表示：「我們親眼目睹了『 Agent 框架』在基礎(chǔ)模型之上帶來的巨大影響?！?/span>

MLE-bench 公布后，AIDE 作者之一、WecoAI 聯(lián)合創(chuàng)始人& CEO 蔣錚堯接受了機(jī)器之心的采訪。

他談到，「像 OpenAI 這樣的公司已經(jīng)投入了大量精力和金錢來構(gòu)建內(nèi)循環(huán)前沿模型（如 o1-preview ），一個(gè)好的自改進(jìn)外循環(huán) （Agent 框架，如 AIDE ）會(huì)給前沿模型的能力帶來巨大提升?！?/span>

二、認(rèn)識(shí) AIDE ，目前最好的 MLE Agent

在評(píng)估大模型性能之前，選擇合適的 Agent 框架非常重要。

OpenAI 發(fā)現(xiàn)，盡管有效提交數(shù)量差不多，但是，GPT-4o 結(jié)合 AIDE 框架在 8.7% 的競(jìng)賽中至少獲得銅牌，明顯多于另兩個(gè)開源框架 MLAB 、OpenHands（ 0.8% 、4.4% ）。

對(duì)于這個(gè)結(jié)果，蔣錚堯并不意外，因?yàn)檫@些框架的設(shè)計(jì)方向本來就不同。

MLAB 是基于 ReAct 框架（通用的）、針對(duì)機(jī)器學(xué)習(xí)任務(wù)設(shè)計(jì)過的 Agent。

在設(shè)計(jì)理念上，主要是做接口設(shè)計(jì)，通過調(diào)用工具來執(zhí)行操作，類似于為 ChatGPT 配備了更多工具（如數(shù)據(jù)預(yù)處理、特征工程等），他們相信大模型自己就知道應(yīng)該怎么做。

不過，對(duì)當(dāng)前世代的模型來說，這很難做到，如果能做到，基本等于實(shí)現(xiàn) AGI。

OpenHands (前身名為 OpenDevin )更為通用一些，是一個(gè)由 AI 驅(qū)動(dòng)的軟件開發(fā) Agent 。它能基于用戶自然語言命令，「自動(dòng)駕駛」軟件開發(fā)任務(wù)，如克隆項(xiàng)目、修改代碼、運(yùn)行命令、調(diào)用 API 和提交代碼等，也包括數(shù)據(jù)科學(xué)任務(wù)。

相比之下， AIDE 沒有這么通用。

它是一個(gè)專注于代碼優(yōu)化的框架，后來在機(jī)器學(xué)習(xí)方面進(jìn)行了一些特化（ Machine Learning CodeGen Agent ），肯定會(huì)比通用框架表現(xiàn)更好。

AIDE 是一個(gè)機(jī)器學(xué)習(xí)代碼生成Agent（Machine Learning CodeGen Agent），簡單地用自然語言描述問題（比如預(yù)測(cè)房價(jià)）后，它就開始在你的本地計(jì)算機(jī)上進(jìn)行試錯(cuò)，提供解決方案。

真正出乎蔣錚堯意料的是， o1-preview 和 AIDE 適配性非常好，當(dāng)模型切換到 OpenAI o1-preview，表現(xiàn)又翻了一倍，在大約 16.9% 的比賽中達(dá)到了相當(dāng)于 Kaggle 銅牌以上的表現(xiàn)水平。

我們自己參加 Kaggle，成績肯定沒有它高，蔣錚堯推測(cè)這可能與 AIDE 的 AI Function（AI 函數(shù)）設(shè)計(jì)范式有關(guān)。

簡單來說，AI Function 范式就是將大問題拆分成一個(gè)個(gè)具體指令（「函數(shù)」），再用算法將它們串起來?！冈谶@種范式下，每次喂給大模型（如 o1-preview ）的問題，會(huì)跟大模型接受強(qiáng)化學(xué)習(xí)訓(xùn)練時(shí)做過的數(shù)理化題目比較像?！顾忉屨f。

換句話說，這種范式創(chuàng)造了一個(gè)與大模型訓(xùn)練過程更為一致的問題解決環(huán)境，這種一致性使得模型能夠更好地利用其在訓(xùn)練中獲得的知識(shí)和技能，提高解決問題的效率。

負(fù)責(zé)將具體指令串起來的核心算法，就是「解空間樹搜索（ Solution Space Tree Search ）」，包括 3 個(gè)主要組件。

解決方案生成器（ Solution Generator ），負(fù)責(zé)提出新的解決方案，主要是創(chuàng)建起點(diǎn)。

大模型接收一系列自然語言指令和背景資料后，會(huì)生成幾個(gè)初始解決方案，也可以對(duì)現(xiàn)有方案進(jìn)行修改，比如修復(fù) bug 或引入改進(jìn)。

每個(gè)解決方案包含機(jī)器學(xué)習(xí)模型的實(shí)現(xiàn)和評(píng)估方法。

OpenAI 的論文提供了一張「快照」（下圖）。

MLE-bench中，三種不同Agent框架的真實(shí)軌跡摘錄

在執(zhí)行某個(gè) MLE-bench 任務(wù)時(shí)，AIDE 一開始設(shè)計(jì)了一個(gè)基于預(yù)訓(xùn)練 EfficientNet-B0 模型的二元分類器用于病理圖像分類，這可以被視為搜索的起點(diǎn)或初始解決方案。

評(píng)估器（ Evaluator ），會(huì)測(cè)試每個(gè)解決方案，將其性能與目標(biāo)進(jìn)行比較來完成評(píng)估，并將評(píng)估結(jié)果輸出到命令行。

對(duì)于單步任務(wù)，大語言模型有能力寫出比較合格的評(píng)估代碼，蔣錚堯說。

基礎(chǔ)解決方案選擇器（ Base Solution Selector ），負(fù)責(zé)從已探索的選項(xiàng)中選擇最有前途的解決方案，作為下一輪優(yōu)化的起點(diǎn)。

這是一個(gè)寫死的邏輯（一個(gè)數(shù)學(xué)運(yùn)算），大模型只需客觀判斷哪一個(gè)方案的數(shù)值最好即可。

這個(gè)組件對(duì)于引導(dǎo)搜索過程至關(guān)重要，因?yàn)?，它?huì)將實(shí)驗(yàn)資源集中到最有希望的解決方案上。

回到上面的 MLE-bench 任務(wù)。

針對(duì)初始方案，AIDE 在步驟 2 提出了改進(jìn)方案，在測(cè)試集上使用測(cè)試時(shí)增強(qiáng)（ TTA ）來提高模型性能。

在步驟 17 中，它提出了另一個(gè)改進(jìn)：用 Focal Loss 替換標(biāo)準(zhǔn)的二元交叉熵?fù)p失函數(shù)。

從步驟 2 到 17 ，暗示了中間還有許多其他優(yōu)化步驟，雖然圖片中沒有直接顯示評(píng)估結(jié)果，但我們可以推斷，從使用 EfficientNet-B0 到引入 TTA，再到更換損失函數(shù)，每一步都建立在前一步的結(jié)果評(píng)估基礎(chǔ)上。

AIDE 會(huì)要求大模型基于最佳方案繼續(xù)改進(jìn)，后者可能又生成幾種不同的改進(jìn)方向，周而復(fù)始。

通過不斷生成新的解決方案，AIDE 逐步探索和優(yōu)化解決方案空間，提高任務(wù)模型的性能，最終收斂到一個(gè)高度優(yōu)化的解決方案。

縱觀 MLE-bench 任務(wù)全程，不難發(fā)現(xiàn)，通用框架就像急著提前交卷的學(xué)生，過早結(jié)束運(yùn)行，有時(shí)在最初幾分鐘內(nèi)就結(jié)束了。

如 OpenHands 只跑了 2 分鐘（ 19 steps ）就結(jié)束，不再繼續(xù)提升。

AIDE 會(huì)反復(fù)提示模型去提高得分，一直戰(zhàn)斗到交卷鈴聲響（24 小時(shí)），共生成和評(píng)估了 30 個(gè)不同解決方案或變體（ nodes ) 。

雖然在 OpenAI MLE-bench 中，AIDE 在 16.9% 的 Kaggle 任務(wù)上獲得獎(jiǎng)牌，但 4 月的 WecoAI 技術(shù)報(bào)告中，AIDE 表現(xiàn)更優(yōu)：

在 Kaggle 數(shù)據(jù)科學(xué)比賽中的平均表現(xiàn)，擊敗了一半的人類參賽者！

來自4月的WecoAI技術(shù)報(bào)告，AIDE 平均表現(xiàn)超過 50% 的 Kaggle 數(shù)據(jù)科學(xué)比賽的人類參與者，也優(yōu)于傳統(tǒng)的 AutoML（H2O）、Langchain Agent 和 ChatGPT（在人工協(xié)助下）。

蔣錚堯解釋了性能差異的原因：

OpenAI 更關(guān)注深度學(xué)習(xí)任務(wù)，但我們選擇的 Kaggle 比賽多為表格數(shù)據(jù)任務(wù)（如預(yù)測(cè)房價(jià)、信用卡欺詐、乘客是否在泰坦尼克號(hào)事故中生存），需要深度學(xué)習(xí)的任務(wù)很少，GPU 太貴是一個(gè)重要原因。

在這些常見機(jī)器學(xué)習(xí)任務(wù)，特別是表格數(shù)據(jù)任務(wù)，花兩美元就可以得到一個(gè)非常不錯(cuò)的解決方案。蔣錚堯說，當(dāng)使用 gpt-4-turbo 作為 LLM 時(shí)，推理成本還不到 1 美元。

因?yàn)?，AIDE 每次只提供最相關(guān)的信息給 LLM，而不是將包含大量冗余的歷史信息全都扔進(jìn)去，極大節(jié)約了推理成本。

然而，OpenAI MLE-bench 也揭示出明顯的局限性。

比如，三個(gè) Agent 都沒能很好地考慮到機(jī)器的性能限制和時(shí)間限制。它們會(huì)發(fā)出一些超出機(jī)器承受能力的命令，導(dǎo)致電腦硬盤或內(nèi)存吃不消，程序被系統(tǒng)強(qiáng)制關(guān)閉，任務(wù)被迫提前結(jié)束。

另外，它們很少會(huì)表明，所生成的代碼會(huì)運(yùn)行多長時(shí)間。

蔣錚堯認(rèn)為，這些大模型并沒有真的達(dá)到「 Agent 」的程度，它們?cè)谔幚硇枰L期規(guī)劃和多步驟交互的復(fù)雜任務(wù)時(shí)仍存在明顯不足。

AIDE 代表了一種新的嘗試，結(jié)合代碼邏輯和神經(jīng)網(wǎng)絡(luò)，專門針對(duì)特定任務(wù)進(jìn)行優(yōu)化，更適合處理邊界明確的問題。

相比傳統(tǒng)純邏輯軟件，AIDE 能處理更廣泛的問題，但「如果面對(duì)的問題越開放，邏輯部分就會(huì)越復(fù)雜，直到（程度復(fù)雜到）無法處理?！?/span>

三、從 UCL 出發(fā)的 WecoAI

作為 AIDE 主要作者之一，蔣錚堯、吳宇翔和 Dominik Schmidt 也是英國初創(chuàng)公司 Weco AI 的核心團(tuán)隊(duì)成員，三人均來自享譽(yù)盛名的倫敦大學(xué)學(xué)院（ UCL ）。

蔣錚堯作為 Weco AI 的聯(lián)合創(chuàng)始人兼 CEO，目前仍在 UCL DARK 實(shí)驗(yàn)室攻讀博士學(xué)位。DARK 實(shí)驗(yàn)室（全稱 UCL Deciding, Acting, and Reasoning with Knowledge Lab ）隸屬于倫敦大學(xué)學(xué)院人工智能中心，是一個(gè)專注于復(fù)雜開放環(huán)境中強(qiáng)化學(xué)習(xí)研究的前沿團(tuán)隊(duì)。在2024年國際機(jī)器學(xué)習(xí)會(huì)議（ ICML ）上，DARK 摘得了兩項(xiàng)最佳論文獎(jiǎng)。

蔣錚堯的兩位導(dǎo)師分別是倫敦大學(xué)學(xué)院教授 Tim Rockt?schel 和 UCL 名譽(yù)教授Edward Grefenstette，兩人同時(shí)也在谷歌 DeepMind 從事研究。

公司聯(lián)合創(chuàng)始人兼 CTO 吳宇翔在 UCL 人工智能中心 NLP 組攻讀博士學(xué)位，之前聚焦于問答領(lǐng)域。創(chuàng)始工程師團(tuán)隊(duì)同樣實(shí)力雄厚，Dominik Schmidt 也來自 UCL DARK 實(shí)驗(yàn)室，擁有碩士學(xué)位。Dhruv Srikanth 在卡耐基梅隆大學(xué)獲得計(jì)算機(jī)科學(xué)碩士學(xué)位。

WecoAI 成立于 2023 年 5 月。在此之前，吳宇翔和蔣錚堯開發(fā)了多智能體 LLM 框架 ChatArena ，引起了廣泛關(guān)注。不過，開始創(chuàng)業(yè)后，團(tuán)隊(duì)意識(shí)到多智能體框架的商業(yè)化還為時(shí)尚早，且面臨諸多挑戰(zhàn)。

他們重新思考方向，尋找既具商業(yè)前景，又能激發(fā)團(tuán)隊(duì)興趣的領(lǐng)域。經(jīng)過深思熟慮，他們確定了「用 AI 智能體來制造 AI 」。

機(jī)器學(xué)習(xí)的進(jìn)步主要源于有效的實(shí)驗(yàn)：針對(duì)特定任務(wù)（如圖像分類）開發(fā)方法，運(yùn)行實(shí)驗(yàn)，評(píng)估結(jié)果，然后根據(jù)反饋改進(jìn)方法。這個(gè)迭代過程很有挑戰(zhàn)性，研究人員不僅需要具備廣泛的先驗(yàn)知識(shí)，寫出實(shí)用的代碼，還能準(zhǔn)確解讀實(shí)驗(yàn)結(jié)果，后續(xù)改進(jìn)。

作為工程師，他們天生就有自動(dòng)化工作流程的沖動(dòng)，特別看重實(shí)驗(yàn)過程自動(dòng)化的潛力，那么，強(qiáng)大語言模型驅(qū)動(dòng)的 Agent 能否有效執(zhí)行這些復(fù)雜的機(jī)器學(xué)習(xí)實(shí)驗(yàn)?zāi)兀?/span>

考慮到成本，團(tuán)隊(duì)選擇聚焦算力消耗比較低的機(jī)器學(xué)習(xí)任務(wù)，特別是在表格模型和小規(guī)模神經(jīng)網(wǎng)絡(luò)方面，并于 2024 年 4 月推出了 AIDE ，在 Kaggle 數(shù)據(jù)科學(xué)比賽中的平均表現(xiàn)戰(zhàn)勝了 50% 的人類參賽者。

AIDE 主要是我們研究方向的工作。蔣錚堯解釋說，盡管 OpenAI 的 o1-preview 帶來了一些進(jìn)展，但目前技術(shù)還沒有完全成熟，商業(yè)化仍面臨諸多挑戰(zhàn)。

未來，AIDE 也將持續(xù)改進(jìn)?！肝覀冇?jì)劃加強(qiáng)與社區(qū)的合作，包括提升性能和關(guān)注 AI 安全，」蔣錚堯表示，「我們也準(zhǔn)備與對(duì) AI 安全有擔(dān)憂的各類機(jī)構(gòu)和學(xué)界專家展開合作。」

這種能夠遞歸自我提升（ recursive self-improvement ）的 AI 同時(shí)又是非常危險(xiǎn)的。

前不久，微軟 AI CEO Mustafa Suleyman 公開表示，盡管目前我們還沒有看到 AI 系統(tǒng)能夠自我提升到導(dǎo)致智能爆炸（ intelligence explosion ）的程度，但在未來 5 到 10 年，這種情況將會(huì)改變。

各大 AI 公司和政府 AI 安全部門都在密切關(guān)注這?領(lǐng)域，構(gòu)建公共 benchmark 可以幫助大家理解人類距離遞歸自我提升還有多遠(yuǎn)，并及時(shí)協(xié)調(diào)和應(yīng)對(duì)。

除了科研線 AIDE ， WecoAI 還有一個(gè)產(chǎn)品線。

他們馬上會(huì)發(fā)布第?個(gè)公開測(cè)試的產(chǎn)品 AI Function Builder，它能根據(jù)自然語言的任務(wù)描述生成 AI 功能并提供 API 接口。用戶只需通過簡單的一行代碼或電子表格中的一個(gè)公式就能調(diào)用這些功能。

就在 OpenAI 公布 MLE-bench 的前幾天，2024 年諾貝爾化學(xué)獎(jiǎng)被一分為二：

一半共同授予谷歌 DeepMind CEO Demis Hassabis 和高級(jí)研究科學(xué)家 John M. Jumper，以表彰他們「在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面的貢獻(xiàn)」。

這一殊榮源自享譽(yù)全球的 AlphaFold，也標(biāo)志著諾貝爾獎(jiǎng)對(duì) AI 驅(qū)動(dòng)科學(xué)發(fā)現(xiàn)這一新范式的高度肯定。據(jù)悉，學(xué)術(shù)界許多人將不得不重新編寫研究經(jīng)費(fèi)申請(qǐng)，重新思考研究方向，尤其是專注于計(jì)算蛋白質(zhì)折疊的研究人員。

蔣錚堯認(rèn)為，未來將會(huì)涌現(xiàn)出更多這樣的「低垂果實(shí)」，因?yàn)?AI 在推動(dòng)科學(xué)研究方面的作用可能是根本性的。從工程師的角度來看，未來人們可能會(huì)將更多時(shí)間投入到創(chuàng)造性思維、跨領(lǐng)域思想的整合以及深度的邏輯推理上，而將那些重復(fù)性的試錯(cuò)過程交由 AI 來完成。

WecoAI 最想做的是培養(yǎng)「 AI 科學(xué)家」，讓這些 AI 智能體能夠自主地形成或融入人類的科學(xué)共同體。

開源庫鏈接：https://github.com/WecoAI/aideml

責(zé)任編輯：張燕妮來源：機(jī)器之心