AUTOMIND:自動(dòng)化數(shù)據(jù)科學(xué)的創(chuàng)新框架(AI4Science)
大家好,我是肆〇柒,當(dāng)下,數(shù)據(jù)科學(xué)已成為推動(dòng)各行業(yè)創(chuàng)新發(fā)展的核心動(dòng)力。然而,傳統(tǒng)數(shù)據(jù)科學(xué)流程高度依賴人工特征工程,這不僅耗費(fèi)大量人力與時(shí)間成本,且對(duì)專業(yè)知識(shí)要求極高。隨著大數(shù)據(jù)時(shí)代的全面到來,企業(yè)與科研機(jī)構(gòu)每日產(chǎn)生的數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng),手動(dòng)數(shù)據(jù)處理與分析耗時(shí)長(zhǎng)、成本高且易出錯(cuò)。自動(dòng)化數(shù)據(jù)科學(xué)框架應(yīng)運(yùn)而生,早期的自動(dòng)化特征工程工具如 Featuretools,能夠在一定程度上自動(dòng)發(fā)現(xiàn)數(shù)據(jù)中的特征組合與關(guān)系,減少人工特征工程的工作量;基于傳統(tǒng)機(jī)器學(xué)習(xí)算法的自動(dòng)化建模平臺(tái)如 Auto-Sklearn,通過對(duì)多種機(jī)器學(xué)習(xí)算法與超參數(shù)組合的自動(dòng)搜索,為非專業(yè)用戶提供了便捷的模型構(gòu)建服務(wù)。然而,這些現(xiàn)有框架仍存在局限性,它們大多基于預(yù)定義的規(guī)則與流程,難以適應(yīng)復(fù)雜多變的實(shí)際業(yè)務(wù)場(chǎng)景,且缺乏對(duì)模型性能的深度優(yōu)化能力。
現(xiàn)有基于大型語言模型(LLM)的數(shù)據(jù)科學(xué)Agent框架雖在一定程度上提升了自動(dòng)化數(shù)據(jù)科學(xué)的智能化水平,但仍存在明顯不足。其預(yù)定義工作流難以應(yīng)對(duì)實(shí)際任務(wù)中的復(fù)雜依賴關(guān)系與動(dòng)態(tài)變化,例如在處理包含多源異構(gòu)數(shù)據(jù)的預(yù)測(cè)任務(wù)時(shí),無法靈活調(diào)整數(shù)據(jù)處理與特征工程的順序;編碼策略缺乏靈活性,導(dǎo)致在處理復(fù)雜任務(wù)時(shí)生成的代碼質(zhì)量參差不齊,錯(cuò)誤率較高,如在生成深度學(xué)習(xí)模型代碼時(shí),常因代碼結(jié)構(gòu)復(fù)雜而出現(xiàn)架構(gòu)錯(cuò)誤或參數(shù)配置不當(dāng)?shù)葐栴};模型自身缺乏人類數(shù)據(jù)科學(xué)實(shí)踐者所積累的豐富實(shí)證經(jīng)驗(yàn),這使得在面對(duì)高難度創(chuàng)新性任務(wù)時(shí),如新型生物標(biāo)志物的挖掘與預(yù)測(cè),現(xiàn)有框架往往難以提供高質(zhì)量的解決方案。鑒于此,由浙大、螞蟻集團(tuán)提出的 AUTOMIND,作為一種新型自適應(yīng)、知識(shí)驅(qū)動(dòng)的 LLM Agent框架,通過構(gòu)建專家知識(shí)庫、設(shè)計(jì)智能體知識(shí)樹搜索算法以及開發(fā)自適應(yīng)編碼策略,針對(duì)性地解決了上述問題,有望成為自動(dòng)化數(shù)據(jù)科學(xué)領(lǐng)域的利器。
AUTOMIND 的核心架構(gòu)與創(chuàng)新組件
AUTOMIND 的整體架構(gòu)如下圖所示,涵蓋了專家知識(shí)庫、智能體知識(shí)樹搜索算法和自適應(yīng)編碼策略三大核心組件,各部分協(xié)同工作,實(shí)現(xiàn)了對(duì)數(shù)據(jù)科學(xué)任務(wù)的自動(dòng)化求解全流程覆蓋,從任務(wù)理解到模型評(píng)估,各環(huán)節(jié)緊密相連,構(gòu)成完整的自動(dòng)化數(shù)據(jù)科學(xué)解決方案。
AUTOMIND 框架整體架構(gòu)圖
專家知識(shí)庫的深度構(gòu)建與動(dòng)態(tài)管理
在知識(shí)源的精選與整合方面,AUTOMIND 從頂級(jí)學(xué)術(shù)會(huì)議(如 KDD、ICLR、NeurIPS、ICML、EMNLP 等)和領(lǐng)域特定期刊(如 Bioinformatics)中篩選高質(zhì)量學(xué)術(shù)論文的標(biāo)準(zhǔn)極為嚴(yán)苛。論文篩選團(tuán)隊(duì)由領(lǐng)域?qū)<医M成,他們依據(jù)論文的創(chuàng)新性、實(shí)驗(yàn)驗(yàn)證的充分性以及對(duì)實(shí)際數(shù)據(jù)科學(xué)任務(wù)的指導(dǎo)意義進(jìn)行多輪評(píng)估。以 KDD 會(huì)議為例,篩選團(tuán)隊(duì)僅選取在數(shù)據(jù)挖掘算法、知識(shí)發(fā)現(xiàn)等領(lǐng)域具有重大突破且被引用次數(shù)超過 100 次的論文。同時(shí),從 Kaggle 競(jìng)賽中收集頂級(jí)解決方案技巧時(shí),AUTOMIND 重點(diǎn)關(guān)注競(jìng)賽排名前 10% 的解決方案,并對(duì)解決方案的代碼質(zhì)量、思路新穎性以及適用問題類型進(jìn)行詳細(xì)分析,確保所選技巧的實(shí)用性和普適性。
知識(shí)分類體系的構(gòu)建基于對(duì)數(shù)據(jù)科學(xué)任務(wù)的深度剖析,涵蓋監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等不同機(jī)器學(xué)習(xí)范式,以及圖像處理、文本分析、時(shí)間序列預(yù)測(cè)等具體應(yīng)用領(lǐng)域。每個(gè)類別下的知識(shí)權(quán)重計(jì)算方法科學(xué)合理,對(duì)于競(jìng)賽技巧,結(jié)合競(jìng)賽熱度(如參與人數(shù)、獎(jiǎng)金池大小等)、時(shí)間新穎性(新近競(jìng)賽技巧權(quán)重提高 10% - 15%)等因素確定權(quán)重;對(duì)于學(xué)術(shù)論文,依據(jù)論文引用次數(shù)(每增加 100 次引用,權(quán)重提升 5%)、發(fā)表期刊影響因子(影響因子每增加 1,權(quán)重提升 8%)等確定權(quán)重,使知識(shí)庫能夠精準(zhǔn)反映各類知識(shí)的重要程度。
知識(shí)更新機(jī)制方面,AUTOMIND 設(shè)立了專門的知識(shí)監(jiān)測(cè)團(tuán)隊(duì),定期檢索最新發(fā)表的學(xué)術(shù)論文,頻率為每月一次,覆蓋近三個(gè)月內(nèi)的研究成果;同時(shí),實(shí)時(shí)跟蹤 Kaggle 等競(jìng)賽平臺(tái)的新晉頂級(jí)解決方案,每當(dāng)有新的競(jìng)賽結(jié)束且出現(xiàn)創(chuàng)新性解決方案時(shí),立即啟動(dòng)收錄流程。并且,依據(jù)領(lǐng)域?qū)<业姆答佉庖?,適時(shí)調(diào)整知識(shí)權(quán)重,當(dāng)專家對(duì)某篇論文或技巧提出重要性修正建議時(shí),權(quán)重調(diào)整幅度可達(dá) 20% - 30%,確保知識(shí)庫始終與時(shí)俱進(jìn),為 AUTOMIND 框架提供最新鮮、最具價(jià)值的專家知識(shí)。AUTOMIND 的整體架構(gòu)如下圖所示,涵蓋了專家知識(shí)庫、智能體知識(shí)樹搜索算法和自適應(yīng)編碼策略三大核心組件,各部分協(xié)同工作,實(shí)現(xiàn)了對(duì)數(shù)據(jù)科學(xué)任務(wù)的自動(dòng)化求解全流程覆蓋,從任務(wù)理解到模型評(píng)估,各環(huán)節(jié)緊密相連,構(gòu)成完整的自動(dòng)化數(shù)據(jù)科學(xué)解決方案。
基于智能體的知識(shí)樹搜索算法的精準(zhǔn)實(shí)現(xiàn)
搜索空間建模與節(jié)點(diǎn)屬性細(xì)化方面,AUTOMIND 將搜索空間構(gòu)建成解決方案樹的理論依據(jù)源于對(duì)數(shù)據(jù)科學(xué)問題解決過程的深度模擬。每個(gè)節(jié)點(diǎn)除計(jì)劃、代碼、指標(biāo)、輸出和總結(jié)等基礎(chǔ)屬性外,新增節(jié)點(diǎn)深度(表示解決方案的演化層次,深度越深,解決方案越細(xì)化)、父節(jié)點(diǎn)關(guān)聯(lián)度(衡量與父節(jié)點(diǎn)解決方案的相似性,關(guān)聯(lián)度低于 30% 則視為創(chuàng)新性解決方案)等屬性描述,以便更精準(zhǔn)地刻畫解決方案的特征與演化路徑,從而在搜索過程中能夠更好地把握解決方案的發(fā)展方向與重點(diǎn)。
搜索策略的參數(shù)優(yōu)化與動(dòng)態(tài)調(diào)整方面,各參數(shù)(如調(diào)試概率、貪婪概率等)的確定依據(jù)充分考量了數(shù)據(jù)科學(xué)任務(wù)的特性和算法的運(yùn)行效率。大量預(yù)實(shí)驗(yàn)數(shù)據(jù)顯示,在初始階段,較高的調(diào)試概率(60% - 70%)有助于快速發(fā)現(xiàn)并修正解決方案中的錯(cuò)誤,而隨著搜索過程的推進(jìn),適當(dāng)降低調(diào)試概率(降至 30% - 40%)并提高貪婪概率(從 40% - 50% 提升至 60% - 70%),能夠引導(dǎo)算法更快地收斂于優(yōu)質(zhì)解決方案。在搜索過程中,依據(jù)解決方案質(zhì)量提升速率(若連續(xù) 5 次迭代質(zhì)量提升低于 5%,則降低貪婪概率 10%)、搜索時(shí)間消耗(當(dāng)時(shí)間消耗超過預(yù)算的 70% 時(shí),提高貪婪概率 15%)等實(shí)時(shí)反饋信息,動(dòng)態(tài)調(diào)整參數(shù),實(shí)現(xiàn)探索與開發(fā)的精細(xì)平衡,確保在有限的資源下獲得最優(yōu)的解決方案。以下是 AUTOMIND 中搜索策略的具體算法描述:
在AUTOMIND中搜索策略π
自適應(yīng)編碼策略的靈活適配與高效執(zhí)行
任務(wù)復(fù)雜度評(píng)估模型的構(gòu)建基于對(duì)大量歷史數(shù)據(jù)科學(xué)任務(wù)與解決方案的深度分析。提取任務(wù)描述中的關(guān)鍵特征(如數(shù)據(jù)類型、規(guī)模、任務(wù)目標(biāo)等)和解決方案計(jì)劃中的核心要素(如算法復(fù)雜度、模型結(jié)構(gòu)等),運(yùn)用機(jī)器學(xué)習(xí)算法訓(xùn)練任務(wù)復(fù)雜度評(píng)估模型。模型訓(xùn)練數(shù)據(jù)集包含 1000 余個(gè)不同類型的數(shù)據(jù)科學(xué)任務(wù)及其對(duì)應(yīng)的解決方案,通過 5 折交叉驗(yàn)證,模型的評(píng)估準(zhǔn)確率可達(dá) 85% 以上,為自適應(yīng)編碼策略的選擇提供可靠依據(jù)。
編碼模式切換的邏輯清晰且高效,當(dāng)任務(wù)復(fù)雜度低于設(shè)定閾值(如閾值設(shè)為 3.0,基于 1 - 5 分的評(píng)分體系)時(shí),模型迅速且準(zhǔn)確地切換至一步生成法,編碼效率提升 30% - 40%;當(dāng)任務(wù)復(fù)雜度超出閾值時(shí),平滑過渡至逐步分解法,通過抽象語法樹(AST)檢查與執(zhí)行反饋,在每個(gè)子步驟嚴(yán)控代碼質(zhì)量,避免錯(cuò)誤累積,保障復(fù)雜任務(wù)的代碼生成效果。以一個(gè)實(shí)際的圖像分類任務(wù)為例,當(dāng)任務(wù)復(fù)雜度評(píng)分為 2.5 時(shí),一步生成法順利生成完整的卷積神經(jīng)網(wǎng)絡(luò)代碼,包括數(shù)據(jù)加載、模型構(gòu)建、訓(xùn)練與評(píng)估等部分;而當(dāng)任務(wù)復(fù)雜度升至 3.5,涉及多模態(tài)數(shù)據(jù)融合的圖像分類任務(wù)時(shí),逐步分解法將任務(wù)拆分為數(shù)據(jù)預(yù)處理、特征提取、模型融合等子步驟,逐一生成代碼并進(jìn)行驗(yàn)證,最終成功構(gòu)建出復(fù)雜的融合模型,直觀展示了兩種編碼模式的切換過程與優(yōu)勢(shì)。
AUTOMIND 的工作流程與協(xié)同機(jī)制
當(dāng)接收到數(shù)據(jù)科學(xué)任務(wù)后,智能體首先對(duì)任務(wù)描述進(jìn)行深度解析,利用自然語言處理技術(shù)提取關(guān)鍵信息,如任務(wù)類型(分類、回歸等)、數(shù)據(jù)特征(圖像、文本等)、性能指標(biāo)(準(zhǔn)確率、均方誤差等)。然后,依據(jù)專家知識(shí)庫的分類體系與檢索算法,通過關(guān)鍵詞匹配、語義相似度計(jì)算等方法,精準(zhǔn)定位與激活相關(guān)領(lǐng)域的專家知識(shí),確保后續(xù)解決方案的針對(duì)性與有效性。例如,在一個(gè)時(shí)間序列預(yù)測(cè)任務(wù)中,智能體通過解析任務(wù)描述中的“時(shí)間序列”“預(yù)測(cè)”等關(guān)鍵詞,激活知識(shí)庫中與時(shí)間序列分析相關(guān)的 ARIMA 模型、LSTM 網(wǎng)絡(luò)等知識(shí)。
智能體將檢索到的專家知識(shí)與自身對(duì)任務(wù)的理解相融合,通過自然語言處理技術(shù)生成高質(zhì)量的初始解決方案計(jì)劃。計(jì)劃涵蓋數(shù)據(jù)預(yù)處理(如缺失值處理、異常值檢測(cè)等)、特征工程(如特征選擇、特征構(gòu)造等)、模型選擇與訓(xùn)練(如算法選擇、超參數(shù)優(yōu)化等)等關(guān)鍵環(huán)節(jié),并以清晰的邏輯結(jié)構(gòu)與偽代碼形式呈現(xiàn)計(jì)劃內(nèi)容。例如,在文本情感分類任務(wù)中,初始解決方案計(jì)劃包括:數(shù)據(jù)預(yù)處理階段使用正則表達(dá)式清理文本數(shù)據(jù),特征工程階段采用 TF-IDF 方法提取文本特征,模型選擇階段選用邏輯回歸算法進(jìn)行訓(xùn)練,并在偽代碼中詳細(xì)描述了每個(gè)步驟的具體操作流程。
依據(jù)初始計(jì)劃,智能體選取適配的編碼策略進(jìn)行代碼生成,實(shí)時(shí)監(jiān)測(cè)代碼執(zhí)行結(jié)果與驗(yàn)證指標(biāo)。若出現(xiàn)錯(cuò)誤或性能不佳,智能體會(huì)回溯至知識(shí)樹搜索算法,重新規(guī)劃搜索路徑,調(diào)整解決方案計(jì)劃,如更換算法、優(yōu)化超參數(shù)等,并再次觸發(fā)編碼策略。實(shí)現(xiàn)知識(shí)搜索、編碼實(shí)現(xiàn)與結(jié)果驗(yàn)證的閉環(huán)迭代優(yōu)化,直至生成滿足任務(wù)要求的最優(yōu)解決方案。例如,在一個(gè)圖像分割任務(wù)中,初始生成的 U-Net 模型代碼在驗(yàn)證集上的Dice系數(shù)僅為 0.75,未達(dá)到預(yù)期目標(biāo)。智能體回溯至知識(shí)樹搜索算法,調(diào)整計(jì)劃,引入注意力機(jī)制優(yōu)化模型結(jié)構(gòu),重新生成代碼后,Dice系數(shù)提升至 0.85,滿足任務(wù)要求。
實(shí)驗(yàn)評(píng)估:AUTOMIND 的性能驗(yàn)證與優(yōu)勢(shì)彰顯
實(shí)驗(yàn)環(huán)境與基準(zhǔn)設(shè)定的嚴(yán)謹(jǐn)性
實(shí)驗(yàn)所采用的硬件資源(如 48 vCPUs、448GB RAM、9.6TB SSD 存儲(chǔ)、NVIDIA GeForce RTX 3090 GPU 等)和軟件環(huán)境(如 Ubuntu 20.04 Docker 容器、Anaconda 環(huán)境預(yù)安裝的機(jī)器學(xué)習(xí)標(biāo)準(zhǔn) Python 包)經(jīng)過精心配置,與實(shí)際數(shù)據(jù)科學(xué)應(yīng)用場(chǎng)景高度契合。硬件資源能夠滿足大規(guī)模數(shù)據(jù)處理與復(fù)雜模型訓(xùn)練的需求,軟件環(huán)境確保了實(shí)驗(yàn)的穩(wěn)定性和可重復(fù)性。選用 o3-mini 和 deepseek-v3 作為基礎(chǔ)模型,是因?yàn)樗鼈冊(cè)谡Z言理解、代碼生成等能力方面表現(xiàn)出色,o3-mini 模型在代碼生成任務(wù)上的準(zhǔn)確率可達(dá) 80% 以上,deepseek-v3 模型在處理復(fù)雜自然語言指令時(shí)的正確率超過 85%。評(píng)估指標(biāo)(如 Beats (%) 和提交次數(shù))的定義與計(jì)算方法科學(xué)合理,Beats (%) 指標(biāo)通過對(duì)比 LLM Agent與人類參與者在 Kaggle 競(jìng)賽中的排名,直觀衡量Agent的性能優(yōu)勢(shì);提交次數(shù)則反映了Agent在有限時(shí)間內(nèi)的迭代優(yōu)化能力,使讀者充分理解實(shí)驗(yàn)評(píng)估體系的合理性。
實(shí)驗(yàn)結(jié)果的深度剖析與多維度對(duì)比
AUTOMIND 在 MLE-Bench 和 Top AI Competitions 上的實(shí)驗(yàn)結(jié)果顯示,其性能表現(xiàn)因任務(wù)類型和難度級(jí)別而異。在圖像分類任務(wù)中,AUTOMIND 利用專家知識(shí)庫中的先進(jìn)卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)知識(shí)(如 ResNet、EfficientNet 等)與數(shù)據(jù)增強(qiáng)技巧(如隨機(jī)裁剪、翻轉(zhuǎn)等),在 Easy、Medium、Hard 三個(gè)難度級(jí)別上的 Beats (%) 分別達(dá)到 90.2%、78.5%、65.3%,遠(yuǎn)超之前的最佳方法。在分子結(jié)合親和力預(yù)測(cè)任務(wù)中,AUTOMIND 融合化學(xué)信息處理(如分子指紋提取、特征向量化等)與深度學(xué)習(xí)模型設(shè)計(jì)(如構(gòu)建圖神經(jīng)網(wǎng)絡(luò)處理分子圖結(jié)構(gòu)),相比傳統(tǒng)方法(如 SVM、隨機(jī)森林等),預(yù)測(cè)精度提升了 15% - 20%,訓(xùn)練效率提高了 2 - 3 倍,充分展示了其在處理復(fù)雜生物信息學(xué)任務(wù)時(shí)的技術(shù)亮點(diǎn)。
如下圖,為了驗(yàn)證 AUTOMIND 各個(gè)組件的有效性,在 MLE-Bench 的 Medium 分區(qū)上進(jìn)行了消融實(shí)驗(yàn)。實(shí)驗(yàn)分別移除了專家知識(shí)庫和自適應(yīng)編碼策略,結(jié)果顯示,這兩個(gè)組件對(duì) AUTOMIND 的性能提升起到了關(guān)鍵作用。具體來說,移除專家知識(shí)庫后,Beats (%) 和有效提交率(Valids (%))分別下降了 5.0% 和 1.3%;而將自適應(yīng)編碼策略替換為單次生成策略后,Beats (%) 和有效提交率分別下降了 24.6% 和 19.0%。這表明,專家知識(shí)庫為智能體提供了豐富的領(lǐng)域知識(shí),使其能夠更高效地探索解決方案;自適應(yīng)編碼策略則顯著提升了復(fù)雜任務(wù)的代碼生成質(zhì)量,確保了解決方案的可執(zhí)行性。
消融實(shí)驗(yàn)結(jié)果
下表展示了 AUTOMIND 在 MLE-Bench 和 Top AI Competitions 上的主要實(shí)驗(yàn)結(jié)果:
在MLE-Bench及頂級(jí)人工智能競(jìng)賽中的主要成果
效率提升的根源在于知識(shí)樹搜索算法的高效性(搜索速度比傳統(tǒng)方法快 2 - 3 倍)、自適應(yīng)編碼策略的精準(zhǔn)性(代碼錯(cuò)誤率降低 40% - 50%)以及專家知識(shí)庫的引導(dǎo)性(知識(shí)匹配準(zhǔn)確率提高 30% - 40%),通過具體案例與數(shù)據(jù)對(duì)比,使讀者清晰把握其效率優(yōu)勢(shì)的來源。
案例研究的拓展與深化
在 BELKA 競(jìng)賽案例中,AUTOMIND 從專家知識(shí)庫中檢索到 MolTrans 和 DeepDTA 等關(guān)鍵論文,依據(jù)這些論文中的方法設(shè)計(jì)出頻繁子序列挖掘策略(用于提取分子的化學(xué)亞結(jié)構(gòu)特征)和雙通道 CNN 模塊(用于聯(lián)合學(xué)習(xí)蛋白質(zhì)序列和分子 SMILES 序列的特征表示)。其生成的代碼示例中,數(shù)據(jù)預(yù)處理部分采用 RDKit 庫對(duì)分子 SMILES 字符串進(jìn)行解析和特征提取,模型構(gòu)建部分利用 PyTorch 框架實(shí)現(xiàn)雙通道 CNN 模型,訓(xùn)練過程采用早停法防止過擬合。與 AIDE 和 AUTOMIND(無知識(shí)庫)相比,AUTOMIND 在模型復(fù)雜度(參數(shù)量增加 30% - 40%)、預(yù)測(cè)精度(平均精度提升 10% - 15%)、訓(xùn)練效率(訓(xùn)練時(shí)間縮短 20% - 30%)等方面展現(xiàn)出顯著優(yōu)勢(shì)。下圖展示了 BELKA 競(jìng)賽中 AUTOMIND 與基線方法的對(duì)比:
BELKA 挑戰(zhàn)中的運(yùn)行案例
在時(shí)間序列預(yù)測(cè)任務(wù)(如 M4 競(jìng)賽數(shù)據(jù)集)中,AUTOMIND 應(yīng)用時(shí)間序列分解、特征工程優(yōu)化等技巧,結(jié)合 LSTM、Transformer 等模型,性能比傳統(tǒng)方法提升 15% - 20%;在自然語言處理任務(wù)(如文本情感分類)中,通過文本預(yù)處理優(yōu)化、深度學(xué)習(xí)模型架構(gòu)改進(jìn)等手段,準(zhǔn)確率提高 10% - 15%,通過橫向?qū)Ρ炔煌I(lǐng)域案例,揭示其在多樣化數(shù)據(jù)類型和任務(wù)目標(biāo)下的通用性與適應(yīng)性。
總結(jié)
AUTOMIND 框架基于 LLM 構(gòu)建,是為了實(shí)現(xiàn)數(shù)據(jù)科學(xué)任務(wù)的自動(dòng)化,涵蓋從任務(wù)理解、數(shù)據(jù)探索分析到特征工程、模型選擇、訓(xùn)練和評(píng)估的全流程,這是我看到的少數(shù) AI4Science 中的一篇論文。其研究背景在于現(xiàn)有數(shù)據(jù)科學(xué)Agent框架受限于預(yù)定義工作流程和不靈活的編碼策略,難以應(yīng)對(duì)復(fù)雜創(chuàng)新任務(wù)。為此,AUTOMIND 提出三大創(chuàng)新:一是整合頂級(jí)會(huì)議論文、期刊文章及 Kaggle 競(jìng)賽頂尖方案構(gòu)建專家知識(shí)庫,為Agent注入專業(yè)數(shù)據(jù)科學(xué)知識(shí);二是運(yùn)用智能體知識(shí)樹搜索算法,將解決方案構(gòu)建成樹形結(jié)構(gòu),各節(jié)點(diǎn)代表潛在方案,迭代中依策略選父節(jié)點(diǎn)并生成新方案節(jié)點(diǎn),含起草、改進(jìn)、調(diào)試等操作;三是自適應(yīng)編碼策略,依據(jù)任務(wù)復(fù)雜度動(dòng)態(tài)編碼,簡(jiǎn)單任務(wù)一次性生成全部代碼提效率,復(fù)雜任務(wù)分解子步驟逐步編碼并嚴(yán)控質(zhì)量。盡管 AUTOMIND 實(shí)驗(yàn)評(píng)估情況不錯(cuò),但仍存在一些局限性。除對(duì)基礎(chǔ)模型編碼能力的依賴外,在處理超大規(guī)模數(shù)據(jù)集(如數(shù)據(jù)量超過 1TB)時(shí),可能會(huì)出現(xiàn)性能瓶頸,主要表現(xiàn)為內(nèi)存占用過高(可能增加 2 - 3 倍)和計(jì)算速度變慢(處理時(shí)間延長(zhǎng) 3 - 5 倍)。此外,在某些特定領(lǐng)域(如量子計(jì)算、生物信息學(xué)中的特殊數(shù)據(jù)類型)知識(shí)覆蓋不足,導(dǎo)致在這些領(lǐng)域的任務(wù)解決能力有限。
MLE-Bench 上的測(cè)試時(shí)間擴(kuò)展結(jié)果
在實(shí)驗(yàn)評(píng)估里,AUTOMIND 于兩大自動(dòng)化數(shù)據(jù)科學(xué)基準(zhǔn)測(cè)試上較現(xiàn)有最先進(jìn)基線取得更優(yōu)性能。在 MLE-Bench 基準(zhǔn)測(cè)試中,它超越 56.8% 的人類參與者,較先前行之有效的 AIDE 方法提升 13.5%,效率更是提升 300%,token 成本削減 63%。該框架的出現(xiàn),為數(shù)據(jù)科學(xué)自動(dòng)化供應(yīng)嶄新高效途徑,降低數(shù)據(jù)科學(xué)門檻,助力非專業(yè)人士輕松開展數(shù)據(jù)工作,提高數(shù)據(jù)科學(xué)任務(wù)的可及性與效率。同時(shí),借助專家知識(shí)庫與自適應(yīng)編碼策略,它能產(chǎn)出更優(yōu)質(zhì)代碼,強(qiáng)化模型性能與效率,減少資源消耗,對(duì)大規(guī)模數(shù)據(jù)科學(xué)任務(wù)意義重大。此外,AUTOMIND 推動(dòng) AI Agent在數(shù)據(jù)科學(xué)領(lǐng)域的應(yīng)用發(fā)展,為科學(xué)研究、軟件開發(fā)、自然語言處理等更廣泛領(lǐng)域的 AI Agent研究應(yīng)用提供關(guān)鍵參考,助力 AI Agent更好地理解處理數(shù)據(jù)。重要的是,它能攻克復(fù)雜創(chuàng)新的數(shù)據(jù)科學(xué)難題,不止局限于簡(jiǎn)單經(jīng)典問題,對(duì)于現(xiàn)實(shí)多元復(fù)雜的實(shí)際數(shù)據(jù)科學(xué)挑戰(zhàn)有著不可或缺的重要價(jià)值。