智能體DS-Agent基于案例推理，讓GPT-4數(shù)據(jù)科學(xué)任務(wù)接近100%

作者：機(jī)器之心 2024-03-27 09:12:52

基于案例的推理助力大模型智能體挑戰(zhàn)自動(dòng)化數(shù)據(jù)科學(xué)任務(wù)，吉大、上交和汪軍團(tuán)隊(duì)發(fā)布專(zhuān)注于數(shù)據(jù)科學(xué)的智能體構(gòu)建框架 DS-Agent。

在大數(shù)據(jù)時(shí)代，數(shù)據(jù)科學(xué)覆蓋了從數(shù)據(jù)中挖掘見(jiàn)解的全周期，包括數(shù)據(jù)收集、處理、建模、預(yù)測(cè)等關(guān)鍵環(huán)節(jié)。鑒于數(shù)據(jù)科學(xué)項(xiàng)目的復(fù)雜本質(zhì)以及對(duì)人類(lèi)專(zhuān)家知識(shí)的深度依賴，自動(dòng)化在改變數(shù)據(jù)科學(xué)范式方面擁有極大的發(fā)展空間。隨著生成式預(yù)訓(xùn)練語(yǔ)言模型的興起，讓大語(yǔ)言模型智能體處理復(fù)雜任務(wù)變得越來(lái)越重要。

傳統(tǒng)的數(shù)據(jù)處理和分析大多依賴專(zhuān)業(yè)的數(shù)據(jù)科學(xué)家，費(fèi)時(shí)費(fèi)力。如果能夠讓大語(yǔ)言模型智能體扮演數(shù)據(jù)科學(xué)家的角色，那么除了能夠?yàn)槲覀兲峁└咝У亩床旌头治?，還可以開(kāi)啟前所未有的工業(yè)模式和研究范式。

這樣一來(lái)只要給定數(shù)據(jù)任務(wù)需求，專(zhuān)注于數(shù)據(jù)科學(xué)的智能體就可以自主地處理海量數(shù)據(jù)，發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的模式和趨勢(shì)。更廣闊地，可以提供清晰模型構(gòu)建的策略和代碼，調(diào)用機(jī)器進(jìn)行模型部署推理，最后利用數(shù)據(jù)可視化，使復(fù)雜的數(shù)據(jù)關(guān)系一目了然。

近期，吉林大學(xué)、上海交通大學(xué)和倫敦大學(xué)學(xué)院汪軍團(tuán)隊(duì)合作提出了 DS-Agent，這一智能體的角色定位是一名數(shù)據(jù)科學(xué)家，其目標(biāo)是在自動(dòng)化數(shù)據(jù)科學(xué)中處理復(fù)雜的機(jī)器學(xué)習(xí)建模任務(wù)。技術(shù)層面上，團(tuán)隊(duì)采用了一種經(jīng)典的人工智能策略 —— 基于案例的推理（Case-Based Reasoning，CBR），賦予了智能體 “參考” 他山之石的能力，使其能夠利用以往解決類(lèi)似問(wèn)題的經(jīng)驗(yàn)來(lái)解決新問(wèn)題。

論文鏈接：https://arxiv.org/pdf/2402.17453.pdf
代碼鏈接：https://github.com/guosyjlu/DS-Agent
論文題目：DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning

研究背景

在自動(dòng)化數(shù)據(jù)科學(xué)這種開(kāi)放決策場(chǎng)景中，目前的大模型智能體（例如 AutoGPT、LangChain、ResearchAgent 等）即使搭配 GPT-4 也難以保證較高的成功率。其主要挑戰(zhàn)在于大模型智能體無(wú)法穩(wěn)定地生成可靠的機(jī)器學(xué)習(xí)解決方案，并且還面臨著幻覺(jué)輸出的問(wèn)題。當(dāng)然，針對(duì)數(shù)據(jù)科學(xué)這一特定場(chǎng)景對(duì)大模型進(jìn)行微調(diào)似乎是一種可行的策略，但這同時(shí)引入了兩個(gè)新問(wèn)題：（1）生成有效的反饋信號(hào)需要基于機(jī)器學(xué)習(xí)模型訓(xùn)練，這一過(guò)程需要耗費(fèi)大量時(shí)間才能積累足夠的微調(diào)數(shù)據(jù)。（2）微調(diào)過(guò)程中需要執(zhí)行反向傳播算法，這不僅增加了計(jì)算開(kāi)銷(xiāo)，而且大幅度提升了對(duì)計(jì)算資源的需求。

在這種情況下，團(tuán)隊(duì)決定使用 Kaggle 這一關(guān)鍵資源。作為世界上最大的數(shù)據(jù)科學(xué)競(jìng)賽平臺(tái)，它擁有由經(jīng)驗(yàn)豐富的數(shù)據(jù)科學(xué)家社區(qū)貢獻(xiàn)的大量技術(shù)報(bào)告和代碼。為了使大模型智能體能夠高效地利用這些專(zhuān)家知識(shí)，團(tuán)隊(duì)采用了一個(gè)經(jīng)典的人工智能問(wèn)題解決范式 —— 基于案例的推理。

基于案例的推理的核心工作機(jī)制是維護(hù)一個(gè)案例庫(kù)來(lái)不斷存儲(chǔ)過(guò)往經(jīng)驗(yàn)。當(dāng)出現(xiàn)一個(gè)新問(wèn)題時(shí)，CBR 會(huì)在案例庫(kù)中檢索相似的過(guò)往案例，并嘗試復(fù)用這些案例的解決方案來(lái)解決新問(wèn)題。隨后，CBR 會(huì)評(píng)估解決方案的有效性并根據(jù)反饋修訂解決方案，這一過(guò)程中的成功的解決方案會(huì)被增加到案例庫(kù)中以供未來(lái)復(fù)用。

在此基礎(chǔ)上，團(tuán)隊(duì)提出 DS-Agent，利用 CBR 使大模型智能體能夠分析、提取和重用 Kaggle 上的人類(lèi)專(zhuān)家見(jiàn)解，并根據(jù)實(shí)際的執(zhí)行反饋迭代修訂解決方案，從而實(shí)現(xiàn)面向數(shù)據(jù)科學(xué)任務(wù)的持續(xù)性能提升。

框架細(xì)節(jié)

總體上，DS-Agent 實(shí)現(xiàn)了兩種模式，以適應(yīng)不同的應(yīng)用階段和資源要求。

標(biāo)準(zhǔn)模式（開(kāi)發(fā)階段）：DS-Agent 采用 CBR 構(gòu)建自動(dòng)化迭代流程，這模擬了數(shù)據(jù)科學(xué)家在搭建和調(diào)整機(jī)器學(xué)習(xí)模型時(shí)的連續(xù)探索過(guò)程，通過(guò)不斷的實(shí)驗(yàn)和優(yōu)化以求達(dá)到最佳解決方案。
低資源模式（部署階段）：DS-Agent 復(fù)用開(kāi)發(fā)階段積累的成功案例來(lái)生成代碼，這大大減少了對(duì)計(jì)算資源和基座模型推理能力的需求，使得開(kāi)源大模型解決自動(dòng)化數(shù)據(jù)科學(xué)任務(wù)成為可能。

開(kāi)發(fā)階段中，給定一個(gè)新的數(shù)據(jù)科學(xué)任務(wù)，DS-Agent 首先從 Kaggle 中檢索出與任務(wù)相關(guān)的人類(lèi)專(zhuān)家知識(shí)，并在此基礎(chǔ)上構(gòu)建初步的解決方案。緊接著，它進(jìn)入一個(gè)迭代循環(huán)，通過(guò)編程和調(diào)試來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型，以獲得在測(cè)試集上的性能指標(biāo)。這些反饋指標(biāo)成為評(píng)價(jià)和改進(jìn)解決方案的關(guān)鍵依據(jù)。DS-Agent 會(huì)根據(jù)這些指標(biāo)對(duì)模型設(shè)計(jì)進(jìn)行必要的修改，以尋求最優(yōu)的模型設(shè)計(jì)。在這個(gè)過(guò)程中，那些最優(yōu)的機(jī)器學(xué)習(xí)解決方案被保存在案例庫(kù)中，為將來(lái)遇到類(lèi)似任務(wù)時(shí)提供了參考。

部署階段下，DS-Agent 的工作模式變得更加直接和高效。在這個(gè)階段，它直接檢索并復(fù)用經(jīng)過(guò)驗(yàn)證的成功案例來(lái)生成代碼，而無(wú)需再次從頭開(kāi)始探索。這樣不僅降低了對(duì)計(jì)算資源的需求，使得 DS-Agent 能夠快速響應(yīng)用戶的需求；還顯著降低了對(duì)大模型基座能力的要求，以一種低資源的方式提供高質(zhì)量的機(jī)器學(xué)習(xí)模型。

實(shí)驗(yàn)設(shè)置

我們收集了 30 種不同的數(shù)據(jù)科學(xué)任務(wù)，覆蓋了三種主要數(shù)據(jù)模態(tài)（文本、表格和時(shí)間序列）以及兩大機(jī)器學(xué)習(xí)核心問(wèn)題（分類(lèi)和回歸），并設(shè)計(jì)了不同的評(píng)價(jià)指標(biāo)來(lái)保證任務(wù)的多樣性。

開(kāi)發(fā)階段實(shí)驗(yàn)結(jié)果

在開(kāi)發(fā)階段中，DS-Agent 使用 GPT-4 首次在數(shù)據(jù)科學(xué)任務(wù)中實(shí)現(xiàn)了 100% 的成功率；相比之下，DS-Agent 即使使用 GPT-3.5 也展現(xiàn)出了比最強(qiáng)基線 ResearchAgent 使用 GPT-4 時(shí)還要更高的成功率。

此外，DS-Agent 使用 GPT-4 和 GPT-3.5 時(shí)，分別在測(cè)試集評(píng)價(jià)指標(biāo)中取得了第一和第二的成績(jī)，顯著優(yōu)于最強(qiáng)基線 ResearchAgent。

部署階段實(shí)驗(yàn)結(jié)果

部署階段中，DS-Agent 使用 GPT-4 時(shí)，取得了首次接近 100% 的一次成功率，同時(shí)將開(kāi)源模型 Mixtral-8x7b-Instruct 的一次成功率從 6.11% 躍升到了 31.11%。

在測(cè)試集指標(biāo)評(píng)估中，DS-Agent 使用 GPT-4 和 GPT-3 時(shí)，取得了第一和第二的成績(jī)；然而遺憾的是，開(kāi)源大模型 Mixtral-8x7b-Instruct 在 DS-Agent 的加持下仍然沒(méi)有超越 GPT-3.5。

最后，我們對(duì) DS-Agent 在兩種不同模式下的 API 調(diào)用成本進(jìn)行了分析。通過(guò)對(duì)比，我們發(fā)現(xiàn)在開(kāi)發(fā)階段，DS-Agent 分別對(duì) GPT-4 和 GPT-3.5 進(jìn)行調(diào)用時(shí)，單次成本分別是 1.60 美元和 0.06 美元。然而，在部署階段，成本得到了顯著降低：DS-Agent 單次使用 GPT-4 的成本下降至僅需 13 美分，而單次使用 GPT-3.5 的成本更是低至不足 1 美分。這意味著在部署階段，與開(kāi)發(fā)階段相比，我們實(shí)現(xiàn)了超過(guò) 90% 的成本節(jié)省。

借助 DS-Agent，即便你不懂編程、沒(méi)學(xué)過(guò)機(jī)器學(xué)習(xí)，也能輕松應(yīng)對(duì)各種復(fù)雜的數(shù)據(jù)分析挑戰(zhàn)，瞬間獲得深入的業(yè)務(wù)洞察，進(jìn)行有效的決策支持，優(yōu)化策略，并預(yù)測(cè)未來(lái)趨勢(shì)，從而使企業(yè)數(shù)據(jù)部門(mén)的工作效率有望得到大幅提升。試想一下，營(yíng)銷(xiāo)人員只需用自然語(yǔ)言描述需求，智能體就能快速生成用戶畫(huà)像和營(yíng)銷(xiāo)策略分析；金融分析師告別手動(dòng)建模的繁瑣，轉(zhuǎn)而與智能體探討市場(chǎng)趨勢(shì)…… 這一切可能很快就會(huì)成為現(xiàn)實(shí)。當(dāng)然，自動(dòng)化數(shù)據(jù)科學(xué)還處于起步階段，離規(guī)模化應(yīng)用尚需時(shí)日。但 DS-Agent 的出現(xiàn)無(wú)疑為我們展現(xiàn)了一幅令人期待的未來(lái)圖景。隨著人工智能的不斷發(fā)展，冗雜的數(shù)據(jù)分析工作有朝一日或?qū)⒈?AI 接管，而人類(lèi)則可以把更多時(shí)間放在洞見(jiàn)思考和創(chuàng)新決策之上。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心