DataAgent: 讓AI自主管理數(shù)據(jù)
1. DataAgent研究現(xiàn)狀
1.1 AI4Data 研究現(xiàn)狀
過去十年,在AI賦能數(shù)據(jù)(AI4Data)領(lǐng)域,運(yùn)用AI技術(shù)攻克了諸多難題:
- 從離線NP難題(如索引優(yōu)化、視圖推薦)到在線挑戰(zhàn)(如查詢重寫)
- 從基數(shù)估計等回歸問題到學(xué)習(xí)型索引等數(shù)據(jù)結(jié)構(gòu)創(chuàng)新。
這些成果往往由于過度依賴專家調(diào)參,難以適應(yīng)數(shù)據(jù)環(huán)境的變化。
1.2 Data4AI 研究現(xiàn)狀
對于Data4AI領(lǐng)域,將數(shù)據(jù)庫優(yōu)化技術(shù)延伸至人工智能部署環(huán)節(jié),包括:
- 數(shù)據(jù)庫內(nèi)機(jī)器學(xué)習(xí)(ML)訓(xùn)練與推理
- 數(shù)據(jù)預(yù)處理、數(shù)據(jù)清洗、數(shù)據(jù)集成
- 特征管理
- 模型管理
這些方法面臨的主要挑戰(zhàn)在于如何實現(xiàn)系統(tǒng)管線的自主編排,從而避免依賴高人工投入的運(yùn)維方式。
1.3 Data + AI 核心難題
如上圖所示,現(xiàn)有技術(shù)缺乏語義理解與自主決策能力。而大語言模型(LLMs)恰能補(bǔ)此短板。
所以,清華大學(xué)提出了"Data Agent"框架,通過三大核心能力重塑Data+AI生態(tài):
- 知識理解
- 自主規(guī)劃
- 自我進(jìn)化
2. Data Agent技術(shù)架構(gòu)
Data Agent 專為自主處理數(shù)據(jù)任務(wù)設(shè)計,集知識理解、自動規(guī)劃和自我反思于一體。
核心架構(gòu)包括如上圖所示的6要素:
- 環(huán)境感知(Perception):智能體需實時感知數(shù)據(jù)生態(tài),包括環(huán)境狀態(tài)、任務(wù)需求、協(xié)作伙伴及工具資源。通過離線微調(diào)或預(yù)設(shè)提示模板實現(xiàn)精準(zhǔn)對齊。
- 推理決策(Reasoning and Planning):既擅長拆解復(fù)雜任務(wù)為多級流程(規(guī)劃),又能做出精準(zhǔn)的單步判斷(推理)。每個決策可能觸發(fā)深度推理、二次規(guī)劃,或調(diào)用專業(yè)工具獲取領(lǐng)域知識。
- 工具調(diào)度(Tool Invocation):可靈活調(diào)用計算工具、領(lǐng)域數(shù)據(jù)庫或環(huán)境指令集。通過模型上下文協(xié)議(MCP)實現(xiàn)標(biāo)準(zhǔn)化交互,確??缦到y(tǒng)信息無損傳遞,各類模型的中間推理結(jié)果皆可互通復(fù)用。
- 記憶系統(tǒng)(Memory):包含領(lǐng)域知識庫(長期記憶)和用戶會話記錄(短期記憶),依托向量數(shù)據(jù)庫高效管理。創(chuàng)新性引入反思記憶模塊,持續(xù)優(yōu)化決策質(zhì)量。
- 進(jìn)化機(jī)制(Continuous Learning):通過自我反思、強(qiáng)化學(xué)習(xí)和獎勵模型實現(xiàn)能力迭代,使智能體越用越聰明。
- 多智能體(Multiple Agents):突破單智能體能力邊界,通過多智能體協(xié)作矩陣應(yīng)對復(fù)雜場景,顯著提升系統(tǒng)魯棒性與并行效率。
構(gòu)建了三位一體的數(shù)據(jù)智能體架構(gòu)(如下圖)
數(shù)據(jù)理解與探索、數(shù)據(jù)引擎理解與調(diào)度、流程編排三大核心模塊,圖4展示了詳細(xì)架構(gòu)設(shè)計。
- 數(shù)據(jù)理解與探索智能體(Data Understanding and Exploration Agents):通過結(jié)構(gòu)化數(shù)據(jù)組織提升智能體的數(shù)據(jù)發(fā)現(xiàn)與訪問能力。核心組件包括:
統(tǒng)一語義目錄:提供模式定義、元數(shù)據(jù)索引等結(jié)構(gòu)化元數(shù)據(jù)系統(tǒng),優(yōu)化數(shù)據(jù)訪問性能
數(shù)據(jù)編織層:通過異構(gòu)數(shù)據(jù)鏈接與集成,形成統(tǒng)一數(shù)據(jù)視圖
語義數(shù)據(jù)組織與索引:顯著提升智能體數(shù)據(jù)處理效率該模塊還將整合數(shù)據(jù)預(yù)處理、清洗、集成等工具,并制定高效的工具調(diào)度策略。
- 數(shù)據(jù)引擎理解與調(diào)度智能體(Data Engine Understanding and Scheduling Agents):專注于Spark、DBMS、Pandas、PyData等數(shù)據(jù)處理引擎的能力分析與任務(wù)調(diào)度。通過建立引擎能力畫像,協(xié)調(diào)不同特長的引擎協(xié)作完成復(fù)雜任務(wù)。
- 流程編排智能體(Pipeline Orchestration Agents):根據(jù)用戶自然語言(NL)查詢和數(shù)據(jù)目錄生成執(zhí)行管道,其核心能力包括:
任務(wù)分解:將復(fù)雜任務(wù)拆解為可串行/并行執(zhí)行的子任務(wù)
開放環(huán)境適應(yīng):利用大語言模型(LLM)的理解、推理與自反思能力應(yīng)對NL查詢與底層數(shù)據(jù)的開放性
管道優(yōu)化:針對延遲、成本或準(zhǔn)確率進(jìn)行優(yōu)化
引擎調(diào)度:調(diào)用引擎智能體高效執(zhí)行管道
多智能體協(xié)作網(wǎng)絡(luò)(如上圖)包含三大引擎:
- 智能體優(yōu)選系統(tǒng):建立能力畫像庫,實現(xiàn)精準(zhǔn)任務(wù)匹配
- 協(xié)同計算框架:通過A2A協(xié)議實現(xiàn)狀態(tài)同步與群體智能
- 彈性執(zhí)行引擎:支持串行/并行混合調(diào)度,具備故障自愈能力
工具調(diào)度中心依托MCP協(xié)議實現(xiàn)"即插即用",可智能匹配Pandas/PyData等數(shù)百種數(shù)據(jù)處理工具,構(gòu)建動態(tài)能力組合。
3. iDataScience技術(shù)架構(gòu)
基于以上DataAgent技術(shù)架構(gòu),清華團(tuán)隊開發(fā)了 iDataScience ,其技術(shù)架構(gòu)如上圖所示,采用了雙系統(tǒng)架構(gòu):
- 離線基準(zhǔn)構(gòu)建階段(Offline Data Agent Benchmarking):通過組合基礎(chǔ)數(shù)據(jù)技能,打造覆蓋全場景的智能體評估體系。
首先運(yùn)用大語言模型對海量數(shù)據(jù)案例進(jìn)行質(zhì)量篩選和技能挖掘;
隨后通過遞歸聚類建立技能層級體系,并依據(jù)使用頻率或用戶偏好為每個技能賦予權(quán)重;
最后基于權(quán)重概率采樣核心技能,由大語言模型生成對應(yīng)測試用例。
為確保在線評估的精準(zhǔn)性,系統(tǒng)還構(gòu)建了支持相似度檢索的測試用例索引庫。
- 在線智能調(diào)度階段(Online Multi-Agent Pipeline Orchestration):當(dāng)新任務(wù)到來時,系統(tǒng)自動拆解任務(wù)流、匹配最優(yōu)智能體,并動態(tài)優(yōu)化執(zhí)行方案。包含兩大核心機(jī)制:
局部調(diào)整:單個智能體層面的子任務(wù)修正
全局重構(gòu):基于中間結(jié)果的完整重規(guī)劃
智能體優(yōu)選機(jī)制(Data Agent Selection):通過微調(diào)的模型,將待處理任務(wù)與基準(zhǔn)庫中的測試用例進(jìn)行向量化匹配,快速鎖定Top K相似案例。綜合評估結(jié)果后,選擇綜合得分最高的智能體。
流程動態(tài)編排(Multi-Agent Pipeline Orchestration):先由大語言模型基于智能體畫像拆解任務(wù)依賴圖,為每個子任務(wù)分配合適的智能體,并通過合并/細(xì)分等操作持續(xù)優(yōu)化方案。執(zhí)行時采用拓?fù)渑判虻牟⑿辛魉€,同時支持兩種彈性調(diào)整:
- 系統(tǒng)擴(kuò)展性:支持通過文檔解析快速接入新智能體。當(dāng)資源允許時,可運(yùn)行基準(zhǔn)測試完善其能力畫像,使其無縫融入現(xiàn)有調(diào)度體系。這種持續(xù)進(jìn)化機(jī)制確保系統(tǒng)始終保持在最優(yōu)狀態(tài)。
本文轉(zhuǎn)載自???大語言模型論文跟蹤???,作者:HuggingAGI
