?GPT充當(dāng)大腦,指揮多個模型協(xié)作完成各類任務(wù),通用系統(tǒng)AutoML-GPT來了
當(dāng)前,AI 模型雖然已經(jīng)涉及非常廣泛的應(yīng)用領(lǐng)域,但大部分 AI 模型是為特定任務(wù)而設(shè)計的,它們往往需要大量的人力來完成正確的模型架構(gòu)、優(yōu)化算法和超參數(shù)。ChatGPT、GPT-4 爆火之后,人們看到了大型語言模型(LLM)在文本理解、生成、互動、推理等方面的巨大潛力。一些研究者嘗試?yán)?LLM 探索通往通用人工智能(AGI)的新道路。
近期,來自德克薩斯州大學(xué)奧斯汀分校的研究者提出一種新思路 —— 開發(fā)任務(wù)導(dǎo)向型 prompt,利用 LLM 實現(xiàn)訓(xùn)練 pipeline 的自動化,并基于此思路推出新型系統(tǒng) AutoML-GPT。
論文地址:
https://papers.labml.ai/paper/35151be0eb2011edb95839eec3084ddd
AutoML-GPT 使用 GPT 作為各種 AI 模型之間的橋梁,并用優(yōu)化過的超參數(shù)來動態(tài)訓(xùn)練模型。AutoML-GPT 動態(tài)地接收來自 Model Card [Mitchell et al., 2019] 和 Data Card [Gebru et al., 2021] 的用戶請求,并組成相應(yīng)的 prompt 段落。最后,AutoML-GPT 借助該 prompt 段落自動進行多項實驗,包括處理數(shù)據(jù)、構(gòu)建模型架構(gòu)、調(diào)整超參數(shù)和預(yù)測訓(xùn)練日志。
AutoML-GPT 通過最大限度地利用其強大的 NLP 能力和現(xiàn)有的人工智能模型,解決了各種測試和數(shù)據(jù)集中復(fù)雜的 AI 任務(wù)。大量實驗和消融研究表明,AutoML-GPT 對許多人工智能任務(wù)(包括 CV 任務(wù)、NLP 任務(wù))是通用的、有效的。
AutoML-GPT 簡介
AutoML-GPT 是一個依賴數(shù)據(jù)和模型信息來格式化 prompt 輸入段落的協(xié)作系統(tǒng)。其中,LLM 作為控制器,多個專家模型作為協(xié)作的執(zhí)行者。AutoML-GPT 的工作流程包括四個階段:數(shù)據(jù)處理、模型架構(gòu)設(shè)計、超參數(shù)調(diào)整和訓(xùn)練日志生成。
具體來說,AutoML-GPT 的工作機制如下:
- 通過 Model Card 和 Data Card 生成固定格式的 prompt 段落
- 構(gòu)建訓(xùn)練 pipeline,在選定的數(shù)據(jù)集和模型架構(gòu)上處理用戶需求
- 生成性能訓(xùn)練日志并調(diào)整超參數(shù)
- 根據(jù)自動建議的(auto-suggested)超參數(shù)調(diào)整模型
輸入分解
AutoML-GPT 的第一階段是讓 LLM 接受用戶輸入。為了提高 LLM 的性能并生成有效的 prompt,該研究對輸入 prompt 采用特定的指令。這些指令包括三個部分:Data Card、Model Card、評估指標(biāo)和附加要求。
如下圖 2 所示,Data Card 的關(guān)鍵部分由數(shù)據(jù)集名稱、輸入數(shù)據(jù)集類型(如圖像數(shù)據(jù)或文本數(shù)據(jù))、標(biāo)簽空間(如類別或分辨率)和默認(rèn)評估指標(biāo)組成。
如下圖 3 所示,Model Card 由模型名稱、模型結(jié)構(gòu)、模型描述和架構(gòu)超參數(shù)組成。通過提供這些信息,Model Card 能告知 LLM 整個機器學(xué)習(xí)系統(tǒng)使用了哪些模型,以及用戶對模型架構(gòu)的偏好。
除了 Data Card 和 Model Card,用戶還可以選擇請求更多的評估基準(zhǔn)、評估指標(biāo)或任何約束。AutoML-GPT 將這些任務(wù)規(guī)范作為高級指令提供給 LLM,用于相應(yīng)地分析用戶需求。
當(dāng)有一系列需要處理的任務(wù)時,AutoML-GPT 需要為每個任務(wù)匹配相應(yīng)的模型。為了達(dá)到這一目標(biāo),首先系統(tǒng)需要獲得 Model Card 和用戶輸入中的模型描述。
然后,AutoML-GPT 使用 in-context 任務(wù) - 模型分配機制,動態(tài)地為任務(wù)分配模型。這種方法通過將模型描述和對用戶需求的更好理解結(jié)合起來,實現(xiàn)了增量模型(incremental model)訪問,并提供了更大的開放性和靈活性。
用預(yù)測訓(xùn)練日志調(diào)整超參數(shù)
AutoML-GPT 根據(jù) Data Card 和 Model Card 設(shè)置超參數(shù),并通過生成超參數(shù)的訓(xùn)練日志來預(yù)測性能。該系統(tǒng)自動進行訓(xùn)練并返回訓(xùn)練日志。在數(shù)據(jù)集上的模型性能訓(xùn)練日志記錄了訓(xùn)練過程中收集的各種指標(biāo)和信息,這有助于了解模型訓(xùn)練進展,找出潛在問題,以及評估所選架構(gòu)、超參數(shù)和優(yōu)化方法的有效性。
實驗
為了評估 AutoML-GPT 的性能,該研究使用 ChatGPT(OpenAI 的 GPT-4 版本)來實現(xiàn)它,并進行多項實驗從多個角度展示了 AutoML-GPT 的效果。
下圖 4 展示了使用 AutoML-GPT 在未知數(shù)據(jù)集上訓(xùn)練的結(jié)果:
下圖 5 展示了 AutoML-GPT 在 COCO 數(shù)據(jù)集上完成目標(biāo)檢測任務(wù)的過程:
下圖 6 展示了 AutoML-GPT 在 NQ 開放數(shù)據(jù)集(Natural Questions Open dataset,[Kwiatkowski et al., 2019])上的實驗結(jié)果:
該研究還使用 XGBoost 在 UCI Adult 數(shù)據(jù)集 [Dua and Graff, 2017] 上評估了 AutoML-GPT,以探究其在分類任務(wù)上的性能,實驗結(jié)果如下圖 7 所示:
感興趣的讀者可以閱讀論文原文,了解更多研究細(xì)節(jié)。