清華UCSD提出全新微調(diào)方法,8B小模型媲美GPT-4o!科學(xué)問題正確率提高28%
我們都知道,在科研界,LLM在解決簡單科學(xué)問題時表現(xiàn)得游刃有余,但在應(yīng)對復(fù)雜問題時往往會出現(xiàn)幻覺。于是,為了讓模型更靠譜,研究人員嘗試給模型裝上科學(xué)工具,幫助它們解決高難度任務(wù)。
然而,一旦用上工具,模型就「上癮」了!甚至連一些不怎么難的問題都要靠工具解決。這不僅讓計算成本暴漲,還影響了模型自己「獨立思考」的能力——就像有的人有了計算器就不再心算一樣。
相較而言,人類科學(xué)專家在解決科學(xué)問題時,通常會先評估問題的復(fù)雜性,再決定使用基本推理或?qū)I(yè)工具。
正是受這種解決問題流程的啟發(fā),一支來自UCSD和清華的研究團隊提出了一種全新的微調(diào)方法,讓模型「邊適應(yīng)邊學(xué)習(xí)」,學(xué)會在使用外部科學(xué)工具和依賴內(nèi)部知識之間做出合理選擇。
論文地址:https://arxiv.org/abs/2411.00412
這一方法的顯著意義在于它大大提高了模型效率。
研究人員僅使用一個擁有80億參數(shù)的LLM——遠小于行業(yè)巨頭如GPT-4——便在測試數(shù)據(jù)集上實現(xiàn)了28.18%的答案準確率提升和13.89%的工具使用精度提高。
這挑戰(zhàn)了AI開發(fā)中的一個慣有想法:更大的模型必然能帶來更好的結(jié)果。
教會AI在使用外部工具和依賴內(nèi)部知識之間進行判斷——就像訓(xùn)練一位年輕科學(xué)家如何在相信自己計算的同時知道何時咨詢專業(yè)設(shè)備——可能比單純地卷AI計算能力更為重要。
微調(diào)方法簡介
微調(diào)方法由兩部分組成:World Knowledge Distillation(WKD)和Tool Usage Adaptation(TUA)。
World Knowledge Distillation可以翻譯為「世界知識蒸餾」。在WKD過程中,LLM通過學(xué)習(xí)那些借助工具生成的解答,來掌握和積累特定領(lǐng)域的知識。
WKD分為監(jiān)督微調(diào)和偏好優(yōu)化兩部分。
對于所有問題,研究人員提示LLM使用工具生成確定性的解答,然后將這些解答作為目標,進行監(jiān)督微調(diào)(SFT)。
在遇到開放式問題時,除了進行監(jiān)督微調(diào)外,LLM會生成一組不同的解答提議,并使用預(yù)定義的指標對這些提議進行排序,以構(gòu)建偏好對;然后利用這些數(shù)據(jù)進行偏好優(yōu)化。
而在Tool Usage Adaptation中,研究人員首先在基準數(shù)據(jù)集的問題上評估經(jīng)過WKD微調(diào)后的LLM。對于每個問題,他們采樣生成一組直接回答,以計算其準確率。
基于預(yù)設(shè)的準確率閾值,他們將問題分為兩個子集:簡單問題集,即LLM可以直接解決的問題;以及復(fù)雜問題集,即LLM需要借助工具回答的問題。
對于簡單問題集,保持與WKD一致的對齊目標,即繼續(xù)通過內(nèi)化已有知識直接作答;而對于復(fù)雜問題集,研究人員將對齊目標切換為包含工具使用軌跡的增強解答,并訓(xùn)練LLM準確地遵循這些軌跡。
實驗過程
研究人員使用Llama-3.1-8B-Instruct作為微調(diào)方案的基礎(chǔ)模型。同時還對其他最先進的開源和閉源模型進行了廣泛評估,包括GPT-4o、GPT-4o mini、Claude 3.5 Sonnet和Llama-3.1-70B-Instruct。
數(shù)據(jù)集
研究人員使用了兩個現(xiàn)有的公開數(shù)據(jù)集MATH和SciBench,并構(gòu)建了四個新的科學(xué)數(shù)據(jù)集用于實驗:Mujoco、偏微分方程(PDEs)、氣候科學(xué)和流行病學(xué)。
四個數(shù)據(jù)集的構(gòu)建遵循系統(tǒng)化流程:首先,基于專家咨詢和模擬器功能設(shè)計了特定領(lǐng)域的問題模板;接著,通過在科學(xué)合理的參數(shù)范圍內(nèi)進行采樣,生成單獨的問題;最后,利用LLMs和工具使用軌跡生成相應(yīng)的解答。
Mujoco中主要涉及剛體和柔體動力學(xué)相關(guān)問題。
在偏微分方程(PDEs)中,研究人員設(shè)計了內(nèi)部的數(shù)值求解器,并編制了關(guān)于熱傳遞、化學(xué)工程、人口模擬等領(lǐng)域的問題。
氣候科學(xué)問題數(shù)據(jù)集則以神經(jīng)代理模型為中心。該模型接受時間、氣候情景(如SSP126、SSP245)、溫室氣體排放(CO?,CH?)和氣溶膠氣體(BC,SO?)等輸入,輸出相應(yīng)的地表溫度。
流行病學(xué)問題數(shù)據(jù)集使用了最先進的代理模型。模型輸入包括每個加利福尼亞州縣的28天多維特征以及24維的州級初始條件,用于描述流行病狀態(tài)。模型輸出未來28天的流行病狀態(tài)預(yù)測。
四個自定義數(shù)據(jù)集主要由多項選擇題構(gòu)成,而其中的氣候科學(xué)數(shù)據(jù)集還包含開放式問題(例如關(guān)于氣候變化緩解的政策建議)。公開的MATH和SciBench數(shù)據(jù)集則完全由數(shù)值問題組成。
外部科學(xué)工具
研究人員為不同數(shù)據(jù)集使用了不同的工具。
對于Mujoco數(shù)據(jù)集,他們使用了官方API;
對于PDEs數(shù)據(jù)集,他們利用了內(nèi)部的數(shù)值求解器;
對于氣候和流行病學(xué)數(shù)據(jù)集,他們使用了封裝對應(yīng)神經(jīng)代理模型的API;
對于開放式數(shù)據(jù)集,他們采用了Python代碼解釋器。
評估指標
實驗主要評估了兩種準確率:答案準確率和工具使用準確率。
答案準確率
答案準確率量化了模型提供的正確答案比例。
對于自定義數(shù)據(jù)集中的多項選擇題(MCQs),研究人員根據(jù)模型是否選擇正確選項來分配二進制分數(shù)。
對于MATH和SciBench數(shù)據(jù)集中的數(shù)值答案,如果答案在真實值的±5%的容差范圍內(nèi),則視為正確答案。
工具使用準確率
工具使用準確率評估模型是否能在工具使用方面做出智能決策,即在回答較難問題時使用工具,而在回答較簡單問題時直接作答。
問題根據(jù)訓(xùn)練模型是否可通過Pn(無工具使用)回答來劃分為簡單(E)或困難(H)。當使用允許工具選擇的Pi時,決策進一步標記為T(使用工具)或N(不使用工具)。例如,HT表示模型在處理一個困難問題時選擇使用工具。
工具使用準確率定義為:
實驗結(jié)果
答案準確率
該微調(diào)方法在自定義數(shù)據(jù)集上的表現(xiàn)顯著優(yōu)于所有基準模型,這些數(shù)據(jù)集通常未在預(yù)訓(xùn)練中涵蓋。
盡管在公開數(shù)據(jù)集上,微調(diào)過的模型并未超越當前的最先進模型,但相比于未微調(diào)的基礎(chǔ)模型,該方法顯示出顯著的改進。這一在公開基準測試上的性能差距,可能是由于當前最先進模型具有更多的參數(shù)量,并對開源數(shù)據(jù)集進行了特定優(yōu)化。
工具使用準確率
總體而言,訓(xùn)練模型在所有數(shù)據(jù)集上均實現(xiàn)了最佳的工具使用準確率,除了在SciBench數(shù)據(jù)集上排名第二。
相比之下,其他模型的準確率大約為50%,表明兩種典型情況:要么過度依賴工具,要么從不嘗試使用工具。
除了表中展示的優(yōu)勢外,研究人員還進一步分析了MATH數(shù)據(jù)集上的工具使用決策情況,該數(shù)據(jù)集在下圖中根據(jù)問題難度提供了先驗標簽。
訓(xùn)練模型在問題難度增加時顯示出合理的工具使用增長?;A(chǔ)模型則無論問題難度如何均表現(xiàn)出對工具的過度依賴;而Claude 3.5在面對簡單和困難問題時均表現(xiàn)出更多的直接回答信心,可能是因為MATH是一個公開數(shù)據(jù)集,該模型在訓(xùn)練期間已接觸到類似問題。
作者介紹
Bohan Lyu
Bohan Lyu目前在清華大學(xué)修讀計算機科學(xué)與經(jīng)濟學(xué)雙學(xué)位。
2023年,他加入清華NLP實驗室,受劉知遠教授的指導(dǎo)。
2024年夏天,他前往加州大學(xué)圣地亞哥分校(UCSD)的計算機科學(xué)與工程系Rose-STL實驗室,導(dǎo)師是Rose Yu教授。本研究部分工作在他訪問UCSD期間完成。
他的研究興趣是設(shè)計創(chuàng)新的計算機科學(xué)方法,特別是專注于語言技術(shù)、知識發(fā)現(xiàn)和數(shù)據(jù)挖掘,以解決現(xiàn)實世界的挑戰(zhàn)。
此前,他曾擔任過ICLR 2024、ICML 2024和ACL 2024研討會的審稿人。
Yadi Cao
Yadi Cao在加州大學(xué)圣地亞哥分校(UCSD)計算機科學(xué)與工程系擔任博士后研究員,導(dǎo)師是Rose Yu教授。
此前,他在加州大學(xué)洛杉磯分校(UCLA)獲得了計算機科學(xué)博士學(xué)位,導(dǎo)師是Chenfanfu Jiang教授和Demetri Terzopoulos教授。
他的博士研究主要集中在偏微分方程(PDE)的數(shù)值解和機器學(xué)習(xí)方法,特別是在計算固體和流體動力學(xué)方面。