推動大模型自我進化,北理工推出「流星雨計劃」
在人類個體能力提升過程中,當其具備了基本的技能之后,會自主地與環(huán)境和自身頻繁交互,并從中獲取經(jīng)驗予以改進。大模型自我進化研究之所以重要,正是源于該思想,并且更傾向于探究大模型自身能力的深度挖掘和擴展?;谶@一趨勢,北京理工大學(xué) DIRECT LAB 正式啟動了「大模型自我進化」的流星雨研究計劃。這篇文章以代碼大模型和垂域大模型進化為例,逐步介紹流星雨計劃。
SRA-MCTS:推動代碼大模型自我進化
- 論文標題:SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation
- 論文地址:https://arxiv.org/pdf/2411.11053
- 代碼開源:https://github.com/DIRECT-BIT/SRA-MCTS
- 8B 模型的數(shù)據(jù)開源:https://huggingface.co/datasets/BinXD/SRA-MCTS-Llama-3.1-8B
代碼大模型應(yīng)用范圍廣、影響大,如何提升其表現(xiàn),一直備受業(yè)內(nèi)外關(guān)注。在一項最新的研究中,來自北京理工大學(xué)的研究者提出了一種全新的思路 ——SRA-MCTS,旨在通過自我進化的方式,解決代碼模型在處理復(fù)雜問題時缺少中間推理過程。
核心觀點:自我進化的力量
跟隨上述自我進化的思想,在 SRA-MCTS(Self-guided MCTS-based data generation for Reasoning Augmentation)方法中,作者無需借助額外的任何監(jiān)督信號、完全通過模型自身來進行推理路徑生成,并進一步迭代大模型的能力。通過這個過程,模型能夠自主地生成高質(zhì)量的推理路徑,并將這些路徑轉(zhuǎn)化為可執(zhí)行代碼,進而提升在復(fù)雜任務(wù)上的成功率。
整個過程不僅增強了模型的推理能力,還通過自我反饋和反思提升了解決復(fù)雜任務(wù)的成功率。實驗表明,即使在小規(guī)模模型中,SRA-MCTS 也能顯著提升任務(wù)處理能力,特別是在多樣性和解決復(fù)雜問題的能力上。
突出貢獻與顯著成就:
- 無需外部監(jiān)督:與傳統(tǒng)方法不同,SRA-MCTS 完全依賴模型自身的推理能力進行數(shù)據(jù)生成和訓(xùn)練,避免了對人工標注數(shù)據(jù)或額外監(jiān)督信號的依賴。
- 自我進化與持續(xù)提升:通過反復(fù)生成推理路徑并進行自我訓(xùn)練,模型形成了一個正向反饋循環(huán),實現(xiàn)了性能的持續(xù)提升,尤其在較小模型中也展現(xiàn)出強大的潛力。
- 提升復(fù)雜任務(wù)解決能力:文中的方法在多種規(guī)模的模型上均展現(xiàn)出了顯著的性能提升,特別是在解決需要分析的任務(wù)時,SRA-MCTS 顯著提高了成功率。
- 驗證了小模型自我合成的潛力:實驗分別在小模型(2B, 8B, 14B)上自我數(shù)據(jù)合成并進行訓(xùn)練,對比了 70B 模型的數(shù)據(jù)蒸餾結(jié)果。結(jié)果表明,小模型自我合成的數(shù)據(jù)訓(xùn)練結(jié)果可以超越大模型數(shù)據(jù)蒸餾的能力。
工作思想與實現(xiàn)方式
該方法核心在于將推理過程和數(shù)據(jù)生成緊密結(jié)合,通過 SRA-MCTS 引導(dǎo)模型自主生成推理路徑。這不僅穩(wěn)定了分析的準確性下限,還為模型提供了一個無需外部監(jiān)督的自我改進機制。實驗結(jié)果表明,即使在傳統(tǒng)的思維鏈(CoT)方法表現(xiàn)退化時,SRA-MCTS 依然能夠穩(wěn)定并有效地提升模型的性能,尤其在「pass@10」等多樣性指標上表現(xiàn)出色。
1. 數(shù)據(jù)合成 - SRA-MCTS:
- 選擇階段:使用 UCB1 公式,從推理樹中選擇最優(yōu)節(jié)點,作為推理的起點。
- 擴展階段:基于選擇的節(jié)點,生成新的推理步驟,形成新的推理計劃。
- 評估與反思階段:評估每個生成的推理步驟的質(zhì)量,并通過反思機制修正推理過程,確保其正確性與連貫性。
- 反向傳播階段:通過反饋機制調(diào)整生成過程,強化推理路徑的質(zhì)量。
下面的示例展示了中間推理步驟,以及基于推理所生成的代碼過程:
問題:請幫我寫一段拓撲排序的代碼。
思考過程:拓撲排序是針對有向無環(huán)圖(DAG)的一種排序算法,它將圖中的節(jié)點按照某種順序排列,使得對于每一條有向邊 (u, v),節(jié)點 u 在節(jié)點 v 之前出現(xiàn)。常見的拓撲排序算法有兩種:Kahn 算法和深度優(yōu)先搜索(DFS)算法。這里作者選擇使用 Kahn 算法來實現(xiàn),因為它更直觀且容易理解。
Kahn 算法的基本思想是:
找出所有入度為 0 的節(jié)點,將它們加入隊列。從隊列中取出一個節(jié)點,將其加入拓撲排序結(jié)果中。對于該節(jié)點的所有鄰接節(jié)點,減少其入度。如果某個鄰接節(jié)點的入度變?yōu)?0,則將其加入隊列。重復(fù)步驟 2 和 3,直到隊列為空。如果最終拓撲排序的結(jié)果中包含所有節(jié)點,則說明圖是 DAG;否則,圖中存在環(huán)。
? 找出所有入度為 0 的節(jié)點,將它們加入隊列。
? 從隊列中取出一個節(jié)點,將其加入拓撲排序結(jié)果中。
? 對于該節(jié)點的所有鄰接節(jié)點,減少其入度。如果某個鄰接節(jié)點的入度變?yōu)?0,則將其加入隊列。
? 重復(fù)步驟 2 和 3,直到隊列為空。
? 如果最終拓撲排序的結(jié)果中包含所有節(jié)點,則說明圖是 DAG;否則,圖中存在環(huán)。
from collections import deque, defaultdict
def topological_sort(graph):
# Step 1: 計算每個節(jié)點的入度
in_degree = {node: 0 for node in graph}
for node in graph:
for neighbor in graph[node]:
in_degree[neighbor] += 1
# Step 2: 將所有入度為 0 的節(jié)點加入隊列
queue = deque([node for node in in_degree if in_degree[node] == 0])
# Step 3: 初始化結(jié)果列表
topo_order = []
# Step 4: 處理隊列中的節(jié)點
while queue:
node = queue.popleft()
topo_order.append(node)
# 更新鄰接節(jié)點的入度
for neighbor in graph[node]:
in_degree[neighbor] -= 1
if in_degree[neighbor] == 0:
queue.append(neighbor)
# Step 5: 檢查是否存在環(huán)
if len(topo_order) == len(graph):
return topo_order
else:
raise ValueError("Graph contains a cycle, topological sorting is not possible.")
- 推理轉(zhuǎn)化為代碼:在數(shù)據(jù)合成的階段生成的自然語言推理步驟,經(jīng)過大模型轉(zhuǎn)化為具體的代碼,實現(xiàn)從推理到執(zhí)行的轉(zhuǎn)化。
- 訓(xùn)練階段:最終,生成的推理路徑和代碼會被結(jié)合起來,形成一個高質(zhì)量的訓(xùn)練數(shù)據(jù)集,用于進一步微調(diào)大語言模型。
上面的工作是代碼模型的自主推理能力。作者表示,他們期待探究更通用化的自我進化框架和方法,使其在各種場景中都可以被廣泛使用。
流星雨計劃
- 論文:https://arxiv.org/abs/2411.11933
- Github 鏈接:https://github.com/DIRECT-BIT/METEOR
該計劃提出一個由弱到強的進化框架來引導(dǎo)大模型自我進化的整體流程,方法如下圖所示:
該流程提供了一整套從無領(lǐng)域能力進化成領(lǐng)域?qū)<夷P偷淖晕疫M化訓(xùn)練方案,包含三個關(guān)鍵階段:
- 第一階段:導(dǎo)師監(jiān)督學(xué)習(xí),旨在賦予模型基本的領(lǐng)域知識,讓模型能夠完成領(lǐng)域任務(wù);
- 第二階段:自我評估能力習(xí)得,通過借助通用大模型的指導(dǎo),進一步迭代訓(xùn)練學(xué)習(xí),賦予模型自我評判的能力;
- 第三階段:自我提升訓(xùn)練,通過自我批判完成自我進化。
第一階段:導(dǎo)師監(jiān)督學(xué)習(xí)
知識蒸餾是一種有效的獲取領(lǐng)域知識的手段。然而作者發(fā)現(xiàn),強模型與弱模型之間存在認知偏差,導(dǎo)致從強模型中蒸餾下來的領(lǐng)域數(shù)據(jù)無法高效作用于弱模型。
作者提出了 weak-to-strong 的領(lǐng)域數(shù)據(jù)蒸餾方法,讓強模型根據(jù)弱模型的指導(dǎo)蒸餾領(lǐng)域數(shù)據(jù)。具體的,當有一個領(lǐng)域問題時,他們首先將該問題輸入弱模型,但不讓其直接生成答案,而是生成一段 guideline。這段 guideline 指示弱模型認為應(yīng)該遵循哪些步驟來回答領(lǐng)域問題。接下來,他們將生成的 guideline 與領(lǐng)域問題一起輸入強模型。強模型根據(jù) guideline 的指導(dǎo)步驟生成領(lǐng)域問題的答案,或在 guideline 的基礎(chǔ)上進行修正并生成答案。
第二階段:自我評估能力習(xí)得
經(jīng)過蒸餾后的領(lǐng)域數(shù)據(jù)訓(xùn)練的模型能夠完成一定的領(lǐng)域任務(wù),但經(jīng)過分析,該模型還可能產(chǎn)生大量錯誤信息或幻覺信息,并且無法進行自我糾正。因此,作者提出要在這一階段通過更強模型的反饋來糾正模型內(nèi)部的錯誤知識,進一步提升模型領(lǐng)域性能。
他們參考 StaR [1] 迭代式訓(xùn)練的方法,讓模型首先對領(lǐng)域問題進行作答,并由 GPT-4 給予答案反饋。如果模型的答案是錯誤的,GPT-4 會將修改建議連同前一輪的答案重新返回給模型,讓模型重新作答,直至模型產(chǎn)生正確的答案。整個過程的數(shù)據(jù)會被保存下來迭代式地訓(xùn)練模型,使得模型的領(lǐng)域能力不斷提升。
第三階段:自我提升訓(xùn)練
作者希望模型在最終的領(lǐng)域能力進化過程中能夠擺脫對強模型的依賴,實現(xiàn)完全的領(lǐng)域能力自我進化。因此,在模型具有完成自我批判的能力后,他們嘗試讓模型進行自我進化。
受到在推理過程中增加 FLOPs 可以有效提升模型在下游任務(wù)中的性能的啟發(fā),他們認為不同的推理策略會產(chǎn)生不同的效果。他們希望模型生成的結(jié)果盡可能接近高 FLOPs 推理策略的結(jié)果,遠離低 FLOPs 策略的結(jié)果。他們使用 beam search 作為高 FLOPs 策略,greedy search 作為低 FLOPs 策略,通過對比學(xué)習(xí)構(gòu)建模型的自我訓(xùn)練方法,實現(xiàn)模型的自我進化。
性能分析
作者對比了應(yīng)用 Meteor 進化方法后 LLM 前后各維度的性能變化。在準確性、完整性、相關(guān)性、連貫性和可靠性方面,LLaMA3-8B-Instruct 和 Qwen2-7B-Instruct 取得了性能的提升(評估方法:通過 GPT-4 篩選進化前和進化后答案的 win rate)。
未來工作
該工作初步探索和嘗試了模型進化的整體框架和每個階段的對應(yīng)方法,并有了一些初步的結(jié)論。未來,作者將在該想法的基礎(chǔ)上,在每個階段中創(chuàng)新更適用的模型自我進化方法,實現(xiàn)模型在各個階段都能獲得預(yù)期的性能提升,并在更多不同的場景中探索 Meteor 的適用性,推廣流星雨計劃。
作者表示,DIRECT LAB 期待與更多對大模型進化感興趣的學(xué)者和業(yè)界同仁攜手合作,共同推進這一重要領(lǐng)域的探索與突破。實驗室相關(guān)研究的代碼和數(shù)據(jù)已公開,歡迎大家訪問:https://github.com/DIRECT-BIT