ACL2024 |解釋引導的大語言模型主動蒸餾:一種優(yōu)化知識轉(zhuǎn)移的創(chuàng)新框架 "ELAD"
大家好,我是HxShine
今天分享一篇ACL2024關(guān)于LLM蒸餾的文章,來自Emory University,題為“Explanation-Guided Large Language Models Active Distillation”(解釋引導的大型語言模型主動蒸餾)。在大型語言模型(LLMs)的應(yīng)用中,由于其內(nèi)存效率低、計算需求高以及API推理成本高,限制了其廣泛部署。現(xiàn)有的知識蒸餾方法雖然能將LLMs的能力轉(zhuǎn)移到較小模型上,但無法確保知識充分轉(zhuǎn)移,可能導致高成本或蒸餾不完全。本文提出了一個簡單卻高效的框架,稱之為ELAD(Explanation-Guided LLMs Active Distillation),其通過主動學習策略來優(yōu)化注釋成本與模型性能之間的平衡。簡單來說,ELAD采用了三個步驟來實現(xiàn)這一目標:1. 解釋引導的樣本選擇:通過利用解釋步驟中的不確定性,識別對模型推理具有挑戰(zhàn)性的樣本。2. 定制化的LLM注釋解釋修正:教師模型檢測并糾正學生模型推理中的缺陷。3. 模型蒸餾:使用修正后的解釋對小模型進行微調(diào)。在包括GSM8K、AQuA、ANLI、e-SNLI、CommonSenseQA和StrategyQA在內(nèi)的六個廣泛使用的推理基準上進行的廣泛實驗,展示了顯著的性能提升。

Title: ELAD: Explanation-Guided Large Language Models Active Distillation
URL:??https://arxiv.org/abs/2402.13098??
一、方法
1 整體框架
ELAD框架通過以下步驟優(yōu)化LLMs知識蒸餾的主動學習:
- 樣本選擇:使用解釋引導的方法選擇高不確定性的樣本,對應(yīng)下圖(a)。
- 解釋修正:教師模型對學生模型的解釋進行審核和修正,對應(yīng)下圖(b)。
- 模型蒸餾:使用修正后的解釋對小模型進行微調(diào),對應(yīng)下圖(c)。

2 解釋引導的樣本選擇方法
文章作者提出了一種新穎的解釋引導樣本選擇方法,通過評估解釋步驟中的不確定性來選擇具有高不確定性的樣本。具體包括:
2.1 解釋內(nèi)不確定性 解釋內(nèi)不確定性評估單個解釋步驟內(nèi)的不確定性。這是通過比較每一步推理步驟對最終答案的影響來實現(xiàn)的。具體方法如下:
- 1. 對于每個推理步驟,計算在不考慮該步驟的情況下生成的答案。
- 2. 比較包含和不包含該步驟的答案,如果答案變化,則該步驟具有高不確定性。

2.2 解釋間不確定性 解釋間不確定性評估不同推理路徑之間的不確定性。這是通過多次生成推理路徑,并計算不同答案的頻率來實現(xiàn)的。具體方法如下:
- 對每個問題進行多次解碼,生成不同的推理路徑。
- 計算每個唯一答案的頻率,并使用Shannon熵來量化答案分布的不確定性。
3 定制化的LLM注釋解釋修正
在樣本選擇之后,教師模型(LLM)對學生模型的解釋進行審核,并在需要時進行修正。此過程包括:
?深度優(yōu)先搜索(DFS)策略:教師模型逐步驗證并修正學生模型的推理步驟,直到生成最終答案(如下圖(a)和(b)),圖(c)展示了DFS的過程。具體方法如下:
對每個推理步驟,教師模型驗證其合理性。如果合理,生成對應(yīng)的解釋步驟 。
如果某一步推理不合理,教師模型生成剩余的推理步驟和最終答案。
? 解釋修正過程的流程圖

? 解釋修正所使用的Prompt示例

二、實驗
作者在六個不同的推理數(shù)據(jù)集上進行了廣泛的實驗,包括GSM8K、AQuA、ANLI、e-SNLI、StrategyQA和CommonSenseQA。實驗結(jié)果顯示,ELAD框架在各種推理任務(wù)上均顯著提高了注釋效率和模型性能。
1 數(shù)據(jù)集詳情
?GSM8K:包含大約8000個數(shù)學單詞問題,測試數(shù)學技能。
?AQuA:包含代數(shù)單詞問題,帶有多項選擇答案。
?ANLI:自然語言推理任務(wù),包括對抗性示例。
?e-SNLI:提供自然語言推理決策的人工注釋解釋。
?CommonSenseQA:常識推理問答數(shù)據(jù)集,需要理解日常概念。
?StrategyQA:測試戰(zhàn)略性問答,特別是隱含策略的推理。
2 實驗結(jié)果
本文在六個不同的推理數(shù)據(jù)集上評估了ELAD框架的性能,以下是具體結(jié)果:
數(shù)據(jù)集 | 基準方法 | ELAD方法 | 提升 |
GSM8K | 28.42% | 32.72% | +4.30% |
AQuA | 26.86% | 28.43% | +1.57% |
ANLI | 54.22% | 58.02% | +3.80% |
e-SNLI | 48.60% | 54.44% | +5.84% |
StrategyQA | 48.76% | 55.63% | +6.87% |
CommonSenseQA | 45.66% | 53.53% | +7.87% |

結(jié)論:ELAD框架在所有數(shù)據(jù)集上都顯著優(yōu)于基準方法,尤其是在CommonSenseQA數(shù)據(jù)集上,提升幅度達到7.87%。這一結(jié)果表明,ELAD框架能夠更有效地進行知識轉(zhuǎn)移,提升小模型的推理性能。此外,ELAD在StrategyQA和e-SNLI數(shù)據(jù)集上分別取得了6.87%和5.84%的提升,進一步驗證了其在不同類型推理任務(wù)中的廣泛適用性。
3 消融研究
為了驗證ELAD框架中每個組件的重要性,作者進行了消融研究。結(jié)果顯示,完整的ELAD框架在所有任務(wù)中均優(yōu)于缺少解釋引導樣本選擇(w/o EGSS)和定制化LLM注釋解釋修正(w/o CLAER)的配置。
設(shè)置 | GSM8K | AQuA | ANLI | e-SNLI | CommonSenseQA | StrategyQA |
ELAD (Ours) | 32.72% | 28.43% | 58.02% | 54.44% | 53.53% | 55.63% |
w/o EGSS | 30.31% | 27.05% | 57.12% | 48.56% | 48.54% | 50.89% |
w/o CLAER | 30.01% | 26.91% | 55.87% | 51.16% | 49.64% | 50.32% |
三、結(jié)論
本文提出的解釋引導的LLMs主動蒸餾(ELAD)框架通過解釋引導的主動學習方法,顯著提高了LLM知識蒸餾的效率。這為大規(guī)模語言模型的實際應(yīng)用提供了新的可能性。
本文轉(zhuǎn)載自 ??NLP PaperWeekly??,作者: NLP PaperWeekly

















