復(fù)旦:基于強(qiáng)化微調(diào)的統(tǒng)一多模態(tài)思維鏈獎勵模型
本文介紹了一種新的統(tǒng)一多模態(tài)鏈?zhǔn)剿季S獎勵模型,該模型通過強(qiáng)化微調(diào)方法實(shí)現(xiàn)了對復(fù)雜推理過程的學(xué)習(xí)和激勵。傳統(tǒng)的獎勵模型通常只能提供直接響應(yīng)或淺層推理,而新提出的模型能夠進(jìn)行多層次、逐步的長鏈推理,從而提高了獎勵信號的準(zhǔn)確性和可靠性。該模型采用了探索驅(qū)動的強(qiáng)化微調(diào)方法,首先利用小規(guī)模圖像生成偏好數(shù)據(jù)來學(xué)習(xí)GPT-4o的推理過程,并將其用于模型的冷啟動;然后利用模型的先驗(yàn)知識和泛化能力,準(zhǔn)備大規(guī)模的統(tǒng)一多模態(tài)偏好數(shù)據(jù)來引導(dǎo)模型在各種視覺任務(wù)中進(jìn)行推理;最后使用群體相對策略優(yōu)化(GRPO)進(jìn)行強(qiáng)化微調(diào),使模型能夠探索多樣化的推理路徑并優(yōu)化正確的解決方案。實(shí)驗(yàn)結(jié)果表明,引入長鏈推理顯著增強(qiáng)了獎勵信號的準(zhǔn)確性。值得注意的是,在掌握長鏈推理后,模型還具有隱式推理能力,即使沒有明確的推理軌跡也能超越現(xiàn)有基準(zhǔn)線。
該工作旨在將長鏈思考(CoT)推理納入獎勵模型的決策過程中,以增強(qiáng)獎勵信號的可靠性和魯棒性。然而,由于缺乏大規(guī)模CoT獎勵數(shù)據(jù),傳統(tǒng)的訓(xùn)練方法如監(jiān)督微調(diào)(SFT)仍具有高度挑戰(zhàn)性。因此,本文提出了統(tǒng)一多模態(tài)CoT獎勵模型(UNIFIEDREWARD-THINK),并采用了探索驅(qū)動的強(qiáng)化學(xué)習(xí)微調(diào)來激活和優(yōu)化視覺語言模型(VLM)的多維和分步長期推理能力。具體而言,該流程包括三個關(guān)鍵階段:冷啟動、拒絕采樣和相對策略優(yōu)化(GRPO)。
在冷啟動階段,使用少量經(jīng)過蒸餾的CoT獎勵數(shù)據(jù)來初始化獎勵模型,并教導(dǎo)其遵循結(jié)構(gòu)化的CoT推理格式。在拒絕采樣階段,利用大量統(tǒng)一偏好數(shù)據(jù)激發(fā)模型的一般化CoT推理能力,通過保留正確推理樣本進(jìn)行拒絕采樣來進(jìn)一步加強(qiáng)模型的CoT推理能力。最后,在GRPO階段,引入可驗(yàn)證獎勵(format reward和accuracy reward)來引導(dǎo)模型的學(xué)習(xí),并采用GRPO強(qiáng)化學(xué)習(xí)微調(diào)來提高模型的CoT推理能力。
該方法的主要創(chuàng)新在于采用了探索驅(qū)動的強(qiáng)化學(xué)習(xí)微調(diào)(GRPO)來進(jìn)一步提高模型的CoT推理能力。此外,該方法還引入了可驗(yàn)證獎勵機(jī)制,以確保模型生成的響應(yīng)既符合特定的推理結(jié)構(gòu),又準(zhǔn)確無誤地回答問題。
解決的問題
該方法主要解決了傳統(tǒng)訓(xùn)練方法中缺乏大規(guī)模CoT獎勵數(shù)據(jù)的問題,以及如何提高獎勵信號的可靠性和魯棒性的問題。通過采用統(tǒng)一多模態(tài)CoT獎勵模型和探索驅(qū)動的強(qiáng)化學(xué)習(xí)微調(diào),該方法能夠有效地激活和優(yōu)化VLM的多維和分步長期推理能力,從而提高模型的CoT推理能力和可靠性。
本文主要介紹了四個實(shí)驗(yàn),分別是圖像生成、視頻生成、圖像理解以及視頻理解任務(wù)的實(shí)驗(yàn)。在這些實(shí)驗(yàn)中,作者使用了多個數(shù)據(jù)集和獎勵模型,并進(jìn)行了詳細(xì)的評估和比較分析。
第一個實(shí)驗(yàn)是圖像生成任務(wù),作者使用了HPD、OIP、EvalMuse等數(shù)據(jù)集,并使用了統(tǒng)一獎勵模型來評估生成結(jié)果。結(jié)果顯示,作者的方法在所有測試樣本上都表現(xiàn)出了優(yōu)異的表現(xiàn)。
第二個實(shí)驗(yàn)是視頻生成任務(wù),作者使用了VideoDPO和Text2Video-Human Preferences等數(shù)據(jù)集,并使用了統(tǒng)一獎勵模型來評估生成結(jié)果。結(jié)果顯示,作者的方法在所有測試樣本上都表現(xiàn)出了優(yōu)異的表現(xiàn)。
第三個實(shí)驗(yàn)是圖像理解任務(wù),作者從LLava-Critic-113K數(shù)據(jù)集中隨機(jī)抽取了30K個數(shù)據(jù),并使用了統(tǒng)一獎勵模型來評估理解結(jié)果。結(jié)果顯示,作者的方法在所有測試樣本上都表現(xiàn)出了優(yōu)異的表現(xiàn)。
第四個實(shí)驗(yàn)是視頻理解任務(wù),作者使用了ShareGPTVideo-DPO數(shù)據(jù)集,并使用了統(tǒng)一獎勵模型來評估理解結(jié)果。結(jié)果顯示,作者的方法在所有測試樣本上都表現(xiàn)出了優(yōu)異的表現(xiàn)。
總的來說,作者的方法在所有實(shí)驗(yàn)中都表現(xiàn)出了優(yōu)異的表現(xiàn),證明了其在視覺生成和理解任務(wù)中的有效性。此外,作者還進(jìn)行了幾個重要的實(shí)驗(yàn),包括每個訓(xùn)練階段的效果評估、去除CoT推理的GRPO方法的效果評估等,進(jìn)一步驗(yàn)證了作者的方法的有效性和優(yōu)越性。
本文轉(zhuǎn)載自??柏企閱文??
