ICLR 2025 | 真正「Deep」的「Research」,通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)可自主進(jìn)化的科研智能體來了!
CycleResearcher 研究團(tuán)隊(duì)成員包括:張?jiān)澜淌冢骱髮W(xué)人工智能系教授,工學(xué)院副院長,其指導(dǎo)的博士生朱敏郡、張鴻博、鮑光勝、訪問學(xué)生翁詣軒;UCL 訪問研究員楊林易博士,25 Fall 入職南方科技大學(xué)擬任獨(dú)立 PI,博士生導(dǎo)師,研究員。
AI 技術(shù)不斷進(jìn)步,科研自動(dòng)化浪潮正在深刻改變學(xué)術(shù)世界!近日,來自西湖大學(xué)、UCL 等機(jī)構(gòu)的研究團(tuán)隊(duì)在自動(dòng)化科研方向發(fā)布了一項(xiàng)突破性的成果:CycleResearcher 。 CycleResearcher 首次實(shí)現(xiàn)了可訓(xùn)練的科研流程的全鏈路端到端訓(xùn)練,覆蓋智能文獻(xiàn)檢索、模型主動(dòng)提問、強(qiáng)化學(xué)習(xí)迭代優(yōu)化論文創(chuàng)新點(diǎn)、方法論架構(gòu)設(shè)計(jì)、實(shí)驗(yàn)設(shè)計(jì)到論文自動(dòng)生成的完整閉環(huán)。
值得一提的是,同類功能在 OpenAI 商業(yè)化方案中需支付高達(dá) 2 萬美元 / 月的服務(wù)費(fèi)用,而團(tuán)隊(duì)開源了所有代碼、數(shù)據(jù)、和 Demo:

- 論文鏈接:https://openreview.net/forum?id=bjcsVLoHYs
- 網(wǎng)頁鏈接:https://ai-researcher.net/
- 代碼鏈接:https://github.com/zhu-minjun/Researcher
牛津大學(xué)教授 Will MacAskill 最新預(yù)言未來 AI 的增長率足以在不到 10 年的時(shí)間里,推動(dòng)相當(dāng)于 100 年的技術(shù)進(jìn)步。如何讓 AI 實(shí)現(xiàn)「遞歸自我改進(jìn)」成為了解決這個(gè)問題的關(guān)鍵!然而,現(xiàn)有的一系列工作包括 SakanaAI 公司于去年 8 月發(fā)布的 AI Scientist、香港大學(xué)最近發(fā)布的 AI-Researcher 都是基于調(diào)用 API 構(gòu)建推理的框架去實(shí)現(xiàn)自動(dòng)化科研,而無法被訓(xùn)練優(yōu)化。CycleResearcher(模型上傳于 24 年 8 月)是全球首個(gè)通過強(qiáng)化學(xué)習(xí)迭代優(yōu)化訓(xùn)練實(shí)現(xiàn)的 AI 科研智能體。

圖 1: AI Researcher 功能展示圖
CycleResearcher 首次實(shí)現(xiàn)了通過強(qiáng)化學(xué)習(xí)進(jìn)行科研過程的自動(dòng)迭代改進(jìn),它能夠模擬完整的科研流程,包括文獻(xiàn)綜述、研究構(gòu)思、論文撰寫,以及模擬實(shí)驗(yàn)結(jié)果。
研究團(tuán)隊(duì)主要干了三件事情:
1)數(shù)據(jù)集: 發(fā)布了兩個(gè)大規(guī)模數(shù)據(jù)集 Review-5k 和 Research-14k,用于評(píng)估和訓(xùn)練學(xué)術(shù)論文評(píng)審和生成模型。
2)CycleResearcher 模型: 可以生成質(zhì)量接近人類撰寫預(yù)印本的論文(評(píng)分 5.36 分),實(shí)現(xiàn) 31.07% 的接受率。
3)CycleReviewer 模型: 一個(gè)做論文評(píng)審的模型,在平均絕對(duì)誤差 (MAE) 方面顯示出令人鼓舞的結(jié)果,與人類評(píng)審員相比,平均絕對(duì)誤差(MAE)降低了 26.89%。
利用商業(yè)大型語言模型(LLMs)作為研究助理或想法生成器已經(jīng)取得了顯著進(jìn)展,但在多達(dá)上萬次模擬同行評(píng)議中通過反饋而自我進(jìn)化的自動(dòng)科研大模型從未實(shí)現(xiàn)過。這項(xiàng)研究的提出旨在解決了這個(gè)領(lǐng)域難題。

圖 2: CycleResearcher 訓(xùn)練框架圖
創(chuàng)新點(diǎn)詳細(xì)解讀:
1. 高質(zhì)量數(shù)據(jù)集與模型規(guī)?;簽橛?xùn)練 CycleResearcher,研究團(tuán)隊(duì)專門構(gòu)建了包含近 1.5 萬篇高質(zhì)量學(xué)術(shù)論文的數(shù)據(jù)集(Research-14K),數(shù)據(jù)來源覆蓋了 ICLR、NeurIPS、ICML、ACL、EMNLP、CVPR 和 ICCV 等頂級(jí)會(huì)議。提供了多個(gè)不同規(guī)模的模型(12B、72B、123B),滿足不同科研需求。
2. 強(qiáng)化學(xué)習(xí)與迭代反饋機(jī)制:如圖二所示,CycleResearcher 的核心技術(shù),在于其采用迭代式偏好優(yōu)化(Iterative SimPO)的訓(xùn)練框架,這一方法使得在線強(qiáng)化學(xué)習(xí)(Online RLHF)成為了可能。這個(gè)框架包含兩個(gè)關(guān)鍵模型:策略模型 (CycleResearcger) 和獎(jiǎng)勵(lì)模型 (DeepReveiwer)。
3. 指令微調(diào)(SFT)熱身階段:策略模型 CycleResearcher 負(fù)責(zé)生成論文的各個(gè)部分,它首先會(huì)進(jìn)行廣泛的文獻(xiàn)綜述,從輸入的 bib 文件中獲取所有參考文獻(xiàn)及其摘要,全面了解研究背景。然后,它會(huì)交替生成論文的大綱和正文,確保邏輯流暢。具體來說,它會(huì)先生成動(dòng)機(jī)和大綱中的主要思想,然后生成標(biāo)題、摘要、引言和方法部分。接下來,概述實(shí)驗(yàn)設(shè)置和結(jié)果,隨后生成實(shí)驗(yàn)設(shè)計(jì)和模擬結(jié)果(注意,這里的實(shí)驗(yàn)結(jié)果是模擬的)。最后,它會(huì)分析實(shí)驗(yàn)結(jié)果并形成結(jié)論。整個(gè)過程就像一位經(jīng)驗(yàn)豐富的科研人員在撰寫論文一樣,有條不紊,邏輯清晰。獎(jiǎng)勵(lì)模型 CycleReviewer 則負(fù)責(zé)模擬同行評(píng)議,對(duì)生成的論文進(jìn)行評(píng)估和反饋。它會(huì)從多個(gè)維度對(duì)論文進(jìn)行打分,并給出具體的評(píng)審意見。
4. 迭代反饋訓(xùn)練階段:研究人員首先通過拒絕采樣獲取樣本,通過 CycleReviewer 的打分構(gòu)成偏好對(duì),兩個(gè)模型相互配合,通過強(qiáng)化學(xué)習(xí)的方式不斷優(yōu)化,CycleResearcher 根據(jù) CycleReviewer 的反饋不斷改進(jìn)自身的論文生成策略,CycleReviewer 則根據(jù) CycleResearcher 生成的論文不斷提高自身的評(píng)審能力。兩個(gè)模型交互反饋,不斷優(yōu)化策略。在 Iterative SimPO 算法中,SimPO 算法雖然可以幫助 AI 區(qū)分 “好” 論文和 “壞” 論文,但它不能保證 AI 生成的文本是流暢的。因此,我們將 SimPO 損失和 NLL 損失結(jié)合起來,讓 AI 模型既能寫出高質(zhì)量的論文,又能保證文本的流暢性。
5. 實(shí)驗(yàn)結(jié)果:CycleResearcher 生成論文的模擬評(píng)審平均得分達(dá)到 5.36 分,超過目前 AI Scientist 的 4.31 分,且十分接近人類真實(shí)預(yù)印本的平均水平(5.24 分)。同時(shí),CycleResearcher 論文的接受率達(dá)到了 35.13%,遠(yuǎn)高于 AI Scientist 的 0%。
總結(jié)
1.這篇工作首次提出了一個(gè)用于自動(dòng)化整個(gè)研究生命周期的迭代強(qiáng)化學(xué)習(xí)框架 通過集成 CycleResearcher(策略模型)和 CycleReviewer(獎(jiǎng)勵(lì)模型),該框架能夠模擬真實(shí)世界的研究 - 評(píng)論 - 改進(jìn)的迭代循環(huán)。
2.團(tuán)隊(duì)發(fā)布了兩個(gè)大規(guī)模數(shù)據(jù)集,用于學(xué)術(shù)論文生成和評(píng)論的評(píng)估與訓(xùn)練 Review-5k 和 Research-14k 數(shù)據(jù)集專為捕捉機(jī)器學(xué)習(xí)中同行評(píng)審和研究論文生成的復(fù)雜性而設(shè)計(jì),為評(píng)估和訓(xùn)練學(xué)術(shù)論文生成和評(píng)審模型提供了寶貴的資源。
3.CycleResearcher 在研究構(gòu)思和實(shí)驗(yàn)設(shè)計(jì)方面表現(xiàn)出一致的性能,可以達(dá)到人類撰寫預(yù)印本的論文質(zhì)量,接近會(huì)議接受論文的質(zhì)量。 這表明 LLM 可以在科學(xué)研究和同行評(píng)審過程中做出有意義的貢獻(xiàn)。
我們堅(jiān)信科研工具應(yīng)當(dāng)開放共享,因此提供了完整的開源資源套件:
pip install ai_researcher開源套件包含:
1. 不同規(guī)模模型:所有模型均支持本地部署
- CycleResearcher:提供 12B、72B 和 123B 三種規(guī)模
- CycleReviewer:提供 8B、70B 和 123B 三種規(guī)模
- DeepReviewer:提供 7B 和 14B 兩種規(guī)模
2. 大規(guī)模訓(xùn)練數(shù)據(jù)集:
- Review-5K:包含 4,989 篇論文的專業(yè)評(píng)審數(shù)據(jù)
- Research-14K:包含 14,911 篇高質(zhì)量論文的結(jié)構(gòu)化數(shù)據(jù)
- DeepReview-13K:包含 13,378 篇論文的多維度深度評(píng)審數(shù)據(jù)
3. 詳盡教程:
- CycleResearcher 教程:https://github.com/zhu-minjun/Researcher/blob/main/Tutorial/tutorial_1.ipynb
- CycleReviewer 教程:https://github.com/zhu-minjun/Researcher/blob/main/Tutorial/tutorial_2.ipynb
- DeepReviewer 教程:https://github.com/zhu-minjun/Researcher/blob/main/Tutorial/tutorial_3.ipynb






































