偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

LSTM之父22年前構(gòu)想將成真?一周內(nèi)AI「自我進化」論文集中發(fā)布,新趨勢涌現(xiàn)?

人工智能 新聞
有人發(fā)現(xiàn),幾篇關(guān)于「讓 LLM(或智能體)學(xué)會自我訓(xùn)練」的論文在 arXiv 上集中出現(xiàn),其中甚至包括受「哥德爾機」構(gòu)想啟發(fā)而提出的「達爾文哥德爾機」?;蛟S,AI 模型的自我進化能力正在加速提升。

讓 AI 實現(xiàn)自我進化是人類一直以來的夢想。

早在 2003 年,AI 先驅(qū)、LSTM 之父 Jürgen Schmidhuber 就提出過一種名為「哥德爾機(G?del Machine)」的構(gòu)想——它使用一種遞歸的自我改進協(xié)議,如果能夠證明新代碼的策略較佳,就會重寫自己的代碼。但這終究只是一個假想。

近年來,關(guān)于模型自我學(xué)習(xí)、進化的研究逐漸多了起來,很多研究者的目標(biāo)在逐漸從單純的「訓(xùn)練模型」向「讓模型學(xué)會自我學(xué)習(xí)和自我進化」轉(zhuǎn)變,谷歌最近發(fā)布的 AlphaEvolve 就是其中的重要代表。

在過去的一周,這一方向的進展尤其豐富。有人發(fā)現(xiàn),幾篇關(guān)于「讓 LLM(或智能體)學(xué)會自我訓(xùn)練」的論文在 arXiv 上集中出現(xiàn),其中甚至包括受「哥德爾機」構(gòu)想啟發(fā)而提出的「達爾文哥德爾機」。或許,AI 模型的自我進化能力正在加速提升。

image.png

在這篇文章中,我們將詳細(xì)介紹最近的幾篇論文,它們分別是:

  • Sakana AI 與不列顛哥倫比亞大學(xué)等機構(gòu)合作的「達爾文哥德爾機(DGM)」:DGM 利用基礎(chǔ)模型和開放式算法來創(chuàng)建和評估新的 AI 智能體,并能夠讀取和修改自身的 Python 代碼庫以進行自我改進,還通過評估在編碼基準(zhǔn)上的性能來判斷更改是否有效。實驗表明,DGM 可以持續(xù)自我改進,并能在不同模型和編程語言之間實現(xiàn)遷移。
  • CMU 的「自我獎勵訓(xùn)練(SRT)」:提出了一種名為「自我獎勵訓(xùn)練」的在線自我訓(xùn)練強化學(xué)習(xí)算法,旨在讓大型語言模型通過自身的判斷信號進行自我監(jiān)督和訓(xùn)練,從而在沒有外部標(biāo)簽的情況下提升性能。
  • 上海交通大學(xué)等機構(gòu)提出的多模態(tài)大模型的持續(xù)自我改進框架「MM-UPT」:在完全無監(jiān)督場景下,通過強化學(xué)習(xí)框架 GRPO 實現(xiàn)多模態(tài)大模型的持續(xù)自我改進。他們提出了一種簡潔而高效的框架:MM-UPT(Multi-Modal Unsupervised Post-Training),并在多個圖文數(shù)學(xué)推理 benchmarks 上驗證了其有效性。
  • 香港中文大學(xué)聯(lián)合 vivo 等機構(gòu)的自改進框架「UI-Genie」:旨在解決 GUI 智能體中的兩大核心挑戰(zhàn):一是軌跡結(jié)果的驗證十分困難,二是高質(zhì)量訓(xùn)練數(shù)據(jù)的規(guī)模化獲取不易。針對這兩個挑戰(zhàn),研究團隊分別提出了一種獎勵模型和一個自改進流水線。

達爾文哥德爾機:讓 AI 通過重寫自己的代碼實現(xiàn)自我改進

image.png

  • 論文標(biāo)題:Darwin G?del Machine: Open-Ended Evolution of Self-Improving Agents 
  • 論文鏈接:https://arxiv.org/abs/2505.22954
  • 博客:https://sakana.ai/dgm/

人工智能研究的一個長期目標(biāo)是創(chuàng)造能夠持續(xù)學(xué)習(xí)的 AI 系統(tǒng)。實現(xiàn)這一目標(biāo)的一條誘人路徑是讓 AI 通過重寫自身代碼(包括負(fù)責(zé)學(xué)習(xí)的代碼)來實現(xiàn)自我改進。這一由 Jürgen Schmidhuber 數(shù)十年前提出的構(gòu)想被稱為「哥德爾機」,是一種假想中的自我改進型 AI。當(dāng)它在數(shù)學(xué)上證明存在更優(yōu)策略時,它會通過遞歸地重寫自身代碼來優(yōu)化問題解決方案,因此成為元學(xué)習(xí)(即「學(xué)會學(xué)習(xí)」)領(lǐng)域的核心概念。

雖然理論上的哥德爾機能確??勺C明的良性自我修改,但其實現(xiàn)依賴于一個不切實際的假設(shè):AI 必須能在數(shù)學(xué)上證明代碼修改會帶來凈效益才會實施變更。

針對此問題,Sakana AI 與不列顛哥倫比亞大學(xué) Jeff Clune 實驗室合作,提出了一種更可行的方案:利用達爾文進化等開放式算法的原理,通過實證檢驗來尋找能提升性能的改進方法。

他們將這一成果命名為「達爾文哥德爾機(DGM)」。DGM 系統(tǒng)利用基礎(chǔ)模型提出代碼改進方案,并采用開放式算法的最新創(chuàng)新來搜索不斷增長的多樣化優(yōu)質(zhì) AI 智能體庫。實驗表明,DGM 獲得的算力越多,自我改進效果就越顯著。鑒于依賴學(xué)習(xí)的 AI 系統(tǒng)終將超越人工設(shè)計系統(tǒng)這一明確趨勢,DGM 很可能在短期內(nèi)超越人工設(shè)計的 AI 系統(tǒng)。

第一個 DGM 是一個編碼智能體,它能夠:

  • 讀取并修改自己的代碼;
  • 評估修改是否提高了性能;
  • 開放式地探索 AI 設(shè)計空間。

圖片

達爾文哥德爾機是一種通過重寫自身代碼來提升編程任務(wù)性能的自我改進型編程智能體。它能實現(xiàn)多種自我改進,包括:增加補丁驗證步驟、優(yōu)化文件查看功能、增強編輯工具、生成并排序多個解決方案以選擇最優(yōu)選項,以及在實施新修改時記錄歷史嘗試記錄(包括失敗原因)。


image.png

達爾文哥德爾機通過運用開放式探索原則,逐步構(gòu)建起一個不斷擴增的智能體庫。該系統(tǒng)通過交替執(zhí)行自我修改與下游任務(wù)評估的方式,持續(xù)創(chuàng)建新智能體并對其進行評分。

在 sw-bench 上,DGM 自動將其性能從 20.0% 提高到 50.0%。在 Polyglot 上,DGM 的表現(xiàn)從最初的 14.2% 躍升至 30.7%,遠遠超過了 Aider 手工設(shè)計的代表性智能體。這些可觀的收益證明了 DGM 發(fā)現(xiàn)并實現(xiàn)對其自身代碼的有益更改的能力。

模型的自我獎勵訓(xùn)練:潛力、崩潰與緩解策略

  • 論文標(biāo)題:Can Large Reasoning Models Self-Train? 
  • 論文鏈接:https://arxiv.org/abs/2505.21444
  • 項目地址:https://self-rewarding-llm-training.github.io/
  • 代碼地址:https://github.com/tajwarfahim/srt
  • 數(shù)據(jù)集:https://huggingface.co/collections/ftajwar/self-rewarding-llm-training-6835218091832c3664176553

通過可驗證獎勵進行的強化學(xué)習(xí)顯著增強了大語言模型的推理能力,尤其是在數(shù)學(xué)和編碼方面。然而,這種方法依賴于人工創(chuàng)建的真實標(biāo)簽驗證器,這使得為每個問題生成獎勵信號的成本高昂且受到限制。在這項工作中,研究團隊提出以下問題:

  • 推理模型能否僅使用自身的反饋進行自我訓(xùn)練,而無需訪問真實標(biāo)簽?
  • 自我訓(xùn)練的性能能否達到基于真實標(biāo)簽的強化學(xué)習(xí)訓(xùn)練的水平?
  • 自我訓(xùn)練能否無限期持續(xù)?其改進最終是否會受到限制?
  • 哪些策略可以有效地維持模型的自我訓(xùn)練?

自我獎勵培訓(xùn)(SRT)

受先前基于一致性自我提升研究的啟發(fā),研究團隊引入了一種簡單而有效的自我訓(xùn)練強化學(xué)習(xí)方法論,稱為自我獎勵訓(xùn)練(Self-Rewarded Training,SRT)。該方法在強化學(xué)習(xí)訓(xùn)練期間,通過模型生成的多個解決方案之間的一致性來評估正確性,從而在沒有標(biāo)注數(shù)據(jù)的情況下提供自監(jiān)督信號。

image.png

SRT 概覽。在 RLVR 方法中,系統(tǒng)通過真實驗證器生成用于強化學(xué)習(xí)訓(xùn)練的獎勵信號。與之相反,SRT 方法并不依賴真實驗證器,而是通過模型自身生成結(jié)果的多數(shù)投票機制來估算真實值,并利用這一替代性獎勵信號來訓(xùn)練模型。

SRT 與早期訓(xùn)練階段的 RL 性能相匹配

研究團隊通過經(jīng)驗證明,在早期訓(xùn)練階段,SRT 能夠達到與那些在黃金標(biāo)準(zhǔn)答案上進行顯式訓(xùn)練的標(biāo)準(zhǔn)強化學(xué)習(xí)方法相媲美的性能。測試數(shù)據(jù)集包括:AMC、AIME24、AIME25。 然而,研究團隊發(fā)現(xiàn)其性能最終會崩潰,例如在最右圖中展示的 DAPO 數(shù)據(jù)集上的訓(xùn)練情況。


image.png

自我訓(xùn)練必然會崩潰

研究團隊分析了 SRT 在具有挑戰(zhàn)性的 DAPO 數(shù)據(jù)集上訓(xùn)練時的訓(xùn)練動態(tài)。 

srt_training_dynamics

這些發(fā)現(xiàn)表明,模型通過產(chǎn)生一致(見上方第二個圖)但錯誤(見上方最左圖)的答案來學(xué)習(xí)最大化自我分配的獎勵。人工檢查證實了這一點:在崩潰之后,模型的輸出會退化為隨機的詞元序列,并帶有一個固定的、與提示無關(guān)的答案(例如,「答案是 1」)。這種行為有一個簡單而精確的理論依據(jù): 

image.png

由 SRT 目標(biāo)定義的強化學(xué)習(xí)優(yōu)化問題明確鼓勵輸出之間的一致性,而不考慮其正確性。因此,在該目標(biāo)下的最優(yōu)策略會退化為無論輸入如何都產(chǎn)生相同的答案,從而人為地最大化獎勵。在這種代理 (proxy) 目標(biāo)上持續(xù)進行自我訓(xùn)練,自然會驅(qū)動模型朝向這種平凡解 (trivial solution) 發(fā)展,特別是當(dāng)這種解比解決實際任務(wù)更簡單時。

緩解策略可能是有效的

研究團隊提出了一些策略來緩解獎勵作弊 (reward hacking),為未來維持模型持續(xù)改進的有效方法奠定基礎(chǔ)。

(i)早停(Early Stopping):一個小的驗證集可以可靠地檢測到模型的最佳性能點,并防止在自我訓(xùn)練過程中發(fā)生崩潰。對于所有的留出集(heldout sets),最佳性能點幾乎出現(xiàn)在同一位置,因此使用任何一個留出集進行早停都是有效的。 

srt_early_stopping

(ii)使用離線生成的標(biāo)簽進行自我訓(xùn)練:一種有效的方法是從一個穩(wěn)定的、先前固定的檢查點生成偽標(biāo)簽,而不是利用來自演進中的策略的標(biāo)簽。這樣做可以穩(wěn)定訓(xùn)練,同時達到與 SRT 相當(dāng)?shù)男阅堋?nbsp;

srt_offline_generated_data

(iii)結(jié)合課程學(xué)習(xí)的自我訓(xùn)練:研究團隊假設(shè),在更具挑戰(zhàn)性的數(shù)據(jù)集上訓(xùn)練時,模型崩潰會發(fā)生得更快,這一推測與研究團隊的經(jīng)驗性發(fā)現(xiàn)一致。其直覺是,在更具挑戰(zhàn)性的數(shù)據(jù)集上,模型更容易放棄其預(yù)訓(xùn)練知識,轉(zhuǎn)而優(yōu)化自我一致性,而不是真正學(xué)習(xí)解決潛在的任務(wù)。研究團隊利用這一假設(shè),通過根據(jù)(a)通過率和(b)多數(shù)投票的頻率來識別 DAPO 數(shù)據(jù)集中「最簡單」的子集,從而實施一種課程學(xué)習(xí)策略(更多細(xì)節(jié)請參見論文)。 

srt_curriculum

在這些課程子集上的性能達到了與在整個 DAPO 數(shù)據(jù)集上使用真實標(biāo)簽進行標(biāo)準(zhǔn)強化學(xué)習(xí)訓(xùn)練相當(dāng)?shù)乃?。這些富有前景的結(jié)果表明,課程學(xué)習(xí)策略可能會進一步擴展 SRT 的益處,為未來的研究開辟了激動人心的途徑。

MM-UPT:多模態(tài)大模型的持續(xù)自我進化

image.png

  • 論文標(biāo)題:Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO 
  • 論文鏈接:https://arxiv.org/abs/2505.22453
  • 項目代碼:https://github.com/waltonfuture/MM-UPT

近年來,多模態(tài)大語言模型在視覺問答、圖文推理等任務(wù)上取得了顯著進展。然而,要在這些強大的基礎(chǔ)模型之上進一步提升性能,往往需要依賴高質(zhì)量人工標(biāo)注數(shù)據(jù)進行監(jiān)督微調(diào)或強化學(xué)習(xí),這在成本與可擴展性上面臨嚴(yán)峻挑戰(zhàn)。過往研究雖然探索了無監(jiān)督后訓(xùn)練方法,但大多流程復(fù)雜、難以迭代、數(shù)據(jù)利用率低。 

image.png

在這篇論文中,作者首次探索了在完全無監(jiān)督場景下,通過強化學(xué)習(xí)框架 GRPO 實現(xiàn)多模態(tài)大模型的持續(xù)自我改進。他們提出了一種簡潔而高效的框架:MM-UPT(Multi-Modal Unsupervised Post-Training),并在多個圖文數(shù)學(xué)推理 benchmarks 上驗證了其有效性。

MM-UPT 的核心思想主要為以下兩個關(guān)鍵點:

  • 強化學(xué)習(xí)中的 GRPO 提供了穩(wěn)定高效的在線策略優(yōu)化能力;
  • 多數(shù)投票可以在無標(biāo)簽數(shù)據(jù)上為模型輸出生成偽標(biāo)簽,驅(qū)動自我優(yōu)化。

整個流程如下:

  • 給定一張圖片和一個問題,模型生成多個候選回答;
  • 使用多數(shù)投票選出出現(xiàn)頻率最高的回答,作為當(dāng)前輸入的「偽標(biāo)簽」;
  • 使用這個「偽標(biāo)簽」來計算 reward,引導(dǎo)模型根據(jù) GRPO 策略更新;

這整個過程無需任何外部監(jiān)督信號或真實答案,使得模型可以基于自身的「共識」行為進行強化學(xué)習(xí),從而實現(xiàn)持續(xù)的性能提升。

作者在四個多模態(tài)數(shù)學(xué)推理基準(zhǔn)測試集(MathVisioan、MathVista、We-Math、MathVerse)上進行了廣泛實驗。表格 1 的結(jié)果顯示:

  • 在使用標(biāo)準(zhǔn)的訓(xùn)練集但不使用任何人工標(biāo)注答案的情況下,MM-UPT 可以使 Qwen2.5-VL-7B 的準(zhǔn)確率從 66.3% 提升至 72.9%(MathVista);
  • 超過之前的無監(jiān)督自我改進方法(如 Genixer、STIC、SRLM 等);
  • 表現(xiàn)甚至媲美有監(jiān)督的 GRPO;

image.png

在標(biāo)準(zhǔn)數(shù)據(jù)集上遮蓋答案進行無監(jiān)督訓(xùn)練后,作者進一步探究了一個更具挑戰(zhàn)的問題:模型能否通過自己生成訓(xùn)練數(shù)據(jù)來實現(xiàn)自我提升?為此,MM-UPT 引入了兩種簡單的合成數(shù)據(jù)生成策略:

In-Context Synthesizing(上下文引導(dǎo)生成)

模型在給定圖像、原問題和原答案的前提下生成一個新的問題。生成的問題與原問題在結(jié)構(gòu)上相近,相當(dāng)于進行語義改寫或條件替換來進行數(shù)據(jù)增強。

Direct Synthesizing(直接生成)

僅提供圖像輸入,模型完全基于圖片內(nèi)容生成問題。這種方法生成的問題更加多樣,但也存在一定概率的幻覺。 無論使用哪種方式生成問題,MM-UPT 都采用多數(shù)投票生成偽標(biāo)簽,驅(qū)動模型進行強化學(xué)習(xí)更新。

表格 2 中的結(jié)果顯示:即便訓(xùn)練數(shù)據(jù)完全由模型自己生成,MM-UPT 仍然能顯著提升多模態(tài)推理能力,甚至在部分任務(wù)上超越使用原始問題的數(shù)據(jù)。這表明,多模態(tài)大模型具備一定的「自我提問 + 自我優(yōu)化」的潛力,為未來依靠 AI 自行生成訓(xùn)練語料進行自我進化的范式提供了堅實基礎(chǔ)。

MM-UPT 為什么有效?作者用一個簡單的例子解釋了其有效性。假設(shè)模型對某個二分類問題,模型每次預(yù)測正確的概率較高,圖片。從該模型獨立采樣圖片個回答圖片,多數(shù)投票選出出現(xiàn)頻率最高的答案作為偽標(biāo)簽。定義隨機變量圖片表示預(yù)測正確的次數(shù),則多數(shù)投票正確的概率為:

image.png

由于圖片,有:

image.png

即:多數(shù)投票比單次預(yù)測更可靠。這就是 MM-UPT 中用多數(shù)投票作為偽標(biāo)簽的合理性所在 —— 它可以構(gòu)造一個有效的自監(jiān)督獎勵信號。但作者也指出了邊界條件:當(dāng)模型對任務(wù)缺乏先驗時(如在 ThinkLite-11K 這種困難的數(shù)據(jù)集上),多數(shù)投票會反而強化錯誤預(yù)測,導(dǎo)致性能下降。

總的來說,MM-UPT 為多模態(tài)大模型的后訓(xùn)練階段提供了一種無需人工標(biāo)注、無需外部獎勵模型的自我提升方式,展現(xiàn)了強化學(xué)習(xí)在無監(jiān)督場景下的潛力。后續(xù)可以探索結(jié)合更強的自我評估機制(如 LLM-as-a-Judge)、復(fù)雜 reward 設(shè)計等,進一步拓展 MM-UPT 框架的能力邊界。

UI-Genie:賦能 GUI 智能體高效自改進的新框架

image.png

  • 論文標(biāo)題:UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents 
  • 論文鏈接:https://arxiv.org/abs/2505.21496
  • 項目地址:https://github.com/Euphoria16/UI-Genie

在這篇論文中,研究團隊介紹了一種名為 UI-Genie 的自改進框架,旨在解決 GUI 智能體中的兩大核心挑戰(zhàn):一是軌跡結(jié)果的驗證十分困難,二是高質(zhì)量訓(xùn)練數(shù)據(jù)的規(guī)模化獲取不易。針對這兩個挑戰(zhàn),研究團隊分別提出了一種獎勵模型和一個自改進流水線。

image.png

該獎勵模型,即 UI-Genie-RM,采用了一種圖文交錯的架構(gòu),能夠高效處理歷史上下文信息,并統(tǒng)一了動作級別和任務(wù)級別的獎勵:

  • 通過迭代式合成軌跡生成,消除人工標(biāo)注
  • 通過自改進循環(huán),共同演進智能體和獎勵模型
  • 無需人工干預(yù)即可生成高質(zhì)量數(shù)據(jù)集

image.png

為了支持 UI-Genie-RM 的訓(xùn)練,研究團隊開發(fā)了精心設(shè)計的數(shù)據(jù)生成策略,包括基于規(guī)則的驗證、受控的軌跡損壞以及難負(fù)例挖掘。

為應(yīng)對第二個挑戰(zhàn),研究團隊設(shè)計了一個自改進流水線,通過在動態(tài)環(huán)境中進行獎勵引導(dǎo)的探索和結(jié)果驗證,逐步增強智能體和獎勵模型的能力,從而擴展可解決的復(fù)雜 GUI 任務(wù)范圍。

在模型訓(xùn)練方面,研究團隊生成了 UI-Genie-RM-517k 和 UI-Genie-Agent-16k 數(shù)據(jù)集,這不僅是首個針對 GUI 智能體的獎勵專用數(shù)據(jù)集,同時也展示了無需人工標(biāo)注即可生成高質(zhì)量合成軌跡的能力。 

image.png

UI-Genie 數(shù)據(jù)集統(tǒng)計信息。UI-Genie-RM-517k 是首個專用于 GUI 智能體的獎勵數(shù)據(jù)集,而 UI-Genie-Agent-16k 則包含了無需人工標(biāo)注的合成軌跡。

實驗結(jié)果表明,經(jīng)過三代數(shù)據(jù)與模型的自改進迭代,UI-Genie 在多個 GUI 智能體基準(zhǔn)測試中均達到了業(yè)界領(lǐng)先水平。研究團隊已將完整的框架實現(xiàn)和生成的數(shù)據(jù)集開源,以促進該領(lǐng)域的進一步研究。

image.png

UI-Genie、Qwen2.5-VL 和 UI-TARS 在三個基準(zhǔn)上的性能比較。

關(guān)于模型自我改進的論文還有很多,如果你也在做相關(guān)研究,歡迎在評論區(qū)留言推薦自己的工作。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2014-07-22 13:30:10

大數(shù)據(jù)

2011-03-07 16:52:56

移動運維

2021-03-22 10:30:15

存儲技術(shù)容器

2023-06-08 11:32:00

模型論文

2023-12-21 14:18:42

統(tǒng)信UOS操作系統(tǒng)

2023-07-26 13:22:54

模式LSTMLlama 2

2020-08-20 13:36:36

微軟開發(fā)AI

2017-03-09 15:12:50

2018-07-04 13:00:58

雷軍代碼程序員

2025-01-26 00:20:00

2016-01-11 09:45:32

網(wǎng)絡(luò)預(yù)言網(wǎng)絡(luò)趨勢

2013-12-10 09:15:46

FedoraFedora 20

2009-11-01 18:48:36

360殺毒日下載量超過百萬

2017-04-20 10:54:15

互聯(lián)網(wǎng)

2023-07-14 15:07:34

DevOps開發(fā)

2011-07-06 10:48:45

Ubuntu 11.1

2025-06-13 11:25:04

大模型LLMAI 技術(shù)

2022-04-28 12:17:58

AI模型數(shù)據(jù)

2020-07-10 10:45:37

5G人工智能技術(shù)
點贊
收藏

51CTO技術(shù)棧公眾號