偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICLR25賓大提出REGENT:檢索增強通用智能體,看兩眼就會學新技能,1.38億參數(shù)打贏百億模型

發(fā)布于 2025-11-4 07:34
瀏覽
0收藏

你有沒有過這種經(jīng)歷:手機更新個系統(tǒng),之前會用的功能突然找不到北?連我們?nèi)祟悓W個新APP都要摸索半天,更別說讓AI在陌生環(huán)境里“即插即用”了。

ICLR25賓大提出REGENT:檢索增強通用智能體,看兩眼就會學新技能,1.38億參數(shù)打贏百億模型-AI.x社區(qū)

最近我在ICLR 2025的論文里發(fā)現(xiàn)一個叫REGENT的AI智能體,不用練幾百萬次,也不用裝個“超級大腦”,就靠“翻筆記”的本事,在機器人操控、游戲通關這些任務里,比那些參數(shù)多3倍、數(shù)據(jù)多10倍的大模型還厲害。今天我們聊聊這個“會抄作業(yè)還會舉一反三”的AI到底怎么回事。

先吐槽下:現(xiàn)在的AI都是“偏科生”

要理解REGENT的牛,得先說說現(xiàn)在的AI有多“死板”。

我們總聽說“大模型”很厲害,比如能玩幾十種游戲的Gato,能操控機器人的JAT。但這些AI有個通病:學新東西要“拆家式”投入。就像一個只會死記硬背的學霸,要學新題型,就得把整本練習冊重新做一遍——參數(shù)要堆到百億級,數(shù)據(jù)要喂到上億條,最后換個新環(huán)境(比如從“打乒乓球”游戲換成“打外星人”),還是會懵。

朋友做機器人實驗時就踩過坑:訓練好的機械臂能疊杯子,換個大點的盤子,就得重新喂幾百次演示數(shù)據(jù),調(diào)半天參數(shù)。用論文里的話說,這叫“缺乏跨環(huán)境自適應能力”,說人話就是“不會舉一反三”。

更麻煩的是,這些大模型還“傲嬌”:就算給它點新環(huán)境的演示,比如教它玩新游戲的10個片段,它也得“閉關修煉”(微調(diào))半天,最后效果還不一定好。就像你給朋友看了兩遍新家電的用法,他還得對著說明書研究一小時,最后可能還按錯鍵。

破局思路:先從“抄作業(yè)”開始——R&P的意外驚喜

REGENT團隊最聰明的地方,是先放下“堆模型堆數(shù)據(jù)”的執(zhí)念,問了個簡單問題:能不能讓AI像學生抄作業(yè)一樣,遇到不會的題,先找最像的例題照著做?

他們搞了個超簡單的方法,叫“Retrieve and Play(R&P)”,翻譯過來就是“檢索了就用”。原理說出來你可能會笑:

比如AI在玩《吃豆人》,現(xiàn)在遇到一個“怪物在左邊,豆子在右邊”的場景(狀態(tài)),它就去之前給的演示數(shù)據(jù)里,找和當前場景最像的那一幕,然后直接用那一幕里的動作(比如“向右走”)。就像你考試時遇到一道數(shù)學題,想不起來公式,翻了翻筆記,找到一道條件差不多的題,照著它的步驟寫答案。

ICLR25賓大提出REGENT:檢索增強通用智能體,看兩眼就會學新技能,1.38億參數(shù)打贏百億模型-AI.x社區(qū)

最讓我驚訝的是實驗結果:這個連神經(jīng)網(wǎng)絡都沒有的“笨方法”,在Atari游戲、機器人抓取這些任務里,居然和Gato、JAT這些大模型打得有來有回,甚至還能贏。

這就像一個沒上過高數(shù)課的學生,就靠死記硬背例題,居然考贏了天天刷題的學霸。這說明什么?有時候“找對參考”比“硬記知識”更重要。AI適應新環(huán)境的瓶頸,可能不是“腦子不夠大”,而是“不會查資料”。

REGENT的真本事:把“抄作業(yè)”和“真本事”結合起來

但R&P有個明顯的問題:如果遇到演示數(shù)據(jù)里沒有的“新題”怎么辦?比如演示里只有“吃豆人躲1個怪物”的場景,突然出現(xiàn)3個怪物,R&P就傻眼了。

ICLR25賓大提出REGENT:檢索增強通用智能體,看兩眼就會學新技能,1.38億參數(shù)打贏百億模型-AI.x社區(qū)

這時候REGENT就登場了。它的核心思路很簡單:讓AI既會“抄作業(yè)”(R&P),又有自己的“解題思路”(Transformer模型),兩者結合著來。

我給你打個比方:把REGENT比作一個學做家常菜的新手廚師。

“抄作業(yè)”打底(R&P):廚房里有本食譜(演示數(shù)據(jù)),遇到不會做的菜,先翻食譜找最像的做法——比如要做“番茄炒蛋”,先看食譜里“番茄炒雞蛋”的步驟,知道先炒蛋再炒番茄。ICLR25賓大提出REGENT:檢索增強通用智能體,看兩眼就會學新技能,1.38億參數(shù)打贏百億模型-AI.x社區(qū)

“經(jīng)驗調(diào)整”補漏(Transformer):但新手廚師也不是完全照抄,他會根據(jù)自己之前炒過“青椒炒蛋”的經(jīng)驗(預訓練學到的知識),調(diào)整火候——比如知道雞蛋容易老,炒的時候火可以小一點。

聰明的“折中方案”:如果當前場景和食譜里的幾乎一樣(比如番茄和雞蛋的比例都一樣),就主要照食譜來;如果場景差別大(比如番茄多了一半),就多靠自己的經(jīng)驗調(diào)整。這就像你抄作業(yè)時,遇到題干稍微變化的題,會根據(jù)自己的理解改幾個步驟,而不是全抄。

具體到技術上,REGENT是個“半?yún)?shù)化”智能體——可以理解為“帶了本工具書的工程師”:

ICLR25賓大提出REGENT:檢索增強通用智能體,看兩眼就會學新技能,1.38億參數(shù)打贏百億模型-AI.x社區(qū)

參數(shù)部分(Transformer):相當于工程師腦子里的基礎知識,比如電路原理、機械結構,是預訓練好的,不用每次換任務都重新學。

非參數(shù)部分(檢索庫):相當于工程師隨身帶的工具書,里面是各種具體任務的案例(比如修冰箱的步驟、裝空調(diào)的圖紙),遇到新任務就查,不用把所有案例都記在腦子里。

這種設計的好處太明顯了:不用超大模型,也不用海量數(shù)據(jù)。REGENT的參數(shù)只有1.38億(比JAT少30%,比Gato少90%),預訓練數(shù)據(jù)只有1450萬條(比JAT少5-10倍),但效果卻更好。

三大創(chuàng)新點:為什么REGENT能“以小勝大”?

讀論文時,我特別注意到REGENT的三個設計,看似簡單,實則戳中了傳統(tǒng)AI的痛點:

1. 檢索優(yōu)先:讓“參考資料”替模型“減負”

傳統(tǒng)大模型像個“書呆子”,把所有知識都塞在腦子里,結果遇到新問題反而反應慢。REGENT則是“實用主義者”——能查資料解決的,就不麻煩自己的“大腦”。

比如機器人要做“開門”動作,傳統(tǒng)模型得把“開木門、開鐵門、開抽屜”的所有情況都學一遍;REGENT則只需要學“怎么判斷當前門和哪類參考案例像”,然后調(diào)用參考案例里的動作。這就像你不用背下所有城市的地圖,只要會用導航APP,去哪都能找到路。

2. 上下文學習:看兩眼就會,不用“閉關修煉”

很多AI學新東西要“微調(diào)”——相當于你學新軟件時,得花幾小時看教程、做練習。REGENT則是“上下文學習”:給它10個新任務的演示片段(比如玩新游戲的10個操作),它當場就能學會,不用額外訓練。

這就像你看朋友用新咖啡機做了兩杯咖啡,你不用看說明書,也能照著他的動作做一杯。論文里說,REGENT適應新Atari游戲只需要1萬條數(shù)據(jù),而傳統(tǒng)模型得要100萬條——差距整整100倍。

3. 平滑插值:既不盲目抄,也不瞎創(chuàng)新

最妙的是REGENT處理“抄作業(yè)”和“自己來”的關系的方式——不是非此即彼,而是“看情況調(diào)整比例”。

就像你開車:如果在熟悉的高速上(場景和參考案例很像),就多靠定速巡航(R&P);如果到了陌生的小巷(場景差異大),就多靠自己操控(Transformer)。這種“平滑插值”的設計,讓REGENT既不會因為“死抄”而在新場景翻車,也不會因為“瞎創(chuàng)新”而犯低級錯誤。

實驗結果:小個子也能打贏大塊頭

光說不練假把式,REGENT的實驗數(shù)據(jù)確實讓人眼前一亮:

機器人操控任務(比如抓取、開門)里,REGENT不用微調(diào),直接用50個演示片段,就能比JAT(全量數(shù)據(jù)訓練的版本)表現(xiàn)好30%;就算JAT用新環(huán)境的數(shù)據(jù)微調(diào),還是打不過REGENT。

ICLR25賓大提出REGENT:檢索增強通用智能體,看兩眼就會學新技能,1.38億參數(shù)打贏百億模型-AI.x社區(qū)

游戲任務(ProcGen游戲套件)里,REGENT的參數(shù)只有MTT(另一個能上下文學習的模型)的1/3,預訓練數(shù)據(jù)少10倍,但在《忍者》《登山者》這些游戲里,分數(shù)比MTT高20%-50%。更狠的是,就算給游戲加了“隨機干擾”(比如按鍵盤有20%概率沒反應),REGENT照樣能穩(wěn)定通關,而傳統(tǒng)模型早就亂套了。

ICLR25賓大提出REGENT:檢索增強通用智能體,看兩眼就會學新技能,1.38億參數(shù)打贏百億模型-AI.x社區(qū)

最讓我覺得有價值的是:REGENT在“老任務”上也沒拉胯——在它預訓練過的環(huán)境里,表現(xiàn)和JAT、MTT差不多,甚至在Metaworld機器人任務里還更好。這說明它不是“偏科生”,而是“全能選手”:既能快速學新東西,又不丟老本事。

未來可期,但還有兩個小遺憾

當然,REGENT也不是完美的。我在論文里看到兩個待解決的問題:

一是長任務有點吃力。比如玩《太空侵略者》這種關卡特別長的游戲,REGENT的表現(xiàn)會下降。這就像你看小說,前面的情節(jié)記得清楚,看到后面就忘了前面的伏筆,REGENT對“長期記憶”的處理還需要優(yōu)化。

二是新“身體”適應難。如果給機器人換個新的“身體”(比如從機械臂換成四足機器人),REGENT的表現(xiàn)會變差。這就像你習慣了用鼠標,突然換成觸控板,得適應半天——AI對“身體結構”的抽象理解還不夠。

但這些都是前進中的問題。REGENT的意義不在于它完美,而在于它提供了一條新路子:AI的“通用性”不一定靠“堆資源”,靠“會檢索、會借鑒”也能實現(xiàn)。這對小團隊、小公司來說太重要了——不用買幾百塊GPU,不用喂上億條數(shù)據(jù),也能做出能快速適應新環(huán)境的AI。

最后:AI的“學習能力”,可能比“記憶力”更重要

讀完這篇論文,我最大的感受是:我們之前可能把AI的“聰明”想錯了。

不是參數(shù)越多、數(shù)據(jù)越多,AI就越聰明,就像不是書讀得越多、筆記記得越全,人就越厲害。真正的聰明,是“遇到新問題時,知道怎么找參考、怎么舉一反三”——這正是REGENT做到的。

未來,當你的掃地機器人能自己適應新房間的布局,當你的智能家居能看懂你的新需求,當工廠的機器人換個零件就能做新任務時,背后可能就有REGENT這種“檢索增強”技術的影子。

最后問你個問題:如果家里的家電都有REGENT這種“看兩眼就會”的能力,你最想讓哪個家電先升級?評論區(qū)聊聊~

參考資料

標題:REGENT: A RETRIEVAL-AUGMENTED GENERALIST AGENT THAT CAN ACT IN-CONTEXT IN NEW ENVIRONMENTS

作者:Kaustubh Sridhar (賓夕法尼亞大學), Souradeep Dutta (賓夕法尼亞大學/英屬哥倫比亞大學), Dinesh Jayaraman (賓夕法尼亞大學), Insup Lee (賓夕法尼亞大學)

鏈接:https://openreview.net/pdf?id=NxyfSW6mLK

本文轉載自??旺知識??,作者:旺知識

已于2025-11-4 10:02:16修改
收藏
回復
舉報
回復
相關推薦