偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

強(qiáng)化學(xué)習(xí)大牛Sergey Levine:將RL作為可擴(kuò)展自監(jiān)督學(xué)習(xí)的基礎(chǔ)

新聞 人工智能
機(jī)器學(xué)習(xí)系統(tǒng)可以解決計(jì)算機(jī)視覺、語音識(shí)別和自然語言處理等諸多領(lǐng)域的一系列挑戰(zhàn)性問題,但設(shè)計(jì)出媲美人類推理的靈活性和通用性的學(xué)習(xí)賦能(learning-enable)系統(tǒng)仍是遙不可及的事情。

 [[438887]]

目前,機(jī)器學(xué)習(xí)系統(tǒng)可以解決計(jì)算機(jī)視覺、語音識(shí)別和自然語言處理等諸多領(lǐng)域的一系列挑戰(zhàn)性問題,但設(shè)計(jì)出媲美人類推理的靈活性和通用性的學(xué)習(xí)賦能(learning-enable)系統(tǒng)仍是遙不可及的事情。這就引發(fā)了很多關(guān)于「現(xiàn)代機(jī)器學(xué)習(xí)可能缺失了哪些成分」的討論,并就該領(lǐng)域必須解決哪些大問題提出了很多假設(shè)。

問題來了:這些缺失的成分是因果推理、歸納偏置、更好的自監(jiān)督或無監(jiān)督學(xué)習(xí)算法,還是其他完全不同的東西?在今年 10 月份的論文中,強(qiáng)化學(xué)習(xí)大牛、UC 伯克利電氣工程與計(jì)算機(jī)科學(xué)助理教授 Sergey Levine 提出并對(duì)這一問題進(jìn)行了深入探討。

該研究認(rèn)為利用強(qiáng)化學(xué)習(xí)可以衍生出一個(gè)通用的、有原則的、功能強(qiáng)大的框架來利用未標(biāo)記數(shù)據(jù),使用通用的無監(jiān)督或自監(jiān)督強(qiáng)化學(xué)習(xí)目標(biāo),配合離線強(qiáng)化學(xué)習(xí)方法,可以利用大型數(shù)據(jù)集。此外,該研究還討論了這樣的過程如何與潛在的下游任務(wù)更緊密地結(jié)合起來,以及它如何基于近年來開發(fā)的現(xiàn)有技術(shù)實(shí)現(xiàn)的。

強(qiáng)化學(xué)習(xí)大牛Sergey Levine:將RL作為可擴(kuò)展自監(jiān)督學(xué)習(xí)的基礎(chǔ)

論文地址:https://arxiv.org/pdf/2110.12543.pdf

他認(rèn)為這個(gè)問題很難回答,任何答案必然涉及大量猜想,但我們從人工智能近來的進(jìn)展中吸取的教訓(xùn)可以提供幾個(gè)指導(dǎo)原則。

第一個(gè)教訓(xùn)是需要大量訓(xùn)練數(shù)據(jù)的大規(guī)模通用模型的「不合理」有效性。正如阿爾伯塔大學(xué)計(jì)算機(jī)科學(xué)系教授 Richard S. Sutton 在其文章《The Bitter Lesson》中以及機(jī)器學(xué)習(xí)領(lǐng)域大量其他研究者所表達(dá)的那樣,機(jī)器學(xué)習(xí)近來的研究主題始終是「高效利用大量計(jì)算和數(shù)據(jù)的方法通常優(yōu)于依賴手動(dòng)設(shè)計(jì)的先驗(yàn)和啟發(fā)式方法」。雖然探討造成這一趨勢的原因超出了本文的探討范圍,但可以總結(jié)(或夸張地描述)如下:當(dāng)我們?yōu)槟P驮O(shè)計(jì)偏見或先驗(yàn)時(shí),我們正在注入自己關(guān)于世界如何運(yùn)作的不完善的知識(shí),這使得模型得出了比我們自身設(shè)計(jì)的還要準(zhǔn)確的結(jié)果,因而也會(huì)工作地更好。

事實(shí)上,在人們?nèi)绾潍@得熟練程度方面也表現(xiàn)出類似的模式,正如 UC 伯克利名譽(yù)教授 S.E. Dreyfus 等在著作《Philosophy and technology II》中所討論的那樣,遵循我們可以明確表達(dá)出的規(guī)則的「rule-based」推理往往只會(huì)為人們提供各種技能的「新手級(jí)」表現(xiàn),而「專家級(jí)」表現(xiàn)往往與人們難以清晰表達(dá)的各種特例、例外情況和模式息息相關(guān)。正如 Dreyfus 所指出的,真正的人類專家很少能夠清楚地闡明他們所展示的專業(yè)知識(shí)所遵循的規(guī)則。因此,正如人類必須要從經(jīng)驗(yàn)中獲得專業(yè)知識(shí)一樣,機(jī)器學(xué)習(xí)也必須如此。為此,研究者認(rèn)為,我們需要強(qiáng)大的、高容量的模型,這些模型施加的偏見較少并且可以處理大量所需的經(jīng)驗(yàn)。

第二個(gè)近期得到的教訓(xùn)是人工標(biāo)記和監(jiān)督在規(guī)模上遠(yuǎn)遠(yuǎn)不如無監(jiān)督或自監(jiān)督學(xué)習(xí)。我們看到,無監(jiān)督預(yù)訓(xùn)練已經(jīng)成為了自然語言處理的標(biāo)準(zhǔn),并且可能將很快也成為其他領(lǐng)域的標(biāo)準(zhǔn)。從某種意義上來講,這個(gè)教訓(xùn)是第一個(gè)教訓(xùn)的必須結(jié)果:如果大模型和大數(shù)據(jù)集最有效,那么任何限制模型和數(shù)據(jù)集大小的事情最終都將會(huì)成為瓶頸。人類監(jiān)督可能就是這樣一種瓶頸:如果所有數(shù)據(jù)都必須由人工標(biāo)記,則系統(tǒng)從中學(xué)習(xí)所需的數(shù)據(jù)就會(huì)減少。但這里,我們遇到了一個(gè)難題:當(dāng)前沒有人類標(biāo)簽的學(xué)習(xí)方法往往違反第一個(gè)教訓(xùn)的原則,即需要大量的人類洞察力(通常是特定領(lǐng)域的)來設(shè)計(jì)允許大模型從未標(biāo)注數(shù)據(jù)集中獲得有意義知識(shí)的自監(jiān)督學(xué)習(xí)目標(biāo)。這些包括語言建模等相對(duì)簡單的任務(wù),以及「預(yù)測兩個(gè)轉(zhuǎn)換后的圖像是否由同一個(gè)原始圖像還是兩個(gè)不同的圖像各自生成」的更深?yuàn)W的任務(wù)。后者是計(jì)算機(jī)視覺領(lǐng)域現(xiàn)代自監(jiān)督學(xué)習(xí)中廣泛使用且表現(xiàn)成功的方法。雖然這些方法在一定程度上有效,但我們將面臨的下一個(gè)瓶頸可能是在無需人工標(biāo)記或手動(dòng)設(shè)計(jì)自監(jiān)督目標(biāo)時(shí)決定如何訓(xùn)練大模型,從而使得到的模型既可以對(duì)世界有深刻和有意義的理解,也能夠在執(zhí)行下游任務(wù)時(shí)表現(xiàn)出穩(wěn)健泛化性(robustness generalization)和一定程度的常識(shí)。

在作者看來,這種方法論可以從當(dāng)前基于學(xué)習(xí)的控制(強(qiáng)化學(xué)習(xí), RL)算法中開發(fā)出來,盡管需要大量的算法創(chuàng)新才能使這類方法能夠顯著超越它們迄今為止所能解決的問題類型。這一想法的核心是這樣一種概念:為了使用不同的和以目標(biāo)為導(dǎo)向的方式控制環(huán)境,自主智能體必須發(fā)展對(duì)它們所處的因果和可泛化的環(huán)境的理解,因此可以克服當(dāng)前監(jiān)督式模型的很多缺點(diǎn)。

與此同時(shí),這還需要在以下兩個(gè)重要方面超越當(dāng)前的強(qiáng)化學(xué)習(xí)范式。一方面,強(qiáng)化學(xué)習(xí)算法需要用戶手動(dòng)指定任務(wù)目標(biāo)即獎(jiǎng)勵(lì)函數(shù),然后學(xué)習(xí)完成該任務(wù)目標(biāo)所需的行為,當(dāng)然,這種做法極大地限制了智能體在無人類監(jiān)督時(shí)的學(xué)習(xí)能力;另一方面,現(xiàn)在常用的強(qiáng)化學(xué)習(xí)算法本質(zhì)上不是數(shù)據(jù)驅(qū)動(dòng)的,而是從在線經(jīng)驗(yàn)中學(xué)習(xí)。盡管此類方法可以直接部署在真實(shí)世界環(huán)境中,但在線主動(dòng)數(shù)據(jù)收集限制了它們?cè)诖祟愒O(shè)置中的泛化能力。另外,強(qiáng)化學(xué)習(xí)的很多用例是發(fā)生在模擬環(huán)境中,因而很少有機(jī)會(huì)學(xué)習(xí)現(xiàn)實(shí)世界如何運(yùn)作的。

通過行動(dòng)進(jìn)行學(xué)習(xí)

人工智能系統(tǒng)之所以有用,是因?yàn)樗鼈兲峁┝丝捎糜跊Q策的推理,反過來推理又能影響世界。因此,我們可以得出這樣的結(jié)論:一般的學(xué)習(xí)目標(biāo)應(yīng)該是為學(xué)習(xí)那些最有用、最有意義的事情提供動(dòng)力。我們應(yīng)該考慮強(qiáng)化學(xué)習(xí)如何為訓(xùn)練高容量模型提供自動(dòng)化和原則性的目標(biāo),賦予模型理解、推理和泛化的能力。

然而,這面臨兩個(gè)限制:強(qiáng)化學(xué)習(xí)需要手動(dòng)定義獎(jiǎng)勵(lì)函數(shù),此外,強(qiáng)化學(xué)習(xí)還需要一種主動(dòng)學(xué)習(xí)范式。為了解決帶有目標(biāo)的問題,研究者開始開發(fā)新的算法,這些方法不同于執(zhí)行單個(gè)用戶指定的任務(wù),而是旨在推理出所有可能結(jié)果。這些方法潛在目標(biāo)包括學(xué)習(xí)達(dá)到任何可行狀態(tài)、學(xué)習(xí)最大化潛在目標(biāo)和結(jié)果之間的交互信息、通過有原則的內(nèi)在動(dòng)機(jī)目標(biāo)學(xué)習(xí)得到覆蓋廣泛的結(jié)果。為了解決數(shù)據(jù)問題,研究者必須開發(fā)強(qiáng)化學(xué)習(xí)算法,以有效利用以前收集的數(shù)據(jù)集,其中離線強(qiáng)化學(xué)習(xí)算法提供了在多樣性數(shù)據(jù)集上訓(xùn)練 RL 系統(tǒng)的途徑,其方式與監(jiān)督學(xué)習(xí)大致相同,然后進(jìn)行一定量的主動(dòng)在線微調(diào)以獲得最佳性能 。

強(qiáng)化學(xué)習(xí)大牛Sergey Levine:將RL作為可擴(kuò)展自監(jiān)督學(xué)習(xí)的基礎(chǔ)

舉例來說,想象一個(gè)機(jī)器人執(zhí)行各種任務(wù),當(dāng)給定用戶指定的目標(biāo)時(shí),機(jī)器人執(zhí)行該目標(biāo)。然而,在機(jī)器人的「空閑時(shí)間 spare time」,機(jī)器人會(huì)想象它可以產(chǎn)生的潛在結(jié)果,然后機(jī)器人通過「實(shí)踐 practices」采取行動(dòng)來產(chǎn)生這些結(jié)果。每一次這樣的實(shí)踐都會(huì)加深機(jī)器人對(duì)世界因果結(jié)構(gòu)的理解。

當(dāng)然,在現(xiàn)實(shí)世界中以上述方式部署的商業(yè)機(jī)器人系統(tǒng)在概念上似乎有些牽強(qiáng)。這也正是離線 RL 重要的原因:由于離線算法與經(jīng)驗(yàn)來源無關(guān),因此機(jī)器人完成用戶指定目標(biāo)與「playing」所花費(fèi)的時(shí)間比例可以調(diào)整為任一極端,甚至一個(gè)將所有時(shí)間都花在執(zhí)行用戶指定任務(wù)上的系統(tǒng),仍然可以將其收集的經(jīng)驗(yàn)用作離線訓(xùn)練數(shù)據(jù)來學(xué)習(xí),以實(shí)現(xiàn)預(yù)期結(jié)果。這樣的系統(tǒng)仍會(huì)與環(huán)境「play」,但只是在其「記憶 memories」中進(jìn)行了虛擬化。

機(jī)器人系統(tǒng)可能是實(shí)例化這種設(shè)計(jì)最明顯的領(lǐng)域,但這種設(shè)計(jì)不局限于機(jī)器人。任何具有明確定義行動(dòng)概念的系統(tǒng)都可以通過這種方式進(jìn)行訓(xùn)練,例如推薦系統(tǒng)、自動(dòng)駕駛汽車、庫存管理和物流系統(tǒng)、對(duì)話系統(tǒng)等等。

在許多設(shè)置下,在線探索可能行不通,但通過離線 RL 以無監(jiān)督結(jié)果驅(qū)動(dòng)目標(biāo)進(jìn)行學(xué)習(xí)是可行的。如前所述,ML 系統(tǒng)由于能夠做出智能決策非常有用。因此,任何有用的 ML 系統(tǒng)都處于一個(gè)順序過程中,在這個(gè)過程中決策是可能的,因此,這種自監(jiān)督的學(xué)習(xí)程序應(yīng)該是適用的。

無監(jiān)督和自監(jiān)督強(qiáng)化學(xué)習(xí)

無監(jiān)督或自監(jiān)督強(qiáng)化學(xué)習(xí)應(yīng)該滿足兩個(gè)標(biāo)準(zhǔn):首先其所學(xué)習(xí)的行動(dòng)應(yīng)該是以有意義的方式控制世界,此外,其能夠提供一些機(jī)制來學(xué)習(xí)以盡可能多的方式控制自身行動(dòng)。

公式化自監(jiān)督 RL 目標(biāo)最直接方法是將其構(gòu)建為達(dá)到目標(biāo)狀態(tài)的問題,該問題對(duì)應(yīng)于訓(xùn)練目標(biāo)條件策略 π(a|s, g),并選擇一些獎(jiǎng)勵(lì)函數(shù) r(s, g)。雖然這個(gè)獎(jiǎng)勵(lì)函數(shù)本身可能構(gòu)成一個(gè)手動(dòng)設(shè)計(jì)的目標(biāo),但同時(shí)也可以推導(dǎo)出一個(gè)框架,其中獎(jiǎng)勵(lì)函數(shù)是解決定義明確推理問題的結(jié)果,例如預(yù)測最有可能導(dǎo)致特定結(jié)果動(dòng)作的問題。這個(gè)問題公式與密度估計(jì) 、變分推理 、基于模型的強(qiáng)化學(xué)習(xí)和探索相關(guān)聯(lián)。

一個(gè)經(jīng)過訓(xùn)練以達(dá)到所有可能目標(biāo)的策略能從世界中學(xué)到什么?正如最近的研究和 RL 中的經(jīng)典文獻(xiàn)所指出的,解決這種目標(biāo)制約的 RL 問題對(duì)應(yīng)于學(xué)習(xí)一種動(dòng)力學(xué)模型。從直觀上講,要想實(shí)現(xiàn)任何潛在的預(yù)期結(jié)果,就需要深入理解行動(dòng)如何影響長期環(huán)境。當(dāng)然,有人可能會(huì)想,為什么不直接學(xué)習(xí)基于模型的 RL 中更常用的動(dòng)態(tài)模型呢?模型學(xué)習(xí)也可能是利用不同數(shù)據(jù)集的有效方法,而不需要特定用戶提供目標(biāo)。因此,如果 ML 系統(tǒng)的最終目標(biāo)是帶來預(yù)期的結(jié)果,我們可以預(yù)測最終得出的目標(biāo)和期望的目標(biāo)一致。

然而,當(dāng)前方法會(huì)受到許多限制,即使是 goalreaching 條件下的 RL 方法也難以使用、穩(wěn)定性不好。但更重要的是,goalreaching 并不涵蓋 RL 中可以指定的全部可能任務(wù)。即使智能體學(xué)會(huì)了在給定環(huán)境中成功完成所有可能的結(jié)果,也可能不會(huì)存在一個(gè)單一的期望結(jié)果來最大化任意用戶指定的獎(jiǎng)勵(lì)函數(shù)。這種以目標(biāo)為條件的策略可能已經(jīng)學(xué)習(xí)了強(qiáng)大且廣泛適用的特征,并且可以很容易地針對(duì)下游任務(wù)進(jìn)行微調(diào),但對(duì)未來工作而言,一個(gè)有趣的問題是,更好地理解更普遍的自監(jiān)督目標(biāo)是否能夠消除這種限制。目前,研究者已經(jīng)提出了許多用于無監(jiān)督獲得技能的方法,因此,我們可以合理地提問,是否可以在此基礎(chǔ)上推導(dǎo)出更普遍和更有原則的自監(jiān)督強(qiáng)化學(xué)習(xí)目標(biāo)。

離線強(qiáng)化學(xué)習(xí)

如前所述,即使在是在在線收集無法實(shí)現(xiàn)的情況下,離線 RL 也 可以應(yīng)用自監(jiān)督或無監(jiān)督 RL 方法,并且此類方法能夠作為將大型多樣化數(shù)據(jù)集納入自監(jiān)督 RL 中的最強(qiáng)大的工具之一。這對(duì)于使其成為真正可行且通用的大規(guī)模表示學(xué)習(xí)工具至關(guān)重要。但是,離線 RL 提出了很多挑戰(zhàn),其中最重要的是需要它回答反事實(shí)問題:給定顯示出結(jié)果的數(shù)據(jù),我們是否可以預(yù)測在采取不同的行動(dòng)時(shí)會(huì)發(fā)生什么?這非常具有挑戰(zhàn)性。

盡管如此,對(duì)離線 RL 的理解在過去幾年取得了重大進(jìn)展。除了了解分布轉(zhuǎn)移如何影響離線 RL 之外,離線 RL 算法的性能也得到了顯著提升。領(lǐng)域內(nèi)開發(fā)出的一些新算法能夠提供穩(wěn)健性保證、離線預(yù)訓(xùn)練后的在線微調(diào),以及解決了離線 RL 設(shè)置中的一系列其他問題。

強(qiáng)化學(xué)習(xí)大牛Sergey Levine:將RL作為可擴(kuò)展自監(jiān)督學(xué)習(xí)的基礎(chǔ)

自監(jiān)督真實(shí)世界機(jī)器人系統(tǒng) RECON,經(jīng)過訓(xùn)練,該系統(tǒng)可以在從未見過的環(huán)境中執(zhí)行導(dǎo)航任務(wù)。

強(qiáng)化學(xué)習(xí)大牛Sergey Levine:將RL作為可擴(kuò)展自監(jiān)督學(xué)習(xí)的基礎(chǔ)

使用離線 RL 訓(xùn)練的自監(jiān)督真實(shí)世界機(jī)器人操作系統(tǒng) Actionable Models,執(zhí)行各種目標(biāo)達(dá)成任務(wù)。該系統(tǒng)也可以作為通用預(yù)訓(xùn)練,以加速通過傳統(tǒng)獎(jiǎng)勵(lì)在下游任務(wù)上的獲取。

此外,離線 RL 的進(jìn)展也可能顯著提升自監(jiān)督 RL 方法的適用性。使用離線 RL 工具,我們可以構(gòu)建不需要任何自身探索的自監(jiān)督 RL 方法。與上文提到的「虛擬游戲」(virtual play)非常相似,我們可以結(jié)合離線 RL 與目標(biāo)條件策略,以完全從以往收集的數(shù)據(jù)中學(xué)習(xí)。然而,重大挑戰(zhàn)依然存在。離線 RL 算法繼承了標(biāo)準(zhǔn)或深度 RL 學(xué)習(xí)的很多困難,包括對(duì)超參數(shù)的敏感性。并且,由于我們無法執(zhí)行多次在線實(shí)驗(yàn)來確定最佳超參數(shù),這些困難會(huì)進(jìn)一步加劇。在監(jiān)督學(xué)習(xí),我們可以使用驗(yàn)證集來處理這些問題,但離線 RL 中缺少相應(yīng)的對(duì)等集(equivalent)。我們需要更穩(wěn)定和更可靠的算法以及更有效的評(píng)估方法,以使離線 RL 方法真正得到廣泛適用。

文中動(dòng)圖出自:https://medium.com/@sergey.levine/understanding-the-world-through-action-rl-as-a-foundation-for-scalable-self-supervised-learning-636e4e243001

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2022-05-25 14:10:51

學(xué)術(shù)數(shù)據(jù)

2022-07-24 19:24:32

機(jī)器學(xué)習(xí)預(yù)訓(xùn)練模型機(jī)器人

2017-06-12 14:04:45

深度學(xué)習(xí)人工智能

2020-08-16 11:34:43

人工智能機(jī)器學(xué)習(xí)技術(shù)

2020-08-14 11:00:44

機(jī)器學(xué)習(xí)人工智能機(jī)器人

2025-07-22 12:32:37

2025-07-09 01:22:00

AI強(qiáng)化學(xué)習(xí)監(jiān)督學(xué)習(xí)

2025-03-24 10:15:00

2024-05-24 15:53:20

視覺圖像

2024-07-30 11:20:00

圖像視覺

2024-06-13 11:44:43

2025-06-11 08:59:21

2022-11-12 13:50:39

學(xué)習(xí)模型計(jì)算機(jī)算法

2023-11-23 15:54:01

人工智能監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)

2025-09-02 10:23:24

2022-05-17 16:38:40

數(shù)據(jù)訓(xùn)練

2025-07-09 07:52:59

2020-04-28 17:26:04

監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)機(jī)器學(xué)習(xí)

2024-03-19 00:15:00

機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)人工智能

2025-10-11 04:00:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)