擊敗三位人類世界冠軍,登上Nature封面!AI無(wú)人機(jī)極限競(jìng)速開(kāi)啟自動(dòng)駕駛新紀(jì)元
在下棋,辦公,游戲這類腦力活動(dòng)中,人類被AI碾壓已經(jīng)早就不是什么新聞了。
現(xiàn)在連極限競(jìng)速領(lǐng)域,人類的陣地也失守了!
今天Nature的封面論文,內(nèi)容是AI駕駛系統(tǒng)在無(wú)人機(jī)競(jìng)速領(lǐng)域擊敗了人類SOTA。
圖片
論文地址:https://www.nature.com/articles/s41586-023-06419-4
來(lái)自蘇黎世大學(xué)和英特爾的研究團(tuán)隊(duì)開(kāi)發(fā)的Swift系統(tǒng),成功地在第一人稱視角(FPV)無(wú)人機(jī)比賽中,擊敗了3位人類世界冠軍,單圈速度比人類快了半秒!
AI無(wú)人機(jī)內(nèi)心OS「遙遙領(lǐng)先!」
比賽當(dāng)中,駕駛選手需要駕駛高速無(wú)人機(jī)完成一個(gè)三
維空間內(nèi)的立體賽道。人類駕駛員和AI都只能通過(guò)機(jī)載攝像頭的拍攝的視頻流來(lái)觀察環(huán)境,操縱無(wú)人機(jī)的飛行。
圖片
2019年,當(dāng)時(shí)成績(jī)最好的Alphapilot系統(tǒng),如果不依靠外部的追蹤系統(tǒng)來(lái)精確控制無(wú)人機(jī)的飛行軌跡,完成比賽的時(shí)間幾乎是人類的兩倍。
Swift系統(tǒng)和人類選手一樣,僅通過(guò)對(duì)機(jī)載攝像頭收集的數(shù)據(jù)做出實(shí)時(shí)反應(yīng),讓完成比賽的時(shí)間有了質(zhì)的飛躍。
它的集成的慣性測(cè)量單元(inertial measurement unit)測(cè)量無(wú)人機(jī)的加速度和速度,神經(jīng)網(wǎng)絡(luò)通過(guò)來(lái)自攝像頭的數(shù)據(jù)來(lái)定位無(wú)人機(jī)在空中的位置,并檢測(cè)跑道上的需要通過(guò)的門。
這些信息被匯總到基于深度強(qiáng)化學(xué)習(xí)(DeepRL)的控制單元,做出最佳的反饋指令,從而盡可能快地完成賽道。
圖片
FPV無(wú)人機(jī)比賽中使用的是四軸飛行器,是市面上最為靈活的無(wú)人機(jī)。比賽中無(wú)人機(jī)受到的加速力,可能超過(guò)自身重力的5倍還多,飛行時(shí)速超過(guò)100公里每小時(shí)!
圖片
賽道由7個(gè)正方形的門組成,場(chǎng)地大小為30*30*7的三維空間,飛行距離超過(guò)75米。無(wú)人機(jī)必須按順序通過(guò)每個(gè)門,連續(xù)跑完3圈,才能完成比賽。
圖片
人類駕駛員佩戴頭顯,來(lái)獲得實(shí)時(shí)的視頻信號(hào)。頭顯能提供身臨其境的「第一人稱視角」體驗(yàn)。
超越人類世界冠軍選手的Swift系統(tǒng),主要由兩個(gè)關(guān)鍵模塊組成:
1. 將高維度視覺(jué)和加速度信息轉(zhuǎn)化為低維度表示的感知系統(tǒng)
2. 獲取低維度表示并生成控制命令的控制AI系統(tǒng)
這個(gè)控制AI系統(tǒng)由前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行表征,使用無(wú)模型的On-Policy深度強(qiáng)化學(xué)習(xí)進(jìn)行模擬訓(xùn)練,不斷提高跑圈成績(jī)。
圖片
研究人員通過(guò)使用從物理世界收集的數(shù)據(jù)估計(jì)的非參數(shù)經(jīng)驗(yàn)噪聲模型(non-parametric empircal noise medels),來(lái)縮小模擬與物理世界中的感知和動(dòng)力學(xué)差異。
這些噪聲模型能有效地將模擬中的控制策略轉(zhuǎn)化為現(xiàn)實(shí)中的控制指令。
人類選手在賽道上進(jìn)行了一周的練習(xí),在完成了一周的訓(xùn)練后,每個(gè)飛行員都與Swift進(jìn)行了多場(chǎng)正面1V1的比賽。
圖片
Swift的勝利標(biāo)志著AI控制的自主操控系統(tǒng)首次在與人類的競(jìng)技比賽中獲得了勝利。
Swift系統(tǒng)
機(jī)器人領(lǐng)域中主要的挑戰(zhàn)之一是虛擬和現(xiàn)實(shí)兩者之間存在差距,傳統(tǒng)的端到端學(xué)習(xí)方法難以將虛擬環(huán)境的映射轉(zhuǎn)移到現(xiàn)實(shí)世界。
Swift是一個(gè)端到端的自主控制系統(tǒng),它能讓無(wú)人機(jī)像人類選手一樣參加FPV無(wú)人機(jī)賽事并取得具有競(jìng)爭(zhēng)力的成績(jī)。
它的系統(tǒng)中主要包含以下兩個(gè)模塊:
1. 感知系統(tǒng)
感知系統(tǒng)由一個(gè)VIO模塊組成,該模塊通過(guò)相機(jī)圖像和慣性測(cè)量單元(IMU)獲得的高頻測(cè)量值計(jì)算無(wú)人機(jī)狀態(tài)的度量估計(jì)值。
VIO和門檢測(cè)結(jié)果經(jīng)卡爾曼濾波整合為無(wú)人機(jī)狀態(tài)。隨后,控制策略網(wǎng)絡(luò)將狀態(tài)和之前動(dòng)作作為輸入,輸出控制命令。
這個(gè)系統(tǒng)能將來(lái)自無(wú)人機(jī)上的攝像頭和慣性傳感器等復(fù)雜高維信息,轉(zhuǎn)化成無(wú)人機(jī)當(dāng)前狀態(tài)的低維表示。
包括無(wú)人機(jī)在賽道上的位置、速度、姿態(tài)等,并使用了視覺(jué)慣性系統(tǒng)和神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像處理和狀態(tài)估計(jì)。
2. 控制策略
每個(gè)timestep中,策略網(wǎng)絡(luò)會(huì)根據(jù)狀態(tài)和之前動(dòng)作輸出。
Swift中的價(jià)值網(wǎng)絡(luò)評(píng)估這個(gè)動(dòng)作的價(jià)值,之后兩個(gè)網(wǎng)絡(luò)的參數(shù)會(huì)通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行優(yōu)化。
這個(gè)策略用一個(gè)簡(jiǎn)單的兩層全連接神經(jīng)網(wǎng)絡(luò)表示,輸入是感知系統(tǒng)輸出的無(wú)人機(jī)當(dāng)前狀態(tài),輸出是給無(wú)人機(jī)的控制命令(推力和體積轉(zhuǎn)速)。它通過(guò)在模擬環(huán)境中用強(qiáng)化學(xué)習(xí)的方式進(jìn)行訓(xùn)練。
此外,為了把Swift的感知和行動(dòng)跨域遷移到真實(shí)世界,研究人員使用了兩個(gè)殘差模型來(lái)處理動(dòng)力學(xué)和感知上的偏差:
感知?dú)埐钅P停菏褂酶咚惯^(guò)程擬合真實(shí)飛行中慣性系統(tǒng)的誤差,并在模擬中加入。
動(dòng)力學(xué)殘差模型:使用k近鄰回歸擬合真實(shí)飛行中動(dòng)力學(xué)的誤差,并在模擬中加入。
通過(guò)這種方式,Swift可以適應(yīng)真實(shí)世界中的不確定性,實(shí)現(xiàn)從模擬到物理系統(tǒng)的有效遷移。
經(jīng)過(guò)訓(xùn)練后,它可以像專業(yè)選手一樣駕駛無(wú)人機(jī)進(jìn)行FPV賽事,甚至在部分場(chǎng)景下超越了人類冠軍的表現(xiàn)。
圖片
圖a:Swift在實(shí)際使用中從傳感器獲取數(shù)據(jù)并生成控制命令的過(guò)程
圖b:在仿真環(huán)境中使用強(qiáng)化學(xué)習(xí)訓(xùn)練控制策略的過(guò)程
結(jié)果
研究人員將Swift與計(jì)時(shí)賽中的人類飛行員的成績(jī)進(jìn)行了比較。
單圈時(shí)間表示連續(xù)三圈熱火中達(dá)到的最佳單圈時(shí)間和最佳平均時(shí)間。如下圖a所示,Swift不僅平均單圈時(shí)間更快,平均三圈時(shí)間也更穩(wěn)定。
正面交鋒的結(jié)果則如下圖b所示,在與A.Vanover的9場(chǎng)比賽中,Swift贏了5場(chǎng);在與T.Bitmatta的7場(chǎng)比賽中,Swift贏了4場(chǎng);在與M.Schaepper的9場(chǎng)比賽中,Swift贏了6場(chǎng)。
研究人員解釋,在Swift輸?shù)舻?0場(chǎng)比賽中,40%是因?yàn)榕c對(duì)手發(fā)生碰撞,40%是因?yàn)榕c閘門發(fā)生碰撞,20%是因?yàn)闊o(wú)人機(jī)的速度比人類飛行員慢。
總的來(lái)說(shuō),Swift在與人類飛行員的比賽中獲勝最多。Swift還取得了最快的比賽時(shí)間記錄,比人類飛行員(A.Vanover)的最佳時(shí)間領(lǐng)先半秒。
圖片
研究人員分析了Swift和每個(gè)人類飛行員飛行的最快圈速。
從整體上看,Swift比所有人類飛行員都要快,但它在賽道的所有單個(gè)賽段上的速度并不快。
在起跑時(shí),Swift的反應(yīng)時(shí)間較短,平均比人類飛行員早120毫秒從領(lǐng)獎(jiǎng)臺(tái)起飛。并且它的加速更快,進(jìn)入第一個(gè)閘門時(shí)的速度更高。
如下圖c、d所示,在急轉(zhuǎn)彎時(shí),Swift的機(jī)動(dòng)更緊湊。
研究人員推測(cè),造成這一結(jié)果的原因是Swift在選擇軌跡時(shí)的時(shí)間更長(zhǎng)。
因?yàn)樗梢愿鶕?jù)價(jià)值函數(shù)來(lái)優(yōu)化長(zhǎng)期回報(bào),而人類飛行員最多預(yù)測(cè)一個(gè)未來(lái),所以規(guī)劃的時(shí)間尺度更短。
在下圖b,d中可以看到,人類飛行員在動(dòng)作開(kāi)始和結(jié)束時(shí)速度較快,但總體速度較慢。
同時(shí),與人類相比,Swift在執(zhí)行某些機(jī)動(dòng)動(dòng)作時(shí)也能依靠其他線索,例如慣性數(shù)據(jù)和針對(duì)周圍環(huán)境特征的視覺(jué)里程測(cè)量。
這些都幫助了自主無(wú)人機(jī)在比賽中實(shí)現(xiàn)了最高的平均速度、最短的賽線,并在整個(gè)比賽過(guò)程中設(shè)法將飛機(jī)保持在更接近其驅(qū)動(dòng)極限的狀態(tài)。
圖片
討論
研究人員開(kāi)發(fā)的這個(gè)自主控制系統(tǒng),能夠在FPV無(wú)人機(jī)競(jìng)速中實(shí)現(xiàn)冠軍級(jí)別的表現(xiàn),甚至在某些情況下超越人類世界冠軍。
這個(gè)系統(tǒng)相對(duì)于人類選手具有一定的結(jié)構(gòu)優(yōu)勢(shì)。
首先,它利用了來(lái)自機(jī)載慣性測(cè)量單元(IMU)的慣性數(shù)據(jù)。這類似于人類前庭系統(tǒng)(vestibular system),但人類選手沒(méi)有辦法使用自身的這個(gè)系統(tǒng),因?yàn)樗麄儧](méi)有乘坐在飛行器內(nèi)部,無(wú)法親身感受到飛行器的加速度。
其次,Swift系統(tǒng)具有更低的感覺(jué)運(yùn)動(dòng)延遲(Swift為40毫秒,而專業(yè)人類選手平均為220毫秒)。另一方面,Swift使用的攝像頭刷新率有限(30赫茲),相比之下,人類飛行員的攝像頭刷新率快了四倍(120赫茲),從而提高了他們的反應(yīng)時(shí)間。
人類飛行員的適應(yīng)能力非常強(qiáng):無(wú)人機(jī)全速出事故墜落后,如果硬件仍然正常工作,他們還能繼續(xù)飛行并完成賽道。而Swift不具備出事故墜毀后恢復(fù)比賽能力。
圖片
人類飛行員還能夠適應(yīng)環(huán)境條件的變化,比如會(huì)顯著改變賽道外觀的光照變化等。
Swift的感知系統(tǒng)假設(shè)比賽環(huán)境的外觀與訓(xùn)練時(shí)觀察到的是完全一致的。如果環(huán)境發(fā)生了變化,系統(tǒng)可能會(huì)無(wú)法工作。
不過(guò)可以通過(guò)在各種條件下訓(xùn)練門探測(cè)器和殘余觀測(cè)模型(residual observation model)來(lái)提供對(duì)于比賽環(huán)境變化的適應(yīng)能力。
盡管研究人員研發(fā)的系統(tǒng)還存在一些限制和待解決的工作,但一個(gè)自主移動(dòng)機(jī)器人能夠達(dá)到體育項(xiàng)目中世界冠軍級(jí)別的表現(xiàn)是機(jī)器人技術(shù)和AI領(lǐng)域的一個(gè)重要里程碑。
這項(xiàng)工作可能會(huì)激發(fā)在其他物理系統(tǒng)(自動(dòng)駕駛車輛、飛行器和機(jī)器人等)中部署基于混合學(xué)習(xí)的解決方案,從而在更加廣泛的應(yīng)用領(lǐng)域發(fā)揮更大的作用。
方法
訓(xùn)練算法
訓(xùn)練是使用近端策略優(yōu)化(Proximal Policy Optimization,PPO)方法進(jìn)行的。這種actor-critic方法在訓(xùn)練期間需要同時(shí)優(yōu)化兩個(gè)神經(jīng)網(wǎng)絡(luò):策略網(wǎng)絡(luò)(將觀測(cè)映射到動(dòng)作)和值網(wǎng)絡(luò)(作為「critic」評(píng)估策略采取的動(dòng)作)。
經(jīng)過(guò)訓(xùn)練后,只有策略網(wǎng)絡(luò)被部署到無(wú)人機(jī)上。
觀察、行動(dòng)和獎(jiǎng)勵(lì)
在時(shí)間t從環(huán)境中獲得的觀測(cè)值????∈?31包括:
(1)當(dāng)前機(jī)器人狀態(tài)的估計(jì);
(2)下一個(gè)需要通過(guò)的賽道上的門的相對(duì)姿態(tài);
(3)上一步中施加的動(dòng)作。具體而言,機(jī)器人狀態(tài)的估計(jì)包括平臺(tái)的位置、速度和姿態(tài),姿態(tài)由旋轉(zhuǎn)矩陣表示,從而形成一個(gè)?15中的向量。
雖然仿真內(nèi)部使用四元數(shù),但研究人員使用旋轉(zhuǎn)矩陣表示姿態(tài),以避免歧義。
下一個(gè)門的相對(duì)姿態(tài)通過(guò)提供四個(gè)門角相對(duì)于車輛的位置來(lái)編碼,從而得到一個(gè)?12中的向量。
所有觀測(cè)值在傳遞給網(wǎng)絡(luò)之前都經(jīng)過(guò)歸一化(normalized)處理。由于值網(wǎng)絡(luò)僅在訓(xùn)練時(shí)使用,它可以訪問(wèn)有關(guān)環(huán)境的特權(quán)信息,這些信息對(duì)策略網(wǎng)絡(luò)是不可訪問(wèn)的。
這些特權(quán)信息(privileged information)與策略網(wǎng)絡(luò)的其他輸入連接在一起,包含了機(jī)器人的確切位置、方向和速度信息。
訓(xùn)練細(xì)節(jié)
數(shù)據(jù)收集是通過(guò)同時(shí)模擬100個(gè)代理與環(huán)境進(jìn)行交互,每個(gè)代理在1500個(gè)步驟的episode中與環(huán)境交互來(lái)完成的。
在每次環(huán)境重置時(shí),每個(gè)代理都會(huì)在賽道上的隨機(jī)門處進(jìn)行初始化,代理的狀態(tài)在經(jīng)過(guò)該門時(shí)先前觀察到,并且在其周圍進(jìn)行有界擾動(dòng)。與之前的研究不同,研究人員在訓(xùn)練時(shí)不對(duì)平臺(tái)動(dòng)態(tài)進(jìn)行隨機(jī)化。相反,他們根據(jù)真實(shí)世界數(shù)據(jù)進(jìn)行微調(diào)。
訓(xùn)練環(huán)境使用TensorFlow Agents實(shí)現(xiàn)。策略網(wǎng)絡(luò)和值網(wǎng)絡(luò)都由兩層感知器表示,每層有128個(gè)節(jié)點(diǎn),并且使用帶有負(fù)斜率為0.2的Leaky ReLU激活函數(shù)。網(wǎng)絡(luò)參數(shù)使用Adam優(yōu)化器進(jìn)行優(yōu)化,策略網(wǎng)絡(luò)和值網(wǎng)絡(luò)的學(xué)習(xí)率都為3×10^-4。
研究人員根據(jù)在現(xiàn)實(shí)世界中收集到的少量數(shù)據(jù)對(duì)原始策略進(jìn)行微調(diào)。
具體來(lái)說(shuō),他們?cè)诂F(xiàn)實(shí)世界中進(jìn)行了三次完整的試驗(yàn),相當(dāng)于約50秒的飛行時(shí)間。
研究人員通過(guò)識(shí)別殘余觀測(cè)和殘余動(dòng)態(tài)來(lái)對(duì)策略進(jìn)行微調(diào),然后將這些信息用于在模擬中進(jìn)行訓(xùn)練。在這個(gè)微調(diào)階段,只有控制策略的權(quán)重會(huì)被更新,門探測(cè)網(wǎng)絡(luò)的權(quán)重保持不變。
殘差觀測(cè)模型
高速移動(dòng)會(huì)導(dǎo)致明顯的運(yùn)動(dòng)模糊,這可能導(dǎo)致跟蹤的視覺(jué)特征丟失和線性里程計(jì)估計(jì)的嚴(yán)重漂移。
研究人員通過(guò)在現(xiàn)實(shí)世界中僅進(jìn)行少數(shù)試驗(yàn)來(lái)確定的里程計(jì)模型對(duì)策略進(jìn)行微調(diào)。
為了模擬里程計(jì)中的漂移,他們使用高斯過(guò)程,因?yàn)樗鼈冊(cè)试S擬合里程計(jì)擾動(dòng)的后驗(yàn)分布,從中可以采樣出具有時(shí)間一致性的實(shí)現(xiàn)。
具體來(lái)說(shuō),高斯過(guò)程模型將殘余位置、速度和姿態(tài)作為地面實(shí)際機(jī)器人狀態(tài)的函數(shù)進(jìn)行擬合。
觀測(cè)殘差是通過(guò)將真實(shí)世界中的試驗(yàn)期間觀察到的視覺(jué)慣性里程計(jì)(VIO)估計(jì)與外部運(yùn)動(dòng)跟蹤系統(tǒng)獲得的地面實(shí)際平臺(tái)狀態(tài)進(jìn)行比較而確定的。
無(wú)人機(jī)硬件配置
人類飛行員和Swift使用的四旋翼飛行器具有相同的重量、形狀和推進(jìn)力。但由人類駕駛的無(wú)人機(jī)既不攜帶Jetson計(jì)算機(jī),也不攜帶RealSense攝像頭,而是配備了相應(yīng)的壓艙物。
1. 無(wú)人機(jī)機(jī)架
底座采用Armattan Chameleon 6英寸的主機(jī)架,配備了T-Motor Velox2306電機(jī),以及5英寸3葉螺旋槳。
2. 計(jì)算平臺(tái)
使用英偉達(dá)Jetson TX2和ConnectTech Quasar載板為自主無(wú)人機(jī)提供了主要計(jì)算資源,集成了6核CPU和256核GPU。
3. 攝像頭
搭載了英特爾Real Sense跟蹤攝像頭T265,可通過(guò)USB向英偉達(dá)Jetson TX2提供100Hz的VIO估計(jì)值。
4. 飛行控制器
使用STM32處理器運(yùn)行Betaflight軟件(一款開(kāi)源的飛行控制軟件)來(lái)控制無(wú)人機(jī)。
5. 重量
整體無(wú)人機(jī)重量為870克,可產(chǎn)生約35牛頓的最大靜態(tài)推力,靜態(tài)推力重量比為4.1。
人類飛行員評(píng)價(jià)
與Swift比賽的三位人類冠軍都談了談和無(wú)人機(jī)比賽的感受:
Alex Vanover:
「比賽的勝負(fù)將在SplitS(指賽道上的一種飛行動(dòng)作)時(shí)決定,這是賽道上最具挑戰(zhàn)性的部分?!?/p>
「這是我最精彩的比賽!我離無(wú)人機(jī)如此之近,在試圖跟上它時(shí),我甚至能真切地感受到空氣的亂流?!?/p>
Thomas Bitmatta:
「AI的可能性是無(wú)限的,這可能改變整個(gè)世界的開(kāi)始。但作為一名賽手,我不希望有任何東西比我更快?!?/p>
「無(wú)人機(jī)AI很快就會(huì)成為一種訓(xùn)練工具,讓我們了解到人類的極限:隨著飛得更快,你會(huì)以精確度為代價(jià)來(lái)?yè)Q取速度。但這也激發(fā)人們?nèi)ニ伎紵o(wú)人機(jī)真正能做到的事情。」
Marvin Schaepper:
「與機(jī)器比賽的感覺(jué)很不一樣,因?yàn)槟阒罊C(jī)器不會(huì)感到疲勞?!?/p>






