華人CV宗師黃煦濤高徒離職特斯拉,加入OpenAI!專攻多模態(tài)模型研究
OpenAI又迎來一位AI大將。
最近,華人科學家程博文官宣離職特斯拉,即將加入OpenAI專攻多模態(tài)模型的研究。
圖片
今天是我在特斯拉自動駕駛部門的最后一天,這一年半的經(jīng)歷真的很棒:有機會與才華橫溢的同事們共事,學習了如何開發(fā)出色的產(chǎn)品等等。但我向通用人工智能(AGI)進發(fā)的腳步不會因此而停歇,不久后,我將加入OpenAI的后訓(xùn)練(post-training)團隊,參與構(gòu)建多模態(tài)模型的工作。
值得一提的是,程博文博士畢業(yè)于伊利諾伊大學厄巴納-香檳分校(UIUC),導(dǎo)師就是大名鼎鼎的計算機科學家Thomas Huang。
黃煦濤于2020年4月逝世
OpenAI視頻生成科學家Will Depue、技術(shù)人員Farzad Khorasani等人紛紛對他表示歡迎。
圖片
圖片
程博文是誰?
圖片
2022年,程博文正式入職特斯拉,成為自動駕駛團隊的一位資深研究科學家。
在此期間,他的主要工作重心——開發(fā)全自動駕駛(FSD)系統(tǒng),包括特斯拉最新的FSD v12。
圖片
程博文曾在UIUC獲得了電氣與計算機工程(ECE)的博士學位,期間由Alexander Schwing教授和Thomas Huang教授指導(dǎo)(2017-2020年)。
在攻讀研究生學位之前,他于2017年在UIUC完成了電氣與計算機工程的學士學位學習。
圖片
程博文還曾在Facebook AI Research、谷歌研究院、微軟研究院和微軟亞洲研究院實習。
個人主頁中,他提到了自己的研究興趣,覆蓋了計算機視覺和機器學習。
在特斯拉,程博文將自己視為一位「全棧研究員」,不僅將最新研究成果應(yīng)用于全自動駕駛技術(shù)的產(chǎn)品化進程中,還參與了產(chǎn)品開發(fā)的全周期工作,包括數(shù)據(jù)引擎、模型設(shè)計與訓(xùn)練、模型集成等方面。
圖片
最近,他正致力于開發(fā)自動駕駛的端到端規(guī)劃網(wǎng)絡(luò)。
作為一位專注于計算機視覺和機器學習的研究者,程博文對多模態(tài)嵌入式智能體很感興趣。
具體來說,他希望打造出能夠(1)理解人類以任何形式發(fā)出的命令;(2)根據(jù)內(nèi)置知識或利用工具以期望的方式執(zhí)行任務(wù)并生成結(jié)果;(3)通過吸取常識知識和人類反饋進行學習的AI助手,如自動駕駛汽車、聊天機器人等。
過往項目:重點在「分割」
圖片
程博文獲得CVPR 2022 Oral的一篇論文提出了基于點的實例級注釋——是實例分割的一種新的弱監(jiān)督形式。
圖片
論文地址:https://arxiv.org/abs/2104.06404
它將標準邊界框注釋與每個邊界框內(nèi)均勻采樣的標記點相結(jié)合。
研究表明,為完全掩碼監(jiān)督而開發(fā)的現(xiàn)有實例分割模型(如Mask R-CNN),可以在不做任何重大修改的情況下,通過基于點的注釋進行無縫訓(xùn)練。
實驗中,在COCO、PASCAL VOC、Cityscapes和LVIS上訓(xùn)練的Mask R-CNN模型,在每個對象只有10個注釋點的情況下,其完全監(jiān)督性能達到了94%-98%的水平。
與比對象掩碼相比,這種基于點的注釋收集速度快約5倍,讓高質(zhì)量的實例分割更容易用于新數(shù)據(jù)。
圖片
另外,受新注釋形式的啟發(fā),研究人員還對PointRend實例分割模塊提出了修改建議。
對于每個對象,被稱為Implicit PointRend的新架構(gòu)會為一個函數(shù)生成參數(shù),該函數(shù)會進行最終的點級掩碼預(yù)測。
Implicit PointRend更為簡單明了,只需使用一個點級掩碼損失。
實驗表明,新模塊更適合基于點的監(jiān)督方式。
圖片
CVPR 2022上另一篇錄用論文,也是關(guān)于圖像分割的研究。
是Maskformer算法的進階。
圖片
論文地址:https://arxiv.org/abs/2112.01527
論文中,他提出的Mask2Former在圖像分割,包括語義分割、實例分割、視頻語義分割、視頻實例分割等領(lǐng)域中逐漸變成了一個基礎(chǔ)模型。
Mask2Former的關(guān)鍵組件包括掩碼注意力,通過限制預(yù)測掩碼區(qū)域內(nèi)的交叉注意力來提取局部特征。
圖片
除了將研究工作量減少至少3倍外,它在四個流行數(shù)據(jù)集上的表現(xiàn)還大大優(yōu)于最佳專業(yè)架構(gòu)。
最值得注意的是,Mask2Former在全景分割(COCO上為57.8 PQ)、實例分割(COCO上為50.1 AP)和語義分割(ADE20K上為57.7 mIoU)方面都刷新了SOTA。
而下面這篇就是Mask2Former的前身MaskFormer,被NeurIPS 2021 Spotlight錄用。
圖片
論文地址:https://arxiv.org/abs/2107.06278
在作者看來,傳統(tǒng)的逐像素分類的方法不足以通用。
為此全新提出的MaskFormer,是一種簡單的掩碼分類模型,可預(yù)測一組二進制掩碼,每個掩碼都與單個全局類標簽預(yù)測相關(guān)聯(lián)。
圖片
他們所提出的基于掩碼分類的方法,簡化了語義和全景分割任務(wù)的有效方法。
特別是,研究人員觀察到,當類別數(shù)量較多時,MaskFormer的表現(xiàn)優(yōu)于按像素分類的基準方法。
具體來說,MaskFormer基于掩碼分類的方法優(yōu)于最先進的語義分割模型(在ADE20K上為55.6 mIoU)和全景分割模型(在COCO上為52.7 PQ)。
圖片
程博文在CVPR 2020上,拿下的兩篇論文,都得到了黃煦濤的指導(dǎo)。
圖片
論文地址:https://arxiv.org/abs/1911.10194
這篇論文介紹了Panoptic-DeepLab——一個簡單、強大、快速的全景分割系統(tǒng)。
旨在為自下而上的方法建立一個堅實的基線,在獲得快速推理速度的同時,實現(xiàn)與兩階段方法相當?shù)男阅堋?/p>
圖片
還有一篇提出了HigherHRNet,一種全新的自下而上的人體姿勢估計方法,用于使用高分辨率特征金字塔學習尺度感知表示。
圖片
論文地址:https://arxiv.org/abs/1908.10357
圖片
參考資料:
https://twitter.com/bowenc0221/status/1766339742818533636