全自動(dòng)組裝家具! 斯坦福發(fā)布IKEA Video Manuals數(shù)據(jù)集:首次實(shí)現(xiàn)「組裝指令」真實(shí)場景4D對齊
隨著人工智能技術(shù)的快速發(fā)展,讓機(jī)器理解并執(zhí)行復(fù)雜的空間任務(wù)成為一個(gè)重要研究方向。
在復(fù)雜的3D結(jié)構(gòu)組裝中,理解和執(zhí)行說明書是一個(gè)多層次的挑戰(zhàn):從高層的任務(wù)規(guī)劃,到中層的視覺對應(yīng),再到底層的動(dòng)作執(zhí)行,每一步都需要精確的空間理解能力。
斯坦福Vision Lab最新推出的IKEA Video Manuals數(shù)據(jù)集,首次實(shí)現(xiàn)了組裝指令在真實(shí)場景中的4D對齊,為研究這一復(fù)雜問題提供了重要基準(zhǔn)。
論文地址:https://arxiv.org/pdf/2411.11409
項(xiàng)目主頁:https://yunongliu1.github.io/ikea-video-manual/
開源代碼: https://github.com/yunongLiu1/IKEA-Manuals-at-Work
合作者指出了這項(xiàng)工作在空間智能研究中的重要地位:「這項(xiàng)工作將組裝規(guī)劃從2D推進(jìn)到3D空間,通過理解底層視覺細(xì)節(jié)(如部件如何連接),解決了空間智能研究中的一個(gè)主要瓶頸。這是首個(gè)全面評估模型在真實(shí)場景中對精細(xì)3D細(xì)節(jié)理解能力的基準(zhǔn)?!?/span>
知名科技博主、前微軟策略研究者Robert Scoble:「有了這項(xiàng)工作,機(jī)器人將能夠自主組裝IKEA家具,或者通過AI驅(qū)動(dòng)的AR眼鏡。」
突破性的多模態(tài)對齊
組裝一件IKEA家具需要理解多種形式的指令:說明書提供了任務(wù)的整體分解和關(guān)鍵步驟;視頻展示了詳細(xì)的組裝過程;而3D模型則定義了部件之間的精確空間關(guān)系。
IKEA Video Manuals首次將這三種模態(tài)進(jìn)行了細(xì)粒度的對齊:
- 137個(gè)手冊步驟被根據(jù)安裝視頻細(xì)分為1120個(gè)具體子步驟,捕捉了完整的組裝過程;
- 通過6D Pose追蹤,精確記錄每個(gè)部件的空間軌跡;
- 在視頻幀、家具組裝說明書和3D模型之間建立密集對應(yīng)關(guān)系。
豐富的家具類型與場景
數(shù)據(jù)集涵蓋了6大類36種IKEA家具,從簡單的凳子到復(fù)雜的柜子,呈現(xiàn)了不同難度的組裝任務(wù)。每種家具都包含完整的3D模型、組裝說明書和實(shí)際組裝視頻。
這些視頻來自90多個(gè)不同的環(huán)境,包括室內(nèi)外場景、不同光照條件,真實(shí)反映了家具組裝的多樣性。
真實(shí)世界的復(fù)雜性
與在實(shí)驗(yàn)室環(huán)境下采集的數(shù)據(jù)相比,來自互聯(lián)網(wǎng)的真實(shí)視頻呈現(xiàn)了更豐富的挑戰(zhàn):
- 部件經(jīng)常被手或其他物體遮擋
- 相似部件識別(想象一下四條一模一樣的桌子腿?。?/span>
- 攝像機(jī)頻繁移動(dòng)、變焦,帶來參數(shù)估計(jì)的困難
- 室內(nèi)外場景、不同光照條件下的多樣性
這些真實(shí)場景下的復(fù)雜性,讓數(shù)據(jù)集更能反映實(shí)際應(yīng)用中的難點(diǎn)。
有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)25%的家具存在多種有效的組裝順序。比如Laiva架子就有8種不同的組裝方式!這種多樣性真實(shí)地反映了現(xiàn)實(shí)世界中組裝任務(wù)的靈活性。
系統(tǒng)的標(biāo)注流程
為了獲得高質(zhì)量的標(biāo)注, 應(yīng)對真實(shí)視頻帶來的挑戰(zhàn),研究團(tuán)隊(duì)建立了一套可靠的標(biāo)注系統(tǒng):
- 識別并標(biāo)注相機(jī)參數(shù)變化的關(guān)鍵幀,確保片段內(nèi)的一致性
- 結(jié)合2D-3D對應(yīng)點(diǎn)和RANSAC算法進(jìn)行相機(jī)參數(shù)估計(jì)
- 通過多視角驗(yàn)證和時(shí)序約束保證標(biāo)注質(zhì)量
核心任務(wù)實(shí)驗(yàn)評估
基于IKEA Video Manuals數(shù)據(jù)集,團(tuán)隊(duì)設(shè)計(jì)了多個(gè)核心任務(wù)來評估當(dāng)前AI系統(tǒng)在理解和執(zhí)行家具組裝,以及空間推理(spatial reasoning)方面的能力:
1. 在基于3D模型的分割(Segmentation)與姿態(tài)估計(jì) (Pose Estimation)
輸入3D模型和視頻幀,要求AI完成兩個(gè)任務(wù):準(zhǔn)確分割出特定部件區(qū)域,并估計(jì)其在視頻中的6自由度姿態(tài)。實(shí)驗(yàn)測試了最新的分割模型(CNOS, SAM-6D)和姿態(tài)估計(jì)模型(MegaPose)。
基于3D模型的分割
基于3D模型的姿態(tài)估計(jì)
分析發(fā)現(xiàn)它們在以下場景表現(xiàn)不佳:
- 遮擋問題:手部遮擋、近距離拍攝導(dǎo)致部分可見、遮擋引起的深度估計(jì)誤差
- 特征缺失:缺乏紋理的部件難以分割、對稱部件的方向難以判斷
- 特殊拍攝角度(如俯視)導(dǎo)致的尺度誤判
2. 視頻目標(biāo)分割Mask Trackin
評估了SAM2和Cutie兩個(gè)最新的視頻追蹤模型。與其他基準(zhǔn)數(shù)據(jù)集相比,它們在IKEA Video Manuals數(shù)據(jù)集上表現(xiàn)顯著下降:
? SAM2: 從其他數(shù)據(jù)集的85-90%降至73.6%
? Cutie: 從85-87%降至54.7%
主要挑戰(zhàn)包括:
- 相機(jī)運(yùn)動(dòng)導(dǎo)致目標(biāo)丟失
- 難以區(qū)分外觀相似的部件(如多個(gè)相同的桌腿)
- 長時(shí)間追蹤的準(zhǔn)確度難以保持
3. 基于視頻的形狀組裝
團(tuán)隊(duì)提出了一個(gè)創(chuàng)新的組裝系統(tǒng),包含關(guān)鍵幀檢測、部件識別、姿態(tài)估計(jì)和迭代組裝四個(gè)步驟。實(shí)驗(yàn)采用兩種設(shè)置:
使用GPT-4V自動(dòng)檢測關(guān)鍵幀:結(jié)果不理想,Chamfer Distance達(dá)0.55,且1/3的測試視頻未能完成組裝,反映GPT-4V對組裝關(guān)鍵時(shí)刻的識別能力有限;
使用人工標(biāo)注的關(guān)鍵幀:即便如此,由于姿態(tài)估計(jì)模型的局限性,最終Chamfer Distance仍達(dá)0.33
這些實(shí)驗(yàn)結(jié)果揭示了當(dāng)前AI模型的兩個(gè)關(guān)鍵局限:
1、視頻理解能力不足:當(dāng)前的視頻模型對時(shí)序信息的分析仍然較弱,往往停留在單幀圖像分析的層面
2、空間推理受限:在真實(shí)場景的復(fù)雜條件下(如光照變化、視角改變、部件遮擋等),現(xiàn)有模型的空間推理能力仍顯不足
未來展望
IKEA Video Manuals的推出,通過研究如何將組裝指令對齊到真實(shí)場景,為空間智能研究提供了一個(gè)重要的評估基準(zhǔn)。
想象一下,未來你戴上AR眼鏡,就能看到IKEA家具的每個(gè)組裝步驟被清晰地投影在眼前,系統(tǒng)還能實(shí)時(shí)提醒你是否安裝正確;;或者,機(jī)器人能夠像人類一樣,僅通過觀看視頻就學(xué)會(huì)組裝復(fù)雜的家具。IKEA Video Manuals的推出讓這些設(shè)想離現(xiàn)實(shí)更近了一步。
通過提供真實(shí)場景下的多模態(tài)數(shù)據(jù),這個(gè)數(shù)據(jù)集為空間智能研究提供了重要的評估基準(zhǔn)。我們期待看到更多突破性的進(jìn)展,讓AI系統(tǒng)真正理解和執(zhí)行復(fù)雜的空間任務(wù)。
作者介紹
第一作者劉雨濃,斯坦福大學(xué)計(jì)算機(jī)科學(xué)碩士生,隸屬于斯坦福SVL實(shí)驗(yàn)室(Vision and Learning Lab),由吳佳俊教授指導(dǎo)。本科畢業(yè)于愛丁堡大學(xué)電子與計(jì)算機(jī)科學(xué)專業(yè)(榮譽(yù)學(xué)位)。曾在德克薩斯大學(xué)奧斯汀分校從事研究實(shí)習(xí)。目前正在尋找2025年秋季入學(xué)的博士機(jī)會(huì)。
吳佳俊,斯坦福大學(xué)助理教授,隸屬于SVL和SAIL實(shí)驗(yàn)室。麻省理工博士,清華姚班本科。作為項(xiàng)目指導(dǎo)教授。
Juan Carlos Niebles,Salesforce AI Research研究主任,斯坦福大學(xué)計(jì)算機(jī)科學(xué)系兼職教授,斯坦福視覺與學(xué)習(xí)實(shí)驗(yàn)室(SVL)聯(lián)合主任。在計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域有杰出貢獻(xiàn),曾獲多項(xiàng)重要獎(jiǎng)項(xiàng)
劉蔚宇,斯坦福大學(xué)博士后研究員,在CogAI組和SVL實(shí)驗(yàn)室從事研究。專注于機(jī)器人感知、建模和交互領(lǐng)域,致力于開發(fā)能通過簡單語言命令完成長期任務(wù)的機(jī)器人系統(tǒng)。作為項(xiàng)目共同指導(dǎo)。
李曼玲,西北大學(xué)計(jì)算機(jī)科學(xué)系助理教授,曾為斯坦福大學(xué)博士后,現(xiàn)為斯坦福訪問學(xué)者。研究興趣集中在語言、視覺、機(jī)器人及其社會(huì)影響等交叉領(lǐng)域,致力于開發(fā)可信且真實(shí)的多模態(tài)系統(tǒng)。