樂(lè)高、宜家說(shuō)明書(shū)太難懂?Autodesk 開(kāi)源框架幫你解決
喜歡樂(lè)高、熟悉樂(lè)高的朋友們應(yīng)該都是清楚,如今有些樂(lè)高產(chǎn)品完全是面向大人的,它們的復(fù)雜程度遠(yuǎn)高于面向兒童的產(chǎn)品。以樂(lè)高千年隼號(hào)(Millennium Falcon)和帝國(guó)殲星艦(Imperial Star Destroyer)這兩款產(chǎn)品為例,它們的積木顆粒分別為 7541 個(gè)和 4784 個(gè),不少人花費(fèi)了數(shù)月時(shí)間才最終拼完。據(jù)說(shuō)拼過(guò)這兩款積木的用戶(hù)最后都 “病” 了,癥狀表現(xiàn)為看到積木就頭疼、手不由自主發(fā)抖、容易犯嘔。
不想被一個(gè)玩具難倒了?那么這個(gè)新誕生的機(jī)器學(xué)習(xí)框架可以讓你更加直觀、輕松地拼完整個(gè)模型。
Autodesk、斯坦福大學(xué)和麻省理工學(xué)院的研究人員探討了將人類(lèi)設(shè)計(jì)師創(chuàng)造的基于圖像的、分步驟的裝配手冊(cè)翻譯成機(jī)器可理解的指令的問(wèn)題。研究人員將這個(gè)問(wèn)題表述為一個(gè)連續(xù)的預(yù)測(cè)任務(wù):在每個(gè)步驟中,該模型都會(huì)讀取手冊(cè),定位要添加到當(dāng)前形狀中的部件,并推斷出它們?cè)谌S空間的位置。這項(xiàng)任務(wù)帶來(lái)的挑戰(zhàn)是在手冊(cè)圖像和真實(shí)的三維物體之間建立「二維到三維」的對(duì)應(yīng)關(guān)系,以及對(duì)未見(jiàn)過(guò)的三維物體進(jìn)行三維姿態(tài)預(yù)測(cè),因?yàn)樵谝粋€(gè)步驟中要添加的新部件可能是全新的小積木,也可能是由以前的步驟拼成的物體(例如一個(gè)人物模型,說(shuō)明書(shū)通常是讓用戶(hù)先拼完人物的四肢和頭部,然后再將四肢和頭部與人物主體互相拼接在一起形成整體;而不是像 3D 打印,一步步從頭到腳慢慢成型)。
為了解決這兩個(gè)挑戰(zhàn),研究人員提出了一個(gè)新的基于學(xué)習(xí)的框架,即 MEPNet(Manual-to-Executable-Plan Network),它從一連串的手冊(cè)圖像中重構(gòu)拼裝步驟。其關(guān)鍵思想是整合神經(jīng)的二維關(guān)鍵點(diǎn)檢測(cè)模塊和「二維到三維」投影算法,以實(shí)現(xiàn)高精度的預(yù)測(cè)和對(duì)未見(jiàn)過(guò)的組件的強(qiáng)概括性。通過(guò)測(cè)試發(fā)現(xiàn),MEPNet 的表現(xiàn)優(yōu)于現(xiàn)有方法。
研究人員表示,現(xiàn)有的將說(shuō)明書(shū)步驟解析為機(jī)器可理解的指令的方法主要包括兩種形式,一個(gè)是基于搜索的方法,該方法簡(jiǎn)單而準(zhǔn)確,但計(jì)算成本高;另一個(gè)是基于學(xué)習(xí)的模型,速度快,但不善于處理未見(jiàn)過(guò)的 3D 形狀,而 MEPNet 結(jié)合了上述兩種方法。
除了可以用來(lái)拼樂(lè)高,在論文中研究人員還表示,他們的目標(biāo)是創(chuàng)造幫助人們組裝復(fù)雜物體的機(jī)器,他們的應(yīng)用范圍除了樂(lè)高的積木,還包括宜家的家具。因此利用這個(gè)框架,開(kāi)發(fā)者有望開(kāi)發(fā)出比普通家具說(shuō)明更容易讓用戶(hù)理解的安裝手冊(cè)。
想測(cè)試 MEPNet 并且熟悉 Pytorch 的用戶(hù)可以在 Github 上找到項(xiàng)目的代碼 。
我十分懷疑,開(kāi)發(fā)這個(gè)框架的研究員假借研究的名義偷偷玩樂(lè)高。
本文轉(zhuǎn)自O(shè)SCHINA
本文標(biāo)題:樂(lè)高、宜家說(shuō)明書(shū)太難懂?Autodesk 開(kāi)源框架幫你解決
本文地址:https://www.oschina.net/news/205150/lego-machine-learning-ai-framework