大語(yǔ)言模型變身軟體機(jī)器人設(shè)計(jì)「自然選擇器」,GPT、Gemini、Grok爭(zhēng)做最佳
大型語(yǔ)言模型 (LLM) 在軟體機(jī)器人設(shè)計(jì)領(lǐng)域展現(xiàn)出了令人振奮的應(yīng)用潛力。密歇根大學(xué)安娜堡分校的研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為「RoboCrafter-QA」的基準(zhǔn)測(cè)試,用于評(píng)估 LLM 在軟體機(jī)器人設(shè)計(jì)中的表現(xiàn),探索了這些模型能否擔(dān)任機(jī)器人設(shè)計(jì)的「自然選擇器」角色。
這項(xiàng)研究為 AI 輔助軟體機(jī)器人設(shè)計(jì)開(kāi)辟了嶄新道路,有望實(shí)現(xiàn)更自動(dòng)化、更智能的設(shè)計(jì)流程。
- 作者: Changhe Chen, Xiaohao Xu, Xiangdong Wang, Xiaonan Huang
- 機(jī)構(gòu): 密歇根大學(xué)安娜堡分校
- 原論文: Large Language Models as Natural Selector for Embodied Soft Robot Design
- Github:https://github.com/AisenGinn/evogym_data_generation
- 視頻:https://youtu.be/bM_Ez7Da4ME
研究背景
軟體機(jī)器人相比傳統(tǒng)剛性機(jī)器人具有顯著優(yōu)勢(shì),特別是在復(fù)雜、非結(jié)構(gòu)化和動(dòng)態(tài)環(huán)境中,其固有的柔順性能夠?qū)崿F(xiàn)更安全、更適應(yīng)性強(qiáng)的交互。然而,軟體機(jī)器人設(shè)計(jì)面臨巨大挑戰(zhàn):
- 與剛性機(jī)器人明確定義的運(yùn)動(dòng)鏈不同,軟體機(jī)器人擁有幾乎無(wú)限的自由度
- 非線性材料特性復(fù)雜
- 需要精密協(xié)調(diào)形態(tài)、驅(qū)動(dòng)和控制系統(tǒng)
這些因素使軟體機(jī)器人設(shè)計(jì)成為一項(xiàng)高度挑戰(zhàn)性的多學(xué)科問(wèn)題,傳統(tǒng)上依賴專家直覺(jué)、迭代原型設(shè)計(jì)和計(jì)算成本高昂的模擬。
研究創(chuàng)新:從生物進(jìn)化到 AI 驅(qū)動(dòng)設(shè)計(jì)
研究團(tuán)隊(duì)提出了生物和機(jī)器人設(shè)計(jì)范式的概念性轉(zhuǎn)變:
- 生物進(jìn)化:通過(guò)自然選擇壓力驅(qū)動(dòng),但進(jìn)程緩慢且受限。
- 人類工程設(shè)計(jì):由人類直覺(jué)和專業(yè)知識(shí)引導(dǎo),但仍受人類認(rèn)知能力限制。
- AI 驅(qū)動(dòng)設(shè)計(jì):LLM 作為「自然選擇器」,利用其龐大的知識(shí)庫(kù)評(píng)估和指導(dǎo)軟體機(jī)器人的設(shè)計(jì)。
RoboCrafter-QA 基準(zhǔn)測(cè)試
研究團(tuán)隊(duì)開(kāi)發(fā)的 RoboCrafter-QA 基準(zhǔn)測(cè)試專門(mén)用于評(píng)估多模態(tài) LLM 對(duì)軟體機(jī)器人設(shè)計(jì)理解的能力。該測(cè)試采用問(wèn)答形式,為 LLM 提供環(huán)境描述和任務(wù)目標(biāo),然后要求模型從兩個(gè)候選機(jī)器人設(shè)計(jì)中選擇性能更佳的一個(gè)。
數(shù)據(jù)生成流程
- 設(shè)計(jì)空間定義:在 5×5 的基于體素的設(shè)計(jì)空間中進(jìn)行機(jī)器人形態(tài)演化,每個(gè)體素代表一種材料類型(空、剛性、軟性、水平驅(qū)動(dòng)器或垂直驅(qū)動(dòng)器)。
- 進(jìn)化過(guò)程:從 30 個(gè)隨機(jī)生成的獨(dú)特機(jī)器人設(shè)計(jì)開(kāi)始,使用經(jīng)過(guò) PPO(近端策略優(yōu)化)訓(xùn)練的控制器評(píng)估每個(gè)機(jī)器人。
- 選擇與變異:保留每代中表現(xiàn)最佳的 50% 機(jī)器人,其余通過(guò)變異產(chǎn)生后代,確保設(shè)計(jì)多樣性。
測(cè)試任務(wù)多樣性
基準(zhǔn)測(cè)試包含 12 種不同的任務(wù)環(huán)境,涵蓋:
- 運(yùn)動(dòng)任務(wù)(如平地行走、橋梁行走)
- 物體操作(如推動(dòng)、攜帶)
- 攀爬與平衡任務(wù)
不同結(jié)構(gòu)的機(jī)器人的性能差異示意:
問(wèn)題示例:
評(píng)估指標(biāo)
- 準(zhǔn)確率:模型生成與預(yù)期答案匹配的比例
- 一致性:衡量 LLM 響應(yīng)的可重復(fù)性
- 難度加權(quán)準(zhǔn)確率 (DWA):根據(jù)機(jī)器人任務(wù)性能的細(xì)微差異量化模型的判別能力
實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)對(duì)四種最先進(jìn)的大型語(yǔ)言模型進(jìn)行了測(cè)試評(píng)估:GPT-o3-mini、Gemini-2.0-flash、Gemini-1.5-Pro 和 Grok-2。
主要發(fā)現(xiàn):
- 模型性能層次:Gemini-1.5-Pro 在簡(jiǎn)單任務(wù)(68.75%)和困難任務(wù)(62.48%)中均表現(xiàn)最佳,其次是 Gemini-2.0-flash 和 Grok-2(準(zhǔn)確率約 66%),而 GPT-o3-mini 表現(xiàn)最弱。
- 任務(wù)難度敏感性:所有模型在更復(fù)雜的任務(wù)中準(zhǔn)確率均有下降,特別是當(dāng)需要區(qū)分細(xì)微性能差異的設(shè)計(jì)時(shí)。例如,Gemini-1.5-Pro 在 Walker-v0 任務(wù)中,簡(jiǎn)單級(jí)別準(zhǔn)確率為 75.40%,困難級(jí)別則降至 65.20%。
- 模型在特定環(huán)境中的弱點(diǎn):在跳躍和雙向行走等任務(wù)中,所有模型均表現(xiàn)出明顯弱點(diǎn),這可能與這些任務(wù)需要精確時(shí)序控制或處理雙向決策相關(guān)。
性能分析:獎(jiǎng)勵(lì)差異水平分析
為評(píng)估 LLM 在不同難度水平下選擇更優(yōu)設(shè)計(jì)的能力,研究團(tuán)隊(duì)采用了難度加權(quán)準(zhǔn)確率 (DWA) 指標(biāo)。該指標(biāo)特別關(guān)注模型在區(qū)分細(xì)微性能差異設(shè)計(jì)時(shí)的能力,對(duì)難度更高的問(wèn)題(獎(jiǎng)勵(lì)差異更?。┵x予更高權(quán)重。
不同 LLM 的全局 DWA 指標(biāo):
研究結(jié)果顯示,Gemini-1.5-Pro 在全球平均 DWA 方面表現(xiàn)最佳,達(dá)到 63.72%,這表明它在 RoboCrafter-QA 基準(zhǔn)測(cè)試中具有略微優(yōu)越的體現(xiàn)設(shè)計(jì)推理能力。
研究團(tuán)隊(duì)還可視化了不同獎(jiǎng)勵(lì)差異水平下的錯(cuò)誤分布情況,發(fā)現(xiàn) LLM 的大部分錯(cuò)誤出現(xiàn)在 0.8-1.0 的高難度區(qū)間,這進(jìn)一步突顯了當(dāng)前模型在進(jìn)行細(xì)粒度設(shè)計(jì)區(qū)分方面的局限性。
提示設(shè)計(jì)消融研究
為確定影響 LLM 做出正確選擇的關(guān)鍵因素,研究團(tuán)隊(duì)針對(duì)提示設(shè)計(jì)進(jìn)行了消融研究,重點(diǎn)關(guān)注任務(wù)描述和驅(qū)動(dòng)器描述對(duì)模型性能的影響。研究還進(jìn)行了一項(xiàng)實(shí)驗(yàn),修改提示指令,要求 LLM 選擇表現(xiàn)較差的設(shè)計(jì)而非較好的設(shè)計(jì),以進(jìn)一步分析 LLM 決策過(guò)程的穩(wěn)健性。
提示設(shè)計(jì)消融研究結(jié)果:
消融研究結(jié)果揭示了任務(wù)描述和驅(qū)動(dòng)器描述在促使語(yǔ)言模型選擇最優(yōu)設(shè)計(jì)中的關(guān)鍵作用:
- 任務(wù)描述的重要性:模糊任務(wù)描述 (NoEnv) 顯著降低了所有模型的性能,例如 GPT-o3-mini 的準(zhǔn)確率從 55.34% 降至 52.08%,Gemini-1.5-pro 從 69.75% 降至 62.50%,這強(qiáng)調(diào)了任務(wù)描述在引導(dǎo) LLM 決策過(guò)程中的重要性。
- 驅(qū)動(dòng)器描述的影響有限:忽略驅(qū)動(dòng)器描述 (NoAct) 對(duì)性能影響較小,性能保持穩(wěn)定或略有變化。這可能表明在缺乏驅(qū)動(dòng)器信息的情況下,LLM 會(huì)假設(shè)驅(qū)動(dòng)器能夠最大化設(shè)計(jì)的獎(jiǎng)勵(lì)。
- 選擇較差設(shè)計(jì)的挑戰(zhàn):當(dāng)指示模型選擇較差的設(shè)計(jì)時(shí),模型表現(xiàn)出比完整信息提示更低的準(zhǔn)確率(例如,Gemini-2.0-flash 從 66.62% 降至 58.45%),這表明它們?cè)谧R(shí)別劣質(zhì)設(shè)計(jì)方面不太擅長(zhǎng),可能是由于訓(xùn)練偏向于選擇更好的設(shè)計(jì)所致。
這些發(fā)現(xiàn)強(qiáng)調(diào)了在設(shè)計(jì)選擇任務(wù)中,為最大化 LLM 性能提供全面任務(wù)描述的必要性。與此同時(shí),研究也表明當(dāng)前模型在理解設(shè)計(jì)權(quán)衡和進(jìn)行反直覺(jué)選擇(如選擇較差設(shè)計(jì))方面仍存在局限性,這可能需要通過(guò)更具針對(duì)性的訓(xùn)練或提示策略來(lái)解決。
總結(jié)與啟示
通過(guò)對(duì)獎(jiǎng)勵(lì)差異水平的性能分析和提示設(shè)計(jì)消融研究,我們可以看出:
- 當(dāng)前最先進(jìn)的 LLM 在區(qū)分明顯不同的設(shè)計(jì)時(shí)表現(xiàn)良好,但在處理細(xì)微性能差異時(shí)仍面臨挑戰(zhàn)。
- 提供清晰、全面的任務(wù)描述對(duì)于 LLM 做出正確設(shè)計(jì)選擇至關(guān)重要。
- 模型表現(xiàn)出偏向選擇更優(yōu)設(shè)計(jì)的趨勢(shì),這與其預(yù)訓(xùn)練方式可能有關(guān)。
這些發(fā)現(xiàn)為利用 LLM 進(jìn)行軟體機(jī)器人設(shè)計(jì)提供了重要指導(dǎo),同時(shí)也揭示了未來(lái)改進(jìn)方向:可能需要開(kāi)發(fā)針對(duì)體現(xiàn)設(shè)計(jì)的特定訓(xùn)練策略,或構(gòu)建更復(fù)雜的提示框架,以提高模型在處理細(xì)微設(shè)計(jì)權(quán)衡時(shí)的性能。
實(shí)用價(jià)值:LLM 輔助機(jī)器人設(shè)計(jì)初始化
除了評(píng)估模型選擇能力外,研究還探索了 LLM 在設(shè)計(jì)初始化中的應(yīng)用。通過(guò)提供參考環(huán)境中的高獎(jiǎng)勵(lì)和低獎(jiǎng)勵(lì)設(shè)計(jì)實(shí)例,研究測(cè)試了 LLM 是否能為新環(huán)境生成可行的初始設(shè)計(jì)。
實(shí)驗(yàn)結(jié)果表明:
- 具有參考知識(shí)的 LLM 生成的設(shè)計(jì)全部有效,平均獎(jiǎng)勵(lì)值達(dá) 0.115,方差僅為 0.035。
- 無(wú)參考知識(shí)的設(shè)計(jì)中僅 38% 有效,平均獎(jiǎng)勵(lì)為 - 0.607。
- 隨機(jī)基線雖然產(chǎn)生了 100% 有效設(shè)計(jì),但平均獎(jiǎng)勵(lì)較低(0.044),方差高(0.405)
這表明 LLM 能夠有效地遷移知識(shí),在零樣本設(shè)計(jì)生成中表現(xiàn)出色。
研究結(jié)論與展望
RoboCrafter-QA 基準(zhǔn)測(cè)試為評(píng)估多模態(tài) LLM 在軟體機(jī)器人設(shè)計(jì)中的表現(xiàn)提供了寶貴工具。研究發(fā)現(xiàn),雖然當(dāng)前模型在簡(jiǎn)單設(shè)計(jì)選擇上表現(xiàn)良好,但在處理細(xì)微權(quán)衡和復(fù)雜環(huán)境時(shí)仍面臨挑戰(zhàn)。
未來(lái)研究方向:
- 探索 LLM 驅(qū)動(dòng)的控制策略優(yōu)化
- 擴(kuò)展設(shè)計(jì)空間復(fù)雜性
- 研究仿真到現(xiàn)實(shí)的遷移,包括材料特性和控制器可遷移性
- 整合多模態(tài)提示(視覺(jué)、觸覺(jué))增強(qiáng) LLM 的設(shè)計(jì)理解