偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大語(yǔ)言模型變身軟體機(jī)器人設(shè)計(jì)「自然選擇器」,GPT、Gemini、Grok爭(zhēng)做最佳

人工智能 新聞
這項(xiàng)研究為 AI 輔助軟體機(jī)器人設(shè)計(jì)開(kāi)辟了嶄新道路,有望實(shí)現(xiàn)更自動(dòng)化、更智能的設(shè)計(jì)流程。

大型語(yǔ)言模型 (LLM) 在軟體機(jī)器人設(shè)計(jì)領(lǐng)域展現(xiàn)出了令人振奮的應(yīng)用潛力。密歇根大學(xué)安娜堡分校的研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為「RoboCrafter-QA」的基準(zhǔn)測(cè)試,用于評(píng)估 LLM 在軟體機(jī)器人設(shè)計(jì)中的表現(xiàn),探索了這些模型能否擔(dān)任機(jī)器人設(shè)計(jì)的「自然選擇器」角色。

這項(xiàng)研究為 AI 輔助軟體機(jī)器人設(shè)計(jì)開(kāi)辟了嶄新道路,有望實(shí)現(xiàn)更自動(dòng)化、更智能的設(shè)計(jì)流程。

圖片

  • 作者: Changhe Chen, Xiaohao Xu, Xiangdong Wang, Xiaonan Huang 
  • 機(jī)構(gòu): 密歇根大學(xué)安娜堡分校
  • 原論文: Large Language Models as Natural Selector for Embodied Soft Robot Design
  • Github:https://github.com/AisenGinn/evogym_data_generation 
  • 視頻:https://youtu.be/bM_Ez7Da4ME

研究背景

軟體機(jī)器人相比傳統(tǒng)剛性機(jī)器人具有顯著優(yōu)勢(shì),特別是在復(fù)雜、非結(jié)構(gòu)化和動(dòng)態(tài)環(huán)境中,其固有的柔順性能夠?qū)崿F(xiàn)更安全、更適應(yīng)性強(qiáng)的交互。然而,軟體機(jī)器人設(shè)計(jì)面臨巨大挑戰(zhàn):

  1. 與剛性機(jī)器人明確定義的運(yùn)動(dòng)鏈不同,軟體機(jī)器人擁有幾乎無(wú)限的自由度
  2. 非線性材料特性復(fù)雜
  3. 需要精密協(xié)調(diào)形態(tài)、驅(qū)動(dòng)和控制系統(tǒng)

這些因素使軟體機(jī)器人設(shè)計(jì)成為一項(xiàng)高度挑戰(zhàn)性的多學(xué)科問(wèn)題,傳統(tǒng)上依賴專家直覺(jué)、迭代原型設(shè)計(jì)和計(jì)算成本高昂的模擬。

研究創(chuàng)新:從生物進(jìn)化到 AI 驅(qū)動(dòng)設(shè)計(jì)

研究團(tuán)隊(duì)提出了生物和機(jī)器人設(shè)計(jì)范式的概念性轉(zhuǎn)變:

圖片


  1. 生物進(jìn)化:通過(guò)自然選擇壓力驅(qū)動(dòng),但進(jìn)程緩慢且受限。
  2. 人類工程設(shè)計(jì):由人類直覺(jué)和專業(yè)知識(shí)引導(dǎo),但仍受人類認(rèn)知能力限制。
  3. AI 驅(qū)動(dòng)設(shè)計(jì):LLM 作為「自然選擇器」,利用其龐大的知識(shí)庫(kù)評(píng)估和指導(dǎo)軟體機(jī)器人的設(shè)計(jì)。

RoboCrafter-QA 基準(zhǔn)測(cè)試

研究團(tuán)隊(duì)開(kāi)發(fā)的 RoboCrafter-QA 基準(zhǔn)測(cè)試專門(mén)用于評(píng)估多模態(tài) LLM 對(duì)軟體機(jī)器人設(shè)計(jì)理解的能力。該測(cè)試采用問(wèn)答形式,為 LLM 提供環(huán)境描述和任務(wù)目標(biāo),然后要求模型從兩個(gè)候選機(jī)器人設(shè)計(jì)中選擇性能更佳的一個(gè)。

圖片

數(shù)據(jù)生成流程

  1. 設(shè)計(jì)空間定義:在 5×5 的基于體素的設(shè)計(jì)空間中進(jìn)行機(jī)器人形態(tài)演化,每個(gè)體素代表一種材料類型(空、剛性、軟性、水平驅(qū)動(dòng)器或垂直驅(qū)動(dòng)器)。
  2. 進(jìn)化過(guò)程:從 30 個(gè)隨機(jī)生成的獨(dú)特機(jī)器人設(shè)計(jì)開(kāi)始,使用經(jīng)過(guò) PPO(近端策略優(yōu)化)訓(xùn)練的控制器評(píng)估每個(gè)機(jī)器人。
  3. 選擇與變異:保留每代中表現(xiàn)最佳的 50% 機(jī)器人,其余通過(guò)變異產(chǎn)生后代,確保設(shè)計(jì)多樣性。

測(cè)試任務(wù)多樣性

基準(zhǔn)測(cè)試包含 12 種不同的任務(wù)環(huán)境,涵蓋:

  • 運(yùn)動(dòng)任務(wù)(如平地行走、橋梁行走)
  • 物體操作(如推動(dòng)、攜帶)
  • 攀爬與平衡任務(wù)

圖片

不同結(jié)構(gòu)的機(jī)器人的性能差異示意:

圖片

問(wèn)題示例:

圖片

評(píng)估指標(biāo)

  1. 準(zhǔn)確率:模型生成與預(yù)期答案匹配的比例
  2. 一致性:衡量 LLM 響應(yīng)的可重復(fù)性
  3. 難度加權(quán)準(zhǔn)確率 (DWA):根據(jù)機(jī)器人任務(wù)性能的細(xì)微差異量化模型的判別能力

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)對(duì)四種最先進(jìn)的大型語(yǔ)言模型進(jìn)行了測(cè)試評(píng)估:GPT-o3-mini、Gemini-2.0-flash、Gemini-1.5-Pro 和 Grok-2。

圖片

主要發(fā)現(xiàn):

  1. 模型性能層次:Gemini-1.5-Pro 在簡(jiǎn)單任務(wù)(68.75%)和困難任務(wù)(62.48%)中均表現(xiàn)最佳,其次是 Gemini-2.0-flash 和 Grok-2(準(zhǔn)確率約 66%),而 GPT-o3-mini 表現(xiàn)最弱。
  2. 任務(wù)難度敏感性:所有模型在更復(fù)雜的任務(wù)中準(zhǔn)確率均有下降,特別是當(dāng)需要區(qū)分細(xì)微性能差異的設(shè)計(jì)時(shí)。例如,Gemini-1.5-Pro 在 Walker-v0 任務(wù)中,簡(jiǎn)單級(jí)別準(zhǔn)確率為 75.40%,困難級(jí)別則降至 65.20%。
  3. 模型在特定環(huán)境中的弱點(diǎn):在跳躍和雙向行走等任務(wù)中,所有模型均表現(xiàn)出明顯弱點(diǎn),這可能與這些任務(wù)需要精確時(shí)序控制或處理雙向決策相關(guān)。

性能分析:獎(jiǎng)勵(lì)差異水平分析

為評(píng)估 LLM 在不同難度水平下選擇更優(yōu)設(shè)計(jì)的能力,研究團(tuán)隊(duì)采用了難度加權(quán)準(zhǔn)確率 (DWA) 指標(biāo)。該指標(biāo)特別關(guān)注模型在區(qū)分細(xì)微性能差異設(shè)計(jì)時(shí)的能力,對(duì)難度更高的問(wèn)題(獎(jiǎng)勵(lì)差異更?。┵x予更高權(quán)重。

不同 LLM 的全局 DWA 指標(biāo):

圖片

研究結(jié)果顯示,Gemini-1.5-Pro 在全球平均 DWA 方面表現(xiàn)最佳,達(dá)到 63.72%,這表明它在 RoboCrafter-QA 基準(zhǔn)測(cè)試中具有略微優(yōu)越的體現(xiàn)設(shè)計(jì)推理能力。

研究團(tuán)隊(duì)還可視化了不同獎(jiǎng)勵(lì)差異水平下的錯(cuò)誤分布情況,發(fā)現(xiàn) LLM 的大部分錯(cuò)誤出現(xiàn)在 0.8-1.0 的高難度區(qū)間,這進(jìn)一步突顯了當(dāng)前模型在進(jìn)行細(xì)粒度設(shè)計(jì)區(qū)分方面的局限性。

圖片

提示設(shè)計(jì)消融研究

為確定影響 LLM 做出正確選擇的關(guān)鍵因素,研究團(tuán)隊(duì)針對(duì)提示設(shè)計(jì)進(jìn)行了消融研究,重點(diǎn)關(guān)注任務(wù)描述和驅(qū)動(dòng)器描述對(duì)模型性能的影響。研究還進(jìn)行了一項(xiàng)實(shí)驗(yàn),修改提示指令,要求 LLM 選擇表現(xiàn)較差的設(shè)計(jì)而非較好的設(shè)計(jì),以進(jìn)一步分析 LLM 決策過(guò)程的穩(wěn)健性。

提示設(shè)計(jì)消融研究結(jié)果:

圖片

消融研究結(jié)果揭示了任務(wù)描述和驅(qū)動(dòng)器描述在促使語(yǔ)言模型選擇最優(yōu)設(shè)計(jì)中的關(guān)鍵作用:

  1. 任務(wù)描述的重要性:模糊任務(wù)描述 (NoEnv) 顯著降低了所有模型的性能,例如 GPT-o3-mini 的準(zhǔn)確率從 55.34% 降至 52.08%,Gemini-1.5-pro 從 69.75% 降至 62.50%,這強(qiáng)調(diào)了任務(wù)描述在引導(dǎo) LLM 決策過(guò)程中的重要性。
  2. 驅(qū)動(dòng)器描述的影響有限:忽略驅(qū)動(dòng)器描述 (NoAct) 對(duì)性能影響較小,性能保持穩(wěn)定或略有變化。這可能表明在缺乏驅(qū)動(dòng)器信息的情況下,LLM 會(huì)假設(shè)驅(qū)動(dòng)器能夠最大化設(shè)計(jì)的獎(jiǎng)勵(lì)。
  3. 選擇較差設(shè)計(jì)的挑戰(zhàn):當(dāng)指示模型選擇較差的設(shè)計(jì)時(shí),模型表現(xiàn)出比完整信息提示更低的準(zhǔn)確率(例如,Gemini-2.0-flash 從 66.62% 降至 58.45%),這表明它們?cè)谧R(shí)別劣質(zhì)設(shè)計(jì)方面不太擅長(zhǎng),可能是由于訓(xùn)練偏向于選擇更好的設(shè)計(jì)所致。

這些發(fā)現(xiàn)強(qiáng)調(diào)了在設(shè)計(jì)選擇任務(wù)中,為最大化 LLM 性能提供全面任務(wù)描述的必要性。與此同時(shí),研究也表明當(dāng)前模型在理解設(shè)計(jì)權(quán)衡和進(jìn)行反直覺(jué)選擇(如選擇較差設(shè)計(jì))方面仍存在局限性,這可能需要通過(guò)更具針對(duì)性的訓(xùn)練或提示策略來(lái)解決。

總結(jié)與啟示

通過(guò)對(duì)獎(jiǎng)勵(lì)差異水平的性能分析和提示設(shè)計(jì)消融研究,我們可以看出:

  1. 當(dāng)前最先進(jìn)的 LLM 在區(qū)分明顯不同的設(shè)計(jì)時(shí)表現(xiàn)良好,但在處理細(xì)微性能差異時(shí)仍面臨挑戰(zhàn)。
  2. 提供清晰、全面的任務(wù)描述對(duì)于 LLM 做出正確設(shè)計(jì)選擇至關(guān)重要。
  3. 模型表現(xiàn)出偏向選擇更優(yōu)設(shè)計(jì)的趨勢(shì),這與其預(yù)訓(xùn)練方式可能有關(guān)。

這些發(fā)現(xiàn)為利用 LLM 進(jìn)行軟體機(jī)器人設(shè)計(jì)提供了重要指導(dǎo),同時(shí)也揭示了未來(lái)改進(jìn)方向:可能需要開(kāi)發(fā)針對(duì)體現(xiàn)設(shè)計(jì)的特定訓(xùn)練策略,或構(gòu)建更復(fù)雜的提示框架,以提高模型在處理細(xì)微設(shè)計(jì)權(quán)衡時(shí)的性能。

實(shí)用價(jià)值:LLM 輔助機(jī)器人設(shè)計(jì)初始化

除了評(píng)估模型選擇能力外,研究還探索了 LLM 在設(shè)計(jì)初始化中的應(yīng)用。通過(guò)提供參考環(huán)境中的高獎(jiǎng)勵(lì)和低獎(jiǎng)勵(lì)設(shè)計(jì)實(shí)例,研究測(cè)試了 LLM 是否能為新環(huán)境生成可行的初始設(shè)計(jì)。

圖片

實(shí)驗(yàn)結(jié)果表明:

  • 具有參考知識(shí)的 LLM 生成的設(shè)計(jì)全部有效,平均獎(jiǎng)勵(lì)值達(dá) 0.115,方差僅為 0.035。
  • 無(wú)參考知識(shí)的設(shè)計(jì)中僅 38% 有效,平均獎(jiǎng)勵(lì)為 - 0.607。
  • 隨機(jī)基線雖然產(chǎn)生了 100% 有效設(shè)計(jì),但平均獎(jiǎng)勵(lì)較低(0.044),方差高(0.405)

這表明 LLM 能夠有效地遷移知識(shí),在零樣本設(shè)計(jì)生成中表現(xiàn)出色。

研究結(jié)論與展望

RoboCrafter-QA 基準(zhǔn)測(cè)試為評(píng)估多模態(tài) LLM 在軟體機(jī)器人設(shè)計(jì)中的表現(xiàn)提供了寶貴工具。研究發(fā)現(xiàn),雖然當(dāng)前模型在簡(jiǎn)單設(shè)計(jì)選擇上表現(xiàn)良好,但在處理細(xì)微權(quán)衡和復(fù)雜環(huán)境時(shí)仍面臨挑戰(zhàn)。

未來(lái)研究方向:

  1. 探索 LLM 驅(qū)動(dòng)的控制策略優(yōu)化
  2. 擴(kuò)展設(shè)計(jì)空間復(fù)雜性
  3. 研究仿真到現(xiàn)實(shí)的遷移,包括材料特性和控制器可遷移性
  4. 整合多模態(tài)提示(視覺(jué)、觸覺(jué))增強(qiáng) LLM 的設(shè)計(jì)理解
責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2013-01-18 09:05:35

設(shè)計(jì)需求

2022-01-05 22:00:52

機(jī)器人軟體機(jī)器人

2023-08-25 15:40:24

2025-01-22 08:30:00

2021-03-13 08:00:59

機(jī)器人AI人工智能

2010-09-06 08:52:00

CSS選擇器

2023-03-14 13:57:22

狀態(tài)機(jī)聊天機(jī)器人

2024-09-02 08:30:00

大模型AI

2019-08-27 11:15:20

機(jī)器人人工智能編程

2021-03-25 09:25:55

機(jī)器人人工智能系統(tǒng)

2024-09-29 06:55:37

2017-05-25 12:05:03

機(jī)器人軟體機(jī)器人大蜘蛛

2019-08-02 09:25:57

機(jī)器人人工智能系統(tǒng)

2023-06-29 15:04:21

微軟ChatGPT

2024-12-18 13:24:30

谷歌AI大語(yǔ)言模型

2023-10-23 13:31:37

GPT-4語(yǔ)言模型

2023-12-09 14:30:50

2023-09-02 11:24:02

模型研究

2024-12-13 15:41:46

2022-04-18 14:29:57

人工智能強(qiáng)化學(xué)習(xí)機(jī)器人
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)