偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

讓LLM扔塊石頭,它居然造了個(gè)投石機(jī)

人工智能 新聞
來自港中大(深圳)、港中大的研究團(tuán)隊(duì)(Wenqian Zhang, Weiyang Liu, Zhen Liu)帶來的最新研究——《Agentic Design of Compositional Machines》。

讓LLM扔塊石頭,結(jié)果它發(fā)明了投石機(jī)?

大模型接到任務(wù):“造一個(gè)能把石頭扔遠(yuǎn)的結(jié)構(gòu)?!?/span>

誰成想,它真的開始動(dòng)手造了,在一個(gè)真實(shí)的物理仿真世界里,一邊搭零件,一邊看效果,一邊修改。

最后,它造的投石機(jī),把石頭扔了出去。

這就是來自港中大(深圳)、港中大的研究團(tuán)隊(duì)(Wenqian Zhang, Weiyang Liu, Zhen Liu)帶來的最新研究——《Agentic Design of Compositional Machines》。

他們推出了一個(gè)叫BesiegeField的新平臺(tái),它就像一個(gè)給大模型的“機(jī)械工程師訓(xùn)練場(chǎng)”,專門測(cè)試AI能不能像人一樣,從零開始設(shè)計(jì)并造出能動(dòng)的、有功能的復(fù)雜機(jī)器。

這還沒完。BesiegeField支持上百次的并行實(shí)驗(yàn),一旦引入強(qiáng)化學(xué)習(xí)(Reinforcement Learning),大模型就能“自我進(jìn)化”:從反饋中調(diào)整策略,逐步學(xué)會(huì)結(jié)構(gòu)設(shè)計(jì)的物理邏輯,最終學(xué)會(huì)如何“造出能動(dòng)的結(jié)構(gòu)”。

大模型怎么寫出一個(gè)機(jī)械結(jié)構(gòu)

首先得明確,這不是讓大模型去畫CAD圖,它也控制不了三維細(xì)節(jié)。研究者提出了一種叫“組合式機(jī)械設(shè)計(jì)”(Compositional Machine Design)的方法。

說白了,就是把機(jī)械結(jié)構(gòu)限定在“用標(biāo)準(zhǔn)零件組裝”這個(gè)范圍里。每個(gè)零件(比如支架、關(guān)節(jié))都有標(biāo)準(zhǔn)尺寸和接口,大模型只需要決定:

  • 用哪些零件
  • 它們之間怎么連

這樣,復(fù)雜的設(shè)計(jì)就被簡(jiǎn)化成一個(gè)“離散結(jié)構(gòu)組合問題”。到底好不好用?能不能動(dòng)?穩(wěn)不穩(wěn)?交給物理仿真去驗(yàn)證。

為了讓模型好理解和修改,研究者用了一種類似XML的“結(jié)構(gòu)化表示機(jī)制”,設(shè)計(jì)機(jī)械就變成了一種語言模型擅長(zhǎng)的結(jié)構(gòu)生成任務(wù)。

一個(gè)自進(jìn)化訓(xùn)練場(chǎng)

上面說的這一切,都發(fā)生在BesiegeField這個(gè)仿真平臺(tái)里。它跑在Linux集群上,能同時(shí)跑幾百個(gè)機(jī)械實(shí)驗(yàn),并給到完整的物理反饋——比如速度、受力、能量變化、投擲距離、穩(wěn)不穩(wěn)定、機(jī)械損壞度等等。

這些反饋不僅能驗(yàn)證設(shè)計(jì),還能作為強(qiáng)化學(xué)習(xí)的“獎(jiǎng)勵(lì)信號(hào)”,指導(dǎo)模型改進(jìn)策略。

在這個(gè)平臺(tái)里,模型的設(shè)計(jì)形成了閉環(huán):生成 → 仿真 → 拿反饋 → 調(diào)整 → 再來一次。

就算不更新模型參數(shù),它也能靠反饋優(yōu)化輸出;如果引入強(qiáng)化學(xué)習(xí),模型就能通過這些量化的獎(jiǎng)勵(lì)信號(hào),系統(tǒng)性地提升設(shè)計(jì)能力和成功率。

平臺(tái)還設(shè)計(jì)了一系列從易到難的任務(wù),比如直線行駛、投擲、抓取,甚至還有過障礙、地形坡度、穿環(huán)投擲等更復(fù)雜的場(chǎng)景,構(gòu)成了一個(gè)多樣化的實(shí)驗(yàn)空間。

為什么造機(jī)器這么難

造機(jī)器的挑戰(zhàn),不在于零件多少,而在于它們能不能“在動(dòng)態(tài)中協(xié)同工作”來完成復(fù)雜功能。

拿投石機(jī)來說,配重、支點(diǎn)、發(fā)射臂必須在關(guān)鍵時(shí)刻協(xié)同發(fā)力,才能把能量精準(zhǔn)地扔出去。

只要一個(gè)地方偏差,整個(gè)機(jī)器就可能失效:沒配重,打不出去;缺支點(diǎn),原地轉(zhuǎn)圈;少了杠桿,石頭飛不起來。

這些問題,只有在真實(shí)仿真中才能被發(fā)現(xiàn),也只有這樣,模型才能一步步搞懂“結(jié)構(gòu)到底是怎么動(dòng)起來的”。

差距有多大?人類設(shè)計(jì)的投石機(jī)能投近200米,而大模型設(shè)計(jì)的,常常連30米都到不了。

這其中,差距就在于對(duì)“結(jié)構(gòu)協(xié)同”和“發(fā)力效率”的理解。

這也是BesiegeField要解決的核心問題——讓它懂得結(jié)構(gòu)之間“如何協(xié)同去完成任務(wù)”。

模型真學(xué)會(huì)造結(jié)構(gòu)了嗎

為了解決單個(gè)模型“想不明白”的難題,研究團(tuán)隊(duì)構(gòu)建了一套“智能體工作流”(Agentic Workflow),讓多個(gè)AI協(xié)作。

這套系統(tǒng)里有不同角色:

  • 總設(shè)計(jì)師(Meta-Designer): 負(fù)責(zé)拆解任務(wù)。
  • 結(jié)構(gòu)設(shè)計(jì)師(Designer): 搭建初始方案。
  • 審查員(Inspector + Refiner): 檢查結(jié)構(gòu)和連通性。
  • 反饋查詢員(Active Env Querier): 跑仿真并從大量反饋數(shù)據(jù)內(nèi)抽取對(duì)任務(wù)最有用的信息報(bào)告。
  • 分析/優(yōu)化員(Refiner): 解讀反饋,提出修改。

團(tuán)隊(duì)測(cè)試了多個(gè)主流模型,發(fā)現(xiàn)在這套工作流下,Gemini 2.5 Pro的表現(xiàn)很突出。

比如在優(yōu)化投石機(jī)時(shí),Gemini 2.5 Pro能根據(jù)仿真反饋,識(shí)別出“底座太小導(dǎo)致結(jié)構(gòu)失衡”、“旋轉(zhuǎn)軸方向錯(cuò)誤導(dǎo)致無法發(fā)力”等問題,并提出“移除舊底座”、“重新定位手臂和容器”、“構(gòu)建新底座”等修改方案。

對(duì)比表格顯示,這套“多角色分層設(shè)計(jì)”(Hierarchical Design)策略,在投石機(jī)(Catapult)和小車(Car)任務(wù)上,其平均分(Mean)和最高分(Max)都顯著優(yōu)于以Gemini為代表的部分“單一模型”或簡(jiǎn)單的“迭代修改”策略。

關(guān)鍵這些成果是模型自己在真實(shí)反饋里逐步學(xué)會(huì)調(diào)整的。

怎么讓AI越造越聰明?

有了工作流還不夠,還得讓模型能“自我進(jìn)化”。研究團(tuán)隊(duì)引入了強(qiáng)化學(xué)習(xí)(RL),具體用了一種叫RLVR(基于可驗(yàn)證反饋的強(qiáng)化學(xué)習(xí))的策略。

BesiegeField的仿真反饋就是現(xiàn)成的“獎(jiǎng)勵(lì)信號(hào)”(Reward):比如投擲距離多遠(yuǎn)?能不能成功執(zhí)行任務(wù)?能運(yùn)行多久?

研究團(tuán)隊(duì)用了Pass@k Training方法(即在k次嘗試中選獎(jiǎng)勵(lì)最大的那個(gè)樣本作為訓(xùn)練信號(hào)),對(duì)Qwen2.5-14B-Instruct這個(gè)模型進(jìn)行持續(xù)微調(diào)。

效果很明顯。隨著迭代次數(shù)增加,模型設(shè)計(jì)的結(jié)構(gòu)越來越好,投擲距離也越來越遠(yuǎn)。

定量數(shù)據(jù)也顯示,在“Cold-Start + RL”(用少量好例子啟動(dòng)+強(qiáng)化學(xué)習(xí))的策略下,模型在小車任務(wù)上的最高分達(dá)到了45.72,投石機(jī)任務(wù)的平均分和最高分也都是最優(yōu)的。

這是首次證明,LLM確實(shí)能借助RL,在仿真反饋中持續(xù)提升機(jī)械設(shè)計(jì)能力

AI創(chuàng)造力的新邊界

總的來說,BesiegeField帶來的不只是一個(gè)仿真平臺(tái),更像是一種新的“結(jié)構(gòu)創(chuàng)造范式”。

  • 它把復(fù)雜的機(jī)械設(shè)計(jì),轉(zhuǎn)變成了一個(gè)AI擅長(zhǎng)的“結(jié)構(gòu)化語言生成任務(wù)”;
  • 它提供了一個(gè)閉環(huán),讓模型能在真實(shí)的物理反饋中,學(xué)會(huì)理解力學(xué)規(guī)律和結(jié)構(gòu)協(xié)同;
  • 它支持任務(wù)難度可控、流程模塊化、結(jié)果可定量評(píng)估;
  • 更重要的是,它提供了一個(gè)觀察AI如何獲得“空間智能”和“物理智能”的起點(diǎn)。

研究團(tuán)隊(duì)期待,未來AI造的不僅是投石機(jī),而是能奔跑、搬運(yùn)、協(xié)作的各種復(fù)雜結(jié)構(gòu)——讓語言模型真正具備“造出會(huì)動(dòng)的東西”的能力。

項(xiàng)目主頁:https://besiegefield.github.io

論文地址:https://www.arxiv.org/abs/2510.14980

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2022-01-25 15:37:18

激光雷達(dá)造車掃地機(jī)器人

2025-01-23 08:22:22

2021-09-29 00:19:10

容器集群k8s

2023-02-23 19:39:06

華為汽車業(yè)務(wù)

2024-07-12 14:07:04

2023-04-06 16:09:46

程序員AI

2023-11-27 13:19:54

模型訓(xùn)練

2018-06-22 15:10:08

顯卡礦物油魚缸

2018-05-08 14:58:07

戴爾

2020-04-17 10:23:43

TDD測(cè)試驅(qū)動(dòng)

2023-09-05 17:42:10

AI模型

2023-05-08 07:07:03

AIHustleGPT

2025-10-20 17:16:40

AILLM模型

2025-06-10 11:25:31

模型Kimi1.5Qwen3

2013-11-29 16:54:27

Windows 8制造業(yè)智能化

2024-11-26 10:44:18

2021-05-30 19:45:55

光刻膠光刻機(jī)芯片

2022-04-27 20:02:22

Dubbo注冊(cè)中心開發(fā)

2021-04-15 11:10:40

GitHub代碼開發(fā)者

2022-11-25 09:42:53

AI技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)