偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

為什么“具身智能”是 AI 的下一個(gè)前沿

人工智能
具身人工智能(Embodied AI)的出現(xiàn),正是對(duì)這一局限的回應(yīng)。它強(qiáng)調(diào)智能體必須“有身有感”,不僅能理解語(yǔ)言和符號(hào),還要能感知環(huán)境、做出決策,并通過行動(dòng)改變世界。換句話說,具身智能是讓?AI?從“紙面上的聰明”走向“現(xiàn)實(shí)中的能干”。

過去十年,人工智能的突破幾乎都發(fā)生在“去身化”的語(yǔ)境中。無(wú)論是自然語(yǔ)言處理的GPT 系列,還是計(jì)算機(jī)視覺的 ViT、SAM,它們大多存在于數(shù)據(jù)與算力的虛擬空間里,擅長(zhǎng)處理符號(hào)、文本和圖像,卻與真實(shí)世界的物理交互保持著距離。這樣的 AI 可以寫詩(shī)、畫畫、回答問題,卻無(wú)法真正走進(jìn)現(xiàn)實(shí),理解環(huán)境、操縱物體、與人類并肩完成任務(wù)。

具身人工智能(Embodied AI)的出現(xiàn),正是對(duì)這一局限的回應(yīng)。它強(qiáng)調(diào)智能體必須“有身有感”,不僅能理解語(yǔ)言和符號(hào),還要能感知環(huán)境、做出決策,并通過行動(dòng)改變世界。換句話說,具身智能是讓 AI 從“紙面上的聰明”走向“現(xiàn)實(shí)中的能干”。

9 月25 日,arXiv 發(fā)表由清華大學(xué)與復(fù)旦大學(xué)學(xué)者聯(lián)合撰寫的綜述論文《Embodied AI: From LLMs to World Models》,正是對(duì)這一領(lǐng)域的系統(tǒng)性梳理。作者們聚焦于三類核心技術(shù):大語(yǔ)言模型(LLMs)、多模態(tài)大模型(MLLMs)以及世界模型(World Models),并探討它們?cè)诰呱碇悄苤械淖饔门c互補(bǔ)關(guān)系。文章不僅總結(jié)了過去幾十年的發(fā)展脈絡(luò),還提出了未來(lái)研究的關(guān)鍵方向,試圖為通用人工智能(AGI)的落地描繪一條清晰的路徑。

圖1:體現(xiàn)AI的概念。圖1:體現(xiàn)AI的概念。

研究團(tuán)隊(duì)本身也頗具分量。第一作者Tongtong Feng與通訊作者Wenwu Zhu均來(lái)自清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,同時(shí)隸屬于北京信息科學(xué)與技術(shù)國(guó)家研究中心;Xin Wang是 IEEE 會(huì)員,長(zhǎng)期從事多媒體與跨模態(tài)智能研究;Yu-Gang Jiang則是復(fù)旦大學(xué)可信具身智能研究院的領(lǐng)軍學(xué)者,IEEE 會(huì)員在計(jì)算機(jī)視覺與多媒體領(lǐng)域有廣泛影響力??梢哉f,這是一支兼具理論深度與應(yīng)用視野的頂尖團(tuán)隊(duì)。

1.具身人工智能的理論根基與發(fā)展脈絡(luò)

圖片圖片

圖2:本文全面介紹了實(shí)體化人工智能(EAI)的基礎(chǔ)知識(shí)以及基于LLM/MLLM和WMs的EAI的最新進(jìn)展。MLLM支持上下文任務(wù)推理,但忽略了物理約束,而WMs擅長(zhǎng)物理感知仿真,但缺乏高級(jí)語(yǔ)義。基于上述進(jìn)展,本文提出了一種聯(lián)合MLLM WM驅(qū)動(dòng)的EAI架構(gòu)。

要理解具身智能的今天,必須回到它的思想源頭。早在 1950 年,圖靈就提出了“具身圖靈測(cè)試”的設(shè)想:如果一臺(tái)機(jī)器不僅能在對(duì)話中“冒充”人類,還能在物理世界中表現(xiàn)出與人類相當(dāng)?shù)母兄c行動(dòng)能力,那么它才算真正具備智能。這一設(shè)想在當(dāng)時(shí)或許顯得超前,但它為后來(lái)的研究埋下了伏筆。

到了 20 世紀(jì) 80 年代,認(rèn)知科學(xué)家如Lakoff 和 Harnad 提出了“具身認(rèn)知”的理論。他們認(rèn)為,人的思維并非抽象的符號(hào)操作,而是深深扎根于身體經(jīng)驗(yàn)與環(huán)境互動(dòng)之中。換句話說,認(rèn)知離不開感官與行動(dòng)。AI 若要真正理解世界,也必須“具身”。

技術(shù)的發(fā)展路徑大致可以分為三個(gè)階段。20 世紀(jì) 80 到 90 年代,研究者們嘗試通過行為控制與機(jī)器人架構(gòu)來(lái)實(shí)現(xiàn)簡(jiǎn)單的具身智能,例如 Brooks 提出的分層控制架構(gòu)。這一時(shí)期的系統(tǒng)往往依賴規(guī)則與有限的感知能力,功能單一。進(jìn)入 2000 到 2010 年代,深度學(xué)習(xí)的興起極大提升了感知與控制的能力,機(jī)器人能夠識(shí)別更復(fù)雜的環(huán)境,并在一定程度上自主決策。然而,它們?nèi)匀蝗狈νㄓ眯耘c跨任務(wù)的遷移能力。

真正的轉(zhuǎn)折發(fā)生在 2020 年代。大語(yǔ)言模型(LLMs)展現(xiàn)了驚人的語(yǔ)義理解與推理能力,多模態(tài)大模型(MLLMs)則讓 AI 能夠同時(shí)處理語(yǔ)言、圖像、視頻等多源信息。而世界模型(World Models)的提出,則讓智能體能夠在內(nèi)部模擬環(huán)境、預(yù)測(cè)未來(lái),從而在不直接試錯(cuò)的情況下學(xué)習(xí)復(fù)雜行為。這三類技術(shù)的結(jié)合,為具身智能的突破提供了新的可能。

圖片圖片

圖3:具身人工智能的關(guān)鍵技術(shù)模型。計(jì)算機(jī)視覺(CV)模型、自然語(yǔ)言處理(NLP)模型、強(qiáng)化學(xué)習(xí)(RL)模型、LLM/MLLM和WMs的進(jìn)步推動(dòng)了具身人工智慧的進(jìn)步。

具身智能的核心特征可以概括為三個(gè)方面。首先是主動(dòng)感知,即智能體不再被動(dòng)接收信息,而是能夠主動(dòng)探索環(huán)境、選擇視角、構(gòu)建場(chǎng)景理解。其次是具身認(rèn)知,它要求智能體能夠在任務(wù)驅(qū)動(dòng)下進(jìn)行規(guī)劃,利用記憶進(jìn)行反思,并在多模態(tài)信息中形成統(tǒng)一的理解。最后是動(dòng)態(tài)交互,意味著智能體不僅能執(zhí)行動(dòng)作,還能與環(huán)境、其他智能體乃至人類進(jìn)行復(fù)雜的協(xié)作與博弈。

2.具身智能的三大核心模塊

研究團(tuán)隊(duì)把具身人工智能拆解為三個(gè)緊密相連的核心模塊:主動(dòng)感知、具身認(rèn)知與動(dòng)態(tài)交互。它們共同構(gòu)成了一個(gè)智能體在現(xiàn)實(shí)世界中“看、想、做”的完整閉環(huán)。

主動(dòng)感知:從被動(dòng)接收走向主動(dòng)探索

如果說傳統(tǒng)的計(jì)算機(jī)視覺更像是“睜眼看世界”,那么具身智能中的主動(dòng)感知?jiǎng)t是“帶著目的去看”。這意味著智能體不再只是被動(dòng)地接收?qǐng)D像或傳感器數(shù)據(jù),而是會(huì)主動(dòng)選擇觀察角度、移動(dòng)位置,甚至通過探索來(lái)獲取更有價(jià)值的信息。

在技術(shù)路徑上,SLAM(同步定位與建圖)是最基礎(chǔ)的能力,它讓機(jī)器人能夠在陌生環(huán)境中一邊移動(dòng)一邊繪制地圖。經(jīng)典的 ORB-SLAM 就是這一領(lǐng)域的代表。

而隨著場(chǎng)景復(fù)雜度的提升,研究者們開始引入 3D 場(chǎng)景理解方法,例如 Clip2Scene,可以將視覺輸入轉(zhuǎn)化為結(jié)構(gòu)化的三維語(yǔ)義場(chǎng)景。更進(jìn)一步,主動(dòng)探索方法如 Active Neural SLAM 則讓智能體具備了“好奇心”,能夠在未知環(huán)境中自主尋找信息增量最大的路徑。

趨勢(shì)已經(jīng)非常明確:從最初的幾何建模,到語(yǔ)義理解,再到如今的多模態(tài)跨模態(tài)感知,主動(dòng)感知正逐漸讓智能體具備類似人類的探索與理解能力。

具身認(rèn)知:讓智能體學(xué)會(huì)“思考”

感知之后,智能體必須能夠理解任務(wù)、制定計(jì)劃,并在執(zhí)行過程中不斷調(diào)整。這就是具身認(rèn)知的核心。它不僅僅是“看懂”,更是“想明白”。

在技術(shù)路徑上,任務(wù)驅(qū)動(dòng)的規(guī)劃是最直觀的方式,例如 LLM-Planner 借助大語(yǔ)言模型來(lái)分解復(fù)雜任務(wù),生成可執(zhí)行的行動(dòng)序列。記憶驅(qū)動(dòng)的反思機(jī)制則讓智能體能夠像人類一樣“吸取教訓(xùn)”,Reflexion 就是一個(gè)典型案例,它通過回顧失敗經(jīng)驗(yàn)來(lái)改進(jìn)未來(lái)的決策。

而多模態(tài)基礎(chǔ)模型如 SayCan、EmbodiedGPT,則嘗試將語(yǔ)言、視覺與動(dòng)作統(tǒng)一到一個(gè)模型中,讓智能體能夠在跨模態(tài)信息中形成整體認(rèn)知。

然而,這一模塊也面臨著不小的挑戰(zhàn)。長(zhǎng)時(shí)序推理仍然是難點(diǎn),智能體往往在需要數(shù)十步甚至上百步推理的任務(wù)中表現(xiàn)不穩(wěn)定??缒B(tài)對(duì)齊問題也尚未完全解決,不同模態(tài)的信息如何在統(tǒng)一空間中高效融合,仍是研究熱點(diǎn)。更重要的是,可遷移性不足,智能體在一個(gè)環(huán)境中學(xué)到的能力,往往難以無(wú)縫遷移到另一個(gè)環(huán)境。

圖片圖片

圖4:?jiǎn)畏弩w現(xiàn)人工智能和多模態(tài)體現(xiàn)人工智能。(a)單峰方法側(cè)重于體現(xiàn)人工智能的特定模塊。它們受到每種模態(tài)提供的信息范圍狹窄以及跨模塊模態(tài)之間固有差距的限制。(b)多模態(tài)嵌入式人工智能方法打破了這些限制,實(shí)現(xiàn)了模塊的相互增強(qiáng)。

動(dòng)態(tài)交互:從單體控制到人機(jī)共生

最后,具身智能必須能夠與環(huán)境和其他主體進(jìn)行交互。這不僅包括對(duì)物理動(dòng)作的精準(zhǔn)控制,還涉及與其他智能體的協(xié)作,甚至與人類的自然互動(dòng)。

在動(dòng)作控制層面,谷歌的 RT-2 模型展示了如何將大模型的語(yǔ)義理解與機(jī)器人控制結(jié)合,讓機(jī)器人能夠執(zhí)行復(fù)雜的自然語(yǔ)言指令。CogAgent 則進(jìn)一步探索了跨模態(tài)的感知與控制一體化。

在行為交互方面,TrafficSim 等模擬平臺(tái)讓智能體能夠在復(fù)雜交通環(huán)境中學(xué)習(xí)與其他車輛的博弈。更高層次的協(xié)作決策則由 AgentVerse、MetaGPT 等框架推動(dòng),它們嘗試讓多個(gè)智能體在共享目標(biāo)下進(jìn)行分工與合作。

趨勢(shì)同樣清晰:從最初的單體控制,到多智能體協(xié)作,再到未來(lái)的人機(jī)共生。具身智能的終極目標(biāo),不是讓機(jī)器人單打獨(dú)斗,而是讓它們能夠與人類并肩作戰(zhàn),成為真正的伙伴。

3.LLMs/MLLMs 與 World Models 的互補(bǔ)性

在具身人工智能的討論中,大語(yǔ)言模型(LLMs)、多模態(tài)大模型(MLLMs)與世界模型(World Models, WMs)常常被視為兩條平行的發(fā)展路徑。前者擅長(zhǎng)語(yǔ)義與推理,后者則強(qiáng)調(diào)物理與預(yù)測(cè)。綜述論文的一個(gè)核心貢獻(xiàn),就是揭示了二者之間的互補(bǔ)關(guān)系,并提出聯(lián)合架構(gòu)的必要性。

LLMs/MLLMs 的優(yōu)勢(shì)與局限

大語(yǔ)言模型的崛起,讓 AI 在語(yǔ)義層面展現(xiàn)出前所未有的能力。它們能夠進(jìn)行復(fù)雜的語(yǔ)義推理,理解上下文關(guān)系,并將復(fù)雜任務(wù)分解為可執(zhí)行的步驟。在多模態(tài)擴(kuò)展之后,MLLMs 更是具備了跨模態(tài)理解的能力,能夠同時(shí)處理語(yǔ)言、圖像、視頻等信息,從而在具身智能中承擔(dān)“任務(wù)大腦”的角色。

然而,LLMs 與 MLLMs 的局限也十分明顯。它們?nèi)狈?duì)物理世界的真實(shí)約束,往往只能在符號(hào)空間中進(jìn)行推理,難以保證生成的計(jì)劃在現(xiàn)實(shí)中可行。同時(shí),它們?cè)趯?shí)時(shí)適應(yīng)性上存在不足,面對(duì)動(dòng)態(tài)環(huán)境時(shí),響應(yīng)速度與穩(wěn)定性都難以滿足具身智能的需求。換句話說,它們很聰明,但不夠“接地氣”。

World Models 的優(yōu)勢(shì)與局限

與 LLMs 相比,世界模型的優(yōu)勢(shì)在于它們能夠在內(nèi)部構(gòu)建環(huán)境表征,進(jìn)行未來(lái)預(yù)測(cè),并保持與物理規(guī)律的一致性。通過在“心智模擬器”中不斷試錯(cuò),智能體可以在不直接消耗現(xiàn)實(shí)資源的情況下學(xué)習(xí)復(fù)雜行為。這種能力讓 WMs 成為具身智能中不可或缺的“物理引擎”。

圖片圖片

圖5:嵌入式人工智能MLLM的發(fā)展路線圖。該路線圖突出了其概念和實(shí)踐發(fā)展中的關(guān)鍵里程碑。

但世界模型也有短板。它們?cè)谡Z(yǔ)義推理方面遠(yuǎn)不如 LLMs,難以理解復(fù)雜的任務(wù)描述或跨模態(tài)信息。同時(shí),WMs 的泛化能力有限,往往需要在特定環(huán)境中進(jìn)行大量訓(xùn)練,才能在相似場(chǎng)景中表現(xiàn)良好。一旦環(huán)境發(fā)生較大變化,模型的適應(yīng)性就會(huì)顯著下降。

聯(lián)合架構(gòu)的必要性

正因如此,研究團(tuán)隊(duì)提出了一個(gè)清晰的方向:將 MLLMs 與 WMs 結(jié)合,構(gòu)建下一代具身智能架構(gòu)。在這種架構(gòu)中,MLLMs 提供語(yǔ)義智能,負(fù)責(zé)理解任務(wù)、分解目標(biāo)、進(jìn)行跨模態(tài)推理;而 WMs 提供物理智能,負(fù)責(zé)預(yù)測(cè)環(huán)境變化、驗(yàn)證行動(dòng)可行性、確保與物理規(guī)律一致。

圖片圖片

圖6:嵌入式人工智能的WMs發(fā)展路線圖。該路線圖突出了其概念和實(shí)踐發(fā)展中的關(guān)鍵里程碑。

這種結(jié)合意味著智能體既能“聽懂人話”,又能“腳踏實(shí)地”。它既能理解人類的復(fù)雜指令,又能在物理世界中做出合理的行動(dòng)。語(yǔ)義與物理的融合,正是具身智能邁向通用人工智能的關(guān)鍵一步。

4.典型案例與應(yīng)用場(chǎng)景

研究團(tuán)隊(duì)特別提到EvoAgent 這一代表性案例。它被稱為“自進(jìn)化智能體”,因?yàn)樗粌H能執(zhí)行任務(wù),還能在過程中不斷自我優(yōu)化。EvoAgent 的核心能力體現(xiàn)在三個(gè)方面:自規(guī)劃、自反思與自控制。

自規(guī)劃意味著它能夠根據(jù)任務(wù)目標(biāo)自主生成行動(dòng)方案,而不是依賴外部指令逐步指導(dǎo);自反思則讓它在執(zhí)行過程中不斷總結(jié)經(jīng)驗(yàn),修正錯(cuò)誤,提升下一次的表現(xiàn);自控制則保證了它在復(fù)雜環(huán)境中能夠保持穩(wěn)定和靈活的行動(dòng)。換句話說,EvoAgent 不僅是一個(gè)“執(zhí)行者”,更是一個(gè)“學(xué)習(xí)者”和“思考者”。

這種能力的潛在應(yīng)用場(chǎng)景非常廣闊。在服務(wù)機(jī)器人領(lǐng)域,EvoAgent 可以讓機(jī)器人從“機(jī)械執(zhí)行”升級(jí)為“主動(dòng)服務(wù)”,例如在家庭中根據(jù)環(huán)境和用戶習(xí)慣自主調(diào)整行為。

圖片圖片

圖7:將AI與MLLM和WMs相結(jié)合。MLLMs可以通過為任務(wù)分解和長(zhǎng)期推理注入語(yǔ)義知識(shí)來(lái)增強(qiáng)WMs,而WMs可以通過構(gòu)建物理世界的內(nèi)部表示和未來(lái)預(yù)測(cè)來(lái)輔助MLLMs,使聯(lián)合MLLM-WM成為有前景的嵌入式系統(tǒng)架構(gòu)。

在工業(yè)自動(dòng)化中,它能夠在生產(chǎn)線上動(dòng)態(tài)優(yōu)化流程,減少停機(jī)和浪費(fèi),提高效率。在無(wú)人機(jī)救援任務(wù)中,EvoAgent 的自反思與自控制能力尤為關(guān)鍵,它可以在災(zāi)害現(xiàn)場(chǎng)快速適應(yīng)復(fù)雜環(huán)境,做出最優(yōu)路徑選擇,甚至在通信受限的情況下獨(dú)立完成任務(wù)。而在多智能體協(xié)作系統(tǒng)中,EvoAgent 的自進(jìn)化特性讓它能夠與其他智能體形成默契,分工協(xié)作,完成單個(gè)智能體無(wú)法完成的復(fù)雜任務(wù)。

這些應(yīng)用場(chǎng)景的共同點(diǎn)在于:環(huán)境復(fù)雜、任務(wù)動(dòng)態(tài)、需求多變。傳統(tǒng)的“預(yù)設(shè)規(guī)則”式 AI 在這些場(chǎng)景中往往力不從心,而具身智能體,尤其是像 EvoAgent 這樣的自進(jìn)化架構(gòu),正好填補(bǔ)了這一空白。

5.研究議程與挑戰(zhàn)

盡管具身智能的藍(lán)圖令人振奮,但研究團(tuán)隊(duì)也清晰地指出了未來(lái)研究必須面對(duì)的挑戰(zhàn)與方向。

首先是自主具身 AI。未來(lái)的智能體不能僅僅依賴人類提供的數(shù)據(jù)和指令,而是要具備自進(jìn)化與自學(xué)習(xí)的能力。它們需要像生物一樣,在與環(huán)境的長(zhǎng)期互動(dòng)中不斷成長(zhǎng),形成真正的“經(jīng)驗(yàn)智慧”。

其次是具身AI 硬件。再?gòu)?qiáng)大的算法也需要硬件支撐。具身智能的落地要求設(shè)備具備低功耗、高算力和邊緣部署的能力。換句話說,未來(lái)的機(jī)器人和智能體不能總是依賴云端算力,而是要在本地就能完成復(fù)雜的感知與決策,這對(duì)芯片設(shè)計(jì)、傳感器融合和能效優(yōu)化提出了新的要求。

第三群體具身 AI。單個(gè)智能體的能力再?gòu)?qiáng),也難以應(yīng)對(duì)大規(guī)模、復(fù)雜的任務(wù)。未來(lái)的方向是群體智能與協(xié)作,讓多個(gè)具身智能體能夠像蜂群或蟻群一樣,展現(xiàn)出超越個(gè)體的整體智慧。這不僅涉及算法設(shè)計(jì),還涉及通信機(jī)制、協(xié)作協(xié)議和群體行為建模。

最后是可信賴性。隨著具身智能逐漸走入現(xiàn)實(shí)世界,安全性、可解釋性以及倫理與合規(guī)問題將成為繞不開的議題。一個(gè)能夠自主學(xué)習(xí)和進(jìn)化的智能體,如何保證它的行為符合人類價(jià)值觀?如何避免潛在的安全風(fēng)險(xiǎn)?如何讓它的決策過程透明可解釋?這些問題的答案,將決定具身智能能否真正被社會(huì)接受。(END)

參考資料:https://arxiv.org/pdf/2509.20021

責(zé)任編輯:武曉燕 來(lái)源: 波動(dòng)智能
相關(guān)推薦

2024-08-12 11:57:09

2021-04-08 11:26:20

NFT加密貨幣互聯(lián)網(wǎng)

2024-03-29 14:03:00

數(shù)據(jù)分析人工智能情境智能

2019-04-11 13:00:40

人工智能AI醫(yī)療領(lǐng)域

2015-07-28 11:22:30

大數(shù)據(jù)浪潮

2021-08-20 14:35:56

物聯(lián)網(wǎng)邊緣計(jì)算IoT

2023-01-30 14:09:51

物聯(lián)網(wǎng)網(wǎng)絡(luò)存儲(chǔ)

2025-10-24 17:33:52

2021-01-20 17:05:48

物聯(lián)網(wǎng)智慧城市網(wǎng)絡(luò)安全

2020-11-05 14:53:51

人工智能

2024-01-24 12:49:58

模型英偉達(dá)

2025-01-21 08:11:24

2025-04-27 07:10:00

網(wǎng)絡(luò)安全自主式AI人工智能

2017-03-19 10:03:10

機(jī)器視覺人工智能

2023-06-12 10:42:39

人工智能機(jī)器學(xué)習(xí)

2018-05-20 15:54:22

2024-01-15 11:46:39

2022-04-02 21:34:43

人工智能自然語(yǔ)言機(jī)器學(xué)習(xí)

2021-01-06 14:14:05

AI 知識(shí)圖譜

2023-09-05 15:02:12

人工智能電子商務(wù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)