偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降

發(fā)布于 2024-12-2 13:27

瀏覽

0收藏

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2411.02359
項(xiàng)目鏈接：https://github.com/yueyang130/DeeR-VLA

亮點(diǎn)直擊

提出動(dòng)態(tài)早退出機(jī)制 DeeR：框架基于動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)的思想，能自動(dòng)調(diào)整 MLLM 模型的大小，根據(jù)機(jī)器人面臨的實(shí)際情況動(dòng)態(tài)激活模型所需的層數(shù)，減少不必要的計(jì)算消耗。
實(shí)現(xiàn)高效的資源利用：DeeR 在推理過程中對(duì)不同復(fù)雜度的情境適應(yīng)性地分配計(jì)算資源，簡單場景下使用較小的模型以節(jié)省資源，復(fù)雜場景下則調(diào)用更大的模型。
靈活的計(jì)算成本控制：DeeR 提供了可調(diào)的早退出準(zhǔn)則，用戶可以根據(jù)計(jì)算資源的需求（如功耗、延遲或 GPU 內(nèi)存使用）在線調(diào)整終止標(biāo)準(zhǔn)，實(shí)現(xiàn)靈活的資源管理。
性能優(yōu)化與資源節(jié)約顯著：在 CALVIN 基準(zhǔn)測試中，DeeR 實(shí)現(xiàn)了計(jì)算成本 5.2-6.5 倍的降低。

與其他 SOTA 方法相比，在僅使用 2GB GPU 內(nèi)存的條件下保持競爭力。這表明 DeeR 能在資源有限的平臺(tái)上高效運(yùn)行，有望推動(dòng)多模態(tài)大模型在機(jī)器人領(lǐng)域的廣泛應(yīng)用。

總結(jié)速覽

解決的問題

當(dāng)前多模態(tài)大模型 (MLLMs) 在理解復(fù)雜人類指令并執(zhí)行各種任務(wù)方面展現(xiàn)出強(qiáng)大能力，但在實(shí)際機(jī)器人中的應(yīng)用受限于其對(duì)計(jì)算能力和內(nèi)存的高需求，難以在資源有限的機(jī)器人平臺(tái)上有效運(yùn)行。

提出的方案

提出了一個(gè)動(dòng)態(tài)早退出框架，稱為DeeR-VLA (Dynamic Early-Exit Framework for Robotic Vision-Language-Action Model) ，能夠根據(jù)不同情境自動(dòng)調(diào)整激活模型的大小，從而減少不必要的計(jì)算負(fù)擔(dān)。此方案采用多出口結(jié)構(gòu)，允許模型在適當(dāng)?shù)臅r(shí)機(jī)結(jié)束處理，避免冗余計(jì)算。

應(yīng)用的技術(shù)

多出口架構(gòu)：使得模型可在特定情境下提前結(jié)束處理，減少計(jì)算消耗。
早退出算法：根據(jù)預(yù)設(shè)的計(jì)算資源需求（如平均計(jì)算成本、峰值計(jì)算消耗及 GPU 內(nèi)存使用）制定早終止標(biāo)準(zhǔn)，確保 DeeR 在不同資源限制下高效運(yùn)行。
時(shí)間信息集成的訓(xùn)練方法：在多出口架構(gòu)上集成時(shí)間信息以合理預(yù)測動(dòng)作。

達(dá)到的效果

在 CALVIN 機(jī)器人操作基準(zhǔn)測試中，DeeR 實(shí)現(xiàn)了 5.2-6.5 倍的計(jì)算成本降低和 2-6 倍的 GPU 內(nèi)存消耗減少，同時(shí)保持了性能不變。這些提升使得 DeeR 能在資源有限的條件下高效運(yùn)行。

動(dòng)態(tài)早退出的機(jī)器人 MLLM

MLLM 強(qiáng)大的任務(wù)指令理解和視覺定位能力展示了其在語言指導(dǎo)的多任務(wù)機(jī)器人操作方面的巨大潛力。然而，現(xiàn)有工作通常計(jì)算量巨大，因?yàn)闄C(jī)器人動(dòng)作是通過推理 MLLM 的所有層來獲得的。在每個(gè)時(shí)間步，這一過程可能會(huì)激活數(shù)十億的參數(shù)，導(dǎo)致大量的計(jì)算和內(nèi)存需求，從而帶來顯著的延遲和功耗。這些低效通常是實(shí)際機(jī)器人應(yīng)用的重要瓶頸。

概述通過利用一個(gè)有趣的觀察來解決這個(gè)問題：在控制機(jī)器人完成各種任務(wù)的過程中，相對(duì)“簡單”的情境占據(jù)了大部分，這些情境通常只需要較小的模型即可獲得正確的機(jī)器人動(dòng)作（如下表 1 所示）。受這一現(xiàn)象的啟發(fā)，本文提出了機(jī)器人 MLLM 的動(dòng)態(tài)早退出方法 (DeeR)，旨在通過為每種情況動(dòng)態(tài)采用適當(dāng)?shù)?MLLM 大小來提高機(jī)器人 MLLM 系統(tǒng)的計(jì)算效率。具體而言，首先開發(fā)了一種具有多個(gè)中間出口的新型 MLLM 架構(gòu)。因此，給定一個(gè)輸入，一旦激活了足夠數(shù)量的模型參數(shù)，就可以立即獲取適當(dāng)?shù)臋C(jī)器人動(dòng)作，從而避免進(jìn)一步的冗余計(jì)算。然后，在任意指定的平均計(jì)算成本和峰值計(jì)算成本或 GPU 內(nèi)存開銷的需求下，為 DeeR 建立了早終止準(zhǔn)則。最后，提出了本文模型的定制訓(xùn)練算法，展示了如何在這一動(dòng)態(tài)網(wǎng)絡(luò)的基礎(chǔ)上集成時(shí)間信息并合理預(yù)測機(jī)器人動(dòng)作。

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

機(jī)器人多出口架構(gòu)

首先引入了一個(gè)具有多個(gè)中間出口的 MLLM 架構(gòu)，能夠根據(jù)機(jī)器人面臨的不同情況動(dòng)態(tài)調(diào)整 MLLM 的大小。

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

自適應(yīng)推理

本節(jié)展示了 DeeR 如何在預(yù)定義的計(jì)算和 GPU 內(nèi)存限制下，通過自適應(yīng)地激活適當(dāng)大小的 MLLM 來高效地執(zhí)行機(jī)器人任務(wù)。首先討論 DeeR 所使用的終止準(zhǔn)則，該準(zhǔn)則旨在在較簡單的場景中激活較小的模型，而在更具挑戰(zhàn)性的條件下激活較大的模型。接下來，探討一種有效的資源分配策略，以應(yīng)對(duì)計(jì)算和 GPU 內(nèi)存的限制。DeeR 的推理過程如下圖 1 所示。

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

滿足以下約束條件:

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

使用在線交互求解。如果可以與真實(shí)環(huán)境交互，可以利用在線學(xué)習(xí)算法，通過關(guān)于成功率的反饋逐步調(diào)整閾值。為了在預(yù)算約束下求解方程 (4)，實(shí)現(xiàn)了貝葉斯優(yōu)化。構(gòu)造的貝葉斯優(yōu)化目標(biāo)函數(shù)如下，以最大化：

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

訓(xùn)練算法

訓(xùn)練動(dòng)態(tài)機(jī)器人 MLLM 并非易事。特別是，網(wǎng)絡(luò)架構(gòu)的動(dòng)態(tài)調(diào)整導(dǎo)致了訓(xùn)練和推理之間的差異。在推理過程中，使用確定性的標(biāo)準(zhǔn)在每個(gè)時(shí)間步選擇適當(dāng)?shù)闹虚g特征。然而，在訓(xùn)練過程中，沒有明確定義的終止標(biāo)準(zhǔn)，而且不知道特征在各個(gè)出口之間的分布。為了有效地集成時(shí)間信息，提出了一個(gè)量身定制的訓(xùn)練算法。

使用任意大小的模型進(jìn)行學(xué)習(xí)為了減少上述差異，在訓(xùn)練期間引入了一種簡單而有效的隨機(jī)采樣策略。如上面圖 1 右側(cè)的“螺旋”曲線所示，本文的方法涉及在每個(gè)時(shí)間步從 1 到 N的出口索引中進(jìn)行采樣。實(shí)現(xiàn)了兩種采樣策略：

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

通過以下?lián)p失函數(shù)聯(lián)合訓(xùn)練輔助頭和 MLLM：

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

實(shí)驗(yàn)

設(shè)置 本節(jié)進(jìn)行實(shí)驗(yàn)驗(yàn)證 DeeR 作為一種高效機(jī)器人策略的有效性。基于 RoboFlamingo++ 代碼庫構(gòu)建 DeeR。為了公平比較，保留了 RoboFlamingo++ 中的超參數(shù)，唯一的區(qū)別是 LLM 層數(shù)和提出的動(dòng)態(tài)早期退出范式。將 DeeR 在預(yù)算與性能之間進(jìn)行比較，涉及類似規(guī)模的 RoboFlamingo++ 模型和其他最先進(jìn)的基準(zhǔn)。

效率衡量 在現(xiàn)代基礎(chǔ)模型中，LLM 通常在 MLLM 中扮演著關(guān)鍵角色，負(fù)責(zé)推理和問題解決任務(wù)，且通常包含了模型的大部分參數(shù)。本文主要聚焦于提高 LLM 在機(jī)器人領(lǐng)域的效率。為了方便進(jìn)行針對(duì)性的比較，實(shí)驗(yàn)中報(bào)告了 LLM 推理過程中的浮點(diǎn)運(yùn)算數(shù)（FLOPs）和 GPU 內(nèi)存使用量。

基準(zhǔn)測試 使用 CALVIN 長時(shí)域多任務(wù)語言控制基準(zhǔn)（LH-MTLC）作為測試平臺(tái)，測試學(xué)習(xí)到的多任務(wù)、語言條件策略。在 CALVIN 中，目標(biāo)是讓智能體成功完成任務(wù)序列，每個(gè)任務(wù)序列包含五個(gè)子任務(wù)，并用自然語言描述。根據(jù)以往的工作[10, 12, 13, 9]，模型的性能是通過在 1000 個(gè)任務(wù)序列中，成功完成的任務(wù)數(shù)的平均值來評(píng)估的（范圍從 0 到 5）。

數(shù)據(jù)集 CALVIN 數(shù)據(jù)集分為四個(gè)環(huán)境分割，分別標(biāo)記為 A 到 D，每個(gè)分割都有獨(dú)特的背景和物體配置。每個(gè)分割包含超過 200 萬個(gè)機(jī)器人操作軌跡（稱為 "ALL"）。其中，大約 1%（約 2.4 萬個(gè)軌跡）帶有語言指令（稱為 "LANG"）。在訓(xùn)練 DeeR 時(shí)，僅使用 "LANG" 數(shù)據(jù)。在本文的研究中，為了全面評(píng)估其模仿和泛化能力，在以下三種設(shè)置下評(píng)估模型：

D→D：在單一環(huán)境中訓(xùn)練和評(píng)估。
ABC→D：零樣本多環(huán)境。
ABCD→D：多環(huán)境。

基準(zhǔn)模型 為了進(jìn)行全面比較，考慮了多個(gè)基準(zhǔn)模型。包括了 HULC 和 SPIL 作為依賴于層次化規(guī)劃和技能先驗(yàn)的代表方法。此外，還評(píng)估了使用預(yù)訓(xùn)練或基礎(chǔ)模型的模型，例如 RT-1、SuSIE 、GR-1 和 RoboFlamingo。RoboFlamingo++ 是重新實(shí)現(xiàn)的 RoboFlamingo。

主要結(jié)果

Flamingo 3B的結(jié)果 Flamingo 3B的實(shí)驗(yàn)結(jié)果如下圖3所示。在每個(gè)CALVIN設(shè)置中，僅訓(xùn)練了一個(gè)模型。在給定預(yù)定義的總計(jì)算預(yù)算B、最大浮點(diǎn)運(yùn)算數(shù)G和GPU內(nèi)存M后，通過調(diào)整終止閾值來遵守這些預(yù)算，終止閾值通過解方程(4)并使用CALVIN數(shù)據(jù)集來確定。然后，評(píng)估DeeR在不同閾值下的平均成功長度，并繪制曲線。可以觀察到，DeeR始終能在所有設(shè)置中減少LLM的計(jì)算成本。例如，在設(shè)置D→D中，DeeR在平均成功長度為2.71的情況下，平均FLOPs減少了5.9倍，最大FLOPs和GPU內(nèi)存分別減少了2倍。令人驚訝的是，DeeR-S在僅使用2GB內(nèi)存的情況下，仍能實(shí)現(xiàn)相對(duì)較高的性能，這對(duì)于大多數(shù)用戶來說是可承受的。因此，DeeR展示了使更廣泛的用戶能夠高效地使用LLM操作機(jī)器人系統(tǒng)的潛力。

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

與最先進(jìn)基準(zhǔn)的比較 下表2中，將DeeR模型與最近的最先進(jìn)方法進(jìn)行了基準(zhǔn)測試，特別是在CALVIN基準(zhǔn)測試中。通過分析表明，DeeR與使用額外本體感知信息的最新SOTA模型GR-1相比，達(dá)到了具有競爭力的性能。與沒有使用基礎(chǔ)模型的傳統(tǒng)模仿學(xué)習(xí)方法相比，DeeR表現(xiàn)出更優(yōu)越的性能，特別是在泛化場景（ABC→D）中。此外，DeeR在減少計(jì)算的同時(shí)，稍微優(yōu)于RoboFlamingo。

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

通過在線交互求解閾值

當(dāng)可以與環(huán)境進(jìn)行交互時(shí)，使用貝葉斯優(yōu)化來求解方程(4)。如上表2所示，發(fā)現(xiàn)通過在線交互求解閾值，在低數(shù)據(jù)環(huán)境（D→D）和對(duì)未見情況的泛化（ABC→D）等挑戰(zhàn)性場景中特別有效。

DeeR的可擴(kuò)展性

在OpenFlamingo 9B 之上開發(fā)了DeeR，以評(píng)估其在擴(kuò)展基礎(chǔ)模型時(shí)的效率。下圖4中的結(jié)果表明，DeeR在保持相同性能的情況下，減少了1.8至5.7倍的計(jì)算量，并且峰值FLOPs和內(nèi)存減少了2.7到4.0倍。

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

可視化

下圖5展示了DeeR的滾動(dòng)效果以及終止點(diǎn)。具有較高退出索引的情況被DeeR視為“更難”的任務(wù)，因此會(huì)分配更多的計(jì)算資源。可以觀察到，“困難”情況通常涉及相對(duì)復(fù)雜和精細(xì)的操作，而“簡單”情況通常涉及朝目標(biāo)物體的直接移動(dòng)。例如，在堆疊積木的任務(wù)中（第1行），從桌面提起藍(lán)色積木（第1張圖）并將其放置到粉色積木上（第4和第5張圖）需要更多的計(jì)算，而簡單地朝粉色積木移動(dòng)（第2和第3張圖）只需要最小的LLM來處理。在第2行和第3行中也觀察到類似的情況，朝目標(biāo)物體移動(dòng)的階段需要的計(jì)算量最小，而推動(dòng)燈泡開關(guān)或移動(dòng)滑動(dòng)門則是復(fù)雜的操作，需要更多的LLM處理。

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

結(jié)論與局限性

本文提出了用于機(jī)器人MLLM的動(dòng)態(tài)提前退出（DeeR）框架，旨在根據(jù)機(jī)器人代理所遇到的每個(gè)情況的具體需求動(dòng)態(tài)配置MLLM的大小。具體來說，提出了一種新型的具有多個(gè)中間退出的MLLM架構(gòu)。此外，為DeeR建立了基于動(dòng)作一致性的提前終止標(biāo)準(zhǔn)，并通過數(shù)據(jù)集或在線交互解決閾值問題。本文設(shè)計(jì)了一種定制的訓(xùn)練方法，將時(shí)間信息集成到這個(gè)多退出框架中，以增強(qiáng)機(jī)器人控制能力。大量的機(jī)器人實(shí)驗(yàn)表明，DeeR顯著減少了LLM的計(jì)算成本和GPU內(nèi)存使用，突顯了其在資源受限的平臺(tái)上幫助更廣泛的用戶管理機(jī)器人操作的潛力。

盡管本文的研究顯示了有希望的結(jié)果，但也存在一些局限性。本文專注于提高機(jī)器人執(zhí)行中的LLM效率，因?yàn)長LM占據(jù)了大部分參數(shù)和GFLOPs。然而，視覺編碼器的計(jì)算成本也是顯著的。隨著更高效、輕量級(jí)的視覺編碼器的開發(fā)，這一局限性將得到緩解。此外，本文的實(shí)驗(yàn)僅限于一個(gè)模擬基準(zhǔn)。未來的工作將致力于改善整個(gè)基于MLLM的機(jī)器人系統(tǒng)在真實(shí)環(huán)境中的推理效率。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/EgpO2TTtmqJu6pIrDDbftA??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

造完“大模型”，“具身智能”將引領(lǐng)AI下一個(gè)浪潮？

kekenai ? 3533瀏覽 ? 0回復(fù)
圖像生成里程碑！VAR:自回歸模型首超Diffusion Transformer?。ū贝?amp;字節(jié)）

angel ? 1.4w瀏覽 ? 0回復(fù)
Meta推出開放世界具身問答數(shù)據(jù)集OpenEQA：視覺大模型在具身智能上還有很長的路要走！

AIGC最前線 ? 3951瀏覽 ? 0回復(fù)
4倍內(nèi)存效率，生成和超分雙SOTA！清華&智譜AI發(fā)布最新Inf-DiT模型

angel ? 7565瀏覽 ? 0回復(fù)
具身智能體三維感知新鏈條，TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」

輕薄滴假象 ? 3737瀏覽 ? 0回復(fù)
上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場景、任意組合！

angel ? 3247瀏覽 ? 0回復(fù)
大語言模型的前世今生：萬字長文完整梳理所有里程碑式大語言模型（LLMs）

angel ? 8013瀏覽 ? 0回復(fù)
具身智能成敗之關(guān)鍵！干貨長文首次全面回顧具身智能領(lǐng)域中的視覺-語言-動(dòng)作模型！

angel ? 6782瀏覽 ? 0回復(fù)
讓具身智能更快更強(qiáng)！華東師大&上大提出TinyVLA：高效視覺-語言-動(dòng)作模型，遙遙領(lǐng)先

angel ? 3310瀏覽 ? 0回復(fù)
什么是具身智能模型，它和普通大模型有什么區(qū)別？

AI探索時(shí)代 ? 3551瀏覽 ? 0回復(fù)
自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR

angel ? 2625瀏覽 ? 0回復(fù)
NeurIPS`24 | 超25萬對(duì)助力具身智能！3D場景大規(guī)模多模態(tài)情境推理數(shù)據(jù)集MSQA | BIGAI

angel ? 3664瀏覽 ? 0回復(fù)
超越SDEdit等七大SOTA，免訓(xùn)練多模態(tài)圖像編輯里程碑：HeadRouter帶來精準(zhǔn)語義調(diào)整

angel ? 2537瀏覽 ? 0回復(fù)
亞馬遜Nova大模型家族：AI技術(shù)的新里程碑 | 1000個(gè)人的數(shù)字分身：AI如何精準(zhǔn)模擬人類行為？

sbf_2000 ? 2782瀏覽 ? 0回復(fù)
突破算力限制！Meta開源“記憶層”，重塑Transformer架構(gòu)大模型

Aceryt ? 2493瀏覽 ? 0回復(fù)
醫(yī)學(xué)領(lǐng)域大模型與多模態(tài)大模型的綜合調(diào)查

知識(shí)圖譜科技 ? 2696瀏覽 ? 0回復(fù)
谷歌開源Gemma-3：媲美DeepSeek，算力暴降10倍

Aceryt ? 2828瀏覽 ? 0回復(fù)
Muon優(yōu)化器：AI模型訓(xùn)練算法的下一個(gè)里程碑？| 目前還不是業(yè)界焦點(diǎn)，但有潛力是重大基礎(chǔ)創(chuàng)新

后向傳播 ? 2078瀏覽 ? 0回復(fù)
一文看懂啥是具身智能、VLM 和 VLA

智駐未來 ? 280瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

多領(lǐng)域SOTA誕生！Vid2World：打通視頻擴(kuò)散到世界模型的“任督二脈”｜清華、重大 2025-05-23 10:17:32發(fā)布
多模態(tài)終極大一統(tǒng)！字節(jié)開源BAGEL爆火：圖文生成理解雙冠王，竟能預(yù)測未來畫面？ 2025-05-22 09:33:05發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測：真·超DS！ 1回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

圖像編輯革命！FLUX.1 Kontext [dev]震撼開源：挑戰(zhàn)GPT-4o的圖像編輯 0回復(fù)

上一篇：革新3D材質(zhì)生成！Material Anything：端到端打造任意3D物體的高質(zhì)量材質(zhì)！

下一篇：突破空間限制！從2D到3D：北大等開源Lift3D，助力精準(zhǔn)具身智能操作！

社區(qū)精華內(nèi)容

目錄

<samp id="fdmq3"><delect id="fdmq3"></delect></samp>