偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

不止補幀，更能補世界！港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全

發(fā)布于 2025-10-11 09:23

瀏覽

0收藏

不止補幀，更能補世界！港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2510.08555 項目鏈接：https://onevfall.github.io/project_page/videocanvas/ Git鏈接：https://onevfall.github.io/project_page/videocanvas/

亮點直擊

引入并形式化了任意時空視頻補全任務，這是一個統(tǒng)一的框架，涵蓋了廣泛的可控視頻生成場景。
VideoCanvas，第一個將In-Context Conditioning范式應用于任意時空補全任務的框架。進一步引入混合條件策略：Spatial Zero-Padding和Temporal RoPE Interpolation。該方法無需重新訓練 VAE，即可高效微調(diào) DiT 模型，從而實現(xiàn)精細的時空控制。
設計并發(fā)布了VideoCanvasBench，這是第一個專門用于任意時空補全的基準測試，并證明VideoCanvas在多種設置下實現(xiàn)了最先進的性能，優(yōu)于現(xiàn)有的條件范式。

不止補幀，更能補世界！港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

任意時間戳Patches到視頻

不止補幀，更能補世界！港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

任意時間戳圖像到視頻

不止補幀，更能補世界！港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

視頻轉(zhuǎn)換

不止補幀，更能補世界！港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

視頻修復和外擴

總結(jié)速覽

解決的問題

現(xiàn)有可控視頻生成方法（如首幀驅(qū)動、片段延伸、視頻補全等）過于任務特定、缺乏統(tǒng)一框架，難以靈活應對任意時空控制需求。
隱空間視頻擴散模型中的因果型VAE存在時間模糊性，多個像素幀被壓縮成一個隱空間變量，導致難以實現(xiàn)精確的幀級條件控制。
空間層面上，不同形狀與位置的局部patch難以統(tǒng)一處理，模型對零填充（zero-padding）輸入不具魯棒性。

提出的方案

VideoCanvas—— 一個統(tǒng)一的“任意時空視頻補全（Arbitrary Spatio-Temporal Video Completion）”框架。
將視頻生成視為在“時空畫布（video canvas）”上作畫：用戶可在任意時間與空間位置放置圖像或patch，模型自動補全生成完整視頻。
設計一種混合式條件編碼策略（Hybrid Conditioning Strategy），將空間與時間控制解耦：

空間控制：通過零填充（zero-padding）在VAE隱空間中定位任意形狀patch；
時間控制：通過Temporal RoPE Interpolation（時間位置插值）為條件幀分配連續(xù)的分數(shù)時間索引，從而解決VAE的時間歧義問題。

應用的技術

基于In-Context Conditioning (ICC)框架擴展，實現(xiàn)無新增參數(shù)的精細時空控制。
使用Temporal RoPE Interpolation技術實現(xiàn)連續(xù)時間嵌入，使幀級控制在凍結(jié)的VAE與DiT骨干上即可完成。
通過零填充方式對任意空間區(qū)域進行統(tǒng)一表示，無需修改模型結(jié)構(gòu)或重新訓練VAE。
構(gòu)建VideoCanvasBench基準，用于評估任意時空視頻補全任務下的幀間一致性與跨場景創(chuàng)造力。

達到的效果

首次實現(xiàn)在凍結(jié)的隱空間擴散模型上進行像素幀級（pixel-frame-aware）時空控制。
統(tǒng)一了圖像到視頻、補全、擴展與插值等多種視頻生成任務。
在VideoCanvasBench基準上顯著超越現(xiàn)有控制范式，在視頻一致性與生成靈活性上均達到最新的SOTA性能。
證明了無需結(jié)構(gòu)修改或重新訓練，即可實現(xiàn)高效、精細且統(tǒng)一的可控視頻生成。

方法

任務定義與問題設定

不止補幀，更能補世界！港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

VideoCanvas 流程

為解決任意時空補全的挑戰(zhàn)，提出 VideoCanvas，這是一個基于 In-Context Conditioning (ICC) 范式的統(tǒng)一框架。我們首次將 ICC 應用于該任務，并引入一種新的混合條件策略，將空間與時間對齊解耦，從而在凍結(jié)的 VAE 和零新增參數(shù)的微調(diào) DiT 上實現(xiàn)精細、像素幀級別的控制。整個流程如下圖 3 所示。

不止補幀，更能補世界！港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

不止補幀，更能補世界！港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

不止補幀，更能補世界！港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

該目標訓練 DiT 將條件 token 視為固定上下文，同時為目標視頻生成連貫的補全內(nèi)容。

VideoCanvasBench

現(xiàn)有的基準測試集中于諸如 I2V 或外延繪制（outpainting）等固定任務，無法評估我們方法核心的靈活時空控制能力。因此，我們引入 VideoCanvasBench，這是第一個系統(tǒng)性設計用于任意時空視頻補全的基準測試。

該基準測試評估兩種互補的能力：單一場景內(nèi)的高保真補全（同源，homologous）以及跨不同來源的創(chuàng)造性合成（非同源，non-homologous）。它由三類任務組成：

(1) AnyP2V，在固定錨點時間戳（開始、中間、結(jié)束）使用部分patch。我們構(gòu)建了所有七種可能的組合——單幀（S、M、E）、雙幀（S+M、S+E、M+E）以及三幀（S+M+E）——用于在不同時間稀疏度下評估插值的保真度。 (2) AnyI2V，在相同時間戳處使用完整幀條件，旨在測試完整幀內(nèi)容的補全過程。 (3) AnyV2V，涵蓋視頻級別的補全場景，如修補（inpainting）、擴展（outpainting）以及非同源片段間的過渡。

VideoCanvasBench 包含超過 2000 個測試案例。

實驗

本文的實驗旨在回答兩個核心問題： (1) 本文提出的 Temporal RoPE Interpolation 是否能解決因果 VAE 的時間模糊性，從而在超越原生 VAE 步長的情況下實現(xiàn)精確的像素幀對齊？ (2) 即使在隱空間變量槽所帶來的粗粒度條件下，In-Context Conditioning (ICC) 范式是否在本質(zhì)上優(yōu)于先前的機制，如隱空間變量替換（Latent Replacement）和通道拼接（Channel Concatenation）？

本文通過不同像素幀對齊策略的消融實驗回答第一個問題，并通過在我們的基準測試上進行范式級比較回答第二個問題。

設置

不止補幀，更能補世界！港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

基線方法。由于我們的任務是新的，現(xiàn)有工作尚無直接解決方案。為公平比較，我們在相同骨干網(wǎng)絡上比較三種具有代表性的條件范式（如圖 2b 所示）： (1) Latent Replacement，用于 LTX-Video 和 HunyuanVideo； (2) Channel Concatenation，廣泛用于 CogVideoX 和 Wan； (3) 我們的 **In-Context Conditioning (ICC)**。所有范式均在相同設置下訓練，并受限于由 VAE 步長定義的同一組可控幀，從而確保嚴格且可控的比較。更多細節(jié)見附錄 B。

評估指標

自動化指標。保真度通過 PSNR 和 FVD進行衡量，感知質(zhì)量通過四個指標評估：美學質(zhì)量、成像質(zhì)量、時間一致性以及動態(tài)程度。

用戶研究。為了補充自動化指標，我們對 30 個隨機采樣的案例進行了包含 25 名參與者的用戶研究。在每個案例中，參與者在三選一的強制選擇設置中觀看三種方法的并列輸出，并從三個維度進行評分：視覺質(zhì)量（質(zhì)量和動態(tài)性）、語義質(zhì)量（與文本和圖像的忠實度）以及整體偏好（總體選擇）。結(jié)果以相對于競爭方法的勝率（%）形式報告。

消融研究：像素-幀對齊策略

如下圖 2(a) 所示，因果視頻 VAE 將多個像素幀映射到一個隱空間變量中，這在以特定幀為條件時會造成歧義。一種直觀的解決方法是保留目標幀并在 VAE 編碼前將其余幀填充為零，我們將其稱為像素空間填充（Pixel-space Padding）。雖然這種方法在時間上是精確的，但它迫使凍結(jié)的 VAE 處理高度分布外的輸入，常常破壞顏色和紋理。

不止補幀，更能補世界！港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

為了剖析這一問題，比較了四種對齊策略：

(i) 隱空間條件（Latent-space Conditioning）：使用 VAE（視頻模式）對整個視頻進行編碼以獲得隱空間變量序列；在指定的時間戳，將相應的隱空間變量切片注入作為條件輸入。(ii) 像素空間填充（Pixel-space Padding）：構(gòu)建一個像素空間視頻，其中非目標幀被置零；使用 VAE（視頻模式）對整個填充視頻進行編碼。(iii) 無 RoPE 插值（w/o RoPE Interpolation）：獨立地使用 VAE（圖像模式）對每個條件幀進行編碼；將每個條件 token 分配到由 VAE 壓縮窗口確定的離散時間槽（無插值）。(iv) 本文完整方法：帶有時間 RoPE 插值（Temporal RoPE Interpolation）。

定性證據(jù)。雖然像素空間填充理論上可以“指向”正確的幀，但它會引入明顯的偽影，因為 VAE 從未在填零輸入上訓練過。下圖 5展示了這一點：填充結(jié)果出現(xiàn)明顯的顏色偏移和紋理模糊，而基于 RoPE 的對齊能夠以高保真度保留條件幀。

不止補幀，更能補世界！港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

定量分析。進一步在目標索引 (2, 3, 4) 處評估單幀 I2V。如下圖 4 和表 1 所示，隱空間條件的 PSNR 曲線幾乎平坦，表明運動坍縮。無 RoPE 插值恢復了動態(tài)性，但由于槽位未對齊，PSNR 峰值發(fā)生偏移。像素空間填充在正確索引處達到峰值，但整體保真度較低。相比之下，我們的 RoPE 插值方法精確對齊目標幀并實現(xiàn)了最佳保真度。綜合來看，這些結(jié)果表明兩點：首先，基于填充的解決方案盡管時間精確，但由于 VAE 信號損壞而降低質(zhì)量；其次，隱空間條件和僅使用整數(shù)對齊無法解決幀級歧義。相反，本文的 ICC 結(jié)合時間 RoPE 插值在細粒度控制和高保真生成方面均表現(xiàn)出獨特優(yōu)勢。

不止補幀，更能補世界！港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

不止補幀，更能補世界！港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

主要結(jié)果：范式比較

在確立基于填充的方案因質(zhì)量退化而不可行之后，接下來在相同設置下比較三種具有代表性的條件范式——隱空間變量替換（Latent Replacement）、通道拼接（Channel Concatenation）以及我們的上下文內(nèi)條件（In-Context Conditioning, ICC），其中每個隱空間變量對應一個像素幀。這確保了性能差異僅來自條件機制本身（而非零填充）。

定量比較。下表 2 展示了 VideoCanvasBench 在三個任務類別（AnyP2V、AnyI2V 和 AnyV2V）上的結(jié)果。數(shù)據(jù)揭示了在所有任務類別中的一致趨勢。隱空間變量替換在靜態(tài)相似性指標（如 PSNR）中獲得了表面上較高的得分，但以犧牲運動生成為代價。其極低的動態(tài)程度（Dynamic Degree）表明其生成的視頻幾乎是靜止的，這也反映在其較差的 FVD 上，確認了與真實視頻的顯著分布差距。通道拼接生成了更多動態(tài)，但在參考保真度（PSNR、FVD）和關鍵感知指標上始終落后于我們的方法。相比之下，我們的 ICC 實現(xiàn)了最佳平衡，在保持競爭性保真度的同時獲得了最高的動態(tài)程度。更重要的是，用戶研究驗證了 ICC 的優(yōu)越性，在所有三個任務層面上，ICC 都被人類評估者壓倒性地偏好。

不止補幀，更能補世界！港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

定性比較。下圖 6 展示了具有代表性的案例。在雙幀 I2V 任務（圖 6a）中，隱空間變量替換在條件幀周圍坍縮為靜態(tài)重復，而通道拼接在鹿的身體上引入了不自然的扭曲。相比之下，ICC 在保持身份一致的同時生成了平滑且合理的運動。在更具挑戰(zhàn)性的雙幀 P2V 設置中（圖 6b），基線方法的弱點更加明顯。隱空間變量替換產(chǎn)生了突兀且不自然的過渡，而通道拼接則遭受嚴重的身份漂移，使袋鼠在視頻中途莫名其妙地變成了狗。只有 ICC 在整個序列中同時保持了運動、身份和結(jié)構(gòu)一致性，避免了凍結(jié)和語義損壞。

不止補幀，更能補世界！港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

定量與定性證據(jù)均得出了相同的結(jié)論。消融研究表明，時間 RoPE 插值在不犧牲保真度的情況下，獨特地實現(xiàn)了細粒度的像素-幀對齊；而范式比較顯示，即使在粗粒度的隱空間變量級別上，ICC 也始終優(yōu)于隱空間變量替換和通道拼接。綜上所述，這些發(fā)現(xiàn)確立了 ICC 作為任意時空視頻生成中最穩(wěn)健且最有效的條件機制。

應用與新興能力

除了在受控比較中超越現(xiàn)有范式外，VideoCanvas 框架的真正優(yōu)勢在于其所解鎖的多樣化與創(chuàng)造性應用。通過將視頻合成視為統(tǒng)一的補全問題，我們的模型展現(xiàn)出多個強大的新興能力，如在預覽圖（下圖 1）。

不止補幀，更能補世界！港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全-AI.x社區(qū)

靈活的時間控制（AnyI2V）。時間 RoPE 插值所啟用的首個關鍵能力是對任意時間戳的細粒度控制。如 AnyI2V 示例所示，我們的模型突破了首幀或首尾幀設置的限制。它可以從時間線上任意位置放置的任意數(shù)量的全幀條件中生成連貫的視頻敘事，成功處理了先前方法無法定義的復雜插值與外推場景。

任意時空控制（AnyP2V）?；谶@種時間靈活性，本文的框架實現(xiàn)了真正的時空控制。AnyP2V 任務展示了這一核心能力，模型可以從一組稀疏、彼此獨立的patch中生成完整視頻，每個patch位于任意空間位置和任意時間戳。如我們的結(jié)果所示，模型能夠在保持條件物體身份的同時，成功合成合理的運動與上下文，即使所提供的patch非常小。這展示了模型對“是什么”、“在哪里”、“何時”的聯(lián)合推理能力。

創(chuàng)意視頻過渡。利用其處理非同源條件的能力，我們的模型在創(chuàng)造性合成方面表現(xiàn)出色。如視頻過渡任務所示，它能夠在兩個完全不同的場景之間生成平滑且邏輯的演變（例如，將無人機變形為蝴蝶）。這展示了模型理解并插值高層語義的復雜能力，這一能力受到最新生成模型的啟發(fā)。

長時視頻擴展。本文的框架通過迭代式補全實現(xiàn)長時視頻合成。短片段可以通過自回歸方式生成下一個片段并以前一段的結(jié)尾為條件，延長至一分鐘長度。該過程可通過交互式文本提示引導以演變敘事，甚至可以通過生成從視頻結(jié)尾回到開頭的過渡來創(chuàng)建完美的無縫循環(huán)。

統(tǒng)一的視頻繪制與相機控制。此外，我們的時空畫布表述自然地涵蓋了多種其他任務。通過提供帶掩碼的視頻作為條件，模型能夠執(zhí)行修補（inpainting）和擴展（outpainting）；通過在畫布上逐步平移或縮放條件幀，它可以模擬諸如變焦和平移等動態(tài)相機效果，展示了其在創(chuàng)意后期制作中的潛力。

結(jié)論

本文引入并形式化了任意時空視頻補全任務。為解決因果 VAE 中的時間歧義核心挑戰(zhàn)，我們提出了基于上下文內(nèi)條件（In-Context Conditioning）的 VideoCanvas 框架。還提出了一種結(jié)合空間零填充（Spatial Zero-Padding）與時間 RoPE 插值（Temporal RoPE Interpolation）的混合條件策略，從而通過高效的 DiT 微調(diào)，在凍結(jié)的 VAE 上實現(xiàn)細粒度的像素幀級控制。除了在我們新基準 VideoCanvasBench 上獲得強大的定量與定性結(jié)果外，我們的方法還展示了在多種應用中的卓越靈活性，例如任意時空patch到視頻、任意時間戳圖像到視頻、長時擴展、繪制與相機控制。我們相信該工作為下一代可控視頻合成建立了穩(wěn)健且可泛化的基礎。

討論。目前大多數(shù)領先的視頻基礎模型使用未在零填充時間數(shù)據(jù)上預訓練的因果 VAE，因此無法通過簡單的零填充實現(xiàn)任意時空控制。此類輸入會引起分布偏移，需要對 VAE 與 DiT 主干進行高成本的重新訓練。我們的模型中心框架通過無需修改凍結(jié)的 VAE 來實現(xiàn)細粒度控制，從而繞過了這一問題。而未來的基礎模型可能在預訓練階段引入類似能力，通過零填充數(shù)據(jù)實現(xiàn)時間敏感控制，使數(shù)據(jù)中心范式成為進一步進展的互補路徑。

此外，盡管我們的獨立幀編碼在稀疏條件下非常有效，但在密集輸入時存在計算權衡。未來的研究可以探索結(jié)合我們細粒度對齊與更高效 token 剪枝策略的混合機制，以優(yōu)化密集條件序列的處理?？傮w而言，我們相信該工作提供了穩(wěn)健且可泛化的基礎，并將激發(fā)進一步關于靈活且統(tǒng)一視頻合成的研究。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/mcvi2itZq26BMX-D7eW3Hw??

標簽

數(shù)據(jù)

已于2025-10-11 09:24:38修改

贊

收藏

回復

舉報

社區(qū)頭條

回復

相關推薦

港中文提出CLongEval中文基準測試集，準確評估大模型長上下文能力

zhangyannni ? 7160瀏覽 ? 0回復
小洞不補，大洞吃苦：西交、麥馬開源全新「拖動式編輯」框架&數(shù)據(jù)集

duhorse ? 3672瀏覽 ? 0回復
快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求

輕薄滴假象 ? 6308瀏覽 ? 0回復
AI 視頻戰(zhàn)火：從 Sora 到快手可靈和 Luma 的新時代

wsp_ping ? 4959瀏覽 ? 0回復
快手「可靈」再進化！視頻續(xù)寫可達3分鐘讓全球網(wǎng)友炸鍋

duhorse ? 5928瀏覽 ? 0回復
快手可靈團隊最新開源項目火了：大叔實時變身少女，GitHub狂攬7.5K星

Crystalcxt ? 4154瀏覽 ? 0回復
又見神仙打架，全面超越快手可靈？智譜AI聯(lián)合清華發(fā)布CogVideoX | 技術報告解析

angel ? 5522瀏覽 ? 0回復
360發(fā)布FancyVideo:通過跨幀文本指導實現(xiàn)動態(tài)且一致的視頻生成SOTA！

angel ? 3724瀏覽 ? 0回復
視頻擴散模型加持，稀疏視圖重建任意場景！清華&港科大發(fā)布ReconX

angel ? 5402瀏覽 ? 0回復
快手、北大開源，超高清10秒、24幀視頻模型

Aceryt ? 3568瀏覽 ? 0回復
實現(xiàn)任意3D/4D場景生成！港科大&清華&生數(shù)發(fā)布DimensionX

angel ? 6766瀏覽 ? 0回復
3D任意部位分割：FIND 3D模型實現(xiàn)零樣本開放世界文本查詢分割

AIGC最前線 ? 3705瀏覽 ? 0回復
多提示視頻生成最新SOTA！港中文&騰訊等發(fā)布DiTCtrl：基于MM-DiT架構(gòu)

angel ? 4337瀏覽 ? 0回復
視頻編輯最新SOTA！港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp

angel ? 3378瀏覽 ? 0回復
用戶可控的電影級圖像到視頻生成方法！港中文&Adobe發(fā)布MotionCanvas

angel ? 3742瀏覽 ? 0回復
從低清到4K的魔法：FlashVideo突破高分辨率視頻生成計算瓶頸(港大&港中文&字節(jié))

angel ? 3675瀏覽 ? 0回復
騰訊&港中文發(fā)布影視后期黑科技！VideoPainter：視頻編輯修復8項SOTA!

angel ? 4008瀏覽 ? 0回復
SIGGRAPH 2025 | 快手可靈團隊提出3D感知的電影級文本到視頻生成框架CineMaster

快手技術 ? 1588瀏覽 ? 0回復
一鍵搞定補幀+上色！神器ToonComposer讓動畫“動”起來、“靚”起來！效率飆升！

zhangyannni ? 8461瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

熱門推薦

破解長視頻理解困局！MIT&英偉達最新開源StreamingVLM:統(tǒng)一實時流式視覺語言理解框架 0回復

速度狂飆12倍！清華FlashVSR：首次實現(xiàn)超高清視頻實時超分辨率，超越所有擴散VSR模型 0回復

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達指令的第一句話 0回復

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術架構(gòu)全解析 0回復

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復

上一篇：通用具身智能要來了！卡內(nèi)基梅隆&Meta發(fā)布效率之王MetaVLA：訓練步數(shù)降3倍，GPU時間少76%

下一篇：史詩級突破！一個模型讓你秒變PS大神，字節(jié)最新InstructX僅用“看圖”就學會了剪視頻

社區(qū)精華內(nèi)容

目錄

<sup id="9tz5y"><big id="9tz5y"></big></sup>

<pre id="9tz5y"></pre>