偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

CVPR 2025 多模態(tài)大一統(tǒng):斯坦福 x 復(fù)旦提出符號主義建模生成式任務(wù)

人工智能 新聞
來自復(fù)旦大學(xué)、華南理工大學(xué)、武漢大學(xué)以及 Cornell、UCSD 等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了創(chuàng)新的基于符號化表征的生成任務(wù)描述框架。

共同第一作者包括:陳家棋,斯坦福大學(xué)訪問學(xué)者,復(fù)旦大學(xué)碩士,研究方向?yàn)?LLM Agent和大一統(tǒng)模型;朱小燁,華南理工大學(xué)本科,研究方向?yàn)?LLM Agent、LLM 和強(qiáng)化學(xué)習(xí);王越,康奈爾大學(xué)本科,研究方向?yàn)?LLM Agent、多模態(tài)語言模型。指導(dǎo)老師:Julian McAuley(UCSD)、Li-jia Li (IEEE Fellow, LiveX AI)。

在人工智能內(nèi)容創(chuàng)作蓬勃發(fā)展的今天,跨模態(tài)生成技術(shù)正在重塑藝術(shù)創(chuàng)作和視覺表達(dá)的邊界。人們對需求也日趨復(fù)雜和多樣,譬如將靜態(tài)照片轉(zhuǎn)化為動態(tài)視頻并疊加環(huán)境音效,打造沉浸式的多感官體驗(yàn)。然而,現(xiàn)有生成系統(tǒng)大多受限于訓(xùn)練數(shù)據(jù)的覆蓋范圍,或是因復(fù)雜的多模型協(xié)調(diào)而效率低下,難以滿足這些日益增長的創(chuàng)意需求。

來自復(fù)旦大學(xué)、華南理工大學(xué)、武漢大學(xué)以及 Cornell、UCSD 等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了創(chuàng)新的基于符號化表征的生成任務(wù)描述框架。該框架將符號化思維引入生成任務(wù)建模。這一創(chuàng)新框架構(gòu)建了一種生成任務(wù)的表示方式——圖片,通過建立結(jié)構(gòu)化的語義橋梁,使系統(tǒng)能夠像人類理解創(chuàng)作意圖一樣解析和執(zhí)行復(fù)雜的跨模態(tài)生成需求。

圖片

  • 論文標(biāo)題:Symbolic Representation for Any-to-Any Generative Tasks
  • 代碼鏈接:https://github.com/Jiaqi-Chen-00/Any-2-Any
  • 論文地址:https://arxiv.org/abs/2504.17261

實(shí)驗(yàn)證明,圖片 在 12 類 120 項(xiàng)跨模態(tài)生成任務(wù)中表現(xiàn)出色,在文本到圖像任務(wù)中以 94% 的勝率超越現(xiàn)有模型,在圖像轉(zhuǎn)視頻任務(wù)中更以 67% 的勝率優(yōu)于商業(yè)系統(tǒng) Gen-3。該方法不僅在內(nèi)容質(zhì)量上與現(xiàn)有的最先進(jìn)的統(tǒng)一模型相當(dāng)甚至更優(yōu),還提供了更高的效率、可編輯性和可中斷性。符號化的任務(wù)表示為推進(jìn)生成式人工智能的能力提供了一種成本效益高且可擴(kuò)展的基礎(chǔ)。

問題背景

圖片

圖 1 用于 Any-to-Any 生成任務(wù)的一種符號化描述方法。

「將叢林的狂野生長與古老廢墟的神秘感融合成一個全新的場景,一定會令人驚嘆,」你的藝術(shù)家朋友沉思道?!溉绻€能把這張照片轉(zhuǎn)換成視頻,再疊加上鳥鳴聲和潺潺流水聲——那將營造出一種夢幻般的感官體驗(yàn)?!惯@些日益復(fù)雜、跨模態(tài)的創(chuàng)作需求指向了一個根本性挑戰(zhàn):如何設(shè)計(jì)一個統(tǒng)一模型,能夠根據(jù)自然語言指令,無縫處理任意輸入與輸出模態(tài)組合的生成任務(wù)?這樣的任務(wù)就是該研究關(guān)注的「Any-to-Any」生成任務(wù),如圖 2 所示。

圖片

圖 2 Any-to-Any 生成任務(wù)

當(dāng)前 Any-to-Any 生成任務(wù)的方法主要分為隱式神經(jīng)建模和智能體方法。隱式神經(jīng)建模需要大量數(shù)據(jù)訓(xùn)練,雖然能處理常見任務(wù),但對新場景適應(yīng)能力差且生成過程不可控;智能體方法雖然功能靈活但結(jié)構(gòu)復(fù)雜,運(yùn)行不穩(wěn)定且效率較低。此外,如果人類設(shè)計(jì)師用 PS 合成圖像時,需要先背誦所有濾鏡組合公式才能操作,還有創(chuàng)意可言嗎?當(dāng)前許多方法陷入了這種「知識依賴陷阱」——而真正的 Any-to-Any 生成,應(yīng)該像兒童搭積木:不需要理解木塊分子結(jié)構(gòu),只需知道它們?nèi)绾纹唇印?/span>

于是,研究團(tuán)隊(duì)設(shè)想構(gòu)建一個框架:聚焦于統(tǒng)一的任務(wù)表示和語言模型友好的接口,從而實(shí)現(xiàn)直接的任務(wù)指定。使系統(tǒng)能夠真正理解并執(zhí)行用戶以自然語言描述的任意生成需求,同時保持執(zhí)行過程的可控性和可干預(yù)性。這一設(shè)想從根本上改變了傳統(tǒng)生成模型的實(shí)現(xiàn)范式,為構(gòu)建真正意義上的 Any-to-Any 生成系統(tǒng)提供了新的技術(shù)路線。

基于符號化表征的生成任務(wù)描述框架

框架設(shè)計(jì)的核心思路在于對生成任務(wù)本質(zhì)的解構(gòu):任何復(fù)雜的多模態(tài)生成過程,本質(zhì)上都可以拆解為「做什么」(函數(shù))、「怎么做」(參數(shù))和「執(zhí)行順序」(拓?fù)洌┤齻€要素。基于這樣的見解,研究提出了 -Language,這是一種正式表示方法,系統(tǒng)地捕捉生成任務(wù)的這三個基本組成部分。此外,研究還介紹了一種無需訓(xùn)練的推理引擎,它利用預(yù)訓(xùn)練的語言模型作為基礎(chǔ),從輸入指令和指定的關(guān)鍵函數(shù)中得出符號表示。

從本質(zhì)上講,-Language 將任意生成任務(wù)形式化為一個三元組

圖片

這一統(tǒng)一的形式化將生成任務(wù)分解為三個核心組成部分:計(jì)算函數(shù)、對應(yīng)參數(shù),以及闡明其相互關(guān)系和數(shù)據(jù)流動態(tài)的拓?fù)浣Y(jié)構(gòu)。

(1)函數(shù)是構(gòu)成生成任務(wù)的基本計(jì)算單元,其數(shù)學(xué)形式表示為:

圖片

其中:圖片 表示第 i 個函數(shù),圖片是該函數(shù)的輸入空間,可以包含任意模態(tài)的數(shù)據(jù)(如圖像、文本、音頻等),圖片是該函數(shù)的參數(shù)配置,圖片是該函數(shù)的輸出空間。例如,一個圖像風(fēng)格遷移函數(shù)可能接收原始圖像和風(fēng)格描述文本作為輸入,經(jīng)過參數(shù)調(diào)節(jié)后輸出風(fēng)格化圖像。

(2)參數(shù)集合定義為:

圖片

其中每個圖片對應(yīng)函數(shù)圖片的參數(shù)空間。參數(shù)在函數(shù)執(zhí)行前必須完全指定,用于精確控制函數(shù)行為。例如,在圖像生成任務(wù)中,參數(shù)可能包括生成步數(shù)、風(fēng)格強(qiáng)度、分辨率等。

(3)拓?fù)浣Y(jié)構(gòu)定義了函數(shù)之間的數(shù)據(jù)流動關(guān)系,表示為:

圖片

每個數(shù)據(jù)流是一個具體的連接關(guān)系:

圖片

其中,圖片是源函數(shù),圖片 是源函數(shù)的特定輸出,圖片 是目標(biāo)函數(shù),圖片是目標(biāo)函數(shù)的特定輸入。

如圖 3 所示,框架提供了三種等效但風(fēng)格迥異的語法形式來表達(dá)符號化表示,以滿足不同場景的使用需求:

  • 聲明式語法 (Declarative Syntax):采用組件先定義后連接的范式,將函數(shù)與拓?fù)潢P(guān)系顯式分離,特別適合需要組件復(fù)用的復(fù)雜工作流。
  • 數(shù)據(jù)流語法 (Dataflow Syntax):通過函數(shù)鏈?zhǔn)秸{(diào)用的方式直觀展現(xiàn)數(shù)據(jù)流動路徑,更契合線性順序任務(wù)的表達(dá)。
  • 偽自然語法 (Pseudo-natural Syntax):創(chuàng)新性地采用類自然語言的結(jié)構(gòu),在保持?jǐn)?shù)學(xué)嚴(yán)謹(jǐn)性的同時大幅提升了可讀性,為非專業(yè)用戶提供了更友好的交互界面。

這三種語法在保持圖片完整表達(dá)能力的前提下各有側(cè)重:聲明式強(qiáng)調(diào)結(jié)構(gòu)化,數(shù)據(jù)流突出過程性,偽自然注重易用性,后續(xù)實(shí)驗(yàn)系統(tǒng)評估了它們在大語言模型推理場景中的實(shí)際表現(xiàn)。

圖片

圖 3 語法風(fēng)格比較。

  • 基于預(yù)訓(xùn)練語言模型的符號化流程推斷為使方法靈活而穩(wěn)健地適應(yīng)生成任務(wù)的多樣性和復(fù)雜性,該研究將高層次的任務(wù)描述轉(zhuǎn)化為可執(zhí)行的符號化流程。如圖 4 所示,提出利用語言模型 (LM) 作為推理引擎,從輸入指令和指定的關(guān)鍵函數(shù)中得出符號表示。

圖片

圖 4 利用語言模型 (LM) 生成符號化表示。

通過三階段處理實(shí)現(xiàn)這一目標(biāo):組件推斷階段由語言模型解析任務(wù)描述,識別所需的函數(shù) (F) 和參數(shù) (Φ);拓?fù)錁?gòu)建階段基于輸入輸出關(guān)系,建立函數(shù)間的數(shù)據(jù)流連接 (T);迭代優(yōu)化階段通過錯誤反饋循環(huán) (R) 持續(xù)修正流程,直至滿足所有約束條件 (C)。圖 5 完整展示了從自然語言描述到可執(zhí)行工作流程的轉(zhuǎn)換過程,從而實(shí)現(xiàn)了跨模態(tài)和跨任務(wù)類型的任意轉(zhuǎn)換。

圖片

圖 5 推理和執(zhí)行的演示。

實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)中,該研究構(gòu)建了一個包含 120 個真實(shí)世界生成案例的數(shù)據(jù)集,涵蓋 12 個任務(wù)類別,并通過用戶研究和可執(zhí)行性評估驗(yàn)證了方法的有效性。

  • 跨模態(tài)生成質(zhì)量評估(用戶研究)

針對不同模態(tài)轉(zhuǎn)換任務(wù)進(jìn)行了系統(tǒng)的用戶評估,以驗(yàn)證該方法在真實(shí)場景下的生成質(zhì)量。實(shí)驗(yàn)結(jié)果顯示,在文本到圖像任務(wù)中,該方法對 Show-o 的勝率達(dá) 94%;在圖像轉(zhuǎn)視頻任務(wù)中,對商業(yè)系統(tǒng) Gen-3 的勝率達(dá) 67%;文本到音頻任務(wù)中,對齊度和質(zhì)量勝率分別達(dá) 100% 和 98%。

圖片

  • 復(fù)雜工作流執(zhí)行測試(ComfyBench 基準(zhǔn))

為評估方法處理復(fù)雜任務(wù)的能力,采用包含多步驟工作流的 ComfyBench 進(jìn)行測試。實(shí)驗(yàn)結(jié)果顯示,總體成功率 43%,顯著優(yōu)于次優(yōu)方法(32.5%),在復(fù)雜任務(wù)(如包含 11 個組件的「模型合并」)上表現(xiàn)突出。

圖片

  • 消融實(shí)驗(yàn)

消融實(shí)驗(yàn)證實(shí),兩階段推理架構(gòu)(組件推斷 + 拓?fù)錁?gòu)建)是系統(tǒng)性能的核心,移除該設(shè)計(jì)將導(dǎo)致任務(wù)完成率下降 35%。

圖片

  • 對比實(shí)驗(yàn):符號化 v.s. 代理化方法

選取了當(dāng)前最先進(jìn)的代理框架 GenAgent 作為基線,在相同任務(wù)集上進(jìn)行對比測試。實(shí)驗(yàn)數(shù)據(jù)顯示,在編譯階段,該方法達(dá)到 98% 的通過率,相比代理方法的 84% 顯著提升 ($p \< 0.001$);執(zhí)行成功率方面,該方法 87% 的表現(xiàn)遠(yuǎn)超代理方法的 63%。

圖片

  • 表示方法本質(zhì)研究

針對「神經(jīng)表示 v.s. 符號表示」這一核心問題,研究設(shè)計(jì)了控制變量實(shí)驗(yàn):在相同計(jì)算資源下,符號表示的內(nèi)存占用僅為神經(jīng)表示的 1/5。任務(wù)修改效率測試顯示,修改符號化流程平均耗時 23 秒,而神經(jīng)方法需要重新訓(xùn)練(平均 4.2 小時);但在端到端推理速度上,神經(jīng)方法快 1.8 倍,這揭示了符號方法在實(shí)時性上的 trade-off。

圖片

  • 顯式流程編輯與錯誤分析

通過對 120 個失敗案例的歸因分析發(fā)現(xiàn),28% 的錯誤源于參數(shù)范圍越界,主要體現(xiàn)在跨模態(tài)任務(wù)中的單位轉(zhuǎn)換問題;22% 屬于模態(tài)不匹配錯誤,多發(fā)生在未明確指定輸入輸出類型的場景中;15% 由于函數(shù)缺失導(dǎo)致,這反映了現(xiàn)有函數(shù)庫仍需擴(kuò)展。

圖片

圖片

總結(jié)

該研究提出的符號化生成任務(wù)描述語言及配套推理引擎,為多模態(tài)任務(wù)提供了一種無需專門訓(xùn)練的全新高效解決方案。通過利用預(yù)訓(xùn)練大語言模型將自然語言指令直接轉(zhuǎn)化為符號化工作流,該方法成功實(shí)現(xiàn)了 12 類跨模態(tài)生成任務(wù)的靈活合成。實(shí)驗(yàn)證明,該框架不僅在生成內(nèi)容質(zhì)量上媲美現(xiàn)有的先進(jìn)統(tǒng)一模型,更在效率、可編輯性和可中斷性等方面展現(xiàn)出顯著優(yōu)勢。符號化任務(wù)表示方法或許能為提升生成式 AI 能力提供一條經(jīng)濟(jì)高效且可擴(kuò)展的技術(shù)路徑。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-03-13 10:18:42

2024-09-10 10:07:19

2025-06-09 09:50:00

VeactReact

2023-05-10 14:58:06

開源模型

2017-12-15 17:14:10

云端

2015-07-30 12:27:30

重郵華為

2020-12-13 13:40:22

健康碼移動應(yīng)用

2024-08-26 07:40:00

AI訓(xùn)練

2015-05-06 13:52:52

微軟外媒

2025-06-13 09:10:00

2025-04-16 02:55:00

2025-04-14 09:38:00

2025-03-18 09:29:54

2014-07-29 13:25:43

WWDC 2014 S

2022-11-29 15:15:47

AI模型

2023-07-22 13:17:33

人工智能框架

2024-01-24 09:24:19

自動駕駛算法

2024-04-23 13:38:00

AI數(shù)據(jù)

2012-02-28 09:54:01

Windows 8微軟賬戶

2023-07-17 08:03:03

Shell腳本SQL
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號