偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Code2Video:代碼驅(qū)動(dòng)、智能體協(xié)同、精準(zhǔn)可控的教學(xué)視頻生成

人工智能 新聞
本文提出教育視頻生成的新范式——以可執(zhí)行代碼為核心媒介,結(jié)合三智能體協(xié)同框架,實(shí)現(xiàn)高質(zhì)量、可控、可解釋的教學(xué)視頻生成,為未來(lái)自動(dòng)化教育內(nèi)容創(chuàng)作與多模態(tài)智能系統(tǒng)的發(fā)展提供了堅(jiān)實(shí)基礎(chǔ)。

本研究由新加坡國(guó)立大學(xué) ShowLab 團(tuán)隊(duì)主導(dǎo)完成。 共一作者 Yanzhe Chen 陳彥哲(博士生)與 Kevin Qinghong Lin 林慶泓(博士生)均來(lái)自 ShowLab@NUS,分別聚焦于多模態(tài)理解以及智能體(Agent)研究。 項(xiàng)目負(fù)責(zé)人為新加坡國(guó)立大學(xué)校長(zhǎng)青年助理教授 Mike Zheng Shou 壽政。

隨著視頻生成模型的發(fā)展,基于像素空間(Pixel-based)的文生視頻方法(如 Sora2、Veo3 等擴(kuò)散模型)在自然場(chǎng)景生成上表現(xiàn)出色,但在教育場(chǎng)景中仍存在以下不足:

  • 文本模糊、公式失真、動(dòng)畫邏輯不連貫;
  • 缺乏對(duì)知識(shí)點(diǎn)的精準(zhǔn)把控和結(jié)構(gòu)化呈現(xiàn);
  • 難以復(fù)現(xiàn)、難以編輯,無(wú)法滿足教學(xué)需求。

圖 1: Pixel-based Video Generation對(duì)比我們的Code-driven Video Generataion

視頻 1: 擴(kuò)散模型與 Code2Video 生成視頻對(duì)比

相比之下,教育視頻強(qiáng)調(diào)的是清晰的知識(shí)傳遞、邏輯的演進(jìn)、可控的時(shí)序與空間結(jié)構(gòu)。為此,本文提出了 Code2Video——一種基于代碼驅(qū)動(dòng)的視頻生成新范式。

截屏2025-10-04 12.30.56.png

  • 標(biāo)題:Code2Video: A Code-centric Paradigm for Educational Video Generation
  • 作者:Yanzhe Chen*, Kevin Qinghong Lin*, Mike Zheng Shou
  • 單位:新加坡國(guó)立大學(xué) ShowLab
  • 項(xiàng)目主頁(yè):https://showlab.github.io/Code2Video/
  • 論文鏈接:https://arxiv.org/abs/2510.01174
  • 開源代碼:https://github.com/showlab/Code2Video
  • 開源數(shù)據(jù):https://huggingface.co/datasets/YanzheChen/MMMC

Code2Video 核心設(shè)計(jì)

Code2Video 的目標(biāo)是:以可執(zhí)行代碼(Manim)作為統(tǒng)一媒介,將抽象的知識(shí)點(diǎn)轉(zhuǎn)化為結(jié)構(gòu)化、可復(fù)現(xiàn)的教學(xué)視頻。以代碼為媒介不僅保證了視頻生成的可控性與可解釋性,還保證了在教育視頻中至關(guān)重要的邏輯流暢與視覺一致性。

圖 2: Code2Video 方法示意圖

基于此,本文提出了三智能體(Tri-Agent)協(xié)同框架:

  • 規(guī)劃者(Planner)——從知識(shí)點(diǎn)出發(fā),生成邏輯大綱與教學(xué)分鏡,并通過外部數(shù)據(jù)庫(kù)擴(kuò)展參考圖像和可視化素材,實(shí)現(xiàn)「宏觀規(guī)劃 + 細(xì)節(jié)支撐」。
  • 程序員(Coder)——將教學(xué)分鏡轉(zhuǎn)化為可執(zhí)行的 Manim 代碼,支持并行生成,提出代碼局部?jī)?yōu)化機(jī)制(ScopeRefine),通過類似編輯器的斷點(diǎn) debug 設(shè)計(jì),大幅降低錯(cuò)誤率和 Token 消耗。
  • 鑒賞家(Critic)——利用多模態(tài)模型(VLM)反饋與視覺錨點(diǎn)提示(Visual Anchor Prompt)對(duì)生成的教學(xué)視頻進(jìn)行修正,避免元素遮擋、位置錯(cuò)亂,保證畫面層次清晰、講解可讀。
  • 為解決自動(dòng)生成中常見的元素遮擋、位置錯(cuò)亂等空間布局問題,文本提出視覺錨點(diǎn)提示(Visual Anchor Prompt),為關(guān)鍵視覺元素(如公式、圖表、文本框)在畫面中的相對(duì)位置和層次提供了結(jié)構(gòu)化的指導(dǎo)。在生成代碼時(shí),自動(dòng)維護(hù)錨點(diǎn)提示表,記錄放置對(duì)象以及對(duì)應(yīng)錨點(diǎn)坐標(biāo);在檢查到視頻中布局不當(dāng)時(shí),Critic 會(huì)查表并生成具體的新錨點(diǎn)、以及可執(zhí)行的反饋(如 move to B2)給 Coder 進(jìn)行迭代修正。

圖 3: 視覺錨點(diǎn)提示(Visual Anchor Prompt)示意圖

這種多方位的流水線協(xié)作設(shè)計(jì),使得 Code2Video 能在以下方面發(fā)揮優(yōu)勢(shì):

  • 時(shí)間維度:保證講解的時(shí)序合理與邏輯連貫;
  • 空間維度:確保視覺元素的排布規(guī)范、層次分明;
  • 交互維度:通過 Critic 的反饋閉環(huán),實(shí)現(xiàn)自適應(yīng)的優(yōu)化與迭代。

Code2Video 將復(fù)雜的知識(shí)點(diǎn)轉(zhuǎn)化為邏輯清晰、視覺精美、可擴(kuò)展的教學(xué)視頻,兼顧了視頻質(zhì)量與生成效率。

評(píng)測(cè)基準(zhǔn) MMMC

為系統(tǒng)化評(píng)測(cè),本文構(gòu)建了 MMMC (Massive Multi-discipline Multimodal Coding) 評(píng)測(cè)集:

  • 來(lái)源:3Blue1Brown 官方課程(https://www.3blue1brown.com/#lessons),作為教育視頻設(shè)計(jì)的參考標(biāo)準(zhǔn)(upper bound);
  • 覆蓋:13 個(gè)學(xué)科領(lǐng)域(如拓?fù)鋵W(xué)、幾何學(xué)、概率論、神經(jīng)網(wǎng)絡(luò)等),共計(jì) 117 個(gè)長(zhǎng)視頻;
  • 切分:經(jīng)作者提供的時(shí)間戳切分,得到 339 個(gè)子片段,共 456 個(gè)單元,平均長(zhǎng)度約 3.35 分鐘;
  • 映射:使用 LLM 進(jìn)一步抽取知識(shí)點(diǎn),建立“知識(shí)點(diǎn) → 視頻單元”的映射。

圖 4: MMMC 數(shù)據(jù)集可視化

實(shí)驗(yàn)與評(píng)估

本文從三個(gè)維度對(duì) Code2Video 進(jìn)行系統(tǒng)性評(píng)測(cè):

  • 美學(xué)維度(Aesthetics, AES):采用 VLM-as-a-Judge 的評(píng)測(cè)原則,對(duì)布局、吸引力、邏輯流、風(fēng)格一致性、內(nèi)容準(zhǔn)確性五個(gè)維度進(jìn)行評(píng)分;
  • 效率維度(Efficiency, EFF):統(tǒng)計(jì)平均代碼生成時(shí)長(zhǎng)和 Token 消耗,驗(yàn)證方法的可擴(kuò)展性與部署可行性;
  • 知識(shí)傳遞維度(TeachQuiz):如何定量地衡量一個(gè)教學(xué)視頻真正的「教學(xué)質(zhì)量」?傳統(tǒng)的視頻生成指標(biāo)(如美學(xué)評(píng)分)并不足以評(píng)估視頻的核心目標(biāo)——知識(shí)的有效傳遞。為此,本文提出了 TeachQuiz,一個(gè)旨在直接評(píng)測(cè)教學(xué)效果的全新范式。其核心挑戰(zhàn)在于,作為評(píng)測(cè)者 VLM 模型通常對(duì)評(píng)測(cè)的知識(shí)點(diǎn)擁有「先驗(yàn)知識(shí)」,這使得衡量「學(xué)習(xí)增量」變得困難。為解決此問題,我們引入了一種「選擇性遺忘(Unlearning 機(jī)制)+ 看視頻再學(xué)習(xí)」的評(píng)測(cè)方法:
  • 知識(shí)遺忘:首先通過特定方法引導(dǎo) VLM「遺忘」掉目標(biāo)知識(shí)點(diǎn),制造出一個(gè)「知識(shí)缺口」;
  • 視頻再學(xué)習(xí):其次,VLM 會(huì)觀看生成的教學(xué)視頻以「重新學(xué)習(xí)」目標(biāo)知識(shí)點(diǎn);
  • 效果評(píng)估:最后,VLM 在觀看視頻后回答相關(guān)問題的表現(xiàn),量化了該視頻實(shí)際傳遞的知識(shí)量。

圖 5: TeachQuiz 評(píng)測(cè)指標(biāo)流程示意圖

實(shí)驗(yàn)結(jié)論

  • 像素方法不佳:基于像素空間的文生視頻方法在 AES 與 TeachQuiz 上均得分偏低,尤其在邏輯流與文字清晰度方面存在明顯不足;
  • 代碼范式有效:直接使用 Code LLM 生成 Manim 代碼并渲染視頻的新范式,相比基于像素空間的視頻生成方法在 TeachQuiz 指標(biāo)上平均提升約 30%;
  • 性能穩(wěn)健提升:本文所提出的 Code2Video 方法在美學(xué)和 TeachQuiz 指標(biāo)上取得約 40% 的穩(wěn)定增益;
  • 專業(yè)差距仍存:在長(zhǎng)教學(xué)視頻中,專業(yè)人員制作的視頻仍在敘事深度和細(xì)節(jié)把控上具備明顯優(yōu)勢(shì)。

截屏2025-10-04 12.40.24.png

表 1: Code2Video 與各類方法對(duì)比結(jié)果

圖 6: 可視化對(duì)比示例

視頻 2: Code2Video 生成視頻示例

視頻 3: 預(yù)設(shè)不同模板生成效果示例

消融實(shí)驗(yàn)

本文進(jìn)一步對(duì) Code2Video 的關(guān)鍵組件進(jìn)行了消融分析,以考察各模塊對(duì)視頻質(zhì)量與生成效率的貢獻(xiàn)。

在視頻質(zhì)量方面:

  • Planner 核心作用:移除 Planner 模塊后,美學(xué)(AES)與知識(shí)傳遞指標(biāo)(TeachQuiz)均驟降約 40 分,這表明高層次的講解規(guī)劃與時(shí)序建模是教學(xué)視頻生成的基礎(chǔ)。
  • 敏感性差異:與美學(xué)分?jǐn)?shù)相比,TeachQuiz 指標(biāo)更能揭示教學(xué)視頻的「知識(shí)傳遞能力」,即便視頻在視覺表現(xiàn)上尚可接受,卻無(wú)法支持學(xué)生對(duì)知識(shí)點(diǎn)有效學(xué)習(xí)。
  • 模塊互補(bǔ)性:外部數(shù)據(jù)庫(kù)有助于保證概念可視化的正確性;視覺錨點(diǎn)能夠保證元素布局穩(wěn)定;Critic 模塊對(duì)初步生成的視頻提供進(jìn)一步的迭代修正。

在效率分析方面:

  • 并行執(zhí)行:若移除并行設(shè)計(jì),單個(gè)視頻的平均生成時(shí)長(zhǎng)由 15.4 分鐘提升至 86.6 分鐘;
  • 局部?jī)?yōu)化:相較于重新生成或全局調(diào)試,代碼局部?jī)?yōu)化(ScopeRefine)能夠以更低的代價(jià)完成錯(cuò)誤修復(fù),避免不必要的重復(fù)開銷。

截屏2025-10-04 12.39.23.png

表 2: 關(guān)于視頻質(zhì)量(左表)及生成效率(右表)的消融分析

人類實(shí)驗(yàn)

本文開展了五組人類受試者實(shí)驗(yàn)(每組包含 6 名中學(xué)生 + 2 名本科生),每位受試者僅觀看一種視頻類型并完成 20 個(gè)知識(shí)點(diǎn) × 5 道 TeachQuiz 測(cè)試題。結(jié)果顯示:

  • 一致性:受試者評(píng)分趨勢(shì)與 VLM 評(píng)分一致,但分?jǐn)?shù)區(qū)分度更大;
  • 敏感性:對(duì)遮擋與布局錯(cuò)誤極其敏感,即便短暫錯(cuò)誤也會(huì)顯著拉低評(píng)分;
  • 注意力限制:專業(yè)制作的教學(xué)視頻存在因時(shí)長(zhǎng)過長(zhǎng),受試者常跳過片段,導(dǎo)致 TeachQuiz 得分降低的情況;而 Code2Video 生成的短視頻更契合受試者注意力范圍;
  • 相關(guān)性:美學(xué)得分與 TeachQuiz 得分高度相關(guān),這表明好的教學(xué)視頻能吸引受試者積極參與,從而獲得更優(yōu)的學(xué)習(xí)成果。

截屏2025-10-04 12.39.59.png

表 3: 受試者實(shí)驗(yàn)結(jié)果對(duì)比

結(jié)語(yǔ)

本文提出教育視頻生成的新范式——以可執(zhí)行代碼為核心媒介,結(jié)合三智能體協(xié)同框架,實(shí)現(xiàn)高質(zhì)量、可控、可解釋的教學(xué)視頻生成,為未來(lái)自動(dòng)化教育內(nèi)容創(chuàng)作與多模態(tài)智能系統(tǒng)的發(fā)展提供了堅(jiān)實(shí)基礎(chǔ)。


責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-03-27 09:24:16

2024-10-28 07:30:00

2023-06-13 09:33:37

視頻阿里巴巴

2025-01-14 14:02:05

2025-06-03 06:12:03

2025-05-12 08:25:00

2024-03-25 00:30:00

AI框架

2025-02-18 13:52:02

2025-08-11 06:41:27

2023-04-03 10:04:44

開源模型

2024-04-03 14:11:49

模型訓(xùn)練

2025-08-07 07:56:52

2025-01-26 10:50:00

模型視頻生成

2024-03-27 12:46:53

AI訓(xùn)練

2025-03-27 10:04:27

2023-04-10 21:20:38

2025-02-03 12:16:01

視頻生成AI

2025-02-24 10:03:21

2024-04-07 14:56:22

技術(shù)應(yīng)用
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)