一鍵點、萬物動! 騰訊混元聯(lián)合清華、港科大推出圖生視頻大模型“Follow Your Click”
原創(chuàng)編輯 | 言征
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
3月15日,騰訊混元和清華大學(xué)、香港科技大學(xué)聯(lián)合推出全新圖生視頻模型“Follow-Your-Click“,基于輸入模型的圖片,只需點擊對應(yīng)區(qū)域,加上少量提示詞,就可以讓圖片中原本靜態(tài)的區(qū)域動起來,一鍵轉(zhuǎn)換成視頻。

當(dāng)前的圖生視頻大模型中,一般的生成方法不僅需要用戶在提示詞中描述運動區(qū)域,還需要提供運動指令的詳細(xì)描述,過程較為復(fù)雜。另外,從生成的效果來看,現(xiàn)有圖像生成視頻技術(shù)在移動圖像的指定部分上缺乏控制,生成的視頻往往需要移動整個場景,而不是圖像上的某一個區(qū)域,精準(zhǔn)度和靈活性上有所欠缺。
為了解決這些問題,騰訊混元大模型團(tuán)隊、清華和港科大的聯(lián)合項目組提出了更實用和可控的圖像到視頻生成模型Follow-Your-Click,帶來更加便捷的交互,也讓圖片“一鍵點,萬物動”成為現(xiàn)實。

圖像到視頻生成的技術(shù)在電影內(nèi)容制作、增強現(xiàn)實、游戲制作以及廣告等多個行業(yè)的AIGC應(yīng)用上有著廣泛前景,是2024年最熱門的AI技術(shù)之一。
據(jù)了解,本聯(lián)合項目組中的騰訊混元大模型團(tuán)隊,正在持續(xù)研究和探索多模態(tài)技術(shù),擁有行業(yè)領(lǐng)先的視頻生成能力。此前,騰訊混元大模型作為技術(shù)合作伙伴,支持《人民日報》打造原創(chuàng)視頻《江山如此多嬌》,生成中國大美河山的精美視頻片段,展示出了較強的內(nèi)容理解、邏輯推理和畫面生成能力。
論文鏈接:https://arxiv.org/abs/2403.08268
Github:https://follow-your-click.github.io/































