偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

字節(jié)憋大招,中國(guó)版Sora該有的樣子! 原創(chuàng)

發(fā)布于 2024-9-25 16:05
瀏覽
0收藏

編輯 | 言征

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

字節(jié)終于又跳動(dòng)了一把!昨天,字節(jié)豆包大模型冷不防就公開(kāi)了一個(gè)新品大招!

9月24日,深圳。字節(jié)對(duì)于大模型領(lǐng)域的雄心壯志再度升級(jí),不等OpenAI的Sora發(fā)布,視頻生成領(lǐng)域,字節(jié)要當(dāng)No.1。

字節(jié)就是這樣,總在看似尋常的更新會(huì)議上,放出驚艷的大招!

劃重點(diǎn):不負(fù)大家對(duì)于字節(jié)的期待,全新的豆包視頻生成模型實(shí)在威力驚人,活動(dòng)現(xiàn)場(chǎng)非?;鸨?!

字節(jié)憋大招,中國(guó)版Sora該有的樣子!-AI.x社區(qū)圖片

巡展開(kāi)始,火山引擎總裁譚待宣布了豆包大模型家族的新成員——全新發(fā)布豆包·視頻生成模型、以及豆包·音樂(lè)模型、豆包·同聲傳譯模型、豆包通用模型pro 和文生圖模型、語(yǔ)音合成模型等垂類(lèi)模型大幅升級(jí)。這也宣告了字節(jié)在大模型領(lǐng)域,正式角逐AI視頻生成賽道。

可以這樣形容,即便是Sora、可靈,都要讓出王座!

一、字節(jié)版Sora,重新定義中國(guó)視頻大模型

此次全新發(fā)布的豆包視頻生成模型有兩款:PixelDance、Seaweed。活動(dòng)現(xiàn)場(chǎng)展示的視頻生成效果令人驚嘆。無(wú)論是語(yǔ)義理解能力,多個(gè)主體運(yùn)動(dòng)的復(fù)雜交互畫(huà)面,還是多鏡頭切換的內(nèi)容一致性,豆包視頻生成大模型均達(dá)到業(yè)界先進(jìn)水平?;鹕揭婵偛米T待表示,“視頻生成有很多難關(guān)亟待突破。豆包兩款模型會(huì)持續(xù)演進(jìn),在解決關(guān)鍵問(wèn)題上探索更多可能性,加速拓展AI視頻的創(chuàng)作空間和應(yīng)用落地?!?/p>

此前視頻生成模型雖然逼真,但看多了就會(huì)發(fā)現(xiàn)不少雞肋之處:只能完成簡(jiǎn)單指令、多主體交互容易變形、運(yùn)鏡延伸時(shí)一致性差等等。

這次字節(jié)的豆包視頻生成模型一次打包全部搞定了這些難題,該模型不僅能夠深度理解并響應(yīng)復(fù)雜指令,驅(qū)動(dòng)不同人物角色完成一系列精細(xì)的動(dòng)作互動(dòng),更在細(xì)節(jié)處理上達(dá)到了極致,從人物樣貌、服裝的微妙變化到頭飾的精準(zhǔn)呈現(xiàn),均能在不同運(yùn)鏡角度下保持高度一致,仿佛實(shí)拍般自然流暢。

字節(jié)憋大招,中國(guó)版Sora該有的樣子!-AI.x社區(qū)除了手上的表有一些些閃動(dòng),人物比例、動(dòng)作、肢體、光影等等,幾乎毫無(wú)瑕疵。(來(lái)源:數(shù)字生命卡茲克)

有創(chuàng)作者在搶鮮體驗(yàn)豆包視頻生成模型時(shí)發(fā)現(xiàn),其生成的視頻不僅能夠遵循復(fù)雜指令,讓不同人物完成多個(gè)動(dòng)作指令的互動(dòng),人物樣貌、服裝細(xì)節(jié)甚至頭飾在不同運(yùn)鏡下也保持一致,接近實(shí)拍效果。

字節(jié)憋大招,中國(guó)版Sora該有的樣子!-AI.x社區(qū)Prompt:拿著鐮刀的死神朝女人走近。特寫(xiě)女人的臉,她驚恐地尖叫。(來(lái)源:數(shù)字生命卡茲克)

巡展上火山引擎介紹,豆包視頻生成模型基于 DiT 架構(gòu),通過(guò)高效的DiT融合計(jì)算單元,讓視頻在大動(dòng)態(tài)與運(yùn)鏡中自由切換,擁有變焦、環(huán)繞、平搖、縮放、目標(biāo)跟隨等多鏡頭語(yǔ)言能力。全新設(shè)計(jì)的擴(kuò)散模型訓(xùn)練方法更是攻克了多鏡頭切換的一致性難題,在鏡頭切換時(shí)可同時(shí)保持主體、風(fēng)格、氛圍的一致性,這也是豆包視頻生成模型獨(dú)樹(shù)一幟的技術(shù)創(chuàng)新。

經(jīng)過(guò)剪映、即夢(mèng)AI等業(yè)務(wù)場(chǎng)景打磨和持續(xù)迭代,豆包視頻生成模型具備專(zhuān)業(yè)級(jí)光影布局和色彩調(diào)和,畫(huà)面視覺(jué)極具美感和真實(shí)感。深度優(yōu)化的Transformer結(jié)構(gòu),則大幅提升了豆包視頻生成的泛化能力,支持3D動(dòng)畫(huà)、2D動(dòng)畫(huà)、國(guó)畫(huà)、黑白、厚涂等多種風(fēng)格,適配電影、電視、電腦、手機(jī)等各種設(shè)備的比例,不僅適用于電商營(yíng)銷(xiāo)、動(dòng)畫(huà)教育、城市文旅、微劇本等企業(yè)場(chǎng)景,也能為專(zhuān)業(yè)創(chuàng)作者和藝術(shù)家們提供創(chuàng)作輔助。

字節(jié)憋大招,中國(guó)版Sora該有的樣子!-AI.x社區(qū)圖片

Prompt:小貓和小熊貓開(kāi)心地跳著,然后擁抱在一起。(來(lái)源:機(jī)器之心)小貓晃動(dòng)著爪子,和小熊貓玩親親,細(xì)節(jié)層次豐富,光影隨著主體運(yùn)動(dòng)而變化,大幅提升畫(huà)面視覺(jué)審美。

目前,新款豆包視頻生成模型正在即夢(mèng)AI內(nèi)測(cè)版小范圍測(cè)試,未來(lái)將逐步開(kāi)放給所有用戶。

二、背后有哪些黑科技?

大家可能好奇,首次突破多主體互動(dòng)難關(guān),字節(jié)如何做到的?

首先,是豆包大模型能力的提升?!岸拱曨l生成”大模型憑借其卓越的語(yǔ)義理解能力、對(duì)復(fù)雜交互畫(huà)面的精準(zhǔn)捕捉以及多鏡頭切換下的內(nèi)容一致性,成功躋身業(yè)界先進(jìn)水平。

據(jù)悉,“豆包視頻生成”模型依托字節(jié)跳動(dòng)自主研發(fā)的DiT(Dynamic Integration Transformer)架構(gòu),通過(guò)高效的DiT融合計(jì)算單元,實(shí)現(xiàn)了視頻在大動(dòng)態(tài)場(chǎng)景與多樣運(yùn)鏡之間的無(wú)縫切換。這一技術(shù)突破賦予了視頻變焦、環(huán)繞、平搖、縮放、目標(biāo)跟隨等多鏡頭語(yǔ)言能力,讓視頻創(chuàng)作更加自由靈動(dòng),滿足了創(chuàng)作者對(duì)視覺(jué)表達(dá)的無(wú)限想象。

其次,為了進(jìn)一步提升視頻創(chuàng)作的專(zhuān)業(yè)性和觀賞性,“豆包視頻生成”團(tuán)隊(duì)還創(chuàng)新性地采用了全新設(shè)計(jì)的擴(kuò)散模型訓(xùn)練方法。

字節(jié)憋大招,中國(guó)版Sora該有的樣子!-AI.x社區(qū)

prompt:睡美人躺在床上陷入沉睡,窗外的小鳥(niǎo)嘰嘰喳喳也吵不醒她,這時(shí)一位王子俯下身吻了睡美人,試圖喚醒她。(來(lái)源:機(jī)器之心) 在這個(gè) prompt 中,涉及多個(gè)鏡頭的切換,但主體、風(fēng)格、氛圍和邏輯仍能保持一致性。

這一方法有效攻克了多鏡頭切換過(guò)程中保持主體、風(fēng)格、氛圍一致性的技術(shù)難題,確保在鏡頭切換的瞬間,視頻的整體氛圍與細(xì)節(jié)表現(xiàn)依然和諧統(tǒng)一,為觀眾帶來(lái)更加沉浸式的觀看體驗(yàn)。

三、寫(xiě)在最后

自此,AI視頻賽道,字節(jié)可謂一鳴驚人!2025前,我們看到了一個(gè)AI武裝版的字節(jié)正在醞釀之中。期待王者歸來(lái)!

最后不得不說(shuō)一句,當(dāng)你認(rèn)為一切已黯淡成型時(shí),宇宙條正悄悄為你準(zhǔn)備新的開(kāi)始。這正是,大模型戰(zhàn)場(chǎng)的魅力。

??本文轉(zhuǎn)載自???51CTO技術(shù)棧??,作者:言征

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦