近日,阿里團(tuán)隊(duì)宣布了一項(xiàng)重大創(chuàng)新成果——全新AI視頻生成框架Tora的正式推出。該框架集成了文本、視覺(jué)及軌跡條件,通過(guò)其獨(dú)特的軌跡導(dǎo)向擴(kuò)散變換器(DiT)技術(shù),實(shí)現(xiàn)了對(duì)視頻內(nèi)容的精準(zhǔn)控制與生成,為電影特效、虛擬現(xiàn)實(shí)等領(lǐng)域帶來(lái)了前所未有的創(chuàng)作自由與可能性。
Tora框架的核心設(shè)計(jì)圍繞著三個(gè)關(guān)鍵組件展開(kāi):軌跡提取器(TE)、時(shí)空DiT模塊以及運(yùn)動(dòng)引導(dǎo)融合器(MGF)。TE利用先進(jìn)的3D視頻壓縮網(wǎng)絡(luò)技術(shù),將任意輸入的軌跡信息高效編碼為分層時(shí)空運(yùn)動(dòng)補(bǔ)丁,為后續(xù)的視頻生成奠定堅(jiān)實(shí)基礎(chǔ)。而MGF則巧妙地將這些運(yùn)動(dòng)補(bǔ)丁與DiT模塊相結(jié)合,確保生成的視頻能夠嚴(yán)格遵循預(yù)設(shè)的軌跡,呈現(xiàn)出高度連貫且自然的運(yùn)動(dòng)效果。
尤為值得一提的是,Tora框架支持制作長(zhǎng)達(dá)204幀、720P分辨率的高清視頻,同時(shí)允許用戶(hù)精確控制視頻的持續(xù)時(shí)間、寬高比及分辨率,滿(mǎn)足了多樣化的創(chuàng)作需求。通過(guò)大量實(shí)驗(yàn)驗(yàn)證,Tora在保持高運(yùn)動(dòng)保真度的同時(shí),還能細(xì)致入微地模擬物理世界的運(yùn)動(dòng)規(guī)律,為觀眾帶來(lái)更加逼真、沉浸的視覺(jué)體驗(yàn)。
阿里團(tuán)隊(duì)將Tora形象地比喻為“神筆馬良版”的視頻生成工具,寓意著用戶(hù)只需簡(jiǎn)單“畫(huà)圈”便能操控物體的運(yùn)動(dòng)軌跡,輕松實(shí)現(xiàn)復(fù)雜而精妙的視頻創(chuàng)作。這一設(shè)計(jì)理念不僅極大地降低了視頻制作的門(mén)檻,更為電影特效師、廣告制作人以及虛擬現(xiàn)實(shí)開(kāi)發(fā)者等專(zhuān)業(yè)人士提供了前所未有的創(chuàng)作工具,將極大地推動(dòng)相關(guān)行業(yè)的創(chuàng)新發(fā)展。
隨著Tora框架的正式發(fā)布,阿里團(tuán)隊(duì)再次展示了其在人工智能領(lǐng)域的深厚積累與創(chuàng)新能力。未來(lái),隨著技術(shù)的不斷迭代與升級(jí),我們有理由相信Tora將為全球的視頻創(chuàng)作與傳播領(lǐng)域帶來(lái)更多驚喜與變革。
原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.2079x.cn/article/672130.html