近日,由Picsart AI Research等多個(gè)團(tuán)隊(duì)聯(lián)合開發(fā)的AI視頻模型StreamingT2V驚艷亮相,以其強(qiáng)大的長視頻生成能力刷新了行業(yè)記錄。這款模型能夠生成長達(dá)1200幀、時(shí)長達(dá)2分鐘的視頻,不僅在技術(shù)上超越了此前備受矚目的Sora模型,更以其免費(fèi)開源的特性,為開源生態(tài)注入了新的活力。
StreamingT2V的發(fā)布標(biāo)志著視頻生成領(lǐng)域取得了重要突破。此前,市場上的視頻生成模型大多只能生成幾秒到十幾秒的視頻,而Sora模型的60秒生成能力已經(jīng)算是業(yè)內(nèi)佼佼者。然而,StreamingT2V不僅將視頻生成時(shí)長提升至2分鐘,理論上還可以做到無限長,為視頻生成領(lǐng)域帶來了前所未有的可能性。
StreamingT2V的成功得益于其先進(jìn)的自回歸技術(shù)架構(gòu)。該模型能夠創(chuàng)建具有豐富運(yùn)動動態(tài)的長視頻,同時(shí)保持視頻的時(shí)間一致性和高幀級圖像質(zhì)量。通過引入條件注意力模塊(CAM)和外觀保留模塊(APM),以及一種隨機(jī)混合方法,StreamingT2V有效解決了現(xiàn)有文本到視頻擴(kuò)散模型在擴(kuò)展到長視頻時(shí)出現(xiàn)的質(zhì)量下降、表現(xiàn)生硬或停滯等問題。
CAM作為短期記憶塊,通過注意機(jī)制調(diào)節(jié)當(dāng)前一代的視頻,確保視頻塊之間的過渡自然流暢;而APM作為長期記憶塊,則從第一個(gè)視頻塊中提取高級場景和對象特征,防止模型在生成過程中忘記初始場景。此外,StreamingT2V還利用高分辨率文本到視頻模型對生成的視頻進(jìn)行自動回歸增強(qiáng),進(jìn)一步提高了視頻的質(zhì)量和分辨率。
目前,StreamingT2V已經(jīng)在GitHub上開源,并在huggingface上提供了免費(fèi)試玩。盡管由于服務(wù)器負(fù)載可能較高,用戶可能需要耐心等待,但嘗試輸入文字和圖片提示來生成視頻的體驗(yàn)依然讓人興奮。huggingface上也展示了一些成功的案例,這些案例充分證明了StreamingT2V在視頻生成方面的強(qiáng)大實(shí)力。
StreamingT2V的發(fā)布不僅為視頻生成領(lǐng)域帶來了新的技術(shù)突破,也為開源社區(qū)提供了一個(gè)強(qiáng)大的工具。它的出現(xiàn)將有助于推動相關(guān)技術(shù)的發(fā)展和應(yīng)用,為電影制作、游戲開發(fā)、虛擬世界構(gòu)建等領(lǐng)域帶來更多創(chuàng)新和可能性。
未來,隨著StreamingT2V等先進(jìn)技術(shù)的不斷完善和普及,我們或許可以期待看到更多高質(zhì)量、長時(shí)長的AI生成視頻在各個(gè)領(lǐng)域得到廣泛應(yīng)用。同時(shí),開源社區(qū)也將繼續(xù)發(fā)揮重要作用,推動相關(guān)技術(shù)的不斷創(chuàng)新和發(fā)展。
原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請注明出處:http://m.2079x.cn/article/647410.html