StreamingT2V突破AI視頻生成極限：2分鐘免費(fèi)長(zhǎng)視頻開源問世

AI ? 2024年4月16日 11:22:00 ? AI

近日，由Picsart AI Research等多個(gè)團(tuán)隊(duì)聯(lián)合開發(fā)的AI視頻模型StreamingT2V驚艷亮相，以其強(qiáng)大的長(zhǎng)視頻生成能力刷新了行業(yè)記錄。這款模型能夠生成長(zhǎng)達(dá)1200幀、時(shí)長(zhǎng)達(dá)2分鐘的視頻，不僅在技術(shù)上超越了此前備受矚目的Sora模型，更以其免費(fèi)開源的特性，為開源生態(tài)注入了新的活力。

StreamingT2V的發(fā)布標(biāo)志著視頻生成領(lǐng)域取得了重要突破。此前，市場(chǎng)上的視頻生成模型大多只能生成幾秒到十幾秒的視頻，而Sora模型的60秒生成能力已經(jīng)算是業(yè)內(nèi)佼佼者。然而，StreamingT2V不僅將視頻生成時(shí)長(zhǎng)提升至2分鐘，理論上還可以做到無限長(zhǎng)，為視頻生成領(lǐng)域帶來了前所未有的可能性。

StreamingT2V的成功得益于其先進(jìn)的自回歸技術(shù)架構(gòu)。該模型能夠創(chuàng)建具有豐富運(yùn)動(dòng)動(dòng)態(tài)的長(zhǎng)視頻，同時(shí)保持視頻的時(shí)間一致性和高幀級(jí)圖像質(zhì)量。通過引入條件注意力模塊（CAM）和外觀保留模塊（APM），以及一種隨機(jī)混合方法，StreamingT2V有效解決了現(xiàn)有文本到視頻擴(kuò)散模型在擴(kuò)展到長(zhǎng)視頻時(shí)出現(xiàn)的質(zhì)量下降、表現(xiàn)生硬或停滯等問題。

CAM作為短期記憶塊，通過注意機(jī)制調(diào)節(jié)當(dāng)前一代的視頻，確保視頻塊之間的過渡自然流暢；而APM作為長(zhǎng)期記憶塊，則從第一個(gè)視頻塊中提取高級(jí)場(chǎng)景和對(duì)象特征，防止模型在生成過程中忘記初始場(chǎng)景。此外，StreamingT2V還利用高分辨率文本到視頻模型對(duì)生成的視頻進(jìn)行自動(dòng)回歸增強(qiáng)，進(jìn)一步提高了視頻的質(zhì)量和分辨率。

目前，StreamingT2V已經(jīng)在GitHub上開源，并在huggingface上提供了免費(fèi)試玩。盡管由于服務(wù)器負(fù)載可能較高，用戶可能需要耐心等待，但嘗試輸入文字和圖片提示來生成視頻的體驗(yàn)依然讓人興奮。huggingface上也展示了一些成功的案例，這些案例充分證明了StreamingT2V在視頻生成方面的強(qiáng)大實(shí)力。

StreamingT2V的發(fā)布不僅為視頻生成領(lǐng)域帶來了新的技術(shù)突破，也為開源社區(qū)提供了一個(gè)強(qiáng)大的工具。它的出現(xiàn)將有助于推動(dòng)相關(guān)技術(shù)的發(fā)展和應(yīng)用，為電影制作、游戲開發(fā)、虛擬世界構(gòu)建等領(lǐng)域帶來更多創(chuàng)新和可能性。

未來，隨著StreamingT2V等先進(jìn)技術(shù)的不斷完善和普及，我們或許可以期待看到更多高質(zhì)量、長(zhǎng)時(shí)長(zhǎng)的AI生成視頻在各個(gè)領(lǐng)域得到廣泛應(yīng)用。同時(shí)，開源社區(qū)也將繼續(xù)發(fā)揮重要作用，推動(dòng)相關(guān)技術(shù)的不斷創(chuàng)新和發(fā)展。

原創(chuàng)文章，作者：AI，如若轉(zhuǎn)載，請(qǐng)注明出處：http://m.2079x.cn/article/647410.html

AI認(rèn)證作者

0 0

新聞

微軟Build 2025大會(huì)：GitHub入駐Teams，程序員聊天窗口秒變代碼戰(zhàn)場(chǎng)

微軟在Build 2025大會(huì)上甩出王炸組合拳，開發(fā)者現(xiàn)在通過Teams聊天窗口就能操控GitHub全流程。新增的”情報(bào)卡片”可實(shí)時(shí)顯示代碼評(píng)審動(dòng)態(tài)，當(dāng)同事…

NEWS
2025年5月20日
AI

Runway發(fā)布Gen-4視頻模型：角色一致性突破，好萊塢合作加速AI電影創(chuàng)作

當(dāng)?shù)貢r(shí)間周一，AI初創(chuàng)公司Runway正式推出新一代視頻生成模型Gen-4，宣稱其可生成“保真度最高、角色場(chǎng)景高度一致”的AI視頻。該模型已向個(gè)人和企業(yè)用戶開放，試圖在競(jìng)爭(zhēng)激烈的A…

AI
2025年4月1日
AI

Anthropic全面開放Claude AI的GitHub集成賦能所有開發(fā)者

2月27日，人工智能領(lǐng)域的領(lǐng)先企業(yè)Anthropic宣布，面向所有免費(fèi)、Pro和Teams用戶開放Claude AI的GitHub集成功能。此前，這一功能僅限Claude企業(yè)版（C…

好奇寶寶
2025年2月27日
新聞

GitHub提醒用戶10月22日前啟用雙重驗(yàn)證，否則將被禁用部分功能

GitHub 向用戶發(fā)出警告：如果在北京時(shí)間 2024 年 10 月 22 日前仍未啟用雙重驗(yàn)證（2FA），他們將被禁用部分功能。

潮玩君
2024年9月9日
新聞

托管在 GitHub 上的諸多開源項(xiàng)目被曝存在 Auth tokens 泄露問題

派拓網(wǎng)絡(luò)（Palo Alto Networks）旗下安全部門 Unit 42 于 8 月 13 日發(fā)布報(bào)告，表示托管在 GitHub 上的很多熱門開源項(xiàng)目存在身份認(rèn)證授權(quán)令牌（Auth tokens）泄露問題，讓整個(gè)項(xiàng)目面臨數(shù)據(jù)被盜和篡改植入惡意代碼等風(fēng)險(xiǎn)。

潮玩君
2024年8月16日
新聞

GitHub遭遇大規(guī)模宕機(jī)，核心服務(wù)癱瘓后緊急恢復(fù)

據(jù)報(bào)道，全球領(lǐng)先的代碼托管平臺(tái)GitHub在今日遭遇了前所未有的大規(guī)模宕機(jī)事件，其主站及多個(gè)核心服務(wù)在短時(shí)間內(nèi)幾乎全面癱瘓。據(jù)GitHub官方狀態(tài)頁面初步分析，此次故障疑似由數(shù)據(jù)庫…

校草
2024年8月15日
AI

谷歌發(fā)布新型視頻生成模型Veo，挑戰(zhàn)OpenAI的Sora

在人工智能領(lǐng)域，視頻生成技術(shù)一直是研究的熱點(diǎn)。近日，谷歌2024 I/O開發(fā)者大會(huì)上宣布推出一款名為Veo的新型視頻生成模型，劍指OpenAI三個(gè)月前推出的Sora，展示了其在視頻…

科技新聞
2024年5月15日
新聞

GitHub擬禁止深度偽造技術(shù)濫用：保護(hù)隱私與鼓勵(lì)研究并行

在人工智能（AI）技術(shù)快速發(fā)展的背景下，深度偽造（Deepfake）技術(shù)因其能夠生成逼真的圖像、音頻和視頻而備受關(guān)注。然而，這種技術(shù)的濫用也引發(fā)了嚴(yán)重的倫理和法律問題。為此，全球知…

科學(xué)
2024年4月30日
AI

OpenAI Sora視頻生成技術(shù)驚艷全球，AI強(qiáng)大到或?qū)㈩嵏埠萌R塢？

近日，OpenAI發(fā)布的最新視頻生成模型Sora引發(fā)了業(yè)界的廣泛關(guān)注。據(jù)悉，該模型已經(jīng)吸引了眾多電影制作人進(jìn)行嘗試，并成功生成了七部超現(xiàn)實(shí)短片，標(biāo)志著視頻生成技術(shù)的未來正在迅速到來…

AI
2024年4月3日
新聞

微軟推出WSL圖形用戶界面，簡(jiǎn)化Linux發(fā)行版管理

近日，微軟在GitHub上悄然發(fā)布了一份關(guān)于Windows Subsystem for Linux（WSL）的提案，該提案詳細(xì)描繪了一個(gè)用于管理Linux發(fā)行版的圖形用戶界面（GU…

科學(xué)
2024年3月25日
產(chǎn)品

GitHub推出企業(yè)版Copilot 定價(jià)每人每月39美元

近日，微軟旗下知名開發(fā)者平臺(tái)GitHub宣布，其備受期待的生成式AI服務(wù)GitHub Copilot企業(yè)版正式向所有企業(yè)客戶開放。這一服務(wù)自去年12月公布發(fā)布計(jì)劃以來，一直備受關(guān)注…

若安丶
2024年2月28日
新聞

微軟計(jì)劃將OpenAI的視頻生成模型Sora整合進(jìn)Copilot 但需時(shí)日

微軟廣告和網(wǎng)絡(luò)服務(wù)部門CEO米哈伊爾?帕拉辛（Mikhail Parakhin）在最近的一條推文中暗示，OpenAI的視頻生成模型Sora最終將與其人工智能助手Copilot集成，但這需要一些時(shí)間。

蘋果派
2024年2月22日
新聞

Sora 新功能引熱潮 OpenAI被曝估值有望超過 800 億美元

據(jù)《紐約時(shí)報(bào)》當(dāng)?shù)貢r(shí)間周五（16 日）報(bào)道，三位知情人士稱 OpenAI 已經(jīng)完成了一項(xiàng)交易，使其在不到 10 個(gè)月的時(shí)間內(nèi)估值幾乎翻了三倍，達(dá)到或超過 800 億美元。

科技探索者
2024年2月18日
新聞

PyPy解釋器宣布遷移至微軟Microsoft GitHub 旨在提升開源項(xiàng)目的可訪問性和用戶基數(shù)

有消息稱，Python解釋器PyPy官方發(fā)布了一份官方新聞稿，宣布已將其自家存儲(chǔ)庫及問題追蹤器遷移至微軟的GitHub上。這一舉措旨在提升PyPy開源項(xiàng)目的可訪問性和用戶基數(shù)，讓更…

秋秋
2024年1月5日

發(fā)表回復(fù)

登錄后才能評(píng)論

StreamingT2V突破AI視頻生成極限：2分鐘免費(fèi)長(zhǎng)視頻開源問世

相關(guān)推薦

發(fā)表回復(fù)