Sora視頻生成模型亮相:技術(shù)驚艷但仍有挑戰(zhàn)

Sora視頻生成模型亮相:技術(shù)驚艷但仍有挑戰(zhàn)

近日,OpenAI展示了其新型視頻生成模型Sora,這一模型在文本轉(zhuǎn)視頻技術(shù)上取得了顯著進(jìn)步。然而,在彭博社進(jìn)行的測試中,Sora的表現(xiàn)并不完美,出現(xiàn)了一些不符合現(xiàn)實(shí)場景的動作,如鸚鵡飛過猴子時(shí)翅膀扭曲,以及猴子身上出現(xiàn)鸚鵡尾巴等。

這些問題反映了Sora在理解和呈現(xiàn)物體物理特性方面的局限性。OpenAI科學(xué)家Bill Peebles也承認(rèn)了這一點(diǎn),他表示:“確實(shí)會在片段中找到一些奇怪的動作?!?/p>

Sora采用Diffusion transformer技術(shù),將視頻內(nèi)容分解成一系列patch,并通過去噪技術(shù)預(yù)測出清晰的原始圖像信息。雖然這種方法優(yōu)化了視頻生成效果,但Sora仍面臨一系列挑戰(zhàn)和局限性。

這些挑戰(zhàn)包括物理交互的準(zhǔn)確性、對象狀態(tài)變化的一致性、長期樣本的連貫性、物體的自發(fā)出現(xiàn)、手部和身體部位的處理、計(jì)算資源的需求、模型的泛化能力以及視頻編輯和擴(kuò)展的能力。在復(fù)雜場景中,Sora可能會出現(xiàn)不符合現(xiàn)實(shí)場景的動作,如籃球穿過籃筐側(cè)面、狗在走路時(shí)相互穿過等。

盡管Sora在某些特定場景下表現(xiàn)出色,但OpenAI表示,該模型仍有很長的路要走,需要解決許多技術(shù)挑戰(zhàn)。隨著技術(shù)的不斷進(jìn)步,我們有理由相信Sora的未來會更加出色。

原創(chuàng)文章,作者:秋秋,如若轉(zhuǎn)載,請注明出處:http://m.2079x.cn/article/634322.html

秋秋的頭像秋秋管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評論