豆包大模型團(tuán)隊開源VideoWorld:無需語言模型也能認(rèn)知世界

豆包大模型團(tuán)隊開源VideoWorld:無需語言模型也能認(rèn)知世界

近日,豆包大模型團(tuán)隊攜手北京交通大學(xué)、中國科學(xué)技術(shù)大學(xué),共同推出了一款名為“VideoWorld”的視頻生成實驗?zāi)P?,并宣布即日起面向公眾開源。

VideoWorld在業(yè)界首次實現(xiàn)了無需依賴語言模型即可認(rèn)知世界的創(chuàng)新突破。傳統(tǒng)多模態(tài)模型如Sora、DALL-E、Midjourney等大多依賴語言或標(biāo)簽數(shù)據(jù)學(xué)習(xí),但語言并不能全面捕捉真實世界的知識。而VideoWorld則摒棄了語言模型,通過純視覺信號的學(xué)習(xí),實現(xiàn)了統(tǒng)一執(zhí)行理解和推理任務(wù)的能力。

該模型基于一種先進(jìn)的潛在動態(tài)模型,能夠高效壓縮視頻幀間的變化信息,從而大幅提升知識學(xué)習(xí)的效率和效果。更令人矚目的是,在不依賴任何強(qiáng)化學(xué)習(xí)搜索或獎勵函數(shù)機(jī)制的前提下,VideoWorld已經(jīng)展現(xiàn)出了專業(yè)級的圍棋水平,達(dá)到了5段9×9的標(biāo)準(zhǔn),并能在多種環(huán)境中執(zhí)行復(fù)雜的機(jī)器人任務(wù)。

原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請注明出處:http://m.2079x.cn/article/705620.html

AI的頭像AI認(rèn)證作者

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評論