智象多模態(tài)大模型添雙翼·理解生成兩大基座共建AIGC創(chuàng)作新航線

12月28日,智象未來科技有限公司在安徽人工智能產(chǎn)業(yè)先導區(qū)啟動儀式中,正式發(fā)布智象多模態(tài)生成大模型3.0版。

啟動儀式上,智象未來創(chuàng)始人兼首席執(zhí)行官梅濤總結(jié)了2024年人工領(lǐng)域技術(shù)發(fā)展的五個標志性事件,分別是以Sora為代表的視覺生成物理世界模擬器、以Chat GPT 4o為代表的多模態(tài)模型、以GPT-o1為代表的從預訓練到后訓練推理優(yōu)化、多模態(tài)大模型賦能具身智能實現(xiàn)軟硬件結(jié)合,以及人工智能學者榮獲諾貝爾化學獎表明AI賦能科研范式變革??梢哉f,過去一年中,AI技術(shù)的未來發(fā)展路徑和應用實踐的方向正愈發(fā)清晰。

梅濤認為,多模態(tài)大模型是通往AGI的必經(jīng)之路,其能夠比單一模態(tài)模型更好地模擬物理世界。而多模態(tài)大模型的技術(shù)演進是線性的,但是在不同的技術(shù)路線中又可以實現(xiàn)跳躍式發(fā)展?;谝陨吓袛?,本次智象未來發(fā)布的智象多模態(tài)生成大模型3.0帶來了圖像和視頻生成能力的全面升級,具體包含了畫面質(zhì)量與相關(guān)性提升、鏡頭運動和畫面運動更可控以及多場景驅(qū)動的優(yōu)化。

同時,智象未來還推出了智象多模態(tài)理解大模型1.0版,理解大模型1.0版通過對物體級別的畫面建模以及事件級別的時空建模,實現(xiàn)了更精細、準確的圖像與視頻內(nèi)容理解。這一理解大模型也進一步服務于理解增強的多模態(tài)生成技術(shù),搭配多模態(tài)生成大模型實現(xiàn)多模態(tài)檢索+多模態(tài)內(nèi)容編輯與生成的二創(chuàng)平臺系統(tǒng),進一步降低用戶的使用門檻并且大幅提升基于IP的多模態(tài)內(nèi)容生成效果。

在模型升級的基礎上,智象未來旗下多款產(chǎn)品也有了新的體驗提升。例如,智象創(chuàng)作工具平臺秉持“能打字,就能做視頻”的理念,基于智象多模態(tài)生成大模型呈現(xiàn)了全新的模型交互體驗。在新版本中,平臺實現(xiàn)了與用戶的自然語言交互,在原有文生視頻的基礎上,增加了對視頻局部進行語音指令輸入的調(diào)整。還可以基于用戶上傳的視頻內(nèi)容,整理成相關(guān)的模型輸出指令。這一功能將極大的降低創(chuàng)意工作者使用AIGC工具編輯視頻的學習門檻,從而提升視頻創(chuàng)作的工作效率。

目前,智象未來擁有國內(nèi)最全的多模態(tài)版權(quán)語料,包含數(shù)十萬小時版權(quán)視頻素材和上萬個授權(quán)IP,涵蓋國內(nèi)70%影視數(shù)據(jù),已形成上億條AIGC二次創(chuàng)作素材,在影視、文旅、通信、營銷、教育等多場景得到廣泛應用,已累計服務全球一百多個國家和地區(qū)的一千多萬用戶和四萬多家企業(yè)客戶。

本次活動現(xiàn)場,智象未來與人民網(wǎng)、上海電影集團、彩訊科技、捷成華視網(wǎng)聚、安徽聯(lián)通、中國移動咪咕音樂等12家生態(tài)伙伴企業(yè)代表簽約,共同打造集技術(shù)研發(fā)、產(chǎn)業(yè)化應用、市場推廣于一體的生態(tài)體系。

本文轉(zhuǎn)載自:,不代表科技訊之立場。原文鏈接:http://v.mrkbao.com/news/1112024123113473920355766.html

陳晨陳晨管理團隊

相關(guān)推薦

發(fā)表回復

登錄后才能評論