?Meta發(fā)布Multi-SpatialMLLM模型,實(shí)現(xiàn)動(dòng)態(tài)場(chǎng)景精準(zhǔn)解析

?Meta發(fā)布Multi-SpatialMLLM模型,實(shí)現(xiàn)動(dòng)態(tài)場(chǎng)景精準(zhǔn)解析

Meta公司于5月28日發(fā)布革命性多模態(tài)大模型Multi-SpatialMLLM,通過整合深度感知、視覺對(duì)應(yīng)和動(dòng)態(tài)感知三大核心組件,成功突破傳統(tǒng)單幀圖像分析的局限性。該模型由Meta FAIR團(tuán)隊(duì)聯(lián)合香港中文大學(xué)開發(fā),旨在解決機(jī)器人和自動(dòng)駕駛等領(lǐng)域?qū)?fù)雜空間理解的迫切需求——此前主流模型在基礎(chǔ)空間推理中錯(cuò)誤率居高不下,甚至難以區(qū)分左右方位。

研究團(tuán)隊(duì)創(chuàng)新性地構(gòu)建了包含2700萬(wàn)樣本的MultiSPA數(shù)據(jù)集,融合Aria Digital Twin、Panoptic Studio等高精度3D/4D場(chǎng)景數(shù)據(jù),并借助GPT-4o生成多樣化任務(wù)模板。通過深度感知、相機(jī)移動(dòng)感知等五項(xiàng)專項(xiàng)訓(xùn)練,模型在多幀動(dòng)態(tài)推理中的表現(xiàn)顯著提升。測(cè)試數(shù)據(jù)顯示,其在MultiSPA基準(zhǔn)測(cè)試中準(zhǔn)確率較基線模型平均提升36%,高難度相機(jī)移動(dòng)向量預(yù)測(cè)任務(wù)亦達(dá)到18%的準(zhǔn)確率,遠(yuǎn)超傳統(tǒng)方法的隨機(jī)猜測(cè)水平。

更令人矚目的是,該模型在BLINK基準(zhǔn)測(cè)試中以接近90%的準(zhǔn)確率超越專有系統(tǒng),同時(shí)保持標(biāo)準(zhǔn)視覺問答(VQA)任務(wù)的原有性能,證明其通用性未受空間專項(xiàng)訓(xùn)練的削弱。這一突破標(biāo)志著多模態(tài)大模型從靜態(tài)理解邁向動(dòng)態(tài)場(chǎng)景認(rèn)知的關(guān)鍵轉(zhuǎn)折,為智能設(shè)備在真實(shí)環(huán)境中的交互提供了全新可能。隨著技術(shù)迭代,Meta或?qū)⒔璐遂柟唐湓贏I硬件生態(tài)的領(lǐng)先地位,特別是在即將發(fā)布的Hypernova智能眼鏡等終端產(chǎn)品中實(shí)現(xiàn)落地應(yīng)用。

原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.2079x.cn/article/721549.html

AI的頭像AI認(rèn)證作者

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論