
英偉達(dá)于近日發(fā)布全新視覺語言模型Eagle 2.5,這款僅8B參數(shù)的AI在長視頻理解領(lǐng)域?qū)崿F(xiàn)突破。該模型在Video-MME基準(zhǔn)測試(512幀輸入)中斬獲72.4%準(zhǔn)確率,性能直指Qwen2.5-VL-72B等大參數(shù)量級競品。
Eagle 2.5的核心突破源自兩項(xiàng)創(chuàng)新技術(shù):信息優(yōu)先采樣通過圖像區(qū)域保留技術(shù),將原始圖像有效信息保留率提升至60%以上,同時(shí)自動降級采樣系統(tǒng)能根據(jù)上下文動態(tài)平衡圖文輸入比例。漸進(jìn)式后訓(xùn)練策略使模型逐步適應(yīng)從32K到128K的上下文窗口擴(kuò)展,避免過擬合特定數(shù)據(jù)長度。
為支撐長視頻理解能力,英偉達(dá)構(gòu)建了專屬的Eagle-Video-110K數(shù)據(jù)集。該數(shù)據(jù)集采用雙重標(biāo)注機(jī)制:既有基于GPT-4生成的章節(jié)級故事描述,也包含GPT-4o標(biāo)注的片段級問答對,通過余弦相似度篩選確保數(shù)據(jù)多樣性。在長視頻任務(wù)中,該模型對≥128幀內(nèi)容的理解準(zhǔn)確率提升23%。
性能測試顯示,Eagle 2.5在MVBench視頻理解測試中取得74.8分,較前代提升18%;在DocVQA文檔圖像解析測試中,以94.1%準(zhǔn)確率刷新行業(yè)紀(jì)錄。消融實(shí)驗(yàn)證實(shí),移除漸進(jìn)式訓(xùn)練會導(dǎo)致長視頻任務(wù)性能下降12%,而取消信息優(yōu)先采樣會令圖像細(xì)節(jié)識別率降低9%。
目前該模型已集成SigLIP視覺編碼器,支持4K分辨率圖像處理。在汽車故障檢測實(shí)測中,系統(tǒng)通過3分鐘行車記錄儀視頻,成功識別出渦輪增壓器異常震動征兆,響應(yīng)速度較傳統(tǒng)方案快3倍。
英偉達(dá)透露,Eagle 2.5技術(shù)將優(yōu)先應(yīng)用于醫(yī)療影像分析和工業(yè)質(zhì)檢領(lǐng)域。其輕量化特性使得在邊緣設(shè)備部署成為可能,單張RTX 4090顯卡即可實(shí)現(xiàn)每秒45幀的實(shí)時(shí)視頻解析。開發(fā)套件預(yù)計(jì)在6月向合作伙伴開放測試。
原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請注明出處:http://m.2079x.cn/article/716210.html