
英偉達(dá)于近日發(fā)布全新視覺(jué)語(yǔ)言模型Eagle 2.5,這款僅8B參數(shù)的AI在長(zhǎng)視頻理解領(lǐng)域?qū)崿F(xiàn)突破。該模型在Video-MME基準(zhǔn)測(cè)試(512幀輸入)中斬獲72.4%準(zhǔn)確率,性能直指Qwen2.5-VL-72B等大參數(shù)量級(jí)競(jìng)品。
Eagle 2.5的核心突破源自?xún)身?xiàng)創(chuàng)新技術(shù):信息優(yōu)先采樣通過(guò)圖像區(qū)域保留技術(shù),將原始圖像有效信息保留率提升至60%以上,同時(shí)自動(dòng)降級(jí)采樣系統(tǒng)能根據(jù)上下文動(dòng)態(tài)平衡圖文輸入比例。漸進(jìn)式后訓(xùn)練策略使模型逐步適應(yīng)從32K到128K的上下文窗口擴(kuò)展,避免過(guò)擬合特定數(shù)據(jù)長(zhǎng)度。
為支撐長(zhǎng)視頻理解能力,英偉達(dá)構(gòu)建了專(zhuān)屬的Eagle-Video-110K數(shù)據(jù)集。該數(shù)據(jù)集采用雙重標(biāo)注機(jī)制:既有基于GPT-4生成的章節(jié)級(jí)故事描述,也包含GPT-4o標(biāo)注的片段級(jí)問(wèn)答對(duì),通過(guò)余弦相似度篩選確保數(shù)據(jù)多樣性。在長(zhǎng)視頻任務(wù)中,該模型對(duì)≥128幀內(nèi)容的理解準(zhǔn)確率提升23%。
性能測(cè)試顯示,Eagle 2.5在MVBench視頻理解測(cè)試中取得74.8分,較前代提升18%;在DocVQA文檔圖像解析測(cè)試中,以94.1%準(zhǔn)確率刷新行業(yè)紀(jì)錄。消融實(shí)驗(yàn)證實(shí),移除漸進(jìn)式訓(xùn)練會(huì)導(dǎo)致長(zhǎng)視頻任務(wù)性能下降12%,而取消信息優(yōu)先采樣會(huì)令圖像細(xì)節(jié)識(shí)別率降低9%。
目前該模型已集成SigLIP視覺(jué)編碼器,支持4K分辨率圖像處理。在汽車(chē)故障檢測(cè)實(shí)測(cè)中,系統(tǒng)通過(guò)3分鐘行車(chē)記錄儀視頻,成功識(shí)別出渦輪增壓器異常震動(dòng)征兆,響應(yīng)速度較傳統(tǒng)方案快3倍。
英偉達(dá)透露,Eagle 2.5技術(shù)將優(yōu)先應(yīng)用于醫(yī)療影像分析和工業(yè)質(zhì)檢領(lǐng)域。其輕量化特性使得在邊緣設(shè)備部署成為可能,單張RTX 4090顯卡即可實(shí)現(xiàn)每秒45幀的實(shí)時(shí)視頻解析。開(kāi)發(fā)套件預(yù)計(jì)在6月向合作伙伴開(kāi)放測(cè)試。
原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.2079x.cn/article/716210.html