火山引擎多模態(tài)數(shù)據(jù)湖架構(gòu)升級,驅(qū)動企業(yè)邁向AI原生時(shí)代

2025年6月,火山引擎FORCE原動力大會在北京舉辦?;鹕揭鏀?shù)智平臺正式發(fā)布多模態(tài)數(shù)據(jù)湖全新產(chǎn)品架構(gòu)。該架構(gòu)通過存儲與計(jì)算能力的深度優(yōu)化,構(gòu)建兼容文本、圖像、音頻、視頻等多元數(shù)據(jù)的處理框架,為企業(yè)打造適應(yīng)Agentic AI(智能體人工智能)時(shí)代的新一代AI Native數(shù)據(jù)基礎(chǔ)設(shè)施,助力企業(yè)從傳統(tǒng)商業(yè)智能向AI驅(qū)動的決策模式轉(zhuǎn)型。

火山引擎多模態(tài)數(shù)據(jù)湖架構(gòu)升級,驅(qū)動企業(yè)邁向AI原生時(shí)代

隨著全球數(shù)據(jù)規(guī)模爆發(fā)式增長,非結(jié)構(gòu)化數(shù)據(jù)與多模態(tài)AI解決方案的占比正快速攀升。IDC預(yù)測,到2028年全球數(shù)據(jù)總量將達(dá)393ZB,其中超80%為非結(jié)構(gòu)化數(shù)據(jù);Gartner則指出,到2027年,40%的生成式AI解決方案將采用多模態(tài)技術(shù),較2023年的1%實(shí)現(xiàn)飛躍式提升。這一趨勢標(biāo)志著AI正從單一模態(tài)邁向多模態(tài)協(xié)同的“集團(tuán)軍作戰(zhàn)”時(shí)代,要求數(shù)據(jù)基建具備處理復(fù)雜多模態(tài)信息的能力,以更貼近人類感知的方式理解世界。

火山引擎多模態(tài)數(shù)據(jù)湖解決方案在此背景下持續(xù)迭代。此前,該方案已實(shí)現(xiàn)海量結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理,為LLM(大語言模型)全生命周期訓(xùn)練提供數(shù)據(jù)支持。此次升級進(jìn)一步強(qiáng)化了多模態(tài)數(shù)據(jù)處理能力:新增模型數(shù)據(jù)處理蒸餾與多模態(tài)分析能力,優(yōu)化與火山引擎各平臺的聯(lián)動機(jī)制,通過MCP(多模態(tài)認(rèn)知平臺)簡化數(shù)據(jù)開發(fā)流程,幫助企業(yè)高效識別與利用多模態(tài)數(shù)據(jù)資產(chǎn)。

在技術(shù)落地層面,火山引擎多模態(tài)數(shù)據(jù)湖聚焦三大核心場景:

在文本、圖像、音視頻等多模數(shù)據(jù)的處理場景上,提供更易用的湖處理方案,幫助用戶快速解鎖多模態(tài)數(shù)據(jù)的價(jià)值,降低數(shù)據(jù)使用的門檻。用戶可直接AI數(shù)據(jù)湖產(chǎn)品的 MCP工具中用自然語言的方式輸入數(shù)據(jù)處理需求,比如對低清圖片提出增強(qiáng)高清訴求,實(shí)現(xiàn)圖片批量處理。

在模型訓(xùn)練上,提供低成本高性能的模型數(shù)據(jù)處理與蒸餾方案,通過與火山方舟的無縫銜接,數(shù)據(jù)零拷貝,讓用戶能直接在可視化界面上一鍵開啟回流按鈕,成功激活專屬私有數(shù)據(jù)湖將推理數(shù)據(jù)同步至LAS,進(jìn)行快速處理,篩選出高質(zhì)量數(shù)據(jù)一鍵導(dǎo)出至方舟用于模型精調(diào)。

針對用戶海量數(shù)據(jù)進(jìn)行批量的向量化和快速檢索需求,火山引擎多模態(tài)數(shù)據(jù)湖提供了湖檢索和湖分析能力,ByteHouse和AI數(shù)據(jù)湖LAS聯(lián)動,實(shí)現(xiàn)多種模態(tài)的快捷檢索。通過LAS完成多模數(shù)據(jù)向量化轉(zhuǎn)換,利用ByteHouse實(shí)現(xiàn)向量檢索特性分析,實(shí)現(xiàn)以圖搜圖。

某知名汽車品牌在智駕網(wǎng)聯(lián)場景的大模型訓(xùn)練中應(yīng)用該方案,驗(yàn)證了其技術(shù)價(jià)值:通過MR Ray Remote Dataloader技術(shù)解決CPU滿載問題,數(shù)據(jù)加載效率提升2倍,模型訓(xùn)練迭代效率整體提升1.5倍;GPU單卡并發(fā)支持多個(gè)標(biāo)注推理模型,單卡利用率提升至95%以上,資源成本大幅降低;采用LAS Lance替代傳統(tǒng)LMDB,減少數(shù)據(jù)預(yù)處理階段的GPU消耗,并支持?jǐn)?shù)據(jù)壓縮,使存儲與管理成本降至原來的1/4。

多模態(tài)數(shù)據(jù)湖的升級,幫助企業(yè)數(shù)據(jù)基建從支撐商業(yè)智能報(bào)表轉(zhuǎn)向成為驅(qū)動AI模型訓(xùn)練與決策的核心引擎?;鹕揭鏀?shù)智平臺負(fù)責(zé)人郭東東表示:“通過Data 與AI的深度交織,新的數(shù)據(jù)智能將能幫助企業(yè)構(gòu)建面向AI時(shí)代的好基建,成就好模型,促生好應(yīng)用,帶來好增長。”

當(dāng)前,數(shù)據(jù)與AI的深度交織已成為企業(yè)競爭的核心要素?;鹕揭鎸⒊掷m(xù)迭代多模態(tài)數(shù)據(jù)湖產(chǎn)品能力,攜手企業(yè)共同探索數(shù)據(jù)智能的無限可能,為Agentic AI時(shí)代的到來注入新動能。

本文轉(zhuǎn)載自:,不代表科技訊之立場。原文鏈接:https://v.gaoduanedu.cn/index/index/yulan/id/360672

陳晨陳晨管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評論