存儲系統(tǒng)對大模型具有極其重要的作用,關(guān)乎數(shù)據(jù)存儲與管理、數(shù)據(jù)預(yù)處理、訓(xùn)練效率、推理性能、模型擴(kuò)展等諸多方面。
但單從這些性能指標(biāo)來看,我們可能無法直觀感受到其關(guān)鍵性。那么,到底什么樣的存儲系統(tǒng)才能為大模型所用?
基于全球權(quán)威AI基準(zhǔn)測評廠商MLCommons公布的MLPerf v1.0存儲性能基準(zhǔn)測試,其中提到了帶寬、模擬GPU數(shù)量以及GPU利用率等指標(biāo)。這些指標(biāo)與大模型的訓(xùn)練、推理息息相關(guān)。
這一波大模型熱潮的基本特征之一就是,既需要處理海量數(shù)據(jù)保證訓(xùn)練效率,同時在實(shí)際應(yīng)用中,大模型需要快速對輸入數(shù)據(jù)進(jìn)行推理給出結(jié)果,這之中的關(guān)鍵就是——高帶寬,高帶寬存儲可以實(shí)現(xiàn)快速數(shù)據(jù)傳輸、實(shí)時響應(yīng),同時面對大模型參數(shù)規(guī)模越來越大、多模態(tài)數(shù)據(jù)增加等情形,高帶寬也可以支持其模型運(yùn)行。
然而,部分存儲系統(tǒng)受限于硬件性能、系統(tǒng)架構(gòu)、并發(fā)訪問壓力過大,一定程度上會影響數(shù)據(jù)處理效率、占用存儲空間。
同時,在給定的訓(xùn)練模型和GPU型號下,存儲系統(tǒng)能夠支持的GPU數(shù)量也是衡量其性能的關(guān)鍵指標(biāo)之一。
通過模擬GPU數(shù)量,能在部署中評估不同存儲配置下的大模型訓(xùn)練性能和成本效益,幫助企業(yè)選擇最適合的存儲和GPU組合。
反之,如果存儲系統(tǒng)模擬GPU數(shù)量不夠,不僅會使得模型的訓(xùn)練時間大幅延長,還會導(dǎo)致模型收斂困難,同等規(guī)模的GPU集群下,需要引入更多的存儲節(jié)點(diǎn)才能滿足計(jì)算的需要,存儲的成本會隨之提高,同時也在一定程度上限制模型向更大規(guī)模和更高復(fù)雜度發(fā)展。
GPU利用率高則可以加速矩陣運(yùn)算、張量運(yùn)算等大量復(fù)雜計(jì)算任務(wù),減少訓(xùn)練周期的同時,讓硬件資源被充分利用起來,降低能源消耗。而低GPU利用率可能導(dǎo)致GPU長時間處于低負(fù)載運(yùn)行狀態(tài),GPU 算力和能源浪費(fèi)較大。
洞察到這些發(fā)展趨勢的焱融科技,去年年底立項(xiàng),今年9月拿出了面向大模型時代的里程碑產(chǎn)品——焱融全閃F9000X。

該產(chǎn)品搭載了其自研的高性能分布式并行文件存儲YRCloudFile,經(jīng)實(shí)測,3節(jié)點(diǎn)存儲集群的性能可達(dá)到了750萬IOPS和270GBps帶寬,滿足大規(guī)模訓(xùn)練及高算力場景的需求。
在帶寬、模擬GPU數(shù)量、GPU利用率這三大關(guān)鍵指標(biāo)中拿下第一的焱融全閃F9000X,無疑成為大模型訓(xùn)練、推理過程中選擇存儲系統(tǒng)的最優(yōu)解之一。
這背后的關(guān)鍵正是焱融科技所做的針對性優(yōu)化。
為了保證存儲系統(tǒng)的性能匹配大模型訓(xùn)練、推理業(yè)務(wù)場景的需求,張文濤稱,面向高性能存儲場景,性能就是他們最優(yōu)先考慮的。研發(fā)人員進(jìn)行了NUMA的親和性、端到端的zero-copy(零拷貝)等優(yōu)化。
但對于企業(yè)而言,一方面,存儲系統(tǒng)的性能固然重要,另一方面讓存儲系統(tǒng)變得好用、易用也同等關(guān)鍵。
因此,焱融科技還打造了相對應(yīng)的解決方案。大模型時代,企業(yè)需要基于多個智算中心進(jìn)行大模型訓(xùn)練、推理,那就意味著企業(yè)的數(shù)據(jù)需要在多云間進(jìn)行流轉(zhuǎn)。張文濤解釋說,數(shù)據(jù)具有粘性,采用對應(yīng)的解決方案能幫助加速數(shù)據(jù)的多云流轉(zhuǎn),減少企業(yè)使用和運(yùn)維的復(fù)雜度。
大模型在問世之后,基礎(chǔ)設(shè)施投入巨大,因此企業(yè)對成本更為敏感,存儲系統(tǒng)就需要兼顧性能和降本。焱融科技通過全閃和大容量存儲相結(jié)合的形式,拿出了高性能、低成本的解決方案。
綜合來看,整個大模型產(chǎn)業(yè)的急速發(fā)展,對存儲系統(tǒng)提出了更高的要求,性能、穩(wěn)定性和成本成為存儲廠商必須越過的門檻。
深諳技術(shù)創(chuàng)新與企業(yè)需求的焱融科技,在拿出更強(qiáng)計(jì)算能力、更高性能數(shù)據(jù)存儲的方案后,為大模型時代的企業(yè)探索出了一條行之有效的路徑。
本文轉(zhuǎn)載自:,不代表科技訊之立場。原文鏈接:http://articlef.yulepops.com/article/m-164/1/312202412041323295711494.html