新華三智算中心解決方案鑄就AIGC算網(wǎng)基石

AIGC與ChatGPT簡(jiǎn)介隨著人工智能技術(shù)的不斷發(fā)展,分析式AI技術(shù)持續(xù)迭代積累,帶來(lái)了生成式AI的突破,生成式人工智能技術(shù)(AIGC)在原本數(shù)據(jù)分析的基礎(chǔ)上,通過(guò)學(xué)習(xí)數(shù)據(jù)的產(chǎn)生模式,可以創(chuàng)造出新的樣本數(shù)據(jù)。在此背

AIGC與ChatGPT簡(jiǎn)介

隨著人工智能技術(shù)的不斷發(fā)展,分析式AI技術(shù)持續(xù)迭代積累,帶來(lái)了生成式AI的突破,生成式人工智能技術(shù)(AIGC)在原本數(shù)據(jù)分析的基礎(chǔ)上,通過(guò)學(xué)習(xí)數(shù)據(jù)的產(chǎn)生模式,可以創(chuàng)造出新的樣本數(shù)據(jù)。在此背景下,2022年11月底,OpenAI發(fā)布了集代碼創(chuàng)作、文本撰寫(xiě)、翻譯等功能于一體的ChatGPT模型。ChatGPT是在GPT-3大模型基礎(chǔ)之上演化而來(lái),但由于GPT-3存在偏見(jiàn)歧視及安全性風(fēng)險(xiǎn)以及生成內(nèi)容不符合人類(lèi)的偏好的問(wèn)題,所以ChatGPT利用了RLHF方法(人類(lèi)反饋強(qiáng)化學(xué)習(xí))來(lái)提升效果,使得對(duì)話更符合人類(lèi)偏好。因此,它被廣泛應(yīng)用于各種場(chǎng)景,包括程序生成、數(shù)據(jù)分析、內(nèi)容創(chuàng)作等,而且有較高的認(rèn)可度和關(guān)注度。

AIGC對(duì)基礎(chǔ)設(shè)施的挑戰(zhàn)

基礎(chǔ)模型(基于大規(guī)模數(shù)據(jù)集和大規(guī)模算力訓(xùn)練的大型預(yù)訓(xùn)練模型)具備通用性和性能方面優(yōu)勢(shì),已成為AI能力基座。以ChatGPT為例,其根基還是在通用基礎(chǔ)大模型底座GPT-3上。訓(xùn)練超大基礎(chǔ)模型需要多方面的關(guān)鍵技術(shù)作為支撐,算法、算力和數(shù)據(jù)是AI發(fā)展的三駕馬車(chē),算法依賴大模型參數(shù)的提升以及模型本身的優(yōu)化,而算力和數(shù)據(jù)則需要依賴傳統(tǒng)的GPU服務(wù)器、存儲(chǔ)以及網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)相互交融并正反饋于算法本身。

新華三智算中心解決方案鑄就AIGC算網(wǎng)基石

首先,我們來(lái)看大模型訓(xùn)練對(duì)AI算力的需求。伴隨大模型的不斷升級(jí),模型訓(xùn)練對(duì)算力需求也不斷增加,約每過(guò)3個(gè)月就會(huì)翻一倍。GPT-3模型(1750億參數(shù)、45TB訓(xùn)練語(yǔ)料、消耗算力3640PFlops/s-Days),PaLM模型(5400億參數(shù)、2.5億個(gè)數(shù)據(jù)集、消耗算力29600 PFlops/s-Days)。ChatGPT按照1300萬(wàn)/天的訪問(wèn)量,估算需要3萬(wàn)+ GPU。

新華三智算中心解決方案鑄就AIGC算網(wǎng)基石

其次,大模型訓(xùn)練對(duì)數(shù)據(jù)存儲(chǔ)也提出了嚴(yán)苛要求。訓(xùn)練過(guò)程中會(huì)面臨顯存墻問(wèn)題(模型是否能跑起來(lái))以及計(jì)算/通信墻問(wèn)題(能否在合理時(shí)間內(nèi)完成訓(xùn)練)。單從顯存占用角度來(lái)看,單卡80G顯存理論支持25億參數(shù)的模型訓(xùn)練(不做ZeRO極端優(yōu)化),但考慮實(shí)際訓(xùn)練時(shí)間、數(shù)據(jù)規(guī)模和迭代輪次,需要在數(shù)據(jù)并行、模型并行和流水線并行之間進(jìn)行權(quán)衡,需要投入更多的GPU卡來(lái)滿足訓(xùn)練對(duì)顯存的占用。與此同時(shí),需要對(duì)數(shù)據(jù)集進(jìn)行本地緩存來(lái)加速數(shù)據(jù)訪問(wèn)(尤其是圖像),對(duì)存儲(chǔ)的性能提出了更高的要求。

最后就是高性能網(wǎng)絡(luò)方面。大模型訓(xùn)練集群往往采用混合并行(模型并行+數(shù)據(jù)并行+流水并行)的方式進(jìn)行訓(xùn)練,GPU集群從存儲(chǔ)集群拉去樣本數(shù)據(jù)、GPU節(jié)點(diǎn)之間的參數(shù)交互,這兩個(gè)數(shù)據(jù)傳輸?shù)牧鞒潭夹枰咝阅?、低延時(shí)的網(wǎng)絡(luò)作為基礎(chǔ)。

新華三智算中心全棧解決方案能力

新華三基于對(duì)AIGC全流程技術(shù)需求的深刻理解,推出了智算中心全棧解決方案,依靠MLOps、數(shù)據(jù)管理、版本化管理以及彈性架構(gòu)等優(yōu)勢(shì),可為廣大互聯(lián)網(wǎng)用戶提供業(yè)界最全最細(xì)致的AI支撐能力。

新華三智算中心解決方案鑄就AIGC算網(wǎng)基石

一、基于綠洲數(shù)據(jù)平臺(tái)可以提供數(shù)據(jù)全流水線管理能力,配合傲飛智算平臺(tái)可以支持從訓(xùn)練到推理的全生命周期流水線,提供精細(xì)化的自動(dòng)化數(shù)據(jù)處理以及精細(xì)化的模型性能監(jiān)控調(diào)優(yōu)。

新華三智算中心解決方案鑄就AIGC算網(wǎng)基石

整個(gè)AI集群的運(yùn)轉(zhuǎn)過(guò)程可以大致用上圖概括:①數(shù)據(jù)采集→②數(shù)據(jù)治理→③數(shù)據(jù)目錄→④數(shù)據(jù)標(biāo)注→⑤算法開(kāi)發(fā)→⑥模型訓(xùn)練→⑦模型管理→⑧模型推理。其中①②③是由數(shù)據(jù)平臺(tái)提供相應(yīng)能力,后續(xù)的一系列流程則需要智算平臺(tái)進(jìn)行支撐。值得一提的是,傲飛智算平臺(tái)可以通過(guò)相關(guān)性能指標(biāo)(模型準(zhǔn)確率/GPU內(nèi)存占用/模型大小/吞吐量/延時(shí))進(jìn)行模型量化:解釋在模型調(diào)優(yōu)過(guò)程中,數(shù)據(jù)的變化以及算法的變化,從而使得AI任務(wù)端到端可視化。

二、算力基礎(chǔ)設(shè)施層作為整個(gè)AI集群的執(zhí)行點(diǎn),需要GPU計(jì)算、網(wǎng)絡(luò)以及存儲(chǔ)等產(chǎn)品的全方位支撐,結(jié)合AI集群的運(yùn)轉(zhuǎn)流程,其整體架構(gòu)如下所示:

新華三智算中心解決方案鑄就AIGC算網(wǎng)基石

該架構(gòu)整體上分為3個(gè)區(qū)域:數(shù)據(jù)資源區(qū)、智算訓(xùn)練區(qū)以及智算推理區(qū)。從數(shù)據(jù)采集到數(shù)據(jù)標(biāo)注均在數(shù)據(jù)資源完成,而模型訓(xùn)練、模型管理以及模型推理則在另外兩個(gè)區(qū)域完成。數(shù)據(jù)資源區(qū)與智算訓(xùn)練區(qū)需要用高性能網(wǎng)絡(luò)作FullMesh互聯(lián),智算訓(xùn)練區(qū)的不同GPU節(jié)點(diǎn)同樣需要FullMesh互聯(lián)。接下來(lái)我們依次看下新華三全面的基礎(chǔ)設(shè)施能力:

智算訓(xùn)練集群

組建訓(xùn)練集群的服務(wù)器大多使用搭載專(zhuān)用GPU模組的標(biāo)準(zhǔn)機(jī),如H3C UniServer R5500 G5。H3C UniServer R5500 G5支持Intel Whitley平臺(tái)和AMD Milan雙平臺(tái),最多可以提供128個(gè)CPU核心,可最大程度滿足訓(xùn)練集群的CPU算力需求。

訓(xùn)練集群將預(yù)訓(xùn)練數(shù)據(jù)集拉取到本地后需要先存儲(chǔ)到NVMe SSD里,基于GDS(GDS, GPU Direct Storage),可以通過(guò)PCIe Switch將NVMe SSD里的數(shù)據(jù)直接讀取到GPU顯存里。

GPU在訓(xùn)練過(guò)程中會(huì)進(jìn)行頻繁通信,包括P2P通信(1對(duì)1)和Collective通信(1對(duì)多或多對(duì)多)。在節(jié)點(diǎn)內(nèi),GPU之間的通信互聯(lián)帶寬可達(dá)400GB/s。在節(jié)點(diǎn)之間,GPU通信使用RDMA網(wǎng)絡(luò),通過(guò)GDR(GDR, GPU Direct RDMA)技術(shù)支持, RDMA網(wǎng)卡可以繞過(guò)CPU、內(nèi)存,直接從遠(yuǎn)端節(jié)點(diǎn)讀取數(shù)據(jù)到GPU顯存。

新華三智算中心解決方案鑄就AIGC算網(wǎng)基石

根據(jù)數(shù)據(jù)集、模型大小的不同,會(huì)產(chǎn)生多種訓(xùn)練方式,比如數(shù)據(jù)并行、模型并行、流水線并行、混合并行等。根據(jù)訓(xùn)練方式的不同,訓(xùn)練集群的GPU節(jié)點(diǎn)也會(huì)進(jìn)行對(duì)應(yīng)的拆分、組合。為了最大程度復(fù)用訓(xùn)練集群資源,在選型時(shí)需要保證拓?fù)渚獾姆?wù)器系統(tǒng)架構(gòu),一般NVMe硬盤(pán):PCIe Switch:RDMA網(wǎng)卡需要滿足4:4:4或8:4:8的配比關(guān)系;此外,在集群組網(wǎng)時(shí),推薦使用FullMesh的網(wǎng)絡(luò)架構(gòu)。

新華三智算中心解決方案鑄就AIGC算網(wǎng)基石

H3C UniServer R5500 G5最大支持12個(gè)U.2 NVMe SSD(8個(gè)支持GDS)、10個(gè)X16網(wǎng)卡(8個(gè)支持GDR),可靈活支持4張NVMe SSD/網(wǎng)卡或8張NVMe SSD/網(wǎng)卡的配置,當(dāng)前均有方案在客戶側(cè)落地。

一些大型互聯(lián)網(wǎng)公司還會(huì)使用自研GPU Box搭配計(jì)算節(jié)點(diǎn)的方式組建訓(xùn)練集群,GPU Box里面會(huì)搭載專(zhuān)用GPU模組或其他廠商的OAM模組。OAM(OAM, OCP Accelerator Module)是開(kāi)源的GPU模塊,由OCP社區(qū)服務(wù)器項(xiàng)目組下的OAI(OAI, Open Accelerator Infrastructure)小組開(kāi)發(fā)并制定標(biāo)準(zhǔn)。

OAM包括GPU和UBB,UBB(UBB, Universal Baseboard)是承載GPU的基板,可以在服務(wù)器整機(jī)中兼容不同廠家的GPU。新華三是OAI 2.0規(guī)范制定的重要參與者,并計(jì)劃后續(xù)在R5500 G6上開(kāi)發(fā)可支持不同廠家GPU的OAM模組。

在2023年初,新華三發(fā)布了新一代GPU機(jī)型R5500 G6,支持Intel Eagle Stream和AMD Genoa平臺(tái),PCIe 5.0及400GE網(wǎng)絡(luò)的加持,相信會(huì)給客戶帶來(lái)更高的算力提升。

智算推理集群

GPU推理集群的規(guī)模主要取決于業(yè)務(wù)預(yù)期的并發(fā)請(qǐng)求,一般會(huì)多機(jī)多卡多實(shí)例部署。針對(duì)大規(guī)模推理場(chǎng)景,H3C UniServer R5300 G5支持多種類(lèi)型的GPU方案,包括4 PCIe GPU方案、8 PCIe GPU方案和16 PCIe GPU方案,以應(yīng)對(duì)不同客戶不同算力的推理集群搭建需求。

新華三智算中心解決方案鑄就AIGC算網(wǎng)基石

新華三智算中心解決方案鑄就AIGC算網(wǎng)基石

在2022年11月份,新華三發(fā)布了基于AMD Genoa平臺(tái)的GPU服務(wù)器R5350 G6,可實(shí)現(xiàn)90%的CPU性能提升和50%的內(nèi)核數(shù)量提升;多種類(lèi)型人工智能加速卡的支持,可應(yīng)對(duì)人工智能不同場(chǎng)景下對(duì)異構(gòu)算力的需求。此外,在2023年上半年,新華三還會(huì)發(fā)布基于Intel Eagle Stream平臺(tái)的GPU服務(wù)器R5300 G6,請(qǐng)大家拭目以待。

高性能存儲(chǔ)

高性能存儲(chǔ)一般采用分布式并行文件存儲(chǔ),如新華三CX系列存儲(chǔ)。新華三 CX系列存儲(chǔ)采用全對(duì)稱(chēng)分布式架構(gòu),結(jié)合IBM Spectrum Scale(原名GPFS, General Parallel File System),可提供高帶寬、低延時(shí)的存儲(chǔ)服務(wù)。

高性能網(wǎng)絡(luò)

新華三提供了多種可選的高性能網(wǎng)絡(luò)方案,以供各用戶不同業(yè)務(wù)場(chǎng)景應(yīng)用。

1.2級(jí)Clos TH4+TD4組網(wǎng)方案,最大提供1024個(gè)200G端口接入能力

新華三智算中心解決方案鑄就AIGC算網(wǎng)基石

2.2級(jí)Clos TH4+TH4組網(wǎng)方案,最大提供4096個(gè)200G端口接入能力

新華三智算中心解決方案鑄就AIGC算網(wǎng)基石

以上兩種方案均采用了以太網(wǎng)交換機(jī)RoCE組網(wǎng)方案,可以配合新華三自主研發(fā)的AI-ECN調(diào)優(yōu)手段進(jìn)行快速和精確部署。AI-ECN調(diào)優(yōu)算法模型具有效率高、計(jì)算量小的特點(diǎn),同時(shí)支持控制器集中式調(diào)優(yōu)和網(wǎng)絡(luò)設(shè)備分布式本地調(diào)優(yōu)兩種模式。例如,在集中式調(diào)優(yōu)模式下,不需要專(zhuān)用的AI芯片,使用搭載Intel XEON-SP服務(wù)器的管控析集群,就可在較大規(guī)模網(wǎng)絡(luò)管理下,開(kāi)啟ECN水線調(diào)優(yōu);在本地模式下,搭載Intel XEON-D 和 ATOM的新華三網(wǎng)絡(luò)交換機(jī),僅以較小的CPU開(kāi)銷(xiāo)就可以完成調(diào)優(yōu)。

RoCE方案是業(yè)界常用的AI高性能組網(wǎng)方案,除此之外,有些用戶還會(huì)考慮采用集中式框式設(shè)備實(shí)現(xiàn)小規(guī)模的AI組網(wǎng):

新華三智算中心解決方案鑄就AIGC算網(wǎng)基石

這種組網(wǎng)的優(yōu)勢(shì)在于無(wú)需部署復(fù)雜的無(wú)損以太網(wǎng)(PFC/ECN)功能,僅通過(guò)一臺(tái)設(shè)備便可以實(shí)現(xiàn)1536個(gè)200G端口接入能力。新華三S125R/CR系列采用正交CLOS無(wú)中板設(shè)計(jì),業(yè)務(wù)板與交換板之間采用信元轉(zhuǎn)發(fā),完美得解決了擁塞問(wèn)題。實(shí)際應(yīng)用場(chǎng)景中,在吞吐和時(shí)延等方面表現(xiàn)良好。但是這種組網(wǎng)由于單機(jī)框槽位問(wèn)題,組網(wǎng)規(guī)模受限。

為了優(yōu)化這個(gè)問(wèn)題,新華三繼而推出了DDC(Distributed Disaggregated Chassis,分布式分解結(jié)構(gòu))解決方案。

新華三智算中心解決方案鑄就AIGC算網(wǎng)基石

簡(jiǎn)單介紹DDC其實(shí)就是將框式交換機(jī)拆分形成盒式組網(wǎng),但是盒式交換機(jī)之間依舊采用信元交換,采用JR2C+雙芯片方案最大可支持3456個(gè)200G端口接入能力。DDC對(duì)比RoCE在網(wǎng)絡(luò)性能和網(wǎng)絡(luò)收斂方面提升明顯:ALL2ALL測(cè)試場(chǎng)景中,DDC完成時(shí)間可提高20-30%;無(wú)論UP/DOWN還是手工插拔測(cè)試方式,DDC的收斂時(shí)間縮短了幾百到上千倍。

隨著大模型訓(xùn)練所需網(wǎng)絡(luò)帶寬的不斷提升,網(wǎng)絡(luò)主芯片性能也會(huì)迅速增加,當(dāng)800G/1.6T時(shí)代來(lái)臨時(shí),CPO/NPO交換機(jī)將會(huì)登上互聯(lián)網(wǎng)舞臺(tái),而新華三也早已有所布局:

新華三智算中心解決方案鑄就AIGC算網(wǎng)基石

S9825-32D32DO交換機(jī),4U高度內(nèi)可同時(shí)支持32個(gè)400G光模塊接口和32個(gè)400G光引擎接口,后續(xù)可以平滑升級(jí)至51.2T平臺(tái)。

結(jié)語(yǔ)

以ChatGPT為代表的AIGC已經(jīng)成為當(dāng)下互聯(lián)網(wǎng)行業(yè)的風(fēng)口,歷史經(jīng)驗(yàn)表明,善于抓住風(fēng)口的企業(yè)最終都會(huì)站上時(shí)代之巔。在AIGC領(lǐng)域新華三已經(jīng)與諸多頭部互聯(lián)網(wǎng)客戶達(dá)成深度合作,新華三希望成為互聯(lián)網(wǎng)客戶緊密的合作伙伴,通過(guò)全棧的智算中心解決方案能力助力廣大用戶的AIGC相關(guān)研發(fā)和推進(jìn)!

(本內(nèi)容屬于網(wǎng)絡(luò)轉(zhuǎn)載,文中涉及圖片等內(nèi)容如有侵權(quán),請(qǐng)聯(lián)系編輯刪除。市場(chǎng)有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買(mǎi)賣(mài)及投資依據(jù)。)

原創(chuàng)文章,作者:陳晨,如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.2079x.cn/article/569068.html

陳晨陳晨管理團(tuán)隊(duì)

相關(guān)推薦