基于飛騰騰云S5000C的全國產(chǎn)智算中心解決方案重磅發(fā)布

騰騰云S5000C的全國產(chǎn)智算中心解決方案重磅發(fā)布

image.png

  背景描述

  當前,以人工智能技術(shù)為代表的新質(zhì)生產(chǎn)力,引導各行業(yè)智算需求爆炸式增長。智算中心作為最重要的算力基礎設施,是大模型、圖像類、自然語言類、預測類等智能應用的“動力引擎”,為各類智能化業(yè)務場景提供安全、穩(wěn)定、高效的算力支撐,滿足國家和行業(yè)需求,同時可有效帶動相關產(chǎn)業(yè)增長,助力行業(yè)數(shù)智化轉(zhuǎn)型和數(shù)字中國建設。

  技術(shù)架構(gòu)

  飛騰積極響應國家和行業(yè)對智算中心的迫切需求,聯(lián)合生態(tài)伙伴打造全棧國產(chǎn)化智算中心解決方案,整體系統(tǒng)架構(gòu)包括智算芯片、智算設備、智算操作系統(tǒng)、智算平臺、國產(chǎn)大模型、智能應用等6個部分,如下圖所示。

image.png

  該方案以飛騰新一代高性能CPU飛騰騰云S5000C為算力底座,兼容多款國產(chǎn)AI加速卡,實現(xiàn)通用算力與智能算力的異構(gòu)融合,以此為基礎研發(fā)國產(chǎn)AI服務器,設計適合大規(guī)模集群部署的智算中心網(wǎng)絡拓撲,構(gòu)建存算一體的智算平臺體系架構(gòu),支撐大模型訓練推理等應用,可為行業(yè)應用提供從端到云的智能化算力服務。

  智算中心核心單元

  1.算力底座

  智算中心算力底座基于飛騰新一代服務器芯片飛騰騰云S5000C和國產(chǎn)AI算力卡。其中S5000C計算性能強大,IO吞吐量大,支持DDR5和PCIe5.0,可滿足AI計算高帶寬、低延遲的技術(shù)需求;國產(chǎn)AI算力卡具備自主可控、靈活拓展的特點,在性能上不斷追趕并部分超越國際主流產(chǎn)品。

  目前,飛騰騰云S5000C已與國產(chǎn)主流AI算力卡完成適配,整套智算中心算力底座具備自主化程度高、體系布局、生態(tài)開放、高可擴展、高性價比、平滑遷移等特點。

image.png

  2.整機

  基于飛騰騰云S5000C的智算設備產(chǎn)品多種多樣,包含2U/4UAI服務器(2、4、8卡)、OAM服務器、高速交換機、全閃存儲服務器、智能網(wǎng)卡等,上述產(chǎn)品可單獨或自由組合形成成熟的整體方案,滿足智算中心的多樣算力需求,對標國際先進算力水平。

image.png

  3.智算中心PoD單元

  在單個機架上集成了AI服務器、存儲服務器、管理服務器、交換機等設備,用于深度學習模型的大規(guī)模訓練和推理。PoD單元可支持32張加速卡協(xié)同工作,采用200G低延遲網(wǎng)絡和固態(tài)存儲方案,既可作為獨立計算設備實現(xiàn)開箱即用,亦可作為AI服務器集群的基本組成單元,實現(xiàn)大規(guī)模集群配置。目前PoD單元已適配多家廠商AI加速卡,打造出從高性能到高性價比的多套配置方案,具備超強算力、超強拓展性、超高易用性、低TCO、可一體化交付的特點。

image.png

  4.千卡萬卡集群

  基于PoD單元模式可將AI服務器集群擴展至千卡、萬卡規(guī)模,形成AI算力彈性資源池,借助智算平臺管理軟件和高性能網(wǎng)絡互聯(lián)技術(shù),實現(xiàn)算力資源統(tǒng)一納管、高效調(diào)度、智能運維。AI服務器集群支持大規(guī)模的數(shù)據(jù)處理和復雜的計算任務,適用于大模型訓練推理場景,性價比高于國際主流集群方案,可為各類智能應用提供強大、可控的智能算力。

image.png

  以450個POD、1800臺4U 8卡服務器、14400張AI加速卡為例

  5.大模型適配

  基于飛騰AI算力底座適配了LLama系列、智源、云天勵飛,智譜華章、通義千問、百川智能等開源大模型,可開展全量訓練、微調(diào)、推理等技術(shù),滿足不同行業(yè)場景客戶的需求。攜手國內(nèi)加速卡廠商,訓練場景上,適配Megatron-LM、deepspeed等流行訓練框架;推理場景適配vllm推理框架,通過集群性能整體優(yōu)化,實現(xiàn)云端大批量、高效率的訓練、推理任務。

  實際測試結(jié)果顯示,4機32卡,70B大模型訓練達到249tokens/s/p,性能達到x86+國外主流AI產(chǎn)品的93%左右,整機成本為其85%。綜合性價比是其109%。通過性能和整機成本的持續(xù)優(yōu)化,性價比會進一步提升。

  方案優(yōu)勢

  飛騰智算中心方案具有以下6點優(yōu)勢:

  1.自主化程度高

  智算中心底座全棧均采用國產(chǎn)產(chǎn)品(CPU、整機、AI卡、網(wǎng)卡、交換機等)。

  2.體系布局

  覆蓋芯片、整機、集群、軟件、大模型等,打造云、邊、端全棧技術(shù)體系。

  3.生態(tài)開放

  兼容國內(nèi)外主流智算產(chǎn)品技術(shù)路線,智算生態(tài)開放。

  4.高可擴展

  擴展性強,集群規(guī)模可擴展至千卡萬卡級別,支持多種AI卡異構(gòu)混合并行。

  5.高性價比

  性價比高于國外產(chǎn)品,并可持續(xù)優(yōu)化。

  6.平滑遷移

  兼容CUDA生態(tài),可輕松實現(xiàn)軟件系統(tǒng)遷移,遷移工具豐富、成本低。

  典型應用案例

  飛騰國產(chǎn)智算中心解決方案特別適用于國家機關和央企各行業(yè),包括:政務、金融、電信、電力、能源、交通、教育等,支持私有化部署及快速靈活擴展,現(xiàn)已在物流、交通、金融服務等央企落地應用。

  典型案例1

  ● 某央企百億參數(shù)級別大模型項目,支持代碼撰寫、文檔自動生成處理等辦公場景,支持自動控制及故障預測等系統(tǒng)使用,實現(xiàn)設備智能運控。

  ● 方案選型:采用飛騰騰云S5000C的國產(chǎn)AI服務器方案替換N廠方案,移植成本低,性價比高,實現(xiàn)算力納管及LLAMA2大模型訓練。

  典型案例2

  ● 某央企園區(qū)智慧化管理平臺項目,基于園區(qū)部署的多路高頻攝像頭采集數(shù)據(jù),通過算法實時分析視頻流,實現(xiàn)園區(qū)作業(yè)安全管控和災害智能識別,提供智能運營決策和智能助理服務,同時開展大模型訓練和視覺模型等多種業(yè)務。

  ● 方案選型:采用飛騰CPU+國產(chǎn)AI卡+麒麟操作系統(tǒng)的全國產(chǎn)化方案,近200張訓練推理卡,支持33B模型全量訓練、增量預訓練和微調(diào)。

  典型案例3

  ● 某金融企業(yè)大模型應用平臺項目,提供大模型訓練服務,支持金融風控、貸款征信等業(yè)務場景。

  ● 方案選型:采用飛騰智算中心一體化PhyPOD方案,快速搭建PhyPOD節(jié)點集群,通過200G網(wǎng)絡交換機實現(xiàn)多臺4U8卡AI服務器、存儲服務器的高速互聯(lián),支持金融大模型訓練、微調(diào)、推理。

本文轉(zhuǎn)載自:,不代表科技訊之立場。原文鏈接:http://zl.yisouyifa.com/html/240730/170353401540232.html

陳晨陳晨管理團隊

相關推薦

發(fā)表回復

登錄后才能評論