在6月21日舉辦的華為開發(fā)者大會(HDC 2024)上,華為云CTO張宇昕介紹了下一代云基礎設施——CloudMatrix。這一創(chuàng)新性的技術解決方案旨在解決當前云平臺在大模型訓練和使用中遇到的“算力墻”“內(nèi)存墻”和“能效墻”等問題。
張宇昕表示,CloudMatrix改變了傳統(tǒng)數(shù)據(jù)中心的架構和算力供給模式,將傳統(tǒng)的以CPU為中心的主從架構,演進為多元算力對等全互聯(lián)架構;并通過高速互聯(lián)網(wǎng)絡協(xié)議,將CPU、NPU、GPU 等算力資源全部互聯(lián)和池化,從而把AI算力從單體算力演進到矩陣算力,開啟智能算力新紀元。
目前華為云是業(yè)界唯一采用對等架構超節(jié)點技術提供算力服務的廠商,實現(xiàn)了業(yè)界領先的性能和可靠性。據(jù)悉,華為云超節(jié)點在算力方面相比業(yè)界單節(jié)點提升了50倍,大模型的checkpoint恢復時長低于10分鐘,萬卡集群線性度大于95%,遠超業(yè)界水平。
值得一提的是,基于盤古大模型5.0的實測數(shù)據(jù)顯示,在同等算力條件下,CloudMatrix相較于傳統(tǒng)服務器集群架構,在模型訓練效率上提升了68%。這一顯著的提升,充分證明了CloudMatrix在云原生基礎設施方面的技術領先性。
本文轉載自:,不代表科技訊之立場。原文鏈接:http://news.cnmtpt.com/?Sid=9919242_3163W545472571