騰訊云星脈網(wǎng)絡(luò)獲AI網(wǎng)絡(luò)創(chuàng)新大會(huì)“標(biāo)桿應(yīng)用獎(jiǎng)”

今日,記者獲悉,在2023年度AI網(wǎng)絡(luò)創(chuàng)新大會(huì)上,騰訊云星脈網(wǎng)絡(luò)獲得了“標(biāo)桿應(yīng)用獎(jiǎng)”。大會(huì)由中國(guó)通信學(xué)會(huì)主辦,該獎(jiǎng)項(xiàng)旨在表彰具有強(qiáng)商業(yè)價(jià)值、高服務(wù)水平和顯著應(yīng)用效益的優(yōu)秀AI網(wǎng)絡(luò)行業(yè)應(yīng)用案例。

星脈網(wǎng)絡(luò)是騰訊云自研的大模型專屬高性能網(wǎng)絡(luò)?;隍v訊云新一代算力集群HCC,可支持10萬(wàn)卡的超大計(jì)算規(guī)模;同時(shí),星脈網(wǎng)絡(luò)具備業(yè)界最高的3.2T通信帶寬,時(shí)延降到10us-40us,丟包率降到0,為AI大模型帶來(lái)10倍通信性能提升,提升40%的GPU利用率,節(jié)省30%-60%的模型訓(xùn)練成本。

騰訊云星脈網(wǎng)絡(luò)獲AI網(wǎng)絡(luò)創(chuàng)新大會(huì)“標(biāo)桿應(yīng)用獎(jiǎng)”

騰訊云副總裁王亞晨在現(xiàn)場(chǎng)的分享中介紹了星脈網(wǎng)絡(luò)。星脈網(wǎng)絡(luò)基于高速以太網(wǎng)絡(luò)技術(shù)進(jìn)行構(gòu)建,為騰訊混元大模型提供了高性能互聯(lián)底座。

王亞晨指出,隨著AI大模型的不斷發(fā)展,對(duì)網(wǎng)絡(luò)的傳輸和穩(wěn)定提出了新的需求。傳統(tǒng)的網(wǎng)絡(luò)架構(gòu)已經(jīng)越來(lái)越滿足不了大模型訓(xùn)練的需求。

騰訊云星脈網(wǎng)絡(luò)獲AI網(wǎng)絡(luò)創(chuàng)新大會(huì)“標(biāo)桿應(yīng)用獎(jiǎng)”

騰訊云副總裁王亞晨

千億、萬(wàn)億參數(shù)規(guī)模的大模型,訓(xùn)練過(guò)程中通信占比最大可達(dá)50%,傳統(tǒng)低速網(wǎng)絡(luò)的帶寬遠(yuǎn)遠(yuǎn)無(wú)法支撐。同時(shí),傳統(tǒng)網(wǎng)絡(luò)協(xié)議容易導(dǎo)致網(wǎng)絡(luò)擁塞、高延時(shí)和丟包,而僅0.1%的網(wǎng)絡(luò)丟包就可能導(dǎo)致50%的算力損失,最終造成算力資源的嚴(yán)重浪費(fèi)。大帶寬、高利用率、信息無(wú)損,是AI大模型時(shí)代網(wǎng)絡(luò)面臨的核心挑戰(zhàn)。

基于全面自研能力,騰訊云在交換機(jī)、通信協(xié)議、通信庫(kù)以及運(yùn)營(yíng)系統(tǒng)等方面,進(jìn)行了軟硬一體的升級(jí)和創(chuàng)新,率先推出業(yè)界領(lǐng)先的大模型專屬高性能網(wǎng)絡(luò)——星脈網(wǎng)絡(luò)。

在硬件方面,星脈網(wǎng)絡(luò)基于騰訊的網(wǎng)絡(luò)研發(fā)平臺(tái),采用全自研設(shè)備構(gòu)建互聯(lián)底座,實(shí)現(xiàn)自動(dòng)化部署和配置。

在軟件方面,騰訊云自研的TiTa網(wǎng)絡(luò)協(xié)議,采用先進(jìn)的擁塞控制和管理技術(shù),能夠?qū)崟r(shí)監(jiān)測(cè)并調(diào)整網(wǎng)絡(luò)擁塞,滿足大量服務(wù)器節(jié)點(diǎn)之間的通信需求,確保數(shù)據(jù)交換流暢、延時(shí)低,實(shí)現(xiàn)高負(fù)載下的零丟包,使集群通信效率達(dá)90%以上。

此外,騰訊云還為星脈網(wǎng)絡(luò)設(shè)計(jì)了高性能集合通信庫(kù)TCCL,融入定制化解決方案,使系統(tǒng)實(shí)現(xiàn)了微秒級(jí)感知網(wǎng)絡(luò)質(zhì)量。結(jié)合動(dòng)態(tài)調(diào)度機(jī)制合理分配通信通道,可以避免因網(wǎng)絡(luò)問(wèn)題導(dǎo)致的訓(xùn)練中斷等問(wèn)題,讓通信時(shí)延降低40%。

網(wǎng)絡(luò)的可用性,也決定了整個(gè)集群的計(jì)算穩(wěn)定性。為確保星脈網(wǎng)絡(luò)的高可用,騰訊云自研了端到端的全棧網(wǎng)絡(luò)運(yùn)營(yíng)系統(tǒng),通過(guò)端網(wǎng)立體化監(jiān)控與智能定位系統(tǒng),將端網(wǎng)問(wèn)題自動(dòng)定界分析,讓整體故障的排查時(shí)間由天級(jí)降低至分鐘級(jí)。同時(shí),大模型訓(xùn)練系統(tǒng)的整體部署時(shí)間從19天縮減至4.5天,保證基礎(chǔ)配置100%準(zhǔn)確。

2023 AI網(wǎng)絡(luò)創(chuàng)新大會(huì)由中國(guó)通信學(xué)會(huì)指導(dǎo),中國(guó)通信學(xué)會(huì)信息通信網(wǎng)絡(luò)技術(shù)委員會(huì)、江蘇省未來(lái)網(wǎng)絡(luò)創(chuàng)新研究院主辦,SDNLAB協(xié)辦;邀請(qǐng)運(yùn)營(yíng)商、互聯(lián)網(wǎng)公司、設(shè)備廠商代表、高校與科研單位代表,圍繞AI下的網(wǎng)絡(luò)互連架構(gòu)、AI網(wǎng)絡(luò)設(shè)備、高性能網(wǎng)絡(luò)傳輸技術(shù)、網(wǎng)絡(luò)調(diào)度與資源分配等議題進(jìn)行分享交流,搭建國(guó)內(nèi)首個(gè)AI網(wǎng)絡(luò)垂直交流平臺(tái),為AI行業(yè)穩(wěn)健發(fā)展夯實(shí)網(wǎng)絡(luò)基礎(chǔ)設(shè)施,以技術(shù)創(chuàng)新升級(jí)驅(qū)動(dòng)賦能網(wǎng)絡(luò)發(fā)展。

原創(chuàng)文章,作者:陳晨,如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.2079x.cn/article/589876.html

陳晨陳晨管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論