10月15日-17日,一年一度的開(kāi)放計(jì)算全球峰會(huì)(OCP Global Summit)在美國(guó)加州圣何塞(San Jose)召開(kāi),本次峰會(huì)以“從創(chuàng)新到影響力(From Ideas to Impact”)”為主題盛大開(kāi)幕,吸引全球7000多位基礎(chǔ)設(shè)施軟硬件技術(shù)和應(yīng)用領(lǐng)域的專(zhuān)業(yè)人士參會(huì)。作為全球最具影響力的的基礎(chǔ)設(shè)施和開(kāi)放計(jì)算領(lǐng)域標(biāo)志性盛會(huì),特別是在今年OCP基金會(huì)重磅宣布其人工智能開(kāi)放系統(tǒng)戰(zhàn)略計(jì)劃后,2024 OCP全球峰會(huì)上專(zhuān)門(mén)設(shè)置人工智能特別關(guān)注議程(Special Focus Tracks),重點(diǎn)推動(dòng)AI基礎(chǔ)設(shè)施領(lǐng)域的技術(shù)生態(tài)建設(shè)。
阿里云服務(wù)器研發(fā)資深總監(jiān)文芳志受邀和UALink聯(lián)盟主席Kurtis Bowman聯(lián)合發(fā)表了題為《UALink: Pioneering the AI Accelerator Revolution》的演講,重點(diǎn)闡述了AI服務(wù)器Scale UP互連技術(shù)領(lǐng)域的發(fā)展趨勢(shì),UALink標(biāo)準(zhǔn)的路線(xiàn)圖,UALink聯(lián)盟和ALink System產(chǎn)業(yè)生態(tài)未來(lái)的合作潛力,以及阿里云磐久 AI Infra 2.0服務(wù)器的落地實(shí)踐思路。
行業(yè)領(lǐng)先的AI芯片、服務(wù)器和CSP廠(chǎng)商聯(lián)合發(fā)起的UALink協(xié)議,將是一項(xiàng)徹底改變AI服務(wù)器Scale UP互連技術(shù)生態(tài)系統(tǒng)的行業(yè)新標(biāo)準(zhǔn)。相比較超級(jí)以太網(wǎng)聯(lián)盟 (UEC) 的協(xié)議標(biāo)準(zhǔn)專(zhuān)注于Scale out擴(kuò)展能力,UALink協(xié)議憑借高性能內(nèi)存語(yǔ)義訪(fǎng)問(wèn)的原生支持、顯存共享,支持Switch組網(wǎng)模式,以及超高帶寬、超低時(shí)延能力等性能優(yōu)勢(shì),正在迅速構(gòu)建起一個(gè)AI服務(wù)器Scale UP互連技術(shù)的超級(jí)開(kāi)放生態(tài)。按照計(jì)劃,UALink聯(lián)盟將于10月底正式成立并開(kāi)始吸納成員加入,并在年底對(duì)外發(fā)布第一版UALink spec。

UALink標(biāo)準(zhǔn)作為目前最具潛力的AI服務(wù)器Scale UP互連開(kāi)放標(biāo)準(zhǔn),如何在業(yè)界特別是在中國(guó)市場(chǎng)落地實(shí)踐是一個(gè)巨大挑戰(zhàn),ALink System(ALS)產(chǎn)業(yè)生態(tài)應(yīng)運(yùn)而生。ALS提供具備性能競(jìng)爭(zhēng)力和統(tǒng)一標(biāo)準(zhǔn)的互連系統(tǒng),包括ALS-D數(shù)據(jù)面和ALS-M管控面兩個(gè)主要組成部分,為AI訓(xùn)推場(chǎng)景提供豐富的能力和特性支持。
ALS-D將支持UALink國(guó)際標(biāo)準(zhǔn),形成極具性能競(jìng)爭(zhēng)力的數(shù)據(jù)面方案。當(dāng)前以推理和訓(xùn)練場(chǎng)景為主的AI應(yīng)用,在Scale Up網(wǎng)絡(luò)上具有并行切分算法、大顯存共享、GPU超多核內(nèi)存語(yǔ)義編程等多種顯著特點(diǎn)。ALS-D數(shù)據(jù)面互連采用UALink協(xié)議,除了原生支持高性能內(nèi)存語(yǔ)義訪(fǎng)問(wèn)、顯存共享,支持Switch組網(wǎng)模式,性能上具備超高帶寬、超低時(shí)延能力外,還增加定義了在網(wǎng)計(jì)算等特性。
ALS-M可以為不同芯片方案提供標(biāo)準(zhǔn)化的接入方案,符合規(guī)范的設(shè)備均可靈活接入應(yīng)用方系統(tǒng)。無(wú)論是對(duì)開(kāi)放生態(tài)還是廠(chǎng)商專(zhuān)有互連協(xié)議,ALS使用統(tǒng)一的軟件接口。同時(shí),ALS-M為云計(jì)算等集群管理場(chǎng)景,提供單租、多租等靈活和彈性的配置能力。

正是遵循ALink System的規(guī)范,阿里云自主設(shè)計(jì)了面向下一代超大規(guī)模AI集群的磐久AI Infra 2.0服務(wù)器,貫穿了開(kāi)放生態(tài)、高能效、高性能和高可用的設(shè)計(jì)理念。AI Infra 2.0服務(wù)器開(kāi)放性地定義了AI計(jì)算節(jié)點(diǎn)和Scale Up/Scale Out互連系統(tǒng),可以在統(tǒng)一的硬件架構(gòu)下支持業(yè)界主流AI方案,引領(lǐng)AI領(lǐng)域的“一云多芯”。
互連系統(tǒng)ALink System全面兼容國(guó)際標(biāo)準(zhǔn)UALink生態(tài),可以與行業(yè)伙伴開(kāi)放共建超高性能、超大規(guī)模的Scale UP集群互連能力,一級(jí)互連64-80個(gè)節(jié)點(diǎn),二級(jí)互連可達(dá)2000以上節(jié)點(diǎn),提供了PB級(jí)共享顯存和TB級(jí)互連帶寬。
AI計(jì)算節(jié)點(diǎn)內(nèi)集成阿里自研CIPU 3.0芯片,既能支持高帶寬大規(guī)模AI服務(wù)器實(shí)現(xiàn)Scale Out網(wǎng)絡(luò)擴(kuò)展,又能兼顧云網(wǎng)絡(luò)彈性、安全的要求。
硬件工程方面,AI Infra 2.0服務(wù)器單機(jī)柜可以支持最大80個(gè)AI計(jì)算節(jié)點(diǎn),業(yè)界密度最高;在業(yè)界率先采用400V PSU,單體供電效率可達(dá)98%,整體供電效率提高2%。在散熱設(shè)計(jì)上,機(jī)柜級(jí)液冷方案可以根據(jù)實(shí)際負(fù)載動(dòng)態(tài)調(diào)整CDU冷卻能力來(lái)降低能耗,單柜冷卻系統(tǒng)節(jié)能30%。最后,在運(yùn)維管理上,全新的CableCartridge后維護(hù)設(shè)計(jì),支持全盲插,零理線(xiàn)易運(yùn)維、零誤操作,維護(hù)效率提升50%。
可靠性方面,AI Infra 2.0服務(wù)器支持彈性節(jié)點(diǎn)、智能路由、高可靠供電、分布式CDU等技術(shù),可以實(shí)時(shí)監(jiān)控、探測(cè)各種硬件故障并自愈,硬件的故障域也縮減到節(jié)點(diǎn)級(jí)。
在A(yíng)Link System產(chǎn)業(yè)生態(tài)建設(shè)上,阿里云一貫秉持開(kāi)放合作的策略,推動(dòng)互連技術(shù)領(lǐng)域的發(fā)展和繁榮。自今年9月ALink System產(chǎn)業(yè)生態(tài)在開(kāi)放數(shù)據(jù)中心大會(huì)上正式發(fā)布以來(lái),目前已有20多家AI芯片、互連芯片、服務(wù)器整機(jī)硬件和IP設(shè)計(jì)廠(chǎng)商加入,成員單位已就相關(guān)協(xié)議標(biāo)準(zhǔn)制定和實(shí)行路徑選擇展開(kāi)交流。
除了積極擁抱UALink和牽頭成立ALink System產(chǎn)業(yè)生態(tài),阿里云還是OCP、CXL、UCIe和UEC等多個(gè)互連技術(shù)行業(yè)組織的創(chuàng)始成員或技術(shù)委員會(huì)成員,并用實(shí)際行動(dòng)支持相關(guān)開(kāi)放互連技術(shù)標(biāo)準(zhǔn)的制定和落地。
本文轉(zhuǎn)載自:,不代表科技訊之立場(chǎng)。原文鏈接:http://v.mrkbao.com/news/11120241023111148138079936.html