從開放生態(tài)到技術(shù)破局,昇騰CANN筑實AI時代的創(chuàng)新基座

從“百模大戰(zhàn)”到“頭部+垂直”的市場格局,大模型技術(shù)的發(fā)展經(jīng)歷了技術(shù)競賽、資源整合、生態(tài)成熟的深刻轉(zhuǎn)變。如今,企業(yè)已經(jīng)不再一味地追求超高算力、超大參數(shù)模型的構(gòu)建,而是將重點放到了應(yīng)用場景的實踐探索上。

在這樣的背景之下,AI開放生態(tài)的建設(shè)變得尤為關(guān)鍵。一方面,開放的生態(tài)可以吸引更多的開發(fā)者加入進(jìn)來,更好地推動技術(shù)創(chuàng)新,讓技術(shù)能夠更快地迭代,大幅提升企業(yè)的開發(fā)效率;另一方面,開放的生態(tài)能夠?qū)⑵髽I(yè)和開發(fā)者匯聚一堂,共同探索AI在不同場景下的應(yīng)用創(chuàng)新,集眾家智慧于一體,加速AI在不同領(lǐng)域的應(yīng)用,更快地推動AI的普及。

然而,現(xiàn)階段企業(yè)和開發(fā)者在構(gòu)建易用、好用的大模型應(yīng)用過程中,還將面臨生態(tài)碎片化造成的創(chuàng)新壁壘、模型訓(xùn)練與推理效率低下引發(fā)的成本攀升、硬件潛能釋放不足導(dǎo)致的算力浪費三大核心痛點。如何應(yīng)對?怎么破局?華為昇騰異構(gòu)計算架構(gòu)CANN,成為破解AI應(yīng)用開發(fā)和場景化落地挑戰(zhàn)的關(guān)鍵密鑰。

從開放生態(tài)到技術(shù)破局,昇騰CANN筑實AI時代的創(chuàng)新基座

華為昇騰計算業(yè)務(wù)總裁張迪煊

在鯤鵬昇騰開發(fā)者大會2025上,華為昇騰計算業(yè)務(wù)總裁張迪煊揭曉了昇騰CANN的核心能力。作為昇騰AI的核心平臺,昇騰CANN正通過深度開放與原子級創(chuàng)新,構(gòu)建了全棧開放生態(tài)、高能效的算力底座,為中國AI開發(fā)者打造了“軟硬協(xié)同”的創(chuàng)新引擎,夯實了大模型時代的創(chuàng)新基座。

從開源共建到人才培養(yǎng),開放生態(tài)使能每一位創(chuàng)新者

真正的偉大,從不誕生于孤島。而技術(shù)的高度,最終將由生態(tài)的廣度與活力來丈量。

在打造硬核技術(shù)能力的同時,昇騰CANN正以”使能每一位創(chuàng)新者”為核心理念,通過”基礎(chǔ)層開放+應(yīng)用層共創(chuàng)”的雙輪驅(qū)動模式,為企業(yè)和開發(fā)者打造易用、好用的開發(fā)平臺,全力推動國產(chǎn)AI產(chǎn)業(yè)鏈的協(xié)同進(jìn)化,形成了從技術(shù)突破到商業(yè)轉(zhuǎn)化的生態(tài)閉環(huán)。

在基礎(chǔ)層面,昇騰CANN實現(xiàn)了鴻蒙、歐拉、麒麟、紅旗、統(tǒng)信五大國產(chǎn)系統(tǒng)的深度鏈接,為生態(tài)伙伴提供靈活高效的硬件定制開發(fā)支持。在技術(shù)層面,昇騰CANN分層解耦架構(gòu)在關(guān)鍵領(lǐng)域取得了突破性進(jìn)展。高性能算子庫已使能30余家客戶/伙伴開發(fā)260+核心算子,驅(qū)動整網(wǎng)性能平均提升超10%;通信算法創(chuàng)新方面,基于pipeline算法、NHR核算法等前沿技術(shù)實現(xiàn)通信效率躍升50%+,助力10余家企業(yè)突破分布式訓(xùn)練瓶頸。

從開放生態(tài)到技術(shù)破局,昇騰CANN筑實AI時代的創(chuàng)新基座

除了基礎(chǔ)層面的開放合作與技術(shù)層面的創(chuàng)新之外,在應(yīng)用層,昇騰CANN與企業(yè)進(jìn)行深度合作,共同打造創(chuàng)新性的應(yīng)用。例如,在用戶比較關(guān)注的整圖優(yōu)化技術(shù)方面,昇騰CANN與20+行業(yè)領(lǐng)軍企業(yè)深度協(xié)同,通過創(chuàng)新性的應(yīng)用調(diào)度加速、內(nèi)存復(fù)用等六大優(yōu)化策略,實現(xiàn)了內(nèi)存占用壓縮25%、推理性能提升了20%的顯著突破。

另外,在加速引擎創(chuàng)新維度,CANN已經(jīng)支持硅基流動等10余家AI基礎(chǔ)設(shè)施企業(yè)打造的差異化解決方案,成功孵化了智能調(diào)度引擎、分布式訓(xùn)練框架等創(chuàng)新套件,構(gòu)筑起覆蓋模型開發(fā)、訓(xùn)練加速、部署優(yōu)化的全鏈路技術(shù)生態(tài)。

除此之外,昇騰CANN還積極與高校進(jìn)行開放合作,共同推動科研成果的落地。2020年底,由教育部、華為聯(lián)合發(fā)起了“智能基座”產(chǎn)教融合協(xié)同育人基地項目,首批布局了72所高校,將CANN相關(guān)知識納入校園課程,通過深化信息技術(shù)領(lǐng)域人才培養(yǎng)模式改革和協(xié)同創(chuàng)新,著力構(gòu)建以信息技術(shù)領(lǐng)域關(guān)鍵核心技術(shù)為基礎(chǔ)的產(chǎn)業(yè)與人才生態(tài)。

目前,昇騰CANN已經(jīng)與清華大學(xué)、北京大學(xué)、上海交通大學(xué)等頂尖高校合作,打造了卓越中心和孵化中心,針對前沿的創(chuàng)新課題孵化世界級的科研項目,引領(lǐng)AI的創(chuàng)新發(fā)展。

大會現(xiàn)場,華南理工大學(xué)計算機科學(xué)與工程學(xué)院教授、博士生導(dǎo)師陸璐教授展示了團隊開發(fā)的算子以及參數(shù)調(diào)優(yōu)等性能優(yōu)化的手段?;跁N騰算子模板庫CATLASS,算子開發(fā)過程中有大量可以復(fù)用、拼裝的開源代碼實現(xiàn),通過參數(shù)修改可以快速調(diào)整切分策略,高效實現(xiàn)性能尋優(yōu)。陸教授指出,只要熟悉昇騰編程平臺,掌握了其體系架構(gòu),很多應(yīng)用就能夠在昇騰平臺中順利地運行起來。通過不斷優(yōu)化,能夠?qū)⑿阅軓?0%提升到100%,甚至在某些應(yīng)用場景下,性能能夠提升200%到500%。在這期間,團隊也參與到了開源模板庫CATLASS的建設(shè),大幅提升開發(fā)者的開發(fā)效率。

除了與企業(yè)和高校的合作之外,昇騰CANN同樣重視個人開發(fā)者的培養(yǎng)。天津理工大學(xué)電氣工程與自動化學(xué)院人工智能專業(yè)2022級學(xué)生王富平,從2023年開始參加昇騰AI創(chuàng)新大賽,在昇騰CANN異構(gòu)計算架構(gòu)等領(lǐng)域進(jìn)行了研究探索,不但通過大賽學(xué)習(xí)到了最前沿的技術(shù),收獲了諸多的創(chuàng)新成果,而且成為了天津市首位華為開發(fā)者布道師,首屆“求實創(chuàng)新班”成員。

張迪煊在主題演講中表示,目前,華為已經(jīng)累計培養(yǎng)了40多萬名學(xué)昇騰、懂昇騰的學(xué)生,很多學(xué)生已經(jīng)進(jìn)入社會,進(jìn)入企業(yè),成為推動AI發(fā)展的中堅力量。

昇騰CANN與企業(yè)、高??蒲袡C構(gòu)的生態(tài)合作,很好地促進(jìn)了雙方的共同成長,并給產(chǎn)業(yè)創(chuàng)造了巨大的商業(yè)價值。而且通過創(chuàng)新大賽等形式,實現(xiàn)了對個人開發(fā)者的培養(yǎng),為社會輸送了一大批優(yōu)秀的創(chuàng)新人才,為中國科技的發(fā)展帶來了極其深遠(yuǎn)的影響。

根據(jù)昇騰官方數(shù)據(jù)統(tǒng)計,6年來,有超過60萬開發(fā)者了解CANN、使用CANN、賦予CANN創(chuàng)新活力。在昇騰CANN持續(xù)推進(jìn)開放,以及產(chǎn)業(yè)各方開發(fā)者、企業(yè)積極參與之下,CANN生態(tài)正在快速成長。目前CANN的算子認(rèn)證開發(fā)者已經(jīng)超過了6000人。

截至目前,基于昇騰NPU+昇騰CANN技術(shù)生態(tài)所能實現(xiàn)的AI應(yīng)用性能,已經(jīng)能夠比肩CUDA,并且在開放的廣度、深度上,都比CUDA更進(jìn)一步。取得如此輝煌的成績,昇騰CANN僅僅用了6年時間,創(chuàng)造了科技界的一個奇跡。

從開放生態(tài)到技術(shù)破局,昇騰CANN筑實AI時代的創(chuàng)新基座

如今,從Ascend C算子編程語言、AOL算子加速庫、GE圖引擎、HCCL集合通信庫、畢昇編譯器、Runtime運行時到Driver驅(qū)動,昇騰CANN正在通過不斷豐富高層、底層組件,進(jìn)一步充實開發(fā)者們的彈藥庫,以全面開放支持基于昇騰的軟硬協(xié)同極致創(chuàng)新。

不難發(fā)現(xiàn),在”基礎(chǔ)層開放+應(yīng)用層共創(chuàng)”的雙輪驅(qū)動模式,昇騰CANN不僅重塑了AI算力效能邊界,而且推動了國產(chǎn)AI產(chǎn)業(yè)鏈的協(xié)同進(jìn)化,形成從技術(shù)突破到商業(yè)轉(zhuǎn)化的生態(tài)閉環(huán)。目前,昇騰CANN已成為中國開發(fā)者生態(tài)最活躍、技術(shù)迭代最迅猛的AI創(chuàng)新平臺,持續(xù)以開放生態(tài)與全棧賦能,引領(lǐng)智能算力時代。

構(gòu)建差異化開放策略,用分層架構(gòu)賦能AI場景化創(chuàng)新

當(dāng)用戶需求以天為單位迭代更新,當(dāng)產(chǎn)品迭代周期從“年”壓縮到“周”,當(dāng)算法迭代以天為單位,每一分鐘的效率提升都可能轉(zhuǎn)化為商業(yè)戰(zhàn)場的制勝先機。

打造高效的開發(fā)機制,不僅是企業(yè)內(nèi)部需要解決的挑戰(zhàn),更是華為昇騰CANN的使能所在。在去年的昇騰AI開發(fā)者峰會,昇騰宣布了深度開放策略,通過構(gòu)建覆蓋算子開發(fā)、系統(tǒng)調(diào)優(yōu)到編譯鏈優(yōu)化的全場景賦能體系,賦能開發(fā)者基于昇騰進(jìn)行大模型原生創(chuàng)新;7月份,昇騰CANN關(guān)鍵的高層組件開放代碼到Gitee社區(qū),客戶和合作伙伴正式拉開了自主創(chuàng)新之路。

為了讓不同技術(shù)能力的開發(fā)者都能夠簡單、高效地開發(fā)創(chuàng)新應(yīng)用,昇騰CANN通過匹配不同的場景,打造了分層開放的架構(gòu),通過算法創(chuàng)新層、系統(tǒng)優(yōu)化層和編譯生態(tài)層三層架構(gòu)的差異化開放策略,賦能開發(fā)者基于場景化的AI應(yīng)用創(chuàng)新。

從開放生態(tài)到技術(shù)破局,昇騰CANN筑實AI時代的創(chuàng)新基座

在算法創(chuàng)新層,通過開源FlashAttention、Matmul等核心算子及MESH/RING通信算法的最佳實踐代碼庫,使開發(fā)者可基于業(yè)務(wù)場景進(jìn)行”魔改式”創(chuàng)新。

大會現(xiàn)場,張迪煊以華南理工大學(xué)團隊的開發(fā)案例進(jìn)行了詳細(xì)介紹。據(jù)了解,華南理工大學(xué)團隊利用全新發(fā)布的CATLASS算子模板庫開發(fā)Matmul算子,開發(fā)周期從傳統(tǒng)4人周壓縮至2人周,并通過參數(shù)動態(tài)調(diào)優(yōu)實現(xiàn)20%+性能增益,開創(chuàng)了”開發(fā)即優(yōu)化”的新模式。

在系統(tǒng)優(yōu)化層,CANN開放190+底層原子接口,實現(xiàn)硬件能力的顆?;尫拧G迦A大學(xué)計圖團隊聯(lián)合昇騰研發(fā)的MoE專用算子體系,通過調(diào)用aclGraph模型調(diào)度接口與INT4量化技術(shù),成功將DeepSeek R1模型的推理時延降低50%,驗證了原子能力組合創(chuàng)新的巨大潛力。

在編譯生態(tài)層,CANN與Triton框架的深度整合引發(fā)開發(fā)范式變革:通過開放畢昇編譯器的AscendNPU IR接口,開發(fā)者可直接使用Python語法編寫高性能算子,底層硬件差異被完全抽象化。同時提供的編譯層控制接口,使第三方框架能定制化調(diào)整數(shù)據(jù)流編排策略,在智能醫(yī)療影像分析等場景中實現(xiàn)編譯效率提升40%。

實際上,實行分層架構(gòu)是昇騰CANN一直堅持的開放模式,能夠讓開發(fā)者針對不同的場景進(jìn)行需求匹配,實現(xiàn)性能與開發(fā)效率的雙重兼顧。豐富的參考樣例能夠很好地匹配場景魔改,實現(xiàn)敏捷開發(fā)和高效開發(fā)。此外,底層原子級能力支持靈活組合,讓開發(fā)者可以更好地挖掘硬件性能。

“三駕馬車”協(xié)同創(chuàng)新,核心技術(shù)讓AI創(chuàng)新跑出+速度

當(dāng)MoE架構(gòu)成為大模型主流,當(dāng)單日推理Token量突破10萬億,當(dāng)企業(yè)爭相部署千億參數(shù)模型——AI產(chǎn)業(yè)在狂飆突進(jìn)的同時,也深陷計算性能、開發(fā)效率與生態(tài)協(xié)同的三重圍城。

眾所周知,硬件是構(gòu)筑AI算力的基石底座。從硅晶圓上的微觀電路到數(shù)據(jù)中心里的龐大陣列,硬件架構(gòu)的持續(xù)創(chuàng)新為AI技術(shù)提供了強大算力支撐。隨著AI技術(shù)的持續(xù)突破,模型優(yōu)化技術(shù)從“模型結(jié)構(gòu)創(chuàng)新”延伸到“訓(xùn)推全流程”的算法創(chuàng)新,利用底層硬件資源,通過在核心技術(shù)上的持續(xù)突破,昇騰CANN在計算、內(nèi)存、通信三個維度持續(xù)釋放硬件價值,用“三駕馬車”重構(gòu)AI算力。

從開放生態(tài)到技術(shù)破局,昇騰CANN筑實AI時代的創(chuàng)新基座

在計算層面,針對MoE大模型訓(xùn)練場景的”卡脖子”難題,CANN創(chuàng)新性推出超級算子MLAPO:通過Vector與Cube計算單元并行化改造,將原本13個串行小算子融合為統(tǒng)一融合大算子,成功將MLA前處理耗時從行業(yè)平均109us壓縮至45us,在螞蟻金融風(fēng)控模型、騰訊廣告推薦系統(tǒng)中實現(xiàn)20%+端到端性能提升,破解了Transformer架構(gòu)的算力瓶頸。

在內(nèi)存層面,面對動態(tài)shape場景的”內(nèi)存碎片化”痼疾,CANN研發(fā)的多重地址映射技術(shù)猶如為內(nèi)存系統(tǒng)植入”智能中樞”:通過物理內(nèi)存動態(tài)切分與虛擬地址智能適配,實現(xiàn)內(nèi)存碎片的自動化拼接利用,使京東商品搜索、騰訊短視頻推薦等業(yè)務(wù)場景的內(nèi)存利用率躍升20%以上,單卡可承載的并發(fā)請求量突破行業(yè)極限。

在分布式訓(xùn)練領(lǐng)域,CANN打造的NPUDirect通信算法徹底改寫游戲規(guī)則:通過NPU Vector核直控數(shù)據(jù)傳輸,將傳統(tǒng)RDMA通信所需的3次同步精簡為1次原子操作,使得科大訊飛語音大模型的跨機通信時延驟降90%,中國移動的千卡集群通信效率提升50%,開創(chuàng)了萬卡級分布式訓(xùn)練的可行性路徑。

值得關(guān)注的是,昇騰CANN+昇騰NPU的組合,無論是在效率還是成本方面,都實現(xiàn)了與海外主流算力平臺的快速看齊,在某些領(lǐng)域甚至實現(xiàn)了超越,徹底打破了海外算力平臺獨大的格局。

大會現(xiàn)場,科大訊飛副總裁、AI工程院院長潘青華展示了訊飛和昇騰的合作成果。據(jù)介紹,今年3月,訊飛基于昇騰算力率先實現(xiàn)了MoE模型大規(guī)模跨節(jié)點并行集群的推理,推理性能提升了3倍。

除此之外,AI Infra的無問芯穹采用了昇騰平臺,并基于昇騰CANN進(jìn)行深度優(yōu)化創(chuàng)新,針對大模型推理集群部署中的通信開銷問題進(jìn)行技術(shù)攻關(guān),實現(xiàn)單算子性能提升20%,顯著降低了算力資源的消耗。

可以看出,通過技術(shù)上的持續(xù)創(chuàng)新,昇騰CANN不僅實現(xiàn)了單點性能的指數(shù)級提升,更構(gòu)建起”芯片級優(yōu)化-系統(tǒng)級調(diào)度-集群級協(xié)同”的全棧能力,這也標(biāo)志著AI算力技術(shù)正式邁入”原子級精準(zhǔn)調(diào)優(yōu)”的新紀(jì)元。

寫在最后:用技術(shù)創(chuàng)新+生態(tài)開放夯實AI時代的創(chuàng)新基座

從分層開放的技術(shù)架構(gòu)到產(chǎn)學(xué)研生態(tài)協(xié)同創(chuàng)新,再到計算、內(nèi)存、通信等領(lǐng)域的底層技術(shù)突破,昇騰CANN始終堅持著技術(shù)創(chuàng)新和開放生態(tài)兩手抓的理念,在不斷優(yōu)化底層技術(shù)的同時,以全棧開放的姿態(tài)與產(chǎn)學(xué)研合作伙伴攜手創(chuàng)新,不斷地為開發(fā)者提供好用、易用的產(chǎn)品和解決方案,為企業(yè)AI應(yīng)用創(chuàng)造無限的價值,為AI產(chǎn)業(yè)發(fā)展提供了新的動力。

展望未來,昇騰CANN將通過不斷豐富高層、底層組件,為開發(fā)者們提供更加豐富的彈藥,并通過開放的生態(tài)建設(shè),為開發(fā)者的AI創(chuàng)新全力賦能。

本文轉(zhuǎn)載自:,不代表科技訊之立場。原文鏈接:https://www.51cto.com/article/818391.html

陳晨陳晨管理團隊

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評論