
當(dāng)不同背景與層級的開發(fā)者聚集在一起,當(dāng)科研理論到產(chǎn)業(yè)應(yīng)用的鏈條被打通,當(dāng)自主創(chuàng)新能力成為行業(yè)共識,一個多元、開放、協(xié)同的CANN生態(tài)開出了繁榮之花。
撰文|張賀飛
編輯|沈菲菲
開發(fā)者苦“封閉生態(tài)”久矣。
在大模型行業(yè)快速演進(jìn)的當(dāng)下,一些廠商仍在繼續(xù)搞圍墻之內(nèi)的“封閉游戲”,看似提升了用戶體驗,卻在技術(shù)、數(shù)據(jù)和生態(tài)協(xié)同上筑起了高墻,不斷抬高創(chuàng)新門檻,為開發(fā)者套上了隱形的枷鎖。
同一時間,一場開放對抗封閉的運動也進(jìn)入了高潮期。
就在鯤鵬昇騰開發(fā)者大會2025期間,堅持深度開放的昇騰異構(gòu)計算架構(gòu)CANN,向外界公布了一組新數(shù)據(jù):
深度貢獻(xiàn)的開發(fā)者數(shù)量已經(jīng)從1000多人迅速增長到6000多人,涉及操作系統(tǒng)、算子算法、整圖優(yōu)化、加速庫等各個層面的創(chuàng)新;來自互聯(lián)網(wǎng)、運營商、金融等領(lǐng)域的30多個伙伴,開發(fā)了260多個高性能算子,大幅提升了大模型在業(yè)務(wù)場景中的性能表現(xiàn)……
為何在宣布深度開放的短短兩年時間里,昇騰CANN即已成為中國AI創(chuàng)新的新陣地?我們從三類開發(fā)者的故事中找到了答案。
01.以需求牽引生態(tài):科大訊飛把業(yè)務(wù)問題變成生態(tài)能力
檢驗一個開放生態(tài)的價值,場景落地永遠(yuǎn)是最直觀的指標(biāo)。
身處創(chuàng)新第一線的企業(yè)開發(fā)者,起到了不可或缺的作用,他們從開放生態(tài)中汲取養(yǎng)分,又不斷用實踐經(jīng)驗反哺生態(tài),通過深度融入生態(tài)、與場景緊密結(jié)合,賦予了昇騰CANN生態(tài)自我生長、自我造血的能力。
其中的代表就有科大訊飛。

科大訊飛副總裁、AI工程院院長潘青華
科大訊飛副總裁、AI工程院院長潘青華,將科大訊飛與昇騰平臺的深度合作總結(jié)成了四個階段:
第一個階段是敢用,2023年國內(nèi)還沒有超大規(guī)模集群的成熟方案時,科大訊飛和昇騰聯(lián)合打造了國內(nèi)首個自主創(chuàng)新的超大規(guī)模集群;
第二個階段是真用,2023年到2024年的一年時間里,科大訊飛在昇騰超大規(guī)模集群上訓(xùn)練了星火大模型,性能從開箱只有業(yè)界的30%提升到了90%,印證了自主創(chuàng)新算力完全可以支撐大模型研發(fā)達(dá)到世界領(lǐng)先水平;
第三個階段是會用,科大訊飛和昇騰的聯(lián)合攻關(guān)團(tuán)隊在2024年實現(xiàn)了多種大模型在昇騰平臺上的長穩(wěn)訓(xùn)練,斷點續(xù)訓(xùn)的恢復(fù)時間從業(yè)界平均的30分鐘,下降到了5分鐘以內(nèi);
第四個階段是用好,科大訊飛在2025年3月基于昇騰算力率先實現(xiàn)了MoE模型的大規(guī)??绻?jié)點并行集群的推理,性能提升了3倍。
其中CANN作為昇騰AI的核心基礎(chǔ)軟件平臺,搭起了AI框架與昇騰硬件的橋梁,是充分釋放處理器極致性能的關(guān)鍵。針對MoE大模型訓(xùn)練場景的”卡脖子”難題,科大訊飛和昇騰進(jìn)行了一場場聯(lián)合攻堅。
在算子方面,雙方聯(lián)合開發(fā)和優(yōu)化了50+算子,科大訊飛自主開發(fā)的自定義關(guān)鍵算子就超過10個。其中包括優(yōu)化了MoE特有的關(guān)鍵算子,讓計算效率提升了15%以上;對部分融合算子進(jìn)行加速,端到端實現(xiàn)了5%的提升。
針對不可忽視的通信問題,科大訊飛和昇騰團(tuán)隊通過采用多種通信掩藏的技術(shù),將端到端通信壓縮到了20%以內(nèi),最終讓星火MoE大模型的訓(xùn)練性能提升了2倍,進(jìn)一步釋放了昇騰在計算、帶寬和通信上的潛力。
昇騰CANN也將在計算、內(nèi)存、通信三個維度加速創(chuàng)新,其中包括超級算子MLAPO、多重地址映射技術(shù)、NPUDirect通信算法等等??拼笥嶏w和昇騰在真實場景中打磨出的核心能力,將開放給所有開發(fā)者。
確切的說,科大訊飛代表的是中國企業(yè)合作創(chuàng)新的群像,同類的“開發(fā)者“還包括智譜、字節(jié)跳動、面壁智能、螞蟻金服、美團(tuán)等20多家頭部企業(yè),作為CANN生態(tài)落地的關(guān)鍵合作者,一同重塑了AI產(chǎn)業(yè)的創(chuàng)新范式。
02.以技術(shù)筑牢生態(tài):他們用工程化創(chuàng)新重構(gòu)了性能邊界
大模型應(yīng)用是個系統(tǒng)工程,工程創(chuàng)新的價值同樣不可小覷。
從單卡到集群,從算子到調(diào)度,從通信范式到內(nèi)存布局,每一次性能的躍遷背后,都源自技術(shù)層面的極致打磨。正是這些“看不見的功夫”,讓AI模型跑得起、跑得快、跑得穩(wěn),走向真實世界的每一個場景。
在昇騰CANN生態(tài)中,一個個擅長軟硬件協(xié)同、系統(tǒng)調(diào)優(yōu)、通信機(jī)制重構(gòu)等“硬活兒”的技術(shù)團(tuán)隊,用工程創(chuàng)新撬動了生態(tài)演進(jìn)。
比如清華系A(chǔ)I獨角獸無問芯穹,基于CANN深度優(yōu)化創(chuàng)新,有效降低了大模型推理的算力資源消耗。
2025年是AI應(yīng)用大規(guī)模落地的元年,當(dāng)推理算力需求激增的背景下,算力成本控制已然成為大模型落地的關(guān)鍵。為了解決這個問題,無問芯穹與昇騰針對大模型推理集群部署中的通信開銷展開了深度協(xié)同創(chuàng)新,通過全新的計算和通信重疊范式,對昇騰硬件的多元通信語義進(jìn)行專項優(yōu)化,單算子性能提升最高達(dá)20%,有效降低了算力資源消耗。
比如AI Infra創(chuàng)業(yè)團(tuán)隊清昴智能,基于昇騰CANN構(gòu)建起了從單卡效能到多卡集群的全局優(yōu)化方案。
圍繞很多企業(yè)遇到的性能釋放不足問題,清昴智能通過基于CANN的專項優(yōu)化,進(jìn)行算子融合、調(diào)度策略改進(jìn)、并行計算模式調(diào)整等等,顯著提升了昇騰Duo卡的推理性能表現(xiàn),讓Duo卡也能跑起DeepSeek滿血版大模型。同時構(gòu)建了從單卡效能打磨到多卡集群調(diào)度優(yōu)化的全鏈路方案,為AIGC、自動駕駛等場景提供優(yōu)質(zhì)自主創(chuàng)新的選擇。
再比如清華大學(xué)計圖(Jittor)團(tuán)隊,圍繞前沿大模型,基于CANN生態(tài)構(gòu)建了自主創(chuàng)新的推理框架。

DeepSeek R1“出圈”后,清華大學(xué)計圖團(tuán)隊迅速集結(jié)核心骨干分析適配方案,聯(lián)合昇騰研發(fā)團(tuán)隊,在歷經(jīng)三個月、數(shù)十次架構(gòu)迭代、數(shù)百次功能更新后,構(gòu)建了MoE專用算子體系,采用INT4量化技術(shù)、MLA矩陣吸收、多維度混合并行等技術(shù),實現(xiàn)了性能與內(nèi)存的雙重突破,率先在昇騰單臺Atlas 800 服務(wù)器上部署了滿血版DeepSeek R1模型。
對應(yīng)的技術(shù)團(tuán)隊還有很多。
作為生態(tài)系統(tǒng)中的技術(shù)支點,他們不站在舞臺中央,卻用一行行代碼、一次次迭代,為大模型應(yīng)用打下了可落地、可擴(kuò)展的技術(shù)基礎(chǔ)。
從推理性能的每一次提升,到部署成本的一次次降低,這些工程創(chuàng)新不僅重構(gòu)了模型能力的邊界,不斷拓展昇騰CANN生態(tài)的價值,讓AI真正走進(jìn)產(chǎn)業(yè),走向現(xiàn)實。
03.以熱愛點燃生態(tài):兩位教授刻畫了昇騰開發(fā)者的群像
一個開放生態(tài)的繁榮,不僅需要聚集開發(fā)者的力量,還需要用生態(tài)驅(qū)動商業(yè)閉環(huán),形成持續(xù)的創(chuàng)新動能。
這就要提到第三類開發(fā)者,他們從開放生態(tài)中汲取養(yǎng)分,又不斷用實踐經(jīng)驗反哺生態(tài),通過深度融入生態(tài)、與場景緊密結(jié)合,賦予了昇騰生態(tài)自我生長、自我造血的能力。
昇騰CANN生態(tài)的繁榮,離不開每一位因熱愛而加入的開發(fā)者。
他們不是“最亮的光”,卻是一束束點亮中國AI未來的星火;他們可能不為人所熟知,卻始終在關(guān)鍵的工程節(jié)點上默默耕耘。我們無法細(xì)細(xì)講述6000位開發(fā)者的故事,但可以從兩位教授身上看到他們的群像。
第一位是來自華南理工大學(xué)的陸璐教授。

華南理工大學(xué)計算機(jī)科學(xué)與工程學(xué)院教授、博士生導(dǎo)師 陸璐
2022年剛接觸昇騰CANN時,陸璐教授也曾感慨“不夠親和,用起來比較難受”。但不同于純粹的吐槽,陸璐教授團(tuán)隊在了解了昇騰的軟硬件體系后,開始逐步進(jìn)行優(yōu)化,讓算子性能從50%提升到了100%,甚至在某些場景中從200%提高到了500%。
作為開源開放的忠實擁躉,陸璐教授并未止步于性能上的優(yōu)化,希望通過開源項目幫助更多的開發(fā)者降低門檻,用更少的時間、更少的代碼,實現(xiàn)更高的性能,最終和昇騰算子模板庫CATLASS結(jié)下了不解之緣。
正如陸璐教授在鯤鵬昇騰開發(fā)者大會2025的演講中所提到的:和國外友商對比,CATLASS模板庫在FP32精度下達(dá)到了2.78倍的加速效率,BF16是1.23倍、FP16是1.17倍、INT8達(dá)到了1.21倍。并表示接下來會做進(jìn)一步的迭代,計劃開發(fā)MoE算力、通算融合算力、以及卷積類的算子。
第二位是西北工業(yè)大學(xué)的徐韜教授。
故事還要從2020年說起,西北工業(yè)大學(xué)成為首批加入“昇騰眾智計劃”的高校。徐韜教授迅速意識到了合作的價值:過去深度學(xué)習(xí)課程總是陷入“紙上談兵”的困境,學(xué)生們只能對著理論公式空想;昇騰平臺與資源池的引入,學(xué)生們可以在云端進(jìn)行完整的建模、調(diào)參、部署等流程,真正實現(xiàn)“手腦并用”。
徐韜教授第一時間組建了項目小組,和學(xué)生一起打磨每一個算子,同時積極參加昇騰社區(qū)的高校挑戰(zhàn)賽、社區(qū)論壇、布道師等活動,學(xué)生們在解決實際問題的過程中,系統(tǒng)地掌握從算法設(shè)計到硬件適配的全鏈條技能。

兩個月前上線Gitee社區(qū)的CANN-Ops算子共建倉,是國內(nèi)首個面向昇騰開發(fā)者的算子共建平臺。其中徐韜教授團(tuán)隊已經(jīng)自主開發(fā)并貢獻(xiàn)了近30個高性能算子,成為國內(nèi)最早向昇騰CANN平臺提供多項核心支持的高校團(tuán)隊之一,也是首個在CANN-Ops算子倉庫中完成算子合入的開發(fā)團(tuán)隊。
陸璐和徐韜團(tuán)隊所撬動的,不單單是算子開發(fā)效率的倍增,還是開發(fā)者之間交流經(jīng)驗、沉淀最佳實踐、共建共創(chuàng)的平臺。
算子的每一次被使用、被改寫、被反饋,都將把個體的力量變成集體的勢能,把工具的價值轉(zhuǎn)化為生態(tài)的共振。生態(tài),不只是技術(shù)堆疊,更是一群人共同選擇走的路。
04.寫在最后
從活躍在開源社區(qū)的一線開發(fā)者,到深耕底層優(yōu)化的工程團(tuán)隊,再到探索技術(shù)邊界的領(lǐng)軍企業(yè),昇騰CANN已成為中國開發(fā)者生態(tài)最活躍、技術(shù)迭代最迅猛的AI創(chuàng)新平臺。
當(dāng)不同背景與層級的開發(fā)者聚集在一起,當(dāng)科研理論到產(chǎn)業(yè)應(yīng)用的鏈條被打通,當(dāng)全棧自主創(chuàng)新能力成為行業(yè)共識,當(dāng)一個多元、開放、協(xié)同的CANN生態(tài)開出繁榮之花,將以前所未有的速度引領(lǐng)AI開發(fā)范式的變革,托舉起中國在智能時代的關(guān)鍵競爭力。
本文轉(zhuǎn)載自:,不代表科技訊之立場。原文鏈接:http://zl.yisouyifa.com/html/250630/11132497408636.html