騰訊云TencentOS Server AI,助力榮耀打造高性能AI底座

隨著生成式AI技術(shù)的爆發(fā)式增長(zhǎng),AI大模型開(kāi)始滲透至手機(jī)領(lǐng)域,一線廠商已經(jīng)把AI應(yīng)用集成到各自最新的產(chǎn)品中,并且在以驚人的速度迭代。為了進(jìn)一步提升大模型部署的效能,榮耀基于應(yīng)用騰訊云TencentOS Server AI中提供的TACO-LLM加速模塊部署DeepSeek-R1等開(kāi)源大模型,并應(yīng)用榮耀企業(yè)內(nèi)部等場(chǎng)景,穩(wěn)定性、可靠性、推理性能均大幅提升。

在推理平臺(tái)場(chǎng)景中,榮耀側(cè)重關(guān)注框架效能、穩(wěn)定性、運(yùn)行狀態(tài)監(jiān)控及應(yīng)急預(yù)案等特性。使用TACO-LLM進(jìn)行推理任務(wù)后,在DeepSeek-R1 滿血版場(chǎng)景下,相對(duì)于榮耀原始線上業(yè)務(wù)性能,TTFT(首Token 延遲)P95 的響應(yīng)時(shí)間最高降低6.25倍,吞吐提升2倍,端到端延遲降低100%。在社區(qū)最新版本sglang場(chǎng)景下,TTFT P95的響應(yīng)時(shí)間最高降低12.5倍。

騰訊云TencentOS Server AI,助力榮耀打造高性能AI底座

騰訊云TACO-LLM之所以能夠?qū)s耀業(yè)務(wù)的性能提升如此明顯,主要的得益于多種投機(jī)采樣技術(shù)核心能力:大語(yǔ)言模型的自回歸解碼屬性無(wú)法充分利用GPU的算力,計(jì)算效率不高,解碼成本高昂。而TACO-LLM通過(guò)投機(jī)采樣的方式,從根本上解決了計(jì)算密度的問(wèn)題,讓真正部署的大模型實(shí)現(xiàn)“并行”解碼,從而大幅提高解碼效率。

榮耀大數(shù)據(jù)平臺(tái)部相關(guān)負(fù)責(zé)人表示:“榮耀使用騰訊云 TACO-LLM 打造高性能的AI底座,部署穩(wěn)定可靠,提升了性能加速體驗(yàn)?!?/p>

TencentOS Server AI加速版中提供的TACO-LLM加速模塊,針對(duì)企業(yè)級(jí)AI模型私有化部署挑戰(zhàn),對(duì)大語(yǔ)言模型業(yè)務(wù)進(jìn)行了專門(mén)的內(nèi)核運(yùn)行優(yōu)化,用于提高大語(yǔ)言模型的推理效能,提供兼顧高吞吐和低延時(shí)的優(yōu)化方案,能夠“無(wú)縫”整合到現(xiàn)有的大模型部署方案中。

本文轉(zhuǎn)載自:,不代表科技訊之立場(chǎng)。原文鏈接:http://v.mrkbao.com/news/111202506091730187464158537.html

陳晨陳晨管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論