
在3月19日舉行的NVIDIA GTC 2025技術(shù)大會(huì)上,英偉達(dá)正式推出基于DeepSeek-R1大模型的AI推理系統(tǒng)。官方披露,搭載八塊Blackwell架構(gòu)GPU的NVIDIA DGX超級(jí)計(jì)算機(jī),在運(yùn)行完整版6710億參數(shù)模型時(shí),實(shí)現(xiàn)單用戶(hù)每秒250個(gè)令牌的實(shí)時(shí)響應(yīng)速度,系統(tǒng)整體吞吐量峰值突破每秒3萬(wàn)令牌,刷新全球大模型推理性能紀(jì)錄。
此次發(fā)布的DeepSeek-R1系統(tǒng)采用英偉達(dá)最新Blackwell GPU集群,單機(jī)配置八塊加速卡,支持FP8精度下的動(dòng)態(tài)稀疏計(jì)算。技術(shù)文檔顯示,該模型在處理千億級(jí)參數(shù)時(shí),推理延遲較上一代Hopper架構(gòu)降低45%,能源效率提升2.3倍,可同時(shí)承載超過(guò)1200個(gè)并發(fā)用戶(hù)的交互需求。
英偉達(dá)現(xiàn)場(chǎng)演示了該系統(tǒng)在多模態(tài)場(chǎng)景下的應(yīng)用表現(xiàn):在實(shí)時(shí)視頻流解析任務(wù)中,系統(tǒng)同步完成畫(huà)面識(shí)別、語(yǔ)義理解和邏輯推理,響應(yīng)時(shí)間穩(wěn)定在900毫秒以?xún)?nèi)。企業(yè)級(jí)解決方案中,DeepSeek-R1已部署于金融高頻交易風(fēng)控、工業(yè)數(shù)字孿生仿真等20余個(gè)垂直領(lǐng)域。
據(jù)官方測(cè)試數(shù)據(jù),該系統(tǒng)在語(yǔ)言生成基準(zhǔn)測(cè)試中,單卡處理速度達(dá)每秒1800個(gè)漢字,較開(kāi)源同類(lèi)模型快4倍。在醫(yī)療影像分析場(chǎng)景,其推理準(zhǔn)確率較傳統(tǒng)方案提升12個(gè)百分點(diǎn),誤診率降至0.37%。全球已有三家超算中心確認(rèn)采購(gòu)該架構(gòu),計(jì)劃于2025年三季度投入運(yùn)營(yíng)。
英偉達(dá)同時(shí)宣布,DeepSeek-R1的云服務(wù)接口將于6月向開(kāi)發(fā)者開(kāi)放,支持API調(diào)用和私有化部署。目前,該系統(tǒng)兼容PyTorch、TensorFlow等主流框架,并針對(duì)生物制藥、自動(dòng)駕駛等數(shù)據(jù)密集型行業(yè)推出定制優(yōu)化方案。
原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.2079x.cn/article/710872.html