DeepSeek推出NSA:超快速長上下文訓練與推理的新利器

DeepSeek推出NSA:超快速長上下文訓練與推理的新利器

今日,人工智能領域的創(chuàng)新企業(yè)DeepSeek宣布正式推出NSA(Native Sparse Attention)機制。這一機制專為超快速長上下文訓練與推理而設計,旨在通過硬件對齊和原生可訓練的稀疏注意力機制,為用戶帶來前所未有的體驗。

NSA的核心組件包括動態(tài)分層稀疏策略、粗粒度token壓縮以及細粒度token選擇。這些組件共同協(xié)作,使得NSA能夠在優(yōu)化現(xiàn)代硬件設計的同時,實現(xiàn)推理加速和預訓練成本的降低,而且這一切都是在不犧牲性能的前提下完成的。

DeepSeek官方表示,NSA機制在通用基準、長上下文任務和基于指令的推理上,其表現(xiàn)與全注意力模型相當甚至更加優(yōu)秀。這意味著,用戶在享受更快推理速度和更低成本的同時,也能獲得與頂尖模型相媲美的性能表現(xiàn)。

原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請注明出處:http://m.2079x.cn/article/706746.html

AI的頭像AI認證作者

相關(guān)推薦

發(fā)表回復

登錄后才能評論