焱融存儲(chǔ)YRCloudFile發(fā)布面向AI推理的分布式KV Cache特性

焱融存儲(chǔ)YRCloudFile發(fā)布面向AI推理的分布式KV Cache特性

       AI 存儲(chǔ)廠商焱融科技宣布,其自主研發(fā)的分布式文件存儲(chǔ)系統(tǒng) YRCloudFile 已成功支持大模型推理場(chǎng)景的 KV Cache 特性,為 AI 推理帶來(lái)顯著價(jià)值提升。

       KV Cache 通過(guò)高效緩存機(jī)制加速數(shù)據(jù)讀取,顯著提升推理性能,突破 GPU 顯存瓶頸,大幅提升推理 GPU 效率和并發(fā)處理能力。這意味著用戶可以在不增加 GPU 資源的情況下,實(shí)現(xiàn)更高并發(fā)的推理請(qǐng)求,大幅降低 GPU 資源消耗與投入成本。同時(shí),它還能夠降低推理的首個(gè) Token 耗時(shí)和 Token 間耗時(shí)延時(shí),提升用戶使用體驗(yàn)。

       此外,焱融科技實(shí)現(xiàn)了 DeepSeek 級(jí)架構(gòu),構(gòu)建與 DeepSeek 一致的推理場(chǎng)景存算參考架構(gòu)。用戶在使用支持 KV Cache 的焱融存儲(chǔ)時(shí),能夠享受到與 DeepSeek 同等架構(gòu)帶來(lái)的優(yōu)質(zhì)體驗(yàn)。在相同規(guī)模和推理速度下,焱融存儲(chǔ)支持更長(zhǎng)的上下文處理和更多查詢請(qǐng)求,為大模型推理提供更優(yōu)的性價(jià)比。

       焱融存儲(chǔ)支持 KV Cache 技術(shù)新優(yōu)勢(shì)

       優(yōu)勢(shì)一|焱融 AI 推理存儲(chǔ)優(yōu)化實(shí)時(shí)交互性能

       在實(shí)時(shí)交互場(chǎng)景中,用戶對(duì) AI 服務(wù)的響應(yīng)速度要求極高。焱融存儲(chǔ) KV Cache 技術(shù),大幅縮短大模型推理的首個(gè)Token耗時(shí)(Time To First Token)和Token間耗時(shí)(Time Between Token),顯著提升復(fù)雜場(chǎng)景的響應(yīng)效率。該方案采用 NVMe SSD 加速與高性能網(wǎng)絡(luò),實(shí)現(xiàn)微秒級(jí)推理延遲,提升 Token 處理速度,減少資源占用,支持更多并發(fā)訪問(wèn),優(yōu)化業(yè)務(wù)成本。同時(shí),通過(guò) GPUDirect Storage 與 RDMA 網(wǎng)絡(luò)的結(jié)合進(jìn)一步優(yōu)化數(shù)據(jù)傳輸效率,提升用戶體驗(yàn)。

       優(yōu)勢(shì)二|顯存資源動(dòng)態(tài)優(yōu)化與推理加速

       焱融存儲(chǔ) KV Cache 技術(shù),突破顯存容量對(duì)上下文長(zhǎng)度的限制,實(shí)現(xiàn) GPU 資源動(dòng)態(tài)調(diào)度,提升單卡并發(fā)推理能力。這意味著用戶可以在不增加 GPU 資源的情況下,實(shí)現(xiàn)更高并發(fā)的推理請(qǐng)求,大幅降低 GPU 資源消耗與投入成本。目前,該技術(shù)已應(yīng)用于多模態(tài)大模型、實(shí)時(shí)交互等高算力需求場(chǎng)景,為 AGI 時(shí)代規(guī)模化 AI 落地提供高性價(jià)比的算力底座。

       優(yōu)勢(shì)三|DeepSeek 級(jí)架構(gòu)體驗(yàn)

       針對(duì)當(dāng)前企業(yè)廣泛采用的 DeepSeek 等主流大模型,焱融存儲(chǔ) KV Cache 技術(shù)進(jìn)一步降低企業(yè)使用成本的同時(shí),提升推理場(chǎng)景下的響應(yīng)效率。可靈活適配從百億級(jí)參數(shù)模型到萬(wàn)億級(jí) MoE 混合專家模型,滿足政務(wù)、金融等高安全要求場(chǎng)景的數(shù)據(jù)本地化需求,同時(shí)支持國(guó)產(chǎn)與海外芯片的異構(gòu)算力環(huán)境,為企業(yè)提供自主可控的技術(shù)路徑。

       此次技術(shù)突破正值國(guó)內(nèi)企業(yè) AI 私有化部署浪潮,焱融科技以存儲(chǔ)技術(shù)創(chuàng)新推動(dòng)算力資源的高效利用,為 AI 規(guī)?;瘧?yīng)用提供了關(guān)鍵基礎(chǔ)設(shè)施支撐。隨著多模態(tài)與實(shí)時(shí)交互場(chǎng)景的普及,存儲(chǔ)與計(jì)算的協(xié)同優(yōu)化,KVCache“以存換算”將成為企業(yè)降本增效的核心競(jìng)爭(zhēng)力。

本文轉(zhuǎn)載自:,不代表科技訊之立場(chǎng)。原文鏈接:http://articlef.yulepops.com/article/m-164/1/312202503181757442436386.html

陳晨陳晨管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論