焱融存儲(chǔ)訓(xùn)推場(chǎng)景突破:推理性能提升13倍,延時(shí)縮短超4倍

       DeepSeek 引爆大模型在千行百業(yè)落地的背景下,存儲(chǔ)與計(jì)算的協(xié)同優(yōu)化正成為企業(yè)提升 AI 推理效率、降低運(yùn)營(yíng)成本的關(guān)鍵。KVCache 技術(shù)通過(guò)“以存換算”的創(chuàng)新模式,顯著提升了推理性能,成為企業(yè)構(gòu)建大模型基礎(chǔ)設(shè)施的必要選擇。此前,焱融科技率先推出 YRCloudFile 分布式文件系統(tǒng)的 KVCache 特性,支持 PB 級(jí)緩存擴(kuò)展,大幅提高 KV 緩存命中率與長(zhǎng)上下文處理能力,為大模型推理提供更優(yōu)性價(jià)比技術(shù)方案。

       近日,焱融存儲(chǔ)技術(shù)團(tuán)隊(duì)基于公開(kāi)數(shù)據(jù)集和業(yè)界公認(rèn)的測(cè)試工具,基于 NVIDIA GPU 硬件平臺(tái)模擬真實(shí)的推理業(yè)務(wù)場(chǎng)景,進(jìn)一步探索并發(fā)布 KVCache 在推理場(chǎng)景中的詳細(xì)性能優(yōu)化數(shù)據(jù)。測(cè)試結(jié)果顯示,在相同規(guī)模和推理延遲 TTFTTime-To-First-Token 下,YRCloudFile KVCache 可支持更高并發(fā)查詢請(qǐng)求,為用戶提供更貼近實(shí)際使用場(chǎng)景的性能驗(yàn)證與優(yōu)化方案。這些數(shù)據(jù)不僅驗(yàn)證了 KVCache 技術(shù)的有效性,并揭示了高性能 KVCache 給推理業(yè)務(wù)帶來(lái)的可量化的價(jià)值。

焱融存儲(chǔ)訓(xùn)推場(chǎng)景突破:推理性能提升13倍,延時(shí)縮短超4倍

       實(shí)測(cè) YRCloudFile KVCache 在推理場(chǎng)景中的性能優(yōu)化數(shù)據(jù)

       為了驗(yàn)證將 GPU 內(nèi)存擴(kuò)展至 YRCloudFile KVCache 對(duì) token 處理效率的顯著提升效果,并充分展示焱融 AI 存儲(chǔ)架構(gòu)的卓越性能,我們進(jìn)行了多輪測(cè)試。通過(guò)針對(duì)不同 token 數(shù)量和配置的測(cè)試,深入探索該架構(gòu)在實(shí)際應(yīng)用中的優(yōu)化潛力。以下測(cè)試均是基于原生 vLLM,以及 vLLM+YRCloudFile KVCache 進(jìn)行的數(shù)據(jù)對(duì)比。

       測(cè)試一:長(zhǎng)上下文提問(wèn)下,推理 TTFT 的對(duì)比數(shù)據(jù)

       背景:輸入長(zhǎng)上下文,對(duì)比單次提問(wèn)的回答總耗時(shí)(指超過(guò) 20K 長(zhǎng)度的 token)

       顯卡:NVIDIA T4

       模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4

       測(cè)試方法:基于同樣的上下文,使用相同的問(wèn)題,通過(guò)QA chatbot上進(jìn)行提問(wèn)模擬

       測(cè)試結(jié)論:在長(zhǎng)上下文場(chǎng)景中,使用 YRCloudFile KVCache 可實(shí)現(xiàn)高達(dá) 13 倍的 TTFT 性能提升。這一顯著優(yōu)化得益于其高效緩存命中率和對(duì)大規(guī)模數(shù)據(jù)的快速處理能力,為大模型推理提供了更優(yōu)的性能支持。

焱融存儲(chǔ)訓(xùn)推場(chǎng)景突破:推理性能提升13倍,延時(shí)縮短超4倍

       用戶普遍能接受的 TTFT 在 2 秒以內(nèi)?;谶@一背景,我們?cè)O(shè)計(jì)了測(cè)試二,以驗(yàn)證系統(tǒng)在長(zhǎng)上下文場(chǎng)景下的性能表現(xiàn)。

       測(cè)試二:使用不同上下文長(zhǎng)度,在 TTFT ≤ 2 秒時(shí),相同 GPU 能支撐的并發(fā)數(shù)對(duì)比數(shù)據(jù)。

       背景:在相同顯卡配置與 2 秒 TTFT 延遲約束條件下,通過(guò)對(duì)比原生 vLLM 與集成 YRCloudFile KVCache 的解決方案在不同上下文長(zhǎng)度(–max-prompt-length 參數(shù))下的并發(fā)支持能力,驗(yàn)證存儲(chǔ)擴(kuò)展對(duì)并發(fā)推理請(qǐng)求的提升效果。

       顯卡:NVIDIA L20

       模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4

       測(cè)試工具:使用 evalscope 測(cè)試工具, –dataset 參數(shù)為 longalpaca,以及指定不同 –max-prompt-length 參數(shù)值,進(jìn)行測(cè)試。

       測(cè)試結(jié)論:在相同 GPU 配置下,當(dāng) TTFT ≤ 2 秒時(shí),YRCloudFile KVCache 可承載的并發(fā)數(shù)可提升 8 倍。這意味著,在相同數(shù)量的 GPU 配置下,系統(tǒng)能夠滿足更高并發(fā)請(qǐng)求的需求,顯著優(yōu)化了推理性能和資源利用率。

焱融存儲(chǔ)訓(xùn)推場(chǎng)景突破:推理性能提升13倍,延時(shí)縮短超4倍

       測(cè)試三:在相同 GPU 配置和較高并發(fā)數(shù)下,使用不同上下文長(zhǎng)度的 TTFT 性能對(duì)比數(shù)據(jù)。

       背景:在相同顯卡配置下,通過(guò)設(shè)置不同的上下文長(zhǎng)度(–max-prompt-length 參數(shù)),在并發(fā)數(shù)為 30 情況下,使用原生 vLLM,以及 vLLM+YRCloudFile KVCache 進(jìn)行的數(shù)據(jù)對(duì)比。

       顯卡:NVIDIA L20

       模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4

       測(cè)試工具:evalscope,–dataset 使用longalpaca,指定不同–max-prompt-length,并發(fā)為 30 的情況下,進(jìn)行測(cè)試。

       測(cè)試結(jié)論:在較高并發(fā)數(shù)下,對(duì)于不同的上下文長(zhǎng)度,YRCloudFile KVCache  所提供的 TTFT 延遲可縮小 4 倍以上;這表明 YRCloudFile KVCache 在高并發(fā)場(chǎng)景下,能夠有效優(yōu)化推理性能,顯著減少延遲,提升用戶體驗(yàn)。

焱融存儲(chǔ)訓(xùn)推場(chǎng)景突破:推理性能提升13倍,延時(shí)縮短超4倍

       本次測(cè)試通過(guò)多維度驗(yàn)證表明,YRCloudFile KVCache 在長(zhǎng)上下文處理與高并發(fā)場(chǎng)景中展現(xiàn)出顯著性能優(yōu)勢(shì):在 TTFT≤2 秒的嚴(yán)苛約束下,其支持的并發(fā)數(shù)提升達(dá) 8 倍,且在高并發(fā)負(fù)載中延遲可降低 4 倍以上。這一成果不僅印證了 “存儲(chǔ) – 計(jì)算協(xié)同優(yōu)化” 對(duì) AI 推理效率的核心價(jià)值,更揭示了通過(guò)分布式存儲(chǔ)架構(gòu)擴(kuò)展顯存資源的技術(shù)路徑,能夠有效突破傳統(tǒng) GPU 算力瓶頸,實(shí)現(xiàn)資源利用率的指數(shù)級(jí)提升。

       當(dāng)前,隨著 DeepSeek 等大模型在千行百業(yè)的規(guī)模化落地,企業(yè)對(duì)推理效率與成本優(yōu)化的需求愈發(fā)迫切。YRCloudFile KVCache 通過(guò) PB 級(jí)緩存擴(kuò)展能力,將存儲(chǔ)資源轉(zhuǎn)化為計(jì)算性能增益,為行業(yè)提供了兼顧高性能與低成本的實(shí)踐范例。這種以存儲(chǔ)架構(gòu)創(chuàng)新驅(qū)動(dòng)算力釋放的模式,或?qū)⒊蔀槠髽I(yè)構(gòu)建下一代 AI 基礎(chǔ)設(shè)施的關(guān)鍵突破點(diǎn),加速大模型從技術(shù)突破到商業(yè)閉環(huán)的演進(jìn)進(jìn)程。

本文轉(zhuǎn)載自:,不代表科技訊之立場(chǎng)。原文鏈接:http://articlef.yulepops.com/article/m-164/1/312202504071247053995343.html

陳晨陳晨管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論