今日,月之暗面正式對(duì)外宣布,其Kimi開放平臺(tái)上線了全新的上下文緩存(Context Caching)功能,并即日起開啟公測(cè)。這一創(chuàng)新技術(shù)旨在不增加API價(jià)格負(fù)擔(dān)的前提下,為開發(fā)者提供最高可達(dá)90%的成本降低,并顯著提升模型響應(yīng)速度,標(biāo)志著人工智能服務(wù)效率與成本控制的新突破。
據(jù)官方介紹,上下文緩存是一種先進(jìn)的數(shù)據(jù)管理技術(shù),它通過預(yù)先存儲(chǔ)頻繁請(qǐng)求的大量數(shù)據(jù)或信息,顯著減少了對(duì)原始數(shù)據(jù)源的重復(fù)計(jì)算與檢索需求。當(dāng)用戶再次請(qǐng)求相同信息時(shí),系統(tǒng)能夠迅速從緩存中調(diào)取,從而大幅降低處理時(shí)間和成本。對(duì)于依賴長文本模型進(jìn)行高頻查詢的應(yīng)用場(chǎng)景而言,這一技術(shù)無疑是一大利好。
Kimi開放平臺(tái)指出,上下文緩存功能特別適用于以下業(yè)務(wù)場(chǎng)景:提供大量預(yù)設(shè)內(nèi)容的問答機(jī)器人(如Kimi API小助手)、針對(duì)固定文檔集合的頻繁查詢工具(如上市公司信息披露問答系統(tǒng))、靜態(tài)代碼庫或知識(shí)庫的周期性分析應(yīng)用(如各類Copilot Agent),以及瞬時(shí)流量巨大的AI爆款應(yīng)用(如哄哄模擬器、LLM Riddles)等。官方數(shù)據(jù)顯示,啟用上下文緩存后,首Token延遲可降低83%,為用戶帶來前所未有的高效體驗(yàn)。
在計(jì)費(fèi)方面,Kimi開放平臺(tái)采取了靈活且透明的收費(fèi)模式,包括Cache創(chuàng)建費(fèi)用、Cache存儲(chǔ)費(fèi)用和Cache調(diào)用費(fèi)用三部分。具體而言,Cache創(chuàng)建費(fèi)用按實(shí)際Tokens量計(jì)費(fèi),每百萬Tokens收費(fèi)24元;Cache存儲(chǔ)費(fèi)用則按分鐘收取,每百萬Tokens每分鐘收費(fèi)10元;而Cache調(diào)用費(fèi)用則分為增量Token費(fèi)用和調(diào)用次數(shù)費(fèi)用,前者按模型原價(jià)收費(fèi),后者則按每次調(diào)用0.02元的標(biāo)準(zhǔn)收取。
值得注意的是,此次公測(cè)活動(dòng)將持續(xù)3個(gè)月,期間價(jià)格可能根據(jù)市場(chǎng)反饋進(jìn)行調(diào)整。此外,公測(cè)資格將優(yōu)先開放給Tier5等級(jí)用戶,其他用戶的開放時(shí)間將另行通知。這一舉措既體現(xiàn)了月之暗面對(duì)高質(zhì)量用戶的重視,也為廣大開發(fā)者提供了一個(gè)提前體驗(yàn)并反饋寶貴意見的機(jī)會(huì)。
隨著人工智能技術(shù)的不斷發(fā)展,如何在保證服務(wù)質(zhì)量的同時(shí)有效控制成本,成為眾多開發(fā)者和企業(yè)關(guān)注的焦點(diǎn)。月之暗面Kimi開放平臺(tái)此次推出的上下文緩存功能,無疑為這一難題提供了有效的解決方案,有望推動(dòng)人工智能服務(wù)的普及與應(yīng)用場(chǎng)景的拓展。
原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.2079x.cn/article/664692.html