月之暗面 Kimi 開放平臺“上下文緩存”開啟公測：首 Token 延遲降低 83%、適用于文本重復引用場景

2024/7/1 21:10:48 來源：IT之家作者：歸瀧（實習） 責編：汪淼

評論：

IT之家 7 月 1 日消息，月之暗面今日官宣 Kimi 開放平臺上下文緩存（Context Caching）功能開啟公測。官方表示，該技術(shù)在 API 價格不變的前提下，可為開發(fā)者降低最高 90% 的長文本旗艦大模型使用成本，并提升模型響應速度。

IT之家附 Kimi 開放平臺上下文緩存功能公測詳情如下：

據(jù)介紹，上下文緩存是一種數(shù)據(jù)管理技術(shù)，允許系統(tǒng)預先存儲會被頻繁請求的大量數(shù)據(jù)或信息。當用戶請求相同信息時，系統(tǒng)可以直接從緩存中提供，無需重新計算或從原始數(shù)據(jù)源中檢索。

適用場景

上下文緩存適用于頻繁請求，重復引用大量初始上下文場景，可降低長文本模型費用，提高效率。官方表示費用最高降低 90 %，首 Token 延遲降低 83%。適用業(yè)務場景如下：

上下文緩存收費模式主要分為以下三個部分：

調(diào)用 Cache 創(chuàng)建接口，成功創(chuàng)建 Cache 后，按照 Cache 中 Tokens 按實際量計費。24 元 / M token

Cache 調(diào)用增量 token 的收費：按模型原價收費
Cache 調(diào)用次數(shù)收費：Cache 存活時間內(nèi)，用戶通過 chat 接口請求已創(chuàng)建成功的 Cache，若 chat message 內(nèi)容與存活中的 Cache 匹配成功，將按調(diào)用次數(shù)收取 Cache 調(diào)用費用。0.02 元 / 次

相關(guān)閱讀：

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。