提示缓存

缓存重复请求,降低成本和延迟

概述

当前系统会记录上游返回的缓存 Token 信息,例如 prompt_cached_tokenscache_write_tokens,并将其纳入用量统计与计费结果。但仓库内未发现对外公开的 x-cache-ttlx-cache-enabled 一类请求头控制能力。

缓存类型

1. 上游缓存命中

如果上游模型返回了缓存命中 token,系统会把它记录为 prompt_cached_tokens

配置示例
usage.prompt_tokens_details.cached_tokens
=> prompt_cached_tokens

2. 缓存写入计费

如果上游返回了缓存写入 token,系统会记录为 cache_write_tokens 并用于成本分析:

配置示例
usage.prompt_tokens_details.cache_creation_tokens
=> cache_write_tokens

配置方式

当前公开 API 仍然使用普通的 /v1/chat/completions/v1/responses 请求;是否发生缓存、缓存命中多少,由上游能力决定,而不是由 Ling.AI 暴露的额外 Header 控制。

curl
curl https://api.lingyuncx.com/v1/chat/completions \
  -H "Authorization: Bearer sk-xxxxxxxx" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.5-plus",
    "messages": [{"role": "user", "content": "你好"}]
  }'

缓存参数

参数说明默认值
prompt_cached_tokens上游返回的缓存命中 token 数,记录于用量与统计由上游决定
cache_write_tokens上游返回的缓存写入 token 数,记录于成本明细由上游决定
cache_hit_rate控制台统计项,按缓存 token 与输入 token 计算自动计算

应用场景

  • 成本分析:观察上游缓存命中对账单的影响
  • 性能诊断:结合缓存 token 与延迟看模型表现
  • 用量复盘:在统计页对比不同模型的缓存利用率

缓存统计

在控制台用量统计页可查看缓存 token、缓存命中率等聚合数据;这些指标来自日志字段,而不是来自额外的前台缓存控制开关。

💡 提示

当前仓库未实现 x-cache: HIT 之类的公开响应头;如需判断缓存效果,请以用量统计和日志字段为准。