概述
当前系统会记录上游返回的缓存 Token 信息,例如 prompt_cached_tokens 和 cache_write_tokens,并将其纳入用量统计与计费结果。但仓库内未发现对外公开的 x-cache-ttl、x-cache-enabled 一类请求头控制能力。
缓存类型
1. 上游缓存命中
如果上游模型返回了缓存命中 token,系统会把它记录为 prompt_cached_tokens:
配置示例
usage.prompt_tokens_details.cached_tokens => prompt_cached_tokens
2. 缓存写入计费
如果上游返回了缓存写入 token,系统会记录为 cache_write_tokens 并用于成本分析:
配置示例
usage.prompt_tokens_details.cache_creation_tokens => cache_write_tokens
配置方式
当前公开 API 仍然使用普通的 /v1/chat/completions 或 /v1/responses 请求;是否发生缓存、缓存命中多少,由上游能力决定,而不是由 Ling.AI 暴露的额外 Header 控制。
curl
curl https://api.lingyuncx.com/v1/chat/completions \
-H "Authorization: Bearer sk-xxxxxxxx" \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3.5-plus",
"messages": [{"role": "user", "content": "你好"}]
}'
缓存参数
| 参数 | 说明 | 默认值 |
|---|---|---|
prompt_cached_tokens | 上游返回的缓存命中 token 数,记录于用量与统计 | 由上游决定 |
cache_write_tokens | 上游返回的缓存写入 token 数,记录于成本明细 | 由上游决定 |
cache_hit_rate | 控制台统计项,按缓存 token 与输入 token 计算 | 自动计算 |
应用场景
- 成本分析:观察上游缓存命中对账单的影响
- 性能诊断:结合缓存 token 与延迟看模型表现
- 用量复盘:在统计页对比不同模型的缓存利用率
缓存统计
在控制台用量统计页可查看缓存 token、缓存命中率等聚合数据;这些指标来自日志字段,而不是来自额外的前台缓存控制开关。
💡 提示
当前仓库未实现 x-cache: HIT 之类的公开响应头;如需判断缓存效果,请以用量统计和日志字段为准。