提示缓存 — 降低成本与延迟

概述

当前系统会记录上游返回的缓存 Token 信息，例如 prompt_cached_tokens 和 cache_write_tokens，并将其纳入用量统计与计费结果。但仓库内未发现对外公开的 x-cache-ttl、x-cache-enabled 一类请求头控制能力。

缓存类型

1. 上游缓存命中

如果上游模型返回了缓存命中 token，系统会把它记录为 prompt_cached_tokens：

配置示例

                        usage.prompt_tokens_details.cached_tokens
=> prompt_cached_tokens
                    

2. 缓存写入计费

如果上游返回了缓存写入 token，系统会记录为 cache_write_tokens 并用于成本分析：

配置示例

                        usage.prompt_tokens_details.cache_creation_tokens
=> cache_write_tokens
                    

配置方式

当前公开 API 仍然使用普通的 /v1/chat/completions 或 /v1/responses 请求；是否发生缓存、缓存命中多少，由上游能力决定，而不是由 Ling.AI 暴露的额外 Header 控制。

curl

curl https://api.lingyuncx.com/v1/chat/completions \
  -H "Authorization: Bearer sk-xxxxxxxx" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.5-plus",
    "messages": [{"role": "user", "content": "你好"}]
  }'

缓存参数

参数	说明	默认值
`prompt_cached_tokens`	上游返回的缓存命中 token 数，记录于用量与统计	由上游决定
`cache_write_tokens`	上游返回的缓存写入 token 数，记录于成本明细	由上游决定
`cache_hit_rate`	控制台统计项，按缓存 token 与输入 token 计算	自动计算

应用场景

成本分析：观察上游缓存命中对账单的影响
性能诊断：结合缓存 token 与延迟看模型表现
用量复盘：在统计页对比不同模型的缓存利用率

缓存统计

在控制台用量统计页可查看缓存 token、缓存命中率等聚合数据；这些指标来自日志字段，而不是来自额外的前台缓存控制开关。

💡 提示

当前仓库未实现 x-cache: HIT 之类的公开响应头；如需判断缓存效果，请以用量统计和日志字段为准。