571 - 《Code Agent 开发笔记 01 - Prompt Caching》

发布于 2025年6月4日

Prompt Caching 是省钱(Token)和提升 AI 响应速度的必须要考虑的一点。 很多人可能会忽略,但是它很重要。

1、如何验证 Prompt Caching?两个思路,1)看 token 消耗,2)在执行速度。

比如。在 OpenRouter 上看消耗。开启 Prompt Caching 之后,相同的 Prompt 执行,第一次和第 N 次在 OpenRouter 上的消耗差异。

2、Caching 有最少 token 要求。Gemini 2.5 Pro 2048 tokens,Gemini 2.5 Flash 1024 tokens,Claude Sonnet 和 Opus 1024 tokens,Openai 1024 tokens,DeepSeek 64 tokens。

3、开启方法看 Provider 。Claude 通过给每个 message 加 cache_control: {"type": "ephemeral"} 实现;Gemini 有 caching 的 CURD 操作,但是通过 openrouter 的可以用 Claude 的方法进行设置,

内容预览已结束

此内容需要会员权限。请先登录以查看完整内容。