RL RanceLee的博客
← 返回主页
● AI新手教程

AI新手教程19:命中缓存到底是什么意思?

DeepSeek终于发布了V4模型,我这几天体验下来感觉十分不错,尤其是Flash性价比优越。我自己的记账小程序原来反应时间是5秒,现在已经降到了2.5秒。一个字就是丝滑!

美中不足的是Pro的价格不是很便宜,看官网的意思等下半年国内芯片供应上来之后价格还会下降。

没想到过了两天Pro模型直接限时2.5折了(而且这个折扣我怀疑是长期的),昨天还把缓存命中的价格降到了原来的十分之一!那还说啥,站起来用力蹬就完事了!

这才是我们熟悉的DeepSeek!前几天我还抨击了某些Coding Plan难抢和体验不好,DeepSeek这是要直接把API总体价格降到比Coding Plan还低的架势啊。尤其是现在多家Coding Plan禁止你除了编程以外的使用,就更显得DeepSeek有诚意了。

某些Coding Plan的API如果你接入了翻译,可能就把你封了,但是DeepSeek无所谓,你爱咋用咋用。

GPT5.5和DeepSeek V4表现出色,我已经在考虑下个月停止续费Claude了。并且身边的大佬已经试过了。

不过话说回来,肯定会有人好奇这个输入输出、缓存到底是什么意思?

我们先介绍一下什么叫做缓存命中。

打个比方:你去常去的那家面馆,第一次点"牛肉拉面加蛋不要香菜",老板要现切牛肉、揉面、煮蛋、备料,整套流程走下来挺慢。十分钟后你朋友来了,也点了一模一样的,老板发现料还在锅里热着、面也是同一锅,直接给你端上来——这就是"命中"。

AI 处理你的输入,本质上要把你发过去的所有文字(包括系统提示词、历史对话、你这次的问题)全部"嚼一遍",转成模型内部的中间状态。这一步是真烧算力的。

如果 AI 发现你这次发过去的内容,开头一大段和上一次完全一样,它就直接把上次嚼好的中间状态拿来用,不用重新嚼一遍——这就是缓存命中。

注意三个关键点:

  1. 必须是前缀完全一致。哪怕你在开头多加了一个空格、改了一个标点,缓存就废了,等于从头再来。
  2. 有时效。不同厂商不一样,比如 Anthropic 默认只有 5 分钟(你上个厕所就过期了),想要 1 小时档得加钱(按基础输入价的 2 倍计费)。DeepSeek 这边大概几小时到几天。
  3. 同一对话天然容易命中。因为对话每多一轮,新的输入 = 之前的全部历史 + AI 的回复 + 你的新问题,前面那一大段历史是完全相同的,自然就命中了。

缓存是否命中将会极大地影响价格,这也是为什么我建议在同一个对话中只聊相关内容,不仅仅是为了上下文的记忆,还因为会影响缓存命中。开新对话等于从零开始算钱,接着聊等于打折。

因此百万 tokens 输入(缓存命中)、百万 tokens 输入(缓存未命中)、百万 tokens 输出的意思就是:

百万 tokens 输入(缓存未命中):你这次发过去的内容里,AI 没法复用之前算好的部分、必须从头嚼一遍的那部分文字,按这个价格算。第一次开聊、新会话、改了开头的提示词,都属于这种情况。

百万 tokens 输入(缓存命中):你这次发过去的内容里,开头那一段恰好和之前某次完全一样、被 AI 识别出来直接复用的部分,按这个(便宜很多的)价格算。同一对话里聊到第二轮、第三轮,前面的历史就属于这一类。

百万 tokens 输出:AI 生成给你的那段回答,按这个价格算。这个永远是最贵的,因为"生成"比"理解"更耗算力——一个是 AI 在脑子里反复打草稿、挑词、组句,一个是 AI 看一遍材料。

举个具体例子感受一下。假设你在用 DeepSeek 改一段 3000 tokens 的代码:

  • 第一次提问:输入 3000 tokens(全部未命中)+ AI 输出 500 tokens
  • 接着追问"这段还能优化吗":输入变成 3500 多 tokens(其中 3500 是之前的历史,全部缓存命中;只有你新加的几十个字算未命中)+ AI 输出 600 tokens
  • 再开新对话重新粘代码问同样的问题:又是 3000 tokens 全部未命中

如果未命中价格是命中价格的 10 倍,那么"在同一对话里追问"和"开新对话重新问",光是输入这一项的费用差距就能拉到接近 10 倍。

所以这次 DeepSeek 把缓存命中价格直接打到原来的十分之一,配合 Pro 模型 2.5 折,对那些长上下文 + 多轮对话的使用场景(比如 Coding、文档分析、长聊天)几乎是骨折级的让利。如果你写过 Skill 或者搭过自动化流程,知道一个长 prompt 反复调用是常态,这次降价对应的真实节省比账面上看起来还要夸张。

最后给一个实操建议:养成在同一对话里聊完一个主题再开新对话的习惯,别动不动就"清空开新的"。不光是 AI 记得住你,也是真的能省钱。


总结

今天学到了什么:

  1. 缓存命中是什么 —— AI 把上次嚼过的输入存了一份,这次开头一样就直接复用,省下重新计算的算力,价格也跟着打折
  2. 三个关键条件 —— 必须是前缀完全一致、有时效(不同厂商从几分钟到几天不等)、同一对话天然容易命中
  3. 三种价格分别指什么 —— 缓存未命中 = 重新算的输入;缓存命中 = 复用的输入(最便宜);输出 = AI 生成的回答(最贵)
  4. 为什么输出最贵 —— “生成"比"理解"更耗算力,AI 在脑子里反复打草稿,价格通常是输入未命中的几倍

核心要点:

  • 同一对话接着聊,等于在自动打折;动不动开新对话,等于每次都按原价付钱
  • 改提示词要改在末尾,开头一动缓存就废了
  • 长上下文 + 多轮对话的场景(Coding、文档分析、长聊天)受益最大,DeepSeek 这波降价对这类用户基本是骨折

顺便我再吐槽一下CC,这是蒸馏了GPT5.4吧!