罗福莉:为什么你的 Agent 正在疯狂烧 Token?
小米 MiMo 负责人罗福莉近日发文,拆解了 Agent 时代 Token 消耗的真相。本文基于她的核心观点,结合行业技术细节,深入分析「省 Token」到底该怎么做。
事件背景
2026 年 4 月,Anthropic 切断了 Claude 订阅套餐对第三方工具(OpenClaw、OpenCode 等)的接入通道。与此同时,小米 MiMo 推出了 Token Plan——按实际 token 消耗量计费。
罗福莉有感而发,在 X 平台发表长文,系统阐述了她对 Agent 算力分配与定价逻辑的思考。
核心问题:第三方 Harness 到底浪费了多少 Token?
罗福莉近距离观察了 OpenClaw 的上下文管理后发现——写得很差。
具体浪费模式
1. 轮次爆炸
一个用户请求,OpenClaw 会触发多轮低价值的工具调用。每一轮都作为独立 API 请求发出,每一次都携带完整的上下文窗口——往往超过 10 万 token。
即便有缓存命中,这种方式仍然非常浪费。在极端情况下,还会推高其他请求的缓存未命中率。
2. 上下文压缩时机错误
很多第三方 harness 在接近上下文长度限制时,每隔几步就压缩一次工具返回结果。这导致 prompt cache 命中率极低——因为每次压缩都改变了前缀,缓存直接失效。
3. 真实成本 vs 订阅价格
罗福莉的判断:按 API 定价折算,第三方框架的真实成本大概是订阅价格的数十倍。这不是一个小差距,是一个巨坑。
技术深度:Token 浪费的四个维度
1. System Prompt 重复发送
Agent 的每一轮调用都需要重新发送 system prompt。在一个 10-20 轮的 agentic loop 中,假设 system prompt 为 2000 tokens,15 轮下来就是 30,000 tokens 的纯浪费。
优化方案:利用 prompt caching,system prompt 只计算一次,后续请求复用 KV cache。OpenAI、Anthropic、Google 都支持此功能,但需要前缀精确匹配。
2. 上下文累积增长
Agent 通常传递完整的对话历史来保持连贯性。成本增长是超线性的——不仅输入成本随轮次线性增长,输出成本也因为上下文变长而增加。
优化方案:
- 滑动窗口:只保留最近 N 轮对话
- 中间轮次压缩:保留 system prompt + 最近 3-5 轮,中间用摘要替代
- 关键信息提取:不传全文,只传结构化摘要
3. 投机执行(Speculative Execution)
很多 Agent 框架"以防万一"地调用工具和 LLM,而不是有条件地执行。一个 Agent 如果每次都执行 web search,即便 4 分钟前的缓存结果仍然有效,就是在烧钱。
4. 缓存失效的连锁反应
罗福莉在评论区补充了一个关键细节:
"更大的问题是,很多第三方 harness 在接近上下文长度限制时,每隔几步就压缩一次工具返回结果,导致 cache 命中率极低。"
Prompt caching 的核心原理是前缀匹配——只有当请求的前 N 个 token 与缓存完全一致时才能命中。一旦中间插入了压缩后的内容,整个缓存就失效了。
解决方案:更省 Token 的工程实践
1. Token 预算管理
设定每个 Agent 工作流的 token 上限。硬预算触发终止或强制摘要,软预算触发警告并切换到更经济的推理模式。
2. 上下文窗口优化
分层保留策略:
- Layer 1:System prompt(始终保留,利用 cache)
- Layer 2:最近 3-5 轮对话(完整保留)
- Layer 3:历史对话(压缩为摘要)
- Layer 4:工具返回结果(按需保留关键信息)
3. Prompt Cache 最大化
- 保持前缀稳定:system prompt 放在最前面且不变
- 避免中间压缩:与其在中途压缩上下文,不如在达到限制时一次性重置
- 利用结构化格式:用 XML/JSON 标签包裹内容,便于精确提取和复用
4. 智能模型路由
不是所有任务都需要最强的模型:简单查询用小模型,代码生成用中等模型,复杂推理用大模型。用模型路由代替一刀切,可以在保持质量的同时大幅降低成本。
罗福莉的核心结论
"全球算力供给已经跟不上 Agent 创造的 token 需求。真正的出路不是更便宜的 token,而是协同进化——更省 token 的 Agent 框架 x 更强大、更高效的模型。"
她将 Anthropic 封禁第三方工具的行动定位为「迟来的纠偏」:
- 短期:Agent 用户成本跳涨数十倍
- 中期:倒逼框架开发者改进上下文管理、提高 cache 命中率
- 长期:推动整个生态向高效率方向演化
"Agent 时代不属于烧算力最多的人,属于用算力最聪明的人。"
对开发者的启示
如果你在构建 Agent 系统,现在就该检查:
- 你的 system prompt 在每轮调用中是否重复发送? 用 prompt caching
- 你的上下文是否在无限累积? 用滑动窗口或摘要压缩
- 你的工具调用是否有条件执行? 避免投机执行
- 你是否在用最贵的模型处理简单任务? 用模型路由
- 你的缓存命中率是多少? 保持前缀稳定,避免中途压缩
痛苦最终会转化为工程纪律。Token 价格战的终点,不是更便宜的 token,而是更聪明的使用方式。
本文基于小米 MiMo 负责人罗福莉 2026 年 4 月在 X 平台的系列推文整理,结合行业技术分析。
评论