罗福莉：为什么你的 Agent 正在疯狂烧 Token？

小米 MiMo 负责人罗福莉近日发文，拆解了 Agent 时代 Token 消耗的真相。本文基于她的核心观点，结合行业技术细节，深入分析「省 Token」到底该怎么做。

事件背景

2026 年 4 月，Anthropic 切断了 Claude 订阅套餐对第三方工具（OpenClaw、OpenCode 等）的接入通道。与此同时，小米 MiMo 推出了 Token Plan——按实际 token 消耗量计费。

罗福莉有感而发，在 X 平台发表长文，系统阐述了她对 Agent 算力分配与定价逻辑的思考。

罗福莉近距离观察了 OpenClaw 的上下文管理后发现——写得很差。

1. 轮次爆炸

一个用户请求，OpenClaw 会触发多轮低价值的工具调用。每一轮都作为独立 API 请求发出，每一次都携带完整的上下文窗口——往往超过 10 万 token。

即便有缓存命中，这种方式仍然非常浪费。在极端情况下，还会推高其他请求的缓存未命中率。

2. 上下文压缩时机错误

很多第三方 harness 在接近上下文长度限制时，每隔几步就压缩一次工具返回结果。这导致 prompt cache 命中率极低——因为每次压缩都改变了前缀，缓存直接失效。

3. 真实成本 vs 订阅价格

罗福莉的判断：按 API 定价折算，第三方框架的真实成本大概是订阅价格的数十倍。这不是一个小差距，是一个巨坑。

Agent 的每一轮调用都需要重新发送 system prompt。在一个 10-20 轮的 agentic loop 中，假设 system prompt 为 2000 tokens，15 轮下来就是 30,000 tokens 的纯浪费。

优化方案：利用 prompt caching，system prompt 只计算一次，后续请求复用 KV cache。OpenAI、Anthropic、Google 都支持此功能，但需要前缀精确匹配。

Agent 通常传递完整的对话历史来保持连贯性。成本增长是超线性的——不仅输入成本随轮次线性增长，输出成本也因为上下文变长而增加。

优化方案：

很多 Agent 框架"以防万一"地调用工具和 LLM，而不是有条件地执行。一个 Agent 如果每次都执行 web search，即便 4 分钟前的缓存结果仍然有效，就是在烧钱。

罗福莉在评论区补充了一个关键细节：

"更大的问题是，很多第三方 harness 在接近上下文长度限制时，每隔几步就压缩一次工具返回结果，导致 cache 命中率极低。"

Prompt caching 的核心原理是前缀匹配——只有当请求的前 N 个 token 与缓存完全一致时才能命中。一旦中间插入了压缩后的内容，整个缓存就失效了。

设定每个 Agent 工作流的 token 上限。硬预算触发终止或强制摘要，软预算触发警告并切换到更经济的推理模式。

分层保留策略：

不是所有任务都需要最强的模型：简单查询用小模型，代码生成用中等模型，复杂推理用大模型。用模型路由代替一刀切，可以在保持质量的同时大幅降低成本。

"全球算力供给已经跟不上 Agent 创造的 token 需求。真正的出路不是更便宜的 token，而是协同进化——更省 token 的 Agent 框架 x 更强大、更高效的模型。"

她将 Anthropic 封禁第三方工具的行动定位为「迟来的纠偏」：

"Agent 时代不属于烧算力最多的人，属于用算力最聪明的人。"

如果你在构建 Agent 系统，现在就该检查：

痛苦最终会转化为工程纪律。Token 价格战的终点，不是更便宜的 token，而是更聪明的使用方式。

本文基于小米 MiMo 负责人罗福莉 2026 年 4 月在 X 平台的系列推文整理，结合行业技术分析。