返回首页

罗福莉:为什么你的 Agent 正在疯狂烧 Token?

罗福莉:为什么你的 Agent 正在疯狂烧 Token?

小米 MiMo 负责人罗福莉近日发文,拆解了 Agent 时代 Token 消耗的真相。本文基于她的核心观点,结合行业技术细节,深入分析「省 Token」到底该怎么做。

事件背景

2026 年 4 月,Anthropic 切断了 Claude 订阅套餐对第三方工具(OpenClaw、OpenCode 等)的接入通道。与此同时,小米 MiMo 推出了 Token Plan——按实际 token 消耗量计费。

罗福莉有感而发,在 X 平台发表长文,系统阐述了她对 Agent 算力分配与定价逻辑的思考。

核心问题:第三方 Harness 到底浪费了多少 Token?

罗福莉近距离观察了 OpenClaw 的上下文管理后发现——写得很差

具体浪费模式

1. 轮次爆炸

一个用户请求,OpenClaw 会触发多轮低价值的工具调用。每一轮都作为独立 API 请求发出,每一次都携带完整的上下文窗口——往往超过 10 万 token

即便有缓存命中,这种方式仍然非常浪费。在极端情况下,还会推高其他请求的缓存未命中率。

2. 上下文压缩时机错误

很多第三方 harness 在接近上下文长度限制时,每隔几步就压缩一次工具返回结果。这导致 prompt cache 命中率极低——因为每次压缩都改变了前缀,缓存直接失效。

3. 真实成本 vs 订阅价格

罗福莉的判断:按 API 定价折算,第三方框架的真实成本大概是订阅价格的数十倍。这不是一个小差距,是一个巨坑。

技术深度:Token 浪费的四个维度

1. System Prompt 重复发送

Agent 的每一轮调用都需要重新发送 system prompt。在一个 10-20 轮的 agentic loop 中,假设 system prompt 为 2000 tokens,15 轮下来就是 30,000 tokens 的纯浪费。

优化方案:利用 prompt caching,system prompt 只计算一次,后续请求复用 KV cache。OpenAI、Anthropic、Google 都支持此功能,但需要前缀精确匹配。

2. 上下文累积增长

Agent 通常传递完整的对话历史来保持连贯性。成本增长是超线性的——不仅输入成本随轮次线性增长,输出成本也因为上下文变长而增加。

优化方案

  • 滑动窗口:只保留最近 N 轮对话
  • 中间轮次压缩:保留 system prompt + 最近 3-5 轮,中间用摘要替代
  • 关键信息提取:不传全文,只传结构化摘要

3. 投机执行(Speculative Execution)

很多 Agent 框架"以防万一"地调用工具和 LLM,而不是有条件地执行。一个 Agent 如果每次都执行 web search,即便 4 分钟前的缓存结果仍然有效,就是在烧钱。

4. 缓存失效的连锁反应

罗福莉在评论区补充了一个关键细节:

"更大的问题是,很多第三方 harness 在接近上下文长度限制时,每隔几步就压缩一次工具返回结果,导致 cache 命中率极低。"

Prompt caching 的核心原理是前缀匹配——只有当请求的前 N 个 token 与缓存完全一致时才能命中。一旦中间插入了压缩后的内容,整个缓存就失效了。

解决方案:更省 Token 的工程实践

1. Token 预算管理

设定每个 Agent 工作流的 token 上限。硬预算触发终止或强制摘要,软预算触发警告并切换到更经济的推理模式。

2. 上下文窗口优化

分层保留策略

  • Layer 1:System prompt(始终保留,利用 cache)
  • Layer 2:最近 3-5 轮对话(完整保留)
  • Layer 3:历史对话(压缩为摘要)
  • Layer 4:工具返回结果(按需保留关键信息)

3. Prompt Cache 最大化

  • 保持前缀稳定:system prompt 放在最前面且不变
  • 避免中间压缩:与其在中途压缩上下文,不如在达到限制时一次性重置
  • 利用结构化格式:用 XML/JSON 标签包裹内容,便于精确提取和复用

4. 智能模型路由

不是所有任务都需要最强的模型:简单查询用小模型,代码生成用中等模型,复杂推理用大模型。用模型路由代替一刀切,可以在保持质量的同时大幅降低成本。

罗福莉的核心结论

"全球算力供给已经跟不上 Agent 创造的 token 需求。真正的出路不是更便宜的 token,而是协同进化——更省 token 的 Agent 框架 x 更强大、更高效的模型。"

她将 Anthropic 封禁第三方工具的行动定位为「迟来的纠偏」:

  • 短期:Agent 用户成本跳涨数十倍
  • 中期:倒逼框架开发者改进上下文管理、提高 cache 命中率
  • 长期:推动整个生态向高效率方向演化

"Agent 时代不属于烧算力最多的人,属于用算力最聪明的人。"

对开发者的启示

如果你在构建 Agent 系统,现在就该检查:

  1. 你的 system prompt 在每轮调用中是否重复发送? 用 prompt caching
  2. 你的上下文是否在无限累积? 用滑动窗口或摘要压缩
  3. 你的工具调用是否有条件执行? 避免投机执行
  4. 你是否在用最贵的模型处理简单任务? 用模型路由
  5. 你的缓存命中率是多少? 保持前缀稳定,避免中途压缩

痛苦最终会转化为工程纪律。Token 价格战的终点,不是更便宜的 token,而是更聪明的使用方式。


本文基于小米 MiMo 负责人罗福莉 2026 年 4 月在 X 平台的系列推文整理,结合行业技术分析。

评论