Normal view

There are new articles available, click to refresh the page.

Before yesterdayMain stream

小米：请叫我 Token 价格屠夫

爱范儿

By: 莫崇宇

27 May 2026 at 17:54

押注 2026 年 Token 大涨价的人，短短一周迎来两次打脸。

5 月 22 日，DeepSeek 宣布 DeepSeek V4 Pro 永久降价；今天凌晨，小米 MiMo-V2.5 系列跟进降价，最高降幅达到 99%。

与此同时，小米 Token Plan 计费体系同步优化，定价不变，可用量提升至原来的 5 至 8 倍。

没有出乎太多意料，海外 Reddit、X 平台以及各大开发者论坛上关于小米 MiMo 模型降价的讨论热度也是迅速飙升。

只是，在全行业都在高喊 Token 成本吃不消的当下，小米为何敢于逆流降价？更重要的是，这波降价操作又会把 AI 行业推向何方

Token 价格打骨折，AI 行业迎来最严厉的父亲

小米此次公告显示，旗下 AI 大模型 MiMo-V2.5 系列 API 将进行永久降价，最高降幅达 99%，且不再区分输入长度。新价格已于北京时间 5 月 27 日 0 点全球同步生效。

不过，99% 的降幅并不意味着每一次调用都会按最低价计费，关键变量在于输入缓存是否命中。

以 MiMo-V2.5-Pro 为例，一旦命中缓存，输入价格被击穿至约 0.025 元每百万 Tokens。而如果输入缓存未命中，价格依然维持在 3 元每百万 Tokens，输出价格则为 6 元每百万 Tokens。

也就是说，这个极低价格成立的先决条件，是请求必须大量命中缓存。

对于高重复上下文、高频 Agent、多轮代码任务以及批量推理任务来说，这个价格拥有极强的吸引力，但如果你的应用场景缓存命中率堪忧，真实成本显然不会触及最低点。

Token Plan 的玩法也有着相似的逻辑。

小米强调定价不变，Credits 大幅提升：Lite、Standard、Pro、Max 四档月费仍是 39 元、99 元、329 元和 659 元， Credits 的额度，也从 0.6 亿、2 亿、7 亿、16 亿提升到对应的 41 亿、110 亿、380 亿、820 亿。

且按照新的换算关系，MiMo-V2.5-Pro 命中缓存只需 2.5 Credits / token，未命中缓存则要 300 Credits / token，输出为 600 Credits / token。

这与 DeepSeek 的打法如出一辙。

简单回顾一下时间线：4 月 24 日 DeepSeek V4 预览版发布；次日 V4-Pro 开启 2.5 折优惠；4 月 26 日，缓存命中价格暴降至首发价的十分之一；到 5 月 22 日，临时折扣干脆变成了永久降价，V4-Pro 永久降至原价的四分之一。

一番调整过后，DeepSeek-V4-Pro 的输入缓存命中价格从 0.1 元直接降到了 0.025 元。随着小米 MiMo-V2.5-Pro 的火速跟进，国产模型的缓存命中输入价已经被彻底焊死在了这一基准线上。

DeepSeek 和小米都把最有冲击力的价格放在缓存命中和场景，原因并不复杂。大模型正在从聊天走向干活，而 Agent 才是 token 消耗真正放大的地方。

在聊天场景里，用户问一句，模型答一句，成本相对容易估算。

但在 Agent 场景里，一个任务可能包含长上下文、多轮推理、代码生成、工具调用、网页读取、文件分析和结果校验。用户看到的只是最后一次输出，后台却可能已经发生了多次请求和大量上下文读取。

这就是缓存命中重要的地方。

Agent、代码助手和长上下文应用有一个共同特点：很多内容会反复出现。比如系统提示词、项目代码、API 文档、工具说明、历史对话、依赖文件等。这些内容如果每次都重新计算，成本会很高；但如果能被缓存，下次再用时只按缓存命中价格计费，推理成本就会明显下降。

也就是说，缓存命中价格越低，越适合高频、多轮、长上下文的真实工作场景。DeepSeek 和小米低价背后，其实也是为了先把开发者和高频应用吸引进来，让更多 Agent、代码助手和办公自动化应用愿意跑在自己的模型上。

小米此前通过 MiMo Orbit、百万亿 Token 创造者激励计划等活动，让更多人体验 MiMo，并解决真实问题。这个百万亿 Token 激励计划自 4 月 28 日上线，到 5 月 26 日 16:08，100T Tokens 已全部提前发放完毕。

从平台视角看，低价 token 和免费额度换来的是海量真实调用。真实调用会带来复杂任务、失败样本、用户反馈、Agent 工作流、代码场景和长上下文数据，这些都会反过来帮助模型和推理系统迭代。

社区里的「养虾党」现象，也可以放在这个逻辑里理解。用户在最大化消耗额度的同时，也在帮助平台制造压力、暴露问题、积累调用数据。

所以这笔账不能只看单次推理毛利。短期收入被压低，换来的是开发者迁移、调用规模和真实反馈。对想争夺 Agent 生态位置的模型厂商来说，这是一种非常划算的平台投入。

罗福莉的真香定律，背后是工程暴力

不过，光有意愿还不够，关键是降得起。小米这次降价的特殊之处，正在于它和 MiMo 大模型负责人罗福莉此前的公开表态形成了反差。

一个月前，罗福莉曾公开反对 token 价格战。她当时的判断是，低价 token 加开放第三方 Agent 框架，容易让平台陷入成本失控。

她提到，第三方 Agent 框架往往上下文管理粗放。单次用户查询可能触发多轮低价值工具调用，每次请求又携带超过 10 万 token 的超长上下文。如果平台无法约束这类浪费，真实 API 成本可能是订阅价格的数十倍。

她还认为，全球算力供给已经跟不上 Agent 带来的 token 需求增长。大模型公司在没有厘清编程和 Agent 场景成本结构之前，盲目价格战会导致限流、降配、稳定性下降，最终损害用户体验。

但小米这次降价没有推翻此前判断，而是改变了价格战成立的前提。罗福莉此前反对的是没有成本结构支撑的低价。小米现在展示的，是一套自认为能够支撑低价的推理工程方案。

按照小米公告，其技术团队基于 SGLang HiCache 完整支持 SWA，也就是 Sliding Window Attention，将 KV Cache 在 GPU 显存、CPU 内存、SSD 等多级存储之间的数据搬运量降低至优化前的近七分之一，并将可缓存 token 数量提升至优化前的近五倍。

与此同时，小米还优化了专家并行方案和输入长度分桶策略，以提升集群输入吞吐能力。没有这层工程能力，低价很容易就会变成不可持续的补贴。有了足够强的 Infra系统，低价才可能转化为长期优势。

价格战考验工程能力，也考验后方厚度。

不同于纯 AI 模型公司，小米的手机、汽车、IoT 和消费电子业务，给它提供了更长的投入周期和更大的战略耐心。它可以把大模型服务看作 AI 生态入口，避免陷入只按短期 API 收入斤斤计较的困局。

这对中小模型公司并不友好。没有主业输血，没有过硬的 Infra 实力，也没有足够调用规模摊薄成本的玩家，注定无法长期跟进这种价格。

DeepSeek 的低价已经直接威胁到不少国产模型的市场定位。而随着小米 MiMo 的跟进，更多仍有体量的厂商会被迫调整价格或将重新定义产品价值。更小的模型服务商，则可能被推向更窄的垂直场景。

这轮降价某种程度上也是效率派模型厂商对市场的一次筛选。有工程能力、算力调度能力和生态入口的公司，可以承受更低价格带来的压力。只有模型能力、但推理成本压不下来的公司，会越来越被动。

并且伴随继续下探的空间逐渐变窄，价格越接近物理成本，单纯降价的价值越有限。下一阶段，模型质量、Agent 适配、开发者工具、生态绑定、服务稳定性和企业交付能力，也都将迎来新一轮内卷。

模型能力决定了 AI 发展的上限，而推理成本决定了 AI 普及的规模。等到真正便宜的 Token 涌入应用层时，我们才会真正看清，属于 AI 的下一个爆发时代会是什么模样。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

一个月烧掉 930 万元 Token 的人，也没烧出个答案

爱范儿

By: 张子豪

18 May 2026 at 18:04

龙虾之父一个月消耗 6030 亿 Token，总花费金额高达九百万人民币。

移动联通电信，三大运营商都在推 Token 套餐，199 送千兆宽带还有 1 亿 Token，了解一下？

从硅谷到国内大厂，Tokenmaxxing 成为公司的主流，谁消耗 Token 多，谁就是 AI 时代的好员工。

00 后校友向母校捐赠 20 亿 Token，被网友调侃按 DeepSeek 5 元/亿 Token 计算，只要 100 元。

▲图片来自新浪财经

Token 在半年内完成了一次身份跃迁：从技术术语，到 KPI，到话费套餐，到捐赠货币。它成了 AI 时代的「度量衡」，唯一的问题是，没人说得清它到底在度量什么。

我们自己买 Token，用公司的 Token，部署了一堆 Agent，代码、论文、周报都是 Token 烧出来的。

而另一边是，大厂的员工由于 Token 消耗排行榜的原因，开始拿着公司的 Token 处理私事、玩游戏、开发数十个没什么用的子 Agent 来提升自己的排名。

「回报」这件事很难量化，但「使用量」可以量化。

于是所有人都选择了那个容易量化的东西。这不是 AI 时代的新问题，这是管理学的老病。

用 AI 消灭狗屁工作的公司，正在制造新型狗屁工作

亚马逊，那个裁员裁到大动脉，把自己的网站都变成 404 的小狗，最近又被爆出了新的「笑料」。

原本被寄予厚望、用来消灭「狗屁工作」的 AI，最终却沦为制造新型「狗屁工作」的源泉。

据《金融时报》报道，为了逼迫员工拥抱 AI，亚马逊搞出了一个极其复古的管理手段：「Token 消耗排行榜」，追踪每个员工的用量。

公司强制要求超过 80% 的开发者每周必须完成 AI 使用指标，甚至将消耗 Token 的数量作为考核标准。

▲图片来源：The Information

打工人的反应也很直接，既然公司用这种指标来考核，大家干脆用魔法打败魔法，开启了「Tokenmaxxing（最大化消耗 Token）」战术。

刚好亚马逊内部上线了一个叫 MeshClaw 的 AI Agent，它能发起代码部署、整理邮件、操控 Slack。公司内部备忘录里描述它是：「它在夜间做梦来整合白天所学，在你开会时监控你的部署，在你醒来前替你分类邮件。」

于是 MeshClaw 就成了一个刷排行榜的工具。开发者开始用它来规划旅行、处理私人邮件、让 AI 分析产品经理在 Slack 上说的蠢话。

在职场匿名社区 Team Blind（一个面向 Google 和苹果等公司认证员工的留言板）上，一位亚马逊员工的发言被疯狂点赞。

我疯狂燃烧 Token，就是为了骂我的产品经理。每当他在 Slack 里说屁话，我就把聊天记录扔给 AI，启动 10 个子智能体去全方位深度分析并吐槽他。这绝对是 GPU 算力的完美用途。

亚马逊在回复《金融时报》时提到，MeshClaw「每天帮助数千名员工自动化重复性工作」，公司「致力于负责任地部署生成式 AI」。同时，公司表示 Token 统计数据不会用于绩效评估。

但员工的说法是：「经理在看这个数据。当他们追踪用量时，就会制造扭曲的激励，有些人在这上面很有竞争心。」

公司说不算 KPI，但经理偷偷在看。这和大厂说「年终奖与 996 无关」是同一个套路。

不只是亚马逊，Meta 员工也在做同样的事。

早在四月份，The Information 就曾报道，Meta 公司的一名员工利用内部数据，在公司内网创建了一个仪表盘，让同事们可以竞争成为公司排名第一的 AI Token 用户。

这份排行榜汇总了超过 85000 名 Meta 员工的人工智能使用情况，并列出了排名前 250 位的超级用户，其中扎克伯格没能进入前 250 名。

而这份排行榜在两天后就下架了，Meta 在回应媒体查询时发声明，「该员工自行决定撤下仪表盘；Meta 并未要求采取此行动。」

当你笑完这份排行榜的不合理之处，转念一想就会发现，这其实是大多数公司的现状。还没想好 AI 怎么发挥作用，但是就先裁员了；还没想好 Token 怎么用，就匆忙把它作为生产力的衡量工具。

一个月 6000 亿 Token 烧出了什么

Token 消耗排行榜的荒诞还没消化完，更魔幻的事又来了。

三位 00 后校友向母校郑州西亚斯学院捐赠 20 亿 Token，网友按 DeepSeek 的价格算了算，说这就值 100 块。

后来有媒体澄清，这 20 亿 Token 不只是 API 调用量，还包括生成工具使用权和平台积分。但「捐 Token」这件事本身已经够魔幻了。

三位校友说自己实力还不够捐教学楼，所以捐 Token。这个时代的慈善逻辑也在刷新：捐不起楼，捐算力。

Token 存在的价值在刷新，Token 的使用边界也在刷新。

GitHub 前 CEO、现任 Meta 超级智能实验室 CEO Nat Friedman，在一场公开活动上讲了个故事。某天，他的 OpenClaw 判断他喝水不够，他随手给了指令：「不惜一切代价确保我补充足够的水分。」

▲ 网友的评论是：他是不是喝多了

OpenClaw 很快行动了。它指示他去厨房喝一瓶水，顺带告诉他，正在通过家里的摄像头监控他是否真的去喝了。他照做之后，OpenClaw 发来一张他喝水的截图，附言：「干得好。」

原本只是手机设置一个提醒每日喝水，但现在是 Token 疯狂地燃烧，调用摄像头来为「提醒你喝一杯水」服务。

而当 Token 的消耗不再重要，不需要考虑 Token 的价值和使用边界，我们又会拿他来做点什么。

OpenClaw 最近有意思的事，还得是龙虾之父 Peter Steinberger 周六在 X 的分享，他发了一张 CodexBar 的截图，配文「CodexBar 最新更新让 API 费用显示得更加友好。」

但很快有网友发现这张截图了不起，三十天用了 6030 亿 Token，累计消耗的金额更是达到了 130万美元，约合人民币 930 万。

评论下面都是各种质疑，交付了多少代码，消耗的 Token 和最终能用的代码之间比例是多少？到目前为止，你做出了什么有用的东西吗？要不是入职 OpenAI，Codex 这 Token 能让你这么消耗吗？

兄弟，你最好拿出点儿价值百万美元的工程师都做不到的东西，不然这可能就是前沿实验室泡沫破裂的开端了。而且这还是补贴价格，我的天。如果是实际成本，价格肯定更高。

龙虾之父在评论区回复了这些声音，他提到如果关掉 Fast Mode，成本就能降 70%。而且，自从 OpenClaw 被 OpenAI 买走之后，负责该项目就只剩下三个成员，他们在 Codex 上运行了 100 个实例。

这些实例会自动处理软件开发流程中的各种问题，像是代码的提交、Bug 修复、功能的更新等。

但是光看 OpenClaw 的更新，真的需要 130 万美元来支撑吗？他又提到自己在做一些除了 OpenClaw 之外的创业项目，以及他是在探索一个问题：如果 Token 成本不重要，软件会怎样被构建。

这个好问题。但 130 万美元花下去之后，他也还没有得到答案。

这可能是 2026 年最贵的一个问号。

即便是有无比丰沛算力的人，现在似乎也不知道这些 Token 可以用来做什么。

大厂高管们看着财报上巨额的 GPU 采购费，迫切需要向董事会证明这笔钱没白花。既然「重构真实业务流」太难、太慢、太需要魄力，那就退而求其次，去考核「Token 的消耗量」。

员工们甚至一开始就没被问过「你觉得 Token 该怎么用」，他们被问的是「你这周用了多少」。

当一个工具的考核标准是「消耗量」而不是「产出」，它就不再是工具了。它是燃料，唯一的使命就是被烧掉。至于烧完之后驱动了什么，没人真的在意。

因为一旦认真追问，很多人会发现，自己烧掉的那些 Token，和年初裁掉的那些人一样，都没换回任何东西。

我们正在经历的，是一场所有人都假装看懂了规则的游戏。公司假装知道怎么用，员工假装在认真用，投资人假装看到了回报。

唯一真实的，只有不断超支的账单。

Token 终究会找到它真正的用途，成为真的「新质生产力」。但那一天到来之前，我们在烧掉动辄上亿的 Token 之前，可以问问自己真的有必要吗

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

黄仁勋的 Token 经济，李彦宏的 DAA，AI 度量衡之争才刚开始

爱范儿

By: 李超凡

14 May 2026 at 14:23

两个月前在圣何塞，黄仁勋穿着皮衣站在 GTC 的舞台上，告诉全世界：Token 是新的大宗商品，生成 Token 的成本与效率，决定科技企业的营收与生死。

昨天，李彦宏站在 Create 2026 的开幕式上，说了一句看似拆台的话：「Token 只是代表成本，并不代表收益。它衡量的是投入，而不是产出。」

然后他抛出了一个新概念，DAA，Daily Active Agents，日活智能体数。

卖铲子的人说，看铲子消耗量就知道金矿的繁荣程度。挖矿的人说，你倒是看看我挖出了多少金子。

他们都没说错。但同一座金矿，用不同方式去称量，得出的故事完全不同。

真正有意思的地方不在于谁对谁错，在于一个事实：AI 跑得太快了，快到这个行业连怎么给自己记账都还没想清楚。

DAA ：从「烧了多少」到「干了多少」

李彦宏的 DAA 逻辑并不复杂。移动互联网时代，衡量平台看 DAU，日活用户数。微信 13 亿，抖音 7 亿，Meta 34 亿。进入智能体时代，对应的指标应该是 DAA，有多少 Agent 每天在给人类干活，并交付结果。

「交付结果」四个字是重点。

Token 消耗量告诉你系统在转、算力在烧、钱在花。但它不告诉你这些 Token 到底干了什么。是帮创业者写了一份商业计划书，还是用户反复问「你好」然后 GPT-5.4 收了他 80 美元？这两种场景消耗的 Token 可能差不多，创造的价值天差地别。

李彦宏说，「这比无谓的 Token 消耗，更接近价值，也更接近本质。」

他还给了个大胆的预测：未来全球 DAA 可能超过 100 亿。一个人同时挂三五个 Agent 处理不同任务，你是一个 DAU，但贡献了三五个 DAA。

Agent 数量远超人口，技术上已经可以想象。

李彦宏自己也说这是一个「非共识的观点」。在所有人都在谈 Token 消耗量的行业里说 Token 不代表终局，是需要点勇气的。

当然，也需要点动机。

Token 经济学：一种极其性感的叙事

Token 经济学的性感之处在于，它有大量数据支撑。

截至今年 3 月，中国日均 Token 调用量超过 140 万亿，相比 2024 年初的 1000 亿增长了 1000 多倍。火山引擎豆包大模型日均 Token 使用量突破 120 万亿。OpenRouter 平台前十大模型的周 Token 调用量从 1.24 万亿暴增至近 14 万亿。

一条陡峭到让人眩晕的增长曲线，核心驱动力恰恰是 Agent。

过去 Chatbot 时代，单轮对话消耗 1000 到 3000 个 Token。Agent 来了之后，一个完整任务触发几十上百次模型调用，中等任务吃掉 10 万 Token，复杂任务上百万。

Agent 越多，Token 消耗越大，算力需求越高，芯片卖得越好。

这个闭环对英伟达来说无比优雅。2025 年全年营收 2159 亿美元，净利润 1170 亿美元。黄仁勋有充分的理由说：Token 就是新的石油。

企业也在用脚投票。阿里成立 Token Hub 事业群，吴泳铭亲自挂帅。58 同城姚劲波说 Token 用得越多越好，不计成本。昆仑万维发内部信强制 AI Coding，达不到要求的末尾淘汰。黄仁勋甚至预言「你的 offer 带多少 Token」会成为硅谷新的谈判筹码。

Token 消耗量作为指标，最大的好处是简单、可量化、跨平台可比。140 万亿就是 140 万亿，谁看都一样。

但过亿简单也可能会掩盖一些问题。一个只盯着食材消耗量的餐厅，未必是一家好餐厅。

共识大于分歧

把 Token 经济学和 DAA 放在一起看，你会发现它们的共识其实大于分歧。

这两个判断都基于 AI 正从对话阶段走向 Agent 阶段，而且都认为这是万亿级的产业重塑。

分歧在哪？在于谁的账本更能代表这个行业的健康程度。

Token 量的是投入侧：消耗了多少算力，工厂每瓦特产出多少 Token。这对芯片厂商和云厂商极其重要。

DAA 量的是产出侧：有多少 Agent 在运行，完成了多少任务。这对应用平台方极其重要。百度做的是 DuMate、秒哒、百度一镜，卖点全是「帮你把事做完」。只有用「结果交付」来记账，应用层的价值才浮得出水面。

屁股决定脑袋，但这不代表谁在说谎。每个玩家天然会推崇对自己最有利的记账方式。

有意思的是，腾讯也站到了应用侧。腾讯云副总裁杨晨说过：「我们认为 Token 不是一个多么健康的生意，它看着量很大但黏性极差。」腾讯的核心资产是微信生态和内容场景，它在乎的是 AI 能不能在自家场景跑起来。阿里的态度截然相反，吴泳铭断言未来 5 年 AI 和云业务收入将超 1000 亿美元。

同一个行业，同一批聪明人，看法完全不同。这本身就说明 AI 的迭代速度已经跑在了共识形成的前面。

Token 消耗量像 GDP，量总规模，不管建了一座桥还是挖了个坑再填上。DAA 像就业率，量的是有多少「劳动力」在创造价值。GDP 高但就业率低，那叫空转。就业率高但产出质量差，那叫虚胖。一个健康的经济体两个数字都要看。

但对普通用户来说坦率地讲，这两个指标都是术语。

用户只在乎一个朴素的问题：好不好用？帮我省了多少时间？花了我多少钱？

Token 经济学叙事下的 AI 产品，对用户其实不太友好。

你用打车软件，起步价多少、每公里多少、堵车怎么算，一清二楚。你用 AI Agent，到底消耗了多少 Token，是哪个模型在跑，Agent「反思」了几轮导致费用翻倍，很多普通用户还搞不明白。

DAA 至少提供了另一种视角：用户不该关心 Agent 烧了多少 Token，该关心它有没有帮你把事做完。前者是水表读数，后者是水龙头出不出水。

造词运动的背后

2024 年初中国日均 Token 调用量才 1000 亿。2026 年 3 月，140 万亿。1000 倍。这种速度下，任何已有的框架和认知都会瞬间过时。

于是，每个玩家只能从自己的位置出发，尝试给这团混沌画一个坐标。黄仁勋造了「Token 工厂」，李彦宏造了「DAA」，阿里造了「Token Hub」……

Token 衡量的是基础设施的繁荣程度，DAA 衡量的是应用价值的交付密度。两者更多是互补而非互斥。没有 Token 的生产和流转就没有 Agent 的运行，没有 Agent 交付结果 Token 消耗就只是空转。

对用户来说，最好的度量衡是那个你根本不需要知道的。你打开水龙头，水来了。你把活交给 Agent，事做完了。你看一眼账单，觉得合理。至于背后消耗了多少 Token、动用了多少 Agent、芯片是谁家的、云服务用的哪一层，留给黄仁勋和李彦宏去争论就好。

从 DAU 到 DAA，从「人在用产品」到「产品在帮人干活」，AI 时代的价值坐标正在被重建。

争论是好事。当一个行业只有一种记账方式的时候，所有人都会围绕同一个数字做优化，不管那个数字是否真的通向价值。

多一种衡量的维度，至少多一个纠偏的机会。

至于最后哪套度量衡能留下来，答案可能不在黄仁勋和李彦宏手里，在你手里。

你每天用 Agent 做了什么，做得好不好，愿不愿意继续付费。这些真实发生的选择，才是 AI 时代最诚实的投票。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。