Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

小米:请叫我 Token 价格屠夫

By: 莫崇宇
27 May 2026 at 17:54

押注 2026 年 Token 大涨价的人,短短一周迎来两次打脸。

5 月 22 日,DeepSeek 宣布 DeepSeek V4 Pro 永久降价;今天凌晨,小米 MiMo-V2.5 系列跟进降价,最高降幅达到 99%。

与此同时,小米 Token Plan 计费体系同步优化,定价不变,可用量提升至原来的 5 至 8 倍。

没有出乎太多意料,海外 Reddit、X 平台以及各大开发者论坛上关于小米 MiMo 模型降价的讨论热度也是迅速飙升。

只是,在全行业都在高喊 Token 成本吃不消的当下,小米为何敢于逆流降价?更重要的是,这波降价操作又会把 AI 行业推向何方

Token 价格打骨折,AI 行业迎来最严厉的父亲

小米此次公告显示,旗下 AI 大模型 MiMo-V2.5 系列 API 将进行永久降价,最高降幅达 99%,且不再区分输入长度。新价格已于北京时间 5 月 27 日 0 点全球同步生效。

不过,99% 的降幅并不意味着每一次调用都会按最低价计费,关键变量在于输入缓存是否命中。

以 MiMo-V2.5-Pro 为例,一旦命中缓存,输入价格被击穿至约 0.025 元每百万 Tokens。而如果输入缓存未命中,价格依然维持在 3 元每百万 Tokens,输出价格则为 6 元每百万 Tokens。

也就是说,这个极低价格成立的先决条件,是请求必须大量命中缓存。

对于高重复上下文、高频 Agent、多轮代码任务以及批量推理任务来说,这个价格拥有极强的吸引力,但如果你的应用场景缓存命中率堪忧,真实成本显然不会触及最低点。

Token Plan 的玩法也有着相似的逻辑。

小米强调定价不变,Credits 大幅提升:Lite、Standard、Pro、Max 四档月费仍是 39 元、99 元、329 元和 659 元, Credits 的额度,也从 0.6 亿、2 亿、7 亿、16 亿提升到对应的 41 亿、110 亿、380 亿、820 亿。

且按照新的换算关系,MiMo-V2.5-Pro 命中缓存只需 2.5 Credits / token,未命中缓存则要 300 Credits / token,输出为 600 Credits / token。

这与 DeepSeek 的打法如出一辙。

简单回顾一下时间线:4 月 24 日 DeepSeek V4 预览版发布;次日 V4-Pro 开启 2.5 折优惠;4 月 26 日,缓存命中价格暴降至首发价的十分之一;到 5 月 22 日,临时折扣干脆变成了永久降价,V4-Pro 永久降至原价的四分之一。

一番调整过后,DeepSeek-V4-Pro 的输入缓存命中价格从 0.1 元直接降到了 0.025 元。随着小米 MiMo-V2.5-Pro 的火速跟进,国产模型的缓存命中输入价已经被彻底焊死在了这一基准线上。

DeepSeek 和小米都把最有冲击力的价格放在缓存命中和场景,原因并不复杂。大模型正在从聊天走向干活,而 Agent 才是 token 消耗真正放大的地方。

在聊天场景里,用户问一句,模型答一句,成本相对容易估算。

但在 Agent 场景里,一个任务可能包含长上下文、多轮推理、代码生成、工具调用、网页读取、文件分析和结果校验。用户看到的只是最后一次输出,后台却可能已经发生了多次请求和大量上下文读取。

这就是缓存命中重要的地方。

Agent、代码助手和长上下文应用有一个共同特点:很多内容会反复出现。比如系统提示词、项目代码、API 文档、工具说明、历史对话、依赖文件等。这些内容如果每次都重新计算,成本会很高;但如果能被缓存,下次再用时只按缓存命中价格计费,推理成本就会明显下降。

也就是说,缓存命中价格越低,越适合高频、多轮、长上下文的真实工作场景。DeepSeek 和小米低价背后,其实也是为了先把开发者和高频应用吸引进来,让更多 Agent、代码助手和办公自动化应用愿意跑在自己的模型上。

小米此前通过 MiMo Orbit、百万亿 Token 创造者激励计划等活动,让更多人体验 MiMo,并解决真实问题。这个百万亿 Token 激励计划自 4 月 28 日上线,到 5 月 26 日 16:08,100T Tokens 已全部提前发放完毕。

从平台视角看,低价 token 和免费额度换来的是海量真实调用。真实调用会带来复杂任务、失败样本、用户反馈、Agent 工作流、代码场景和长上下文数据,这些都会反过来帮助模型和推理系统迭代。

社区里的「养虾党」现象,也可以放在这个逻辑里理解。用户在最大化消耗额度的同时,也在帮助平台制造压力、暴露问题、积累调用数据。

所以这笔账不能只看单次推理毛利。短期收入被压低,换来的是开发者迁移、调用规模和真实反馈。对想争夺 Agent 生态位置的模型厂商来说,这是一种非常划算的平台投入。

罗福莉的真香定律,背后是工程暴力

不过,光有意愿还不够,关键是降得起。小米这次降价的特殊之处,正在于它和 MiMo 大模型负责人罗福莉此前的公开表态形成了反差。

一个月前,罗福莉曾公开反对 token 价格战。她当时的判断是,低价 token 加开放第三方 Agent 框架,容易让平台陷入成本失控。

她提到,第三方 Agent 框架往往上下文管理粗放。单次用户查询可能触发多轮低价值工具调用,每次请求又携带超过 10 万 token 的超长上下文。如果平台无法约束这类浪费,真实 API 成本可能是订阅价格的数十倍。

她还认为,全球算力供给已经跟不上 Agent 带来的 token 需求增长。大模型公司在没有厘清编程和 Agent 场景成本结构之前,盲目价格战会导致限流、降配、稳定性下降,最终损害用户体验。

但小米这次降价没有推翻此前判断,而是改变了价格战成立的前提。罗福莉此前反对的是没有成本结构支撑的低价。小米现在展示的,是一套自认为能够支撑低价的推理工程方案。

按照小米公告,其技术团队基于 SGLang HiCache 完整支持 SWA,也就是 Sliding Window Attention,将 KV Cache 在 GPU 显存、CPU 内存、SSD 等多级存储之间的数据搬运量降低至优化前的近七分之一,并将可缓存 token 数量提升至优化前的近五倍。

与此同时,小米还优化了专家并行方案和输入长度分桶策略,以提升集群输入吞吐能力。没有这层工程能力,低价很容易就会变成不可持续的补贴。有了足够强的 Infra系统,低价才可能转化为长期优势。

价格战考验工程能力,也考验后方厚度。

不同于纯 AI 模型公司,小米的手机、汽车、IoT 和消费电子业务,给它提供了更长的投入周期和更大的战略耐心。它可以把大模型服务看作 AI 生态入口,避免陷入只按短期 API 收入斤斤计较的困局。

这对中小模型公司并不友好。没有主业输血,没有过硬的 Infra 实力,也没有足够调用规模摊薄成本的玩家,注定无法长期跟进这种价格。

DeepSeek 的低价已经直接威胁到不少国产模型的市场定位。而随着小米 MiMo 的跟进,更多仍有体量的厂商会被迫调整价格或将重新定义产品价值。更小的模型服务商,则可能被推向更窄的垂直场景。

这轮降价某种程度上也是效率派模型厂商对市场的一次筛选。有工程能力、算力调度能力和生态入口的公司,可以承受更低价格带来的压力。只有模型能力、但推理成本压不下来的公司,会越来越被动。

并且伴随继续下探的空间逐渐变窄,价格越接近物理成本,单纯降价的价值越有限。下一阶段,模型质量、Agent 适配、开发者工具、生态绑定、服务稳定性和企业交付能力,也都将迎来新一轮内卷。

模型能力决定了 AI 发展的上限,而推理成本决定了 AI 普及的规模。等到真正便宜的 Token 涌入应用层时,我们才会真正看清,属于 AI 的下一个爆发时代会是什么模样。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

一个月烧掉 930 万元 Token 的人,也没烧出个答案

By: 张子豪
18 May 2026 at 18:04

龙虾之父一个月消耗 6030 亿 Token,总花费金额高达九百万人民币。

移动联通电信,三大运营商都在推 Token 套餐,199 送千兆宽带还有 1 亿 Token,了解一下?

从硅谷到国内大厂,Tokenmaxxing 成为公司的主流,谁消耗 Token 多,谁就是 AI 时代的好员工。

00 后校友向母校捐赠 20 亿 Token,被网友调侃按 DeepSeek 5 元/亿 Token 计算,只要 100 元。

▲图片来自新浪财经

Token 在半年内完成了一次身份跃迁:从技术术语,到 KPI,到话费套餐,到捐赠货币。它成了 AI 时代的「度量衡」,唯一的问题是,没人说得清它到底在度量什么。

我们自己买 Token,用公司的 Token,部署了一堆 Agent,代码、论文、周报都是 Token 烧出来的。

而另一边是,大厂的员工由于 Token 消耗排行榜的原因,开始拿着公司的 Token 处理私事、玩游戏、开发数十个没什么用的子 Agent 来提升自己的排名。

「回报」这件事很难量化,但「使用量」可以量化。

于是所有人都选择了那个容易量化的东西。这不是 AI 时代的新问题,这是管理学的老病。

用 AI 消灭狗屁工作的公司,正在制造新型狗屁工作

亚马逊,那个裁员裁到大动脉,把自己的网站都变成 404 的小狗,最近又被爆出了新的「笑料」。

原本被寄予厚望、用来消灭「狗屁工作」的 AI,最终却沦为制造新型「狗屁工作」的源泉。

据《金融时报》报道,为了逼迫员工拥抱 AI,亚马逊搞出了一个极其复古的管理手段:「Token 消耗排行榜」,追踪每个员工的用量。

公司强制要求超过 80% 的开发者每周必须完成 AI 使用指标,甚至将消耗 Token 的数量作为考核标准。

▲图片来源:The Information

打工人的反应也很直接,既然公司用这种指标来考核,大家干脆用魔法打败魔法,开启了「Tokenmaxxing(最大化消耗 Token)」战术。

刚好亚马逊内部上线了一个叫 MeshClaw 的 AI Agent,它能发起代码部署、整理邮件、操控 Slack。公司内部备忘录里描述它是:「它在夜间做梦来整合白天所学,在你开会时监控你的部署,在你醒来前替你分类邮件。」

于是 MeshClaw 就成了一个刷排行榜的工具。开发者开始用它来规划旅行、处理私人邮件、让 AI 分析产品经理在 Slack 上说的蠢话。

在职场匿名社区 Team Blind(一个面向 Google 和苹果等公司认证员工的留言板)上,一位亚马逊员工的发言被疯狂点赞。

我疯狂燃烧 Token,就是为了骂我的产品经理。每当他在 Slack 里说屁话,我就把聊天记录扔给 AI,启动 10 个子智能体去全方位深度分析并吐槽他。这绝对是 GPU 算力的完美用途。

亚马逊在回复《金融时报》时提到,MeshClaw「每天帮助数千名员工自动化重复性工作」,公司「致力于负责任地部署生成式 AI」。同时,公司表示 Token 统计数据不会用于绩效评估。

但员工的说法是:「经理在看这个数据。当他们追踪用量时,就会制造扭曲的激励,有些人在这上面很有竞争心。」

公司说不算 KPI,但经理偷偷在看。这和大厂说「年终奖与 996 无关」是同一个套路。

不只是亚马逊,Meta 员工也在做同样的事。

早在四月份,The Information 就曾报道,Meta 公司的一名员工利用内部数据,在公司内网创建了一个仪表盘,让同事们可以竞争成为公司排名第一的 AI Token 用户。

这份排行榜汇总了超过 85000 名 Meta 员工的人工智能使用情况,并列出了排名前 250 位的超级用户,其中扎克伯格没能进入前 250 名。

而这份排行榜在两天后就下架了,Meta 在回应媒体查询时发声明,「该员工自行决定撤下仪表盘;Meta 并未要求采取此行动。」

当你笑完这份排行榜的不合理之处,转念一想就会发现,这其实是大多数公司的现状。还没想好 AI 怎么发挥作用,但是就先裁员了;还没想好 Token 怎么用,就匆忙把它作为生产力的衡量工具。

一个月 6000 亿 Token 烧出了什么

Token 消耗排行榜的荒诞还没消化完,更魔幻的事又来了。

三位 00 后校友向母校郑州西亚斯学院捐赠 20 亿 Token,网友按 DeepSeek 的价格算了算,说这就值 100 块。

后来有媒体澄清,这 20 亿 Token 不只是 API 调用量,还包括生成工具使用权和平台积分。但「捐 Token」这件事本身已经够魔幻了。

三位校友说自己实力还不够捐教学楼,所以捐 Token。这个时代的慈善逻辑也在刷新:捐不起楼,捐算力。

Token 存在的价值在刷新,Token 的使用边界也在刷新。

GitHub 前 CEO、现任 Meta 超级智能实验室 CEO Nat Friedman,在一场公开活动上讲了个故事。某天,他的 OpenClaw 判断他喝水不够,他随手给了指令:「不惜一切代价确保我补充足够的水分。」

▲ 网友的评论是:他是不是喝多了

OpenClaw 很快行动了。它指示他去厨房喝一瓶水,顺带告诉他,正在通过家里的摄像头监控他是否真的去喝了。他照做之后,OpenClaw 发来一张他喝水的截图,附言:「干得好。」

原本只是手机设置一个提醒每日喝水,但现在是 Token 疯狂地燃烧,调用摄像头来为「提醒你喝一杯水」服务。

而当 Token 的消耗不再重要,不需要考虑 Token 的价值和使用边界,我们又会拿他来做点什么。

OpenClaw 最近有意思的事,还得是龙虾之父 Peter Steinberger 周六在 X 的分享,他发了一张 CodexBar 的截图,配文「CodexBar 最新更新让 API 费用显示得更加友好。」

但很快有网友发现这张截图了不起,三十天用了 6030 亿 Token,累计消耗的金额更是达到了 130万美元,约合人民币 930 万。

评论下面都是各种质疑,交付了多少代码,消耗的 Token 和最终能用的代码之间比例是多少?到目前为止,你做出了什么有用的东西吗?要不是入职 OpenAI,Codex 这 Token 能让你这么消耗吗?

兄弟,你最好拿出点儿价值百万美元的工程师都做不到的东西,不然这可能就是前沿实验室泡沫破裂的开端了。而且这还是补贴价格,我的天。如果是实际成本,价格肯定更高。

龙虾之父在评论区回复了这些声音,他提到如果关掉 Fast Mode,成本就能降 70%。而且,自从 OpenClaw 被 OpenAI 买走之后,负责该项目就只剩下三个成员,他们在 Codex 上运行了 100 个实例。

这些实例会自动处理软件开发流程中的各种问题,像是代码的提交、Bug 修复、功能的更新等。

但是光看 OpenClaw 的更新,真的需要 130 万美元来支撑吗?他又提到自己在做一些除了 OpenClaw 之外的创业项目,以及他是在探索一个问题:如果 Token 成本不重要,软件会怎样被构建。

这个好问题。但 130 万美元花下去之后,他也还没有得到答案。

这可能是 2026 年最贵的一个问号。

即便是有无比丰沛算力的人,现在似乎也不知道这些 Token 可以用来做什么。

大厂高管们看着财报上巨额的 GPU 采购费,迫切需要向董事会证明这笔钱没白花。既然「重构真实业务流」太难、太慢、太需要魄力,那就退而求其次,去考核「Token 的消耗量」。

员工们甚至一开始就没被问过「你觉得 Token 该怎么用」,他们被问的是「你这周用了多少」。

当一个工具的考核标准是「消耗量」而不是「产出」,它就不再是工具了。它是燃料,唯一的使命就是被烧掉。至于烧完之后驱动了什么,没人真的在意。

因为一旦认真追问,很多人会发现,自己烧掉的那些 Token,和年初裁掉的那些人一样,都没换回任何东西。

我们正在经历的,是一场所有人都假装看懂了规则的游戏。公司假装知道怎么用,员工假装在认真用,投资人假装看到了回报。

唯一真实的,只有不断超支的账单。

Token 终究会找到它真正的用途,成为真的「新质生产力」。但那一天到来之前,我们在烧掉动辄上亿的 Token 之前,可以问问自己真的有必要吗

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

黄仁勋的 Token 经济,李彦宏的 DAA,AI 度量衡之争才刚开始

By: 李超凡
14 May 2026 at 14:23

两个月前在圣何塞,黄仁勋穿着皮衣站在 GTC 的舞台上,告诉全世界:Token 是新的大宗商品,生成 Token 的成本与效率,决定科技企业的营收与生死。

昨天,李彦宏站在 Create 2026 的开幕式上,说了一句看似拆台的话:「Token 只是代表成本,并不代表收益。它衡量的是投入,而不是产出。」

然后他抛出了一个新概念,DAA,Daily Active Agents,日活智能体数

卖铲子的人说,看铲子消耗量就知道金矿的繁荣程度。挖矿的人说,你倒是看看我挖出了多少金子。

他们都没说错。但同一座金矿,用不同方式去称量,得出的故事完全不同。

真正有意思的地方不在于谁对谁错,在于一个事实:AI 跑得太快了,快到这个行业连怎么给自己记账都还没想清楚。

DAA :从「烧了多少」到「干了多少」

李彦宏的 DAA 逻辑并不复杂。移动互联网时代,衡量平台看 DAU,日活用户数。微信 13 亿,抖音 7 亿,Meta 34 亿。进入智能体时代,对应的指标应该是 DAA,有多少 Agent 每天在给人类干活,并交付结果。

「交付结果」四个字是重点。

Token 消耗量告诉你系统在转、算力在烧、钱在花。但它不告诉你这些 Token 到底干了什么。是帮创业者写了一份商业计划书,还是用户反复问「你好」然后 GPT-5.4 收了他 80 美元?这两种场景消耗的 Token 可能差不多,创造的价值天差地别。

李彦宏说,「这比无谓的 Token 消耗,更接近价值,也更接近本质。」

他还给了个大胆的预测:未来全球 DAA 可能超过 100 亿。一个人同时挂三五个 Agent 处理不同任务,你是一个 DAU,但贡献了三五个 DAA。

Agent 数量远超人口,技术上已经可以想象。

李彦宏自己也说这是一个「非共识的观点」。在所有人都在谈 Token 消耗量的行业里说 Token 不代表终局,是需要点勇气的。

当然,也需要点动机。

Token 经济学:一种极其性感的叙事

Token 经济学的性感之处在于,它有大量数据支撑。

截至今年 3 月,中国日均 Token 调用量超过 140 万亿,相比 2024 年初的 1000 亿增长了 1000 多倍。火山引擎豆包大模型日均 Token 使用量突破 120 万亿。OpenRouter 平台前十大模型的周 Token 调用量从 1.24 万亿暴增至近 14 万亿。

一条陡峭到让人眩晕的增长曲线,核心驱动力恰恰是 Agent。

过去 Chatbot 时代,单轮对话消耗 1000 到 3000 个 Token。Agent 来了之后,一个完整任务触发几十上百次模型调用,中等任务吃掉 10 万 Token,复杂任务上百万。

Agent 越多,Token 消耗越大,算力需求越高,芯片卖得越好

这个闭环对英伟达来说无比优雅。2025 年全年营收 2159 亿美元,净利润 1170 亿美元。黄仁勋有充分的理由说:Token 就是新的石油

企业也在用脚投票。阿里成立 Token Hub 事业群,吴泳铭亲自挂帅。58 同城姚劲波说 Token 用得越多越好,不计成本。昆仑万维发内部信强制 AI Coding,达不到要求的末尾淘汰。黄仁勋甚至预言「你的 offer 带多少 Token」会成为硅谷新的谈判筹码。

Token 消耗量作为指标,最大的好处是简单、可量化、跨平台可比。140 万亿就是 140 万亿,谁看都一样。

但过亿简单也可能会掩盖一些问题。一个只盯着食材消耗量的餐厅,未必是一家好餐厅。

共识大于分歧

把 Token 经济学和 DAA 放在一起看,你会发现它们的共识其实大于分歧。

这两个判断都基于 AI 正从对话阶段走向 Agent 阶段,而且都认为这是万亿级的产业重塑

分歧在哪?在于谁的账本更能代表这个行业的健康程度。

Token 量的是投入侧:消耗了多少算力,工厂每瓦特产出多少 Token。这对芯片厂商和云厂商极其重要。

DAA 量的是产出侧:有多少 Agent 在运行,完成了多少任务。这对应用平台方极其重要。百度做的是 DuMate、秒哒、百度一镜,卖点全是「帮你把事做完」。只有用「结果交付」来记账,应用层的价值才浮得出水面。

屁股决定脑袋,但这不代表谁在说谎。每个玩家天然会推崇对自己最有利的记账方式。

有意思的是,腾讯也站到了应用侧。腾讯云副总裁杨晨说过:「我们认为 Token 不是一个多么健康的生意,它看着量很大但黏性极差。」腾讯的核心资产是微信生态和内容场景,它在乎的是 AI 能不能在自家场景跑起来。阿里的态度截然相反,吴泳铭断言未来 5 年 AI 和云业务收入将超 1000 亿美元。

同一个行业,同一批聪明人,看法完全不同。这本身就说明 AI 的迭代速度已经跑在了共识形成的前面。

Token 消耗量像 GDP,量总规模,不管建了一座桥还是挖了个坑再填上。DAA 像就业率,量的是有多少「劳动力」在创造价值。GDP 高但就业率低,那叫空转。就业率高但产出质量差,那叫虚胖。一个健康的经济体两个数字都要看。

但对普通用户来说坦率地讲,这两个指标都是术语。

用户只在乎一个朴素的问题:好不好用?帮我省了多少时间?花了我多少钱?

Token 经济学叙事下的 AI 产品,对用户其实不太友好。

你用打车软件,起步价多少、每公里多少、堵车怎么算,一清二楚。你用 AI Agent,到底消耗了多少 Token,是哪个模型在跑,Agent「反思」了几轮导致费用翻倍,很多普通用户还搞不明白。

DAA 至少提供了另一种视角:用户不该关心 Agent 烧了多少 Token,该关心它有没有帮你把事做完。前者是水表读数,后者是水龙头出不出水。

造词运动的背后

2024 年初中国日均 Token 调用量才 1000 亿。2026 年 3 月,140 万亿。1000 倍。这种速度下,任何已有的框架和认知都会瞬间过时。

于是,每个玩家只能从自己的位置出发,尝试给这团混沌画一个坐标。黄仁勋造了「Token 工厂」,李彦宏造了「DAA」,阿里造了「Token Hub」……

Token 衡量的是基础设施的繁荣程度,DAA 衡量的是应用价值的交付密度。两者更多是互补而非互斥。没有 Token 的生产和流转就没有 Agent 的运行,没有 Agent 交付结果 Token 消耗就只是空转。

对用户来说,最好的度量衡是那个你根本不需要知道的。你打开水龙头,水来了。你把活交给 Agent,事做完了。你看一眼账单,觉得合理。至于背后消耗了多少 Token、动用了多少 Agent、芯片是谁家的、云服务用的哪一层,留给黄仁勋和李彦宏去争论就好。

从 DAU 到 DAA,从「人在用产品」到「产品在帮人干活」,AI 时代的价值坐标正在被重建

争论是好事。当一个行业只有一种记账方式的时候,所有人都会围绕同一个数字做优化,不管那个数字是否真的通向价值。

多一种衡量的维度,至少多一个纠偏的机会。

至于最后哪套度量衡能留下来,答案可能不在黄仁勋和李彦宏手里,在你手里。

你每天用 Agent 做了什么,做得好不好,愿不愿意继续付费。这些真实发生的选择,才是 AI 时代最诚实的投票。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌
❌