Normal view

There are new articles available, click to refresh the page.

Before yesterdayMain stream

马斯克花 100 亿想清楚一件事，不做 coding agent 就是等死

爱范儿

By: 杜晨

18 May 2026 at 22:10

1.

OpenAI 的两大宿敌 Anthropic 和马斯克，放下心中成见之后终于在月初结盟了。

在此之前，Anthropic 和马斯克的关系并不融洽：今年 2 月，马斯克还在自己的 X 账号指责 A 社「woke」「邪恶」「反人类」（misanthropic），说这家公司「仇视文明」。

事后来看，这次攻击并非马斯克清新脱俗的性格使然，而是 Anthropic 所做的某些事情触碰到他的神经，事出有因。

在此之前，xAI 内部使用 Cursor 工作，但是今年年初员工发现，Claude 模型突然在 xAI 的 Cursor 公司账号里不能使用了。

当时还在 xAI 上班的联合创始人吴宇怀，在全员信里是这么说的：「Anthropic 更新了政策，要求 Cursor 不得向其主要竞争对手提供 Claude 模型调用能力。」

当时，吴宇怀在信中写了一句话，颇为有趣：

「这是坏消息也是好消息。我们的生产力会被影响，但这也敦促我们开发自己的编码产品和模型。」

为什么当时 xAI 的高层认为，开发自己的编码产品是关键？

后来发生的事情，大家都知道了。xAI 的联创团队悉数跑路，马斯克一气之下对 Cursor 使用了钞能力必杀：

上个月底，SpaceX 和 Cursor 共同宣布，将在编程和知识类工作 AI 模型的训练上，展开前所未有的战略合作；并且，SpaceX 还获得了以 600 亿美元收购 Cursor 的权利，或向后者支付 100 亿美元合作费用。

注意编程这个关键定语，后面还会 call back.

2.

最近，我看了一条 Cursor 早期投资人、Anthropic 大喷子、T3 创始人 Theo Browne 的视频。

本来点进去是看他喷 A 社和 SpaceX 怎么蝇营狗苟，结果没想到，却看到了关于 SpaceX + Cursor 合作的，一个既另类却又极度合理的分析：

不说 600 亿的收购，就只说 100 亿的合作费——Theo 在视频里表示，自己认为「哪怕只是交换到 Cursor 的用户数据，这 100 亿也值回票价了。」

所以是什么数据？如果你也去看 Theo 这条视频，他会讲得非常清楚。但为了节约时间，我们在这里简单概括一下：

我们和 AI 的对话是一来一回的，你提出问题/需求，他给你解答；coding agent 同理，只不过返回的是代码。

一次高质量的对话，整个过程，包括用户提示、模型思考、agent 规划、输出代码、验证——所有这些东西合起来，可以称为一个完整的 Agentic Loop——就成为了高价值的训练数据，再喂给模型去进行强化学习，就能进一步提高模型在实战场景下的表现水准。

Cursor 有的，SpaceX 想要的，就是这些数据。

可这些数据从哪里来呢？

答案很简单：作为模型厂商，这种高质量数据的最直接来源，只能是你自己开发的 coding agent 产品——也即 Anthropic 的 Claude Code、OpenAI 的 Codex、Kimi 的 Kimi Code。

现在你应该明白了，为什么被 Anthropic「封号」之后，吴宇怀会在全员信里提出开发 xAI 自己的 coding 产品和模型这件事了。这件事 xAI 在当时已经看清楚了：

没有自己的编码产品，就没有高质量的强化学习数据；没有高质量的数据，就训练不出真正实战能力强的 coding 模型。

虽然有点暴论，但现在我们可以点题了：模型厂商想做出来真正能打的编程模型，做自己的 coding agent 产品是唯一的路径。

3.

大语言模型像个水晶球，用全网的语料训练出来，似乎能够解答万物，但并不代表它在所有问题上都能给出高质量的答案。

用 GitHub 上数以亿计的代码条目训练，当然也能训练出 coding 模型。这是「学习结果」的逻辑，也是没问题的。毕竟编码任务的结果是可以验证的：代码能不能运行，测试能否通过，结果摆在那里。

但是，通往结果的过程，是一个涉及多步骤决策、错误纠正、意图对齐的复杂链条。每一次用户的接受、拒绝、补全、撤销、追问、甚至当模型好几次都搞不定或者完全搞错时的辱骂——都是这一链条上的过程信号。

强化学习有两种监督方式，一种叫做结果监督，只看最后是否跑通。但是结果监督会催生「奖励黑客」的现象：模型为了能跑通可能写出冗余、脆弱、带逻辑漏洞的代码，但因为测试过了，模型以为自己学对了。

而另一种叫做过程监督，对推理路径上的每一步进行打分。上述这些过程信号，只有在 coding agent 运行环境里才能诞生。GitHub 仓库里只有结果，哪怕是去看单独的提交历史，看 PR，都找不到有效的过程信号。

在缺乏有效、自主可获得的过程信号的时候，一些模型厂商会采用「蒸馏」的方式，这个事情大家应该已经知道了。

蒸馏的逻辑很简单，给同样的输入，老师模型输出什么，学生模型就学着输出什么。但是通过蒸馏，即便可以获取到思维链，得到的仍然更接近于结果，而非被蒸馏的老师模型内部的概率分布。

一旦学生在推理中偏离了老师的轨迹，哪怕一个 token 不符合，都有可能发生偏离。

这背后是强化学习的基础限制：策略梯度定理要求，优化样本最好由当前正在优化的模型自己去产生。这种数据叫做 on-policy 数据。而通过蒸馏别家模型，在别人的产品里产生的数据，来训练自己模型，都属于 off-policy 数据。模型当然可以从中学到东西，但学不到老师模型内部的概率分布信息。

而像 Cursor 这样自己就是 coding agent 产品的公司，掌握着最真实、有效、高质量的训练数据。Cursor 产品本身，就是 coding 模型在实战环境中的最佳训练场。

我们可以通过 Cursor 年初的「翻车」，来证明这个逻辑。

4.

APPSO 读者应该记得，年初 Cursor 发布了 Composer 2，号称「下一代专用编程模型」，技术报道写的相对保守，也没有提供具体的模型底座信息。

结果很快，网友就在公开代码片段里发现了 Kimi 的模型 ID，截图传遍了开发者社群，逼得 Cursor 副总裁 Lee Robinson 出面澄清：「Composer 2 确实是从开源底座出发的。最终模型大约只有 1/4 的算力来自底座，剩下 3/4 是我们自己训出来的。」

几小时后，Cursor 联创 Aman Sanger 也跟着发了一条道歉：「一开始没提 Kimi 底座是个失误。」

五天后，Cursor 放出了完整的 Composer 2 技术报告，显示底座的确是 Kimi K2.5，授权方则是 Firworks AI，大致流程是在 K2.5 上做训练，再继续做大规模强化学习（RL）。

但关键之处在于，Composer 2 的 RL 是运行在真实的 Cursor 会话当中，使用与生产部署完全相同的工具和 harness。

Cursor 将这套流程叫做「实时强化学习」(real-time RL)，也即将模型的 checkpoint 直接部署到 Cursor 生产环境中，观察用户的响应，收集数据，聚合成奖励信号——最快可以每 5 个小时迭代一次模型版本，然后继续部署到 Cursor 里，循环往复。

最极致的案例是 Cursor 的自动化代码补全功能 Tab，每天处理超过 4 亿次请求，每当用户输入字符、移动光标时，模型都会预测下一步动作，如果预测置信度高，则显示建议，用户按下 tab 即接受自动补全。

该功能采用的是在线强化学习，在行业内极具特色。Cursor 可以以极高的频率（最快可达每一个半小时到两小时）更新 Tab 的模型能力给用户，直接在产品内收集 on-policy 数据进行训练。

这种高频、接近实时的反馈回路，让 Tab 可以学习到极其微妙的用户意图。Cursor 方面透露，这种方法让 Tab 建议的拒绝率降低 21%，接受率提高了 28%。

回到 Composer 模型本身。在事情搞清楚了之后，一些 Kimi 员工也删掉了之前吐槽的的推文，Kimi 官方账号发表了祝贺。

一家估值 600 亿美元（基于马斯克给的数字），不做自己的模型基座的 coding agent 应用层公司，仍然可以通过产品自身的数据飞轮，RL 出超越基座模型的专有编程模型。

所以与其说 Cursor 翻了车，不如说这反而是 coding agent 产品重要性的绝佳例证。

Cursor 在另一篇关于实时 RL 的文章里写到：「（训练编程模型）最大的困难在于建模用户。Composer 的生产环境里不只有执行命令的计算机，还有监督和指导它的人。模拟计算机容易，模拟使用它的人却很难。」

这句话，现正在逐渐成为了在编程模型方面走在前沿的模型厂商之间的共识。如果你去看 benchmark 榜单和用户普遍评价，会发现哪些头部的厂商都在发力做自己的 coding agent/编程产品。区别只在于谁离用户更近。

我们以 SWE-bench、LLM-Stats 等相对权威的榜单为例，Claude、GPT、Gemini、Kimi 等模型基本霸榜前十，清一色都是有自己开发 coding agent 产品（包括 CLI、IDE、集成 coding agent 的桌面客户端）的模型厂商。

在部分榜单上会出现少数反例，如 Meta (Muse Spark)、DeepSeek 等，没有开发自己的 coding agent。

不过你会发现，这些反例模型，在更加接近真实场景、避免污染的更权威 benchmark 上就很难上榜了。以 DeepSeek 为例，它在 SWE-bench bash only 上分数是 70%，排名第九，在 SWE-bench Pro 上分数却掉到了 15% 左右。

OpenRouter 的真实流量数据可以解释这种反差：该平台 2025 年报告显示，Claude token 消费 80% 以上用于编程和技术任务，而 DeepSeek token 消费主要集中于闲聊和角色扮演。

没有自家 coding 产品的厂商，在一些 coding 任务 benchmark 上能挤进头部，但在更难的真实工程 benchmark 上，在用户用 token 消费投票的真实流量中，都会原形毕露。

不仅是 Cursor，Anthropic 在 2025 年 11 月发的一篇论文里，也明确透露自己在做一模一样的事情：「我们在 Anthropic 自家的真实生产编程环境上做训练。」也即 Anthropic 把自己员工使用 Claude Code 的交互数据，反哺给 Claude 模型用来训练。

5.

在 AI 的演进历程中，生产要素的定义发生了深刻的位移。传统三大核心要素——算力、研究、训练数据，虽然在总量上持续增长，但在结构上已经出现了严重的失衡。

今天的各大 AI 巨头显著提高了在算力上的资本支出 (CapEx)，让算力基建成为了当前舆论的主旋律。但实际上，特别是在编程范畴内，随着 GitHub 仓库、StackOverflow 等互联网公开代码数据被基模厂商「竭泽而渔」式地利用，模型在代码生成与逻辑推理上的边界开始逐渐显现。

这也是为什么，行业共识正在逐渐转向一个冉冉升起的新战略高地：

对于任何希望掌握顶级代码能力的模型厂商而言，建立自有的 coding agent 产品早已不再是可选的商业路线，而是确保底层模型可以持续进化的核心生命线。

正如前面 APPSO 论证的那样，单纯学习公开数据等于只学习成功者的结局，却无法了解成功的路径，这绝对不是正确的成功学应该有的样子。在真实的编程环境中，知道发生了什么错误、怎样发生的、如何正确地理解和高效地实践需求等等——了解正确过程的价值，远超于得到正确结果本身。

只有拥有自己的编码产品，模型厂商才能获取高质量的「过程监督」信号，从而在编码/推理能力的下一阶段竞争中，确保自己仍有技术护城河——

否则就不得不像 SpaceXAI 那样，花钱去跟 coding agent 产品公司去合作。

然而并不是所有模型厂商都跟马斯克一样有钱，以及 2026 年开始的巨头势力划分、结盟与领地的争斗会变得更加激烈，当一家缺乏自主 coding 产品的模型厂商终于回过味来的时候，恐怕已经没有足够的合作伙伴可以挑选，合作的价格也将水涨船高。

美国模型巨头的情况大家普遍比较熟悉了，在此不赘述。APPSO 也注意到，国内的主流模型厂商和 AI 巨头当中，绝大部分都已经在 coding agent 产品上有所布局。

国内巨头公司主要以原生 AI IDE 或 IDE 插件的思路在做：字节跳动去年很早就布局了 TRAE、阿里巴巴的 Qoder、腾讯的 CodeBuddy、百度的文心快码 Comate 等。

AI 小龙公司中，月之暗面是最早开发独立 coding agent 产品的公司，主要以 CLI 界面的 Kimi Code 为主——不过 Kimi 此前有透露过，在原生编程产品这件事上，CLI 不会是终局。

另一种实现思路是模型厂商自行提供 API 服务、Coding Plan。这样，不论用户使用何种 AI 开发环境，模型厂商都可以通过服务器端的 API 记录来获取最大程度接近于原生 coding 产品的过程数据。

但这也只是接近，并非完全相同。核心在于，服务器端 API 的请求-响应日志，与深度继承的产品交互轨迹相比仍有很大差距。

自建产品的厂商（例如 Cursor、Claude 桌面端、Codex）拥有最直接的显式反馈信号，而 API 侧是相对模糊的隐式推断。简单来说，API 侧能看到用户请求和响应，但用户最后是否采纳了这段代码、代码能否跑通、引发了什么样的 bug，API 侧对此是一无所知的。他们无法了解到用户最终行为这一关键的标签，从而无法实现最高质量的强化学习。

形而上来讲，语言即世界，代码即方案。代码可以表达这个世界上绝大多数的任务，代码也会成为头部的放大器，让最顶尖的人才放大数倍的生产力。

只有最顶尖的 coding 模型才配得上最顶尖的人才。如果领先的模型厂商不重视 coding，势必将会掉出第一梯队。

当然，事实上每家模型厂商都不会不重视 coding——而是说，在新的范式下，哪些没有自主可控的原生 coding agent 产品，极有可能逐渐落后于有产品的厂商。

就在前几天，MiniMax 也发布了桌面客户端产品的重大更新：带有全新多 agent 编排架构的 Mavis 功能，并且也让客户端显著改善了对 coding 任务的支持。

此前 MiniMax 只是推出了桌面端，但没有加入原生 coding 和 agent 功能。

紧接着，在 5 月 15 日，阿里巴巴正式发布了 Qoder 1.0——这个产品从 IDE 的形态正式升级为一个完整的 Agent 产品（阿里的官方叫法是智能体自主开发工作台）。

与此同时，xAI 的 Grok Build CLI，也终于正式推出了。

没错，就是 xAI 年初被 Anthropic 和 Cursor 封号之后，他们自己捣鼓出来的那个 coding agent.

这不，又多了好几个现成的案例。

看来，大家都认为 Cursor、Codex 和 Claude 桌面端走在正确的道路上。

6.

把话题从 coding 扩展到 agent 本身，情况也是一样的。

编码任务的轨迹数据，在公开语料中确实还是能找到一些的（比如 GitHub 的提交记录/PR，尽管质量并不高）。但是 agent 任务的轨迹数据，包括并不限于移动和点击鼠标、操控触屏、填写输入框等，却无法在公开语料中找到。

所以我们会看到，即使在 agent 操作的最小实现路径——浏览器插件上，这么个看起来一点都不高端的东西，几乎每家模型厂商都会做自己的。

OpenAI 早在 2025 年 1 月就做了 Operator——与其说它是一个「AI 自动操作浏览器」的产品，不如说本质上就是一个大规模的数据收集装置。每一位试用 Operator 的用户，都在免费为 OpenAI 提供 on-policy 数据。

后续 OpenAI 还衍生出 ChatGPT Agent 以及新版 Codex 桌面端；Anthropic 也是同理；最近 Kimi 不声不响地也做了一个叫做 WebBridge 的项目，其实就是一个浏览器插件。

即便是在过去两年里动作最克制的中国模型巨头深度求索，也在最近开始展露出对 Agent 的兴趣。

CEO 梁文锋此前接受采访时曾经提到这样的观点：数学和代码是 AGI 天然的试验场，有点像围棋，是一个封闭的、可验证的系统，有可能通过自我学习就能实现很高的智能。

这句话的潜台词，是 DeepSeek 一直把 coding、Agent 当研究试验场，而非商业化方向。

但是在今年 3 月，DeepSeek 一次性放出了十几个 Agent 相关岗位，包括首次出现的模型策略产品经理（Agent 方向）等。当时的 JD 职责涵盖「主导 Agent 评测体系以及训练数据方案的设计」，要求中包括「深度使用 Claude Code、Manus」等产品。

APPSO 注意到，近期深度求索发布了 Agent 产品经理、Harness 产品经理等职位招聘信息——很显然，DeepSeek 要做独立、原生的 Coding/Agent 产品了。

此前资料显示，DeepSeek V3.2 的训练过程中引入了近两千个合成的 Agent 训练环境和八万多条复杂指令。但是看起来，靠合成的训练数据只能带 DeepSeek 走到这里了，剩下的是合成不出来的部分：真实用户在真实环境里的真实成功和失败，必须靠自家的 agent 产品才能拿到。

DeepSeek 以一种极度克制的方式做了三年模型以及模型产品（直到上个月才终于在官网加入了多模态能力）。但是在今天来看，在编码类任务上，DeepSeek 拿 SOTA 越来越难了，即便此前拿到也会在不久后被超越。

当主力依靠研究的路径支撑不住飞轮的时候，DeepSeek 终于行动了。

7.

最后，我们回到开篇的故事。

根据 The Information 援引知情人士报道，在接受马斯克 600 亿收购/100 亿美元合作的同时，Cursor 表示不会与 xAI 合作开发新的模型，而是仍将聚焦于优化自己的 Composer 模型。

这可能意味着，即便被马斯克买通甚至收购，Cursor 仍然要保留自己数据飞轮的主体性。

数据归属的本身，是最关键的隐藏博弈点。

当所有顶级模型厂商都做了自己的产品，所有顶级产品也都开始训练自己的模型，「模型公司」和「产品公司」之间本就不太清楚的界限，似乎越来越不存在了……

这场博弈也才刚刚开始。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

黄仁勋的 Token 经济，李彦宏的 DAA，AI 度量衡之争才刚开始

爱范儿

By: 李超凡

14 May 2026 at 14:23

两个月前在圣何塞，黄仁勋穿着皮衣站在 GTC 的舞台上，告诉全世界：Token 是新的大宗商品，生成 Token 的成本与效率，决定科技企业的营收与生死。

昨天，李彦宏站在 Create 2026 的开幕式上，说了一句看似拆台的话：「Token 只是代表成本，并不代表收益。它衡量的是投入，而不是产出。」

然后他抛出了一个新概念，DAA，Daily Active Agents，日活智能体数。

卖铲子的人说，看铲子消耗量就知道金矿的繁荣程度。挖矿的人说，你倒是看看我挖出了多少金子。

他们都没说错。但同一座金矿，用不同方式去称量，得出的故事完全不同。

真正有意思的地方不在于谁对谁错，在于一个事实：AI 跑得太快了，快到这个行业连怎么给自己记账都还没想清楚。

DAA ：从「烧了多少」到「干了多少」

李彦宏的 DAA 逻辑并不复杂。移动互联网时代，衡量平台看 DAU，日活用户数。微信 13 亿，抖音 7 亿，Meta 34 亿。进入智能体时代，对应的指标应该是 DAA，有多少 Agent 每天在给人类干活，并交付结果。

「交付结果」四个字是重点。

Token 消耗量告诉你系统在转、算力在烧、钱在花。但它不告诉你这些 Token 到底干了什么。是帮创业者写了一份商业计划书，还是用户反复问「你好」然后 GPT-5.4 收了他 80 美元？这两种场景消耗的 Token 可能差不多，创造的价值天差地别。

李彦宏说，「这比无谓的 Token 消耗，更接近价值，也更接近本质。」

他还给了个大胆的预测：未来全球 DAA 可能超过 100 亿。一个人同时挂三五个 Agent 处理不同任务，你是一个 DAU，但贡献了三五个 DAA。

Agent 数量远超人口，技术上已经可以想象。

李彦宏自己也说这是一个「非共识的观点」。在所有人都在谈 Token 消耗量的行业里说 Token 不代表终局，是需要点勇气的。

当然，也需要点动机。

Token 经济学：一种极其性感的叙事

Token 经济学的性感之处在于，它有大量数据支撑。

截至今年 3 月，中国日均 Token 调用量超过 140 万亿，相比 2024 年初的 1000 亿增长了 1000 多倍。火山引擎豆包大模型日均 Token 使用量突破 120 万亿。OpenRouter 平台前十大模型的周 Token 调用量从 1.24 万亿暴增至近 14 万亿。

一条陡峭到让人眩晕的增长曲线，核心驱动力恰恰是 Agent。

过去 Chatbot 时代，单轮对话消耗 1000 到 3000 个 Token。Agent 来了之后，一个完整任务触发几十上百次模型调用，中等任务吃掉 10 万 Token，复杂任务上百万。

Agent 越多，Token 消耗越大，算力需求越高，芯片卖得越好。

这个闭环对英伟达来说无比优雅。2025 年全年营收 2159 亿美元，净利润 1170 亿美元。黄仁勋有充分的理由说：Token 就是新的石油。

企业也在用脚投票。阿里成立 Token Hub 事业群，吴泳铭亲自挂帅。58 同城姚劲波说 Token 用得越多越好，不计成本。昆仑万维发内部信强制 AI Coding，达不到要求的末尾淘汰。黄仁勋甚至预言「你的 offer 带多少 Token」会成为硅谷新的谈判筹码。

Token 消耗量作为指标，最大的好处是简单、可量化、跨平台可比。140 万亿就是 140 万亿，谁看都一样。

但过亿简单也可能会掩盖一些问题。一个只盯着食材消耗量的餐厅，未必是一家好餐厅。

共识大于分歧

把 Token 经济学和 DAA 放在一起看，你会发现它们的共识其实大于分歧。

这两个判断都基于 AI 正从对话阶段走向 Agent 阶段，而且都认为这是万亿级的产业重塑。

分歧在哪？在于谁的账本更能代表这个行业的健康程度。

Token 量的是投入侧：消耗了多少算力，工厂每瓦特产出多少 Token。这对芯片厂商和云厂商极其重要。

DAA 量的是产出侧：有多少 Agent 在运行，完成了多少任务。这对应用平台方极其重要。百度做的是 DuMate、秒哒、百度一镜，卖点全是「帮你把事做完」。只有用「结果交付」来记账，应用层的价值才浮得出水面。

屁股决定脑袋，但这不代表谁在说谎。每个玩家天然会推崇对自己最有利的记账方式。

有意思的是，腾讯也站到了应用侧。腾讯云副总裁杨晨说过：「我们认为 Token 不是一个多么健康的生意，它看着量很大但黏性极差。」腾讯的核心资产是微信生态和内容场景，它在乎的是 AI 能不能在自家场景跑起来。阿里的态度截然相反，吴泳铭断言未来 5 年 AI 和云业务收入将超 1000 亿美元。

同一个行业，同一批聪明人，看法完全不同。这本身就说明 AI 的迭代速度已经跑在了共识形成的前面。

Token 消耗量像 GDP，量总规模，不管建了一座桥还是挖了个坑再填上。DAA 像就业率，量的是有多少「劳动力」在创造价值。GDP 高但就业率低，那叫空转。就业率高但产出质量差，那叫虚胖。一个健康的经济体两个数字都要看。

但对普通用户来说坦率地讲，这两个指标都是术语。

用户只在乎一个朴素的问题：好不好用？帮我省了多少时间？花了我多少钱？

Token 经济学叙事下的 AI 产品，对用户其实不太友好。

你用打车软件，起步价多少、每公里多少、堵车怎么算，一清二楚。你用 AI Agent，到底消耗了多少 Token，是哪个模型在跑，Agent「反思」了几轮导致费用翻倍，很多普通用户还搞不明白。

DAA 至少提供了另一种视角：用户不该关心 Agent 烧了多少 Token，该关心它有没有帮你把事做完。前者是水表读数，后者是水龙头出不出水。

造词运动的背后

2024 年初中国日均 Token 调用量才 1000 亿。2026 年 3 月，140 万亿。1000 倍。这种速度下，任何已有的框架和认知都会瞬间过时。

于是，每个玩家只能从自己的位置出发，尝试给这团混沌画一个坐标。黄仁勋造了「Token 工厂」，李彦宏造了「DAA」，阿里造了「Token Hub」……

Token 衡量的是基础设施的繁荣程度，DAA 衡量的是应用价值的交付密度。两者更多是互补而非互斥。没有 Token 的生产和流转就没有 Agent 的运行，没有 Agent 交付结果 Token 消耗就只是空转。

对用户来说，最好的度量衡是那个你根本不需要知道的。你打开水龙头，水来了。你把活交给 Agent，事做完了。你看一眼账单，觉得合理。至于背后消耗了多少 Token、动用了多少 Agent、芯片是谁家的、云服务用的哪一层，留给黄仁勋和李彦宏去争论就好。

从 DAU 到 DAA，从「人在用产品」到「产品在帮人干活」，AI 时代的价值坐标正在被重建。

争论是好事。当一个行业只有一种记账方式的时候，所有人都会围绕同一个数字做优化，不管那个数字是否真的通向价值。

多一种衡量的维度，至少多一个纠偏的机会。

至于最后哪套度量衡能留下来，答案可能不在黄仁勋和李彦宏手里，在你手里。

你每天用 Agent 做了什么，做得好不好，愿不愿意继续付费。这些真实发生的选择，才是 AI 时代最诚实的投票。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

当 AI Agent 走向无处不在，MediaTek 想做的不只是手机芯片

爱范儿

By: 刘学文

13 May 2026 at 14:33

如果说大模型最早带来的冲击，是让用户开始习惯和机器进行自然语言对话，那么 Agent 的下一步，则是让 AI 从「回答问题」走向「完成任务」。它不再只是一个聊天窗口，而是可以理解场景、拆解任务、调用应用、协同设备，并在更长周期里记住用户偏好的系统级能力。

对于许多人来说，AI 是一个 ChatBox，更是一个 AI Agent。

过去，手机、平板、PC、汽车、耳机、手表等设备，更多是在各自的硬件形态和操作系统里提供功能；而在 Agent 普及之后，终端之间的边界会被进一步打散。用户真正需要的，不一定是打开某个 App，完成某个孤立操作，而是在一个连续的生活场景里，让手机、汽车、IoT 设备和云端服务协同起来，主动给出更合适的服务。

过往二三十年的时间里，智能设备的芯片从决定最主要的运算任务，变为决定跑分、功耗、游戏和影像能力的底层硬件，现在，芯片也需要成为 AI 体验的入口、算力底座和生态接口。

这就是 MediaTek 在天玑开发者大会 MDDC 2026 上想要传递的核心信息：一方面通过手机、汽车、IoT 和 AI 基础设施等全栈产品组合，提供覆盖多场景的算力底座；另一方面，则通过天玑 AI 智能体化引擎、AI 开发套件、汽车平台和游戏技术，向开发者开放更多能力。

天玑 AI：从端侧算力，到系统级 Agent OS

在 AI Agent 的落地过程中，手机仍然是最关键的终端之一。

原因并不复杂。手机拥有最密集的用户数据、最高频的使用场景，以及最成熟的应用生态。它既是个人信息的入口，也是跨设备协同的枢纽。因此，当 Agent 从应用层走向系统层，手机很自然会成为智能体化体验的第一现场。

过去三年，天玑 AI 生态圈实现了明显增长：生态伙伴成长量提升至 240%，天玑 AI 开发套件下载量提升至 440%。MediaTek 也提到，智能体自主任务量已经从 2025 年每日 1.2 亿次，增长至 2026 年每日 8.7 亿次，一年增长 7 倍。这些数据至少说明，Agent 已经不再只是概念层面的未来叙事，而是开始进入开发者和用户体验的增长通道。

为了应对这一趋势，MediaTek 在大会上发布了天玑 AI 智能体化引擎 2.0。

相比 1.0 版本更多由用户指令驱动、通过 App 独立执行单一任务，2.0 版本的关键变化在于主动感知驱动。借助天玑 SensingClaw 技术，天玑平台可以提供低功耗的全时感知能力，让设备制造商打造具备主动感知和跨应用驱动能力的 Agent OS。

换句话说，未来的 AI 助手不只是「你说一句，它做一步」，而是能基于视觉、听觉、位置、环境状态等信息，提前理解用户所处的场景，并调动不同应用和设备完成更复杂的任务。

在大会现场，MediaTek 公布了与 OPPO、Xiaomi 和传音的合作案例。

天玑能力将赋能 OPPO 小布助手，打通系统级原生应用数据，并结合小布记忆建立用户专属记忆数据库。它可以完成体检报告解读、自动规划健身计划并导入日历等任务。小米这边，重点放在跨端智慧体验上，用户通过一句指令，即可调用全场景设备执行任务，实现任务在多设备之间的流转。传音则更强调 Always On 主动感知能力，比如 AI 助手可以在免唤醒、自运行的状态下，完成查物流、比价等复杂任务。

三家头部手机品牌的案例其实都在说一件事，AI Agent 不再只是手机里的一个应用，而是正在成为系统层能力的一部分。它既需要芯片端提供足够高的 AI 算力，也需要端侧持续感知能力，还需要隐私、安全和应用生态之间的协同。

开发套件 3.0：让端侧 AI 更容易落地

如果说 AI 智能体化引擎面向的是系统级体验，那么天玑 AI 开发套件 3.0 则是面向开发者的工具箱。芯片平台企业一直强调端侧 AI 的价值：响应速度更快、隐私保护更好、离线能力更强，也能降低对云端资源的依赖。

不过真正把模型放到手机、平板、车机等终端上，并不是简单的「搬运」，开发者往往要面对模型压缩、算子兼容、功耗控制、内存占用、部署效率等一系列工程问题。天玑 AI 开发套件 3.0 正是为此而来。

3.0 版本首先支持 LVM 模型可视化部署，从命令行升级到 GUI 模块化，参数设置可以实时生效，模型部署和调优效率提升 50%。对于很多应用开发者来说，这降低了从模型到终端运行之间的门槛。

新增的 Low Bit 压缩工具包，可以降低生成式 AI 模型压缩过程中的设备内存占用，在相同质量下模型压缩率提升可达 58%。这对于端侧大模型尤其关键，因为终端设备的内存、功耗和散热空间都更加有限。eNPU 开发工具包可以帮助开发者充分发挥天玑芯片中超能效 NPU 的优势，让常驻轻载 AI 模型功耗节省 42%。对于 Always On 感知、语音唤醒、环境识别等场景来说，低功耗比峰值算力更重要。AI 要真正做到随时在线，就必须先解决「一直运行」带来的能耗问题。

天玑 AI Partner 作为一站式模型端侧转换助手。它可以支持模型分析、调整、验证等流程自动化，帮助开发者将原本可能需要 5 天的模型转换工作压缩到半天左右，端侧 LLM 模型部署耗时节省可达 90%。

从这些升级可以看出，MediaTek 并不只是把 AI 算力作为芯片参数来展示，而是在试图补齐开发流程中的关键环节。对于开发者来说，端侧 AI 的真正门槛并不只有「芯片够不够强」，还包括「工具链够不够顺」「模型适配够不够快」「优化成本能不能降下来」。

汽车平台：从智能座舱，到 AI 定义汽车

过去几年，「软件定义汽车」已经成为行业共识。智能座舱、智能驾驶、整车 OTA 和车云服务，让汽车从一个以机械结构为核心的交通工具，变成了持续更新的智能终端。而随着大模型和 Agent 技术进入车内，行业又开始进入「AI 定义汽车」的新阶段。

在 MediaTek 的判断里，汽车正在从单纯的交通工具，进化为懂用户、预测用户需求、无缝融入生活的智慧第三空间。MediaTek 车用平台已经与全球 20 家以上头部车企开展深度合作，在手项目超过 190 个，累计出货量达到 3500 万套，近 5 年出货量增长接近 4 倍。这说明 MediaTek 进入汽车领域并不是从零开始。它把手机芯片平台中积累的性能、能效、连接、影像、AI 和生态经验，迁移到了更长生命周期、更高安全要求的汽车场景中。

在天玑智能座舱方案中，MediaTek 将未来座舱的能力分为几个关键方向：全模态交互、主动式服务、并发指令执行和端云协同。

这与传统车机语音助手有明显差别。过去的语音助手往往是被动响应，用户说一句，它执行一个固定任务；而未来的智能体座舱，需要能识别车内人员、理解环境状态、判断用户意图，并把导航、社交、地图、餐饮、支付等服务串联起来。

比如在大会案例中，工作日早上用户带孩子上车后，系统可以自动识别乘车人员，并主动询问是否需要先送孩子上学再去公司，甚至根据时间推荐顺路买咖啡。这类场景的价值，不在于单点功能有多新，而在于车机从「工具」变成了「上下文理解者」。

要实现这样的体验，底层平台必须解决三类问题。

第一是平台层。车端需要高效运行大参数 AI 模型，还要支持多模型、多任务并行。MediaTek 提到，天玑旗舰座舱平台可以提供最高 400 TOPS 的 AI 算力，并通过软硬协同架构，将 AI 平台需求压缩 90%。在五屏重度渲染场景下，仍可流畅运行双大模型，速度超过 50 token/s。

第二是模型层。汽车的生命周期往往长达 6 到 10 年，但 AI 模型的迭代周期可能只有几个月。如何让车辆在整个使用周期内持续用上新模型，是智能座舱必须解决的问题。天玑座舱 7 系列直接集成 NVIDIA GPU 资源库，支持基于 CUDA 开发的新模型和算法迁移到座舱平台；天玑座舱 S 系列则支持天玑 AI 开发套件，帮助主流模型及其衍生模型更快完成适配。

第三是应用层。天玑软件平台提供场景映射、智能模型加载、端云协同和系统调优等工具。比如端云协同可以在复杂任务需要云端处理时，由端侧先完成需求预处理和筛选，只上传关键 token，在保护隐私的同时降低云端成本。

汽车 AI 并不等于把手机助手搬进车机，车内是一个多用户、多模态、多屏幕、高安全要求的环境。它既要理解驾驶员，也要理解乘客；既要提供娱乐，也要避免干扰驾驶；既要依赖云端能力，也要保证本地响应和隐私安全。因此，汽车 AI 的挑战比手机更复杂，也更考验平台级能力。

游戏技术：移动端正在靠近主机级体验

在 AI 之外，游戏仍然是天玑平台展示性能和生态能力的重要场景。

移动游戏的体验升级，过去主要围绕高帧率、高画质和低功耗展开。现在，随着移动 GPU 能力提升，以及游戏内容向 3A 化发展，移动端开始追求更真实的光影、更精细的模型、更低延迟的音频和更长时间的稳定运行。

本次大会上，MediaTek 重点介绍了 Ray Tracing Pipeline，也就是 RTP 移动端光线追踪技术。与传统光追方案相比，RTP 的目标是跨端适配 PC 与 Mobile 的渲染管线，实时呈现复杂游戏光影效果，包括动态物体、骨骼动画，以及视野外环境和物体反射。

MediaTek 已经与腾讯《三角洲行动》项目组合作预研新的 RTP 技术方案。它的意义在于，如果 PC 端渲染管线可以更顺畅地迁移到移动平台，那么跨端 3A 游戏的开发周期和适配成本都有机会被降低。

另一个重点是虚拟几何体技术。MediaTek 天玑与团结引擎深度适配 Virtual Geometry，依托天玑移动平台 GPU 渲染能力，在移动端环境下实现超过 10 亿级三角面渲染，并在 1.5K 高分辨率下持续输出 1 小时满帧体验。这意味着手机游戏在模型精细度上的限制，有机会进一步被突破。

音频方面，天玑 LE Audio 低延时技术通过全链路优化，在天玑旗舰移动平台上带来 32 ms 的低延迟蓝牙立体声表现。该技术已经在《和平精英》测试服中落地，用于降低音频延迟。对于竞技游戏而言，音频延迟并不是感知层面的微小差异，而可能直接影响玩家对敌方位置和操作节奏的判断。

此外，天玑平台还展示了 GPU Dynamic Cache、天玑倍帧技术 3.0、自适应调控技术 5.0，以及面向安卓游戏开发者的一站式分析和调优工具 Dimensity Profiler 2.0。

GPU Dynamic Cache 架构允许 GPU 同时调度系统缓存和内存，让开发者可以通过系统缓存传输关键游戏数据，节省带宽并降低功耗。目前，该技术已与《逆战：未来》《暗区突围》等游戏合作。

天玑倍帧技术 3.0 则新增 Depth 等选项，可以更好预测并生成高质量虚拟帧，支持 165 帧和 144 帧，也支持 UE、Unity 等引擎插件接入，并覆盖手机、平板和座舱平台。《王者荣耀》可借此解锁 144 帧低功耗体验，《明日方舟：终末地》也获得更高流畅度和更低功耗表现。

自适应调控技术 5.0 新增智能帧控和场景预判功能，可以让芯片、游戏和屏幕之间的信息流动更细。以《鸣潮》为例，合作后 1% low 帧和功耗指标都有明显优化；《和平精英》等游戏也能在重载场景下实现 CPU 和 GPU 负载降低。

这些技术共同说明，移动游戏的优化已经不再是芯片厂商单方面拉高性能，也不是游戏厂商单方面压缩画质，而是软硬件协同越来越深入。芯片、引擎、游戏内容、调优工具和开发流程，都在被重新打通。

MediaTek 还将端侧 AI 引入游戏场景。大会现场公布了天玑 AI Play 与《三角洲行动》的合作成果，借助天玑移动平台的端侧 AI，让游戏内 CC 语音智能伴侣响应更快，相比云端延迟大幅降低 56.7%。这意味着，AI 在游戏中的角色，不只是 NPC 或剧情生成，也可以进入语音交互、实时陪伴、战术辅助等更即时的体验场景。

过去谈移动芯片，行业更习惯讨论 CPU、GPU、NPU、影像 ISP、制程工艺和功耗表现。但在 AI Agent 和多终端协同的趋势下，芯片平台的竞争正在变得更复杂。它既要有足够强的底层算力，也要有开发套件、模型工具、跨端能力、系统接口和合作伙伴网络。

这也是为什么 MediaTek 在大会上反复强调开发者与生态。

AI Agent 的落地不会只由芯片厂商完成，系统厂商需要把 Agent 变成原生能力，应用开发者需要把功能重新智能体化，终端厂商需要解决跨设备流转，汽车厂商需要把 AI 与车内传感器、座舱系统和云端服务结合起来，游戏厂商则需要在高画质、高帧率、低功耗之间找到新的平衡点。

未来用户评价一台手机、一辆车，甚至一个 IoT 设备时，可能不再只看硬件参数，也会看它能不能理解自己、能不能主动完成任务、能不能在不同场景之间自然流转。

刘学文

稳中向好。

邮箱新浪微博 1

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。