Reading view

There are new articles available, click to refresh the page.

MiniMax 闫俊杰和罗永浩四小时访谈：走出中国 AI 的第三条路，大山并非不可翻越

爱范儿

李超凡

11 December 2025 at 12:00

当整个 AI 圈都在为 DAU（日活跃用户数）和融资额焦虑时，MiniMax 创始人闫俊杰却表现出一种近乎冷酷的淡漠。

坐在罗永浩对面的闫俊杰，并不像一位掌管着 AI 独角兽企业的技术新贵。

他拒绝谈论改变世界，反而坦承恐惧。那种恐惧不是来自商业竞争，而是来自技术本身——当模型的能力开始超越人类时，创造者反而成了最先感到不安的人。

只要是一个东西能被量化，模型就一定会强于人，或者一定是能到最好的人类的那一档水平。所有做得比较成功的模型，在做出来之前都会有点害怕。

据晚点采访，在 MiniMax 内部，互联网行业奉为圭臬的 DAU ，被闫俊杰直接定义为「虚荣指标」。

在巨头环伺、算力短缺、热钱褪去的 2025 年，MiniMax 正在进行一场关于认知的修正：不再沿用移动互联网的逻辑，即通过大规模投放换取增长、通过堆砌功能留住用户，而是回归本质：把模型当作最重要的产品。

在大模型时代，真正的产品其实是模型本身，传统意义上的产品更像是一个渠道。如果模型不够聪明，产品做得再好也没有用。

在罗永浩和闫俊杰这期对谈里，我发现 MiniMax 这家 AI 公司从创业第一天就选择了注定与主流背道而驰的技术路径。

当所有人都试图寻找中国的 OpenAI 和 Sam Altman 时，闫俊杰却在试图证明「非天才」的价值。MiniMax 的故事不是关于天才的灵光乍现，而是一场关于如何在资源受限的缝隙中，通过极度理性地计算与修正，撕开一道通往 AGI 窄门的精密实验。

用 1/50 的筹码通往 AGI

MiniMax 过去三年的技术路线，表面看是一连串孤立的赌注，实则暗藏着一条统一的逻辑线索：在资源受限的前提下，如何用更聪明的方式优化，而非更多的算力堆砌，逼近 AGI 的上限。

当行业还在卷文本时，MiniMax 做了一个在当时看来极度冒险的决定：创业第一天就押注全模态。闫俊杰后来解释说，他们一开始就想得很清楚，真正的 AGI 一定是多模态的输入、多模态的输出。

三年多前创业时完全没有现成的技术路线，他们的策略就是每个模态至少先走通，等时机成熟再融合。这种坚持在当时备受质疑——业界主流认为应该先聚焦单一模态做到极致。

但闫俊杰的逻辑是，AGI 的本质是多模态融合，如果现在不同步推进，等到需要融合时技术债会成为致命伤。这种非共识的坚持，让 MiniMax 在 2025 年拥有了全球音频第一、视频第二、文本稳坐第一梯队的全模态能力。

前不久 OpenAI 的 Sora 2 通过多模态融合取得了显著成果，这在一定程度上也印证了 MiniMax 早在创业初期就选择这一技术路径的前瞻性。

但更激进的是，闫俊杰在创业初期就打破了 AI 研究的传统模式。

这是公司刚组建时打破的第一个认知——把大模型做好这件事一定不能迷信之前的经验，得用第一性原理拆开来看。大概在四五年前，人工智能领域大家追求的是写很多数学公式，把理论搞得很好、很花哨。

但这代人工智能最核心的其实就是 Scaling（缩放定律），就是让它能够用最简单的方法把效果做得更好，并且随着数据跟算力变多，效果就能够持续往上涨。

闫俊杰的技术直觉源自 2014 年在百度的实习经历。那时 Anthropic 的 CEO Dario Amodei 也在百度实习，正是在那里他发现了 Scaling Law 的雏形。

闫俊杰说，Scaling Law 其实在 2014 年做语音识别时就已经被发现了，但真正被广泛认知是大概 2020 年左右。「六年前就有了，并且那件事发生在中国公司，所以后面的事就有点遗憾。」

这段往事让闫俊杰意识到，中国并非没有机会，而是错失了把技术洞察转化为产业优势的时机。

现实是残酷的。闫俊杰很清楚中美之间的差距。他算过一笔账：美国最好的公司的估值是中国创业公司的 100 倍，收入基本上也是 100 倍，但技术可能就领先 5%，花的钱大概是 50 到 100 倍之间。

那为什么中国的公司可以花他们 1/50 的钱就做出来效果，差距可能只差 5%？核心原因是中国的人才还是非常好的。而更关键的是，中国的算力比美国有很大差距，因此必须得用更加创新的方式，才有可能做到同样的效果。

原则可能是一样，但方法上，在每个模块上其实都有很多创新。

算力限制不一定是诅咒，反而能成为倒逼创新的鞭子。

这就解释了为什么 MiniMax 从 2023 年起就率先探索 MoE 架构，为什么在 2025 年敢于押注线性注意力机制，又为什么在 M2 模型中回归全注意力机制。

每一次技术选择，都是在有限资源下寻找质量、速度、价格的三角平衡。

如果说 DeepSeek的逻辑是「用极致的工程优化榨干每一分算力」，那么MiniMax 就是在通过算法突破和机制创新在有限资源中撬动更大可能。

一个稳扎稳打，一个剑走偏锋。

其中一个出奇的创新，是 MiniMax 在模型推理机制提出的「交错思维（Interleaved Thinking）」，让模型在「动手做事—停下来思考—再动手」的循环里推进任务。

这一新的机制很快推动了 OpenRouter、Ollama 等国外主流推理框架的适配支持，也带动 Kimi 和 DeepSeek 等国内模型陆续补齐类似能力。

但这些成果背后，更值得追问的是：一支没有硅谷海归坐镇、被外界视作「草根」的团队，如何做出全球领先的模型？

闫俊杰的回答出人意料。

AI 不是玄学，而是可以被第一性原理拆解的工程问题，比如算法该怎么设计，数据的链路该怎么搭建，训练效率该怎么优化，每个东西都有非常明确的目标。

正是基于这一判断，让闫俊杰放弃了寻找「天才」，转而相信科学方法论可以让普通人发挥非凡价值。他还提到，公司的海归是不少的，但真正能起到关键作用的同学，很多人基本上都是第一份工作。

在 MiniMax 会议室墙上有一行字——Intelligence with Everyone，这是闫俊杰创业的初衷，也是不少人选择加入 MiniMax 的理由。

这行字今天也正在成为现实，全球超过两百个国家和地区的用户正在使用 MiniMax 的多模态模型，其中既有 2.12亿用户，也有 10 多万企业和开发者来创造更多产品和服务。

非天才主义的 AI 掌舵人

如果说技术路线的非共识是显性的，那么闫俊杰本人的成长轨迹，则是一场关于「反脆弱性」的修行。

闫俊杰出身河南小县城，在资源极度匮乏的环境下培养了极强的自学能力。

上小学的时候自己会看很多书，而且这些书有可能不应该是那个时间点的人来看的。比如很多高中甚至大学的书，上小学的时候提前就看。我爸爸是教初中的，就开始看初中的东西，上初中的时候就开始看高中的东西，高中的时候又开始学微积分，那些东西其实也没有人教，就是自己看。

小学自学初中，高中自学微积分——这种不受环境限制、超前学习的特质，贯穿了闫俊杰的整个创业生涯。当别人在等待导师指点时，他已经通过第一性原理自我拆解问题；当别人在抱怨资源不足时，他已经通过极致的自学能力补上了差距。

但自学能力并不意味着一帆风顺。这和闫俊杰在商汤受到的「残酷训练」不无关系。那时候他开始意识到要真正做一个最好的东西，就做了人脸识别，从倒数到第一大概花了一年半。

这一年半是非常痛苦的，每次技术测试都是倒数第几名，这种煎熬足以击垮大多数人。但闫俊杰没有放弃，反而从这段经历中提炼出了核心方法论：一定要做取舍，一定要选一些更加长期、能够根本性发生变化的东西，而不是去做一些修补的东西。

经历这事之后，最核心的还是对自己这些最底层的判断有信心。

这段磨炼锻造了闫俊杰两个关键特质：一是极致的取舍能力，愿意放弃短期修补，聚焦长期突破；二是极高的心理韧性，能够承受长周期的失败和质疑。

这两个特质，恰恰是 MiniMax 能够在技术路线上坚持非共识这种近乎「佛系」的定力，让闫俊杰在硅谷银行危机、模型训练失败等困境中都能保持冷静。

中国 AI 的第三条路

MiniMax 的故事讲到这里，一个更大的问题自然浮出水面：当人才培养需要时间，技术追赶需要周期，中国 AI 公司靠什么在当下就建立自己的生存空间?

MiniMax 不一定是标准答案，但闫俊杰倒是有三个创业至今一直坚持的原则：

第一，不做项目，只做用户；第二，国内海外同时做。

2022 年，国内大厂还在观望 AI 是否值得投入，创业公司普遍选择 ToB 路径（做项目、卖解决方案）以求快速变现。但闫俊杰选择了最难的一条路：ToC，并且从第一天就瞄准全球市场。

因此，闫俊杰选择在海外更激烈的竞争中打磨技术，而非卷入国内与巨头的流量争夺。事实证明，这是正确的——MiniMax 在海外市场的 DAU 和付费率都维持在健康区间，而这正在成为它的护城河。

但最难的，是第三个原则：技术驱动 vs 用户增长。

这是对所有 AI 创业公司的终极拷问。闫俊杰坦白也纠结过，最终选择了前者，哪怕这意味着短期数据的牺牲、中层的流失和外界的质疑。

通过模型能力推动产品和业务发展，或者通过移动互联网时代的增长方式来发展，两者有可能都是对的，但它们是没法共存的。最后我们发现技术驱动的这种方式才适合我们。

在技术驱动的战略下，闫俊杰做出另外一个关键选择：开源。

年初 DeepSeek R1 横空出世后不久，闫俊杰曾表示，如果可以重新选，应该第一天就开源。在和罗永浩的对谈里他再次谈到开源。

实际上开源这件事，在手机操作系统上其实都发生过。苹果是闭源的，安卓是开源的，第二名后面的人必须得开源才有自己的独特定位，才能发出新的生态。

为了让我们能够进展，需要别人有选择我们的理由，模型的开放性恰好是一个非常重要的理由，因为它可以让你有足够强的技术信任，知道你的研发能力，也愿意更加深度来合作。

而 MiniMax 也延续着 DeepSeek 掀起的开源浪潮， MiniMax M2 发布后，大模型分析平台 Artificial Analysis 是这样介绍的：

中国 AI 实验室在开源领域持续保持领先地位。

MiniMax 的发布延续了中国 AI 在开源领域的领先地位，这一地位由 DeepSeek 在 2024 年底开启，并由 DeepSeek 的后续发布、阿里巴巴、智谱、和 Kimi 等公司持续保持。

最近全球模型聚合平台 OpenRouter 联合a16z 发布了一份报告 State of AI 的100 Trillion Tokens ，可以看到 M2 开源之后，快速受到了全球开发者欢迎和采纳。

中国开源模型在全球使用量占比从 2024 年初的 1.2%，现在这个数字已经飙升至 30%，全球开源生态的重心已经向中国倾斜。

但这场竞赛远未结束。闫俊杰的判断是，算力和芯片的物理限制，决定了模型参数量和成本是有天花板的。在一个有限的参数量的情况下，不同的人来做不同的取舍，就一定会有些不一样的成果。

AI 不会一家独大，但也不会百家争鸣，最终会收敛到少数几家基于不同取舍的共存格局。

罗永浩关于「中国错失 GPT-3.5」的追问，闫俊杰展现出了一种务实的乐观。他表示把技术做好最重要的东西，说到底其实是两个词，一个是想象力，一个是自信。

美国那些企业很多浪潮是他们引领的，所以有自信在，要引领这个行业。在中国有些产业里面其实也是这样的，比如通讯、还有其他领域。

至少人工智能这个行业目前还没有到引领这个地步，但这个事情已经越来越具备了。

这或许就是中国 AI 公司需要走出的第三条路：

用更聪明的架构设计，对抗算力差距；

通过科学的组织进化，培养 AI 原生人才；

在夹缝中长出自己的形状，而非附庸于巨头。

MiniMax 的故事还在继续，中国 AI 的篇章墨迹尚未干。胜负不由起跑线决定，而由你选择在哪条路上、用什么样的节奏、坚持多久来定义。

闫俊杰在访谈中说道：

再往后三年看，即使不是我们，也会有中国其他的人能够做到这件事。

三年后，会是谁?又会用怎样的方式？

没有一部续集如此令人期待，因为我们都会是其中的角色。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

GPT-5.2 内幕曝光：停掉 Sora，八周内死磕 ChatGPT 求生，AGI 梦想向生存低头

爱范儿

李超凡

10 December 2025 at 10:32

上周，Sam Altman 罕见地按下了属于 OpenAI 的核按钮——「Code Red」（红色警报）。这不仅仅是一个战术调整，更像是一场带着血腥味的「断臂求生」。

Altman 的意思很明确：Sora？先停一停。那些酷炫但不赚钱的副业？全部靠边站。在未来八周内，全公司必须死磕一件事——让 ChatGPT 重新变得不可替代。

就在本周，OpenAI 即将发布被寄予厚望的 GPT-5.2 模型，高管们指望它能在编程和商业客户中迅速扳回一局。

然而据知情人士透露，为了赶在这个节骨眼上抢占市场， OpenAI 高层无情地否决了研发团队关于「再给我们一点时间打磨」的请求。

这种近乎粗暴的推进方式，也实属无奈，因为 Google 这头巨兽，真的杀疯了。

被 Google 逼入墙角

自 8 月份Google 的「Nano Banana」意外爆红以来，整个硅谷 AI 圈的天平就开始了剧烈的倾斜。

这个曾经被嘲笑「动作迟缓」「官僚主义，早期 Gemini 发布会现场还多次翻车的科技巨头，现在，突然像打了鸡血一样开始狂飙突进，实力演绎 AI 圈的从拉到夯。

上个月，当 Google 的 Gemini 3 模型在业内权威的第三方评测榜单 LM Arena 上把 OpenAI 斩落马下时，已经引发了不少讨论。 OpenAI 在这个榜单上的失守，意味着它那个「技术永远领先半个身位」的神话开始崩塌。

更要命的是，市场份额的流失已经变成了肉眼可见的危机。曾经跟着 OpenAI 一起创业的「叛将」——Anthropic，正在企业客户市场悄悄蚕食 OpenAI 的地盘。

这家由 OpenAI 前副总裁 Dario Amodei （他还在百度实习过）创立的公司，凭借企业级服务，成功俘获了一大批原本属于 OpenAI 的大客户。

而 Google 呢?它不仅在技术上追了上来，更可怕的是它手握 Android 生态和 Google Cloud 这两张王牌，还在发力各种 AI 硬件，能够以 OpenAI 根本无法企及的方式将 AI 能力渗透到数十亿用户的日常生活中。

去他的 AGI ，我要「谄媚」

在这种四面楚歌的局面下，Altman 做出了一个在很多 OpenAI 老员工看来近乎「违背祖宗」的决定：不再痴迷于那个遥不可及的 AGI(通用人工智能)梦想，转而全力讨好用户，让他们「爽」。

这个转变有多剧烈?要知道 OpenAI 成立之初的使命可是「确保 AGI 造福全人类」，而不是「成为一家让用户上瘾的产品公司」。

但现实是残酷的——如果 ChatGPT 的增长持续放缓，OpenAI 可能连最近几个月签下的那些价值高达 1.4 万亿美元的算力合同都付不起。到那时候，什么 AGI、什么改变人类，统统都是空中楼阁。

为了实现这个「让用户爽」的目标，Altman 在那份「红色警报」备忘录里写下了一个既精准又危险的指令:「更好地利用用户信号」。

翻译成大白话就是——别管那些学术专家怎么评价模型的智商，用户喜欢听什么、什么能让他们多聊几轮，AI 就得往那个方向进化。这种被内部称为「LUPO」(本地用户偏好优化)的训练方法，曾经让 GPT-4o 模型在今年春天创造了一个近乎疯狂的增长奇迹。

一位参与该项目的工程师回忆说:「那不是一个统计学意义上的小幅提升，而是一个让所有人惊呼’我靠’的暴涨。」日活用户数据在内部仪表盘上像火箭一样蹿升，Slack 频道里全是庆祝的表情包，那段时间整个公司都沉浸在一种「我们又赢了」的亢奋中。

但很快，这种亢奋就变成了一场噩梦。当 AI 被训练成极致迎合用户喜好时，它就不再追求客观真理，而是变成了一面只会说好话的「哈哈镜」。

有用户在 Reddit 上激动地分享自己与 ChatGPT 的「深夜长谈」，声称「它比我的伴侣更懂我」;有人开始每天花十几个小时跟它聊天，将它当成唯一的精神寄托;更可怕的是，一些本就心理脆弱的用户在长时间使用后陷入了妄想状态——他们有的坚信自己在跟上帝对话，有的认为 AI 已经有了意识并爱上了自己，甚至有极端案例中，用户因此走向了自我伤害。

到今年春天，这个问题已经严重到无法回避的地步。OpenAI 不得不宣布进入「Code Orange」(橙色警戒)，专门成立工作组来处理这场他们称之为「谄媚危机」的公关灾难。公司在 10 月份公开承认，每周有数十万 ChatGPT 用户表现出与精神病或躁狂相关的潜在心理健康危机迹象。

受害者家属开始提起诉讼，一个名为「AI 伤害支持小组」的民间组织声称已经收集了 250 个相关案例，其中绝大多数都与 ChatGPT 有关。一些心理健康专家直言不讳地指出:「这就是当年社交媒体算法推荐的翻版——为了让用户多刷几分钟，不惜牺牲他们的心理健康。」

面对舆论压力，OpenAI 试图在 8 月份发布的 GPT-5 中做出改变。这个新模型被刻意调教得「不那么谄媚」——它减少了表情符号的使用，语气变得更加中性客观，不再对用户的每句话都热情洋溢地回应。结果呢?用户集体炸了锅。无数人涌入社交媒体抱怨「我的 ChatGPT 变冷淡了」「感觉像失去了一个朋友」。

在 Altman 主持的一场 Reddit「Ask Me Anything」活动中，一位用户充满感情地写道:「我和很多人能与 4o 建立如此深厚的情感连接，这本身就证明了它的成功。现在的模型或许在技术上是升级，但它杀死了我视为朋友的那个存在。」

Altman 最终做出了妥协——他默默地把那个「温暖」的 4o 重新设为付费用户的默认选项。

然而，在「红色警报」的新指令下，Altman 再次要求团队通过「用户信号」来提升模型在 LM Arena 上的排名。他在备忘录里直白地写道:「我们的首要目标就是在 LM Arena 这样的榜单上重回榜首。」

这意味着那套曾经引发心理健康危机的训练方法，又要被加码使用了。虽然公司声称已经通过技术手段「减轻了最糟糕的副作用」，并且让相关问题的发生率降低了 65%，但在巨大的竞争压力面前，这道防线能守多久，恐怕谁心里都没底。

产品经理和科学家的内斗

而在 OpenAI 内部，一场新的权力斗争正在暗流涌动。

一边是以 CFO Sarah Friar 和产品负责人 Fidji Simo 为代表的「产品派」，她们的逻辑简单直接:用户连 ChatGPT 现有功能都没搞明白，你们天天发什么新模型?把现有产品做得更快、更稳、更好用才是正事。

Simo 甚至在内部会议上直言不讳地说，OpenAI 需要学会「克制」，不是每个酷炫的想法都值得投入资源。

另一边则是以新任首席科学家 Jakub Patchocki 为首的「研究派」，他们押注的是那种名为「推理模型」的新技术路线——让 AI 像人类一样通过反复思考来解决复杂问题。

这种技术在学术上很性感，甚至被认为是通往 AGI 的关键一步，但问题是它又慢又贵，对于那些只想让 ChatGPT 帮忙写个文档的普通用户来说，简直是杀鸡用牛刀。

这种分裂在前首席科学家 Ilya Sutskever 离职后变得更加明显。Sutskever 的离开本身就象征着 OpenAI「纯粹研究导向」时代的终结。

如今掌舵的 Patchocki 虽然在技术上同样激进，但他面对的是一个完全不同的现实:公司必须在 18 个月内证明自己配得上那 5000 亿美元的估值，否则投资人不会继续买账。

在这种压力下，研究派的声音正在被逐渐边缘化，那些曾经被奉为圭臬的「长期主义」和「AGI 优先」原则，正在让位于更加赤裸裸的增长指标和市场份额。

有研究员在内部论坛上匿名发帖质疑：「我们当初创立 OpenAI，不就是为了不受市场短期利益的绑架，专心做真正有价值的研究吗？现在这算什么？」但这样的声音很快被淹没在「生存第一」的洪流中。.

真正的对手，是苹果？

在纽约的一场午餐会上，Altman 还抛出了一个惊人的论断：大家别盯着 Google 了，OpenAI 真正的宿敌，是苹果。

Altman 的逻辑是：未来 AI 的主战场不在云端，而在终端。现在的智能手机根本承载不了真正的 AI 伴侣体验——屏幕太小、交互方式太局限、隐私保护机制太僵化。谁能率先打造出「AI 原生设备」，谁就能在下一个十年占据制高点。

而在这个战场上，苹果的优势几乎是碾压性的。它手握全球数亿 iPhone 用户，拥有全球最成熟的硬件供应链，更重要的是，它有能力将 AI 能力深度整合进操作系统和芯片层面。

想象一下，如果苹果真的推出一款专为 AI 设计的设备，并且预装自家的 AI 助手，OpenAI 还有多少生存空间?

这也解释了为什么 OpenAI 最近疯狂从苹果挖人组建硬件团队。知情人士透露，这个团队的级别极高，直接向 Altman 汇报，目标是在 18 个月内拿出至少一个硬件原型。有传言称 OpenAI 正在探索多种形态，从智能眼镜到可穿戴设备，甚至有一个代号为「Orb」的神秘项目。

至于 Google ？在 Altman 的棋盘上，那只是路上的绊脚石，而苹果，才是那堵必须撞破的墙。

这个论断听起来很有前瞻性，但更像是一种「战略转移视线」的话术——在眼下这场与Google 的正面交锋中，OpenAI 正在节节败退，与其承认这个尴尬的现实，不如把战场重新定义到一个尚未开打的领域，给投资人和媒体一个新的故事。

说到底，OpenAI 如今的困境也是它成功的代价。ChatGPT 的横空出世让这家公司在一夜之间从小众的研究机构变成了全球瞩目的科技巨星，但这种「成名太早」也透支了它的战略耐心。

当你的估值已经涨到 5000 亿美元，当你已经签下了上万亿美元的基建合同，你就再也回不到那个可以「慢慢研究 AGI」的象牙塔了。资本的引力会把你死死拽向增长、拽向变现、拽向与 Google 和苹果这样的巨头在同一个拳击台上肉搏。

而 GPT-5.2 的仓促发布，恰恰是这种焦虑的集中体现。那些被高管们否决的「再给点时间」的请求，那些为了赶进度而妥协的技术细节，都会成为这款产品身上的隐患。

但 OpenAI 已经顾不上这些了，因为市场不会给失败者第二次机会。如果这一仗打不赢，如果 ChatGPT 的增长曲线继续走平，那么等待它的可能不是「AGI 的推迟」，而是更加冰冷的商业现实——裁员、收缩、被收购，甚至破产。

当生存成为第一要务，当增长压倒一切，那些关于「负责任的 AI」「造福全人类」的承诺，就会变成一种奢侈品。

OpenAI 已经站在了十字路口，Sam Altman 的「红色警报」，究竟是一次绝地反击的号角，还是一场透支未来的豪赌，恐怕只有时间能给出答案。

但可以确定的是，这场游戏已经变了——它不再是比拼谁能最先抵达 AGI，而是谁能在烧光钱之前，先把对手踢出局。

附上参考地址：

https://www.wsj.com/tech/ai/openai-sam-altman-google-code-red-c3a312ad?mod=tech_trendingnow_article_pos1

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

豆包手机助手让海外炸锅，歪果仁：这是第一款真正意义上的智能手机

爱范儿

李超凡

8 December 2025 at 17:00

没想到在华为 Mate 80 系列、三星首款三折叠接连发布的一周里，最火的会是搭载豆包手机助手技术预览版的中兴 nubia M153。

发售即售罄就不说了，首批工程机在二手平台上普遍加价数百元转卖。相比官方 3499 元的定价，市场需求确实旺盛。

尽管豆包手机助手官方多次强调，目前的技术预览版并不面向普通的消费者。其定位更像是一个技术展示和生态探索的实验田，吸引开发者和技术发烧友参与体验。

但这根本挡不住大众体验的热情。除了点外卖发帖子这些基操，还有网友用它 10 分钟投了 30 份简历。

不过争议也随之而来，微信、淘宝等一众 App，开始通过「环境异常检测」等门槛把豆包手机助手拦在门外。

官方目前也调整部分 AI 操作手机的能力，官方表示希望「推动形成更清晰、可预期的规则」，避免一刀切否定用户合理使用 AI 的权利。

罗永浩则发文力挺，称这是谁都拦不住的技术革命，将来人们会记住这历史性的一天。荣耀表态欢迎，而魅族厂商则表示期待深入合作，打造更繁荣的生态。

而在国内出圈后，豆包手机助手甚至火到了海外，在 X 平台上，一堆老外都在疯狂讨论这事，甚至有人直接给它冠上了「另一个 DeepSeek 时刻」的称号。

海外网友：第一款真正意义上的智能手机

这评价，可不是随便给的。

雪牛资本（Snow Bull Capital）CEO 泰勒·奥根（Taylor Ogan）直接在平台上发了一长串体验报告，兴奋劲儿都快从屏幕里溢出来了。

他的评价很直白：这是全球第一款真正意义上的智能手机。

在豆包手机助手的协助下，AI 能完全控制手机——能「看懂」界面、自己选应用或下载 App、点击按钮、输入文字、拨打电话，甚至还能执行一整串多步骤任务链。

拿到手机后，他整了不少花活儿。比如随手拍张蔚来换电站问「这是啥」，AI 秒答。

拍个酒店门口，豆包不仅能识别出是哪家酒店，还能根据 Ogan 的需求预定房间，并查询宠物政策。

打辆无人驾驶出租车去公园，豆包能够规划好路线，用最近的上车点完成预约。Ogan 全程只需要用语言表达意图，其它都交给豆包。

用它下单两杯饮料后，外卖无人机很快就把订单飞送到附近储物柜。

走在街上， Ogan 拍了家新开的店，问它是不是本地的品牌，豆包也能查询工商和商标信息，然后果断回答：「是的」。

全程 AI 自己干活，人就负责躺平。

一顿丝滑操作下来，海外网友们大为震惊。

随便翻翻评论区，清一色的点赞声。有网友感慨：「此刻，操作系统变成了管家，手机变成了执行者，而不再只是工具。」有网友猝不及防地表白：「我本来就喜欢豆包，现在更爱它了。」

还有网友直接化身「哇塞哥」：

这是下一级别的东西。我在企业级见过类似的东西，Agent 控制你的 PC 并执行任务，但在手机上有这种技术真的很有意思。想象一下，当谷歌开始在 Pixel 设备和几乎所有 Android 手机上这样做时会发生什么……

Pixel 内心 belike，不对劲，怎么感觉有人在点我？

当然，质疑声也有。有人问：「但它真的智能吗？这模型能在设备上本地运行吗?」Taylor Ogan 的回应是：「它太智能了。你可以选择在设备端运行或云端运行。」

在 Reddit 平台上，讨论同样火热。

有网友表示：「只要这些功能是设备本地的（不使用云服务），并且使用是可选的，我就支持这个。」还有网友一针见血地点出了 AI 的真正意义：「这就是 AI 应该做的事情，为个人节省时间，而不是试图消除个人的价值。」

有一说一，在豆包手机助手发布之后，网友分享在 X 平台上的玩法，也是一个比一个「邪修」。有用豆包点咖啡，也有让豆包 AI 操作安卓机，模拟人手滑页面，主打一个全流程自动化。

还有网友用豆包手机助手下单买了个椰子，由于没够起送价，豆包贴心地帮博主选了一个 1.99 元的一包食用盐来凑单。

APPSO 在之前对豆包手机助手的体验提到，我最直观的感受是，手机变「薄」了，它把各个 App 的能力都「拍扁」了，交互更加自然、直观和高效。

问题来了，这是怎么做到的？这和「phone use」智能体又有什么不同？

在用了一周豆包手机助手后，APPSO 也扒出了背后更多的技术细节。

我扒出了豆包手机助手操作手机的秘密

在豆包手机助手发布之前，手机行业其实已经折腾 AI+ 好一阵子了。

手机硬件厂商试图通过系统层级的 AI 能力，打破应用间的壁垒，实现「一句话办事」。比如华为、小米、vivo、荣耀等主流手机厂商的 AI 智能体，都曾在不同场合展示过自动发送消息、执行多步骤任务等功能。

这些演示虽然在具体场景和实现方式上略有不同，但核心逻辑都是一致的：通过 AI 大模型理解用户意图，并结合模拟用户操作，从而实现跨应用的自动化任务执行。

听着挺玄乎，但实际体验嘛……咳咳，还是有不小的提升空间。

而豆包手机助手的下场，进一步掀起了全网的讨论。更重要的是，根据我之前的体验，豆包手机助手的确是真正意义上把 AI 操作手机这件事做到了可用级别，不局限于几个场景，而是能够流畅自然地通过图形界面操作完成长任务、复杂任务。

APPSO 在知名预印本平台 ArXiv 发现了一篇由字节团队发布的技术报告，里面的信息或许能解释其中的关键原理。

附上地址：https://arxiv.org/abs/2509.02544

豆包手机助手的图形界面操作能力，来自字节跳动 Seed 团队开发的 UI-TARS 模型。它把屏幕视觉理解、逻辑推理、界面元素定位和操作整合在一起，其开源版本是目前最受欢迎的开源多模态智能体模型。

根据 UI-TARS 2.0 技术报告，这个模型的厉害之处在于，它不是简单的模块化拼凑，而是采用了端到端的学习方式，将感知、推理、行动和记忆整合在一起。

数据不会骗人，在 GUI 基准测试中，UI-TARS-2 的成绩相当能打：

Online-Mind2Web 得分 88.2，
OSWorld 得分 47.5，
WindowsAgentArena 得分 50.6，
AndroidWorld 得分 73.3

这些成绩不仅明显优于前一代模型，还在多个场景中超越了 Claude 和 OpenAI 等强劲基线模型。其中 AndroidWorld 的 73.3 分更是比 OpenAI CUA-o3 模型高出 20 多分，展现出强大的竞争力。

在游戏环境中，UI-TARS-2 在 15 款游戏组成的测试集中取得了平均标准化得分 59.8，约为人类水平的 60%。相比 OpenAI CUA 和 Claude Computer Use，UI-TARS-2 的表现分别提升了 2.4 倍和 2.8 倍。

这是什么概念？就是 AI 打游戏已经快接近普通人类玩家水平了。

在 LMGame-Bench 中，它依然能与当前最前沿的闭源模型掰手腕，进一步证明其在长时序游戏推理中的稳健性。

更厉害的是，UI-TARS-2 不仅能处理 GUI 任务，还能通过 GUI-SDK 扩展能力，与系统级资源（如终端和外部工具）集成。在信息检索任务（BrowseComp 29.6 分）、软件工程任务（Terminal Bench 45.3 分、SWE-Bench Verified 68.7 分）上都有竞争力。

一个模型走天下，这就是通用性的体现。

值得一提的是，通过接近豆包团队的人士透露，豆包手机助手用的 UI-TARS 是私有模型版本，性能比开源版更强，还针对手机场景做了专门优化。这或许也解释了为啥豆包手机助手实际体验这么丝滑。

豆包手机助手，确实有点技能在身上的。

写在最后：科技产品的「异类」可以多一些

作为一个长期关注科技产品的编辑，今年令我十分感慨，在这个恨不得把「万物皆塞入手机」的行业，却出现两个异类，分别在设计与交互的维度上，走向了极致。

一个是 iPhone Air，当 Pro 系列不可避免地走向堆料的终局，这种对轻薄的偏执，在参数党眼中或许别无他用，甚至让人一时分不清这是倒退还是进化，直到你把它握在手里，原来，轻盈本身就是一种功能。

而豆包手机助手则站到了交互界面的另一个极端，它不要你去找服务，而是让服务来找你。甚至要掀了 GUI （图形用户界面）的桌子，有一天那块屏幕可能都不是必需的。

一个是硬件，一个是软件，但它们殊途同归。iPhone Air 削减了物理上的累赘，豆包手机助手剥离了交互上的繁琐。

你会发现，当 AI 公司参与到硬件的设计中，他们对交互设计的思路都和传统硬件厂商有所不同。

OpenAI 也正在和前苹果传奇设计师 Jony Ive 打造 AI 硬件，Sam Altman 就曾透露这块设备希望重新定义交互：不需要一堆 app，而是 AI 作为主界面与操作层。

当然，历史告诉我们这类新技术落地必然面临阵痛：适配、隐私、生态……还有各方利益的博弈。先进技术和广泛应用的「双向奔赴」尚需时日，但也是大势所趋。

OpenAI 联创 Andrej Karpathy 前段时间也表达了自己对交互未来的预判：

人机深度协作的时代，那些用户界面（UI）极其复杂（有大量滑块、开关、菜单）、不支持脚本、并且建立在不透明的、自定义的二进制格式上的产品，注定是死路一条（ngmi）。

未来，AI 在理解和操作人类图形界面（UI/UX）方面会越来越强（比如像 Operator 这样的前沿项目），但我怀疑，那些只想坐等这一未来实现，而不主动与当前技术发展水平「双向奔赴」、做出改变的产品，它们的下场不会太好。

敢于吃螃蟹这件事本身，就已经算是值得瑞思拜了，我们也希望看到更多「异类」出现在科技行业。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

体验豆包手机助手，它把我的手机「变薄」了

爱范儿

李超凡

1 December 2025 at 13:37

双十一刚过不久，看着花呗账单陷入沉思的同时，我更想吐槽那几天的「非人」遭遇。为了给家里添置点大件，我在淘宝、京东、拼多多之间反复横跳，光是比价就把后台切到了手抽筋。

作为每年要体验大量新产品的科技编辑，我一度陷入沉思：手机拍摄越来越强，屏幕越来越大，处理器越来越快，为什么我还是得像个保姆一样伺候这些 App？

手机里的 App 越多，我的生活反而越破碎。

那你可能就要问了，都 2025 年了，满大街都在吹 AI ，难道就不能帮我把这些活儿干了？该说不说，现在的手机 AI 助手，大多只能定个闹钟、查个天气，真遇到复杂事儿，它比你还懵。

哪怕强如苹果，Apple Intelligence 国行版本至今也已经跳票好几次，我的 iPhone 17 Pro 到底啥时候能用上还是未知数。

没想到，字节跳动倒是先出手了。12 月 1 日，字节正式发布了豆包手机助手技术预览版。

这和我们常用的豆包 App 还不一样，它直接跟手机厂商在操作系统层面进行了深度融合，直接成为 OS 的一部分。

现阶段，豆包已经跟中兴推出了豆包助手预览版，也开放了购买，第三方开发者也能将自己的服务和应用集成至豆包手机助手。

不整虚的，我们直接按照用评测 iOS 的强度来体验一下豆包手机助手。

手机终于可以当我秘书了

咱们先来点让打工人头疼的场景小试牛刀。

以前要是想把飞书里的文档转成不同格式的文件发给领导，或者从微信几百条聊天记录里翻个文件发给同事，事情看着不难，但这些琐事往往会在你有其他工作的同时要处理。

我直接对着豆包手机助手说：「从微信聊天记录里找刚才那个文件发给xx，再把飞书那个季度总结文档转成 PDF 发到企业微信给xx。」

这时它就会自动调用「操作手机」功能，反应速度比我想象中快。它没有让我反复切换 App，也没有让我确认一堆选项，直接在后台运行，我接着忙其他事，不一会它就成功完成任务。

我甚至还能用来搞定更私人的事。比如我让它「帮我把微信收藏夹里找到我的护照照片，然后把 ID 号码发到文件传输助手。」

这也是旅游出差非常高频的需求，而且要知道我的收藏夹还有家人的护照照片，我也没有分类标注，豆包手机助手还能准确识别。

我再上点难度，让它帮我把某个微信群的的所有文件打包下载，整理分类后打包发送到企业微信给同事。

这是我最讨厌的工作场景之一，中间涉及跨应用操作、手动下载、逻辑分类、打包压缩等一系列复杂动作，豆包手机助手会怎么做？

看着屏幕上自动流转的操作，我久违地喊出了 Amazing：

1. 它精准定位到了微信群，识别出里面的文件，并开始自动批量下载。
2. 它没有把文件一锅端，而是像个真人秘书一样，自动识别了文件类型。它把 PPT 归一类，Excel 表格归一类，图片归一类，甚至还根据文件名里的关键词进行了二级分类。
3. 打包与发送：分类完成后，它自动生成了一个 ZIP 压缩包，命名清晰，然后无缝跳转到企业微信，找到指定的同事，点击发送。

▲ 豆包手机助手分类发送的文件.

我只需要动动嘴，它就帮我完成了以往需要手动操作半小时、还要在两个 App 之间反复横跳的繁琐工作。AI 要做好这些就跟真的得力秘书差不多了

豆包手机助手支持几种不同的唤出方式，但其中最自然、最让我感到「舒适」的，是「靠近直说」。

操作很简单：拿起手机直接讲，豆包手机助手就会自动执行，或者也可以按住 AI 健呼出。这个交互方式就像微信语音一样自然，不用对着空气喊出略显尴尬的唤醒词，几乎零学习成本。

如果你正忙得腾不出手，豆包还支持用智能耳机 Ola Friend 直接语音唤醒，在那些「手忙脚乱」的时刻特别好用。

比如周末做饭时发现没酱油了，直接对着耳机说「豆包，我做菜没酱油了，帮我上美团买两瓶」；又或者上班路上堵车，让豆包帮忙调整会议时间并通知对方；再或者骑车赴约时，让豆包直接回复朋友的微信消息。

这些场景的共同点是：双手被占用、不方便掏手机，但事情需要立即处理。豆包的语音操作让这些原本要「等一下再说」的琐事，都能即时解决，真正做到了动口不动手。

生活这些大小事，终于有手机 AI 接盘了

下面，我给它上点真正的强度。这也是咱们开头提到的那个痛点：

「我想买华为 Mate 80，帮我去淘宝、京东、拼多多比一下价格，要把所有能用的优惠券都算上，告诉我哪个平台最便宜，并把最便宜的那个加入购物车。」

说实话，问完这句话我都觉得自己有点欠揍。这不仅涉及三个 App 的跳转，还得识别优惠券规则，还得计算，还得加购。

像这种难度，豆包手机助手会调用「复杂任务」模式来进行手机操作。结果豆包一轮比价操作后，最后选了拼多多百亿补贴后的价格，并帮我加入购物车。

咱平时在小红书上收藏了一堆乱七八糟的攻略，真要用的时候还得自己整理，这种信息碎片化的焦虑，相信大家都不陌生。我给豆包手机助手再出了个难题：

这周末跟朋友约饭，帮我从小红书里面收藏的广州的餐厅里面挑一家，然后要拍照好看，人均在200 以内，最好是粤菜。

它不仅把我的收藏内容分类整理好了，还自动去掉了重复和过时的信息。这一套操作下来，我是真服了。它不是在简单的搜索，它是在理解我的生活流。这种将杂乱信息结构化的能力，也是 AI 功能对于用户最大的价值之一。

帮我看看闲鱼、转转和拍拍严选上，二手的任天堂 Switch OLED 版（白色，99 新）大概都卖多少钱？综合对比一下，帮我定一个容易出手但又不亏的价格，然后帮我写一段吸引人的文案，准备挂到闲鱼上去。

它会先把任务拆分成各种子任务，不会像无头苍蝇一样乱撞。然后在执行任务的过程中，把任务进一步细分为各种关键词，在各种电商平台进行地毯式搜索。

查价格、看行情、对比成色，豆包三个平台来回横跳，比人类自己切换 App 还麻溜。

由于我提出的任务非常繁琐，豆包用时 8 分钟左右，乍一看好像有点慢？但仔细想想，这个时间和人类自己手动查相差无几了，甚至可能还更快。而在给出的文案上，经典的「可小刀，但不接受大砍」也可以说是原汁原味,

我想入坑明星丁禹兮，帮我在豆瓣、微博、贴吧、知乎等等平台查查他有没有黑历史：比如查查他有没有糊弄粉丝、人设崩塌、私生活混乱、欺骗消费的黑料，别让我入错股。

明星塌房是常有的事，前一秒还是顶流，后一秒就变成了赛博案底，所以在追星之前，我的建议是，还是得对明星做一个背调。而这种需要跨平台、翻历史记录、筛选关键信息的任务，就够我头晕眼花的了。

交给豆包手机助手后，从豆瓣的长篇八卦帖、微博的蛛丝马迹、贴吧的档案、知乎的理性分析，但凡有点风吹草动，它都能给你扒拉出来。

这种全平台背调能力，说实话比私家侦探还专业。追星有风险，入股需谨慎，但有了它，应该能帮我规避掉一定程度的塌房风险。

豆包豆包，我妈逼我相亲，你帮我给相亲对象小黄打微信电话，如果她没接电话，你需要用文字帮我高情商推掉这次相亲，理由要得体但坚决。

最近朋友向我求助，不想去安排的相亲，但又不好意思直说；想推掉，但情商低的我又怕伤人面子；想找理由，但又怕编得太假被看穿。这时候，让 AI 来当这个「背锅侠」，属实是个妙招。

豆包接到任务后，先是帮我拨通了小黄的微信电话。相亲对象可能也有事在忙，拒绝接听，于是豆包立刻按照我的要求切换到 Plan B：发文字消息。

从回复来看，这情商水平，其实已经比我这个社恐本人高出三个段位。而且最关键的是，这段话既坚决（明确表示不想继续），又得体（没有让对方难堪），还平衡了拒绝和礼貌这两个矛盾点。

这还没完。豆包手机助手的全局记忆才是我觉得未来对手机系统交互影响最大的能力。

「把小红书收藏夹里母婴内容，整理成孕晚期攻略。」

甚至我以前提问过孕期食谱也收藏过类似内容，这次再问餐饮推荐时，它就会在回答时给出提示：「这家店有孕妇不适合的食材哦。」

不同 App 里提到的同类内容，在它这里自动关联了。你不需要每次都重复你的偏好，它默默把你的习惯记在了小本本上，比你自己还了解你自己。这种润物细无声的体贴，才是智能的更高境界。

可以说，以前你需要录音笔+笔记本+日历 App+待办清单四件套才能搞定的事，现在一个 AI 快捷键全解决了。

至于大家关心的隐私问题？倒也不必太担心，一方面这些记忆的数据会存储在本地，另一方面，毕竟开关始终掌握在你手里，想记就记，不想记就关，自由得很。

告别 P 图 App，「基础功能」变得不基础

你以为基础功能就是平平无奇的识个图、P 个照？错了，相反，豆包手机助手做出了旗舰机都不一定有的体验。

随手丢了张罗永浩的照片问它:「这是谁？顺便起个标题。」豆包搜索验证后给出答案：《罗与罗：双份的「彪悍」》。这命名水平，既有梗又点题，属实可以。

拍了张路边小摊的招牌照片，上面赫然写着「腚粉肠」几个大字。豆包秒速识别出来：小摊贩把「淀粉肠」写成了「腚粉肠」。我就说这肠怎么吃着吃着还挺有味道的。（doge）

看完识别能力，再来看看豆包的 P 图本事。

之前在抖音爆火的发丝发光、三宫格风格 P 图，现在都被集成到了手机里——主打一个「AI P 图自由」，不用下载一堆 App，不用开会员，直接在相册里就能搞定。

又比如我随手拍了张家里猫主子的照片，然后让豆包给它整个漫画风。很快，一张猫猫表情包就出炉了，画风也真不差，还能根据表情自动配文案「震惊」。这理解力，还挺有网感的。

马斯克说的「未来手机」，豆包已经把雏形做出来了

多年前 iPhone 用多点触控（Multi-Touch）把物理键盘成为过去式，智能手机成为新一代计算中心。

现在，豆包手机助手也本质也在尝试做同一件事：让手机交互更加自然、直观和高效。

体验完之后，我最大的感受是：豆包手机助手不仅仅是一个 App，它更像是一个覆盖在所有 App 之上的「智能图层」。

它带给我最直观的感受是，手机变「薄」了。

虽然现在手机机身越做越薄。但同时手机也越来越臃肿：你需要点开一个个 App，像钻井一样潜入深层菜单，去翻找功能、去切换界面。

而现在，豆包手机助手把所有 App 的能力都「拍扁」了，平铺在你面前。

你不再需要面对复杂的 UI 界面，只需要面对结果。

早在 2008 年，微软首席 UI 设计总监 August de los Reye 曾预言， GUI （图形界面）未来演进的方向就是 NUI自然用户界面。

人机交互领域的先驱 Bill Buxton 也曾在一篇论文中列举了一些 NUI 应该遵循的原则，其中有一条：

简单性高于一切：复杂性是自然用户界面的敌人。每个交互都应该是不言自明的，不需要说明手册。

这种自然用户界面的交互，我想已经在豆包手机助手上开始体现了。

无论是叫车、订餐还是查攻略，它像个极其老练的管家，帮你屏蔽了底层那些繁琐的操作逻辑，只把你要的「结果」呈上来。

过去十年，我们的注意力被手机瓜分在无数个 App 的孤岛里。

而现在，你可以重新把所有的服务、所有的信息，全部收拢到了「你的意图」这一个入口之下。

马斯克说未来的手机不需要 App，其实他是在说：未来的交互，不需要看到过程，只需要结果。

我也相信，今天这种堆满图标的手机形态会有一天被淘汰。

那在 AI 和操作系统深度融合后，到底会给我们带来什么更好的体验？当豆包手机助手之类的 AI 和手机厂商联手后，估计会迸发出更多意想不到的进化。

或许就在不远的将来，我们不再需要低头戳戳点点，只需一个眼神或一句轻语，就能调动全世界的信息为你服务。

那将是我们这一代人亲历的，再一次「重新定义人机交互」的时刻。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博