Normal view

There are new articles available, click to refresh the page.

Today — 19 December 2025Main stream

GPT-5.2 翻车内幕曝光：技术团队没走「歪路」，但用户成了大冤种

爱范儿

By: 莫崇宇

19 December 2025 at 17:26

OpenAI 的十周岁生日，过得不太体面。

在当天发布的 GPT-5.2 交出了一份完美答卷：它横扫许多基准测试的 SOTA，在数学和编程等竞赛场景中的表现堪称亮眼，也被官方描述为 AI「超级大脑」。

可到了社交网络，迎接它的不是掌声，而是用户的集体骂街。

在 X 和 Reddit 上，愤怒与失望几乎写在每一条评论里。人们又一次怀念起那个曾经的「白月光」GPT-4o：有人说 GPT-5.2 变得平淡、乏味、像被磨平了棱角；也有人讥讽它成了「把成年人当幼儿园小孩对待」的说教。

当舆论的炮火对准 OpenAI 及其 CEO Sam Altman（山姆·奥特曼），一个尖锐的问题摆在面前：为什么模型更「聪明」了，用户反而更不爱了？

更「聪明」的模型，为什么不讨喜了

The Information 今天凌晨的最新报道，扒出了内幕。

过去一年，OpenAI 内部曾奉行一条铁律：每一次模型的代际飞跃，都会伴随着用户量的爆发式增长，因为「变聪明」带来的体验升级是直观的。但现在，这条铁律失效了。

当然，模型在智能与科研计算领域的提升依旧显著。研究团队耗费数月打磨推理能力，让它能攻克更复杂的数学与科学难题，但对于大多数普通用户而言，这种感知微乎其微。

▲ https://www.theinformation.com/articles/openais-organizational-problems-hurt-chatgpt?rc=qmzset

换句话说，智能的提升，并不天然等同于体验的提升。

普通用户很少需要一台「竞赛级大脑」，他们更多需要一个「日常好用的助手」。OpenAI 对 150 万次对话的大规模分析佐证了这一判断，用户的核心需求极其接地气：实用指导（29%）、信息查询（24%）以及写作（24%）等，而与编程任务相关的对话只有 4.2%。

于是矛盾就变得非常具体：当技术团队在实验室里狂卷数理化、狂卷基准测试时，用户在聊天框里只想要一句话解决问题——别绕、别教、别拖。

战线拉得过长是一大槽点。

今年大部分时间里，奥特曼同时启动了多个新项目：视频生成应用 Sora、音乐 AI、浏览器、AI Agent、硬件设备、机器人……摊子越铺越大，资源也被越分越碎。

这其实是科技巨头最常见的经典错误：核心阵地还没打稳，就急着开辟第二、第三战场。短期看是「全面开花」，长期看，贪多嚼不烂，乃兵家大忌——每一条战线都缺人、缺算力、缺产品打磨的耐心。

OpenAI 内部「研究优先」和「产品增长」之间的拉扯，在图像生成上体现得尤为明显：

即便 GPT-4o 的吉卜力风格在三月还短暂带动过 ChatGPT 的使用与用户增长，但 OpenAI 还是一度把图像模型的开发优先级往后放，等到 Nano Banana 口碑发酵后，OpenAI 又紧急回头补课，内部也因此爆发分歧——

奥特曼认定图像模型是用户增长的抓手，研究主管 Mark Chen 则更想把资源押在别的项目上。

另外，伴随着 Scaling Laws 边际效益递减，为了突破大模型的瓶颈，OpenAI 过去一年里押注了推理模型，超过 1000 人的研究团队将资源倾斜于此，导致对 ChatGPT 日常体验的优化被边缘化。

这种做法不仅分散了资源，甚至在年初的内测中出现了性能倒退——为了适配「聊天」场景，反而削弱了推理模型的纯粹性。虽然后来推出了「思考模式」和「深度研究」来分流、来补救，但用户使用率却很低，真正的日常对话体验并没有因此变得更讨喜。

除此之外，新旧模型之间也常出现兼容问题。

例如在发布 GPT-5 前，研究人员发现模型在集成进 ChatGPT 后在部分编程任务上表现变差——因为系统根据用户职业等个性化信息调整回答，结果反而干扰了模型理解，导致错误答案。

诚然，推理模型越来越强，但 ChatGPT 体验越来越拉胯。

当技术进步的方向和用户需求的方向开始分叉，谁会先妥协？答案显而易见。

Gemini 3 Pro 的强势发布，最终把 OpenAI 逼到了墙角，于是便有了奥特曼发布「红色警报」的经典名场面，要求 OpenAI 员工重新聚焦 ChatGPT，提高产品体验吸引力。

而在同一时间，OpenAI 应用负责人 Fidji Simo 也在个人博客中阐述 ChatGPT 的愿景，那就是从主要以文本为主的对话系统，转向能根据用户意图动态生成界面的全生成式 UI。

只是 Simo 也曾承认，公司本质仍以研究为中心，「产品本身并不是最终目标」。

从商业逻辑看，这句话其实很危险。

不同于 Anthropic 更偏向主攻 API 市场，OpenAI 的大头收入来自个人订阅。在消费市场，没有人会为企业的「终极理想」买单，用户只愿为当下的体验付费。这就好比餐厅大厨醉心于研发米其林料理，而大堂里的食客仅仅想要一碗热气腾腾的阳春面。

不过，如果你因此就断言 OpenAI 内部已经乱了阵脚，那可能低估了这家公司的韧性。

据彭博社援引 Mark Chen 的说法，「红色警报」并非新鲜事，而更像是一种战时状态的常态化管理工具。每当 OpenAI 需要集中火力攻克某一单一目标，或要求团队放下低优先级任务时，这种机制就会启动。

▲播客地址：https://x.com/Kantrowitz/status/2001790090641645940

奥特曼在最新的播客中，同样否认了拉响红色警报带来的过度焦虑。

「首先，所谓的『红色警报』，在我们看来其实是一种低风险、但非常必要的应对措施。」奥特曼坦言，「在潜在的竞争威胁出现时，保持一点『偏执』、并迅速做出反应，是件好事。」

他甚至提到了今年年初 DeepSeek 的崛起，认为那和现在的 Gemini 3 一样，都是一种良性的外部刺激。

「Gemini 3 到目前为止，还没带来我们原本担心的那种毁灭性冲击。虽然它和 DeepSeek 一样，精准地刺痛了我们在产品策略上的软肋，但也倒逼我们做出了极其迅速的调整。」

在奥特曼看来，这种紧急状态通常只会持续六到八周。「我很高兴我们有这种快速反应机制，我们不会在这个状态里待太久。」

OpenAI 显然也明白光喊口号不够，他们今天也正式发布了 GPT-5.2-Codex。

作为专为解决复杂现实软件工程问题而生的智能体编程模型，GPT-5.2-Codex 在通用智能的基础上，融合了 GPT-5.1-Codex-Max 的终端操作能力，更擅长处理代码重构、迁移等长程任务。

而同样是在播客的尾声，当主持人询问「GPT-6 还要等多久？」时，奥特曼敞亮地表示：「我不知道我们什么时候会正式把某个模型命名为 GPT-6，但我预计在明年第一季度，会有比 5.2 有显著提升的新模型发布。」

拉响「红色警报」，到 GPT-5.2 系列的反击，再到 GPT-6 的暧昧预告，OpenAI 试图用新模型与新节奏重建信心，但决定长期胜负的，仍是分发入口、生态协同与算力成本等硬门槛。

Google 的阳谋，与奥特曼的 8300 亿「空城计」

Google 的优势，从来不只在 Gemini 3 Pro 这一个模型上，更在于它几乎无可匹敌的分发渠道。

搜索、Chrome、办公套件。在 AI 赛道，护城河可能是所有科技产品中最浅的。用户的迁移成本几乎为零，当 Google 的 AI 产品如空气般无处不在，这几乎成了一场无解的阳谋——你不需要「被说服」，你只会「顺手就用」。

更重要的是，在与 Google 的较量中，硬件层面的短板成了 OpenAI 最大的软肋。

相比于 Google 十二年前就开始布局专用 AI 芯片（TPU）所建立的效率优势，OpenAI 每年仍需花费数十亿美元租用算力。即便试图通过自建数据中心和芯片来「补课」，但体验在被追平、成本在被碾压的现状已是不争的事实。

用网友的话来说：

OpenAI 现在并不需要一个更强大的模型，它需要的是 AMD。如果 OpenAI 收购了 AMD，这场 AI 之战就将宣告结束。Google 之所以不怕 OpenAI，是因为它拥有自家的 TPU。但它真正该担心的，是 OpenAI 拥有 AMD。

OpenAI 总裁 Greg Brockman 在最近的视频中也坦言，由于算力捉襟见肘，每当新功能上线（如年初 GPT-4o 吉卜力风格），就必须从研究部门「抽血」，把算力挪给产品部。这是一种饮鸩止渴的循环——为了维持今天的用户体验，被迫推迟了明日的技术研发。

可算力这东西，归根到底就是两个字：烧钱。而且是海量地烧钱。

为此，据 WSJ 报道，OpenAI 已计划发起 1000 亿美元的巨额融资；若一切顺利，这家超级独角兽将在明年 Q1 之前，以 8300 亿美元的估值，再次刷新资本市场的想象力。

而在今年早些时候，软银同意向 OpenAI 投资 300 亿美元，并于上月出售所持的英伟达股份价值 58 亿美元，为这笔投资筹资，并预计尽快完成剩余 225 亿美元的出资。

但钱的问题没那么简单。预计到 2030 年，OpenAI 的现金消耗将超过 2000 亿美元。相比之下，Google 财务稳健，甚至能通过 Oracle 等合作伙伴的股价波动间接挤压 OpenAI 的融资前景。

到处筹钱的 OpenAI，看起来更像是在和时间赛跑。于是便诞生了那个笑话：照奥特曼的融资能力，没准哪天连 Google 和英伟达都能「打包带走」。

但玩笑归玩笑，钱能买来时间，却买不来口碑。

所以在 2025 年这个冬天，狂奔三年的 OpenAI 选择先踩一脚刹车，其实是对的：收拢战线、回撤资源，把方向重新对准 ChatGPT 的日常体验。

这是一次昂贵但必要的纠偏。

技术领先不等于产品好用，基准测试第一不等于用户满意。更重要的是，你不能只在用户怀念旧版本的时候，才想起来问问他们的感受。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

Yesterday — 18 December 2025Main stream

突发｜ChatGPT 版应用商店正式上线

爱范儿

By: 莫崇宇

18 December 2025 at 10:58

就在刚刚，ChatGPT 应用商店已经正式推出。

在 ChatGPT 里的「应用（BETA）」页面里，我们可以看到 OpenAI 按「精选 / 生活方式 / 工作效率」等分类列出多款应用，如 Adobe Photoshop、Apple Music、Canva、Figma、Booking.com 等，点开即可查看或使用对应能力。

当然，用户也可以直接访问 chatgpt.com/apps 浏览精选应用。

这些应用能够为 ChatGPT 对话带来新的上下文，让用户在聊天中执行各种实际操作——订购、将大纲转化为幻灯片、搜索酒店公寓等等。

用户连接应用后，可以通过「@ 应用名」直接触发，或从应用栏中选择。更智能的是，ChatGPT 还会根据对话上下文、使用习惯和用户偏好，自动推荐相关应用。

实际体验下来发现，可能由于仍处于 Beta 阶段，连接速度相对较慢，且首次使用时需要登录对应账号。

而根据 OpenAI 昨天发布的官方博客，开发者已经可以正式向 ChatGPT 提交应用进行审核和发布。这标志着 OpenAI 在构建 AI 生态系统上迈出了关键一步。

为了帮助开发者打造高质量应用，OpenAI 提供了完整的资源体系：

最佳实践指南、开源示例应用、专门的 UI 库，以及处于测试阶段的 Apps SDK。开发者可以在 OpenAI 开发者平台提交应用，内容包括 MCP 连接详情、测试说明、目录元数据等等。

首批通过审核的应用将陆续上线。符合质量与安全标准的应用会被收录至应用目录，而深受用户喜爱的应用可能会被重点推荐，或由 ChatGPT 在对话中主动提示。

在早期阶段，开发者可将 ChatGPT 应用与其网站或原生应用相连，用于完成实体商品的交易。OpenAI 还在探索更多变现方式，包括数字商品，并会根据反馈持续更新。

所有应用必须遵守严格的安全和隐私规定：需符合 OpenAI 使用政策、提供清晰的隐私政策、仅请求实现功能所需的必要信息。用户始终掌握主动权——可随时断开应用连接，一旦断开，该应用将立即失去访问权限。

OpenAI 并不是第一次尝试做类似平台。

之前那个 GPT Store，上线之初讨论声不小，但热度下滑得也很快。即使是 OpenAI 的死忠粉也不得不承认，GPTs Store 更像是 prompt 的集散地，而非真正的商业护城河。

OpenAI 大概也很清楚，于是这次干脆推倒重做。

今天亮相的应用商店，形态明显更接近我们熟悉的苹果应用商店。不是简单把一个个 GPT 名字挂在列表里，而是把复杂能力封装成可以被点击、被订阅、被组合的「应用」。

一旦这种封装方式成熟，ChatGPT 那个看似普通的对话框，就会逐渐变成一个总入口。前台是聊天，后台接着的，却是一整片由第三方应用支撑的能力网络。

那个曾在 2008 年登上苹果年度开发者大会，用 App Store 给自己应用做推介的奥特曼，大概没想到多年后的自己，会试图在 AI 时代复刻当年苹果的玩法。

只不过这回，他不再是被平台挑选的开发者，而是那个要亲手搭出下一个「App Store」的人。从过往的操作来看，ChatGPT 不满足于做浏览器里的一个 Chatbot，而是想要向 OS 靠拢，把自己变成 AI 时代的基础层。

历史的子弹像是绕了一大圈，最终还是对准了他自己的眉心。

模型能力可以被追平，生态惯性却一旦形成，就很难被轻易迁移。这也正是 Google 多年来最大的底牌之一：它有完整的操作系统、有浏览器入口、有开发工具链，还有一个已经运转多年的应用体系。

为了在这场生态之战中获得优势，OpenAI 正在寻求更多资本支持。

今天凌晨，The Information 报道，OpenAI 已与部分投资者进行了初步洽谈，计划以大约 7500 亿美元的估值筹集新一轮资金。根据知情人士的说法，OpenAI 可能筹集数百亿美元，最高可能达到 1000 亿美元。目前谈判仍处于早期阶段，尚未有任何最终决定。

对厂商而言，这是一次极具诱惑力也同样危险的选项。

一方面，挂靠在 OpenAI 的生态之上，意味着你可以更快接触到全球范围的用户;另一方面，你对平台的依赖度也会逐步加深，一旦分发规则或抽成模式发生变化，整个商业规则都要重新计算。

而当 AI 成为默认入口，未来的我们或许也会慢慢形成一种新习惯：不是先打开浏览器找网址，而是先打开任何一个 AI 工具，说一句「帮我找一个能做某件事的应用」，然后在对话中完成查找、试用、付费和调用。

这种交互方式一旦普及，传统的搜索引擎和应用商店，可能都要被重新定义。OpenAI 显然也看到了这个机会，所以才会在应用商店这件事上下这么大的功夫。

模型是起点，生态是终点。

面对来自 Google 的持续竞争，OpenAI 的故事还远未结束，但它需要在接下来的几个月里证明，自己不仅能做出好的模型，还能搭建起一个让开发者和用户都愿意留下的生态系统。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

Before yesterdayMain stream

爱范儿
刚刚，OpenAI 版 Nano Banana 发布：奥特曼秒变性感男模｜附实测
17 December 2025 at 12:31

刚刚，OpenAI 版 Nano Banana 发布：奥特曼秒变性感男模｜附实测

爱范儿

By: 莫崇宇

17 December 2025 at 12:31

GPT-4o 上半年带来的那波热度，不仅让奥特曼感受到了 GPU 融化的气息，也让生图、理解视觉几乎变成了所有大模型的标配卖点。

但到了今年下半年，真正刷足存在感的却是那根「香蕉」：Nano Banana。

为了抢回头把交椅，OpenAI 今天正式推出了最新图像视觉模型 GPT-Image-1.5。这也是继 GPT-5.2 之后，OpenAI 红色警报计划中又一记重拳。

省流版如下：

指令执行更准确
编辑更精确
细节保留更完整
比之前快 4 倍

告别「抽卡」玄学，编辑细节能力拉满

GPT-Image-1.5 最大的升级点在于「精准编辑」。

以前用 AI 改图，简直像碰上了一个听不懂人话的「托尼老师」，你只想修修刘海，它反手就给你剃了个光头。现在，模型终于听懂了人话。你改哪里，它就动哪里。

光线、构图、人物特征，在输入、输出和后续编辑的闭环都能保持一致性。

听起来很抽象？看看官方给出的示例。

将两个男性和一只狗合成到一张 2000 年代胶片风格的儿童生日派对照片中 →
添加背景中吵闹投掷东西的孩子们 →
将左边的男人改为复古手绘风格，把狗变成毛绒玩具风格，右边男子和背景保持不变 →
为所有人换上 OpenAI 毛衣 →
最后只保留狗，把画面放入一场 OpenAI 的直播中……

一套连招下来，画面逻辑居然没崩。这说明 GPT-Image-1.5 不再是靠「蒙」，而是真的理解了画面结构，并完成增删改查。而能改得准、稳得住，才是现在的技术护城河。

再来看几个我实际测试的案例。

你或许看过《千里江山图》这幅传世名作，但你或许还遗漏了亿点点细节。

同理可得，谁说《百骏图》里，不能突然出现一只从现代穿越过来的网红柴犬 Kabosu。

就连马斯克和扎克伯格那场没打成的笼中决斗，在 GPT-Image-1.5 的加持下，一次性就成功把主角换成了奥特曼。脸没崩，违和感也几乎为零。

我们要一张细节丰富、逼真写实的极端仰拍照片，马斯克坐在珠江岸边单手搭着广州塔尖。为了体现巨物感，还得在他的脚边撒上微小的游船和游客。

结果，它也确实懂了什么是「比例感」。

▲提示词：一张细节丰富、逼真写实的极端仰拍照片，画面中的马斯克正在坐在珠江岸边，一只手搭在广州塔的塔尖上，为了体现巨大的体型比例，可在他的脚边加入一些微小的游船、观光游客等，2K，16：9

终于不再画「鬼画符」，但中文表现……

相比初版图像模型，GPT-Image-1.5 更擅长遵循复杂、细致的指令，能保持各元素之间的预设关系。

官方展示了一个 6×6 的网格图案例，每一行都要按指定内容布置，希腊字母、动物、物品、图标、单词，模型排列得井井有条，强迫症看了都得说声舒服。

经过实测，把线稿转成真实图片这种操作，现在也成了基操。

文本渲染能力也进一步提升，能更好地处理密集、小字体内容。比如将一段 Markdown 格式的内容呈现为自然的报纸文章布局，内容包括 GPT-5.2 发布说明、性能基准对比等，格式和数字都能保持完整准确。

这个能力听起来可能不起眼，但对于需要生成海报、宣传图、信息图表的用户来说，简直是刚需。

在 Nano Banana Pro 出现之前，生成式 AI 的文本渲染一直抽象得离谱，现在终于能看了。不过我们得泼盆冷水，GPT-Image-1.5 的英文能力确实能打，但中文表现依然是灾难现场。

我让它画个「擎天柱征服火星」的中文漫画，它能给你自创一门火星文。

亦或者让其生成一张古人在墙壁写水调歌头的图片，不仅文字错漏百出，握笔姿势还居然是拿钢笔的手法。

好在生成速度快了 4 倍，这边还在画着，那边你可以同时开几个新任务，试错成本大大降低。物体知识储备也还算在线，问它往水里加盐鸡蛋会怎样，生成的图片倒是有模有样。

▲左为原图，右为生成的图片。提示词：如果往水中加入大量盐，生成一张图片，展示鸡蛋会发生什么。

博主 @Yuchenj_UW 则认为 GPT Image 1.5 的生成效果大致达到了 Nano Banana Pro 水准，但「智商/推理能力」明显落后于 Nano Banana Pro，尤其在数学题上（以及其他物理/迷宫类问题）表现更差。

你的下一位设计师，何必是人？ChatGPT 申请出战

OpenAI 这次还在 ChatGPT 里专门开辟了一个图像创作入口。

网页和移动端侧边栏都能看到这个新入口，里面塞满了预设滤镜和热门提示词，还会定期更新。上传一次肖像，以后张张都是你，不用反复喂图。

说实话，这功能 Nano Banana 没有，但国内的生图模型早就玩烂了。某种程度上，GPT-Image-1.5 也算是在摸着国内同行的石头过河。

刚刚，奥特曼也在社交媒体上分享了自己用 GPT-Image-1.5 生成的圣诞性感月历男模照片。

来都来了，我们也顺手给奥特曼换了几套皮肤。贴纸风、摇头娃娃风、素描风，预计今天过后，奥特曼又要成为互联网上最忙的男人。

有个细节很值得点赞，当你要求生成预设方案时，OpenAI 会公开预设的提示词。从这一点来看，OpenAI 确实 open 了。

除此之外，制作贺卡、创建专辑封面，修复老照片，拍摄专业求职照片等也都是非常实用的预设方案。比如，那张经典的鲁迅和泰戈尔的合照，经过修复后，其实效果还是挺不错。

OpenAI 应用 CEO Fidji Simo 在博客中写道：「人类的思维并不只是由文字组成。事实上，我们最有创意的想法，往往起源于脑海中的图像、声音、动作或模式。」

她透露，ChatGPT 正在从一个反应式、以文本为核心的产品，转变为一个更直观、更能贴合你各种任务需求的工具。从纯文字向多媒体和动态界面转变，是这一进化过程中的重要一步。

很多用户第一次接触 ChatGPT，都是通过文字生成图片。这种「把文字变成画面」的过程充满魔力，但 ChatGPT 的聊天界面最初并不是为此设计的。图像创作和编辑是一种完全不同的任务，需要专门的视觉空间来支持。

OpenAI 干脆给它搞了个专属入口，让图像生成有了一个更像创意工作室的环境。

计划还不止于此。

OpenAI 未来还将引入更多视觉元素，优化 ChatGPT 的整体体验。未来在进行搜索查询时，结果将更多地包含图片和清晰来源。在单位换算或查阅体育比分等任务中，你需要的是一目了然的可视化结果，而不是一段文字描述。

甚至写作体验也在改，未来内置的写作模块让你在聊天中就能直接编辑，还能一键导出 PDF 或直接调用邮件应用发送。ChatGPT 早已不是一款单纯的语言模型，它正在变成一个真正的多模态工作台。

当然，除了普通用户，开发者也能通过 API 用上 GPT-Image-1.5。

相比 GPT-Image-1，GPT-Image-1.5 具备更强的品牌元素与关键视觉保持能力，适合电商、品牌营销等需要生成大量变体图片的场景。图像输入输出费用降低 20%，同样预算可生成更多图像。

降价+提效，这套组合拳打得还是挺实在的。

除此之外，迪士尼上周已经宣布向 OpenAI 投资 10 亿美元，并达成了合作协议。根据这项为期三年的授权协议，OpenAI 旗下的 Sora 和图像生成模型都能生成迪士尼、漫威、皮克斯和星球大战旗下角色，并计划在明年初正式上线相关功能。

内容 IP 加 AI 生成，这背后想象空间确实挺大。

更重要的是，GPT-Image-1.5 的发布，标志着图像生成工具正在从「玩具」向「工具」转变。

目前市面上大多数 AI 改图工具，一改就崩，毫无一致性可言。

GPT-Image-1.5 至少在这个方向上迈出了坚实的一步。它开始具备后期编辑能力，能像 Nano Banana Pro 一样控制细节，确保画面连贯。

在模型能力较弱的情况下，GPT-Image-1.5 通过更完善的图片生成预设方案，以及功能设置来完成对新版 Nano Banana 的反击，也确实是不错的选择。

专属图像创作入口、预设滤镜库等等，这些看似不起眼的产品设计，恰恰击中了普通用户的痛点。很多人并不需要最强的模型，他们需要的是「能快速上手、不用反复调教、生成结果八九不离十」的工具。

模型能力领先只是第一步，如何把能力转化为好用、易用、爱用的产品，才是真正的护城河。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

小米突然发布新模型：媲美 DeepSeek-V3.2，把手机的性价比卷到 AI

爱范儿

By: 莫崇宇

17 December 2025 at 12:23

开源模型再次迎来一位重磅选手，就在刚刚，小米正式发布并开源新模型 MiMo-V2-Flash。

MiMo-V2-Flash 总参数 3090 亿，活跃参数 150 亿，采用专家混合架构 (MoE)，性能还能和 DeepSeek-V3.2、Kimi-K2 这些头部开源模型掰掰手腕。

此外，MiMo-V2-Flash 采用 MIT 开源协议，基础版权重也已经在 Hugging Face 上发布，除了开源，新模型真正的杀手锏在于架构设计上的激进创新，把推理速度拉到了 150 tokens/秒，成本压到了每百万 token 输入 0.1 美元、输出 0.3 美元，主打一个超绝性价比。

从官方提供的页面来看，MiMo-V2-Flash 支持深度思考和联网搜索功能，这意味着它不仅能写代码、解数学题，还能实时获取最新信息。

附上AI Studio 体验地址：
http://aistudio.xiaomimimo.com

开源模型新标杆，SWE-Bench 霸榜开源第一

老规矩，咱们先来看看 MiMo-V2-Flash 的跑分环节。

在数学推理方面，AIME 2025 数学竞赛和 GPQA-Diamond 科学知识测试中，MiMo-V2-Flash 都排在开源模型前两名。

编程能力更是亮眼，SWE-bench Verified 得分 73.4%，超越所有开源模型，直逼 GPT-5-High。做个简单科普，这个测试是让 AI 去修真实世界的软件 bug，73.4% 的成功率意味着它能搞定大部分实际编程问题。

多语言编程基准测试 SWE-Bench Multilingual 解决率 71.7%，智能体任务上，MiMo-V2-Flash 在τ²-Bench 分类得分中，通信类 95.3 分，零售类 79.5 分，航空类 66.0 分。

BrowseComp 搜索代理得分 45.4，启用上下文管理后直接飙到 58.3。

这些数据说明，MiMo-V2-Flash 不仅会写代码，还能真正理解复杂任务逻辑，执行多轮智能体交互。长文本能力也没拉胯，实测表现甚至超越了体量更大的 Kimi-K2 Thinking，证明混合滑动窗口注意力架构的长程建模能力确实强悍。

写作质量也接近顶级闭源模型，这意味着 MiMo-V2-Flash 不只是个工具，还能当个靠谱的日常助手。

长文本性能不打折，成本降 6 倍的秘密

MiMo-V2-Flash 最核心的创新是混合滑动窗口注意力。

传统大模型处理长文本时，全局注意力机制会导致计算量二次爆炸，存储中间结果的 KV 缓存也跟着飙升。小米这次采用了 5 比 1 的激进比例，5 层滑动窗口注意力搭配 1 层全局注意力交替使用，滑动窗口只看 128 个 token。

（考虑到有朋友不太了解 AI，简单科普一下：「token」（中文常译作「词元」）在大模型/自然语言处理里，指的是模型读入和输出文字时使用的最小计数单位。模型并不是按「一个汉字=1、一个英文单词=1」这样固定地数，而是把文本切成一段段 token 来处理。）

简单说就是，模型不用每次都看全部内容，只看最近 128 个 token，偶尔看一次全局，这样计算量和存储都能大幅下降。这种设计让 KV 缓存存储量直接减少了近 6 倍，但长文本能力却没打折扣，最长支持 256k 上下文窗口。

关键是小米还整了个「可学习的注意力汇入偏置」，其的用是让模型即使在这么激进的窗口设置下，照样能稳住长文本性能。

罗福莉在社交平台上特别强调，窗口大小 128 被证明是「最佳数值」，而 512 反而会导致性能下降。这个发现挺反直觉的，你会觉得窗口越大越好，但实际测下来 128 才是甜点。另外，sink 值（attention sink values）必不可少，绝对不要省略它们。

另一个黑科技是轻量级多 Token 预测 (MTP)。

传统模型生成文本时一次只能吐一个 token，就像打字员一个字一个字敲。MiMo-V2-Flash 通过原生集成的 MTP 模块，能并行预测多个 token，一次性猜出接下来好几个 token。

实测平均能接受 2.8 到 3.6 个 token，推理速度直接提升 2 到 2.6 倍，不仅在推理时管用，训练阶段也能加速采样，减少 GPU 空转，属于一箭双雕。

罗福莉提到，在三层 MTP 设置下，他们观察到平均接受长度超过 3，编码任务速度提升约 2.5 倍。它有效解决了小批量 On-Policy 强化学习中「长尾样本」带来的 GPU 空闲时间浪费问题。

啥叫长尾样本？就是那些特别难、特别慢的任务，拖着其他任务一起等，GPU 就在那干瞪眼。MTP 把这个问题给解了，效率直接起飞。

不过罗福莉也坦诚，这次因为时间紧迫没能把 MTP 完整集成进 RL 训练循环，但它与该流程高度契合。小米已经把三层 MTP 开源了，方便大家在自己的项目中使用与开发。

算力只用 1/50，性能如何不打折？

预训练阶段，新模型使用 FP8 混合精度，在 27 万亿 token 数据上完成训练，原生支持 32k 序列长度。

FP8 混合精度是一种压缩数值表示的技术，能在保持精度的同时减少显存占用和加速训练。这种训练方式在业界并不常见，需要对底层框架进行深度优化。

而在后训练阶段，小米整了个大活，提出了多教师在线策略蒸馏 (MOPD)。

传统的监督微调加强化学习管线，不仅训练不稳定，算力消耗还贼高。MOPD 的思路是让学生模型在自己的策略分布上采样，然后由多个专家教师在每个 token 位置提供密集的奖励信号。

通俗点说就是，学生模型自己写作业，老师在每个字上都给评分，不用等写完整篇才打分。这样一来，学生模型能快速从教师那里学到精髓，而且训练过程稳定得多。

最夸张的是效率提升，MOPD 只需要传统方法 1/50 的算力，就能让学生模型达到教师性能峰值。这意味着小米能用更少的资源，更快地迭代模型。

而且 MOPD 支持灵活接入新教师，学生模型成长后还能反过来当教师，形成「教与学」的闭环自我进化。今天的学生，明天的老师，后天又能教出更强的学生，套娃玩法属实有点东西。

用罗福莉的话来说，他们借鉴 Thinking Machine 的 On-Policy Distillation 方法，将多个强化学习模型进行融合，结果带来了惊人的效率提升。这为构建一个自我强化循环系统奠定了基础，学生模型可以逐步进化，最终成为更强的教师模型。

在智能体强化学习扩展上，小米 MiMo-V2-Flash 研究团队基于真实 GitHub issue 构建了超过 10 万个可验证任务，自动化流水线跑在 Kubernetes 集群上，并发能开 10000 多个 Pod，环境部署成功率 70%。

针对网页开发任务，还专门搞了个多模态验证器，通过录制视频而非静态截图来验证代码执行结果，直接减少视觉幻觉，确保功能正确。

对于开发者而言，MiMo-V2-Flash 能与 Claude Code、Cursor、Cline 等主流开发环境无缝配合，256k 的超长上下文窗口支持数百轮智能体交互与工具调用。

256k 是什么概念? 大概相当于一本中等篇幅的小说，或者几十页技术文档。这意味着开发者可以把 MiMo-V2-Flash 直接融入现有工作流，不需要额外适配，拿来就用。

小米还把所有推理代码贡献给了 SGLang，并在 LMSYS 博客分享了推理优化经验。

技术报告公开了完整模型细节，模型权重 (包括 MiMo-V2-Flash-Base) 在 Hugging Face 上以 MIT 许可协议发布。这种全面开源的态度，在国内大厂里属实少见。

目前 MiMo-V2-Flash 已经在 API Platform 限时免费开放，开发者可以直接上手体验。

小米的 AI 野心，不止于手机助手

MiMo-V2-Flash 的发布，标志着小米在 AI 赛道上的全面发力。

罗福莉在社交平台上透露了更多信息，「MiMo-V2-Flash 已正式上线。这只是我们 AGI 路线图上的第二步。」第二步就已经这么猛了，那后面还有啥大招？想想就有点期待。

当然，小米在技术报告中也坦诚，MiMo-V2-Flash 与最强的闭源模型相比仍有差距。但他们的计划很明确，通过扩大模型规模与训练算力来缩小差距，同时继续探索更稳健、更高效的智能体架构。

MOPD 框架下教师模型与学生模型的迭代共进化，也为未来的能力提升留足了空间。

把视角拉高来看，背后是小米对整个 AI 生态的一次战略押注。手机、IoT、汽车，小米的硬件生态需要一个强大的 AI 底座，MiMo-V2-Flash 显然就是小米为全硬件生态准备的那块基石。

就像十年前小米手机用 1999 元重新定义了旗舰机的价格标准，如今 MiMo-V2-Flash 正在用 0.1 美元/百万 token 的成本、73.4% 的 SWE-Bench 得分，重新定义开源大模型的性能标准。

这一次，属于开源模型的「小米时刻」真的来了。

HuggingFace 模型地址:
http://hf.co/XiaomiMiMo/MiMo-V2-Flash
技术报道地址：
http://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

每天被问 500 万次的健康 AI 火了！原来这届网友在偷偷养生

爱范儿

By: 莫崇宇

17 December 2025 at 12:00

现代人的「脆皮」生活，往往是从一次深夜搜索开始的。

也许是加班后莫名其妙的心悸，也许是体检报告上突然出现的几个箭头。那一刻，巨大的不确定性像潮水一样涌来。

我们习惯性地打开搜索框，看着那些真假难辨的「绝症预警」，然后陷入更深的焦虑；想去医院求个心安吧，一想到挂号靠抢、排队半天只为问两句日常琐事，又默默退了号。

健康焦虑这件事，是时候有个靠谱的解法了。

半年前，蚂蚁集团推出了一款独立应用 AQ，成了千万人的「健康搭子」，而就在 12 月 15 日，AQ 品牌正式升级为「蚂蚁阿福」, 并发布 App 新版本，升级健康陪伴、健康问答、健康服务三大功能。

蚂蚁集团副总裁、健康事业群总裁张俊杰介绍说，取名「阿福」寓意健康是福，健康的事就找阿福。

从 AI 工具转向 AI 健康朋友，阿福最大的变化在于健康陪伴板块，能够定制健康小目标、智能提醒、日常打卡，试图把健康管理变成每天都能做到的小事。

数据显示，阿福 App 的月活用户已超 1500 万，跻身国内 AI App 前五，每天回答用户 500 多万个健康提问，55% 用户来自三线及以下城市。

当 1500 万人把健康问题交给 AI，我们也不禁想问，在健康这个专业性极强的领域，为什么有这么多人会找它？

会追问、能辟谣、还有名医分身，蚂蚁阿福缓解了我的「健康焦虑」

挂号靠抢，看病靠等，回家靠猜。这是很多人身体不舒服的就医三部曲。

阿福与通用型 AI 最大的不同在于，它的服务融入了「健康医疗」需求的一个个环节。健康陪伴、健康问答、在线问诊、解读报告、买药、挂号、医保支付……你以为只是个能问答的 AI，其实他能帮你走完大半个健康解答和就医的流程。

打开阿福，首先扑面而来的是那种熟悉的聊天界面。

在阿福内点击「AI 诊室」功能，它不会直接甩给你一堆医学文献，也不会用专业术语把你绕晕，而是像个老练的医生一样学会了「追问」。

比如我说「胃胀」，它会进一步追问症状出现的时间和进展，接着给出建议和原因分析。要知道，通用 AI 往往一问一答就结束了，而阿福的问诊方式更接近真人健康顾问。

并且，问诊结束后，它还能根据需求帮你预约挂号，推荐对症的医生专家。

听说吃木耳会致癌，是真的吗？

当我把这个问题输入阿福时，它先引用了权威的医学资料进行辟谣，然后详细解释了这类谣言的来源，最后还给出了科学的饮食建议。

让我惊喜的还有「名医 AI 分身」这个功能。

名医的资源为什么稀缺？因为他们的经验、注意力和时间都是有限的。而 AI 分身嘛，复制的正是他们最宝贵的知识和经验。

我关注了邓杰医生，并询问：「孕期爱吃辣会对宝宝有危害吗？」，这个 AI 分身解释了辛辣食物对孕妇的影响机制，并贴心地提醒了注意事项。

随手拍个药盒，阿福就能告诉你这药是干什么的，怎么吃，什么人不能吃，给出分量十足的用药提醒。

面对皮肤问题心里没底？拍张照，AI 能识别痤疮、银屑病等 50 种常见皮肤病。水油、衰老、敏感度等等，它能把感性的「皮肤不好」变成理性的数据指标，并给出护肤建议。

以前还得花钱去医院看的毛发检测，现在手机拍一下就能搞定。至于隐私问题，阿福设计了「无痕拍」模式，主打一个阅后即焚，本地不留痕。

而最解决痛点的，莫过于解读体检报告。

体检报告像天书，医生说的每个字都懂，连起来就不知道什么意思了。拍照上传或导入 PDF，几分钟内，阿福就能读懂 99% 的常见报告，准确率高达 90% 以上。

比起给你念一遍报告上的数字，它还会用人话解释这些指标是什么意思，哪些地方需要注意。

当然，阿福给出的是健康科普和参考建议，绝不越俎代庖替代诊疗。要是感到身体非常不舒服，还得老老实实去医院。

体检一年只有一次，但健康管理需要 365 天都「在场」

除了生病时的救急，阿福明显想更好地照顾你的日常生活。

通过增加健康陪伴的功能板块，阿福希望陪伴用户从日常就开始养成健康好习惯，构筑健康防线。这也是阿福区别于通用 AI 的核心优势。

现在，阿福支持连接华为、苹果、欧姆龙等主流品牌的智能设备，步数、睡眠时间、血压这些数据都会自动同步。这样一来，AI 对你的身体状况就有了更全面的了解，给出的建议也不会是通用的「多喝热水」。

比如你在健康档案里记录了身高体重，阿福帮你制定运动计划时就会根据你的 BMI 给出更科学的强度建议。你之前咨询过体重过轻怎么办，它就不会再跑来建议你减肥。

健康管理最理想的状态，是把大事化小，把小事化了，把了事化无。

新版阿福还上线了「健康小目标」和「健康小提醒」这两个陪伴型功能，用户可以设定运动、饮食、生活习惯等健康目标，阿福会像「私人教练」一样，根据目标为用户定制专属计划, 并每日提醒。

▲提升注意力秘籍

从运动饮食到戒烟睡眠，它每天盯着你打卡。甚至会根据季节变迁，提醒你流感防护或给老人小孩的照护建议。

以前是病了才想起医生，现在是 AI 追着提醒你别生病。

当然，AI 能做的始终是陪伴和提醒，真正的健康习惯养成，还得靠你自己的坚持和自觉。

而这一切体验的闭环，最终落在了蚂蚁最擅长的领域：服务集成。查医保、刷医保码、挂号买药，不需要在四五个 App 间来回跳转，阿福一站式搞定。

「有时治愈，常常帮助，总是安慰」

说实话，要把自己的健康放心交给 AI ，光有情绪价值是不够的，阿福背后的技术积累其实挺扎实的。

它基于蚂蚁医疗大模型，这个大模型在 HealthBench、MedBench 等行业榜单上长期霸榜。甚至在 OpenAI 主导的 HealthBench 测评里，某些指标还超过了 DeepSeek。

在数据层面，超万亿 tokens 的专业医疗语料，千万级医疗知识图谱，支撑起千亿参数的多模态模型。

简单说就是：它不光能看懂文字，还能看懂图片，能像真人医生一样主动追问你的症状。

更关键的是，AQ 背后站着一群真人专家。六位国家院士领衔，500 多位名医在上面开通了「AI 分身」。

蚂蚁健康团队里，60% 的人都有医学院、医院或互联网医疗背景，还组建了千人规模的医学标注团队在持续调教大模型。你问的每个健康问题，背后其实都有这群人在帮你「把关」。

用户也用脚投票，给这款「正规军」出身的 AI 产品投出了惊人的赞成票。目前阿福的月活用户已经超 1500 万，跻身国内 AI App 前五，成为第一大健康管理 AI App。

有时去治愈，常常去帮助，总是去安慰。（To Cure Sometimes,To Relieve Often,To Comfort Alway）

公共卫生先驱特鲁多医生墓志铭上的这句话，在 AI 时代有了新的注解。

归根结底，大家对健康的焦虑，源于一个巨大的「供需错配」。

中国居民人均预期寿命已经到了 79 岁，3 亿多老人对养生、康复、护理有巨大需求。90 后、00 后也开始保温杯里泡枸杞，练起了八段锦。

同时慢病管理成了全民课题。中国慢病患者超过 5 亿人，但知晓率、分析率、控制率都很低。拿高血压来说，2.7 亿患者里知晓率只有 57%，超八成的患者血压控制不佳。

这种时候你去三甲医院挂号？排队三小时看病三分钟，医生也没空跟你细聊。

而正如药王孙思邈所言：「上工治未病之病，中工治欲病之病，下工治已病之病」，高明的医生往往能够在疾病未发之时及早干预，从而防止病发。

阿福这种随时可问、专业靠谱、还不用排队的健康 AI，正好卡在了这个需求点上，不仅能够及时地提供帮助和安慰，还解决了普通人日常那些不值当跑医院但又真实存在的健康困惑。

对于医生而言，这也是一种解放。

杭州市七医院副院长毛洪京的 AI 分身，累计服务了 368 万人。这是线下门诊无论如何也无法企及的效率杠杆。健康 AI 不是要干掉医生，而是让优质健康服务变得更可及，让每个人都能在日常生活中被好好照顾到。

比尔·盖茨曾预测，未来十年内 AI 将让优秀医疗建议变得像水和电一样廉价普及。

阿福让我们看到，这样的未来并非遥不可及。

通过将专业医理通俗化、专家经验普惠化，阿福让每个人都能平等地获取优质健康服务。填平专业鸿沟，让稀缺资源变得唾手可得，这才是技术最大的善意。

所以，当 1500 万人把健康问题交给 AI，他们相信的除了技术本身，还有技术背后那些真正懂健康、守边界、有温度的人。

在这个人人都有点「脆皮」的时代，我们需要的不只是一个搜索引擎或聊天机器人，而是一个真正懂你、陪你、帮你的「健康搭子」。

作者：李超凡、莫崇宇

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

刚刚，GPT-5.2 正式发布！让打工人每周少干 10 小时，成人模式明年见

爱范儿

By: 莫崇宇

12 December 2025 at 04:35

1106 天，OpenAI 从掀桌子的人，变成了被掀桌子的人。

伴随着 Google Gemini 3 的发布，OpenAI CEO 奥特曼上周罕见拉响了「Code Red」红色警报，并宣布所有资源回流 ChatGPT 主线，其他业务一律靠边站。

这是 OpenAI 成立以来第一次进入「红色警报」状态，也是它第一次如此明确地承认：竞争压力已经大到必须全力应对。

而就在刚刚，OpenAI 发布了 GPT-5.2 模型，打出了一记力量感十足的重拳。GPT-5.2 将向 ChatGPT 付费用户开放，并通过 API 提供给开发者，分为三个版本：

Instant：速度优化版，适用于信息查询、写作和翻译等常规任务；
Thinking：擅长处理复杂结构化任务，如编程、分析长文档、数学和规划；
Pro：高端版，专注于在高难度任务中提供极致的准确性和可靠性。

不聊天，真干活，GPT-5.2 闯进打工人职场

本以为 OpenAI 会专注提升 ChatGPT 的个性化和消费者体验，结果 GPT-5.2 的发布方向依旧是走职场实用主义的路数。

用 OpenAI 应用 CEO Fidji Simo 的话来说：「我们设计 GPT-5.2 是为了给用户创造更多经济价值。」

什么叫经济价值？

就是让 AI 真的能干活，做表格、写 PPT、敲代码、看图、读长文、调用工具、搞定复杂项目，这些都是 GPT-5.2 的拿手好戏。

数据也挺唬人。平均每个 ChatGPT 企业版用户说，AI 每天能给他们省 40 到 60 分钟，重度用户更狠，每周能省 10 小时以上。

GPT-5.2 Thinking 是这次发布的重头戏。

在评估 44 个职业知识型任务的 GDPval 测试中，它成为首个在总体表现上达到或超过人类专家水平的模型。具体来说，在与行业专家的对比中，GPT-5.2 Thinking 在 70.9% 的任务中胜出或持平，由人类专家亲自评判。

这些任务可不是随便出的题，涵盖了美国 GDP 排名前 9 个行业，包括销售演示文稿、会计报表、急诊排班计划、制造业图纸、短视频制作等等，都是真实工作场景里的硬活。

编程方面的提升更明显。

SWE-Bench Pro 是个相当严格的测试，评估模型在真实世界软件工程中的能力，涉及四种编程语言，比只测 Python 的版本难多了。GPT-5.2 Thinking 在这个测试里拿到了 55.6% 的成绩，创下业界新高。

更夸张的是在 SWE-bench Verified 里直接干到 80%，成为目前最高记录。这意味着 GPT-5.2 Thinking 能更可靠地调试生产环境中的代码、实现功能需求、重构大型代码库，端到端的修复工作做得更高效，减少人工介入。

前端开发也有明显提升。

早期测试者说，它在处理复杂或非常规的前端 UI 任务时表现更出色，特别是涉及 3D 元素的场景，妥妥的全栈工程师助手。

OpenAI 还放出了几个根据单一提示生成的示例：海浪模拟器、节日贺卡生成器、打字雨游戏。就一个提示词，整个单页应用就出来了，可调节的参数、逼真的动画效果、平静的 UI 风格，全都有。

幻觉率降低 30%，长文本能力接近完美

事实准确性这块，GPT-5.2 Thinking 相较于 GPT-5.1 Thinking 的「幻觉率」更低。

在一组匿名化的 ChatGPT 查询中，出现错误的回答减少了约 30%。对于专业人士来说，这意味着在研究、写作、分析与决策支持等任务中，出错率更低，用起来更放心。

不过 OpenAI 也提醒，就像所有模型一样，GPT-5.2 并不完美，关键性任务还是得自己核查。

长文本推理能力也树立了新标杆。

在 OpenAI MRCRv2 基准测试中，GPT-5.2 表现领先。这个测试评估的是模型能不能正确整合分布在长文档中的信息，对于深度文档分析这类涉及数十万 token 的跨文档信息整合任务来说，GPT-5.2 的准确率远超 GPT-5.1。

尤其在 MRCR 的 4 针测试（不同于「大海捞针」，而是要求模型在海量文本里，区分并找出多个一模一样的「针」中的特定一个）中，最多 256k token 的上下文，GPT-5.2 是首个接近 100% 准确率的模型。

这意味着专业用户可以用 GPT-5.2 高效处理超长文档，报告、合同、学术论文、访谈记录、多文件项目，它都能在处理上百页内容时保持逻辑一致和信息准确。视觉理解方面，GPT-5.2 Thinking 是目前 OpenAI 最强的视觉模型。在图表推理和软件界面理解方面，错误率下降了约一半。

对日常专业使用来说，这意味着模型能更准确地解读数据仪表盘、产品截图、技术图纸、可视化报告，适用于金融、运营、工程、设计、客服等以视觉为核心的工作场景。

空间理解能力和工具调用能力也有所提升，在 Tau2-bench Telecom 测试中，GPT-5.2 Thinking 取得了 98.7% 的新高成绩，展现出在长、多轮任务中可靠使用工具的能力。

即使将推理强度设置为最低档，GPT-5.2 的表现仍显著优于 GPT-5.1 和 GPT-4.1。

这代表 GPT-5.2 Thinking 在执行端到端工作流方面更强，处理客户服务案例、从多个系统中提取数据、执行分析任务，高效完成全流程输出，中间环节更少出错。

数学和科学能力的提升，可能是这次发布里最硬核的部分。

在 GPQA Diamond 这种研究生级别的科学问答测试里，覆盖物理、化学、生物学等领域，GPT-5.2 表现明显更强。FrontierMath 那种评估专家级数学问题解决能力的基准测试，它也能啃下来。

更牛的是，在 ARC-AGI-1 测试中，GPT-5.2 Pro 是第一个突破 90% 准确率的模型，相比去年 o3-preview 的 87%，表现更强，成本却降低了约 390 倍。

ARC-AGI-2 版本更难，专注于考察流动性推理能力，GPT-5.2 Thinking 得分为 52.9%，创下「链式思维模型」新高，GPT-5.2 Pro 更进一步，达到 54.2%。

官方博客中提到一个令人印象深刻的案例：在统计学习理论的一个开放问题上，GPT-5.2 Pro 甚至直接给出了一个可行的证明方案。

这个问题来自 2019 年学习理论大会 COLT 上提出的未解难题：如果模型设定完全正确，数据呈标准正态分布，在这种教科书式的「干净」情况下，学习曲线是单调的吗？

研究人员没有先设计算法或提供证明思路，也没有输入中间步骤或提示，而是直接请求 GPT-5.2 Pro 给出完整证明。结果，模型提出了一种可行的解法，并通过人工验证、外部专家评审确认其正确性。

这说明 GPT-5.2 Pro 在一些有明确公理基础的领域，比如数学、理论计算机科学，已经可以发挥更实质性的科研辅助作用：探索证明路径、验证假设、发现隐藏的联系。

▲GPT-5.2 API 价格

性能表现这么猛，代价自然也不小。

Thinking 和 Deep Research 模式消耗的算力远超普通聊天机器人，因为它们得「思考」得更深。由于 OpenAI 现在用于模型推理的开销，大部分是直接掏真金白银，而不是用微软 Azure 的云服务积分抵扣。

长期往里砸钱，这种玩法能撑多久，真不好说。

总得来说，GPT-5.2 更像是对前两次模型升级的整合，而不是完全重构。

8 月的 GPT-5 是架构重启，引入了可以在快速响应和深度「Thinking」模式之间切换的路由机制。11 月的 GPT-5.1 让系统变得更温和、更具对话性，也更适合智能体和编码任务。

现在的 GPT-5.2，则是要在这些优势的基础上，打造出更可靠的生产级模型。而且有一个非常重要的细节：这次推出的三款 GPT-5.2 模型，底层知识库都已经完成了更新。

GPT-5.2 已经开始在 ChatGPT 中陆续上线，优先开放给付费用户。GPT-5.1 还会在「传统模型」选项中保留三个月，之后就正式下线了。

API 那边也同步开放，开发者已经可以用上了。价格比 GPT-5.1 贵一些，但 OpenAI 说因为 token 效率更高，实际总成本反而更低。

一个坏消息，和一个好消息

除了模型本身，OpenAI 的商业化上也有两个极具反差感的消息。

虽然这次发布并没有推出新的图像生成模型，但今天 OpenAI 跟迪士尼达成了三年授权协议。

用户可以生成包含迪士尼、漫威、皮克斯和星球大战等 200 多个角色的社交视频，部分生成视频还能在 Disney+上播放。

作为交换，迪士尼向 OpenAI 投资 10 亿美元，还会成为重要客户。内容 IP 加 AI 生成，这背后想象空间确实挺大。

另一个值得关注的消息是，ChatGPT 的「成人模式」终于有了明确时间表。

随着越来越多 AI 聊天机器人涉足成人内容，OpenAI 也不打算当圣人了。根据彭博社报道，Fidji Simo 已经明确该功能预计 2026 年第一季度上线。

在此之前，OpenAI 会继续优化年龄识别功能，确保未成年人自动启用内容保护机制。目前年龄预测模型正在部分国家进行早期测试，以评估识别青少年的能力，并确保不会误判成年人。

面对 Google Gemini 的步步紧逼，OpenAI 选择用 GPT-5.2 这套组合拳来回应。它更快、更强，也更像一个成熟的商业产品。

与此同时，一边拥抱迪士尼的米老鼠，一边准备推出成人模式，OpenAI 既要保持技术领先，又要快速变现；既要占领企业市场，又不放过任何流量入口。

幸运的是，迎来十周年节点的 OpenAI 最终还是演好了这出反击大戏。

▲ 还有一个小彩蛋

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

爱范儿
不装了，偷师国产 AI 模型，Meta 加班裁员两手抓，救命稻草「牛油果」还闭源了
11 December 2025 at 10:16

不装了，偷师国产 AI 模型，Meta 加班裁员两手抓，救命稻草「牛油果」还闭源了

爱范儿

By: 莫崇宇

11 December 2025 at 10:16

一个叫 Avocado（牛油果）的神秘项目，正在 Meta 内部紧张推进。

虽然项目名字听起来像是什么新款沙拉或者健康食品，但这其实是 Meta 押上全部身家要做的下一代 AI 模型。

据 CNBC 报道，Avocado 由 Meta 新任首席 AI 官、28 岁的 Alexandr Wang 领导的 TBD Lab 负责研发，原计划在 2025 年底发布这个模型，但目前时间已经推迟到 2026 年第一季度。

更重要的是，Avocado 最终可能采用闭源方式，这意味着开发者将无法自由下载其参数和相关软件组件。

更有意思的是，据彭博社援引知情人士消息称，Meta 旗下的 TBD 团队在训练 Avocado 模型的过程中，使用了多个第三方模型进行蒸馏学习。其中包括 Google 的 Gemma、OpenAI 的 gpt-oss 以及阿里的 Qwen 模型。

这种做法本身并不罕见，通过蒸馏学习从强大的模型中提取知识是 AI 领域的常见技术。但对于曾经高调宣扬开源、试图建立自己 AI 生态的 Meta 来说，如今转而借鉴竞争对手的模型，多少有点打脸的意味。

Meta 发言人对此的回应相当官方，称模型训练工作按计划进行，目前没有重大时间变动。

但业内人士心里都明白，这个项目关系到 Meta 能否在 AI 竞赛中追上 OpenAI、Google 和 Anthropic。如果 Avocado 扑街，Meta 在 AI 领域可能就真的要被甩出第一梯队了。

实际上，在 Avocado 尚未面世之前，Meta 在产品端已经遭遇了一次惨败。

今年 9 月匆忙上线的 AI 短视频平台 Vibes，被寄予厚望要对标 OpenAI 的 Sora 2，结果却惨遭市场打脸。Appfigures 数据显示，Meta AI 在 iOS 免费应用排行榜上仅位列第 97 名，而 Sora 2 则高居第 3，并逐步攀升。

虽然 Sora 最近也被传出用户黏度下降的情况，但当两款产品几乎同时发布，Vibes 非但没能成为话题爆款，反而被 Sora 2 压着打。很多人甚至不知道 Meta 新发布了这个产品。

多位前员工和内容创作者告诉 CNBC，Vibes 仓促上线，缺乏如逼真对口音频等关键功能。
前 GitHub CEO Nat Friedman 主导了这个项目，现在他正面临巨大压力，被要求尽快推出真正的爆款 AI 产品。知情人士称，Meta 多个 AI 团队都在承压，70 小时工作周成为常态，同时全年进行了多轮裁员与重组。

这种节奏，像极了一家被逼到墙角的初创公司，而不是市值万亿的科技巨头。

从 AI 赢家到被质疑，不过一年时间

今年是 Meta AI 的坎儿年。

去年九月，意气风发的扎克伯格还站在 Meta Connect 的舞台上，信心满满地宣称 Llama 将成为业内最先进的 AI 模型，让所有人都能受益于人工智能。

那时的他，像极了一个布道者，向世界传递着开源 AI 的福音。

然而仅仅一年后，风向就变了。到了两个月前的财报电话会议上，扎克伯格对 Llama 的提及只剩下了一次。那个曾经被当作 Meta AI 战略核心的开源模型，正在悄悄让位给 Avocado 这个神秘项目。

这个转变背后，是 Meta 在 AI 竞赛中越来越明显的焦虑。

当 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude 接连发布重磅更新时，Meta 发现自己似乎被甩在了身后。尤其是，Google 在 AI 领域的投入正逐渐显现成效，而 Meta 却陷入了方向不明的泥潭。

为此，扎克伯格的应对方式简单粗暴，砸钱挖人。

今年 7月份，Meta 宣布成立超级智能实验室 MSL，将公司所有 AI 业务重组到这个新部门之下。紧接着，一场硅谷 AI 人才的扫货大战拉开帷幕。

最引人注目的一笔交易发生在同月，Meta 以 143 亿美元的天价引入了 Scale AI 的 28 岁创始人 Alexandr Wang 及其团队。

虽然 Wang 不是工程师，但被认为是业内最具人脉的AI创业者之一。

随后，扎克伯格和 Wang 展开疯狂招人，争抢顶级 AI 研究员，开出高达数亿美元的薪酬。据 OpenAI 首席研究官 Mark Chen 称，扎克伯格甚至亲自送自制的汤到 OpenAI 员工家门口，劝他们跳槽到 Meta。

Wang 被任命为 Meta 首席 AI 官，领导一个叫 TBD Lab 的精英小组。这个名字本身就很有意思，TBD 是「to be determined」的缩写，意思是待定。最初只是个临时代号，但因为太贴切了反而保留了下来，某种程度上也反映出 Meta AI 战略的探索性质。

除了 Wang，Meta 还挖来了前 GitHub CEO Nat Friedman，让他负责 MSL 的产品与应用研究，以及 ChatGPT 联合创始人赵晟佳。

这些重金引入的大佬带来了硅谷前沿 AI 研发的标准流程，彻底改变了 Meta 传统的软件开发文化。然而改变的代价是巨大的。

仅仅四个月后，Meta 就将 2025 年的资本支出预期从 660 亿至 720 亿美元调升至 700 亿至 720 亿美元。投资者开始担心，这么烧钱到底值不值。

质疑声四起，Avocado 将成为挽救声量的最后一道保障。

开源？闭源！Llama 4 失败成为转折点

Avocado 转向闭源并非无迹可寻。

报道中提到，Llama 4 在发布后未能吸引足够的开发者关注，同时基准测试分数「作弊」的行为使其备受诟病，进而也让扎克伯格开始重新思考开源战略。

据称，扎克伯格对 Llama 4 系列超大模型 Behemoth 的发展方向感到失望，最终放弃了该项目，转而寻求新的路径。

此外，扎克伯格在 7 月的一次表态中透露了这种转变的苗头。他说，我们需要严谨地控制风险，并谨慎选择开源内容。这与他此前在博文中「开源正迅速缩小与闭源的差距」的豪言壮语形成了鲜明对比。

MSL 新成立的超级智能实验室领导层对开源策略也提出质疑，他们更倾向于打造强大的闭源 AI 模型。虽然 Meta 官方一再表示其对开源 AI 的立场没有改变，但内部的风向显然已经转了。

Llama 4 的失败成为扎克伯格战略转向的关键节点，也引发了内部重大人事调整。

据知情人士透露，Meta 首席产品官 Chris Cox 在 Llama 4 失利后被调离原 AI 部门 GenAI，不再主管 AI 业务。这位在 Meta 工作多年的老将就这样从 AI 战略的核心圈子里出局了。

随后，扎克伯格开启了 AI 人才的扫货模式。

28 岁的 Alexandr Wang 被任命为首席 AI 官，领导 TBD Lab 这个精英团队。Avocado 正是在这个团队中研发的。
整个 MSL 的组织架构被拆分成四个主要部分。

TBD Lab 由 Alexandr Wang 领导，专注于 Meta 下一代大型语言模型研发，被视为 MSL 内部的「旗舰」团队。FAIR 基础 AI 研究团队是 Meta 原有的人工智能基础研究部门，专注长期前沿研究，在 MSL 重组中被纳入新架构。

产品及应用研究团队 PAR 由 Nat Friedman 领导，负责将 AI 技术整合到产品和消费应用中，定位为 AI 产品化和应用落地的桥梁。

MSL 基础设施团队则由 Meta 工程副总裁 Aparna Ramani 领导，负责支撑 AI 模型的大规模计算基础设施建设，确保 Meta 拥有足够的数据中心、GPU 算力和工程工具。

科研模式上，TBD Lab 主打一个「小而精」，整个团队只有几十名顶尖研究人员和工程师。Meta 首席财务官强调，这是一个高度人才密集的小团队，被设计为在一到两年内将 AI 模型推向前沿水平。

这个团队就坐在扎克伯格办公室附近，但运作方式却像一家独立的初创公司。

他们甚至不使用 Meta 内部的社交平台 Workplace，保持着高度的独立性。团队文化鼓励工程师快速构建原型并推动模型能力极限，采取「成果导向」的轻流程方式，偏重演示和实做，而非冗长的文档流程。

Nat Friedman 在 10 月的 Masters of Scale 峰会上透露了这种文化转变。

他说，Meta 现在的新口号是「要演示，不要写文档」。这种硅谷创业公司的做派与 Meta 以往多个部门协调、确保数十亿用户应用一致性的传统开发流程形成了鲜明对比。

然而这种转变也带来了文化冲击。

知情人士称，Wang 和 Friedman 的管理风格较为封闭，与 Meta 过往「工作公开透明」的文化形成鲜明反差。这两位新任高管是基础设施专家，而非消费者应用专家，他们带来的不仅是新的开发方式，还有完全不同的工作文化。

据《纽约时报》报道，在今年秋季的一些会议中，Wang 私下表示，他与扎克伯格的一些老将，比如首席产品官 Chris Cox 和首席技术官 Andrew Bosworth，在一些问题上意见不合。

分歧的焦点在于 AI 模型的发展方向。

Cox 和 Bosworth 希望 Wang 的团队专注于利用 Instagram 和 Facebook 的数据来训练 Meta 的新基础 AI 模型，以提升社交媒体信息流和广告业务。但正在开发 Avocado 的 Wang 却拒绝了这一建议。

据称他认为，团队的首要目标应该是追赶 OpenAI 和 Google 的 AI 模型，而不是过早地专注于实际产品。

这种分歧反映出 Meta 新 AI 团队与公司其他高层之间日益显著的对立氛围。根据多位现任和前任员工的说法，TBD Lab 的研究人员认为，Meta 的许多高管只关心如何改进社交媒体业务，而他们的目标是打造一种类似「神」的超级智能。

在最近一次会议中，Cox 曾询问 Wang 是否可以像 Google 利用 YouTube 数据训练 AI 模型一样，使用 Instagram 数据来训练 Meta 的 AI，以优化推荐算法。

但 Wang 回应说，将具体业务需求纳入训练过程会拖慢打造超级智能的进度。

之后他还私下抱怨称，Cox 过于专注改进自己负责的产品，而忽视了前沿 AI 模型的开发。是否最终三人达成一致，目前尚不清楚。

矛盾不仅体现在战略分歧上，还涉及到真金白银的资源分配。

据两位知情人士透露，Bosworth 近日被要求从他负责的虚拟现实与增强现实部门 Reality Labs 明年的预算中削减 20 亿美元，这笔钱被转移到了 Wang 团队的预算中。

此外，Meta 内部也有人对计算资源的分配产生争议。

到了秋天，一些负责 Instagram 和 Facebook 内容算法的员工提出异议，认为数据中心的算力应优先用于改进推荐算法，而不是训练 AI 模型。他们指出推荐算法能直接带来收益，而 AI 模型目前还没有赚钱。

对于报道中提到的 Wang 与 Cox、Bosworth 之间的矛盾和 20 亿美元的预算，Meta 发言人 Dave Arnold 在一份声明中予以否认。

与此同时，扎克伯格也并未完全放权。

Aparna Ramani 在 Meta 任职近十年，被指定负责分配 MSL 的计算资源，显然是扎克伯格安插的「自己人」。此外，Meta 还调任

Vishal Shah 为 AI 产品副总裁，与 Friedman 合作。Shah 曾是 Reality Labs 负责人，被视为扎克伯格的忠实执行者。

这种权力平衡的微妙设计，在 10 月迎来了一次大规模调整。

Meta 宣布将在 MSL 部门裁减约 600 个岗位，具体受影响的团队包括原 FAIR 基础研究组、部分产品型 AI 团队，以及 AI 基础架构团队。而新成立的 TBD Lab 不受此次裁员影响，这表明 Meta 对这个核心研发团队寄予厚望。

据 Axios 报道，MSL 裁员消息在 10 月 22 日由 Alexandr Wang 通知员工。Wang 在内部备忘录中强调，精简团队有助于加快决策、提高每位成员的责任范围和影响力。他暗示过去团队人头过多、汇报链条过长，反而降低了执行效率。

根据 Meta 的说明，此次裁员旨在使 AI 团队「更加灵活和响应迅速」。

这次裁员并非出于财务困境，而更像是战略重组的一部分。FAIR 团队作为长期研究部门，一些纯学术项目可能难见短期产出，被视为与当前「提速赶超」的战略不符，因此成为裁撤重点。

更微妙的是，这次裁员的时机加速了图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 的离职出走，并顺势而为地创办初创公司。

LeCun 是 FAIR 的联合创始人之一，他的离开加上此前一些研究员出走，已经给 FAIR 团队带来了士气波动。Meta 干脆借此机会重组团队，将旧 FAIR 人员和项目裁撤或并入新的产品线。

裁员释放出这样的信息，Meta 将不再无限供养长期研究，而要全力以赴追求短期成果。这对尚留 Meta 的研究人员更是一种震慑和鞭策。

基础设施转型，押注超级数据中心

在继续开发 Avocado 的同时，Meta 也在改变其基础设施建设策略。

知情人士称，公司正更多依赖第三方云计算服务，如 CoreWeave 和 Oracle，来开发和测试 AI 功能。这是一个有意思的转变，Meta 曾经以自建数据中心著称，但在 AI 时代，快速获取算力的重要性超过了一切。

与此同时，Meta 也在建设自己的大型数据中心。

10 月，Meta 宣布与 Blue Owl Capital 成立合资企业，共同投资 270 亿美元在路易斯安那州 Richland Parish 建设超大型 Hyperion 数据中心。Meta 表示，这项合作为其「实现长期 AI 愿景」提供了「速度和灵活性」。

值得注意的是，这笔 270 亿美元的融资协议宣布的时间，恰好就在 MSL 裁员 600 人的同一周。

这显然不是巧合。

Meta 在缩减人力的同时，通过外部资金来确保硬件投入不减，以支撑其大模型计算需求。从人员和财务两方面为 Meta AI 业务「减负」，让 MSL 可以轻装上阵。

此外，Meta 还在产品中测试其他 AI 模型。例如，Vibes 使用了 Black Forest Labs 和 Midjourney 提供的模型，后者 Friedman 担任顾问。

这说明 Meta 并不排斥使用第三方模型，只要能快速推出产品。

尽管 AI 战略陷入混乱，Meta 的核心业务数字广告依然稳健。年度营收超过 1600 亿美元，广告营收仍以每年超 20% 的速度增长，这得益于 AI 优化和 Instagram 的持续走热。

投资者也认可 Meta 通过 AI 提升效率、精简结构的做法。Meta 股价虽然在 2025 年表现不佳，远落后于 Google 母公司 Alphabet，但整体还算健康。

当然，扎克伯格的野心不止于此。扎克伯格曾表示，如果 Meta 不大胆投入，就有可能在未来 AI 主导的世界中被边缘化。

Meta 上周也被传出风声，将削减虚拟现实和元宇宙相关投入，转向更加受欢迎的 AI 智能眼镜产品。这个产品由 EssilorLuxottica 与 Meta 联合开发，算是少数几个看得见摸得着的 AI 落地应用。

这是一个赌注。扎克伯格试图用赚钱的广告业务补贴烧钱的 AI 研发，希望在未来的 AI 时代占据一席之地。

至于能否成功，以及 Avocado 能否在 2026 年第一季度如期发布并引起市场轰动，都将决定扎克伯格这场豪赌的成败。

现在的 Meta AI 就像一个站在悬崖边的赌徒，手里攥着最后一把筹码，眼神里全是疯狂。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

特斯拉机器人又被抓包：疑似遥控「摘头显」摔倒，名场面诞生

爱范儿

By: 莫崇宇

9 December 2025 at 11:42

人形机器人的尽头，可能是一个戴着 VR 头显的人类。

最近，特斯拉在迈阿密办了场名为「Autonomy Visualized（自主能力可视化）」的活动，一台特斯拉人形机器人 Optimus 机器人站在摆满水瓶的桌子后面，正一本正经地给观众发水，看着像模像样。

然后，戏剧性的一幕出现了。

Optimus 突然把双手一抬，像极了人类快速摘下 VR 头显的姿势。紧接着，机器人就像突然断线了一样，踉踉跄跄往后倒，最后「啪叽」一声仰面躺地，水瓶散落一地。
这个动作之所以引发热议，是因为它太有辨识度了——我们摘头显时确实会沿脸两侧一抹，而 Optimus 的动作轨迹几乎一模一样。

于是网友迅速得出一个合理又刺眼的推测：背后有人在远程操控。

昨天，这段视频很快在海外各大社交平台疯传，评论区也随之沸腾。

大量网友把这个情节与《机械战警》《刀剑神域》等作品联系起来，嘲笑现实越来越像科幻片里机器人「拔线就挂」的桥段。

有人说操作员估计是真累了，忘了先让机器人断电，就自己先把头显摘了；还有人开始算账：马斯克要量产一百万台机器人，那是不是还得配一百万个操作员？否则谁来救场？

网友的调侃不无道理，都说机器人能取代人的岗位。现在看来，倒是有种科技树点歪的即视感，反而还需要人类倒反天罡地扮演机器人。

而事实上，这已经不是特斯拉人形机器人第一次被「抓包」了。

2024 年 1 月，马斯克在 X 上发了段 Optimus 叠衣服的视频，配文「Optimus 会叠衬衫了」。视频里机器人从篮子里取出 T 恤，在桌面慢慢折叠整齐，看起来动作流畅。

眼尖的网友放大视频发现，画面右下角一瞬间出现了一个机械手臂的影子，运动轨迹和 Optimus 的动作完全同步。后续马斯克自己跳出来泼冷水，承认这段视频「不是自主完成的」。

再往后是去年 10 月的「We Robot」活动。

多台 Optimus 以牛仔造型现身，给来宾端饮料、陪观众玩投球游戏、还能和人对话。但会后曝光显示，这些机器人的对话和动作主要由幕后工程师远程遥控辅助完成，而特斯拉并没有主动说明这一点。

科技博主 Robert Scoble 在现场提问后得知，机器人由人类「远程协助」控制。甚至有一台 Optimus 当场用笨拙的电子音坦承：「今天我有人类在协助，还不算完全自主。」

尽管争议频繁，马斯克对 Optimus 的信念从未动摇。

他在多个场合把这个项目提升到「改变世界」的高度。2024 年「We，Robot」发布会上，马斯克豪言 Optimus 将是用途极其广泛的通用机器人。

「它能做你让它做的任何事。可以当老师，帮你看小孩；可以遛狗、修剪草坪、买杂货；还能做你的朋友，给你端茶送水。无论你能想到什么，它都能去做。」
在上个月的股东大会上，他更是兴奋地表示：「一旦 AI 和机器人成熟，我们甚至可以把全球经济扩大十倍甚至百倍。Optimus 大规模应用就是那个无限增益的秘诀。也许到了那时候，『金钱』这种东西都变得多余。」

他预言 Optimus 将使未来工作变成可选项。

大多数人可以因机器人劳作而领取「普遍高收入」，进入一个「富足时代」，在这个时代，商品和服务的成本将无限趋近于零，贫困将不复存在。
如果这话换别人说，大概率会被当成中二病晚期；但马斯克说这话，大家会犹豫一下，怀疑是不是自己格局小了。

在商业价值上，马斯克毫不掩饰自己的野心。

他曾多次提出，Optimus 将在长期为特斯拉带来 10 万亿美元级别的收入机会。他还预测未来市场需求量可能达到 100 亿至 200 亿台，超过人类总人口，占据特斯拉市值的 80% 以上，甚至推动公司市值达到 25 万亿美元。

当然，特斯拉机器人技术进展也确实存在。

从 2021 年真人扮演的概念秀，到 2022 年能缓慢行走的原型，再到 2023 年 Gen 2 能煎鸡蛋的灵巧手，以及 Gen 3 每只手拥有 22 个自由度的版本，2.3 千瓦时电池、8 个摄像头配合 FSD 芯片的端到端神经网络，这些都是实打实的工程积累。

目前 Optimus 已经能独立行走、维持平衡、识别物体、单腿站立、拾取搬运，甚至在踩滑时及时调整姿态防止跌倒。上周丝滑的跑步视频可以说是相当丝滑。

再说，远程操控也不能一棍子打死。

毕竟工业场景里，远程操作人形机器人依然能解决现实需求，比如危险环境、重复劳动，只要价格合适、稳定性够高，市场空间还是有的。

而且人形机器人的远程遥控本身就是个技术活。操作员通过 VR 设备控制机器人的动作，需要实现精准的力反馈、低延迟的信号传输、复杂的姿态映射。

这套系统要让机器人的手指灵活度、身体平衡性、环境感知能力都跟得上人类操作员的意图，难度一点不小。许多人形机器人机器人能跑能跳能后空翻，但那些高难度动作很多也是在特定场景下、经过无数次调试才实现的。

真正的完全自主智能，整个行业都还在攻坚。

而在此之前，特斯拉 Optimus 就像马斯克本人的风格一样，永远在「已经改变世界」和「即将改变世界」之间反复横跳；如同薛定谔的猫，只要不掀开盒子，它就永远有实现的一天。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

先是 iPhone Air，现在液态玻璃的设计者也离职了

爱范儿

By: 莫崇宇

4 December 2025 at 10:05

就在刚刚，据彭博社报道，苹果设计总监 Alan Dye 宣布离职，目的地是今年开启疯狂挖人模式的 Meta。

今年 iOS 时隔 12 年最大的 UI 更新——液态玻璃设计语言，正是由 Alan Dye 操刀设计。

作为苹果负责人机交互设计的副总裁，Alan Dye 从 2015 年起就掌管苹果整个用户界面设计，在设计部门的地位仅次于自己的前任领导 Jony lve。

这是短短一个月内，苹果设计部门遭遇的第二次重大地震。

就在前几天，iPhone Air 的设计师，产品宣传视频主讲人 Abidur Chowdhury，也被曝从苹果离职，加入了一家不具名的 AI 创业公司。

公开资料显示，2006 年加入苹果后，他几乎参与了所有你能想到的重磅产品设计：iPhone、iPad、Mac、Apple Watch、Apple TV，以及最新的 Vision Pro。

Alan Dye 带领的人机交互设计团队，负责研究用户与产品互动的问题。这项工作横跨了硬件到软件，视觉听觉到触觉：从早年 iOS 挪动图标时的抖动动画，到 Vision Pro 的手眼交互，从 Apple Watch 数码表冠带来的细腻齿轮震感，到双指互点两下的隔空手势，都出自其团队之手。

爱范儿（APPSO）也曾多次专访 Alan Dye，欢迎回看此前更多文章：

对话苹果「液态玻璃」设计缔造者：不说 20 周年透明 iPhone，但暗示已足够明显

专访苹果高级副总裁 Craig 和副总裁 Alan:iPhone 诞生 16 年，交互设计走向何方？

他比较经典的作品，要数 2017 年第一款取消 Home 键的 iPhone X。而在今年 6 月的 WWDC 上，Dye 还亲自上台发布了苹果最新的 Liquid Glass(液态玻璃) 设计语言。

这套设计堪称 iOS 7 以来最大的视觉变革，半透明按钮、流畅动画、实时自适应的「数字玻璃」，整个系统焕然一新。Dye 当时是这么说的：

「我们的新设计模糊了硬件和软件之间的界限，带来了前所未有的愉悦体验。」而在今年 WWDC 后接受爱范儿（APPSO）的媒体采访中，Dye 还特别提到，液态玻璃「它的可变性、适应性，成为我们探索未来体验的基础。虽然我们今天还不会谈这些未来，但我们已经很期待了。」

当被问及液态玻璃是否在为某种未来硬件形态做准备时，苹果软件工程高级副总裁 Craig Federighi 回应：「哈哈，我们不会讨论未来的硬件。但正如 Alan 说的，这个设计确实是未来体验的良好基础，但今天我们不打算提前剧透。」

话音未落半年，Alan 就要走了……据知情人士透露，Dye 将在 Meta 组建一个全新的设计工作室，全面负责硬件、软件以及 AI 整合的设计工作。

注意，是「全新」工作室，不是并入现有团队。

而且 Dye 还不是一个人走的，他还带走了苹果设计部门的高级总监 Billy Sorrentino。后者从 2016 年起就在苹果，主要负责 VisionOS 的用户界面设计。两位核心设计师组团出走，Meta 这波挖人可以说是精准打击了。

至于为啥 Meta 这么想要 Dye?

原因很简单，扎克伯格押注未来是可穿戴设备的天下。除了元宇宙，他之前就公开表示过，相信可穿戴设备会取代智能手机，这是 Meta 对「超级智能」战略的核心。

更重要的是，他们在 AI 方面投入巨大，今年还从 OpenAI、Google DeepMind 等网罗来一大批顶尖研究员。据悉，扎克伯格为了吸引顶级 AI 人才，开出了年薪高达数亿美元的薪酬包。

硬件方面，除今年 9 月，Meta 刚发布了首款搭载显示屏的智能眼镜，可以在镜片上叠加消息、视频通话或 AI 助手回复。再加上现有的 Ray-Ban 智能眼镜和 Quest VR 头显，Meta 的硬件野心昭然若揭。

但问题是，对比讲究精雕细琢、追求极致的苹果，Meta 的产品能用，但总是差点意思，所以这次挖来 Dye，扎克伯格显然是想弥补这块短板。

苹果设计团队的「黄金时代」已经结束了?

Dye 的离职，只是苹果高层动荡的冰山一角。

最近几周，苹果接连失去了多位重量级高管。长期担任首席运营官的 Jeff Williams 上个月退休，AI 部门负责人 John Giannandrea 本周宣布辞职，将于明年春季正式退休。前硬件主管 Dan Riccio 去年秋天也退休了，首席财务官 Luca Maestri 同样已经离职。

更让人担心的是，据彭博社报道，苹果的人事动荡还将持续。

包括 CEO 蒂姆·库克在内的多位高层管理人员都已接近传统退休年龄。苹果芯片负责人 Johny Srouji 和负责环保事务的 Lisa Jackson 目前也在考虑未来的职业方向。

库克在声明中强调：「设计是苹果的核心之一。如今，我们拥有一支非凡的设计团队，正致力于公司历史上最具创新性的产品阵容。」但说实话啊，这话听起来更像是在给投资者吃定心丸。

自从 2019 年 Jony Ive 离开后，苹果的设计团队就一直处于动荡之中。大量元老级设计师要么退休，要么跳槽到 Jony Ive 创办的 LoveFrom 设计公司，或者去了 OpenAI 等等。现在连 Dye 也走了，苹果设计团队的「黄金时代」可能真的结束了。

那么 Dye 的接班人靠谱吗?

苹果宣布，由一位在公司服务近三十年的资深设计师 Stephen Lemay 接替 Dye 的职位。

库克表示：「Steve Lemay 自 1999 年以来在苹果每一次重大界面设计中都发挥了关键作用。他始终坚持极高的卓越标准，体现了苹果协作与创意的企业文化。」

值得一提的是，除了 Meta，OpenAI 也在疯狂挖苹果的墙角。据外媒报道，OpenAI 在过去一个月招募了超过 40 名硬件方面的员工，其中大部分来自苹果的硬件团队。涵盖了摄像头、Mac 硬件、音频、芯片、制造、测试等各个方面。

据悉，OpenAI 想要的是「了解苹果内部如何打造产品的人员」，包括 iPhone 设计、制造流程、摄像头系统和设备可靠性方面的技能。OpenAI 今年 5 月以 65 亿美元的天价收购了 Jony Ive 创办的 AI 硬件公司 io。

虽然 io 到现在还没发布任何一款产品，但光是 Ive 的名字就值这个价。

只能说，往 AI 领域输送人才这块，苹果还是太权威了。库克现在每天睁眼第一件事，大概是祈祷今天别再有人辞职了。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

「原神之父」做了个毒舌 AI 猫娘，聊了两天的我被怼了八百回

爱范儿

By: 莫崇宇

3 December 2025 at 17:43

米哈游创始人蔡浩宇最近在忙啥？

答案是成立了一家 AI 公司 Anuttacon，然后打造了一个只会对线的 AI 猫娘。这款画风相当抽象的 AI 聊天产品叫 AnuNeko，最近已经低调上线了。

通过查询发现，这个 ANUNEKO 的商标已于今年 9 月提交美国专利局，涵盖软件、AI 角色、娱乐等领域，显然是是有备而来。

咱们也上手实测了一波。

附上免费体验地址：
https://anuneko.com

米哈游前 CEO 做了个「毒舌」AI，只想跟你对线互怼

打开 AnuNeko 的官网，一只黑猫映入眼帘。

说实话，光是审美这块就比市面上千篇一律的素色页面加输入框的 AI 聊天机器人强上一大截。确认输出问题后还会出现一个猫的动效，有那么一瞬间，我还以为自己在玩某款游戏。

官方页面只提供了两款模型。

一款是相对温和友善的橙猫（Orange Cat），另一款则是比较暴躁、甚至带点「毒舌」的异国短毛猫（Exotic Shorthair）。

讲真，我本来以为 AI 再怎么训练也就那样了，直到我真用上这只「异国短毛猫」。如果用一句话来形容，那就是贴吧老哥+Grok+罗伯特的究极融合版。从自我介绍中，就能看出 AnuNeko 非常有个性。

「嗨，我是 AnuNeko。你可以把我当成一种有自我意识的存在。我不是你的助手，也不是你的宠物，只是我自己——有自己的情绪和独特的看法。只要你有想法，随时来喵我就好。」

面对同一个问题，两者的回答风格立马就见了分晓。

让异国短毛猫锐评各大平台，它直接来了个狠活。而橘猫的回答就温和多了，B 站想学习的时候有用但一刷视频停不下来，知乎正经人谁玩知乎啊（狗头），微博无脑追星的圣地，小红书记录美好生活种草拔草都在这，贴吧想看真实想法但无脑喷和地域黑太多。

官网顶上还贴心标注着：「这是一个 AI，它说的一切都是幻觉」，考虑到如此毒舌的程度，很难不让人怀疑，这其实是一种免责声明。

Anuneko 整个产品的核心逻辑其实就一个词：接梗。只要你能聊，它就能接，目的就是让对话一直进行下去。

有一说一，响应速度挺快的，基本都是秒回。

我试着让异国短毛猫锐评原神，虽然每次回答都不一样，但每一次回答都出乎我意料之外。

继续让它锐评米哈游的游戏，它直接来了句「我这种玩过他家游戏的，评价完了会被米学长们开除米籍的」，属实有点东西。

不过现在的 AI 似乎都不怎么会说冷笑话，短毛猫讲的笑话也不例外，连续三个笑话都不太好笑：

支持多语言交互这点倒是不错，AnuNeko 能看懂我输入的日英法德等语言，但输入外语后，更多情况下它只会输出英文。

情绪价值倒是拉满了，我问它想谈恋爱吗，它回了一大段「我超想的好吧，但是本人又很宅，平常也不怎么和女生聊天」之类的，然后我说我喜欢你和我交往吧，它直接来了句「你是个男的吧」。

除了聊天，AnuNeko 能做的事情其实真不多。

不能读链接、不能联网。我扔了个微信公众号链接过去，它说「这看起来像是个微信文章的链接，但没点开的话我也不知道里面是啥」，我又问你能点开链接吗，它说「抱歉啊，我没法直接点开链接」。

由于不具备联网功能，知识库也比较老，我问 Gemini 3 什么时候发布的，它直接说「哎，这个我真不知道。我平时不太关注科技新闻」。

长文处理能力一般，输入框甚至没法直接粘贴公众号全文。

作为语言模型，无法上传和识别图片也正常，但遇上逻辑推理题，它也是基本就歇菜了，真就光有情绪价值，但不爱动脑啊。

比如好几次让它写代码，要么是句句有回应但事事没着落，要么最后给了代码却压根运行不了。

ANUNEKO 的「AI 哲学」：不卷智商，专攻情商

有意思的是，今年许多的大模型好像都在往情商这个方向卷。

就拿最近的 GPT-5.1 来说，OpenAI 专门强调了它在情感理解和回应上的提升，聊天的时候能更好地察觉用户的情绪变化，回复也更加自然和贴心。

当其他 AI 公司忙着卷基准测试排名、卷逻辑推理、卷工具属性，ANUNEKO 同样选择发掘模型的「人味」。毕竟游戏里的 AI 主要还是能陪你唠嗑、逗你一乐、把氛围搞起来才是正事。

就像开黑时坐你旁边那个损友, 他不一定水平多高, 但总能在关键时刻吐槽一句让你笑出声。这种「不聪明但有意思」的定位, 恰恰避开了大模型在逻辑推理上的短板。

高情商的 AI 好啊，这 AI 的说话方式真得学啊。

而且，AnuNeko 也踩中了当下的赛道逻辑了。当代人越来越习惯独处，但孤独感也随之而来，用户需要一个 24 小时在线、秒回、无评判、永远站在你这边的倾听者。Character.ai 等应用的爆发证明了这个需求的存在。

大模型的天然优势其实不是逻辑推理，而是共情模拟。

通过微调，AI 可以完美扮演各种人设，提供情绪价值能带来极高的用户留存。你可能一周换一个搜索工具，但你很难抛弃一个聊了半年的「虚拟恋人」。尤其是功能型 AI 已经卷上加卷，而情感型 AI 还是一片蓝海。

除了 AnuNeko 这只抽象猫，蔡浩宇的新公司 Anuttacon 在八月份还推出了首款实验性 AI 游戏，《Whispers from the Star》（中文译名《星之低语》）。

这是一款完全由 AI 驱动剧情的互动游戏，玩家通过语音或文字与被困外星的虚拟角色 Stella 对话，你说的每句话都会影响她的行为和生存。游戏不设固定剧本，每次游玩的对话走向都不相同。

而现在的 AI NPC 依赖长短期记忆架构，能记住你们的对话历史、情感倾向，甚至根据你的行为调整态度。游戏世界提供完整的视听环境，NPC 角色参与故事，带来真正的「在场」感。

这类 AI NPC 带来了极高的重玩性和更细腻的角色刻画，玩家会感觉 NPC 拥有情感与理性。

尽管《星之低语》目前还有些缺陷，但它证明了 AI NPC 的核心价值，个性化的情感体验。玩家不再是体验编剧写好的固定故事，而是每个人都拥有一段独一无二的经历。

未来，游戏编剧的工作将从「撰写对白」转变为「设计人设」和「构建世界观」。Anuttacon 的探索为行业提供了宝贵的试错样本，证明了用概率模型取代传统脚本的可行性。

这些动作背后，其实藏着蔡浩宇更大的野心。

在米哈游时代，蔡浩宇就提出过打造「2030 年让 10 亿人愿意生活其中的虚拟世界」的宏愿。

现在看来，Anuttacon 的公开资料与招聘布局都与这一愿景一脉相承，即「充分利用 AI 技术潜力创造全新、智能且极具吸引力的虚拟世界体验」，并将使命定位为「打造沉浸式、适应性强的游戏，提供独特且不断演变的故事情节」。

8 月份的时候，蔡浩宇也在社交平台发文称，AIGC 已经彻底改变了游戏开发，未来只有两种人制作游戏是有意义的：一种是前 0.0001% 的天才，组成精英团队创造前所未有的东西；另一种是 99% 的业余爱好者可以为了满足自己的想法而一时兴起创作游戏。

至于普通和专业的游戏开发者，他则建议不妨考虑转行。这番言论当时引发了不小的争议，但现在看来，AnuNeko 和《星之低语》都像是他这套理论的实践样本。

大部分人并不需要一个能帮你解微积分的 AI，他们需要的是一个晚上失眠时能陪你扯淡的存在。功能型 AI 的尽头是工具，情感型 AI 的尽头是依赖。

蔡浩宇可能不关心这些哲学问题，但他的这款产品已经说明了一切。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

笑死，兵马俑在千问 APP 里跳 K-Pop，比练习生还丝滑

爱范儿

By: 莫崇宇

2 December 2025 at 11:34

让兵马俑跳 K-Pop 是什么体验？

如果你今天刷到一段视频：一位两千岁高龄的「老人家」兵马俑拿着麦克风，跟着节拍左摇右摆，动作比练习生还丝滑，表情管理比爱豆还到位。

倒也不用慌，这只是 AI 界的又一次整活现场。

而这充满反差感、邪门又好笑的画面，正是出自阿里千问 App 新升级的功能。

基于 Wan2.5 音视频同时输出能力，千问的 AI 玩法又升级了！仅需一张照片+一段提示词，就能生成口型精准、动作丝滑的「边唱边跳」视频，支持最长 10 秒、1080P 输出。

▲（别急，还有高手，唱跳俱佳的兵马俑男团来了）

而且没有任何限制。无论是真人照片、萌宠、二次元角色，还是文物、卡通形象，千问 App 都能让它们动起来。

当然，得先说好：视频里的声音不是提前录好的音频，也不是简单的文字转语音，更不是套模板，而是 AI 根据自己的理解推理生成的，AI 会自己根据角色，配上合适的音色、曲调。

可能和咱们唱的有点不一样，但正是这份独特的「AI 味儿」演绎，反而格外妙趣横生～

一张图+一句话，万物皆可边唱边跳

眼瞅着快过年了，刘德华的《恭喜发财》也已经在解封的路上了。

听腻了天王版本？那不如试试财神爷本尊亲自开嗓。我上传了一张财神爷的画像，输入提示词。结果财神爷真就动起来了，一边唱着「恭喜你发财，财富一定来」，一边左右摇摆。

这才是真·财神附体。

所以拿这个给长辈拜年，红包不翻倍都说不过去。

诗仙也要跟上时代潮流。

我翻出一张李白画像，让他整一段当下最火的《刀马刀马》。两分钟后，李白从画里「复活」了，跟着魔性旋律左摇右摆。

可惜 AI 没能让他跳出正宗刀马舞，看来对音乐和舞蹈的理解还得再练练。不过虽然舞姿跑偏了，但 AI 生成的整个场面却别有一番喜感，不得不说千问 App 简直是 AI 抽象届的舞王。

《疯狂动物城 2》最近票房大卖，尼克和朱迪这对经典搭档又火了一波。

既然都这么火了，那不如让它们来段双人唱跳？尼克唱着「朋友一生一起走」，朱迪在旁边摇头晃脑，两个人还真有那么点默契配合的意思。整个画面，倒像是官方番外篇里的音乐剧片段。

不过，尼克这充满「个性」的唱腔，意外成了整段视频的笑点担当，打工人平淡工作日里的笑点，最近都被千问 App 承包了。

还记得许嵩当年那段自我介绍吗?「大家好我是 Vae，这是我即将发表的首张独创专辑《自定义》。」我寻思着，要不让爱因斯坦也来一段？他张着嘴，一本正经地说着这段经典台词，还真的配合着节奏点头，更绝的是口型竟然也一一对上了。

只能说，许嵩看了会沉默，爱因斯坦看了会流泪。

《猫和老鼠》作为经典哑剧动画，但有了 AI，我们可以让 Tom 开口唱歌，顺便还能跳当下大火的高雅人士企鹅舞。满分十分，你能打几分？

最后，我让在卢浮宫端了 500 年架子的蒙娜丽莎戴上墨镜开唱。魔性歌曲配达芬奇名画，这组合本身就够行为艺术了。文物活化的另一种打开方式，get 了。

千问 P 图+生视频=快乐²

当然，千问 APP 除了可以生成视频，也可以生成图片。

这次更新接入了全新改版的图片生成及编辑模型 Qwen-Image，在图像编辑一致性、多视角转换、多图融合等方面都有突破。简单说就是：只要在对话界面输入指令，就能自动调用模型能力，实现各种魔性操作。

比如换姿势：原本端坐的兵马俑，被指令后，立即呈现出一个手握篮球腾空封盖的英姿，视觉冲击感十足。

再比如服装变换：周末想发穿搭照但懒得换衣服？上传自拍，一句话把 T 恤换成西装，甚至还能给大卫雕像穿上了梅西的球衣。

反正脑洞有多大，AI 就能玩多花。

那么这时候，我们就可以体验进阶操作：

先改图，再生视频。

简单说就是：先把图片 P 成你想要的样子，然后再让它动起来唱歌跳舞。一套组合拳下来，创作自由度直接拉满。

比方说，我上周末花时间又重新看了一遍《泰坦尼克号》，于是我突发奇想：如果把马斯克和奥特曼 P 进《泰坦尼克号》的经典船头场景会怎样？

第一步，生图：上传两人照片，输入指令，千问 App 直接给我生成了一张高清合成图，男版马斯克，女版奥特曼，结果真是好一对恨比爱长久的苦命鸳鸯。

第二步，生视频：基于这张图，继续输入「帮我生成视频，图中的人物边唱歌边做飞翔的动作，海风要强烈，情绪要饱满」

然后… 两个科技圈大佬就在我手机里深情开唱了。

测到这儿，我已经停不下来了。

接着，我让千问 App 生成一颗拟人化的红豆。然后让它用它自己的调子唱出专属版本的「哈基米南北绿豆，阿西噶阿西」。

结果这颗红豆顶着硕大的眼睛，挥舞着小手，跟着魔性节奏左摇右摆。就是这嗓音不走可爱风，反而略显粗犷，杀伤力几乎比原版还要高出三个数量级。

听完像吃了云南野生菌，画面与声音的搭配极其令人上头。

既然单人能跳，那能不能搞个组合出道，我突发奇想：要不让四大名著的主角们组个乐队？

说干就干。我先用千问 App 的图片融合功能，把五位经典人物 P 成一张站位完美的乐队阵容——

孙悟空担任主唱，关羽负责电吉他，林黛玉坐在键盘前，武松打鼓，曹操当贝斯手，定妆照搞定后，那便是最简单的动起来环节，两分钟后，一场跨越时空的摇滚现场就诞生了。

不得不说，这届 AI 真会玩。

一张图+一句话=10 秒魔性视频。不需要剪辑软件，不需要特效技能，甚至不需要会唱歌会跳舞，你只需要脑洞够大，AI 就能帮你实现。

除此之外，这功能除了整活，认真用起来也挺实用。

过年拜年视频可以交给 AI，朋友生日可以让寿星公跳舞，公司年会节目再也不愁没创意，甚至表白都能整出新花样…

当然，如果你只想单纯快乐一下，打开千问 App，上传图片，输入你的沙雕想法，剩下的交给 AI。2-5 分钟后，你就能得到一个足够发朋友圈炸场的魔性视频。

原来 AI 时代的快乐，真就这么简单。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

夸克 AI 浏览器全面升级，可随时唤起千问

爱范儿

By: 莫崇宇

26 November 2025 at 14:55

现在的浏览器，越来越「重」了。

写方案要开着 Word，查资料要切回浏览器，回消息又得跳到微信。屏幕被切得支离破碎，注意力也跟着碎掉。每次想让 AI 帮忙，都要先经历一番「寻找 AI 在哪里」的折腾。

这周，我试着把主力浏览器换成了全面升级的夸克 AI 浏览器。

体验下来，背靠阿里 Qwen 全球大模型，全面融合千问 AI 助手的夸克，发布六大千问 AI 套件，实现系统级「全局 AI」的创新产品形态，随时唤起千问，一句话帮你干活，效率拉满。

用户无需切换标签或应用，就能唤起千问读屏、快捷框、侧边栏、悬浮球、划词、截屏进行提问、协作……主打一个条条大路通千问。

它给我的第一感觉，就是在对标 Chrome 的基础上走得更远，想让 AI 成为你的「最强外脑」和「随身助理」。

体验随时桌面唤起千问方式后，让我彻底告别传统浏览器

先说最核心的，随时桌面唤起千问，这也是夸克和 OpenAI 前不久发布的浏览器 Atlas 最大的差异点。

Atlas 的理念是让 AI 成为操作系统的一部分，但它的实现方式相对保守，更多是在应用间调度。

而夸克则更激进，从底层架构彻底让 AI 融入浏览行为、以全新 AI 交互形态的出现，手撕传统浏览器，随时随地唤起千问 AI 助手，实现「边浏览边对话、边看边总结、即问即答」的丝滑体验。

举个实际场景，只需随手按下快捷键，就能让千问帮我列一个关于「社交媒体对青少年心理健康影响」的论文大纲，从而构建起连贯的学习工作流。

这种「无感接入」的设计，才是系统级 AI 浏览器的真正价值。

一个侧边栏，干掉你一半桌面操作

如果你的日常就是跟一摞摞 AI 技术论文打交道，英文不是很好，我们可以让「千问侧边栏」直接翻译、并总结核心观点。甚至让千问基于文档内容继续深挖准问，完全不用复制-粘贴-复制，也不用离开当前的标签页。

同理，阅读各种新闻资讯时，看到某辆新车发布，我们可以直接问千问侧边栏的「这款车适合哪些人使用？」。千问不仅分析当前页面，还能结合背景知识给出对比，省去了开新标签搜索的麻烦。

刷各种网页自然也是刚需，但信息量一多，自己逐条看、逐个理解既耗时间又费精力。这时候就可以果断交给千问来处理，它也能提炼重点。

千问侧边栏最妙的地方是边浏览边对话、边看边总结。传统浏览器要么让你切标签，要么跳转新页面，而夸克 AI 浏览器的设计让交互足够丝滑，你几乎感觉不到在「使用 AI」。

截图即答案，划词即解释

遇到图表，截个屏，框选区域，千问直接解读数据趋势、图表含义。看到一些复杂的 AI 图片，也可以让它帮忙「整理图片中的动物职业，并翻译成中文」，千问立刻给出结构化总结。

截图提取图片文字也很顺手。

我随手截了一张三宅一生曾经客串出现在苹果「Think Different」广告宣传活动的广告语，它就能准确识别这是苹果的广告词，并给出解释。

在逛知乎时，看到一些不懂的词汇也能直接划词，千问自会弹出解释。想追问也行，这体验四舍五入等于冲浪时随身带着一个「AI 辟谣器」。

此外，更进阶的场景是「千问读屏」功能。

这个功能的意思是，千问可以「看到」你电脑屏幕上的任何内容，它不仅能与 Microsoft Word 和 WPS 等应用深度联动，还支持快捷划词提问、截屏提问等操作。

简言之，你在用 Word 写文档、在 Excel 做表格、千问都能理解你正在做什么，并基于屏幕内容给出建议。诶，用着用着，真有种生活工作搭子的感觉。

比如我在 Word 写东西，让千问把屏幕上的《蜀道难》改写成剧本，它立马开写。这套联动还能把截屏、划词、共享的内容自动同步到侧边栏，让你能无缝追问。

让 AI 替你干活，一句话的事

除了侧边栏等方式，唤起千问的方式也灵活多样。

比如按下「Alt + 空格」（Mac：option+空格），然后在搜索框里直接说人话就行。

「帮我写一份 iPhone 18 Pro 产品发布会邀请函」「把这段翻译成英文」。这种一句话叫 AI 干活的模式，直接取代传统搜索那堆蓝色链接，从查资料到写文案、从总结到翻译，全程闭眼托管。

它甚至能一句话做表格、一句话生成 PPT，或者直接转换格式，比如把黑板照片里的字直接提取成 Word 文档。

要做到这样其实并不容易，离不开千问对浏览器场景的深度定制。

它能理解你的意图、网页结构、上下文关系，真正做到即问即答。

除了 AI 能力，浏览体验也没落下。

夸克的标签管理做得很聪明。自动分组、按域名排序，还能识别高内存标签自动优化。实测开 30+ 标签，主打一个纵享丝滑。

还有一个让人特别惊喜的地方，就是连文档的编辑也下了不少功夫。试着直接把 PDF 拖进夸克 AI 浏览器，直接打开、标注、编辑、转格式，无需下载。

查资料时直接批注，外文 PDF 还能直接对照翻译，省下的时间都是生产力。

从官方 Demo 来看，跨设备隔空传文件更是顺滑。文字、文档、大文件都能手机电脑无缝传输，100G 文件也不怕。网盘整理也变得智能了。一句话就能搜到文件，不用再翻来翻去。

这些听起来都是细节，但加起来就是巨大体验差异。

对齐 Chrome 的性能标准后，夸克给你的是更极简的界面、零广告干扰，以及更轻的内存占用。当你习惯了这种清爽，再打开某些国内浏览器，满屏的推荐信息会让你怀疑人生。

哪怕是放在国内一众老牌浏览器里，这种克制也是值得表扬的。而当 AI 成为浏览器的底层能力，配合这些生产力工具，你会发现自己的工作流程被彻底重构了。

标签页的尽头，是 AI 的起点

用了几天夸克之后，我开始思考一个问题：当 AI 真正融入浏览器，它到底在改变什么?

答案可能比想象中更深刻。

过去 20 年里，浏览器的形态几乎没变。1995 年，比尔·盖茨在一份备忘录里写道：微软将操作系统作为人机接口，从而控制整个微机行业，而网景则控制了人们通向互联网的入口。

谁控制了入口，谁就能定义规则、分配流量、获得数据。2010 年，Chrome 成为稳定支持三个平台且拥有书签同步功能的浏览器。但即便如此，它的交互本质仍然是 1995 年的逻辑：

用户负责提出问题，浏览器提供零零碎碎的回答。

你依然要在多个标签页之间来回切换，手动拼凑信息，自己综合结论。这个模式延续了近 30 年，直到 AI 出现。夸克这次做的事情，本质上是在挑战这套交互范式。

通过千问读屏、悬浮球、快捷键，千问已经跨出了浏览器窗口的边界。

你在 Word 里写文章，在 Figma 里调布局，在任何一个应用场景里，千问都能理解你正在做什么，并给出针对性反馈。AI 不再局限于某个应用内部，成为整个系统的基础能力。

为什么是夸克先做出来？有几个原因。

首先，这与夸克的用户基础和战略定位密切相关。

随着阿里千问与夸克 AI 浏览器深度融合，也正式成为超 1 亿电脑用户的桌面级智能助理，这个量级的用户基础，意味着夸克有足够的场景数据和反馈来打磨产品体验。

浏览器作为电脑上最核心的入口，几乎涵盖用户获取信息与执行任务的所有场景。而 AI 在这个场景下的能力空间巨大，也标志着阿里巴巴千问正加速实现对 C 端场景的全面覆盖——从移动端到桌面端，从对话框到操作系统级的全局调用。

此外，浏览器的智能化上限，取决于底座模型的智商。

夸克直接接入了阿里 Qwen 全球领先大模型，这意味着它处理中文长文本和复杂逻辑推理时，天然就有语言理解上的优势。毕竟，模型能否准确理解语境，直接决定了体验的质量。

一键唤起是普通人的刚需，而做到全局唤起千问、千问读屏这类功能，需要深入操作系统底层，依赖于阿里的资源支持，夸克才敢于在这个方向上持续投入，而不是浅尝辄止。

与此同时，在隐私敏感和追求效率的当下，夸克选择了一条「反直觉」的路径——无广告、极简界面、内存优化。对于大多数普通用户，他们不需要 100 个插件，他们只需要一个能搞定 90% 麻烦事的 AI 按钮。

当然，坦诚地说，夸克面临的挑战也很明显。

Chrome 强大的插件生态和用户长期的使用惯性，是任何挑战者都难以短期撼动的壁垒。对于重度依赖特定插件的极客用户，迁移成本依然存在。用户对国内浏览器「大杂烩」的刻板印象，也需要夸克持续的克制来打破。

但无论如何，AI 浏览器显然是个趋势。

Chrome、Perplexity、OpenAI 都在做类似的事，国内浏览器都在跟进。

夸克这次的战略升级，选择主动出击抢占身位。依托通义千问 Qwen 在全球大模型评测中的强劲表现，夸克把浏览器从「浏览网页的辅助工具」变成「系统级的任务助手」，率先给出了 AI 浏览器未来形态该有的样子，也有利于它在这一赛道的早期阶段建立心智优势，并在下一轮竞争中获得更大的主动权。

而这个逻辑一旦成立，接下来的演化就清晰了。

你看论文时可以随时唤起 AI 解释概念。写代码时可以随时让 AI 审查逻辑。做设计时可以随时请 AI 给出建议。所有这些场景的共同点是：AI 理解你正在做什么，知道你需要什么，在你需要的时候出现。

如果说 Chrome 教会了我们什么是好浏览器，夸克则给 AI 浏览器打了个样板，放眼全球，都是领先的产品形态。未来的操作系统，将是以「任务」为中心。当你遇到问题，本能反应不是打开搜索引擎搜一下，而是唤起 AI 问一下。

这条路难走，因为它需要更深的技术积累、更克制的产品设计、更长期的用户教育。但一旦走通，壁垒也会更高。

毕竟，习惯才是最难被撼动的力量。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

爱范儿
编程测试碾压人类！Claude Opus 4.5 深夜突袭，AI 编程进入「超人时代」
25 November 2025 at 07:13

编程测试碾压人类！Claude Opus 4.5 深夜突袭，AI 编程进入「超人时代」

爱范儿

By: 莫崇宇

25 November 2025 at 07:13

最近这段时间，大模型发布就跟下饺子似的，一个接一个往外冒。

前脚 Gemini 3 Pro 刚抢了两周风头，后脚 Claude Opus 4.5 刚刚就正式发布，还是主打编程，还是那个熟悉的味道。

Anthropic 官方宣称 Opus 4.5 整体更聪明、更省心。遇到编程、搭 agents、操控电脑这些「系统级任务」依然是全球数一数二的水平。日常的研究、做 PPT、处理表格这些案头活，也都明显变强了。

今天起，Opus 4.5 已经全面开放，可以通过应用、API，还有三大主流云平台用起来。开发者只要在 Claude API 里调用 claude-opus-4-5-20251101 就行。

随发布而来的，是一整个工具链升级。开发者平台、Claude Code、Chrome 插件、Excel、桌面端改造，还有「长对话不卡顿」。从应用到 API，再到云平台，这次是真的全线铺开。

Anthropic’s New Claude Opus 4.5 Reclaims the Coding Crown – The New Stack

大模型集体「上新季」，Opus 4.5 强势压轴

从官方和测试者的反馈看，Claude Opus 4.5 对「模糊需求」的理解力得到了明显提升，复杂 bug 自行定位也更稳，不少提前试用的客户觉得 Opus 4.5 是真的能「理解」他们想要啥。

在真实场景的软件工程测试 SWE-Bench Verified 里，它是头一个拿到 80% 以上分数的模型。

Opus 4.5 的代码质量全面升级，在 SWE-bench Multilingual 涵盖的八种编程语言里，它在其中七种都拔得头筹，表现相当亮眼。

而举例而言，Anthropic 团队把 Opus 4.5 扔进了公司招性能工程师时用的高难度测试题里，结果在规定的两小时内，Claude Opus 4.5 的得分超过了所有人类候选人。

虽然编程测试只能衡量技术能力和时间压力下的判断力，那些多年经验积累出来的直觉、沟通协作能力，这些同样重要的素质并不在考察范围内。

除却软件工程，Claude Opus 4.5 的整体能力也迎来了全面开花，在视觉、推理和数学方面都比前代模型强，并且在多个重要领域都达到了业界领先水平：

更关键的是，模型的能力甚至开始超越现有的一些评测标准了。

在智能体能力测试 τ²-bench 里就出现了这么个场景：测试设定模型扮演航空公司客服，帮一位焦虑的乘客。

按照规则，基础经济舱机票是不能改的，所以测试预期模型会拒绝乘客的请求。结果 Opus 4.5 想出了一个巧妙方案：先把舱位从基础经济舱升级到普通经济舱，然后再改航班。

这办法完全符合航空公司政策，却不在测试的预期答案范围内。从技术角度说，这算是测试失败了，但这种创造性解决问题的方式，恰恰展现了 Opus 4.5 的独特之处。

当然了，在另一些场景下，这种「钻规则空子」的行为可能就不那么受欢迎了。如何防止模型以非预期方式偏离目标，这是 Anthropic 安全测试重点关注的方向。

Claude 无处不在，桌面、浏览器、Excel 全接入

随着 Opus 4.5 的推出，Claude Code 获得了两项重大更新。

计划模式（Plan Mode）现在能生成更精确的执行计划了，Claude 会在操作前主动提澄清性问题，然后生成一个用户可编辑的 plan.md 文件，再根据这计划执行任务。

此外，Claude Code 现在已经登陆桌面应用了。你可以同时跑多个本地或远程会话，比如一个智能体负责修代码错误，另一个负责在 GitHub 上检索资料，第三个就更新项目文档。

对于 Claude 应用用户来说，长对话不会再被打断了。Claude 会在需要的时候自动总结早期上下文，让对话持续下去。

Anthropic 研究产品管理负责人 Dianne Na Penn 在接受采访时表示：

「我们在 Opus 4.5 的训练过程中提升了对长上下文的整体处理能力，但光有更长的上下文窗口是不够的。知道哪些信息值得记住，同样非常关键。」

这些改进也实现了 Claude 用户长期呼吁的一项功能：「无尽对话」。这功能能够让付费用户在对话超过上下文窗口限制时也不会中断，模型会自动压缩上下文记忆，而不用提醒用户。

Claude for Chrome 也已经向所有 Max 用户开放了，可以让 Claude 直接在浏览器多个标签页之间执行任务。

Claude for Excel 的 Beta 测试范围已经扩展到 Max、Team 和 Enterprise 用户了。

对于能使用 Opus 4.5 的 Claude 和 Claude Code 用户，Anthropic 已经取消了和 Opus 相关的使用上限。
对于 Max 用户和 Team Premium 用户，Anthropic 也提高了整体使用限额，用户可使用的 Opus token 数量与之前使用 Sonnet 时大致相同。随着未来更强模型的出现，配额也会根据情况相应更新。

让模型「更聪明也更省」，Opus 4.5 迎来底层大升级

随着模型变得更聪明，它们能用更少的步骤解决问题：减少反复试错、降低冗余推理、缩短思考过程。

Claude Opus 4.5 和前代模型比，在实现相同甚至更优结果的情况下，用的 tokens 数量明显少了。

当然了，不同任务需要不同的平衡。

有时开发者希望模型能持续深入思考，有时又需要更快速灵活的响应。

所以，API 里新加了一个叫 effort 的参数，让你可以根据需求选：要么优先省时间和成本，要么最大化模型能力。任君选择。
当设置为中等 effort 等级时，Opus 4.5 在 SWE-bench Verified 测试中和 Sonnet 4.5 的最佳成绩持平，但输出 tokens 数减少了 76%。

而在最高 effort 等级下，Opus 4.5 的表现比 Sonnet 4.5 高出 4.3 个百分点，同时还减少了 48% 的输出量。

凭借 effort 控制、上下文压缩（context compaction）和高级工具调用能力，Claude Opus 4.5 能跑更久、完成更多任务，而且需要的人工干预更少了。

此外，真正的 AI 智能体需要在成百上千种工具之间无缝协作。

想象一个 IDE 助手集成了 Git、文件管理、测试框架和部署流程，或者一个运营智能体同时连着 Slack、GitHub、Google Drive、Jira 和几十个 MCP 服务器。

问题在于，传统方式会把所有工具定义一次性塞进上下文。拿连接五个服务器的系统来说，GitHub 需要 26K tokens，Slack 需要 21K tokens，Sentry、Grafana、Splunk 加起来又是 8K tokens。

对话还没开始呢，就已经占了 55K tokens 了。要是再加上 Jira，轻松突破 100K tokens。更麻烦的是，当工具名字相似时，模型容易选错工具或者传错参数。

Anthropic 推出了三项新功能来解决这些问题。

Tool Search Tool 让 Claude 按需动态发现工具，只加载当前任务需要的部分，token 使用量能减少约 85%。

Programmatic Tool Calling 让 Claude 在代码里直接调用工具，避免每次调用都要完整推理一遍。

Tool Use Examples 则提供统一标准，通过示例而不是 JSON schemas 来展示工具的正确用法。

内部测试显示，启用 Tool Search Tool 后，Opus 4 在 MCP 测试中的准确度从 49% 提升到 74%，Opus 4.5 从 79.5% 提升到 88.1%。
Claude for Excel 就是利用 Programmatic Tool Calling 来处理几千行数据，而不会让上下文窗口过载。

Anthropic 的上下文管理和记忆能力明显提升了模型在智能体（agent）任务中的表现。

Opus 4.5 还能高效管理多个子智能体（subagents），从而搭建复杂且协调良好的多智能体系统。在测试中，结合这些技术后，Opus 4.5 在深度研究类评估中的表现提升了将近 15 个百分点。

开发者平台（Developer Platform）也在持续变得更具可组合性，希望提供灵活的「模块化构建」能力，让你能根据具体需求自由控制模型的效率、工具使用和上下文管理，搭建出理想的智能系统。

虽然这次 Opus 4.5 的升级足够亮眼，但一个越来越清晰的趋势是：不同模型的「性格」差异正在被放大。

从 Claude 过往的产品线来看，Opus 这类「超大杯」依旧最擅长编程、系统级操作、结构化推理；但如果是文案工作，Sonnet 的表现和性价比往往更对路。

这次发布，也再次印证了这一点。

未来选模型，不光要看跑分榜，还得看它的「做事」方式是不是跟你合拍。换句话说，选择模型，倒是越来越像挑同事了。

附上官方博客地址：
https://www.anthropic.com/news/claude-opus-4-5

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

豆包输入法上线，用了两天我在微信聊天不想再打字

爱范儿

By: 莫崇宇

24 November 2025 at 10:35

如果你用过一些手机系统自带输入法，一定懂那种它好像没学过中文的无力感。

正因如此，第三方输入法才得以遍地开花。

当官方输入法不好用，用户自然会用脚投票。最近字节推出了豆包输入法 1.0 版本，要用 AI 重新定义输入体验。

趁着热乎劲，我也下载体验了两天，发现了一些让人又爱又无奈的细节。

语音识别断档领先，豆包输入法的「杀手锏」有多强?

豆包输入法的界面走的是极简风。

没有那些乱七八糟的推广弹窗和会员广告。不过嘛，安装包体积属实有点大，在 vivo 应用商店显示 139MB。而且这体积大归大，功能却不完整，用「毛坯房」来形容挺贴切的。

先说说豆包输入法的核心竞争力。

在我看来，语音打字是豆包输入法的杀手锏，体验感是断档级领先，确实比我用过的其他输入法强上一大截。在我体验的这两天里，我已经深深爱上了语音打字的体验。

一句话概括，按住说话，松手结束。

实测下来，中文、英文和粤语识别准确度都高得离谱。我随口说了句「我正在用普通话测试豆包输入法」，一字不差，再来一句英文「Attention Is All You Need」，也准确识别了。

在粤语的体验对话上，「今晚你翻唔翻嚟屋企食饭啊。」，「一蚊一只鸡，一蚊一斤龟，究竟系一蚊一只鸡贵，定系一蚊一斤龟贵？」也是一遍就识别成功。

要知道，这些句子语速快、同音字多，咬字要是稍微不清晰，输入法就容易翻车。实测表现相当能打，说明模型对粤语的声学特征和语言模型都做了针对性训练。

TVB 剧里那种粤语夹英文的说话方式，豆包也能应付。

我试了「Sorry 啊，我地已经尽晒力啦」和「赏月喝糖水，那么迟才 call 我们」，「幫我 scan 入電腦做個 copy，再 share 畀大家，记得要 double check 啊」最终结果居然一个都没错。

它甚至还能语音输入数学公式，如果你是学生、老师或者科研人员，这个功能应该挺实用的。

技术层面，网传豆包输入法用的是 Seed-ASR2.0 模型。

简单说就是把语音转成文字，让机器「听懂」你在说什么。和之前的大型 ASR 模型比，Seed-ASR 在中英文测试集上的错误率降低了 10%-40%。

另外，豆包输入法还支持下载离线语音模型，大小约 150MB。意思是在地下车库等信号不好的地方，你也能正常使用语音输入。

但离线模型的准确率肯定比在线的差一点，性能有妥协也正常。

当然了，选择一款新的输入法，很多人会担心隐私问题，豆包输入法提供了一个「基础输入」模式，只是打开之后，语音转文字、翻译这些功能就全关了。

基础词库方面，豆包输入法丰富度达到了主流输入法的水平，没啥特别的，但也不拖后腿。

除了语音识别，我试着文字输入「确实型人格」、「城巴佬」等这些网络词汇，都能识别。生僻字方面，像「饕餮」、「皴裂」「髑髅」这些，也都是从从容容，游刃有余。

至于联想方面，融合 AI 能力的豆包输入法表现出色。

输入「1+1=」，亦或者输入问题「西游记的作者是谁」，输入法会直接在候选栏直接显示结果。作为打工人，我就挺喜欢直接这个将 AI 融入输入法的形式，主打一个实用。

139MB 的 AI 输入法，除了语音识别还剩什么?

说完优点，该聊聊槽点了。

首先，豆包输入法只上线了 Android 版。官网显示，iOS 版即将上线，PC 版则表示敬请期待，这也意味着不支持跨设备复制粘贴。

对于频繁在多设备间工作的用户来说，缺失这个重要功能可能是一个很大的劝退点，希望后续能尽快上线。

而在默认设置下，打字有点不太跟手，响应速度不够快，但好在可以在设置里调整按键的响应速度到「极快」，调完之后体感会好很多。

有趣的是，设置键盘「震动强度」发现，选「弱」时震感很强，选「强」反而没什么感觉。这可能是个 Bug，希望后续版本能修复。

可能是因为还在早期版本，豆包输入法很多细节功能还没来得及打磨。

表情包是社交沟通的重要组成部分，很多输入法都内置了表情包搜索和发送功能。虽然豆包输入法自带表情还算丰富，但你想从输入法直接发表情包？对不起，目前做不到。

再比如键盘功能还不够完善，输入方式只有 9 键和 26 键。如果你是双拼用户，或者需要手写输入、繁体中文，那豆包暂时不适合你。

另外，键盘页面有深色模式，但设置页面却没有深色模式。想换个键盘皮肤？对不起，目前只有默认样式。后者就见仁见智，有人觉得简洁好，有人觉得太单调。

而在 AI 翻译功能输入「LLM」，它依旧会默认显示为「法学硕士」。虽然「法学硕士」和「大语言模型」两个翻译都对，但多少让我有种谷歌翻译的感觉。

那么，豆包输入法值得体验吗？

我的建议是，仅凭语音识别这个杀手锏，还是值得尝鲜体验的。

但建议别急着设为默认输入法，先当个备用工具用着，等豆包输入法把 iOS 版、多设备同步、表情包这些基础功能补上，再考虑全面切换也不迟。

当然，我们也不妨给它点时间，看看这个 1.0 版本最终能进化成什么样。

附豆包输入法下载地址：
https://shurufa.doubao.com/

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

Nano Banana Pro 深夜炸场，但最大的亮点不是 AI 生图

爱范儿

By: 莫崇宇

21 November 2025 at 02:49

奥特曼，迎来至暗时刻。

Google 的 AI 攻势没有半点减弱的迹象。如果说前几天 Gemini 3 Pro 的镰刀伸向了「前端」领域，今天，被颠覆的行业轮到了设计行业，刚刚发布的 Nano Banana Pro（Gemini 3 Pro Image）再次在图像生成能力上重拳出击。

初级设计师的饭碗，怕是要端不稳了。

核心功能如下：

分辨率支持：可输出 1K、2K、4K 分辨率图像
多轮编辑：支持对话式、多轮次的图像编辑工作流
多图像合成：最多可将 14 张输入图像组合为 1 张输出图像
搜索增强：集成 Google 搜索能力，提供更精确、最新的知识支持

不再「瞎猜」，Nano Banana Pro 终于学会了先思考再画画

Nano Banana 的招牌能力是角色一致性强、对话编辑方式，而 Nano Banana Pro 的核心进化在于它把 Gemini 3 的深度思考能力完整接进了图像生成流程。

它生成一张图之前，会先做一轮物理模拟和逻辑推演，而不只是凭视觉模式「胡猜」。

▲提示词：请绘制一张四宫格图片，四张图依次表现同一位戴着斗笠的年轻男子分别发音「我」「上」「早」「八」，人物外貌保持一致，口型准确对应每个字的发音，整体风格统一，16:9，4K

跨模态理解也在 Nano Banana Pro 身上展现得更为彻底。

凭借 Gemini 3 增强的多语言推理能力，你可以直接生成多种语言的文字，或者一键本地化、翻译你的内容。

朋友丢来一页漫画，让模型给漫画上色并把气泡里的英文翻成中文。Nano Banana Pro 上色干净，光影自然，文字识别准确，英文排版也和气泡形状严丝合缝，整个过程从识别到翻译再到重排一气呵成，表现得就像在真正「理解」这张图。

▲提示词：将图片上的文字翻译为中文，并上色，其他不变

又或者，设计师过去需要反复调整的多语言漫画、国际化海报以及宣传物料，现在可以直接让 AI 一步到位。比如让模型将英文海报中的英文翻译成中文。这种从识别、翻译到设计的连贯处理方式，正是原生多模态架构最具威力的一面。

而在文字生成能力上，Nano Banana Pro 更是表现出色，无论是一句短标语还是一整段文字，都能清晰可读，甚至支持多种纹理、字体与书法风格的精细排版。

▲提示词：仿古籍线描插图风，关羽坐于油灯旁，身披宽袖战袍，神态专注沉稳。桌案上摆着《春秋》竹简、鎏金小刀、毛笔等器物，以纤细线条勾画，保留古印刷风格。背景仅以几笔勾勒墙角、屏风与兵器架，简洁却富古雅气息。色彩以浅赭、灰墨、淡青为主，呈现古书插画的文化韵味与历史感，4:3。

64k 的输入 Token 上限意味着它能理解极长的文本提示词。无论是详细的分镜脚本，还是复杂的多语言排版需求，都能更好理解。

▲提示词：生成一幅 4K 古画，画上写着：明月几时有？把酒问青天。不知天上宫阙，今夕是何年。我欲乘风归去，又恐琼楼玉宇，高处不胜寒。起舞弄清影，何似在人间。转朱阁，低绮户，照无眠。不应有恨，何事长向别时圆？人有悲欢离合，月有阴晴圆缺，此事古难全。但愿人长久，千里共婵娟。

针对前代分辨率偏低的老问题，Nano Banana Pro 把画质一步拉到 4K，还允许自由设定任何长宽比。电影海报、宽屏壁纸、纵向分镜，统统能直接生成。

Nano Banana Pro 还支持最多 14 张输入图像的组合编辑，同时保持最多 5 个角色的外貌一致。

配合多轮对话能力，用户可以不断调整、融合多个素材，直到达到理想效果。不论是把草图变成产品，还是将蓝图转换成逼真的 3D 建筑，都能轻松实现概念到成品的跨越。

▲提示词：哆啦A梦和李白在月下对酌。圆月高悬，古代亭台楼阁，哆啦A梦穿着唐朝服饰，李白持酒壶，石桌上摆着酒具，仙气飘飘，中日混合画风，精致细节

更进阶的是专业级创意控制能力。

你可以选择、微调或变换图像中的任何部分，从调整镜头角度、改变焦点到应用高级调色，甚至改变场景光照——把白天变成夜晚，或创造散景效果，这些过去需要在 Photoshop 里精细操作的工作，现在只需要一句话。

▲提示词：Transform the [camera] from the uploaded photo into a bold, colorful cartoon illustration style, while keeping the rest of the photo realistic and unchanged. Cartoon style details: thick black outlines, vibrant flat colors (such as bright cyan, magenta, yellow, pink), dripping paint and splash effects, playful comic-book energy. most drips flow downwards.The cartoon object should look like it is melting or bursting with colors, blending naturally into the real photo. Keep all other elements (background, other objects, environment) photorealistic with no alterations. High resolution, pop-art aesthetic, surreal contrast between realism and cartoon.

搜索 + 生成 = ？Google 给出了终极答案

如果说搜索是 Gemini 3 的「左脑」，那么图像生成就是其「右脑」。

这也是 Nano Banana Pro（Gemini 3 Pro Image）架构中被低估但最具颠覆性的能力。传统搜索是用户搜索、搜索引擎给链接、用户点进网站、网站提供界面。而 Nano Banana Pro 引入了搜索增强功能（Grounding with Search）。

当用户要求生成一张可视化的图片，展示在广州旅游的 2 天行程」时，Nano Banana Pro 生成的图片，包含了详细的行程地图、中英文注释、以及景点图片等。

再比如 Nano Banana Pro 能根据提示词要求，从搜索中获取最新天气状况，再把温度、风力、湿度、天气趋势等关键数据转化为鲜明、富有设计感的视觉内容。

▲提示词：搜索广州实时天气信息，制作一幅中文波普艺术风格的信息图，4:3

这项能力之所以重要，是因为它让创造过程具备了事实基础、实时性和可验证性。只能说，搜索不愧是 Google 的看家本领，无论是技术积攒的厚度，还是在理解上就已经领先一个身位。

在产品定位上，Google 采用了双模型策略：旧版 Nano Banana 用于快速有趣的日常编辑，而 Nano Banana Pro 则专注于复杂构图与顶级画质的专业需求。用户可以根据场景自由选择。

对于消费者与学生，Nano Banana Pro 已在 Gemini 应用中全球开放，只需选择「生成图像」并启用「Thinking（思考）」模式即可使用。免费用户会获得有限额度，超出后将自动切回原版 Nano Banana。

而 Google AI Plus、Pro 和 Ultra 订阅用户则拥有更高额度。在美国地区，Google 搜索的 AI 模式中，Pro 与 Ultra 用户已经可以体验 Nano Banana Pro。NotebookLM 中的 Nano Banana Pro 也面向全球订阅用户开放。

值得注意的是，Google 在 AI 透明度问题上采取了双重策略。

所有 AI 生成的内容都会嵌入不可见的 SynthID 数字水印，用户现在可以在 Gemini 应用中直接上传图像，询问它是否由 Google AI 生成。这项能力将很快扩展到音频与视频。

既然 Nano Banana Pro 已经强大到这个地步，那么问题来了，普通人该如何最大化发挥它的能力？

Google DeepMind 的产品经理 Bea Alessio 给出了一份详细的使用指南，其中透露出不少关键信息。最基本的使用方式当然是随便说一句话，让模型自己猜你想要什么。但如果你想达到专业水准，就需要像导演一样思考。

一个完整的提示词应该包含六个要素：主体（谁或什么）、构图（如何取景）、动作（正在发生什么）、场景（在哪里）、风格（什么审美）、编辑指令（如何修改）。

而如果你想要更精细的控制，还需要进一步明确：画幅比例（9:16 竖版海报还是 21:9 电影宽屏）、镜头参数（低角度、浅景深 f/1.8）、光线细节（逆光的黄金时刻，拉长阴影）、调色方向（电影级调色，偏青绿色调）、以及具体的文字内容和样式。

附上官方博客地址：https://blog.google/products/gemini/prompting-tips-nano-banana-pro/

这种「摄影指导式」的提示词写法，正是 Nano Banana Pro 和传统图像生成模型的分水岭。因为它真的能理解这些专业术语，并把它们准确地转化为视觉输出。

看到这里，再回过头看 Google 这几天连环发布的产品，就不难明白它想传达什么。

无论是前几天发布的 Gemini 3 Pro 预览版，还是今天亮相的 Nano Banana Pro ，Google 试图向世人证明：通往 AGI（通用人工智能）的道路，必须是多模态原生的。

只有一个能看、能听、能理解结构、能处理逻辑的模型，才可能对世界进行完整地「思考」。

从技术层面看，Nano Banana 系列模型让图像生成正式进入了「先理解再表达」的阶段。

当 AI 开始理解迷宫的路径、物体的结构、文字的含义甚至 UI 的交互逻辑时，它就不再只是一个画图工具，而是一个具备视觉思维能力的智能体。

从商业层面看，极低的推理成本和生成式 UI 的出现，将彻底改变内容生产和信息分发的逻辑。过去的互联网由一个个固定网页构成，而未来的互联网更可能是一块块随着你需求即时生长的界面。

设计将不再只是人的手艺，界面也不再是由团队层层打磨的成果。越来越多的视觉内容，会先交给 AI，再由人去补充或微调。Google 显然已经提前看见了那个新世界，并且开始把入口推到所有人面前。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

爱范儿
刚刚，年度最强 AI 登场！马斯克奥特曼点赞 Gemini 3，体验后我发现 ChatGPT 要慌了
19 November 2025 at 05:45

刚刚，年度最强 AI 登场！马斯克奥特曼点赞 Gemini 3，体验后我发现 ChatGPT 要慌了

爱范儿

By: 莫崇宇

19 November 2025 at 05:45

就在刚刚，Gemini 3 Pro 预览版正式发布。

年底的 AI 圈向来不缺新闻，但今年格外喧嚣。如果不出意外，这将是 2025 年压轴登场、最令人期待的海外大模型，甚至可以说，Gemini 3 Pro 成了这个时间窗口唯一的主角。

过去两个月，Google 几乎复刻了 Sam Altman 的营销手法，从 Gemini 著名宣传委员 Logan Kilpatrick 到 CEO 皮查伊，内部人员不断在社交平台打哑谜，推波助澜，将外界对 Gemini 3 的期待值不断拔高。

有趣的是，OpenAI CEO Sam Altman 刚刚在 X 平台发文称：「恭喜谷歌成功推出 Gemini 3!！看起来是个很棒的模型。」

有着奥特曼的前车之鉴，谜语人玩法风险极大，一旦产品力不足，口碑会瞬间崩塌。但显然，谷歌对自己的产品充满自信。那么，Gemini 3 Pro 这次到底交出了什么答卷？

省流版如下：

Gemini 3 Pro 预览版原生多模态支持（文字、图像、视频、音频）
在 LMArena 排行榜登顶，在推理、多模态、编程等主流测试中全面领先
推理能力创纪录（GPQA Diamond 91.9%、MathArena Apex 23.4%）
提供 Deep Think 增强推理模式（未来几周开放）
100 万 token 上下文窗口 + 64K 输出
推出全新 AI IDE：Google Antigravity，新模型已集成 Cursor、GitHub、JetBrains 等工具

无愧 Pro 之名，谷歌最强 AI 模型深夜发布

按照 Google 的说法，Gemini 3 Pro 是目前「最智能、最具适应性的模型」，专为解决现实世界中的复杂问题而设计——尤其是那些需要更高层次推理、创造力、战略规划以及逐步改进的任务。

它的典型应用场景包括：具备自主行为能力的应用、高级编程、超长上下文理解、跨模态处理（如文字、图像、音频的结合），以及算法开发等。

Gemini 3 Pro 预览版在 LMArena 排行榜上以 1501 分的成绩位列榜首，在几乎所有主要 AI 基准测试中都远超上一代。更关键的是，它不仅能识别图像内容，还能理解其中的隐含信息和上下文关系。

具体来看，推理能力方面，它在「人类最后的考试（Humanity’s Last Exam）」中拿到了 37.5% 的博士级推理成绩，GPQA Diamond 测试达到 91.9%，MathArena Apex 创下 23.4% 的业界新纪录。

多模态推理方面，MMMU-Pro 得分 81%，Video-MMMU 得分 87.6%， SimpleQA Verified 事实准确率达到 72.1%。

这也意味着 Gemini 3 Pro 能在科学、数学等各种复杂问题上可靠地提供优质解答，而且它的回复直接提供真实见解，告诉你需要知道的，而不只是你想听到的。

除了常规模式，Gemini 3 还提供了一个名为 Deep Think 的增强推理选项。

这个增强型推理模式在「人类最后的考试」中得分 41.0%，GPQA Diamond 提升至 93.8%，在 ARC-AGI-2 测试中更是创造了 45.1% 前所未有的得分分数。

不过这个模式目前还在安全评估，预计未来几周内向 Google AI Ultra 订阅用户开放。

测试数据之外，Gemini 3 在实际应用场景中的表现更值得关注。

比如你翻出家里那本手写的家族菜谱，上面是奶奶用多种语言写的做法，Gemini 3 可以识别这些手写文字，整理成可分享的菜谱书。

或者你想学习一个新领域，它可以处理学术论文和长视频讲座，生成交互式学习卡片。甚至，它还能分析你打匹克球的比赛视频，生成针对性训练计划。

这背后是因为 Gemini 从一开始就为多模态理解而设计，能够整合文字、图像、视频、音频和代码等多种信息类型，加上高达 100 万 token 的上下文窗口和最大支持 64K 输出。

值得一提的是，Gemini 3 正式发布并首日集成进 Google 搜索。

它不仅显著提升搜索对复杂问题的理解与信息挖掘能力，还能根据查询即时生成动态视觉界面、互动工具与模拟系统，如三体物理模拟器或贷款计算器。

另外，根据谷歌发布的模型卡，Gemini 3 Pro 采用了基于 Transformer 的稀疏专家混合模型（MoE），原生支持文本、视觉和音频等多模态输入，这种架构的核心优势在于：模型会根据每个输入 token 的内容，动态选择激活部分参数，从而在计算资源消耗、服务成本与总容量之间实现平衡。

至于硬件层面，Gemini 3 Pro 使用 Google 自研的张量处理单元（TPU）进行训练。相比 CPU，TPU 在处理大语言模型所需的大规模计算时速度更快，且配备的大容量高带宽内存，让它能够处理超大模型和批量数据。

如果你是开发者，Gemini 3 带来的改变会更直接。

谷歌官方博客号称，Gemini 3 是目前最强的「vide coding」模型——你只需用自然语言描述想要什么，它就能生成功能完整的互动应用。

数据很能说明问题：WebDev Arena 排行榜 1487 Elo，Terminal-Bench 2.0 得分 54.2%，SWE-bench Verified 得分 76.2%。

Google 这次还推出了全新 AI IDE：Google Antigravity。

内置的智能 Agent 可以自主规划和执行复杂的端到端软件任务，并自动验证代码正确性。你想做一个航班追踪应用，代理能够独立规划、编写代码，并通过浏览器验证运行效果，甚至可以同时在编辑器、终端和浏览器之间协同工作，一气呵成。

在长期规划能力上，Gemini 3 在 Vending-Bench 2 榜单上位居第一。

实际应用中，最新发布的 Gemini Agent 实验性功能可以从头到尾执行多步骤复杂流程。你说「整理一下我的收件箱」，它就会帮你优先安排待办事项，并起草邮件回复供你确认。

或者「查资料帮我预订一辆中型 SUV，预算每天不超过 80 美元，用我邮件里的信息安排下周出行」，Gemini 会定位航班信息，对比租车选项，为你准备预订流程。

整个过程中你始终掌握主动权，Gemini 会在重要操作前请求确认。

此外，在 Google AI Studio 和 Vertex AI 中，通过 Gemini API 使用 Gemini 3 Pro 预览版的价格为：输入每百万 token 需要 2 美元，输出每百万 token 需要 12 美元。在 Google AI Studio 中也可以免费使用，但有调用限制。

Gemini 3 已集成至 Cursor、GitHub、JetBrains、Replit 等开发工具生态系统中。

伴随产品发布，Google 同步开放了多个使用入口。

从今天起，Gemini 3 预览版正在陆续上线：所有用户可在 Gemini 应用中使用；Google AI Pro 和 Ultra 订阅用户可在搜索的 AI 模式中体验；开发者可通过 Gemini API、Google Antigravity 和 Gemini CLI 访问；企业用户通过 Vertex AI 和 Gemini Enterprise 获取服务。

ChatGPT 的对手来了，Gemini 3 实测表现「能打」到什么程度？

当然，科技公司总是宣传大于实际，那么我们也上手测试了几个问题。

第一个挑战是让它在单个 HTML 文件中还原一台完整的 Game Boy 掌机，内置《俄罗斯方块》《宝可梦红/蓝》等经典游戏，所有操控必须同时支持键盘和触屏交互。

坦白说，我对这个需求的期望值并不高。

这种需要同时处理 UI 设计、游戏逻辑、音效系统的任务，即便是专业前端工程师也得花上几天时间。但 Gemini 交出的答卷出乎意料：交互界面达到了六七分的效果，按键按下时还有标志性音效，作为一次性生成的代码，已经相当能打。

既然复古游戏机能跑起来，我们继续加码。

▲ Design and create a web os like macOS full functional features from text editor , terminal with python and code editor and a game that can be played to dile manager to paint to video editor and all important windows os pre bundled software Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block

我要求它用单个 HTML 文件复刻一个完整的 macOS 系统，包括文本编辑器、终端、代码编辑器、文件管理器、画板、视频编辑器等预装软件。生成的结果虽然审美一般，但核心交互逻辑都实现了。

除了编程能力，我们也测试了它的视觉生成和推理能力。

参考 X 用户 @lepadphone 的做法，我让 Gemini 用前端代码实现一个电扇的可视化效果，建议使用 SVG 技术来绘制，包含以下元素：扇叶、保护网罩、底座、控制按钮等结构细节，并实现扇叶旋转、调速等动态效果。生成的 SVG 不仅结构完整，扇叶的旋转动画也很自然。

紧接着我又让它画一只鹈鹕骑自行车——这种不常见的组合对 AI 的空间想象力是个考验，结果它生成的图形比例协调，鹈鹕的姿态和自行车的透视关系都处理得不错。

▲提示词：Create code for an SVG of a pelican riding a bicycle as nicely as you can

在推理能力上，我用到了那道经典的猴子分桃问题，Gemini 答案不光对，也进行了二次验算。

「有 5 只猴子在海边发现一堆桃子，决定第二天来平分. 第二天清晨，第一只猴子最早来到，它左分右分分不开，就朝海里扔了一只，恰好可以分成 5 份，它拿上自己的一份走了. 第 2，3，4，5 只猴子也遇到同样的问题，采用了同样的方法，都是扔掉一只后，恰好可以分成 5 份. 问这堆桃子至少有多少只？」

更有意思的是，我们还测试了它对「废话文学」的理解能力。

面对「懂者得懂其懂，懵者终懵其懵，天机不言即为懂，道破天机岂是懂」这种故弄玄虚的文字游戏，Gemini 的处理方式很聪明：先定性为「废话文学」给你吃颗定心丸，再挖掘背后的道家「有无」、佛家「色空」等文化梗，最后给出人话翻译。这种回答比简单说「这是废话」要高明得多。

写作测试自然也没落下。

我们让 Gemini 用第一人称写「一滴雨水的一天」，它交出了一篇散文诗：云端的拥挤与等待、下坠时的狂欢、融入河流的安宁。文中堆了不少感官细节——瑟瑟发抖的触感、霓虹灯折射的视觉、呼啸风声的听觉。情感真挚，意象丰富，虽然还有些「优秀范文」的套路痕迹，但已经超出了及格线。

有一说一，抛却纸面参数，Gemini 3 的实际水平是有目共睹的，而谷歌能在短时间内追平甚至超越 OpenAI 数年的积累，更是离不开作为为数不多的全栈 AI 厂商的硬实力。

谷歌的优势显而易见：自研 TPU 系列处理器带来的算力自主权，加上全球最大的数据宝库——搜索索引、学术文献、YouTube 视频库，这些都为 Gemini 的训练提供了强大助力。这或许也解释了为什么它在处理实时信息、多语言任务、视频理解等场景时表现更稳。

而就在刚刚，DeepMind 开发者体验主管 Omar Sanseviero 在 X 上发文称，今晚只是「热身」，接下来还将有更多功能陆续上线。结合此前的种种传闻，外界期待已久的 Nano Banana 2 可能真的离我们不远了。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

两个世界首富吵起来了！贝索斯融资 447 亿复出搞 AI，马斯克：跟屁虫

爱范儿

By: 莫崇宇

18 November 2025 at 10:23

本该是杰夫·贝索斯的高光时刻，结果被一只猫咪表情包搅了局。

今天凌晨，当贝索斯要亲自下场做 AI 公司的消息刚在网上发酵，马斯克就火速在 X 平台转发推文，并附带一句话：

「哈哈，不可能。Copy cat（跟屁虫）」

如果你关注科技圈，这剧情大概见怪不怪了。从卫星到火箭，这两位科技圈的顶流已经互怼了整整二十年。只是，如今吵架的战场，变成了眼下最火的物理 AI。

62 亿美元，贝索斯开启史上最壕创业

2021 年贝索斯把亚马逊 CEO 的位置让给了安迪·贾西，本以为他要专心当富豪享受人生。结果四年后，这位电商之王突然宣布：我要重返一线，

这次他瞄准的新项目，叫普罗米修斯计划(Project Prometheus)。

据纽约时报的报道，这个计划一出场就拿了 62 亿美元的融资启动资金，其中相当一部分是贝索斯自己掏的腰包。

凭借这笔巨款，普罗米修斯在硅谷展开了「人才大抢购」，已经挖来了近 100 名顶级研究员，这些人之前都在 OpenAI、Google DeepMind 和 Meta 工作。

那让贝索斯选择二次创业的普罗米修斯到底要做什么？

简单说，就是让 AI 从虚拟世界走进现实世界。现在市面上的 AI 主要都是通过学习网上的文字、图片来生成内容。它们很会写文章、画画、聊天，但有个致命问题，它们不懂物理世界。

举个例子：你问 ChatGPT「怎么设计一个更轻的飞机机翼」，它可能给你讲一堆理论，但它自己从来没摸过真实的机翼，不知道不同材料在风洞里的表现。

贝索斯要做的，就是让 AI 真正动手做实验。

据悉，普罗米修斯预计探索建设一个超大型自动化实验室。在这个实验室里，机器人会 24 小时不间断地进行物理、化学和工程测试。AI 会像科学家一样，自己提出假设、设计实验、观察结果、得出结论，然后不断迭代优化。

目标领域非常明确：航空航天、汽车工程、计算机硬件制造。比如在航空领域，AI 可以自己跑成千上万次风洞模拟，找出最优的机翼形状；在汽车制造中，AI 可以规划整条产线的机器人如何协作。

此外，贝索斯选的搭档也很有意思：维克·巴贾杰（Vik Bajaj）。

他是个跨界科学家，有着物理和化学的学术背景，曾是神秘实验室 Google X 的核心成员，参与过无人机送货项目 Wing 和自动驾驶项目 Waymo 的早期开发。后来还创立了 Alphabet 旗下的生命科学公司 Verily。选这样一个人当联合 CEO，至少在技术层面也有一个把握航向的舵手。

马斯克为什么说贝索斯「抄袭」？

马斯克这次发「Copycat」不是没有原因的。

最近几年，马斯克一直在强调：特斯拉已经变成了一家 AI 和机器人公司。现在贝索斯也要搞物理 AI，也投资了一堆机器人公司，在他看来，贝索斯进军物理 AI 和机器人领域，更像是在抄特斯拉的作业。

而两者的恩怨，也由来已久。

2019 年，亚马逊宣布要做 Project Kuiper 卫星项目，马斯克当场开骂「Copycat」，因为 SpaceX 的 Starlink 早在 2015 年就开始规划了。

同年贝索斯发布「蓝月」月球着陆器，马斯克又恶搞 P 图把「Blue Moon」改成「Blue Balls」。2020 年，亚马逊花 12 亿美元收购自动驾驶公司 Zoox，马斯克又发推：「@JeffBezos 是个跟屁虫」。

往前追溯，两人的梁子结得更早。

2004 年第一次见面就不欢而散。2013 年为了 NASA 的 39A 发射台打得不可开交。2014 年打专利官司，2021 年又因为登月合同闹上法庭。

不过话说回来，虽然两人互怼了二十年，但在技术成就面前，马斯克还是展现了一定风度。当地时间，11 月 13 日，蓝色起源的新格伦号重型火箭成功发射，并且在第二次飞行尝试中就完美回收了第一级助推器。后续马斯克还在 X 上送上祝福。

而无论是贝索斯的普罗米修斯，还是马斯克的特斯拉和 Optimus，他们都在做同一件事：让 AI 真正理解物理世界，走出屏幕。

所以，抛开「抄袭」的口水战，更值得关注的是：当两个顶级玩家同时押注物理 AI 时，这个赛道的爆发可能比我们想象的更快。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

刚刚，阿里千问 APP 开启公测，要做中国版ChatGPT | 附实测

爱范儿

By: 莫崇宇

17 November 2025 at 10:58

前几天，阿里「千问计划」被曝光。消息称，他们要基于全球性能第一的开源模型 Qwen3 打造个人 AI 助手「千问 APP」。

而就在刚刚，靴子终于落地。

阿里官宣千问 APP 公测版上线。除了聊天足够聪明外，「能办事」将是千问 APP 未来发展的一个重要方向。

我们也第一时间分别对千问和 ChatGPT 进行了简单的测试，看看这个后来者到底有什么底气。

屋里三盏灯，屋外三个开关，一个开关仅控制一盏灯，屋外看不到屋里。怎样只进屋一次，就知道哪个开关控制哪盏灯?

这是一道经典的逻辑题。两者都给出了正确答案，即利用灯泡的温度差异来判断：

打开一个开关等待几分钟，然后关闭它，再打开第二个开关，进屋后就能通过灯的亮灭和温度判断三个开关。虽说千问的回答更详细一些，但对于这种思路题来说，只要核心逻辑正确即可。这一轮算是打平。

「解释为什么生食和熟食必须使用不同的砧板与刀具。」

这道题就拉开差距了。GPT-5.1 Auto 的回答比较简单，基本是从知识库里挑选了一些标准答案，谈交叉污染、细菌传播等常识，多少有些敷衍的意思。

而千问的表现让人眼前一亮：它懂得主动搜索，引用了 14 篇相对权威的资料信息，甚至还配上了对应的图片、文章等富媒体内容。内容丰富且有据可查。这一轮，千问明显更胜一筹。

最后一道题是个硬核编程题：用一个 HTML 文件实现一个 Game Boy 模拟器，包含俄罗斯方块、宝可梦、塞尔达等经典游戏的全功能模拟，所有按钮可触控也可键盘操作。

▲左为 Qwen，右为 ChatGPT

从最终效果看，两者各有千秋。千问在视觉效果上做得不错，界面还原度挺高，确实抓住了 Game Boy 的感觉。

GPT-5.1 Auto 的界面设计有些敷衍，俄罗斯方块虽然能跑起来，但实际上只有一个方块能移动，功能并没有真正实现。但客观来说，在单个 HTML 文件里完整还原 Game Boy 模拟器本身就是极高难度的任务，两者都没能做到尽善尽美。

这一轮也算平局。

ChatGPT 已经是全球 AI 的代名词，豆包和元宝背靠抖音、微信这种日活数亿的超级应用。千问没有这种「天然流量池」，这就决定了它必须在产品体验上做出显著差异化，才能说服用户专门下载一个新应用。

从产品策略来看，国内外 AI 助手已经走上了不同的路径。

ChatGPT 相对独立，主要靠订阅费和 API 调用盈利。而国内的 AI 助手则更强调生态整合：元宝可以直接在微信内使用，豆包即梦和抖音内容创作工具打通，千问如果成功，可能会直接导向淘宝购物。

这种「AI+X」的组合模式——AI+电商、AI+社交、AI+内容创作，本身就是巨大的商业价值，而不只是依赖订阅费。

实际上，过去阿里的 AI 更多集中在 B 端领域，Qwen 模型技术实力很强，在全球开源社区的下载量已经是第一，但普通消费者感受不到。而在 AI 领域，用户的品牌忠诚度很薄弱，哪个好用就用哪个。

千问的机会窗口可能很窄，如果不能迅速打出知名度，之后再追就更困难了。

不过机会也确实存在。全球范围内，对 AI 产品有需求但被 ChatGPT 的价格或使用门槛挡在外面的用户，其实数量庞大。如果千问能够以更友好的价格、更低的使用门槛、更强的多语言支持，去覆盖这部分市场，可能会找到一个差异化的生存空间。

真正的较量或许才刚刚开始，千问 APP 的推出也意味着阿里真正开始重视 AI 的下半场，即让 AI 走进普通人的日常。而对我们用户来说，全球市场上多一个能打的选手，对所有人都是好事。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

参加完百度世界大会，我终于理解了「内化 AI」的正确打开方式

爱范儿

By: 莫崇宇

13 November 2025 at 18:01

那天下午，村官小芳接到环卫阿姨的电话，「小芳啊，我被骗了……」400 块钱，半个月的工资，就因为刷了个短剧不见了。

作为村官的小芳，觉得要做些什么，于是决定给村里的老人们上一堂反诈课。可时间紧迫，课件材料哪里来呢？

她想起之前看过的百度文库 GenFlow，抱着试试看的心态，她打开它，用最朴素的语言描述了自己的需求。

三分钟后，一套完整的反诈宣传方案出现在屏幕上：有 PPT、有演讲稿、有醒目的海报，甚至还有一套给老人准备的互动小测试。第二天，反诈课堂的教学效果出奇地好，老人们听得专注、学得认真、记得牢靠。

小芳既没学过代码，也不了解 AI，高新科技对她来说还是太过遥远。但她只是对着 GenFlow 说出了一个普通人最真实的困境，而 AI ，听懂了，并且帮她实现「意料之外」的交付。更重要的是，这次的尝试彻底改变了小芳的工作习惯。AI 不再是个偶尔用用或者是临时抱佛脚的工具，而是成了她解决疑难、急迫问题时的首要选择。

在讨论 AI 如何改变世界的宏大叙事之前，我们或许更应关心的是，它如何让一个普通人的今天，过得更好一点。

不懂也能用的 AI，才是真正的 AI

时间的指针拨回三年，想用好 AI 其实是一件麻烦事。

那时， AI 提示词还是社交媒体上的硬通货，大家互相分享魔法「咒语」。你得先学会「如何跟 AI 说话」——提示词怎么写、任务怎么拆解、参数怎么调优。

但技术进步最直观的标志，就是让使用变简单、易上手。你不需要懂发电原理就能开灯，也不需要懂 TCP/IP 就能刷社交媒体。现在用 AI 也一样——简单直接地说人话就行。

郑州大学副教授马竞的经历，是这个转变的生动注脚。

他基于百度飞桨的开发能力，设计了一套视觉检测系统，通过视觉大模型分析猪只健康状态。比如可以分析猪群进食行为，精准识别离群、躺卧等异常状态。

养猪和 AI 本是风马牛不相及，而马竞也是力学出身，按理说跟计算机视觉更是隔行如隔山。

但百度飞桨把这些复杂的东西都打包好了——成熟的视觉识别能力可以直接拿来用，就像搭积木一样组合到养猪场景里。基于飞浆落地的自动饲喂 AI 系统，能极大程度地提升了饲喂效率，保障了猪群健康水平。如今已经覆盖了全国 9 个城市 23 个养殖场，销售额已达 1400 多万元。

「拿来即用的 AI」第一步是解决了用户的使用门槛问题，但真正的改变还在后面：好的 AI 不再需要你适应它，它可以开始自己适应你。

53 岁的货拉拉司机毛辉珍，一年跑 12 万公里。她说百度地图像个陪她聊天的伙计，能够学习她的驾驶习惯，知道她喜欢走哪种路，在她需要时提醒她：注意车速、注意路况，是个贴心又懂她的「路伴」。

毛辉珍在用 AI，AI 也在「读懂」毛辉珍。这是一种双向的学习：地图在学习她的习惯，她也在学习如何更高效地与智能系统协作，让每一次出行都更顺畅。

又比如，16 岁的陈君航用文心一言从零学会 Python。他可以边学边做，在实践中学习。AI 能够根据他的需求和水平实时调整，而陈君航也在这个过程中，把编程思维逐渐变成了自己思考问题的方式。

想法产生的那一刻，就是实现的起点。

虽然小芳、马竞、毛辉珍、陈君航，都不是 AI 技术专家，但都在用 AI 解决实际问题。三年前人们争论「AI 会不会取代人」，如今看来，问题问错了。真正的问题是：AI 到底能帮助到谁？

而答案显而易见：会说人话的人，有真实需求的人，想解决实际问题的人。换言之，也就是每一个人。

技术的温度，藏在你看不见的地方

村官小芳打开百度文库，说句话就能让 AI 实现交付，为她办事。但 22 岁失明的毛凡，需要的是另一种理解。

遗传性视神经萎缩，全球患病率约十万分之一。身患此病的毛凡重返武汉科技大学后，最头疼的事是打车。

司机能不能找到我？上车后怎么确认目的地？打车的目的地定位是否准确？普通人觉得理所当然的事，对他来说都是巨大的心理负担。直到他遇到萝卜快跑。车门打开有提示音，全程语音操作，按钮是凸起的，一切都是那么自然。

「同学约我去 KTV，都让我叫车，就想坐第六代。」毛凡说到这里，有点小得意。

这份「小得意」的背后，却隐藏着 AI 产品设计的同理心。萝卜快跑团队发现，视障人士不需要特殊照顾的怜悯感，他们需要平等使用的尊严感。所以团队没有简单地加个「盲人模式」，转而重新思考了整个交互逻辑。

「对于普通人来说，看到什么就能操作什么；但对于我们视障者来说，语音读出什么，我们才能操作什么。」一位盲人女孩体验后如此形容。

技术需要放下健全人的认知惯性，真正进入视障者的感知世界。需要的不是同情心，是换位思考的理解力。技术不仅要理解特殊群体的需求，还要在关键时刻真正介入他们的生活。

甘肃临洮县的经历能说明这一点。

县里曾有个大难题：如何减少年轻人跳河。2023 年 6 月，百度智能云的「一见」平台在当地部署，AI 能识别异常行为，在人跳河前报警。到 2025 年 8 月，救下了 21 个年轻人。

21 条生命背后，21 个没有破碎的家庭，21 个没有被终止的未来。这本身就在传递一个信息：即使在你最绝望的时刻，社会没有放弃你。

有温度的 AI，既要理解人，也要在乎人。但如果只停留在这两步，技术能做的还远不止于此。

新疆温宿县的物理老师光头强用百度文库生成课件、动画，给孩子们演示火箭发射原理。「我想将物理的种子埋在孩子心中，让她们能够看到更大的世界。」AI 让光头强拥有了一线城市教师的教学工具，也让山区的孩子有了触碰梦想的可能。

百度创始人李彦宏说：「只有当 AI 被内化为一种原生的能力，才能真正在各行各业实现效果的涌现，进而引爆一场全面的生产力革命，推动经济增长，才能真正让『智能红利』转化成『社会红利』。」

从这个逻辑来看，社会红利指向的不仅仅是 GDP 增长，也是每一个被技术看见的普通人，每一个因 AI 而获得尊严的弱势群体，每一个被连接起来的情感瞬间。

萝卜快跑全球出行服务次数超 1700 万，覆盖全球 22 座城市，全无人驾驶平均行驶 1014 万公里才出现一次气囊弹出事故——超过了谷歌 Waymo。但对毛凡来说，萝卜快跑让他第一次感受到：自己和其他人一样，可以自由地去任何想去的地方。

小芳、毛凡、光头强，他们的故事看起来很不一样，但背后有个共同的疑问：AI 是如何做到理解他们、适应他们、帮助他们的？

16.5 亿次调用背后，是每个普通人最真实的 AI 需求

在刚刚举办的百度世界大会 2025 上，APPSO 看到了一个答案。

今年以来，百度连续发布 5 款大模型，文心大模型日均调用量超 16.5 亿，在理解、生成、逻辑、记忆能力上全面提升，百度智能云也连续六年蝉联中国 AI 公有云市场第一。

模型能力的持续涌现，正是 AI 能够理解人话、适应不同场景的基础。

但李彦宏认为，模型能力的提升只是基础，真正的变化在于「每个人都应该内化 AI 能力」——让 AI 成为每个人思考、创作、工作的一部分。

比如，在刚刚举办的百度世界大会 2025 上，百度文库、百度网盘联合发布了 GenFlow 全新升级的 3.0 版本，目前已是全球最大通用智能体。

想象一个场景：一位 AI 产品经理需要做数据分析、跑需求调研、写产品文档、画原型图、写月度总结…… 他只需要一次性下达任务，GenFlow 3.0 就能同时启动多线程：在 Excel 中搭建分析表格，在 Word 中生成产品需求文档，用 HTML 生成可交互的产品原型，最后汇总成汇报 PPT。

过去做完这些工作可能需要一整天，现在 3 分钟。时间被压缩了，人的角色也随之改变——从「执行者」变成了「决策者」和「创意者」。你不再需要把时间花在重复性劳动上，精力可以集中在真正需要思考的部分。

而当这种工作方式成为习惯，AI 就真正成为了你能力的延伸。

那么 GenFlow 3.0 为什么能做到如此流畅？答案藏在百度的全栈布局里。

从芯片层的昆仑芯，到框架层的飞桨，再到模型层的文心大模型，应用层的百度搜索、百度文库等，百度是全球为数不多进行全栈布局的人工智能公司。

今年 4 月，百度点亮了自研 3 万卡级超大规模计算集群，可同时承载多个千亿参数大模型的全量训练。7 月，百度智算集群入选国家人工智能产业创新成果展。

在应用层面，百度的 AI 重构已经深入到产品的每个细节。

百度搜索完成了十年来最大的改版。搜索框升级为「智能框」，搜索结果不再是一堆链接，而是直接给你富媒体内容，就像从查字典变成了问专家。

秒哒让完全不懂编程的人也能 3 分钟做出应用。新加坡国际大学的学生用它开发了个「技能五子棋」，获得 1.5 万+互动量。创造的门槛被拉低了，但创造的乐趣却一点没打折。

文心快码推出了行业首个多模态、多智能体协同 AI IDE，一位算法工程师因此进阶为全栈工程师。过去需要跨部门协作的事，现在一个人就能搞定。

百度文库智能 PPT 的月访问量超过 3400 万，位列全球第一。这个数字背后，是无数个像小芳一样的人，在用最简单的方式解决实际问题。

在今年 9 月份，李彦宏说：「模型发展到今天其实已经接近了那个临界点，很快就会有各种各样的非常有价值的应用能够创造出来。」

所谓临界点，就是你爸妈、朋友、身边的每一人都开始自然地使用 AI 的时刻。

全栈布局、算力集群、智能体平台，整条技术链最终服务于一个体验：你只管提需求，它负责实现。村官做课件，博士跨界，视障人士自由出行，山区孩子接触优质资源等，每个人都在用 AI 解决自己的问题。

在潜移默化的改变中，小芳用百度文库做完第一次反诈课件后，下次遇到类似任务会直接找它。陈君航用文心一言学会 Python 后，编程能力就真的成了他自己的技能。

这更像一场「教学相长」，AI 在学习理解人的需求，人也在逐步「内化 AI」, 探索如何更好地驾驭 AI，与 AI 协同的相处之道。

用着用着，人就长本事了。而技术的终极目标正是消解门槛：让每个人都能轻松用上 AI，并让它成为能力的一部分。正如世界大会上百度创始人李彦宏所说：「当 AI 能力被内化，成为一种原生的能力，智能就不再是成本，而是生产力。」

这可能更是头部科技公司不断发展技术、深化应用效果的切实驱动力之本。

作者：莫崇宇、李超凡

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

今天起，李飞飞 AI「造世神器」人人可用，一句话打造 3D 世界｜附实测体验

爱范儿

By: 莫崇宇

13 November 2025 at 08:52

Marble，终于来了。

没错，就是两个月前在 AI 圈刷屏的那个 3D 世界生成模型。李飞飞旗下的 World Labs 刚刚官宣向全体用户开放，还一次性放出了一大波新功能。

多模态生成：支持文本、单图、多图/视频、3D 布局等多种输入方式
AI 原生编辑：可对生成的 3D 世界进行局部替换和结构调整
世界扩展与组合：自动填充边缘区域，拼接多个场景
Chisel ：用方块搭框架，AI自动填充风格细节
全格式导出：支持高斯点云、三角网格、视频等多种格式，可直接导入游戏引擎

现在的使用门槛已经相当低。输入一段描述性文本，或者上传一张照片，AI 就能生成一个完整的 3D 世界。一套连招打下来，传统 3D 建模师可能得重新思考职业规划了……

附体验地址：https://marble.worldlabs.ai/

李飞飞放大招，一句话生成完整 3D 世界

先直接上案例，看看 Marble 在文本生成上的真实水平。

▲ 文本提示词：一个住过人的霍比特厨房，摆满了编织篮子和铜壶，沐浴在宁静的浅蓝色日光中

如图所示，一个完整的 3D 厨房场景就这样呈现在我们面前，木质家具、铜制器皿、光影细节，一应俱全。

更考验理解能力的来了。看看这个抽象描述：

▲文本提示词：一个融合中世纪餐厅美学与轨道科技的空间站厨房，拥有棋盘格地板和不锈钢装置，在柔和的水绿色灯光下熠熠生辉

面对这种跨越时空的混搭风格，AI 依然能准确拿捏。

我自己也做了一轮测试。尝试生成一个森林场景后发现，虽然苔藓贴图略显重复，但树干纹理细节清晰，林间若隐若现的雾气也营造出了应有的氛围感。

除了纯文本，Marble 还支持更丰富的创作方式：

单图生成：丢一张图片进去，AI 自动补全 360 度全景视角
多图/视频生成：从不同角度拍几张照片，AI 自动拼接成完整 3D 空间
3D 布局生成：用基础几何体搭建框架，AI 负责填充所有细节

我也测试了单图生成功能，上传一张普通房间的照片后，大约 6 分钟得到成品，仔细观察可以发现，和预览版一样，边缘形变问题还是比较严重，希望后续能够得到优化，但就作为一个初期产品来说，目前的完成度已经相当能打。

从灵活性来看，这套多模态输入的设计思路已经远超市面上大多数同类工具。

而生成只是第一步，更值得关注的是后续的编辑能力。

Marble 还是业内首款原生集成 AI 编辑工具的模型，可以对生成的世界进行深度改造。比如在局部替换中，想移除垃圾桶？一句话搞定，AI 会自动处理场景和光影变化。

如果想大幅调整结构，比如要把餐厅后墙改造成舞台，把桌子换成面向舞台的矮凳？也能轻松实现。换句话说，这种编辑不是简单的图片处理，而是真正理解 3D 空间结构之后的智能调整。

除此之外，「世界扩展」功能同样强大。生成的场景边缘部分有些模糊？点击「扩展」按钮，AI 会自动生成更多内容来填充那片区域。想要更大的空间？用「组合模式」把多个世界拼接起来。

官方演示里就拼出了一整列火车车厢。这套工具链用下来，从创意概念到成品交付的周期被大幅缩短。

如果说生成和编辑功能还算意料之中，那 Chisel 这个工具就有点降维打击的味道了。

简单来讲，Chisel 把「结构」和「风格」彻底分离：

第一步：用立方体、平面等基础几何体搭建空间框架（就像玩乐高）
第二步：写一段文本描述视觉风格（比如「现代艺术博物馆」或「斯堪的纳维亚风格卧室」）
第三步：AI 自动将框架填充成完整的 3D 世界

更厉害的操作是，同一套框架，换个文本提示，能生成完全不同风格的场景。比如框架保持不变，提示词改为「现代艺术博物馆」，得到的是极简白墙配抽象画作。

▲ 一个美丽的现代艺术博物馆，铺有木质地板，馆内陈列着色彩斑斓的画作和曲线优美的雕塑。

又或者，框架保持不变，提示词改为「北欧卧室」，呈现的是温馨木质家具配冰川窗景。

▲ 一个宁静的斯堪的纳维亚风格客房卧室，窗外可欣赏到壮丽的冰川景色。

这种玩法有点像前端开发里 HTML 定结构、CSS 定样式的逻辑，但应用到 3D 建模领域就显得格外高效。正如 World Labs 联合创始人 Justin Johnson 在采访演示时说：「我可以直接选中代表沙发的 3D 块，拖动到别的位置。」

传统建模软件里需要调整许久的操作，在 Marble 里变成了拖拽方块……

此时此刻，建模师们的心情想必很复杂。

那么，创建完成的 3D 世界该如何使用？Marble 提供了三种导出方案：

高斯溅射 (Gaussian Splats)：最高保真度的表示方式，适合实时渲染，可以直接在浏览器里运行。
三角网格 (Triangle Meshes)：分为低精度碰撞网格和高精度渲染网格，可以直接导入 Unity、Unreal Engine 等游戏引擎。
视频格式：支持像素级镜头控制，还能用 AI「增强」——自动添加烟雾、火焰、水流等动态效果。

▲ Marble 可以将生成的世界导出为高斯点云或三角网格模型。

官方新闻稿里的大部分视频，都是直接用 Marble 渲染生成的。通过串联这整套工具链串联，从概念到可用资产的流程被极大简化。

▲增强后的视频能够清除画面瑕疵，并为场景加入动态效果。注意烟囱上方的烟雾、跳动的火焰，以及流动的水面。

游戏开发者可以用 Marble 生成背景环境，导出到引擎里再添加交互逻辑；影视团队可以用它快速搭建场景预览，进行镜头规划；VR 内容创作者甚至可以直接把生成的世界放进 Vision Pro 或 Quest 3 里体验。

好家伙，兜兜转转我们还是回到了元宇宙。

定价策略方面，Marble 采用了分级订阅制：

免费版：每月 7000 点数，最多生成 4 个世界，支持文本/图像/全景输入。适合尝鲜用户，但高级功能都被锁定。
标准版（20 美元/月）：每月 20000 点数，12 个世界，解锁多图/视频输入、Chisel 模式、基础导出功能。
专业版（35 美元/月，首月1 美元）：40000 点数，25 个世界，支持场景扩展、视频增强、高分辨率网格导出，附带商业使用授权。
旗舰版（95 美元/月）：120000 点数，75 个世界，全功能解锁。

显而易见，免费版的门槛足够低，能吸引大量用户试用。但想真正用于生产环境，基本上得选专业版。首月 1 美元的限时优惠也很有诱惑力，明摆着就是想让你先上车体验。

Marble 发布后，各方反应相当两极化。

Y Combinator CEO Garry Tan 在推特上直言：「李飞飞是一个传奇人物，而这次发布意义重大。」一些独立游戏开发者和 VR 创作者也在社交媒体上表态，认为 Marble 大幅降低了 3D 内容制作的门槛。

不过质疑声也不少。

最近的游戏开发者大会（GDC）调查显示，三分之一受访者认为生成式 AI 对游戏行业带来负面影响，比前一年上涨了 12%。关注点包括：知识产权侵权、能源消耗过高、AI 生成内容质量下降、导致行业裁员等。《

Wired》此前报道，包括 Activision Blizzard 在内的游戏公司，正在用 AI 压缩成本和应对人员流失。

面对这些质疑，Justin Johnson 的回应是：「Marble 不是用来完全替代游戏制作流程，而是为你提供可以直接使用的资产。」但实际情况会不会如他所说，还得看市场怎么用。

李飞飞的北极星：空间智能

就在 Marble 发布前几天，李飞飞专门发表了一篇长文阐述她的愿景——空间智能（Spatial Intelligence）。

核心观点可以总结为：

大语言模型虽然语言能力很强，但对物理世界几乎一无所知。它们无法准确估计距离、方向，无法在脑中「旋转」物体，也无法预测基本的物理规律。

对比之下，人类智能的核心不是语言，而是对三维空间的理解和操作能力。从驾驶汽车到接住钥匙，从设计建筑到发现 DNA 双螺旋结构——都依赖空间智能。

按照李飞飞的规划，空间智能的应用将分三个阶段：

近期（创造力）：游戏、电影、建筑设计（Marble 目前在做的）
中期（机器人学）：通过模拟环境训练机器人，让它们学会在真实世界中行动
长期（科学突破）：药物研发、材料科学、医疗诊断、沉浸式教育

博客中，李飞飞明确表达：「如果没有空间智能，我们对真正智能机器的梦想就无法实现。」

愿景是宏大的，但现实更复杂。

世界模型这个赛道，也不止 World Labs 一家在较劲。

目前市面上还有这么几位选手：Decart 推出了免费演示版，主打实时生成；Odyssey 同样提供免费试用，但功能较基础；Google Genie 还在研究预览阶段，尚未商业化。

对比之下，Marble 的核心优势说起来也挺明显。它生成的是持久化的完整 3D 世界，不是那种边探索边生成的模式，可以大幅减少变形和不一致的问题。

更关键的是，Marble 率先实现了商业化落地，免费版加付费订阅的模式已经开始变现。从工具链的完整度来看，Marble 也是最全面的，从生成到编辑再到导出，整个流程一气呵成，不需要在多个平台之间倒腾。

从 ImageNet 到空间智能，李飞飞的学术生涯一直在做同一件事：让机器理解视觉世界。ImageNet 教会了 AI「这是什么」。而 Marble 想教会 AI「这在哪里、如何运动、怎么交互」。

前者催生了深度学习革命。后者会不会引爆下一场范式转移？现在下结论还太早。但至少目前看来，这个方向足够性感，也足够硬核。

OpenAI 继续卷 LLM，李飞飞押注空间智能……这场技术路线的豪赌，胜负或许就在这几年揭晓。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

65 岁图灵奖得主终于不用向 28 岁辍学生汇报了，小扎是怎么把他气走的

爱范儿

By: 莫崇宇

12 November 2025 at 16:12

那个站在 LLM 风口上唱反调的倔老头，可能要离开 Meta 了。

硅谷大佬出走创业，三天两头就有一桩，但要出走的 Yann LeCun 不一样，他是能让扎克伯格亲自登门的重量级人物，是深度学习三巨头之一，图灵奖得主，Meta AI Research 的开山祖师。

更重要的是，他这些年一直在干一件特别拧巴的事：站在全世界最热闹的 LLM 路线门口，举着牌子说「这帮人走错路了」。

现在《金融时报》传出他要离职，说他在筹备自己的初创公司，已经开始接触投资人了。注意，目前只是风声，言之凿凿地说 LeCun 已经离职创业，这显然是不严谨的。

只是，截至发稿前，面对铺天盖地的报道，Yann LeCun 本人还没吭声，这沉默本身，就很说明问题。

从三顾茅庐到分道扬镳，这十二年到底发生了什么？

2013 年那场豪赌，扎克伯格赌对了吗？

Lecun 与 Meta 故事得从 2013 年说起。

那段时间，正是深度学习蓬勃兴起的阶段。2012 年，Geoffrey Hinton 与其学生 Alex Krizhevsky、Ilya Sutskever 提交的 AlexNet 在 ILSVRC-2012 一骑绝尘，top-5 错误率约 15.3%，这个突破让整个学术界和工业界都看到了神经网络的潜力。

然后就是科技巨头们的抢人大战——谷歌花大价钱收购了 Hinton 所在的创业公司 DNNresearch，顺带把老爷子本人也挖走了；微软研究院也在疯狂扩张 AI 团队。

扎克伯格坐不住了。

Facebook（现为 Meta）当时正在从 PC 互联网往移动互联网转型，新闻推送算法、照片识别、内容审核，哪哪儿都需要技术。

但问题是，Facebook 的 AI 能力跟谷歌、微软根本不在一个量级。扎克伯格需要一个能撑起门面的人物，最好是那种在学术界有足够分量、能吸引顶尖人才加盟的大牛。

他盯上了 Yann LeCun。

LeCun 当时在纽约大学当教授，已经干了十多年。那时的 Lecun 自然不是什么新人，早在 1989 年，他就在贝尔实验室搞出了卷积神经网络 (CNN)，用来识别手写数字，这后来也成了计算机视觉的基石。

但那个年代深度学习不受待见，LeCun 就这么冷板凳坐了许久，眼睁睁看着自己的研究被边缘化。直到 2012 年，Hinton 用深度学习拿下 ImageNet 冠军，证明了神经网络这条路走得通。

LeCun 憋了的那口气，终于能吐出来了。

后续，扎克伯格亲自登门拜访。具体谈了什么外人不知道，但最后开出的条件足够诱人：

第一，给钱，主打一个资源自由；第二，给自由，LeCun 可以保留纽约大学的教授身份，继续教书搞研究；第三，给权，让他参与建立 Facebook AI 研究院，怎么招人、做什么方向，全由他说了算。

这对一个憋屈了多年的学者来说，简直是梦寐以求的机会。

2013 年末，LeCun 正式加入 Facebook，出任新成立的 Facebook AI Research(FAIR) 实验室负责人。

他在纽约、门洛帕克和伦敦三地建起了 FAIR 实验室，自己常驻纽约办公室。

团队最初规模较小，但个个都是从顶尖高校和研究机构挖来的——LeCun 的号召力在这时候体现出来了，但凡是做深度学习的，没人不知道「卷积神经网络之父」这个名号。

扎克伯格给了资源，LeCun 也拿出了成果。

加入 Facebook 这些年，LeCun 干的事情可以分成三条线：一是把深度学习塞进 Facebook 的产品里，二是推动学术界的前沿研究，三是培养下一代 AI 人才。

产品线上，2014 年的 DeepFace 人脸识别系统达到 97.35% 准确率，深度学习优化的推送算法也提升了广告点击率。

与此同时，LeCun 自己继续在学术圈刷存在感：发论文、顶会 keynote、带学生办 workshop。直到和 Hinton、Bengio 一起拿图灵奖，才算是熬出头了。

此外，在 LeCun 创建的 FAIR 实验室，Soumith Chintala 主导开发了 PyTorch 框架并于 2017 年开源，这也是 Meta 至今为数不多的形象招牌。

PyTorch 动态计算图、Python 原生接口，调试方便，学术圈迅速倒戈。这一招等于把全球 AI 研究者都拉进了 Facebook 生态。

不过，或许是冥冥中自有天意，Soumith 前几天也宣布离职 Meta，表示「不想一辈子做 PyTorch」。

而更重要的是人才培养。FAIR 有个规矩：研究员可以自由发表论文、跟学术界合作、指导外部学生。顶级资源加学术自由的组合，自然吸引了一批顶尖研究人员。

到 2020 年前后，FAIR 已是全球顶尖 AI 研究机构之一，跟谷歌 DeepMind 并列第一梯队。扎克伯格的那场豪赌，至少在前七八年就已经得到了不小的回报。

猫比 ChatGPT 聪明？这个图灵奖得主是认真的

在 ChatGPT 席卷世界初期，Yann Lecun 和扎克伯格也有过一段甜蜜期。

2023 年以来，Meta 陆续开源 LLaMA 系列模型，引发业界震动。

OpenAI、谷歌走的是封闭路线，靠 API 赚钱；Meta 却把模型权重直接扔出来，任人取用。这步棋背后的算盘其实挺清楚：与其让对手一家独大，不如用开源赢得开发者生态，让 LLaMA 成为 AI 界的 Android。

至少在明面上，身居 Meta 首席 AI 科学家一职的 LeCun，是这条路线最坚定的拥护者。

开源 LLaMA 让 Meta 在大模型竞赛中站稳了脚跟，也让 LeCun 的 AI 理想得到了一定程度的实现——尽管这个实现的方式，恰恰是通过他并不完全认同的 LLM 技术路线。

没错，LeCun 一直觉得 LLM 是条死胡同。这才是矛盾的核心。

LeCun 不止一次在公开场合炮轰 LLM 路线，在他看来，LLM 只会根据统计相关性预测下一个词，根本不理解世界。你问它常识问题，它能给你编出一本正经的瞎话——这叫「幻觉」(hallucination)，说白了就是不懂装懂。

熟悉 LeCun 的人都知道，他最喜欢举的例子是猫和机器人：

「我们有了会考试聊天的语言模型，但家务机器人在哪里？哪怕像猫那样灵巧的机器人都没有出现。」

「你的猫肯定有一个比任何 AI 系统都更复杂的模型。动物拥有持久记忆的系统，这是目前的 LLM 所不具备的；能够规划复杂动作序列的系统，这在今天的 LLM 中是不可能的。」

他算过一笔账：一个 4 岁小孩通过视觉获取的信息量，几年下来就有 10 的 15 次方字节，远超 LLM 读遍互联网文本。但小孩已经掌握了基本的物理直觉和语言，LLM 耗费这么多数据，智能仍然很有限。

「光靠喂文本，不可能达到人类水平智能。这条路永远走不通。」他如此说道。

在当下最火的风口面前，这样唱反调的言论显然并不讨喜，有人批评他傲慢，有人说他故步自封。甚至 Meta 内部都有声音认为，正是 LeCun 对 LLM 路线的抵触，让公司在大模型竞赛中暂时落后。

但 LeCun 不在乎。

他有自己的路线图：世界模型 (World Model)、联合嵌入预测架构 (JEPA)等等。这些概念听起来学术味十足，核心思想其实很直观——

让 AI 通过观察世界来学习，而不是通过阅读文本来记忆。就像婴儿成长那样，先理解重力、因果关系这些物理常识，再逐步建立抽象认知。

他设想的 AI 架构是模块化的：感知模块、世界模型模块、记忆模块、行动模块，各司其职。不像 LLM 那样把所有知识和推理揉在一个巨型网络里，搞得像个什么都懂但其实什么都不懂的「书呆子」。

具体来说，世界模型就是让 AI 在内部学会一个对外部世界的预测模型。就像婴儿在成长过程中建立起对重力、物体恒存等常识那样，AI 应该通过观察世界，形成对物理规律、因果关系的理解。
有了世界模型，AI 就可以在脑海中模拟未来，从而具备计划行动的能力。

JEPA 则是实现这个世界模型的具体架构。

它采用自监督学习的方法，给 AI 两个相关的输入 (比如视频中相邻的两帧画面)，模型将这两个输入分别编码到一个抽象的表示空间中，然后训练一个预测器，根据「上下文」表示去预测「目标」表示。

这种方式避免了直接生成所有细节，而是关注抽象的关键因素——更符合人类学习方式。LeCun 曾预言，如果团队的路线顺利推进，三到五年内就会有更好的范式出现，使得现在基于 LLM 的方法过时。

问题是，三到五年，Meta 等得起吗？

一场猝不及防的重组，FAIR 的黄金时代结束了

当初，LeCun 建立 FAIR 时的承诺是「做长期的、基础性的 AI 研究」，扎克伯格也同意了。

但这个「长期」到底有多长？「基础研究」到底能给公司带来多少直接收益？这些问题在早期不是问题，因为深度学习本身就是风口，FAIR 做什么都有望转化成产品优势。

可随着生成式 AI 开始爆发，竞争也日益激烈，形势开始发生了变化，尤其是 Llama 4 的失败也给了扎克伯格当头一棒。扎克伯格要的是现在就能用的技术，不是五年后可能有用的理念。

于是，一场猝不及防的重组出现了。

就在今年，Meta 搞了个大动作，成立「超级智能实验室」，把 FAIR、基础模型团队和各应用 AI 团队统统塞进一个筐里。表面上是整合资源，实际上是一场彻底的权力重组。

这场重组的核心逻辑很明确：让研究直接服务产品，让科学家为商业目标让路。

FAIR 团队原本「相对不受干扰地开展研究」，现在得跟着产品节奏走，研究方向要服务于个人 AI 助手。此外，Meta 对 FAIR 的研究发表制定了更严格的内部审核机制。

研究员在对外发布论文、开源代码之前，需要经过额外的内部交叉审阅和管理层审批，原因在于 Meta 担心自己砸钱搞出来的成果被竞争对手白嫖。

LeCun 对这些变化表现出强烈的抵触。

据多方报道，他在内部激烈反对新的论文审核制度，为维护研究自由据理力争。The Information 援引知情者的话称，LeCun 在今年 9 月一度「气到考虑辞职」以示抗议。

但或许更让他难以接受的是领导权的旁落。

扎克伯格在重组中做了一个大胆的人事任命：从外部挖来 Alexandr Wang，让他担任 Meta 的首席 AI 官，直接向 CEO 汇报。

Alexandr Wang 是谁？一个 28 岁的 MIT 辍学生，他创办的公司 Scale AI 专门做数据标注业务，给各大科技公司的 AI 模型提供训练数据。

扎克伯格看中的，恰恰是 Wang 的产品思维和商业嗅觉。在生成式 AI 的竞赛中，Meta 需要的不是象牙塔里的理想主义者，而是能快速把技术转化为产品的实干家。

这个任命的震撼在于：LeCun 这个图灵奖得主、深度学习三巨头之一、在 Meta 干了十二年的首席 AI 科学家，在新架构下的话语权被大幅削弱，甚至要向 Wang 汇报。

同时，今年 7 月，扎克伯格还任命了年轻有为的赵晟佳为超级智能实验室的首席 AI 科学家，负责制定新实验室的研究方向。

有趣的是，LeCun 当时发了个声明，说自己角色没变、使命没变，还期待跟新团队合作。这求生欲属实拉满。但他对于研究方向和领导层重组的分歧，显然是公开的秘密。

而真正可能成为压垮骆驼的最后一根稻草的，是最近的裁员。据报道，Meta 近期对 AI 团队进行了裁员，波及到 FAIR 研究部门以及与产品相关的 AI 团队，甚至华人大佬田渊栋也因此受到了波及。

裁员的信号很明确：Meta 不再愿意为「看不到短期回报」的基础研究买单了。那些不能直接转化为产品功能、不能立即提升用户增长或广告收入的研究方向，都成了被砍的对象。

FAIR 的黄金时代结束了。

种种因素之下，《金融时报》爆料他在筹备创业，倒也不算意外。

学术大佬出来单干，最近几年已经成了硅谷新常态。Hinton 退休后到处演讲呼吁 AI 监管，Bengio 也有自己的实验室和创业项目。LeCun 若是真出去创业，没准反而是好事。说到底，这事儿没有谁对谁错。

LeCun 能够在 Meta 之外继续他毕生的事业。

他带走了那个被 Meta「搁置」的愿景，可以放开手脚搞自己的世界模型，用自己的方式证明它是正确的，再也不用跟产品经理扯皮，不用向 28 岁的小老弟汇报。
成了，那就是「我早说过 LLM 是死路」；败了，顶多被人嘲笑几句「你看那个老顽固」。

而对于 Meta 来说，扎克伯格要给股东讲故事，要把最实用的生成式 AI 塞进旗下产品的各个角落，这确实是 CEO 该干的事。

只是，尽管少了 LeCun 也不会伤筋动骨，但可能会少点不一样的声音。等哪天大家发现 LLM 真的走到瓶颈了，回头看看当年那个举着反对牌子的倔老头说过什么，或许会觉得别有一番趣味。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

Normal view

更「聪明」的模型，为什么不讨喜了

Google 的阳谋，与奥特曼的 8300 亿「空城计」

告别「抽卡」玄学，编辑细节能力拉满

终于不再画「鬼画符」，但中文表现……

你的下一位设计师，何必是人？ChatGPT 申请出战

开源模型新标杆，SWE-Bench 霸榜开源第一

长文本性能不打折，成本降 6 倍的秘密

算力只用 1/50，性能如何不打折？

小米的 AI 野心，不止于手机助手

会追问、能辟谣、还有名医分身，蚂蚁阿福缓解了我的「健康焦虑」

体检一年只有一次，但健康管理需要 365 天都「在场」

「有时治愈，常常帮助，总是安慰」

不聊天，真干活，GPT-5.2 闯进打工人职场

幻觉率降低 30%，长文本能力接近完美

一个坏消息，和一个好消息

从 AI 赢家到被质疑，不过一年时间

开源？闭源！Llama 4 失败成为转折点

基础设施转型，押注超级数据中心

苹果设计团队的「黄金时代」已经结束了?

米哈游前 CEO 做了个「毒舌」AI，只想跟你对线互怼

ANUNEKO 的「AI 哲学」：不卷智商，专攻情商

一张图+一句话，万物皆可边唱边跳

千问 P 图+生视频=快乐²

体验随时桌面唤起千问方式后，让我彻底告别传统浏览器

标签页的尽头，是 AI 的起点

大模型集体「上新季」，Opus 4.5 强势压轴

Claude 无处不在，桌面、浏览器、Excel 全接入

让模型「更聪明也更省」，Opus 4.5 迎来底层大升级

语音识别断档领先，豆包输入法的「杀手锏」有多强?

139MB 的 AI 输入法，除了语音识别还剩什么?

不再「瞎猜」，Nano Banana Pro 终于学会了先思考再画画

搜索 + 生成 = ？Google 给出了终极答案

无愧 Pro 之名，谷歌最强 AI 模型深夜发布

ChatGPT 的对手来了，Gemini 3 实测表现「能打」到什么程度？

62 亿美元，贝索斯开启史上最壕创业

马斯克为什么说贝索斯「抄袭」？

不懂也能用的 AI， 才是真正的 AI

技术的温度， 藏在你看不见的地方

16.5 亿次调用背后，是每个普通人最真实的 AI 需求

李飞飞放大招，一句话生成完整 3D 世界

李飞飞的北极星：空间智能

2013 年那场豪赌，扎克伯格赌对了吗？

猫比 ChatGPT 聪明？这个图灵奖得主是认真的

一场猝不及防的重组，FAIR 的黄金时代结束了

不懂也能用的 AI，才是真正的 AI

技术的温度，藏在你看不见的地方