Normal view

There are new articles available, click to refresh the page.
Today — 1 April 2026Main stream

不开玩笑,Claude Code源码泄露,50万行代码被扒光

By: 莫崇宇
1 April 2026 at 06:38

世界是个巨大的草台班子。

今天下午,开发者 Chaofan Shou 发了一条推文,直接放出了 Anthropic 最新命令行工具 Claude Code 的完整源码压缩包 src.zip。

这条推文迅速在开发者圈子里炸开,几个小时内浏览量突破 530 万。

评论区瞬间热闹起来,用户 @ai_for_success 只说了一句:「快给 Dario 打电话!」(Dario Amodei 是 Anthropic 的 CEO);

有网友直接爆粗:「见鬼了。」另一位开发者 @realsigridjin动作更快,已经把泄露的源码备份到了 GitHub,仓库名叫 instructkr/claude-code,标注为「Claude Code Snapshot for Research」。

也就是说,即便 Anthropic 紧急删除原文件,代码也已经在开源社区里永久留存了。这次泄露的体量相当惊人:近两千份文件、超过五十万行 TypeScript 代码,全部在网上裸奔。

▲附上地址🔗 https://github.com/instructkr/claude-code

只是,这么大一家 AI 独角兽,核心代码怎么就泄露了?答案说出来都让人哭笑不得:他们往 npm 发包的时候,忘了删 .map 文件。

不过,当全球开发者蜂拥扑向这份源码时,很难不发出惊叹,因为在这份本不该公开的代码里,除了 Claude Code 源代码,Anthropic 藏着一整套极其浪漫又硬核的 AI 蓝图:

有能在终端里陪你写代码的赛博宠物,还有会在半夜自己「做梦」整理记忆的常驻 AI 助手。

一场史诗级的公关灾难,硬生生变成了一场震动业界的「野生发布会」。

一次低级失误,撕开了 Claude Code 的秘密

在聊那些让人兴奋的未来功能之前,得先看看 Anthropic 眼下有多狼狈。

如果你最近用过 Claude 的 API,大概率遇到过一个诡异的问题:你的使用额度像漏水的浴缸一样,以完全不正常的速度疯狂往下掉。目前 Anthropic 官方还在焦头烂额地排查这个让 Token 消耗暴增的 Bug。

屋漏偏逢连夜雨,Token Bug 还没修好,底裤又被扒了。

这次闯祸的 .map 文件(Source Map),前端和 Node.js 开发者都不陌生。

它的作用是把压缩、混淆后的生产代码映射回原始源码,方便开发者本地调试。但正式发布到 npm 这类公共镜像库时,删掉 .map 文件是写在每本新手教程第一页的基本操作。

然而,一向把「安全、谨慎」挂在嘴边的 Anthropic,居然犯了这种实习生级别的错误。

泄露的架构本身也足够震撼:四十多个功能模块组成工具层,涵盖文件读写、Bash 执行到子 Agent 生成;一个近五万行的推理核心 QueryEngine.ts 负责思维链调度;还有多智能体调度器 coordinator 和 IDE 桥接模块。

除此之外,开发者们从源码里扒出的未发布功能,信息量大得惊人。

其中,在所有泄露的隐藏功能中,代号 BUDDY 的项目讨论度最高。用户 @baanditeagle 在 Chaofan Shou 原帖的评论区贴出了 BUDDY 功能的截图,让整个讨论彻底沸腾。

想象一下这个画面:你正对着黑底白字的终端敲代码,突然,输入框旁边弹出一个像素风的对话气泡,里面住着一只专属于你的赛博宠物。它的设定十分细致:

  • 宠物根据你的用户 ID 哈希值生成,每个人孵出来的都是独一无二的。
  • 代码里预设了 18 种生物,有鸭子、龙、六角恐龙(axolotl)、水豚、蘑菇,甚至还有幽灵。
  • 宠物分「普通」到「1% 传奇」的稀有度,还有各种帽子外观和类似宝可梦的「闪光(Shiny)」变体。
  • 赛博宠物有五项动态数值:DEBUGGING(调试力)、PATIENCE(耐心)、CHAOS(混沌)、WISDOM(智慧),以及最亮眼的——SNARK(阴阳怪气值)。
  • 第一次孵化时,Claude 还会根据这些数值实时生成宠物的名字和性格,配上精灵图动画和漂浮的爱心特效。

这多少让人想起当年微软 Office 那个烦人的「大眼夹(Clippy)」。但 BUDDY 可以说是它的终极进化版。

有趣的是,源码显示,这个功能原计划 4 月 1 日到 7 日作为彩蛋预热,5 月份先向 Anthropic 员工内测。但现在,全世界都提前知道了这个惊喜。

一个会做梦的 AI,和睡不着的 Anthropic 团队

如果说 BUDDY 是工程师的浪漫彩蛋,那代号 KAIROS 的功能,就彻底暴露了 Anthropic 在 AGI 路径上的野心。

我们现在和大模型对话,基本都是「阅后即焚」的。关掉网页,新开对话,一切从头来过。KAIROS 想打破这个局面,它被定义为「Always-On Claude(永远在线的克劳德)」。

这不只是一个长文本记忆库。KAIROS 能在不同会话之间保持持续记忆,把你的工作习惯、项目背景存在一个私密目录里。它甚至有权限主动发起任务。

此外,代码里还有一个名为 Nightly Dreaming(夜间做梦)新的机制。

怎么理解呢?在人类生理机制中,睡眠时的「做梦」是大脑整理白天碎片记忆、清除无用突触、巩固重要信息的关键过程。

Anthropic 把这个仿生学概念引入了 AI。为了防止长期记忆日志无限膨胀、导致逻辑混乱,KAIROS 会在夜间自动启动「做梦」进程。代码里甚至详细处理了午夜跨日的时间戳问题,确保做梦进程不会中断。

具体而言,在这个进程中,Claude 会像人脑一样在后台回溯你当天的交互,剔除冗余信息,把核心内容沉淀为长期记忆。

AI 白天帮你写代码,深夜你睡着后,它独自在服务器里「做梦」来更懂你。把一个冷冰冰的工程问题(上下文窗口压缩与检索)变成充满生命隐喻的解决方案,这种产品思路确实让人眼前一亮。

除了 BUDDY 和 KAIROS,源码里还藏着更多东西:

  • ULTRAPLAN:支持在云端进行长达 30 分钟的远程深度规划。也就是说,Claude 不再只是给几行代码建议,而是能接管整个系统架构的构思和推演。
  • Coordinator Mode(协调者模式):这可能是通往终极 Agent 的关键。在这个模式下,一个主 Claude 实例可以同时生成并管理多个「工人 Agent」,让它们并行处理复杂的工程任务。

可以说,当其他大模型还在卷跑分、卷多模态效果的时候,Anthropic 已经尝试在系统底层悄悄搭建一套完整的「数字员工生态」:有记忆(KAIROS),有规划能力(ULTRAPLAN),有团队协作(Coordinator),甚至还有情绪陪伴(BUDDY)。

如无意外,Anthropic 的工作人员大概正在经历一个不眠之夜,。Token 消耗 Bug 还没解决,又来了史诗级源码泄露,对任何科技公司来说都是灾难。

但这场灾难又让人感慨万千。

在 AI 行业越来越充斥着 PPT 画饼、期货发布和同质化竞争的今天,Anthropic 用一种最尴尬、最不体面的方式,向外界展示了他们真正在做的东西有多前卫。

当然,也有人看到了更深的问题。用户 @QiyangYao 在评论区写道:

如果所有东西都像今天的 Claude Code 这样泄露,迟早有一天,某个黑客组织——会利用 AI 加上这些开放框架,搞出史上最具破坏性的事件。

看似滑稽的工程事故背后,是这家顶级 AI 公司在安全管理上的系统性漏洞。Anthropic 花了数十亿美元研究一个终极问题:如何让 AI 变得更像人类。这次泄露事件给出了一个意外的答案:不用急,先让人类变得更像 AI 就行了。

比如,学会在发布前自动执行一遍检查清单。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

「电子垃圾」iPhone 4,成了打脸 AI 审美的回旋镖

By: 莫崇宇
29 March 2026 at 06:38

「iPhone 4 回收价暴涨 80 倍」

「iPhone 4 回收可卖 400 元」

「手机店老板说回收手机比挖金矿便宜」

最近这些热搜,我是刷了一条又一条,有时甚至已经分不清这是科技新闻还是财经报道了。

就在我以为全是二手贩子们自导自演的热闹时,GadgetHacks 最新数据显示,iPhone 4 在过去一年的搜索热度也的确实打实翻了十倍;TechRadar 的数据更夸张,购买 iPhone 4 的搜索量暴涨了 979%。

只是,作为一台没有 5G,没有人脸识别,连电话都打不出去的「电子古董」,iPhone 4 怎么突然就成了年轻人的心头好?

「烂」本身,成了卖点

想理解这件事,得先回到手机影像这十年走过的来时路。

过去十年,手机摄影进化的方向几乎只有一条:更清晰、更稳定、更聪明。高像素、大底传感器、AI ISP、多帧合成……技术每前进一步,「失败的照片」就少一张。

到今天,你几乎很难再拍出一张真正「糟糕」的照片了。

天空蓝得恰到好处,夜景亮如白昼,人像完美无瑕。算法在你按下快门之前就已经开始运算,帮你把所有不确定性提前消灭掉。
结果是什么?

世界太清晰了,清晰到没有一点秘密,也清晰到极其平庸。每一张照片看起来都是「正确答案」,而正确答案看多了,就失去了惊喜感。

人天生对「不完美」有一种隐秘的迷恋。胶片的颗粒感、CCD 的过曝、宝丽来的偏色——这些「缺陷」之所以被反复追捧,不是因为它们在技术上更先进,恰恰因为它们留下了某种无法复制的「意外」。

iPhone 4,就是这逻辑下的最新受害者,抑或者说,最新受益者。

要搞清楚 iPhone 4 为什么拍出来那个味道,得先看看它的硬件有多「寒酸」。

后置摄像头只有 500 万像素,传感器尺寸是 1/3.2 英寸背照式 CMOS。宽容度极差,稍微光线暗一点,传感器就开始疯狂产生热噪点和散粒噪声。

面对高光,它压不住,直接过曝一片白;遇到暗部,它提不亮,死黑一片。自动白平衡算法也很原始,在室内灯光下极容易偏黄、偏绿。

▲图片源自 TikTok 网友@richardstransitdiary

这些放在参数表里,确实一无是处。但年轻人偏偏从这堆缺点里,看出了另一种美。
500 万像素的低解析力,天然模糊掉脸上的痘印和毛孔,比任何「磨皮算法」都自然,是最无感的颜值滤镜。那种压不住高光、提不亮

暗部的「爱咋咋地」式曝光,反而呈现出黑得纯粹、亮得耀眼的高反差画面,符合传统摄影的自然美学。

就连那不规律的色偏,在海外 TikTok 年轻人眼里被赋予了一个极具氛围感的词:「情绪」。

一张偏黄的室内自拍,糊糊的、暖暖的,像从记忆里打捞出来的老照片。没有精准的白平衡,没有讨好眼球的饱和度,甚至连细节都是模糊的。

但正因为模糊,反而留下了一种暧昧的空间感,看的人会不自觉地往里填东西,填情绪,填记忆,填自己的故事。这种质感,花再多钱买来的旗舰镜头,也拍不出来。

iPhone 4 受追捧的背面,还有一条隐线。

从 iPhone 5S/6 时代开始,苹果引入了更强的 ISP(图像信号处理器)。为了掩盖噪点,算法开始主动「涂抹」画面。这就是那个被称为「水彩画效应」的阶段——画面肉呼呼的,糊糊的,噪点没了,但复古味也一起没了。

2019 年,随 iPhone 11 系列推出的 Deep Fusion(深度融合)是苹果计算摄影的真正分水岭。发布会上,苹果高管 Phil Schiller 专门放大了一件毛衣的针织纹理,骄傲地展示机器学习如何还原每一根线头的细节。

清晰确实无可辩驳,但也带来了两个难被忽视的副作用。

第一个是过度锐化。算法为了强调纹理,会把边缘「加硬」,放大来看,线条生硬,不像是光通过镜头自然落下的样子,更像是被人工描了一圈轮廓线。

第二个是降噪涂抹。为了让纹理清晰,暗部的噪点被暴力抹平。皮肤失去了毛孔,平滑表面出现了「塑料感」,整张照片像是被套上了一层薄薄的蜡。

这种被计算出来的「精致」,在参数党眼里是进步,在追求质感的年轻人看来,却越来越像是一种冷漠:机器在替你做审美决定,而且过犹不及。

最近就有海外网友做了一个有意思的测试:把 iPhone 4 和 iPhone 17 Pro 放在同一场景下各拍一张,发到社交媒体上征集评价,结果出乎意料,iPhone 4 的好评反而更多。

▲iPhone 4 和 iPhone 17 Pro 拍同一场景,iPhone 4 好评居多。

这当然不是说 iPhone 4 的影像能力更强。它赢的,恰恰是一种说不清道不明的「人味儿」。

除此之外,iPhone 4 这波「回春」,还少不了颜值的功劳。乔布斯在发布 iPhone 4 的 WWDC 上,把这台手机比作「一台优美的老徕卡相机」。放在 15 年后重新审视这个比喻,也依然不违和。

前后玻璃加不锈钢中框的经典三明治结构,边缘利落的直角切削,3.5 英寸小屏配上物理 Home 键——整体设计有棱有角,精密感十足。

对比同时代 iPhone 3G/3GS 那种廉价感的圆润塑料机身和镀铬银边,iPhone 4 在工业设计上确实高了一个段位,放在今天也依然有辨识度。

而这种「有棱有角」的美,刚好和当下 iPhone 圆润轻薄的玻璃背板形成了强烈反差。时代兜了一圈,直角中框反而成了更推崇的设计语言。某种程度上,iPhone 4 早就预言了这一切。

情怀被明码标价,但我劝你先冷静

在任何一波怀旧浪潮里,当情怀被明码标价,也自然少不了商家的推波助澜。

嗅到商机的商人,开始在二手平台大量收购 iPhone 4 系列机型,翻新、清洁、贴膜,挂上「复古情怀」「原生画质」的标签,价格直接上去。废品回收站 5 块钱一台,转手 150 到 400,最高溢价 80 倍。

更绝的是,部分商家预先在机器里装上《水果忍者》《小鳄鱼爱洗澡》《植物大战僵尸》等十几款当年的经典游戏,用「复古游戏包」强化购买时的情绪体验,让年轻买家感觉自己拿到的不只是一台手机,而是一整段消逝的青春。

当然,炒作本身无可厚非,但如果你准备下单了,建议先冷静三分钟。情怀是美好的,但被时代淘汰也是客观事实。这台 15 年前的手机,在当下的实用性几乎为零。

一方面,iPhone 4 永远停留在 iOS 7.1.2,这个版本早已停止更新,各种安全漏洞无法修复,连接网络后,手机里的信息很容易被泄露,相当于在网络环境里「裸奔」。

iPhone 4 仅支持 3G 网络,而目前国内的 3G 网络几乎全面退网,即便插入手机卡,也无法正常接打电话、使用流量。它唯一的使用场景,就是连接 Wi-Fi,勉强用来拍照、玩几款复古小游戏,实用性大打折扣。

除此之外,iPhone 4 还存在诸多硬伤:电池老化严重,即便更换新电池,续航也难以支撑正常使用,长期使用后,系统卡顿、应用闪退等问题也会频繁出现,严重影响使用体验。

说白了,iPhone 4 现在的最终宿命,大概率和 CCD 相机一样:偶尔拿出来拍几张「氛围照」,亦或者更多时候就是放在桌上做摆件。

如果你的心动,只是被社交媒体平台上的「渣画质」出片效果种草,单纯想要拍出 iPhone 4 那种复古、有情绪的照片,其实完全不必花冤枉钱入手这台「电子古董」。

我们为你整理了一组 AI 提示词,不用花钱,就能轻松模拟出 iPhone 4 的成像效果,性价比拉满:

「Use the reference image as a strict blueprint and keep the same framing, perspective, identity, pose, expression, wardrobe, textures, background, and lighting. Restyle it as a 2010 iPhone 4 straight out-of-camera 5MP JPEG: moderately limited dynamic range with mild highlight clipping and slightly lifted shadows, moderate contrast, subtle color cast and imperfect white balance, light grain and light chroma noise, soft edges with faint sharpening halos, mild JPEG smearing and macroblocking, slight banding, subtle vignetting, and faint handheld micro-blur in low light.」

把用现在手机拍的照片丢进去,出来的效果和真机相差无几。500 万像素的颗粒感、偏暖的色调、轻微的过曝,全都有,而且随时能调整、反复试验,比淘一台实机方便得多。

说到底,年轻人追捧 iPhone 4,追捧的从来都是它所承载的那些东西:复古质感、真实情绪,以及某一代人关于青春的集体记忆。这份情感,完全值得被尊重。

只是,情怀有价,智商税没有必要交。与其花几百上千元入手一台实用性为零的「电子古董」,不如用更便捷、更省钱的方式,捕捉自己喜欢的复古质感,这才是潮流背后,最有意义的追求。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,OpenAI 创下史上最大融资纪录,估值逼近万亿

By: 莫崇宇
1 April 2026 at 06:32

当所有人还沉浸在 Claude Code 源码泄露事件时,OpenAI 又双叒叕出来抢头条了。就在刚刚,OpenAI 官宣完成一轮 1220 亿美元的融资。

单轮私募 1220 亿,人类商业史上从未有过。融资完成后,OpenAI 的估值落在 8520 亿美元,距离万亿只差一步,而这家公司成立至今才十年。

值得一提的是,这轮融资最初在今年 2 月公布时,承诺金额还是 1100 亿美元,最终收盘时多出了 120 亿,说明后来跟进的机构比预期的多。

外界普遍认为,这是 OpenAI 在年底 IPO 前最后一次大规模私募,上市节奏已经越来越清晰。

钱从哪来的

这轮融资的主要出资方,是亚马逊(500 亿)、英伟达(300 亿)、软银(300 亿),软银还和 a16z、D.E. Shaw 等机构联合领投。

微软作为多年老伙伴继续跟投,但这次没有公开具体金额,只知道截至去年底,微软在 OpenAI 的累计投入已经超过 130 亿美元。

此外,OpenAI 还首次通过银行渠道向富裕个人投资者开放募集,这部分筹到约 30 亿。ARK Invest 旗下规模 60 亿美元的旗舰创新 ETF 也宣布纳入 OpenAI,持仓比例约 3%,这也是该基金首次投资非上市公司。

事实上,T. Rowe Price 和 Fidelity 管理的部分基金早已持有少量 OpenAI 股份,这次 ARK 的加入,进一步打通了普通人参与的渠道。

简言之,几乎整个科技圈都在给 OpenAI 撑场面。

但仔细想想,逻辑其实很简单:OpenAI 拿了这些钱,还是要去买英伟达的芯片,租亚马逊和微软的服务器。巨头们把钱投进来,等于提前锁定了全球最大的算力客户。这轮融资,与其说是看好 OpenAI,不如说是一门稳赚的生意。

而对 OpenAI 来说,这笔钱更像是 IPO 前的最后一次大补仓。

账面数据确实好看:每周活跃用户接近 9 亿,付费用户超过 5000 万,去年全年营收 131 亿美元,单月进账最高 20 亿,而且增速是当年谷歌、Meta 这些互联网巨头同阶段的四倍。

只是,OpenAI 还没盈利,烧钱的速度一点没降下来。

为什么要关掉 Sora

这次融资前后,OpenAI 的产品节奏并没有停滞不前。

他们发布了目前最强的 GPT-5.4,在多任务处理和工作流性能上都有明显提升。代码生成工具 Codex 也从一个功能升级成了独立的编程 Agent,目前每周活跃用户超过 200 万,过去三个月涨了五倍,月增速维持在 70% 左右。

企业端的表现同样值得关注。目前企业服务已经占到 OpenAI 总营收的 40% 以上,预计到 2026 年底会和消费者端打平。

API 每分钟处理的 token 数量超过 150 亿,搜索功能的使用量在过去一年接近翻了三倍,广告试点项目在上线不到六周内年化收入就突破了 1 亿美元。这也是 OpenAI 希望向外界传递的信号,收入来源越来越多元,ChatGPT 的订阅费用只是其中一块了。

然而,就在这一片飘红的数据旁边,Sora 悄悄地下线了。

Sora 刚发布时,确实在影视圈和创意行业引发了不小的震动。一句话生成视频,画面质感还挺真实,很多人觉得这是 AI 技术最让人兴奋的那种东西。

但视频生成的算力消耗,远比文字生成高得多。AI 的每一次推理、每一段文本生成、每一帧视频渲染,都在真实消耗着昂贵的 GPU 计算周期和电能。没有免费的智能,每一次调用都是真金白银的损耗。

而用户这边,虽然觉得好玩,却没多少人愿意为此付高价。

根据华尔街日报》报道,OpenAI 之所以选择关闭 Sora,原因之一也是因为它每天要烧掉约 100 万美元,可用户数量却从上线时的 100 万,暴跌到不足 50 万。

当留存数据难看,商业化路径又模糊不清,这笔烧钱的买卖,自然没有继续下去的理由。于是,现实还没被颠覆,Sora 就已经不存在了。

关掉 Sora 只是开始,OpenAI 还在审视其他花钱多、回报慢的方向,准备进一步收缩;把算力集中到文本模型、代码生成、企业服务这些有稳定现金流的方向,也是 OpenAI 在向华尔街表态:我们知道、也需要怎么赚钱了。

从「改变世界」到「水电煤」

OpenAI 成立于 2015 年,最初的愿景是确保通用人工智能造福全人类。

2019 年,为了筹到足够的研发资金,公司转型为「有限盈利」模式,成立了营利性子公司,接受了微软 10 亿美元的投资。运营主体虽然商业化了,但非营利性的 OpenAI 基金会仍持有约 26% 的股权,名义上延续着最初的公益使命。

OpenAI 融资的官方声明里有一句话值得注意:「构建智能本身的基础设施层」。

寥寥数语,其实道出了 OpenAI 自我定位的转变。以前他们更在意用一个个惊艳的 Demo 刷新外界对 AI 的认知,现在更想做的,是退到幕后,成为企业和个人离不开的底层工具。

他们把这个方向叫做「超级应用」,计划把 ChatGPT、Codex、搜索、浏览器等能力整合进一个统一的入口,主要面向开发者和企业用户,让人不用在一堆工具之间跳来跳去。

这背后的逻辑,是让消费者端的习惯自然带动企业端的采购,两块业务互相强化。

一个普通用户可能今天觉得新鲜、明天就取消订阅,但一家把核心业务跑在 OpenAI 模型上的企业,不太可能说断就断,后者才是华尔街真正想看到的那种客户黏性。

过去几年,AI 行业隔三差五就会出现让人眼前一亮的东西,新模型、新产品、新的可能性,一波接着一波。

但从这轮融资和 Sora 被关掉这件事来看,那个充满惊喜的阶段,可能真的要告一段落了。接下来可能更像是一门成熟的生意:有人管算力、有人管数据、有人管销售,大家各守一块,讲究成本控制,讲究商业落地。

OpenAI 已经回不到从前了,但它也许本来就没打算回去。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Yesterday — 31 March 2026Main stream

凌晨三点,我在排队等一个 AI

By: 莫崇宇
31 March 2026 at 17:11

「你见过凌晨四点的洛杉矶吗?」

这本是一句用来兜售自律的鸡汤文,可在 AI 浪潮漫过各行各业的今天,深夜走进一家 AI 漫剧制作公司,你可能会看到一群眼圈发黑的打工人在工位上使用 AI 来处理他们本该在白天完成的工作。

AI 能提升效率、解放劳动力的故事,我们听了太多年,不能说全是谎言。

但当算力变成紧俏的稀缺资源,「错峰使用」也成了全球 AI 公司心照不宣的统一话术时,打工人非但没有从冗余的工作里解脱,反而被塞进了另一套更拧巴的工作时间表里。

AI 算力不够,打工人的睡眠来凑

今年年初,字节跳动的 AI 视频生成模型 Seedance 2.0 爆火,火到无需多言。

宇树科技创始人王兴兴称它是「全球遥遥领先」。冯骥体验过后,给出「AIGC 的童年时代结束了」的评价,春节返工后的高峰时段,排队使用的人数一度冲到十万,足以见得市场对它的狂热。

行业大佬的背书、市场的狂热,直接推高了 Seedance 2.0 的旺盛需求,而这份需求,最终也传导到了下游的 AI 相关企业。

据 36 氪未来消费报道,AI 漫剧制作公司鹤芽漫剧,早早就把上班时间调到了中午,一干就到凌晨 1 点,目的只有一个:避开白天的算力高峰。

更戏剧性的情节是,凌晨 1 点的排队人数仍以万计,无奈之下,上班时间只能再往后提,最终定格在凌晨三点。

 

据此前 The Information 报道,想获得 Seedance 的企业授权,先要通过资质审核,想拿到谈判席位,企业需要先承诺至少 1000 万元人民币的使用预算,这还只是排队的起步价。

值得注意的是,这些报道的细节未必完全准确,但有一点大概率成立:能坐上谈判桌的,本来就是少数。

对大多数中小型公司来说,错峰上班,用人熬夜换机器运转,反倒成了最务实的办法。

究其原因,AI 工具的能力已经强到足以重组一家公司的工作方式,可支撑它的基础设施,却还没跟上这份能力的步伐。AI 的每一次推理、每一段文本生成、每一帧视频渲染,都在真实消耗着昂贵的 GPU 计算周期和电能。

没有免费的智能,每一次调用都是真金白银的损耗。这直接倒逼 AI SaaS 平台的定价模型,从过去的席位制,转向基于 Token、基于操作、基于消耗量的计费方式,一分一毫都算得清清楚楚。

在这样的 Token 经济学逻辑下,边际成本高企,平台方根本无法容忍用户在算力紧张时无节制消耗。因此,限制配额、排队等待、建议错峰使用成了必然选择。

另一个方面就是 Sora,据《华尔街日报》报道,OpenAI 之所以选择关闭 Sora,原因之一就是它每天要烧掉约 100 万美元,可用户数量却从上线时的 100 万,暴跌到不足 50 万。

当留存数据难看,商业化路径又模糊不清,这笔烧钱的买卖,自然没有继续下去的理由。

包括同一时期,Anthropic 宣布调整 Claude 的使用规则,将太平洋时间早 5 时至 11 时定为高峰时段,这个窗口内,用户的会话额度消耗会明显加快。换算成北京时间,恰好是晚 8 点到凌晨 2 点,也让不少网友自嘲,难得享受到了时差的红利。

去年 DeepSeek 爆火时,也因为服务器资源紧张做过类似的尝试,一度暂停了 API 充值。重新开放后推出了夜间优惠,表面上是给用户让利,本质上,就是用价格杠杆,把流量强行分散到夜间,缓解白天的算力压力。

只是,我们发明 AI 是为了像人一样思考,结果却要求人像机器一样「错峰运行」。

当然,这或许只是一个过渡阶段。当年宽带刚普及的时候,也有人半夜爬起来下载一部电影,谁也没想到后来流媒体会变得如此理所当然。

尽管我们还没有到完全被 AI 支配日程的地步。但这个苗头依旧值得留意——当越来越多的工作流开始依赖 AI,当 AI 的响应速度和可用性直接影响到一家公司的产出效率,人对它的依赖,也就在不知不觉中加深了。

用了 AI,为什么越来越累?

如果说第一部分的「错峰上班」还只是为了解决能不能用的问题,那么更深层的痛苦则来自于:即便算力充足,AI 也没有让工作变少。

在铺天盖地的宣传里,AI 是那个无所不能的超级助理,是解放双手的灵丹妙药。可一旦这些工具真正落到具体的工位上,打工人们发现,预想中的「一键下班」并没有发生。

Upwork 在 2024 年对 2500 名职场人士的调查发现,96% 的管理层坚信 AI 会提升员工效率,可实际上,77% 的员工反映,AI 的引入,反而让他们的工作量增加了。

领导们觉得 AI 在帮你减负,于是理所当然地给你加派任务;而你却像个被抽得越来越快的陀螺,忙得脚不沾地,连喘息的时间都没有。

EY 2025 年覆盖 29 个国家、1.5 万名员工的调查,给出了类似的结论:64% 的受访员工认为过去一年工作量有所增加,而真正能把 AI 用到改变工作方式、提高效率的,只有 5%。

换句话说,大多数人用 AI,还停留在搜索、总结这种浅层层面。并且根据《哈佛商业评论》今年 2 月份的研究,AI 非但没有减少工作,它让工作强度变高了。

研究发现,AI 引入后,员工的工作节奏被强行加快,承担的任务范围变宽,工作时间延伸到了更多碎片化的小时里,而且很多时候,并没有人明确要求他们这样做。

这背后,藏着一个容易被忽视的经济学逻辑——「杰文斯悖论」:

技术让某件事变得更高效,往往反而会增加对这件事的总需求。AI 在职场中的处境,完美契合了这个悖论:单项任务的效率提高了,但任务总量也跟着水涨船高,最终,打工人的总工作量,非但没有减少,反而越来越多。

尤其是当 AI 生成的内容如海啸般涌现,可事实核查、逻辑梳理、细节修改这些需要人类判断力的工作,仍然只能由人来完成。于是,打工人的工作,从具有成就感的创造,悄然变成了枯燥又疲惫的打扫和校对。

期间工作量并没有凭空消失,它只是换了一种更隐蔽、更折磨人的形式。

除此之外,人不光要把自己的本职工作做好,还得自己去琢磨那些不好懂的提示词,在各个 AI 模型之间来回切换、反复尝试,才能找到能用的工具。

伊万·伊利奇 1981 年提出的「影子劳动」,指的是为了维持正式工作运转而不得不做的无偿准备性劳动。学会用 AI、管理 AI 工具链、校验 AI 输出,这些也正在成为职场隐性的准入门槛,既不算工作时间,又不计入薪酬,却真实地消耗着人的时间和精力。

比如有的人为了不被时代落下,也为了完成公司要求的 AI 使用指标,只能自己花钱,每个月掏几百上千块,去订阅各种 AI 工具的高级账号。

凌晨三点上班,看上去是在抢算力红利,本质上,是个人在用自己的生物钟,替一个还未成熟的行业,扛下它转嫁出来的不稳定性和成本。这笔账,怎么算都不划算。

只是目前在时代浪潮面前,个体的反抗,大多显得苍白无力。

工业革命以前,人跟着太阳走,天亮干活,天黑睡觉,时间是自己的。后来有了电,夜班出现了,工作时间开始突破昼夜的界限。再后来有了互联网,下班的边界开始模糊,工作可以随时随地找上门。

再后来有了手机,随时在线变成了默认状态,工作彻底入侵了生活的每一个角落。

每一次技术迭代,都有人说,这是自愿的,是进步,是效率的提升。

每一次,也都有人发现,最后承担代价的人,从来都不是最先喊着技术革命的那个人。

我们最初希望 AI 能替人省力,让时间变得宽裕一些。可眼下的现实是,它在某些地方确实提升了效率,却也在另一些地方制造了新的紧迫感:因为它能做到,所以你必须用;因为人人都在用,所以你不能慢。

内卷的逻辑没有消失,只是换汤不换药。我不确定这算不算一种必然的规律。但我知道,AI 本该是给你一把伞,帮你遮风挡雨,而不是顺理成章地把你赶进一场更大的暴雨里。

*封面、正文图片源自互联网

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

腾讯「八虾夺嫡」内幕:一只龙虾,怎么成了全村的希望

By: 李超凡
30 March 2026 at 09:24

99 年生的张舒昱,是腾讯电脑管家团队入职不久的产品经理,这在腾讯算不上核心业务线。

今年 1 月 OpenClaw 刚在中国爆火,她着了迷,拉上几个人攒了一个产品原型 QClaw:基于 OpenClaw,一键安装,通过微信直接操控智能体。

项目在腾讯体系里几乎没有存在感,没有立项审批,没有总办资源,几个年轻人凑在一起写代码。

3 月 9 日,QClaw 内测上线。一周之内,数百万用户注册。

然后事情开始失控,惊动了腾讯总办。

高层反应极快,随即调拨数十名员工和计算资源到张舒昱的团队。同日,另一支团队推出了 WorkBuddy,同样兼容 OpenClaw。再隔一天,腾讯港股大涨超过 7%,投资者把涨幅直接归因于这两只虾。

3 月 11 日凌晨 2:06,马化腾发了条朋友圈:「自研龙虾、本地虾、云端虾、企业虾、云桌面虾,安全隔离虾房、云保安、知识库……还有一批产品陆续赶来。」

这对腾讯 11 万员工是一个鲜明的信号,无数员工将其解读为:Pony 支持他们 all in 龙虾

据 The Information 独家报道,截至本月,腾讯内部同时有 8 个团队在开发基于 OpenClaw 的产品和服务。加上在研和内测项目,总数已超过 10 个。

15 年前,腾讯内部三个团队赛跑移动 IM,张小龙的广州研发部跑出了微信,是腾讯史上赛马最成功的一次。这次换了个物种,叫赛虾。

一个 99 年产品经理做的边缘项目,两周之内变成一家万亿市值公司的战略支点,似乎有点不可思议。

张舒昱对 The Information 说了一句大实话:「我们都在用 AI Agent 做实验。此刻,没有人能说什么是最佳方法。」

翻译一下就是:我们也不知道答案,但先跑起来总比站着强。

全村的希望:腾讯为什么把命押在一只虾身上

要理解腾讯对龙虾的狂热,先要直面鹅厂当下在 AI 竞争中的处境。

过去两年,中国 AI 大模型军备竞赛打得昏天暗地。

阿里砸钱做千问,字节孵出豆包,在用户规模和模型能力上都拉开了身位。腾讯呢?手握游戏和微信广告的丰厚利润,但在 AI 赛道上远不及这两个对手激进。

自研的混元大模型尚且无法与竞争对手匹敌,又拖累了自家 AI 助手「元宝」的进展。

腾讯不是没努力。去年请来前 OpenAI 研究员姚顺雨执掌混元研究,重建了研发基础设施。 4 月即将发布的混元新一代模型,业内普遍视为腾讯模型能力的一次摸底考试。

▲姚顺雨. 图片来自:智源社区

但远水解不了近渴,在新模型交卷之前,缺乏强大的内部模型,让元宝在与豆包和千问的竞争中暂时落于下风。

所以当 OpenClaw 在中国引爆了 Agent 热潮,腾讯高层几乎是本能地抓住了这根绳子。这只龙虾证明了 AI 的下一个爆发点未必在聊天框里,可能在桌面上,在工具里,在无数个能替你干活的智能体身上。

腾讯高层的判断很清晰: OpenClaw 引发的这一轮 Agent 浪潮,将是 AI 战场重新洗牌的机会

他们逻辑是这样的,如果腾讯能通过将 OpenClaw 类Agent 能力与微信深度整合,提供配套工具和服务,成为中国最好的 Agent 使用平台,那么即便其内部大模型不是最强大的、AI助手也不是最受欢迎的,腾讯依然有可能在 AI 下半场逆风翻盘。

2020 年,马化腾在腾讯内部将视频号称为「全村的希望」,寄望于它在短视频赛道上扳回一城。如今,「全村的希望」换了物种。

区别在于,视频号好歹是亲生的,龙虾来自一个奥地利独立开发者的 GitHub 。

某种意义上,这更像是 2014 年纳德拉接手微软后做做的事,承认在移动互联网上输了,放下「什么都要自己做」的控制欲,押注一条全新赛道。

纳德拉用了十年,腾讯希望快一点。

八虾夺嫡,腾讯赛虾背后

外界把多团队并行理解为经典赛马机制,腾讯内部更愿意说「多样性」。QClaw 和 WorkBuddy 是最先冒头的两只虾,路线截然不同。

QClaw 是张舒昱从电脑管家边缘团队杀出来的,直接拥抱 OpenClaw 开源生态,做微信一键安装,野蛮生长。设计理念就四个字:打开即用。不需要配置环境,不需要懂终端命令,微信扫一下就能让 AI 接管你的电脑。

▲张舒昱. 图片来自:南京审计大学

WorkBuddy 则走了一条完全不同的路。负责人汪晟杰在接受 APPSO 采访时反复强调一件事:百分百自研,没用过一行 OpenClaw 源码

它走半自动化路线,避开了 OpenClaw「透传」模式下信息暴露在公网上的风险,采用 bot 推送通知模型,每一步关键操作都需要用户确认。汪晟杰的定义很明确:龙虾是一个概念,不等于 OpenClaw。WorkBuddy 要做的是安全可控的龙虾,企业能放心用的龙虾。

汪晟杰透露了一个时间细节:WorkBuddy 在 1 月 17 号那个周末就已启动,三四个人通宵做出 MVP(最小化可行产品),原计划 3 月 16 日发布。看到龙虾热潮后提前了一周,撞上了 QClaw 同期发布。

▲ 汪晟杰.

也就是说,腾讯并非在 OpenClaw 火了之后才匆忙跟进。多个团队在不同时间点嗅到了同一个机会,OpenClaw 的爆火更像催化剂,把水面下的项目一夜之间推上了前台。

但赛虾机制的矛盾也摆在桌上。

QClaw 和 WorkBuddy 功能高度重叠,都能通过微信操控 AI 智能体,用户该选哪个?8 支团队同时跑,资源会不会内耗?

答案藏在张舒昱那句话里:「此刻没人知道什么是最佳方法。」8 支团队同时下场,与其说是信心爆棚,不如说谁都没有把握

腾讯选择用数量对冲不确定性,多条路线同时跑,押中一条就够了。

赛马机制的精髓从来都是:靠数量提高命中概率。15 年前微信就是这么跑出来的。

马化腾的养虾哲学

赛虾的前提是有虾可赛,但这只虾不归腾讯管。

3 月 12 日,OpenClaw 创始人 Peter Steinberger 在 X 上公开批评腾讯,矛头直指腾讯的 SkillHub 服务复制了社区 Skills 却没有做出任何贡献。

两天后,腾讯通过 GitHub 捐款,随后被列为特色赞助商,与 OpenAI 并列。在上周英伟达 GTC 大会上,腾讯云 CEO 汤道生当面约见 Steinberger,提出由腾讯云贡献服务器和安全服务,并探讨与 OpenClaw 基金会更深层的合作。

中国市值最高的互联网公司之一的高级副总裁,飞到圣何塞跟一个开源项目创始人坐下来谈合作。在腾讯历史上几乎没有先例。当你需要别人的东西比别人需要你的东西更急迫时,身段自然就放下来了。

同一周的财报发布会上,腾讯总裁刘炽平宣布 2026 年将 AI 新产品的投资至少翻倍,从去年的 180 亿元起步。而在阐述钱花到哪里时,他只点了三个名字:混元、元宝、以及最新的 Claw 产品

一个月前还是边缘项目的龙虾,一跃与腾讯自研大模型和旗舰 AI 应用并列。龙虾从「大家自己玩玩」正式升格为「公司战略」

马化腾最近在财报会议上的发言,进一步回答了一个更本质的问题:腾讯想用龙虾做什么

他的切入角度直接跳过了产品层面,落在生态上。

马化腾认为龙虾类应用有记忆和个性,更像助理,带有「活人感」,能让 AI 落地到办公、终端、小程序等各种场景中,不再全部挤在 chatbot 这条独木桥上。

但真正耐人寻味的是他关于「去中心化」的论述。微信本身是中心化的 App,但微信生态是去中心化的,数十万小程序商家构成了开放平台。马化腾认为 AI Agent 天然具有去中心化特征,可以融入微信生态。有一句话特别关键:

所有服务商的心态都是怕被 AI 智能体「短路化」「渠道化」。

意思是,他不想让 AI Agent 变成一个新的中间商,把微信里的服务商变成纯粹的后端 API。他想让小程序保留独立性,同时具备 AI 能力。「每一个小程序都可以智能化和龙虾化。

这个思考比「我们也做龙虾」高出一个维度。马化腾看到的是一种范式转移的可能:AI 的价值分配方式,从「一个超级 chatbot 统治一切」变成「无数分布式智能体各显神通」。

如果这个判断成立,拥有全球最大通讯生态和最活跃小程序平台的微信,天然就是 Agent 时代最肥沃的土壤

刘炽平在财报会上把这套逻辑做了明确的总结:「Claw 提出了一种去中心化的模型……有段时间,似乎每个人都在争夺成为 AI 智能体唯一的入口和垄断者。但现实并非如此。」

一句话概括腾腾讯的押注逻辑:模型之争输了一局,但生态之争的牌还没摊开

当然,这套叙事也可以被翻译成另一句话:我们模型不够强,所以告诉你们模型没那么重要。

自洽和自欺之间,有时候只隔一层窗户纸。但关键在于,这一次腾讯确实有牌可打。微信不需要成为最强大模型的容器,只需要成为最好用的 Agent 运行环境

这和纳德拉的 Azure 逻辑如出一辙,你不需要自己做出最好的 AI,你只需要让最好的 AI 都跑在你的云上。

养虾产品全景图,腾讯到底下了多少注

腾讯的「养虾」远不止做几个 C 端产品那么简单。腾讯周五公布了「养虾产品全景图」,这套从底层到应用层的完整龙虾矩阵,密度超出外界预期。

消费级产品打头阵。QClaw 主打微信一键安装,面向普通用户;WorkBuddy 走桌面端自研路线,强调安全可控;微信 ClawBot 负责让用户在微信聊天界面直接操控龙虾。

三个产品覆盖了「小白用户一键上手」「桌面深度使用」「微信生态无缝接入」三个核心场景。光是消费级这一层,腾讯就同时铺了三条路。

企业级产品紧随其后。ClawPro 面向企业和政务客户,主打安全隔离和精细权限管控,企业微信独占通道,账号权限分级,内置技能审核机制,代码生成类操作要过审,网页搜索走安全网关。

汤道生在腾讯云峰会上重点推介了 ADP(智能体开发平台),定位是企业构建定制化 Agent 的工具箱。配合 Claw Runtime 提供安全沙箱运行环境,Lighthouse 做安全管理。

整套企业方案的逻辑很清晰:OpenClaw 太野了,我帮你把它关进笼子里。

开发者生态也没落下。CodeBuddy 是去年下半年就上线的 AI 编程助手,现在被纳入龙虾矩阵成为开发者入口;SkillHub 是 AI 技能社区,做了本土化适配,也正是因为这个产品被 Steinberger 点名批评后才有了后面那笔捐款。TokenHub 则是模型服务市场,不光接混元,也接 DeepSeek、MiniMax、Kimi 等第三方模型,统一计费。

腾讯连「卖铲子」的生意都想好了。

从这张全景图可以看出,腾讯不想只在产品上做单点突破,要做一整条龙虾产业链——从安装到运行,从个人到企业,从消费到开发,每个环节都有人盯着。

这正是汤道生反复强调的「Harness 工程」思路:Agent 时代的胜负手不在模型本身,在于脚手架。工具调用、上下文工程、长期记忆管理、工作流设计,这些看起来不性感的苦活,才是决定 Agent 好不好用的关键变量。

汤道生在腾讯云上海峰会上表示:「AI 落地不只是算法题,Harness 工程能力是关键变量。不同的脚手架设计,会显著影响实际使用效果和 token 成本。」

翻译成人话就是:模型是发动机,但没有底盘和方向盘,跑不了多远。腾讯模型暂时跑不过别人,但如果能把底盘和方向盘做到最好,照样能赢。

虾潮退去之后

把所有线索串起来,这个故事可以被浓缩成一句话:腾讯用一家大公司能调动的所有资源,去拥抱了一个自己无法控制的开源项目

这是一个充满张力的姿态。

OpenClaw 的更新节奏是每周两三个版本,API 说改就改,Breaking Changes 说来就来。Peter 点一下 merge,深圳大厦里好几支产品团队可能就要通宵救火。腾讯把战略命脉系于别人的 GitHub 仓库上,这需要的不只是勇气,还有一种前所未有的谦逊。

但换个角度想,腾讯可能也没有更好的选择了。

如果继续只在模型和 chatbot 赛道上硬碰硬,不是陪跑就是陷入同质化厮杀。但 Agent 浪潮撕开了一条新缝隙:谁能把 AI 变成最好用的工具,谁就能重新定义入口

微信有 14 亿月活,有小程序生态,有支付,有社交关系链。这些东西造不出最强模型,但能造出最好的 Agent 使用环境,这是腾讯手里唯一一张别人没有的牌。

问题在于,这张牌的有效期有多长。

OpenClaw 仍在快速迭代,生态远未定型。今天的龙虾热,会不会像去年的 Manus 一样来得快去得也快?8 支团队赛虾,会跑出下一个微信,还是跑出 8 个半成品?马化腾的「去中心化 Agent 生态」蓝图很美,但从蓝图到现实之间,还有需要经历多少次「技术事故」?

不过,有一件事是确定的。

当一家公司的 CEO 凌晨两点发朋友圈,总裁在财报会上把龙虾和自研模型并列,高级副总裁飞到美国去约见开源项目创始人,8 支团队同时下场赛虾,AI 投资直接翻倍,它就已经不是在追热点了,它在押注这家公司的未来。

赌的不是这只虾能活多久。赌的是在 AI 重构一切的十年里,腾讯还能不能坐在牌桌上,以及坐在什么位置

视频号当年也被叫做「全村的希望」。五年过去了,它还没打败抖音,但在微信生态内长出了自己的活法。龙虾能不能也走出第三条路?答案还早。

不过,当一个巨头被逼到墙角,终于想清楚自己要什么,把资源砸向同一个方向的时候,你永远不能低估它。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

国行苹果 AI 一手实测:等了两年终于来了,好用吗?

By: 柯铭源
31 March 2026 at 11:22

2026 年 3 月 31 日,距离苹果 50 周年纪念日还剩一天。国行 iPhone 用户的设置页面里,悄悄多了一个选项:「Apple 智能与 Siri」。

没有发布会,没有新闻稿,甚至没有一条来自官方社交媒体的预告。Apple Intelligence 就这样以一种几乎静默的姿态,落在了中国用户的手机上。

从 2024 年 6 月 WWDC 的高调亮相算起,国行用户为这一刻等了整整 21 个月。

爱范儿在第一时间完成了激活和全面实测,先说结论:

体验很「苹果」,但效果很一般。但

如果你期待的是一个能跟 Gemini 或豆包正面交锋的 AI 系统,这不是你想要的。

值得注意的是,这次苹果国行 AI 突然上线可能是一次意外,并非正式发布,目前苹果已经下线这个版本。

一向以苹果爆料闻名的彭博社记者 Mark Guman ,称国行 AI 还没拿到监管批准,他给出了以下理由:

  • 苹果国行 AI 上线,官方不可能没有任何宣传动作。
  • 苹果不会在中国凌晨发布国行 AI 。
  • 它会调用 Google 作为视觉识别引擎,这在中国本就不合理

📢 另据爱范儿最新了解,本次推送是由于软件问题,国行的 iPhone 和 iPad 设备曾短暂地可以下载其他地区适用的设备端 Apple 智能并启用该功能。

在问题出现后,苹果已迅速修复。

据悉, Apple 智能尚未在国行推出,推出时间依监管部门审批情况而定。

国行苹果 AI 怎么激活?

首先,你需要把设备更新 iOS 26.4 系统,然后进入「设置」,会发现原来的「Siri」入口已更名为「Apple 智能与 Siri」。

点击进入,再点亮 Apple 智能的开关,系统开始下载端侧模型。

整个过程需要连接 Wi-Fi,下载时间取决于网络状况,我们实测大约花了十分钟左右。下载完成后,一系列新功能随即解锁。

机型方面有硬性要求:iPhone 15 Pro 及后续机型才能运行 Apple 智能,更早的 iPhone 15 标准版因芯片和内存限制被排除在外。

需要留意的是,部分功能在首批推送中存在激活失败的情况。我们在实测过程中遇到了个别功能无法正常开启的状况,重启后恢复正常,但倒也并不意外。

新功能实测:速度很快,体验一般

打开新的 Siri,最直观的变化是视觉层面,屏幕边缘泛起的柔光替代了过去那个悬浮在底部的圆形动画,整个交互节奏明显更流畅。

Siri 现在同时支持语音和文字输入,这意味着你在会议室或者安静的公共场合也能通过打字跟它交流,不用担心开口说话的尴尬。

语义理解能力有所提升,能处理一些上下文连贯的对话。但在我们的实测中,Siri 的深度对话能力距离 ChatGPT 或者豆包仍然有肉眼可见的差距。

值得注意的一点是大模型调用的问题。

国行版 Apple 智能调用的后端模型情况比较复杂。视觉识别 AI 方面,我们通过 iPhone 16 的「相机控制」按钮实测,调出的视觉识别引擎应该来自 Google。

而在 Siri 的对话和内容生成环节,爱范儿实测发现是有可能调出 GPT 的,网上也有调出百度文心大模型的。

这一点颇为微妙,因为此前业界普遍预期国行版只会接入百度和阿里的模型。具体的模型调用策略,苹果官方尚未给出明确说明,也许跟网络环境高度相关。

写作工具覆盖了系统级文本输入场景,包括备忘录、邮件、信息等原生 App。选中一段文字后,可以调用润色、改写、摘要等功能。

速度是写作工具最令人印象深刻的地方。

由于模型运行在本地,从点击到结果呈现几乎没有感知延迟。在备忘录里选中一段 200 字的草稿,点击「改为专业语气」,不到两秒就输出了完整结果。这种即时反馈对日常使用来说体验非常好。

但端侧模型的能力天花板也肉眼可见。

复杂长文本的摘要有时会遗漏关键信息,语气改写偶尔会产生不够地道的表达。跟调用线上大模型的写作工具相比,它胜在速度和隐私,输在精度和灵活度,在云端模型面前,苹果的 AI 写作工具就像小学生。

Apple 智能下载完成后,桌面会新增一个「图乐园」App。

它支持根据文字描述生成图片,提供素描、插画、动画三种风格。你可以输入描述,也可以直接用照片库中的人脸作为素材,生成带有本人特征的艺术风格图像。

生成速度很快,大约三到五秒就能出图,这得益于端侧扩散模型的优化,但手机会明显发热。

苹果显然没有把图乐园定位成一个专业创作工具,它更像是一个系统级的趣味配件,如果你真要玩 AI 修图,请出门左转选择豆包。

AI 消除是本次更新中最实用的功能。

在照片 App 中打开一张图片,选择消除工具,用手指涂抹需要去除的主体,系统会自动识别并完成消除和背景填充。 好消息是速度快到令人惊讶。

选中、涂抹、消除,整个过程不超过三秒,完全在本地完成。日常清理照片中的路人、电线杆、垃圾桶之类的干扰物,效率极高。

坏消息是,精度不够。

在我们的实测中,AI 消除能够快速识别并去除主体,但细节层面存在明显瑕疵。

放大图片后可以看到阴影残留、边缘模糊、填充纹理不连续等问题。

如果是消除一个背景简单的小物体,效果尚可;但面对复杂背景或者大面积消除,画面破绽一目了然。

跟 Gemini 或者豆包的消除功能相比,Apple 智能的 AI 消除有明显差距。但苹果选择把所有处理放在本地,换来的是隐私和速度,代价就是质量上的折让。

比较私人的照片资料,也许端侧模型用起来会更让人放心一些。

系统级翻译功能现在也被纳入 Apple 智能的体系。

支持实时对话翻译和文本翻译,在信息、Safari 等场景中可以直接调用。响应速度很快,可以提前下载好语言包,实测在 iPhone 或者 AirPods Pro 3 上都能激活。

但在翻译质量上,它跟 DeepL 或者 Google 翻译的差距仍然存在,特别是在长句、专业术语和语境判断上。翻译功能对于苹果来说更像是一个系统级的实用补充,而非要在翻译赛道上跟专业选手竞争。

整体来看,Apple 智能国行版的整体体验可以用两个词概括:快,安全。 快,是因为绝大多数功能运行的都是端侧模型。

文本润色、信息总结、AI 抠图、消除,所有操作的响应速度都非常流畅,没有云端调用常见的等待感。这种「想到即得到」的交互节奏确实是苹果的强项。

安全,则体现在数据处理全部在本地完成,不会上传至云端。

对于隐私敏感度日益提高的国内用户来说,这是一个不可忽视的加分项。你的照片、文字、对话记录不会离开你的设备,这一点苹果做到了。

但「快」和「安全」的另一面,是端侧处理的质量上限。

跟调用线上大模型的竞品相比,Apple 智能在消除精度、文本理解深度、图像生成质量等维度都存在可感知的差距。

苹果在隐私与性能之间做了一个明确的选择,而这个选择的代价,用户在每一次使用中都能体会到。

为什么苹果 AI 迟迟不来?

Apple Intelligence 首次亮相于 2024 年 6 月 10 日的 WWDC24。

那场发布会上,苹果做了一件前所未有的事情:把「AI」这两个字母放进了自己的核心叙事。

在此之前,苹果一直刻意回避这个缩写,更愿意用「机器学习」之类的说法来描述自己的技术能力。但 OpenAI 掀起的生成式 AI 浪潮改变了一切,苹果也不得不正面迎战。

Apple Intelligence 被描述为一个「个人智能系统」,核心架构是端侧约 30 亿参数的小模型加上云端通过 Private Cloud Compute 调用的大模型,底层跑在 Apple Silicon 上。

在那场发布会上,苹果跟 OpenAI 达成了 ChatGPT 集成协议,Siri 在遇到超出本地能力的问题时可以调用 GPT。

2024 年 10 月,Apple Intelligence 随 iOS 18.1 在美国率先上线,随后逐步扩展到英国、澳大利亚、加拿大等英语市场。12 月,更多英语地区获得支持。

2025 年 3 月 31 日,iOS 18.4 更新让 Apple Intelligence 支持了简体中文、日语、韩语等多种语言。

但国行迟迟不来。

苹果最初的计划是在 2025 年中将 Apple Intelligence 带到中国市场,可惜这个时间表几乎从一开始就注定要被推翻。

由于合规要求,无论是苹果自己的云端模型还是 OpenAI 的 ChatGPT 都无法直接在国内使用,这意味着苹果必须找到本地合作伙伴。 苹果先是接触了百度,尝试接入文心一言,但据报道在技术对接和模型表现上遇到了障碍。

随后,苹果转向阿里巴巴。2025 年 2 月,阿里巴巴集团董事局主席蔡崇信公开确认了双方的合作关系。

根据方案,阿里的通义千问将作为 Apple Intelligence 在国行设备上的模型底座,同时负责内容合规审查。阿里还会在苹果的端侧模型之上部署一个审查层,确保 AI 输出符合国内法规要求。

但随着 2025 年上半年,世界局势的急剧变化,以及 AI 行业的迅猛发展,苹果的国行 AI 也从「行货」变成了「期货」。 此后,国行版 Apple Intelligence 的上线日期经历了多次推迟。

最初锚定 2025 年中,推迟到 iOS 18.6(2025 年夏),再推迟到 iOS 26.1、iOS 26.2、iOS 26.4。

2025 年 11 月,彭博社记者马克·古尔曼在 Power On 专栏中直言,国行版落地「遥遥无期」。

他指出,除了监管问题之外,Apple Intelligence 本身的工程进展也不顺利,模型性能未达预期。

最新的消息是,苹果计划在 iOS 27 中开发 Siri 的第三方 AI 接口,同时与 Google Gemini 深度合作,双管齐下来提升苹果 AI 的使用体验——但这种把半条命交给合作伙伴的做法,也意味着苹果在这轮 AI 大模型的军备竞赛中已经输了。

苹果能做的,就是牢牢把住 AI 硬件的入口——数十亿级的苹果生态设备。

这也是为什么,国行 Apple 智能必须尽快推出的原因,苹果要赶在 WWDC26 之前,完成全球范围的布局,为 AI 时代的 App Store 扫清障碍。

2026 年 3 月 31 日。距离苹果成立 50 周年的 4 月 1 日恰好只剩最后一天。苹果在 3 月下旬刚刚宣布了创业 50 周年纪念活动,Tim Cook 发布公开信回顾公司 50 年的历程,全球多地 Apple Store 举办了特别活动,爱范儿也受邀参加了苹果在成都和上海的特别演出。

就在这个时间窗口里,Apple 智能悄悄降临国行设备。 苹果没有解释为什么选择这个时间点,也没有给出关于合作模型、审批进展的任何官方说明。但时间节点本身已经足够说明问题:

在迈入下一个 50 年的门槛上,苹果大概不希望自己最大的海外市场之一仍然被排斥在 AI 时代的门外

图自彭博社

从商业角度看,这也合理。中国市场的 iPhone 销量在过去两年持续承压,Tim Cook 本人多次在财报电话会上承认,Apple Intelligence 的缺席是国行 iPhone 竞争力下滑的原因之一。

与此同时,华为、小米、OPPO 等国产厂商早已在 AI 功能上全面铺开,部分品牌还陆续接入了 DeepSeek 和龙虾,体验差距越拉越大。

苹果需要这个功能落地,而且需要在 50 周年这个全球瞩目的节点上落地。

把 Apple 智能放回它该有的坐标系里来看:它不是一个要跟 ChatGPT 或 Gemini 争夺「最强 AI」头衔的产品,它是苹果把 AI 能力融进系统层的第一步。 端侧模型带来的速度和隐私优势是实实在在的。

对于普通用户来说,能在本地完成文本润色、照片消除、信息摘要这些日常操作,不需要把数据交给任何云端服务,这件事本身有价值。

但如果你已经习惯了豆包、Kimi、DeepSeek 这些国产 AI 产品的能力水准,Apple 智能目前的表现大概率会让你觉得「就这?」。

端侧模型的参数量级和推理精度决定了它的上限,苹果在隐私和性能之间做出了清晰的取舍,而你需要判断这个取舍,是否符合你自己的需求。

等了快两年,Apple 智能终于来了。它迟到得太久,以至于我们对它的期待已经从「改变游戏规则」降到了「先能用再说」,但它确实来了。

在苹果 50 岁生日的前一天。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

实测 PixVerse V6 暴力出片:快,才是最贵的

By: 莫崇宇
31 March 2026 at 10:00

我输入了一段 prompt,按下生成。手还搁在键盘上呢,视频已经出来了。

画面前景是一杯冒着热气的黑咖啡,背景模糊;随后焦点平滑转移,清晰展现出背景中一位翻阅旧书的女孩。

改了两个词,把光线方向调了一下,再按一次。又出来了,质感没掉。提示词写得很随意,就是脑子里的画面用大白话说了一遍,没有刻意堆关键词,模型全听懂了。

▲提示词:前景是一杯正在冒着热气的黑咖啡,占据画面主导位置,背景模糊。随后,镜头焦点自然地转移到背景中,清晰地展现出一位正在翻阅旧书的女孩。

这是 PixVerse V6 给我的第一感受。不是「效果好」三个字能概括的,准确说是「这个效果,居然这个速度就出来了」。

PixVerse 出片快,这件事圈里不算新闻。大多数 AI 视频工具还在用排队考验耐心的时候,PixVerse 已经是同类里生成速度最快的选手。在 Artificial Analysis 的视频生成模型排行榜上,PixVerse V6 更是处在第一梯队。

不过如果 V6 只是「更快了一点、画质更好了一些」,那它只是一次常规迭代,不值得单独拿出来聊。

V6 做的事情,是把「快」从一个技术参数,变成了一种创作层面的结构性优势。指令理解强了,提示词不用反复打磨;画质也更稳了,这些环节省下来的时间叠在一起,比单纯的生成速度提升值钱得多。

换句话说,当出片质量够稳定、速度够快,创作者的瓶颈就不再是工具,而是想法本身 。AI 没有让创作者贬值,它反而让好想法比以前更值钱了。

不只是快,每一帧也经得起放大看

PixVerse V6 的操作本身没有任何门槛,新手也能轻松上手。

打开拍我 AI(网页端地址:https://pai.video),在输入框里用自己的话描述想要的画面,选好分辨率、画面比例和时长,点生成就行。支持 360P 到 1080P 输出,横屏竖屏都能选,单次生成时长可以自己控制。

V6在指令理解上有了肉眼可见的进步,只需简单描述创作意图就足够,无需堆砌专业术语,它明白你要的是什么光线、什么氛围、什么景别,这也导致省下的不仅是时间,还有反复推敲提示词的精力。

也支持上传参考图。想还原某个风格、想锁定角色长相,把图扔进去就行,模型会参照着生成。

▲演示生成过程

V6 最让我意外的进步在于物理仿真。

我试了一段微距镜头。金黄色蜂蜜缓慢滴落,拉出晶莹的丝线,落在松饼上缓缓散开。丝线被重力拉细,接触面的扩散速度也和蜂蜜的黏度匹配。

它有重量,有重力,有因果。

▲提示词:微距镜头。高粘度的金黄色蜂蜜正缓慢地从木质搅拌棒上滴落,拉出长长的、晶莹剔透的丝线,最后重重地落在下方刚出炉的松饼上,蜂蜜在接触面缓缓散开。画面具有极强的真实物理运动逻辑。

以前 AI 视频里的物理世界是「会动的像素」,V6 里的物体在遵守物理定律。这一点的意义超出视觉层面。我们判断一个画面真不真,靠的是一种直觉:这杯水倒出来的方式对不对?这滴蜂蜜落下的轨迹合不合理?V6 在这个层面上交出了一份像样的答卷。

物理仿真解决的是世界真不真实,而人像质感解决的是人的质感对不对。

这是 AI 视频最容易翻车的科目。稍有不慎就是恐怖谷。五官精致但表情僵硬,皮肤光滑但质感像硅胶,眼睛很亮但眼神没焦点。你能认出这是一张脸,但直觉会告诉你,这不是一个人。

V6 在这方面让我重新有了新的审视。一些圈内创作者拿它和 Seedance 放在一起比,结论基本是:两者互有胜负,很难说谁压过谁。

我试了一段中年男性演员的面部特写,他正努力克制哭泣的冲动,浅景深,柔和侧光。出来的结果很难让人移开视线。鼻翼轻微颤动,眼角湿润,这几个动作之间有时间差,有层次,有内在逻辑。

这种微表情的层次感,让人物开始有了一种 AI 演员的即视感。对比之下,以前 AI 人像的情绪更接近「状态切换」,V6 里的情绪有了过程。皮肤质感的取向也值得单说——肌理,毛孔、细纹、光线下的皮肤色差都保留。

打斗戏是 AI 视频的体能测试。

拳头要打在正确位置,被打的人要有合理反应,身体运动惯性要连贯,多角色空间关系不能穿模。任何一个环节崩了,就变成搞笑视频。许多 AI 视频模型的生成结果要么是两个人在做体操,要么挥拳的手臂穿过了对方的脸。

在体验 V6 的过程中,我生成了一段大雨滂沱的泥泞小巷里,两名武术高手正在激烈近身肉搏的场景。一记重拳击中对方下颚,雨水和汗水随冲击飞溅,受击者的面部肌肉因冲击力产生真实的震颤。

画质之外,真正让我兴奋的是 V6 补齐了一套镜头语言能力。

变身特效方面,我生成了一台科技感极强的机械无人机在空中急速飞行,随后快速从金属形态幻化为一条由流动墨水和水墨线条组成的、散发幽蓝光芒的水墨神龙。

▲提示词:中国风动漫风格,无人机在飞行过程中快速从金属形态幻化为一条由流动的墨水、墨点和水墨线条组成的、散发着幽蓝光芒的水墨神龙。

过渡自然,没有常见的像素闪烁和边缘残影。金属的硬度和水墨的流动之间有一个过渡状态,两种质感都没有被粗暴切断,整个变身过程更接近融合,而非替换。

运镜能力同样有惊喜。电影级航拍视角下,一台无人机在废弃的、生锈的工业厂房内部急速穿行。厂房的空间感、金属质感的光线处理、高速运镜时画面的稳定性,三件事同时做到位,没有出现 AI 常见的那种「不知道该看哪」的混乱感。

▲提示词:电影级航拍视角,现实主义风格。一台无人机在废弃的、生锈的工业厂房内部急速飞行。

还有一个方向是子弹时间。黑客帝国式的视角旋转,主体定格,背景动态延续。这类镜头对时间感的控制要求很高,稍有偏差就会变成慢放,V6 处理得比较克制,速度分层是有的,没有用力过猛。

我还试了两个对空间穿越要求更高的场景。第一个是课堂。无人机视角从走廊切入教室,镜头跟着这股气流穿出教室,拉到整个校园上空。试卷和白纸被气流卷起,满天都是,运镜轨迹却没有断。

第二个是蜜蜂从窗缝挤进来,穿过卧室、客厅,找到厨房里的蜂蜜罐再飞出。每个房间光线和景深都不同,换场时蜜蜂飞行惯性有轻微滞后,和真实昆虫的节律对得上。

多镜头切镜可能是对实际工作流贡献最大的能力。一段时尚女装广告短片,三个镜头的衔接流畅,色调温暖统一,没有 AI 的拼凑感。

还有三个我比较喜欢的运镜和场景调度的测试。

比如一架纸飞机在维多利亚式书架间起飞,书本跟着腾空排成隧道,随后场景切进脑内微观世界,神经元在半透明星云状组织里闪着荧光,像缩小版的银河系。

同样是纸飞机在图书馆迷宫里做非线性飞行,俯冲、侧滑、擦边过障碍,镜头紧紧跟随,转弯时有强烈的侧滑感,没有糊掉。

前脚还是琥珀暖色的图书馆,进入脑内世界后立刻切成深蓝和深紫,但因为运镜没有断,切换反而变成了一种视觉冲击,并不突兀。

这些能力单拿出来每一项都是加分项。组合在一起,意味着 V6 开始具备完整的镜头语言能力了。

最后一个让我印象深刻的点,不是画面,是声音。

V6 在开启 Audio 之后,音频适配有了明显增强。我试了一段微缩模型视角的场景:远处火山正在喷发,小人国村民四散奔逃,一只巨大的手拿着透明碗从天而降,将整个村庄罩住,透明碗落下的瞬间带着空气被压缩的细微震动。

特别是 ASMR 类场景。下雨天的窗户、篝火噼啪声、书页翻动。这些画面本身就追求沉浸感,音频质量直接决定你是在看视频还是沉浸在场景里。

一个人暴力出片叫效率,一群人暴力出片叫生产力

如果 V6 只是一个更快更好的 AI 视频模型,故事到这里可以收尾了。但 PixVerse 显然不打算只讲到这里。

据了解,这次同步上线了两个东西:Team Plan 和 Mini Apps。

Team Plan 是给 2 到 15 人的工作室用的。核心机制很简单,团队共享一个积分池。

不再是每人一个账号各算各的,而是整个团队统一消耗,按角色分配权限。老板看全局,创意总监管项目分组,剪辑师专注出片。个人空间的素材和模板一键同步到团队空间,不用在群里来回传文件。

听起来不复杂,但解决的问题很真实。以前工作室用 AI 视频工具,就是每人开各自的账号,出了好素材在群里互传,版本管理靠文件命名加日期。这跟十年前用 U 盘传 PPT 没什么本质区别。

Team Plan 做的事情,就是把 AI 视频从个人工具升级成了团队生产线。一个人连出十条挑最好的叫个人效率,五个人各出十条,五十条里挑一条炸裂的,叫团队生产力。

Mini Apps 走的是另一条路。使用方式简单到不需要解释:上传几张商品图,系统自动帮你剪成一条完整的广告视频。不用懂剪辑,不用知道什么叫镜头语言。

一个淘宝店主、一个小红书博主、一个街边奶茶店老板,都能在几分钟内拿到一条可以直接发的产品视频。

V6 模型是给创作者的武器,Mini Apps 是给所有人的傻瓜相机。当创作门槛被压到零,暴力出片就不只是创作者的方法论了,它变成了人人能用的基础设施。

快,才是最贵的画质

画质够好,速度够快,成本这道关也值得单独说一说。

720p 分辨率常态成本大概为每秒 0.04 美元,放在当前市场里已属低位,对应的却是第一梯队的生成质量,4 月 7 日前购买会员至高打七折,生成时积分消耗再减免 30%,进一步把规模化出片的成本压了下来。

这让我想到摄影从胶卷到数码的变化。

胶卷时代一卷 36 张,按一次快门前得在脑子里构图三分钟,因为每一张都有成本,但快门本身的质量没有区别。数码时代的摄影师怎么拍?因为每一张都清晰、都够用,所以可以连拍 200 张,事后选构图最好的那张。没人会说这「不严肃」,因为最终给观众看的永远是那张最好的。

V6 让 AI 视频创作进入了这种「数码时代」。

而 PixVerse 对「快」的理解,也早已超出了生成速度本身。

从早期的高速生成,到 R1 的实时交互,到 V6 的强指令理解让描述变得更自然,再到 Team Plan 把协作效率拉到团队量级,这条线串起来,体现的是 PixVerse 在多个维度上同时提速:生成速度快、指令理解准确、协作效率提升。

支撑这一切的,是PixVerse扎实的模型迭代能力。

能在排行榜上持续保持第一梯队,靠的是每一代产品都在扎实啃硬骨头,物理仿真、人像质感、镜头语言,每一项都是难而正确的方向。V6 的初衷很纯粹:让创作者把精力放在创意上,其余的交给工具。

当一个工具把高质量的生成变成了触手可及的日常,又把使用门槛压到零、把协作效率拉到团队级别,它就不再只是一个「模型」了。它正在变成内容时代的基础设施。

PixVerse V6 开启了 AI 视频的暴力出片时代,快到不讲道理,好到能直接交片。

这个时代才刚开始。

作者:李超凡、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Before yesterdayMain stream

下半年的每一场消费电子发布会,都是坏消息

By: 马扶摇
30 March 2026 at 09:09

2026 年才过去四分之一,消费电子行业就已经被地震给震麻了。

原因也很简单:AI 狂潮导致的涨价——还不是单纯的内存涨价,而是全领域、全行业、全链路的「电子零部件」涨价。

别看你现在 AI 用得欢,今天消耗的每千个词元(token),都是射向半年后你买手机或者电脑时钱包的子弹。

内存显卡涨,CPU 也要涨

对于 PC 玩家来说,「9950X3D」是个相当让人兴奋的名字,它代表了目前市面上最强悍的游戏 CPU。

就在昨夜,AMD 为这个原本就闪着金光的招牌又添了一把柴,为我们带来了最新的 Ryzen 9 9950X3D2 Dual Edition:

▲ 图|AMD

字如其名,R9 9950X3D2 带来了期盼已久的双 3D V-Cache 堆栈技术

在保持原本多核心、多线程、高频率、全解锁的优点的同时,一举将 L2+L3 缓存推高到了 208MB。

从规格上看,R9 9950X3D2 是颗字面意义上的「鸡血版」CPU,在原本的游戏优势场景之外,也为内容创作和软件开发带来了不小的提升。

▲ 图|AMD

问题是,AMD 打算收多少钱?

上一代 R9 9950X3D 的官方价为 699 美元(约合 4830 元人民币),9950X3D2 尽管尚未公布价格,但普遍预估价格会来到 799 美元(约合 5520 元人民币)——

甚至都够买 48GB 的内存条了。

更惨的是,这种价格趋势不只限于新 CPU,现有货架产品也逃不了。

根据《日经亚洲》的报道,英特尔已经在上周通知客户,将会对现有 CPU 产品进行提价,业内指出 AMD 也会跟进提价,整体涨幅在 15% 左右。

▲ 图|Intel

原因自然是老生常谈:英特尔和 AMD 将产能转移到利润更高的企业级服务器 CPU 上,消费级 CPU 只能一边减产一边涨价。

这还只是 x86 领域,在 ARM 架构这边,2026 年中和下半年的状况同样不容乐观。

开年以来 ARM 架构最重要的新闻,莫过于原本只进行设计授权业务的 ARM 公司,也要进军实业、开始自己造 CPU 了。

作为成立 36 年以来最重大的转型,ARM 前两天推出了其首款自研芯片「ARM AGI CPU」。

这是一款专门为 AI 数据中心设计的处理器,核心目标是支持「代理式 AI」(agentic AI)应用:

▲ 图|ARM

根据 ARM 介绍,这款处理器是与 Meta 深度合作设计的,由子公司 Ampere 开发,基于台积电 3nm 工艺制造,计划在今年下半年进入量产阶段。

虽然这个消息对于 ARM 来说很好,对于消费者来说却算不上什么好消息——

此举标志着 ARM 不再仅仅是「设计局」,而是正式下场与英特尔、AMD 甚至它自己的授权客户(英伟达、亚马逊等等)争夺 AI 数据中心硬件市场的蛋糕。

▲ 图|ARM Newsroom

一旦 ARM 尝过癫狂的 2B 业务红利之后,未来是否会将业务重心全部转移到设计服务器 CPU 上、放弃公版消费级产品设计?

这些都是说不好的。

至于 ARM 的最大用户高通,2026 年的日子也不太平稳。

近日,有关高通下一代旗舰 SoC 骁龙 8 Elite Gen 6 的爆料频出,各家信源达成了两个共识:

  • 骁龙 8 Elite Gen 6 预计会分为标准版(SM8950)和 Pro 版(SM8975)
  • 两者均采用台积电 2nm 工艺制造,Pro 版 GPU 稍强,并且涨价幅度更狠

▲ 图|Wccftech

是的,坏消息还没有结束。

业内人士预估:上述骁龙 8 Elite Gen 6 系列两款 SoC 都将迎来一波大涨。

相比 8 Elite Gen 5 的 280 美元(约合 1934 元人民币)采购单价,Gen 6 的采购价预计会上涨 30% – 50% 。

这还只是手机厂商的采购单价,相同的涨幅传递到消费者身上,再叠加一些其他成本,下半年的手机平均涨幅可能会来到 1500 甚至 2000 元左右——

这么比较下来,前两天被大家口诛笔伐的一加 15T 的涨价幅度似乎也没有那么离谱了。

根据最新的研报数据,截至 2026 年第一季度,同规格的内存同比涨价幅度已经来到了约 400% ,16+512GB 存储组合的采购报价接近 200 美元。

在一些非旗舰机型上,稍不留意就会出现「内存比处理器还贵」的情况。

从前量大管饱、薄利多销的模式如今已经彻底走不通了。

同时,类似的全行业价格震荡也传递到了电脑和手机之外的领域——

彭博社日前报道:任天堂已经决定将 2026 年第一季度的 Switch 2 产量从原本规划的 600 万台下调至 400 万台,且减产可能会延续到第二季度。

▲ 图|彭博社

Switch 2 减产的原因除了 2025 年底购物季的销量表现不达预期之外,生产成本也是原因之一。

就拿最近的《耀西与不可思议图鉴》来说,在任天堂 eShop 购买的价格为 59.99 美元(约合 414 元人民币),但想要实体卡带,则必须再加 10 美元:

▲ 图|IGN

所以别说蚊子腿上不算肉了,在这个慢速 TF 卡都在涨价的时候,Switch 2 的卡带也是要算钱的。

好巧不巧的是,就在本文撰稿期间,索尼也宣布了对 PS5 系列产品的涨价。

这是继去年 8 月 PS5 普涨 50 美元之后的又一次抬价。本轮调整之后,PS5 标准版和数字版涨价 100 美元:

▲ 图|IGN

号称「买 SSD 送主机」的 PS5 Pro 则涨价 150 美元,来到了 900 美元起——

是啊,原因依然是「全球经济形势」。

涨价危机真的有尽头吗

坏消息是,似乎没有。

如果你关注了前几天的股市,就肯定不会错过这么一条消息:

3 月 24 日,谷歌公布了一篇关于全新量化算法 TurboQuant 的技术博客,引得包括闪迪、美光在内的存储股迎来了一波闪跌。

作为一项突破性的「低比特量化」算法方案,TurboQuant 旨在优化解决矢量量化中存在的「内存开销」难题,在不损失精度的前提下减小模型的体积。

用人话说就是:TurboQuant 算法将原本 AI 模型存储信息的「向量」(vectors)从三维坐标表示换成了极坐标表示,让存储上下文的 KV cache 体积急剧缩小,内存占用也大大减少。

▲ 图|Google Research

TurboQuant 之后,算法进步、模型变小、内存降价、生活回归正常……听着多么顺耳。

但现实世界不是这样运行的。

尽管 TurboQuant 的压缩率和精度经过了实验验证,它解决的依然只是推理(Inference)阶段的显存瓶颈,模型训练阶段的显存消耗依然是一座大山。

恰恰是厂商需要天量的内存来训练模型,才导致普通人买不到内存的,TurboQuant 在这一层面上无能为力。

▲ 图|Keymakr

另一方面,即使 TurboQuant 真的把内存价格替家人们打下来了,我们也会面临新一轮的杰文斯悖论(Jevon’s paradox):

内存利用率变高,内存降价,更多人可以买得到内存,大家都开始买内存,导致整体内存需求量不减反增。

最后的最后,TurboQuant 不仅距离正式发布还有一段时间,它本身的热度也来得很突兀——

相关基础论文早在去年 4 月就已经发表,却直到 2026 年才引起波澜。

这就让 TurboQuant 导致的股市波动更像是带着「天下苦内存厂商久矣」的市场情绪爆发,而不是真的技术投产,很难真的让存储价格下降。

▲ 图|ComputerBase

换言之:这不是结束,甚至不是结束的开始(Now this is not the end, it is not even the beginning of the end)。

对于最普遍的广大消费者们,无论是 ARM 造 CPU,还是谷歌发布新算法,都很难和我们直接产生关联。

▲ 图|澎湃新闻

反之,爱范儿从某头部国产手机厂商负责人处获悉:

行业期待 Q3 内存价格会回归理性,但如今存储采购周期急剧缩短,价格一天一变,最新的情况是,上涨将会持续到 Q3 Q4 甚至明年,不用担心会降下来

我们在 2026 年需要做的,就是明确自己的需求,该等就等、该买就买,千万不能过度纠结。

「等等党」们距离真正重见天日的距离,或许比我们想象的都要远。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

一篇论文引发存储芯片股暴跌,Google 的「DeepSeek 时刻」来了?

By: 莫崇宇
26 March 2026 at 13:41

看过 HBO 神剧《硅谷》(Silicon Valley)的朋友,想必都对那个名为 Pied Piper(魔笛手)的虚构公司念念不忘。

在剧中,男主角 Richard Hendricks 发明了一种「中间压缩算法」,能以极高的压缩率无损处理文件,甚至因此改写了整个互联网的规则。

当时我们都以为这只是编剧的脑洞。直到 Google Research 正式发布了名为 TurboQuant 的 AI 压缩算法。

这原本是一条枯燥的技术新闻,却在社交网络上引发了病毒式传播,不到 24 小时,就收获了 1280 万次浏览。原因无他,这项技术的设定简直就是 Pied Piper 的翻版:

在不损失模型性能的前提下,将 AI 的「工作记忆」压缩至少 6 倍。

市场的反应也极为真实,美股存储芯片板块盘中遭遇抛售,美光科技、闪迪等头部企业股价齐齐收跌。

这不禁让人好奇,一项纯软件层面的算法创新,为什么会让卖硬件的先慌了神,而 Google 到底向当前的 AI 牌桌上扔了一张怎样的底牌?

困在「记忆黑洞」里的大模型

抛开网络热梗,TurboQuant 的出现其实不仅是为了好玩,更是为了解决一个让整个 AI 行业头疼已久的真实瓶颈。

众所周知,现在的 AI 模型越来越大,对显存的胃口也像无底洞一样。尤其是在推理阶段(也就是你和 AI 聊天的时候),AI 需要记住上下文信息,这部分数据被称为 KV Cache(键值缓存)。

每处理一个词,模型都要把它转成一个高维向量存进 GPU 显存。对话越长,这份「数字备忘录」膨胀越快,很快就把 GPU 显存塞满。这就是为什么你的 AI 助手聊久了会「变笨」或者直接报错,脑容量不够了。

更棘手的是,传统的压缩方法一直面临一个两难困境:压缩数据时,需要额外存储「量化常数」来告诉模型怎么解压。这些元数据听起来很小,加起来却能把压缩带来的收益全部抵消掉。

Google 的 TurboQuant 的诞生正是基于此。

研究人员设计了一套两阶段的数学解法。第一阶段叫 PolarQuant,把数据向量从传统的直角坐标系转换成极坐标系,拆分成「半径」(表示大小)和「角度」(表示方向)。

这个几何变换的妙处在于:转换后角度的分布变得高度可预测,模型不再需要为每个数据块单独存储昂贵的归一化常数,直接映射到固定的圆形网格上就行了,开销为零。

第二阶段叫 QJL(量化 Johnson-Lindenstrauss 变换),充当数学层面的纠错器。它把压缩后残留的误差投影到低维空间,再把每个误差值压缩成一个符号位(+1 或 -1)。

这个设计保证了 AI 在计算「注意力分数」时,压缩版本的结果与高精度原版在统计意义上完全一致。所谓注意力分数,就是模型判断上下文里哪些词最重要的关键步骤。

如果说以前 AI 记笔记是「逐字逐句抄写」,那么 TurboQuant 就像发明了一套「极简速记符号」:该记的一个不漏,占的空间却少了六倍。

这套方法还有一个对企业来说格外友好的特性:无需重新训练模型。你现有的开源模型,或者自己微调过的模型,直接套上 TurboQuant 就能跑,不用额外的数据集,也不用重新跑一遍训练流程。

光说不练假把式,在「大海捞针」基准测试里,让 AI 从 10 万个词里找出一句藏好的话,TurboQuant 在 Llama-3.1-8B 和 Mistral-7B 上跑出了满分召回率,同时把 KV Cache 的显存占用压缩了至少 6 倍。

在 LongBench 综合评测套件(涵盖问答、代码生成、长文摘要)上,TurboQuant 全面追平甚至超过了此前的最强基线方法 KIVI。

最硬核的数字来自英伟达 H100 GPU 的实测:4 位精度的 TurboQuant 在计算注意力逻辑上的速度,比未压缩的 32 位方案快了整整 8 倍。

论文发布后的 24 小时内,社区已经开始动手验证。

Apple Silicon MLX 框架的知名开发者 @Prince_Canuma 把算法移植到了 Apple Silicon 的 MLX 框架,测试 Qwen3.5-35B 模型,上下文长度从 8500 到 64000 token 全覆盖,每个量化等级都跑出了 100% 的精确匹配。他还发现,2.5 位的 TurboQuant 能把 KV Cache 压缩近 5 倍,准确率零损失。

Google 的「DeepSeek 时刻」?

对于 TurboQuant 的发布,Cloudflare CEO Matthew Prince 甚至将其称为 Google 的「DeepSeek 时刻」。

把时间拨回一年前,DeepSeek 以极低的成本训练出了性能惊人的模型,彻底打破了硅谷大厂对高成本才能训练出高性能 AI 的迷信。那次冲击也让整个行业意识到:光有大模型不够,还得跑得起、跑得快。

TurboQuant 也是这种背景下的产物。如果这项技术能从实验室走向大规模应用,它将带来肉眼可见的商业价值。同样一张 H100,推理成本理论上可以直接打折超过 50%;端侧部署的门槛也会大幅降低,以前需要 32 位精度才能跑的大模型,放在 Mac Mini 或者本地服务器上也能运行,还不会有质量损耗。

市场的反应,已经很说明问题了。TurboQuant 发布当天,美股存储芯片板块盘中遭遇明显抛售。闪迪、美光科技等头部企业股价显著收跌,存储芯片与硬件供应链相关指数单日跌幅超过 2%。

究其原因,如果 AI 巨头能用一套纯软件算法把显存需求砍掉六分之五,那些押注 AI 会持续疯狂消耗高带宽显存的多头,就得重新盘算自己的仓位了。

而这种防御性反应背后,也表明,过去两年支撑存储股估值的核心逻辑之一,是 AI 对显存的需求只会越来越大。TurboQuant 第一次在技术层面正式动摇了这个假设。

当然,虽然听起来很美好,还是要泼一盆冷水。

一方面,历史上每次效率提升,往往反而带动了总需求增长,经济学里叫「杰文斯悖论」。AI 跑得更便宜,可能意味着更多人更频繁地用它,最终消耗的算力反而更多。所以这场「显存危机」到底会不会因此化解,还真不好说。

另一方面,TurboQuant 目前仍处于实验室阶段,根据最新消息,Google 计划在下个月的 ICLR 2026 大会上正式展示这项技术,届时还将同步亮相另一场顶会 AISTATS 2026。

但从论文到大规模生产部署,中间隔着工程适配、不同架构的兼容性测试、真实场景的性能验证,每一关都不轻松。

▲论文地址:https://arxiv.org/abs/2504.19874

有网友直接开炮,这篇论文的底层研究其实早在去年四月就已公开,根本谈不上横空出世,眼下的舆论热潮,多少有点追着旧闻起哄的意思。

在他看来,如果存储股因为一篇算法论文而大跌,恰恰暴露了市场里有多少人根本没搞清楚这件事的边界,并把这波反应比作「丰田出了新混动引擎,石油就该崩盘」。

更重要的是,TurboQuant 解决的只是推理(Inference)阶段的显存瓶颈,训练阶段的显存消耗依然是另一座大山。想从头训练一个主流量级的大模型,需要的算力资源依然是天文数字。

在《硅谷》里,Pied Piper 的压缩算法最终改变了整个互联网。而在现实中,TurboQuant 的野心没那么大,目标只是让 AI 在有限的物理空间里记得更多、算得更快、跑得更便宜。

现实终究不是好莱坞剧本,不必彻底改变互联网,能和 AI 聊得更长、不再半途报错,已经是很多人想要的了。

附上 TurboQuant 官方技术博客:

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

打车这件事,被千问用 AI 重新定义

By: 艾 梵
25 March 2026 at 14:00

马年春节,「千问帮我」变成了一种新年俗。

5520 万杯奶茶、66 倍的电影票订单、机票单周暴涨 540%——「一句话下单」近 2 亿次的背后,是用嘴巴购物的春节新景象。其中最让我意外的一个数字是:有超过 400 万名 60 岁以上的用户,在这个春节让千问帮忙下了单。那些习惯在 App 界面里迷路的长辈,开始用说话代替点击了。

春节热潮还没退去,千问又增加一个更高频的日常场景——打车。

不过,打车这件事,和之前的那些「一句话下单」不太一样。奶茶口味选错了,大不了将就喝掉;电影票订错了,退改也不算大问题。

但打车是一个对「精确」有刚性要求的场景,地址差一个字,你可能被送到城市的另一头;时间判断出了偏差,误掉的可能是一趟航班。

这意味着 AI 接手打车,没有「差不多就行」的余地

说到打车,这件事说难不难,但「顺不顺」这件事,差异很大。打开 App,手动输入目的地,选车型,找定位,点确认……整套流程少说十几下。还好,这已经是最理想的情况了。

麻烦的是那些「塞不进下拉菜单」的需求。「路上顺便接个朋友」、「有孕妇,开得稳一点」——这类话,打车 App 里没有地方填。你也可以上车之后再和司机沟通,但大多数时候凑合凑合就算了。

打车 App 这么多年,把流程打磨得越来越顺,但底层逻辑没变——「人适应 App」。它把你的需求拆成有限的几个下拉选项,你在里面挑,它来执行。

可打车本身就是一件变量特别多的事。起点终点只是最基础的两项,往上叠加的可能是车型偏好、价格区间、时间预约、途经地点、乘客状况、车内环境……每多一个变量,用传统界面操作的成本就多一层。

如果 AI 能理解这些需求,事情就不一样了,这也是千问 AI 打车的逻辑:让 App 适应人,说出来就能走

从最简单的通勤,到带着全家和一堆特殊要求出发,APPSO 带你看看这个 AI 打车到底能不能满足我的需求。

一句话就能走

早上赶时间,我试了最直接的一句:「打车去公司,出租车也可以。」

我说完之后,千问直接展示了行程规划页面:重点显示「已为你规划去上班的行程」,并同步展现了出租车选项——司机已接单。

就这一句话,它理解了「去公司」——调取了常用地址;也听懂了「出租车也可以」——把车型偏好同时带上,直接办妥。从说话到接单,操作步骤:1 步。

这件事本身有点微妙。「打车去公司,出租车也可以」是人对人说话时才会有的表达方式,不是人对系统填的表单。千问让这句话变得可以被执行——这个升级,比「快了几秒」要有意义得多。

之前在高德里设好了家和公司的地址,现在切到千问打车,那些预设直接就在,完全不需要重新配置什么。每天重复的路线,每次都稳稳地执行到位,通勤这种事,要的就是快、准、稳。

就因为这个,我就特别想把千问装到我爸手机上。过去她出门购物哪怕拿着大袋小袋也不愿意自己打车,不是嫌贵,就是不太会用打车软件,输入那些信息对她来说都太过复杂,最后就懒得折腾了。

只要按住语音说了句:「打车回家。」千问马上识别了当前位置并自动填入,就近匹配车辆,常用地址自动记忆识别,司机已接单。确认一下,车就在来的路上了。

「动动嘴,车就来了」的体验,不在于「快了多少秒」,在于说清楚你想要什么,这件事变顺滑多了。甚至那些原本卡在界面门口的老人,终于可以直接走进来了。

那些你「没法输入」的需求,也能满足

最简单的一句话搞定通勤,已经够用了。但打车的需求远不止如此——真正麻烦的,是那些你心里有、嘴上能说、但 App 界面里永远没有输入框的部分。

我试了一句:「叫辆空气清新的车去虹桥T2,我过敏性鼻炎。」

以前这话只能和司机说,而且大多数情况下,等你上车再说已经来不及了。

千问回应后,行程确认页面里「空气清新」选项被自动勾选。AI 直接把鼻炎过敏的诉求翻译成了可筛选的车辆偏好标签,不需要你自己去找选项。

再试一句:「逛了一下午不想挤公交了,帮我叫个特惠快车。」

这句话里藏着两个信息:累了不想挤公交的情绪,和对价格的在意。千问直接匹配了特惠快车,预估费用 9.1 元–12.7 元,确认叫车后支付页面重点显示已支付金额和「平台优惠 -12.8 元」——便宜这件事,不用自己翻菜单比价,说一句就到位了。

还有一次,我说:「娃刚睡着,帮我叫个安静点的车回家。」

这句话的信息量远不止「安静」两个字。「安静点的车」背后的真实需求是:车里别乱说话、别打电话、开稳一点、别急刹——这些对司机行为的隐性期待,千问也能满足。行程确认页面里,直接给司机带句话「车内保持安静」

商务场景同样如此。「接待重要签约客户,帮我安排一辆豪华车,预约明晚 18 点从公司到北京饭店。」一句话说完,千问推荐豪华车,预约时间精确到 18:00。

过去在打车软件里,选车型、设置预约时间、填写目的地,是分别独立的操作流程。现在千问压缩进一句话里,一起办完。

乘车途中,朋友突然发消息:「我也在诶。」

搁以前,虽然打车软件也能添加途经点,但还是要打开软件找到这个选项手动输入再点选,还是相对繁琐,还真不如让朋友自己重新打一辆来得方便。

现在,我可以直接说:「顺路接下我朋友,她在朝阳公园南门。」

地图重新规划,途经点自动标记在地图上。没有重新开单,没有让朋友自己叫车,没有任何别扭,就一句话,插进正在进行的行程里,办完了。

过去叫车,是在系统选项里「圈选需求」。AI 叫车,是用自己的语言「描述需求」。千问负责把你说的话,翻译成可以执行的指令。

那些选项框装不下的,现在说出来,也能办。

越复杂的需求,越能看出差别

前面这些,算是小试牛刀。打车需求的真正复杂度,是多个变量同时出现的时候,千问 AI 打车正是冲着这类复杂场景去的。

「周六下午两点,全家从家出发去西湖景区地面停车场,顺路经过山姆会员商店,要坐得下五个人。」

这句话里塞了四个要素:预约时间、目的地、途经点、座位数。传统打车软件要逐一输入和确认,而且途经点和多人座位的组合往往要反复调整。

千问对这类多变量场景的处理方式是这样的:推荐 6 座商务车,途经点选的山姆会员商店,预约时间定到周六 14:00,变量没有落下任何一个。

真正让我有点触动的是这个场景:「帮我打车去妇保医院,有孕妇,告诉司机不要急刹和猛加速。」

目的地、乘客特殊状况、驾驶行为要求——多个维度同时提出。千问匹配了专车,勾选了驾驶平稳,还生成了一条针对孕妇乘车情况的关怀提示,供用户确认是否传达给司机。

「有孕妇,不要急刹和猛加速」这个细节,AI 读懂了,然后把它翻译成了一套完整的服务指令。以前这些话只能坐上车再说,或者不说,靠运气。下拉菜单从来没有一个选项叫「孕妇乘客,请稳驾并提前知晓」。

需求越复杂,这种差距就越明显。点选式交互的天花板就在那里——它能覆盖的,只有被设计进去的那些需求。自然语言不一样,你能说出来的,基本都能被理解。

而且在这些能力上线后,千问 AI 打车的边界还会继续往外扩。

打车只是开始,要让每次出发都更省心

到这里,千问 AI 打车的基本能力已经摸得差不多了。但更让我惊喜的,是场景串联的体验,这是把打车和其他生活场景连在一起的时刻。

去看演唱会,在鸟巢外说「帮我找鸟巢附近的酒店,演出结束后今天入住,飞猪推荐卡片弹出来,确认第一家,再说「帮我定第一家,再预约一辆车 22 点送我过去」——车和房,两句话搞定,散场直接走人。

到了酒店随口问「推荐下本地人爱吃的卤煮」,千问调出周边热门店铺。从看演出到住下来再到吃上饭,三件事在同一个对话里接连搞定。

通勤路上说「顺便帮我点杯咖啡送到前台」,车在路上,咖啡在制作——人到公司,咖啡差不多也到了。

看电影说「订两张今晚的票,打车去,散场再预约车回来」,三句话,来去都安排好。赶飞机前问「地铁还是打车哪个更快」,千问给出建议,接着直接叫车——决策和执行,在同一个对话里完成。

这才是千问 AI 打车最大的想象力所在,不在打车本身,而在打车前后。之前千问陆续接入了飞猪、高德、大麦、淘宝闪购,「吃喝玩乐行」正在被一条对话线串起来。

以前用 App,本质是「工具集」——地图一个,打车一个,订酒店一个,买票一个,靠自己在脑子里拼。千问的逻辑不一样:理解你在做什么,把接下来该做的事直接推到你面前。AI 帮你省掉的,是那些本不该操心的琐事。

好的 AI,帮你把现实生活的每一环串起来

过去几年,我们谈 AI,谈的更多是「用 AI 写作」「用 AI 画图」「用 AI 生成代码」——这些能力确实强大,但本质上,它们是把你带进一个屏幕里的虚拟创作世界。你和 AI 对话,产出一段文字,一张图,然后……这段互动就结束了。

千问 AI 打车做的事情,方向截然相反。

它不是让你沉进去,而是帮你走出来。你说一句「打车回家」,AI 在背后接通了高德的地图、物理世界的车辆调度、你常用地的地址,然后把一辆真实的车开到你楼下。

你说一句「订两张今晚的电影票,散场帮我叫车」,两小时后你坐在影院里看大银幕,散场走出来车已经在等你——AI 把订票、打车、回家这些原本分散的环节,串成了一个完整的夜晚。

这是一种很不一样的 AI 使用方式:它的成果不是一份文件,而是一次真实的生活体验

千问背后的阿里生态,在现实世界里铺了很多年——飞猪管你去哪,淘宝管你买什么,饿了么管你吃什么,大麦管你看什么……这些产品各自独立,以往要在一个个 App 之间来回切换,手动把「出门这件事」拼起来。

现在,打车补上了最后一块拼图。

从家门口叫一辆车出发,到咖啡在路上、票已提前选好、演出散场回程提前预约——这条链路,终于在一个对话框里连通了。

千问事业群总裁吴嘉说:「我们真正想的,是让 AI 融进老百姓的日常生活场景中。」

这句话放在这里,我觉得格外准确。AI 最大的价值,从来不在于它能创造多少数字生命,而在于它能让你的真实生活过得更顺。

现在它能帮你把吃饭、出行、看演出、送老人回家这些原本散落在十几个 App 里的环节,串成一条连贯的线。吃一顿饭更省心,看一场演出更完整,带着全家出门更从容,送老人回家更放心。

所以 AI 最好的样子,不应该只是把你钉在屏幕前,更要帮你稳稳接住现实生活的每一环

从说出口,到真实地发生——这条路越短,AI 就越有价值。

千问 AI 打车,只是让这条路,又短了一截。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

突发!Sora 宣布关停,史上最贵 AI 表情包生成器只撑了七个月

By: 莫崇宇
25 March 2026 at 10:58

去年 9 月底,Sora 2 上线的第一天,OpenAI CEO Sam Altman(山姆·奥特曼)就把自己的 cameo 权限向所有人开放。很快,他被做成各种荒诞 AI 表情包在社交媒体疯传。

网友玩得不亦乐乎,社交媒体上「AI 视频元年」的口号铺天盖地。

七个月后,他亲手签下 Sora 的死亡通知书。

▲网友还是懂玩梗的

据《华尔街日报》报道,奥特曼在内部信中宣布:Sora 视频平台将全面停运。不只是那个消费端 app,开发者 API、ChatGPT 里的视频生成功能,统统砍掉。干净利落,不留余地。

就在刚刚,Sora 官方也在 X 平台上发文告别:

「我们将与 Sora 应用说再见。对于所有使用 Sora 创作、分享并围绕它建立社区的大家:谢谢你们。你们用 Sora 创作的内容意义重大,我们知道这个消息令人失望。
我们很快将分享更多信息,包括应用和 API 的时间表,以及保存你们作品的细节。
– Sora 团队」

这大概是 AI 行业过去一年里,最戏剧性的情节。

一个 AI 视频模型杀手的速生速死

回到去年 9 月,Sora 的发布可以说是 OpenAI 最高调的一次产品秀。

它不是一个简单的视频生成工具。OpenAI 给它设计了社交 feed 流,用户可以用 AI 生成视频、发布、互相观看。

本质上,这是一个 AI 原生的短视频社区。奥特曼本人亲自下场玩梗,鼓励用户把他剪进各种流行文化的名场面里。

排场拉满了,市场反响也是真实的。Sora 上线不到五天,下载量就突破了 100 万,一度冲上苹果 App Store 榜首。开局阶段,用 Sora 生成《海绵宝宝》《皮卡丘》等知名 IP 视频的创作者们引发了一阵狂欢。

但问题从一开始就埋下了。

据《华尔街日报》报道,Sora 上线时,OpenAI 内部就有员工对这个项目消耗的算力规模感到「惊讶」,因为彼时完全没有明确的用户需求验证,公司却已往里砸了大量计算资源。

换句话说,这是一个老板觉得该做的产品,而用户真正的持续需求,始终没有被验证。

数字不会说谎,上线后,这种担忧也逐渐变成了事实。硅谷风投机构 a16z 合伙人 Olivia Moore 在社交媒体上晒出一张 SensorTower 的监测截图:Sora APP 的 30 天用户留存率仅为 1%,60 天留存率直接归零。

奥特曼自己后来也承认,大量用户主要用 Sora 制作趣味表情包分享给好友。这种一次性的娱乐行为,天然缺乏复购动力,也几乎没有变现路径。

产品本身的体验也在加速流失。

实测数据显示,Sora 生成的视频中,真正达到可发布水准的仅占 5% 到 10%,用户平均需要生成十条视频,才可能得到一条满意的结果。加上单次渲染动辄数分钟,一个勉强可用的成片往往要耗掉大半小时。

这种「靠运气」的创作体验,对内容创作者来说是致命的。

版权问题,则从另一个方向压缩了用户的创作空间。

上线初期,生成知名 IP 视频的能力是 Sora 最大的吸引力,但版权方的强烈反对很快迫使 OpenAI 将授权规则从默认可用改为需明确授权,并大幅加强了内容限制。新鲜感退潮之后,留下来的创作空间已所剩无几。

社区功能同样乏善可陈。推荐算法单一,优质内容得不到曝光;用户只能点赞,没有评论和收藏;视频播放过程中无法暂停;搜索体验混乱。

正如 Olivia Moore 所分析的:「纯 AI 生成内容的社区,效果劣于人机混合内容的形态。」Sora 产出的优质内容,最终大多流向了短视频平台,它只是一个创作工具,从来没有成为一个独立的社交产品。

一个烧钱的无底洞

留存问题之外,更直接压垮 Sora 的,是它的运营成本。

据外媒估算,每日约 1500 万美元的运营开销(年化约 55 亿美元)、单段 10 秒视频 1.3 美元起步的生成成本、复杂场景下高达 33 美元的单次费用,这些数字让 Sora 的商业模式从一开始就站在悬崖边上。

Sora 负责人 Bill Peebles 甚至公开承认,当前的运营模式「完全不可持续」,团队 GPU 资源已经不堪重负。
为了控制成本,OpenAI 被迫将免费用户的每日生成额度从 30 个削减至 6 个。

但这个决定本身是一把双刃剑,进一步削弱了普通用户的参与意愿,加速了留存的崩塌。与此同时,Google Gemini、Meta,以及国内的可灵、即梦等竞品相继推出视频生成功能,加速了用户的分流。

当 60 天留存率趋近于零的数据摆上桌面,停运就只是时间问题了。

只是,如果说 Sora 的故事里有什么最让人唏嘘的细节,那一定是迪士尼的那 10 亿美元。

去年 12 月,迪士尼宣布向 OpenAI 投资 10 亿美元,并签署了一份为期三年的授权协议。超过 200 个迪士尼角色将被引入 Sora,用户可以和卢克·天行者一起挥光剑,把自己塞进《玩具总动员》的世界里。

这本该是 AI 与内容产业最具标志性的联姻。

但这笔交易从未完成交割。据知情人士透露,Disney 方面实际上从未完成这笔投资,合同始终停在纸面上。OpenAI 宣布退出视频业务,直接宣告了这笔合作的终结。

迪士尼发言人表示:「随着新兴 AI 领域的快速发展,我们尊重 OpenAI 退出视频生成业务、将重心转向其他方向的决定。我们珍视双方团队之间富有成效的合作,也将继续探索以负责任的方式拥抱新技术。」

从高调官宣到体面分手,前后不过三个月。10 亿美元级别的战略合作,说散就散。这不仅是 Sora 的失败,更折射出当前 AI 行业现实之残酷。

战略收缩,Sora 或许只是开始

公平地说,Sora 被砍,不完全是因为产品本身的失败。

更根本的原因是,OpenAI 正在经历一场彻底的战略收缩。就在同一天,OpenAI 还宣布叫停了去年推出的「即时结账」购物功能。Sora 同样也是整体「瘦身」的一部分。

这背后有一条清晰的财务逻辑:OpenAI 估值已高达 7300 亿美元,IPO 预期最快落在今年第四季度。要向资本市场讲好故事,就必须收紧支出、聚焦变现。

哪怕是过去那种「大规模自建数据中心」的豪赌思路,也已悄然转向,OpenAI 正回归云计算采购方的定位,而非押注自己下场造基础设施。

组织层面的变化同样意味深长。

奥特曼在同一封内部信中宣布,他将卸下对安全和安全保障团队的直接管辖。安全研究团队划归首席研究官 Mark Chen 领导的研究组织,安保团队则并入联合创始人兼总裁 Greg Brockman 主导的「规模化」部门。

奥特曼本人将把精力集中在融资、供应链和「以前所未有的规模建设数据中心」上。与此同时,Fidji Simo 的产品部门被正式更名为「AGI 部署」(AGI Deployment)。

更值得一提的是,据 The Information 报道,奥特曼还在内部信中透露了另一个重磅消息:代号「Spud」的下一代主力模型已完成预训练阶段,预计「几周内」就将正式亮相。

他对这个模型寄予厚望,称团队相信它「真正能够加速经济发展」,并感叹「事情推进之快,超出了我们很多人的预期」。如此看来,释放给 Spud 的算力,很有可能正是来自 Sora 腾出的那部分资源。

奥特曼给出的新方向很明确:聚焦生产力工具,全力押注企业和开发者市场。

就在上周,OpenAI 宣布将 ChatGPT 桌面端、编程工具 Codex 和浏览器整合为一个「超级应用」,希望用一个统一的产品对齐所有员工的方向。

应用业务负责人 Fidji Simo 在本月的全员会上更是如此说道:员工不能再被「支线任务」(side quests)分心。她强调,公司现在要积极地向高生产力使用场景转型,核心是保持专注、极致执行。

现在,Sora 就是那个被判定为「支线」的东西。

当 Anthropic 正在企业和编程市场上快速蚕食 OpenAI 的份额。在 Agentic AI(能在用户电脑上自主执行任务的 AI 系统)这个下一爆发点的赛道上,OpenAI 只能不再分散兵力。

不过,Sora 团队不是被裁,而是被转向了更长远的方向。

Sora 负责人 Bill Peebles 在宣布消息后随即发出一条内部 Slack:「为这支小而极其出色的 Sora 产品团队所完成的一切感到无比自豪;这个 app 给世界带来了很多欢乐,也让我们在这个规模下磨砺了 Sora 的基础设施。」

他同时宣布,Sora 研究团队的下一个目标,是构建「通过模拟任意环境来深度理解世界的系统」,也就是世界模型(World Model),最终指向「自动化物理经济」。

奥特曼在内部信中的表述与之呼应:Sora 研究团队将「优先推进长期世界模拟研究,尤其是与机器人相关的方向」。

简言之,从砍掉 Sora,到合并超级应用,再到聚焦 Agentic AI。OpenAI 的这一轮动作,本质上是在做减法。

这和过去两年 AI 行业的主旋律截然相反。

2024 到 2025 年,几乎每家 AI 公司都在疯狂扩张产品线:做聊天的去做机器人呢,做文本的去做图片,做图片的去做视频,做视频的去做硬件。大家都怕错过下一个风口,于是什么都想试。

OpenAI 自己就是这种「全面开花」策略的典型代表。奥特曼曾公开表示希望公司「大胆思考产品路线图」,甚至还公布了所谓 AI 硬件设备的计划。但现在,现实给了所有人一记耳光。

当 Anthropic 用 Claude 在企业市场稳扎稳打,当 IPO 的时间表越来越近,OpenAI 终于意识到:在 AI 这场马拉松里,跑得快不如跑得对。

Sora 的故事,与其说是一个产品的失败,更像是一个时代的拐点。而那些还在追逐下一个 wow moment 的公司,或许该认真想想:你现在旗下的产品里,什么是主线任务,什么是支线任务?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,苹果版 ChatGPT 曝光,AI Siri 将接管你 iPhone 上的一切

By: 李超凡
25 March 2026 at 10:46


Siri 要有自己的独立 App 了。

不是那个按一下电源键蹦出来、说两句就断片的 Siri,是一个长得像 ChatGPT、能聊天、能翻历史记录、能上传文档分析的「全新 Siri」。

彭博社记者 Mark Gurman 今天凌晨爆出了一颗重磅炸弹:苹果正在内部测试一款独立的 Siri 应用,代号 Campo,计划 6 月 9 日在 WWDC 上随 iOS 27 一起亮相。

如果消息属实,这将是苹果自 2011 年推出 Siri 以来,对这个语音助手最大规模的一次手术。

而今年,恰好是苹果公司成立 50 周年。

一个在 AI 时代掉过队的公司,选择在自己的「金婚之年」亮出一张重新洗过的底牌。

这张牌,叫 Siri。

Siri 终于长大了:一个独立 App、一套全新界面

这次爆料的信息量很大,我尽量翻译成人话。

最直观的变化:Siri 终于有了自己的独立 App。

新版 Siri 将作为一个独立应用出现在 iPhone、iPad 和 Mac 上。打开之后,你会看到一套完整的对话界面——历史对话列表、圆角矩形卡片、可以置顶收藏的聊天、还有一个醒目的「+」号来开新话题。

对话界面长得像 iMessage 的聊天气泡,底部有文字输入框,旁边有语音切换按钮,甚至还能上传文档和照片让 Siri 分析。

是的,苹果终于让 Siri 拥有了一个持续存在的、可回溯的对话空间。这件事 ChatGPT 做了两年多了,但苹果选在这个时间点做,意味着它想把 Siri 从一个「被动唤醒的助手」变成一个「用户会主动打开的工具」。

这是定位上的根本转变。

而更大的野心藏在第二个变化里:Siri 正在吞掉 Spotlight。

苹果正在测试用 Siri 取代 Spotlight——就是你从屏幕中间往下一划出来的那个搜索。新的统一界面会把本地搜索和 AI 问答合并到同一个入口。

据爆料,Siri 会被塞进 Dynamic Island 里。激活 Siri 后,顶部会出现「搜索或询问」的提示。当你提问之后,就会先弹出一个药丸形的「正在搜索」进度条,然后结果以 Liquid Glass 风格的半透明面板展开。想继续追问?往下一拉,就进入对话模式。

是的,没有刻意新增任何按钮,苹果只是把你最熟悉的入口悄悄换了引擎。以后在 iPhone 上找任何东西,第一反应不再是打开 Safari 或某个 App,直接问 Siri 就行。

而如果说前两个变化还停留在「界面」层面,第三个变化才是苹果最拿手的那套:系统级整合。

Ask Siri 的入口,将渗透进整个操作系统。比如选中一段文字、一封邮件、一张照片,点一下「Ask Siri」,就能直接进入对话窗口;键盘顶部还新增「用 Siri 撰写」入口,方便你随时调用写作工具。

尽管类似的功能在第三方 App 里早就有了,但苹果把它做进了系统层,每个内置 App 原生支持,无需跳转,无需复制粘贴。这种润物细无声的整合能力,依然是苹果最难被复制的护城河。

用 Google 的脑子,装苹果的壳

当然,要真正理解这套新 Siri 的价值,光看产品还不够。它背后藏着一段苹果不太愿意主动提起的历史。

如果将时间拨回 2024 年 6 月,苹果在那年的 WWDC 大会上端出了 Apple Intelligence,能读懂上下文、能看屏幕、能跨 App 操作,甚至能从你的邮件里翻出航班信息,回答「我该什么时候去接妈妈」。演示视频做得天花乱坠。

全场欢呼,媒体盛赞。然后,就没有然后了。

科技博主 John Gruber 后来回忆说,那些 Siri 演示全是概念视频,连受控环境下的真机演示都没有。换句话说,在苹果把它搬上 WWDC 舞台的那一刻,增强版 Siri 还远没有准备好。

兜兜转转,增强版 Siri 延期的症结只有一个:内部测试显示,Siri 只有 75%~80% 的时间能正常工作。用户语速稍快就会被打断,复杂查询反应迟缓,偶尔还会退回到 ChatGPT 集成。苹果对产品质量的执念,让它宁愿等,也不愿把一个半成品推给用户。

但这份执念也让苹果付出了真实的代价。

从去年至今,苹果 AI 团队数十名核心成员被竞争对手挖走。基础模型负责人庞若鸣被 Meta 以 2 亿美元签下,Siri 搜索项目负责人跳槽 Meta,关键研究员流失到 OpenAI、xAI、Cohere。

同期,库克做了一个重要决定:把软件工程主管 Craig Federighi 拉来接管 AI 部门,又安排 Vision Pro 团队核心人物 Mike Rockwell 来统管 Siri 团队。

一位以强执行力著称的高管,就这样接手了苹果最紧迫的项目。

但光换帅不够。苹果自研的基础模型只有 1500 亿参数,而要让 Siri 真正「听懂人话」,需要的推理能力远超这个量级。

于是苹果做出了一个务实但大胆的决定——和 Google 签了大约 10 亿美元的合作协议,引入 Gemini 模型。
Google 提供的定制版 Gemini 拥有 1.2 万亿参数,是苹果自研模型的 8 倍。新版 Siri 的诸多功能——摘要生成、任务规划、复杂推理——都将依赖 Google 的大脑。

对于一家恨不得连数据中心螺丝钉都自己造的公司来说,把核心 AI 能力交给竞争对手来提供,需要极大的战略定力。
但费德里吉选择了务实。因为留给苹果的时间窗口已经不多了——

智能眼镜 N50 等着 Siri 才能发售,带摄像头的 AirPods 等着 Siri 才有灵魂,那个可穿戴吊坠、智能家居中心、桌面机器人,全部在等 Siri 就位。

Siri 不是一个功能,它是苹果未来五年所有新硬件的操作系统。

所以苹果选择了先跑起来。而且并非毫无章法——按照协议,Gemini 模型将运行在苹果的「私有云计算」服务器上,用户数据不经过 Google。苹果借用技术,但牢牢握住隐私。

而且苹果的架构设计本身就是模块化的:端侧小模型处理简单任务和隐私敏感操作,云端大模型处理复杂推理。这种「插拔式」架构,让苹果可以随时更换背后的引擎,而用户无感知。

今天用 Gemini,明天自研模型追上了,换掉就是。

某种意义上,这不是妥协,是「先租一辆好车上路,同时造自己的引擎」。

50 岁的苹果,为什么值得期待

1976 年 4 月 1 日,乔布斯和沃兹尼亚克在车库里创立了苹果。

2026 年,苹果 50 岁。

过去 50 年里,苹果经历过被逐出、回归、濒临破产、iPod 救命、iPhone 封神、生态帝国成型的全部剧本。几乎每一个十年,都有一个「定义苹果」的产品:Mac、iPod、iPhone、Apple Watch。

而下一个十年,苹果押在了 AI Siri 上。

OpenAI CEO Sam Altman 曾在纽约的一场午餐会上直言不讳:「大家别盯着 Google 了,OpenAI 真正的宿敌,是苹果。」

在 Altman 看来,未来 AI 的主战场不在云端,而在终端。谁能率先打造出「AI 原生设备」,谁就能在下一个十年占据制高点。而苹果手握数亿 iPhone 用户、全球最成熟的硬件供应链,还有能力将 AI 深度整合进芯片和操作系统。

在所有科技公司里,苹果可能仍然是最有可能在 AI 时代赢的那个。

原因很简单,AI 的终极战场不是模型参数的大小,而是谁能把 AI 能力无缝交付到用户手里。苹果掌控着从芯片到操作系统到应用商店的完整链路,这是 Google 没有的,是 OpenAI 没有的,是 Meta 没有的。

当 AI 从「技术展示」进入「日常工具」的阶段,平台级整合能力比模型性能更重要。而 Craig Federighi 现在要做的,就是把这个潜力兑现。

独立 Siri App、全新界面、Ask Siri 入口、Spotlight 替代——先用产品层面的巨变,让用户感知到「苹果在动了」,再用 Google 的模型兜底能力,争取时间让自研模型追上来。

这是一次典型的苹果式操作:用产品化能力弥补技术差距,再用时间换空间。

他们一直擅长这个。iPhone 第一代也不是技术最强的手机,但它是体验最好的。Siri 这次也是一样——模型不一定是最强的,但如果界面足够好用、入口足够深入、和生态的融合足够丝滑,用户可能根本不在乎背后跑的是 Gemini 还是苹果自研。

值得一提的是,2011 年,乔布斯在生命的最后几个月,深度参与了 Siri 的收购和发布。他看到的不仅是一个语音助手,更是一个能从用户中不断学习、自我进化的 AI 系统。

乔布斯离开9年,重温其最经典毕业演讲:三个故事,值得一听

15 年后,Siri 终于有机会变成他当初想象的样子。

苹果内部那位负责 Siri 团队的高管 Robby Walker 在一次内部会议上说过一段话,大意是:

我们游了数百英里,已经创造了游泳距离的吉尼斯世界纪录,但我们仍然没有游到夏威夷。我们被激怒不是因为我们游得很棒,只是因为我们还没到达目的地。

50 岁的苹果,「正在拼命往夏威夷游」。

今年,它终于租了一艘快艇,方向也看清了。接下来就看它能不能在今年 WWDC 上,让全世界看到一个真正好用的 Siri。

这一次,我再次选择期待苹果交出的答卷。毕竟在所有可能把 AI 做进每个人口袋里的公司中,苹果手里的牌,依然是最好的。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

黄仁勋回应一切:木匠、水管工看到 Al 应该最兴奋

By: 莫崇宇
24 March 2026 at 15:51

如果要找一个人来解释这场 AI 大爆发究竟是怎么发生的,黄仁勋无疑是最合适的人选。

三十年前创立英伟达、押注图形处理器,把 CUDA 强行装进游戏显卡,市值从 80 亿跌至 15 亿,然后用十年爬回来。在所有人还在争论推理芯片会不会只是低端市场时,他已经在为智能体时代设计机架架构。

这种提前预判,显然不只是运气,也离不开他几十年如一日做的一件事:在所有人相信之前,先把那个未来讲给所有人听。

今天,知名播客主持人 Lex Fridman 公开了他与黄仁勋长达两小时的深度专访。

对话涵盖 CUDA 护城河、中国科技生态、编程的未来,DLSS5、乃至意识与死亡。这是黄仁勋近期最完整的一次公开表达,也是迄今为止最接近他真实思维方式的一次记录。

附上黄仁勋采访文字版实录 🔗:https://lexfridman.com/jensen-huang-transcript

一个问题,60 个专家同时在场,这就是英伟达开会的方式

采访开篇,Fridman 指出英伟达已将设计重心从单芯片扩展至机架级别,涵盖 GPU、CPU、内存、网络、NVLink、光纤与铜缆互联、供电、冷却、软件以及机架本身。他问黄仁勋:在如此多变量的协同设计中,最难的部分是什么?

黄仁勋首先解释了极致协同设计为何从工程逻辑上不可回避。

他说,问题的根源在于规模:当你把一个任务分布到一万台计算机上,你期望的结果是获得远超线性叠加的加速效果,比如一百万倍的提升,而单纯增加计算机数量只能带来线性收益。

这就是阿姆达尔定律的约束,也就是说,如果计算只占总工作量的 50%,即便把计算速度提升到无限快,整体也只能加速两倍。

「一旦你把问题分布出去,所有东西都会成为瓶颈。CPU 是问题,GPU 是问题,网络是问题,交换机是问题。分布式计算在我们这个规模下,每一个环节都必须同时攻克。」

在组织层面,黄仁勋透露自己的直接汇报超过 60 人,几乎涵盖所有技术学科的顶尖专家:内存、CPU、光学、GPU 架构、算法、设计,无一缺席。他刻意放弃一对一汇报制度,改为让所有人同时在场讨论任何一个具体问题。

「因为我们在做极致协同设计,所以任何一次讨论都不可能只有一个人在场。我们呈现一个问题,所有人一起攻。当我们讨论冷却,网络专家在听;当我们讨论供电,内存专家在听。谁要是对本该关注的事情没有关注,我会直接点名。」

他将公司架构比作操作系统,认为公司的组织结构应当直接反映它所处的环境和它要生产的产品,而非套用统一的「汉堡式」或「软性」组织图或者和汽车公司组织图。

把 CUDA 塞进游戏显卡,是最痛苦也是最关键的决定

在讲述英伟达的战略演进时,黄仁勋也详细梳理了从图形加速器到计算平台的转型路径。

他说,英伟达最初是一家加速器公司,专注于图形处理。专业化的好处是极致优化,问题在于市场边界天然受限,而市场规模直接决定研发投入能力,研发能力又决定了一家公司在计算领域能发挥多大的影响力。

于是英伟达必须拓宽边界,向通用计算迈进,但通用性和专业性之间往往存在天然的矛盾:越向通用计算靠拢,专业加速能力就越被稀释。

「我把这两个本质上矛盾的词硬连在一起,公司必须一步一步走那条极其狭窄的路,在扩展计算边界的同时,守住最重要的专业化能力。」

第一步是可编程像素着色器,第一次向可编程性迈进。第二步是在着色器中加入 IEEE 标准兼容的 FP32 浮点运算,这一步吸引了那些此前在 CPU 上做流处理和数据流计算的研究者。他们发现,GPU 的计算密度极高,又能兼容他们原有的软件逻辑。这直接促成了 Cg 语言,再到 CUDA。

将 CUDA 搭载到 GeForce 消费级显卡是整个历史中最关键也最痛苦的决策。

黄仁勋说,计算平台的价值完全取决于装机量,而不是架构的优雅程度。他举 x86 为例:这是历史上被批评最多的架构,远没有同期那些被顶尖计算机科学家精心设计的 RISC 架构优雅,但 x86 活下来了,RISC 大多失败了。原因只有一个:装机量。

「当时 GeForce 每年出货数百万块显卡。我们说,不管用户用不用 CUDA,都把它装进每一台 PC 里,用这个作为培育装机基数的起点。同时我们去大学里写教材、开课程、到处推广 CUDA。在那个年代,PC 是主要的计算载体,没有云,我们等于把超算塞进了每一个在校学生和研究人员的手里,总有一天会有惊喜发生。」

代价是惨烈的。CUDA 让 GeForce 的成本大幅上升,将英伟达的毛利率彻底压垮,公司毛利率本已只有 35%,成本增加 50% 之后,全部利润蒸发。市值从约 80 亿美元一路跌至 15 亿美元,在底部徘徊了相当长的时间。

「但我们一直扛着 CUDA,一直搭载在 GeForce 上。英伟达是 GeForce 建起来的家,是 GeForce 把 CUDA 送到了所有人手里。研究人员和科学家在大学里发现了 CUDA,因为他们本来就是游戏玩家,他们自己攒电脑,他们拿 PC 组件搭集群。」

后来,这成为深度学习革命的基础设施。对于如何作出这类赌注式决策,黄仁勋说,他的决策过程始于好奇心,然后是推理。当推理系统在内心足够清晰地呈现出「这件事一定会发生」时,他便开始相信它,而一旦相信,就会去实现。

但更重要的是他管理集体信念的方式:他从不等到决策那一天才宣布,而是通过每一次外部信息、工程里程碑、行业新发现,持续向董事会、管理团队、员工、合作伙伴一点一点地铺设认知基础。

「到了宣布的那一天,我希望所有人的反应是:『Jensen,你怎么现在才说?』收购 Mellanox 是这样,全力押注深度学习是这样,现在 Groq 也是这样,我已经铺垫了两年半。」

他把 GTC 大会描述为向全行业塑造未来认知的工具,不只面向员工,也面向合作伙伴和整个生态。「我们不生产计算机,也不搭建云。我们是计算平台公司,任何人都无法直接购买我们的产品,但我们向所有层级开放平台。在我的产品准备好之前,必须先让所有人相信它将要到来。」

Ilya 说数据耗尽了,黄仁勋说他搞错方向了

对于 Scaling Laws(缩放定律/扩展定律),黄仁勋提出了一个系统性框架,包含四个相互咬合的层次。

第一条是预训练扩展定律。模型越大,训练数据越多,AI 越聪明。

当 Ilya Sutskever 表示「预训练数据耗尽」时,业界一度恐慌,认为 AI 到了天花板。黄仁勋认为这个担忧搞混了方向:人类生产的数据确实有限,但合成数据的比重会越来越高,而且这并不奇怪,人类知识本来就是「合成」的,知识在人与人之间流转、被重新诠释、再创作、再消费。AI 现在已经能够以真实数据为基础大量生成合成训练数据,预训练的瓶颈从数据量转移到了算力。

第二条是后训练扩展定律。通过指令微调、强化学习等方式持续精炼模型能力,这个空间仍然广阔。

第三条是测试时扩展定律,也就是推理阶段的计算投入。

黄仁勋说,当初很多人预判推理是「简单的」,认为推理芯片只需要小而廉价,完全不需要英伟达那样昂贵复杂的产品,将来推理市场会是一个被商品化的低端市场。「这在逻辑上就说不通。预训练是记忆和归纳,是阅读;推理是思考、推理、规划、搜索、尝试、分解陌生问题。思考怎么可能是计算轻量级的?」事实证明他是对的,测试时扩展的计算消耗远超市场预期。

第四条是智能体扩展定律。一个大语言模型变成一个智能体,在测试时去查数据库、使用工具、分配子任务,同时派生出大量子智能体。「扩充英伟达规模最简单的方法是多雇员工,而智能体的分裂速度比雇人快多了。」这些智能体在运行过程中积累大量有价值的经验和数据,其中的精华会反哺预训练,再经后训练精炼,再经测试时增强,形成完整的闭环飞轮。

「归根结底,智能的扩展取决于一件事:算力。」

对于如何在硬件设计层面预判 AI 模型的走向,黄仁勋坦言这是最难的部分之一,因为 AI 模型架构每六个月就会迭代一次,而系统和硬件架构的迭代周期是三年。

英伟达的应对策略包括三条:内部做基础研究和应用研究,自己训练模型,获得一手体感;作为全球唯一与所有 AI 公司同时合作的平台公司,广泛倾听行业前沿的挑战;以及保持架构的灵活性,让 CUDA 能随算法演进而演进。

他举了混合专家模型(MoE)的例子:正是预判到 MoE 的崛起,英伟达才将 NVLink 从 8 路扩展到 72 路,使一个完整的 4 万亿乃至 10 万亿参数模型能够在单一计算域内运行,行为上如同一块巨大的 GPU。

而 Vera Rubin 一代机架相较于 Grace Blackwell 机架,最显著的变化在于增加了存储加速器,引入了全新的 Vera CPU,还有专为智能体任务设计的 Rock 机架,因为智能体工作时需要频繁访问文件系统、调用工具、执行代码,这与单纯运行 LLM 推理是完全不同的工作负载。

「为什么在 Claude Code、Codex、OpenClaw 出现之前,我们就设计好了这一代架构?因为推理根本不需要等到具体产品出现,你只需要坐下来认真思考:一个大语言模型要成为真正的数字工人,它必须做什么?它必须访问文件系统获取真实数据,必须能上网查资料,必须会用工具,必须能派生子任务。这些都不是玄学,就是基本逻辑。」

他还用了一个生动的思想实验:想象十年后最强的 AI 智能体是一个人形机器人,进入你家干活,更可能的情形是它使用你家里现有的工具,比如微波炉,还是它的手指会随时变成锤子、手术刀或者微波发生器?答案显然是前者。「我描述的,其实就是 OpenClaw 几乎所有的核心特性。」

黄仁勋眼中的马斯克:一个把自己变成所有人最高优先级的人

Fridman 提到黄仁勋曾高度称赞马斯克在孟菲斯以四个月时间建成 Colossus 超算,目前已达 20 万块 GPU 的规模。黄仁勋阐述了他从中看到的工程与管理哲学。

他说,马斯克是一个能在多个高深领域同时保持深度的人,同时又是出色的系统思考者。他习惯性地对每一件事追问三个问题:这是必要的吗?必须这样做吗?必须花这么长时间吗?层层追问之后,系统被剥离到最小必要形态,能力却完整保留。

「他也会亲自出现在问题发生的现场。有问题,他就去现场,『把问题给我看』。这种做法能打破大量『这就是我们一贯的做法』的惯性。每个供应商都有很多客户和项目,他的做法是让自己成为所有人项目里的最优先级,而且他是靠亲身示范做到的,不是靠嘴说。」

他描述了 Fridman 也同样经历过的一个细节:马斯克曾蹲在机架旁边和工程师一起研究如何插拔线缆,目的是减少出错概率。「从每一个细节积累起来的直觉,让你能同时看清微观的低效和宏观的系统性问题,然后你才有资格说『让我们换一种完全不同的方式来做这件事』。」

为什么中国科技圈天然倾向于开源

谈及最近访问中国之行,黄仁勋表示,全球约 50% 的 AI 研究人员是中国人,其中大多数仍在中国国内工作。中国科技行业崛起的时间节点,恰好与移动互联网时代高度重合,使他们能够以软件为突破口进入全球竞争。

他认为,中国科技生态之所以能持续输出大量顶尖公司,有几个结构性原因。

第一是竞争烈度。中国并非一个统一的大市场,而是由无数个省和城市组成的竞争体系,这导致每个垂直领域都出现了数量惊人的竞争者,电动车如此,AI 公司亦然,最终在激烈竞争中存活下来的必然是极其优秀的企业。

第二是开放共享的文化。中国工程师圈子高度依赖于学校、公司之间的人际网络,同学就是终身兄弟,朋友就是同行。黄仁勋说,中国工程师的优先级排序是:家人第一,朋友第二,公司第三。这个排序直接决定了他们对待知识的态度。

他们的工程师,兄弟在那家公司,朋友在那家公司,大家都是同学。同学这个概念,在中国意味着一辈子的兄弟。所以他们分享知识的速度极快,根本没有理由把技术藏着掖着,放到开源上就好了。

第三是崇尚工程的社会文化。这是一个崇尚建造的国家。

他由此延伸到英伟达的开源战略,特别提到 Nemotron 3,这是一个 1200 亿参数的开放权重混合专家模型,架构上融合了 Transformer 与状态空间模型(SSM)。

英伟达推进开源有三重动机:其一,自己训练模型是极致协同设计的一部分,能让硬件团队直接感知模型架构的走向;其二,专有模型和开源模型各有必要,开源是让 AI 真正扩散到每个行业、每个国家、每个研究者和学生手中的必要条件;

其三,AI 远不只是语言,生物学、物理、气象、流体等领域都需要专门训练的模型,英伟达要确保每个行业都能获得世界级的 AI 基础模型。

43000 个人和数百万开发者,共同撑起英伟达护城河

被问及英伟达最重要的竞争护城河,黄仁勋给出了一个清晰的排序。

第一是 CUDA 的安装基数。

他说,即便二十年前有人做出了一个技术上更出色的替代架构,比如 GUDA 或 TUDA,也很可能失败。因为决定架构成败的从来不只是技术,而是有多少开发者将自己的软件建立在这个平台上。

CUDA 今天的地位,来自 43000 名英伟达员工数十年的持续投入,也来自数百万开发者将他们的软件栈压注在这个平台上的信任。

他还强调了英伟达执行速度的重要性:任何一个开发者只要选择了 CUDA,几乎可以确定六个月后它会变得更好十倍;他开发的软件能触达几亿台设备、覆盖所有主要云服务商、所有主要行业、所有主要国家;而且他能确信英伟达会在可预见的未来持续维护和改进 CUDA。「把这几点加在一起,如果我是一个开发者,我会首先选 CUDA,并且把最多的资源投入到 CUDA 上。」

第二护城河是生态系统的横向覆盖。英伟达将极其复杂的系统纵向整合,但同时向每一家公司的计算平台横向开放接入,从谷歌云、亚马逊 AWS、微软 Azure,到 CoreWeave、Nscale 这样的新兴算力公司,到制药企业的超算,再到电信基站边缘设备、汽车、机器人、卫星。

一个架构覆盖了全球几乎所有行业。

对于英伟达未来能否达到 10 万亿美元市值,黄仁勋的推演从两个根本性变化出发:计算从检索式转向生成式,意味着算力需求量级跃升;计算机从仓储单元转变为生产工厂,意味着它从成本中心变成了直接与企业营收挂钩的利润中心。他预计世界 GDP 增速将会加快,而计算占 GDP 的比例将达到过去的 100 倍以上。

他提到英伟达的 3 万亿美元收入路径在他看来是「当然可能」的,并没有任何物理定律约束这一数字的实现,更重要的是,英伟达的增长不依赖于从现有竞争对手手中夺取份额,而是依赖于一个几乎从零开始生长出来的全新市场。

「当英伟达是 100 亿美元的公司时,你没法说『如果他们从谁那里拿到 10% 份额就能增长多少』。他们的想象力需要从零构建。但我有的是时间,每一次 GTC 都会让这件事变得更加真实。」

谈及智能体时,他将 OpenClaw 比作「Token 的 iPhone」:「消费者直接能用到了。iPhone 级别的产品到了,它是有史以来增长最快的应用,一飞冲天,就这样。」

玩家对 AI 糊感的愤怒,其实是一面镜子

黄仁勋说,GeForce 至今仍是英伟达最重要的品牌营销策略:人们十几岁时因为游戏认识英伟达,进入大学和职业生涯后自然转向 CUDA 和专业工具。

被问及史上最重要的游戏,他给出两个答案:从文化与行业影响力看是 Doom,它把 PC 从办公工具变成了家庭娱乐设备;从游戏技术看是 Virtua Fighter。近年的代表作则是完整实现光线追踪渲染的《赛博朋克 2077》。

谈及 DLSS 5 引发的玩家争议,他理解那种对「AI 糊感」的反感,承认这是真实存在的审美问题。

但他解释,DLSS 5 的工作前提是三维几何数据的严格约束,每一帧都完全忠实于艺术家定义的空间结构和纹理风格,做的是增强而非覆盖。「玩家以为 DLSS 会在成品游戏上做后处理,这个理解是错的。它嵌入在创作流程里,艺术家决定用还是不用。」系统也完全开放,工作室可以自行训练模型、指定卡通或水彩等任意风格。

他随后作出一个更宏观的观察:玩家对 AI 糊感的敏感,恰恰说明人类真正在乎的是创作者留下的那些不完美的印记。「只要 AI 是辅助艺术家的工具,它就是好的。」

此外他还提到英伟达为游戏开发者提供的次表面散射皮肤着色器,这项技术模拟光线穿透皮肤浅层后散射的物理现象,让游戏人物皮肤呈现出更接近真实的半透明质感。「这些都是工具,由艺术家决定怎么用。我们只是提供工具箱。」

AGI、编程的未来与人类的位置

在 AGI 定义问题上,Fridman 以「能够从零创立并运营一家市值超十亿美元的科技公司」作为测试标准,黄仁勋的回答是:这个门槛,我认为 AI 现在已经达到了。

他设想一个 AI 创建了某款应用,短时间内吸引数十亿用户,完成商业化后退出,这和互联网时代那些昙花一现的爆款网站并无本质差异,而那些网站的技术复杂度远低于 OpenClaw 今天能生成的东西。「我不知道具体会是什么,但我在互联网时代也没有预测到任何那些公司。」他同时强调,100000 个智能体建立一个持续运营的英伟达的概率是零,但创建一个短暂的爆款应用并从中获利,完全可能已经在发生了。

关于编程的未来,黄仁勋认为编程的定义本身需要重写。编程的本质是规格说明,即告诉计算机要构建什么。在这个定义下,能做到这件事的人数量将从 3000 万扩展到 10 亿。每一个木匠、水管工、会计师都将成为自己行业里的创新者,因为 AI 让他们能够以自然语言表达意图,并将其转化为实际产品。「如果我是一个木匠,我看到 AI,我会非常兴奋。如果我是一个水管工,我会完全疯狂。」

他用辐射科医生的案例回应了「AI 会消灭职业」的担忧:计算机视觉在 2019 年前后达到超人水平,曾被普遍预测辐射科医生将消亡。结果是所有辐射科平台都整合了 AI、辐射科医生数量不降反升,现在全球还出现了辐射科医生短缺。原因很简单:能更快读片,就能读更多片,就能服务更多病人,医院营收增加,需要更多辐射科医生。

「那个预警走得太远,吓跑了很多本该进入这个行业的人,这是真实的伤害。英伟达的软件工程师数量只会增加,不会减少。他们的职业目的是解决问题,而解决问题这件事的每一个组成部分,评估结果、团队协作、诊断问题、创新、连接不同领域,这些都不会消失。」

在工作中倒下,是最好的结局

被问及是否思考自己的死亡,黄仁勋的回答十分诚实。

「我真的不想死。我有很好的家庭,有非常重要的工作。这不是『一生难得一次的体验』,而是整个人类文明难得一次的体验,我正在其中。英伟达是历史上最重要的科技公司之一,这件事我非常认真。」

对于继承人规划,他的回应十分出人意料:他说他「不相信继任规划」,但原因恰恰是认真思考了这个问题。如果你真的关心自己离开后公司的命运,那么你今天应该做的,是把你所学、你所理解、你所积累的全部知识、洞察和判断,以最高频率传递给周围所有人。

「每一次会议都是推理会议。我学到的任何东西,没有在我桌上停留超过一秒钟的,立刻就指向某个人:去研究这个,这个东西很了不起,你会想了解它的。我在持续地赋能周围所有人,让他们的能力不断提升。」

他说自己希望的结局是在工作中倒下,而且是瞬间的,没有漫长的痛苦过程。

对于人类未来 100 年的希望,他说他一生都对人性的善意保有高度信心,尽管偶尔会被辜负,但结果一次又一次证明他是对的,而且往往超出预期。

「现在有那么多我们想解决的问题、想建造的东西、想做的好事,都在我们的有生之年变得可以触及。消灭疾病,这是合理的期待。大幅减少污染,这是合理的期待。这一切,怎么可能不让人心动?」

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

是时候给 AI 一套配得上这个时代的中文了

By: 李超凡
23 March 2026 at 15:42

2012 年,张一鸣给新公司取名,用了一个计算机术语做名字——字节。

这大概是中国科技公司里最让人服气的一个名字。两个字,有技术感,有力量感,认知成本几乎为零。你不需要懂计算机,只需要认中文,就知道「字节」说的是某种文字层面的基本单位。

干净、准确、过目不忘。能拿一个术语做公司名且毫无违和感,这本身就说明这个词翻译得有多好。

现在,「字节跳动」成了全球价值最高的独角兽公司。但要是问你:如果当年那家公司叫「存储单位跳动」,你还觉得那么自然吗?

别笑,这就是最近 AI 行业在发生的事。

别吵了,Token 最好的中文翻译一直在那儿

上周大家对于 Token 该翻译成生什么吵翻天「模元」「智元」「灵符」「令牌」「偷啃」……社交媒体隔段时间就会掀起一轮争论,每次都以各说各话收场。

这些候选词各有各的巧思,但放在一起看,你会发现:大家都在比谁更有灵气、更有意境,却没人先问一个最根本的问题——Token在技术上到底是什么?

它不是「智能」的单位,不是「模型」的单位,它是语言处理的最小单位。

其实在这场混战之前,答案早就在那里了。

「灵符」有东方赛博美感,但术语不需要意境,它需要精确。「智元」大气,但 Token是语言的处理单位,不是「智能」的单位,往上贴「智」字是贴错了标签。「令牌」最离谱,这是 Token在计算机安全领域的既有译法,特指身份验证凭证,拿来混用等于把银行卡和扑克牌叫同一个名字。「偷啃」这种音译就完全丧失了中文的优势了

在自然语言处理(NLP)学术文献里,Token 作为文本的最小处理单位,长期被译为「词元」。

词,指向语言属性;元,指向最小粒度。两个字,一个管归属,一个管层级

苹果用了这个译法。打开 Apple 中国官网,Apple Intelligence 的技术页写着「词元响应速度」。

要知道苹果的中文本地化团队是出了名的较真——AirDrop 叫「隔空投送」,Live Text 叫「实况文本」,每个词都是反复推敲的结果,目标只有一个:准确、简洁、有造词美感。

苹果选了「词元」,绝不是心血来潮。无独有偶,在央视新闻节目里,Token 同样被译作词元。

当苹果和央视不约而同选了同一个中文翻译,其实已经形成了事实标准的雏形,只是差更多人开口。

翻译界有句老话:好的翻译不是发明,是发现——发现那个本该如此的中文表达

APPSO 认为,词元是唯一一个同时满足信、达、雅三个标准的翻译。 它准确(信),一看就懂(达),有术语的凝练和古典感(雅)。

这场争论,其实没什么可吵的。

 

「提示词」, AI 时代最将就的翻译

Token 的问题可以收场了。Prompt 的问题,才刚刚开始。

目前业内通用叫法是「提示词」。三个字,好懂,传播也广——但说实话,这个词不够用,早就不够用了,只是没人较真去捅破这层窗户纸。

「提示词」的问题不在于它翻译错了,而在于它把「提示」把权力关系翻反了。

你写一段 system prompt,定义模型的人格边界,规定它只能做什么、不能做什么,指定输出格式和语气——这叫「提示」?这是在下令。

「提示」暗含的逻辑是:模型是主角,人在旁边小声提醒它一下。但真实的权力结构恰恰相反,是人在驱动模型。一个译名把主语关系弄反了,这就不只是措辞问题,是认知框架问题

「词」字还把格局说小了。 现在的 prompt 早就不是一两句话的事。Anthropic 内部的 system prompt 有几千字。企业级 RAG 应用里,一条 prompt 可能塞进了整本产品手册。用「词」来描述这个东西,就像用「便签」来形容一份合同——你也没说错,但你说小了。

而且你看像素、字节、词元,清一色两个字。两字词在中文里天然带有凝练感,是能进教科书、进国标文档的形态。「提示词」三个字,更像是技术社区里约定俗成的口语简称,不像一个严肃的技术命名。

好比当年把 byte 翻成「存储小段」、把 pixel 翻成「图像色点」,不是不能用,是将就。

「提示词」就是 AI 时代最将就的翻译之一

「文令」 Prompt

APPSO 的提议是:Prompt,应该翻译为「文令」

说理由之前,先说这个词怎么推敲出来的,过程本身就是最好的论据。

最初我们想到的是「句令」。句,成句的文字;令,命令、指令。古典美感十足,读起来也响亮有力。

但仔细想有个漏洞:「句」暗示 prompt 是「一句话」。现实中,prompt 可以是一个词,可以是三段话,可以是五千字的系统指令——「句」给了它一个不存在的边界限制。

如果换成「文」,这个问题就消失了。

一字,是文字。一句,是文句。一段,是文段。一篇,是文章。不管 prompt 长成什么样,「文」都接得住,没有边界焦虑。

于是定了, Prompt 就是文令

文——文字、文本、文章。Prompt 的载体永远是文字,不管是闲聊一句还是 Agent 编排指令,物理形态就是文。「文」不是修饰,是对 prompt 本质形态最直接的命名。

令——命令、指令。Prompt 的功能是驱动模型执行。写下一段文字,模型照着意图去生成、推理、行动。「令」精准地捕捉了这个动作——人在向模型发号施令。

文 = 它是什么(形态)。令 = 它做什么(功能)。

两个字,一个管形态,一个管功能,各司其职,合起来刚好是 prompt 的完整定义。

 

像素 · 字节 · 词元 · 文令,一条从机器通往人的路

把「文令」放进更大的坐标系里,会看到让人心跳漏半拍的东西:

  •  像素(pixel) → 眼睛看见的世界的最小单位
  • 字节(byte) → 机器存储的世界的最小单位
  • 词元(token) → 模型理解语言的最小单位
  • 文令(prompt) → 人类驱动模型的最小单位

四个词,同一套构词逻辑:载体属性 + 功能属性

像素——像(图像)+ 素(元素)。

字节——字(文字)+ 节(片段)。

词元——词(词语)+ 元(原始单位)。

文令——文(文字)+ 令(指令)。

像素离机器最近,文令离人最近。这背后有一条隐藏的一条进化时间线:从感知,到存储,到理解,到驱动——这是人类一步步将意图注入机器的完整进程

相反,如果把「提示词」放进这个坐标系就会格格不入,它描述的是功能,不是定位,和其他三个词不在同一个维度上,因为它的造词逻辑从一开始就跑偏了。

「人工智能」的遗憾,不要再来一次

当然有人会说,叫什么无所谓,大家看得懂就行。

多年前,大概也有人这么评价「像素」和「字节」。但今天,这两个词已经成了全民词汇。你妈妈可能不知道 pixel 的英文拼写,但她一定知道手机摄像头「五千万像素」。

好的术语翻译,是认知基础设施。 它决定了一个技术概念能不能从专业圈层穿透到大众理解。

AI 时代的术语翻译窗口不会一直开着。一旦某个词在社交媒体、教科书、产品说明里固化下来,就很难再改了。

现在还来得及。

你看「黑客」的负面含义在中文里就被彻底固化,结果我们不得不另造一个「白帽子」来打补丁。

「人工智能」这四个字本身也不够好——「人工」天然暗示「假的、模拟的」,但这个翻译已经彻底定型了,没有人有能力再改。「电脑」和「计算机」到今天还没统一,还要再吵多少年不知道。

所幸,Token、「提示词」还没有彻底固化。它还在微信群和自媒体里流通,但还没有被写进国标,没有被教科书锁死。现在提出「词元」「文令」,是成本最低、阻力最小的时候。

现在 「词元」(Token)已经被开始被写入工资单,成为薪酬福利一部分。再等两年,当「提示词」出现在高考题的阅读理解里、出现在劳动合同的岗位名称上,那时候再说就没用了。

APPSO 不想再经历一次「人工智能」式的遗憾,明明有更好的答案,只是没人在窗口还开着的时候大声说出来

词元、文令:请跟我们一起说

Token 就叫词元。词,定其形。元,定其根。

Prompt 就叫文令。文,定其意。令,定其魂。

这是 APPSO 的主张,也是 APPSO 的邀请

我们不是要定义术语。 术语由每一个在文章里写它、在发布会上说它、在课件里用它的人定义。我们做的事,只是在窗口关闭之前,把一个更好的选项摆上桌面。

像素让机器把画面给人看。

字节让数据在机器之间流动。

词元让模型读懂人类的语言。

文令让人类的意志驱动机器的智能。

下一次你打开那个对话框,写下你想让 AI 做的事——

你写下的每一个字,都是文令

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

说清退就清退,89% 的 AI 代替员工不过是一场豪赌

By: Selina
23 March 2026 at 13:55

「开除速度一定要快!」

今年以来裁员的消息真是没完没了了,快进到网易正在大规模清退游戏外包人员,波及上千人。

据游戏新知报道,这一裁撤计划原定 5 月执行,却突然提前了一个月,提前的原因据悉是公司「对 AI 化后的效率提升颇为满意」,然后就决定,快快裁员了。

网易官方否认了「使用 AI 清退全部外包」的说法,但承认正在「逐步对一部分基础技能岗位的外包人员进行退场」。

但这个画面还是很好脑补的,网易也不是第一家 AI 大炼钢铁,如果新项目接入 AI,老项目用 AI 改造,短时间内肯定能看得见一些效果,快速决定裁员也就不奇怪了

▲ 图片来自:脉脉

全球都在赌裁员

网易不是孤例,它只是一个更大趋势的中国样本。

今年 1 月,Harvard Business Review 发表了一项引起广泛讨论的研究,由 Babson 商学院教授 Thomas Davenport 和 Return on AI Institute 联合创始人 Laks Srinivasan 主导。他们在 2025 年 12 月对 1006 名全球企业高管进行了调查,结论尖锐:大多数企业的 AI 相关裁员,并非因为 AI 已经能替代人类工作,而是在赌 AI「可以做到」。

数据相当刺眼:

– 60% 的受访企业已经因为 AI 的「预期影响」减少了人员
– 29% 因同样的原因放缓了招聘
– 但仅有 2% 明确表示,裁员是因为 AI 确实承担了原本由人完成的工作

换言之,89%的企业在 AI 尚未证明自己的情况下,就已经开始了人员调整。Davenport 和 Srinivasan 的原话毫不客气:AI 正在被当作「大规模裁员的理由,而这些裁员本质上只是粗暴的成本削减。

这种「预期性裁员」不是自然发生的。它有一条清晰的传导链:

第一枪由华尔街打响。资本市场把「拥抱 AI」视为利好。当一家公司宣布用 AI 替代岗位、削减人力成本时,股价就蹭蹭往上涨。Ford、Amazon、Salesforce、摩根大通的 CEO 们争相宣称白领岗位将大规模消失。这与其说是技术判断,不如说是投资者关系管理。

CEO 的压力就随之而来。当竞争对手都在讲 AI 转型的故事,沉默就意味着落后。即使 CEO 本人对 AI 的替代能力持谨慎态度,资本叙事的压力也会推动他们做出「积极」表态。

而表态一旦落地,就需要配套行动来兑现。裁员指令从上往下传递,到了中层管理者手里,往往变成了数字游戏。谁最容易被裁?不是绩效最差的,而是雇佣关系最灵活的,包括但不限于外包、合同工、初级和支持型岗位。网易先清退外包而非正式员工,就是典型的路径。

▲ 图片来自:脉脉

这条链条的荒诞之处在于:技术的不确定性本应让决策更谨慎,但资本市场的逻辑恰恰相反,谁先下注谁就占先机,哪怕赌注是别人的饭碗。

「满意」不等于「真能干」

平心而论,网易要求全员使用 AI 后确实可能获得了效率提升,裁减冗余外包岗位也可能是合理的资源优化。我们不该因为「AI 裁员」这个标签就自动否定所有调整。

但问题出在因果链上:如果真是用了 AI,效率提升满意,再以此为依据裁剪外包,还把原定 5 月的计划提前执行——这到底是「证据驱动的理性决策」,还是「先开枪再画靶」?

「效率提升的体感」和「AI 真正能替代一个策划、程序员或美术岗位」之间,隔着巨大的距离。一个工具让现有员工多产出 20%,和这个工具能完全承担一个人的工作,是两码事。但在裁员决策中,这两者常常被有意或无意地混为一谈。

去年,澳洲联邦银行(CBA)提供了一个教科书级的反面案例。银行裁掉了 45 名客服人员,改由 AI 语音机器人接手基础查询,只保留少数人类员工处理复杂案件。

▲澳洲联邦银行 图片来源:ABC News

结果?机器人搞不定大多数查询,来电量不降反增,业务陪入混乱。最终 CBA 公开道歉,重新雇回了所有被裁员工。银行自己承认,初步评估时「未充分考虑业务需求」——换句话说,他们把 AI 在测试环境中的表现当成了真实世界的能力。

HBR 的调查数据揭示了一个更尴尬的后续:在那些因 AI 预期而裁员的企业中,已经有相当一部分在走回头路。Careerminds 的研究显示,约三分之一的雇主已经重新招回了 25%-50%被裁掉的岗位,35.6%甚至招回了超过一半。

原因很简单,AI 工具需要的人类洞察力远比预期的多,工具本身的表现也没有达到预期。

裁了再招,不只是管理决策的失误,更是对被裁员工的二次伤害:先说你的工作 AI 能做,然后发现 AI 做不了,公司又把你叫回来,把人当猴耍呢。

操之过急的代价

这种「赌」的行为正在产生远超裁员本身的后果。

网易事件曝光后,公司紧急公关,否认「用 AI 清退全部外包」。这个反应本身就很说明问题——企业自己也知道,「AI 替代人」这个叙事一旦失控,会引发比裁员本身更大的危机。

确实,发酵已经在发生。脉脉热榜里,「AI」和「优化」是高频词;微博、知乎的讨论在迅速扩散;其他游戏公司的外包员工也开始人人自危。一家公司的「预期性裁员」,变成了整个行业的焦虑传染。

这恰恰是操之过急的代价。当裁员决策基于「潜力」而非「实绩」,它传递的信息不仅仅是「这些岗位不再需要」,而是一个更深层的信号:你的工作随时可能被一个尚未存在的东西取代。这种不确定性制造的焦虑,比裁员本身更具毁灭性。它暗示每一个在岗的人都变成了预备被替代者,不在今天,就在明天。

这样的暗示除了激发焦虑之外,没有什么好处。信任被打碎,士气被消耗,人才在恐慌中流失。裁员又不是拔牙,拔错了还能装颗假牙回去。操之过急的裁员,只会导致修复的成本远高于裁员省下的钱。

60% 的企业已经在赌,剩下的正在用员工的生计下注。而赌输的后果,已经在脉脉、微博和每一次企业紧急公关里显现。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

【404文库】“农民养老金跟员工奖金是一回事吗?”(外二篇)

22 March 2026 at 05:39

CDT 档案卡
标题:【404文库】“农民养老金跟员工奖金是一回事吗?”(外二篇)
来源:往事随想录海边的西塞罗真实故事计划 主题归类:农民养老金伊朗Openclaw
CDS收藏:时间馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

《404档案馆》讲述中国审查与反审查的故事,同时以文字、音频和视频的形式发布。播客节目可在 Apple Podcasts, Google Podcasts, Spotify 或泛用型播客客户端搜索“404档案馆”进行收听,视频节目可在Youtube“中国数字时代· 404档案馆”频道收看。

欢迎来到404档案馆,在这里,我们一起穿越中国数字高墙

尽管中国的言论审查和舆论管控日趋严峻,国家对公民的监控也无处不在,但我们依然可以看那些不服从的个体,顶着被删号、被约谈、甚至被监禁的风险,对不公义勇敢发出自己的声音。

中国数字时代在“404文库”栏目中长期收录这些被当局审查机制删除的声音。如果您也不希望这些声音就这样消失,请随手将它们转发给您可以转发的任何人。

2026年2月1日—2月28日,我们测试发现有59篇墙内文章遭到"404"。涉及的主要话题有:刘虎/巫英蛟被捕、南博《江南春》后续、李文亮逝世六周年、黎智英获刑20年、农民工讨薪/劳工权益等,已加入中国数字时代【404文库】。目前项目总收录文章3141篇。


在本期的【404文库】栏目中,我们将对这三篇404文章进行选读:

  • 往事随想录|董明珠对农民养老金问题有多无知?
  • 海边的西塞罗|衡量一个文明的进化水平,先看它怎么对女人和孩子
  • 真实故事计划|FOMO、燥热与卸载,上门安装龙虾者见证的一场高烧

近期,中国两会召开期间,农民养老金问题成为舆论关注的热点话题。一些人大代表和网民提出,应当显著提高农民养老金水平,以回应长期存在的城乡差距。

然而,如企业家董明珠这类人也公开发表为党国“洗地”言论,称每个农民的养老金增加20元,对整个国家财政已经很多了。

她的言论在网络上引发广泛争议,被一些评论者视为在公共舆论场中替官方立场辩护、充当体制爪牙的典型“叼盘”表现。

与此同时,围绕伊朗局势的讨论仍在持续发酵。在关于权力更替与国际冲突的宏大叙事之外,也有作者将目光转向更具体的人群——女性与儿童。微信公众号“海边的西塞罗”发表文章,指出当一个社会开始系统性限制女性受教育与公共参与的权利时,这些变化本身就已经构成了某种预兆。

而在另一侧,一场关于人工智能的热潮也在迅速升温。微信公众号“真实故事计划”记录了所谓“龙虾”应用在短时间内的爆发式传播:有人上门安装,有人连夜学习,也有人在短短几天后选择卸载。这种从追逐到退潮的循环,被作者视为一种典型的时代情绪——对未来的焦虑,以及对“掉队”的恐惧。

这些看似彼此无关的讨论,在同一时间出现在中文互联网上。随后,它们都消失了。

一、往事随想录|董明珠对农民养老金问题有多无知?

在农民养老金引发广泛讨论的背景下,长期关注中国农村农民问题的微信公众号“往事与随想”作者彭远文连续发布多篇文章,对相关问题进行评论,指出农民养老金并非“可有可无的奖励”,而是长期劳动应得的基本保障。

随后,“往事与随想”账号被封禁。彭远文转而通过微信公众号“往事随想录”继续发布相关文章,其中包括《董明珠对农民养老金问题有多无知?》一文,对董明珠的相关言论进行了进一步回应。

img

但该文发布后不久即遭删除。

被删文章部分内容写道:

董明珠说:

“就像我在公司给员工发奖金一样,一个人1000块,员工拿到手上觉得,哎,才1000块,但对我来说,是要拿8个亿、10个亿出来,那政府也一样,我们每个人能拿到20块,但政府总投入支出还是非常大的。我相信国家财政有能力,一定会给大家更多的补贴,但我觉得这需要时间,是一点点加上来的。”

我知道董小姐一贯脑子不太够用,但还是那句话,胡说八道就应该挨骂。

1、农民养老金跟员工奖金是一回事吗?

“奖金”是什么?奖金是额外奖励,如果事前没有说好,奖金可有可无,可多可少,农民养老金是这么回事吗?按董小姐这个说法,农民养老金也是可有可无/可多可少,给了是情分,应该感恩,不给是本分,不要喊叫,是这样吗?

董小姐不会打比方,就不要瞎比,如果非要比,也应该拿工资来比。这是农民应得的,长期以来,给的太少了(也就是郭凤莲说的“农民有点太亏了”)。现在相当于“欠薪”,提高农民养老金就是付一直拖欠的工资。

2、政府跟公司是一回事吗?

董小姐还缺乏基本的现代政治常识,才会把政府当公司。公司主要是为股东负责,员工如果没有股权,对公司的发言权是极其有限的。但政府不一样,人民就是股东,我们是人民共和国。董小姐懂不懂什么叫“人民共和国”?就是人民当家作主,实行共和制度,权力为公众服务的国家。

所以,提高农民养老金就是人民对财政分配的看法,这是人民的基本权利。公司不需要讲民主,国家必须讲民主,董小姐连这都不知道吗?

3、养老财政压力是因为农民养老金补贴吗?

董小姐还有个意思,给农民涨了20块,政府财政压力很大的,所以不要急,等财政有能力再给农民更多的补贴。

董明珠啊董明珠,你一个公司董事长,你不看账本吗?你看过财政在养老方面的补贴是怎样分配的吗?

根据财政部“2024年全国一般公共预算支出决算表”,其中第八项“社会保障和就业支出”,其中体制内(行政事业单位)养老支出15883.20亿元,减去给在职人员交养老保险4791.96亿元和职业年金1771.79亿元,2300万体制内退休人员补贴了9319.45亿元;然后对1.2亿企业职工退休人员补贴了8066.70亿元,对1.8亿城乡居民(主要是农民)补贴了4249.51亿元。按人均算,农民拿到的补贴只有体制内的1/17。注意:财政补贴是纳税人的钱,不是交的养老保险交。

再说涨20元多不多?2024年1.8亿城乡居民(主要是农民)涨了20元,整体比2023年财政补贴增加了568.59亿元,而2300万体制内退休人员比2023年增加了805.67亿元。这里我就不算人均了,只看总数到底谁多?

然后董明珠你说财政压力是因为给农民涨了20块钱?

二、海边的西塞罗|衡量一个文明的进化水平,先看它怎么对女人和孩子

与此同时,在围绕伊朗局势的讨论中,微信公众号“海边的西塞罗”将关注点从权力与战争转向女性与儿童的处境。

img

文章指出,当一个社会开始系统性限制女性的受教育权利、公共活动空间以及基本自由时,这些变化本身就已经预示着更深层的社会问题。相比之下,那些宏大的政治叙事反而并不重要。

但该文发布后不久即遭删除。

被删文章部分内容写道:

我想,一个伊朗的男人,如果对他母亲、妻子、女儿的那些遭遇有起码的同理心,他就能春江水暖鸭先知的感觉到这个国家的变化,尽早的改变自己的人生。如果这个国家的男人,都拥有这份同理心,这个国度就会避免许多不幸。

其实有时你想想,与我们的母亲、爱人、孩子的遭遇相比,那些“世界大事”算的上什么呢?——哈梅内伊他儿子能“正大位”多久?霍梅尼当年连篇累牍的批判巴列维王朝搞世袭制,以及哈梅内伊本人一再表态“不支持搞世袭制”的承诺是不是如今都当了擦屁股纸了?

img

我突然觉得这其实都不重要,但伊朗的女性被迫重新蒙上面纱、穿上罩袍、受越来越严苛的教法的规定,被减少受教育的权利,甚至不被允许到足球场看比赛,被教育着成为生育机器的时候。我觉得她们的命运,连同她们的丈夫、父亲、儿子的命运,其实早已注定了。又何差一个小哈梅内伊的“化国为家”,或者断网、货币贬值、物价飞涨、以及美国人的导弹呢?

一切过往皆为序章,一切悲剧都有预兆。

img

所以道德真的是一种远见、一种感官,不具有它的人,幻想自己可以通过欺压他人获得人上人感觉到的人,既可恨、又可悲,并最终一定下场可怜。

而我也发现了,当我写作论述伊朗和中东文化文章的时候,女性读者会更多的理解,我想理由无他,因为她们更能设身处地的把自己放到那种环境下去思考——我自己愿不愿意生活在那样的环境下,倘若不愿意,我愿不愿意那样的生活方式存续、甚至蔓延。

我之前的文章提到过,文明可以多种多样,却有进化的高下之分。

而今天我本文我想说的是,衡量一个文明的进化水平,看它怎样对待女性、孩子和闲暇,就足够了。

又何止只是文明呢?哪怕是一个个体的人,你看他文明与否,也看他怎样对待女性和孩子就好。那些愿意造谣并且相信“三通一达”之类的人,素质若何呢?不需我多说了吧?

三、真实故事计划|FOMO、燥热与卸载,上门安装龙虾者见证的一场高烧

此外,过去半个月,一款被中国网民称为“龙虾”的AI应用OpenClaw在中国迅速走红。

img

微信公众号“真实故事计划”通过采访上门安装服务从业者,记录了这场短暂而密集的技术热潮。

在这场热潮中,许多普通人并不了解技术细节,却依然选择参与:有人排队安装,有人连夜学习,也有人担心自己被时代抛下。与此同时,围绕隐私与安全风险的担忧开始出现,一些机构与企业相继叫停相关应用。

短短数日之间,这场“全民养虾”的热潮迅速降温,许多用户转而选择卸载。

但该文随后遭到删除。

被删文章部分内容写道:

李莎莎上门安装“龙虾”的第一单,来得很快。

对方是南京一家汽车4S店的老板。周六加上微信,他表示希望李莎莎速来。3月9日上午10点半,李莎莎刚回复想约定时间,对方秒回:“12:15就来”。

李莎莎准时赶到。这名租下1000多平门店的老板,正等着她。他给李莎莎的印象是“人狠话不多”,安装不过一小时。事后他说,没精力研究具体用处,但如果用得好,想给所有员工都装一个,将来实现降本增效。

[…]上门安装生意火热的背后,是普通人即使不懂AI也想要安装,怕在不断迭代的技术面前掉队的心理。那些将OpenClaw捧上神坛的叙事,精准击中了“害怕掉队”的群体心理。FOMO像无声的催促:你不需要懂,但你得有。 [..]李莎莎适时介绍了一些使用场景:可以让“龙虾”在企业微信与客户沟通,碎片化资料也可以让它整理成文。当老板提及想给自己的财务部、人事部各装一个时,李莎莎适时提醒,OpenClaw存在隐私泄漏等风险。

这种风险并非杞人忧天。MetaAI安全总监Summer Yue的遭遇在互联网广为流传:她命令OpenClaw“确认后再操作”,却眼睁睁看着它以极快速度删除了自己收件箱里的200多封邮件。有用户将OpenClaw的VNC服务暴露在公网,而浏览器里恰好存着信用卡信息,结果信用卡被刷爆了。

有位博主分享了亲身经历:有生物医药行业的员工私自在公司电脑上安装 OpenClaw,导致把电脑挂到了公网,被黑客入侵公司内网,批量植入勒索病毒。

“龙虾”热潮狂飙突进之际,风险提示的声音骤然响起,迅速盖过了此前的喧嚣。3月8日,工信部平台发布紧急公告,指出OpenClaw在默认或不当配置情况下,极易引发网络攻击、信息泄露等安全问题,建议相关单位和用户关闭不必要的公网访问、完善安全机制。3月10日,国家互联网应急中心发布了关于OpenClaw安全应用的风险提示。有券商公司、高校下发通知:全面暂停安装,已装的立即卸载。

这场“养虾”行动在国内一周,便历经从兴起、热闹到被质疑、遭卸载的浪潮。但这些风险似乎无法阻止普通人了解小龙虾的渴望。两天跑下来,李莎莎觉得自己懂了:人们急着装“龙虾”,承载的是对未来的想象,以及对赶不上的恐惧。

以上是本期选读的三篇404文章。文章全文见中国数字时代网站。这些作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。

中国数字时代 CDT 致力于记录和传播中文互联网上被审查的信息,以及人们与审查对抗的努力。欢迎大家通过电报(Telegram)平台 向我们投稿,为记录和对抗中国网络审查作出你的贡献!

cdtimg

了解更多投稿信息,请阅读中国数字时代征稿说明

欢迎读者访问 CDT播客CDT视频 收听/观看更多相关内容。

AI 都能自己做视频了,我却比任何时候更想要创作

By: 爱范儿
19 March 2026 at 20:00

最近有一组被热议的数字,值得在文章开头先放出来——

一条 2 分钟科幻短片,从概念到成片,总成本不到 200 块。而今年春节档里正在厮杀的重工业视效片,3 到 5 亿是起步价。

这两个数字。同时存在于 2026 年的中国。

对于像我这样的非专业创作者而言,这个数字不只是「成本下降」,它更像是一道门槛轰然倒塌的声音。

虽然今天手机的拍摄能力已经开始媲美专业级设备,而 AI 视频生成更是强到可以在几小时的时间内,就做出堪比影院的特效,但你会发现,影视创作依然把大多数人拦在门外。

确实,过去用 AI 工具的经历里,我跑出过好的视频片段已经不计其数,但 —— 代价是什么呢?

要么需要大片且十分专业的提示词,光是学习撰写它们就浪费难以估量的时间;要么是是片段虽然都很好,但叙事一塌糊涂,前言不搭后语;要么是其中有几帧出错,整条链路得重来一遍……

哪怕我已经习惯了「抽卡」的等待和重来,还有我的钱包在前面拦着我,让我别冲动。毕竟 AI 烧的不止是 token,更是每一个创作者真实的 money。

另一方面,OpenClaw 的爆火也让我意识到,既然我们已经能指挥 AI Agent 帮我们完成各项任务,那为什么不能让它们去做视频?

但现在,门终于要被推开了。这次带来改变的,是一款叫 LibTV 的产品。

作为一款诞生于 Agent 浪潮的视频创作平台,它并没有把自己局限在一个传统的软件外壳里,在给「人类」的创作提供了一个趁手且极具性价比的专业工具之余,它还从底层架构上为 OpenClaw 这类智能体预留了执行接口。

在体验完 LibTV 后,它可能我是目前用过的,最接近未来的视频创作工具。

一个人,就是一支专业影视团队

过去我是个文字创作者,不是导演,更不是后期。但脑海里从来不缺画面——那种充满电影质感的镜头、皮克斯风格的色调、某个只有三秒钟却让人屏息的特写。

过去,这些东西只能在脑子里飞一圈,然后消失。

学摄影、学构图、学剪辑软件,光是入门就要烧掉你半年。更别说 3D 建模、渲染、后期合成——每一个环节都是一个新的专业壁垒,心有余而力不足。

但第一次打开 LibTV,给我的感觉和其他视频创作软件完全不同。

LibTV 没有复杂的多个子窗口,也没有一眼看不到头的工具栏。出现在眼前的,是一个类似于 Figma 或 Miro 的自由空间,没有传统视频创作流程那种「门槛」很高的心理的负担。

我可以在画布上自由地排布 5 种基础节点:有负责大纲与调度的「文本」、用来确立视觉基调的「图片」、承接动态演绎的「视频」,也有掌控情绪节奏的「音频」,以及为结构化故事准备的「脚本」。

我只需要顺着我的直觉去把这些节点连接起来,一切就能运转。这不仅可以厘清我脑海中不停涌出的却杂乱的思绪,又能对任何一个节点进行发散性的创造。

看着空白的画布,我有一个念头闪过:过去那些只能停留在脑海的画面,是不是可以成真了?

比如,最近刚搬家,有次累得在沙发上睡着,梦见自己走进了《爱丽丝梦游仙境》那样的世界里,然后突然从精灵的城堡掉落,没想到被小猫接住。被吓醒的一瞬间,发现窗外的夜色正好,而小猫就在身边安静地睡着……这样幸福的感受,我总忍不住想要将它做成一个皮克斯风格的短片,与身边的朋友分享。

过去,这对我来说是不可想象的工作量。但在 LibTV 的画布上,我只需要轻装上阵,把创作变成一次有趣的「画图」。

首先,通过图片节点,轻松将我和小猫转换成了动漫风格。为了确保后期风格的一致性,我调用了 LibTV 独家的「角色三视图生成」功能。几秒钟后,人物与猫的三视图便出现在了画布中央,避免「角色崩坏」问题。

有了主角后,我向 LibTV 给出整体的视觉风格和故事大纲,便可以调用文本模型来生成详细的分镜。

当然,「一次过」这种事情在 AI 的角度来看也不容易。好在 LibTV 面对我这个挑剔的「老板」毫无怨言,点击重新生成,LibTV 就会迅速返工,直到给出我满意的脚本为止。

有了分镜脚本和素材后,只需要几分钟时间,LibTV 就能生成多机位 9/25 宫格分镜图 —— 瞬间,画布上铺开了一整套拥有大全景、中景镜头、特写切换的连贯故事板。我仿佛坐在监视器后,扫视着不同机位的预演画面。

当然,我也顺手试了试用 Prompt 来操作,也能有不错的效果。总之,怎么顺手怎么来就行。

生成的多机位图,LibTV 还能一键把它们拆分,将分镜宫格图转换为可供制作的视频静帧。

但在制作的过程中,有些镜头之间的画面衔接还不够好。这时候,我就可以用 LibTV 的前 3 秒 / 后 5 秒画面延展功能,推算镜头画面的前后连贯内容,让画面的连接更顺畅。

很快,一个简单流畅的动画视频,就搞定了。

看着我一个人真的一点一点在 LibTV 里把这个短片做出来,我第一时间并不是激动,而是多年的愿望成真时的难以置信。

这次创作的过程,让我第一次真实地感受到,原来有了好的 AI 工具加持,一个人是真的可以成为一个专业的影视团队。

但更让我惊喜的是,这套创作流程可以被打包成可复用的工作流。下一次,替换几张原素材,质感极高的影片就能自动流转产出。

LibTV 的创作者社区,也能成为我的素材来源。不用苦苦用提示词「开盲盒」,轻轻一点,便可将优秀的 skill 融入自己的工作流。

让「龙虾」替你开一家影视公司

如果说无限画布是为人类导演准备的监视器,那么 LibTV 最具野心的地方,是它还专为当下最火的各类龙虾 Agent 开发了 Skill,让我可以直接在聊天框里和龙虾对话,让它把视频生成这事给干了。

在 LibTV 的系统里,Agent 和人类天然享有同等的优先级。

想来也是,给 AI Agent 准备 Skill,其实特别契合当下的日常状态。我早就习惯了把手头的琐事外包出去,让 AI 去处理繁杂的文档,或者是处理文档、记录生活重要事项。在调度各种工具干活这件事上,这个看不见的数字助手,往往比我本人还要能干。

顺着这个思路,当我给自己的「龙虾」接入 LibTV 的 Skill 后,一切就变得水到渠成了:它直接绕过了繁琐的操作门槛,把一整套专业的视频制作能力纳为了己用。

现在,我连 LibTV 的画布都不再需要打开,直接在 Agent 对话框里下达指令就行 ——「调用 libtv-skill,新建一个 libtv 的项目,给我一个30秒的《守株待兔》动漫,绒布动画风格」。

收到指令后,它立刻就能开工,再也不用担心打工人拖延症。

没一会,一个完整的影片就出来了。

考虑到这是一条全程零人工干预、完全由「龙虾」自己一手包办的产物,它所展现出的交付级水准,确实让人有些意外。

哪怕其中有些帧出错了也没关系,因为这个项目会完整地保存在后台。如果后续需要调整,我可以在此基础上快速完善迭代,省去前期大量的制作时间。

再举个例子,假如你正在为一款新设计的美妆产品筹备上线宣传,你只需要在对话框里丢出产品图片和依据简单的 Prompt:「帮我给这个粉底液做个宣传片。」

接下来发生的事情,足以让任何传统制片人感到战栗。

龙虾会通过 LibTV 的接口,自动解析图片的风格气质,撰写符合产品调性的转成与运镜,再在后台静默调用目前市面上最顶级的模型矩阵(包括可灵 3.0 以及 Wan 2.6 等),自行完成素材生成、分镜设计、视频生成和卡点剪辑。

喝完一杯咖啡的时间,一支光影交织、画面华丽的交付级成片已经静静躺在你的聊天窗口里。

如果说之前的 AI Agent 都是帮助我处理日常事务,更像是「管家」的角色,那么有了 LibTV Skill 加持的 Agent,已经具备了真正的生产力 —— 一个人在一天的时间里完成过去一个团队都达不到的工作量,这何尝不是质变呢?

没有试错压力,创作才能自由

如果问我过去用 AI 视频生成工具最大的痛点,我绝对不会说是「抽卡」、一致性不足等问题,毕竟这些都能靠时间和提示词优化来解决。

相反,困扰我最大的问题,是我的钱包「真的不够鼓」。

当前的主流视频模型,每一次生成都伴随着高昂的算力成本。由于 AI 生成的随机性,为了得到一个满意的 5 秒镜头,我需要忍受极高的废片率,甚至直接导致了创作成本的失控。

面对这样的困境,LibTV 直接给出了一个生猛的回应:做一次彻底的「价格屠夫」。

现在,年卡优惠最低可达 39 折,部分模型还有最低 2 折左右的优惠。核心会员的 SKU 价格,硬生生比同类竞品拉低了 76%。模型积分的单价更是断崖式下跌,比竞品低了惊人的 92%。

此外,订阅后尊享版还可以直接获得 300 条可灵 3 系列的免费生成额度,不需要再额外付费。

它传达出一个非常清晰的信号:如果「抽卡」不可避免,那不如将「抽卡」的自由彻底还给创作者。

只有我的试错成本被摊薄,我才敢于去挑战更边缘的审美,去测试更极限的镜头调度,真正跑出属于个人的独特视觉风格。

工具向后,创作才能向前

在这个 AI 技术按月迭代的周期里,有一种情绪几乎无处不在——FOMO。

每天,新模型冲上热搜,越来越逼真的视频在各个群里刷屏。面对这些应接不暇的新技术,很多时候我们产生的第一反应,早就不是好奇或兴奋,而是纯粹的焦虑:慢了一拍,手里的技能被一键替代,这套剧本是不是已经在悄悄发生?

但当我真正静下心来用 LibTV 这类产品时,那种被算法追赶的压迫感,会非常自然地消散。

看着眼前这块完全自由的画布,以及那个随时待命的 Agent,我脑海里完全没有「AI 将替代人类」的紧迫感。

有的,是一种久违的、单纯的表达冲动——我多么想把以前那些天马行空的灵感,真正具象化。

这就是 AI 工具与人类创造力之间应该有的关系:AI 不是来取代你的判断力和审美的,它是来帮你清除那些挡在你与表达之间的障碍的。

当技术工具人人可用,创作视野才是稀缺品。

这正是 LibTV 给我最深的感受:一款真正优秀的工具,不应该用晦涩的技术壁垒制造焦虑,它只会安静地为你搭建好趁手的工作台,然后把你心底那股想要创造点什么的原始动力,重新点燃。

AI 的终点不是让人变成机器的附庸,而是让人更像人——有更多时间去构想、去表达、去创造那些只有人才能创造的东西。

在影视这个曾经门槛极高的领域里,LibTV 正在做的事,是把那扇门,为每一个有故事想讲的个体,彻底打开。

爱范儿,让未来触手可及。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

触乐|网易清退外包传闻背后

19 March 2026 at 19:19

file

人人都清楚,这一时刻必将来临。

1

林淼是17号晚上从同事转发的聊天记录得到“网易要大规模清退外包员工”的消息的。消息的细节很丰富,“4月清退30%外编,5月(外编)全裁”。网络上广泛流传的另一份无法确认真实性的截图显示,此次裁员的导火索是公司内部的一个小项目跑通了“策划提需求,AI写代码,AI做美术,AI做测试”的完整流程。但关于这个说法,并没有进一步的信息证实。

CDT 档案卡
标题:独家|网易清退外包传闻背后
作者:触乐报道小组
发表日期:2026.3.19
来源:微信公众号-触乐
主题归类:人工智能
CDS收藏:公民馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

林淼在网易某款游戏内工作。他觉得公司计划用AI替换人力的部分“一眼真”。但对于传闻的细节,他并不太相信。“每年都在传裁人,真的每年(都在传),只是理由不同罢了”,林淼告诉触乐,“优化外包的前提是(外包工作)能用AI代替,现在前提都不存在。”

虽然业界普遍认为本次裁员的直接原因是“用AI取代人工”的技术已经趋于成熟。但在林淼看来, 至少在他所在的组,AI介入工作流程的程度还不太深。他认为使用其他公司的AI“会有泄密问题”, 而自家公司的AI目前还存在一定技术差距。

第二天,消息大范围开始传播,多家媒体纷纷报导了这一消息。林淼和项目组里外包人员的接触并不多,身边的同事也少有讨论这件事本身的, 大家最多聊天的时候发一些互相调侃的信息,活跃气氛。

本次报导中所涉及的“外包人员”是指和劳务派遣公司签署合同,但工作地点同样在甲方办公室工作的劳动者。这些员工除了签署合同的对象不同,以及由此带来的劳动关系及相关福利待遇不同外, 工作内容和正式员工并无显著区别。

林淼觉得,从操作层面而言,外界传闻的这种一次性大规模裁员是不太现实的。在现在,游戏已经一定意义上变成了高投入, 高人力成本的工程项目。他所在的组里外包人员接近一半, 工作内容、 工作量与正职员工相差无几,根据财报及公开资料显示,截止至2024年, 网易游戏总员工数量在2万人左右, 大部分为游戏开发人员。根据游戏行业惯例,正式员工与外包员工配比约为1:1-1:1.5,按此比例计算,任何一家大公司想在短时间内全部清退外包,从操作层面上都是不现实的。“大家都别睡了,全部时间都要用来交接,太影响业务了。”林淼对触乐说。

img

传闻引起了人们在社交平台的讨论

然而对于具体的个体来说,改变确实发生了。触乐从多方信源得知,部分已经开始面试,甚至通过面试的人已经被告知职位取消或面试中止。还有多名外包员工向触乐证实,他们的同事已经收到了退职通知。

外包退职并不仅涉及游戏相关岗位和业务。触乐了解, 网易旗下多个部门都或多或少地开始了外包清退工作。 一名曾在网易严选工作的外包人员对触乐表示,“外包全退”。她补充, 网易并不承担辞退外包员工的赔偿。外包员工只能和自己所属公司讨论赔偿事项。部分已经拿到赔偿的“就很快乐了,等退场”,还有部分外包人员所在的公司尚未找他们谈话,他们因此“很忐忑,怕拿不到赔偿”。她表示,即将离开的人目前在做整理业务文档的工作,将它们交接给开发人员,“(目前)开发(人员)没有裁完”。

潘妮上周二时通过了广州网易互娱的初步面试,岗位属于中台, 工作内容主要是“做外链,外联国外网站上新发PR稿和新闻稿, 网易的游戏要推广到海外,都要上这个平台”。她告诉触乐,此前HR曾向她表示岗位很缺人,“希望我早点入职”,双方约定在18号晚上进行第二次面试。18日当天中午,潘妮收到HR取消面试的消息,对方称“刚刚收到通知, 网易互娱这边近期都需要重新做需求盘点,岗位目前都关闭了。”

2

阿乐是网易游戏驻场外包团队的一员。他是在消息大规模传播的前一天得知这件事的,“昨天驻场外包团队的人气氛都还挺沉重的。”阿乐说。但截至目前,他所在的团队还没有收到任何正式通知。组里好几个人主动去找HR询问情况,没有得到明确答复。

他了解到, 网易内部的一个非游戏部门已经开始进行外包清退,下周就会集体撤场。

阿乐告诉触乐,清退外包并非毫无征兆,早在去年就有了些风声。“去年倒是也打过预防针,说今年降本增效,只是没说怎么个降法。”他回忆说,“降本增效”这个词在去年的大会上被反复提及了两三次,领导要求大家“不要抗拒用AI”。

作为美术相关岗位的外包员工,阿乐对AI的快速进步感到非常焦虑,虽然AI的产出目前仍然无法直接使用,需要人工逐一修改,但“AI其实也能替代我们现在工作的大半了”,他说,“而且用AI画画非常简单,没其他人想的那么复杂,都可以说不太需要学,很好上手。”

img

游戏工委发布的2025年《游戏企业AI技术应用课题报告》显示,游戏研发环节的AI应用情况是“覆盖面广,深度低”

阿乐说,这两天,他“焦虑到爆炸”,他不由幻想:“以前五个人干的活,现在因为大量用AI,会不会以后只需要一个人专门修AI,剩下四个裁掉?”但与此同时,他也感到困惑,至少现在,他所在团队的工作量并不少,“裁了之后谁干呢?”

除了外包岗位的清退,阿乐还了解到,有的部门校招的HC被削减,也有人称其所在部门的正职岗位已经全面停招。

对于外包员工而言,裁员可能意味着会被迫离开工作几年的公司与岗位, 而且很难得到赔偿。“对于我们这些外包员工来说,都不能说是裁员,只能叫退项,没有N+1的。”阿乐说。

除了焦虑地等待,阿乐没有任何办法,他打算这段时间先整理好简历和作品集,提前为可能到来的“退项”做准备。有朋友和他聊起这些年的裁员趋势,说几年前的裁员“斩杀线”在中级岗,后来降到了初级岗,现在终于轮到外包岗了。

相较于外包员工,正职员工的反应相对从容。一位目前在网易某MMO的关卡策划告诉触乐,在他所在的群组里,同事们关于这件事的大多反应都比较平静。虽然在外界看来,这款游戏和AI的结合已经很久了,“很早就有智能NPC和一些跟AI结合的玩法”,但在他的具体岗位中,AI的介入更多只是答疑解惑。“比如说,因为项目大,找某个接口需要问AI。但剩下的工作大部分还是手工搓。”

“目前我们没有直接要求用AI,也没有把AI纳入考核这些东西。但是和AI结合,去做玩法,领导都是持鼓励态度的。”他说。因为自己并没有受到太多牵连,他更担心传闻中那些被清退的外包员工会何去何从。

3

外界普遍认为,这次大幅度人员变动和AI在程序开发中的应用逐渐成熟有关。有信源向触乐表示,今年3月份前后,国内多家游戏公司纷纷加快了使用AI介入开发工作的速度。有消息指出,“几乎所有公司在发行这块对AI的使用都比较泛滥,这早就是行业内的共识”。另有消息称, 目前游戏服务器端开发工作中,AI甚至已经可以跑通整个开发流程,“反倒是前端和美术还不太敢放手用AI”。

某中厂研发人员李彤告诉触乐,最近这段时间,她所在的公司也突然加快了推进AI应用的流程,主要为了提效。虽然在年前领导层也在年会对明年做规划的时候,提到将把AI作为规划目标之一,但她和同事们都没想到“会这么快”。

“其实是反推,公布了(对AI介入工作流的具体要求后)才察觉之前就有端倪。我们的第一反应是很突然的。”李彤说。根据她的了解,每个公司对AI的应对策略并不相同。比如,她所在的公司没有将AI直接作用到人力资源上,但下发到实际工作KPI中;也有不少中小型做休闲品类的公司在更早开始推进AI,但没那么深入。此外还有一些游戏厂商更为谨慎,“相对来说,内容型游戏对品质要求比较高,很多东西还是必须手工,AI的影响不大。”

但推进AI基本是广泛的共识。李彤告诉触乐,很多公司内部都在和AI一起变化之中,“ 各大公司都有自己在AI上的布局,未必有对外宣传的那么厉害,但是肯定是在飞快地迭代的,这也是所有公司的共同态。”

有理由相信, 行业内近期已经有相对成熟的借助AI进行游戏开发的成功案例。这种成功案例一定程度导致国内游戏公司开始加速将AI更广泛和彻底地融入开发工作中。

触乐查询发现,在包括BOSS直聘在内的多个招聘软件上, 游戏公司及其相关的外包公司的职位要求中出现AI的频率相较前两年有明显增加。一份广州网易游戏关于“⾼级/资深游戏客户端开发”的职位需求中明确指出:“熟练使用AI工具,能有效使用AI辅助开发系统。”

在刚刚结束的2025年第四季度网易财报电话会议中,粗略估计有超过20%的内容关于“如何在生产流程中应用AI”。在刚刚结束的GDC上,“AI介入开发工作”也成为毋庸置疑的热点。几乎所有GDC的讲座都会或多或少涉及到AI在游戏开发过程中的使用和探索。

img

本届GDC上大多数话题都离不开AI

外界和行业密切关注这方面的进展,上市公司也愿意回应市场的关注。在网易财报电话会议中,管理层在回答高盛集团的Lincoln Kong关于“管理层如何看待 AI 在游戏玩法设计、内容生成及长期运营服务中的潜力?”的问题时称:“是的,AI 已全面融入我们的生产工作流程,成为显著提升美术、编程和质检环节不可或缺的资产。 至于 AI 在带来变革性玩家体验方面的潜力,我们确信其影响力。这必将实现。我们相信网易是该领域的先行者,是最有能力探索这一机遇的公司之一,我们将积极把握这一机遇。我们已为下一代 AI 驱动的游戏玩法建立了强大的研发储备管线。”

同样是在这次电话会议中, 网易宣布,公司已经在内部工作流程中“全面整合了AI技术,覆盖设计、编程、美术和测试等环节。”网易指出,“这一整合不仅限于少数业务拓展团队, 网易的广大开发者都能广泛使用,从而全面提升了工作效率。 自主研发的工具 CodeMaker 已从单一的人工智能代码补全工具,升级为提供智能体级别的服务。”

4

我们在近几年已经看到过太多“AI取代人类工作”的消息。这些消息告诉人们一个或好或坏的未来,向人们提出或可行或不可行的建议。人人都清楚这一时刻必然来临,然而当它真的可能来临的时候,我们仍然会发现它远比我们想象得可能更激烈,也会发现自己并没有做好准备。

有未经证实的传闻猜测,这一变化同此前“建议废除劳务派遣”的提案相关。但哪怕仅从逻辑和操作层面上来讲,这种坚决清退似乎也具备一定合理性。“如果你知道自己迟早会被AI取代,只是或早或晚的时间问题,那最合理的方法是不是就是迅速坚决地处理?”一名受访者向触乐表示。“否则呢?让大家在岗位上心惊胆战地用工作时间投简历吗?”

3月18日下午, 网易公司向多家媒体发布回应。 网易称,“网易将大规模清退所有外包员工”的消息不实。网易公司表示,近期发生的人员变动仅为部分项目的正常业务调整与人员汰换,属于企业日常运营管理的一部分,不会对公司整体及各业务线的正常运营造成任何影响。

“汰换”是一个合成词,由“淘汰”和“替换”两个词组成,与更为中性的“替换”相比,“汰换”带有明显的目的性、主观能动性和方向性。在管理领域,这个词通常代表通过淘汰旧的、差的,来更换成新的、好的。从而增强组织的竞争力。

但对于身处其中的人而言,这个词的含义似乎并没有那么积极。然而,这一切也不算完全意外。网易某项目美术团队的员工阿E告诉触乐,他和同事今年开始明显感觉到公司在强调“降本增效”,招聘上的风向也随之变化——以前招人优先看创意能力,现在会多问一句“熟不熟悉AI工具”,甚至专门为AI设置了校招和社招岗位。

“现在我们组开会时也经常提到用AI工具优化工作流。”阿E说,“比起恐慌,大家更多是边吐槽边硬着头皮学新东西。”

“(在游戏行业)做久了,对这种未知情况也是有所预期的,哪怕没有AI,也会突然出现某些情况导致瞬间崩盘。”李彤说,她此前也在其他项目中经历过两次突然的清退,“都是身不由己,可能你在一段时间内毫无价值……但进入一个新的时间节点,可能又成香饽饽了,说不准。”

(文中受访者均为化名)

被 OpenClaw 选中的飞书 ,终于给出小白无痛养虾「版本答案」

By: 杜晨
19 March 2026 at 19:28

2026 年 1 月,OpenClaw 席卷中文互联网。仅仅两个月后,龙虾已经进入了「全民卸载」周期。

龙虾的问题不是它不够强,而是它很难服务于每一个普通人。

从安装到卸载,第一批「养虾人」的故事,暴露了 OpenClaw 的尴尬:Agent 怎么能产生真正的生产力价值?

今天,飞书的新品发布会,想给每个人一个答案。

给每个人的智能伙伴

OpenClaw 爆火之后,有着开放、易用的机器人机制的飞书,也跟着走红了。

API 调用额度从 1 万次提到 5 万次,再到目前的 100 万次;3 月 5 日推出官方插件,让 Agent 可以直接读写飞书文档、日历和多维表格,把「养虾」的门槛从「会写代码」降到「会用飞书」。

这些动作,确实让龙虾更好养了。但 OpenClaw 本身的弊端,飞书仍然解决不了:配置复杂、普通用户上手门槛高、原生部署安全隐患大,等等。

结论是:Agent 要真正落地,必须是一个上手即用的智能伙伴。它的安全是基本线,更要能直接与每个人的工作流丝滑融合。

今天正式升级的 飞书 aily,就是飞书给出的答案。

飞书 aily 是什么?官方定位是「每个人的智能伙伴」。形态上,它以 Bot 的方式常驻在飞书联系人列表里,打开飞书就能找到,对话即交互。30 秒激活,零配置。

  • 飞书 aily 有长期记忆,会随着你的使用逐渐记住你负责什么业务、偏好怎么沟通、喜欢什么格式。
  • 它的权限与你的飞书账户完全一致——你能看什么文档,它就能操作什么文档,敏感操作需要你确认,所有动作全程可追溯。
  • 它还有官方认证的技能市场,经过安全扫描,可以按需安装。

可以说,飞书 aily 是 OpenClaw,或者更广泛定义上「龙虾」理念的一种呈现方式。但它又跟开源的原生版 OpenClaw 有着本质的区别:

龙虾是你自己养的宠物,飞书 aily 是公司给你配的同事,入职了,开权限了,准备好和你一起开始工作了。

对于需要处理更复杂工作流的用户,还有独立的飞书 aily 专业版(aily.feishu.cn),有图形界面,可以让有需求的开发者、公司 IT 管理员去构建多步骤的自动化任务。

接下来的实测,我们会聚焦在普通人更好用的 Bot 形态,但两者底层逻辑相同。

龙虾承诺的太多,其实 aily 就够了

把飞书 aily 放进了实际工作流里,我们测了几个最日常的用法。

先来一个极高频的场景:飞书拉会。

在任务过程中,飞书 aily 直接查询了 APPSO 组织架构内的用户 ID——这一步放在别的 AI 工具里根本做不到。它能做这件事,是因为统一的权限机制。你在飞书里能看到的,它就能看到。

确认了人、确认了时间,调用飞书日历技能,一个会议就建好了。

从任务发起,到创建完成,大约半分钟。不敢说比飞书达人手搓更快,至少主打一句话搞定。

让打工人感觉痛苦,但又不得不做的事情,做月报肯定算一个。

我们把自己的社媒平台数据,先上传到了飞书云盘,然后交给飞书 aily。提示词很简单:查找不同媒体平台数据生成多维表格;再跟员工汇报文档结合,生成一份团队月报。

它整理了一共 9 份不同格式的文件,交付了一份月度汇报,以及可以作为附件的多维表格——时间只用了不到 4 分钟。同样的工作,APPSO 去年还在纯手搓,要用至少两个小时。

顺便一提,如果你想从零搭一套数据追踪的业务系统,子产品飞书妙搭也支持用自然语言描述需求,直接生成一套业务系统应用。

不一定每次都用得上,但有飞书 aily 在,你知道自己不用再求人了。

接下来,我们再看一个相对更复杂、偏创作/生成向的任务,看看飞书 aily 作为自媒体搭子好不好用。

作为 APPSO 的深度报道作者,我会写很多晦涩难懂的文章,在社媒平台传播的时候就需要生成有针对性的、更浅显易懂的版本。

我们还是可以直接在飞书 app 里,通过设定好的机器人来发指令。不过,这个任务其实更适合用飞书 aily 的专业版来完成。有图形界面 (GUI) 的辅助,可以精细化输入和调整,还可以更方便地调用原生支持的各种工具、技能和插件。

飞书里直接搜索飞书 aily,或者打开 aily.feishu.cn,就进入到了专业版界面。

它支持用户上传自定义 skill。虽然官方技能库非常丰富,但我还是想上传一个我之前经常用的「content-creator」(内容创作者)技能。

装完 skill 之后,我们只需要在对话框里输入 /content-creator(具体的 skill 命令因人而异),就能唤醒它。再把文件链接给到,它就能开始帮我写稿去了。

这种技能/插件的调用方式,和 Claude Code、Cowork、OpenClaw 等产品相同,熟悉度拉满。

开始工作后,我们能够在后台看到,飞书 aily 先是做了一个 plan,将任务分解成 5 个步骤。

即便是不指名到具体的 skill 上,飞书 aily 仍然可以判断我的意图然后调用对应的技能来完成工作。

APPSO 在这里其实还做了 A/B 测试,激活或不激活技能,任务完成时间分别是一分半和三分钟——都不算特别久,但显然调用 skill 工作更快,而且利用技能写出来的感觉更好。

无论是各种官方还是第三方的 skill,飞书 aily 都能完美适配。不过这里 APPSO 还是建议大家不要在不熟悉的情况下乱装 skill,尽量以官方的技能商城为准。

工作完成后,点击右上角的工作区,能够查看生成的内容了。

三个场景测下来,有一个感受越来越清晰:飞书 aily 跟那些「AI 生成一个文件发给你」的工具,体验差异还是很明显的。它的交付物是文档、表格、任务,可以继续被协作、被引用、被追踪。

龙虾当初让大家兴奋的那个期待,其实一直都很具体:帮我做完一件费时、费力的小事,让我能腾出脑子去处理真正重要的东西,别让心流被一堆琐碎打断。飞书 aily 做到了这一点,龙虾没有。

当然,OpenClaw 有很多「出格」的操作,它还做不到:操控本地文件系统、执行任意命令等。但换一个角度,这种「克制」本身就是企业场景的必要条件。哪怕一个新实习生学历再高、能力再强、多有灵气,公司不会给 ta 配上服务器根权限——这很正常。

飞书本就是个强有力的生产力工具。飞书来做龙虾/agent,当然不是为了实现什么 AGI。在各种宏大的叙事之外,先让普通人的打工人生更轻松,才是更重要的。

飞书 aily 支持定时任务创建,交互比 OpenClaw 更轻松

Agent 落地企业,其实并不难

企业 Agent 的竞争,正在往一个很多人还没意识到的维度转移。

过去两年,行业的注意力主要在两件事上:模型能力(谁的参数更大、基准跑分更高),以及 C 端爆发(谁的 Agent 更酷、更会演示)。

OpenClaw 的火爆是这个逻辑的顶点——一个开源框架,凭借「能干活」的形象引爆全民。

但龙虾从爆火,到卸载,仅用了两个月就快走完了一个周期,里面有一个不能更朴素、更明显的道理:

「能干活」是必要条件,绝非充分条件。

Agent 要在企业环境里真正落地,需要的远不止一个会执行命令的 AI——它需要懂业务,需要匹配组织的权限构架,需要嵌入团队已有的工作流,而不是在旁边开一个新窗口,重新训练一个昂贵且笨的「实习生」。

诚然,中国绝大部分的工作发生在微信上——团队工作的本质是沟通,这个道理上过班的人基本都明白。但飞书、钉钉、企微的流行,从侧面证明了工作绝不仅仅是沟通那么简单。

聪明人在一起工作,沟通早已不是问题。聪明人开始发现,那些聪明人也不得不干的「笨事情」,才是效率提升的真正空间所在。

Agent 的上限,取决于它能「读懂」多少你的工作。但在工作的语境下,「读懂」并不意味着你要把自己的电脑交给它。

而读懂,靠的是上下文——你留下过的笔记,开过的会和会议纪要,跟谁在群里讨论过什么,哪些项目在推进,哪些决策已经做出。

这些东西,叫做企业上下文数据,其实正是一个商业机构运转的引擎。它不存在于模型里,也不能从网上抓取,它在企业内部的协作平台上,以消息、文档、日历、审批的形式慢慢沉淀,日积月累。

飞书沉淀这些东西,已经好几年了。

OpenClaw 爆火后,中文开发者自发聚集到飞书,原因很简单——Bot 创建不需要审批,不需要公网 IP,摩擦最少。社区发起人杨明锋在自己的分支里先实现了飞书扩展,2 月 4 日被官方合并。

把 OpenClaw 的门槛从「会写代码」降到「会用飞书」,是飞书能做的事,也是其他平台很难复制的动作。

飞书目前是 OpenClaw 官方唯一原生支持的中国 IM 软件

飞书大概率没有预料到这一切,但它一直在做的那套东西——足够开放、接口通畅、数据互通——恰好就是龙虾最需要的基础设施。

当在飞书中激活飞书 aily ,它读到的上下文,远比文档里的文字、表格里的数据更多。它知道这份文档是上周评审会讨论的结果,知道那个多维表格由哪个团队维护,知道@你的消息通常意味着什么优先级。

——这些,都是外部的 Agent 产品,难以复制的东西。你可以在后端接入强大的模型,可以用各种服务框架、插件、技能、hook 来强化体验。但你的工作记录,专属于你的公司、属于你的上下文,是不可被替换、很难被简单搬运走的。

竞争对手可以做出一个功能相近的 Agent,但它接入的只是空壳;而飞书 aily 面前的,是一个已经蓄满水的池塘。

这个逻辑延伸出去,还有一个更大的判断:企业 Agent 的竞争格局,最终将由「谁的地盘里的上下文最充裕」,而不是「谁的模型最强」来决定。

模型能力不是不重要,但模型的高度商品化,是既成事实;多年沉淀的上下文生态,才成了真正的护城河。

企业 Agent 时代的入口,应该是上下文最深的平台。飞书已经成为了这个入口。

钉钉有更大的用户基数,腾讯有 QQ 和微信的社交图谱,企业微信有腾讯的 B 端关系链。飞书的优势,在这三者里反而是最「纵深」的:它的用户群以科技、互联网和成长型企业为主,这批人对 AI 的接受度高,工作上下文的数字化程度也最高。

换句话说,飞书的地盘虽然不是最大的,但上下文密度可能是最高的。你在哪个平台留下了最多的工作痕迹,那个平台的 Agent 就最懂你。

究其根本,大多数人们对于龙虾的期待,并不能通过 OpenClaw 来解决。

两年后的办公 AI,会变成什么样子,没人知道。但至少今天的答案,就在工作已经在发生的地方,在飞书 aily 的身上。

飞书一直是对 agent 最友好的工作台,无论 AI 怎么进化,其实万变不离其宗。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

英伟达给游戏玩家喂 AI 泔水?事情可能没有想象的那么糟

By: 马扶摇
19 March 2026 at 16:36

2026 年 3 月 17 日,一位网友在社交平台 X 上这样写道:

坏结局:现在所有的游戏,都变成 AI 泔水(AI slop)了。

这里所指的,不是马斯克那个「全 AI 开发」的游戏,而是英伟达刚刚公布的一个技术预览。

这项技术预览,就是英伟达 GTC(GPU Technology Conference, GPU 技术大会)上公布的 DLSS 5:

▲ 图|Quartz

作为帮助老游戏和中低端显卡焕发新活力的技术,DLSS 在过去几年的口碑还算不错,为什么偏偏 DLSS 5「一石激起千层浪」了呢?

原因很简单:DLSS 5 跨过了「在原有画面上做加强」的底线,开始在游戏画面内叠加「基于 AI 模型生成的新细节了」。

经历过 2025 年末图像 AI 的野蛮生长之后,大家原本就对 AIGC 类内容的「入侵」高度敏感。

而英伟达在 DLSS 5 中尝试的技术路径,在大多数游戏玩家和开发者看来,刚好跨过了那条禁忌的边界线。

▲ 图|Nvidia

实际上,虽然 DLSS 5 因为 AIGC(AI 生成内容)而被大家炎上,但 DLSS 技术本身就是重度基于 AI 学习的,这一点从它的全称「深度学习超采样」就能看出。

但是,相比上一代的 DLSS 4/4.5,英伟达是这样介绍 DLSS 5 的:

DLSS 5 以游戏每一帧的色彩和运动矢量作为输入,并利用 AI 模型为场景注入逼真的光照和材质,这些光照和材质与源 3D 内容紧密关联,确保帧与帧之间的一致性。

其中最出格的,莫过于「利用 AI 模型注入逼真的光照和材质」——

这与 DLSS 4 的几个技术路线,比如多帧生成、光线重构、DLAA 等等,产生了质的差别。

▲ 图|Nvidia

实际上,如果根据英伟达自己的描述,DLSS 5 在处理的「目的」上相比 DLSS 4 就已经截然不同了——

DLSS 4 是在 GPU 有限的前提下,补全分辨率、帧率等等外围参数。

而 DLSS 5,则是以游戏生成的画面为基础,利用 AI 生成本来不存在的材质、光照和反射细节,让画面变得更具真实感:

…… DLSS 5 随后利用其深度理解能力,生成精准的图像,能够处理复杂的元素,例如皮肤的次表面散射、织物的微妙光泽以及头发上的光与材质的相互作用,同时保留原始场景的结构和语义。

更直白一点说——在 DLSS 4 的时候,如果画面原始帧里面,角色的牛仔裤没什么材质细节,处理之后顶多干净一点,但不会让牛仔布凭空变得更精细。

而打开 DLSS 5 之后,算法模型会知道「画面这里是一条牛仔裤」,然后主动加入更精细的牛仔布纹理和材质,哪怕游戏的模型贴图里没有这些细节。

▲ 图|YouTube @ElAnalistaDeBits

而英伟达作为硬件厂商,却跨过了从「加强细节」到「创造细节」的行为,结合之前对于 AI 泔水的反感,才引发了玩家、用户和开发商们的普遍担忧。

这种担心是不无道理的——

老黄又不是游戏创作者或开发商,英伟达越俎代庖之后,DLSS 5 改变了开发者原本想要呈现的画面效果怎么办?

而英伟达官网上的 DLSS 5 演示片,也侧面印证了一部分观众的担忧。

从目前版本的 demo 来看,DLSS 5 的确在「场景感」和「材质细节」上的确让游戏画面变得更真实了。

但抛开氛围不谈,DLSS 5 对于画面主体的修改却非常让人不安:

▲ 图|Nvidia

在官网 demo 中我们能够看到:格蕾丝的颧骨相比原始建模明显更突出了一些,嘴唇也变成了「Ins 风」的泡泡唇。

画面的第一观感,就是 FBI 青涩新人突然变成了在 Onlyfans 晒沙滩豪车大豪斯的欧美女网红——

▲ 图|Nvidia

甚至于这种「通过 AI 强行美化」的行为在英文里还有一个专门的说法,叫做 yassify ——

▲ 图|网络

当然,在看过那么多 AI 泔水之后,原因也不难猜测——

英伟达训练模型所使用的素材,无非是巨量的互联网数据,其中有多少 yassify 的「人造泔水」混进去影响了模型,英伟达既没办法知道、也很难控制。

而 DLSS 5 读取原始帧,感觉「这里有个人脸」之后,就会注入高颧骨、泡泡唇、影棚光等等原本不存在的要素,和原始画面混合在一起。

这种 「DLSS 幻觉」最明显的例子,则来自《星空》demo(超级小陶本人在 GTC 上表示非常支持 DLSS 5)。

原始画面中,人物打光明明是个硬顶光 + 面前漫光的组合,但 DLSS 5 打开之后,竟然凭空多出了一块右侧高光

▲ 图|Nvidia

这种没有细节硬造细节的问题,正是大多数玩家对 DLSS 5 表示反对的原因。

哪怕老黄在公布当天,以及后续的采访中反复表示:

游戏开发者可以自由调节和修改 DLSS 5 细节,让处理后的画面符合原本的艺术风格。

也没能让大家放下心来。

但 DLSS 5 尚未正式发布,GTC 上展示的仅仅是个预览,开发者究竟能够以何种自由度对 DLSS 5 进行调节,仍然是个未知数。

只不过虽然网友们在过去 24 小时内制作了大量 DLSS 5 的梗图,但单纯从应用角度出发,DLSS 5 还是有一定可取之处的——

它的真正发挥空间,不是最近几年的新游戏,反而是一些使用旧引擎的经典作品。

尤其对于贝塞斯达(Bethesda)这类开发商来说,Creation 引擎因为历史原因导致角色建模诡异的问题,被玩家诟病已经不是一天两天了:

▲ 图|TheGamer

刚好在英伟达选出的 DLSS 5 演示里,就有来自《星空》的 demo。

除了增加莫须有的光源和颜色细节之外,我们不得不承认—— DLSS 5 还真让 Creation 引擎的 NPC 变得更「耐看」了一点……

▲ 图|Nvidia

当然,《星空》还是很新的游戏,如果 DLSS 5 能够被正确用在比如《辐射 4》或者《上古卷轴:湮灭重制版》里面,是的确能带来一些体验提升的。

前提是 DLSS 5 正式版发布的时候,能够把这个骇人的「动态画面 bug」给解决掉:

▲ 图|YouTube @Vex

总的来说,DLSS 5 有可取之处吗?

有。

至少以「纯技术」的视角来看,从之前 DLSS 单纯加强原始帧,转向通过 AI 理解画面内容然后针对性优化,在「某些特定情况下」,是可以让一些存在「技术限制」的游戏得到提升的……

比如,DLSS 5 虽然 AI 味精味溢出屏幕,但对冲一下,说不定能让《消逝的光芒 2》变得好接受一点:

▲ 图|SVG

只不过从上面连篇累牍的定语也能知道,现在仅从 DLSS 5 有限的演示片段来看,这东西依然是非常让人担忧的。

目前来看,玩家们最需要关注的,是英伟达能给游戏开发者们提供多少控制权限,以控制 DLSS 5 的算法。

而开发者也需要基于不同类型、不同美术风格、不同角色特点的游戏,有针对性地微调 DLSS 5,才能发挥出恰当的效果。

▲ 图|GamesRadar

但如果 DLSS 5 就是拿个固定的训练集往所有游戏上生搬硬套,那无疑是另一次 AI 泔水的向上污染。

但如果把目光放到 DLSS 5 以外,英伟达在本次 GTC 上释放出的信号,其实是没有脱离 DLSS 的本源的:

除了游戏开发者之外,计算机硬件同样可以参与到「游戏美学」的构建中,两者的重要性甚至不相上下。

如果 DLSS 1-4 解决的是分辨率和帧数问题,而 DLSS 5(如果发展顺利的话)解决画面质量问题,就提供了这样一种可能性——

开发者不再需要头疼由于引擎或者技术导致的各种「艺术审美」问题(比如首发版《赛博朋克 2077》),而是可以把精力放在玩法创新和剧情创作上。

换句话说:贝塞斯达万一出了支持 DLSS 5 甚至 DLSS 6 的老滚 5 重制版,依然可以支持曾经的 mod,而角色外观终于可以更现代化一些了。

那岂不是杯赛玩家狂喜?而老滚 6 又可以多苟几年。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

全网猜了一周 DeepSeek V4,结果是小米干的

By: 莫崇宇
19 March 2026 at 16:12

上周,两个没有署名的匿名模型悄然上架知名 API 聚合平台 OpenRouter,代号分别是「Hunter Alpha」和「Healer Alpha」。它们没有任何宣传,调用量却开始以一种不寻常的速度持续攀升。

其中,Hunter Alpha 更是多天登顶日榜,累计调用量突破 1T tokens。社区开始议论。最主流的猜测指向 DeepSeek,认为这是 DeepSeek V4 的内测版本。

OpenClaw 创始人 Peter Steinberger 也在 X 平台发文打听,进一步点燃了社区的猜测热情。

小米官方正式宣布,Hunter Alpha 和 Healer Alpha 均为小米 MiMo 大模型的早期内测版本。谜底揭晓的同时,小米 MiMo 大模型负责人罗福莉也在 X 平台公开认领。

巧合的是,罗福莉正是 DeepSeek 的前研究员,换句话说,来自 DeepSeek 的她,在小米做了让全网以为是 DeepSeek 的模型。

划重点,小米此次一口气发布三款模型,虽各有侧重,但共同指向同一个方向:让 AI 从「会对话」进化为「能完成任务」:

  • MiMo-V2-Pro 是旗舰文本基座,专为高强度 Agent 工作场景而生,主打推理、规划与工具调用。
  • MiMo-V2-Omni 是全模态 Agent 基座,原生融合文本、视觉与音频感知,打通从理解到执行的完整链路。
  • MiMo-V2-TTS 是语音合成大模型,为 Agent 赋予有温度、有情感的声音表达能力,构成全栈的最后一环。

MiMo-V2-Pro:量大管饱,定价只要竞品的五分之一

MiMo-V2-Pro 的总参数量突破 1T,激活参数为 42B,较前代 MiMo-V2-Flash 扩大约 3 倍。

参数量大幅增长,但推理效率并未因此下降,这得益于其创新的混合注意力架构(Hybrid Attention)。

该架构的混合比例从前代的 5:1 进一步提升至 7:1,轻量 MTP(Multi Token Prediction)层的引入也加快了实际生成速度。

同时,MiMo-V2-Pro 支持高达 1M 的超长上下文窗口,这在处理长程 Agent 任务时具有明显的结构性优势。

在全球权威大模型综合智能排行榜 Artificial Analysis 上,MiMo-V2-Pro 目前位列全球第八,国内第二。

基准测评之外,小米更强调「实际体感」。在 Coding Agent、通用 Agent 和 Tool Use 等维度,MiMo-V2-Pro 与 Claude Sonnet 4.6 处于同一梯队。

在小米内部工程师的深度评测中,MiMo-V2-Pro 的代码工程能力已接近 Claude Opus 4.6,拥有更出色的系统设计能力与更优雅的代码风格。

Hunter Alpha 匿名内测期间,调用量最高的几类应用多为编程专用工具,这一数据本身就是对模型能力最直接的市场验证。

在 OpenClaw 框架内,MiMo-V2-Pro 还展示了前端开发能力,能够一步生成设计精致、功能完备的网页,兼顾视觉质感与实际可用性。

定价层面,MiMo-V2-Pro 的 API 价格仅为同级别竞品的 1/5。256K 上下文以内,输入每百万 tokens 定价 1 美元,输出 3 美元;1M 上下文范围内,则为输入 2 美元,输出 6 美元。

这个定价策略的信号很明确:小米希望以价格优势快速推动 MiMo-V2-Pro 在开发者生态中的渗透。

为此,小米还联合 OpenClaw、OpenCode、KiloCode、Blackbox 及 Cline 五大 Agent 框架团队,提供为期一周的限时免费接口支持,各框架的具体限免信息可关注 MiMo 官方与 MiMo 开放平台公告。

目前,MiMo-V2-Pro 已正式开放 API 服务,开发者可前往 https://platform.xiaomimimo.com 接入体验。官方模型体验页面 https://aistudio.xiaomimimo.com 同步上线了 MiMo Claw 功能,支持免费体验 MiMo-V2-Pro 的 Agent 能力。

MiMo-V2-Omni:能看、能听、还能自己砍价

如果说 MiMo-V2-Pro 是大脑,MiMo-V2-Omni 的野心则更大,它试图让这个大脑同时拥有眼睛、耳朵和手。

MiMo-V2-Omni 是小米首个在基座层面统一感知与行动的全模态模型,从底层架构开始就将文本、视觉与音频深度融合。

音频理解是 MiMo-V2-Omni 最具差异化的能力之一。它支持超过 10 小时的连续长音频理解,覆盖从环境声分类到多说话人分离的复杂场景,综合表现超越 Gemini 3 Pro。

图像理解方面,MiMo-V2-Omni 在多学科视觉推理与复杂图表分析上超越 Claude Opus 4.6,逼近 Gemini 3 Pro 等顶尖闭源模型水平。

视频理解方面,模型支持原生音视频联合输入,而非将音频和视频分开处理,在架构层面带来了真正的多模态理解优势。

在 Agent 实操场景中,MiMo-V2-Omni 展现出令人印象深刻的端到端任务完成能力。

结合 OpenClaw 框架,它可以像真人一样操控浏览器:在小红书翻阅评测内容,整理购买建议,切换到京东跨店比价,联系客服争取优惠,直到完成下单,遇到多标签页切换、实时交互要求,均能见招拆招。

还有一个更具代表性的演示:用户只需说一句「做一个介绍视频,配上科技感音效,发到 TikTok 上」,模型就能完成全流程,包括自动修复渲染中的字体报错,最终确认视频审核通过、成功上线。

在纯文本智能体任务上,MiMo-V2-Omni 同样保持了高度竞争力,在 OpenClaw 榜单 PinchBench 上的表现比肩 Gemini 3 Pro。

Healer Alpha 匿名内测期间,模型在 PinchBench 上拿下均分第一,社区用户好评与基准测评结果形成了难得的双向印证。

办公场景方面,MiMo-V2-Omni 已与金山办公展开合作,接入 WPS 灵犀,支持直接生成高质量的 Word 文档、结构化 Excel、排版规范的 PDF 与完整 PPT。MiMo Studio 的 Claw 模块也已全面打通金山 WebOffice 生态,原生支持 Word、Excel、PPT、PDF 四大主流格式,覆盖超 95% 的日常文档类型。

WPS 灵犀体验地址:lingxi.wps.cn

MiMo-V2-Omni 已开放 API,支持 256K 上下文长度,输入定价每百万 tokens 0.4 美元,输出 2 美元,同样可在 https://platform.xiaomimimo.com 接入。

MiMo-V2-TTS:会打哈欠、会醉酒、还能唱歌

一个完整的 Agent,不应该只会思考和行动,它还需要开口说话。MiMo-V2-TTS 正是为了填补这个缺口。

MiMo-V2-TTS 基于小米自研 Audio Tokenizer 和多码本语音文本联合建模架构,经过上亿小时语音数据的大规模预训练。

「上亿小时」这个数据量级,意味着模型得以覆盖极为丰富的说话风格、口音与场景,这是泛化能力的基础。

多维度强化学习后训练阶段,模型围绕韵律自然度、音质稳定性、音色克隆质量与场景语气适配等多个维度持续优化。

得益于多层码本建模架构,强化学习阶段可以直接利用语音相关奖励信号对模型进行优化,而非依赖间接的文本侧反馈,这让多维奖励信号能够更有效地作用于生成过程。

MiMo-V2-TTS 支持从整体基调定调到句内局部情绪的多粒度控制,能在同一句话内完成语气转折与情感递变,这在同类产品中并不多见。

模型能够智能识别标点符号、语气词、强调标记等格式信号,并将其自动转化为自然的语音表达,全程无需用户手动标注。

方言支持涵盖东北话、四川话、河南话、粤语、台湾腔等,同时具备角色扮演式风格演绎与高质量歌声合成能力,让同一个模型既能说、能演、也能唱。

官方表示,未来 MiMo-V2-TTS 将与 MiMo-V2-Omni 深度融合,让 Agent 不仅能看懂世界、理解世界,更能用富有表现力的声音去讲述这个世界。

AI,才是真正打通人车家全生态的那根线

三款模型集中发布,时间节点和产品组合都不是偶然。罗福莉在声明中坦言,从聊天范式到 Agent 范式的转变发生得太快,「连我们自己都难以置信」。

但小米 MiMo 团队其实早有布局。罗福莉披露,1T 基础模型在数月前就已开始训练,最初目标是提升长上下文推理效率。混合注意力架构、1M 超长上下文窗口、MTP 低延迟推理,这些架构决策并非追随潮流,而是在需要之前就构建好的结构性优势。

推动团队加速转向 Agent 方向,源于一个关键时刻。罗福莉第一次体验到复杂 Agent 框架时受到强烈冲击,随即对团队下达强硬指令:MiMo 团队中,明天对话次数少于 100 次的成员可以辞职。

这个有些极端的要求背后,是她对 Agent 范式的坚定判断。结果是,团队的想象力被彻底激发,研究速度随之大幅提升。

这种研发节奏,叠加上小米本就拥有的生态基础,让这次发布的意义超出了单纯的模型竞赛。

小米集团长期推进「人车家全生态」战略,通过澎湃 OS 将手机、汽车(SU7 系列)与智能家居设备全面打通。这套生态的物理层面早已互联,但此前缺少一个真正意义上能跨设备理解意图、自主规划并完成任务的智能中枢。

现在,MiMo-V2-Pro 负责推理规划,MiMo-V2-Omni 负责多模态感知与执行,MiMo-V2-TTS 负责语音表达,三者叠加,构成了驱动整个生态运转的完整 AI 能力栈。

miclaw(小米手机端 AI 智能体)已接入 MiMo 大模型,具备系统级执行能力与「人车家全生态」的深度集成,是这套能力栈落地的第一个具体形态。WPS 灵犀、小米浏览器相继接入,也在说明同一件事:MiMo 不只是一个对话产品,而是正在被嵌入进各类应用场景的基础能力层。

多年来,各大科技公司都在描述「AI 将打通一切」的愿景,而带着 Agent 基因的 MiMo-V2 系列模型和深谙生态打法的小米,显然已经做好了准备。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

实测 Seedance 2.0 加持的小云雀最新 Agent,我一键生成了龙王赘婿短剧

By: 莫崇宇
19 March 2026 at 12:38

3 月 17 日,亚布力论坛年会现场,宇树科技创始人王兴兴被问及中国 AI 进展时,点名表扬了一款国产 AI:「今年一月份字节跳动 Seedance 2.0 视频生成软件,我觉得是全球目前最好的,全球遥遥领先。」

事实上,Seedance 2.0 的爆火速度也的确出乎许多人的预料。创作者们争相用它生成视频、制作内容,相关作品密集涌现。但热潮之下,各行各业的从业者也在认真盘算同一件事:

短剧公司、品牌营销、影视制作,这项技术究竟能不能真正嵌入自己的工作流,切实改变制作流程、拉升内容质量、压缩生产成本?今天,这个问题有了一个务实的回答。

APPSO 注意到,字节跳动旗下一站式内容创作平台小云雀 AI,正式推出行业首个搭载 Seedance 2.0 的短剧漫剧 Agent,支持剧本一键直出视频成片。

伴随着 AI 视频技术向垂直行业落地迈出实质一步,小云雀为短剧创作者备下的远不止 Seedance 2.0 这张牌,围绕短剧制作全流程,平台还提供了诸多实用工具……

作为短剧爱好者,我们也第一时间上手体验了小云雀 AI 这些新功能。

我把一部武侠剧本丢进去,它给了我一部漫剧

为了测试这个功能的真实上限,我选了一个难度不低的原创剧本——《墨影惊锋》,武侠题材,人物关系复杂,主角洛风和女刺客颜如玉在废弃客栈里的一场打斗,涉及大量动作细节、特效描写和角色形象的交叉出现。

这种本子拿去考 AI,相当于直接去考压轴题。

系统目前支持上传标准格式的 .docx 剧本文件。上传完成后,点击「开始创作」,Agent 即开始解析并生成大纲。

如暂无现成剧本,也可使用 AI 剧本生成功能:输入一句话故事创意,系统即可自动生成剧本,首次使用免费,无需消耗积分。

接下来需要做几个选择:画面风格选哪种、是否需要旁白改编、横屏还是竖屏。系统会根据选题自动推荐五种画风,也支持自定义输入,风格覆盖 2D、3D 和真人三大类。

《墨影惊锋》这种国风武侠,我选了 2D 国风半厚涂,气质比较搭。

然后是整个流程里最考验耐心的部分:等待。Agent 开始构建故事骨架,同时进行全局角色设计。官方提示预计半小时以上,实际体验中等待时间因剧本复杂程度而有所不同。

等待结束后,眼前出现了一份完整的「故事蓝图」。

这是整个体验里让我最意外的部分。Agent 不只是把剧本拆解成了分镜,它也真正读懂了剧本里的人物关系。

一个角色在第一集懦弱,第三幕果决,行为变了,但 Agent 始终知道那是同一个人——说话的方式、面对某类处境时的惯性反应、和特定角色之间的相处模式,这些细节它都记得,也都对得上。

这些对得上的细节,是过去需要人工逐字阅读几万字剧本才能提炼和比对出来的东西。

再比如它对人物形象一致性的处理。同一个角色出现在不同场景里,服装、神态、细节特征都对得上,不会因为换了一场戏就像换了一个人。这件事听起来简单,但在实际的分镜生成里很容易出问题,也是过去 AI 图像生成里最常见的毛病之一。

资产库里还附带类似人物小传的介绍。如果对系统生成的角色图片不满意,可以替换图片,确认之后,便正式进入分镜脚本编辑环节。

我们可以逐个分镜修改提示词和角色引用,也可以跳过直接生成视频。系统支持多个生成任务,如果是多集连载,只需完成一次剧本解析就可以逐集生成,不用每集都重来一遍。

最终跑出来的成片,打斗节奏、墨迹特效、角色形象的还原程度都超出了预期。

为了避免幸存者偏差,我们又拉着小云雀 AI 跑了几个截然不同的剧本。

《我在古代装神仙的日常》讲的是一个现代程序员穿越古代,还没搞清楚状况就跪在了刑场,眼看一刀落下,千钧一发之际激活了超级 AI,从此开始在古代装神仙的故事。

穿越爽文的核心在于「绝境逆袭」,主角从一脸懵到发现自己「带挂」,情绪转折又快又狠。生成的成片节奏稳,关键帧都卡在情绪高点,轻喜剧基调下整体比预期流畅不少。

龙王赘婿的案例则完全是另一个方向。这类爽剧本身靠的是节奏和情绪爆点,「恭迎龙王归位」那一幕,黑衣人涌入、BGM 骤变,生成结果整体是对味的,它极其精准地抓住了这种类型片的叙事套路。

相对而言,走动画路线的龙虾安装案例表现也很不错。日常感是极难伪造的。没有大开大合的镜头调度撑场面,背景里的路人、街角的招牌、主角细微的肢体协调性,一旦经不起推敲,就会散发出浓烈的廉价感。

好在最终成片的节奏足够轻快,人物动态自然,直接扔进短视频信息流里,大概率不会被一眼识破。

整体来看,对于一个刚刚上线的功能,这个完成度是真心不低。

当然,体验过程中也遇到了一些小瑕疵,比如等待时间偏长,一致性方面也偶有瑕疵,文字乱码现象、分镜编辑的自由度也还有成长空间等等。比如《墨影惊锋》的打斗场景里,也出现了类似穿模的现象。不过,好在可以局部生成,可以大大节省我们这些创作者的精力。

再换个角度想,AI 把生成过程压缩到了一个小时内。当试错成本无限趋近于零时,「反复抽卡」本身就成为了一种极具性价比的生产力。你觉得这场戏情绪不对?没关系,重新跑一次,大不了再等半小时。

这种容错率,是传统剧组想都不敢想的。

这恰恰是小云雀 AI 这次更新最硬核的价值判断:它没有死磕如何让某一帧画面绝对完美,而是把资源砸向了长文本理解、全局角色管理和工作流自动化。它知道创作者的痛点在哪里,也知道自己要往哪个方向走。

全链路提效,AI 短剧元年来了

去年这时候,AI 短剧最大的问题是「一眼假」,看两秒就知道是机器生成的。但这次体验下来,感觉有些东西确实不一样了。不是说已经做到无懈可击,瑕疵还是有的,但其中有相当一部分内容,随手刷到的话,多数人大概不会多想。

这个变化听起来不大,但对整个行业来说,意味着一道门正在慢慢打开。

过去,想做一部短剧,你得先凑齐剧本、演员、摄制组、后期团队,资金到位才能开机。这道门槛把很多有故事的人挡在了外面,不是因为他们没有创意,而是因为他们没有钱。

现在情况变了。传统真人短剧单集制作成本在几十万到上百万之间,而全链路 AI 自动化可以将这一成本进一步压缩。一个人,一台电脑,一份写好的剧本,剩下的交给 AI 就够了。

这扇门的松动,专业内容公司也感受到了。小云雀 AI 官宣上线短剧 Agent 后,华策影视、柠萌影视等头部影视制作方也相继公开表态。华策影视表示,华策始终相信好故事值得被更好地讲述,言下之意,工具升级了,但内容本身的分量没有变。

柠萌影视则更直接地点出了产业逻辑:降低制作成本、优化创作流程、提升 IP 转化效率。这三件事,正是过去制约短剧规模化的三道卡口。

当然,他们的入场,某种程度上说明:AI 短剧已经不只是独立创作者的游乐场,而是值得被严肃对待的下一个生产方式。

对大公司来说这是提效工具,对普通人来说则是一张入场券。你可以说这是技术进步,但我更愿意把它理解成一种技术平权,就像印刷术让知识走向民间;摄影术让图像记录从画家手中交还给普通人;互联网让创意扩散到每一个有网络的角落。

AI 短剧这件事,大概也是如此。

当然,门槛低了之后,涌进来的内容会良莠不齐,这是可以预见的事情。当大家都在用同一套工具生产故事,画面可以越来越精,但雷同的感觉也会越来越强。观众的注意力是有限的,也是会疲劳的。

到那个时候,真正能留住人的,大概还是故事本身有没有说到心坎里去。

如果说在过去,你可以把片子的难看归咎于「剧组太穷」「演员面瘫」「特效五毛」。那么现在,当 AI 把最顶级的皮相免费端到你面前时,如果你的短剧依然没人看,你又该把锅甩给谁?

AI 负责把故事搬上屏幕。让故事值得被搬上屏幕的,是人。

这件事没有捷径,也没有 Agent 可以替代。所以创作者真正需要守住的,是对生活的感受力,以及把这种感受力转化成故事的能力。AI 可以帮你把故事搬上屏幕,但它替代不了你坐在那里想清楚「我到底想说什么」这件事。

而小云雀 AI 在这个节点推出生成漫剧短剧的新功能,既是视频生成模型进步的结果,也是整个行业在往前奔涌时必然会发生的事。它现在还有需要打磨的地方,但它所指向的方向,是让好故事真正不再被资源和门槛所困。

每个心里藏着故事的人,现在都有机会把它讲出来。而这,才是小云雀 AI 真正有意思的地方。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

我在微信养了一天龙虾🦞,花了 20 万Token让它给我发压缩包

By: 周奕旨
18 March 2026 at 18:06

现在,你的微信里也能养「龙虾」了。

龙虾爆火后,在 AI 牌桌上一向低调的腾讯,罕见打出一套快拳,迅速端出三款「龙虾」,其中最值得拿上台面聊聊的,当数 QClaw——

这是腾讯电脑管家基于 OpenClaw 打造的一款本地 AI 助手,它最特别的地方在于你可以支持直接在微信与「龙虾」对话,让它帮你干活。

今天,QClaw 正式更新 v0.1.9 版本,用户可以通过小程序接收电脑端文件,同时上线了足以充当龙虾指南的「灵感广场」。

APPSO 第一时间实测了微信养龙虾,看看实际体验如何。

一只对小白友好的腾讯龙虾

QClaw 的界面长了一张大家都很熟悉的「AI 脸」:左边聊天,右边干活。为了让你最快上手,它在主界面的 C 位甩出了几个预设选项。点击「安装你的第一个 Skill」,这只龙虾就会手把手教你如何点亮它的技能树。

背靠 ClawHub 和 GitHub ,QClaw 拥有的 Skill 储备超过 5000 种。面对这么庞大的库,该怎么挑?腾讯给出的答案很直接:别挑,直接开口。你只需要用大白话描述你想干啥,它就会自动把合适的 Skill 端到你面前。

傻瓜式的交互,极大抹平了新手的学习曲线。但对喜欢掌控感的人来说,难免会有一点隐秘的焦虑——总得有个完整菜单让我看看有什么菜吧?

稍微翻找一下,你会发现它藏在设置的「技能管理」中。在这里,你能总览所有技能,甚至可以直接从 GitHub 粘贴导入。但耐人寻味的是,哪怕在这个稍显硬核的管理界面里,排在最前面的添加方式,依然是「通过对话创建」。

可以看出来的是,在决定基础体验与 QClaw 能干什么的事情上,腾讯想尽量将事情做简单——刚刚 QClaw 回复 Skill 列表的第三点,依旧在鼓励我直接告诉它想要什么样的 Skill。

微信养虾很有趣,只是这虾有点生

部署好电脑端之后,我们直奔重头戏——微信遥控。

先在主界面左下角用微信登录 QClaw。注意:目前内测仍需填写邀请码,没有邀请码的话,就算微信登录成功也是一个空壳,什么都做不了。

不过,光在电脑端完成登录,还不足以召唤出这只「龙虾」的完全体。要想真正把它装进口袋,还得进行一次关键的跨屏连线。

在界面左下角的头像旁唤醒「微信远程」,掏出手机微信扫一扫,界面会丝滑地跳转到微信里的 QClaw 客服对话框,另一头的电脑屏幕也会默契地亮起连接成功的提示。

不需要任何复杂的内网穿透或代码配置,你的微信聊天框,此刻已经正式变成了一个能随时使唤电脑干活的随身遥控器。

我相信大多数人面对这只一举一动都要花钱的龙虾(当然,目前内测期间 Token 免费),图的绝不仅是多一个代发微信的聊天搭子,而是能实打实分担工作压力、能帮我干活儿的数字员工。

对于我也是如此——尤其是当我不在办公电脑前,又急需一些文件和图片的时候。

QClaw 最大的亮点就是免去麻烦的部署,可以通过微信对话框指挥电脑上的 QClaw,而在 v0.1.9 版本,QClaw 上线小程序文件传输能力,用户可以直接通过小程序接收电脑端文件,灵活性进一步提升。

那它的实际表现如何呢?

在我的电脑下载中,有几张拍摄的样片急需放进推文中,但我此时离公司十万八千里,于是我通过客服号中的 QClaw 对话框下达指令,请 QClaw 将照片传递过来。结果——

啊?

不死心,重试一次。这次成功了,但只能算「基本成功」——从消息内容来看,QClaw 似乎只回过来了后半段,前半段被悄无声息地吞掉了。

为了搞清楚发生了什么,我火速赶回公司,看看电脑端的对话框里是怎么呈现的这次任务:

也就是说,其实第一次下达指令后,QClaw 是成功响应了,但没有顺利反馈到手机微信里的对话框中;而第二次更是提示我可以在 QClaw 小程序中随时查看,但消息却没发送全,唯一幸运的是后半部分的链接顺利递到了我的对话框中,让我至少能正常下载需要的照片。

对于工作来说,文件的任何信息都很重要,所以我打算进一步拷打一下 QClaw:

我需要的这些照片,会被 QClaw 偷偷压缩吗?小程序中保存的照片,与链接中的照片是否一致?有没有丢失 Exif 信息呢?

抱着这样的疑问,我用手机打开「QClaw 管家」小程序,照片确实秒速送达了。令人无奈的是,QClaw 自作主张地将三张照片打成了压缩包,文件不支持点击选中,也不给任何下载到本地再想办法解压的余地。

最后的结果是这份急需的资料就这样死死僵在了列表里,没有任何办法增删查改。折腾了半天,我唯一能做的,就是隔着手机屏幕和它干瞪眼。

▲ 啊?

此时一定有人提问:不是还有链接吗?人家说小程序是用来查看的,你用链接下载不就好了。

没毛病,但我用手机返回客服号对话框,重新找到下载链接时,发生的一幕让我血压暴涨——

这个链接,是用来跳转到 QClaw 管家小程序的。

当一个事情离谱到超出我意料的时候,我会非常执着地想看看它到底能离谱到什么地步。

于是我又不信邪,用电脑点击 QClaw 给我的那条下载链接。

可喜可贺——这一次没有出任何差错,文件下载下来了。不仅下载下来了,而且图片还没有任何压缩,Exif 信息也没有任何丢失。

但是我怎么就是高兴不起来呢?

让我们看看我最初是想干什么?

因为我不在办公电脑前,所以我找 QClaw 给我发文件;
QClaw 给我发到小程序里,还给我发了链接,相当周全;
小程序里是压缩包,我打不开、看不了、下不动、删不掉;
手机打开的下载链接也跳转到小程序,我打不开、看不了、下不动、删不掉;
最后只能用电脑点击下载链接,才能顺利看到文件。
……

好,可能是文件夹里三张图片对于 QClaw 这样刚蹒跚学步的龙虾来说太多了,我只留一张,再来一次。

▲ 终于成功了

在我特别叮嘱「别压缩」的前提下,成了!并且 Exif 信息没有任何丢失,大成特成!

顺带一提,刚刚这一顿操作下来,又是 20 万 Token 没有了。

灵感广场,教你怎么养龙虾

对没碰过「龙虾」的小白来说,前期的本地部署就像在徒手拼装一台发动机,费尽心思终于熬过了复杂配置,满心欢喜地准备拥抱赛博未来,迎面撞上的却只有一个光秃秃的代码框——我真不知道这玩意能干什么, 或者说我不知道它能怎么帮到我。

老天给你发了一把绝世好剑,却忘了给剑谱,而 v0.1.9 上线的「灵感广场」,刚好充当了剑谱作用。

腾讯在灵感广场中预设了 15 种任务模式。说实话,其中大部分任务并不能直观体现出龙虾的想象力,以前的大语言模型 AI 也能做到看看八字、梳理知识点框架。于是,在一众应用中,我找了一个较为本地化的操作:发票/单据智能归档。

我的电脑里刚好存放着去年大半年的发票准备报销,但直接在电脑上用预设功能实在没什么意思,我打算用微信通知 QClaw 帮我智能归类,并输出为 Excel 表格:

把电脑上下载中发票报销文件夹里的发票都帮我整理成报销明细 Excel 表格

不知道是不是我在发票报销的文件夹中根据项目分出了近十个小文件夹的原因,QClaw 执行整个指令用了约五分钟的时间,最终输出的 Excel 表格通过文字反馈给了微信客服号的对话框中,并同样附上了小程序的链接。

美中不足的是,QClaw 出现了部分发票识别不了的情况——我所有的发票都是 PDF 格式,但由拍摄转为 PDF 的实体发票识别无一例外都失败了,结果差强人意。

随后,我又用电脑端单独输入了一遍同样的指令,得到的结果保持一致——由照片转来的五张发票无法顺利识别。

打开设置看看用量统计,电脑整理发票这条指令消耗了 839,061 Token,是单条简单对话的 20 倍左右,而手机微信远程指挥的消耗则为 459,501,Token 消耗比较不稳定。

不过在折腾这个任务时,我也踩到了微信遥控 QClaw 的弊端——

你在手机微信里下发的所有指令,到了电脑端并不会根据任务自动分流,全都简单粗暴地把消息塞进了一个对话框里。:一旦你想回到电脑端复盘之前的任务进度,面对的就是一个深不见底的文字瀑布。没有标签,没有分类,你唯一能做的,就是疯狂搓动鼠标滚轮,在海量的历史记录里苦苦打捞你需要的回答。

预设任务完成得尚可,更个人、更日常的任务呢?

我打算从最简单的入手——发微信。

我请 QClaw 帮我叫女朋友起床,按道理,在 v0.1.9 版本中,QClaw 已经接入微信了,发个微信应该不是什么难事儿。但意外的是,接入微信的 QClaw,找不到我的微信联系人。

面对这种窘境,QClaw 反复尝试挣扎,在经过备注、用户名、微信号三重查找后,浪费了近 20 万 Token 的 QClaw 终于找到了问题所在:

看到问题了!微信渠道虽然启用了,但 guid 和 userId 都是空的,说明微信账号还没有完成绑定/授权。

看起来很合理,但我目前已经绑定了微信,并退出重新登陆过一次,依旧无法成功,换到手机微信客服号远程指挥电脑上的 QClaw,也依旧失败。

于是我继续追问如何填充 guid 与 userld,又花费了近 20 万 Token 的 QClaw 这样回答:

看起来头头是道,逻辑正确、方案合理,但我翻遍了设置也没有找到其中任何一个解决办法的入口,而截止本篇体验完稿时,我依旧没能叫她起床……

关掉 QClaw,读者们大概会分成两拨——乐观者会期待,悲观者会批评。

但我并不打算对一个版本号仅为 v0.1.9 的初生牛犊过于苛刻。这是一个相当年轻的版本,从产品逻辑上,能看出腾讯在尽力降低龙虾的准入门槛,但一旦触及到细分需求,它就会出现零零散散的不如意。

这很符合逻辑,易用需要大众,而生产力则天生偏向极致细分,解决这样的矛盾还需要时间。目前的 QClaw 只是呈现一个粗糙的框架,向我们掀起未来一角。

跳出 QClaw 这盘「小龙虾」,也许我们还可以有一些更大的猜想——

之前我们在文章《OpenClaw 让每个聊天软件都有机会变成微信》中提到:

当一个聊天窗口可以调用任意 agent 完成从订票、编程到数据分析的任意任务时,它已经不只是一条管道——它正在变成一个超级接口。

有意思的是,这个让全球开发者兴奋不已的叙事,对中国用户来说却充满着强烈的既视感。用一个封闭生态实现「全服务覆盖」,这不就是微信当年用小程序做过的事吗?

QClaw 在体验上的种种不如意,以及未来可以预见的权限摩擦,本质上是开放工具撞上封闭生态时的必然代价。它费尽心思想绕过的那堵权限墙,对微信自己来说,不过是底层架构里的一行代码。

第三方工具在缝隙里挣扎的每一步,对平台原生能力来说都只是举手之劳。

能力的边界,往往就是入场资格的起点。

QClaw 只是掀开了一角,让我们看到了 IM 平台向「通用交互层」进化的可能性。而真正的问题是:当微信亲自下场,把原生 Agent 融入其中,那个版本的体验会是什么样的?

想象一下,不需要邀请码,不需要跨屏连线,不需要在压缩包和跳转链接之间反复横跳——只需要打开一个你每天都在用的聊天框,说一句话,事情就办完了。

这才是那个 AI 时代真正意义上的「超级接口」。

QClaw 让我们预习了这道题,但最终交卷的人,可能另有其人。

让我有个美满旅程

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

马斯克下场点赞!Kimi 这篇论文撬动了大模型的「祖传地基」

By: 莫崇宇
18 March 2026 at 17:30

同样的算力,同样的数据,凭什么效果不一样?大多数人的直觉是:模型更大、数据更好、工程师更厉害。但 Kimi 给出了一个更出人意料的答案。

3 月 16 日,月之暗面 Kimi 发布了一项重磅技术报告《Attention Residuals》(注意力残差)。

这项技术针对几乎所有现代大模型都在使用的残差连接结构进行了改造,并在实验中证明,用同样多的算力,新方法训练出的模型效果相当于基线模型花费 1.25 倍算力才能达到的效果。

报告发布后,也毫无意外得到了许多硅谷顶尖 AI 人物的点赞背书。

▲附 GitHub 开源地址:github.com/MoonshotAI/Attention-Residuals

比如马斯克通过社交媒体表示「「Impressive work from Kimi」(令人印象深刻的工作)」OpenAI o1 主要发明者 Jerry Tworek 称其为「深度学习 2.0」的开端。

前 OpenAI 联创 Andrej Karpathy 说「看来我们还没把『Attention is All You Need』这句话按字面意思理解透。」但比起这些夸奖,技术论文背后的信号或许更值得关注:深度学习最基础的范式,正在发生变化。

十年没人动过的地基,被撬动了

过去两年,大模型的竞争主要在「上层建筑」展开:更好的注意力变体、更聪明的 MoE 路由策略、更精巧的对齐方法,大家都在 Transformer 这栋大楼的高层精装修。

唯独有一样东西,从 2015 年 ResNet 论文发表以来,几乎没人动过:残差连接(Residual Connections)。

要理解这项技术,得先知道大模型内部的基本结构。

现代大模型,其实都是由很多层神经网络叠加而成的,少则几十层,多则上百层。信息从底部输入,一层一层往上传递,每一层都对信息做一次加工,最终在顶部输出结果。

可以把它想象成一条流水线上的工人:原材料从第一道工序进来,每个工人对它加工一遍,再传给下一个,最终出来成品。问题是,流水线越长,越难训练。

假设第 50 道工序的工人犯了错,你想纠正他,就得把这个「纠错信号」一路往回传,经过 49 个工人才能传到第 1 个。传着传着,信号就消失了,底层的工人根本不知道自己哪里出了问题。

为了让这么深的网络能够训练起来,知名学者何恺明团队在 2015 年发表了一篇题为《Deep Residual Learning for Image Recognition》的论文,引入了一个关键设计,叫做残差连接(Residual Connections):

每一层在加工信息的同时,还会保留一条「直通道」,把原始输入原封不动地加到加工结果上,再往下传。这条直通道让梯度在反向传播时可以绕过中间的变换,一路流回底层,从根本上解决了深层网络难以训练的问题。

比较通俗的理解是,在每道工序旁边加一条「直通道」,把原材料原封不动地绕过这道工序,直接和加工结果合并,再往下传。这样纠错信号就可以沿着直通道一路畅通无阻地传回底层,不会消失。

这篇论文后来成为计算机视觉乃至整个深度学习领域引用次数最多的论文之一,残差连接也沿用至今,是几乎所有大模型的基石。

残差连接虽然好用,但它做信息聚合的方式非常粗暴:把所有前面层的输出,无差别地等权相加。

还是用流水线来比喻。到了第 51 道工序,这个工人手里拿到的,是前面 50 道工序所有产出物的等量混合,每道工序的产出各占一份,不多不少。他没有办法说「我想多要一点第 3 道工序的原料」,也没有办法说「第 20 道工序的东西对我没用,少给我一点」。

这带来了一个名为 PreNorm 稀释的实际问题 :随着网络越来越深,累积叠加的信息越来越多,每一层自己的贡献在庞大的总量里越来越微不足道。越靠后的层,想要让自己的声音被「听见」,就得输出越来越大的数值,否则就会被淹没。

结果就是,很多中间层其实没在认真干活。已有研究发现,大模型里相当一部分层直接删掉,效果几乎不变,这说明这些层的贡献实际上极为有限。

大多数团队早就知道这个问题,选择绕开它,转而在在现有架构上叠加更好的数据配比、更精巧的训练策略、更长的上下文窗口。这些工作当然有价值,但本质上是在一个已有的技术框架内做增量优化。

Kimi 选择的是一条更孤独也更难的路:回到最基础的结构,用第一性原理重新审视那些「理所当然」的设计。

今天凌晨,Kimi 创始人杨植麟在 GTC 2026 演讲中提到:「行业目前普遍使用的很多技术标准,本质上是八九年前的产物,正逐渐成为 Scaling 的瓶颈。」

杨植麟认为,要推动大模型智能上限的持续突破,必须对优化器、注意力机制及残差连接等底层基石进行重构。

一次优雅的「旋转」

Kimi 团队这篇论文的核心突破,其实也来自一个优雅的类比发现。

处理文字序列时,早期的循环神经网络(RNN)也有类似的额外问题:记性差。它读完一整段话之后,早期读到的内容会被后来的内容不断覆盖,等读到最后一个词,前几句说了什么已经模糊了。

后来 Transformer 用注意力机制解决了这个问题,相当于给模型配了一张「全文笔记」,处理每个词的时候,都可以翻回去查任意一个之前出现过的词,而且查哪里、查多少,由当前的内容自己决定。

研究人员发现,残差连接在深度方向上碰到的问题,和 RNN 在时间方向上碰到的问题,数学结构完全一样。换句话说,把 Transformer 想象成一张二维的网格:

横轴是序列方向,一句话里从左到右的每个词;纵轴是深度方向,从底层到顶层的每一层网络。传统的注意力机制是沿着横轴工作的,处理某个词时去查同一层里其他词的信息。

而 Attention Residuals 做的事情,就是把完全相同的机制转到纵轴上去,处理某一层时去查前面所有层的输出,决定要参考哪些层、参考多少。操作对象从「同一层里的不同词」变成了「同一个词在不同层里的状态」,机制本身一模一样,好比方向转了 90 度。

既然注意力机制解决了序列方向的问题,旋转一下搬到深度方向上,同样有效。

这里有一个更深层的理论发现值得一提。研究人员通过数学分析发现,过去十年里所有对残差连接的改进,包括标准残差、Highway 网络、mHC 等各种变体,在数学上其实都是同一件事的不同形式,都等价于某种「深度方向的线性注意力」。换句话说,大家一直在朝同一个方向努力,只是当时没意识到。

而 AttnRes 的核心思路在于,把注意力机制从「处理文字序列」的维度,移植到「跨越网络深度」的维度上。

具体做法是,给每一层配备一个小小的「查询向量」,就像给每道工序的工人配了一张需求单。工人在开工前,先拿着需求单去翻所有前面工序的产出,根据相关度算出一套取用比例,再按这个比例把需要的原料混合起来。

这样一来,每一层不再是被动接受所有前面层输出的等权叠加,而是主动、有选择性地决定要从哪些层提取多少信息,比例还会根据当前任务的内容动态变化。每层只新增一个向量和一个归一化操作,参数量的增加对整个模型来说几乎可以忽略不计。

为了保证训练初期稳定,这个查询向量必须初始化为全零,相当于让工人一开始什么偏好都没有、平等对待所有前序产出,等训练推进了再慢慢形成自己的判断。

值得一提的是,研究人员也测试过一个更激进的版本:让查询向量不再是固定参数,而是根据每一层当前的输入内容动态生成。这个版本效果确实更好,损失值进一步下降。

但最终没有采用,原因是推理时这种方式需要顺序读取内存,会增加延迟。这个取舍体现了贯穿整篇论文的工程哲学,理论上更优的方案,不一定是实用上应该选的方案。

大模型的新技术,最后都得过这一关

全量 AttnRes 在小规模实验中很好用,但一到大规模训练就遇到了麻烦。

它需要每一层都能访问所有前面层的输出。模型有一百多层,每层的输出都得保存在内存里,还要在不同计算节点之间来回传输,内存和通信开销随层数线性增长,在大模型上根本承受不起。

Kimi 团队的解法很实在:Block AttnRes。把网络所有层划分为若干个 Block(48B 模型中分了 8-9 个 Block,每个 Block 约 6 层),Block 内部沿用传统残差连接,Block 之间使用 softmax 注意力。打个比方——不必给每层楼都装电梯,在关键楼层之间架设快速通道就够了。

这样,需要保存和传输的数据量,从「所有层的数量」降低到「块的数量」,开销大幅缩小。实验发现,分成约 8 个块就能保留全量方法绝大部分的性能提升。

在具体的工程实现上,团队还做了两项优化。

训练端设计了跨阶段缓存机制,在流水线并行训练中每次切换阶段时只传输新增的那一小部分块数据,而不是每次都把全部历史重新传一遍,实测整体训练额外开销不超过 4%。

推理端设计了两阶段计算策略,把一个块内所有层的查询打包成一次矩阵运算统一处理,把重复的内存访问摊销掉,最终推理延迟增加不超过 2%。

那实验效果怎么样呢?研究人员测了五个不同规模的模型。

结果显示,Block AttnRes 在全部规模上均以更低的验证损失领先于基线,且改善幅度随规模增大而稳定保持。按拟合曲线推算,在相同的计算量下,Block AttnRes 相当于基线模型用 1.25 倍算力才能达到的效果。

在 48B 参数(3B 激活)规模的 Kimi Linear 架构实验中,Block AttnRes 展现了极强的泛化性:在全部 15 项主流评测基准中,其表现均持平或优于 PreNorm 基线模型。

例如,在博士级科学推理 GPQA-Diamond 上实现了 7.5% 的飞跃,在数学 Math (+3.6%) 及代码生成 HumanEval (+3.1%) 任务中也录得了显著增益 。

从训练过程来看,基线模型的各层输出数值随深度单调增大,印证了 PreNorm 稀释问题;而 AttnRes 的各层输出数值在块边界处得到重置,呈现周期性变化,各层梯度分布也更加均匀,说明更多的层真正参与到了有效的学习中。

此外,研究人员还可视化了训练后模型学到的注意力权重,发现了几个有趣的规律。

每一层仍然最依赖直接前一层的输出,局部性依然是主要的信息流通方式。但同时出现了一些跳跃性的连接,比如某些层会稳定地回溯到很早期的层,还有些层会特别关注最初的词嵌入输出。

另一个规律是,注意力层和 MLP 层的「回望」模式不同:注意力层倾向于关注更广泛的历史,MLP 层则更依赖近邻层。这与两者在模型中的功能分工是吻合的。

AttnRes还带来了一个对未来模型设计有参考价值的发现。研究人员在固定总计算量和参数量的前提下,枚举了 25 种不同的深度与宽度组合,对比基线模型和 AttnRes 各自偏好的最优架构。

结果发现,标准残差连接偏好「更宽、层数更少」的模型,而 AttnRes 的最优点偏向「更窄、层数更多」的模型。这说明 AttnRes 能够更有效地利用深度,让每增加一层都真正产生价值,而不是让深度变成一种边际效益递减的堆砌。

这个发现的含义不止于此。它意味着 AttnRes 不只是在原有架构上打了一个补丁,而是从根本上改变了网络深度的利用效率,也为未来设计大模型时如何分配深度与宽度的资源提供了新的参考依据。

杨植麟曾提到,十年前不是没有好想法,而是没有算力去验证。现在有了足够的资源和「缩放阶梯(Scaling Ladder)」,那些被搁置的问题才终于能被认真答一遍。

大佬点赞的背后,是一个时代在转弯

一个中国团队在最底层的架构创新上获得硅谷顶级人物的实质性认可,这件事本身十分罕见,他们认可的不只是论文成果本身,更在于Kimi 这篇论文指向了一个全新的方向:优化已经从 attention、MoE 这些上层模块,深入到了最底层的残差连接。

在 GTC 2026 演讲中,杨植麟还披露了一连串底层技术创新:MuonClip 优化器实现了相比 AdamW 2 倍的计算效率提升——要知道 Adam 优化器自 2014 年以来几乎未被撼动,属于深度学习的「不可触碰之物」;Kimi Linear(KDA 架构)在 128K 到百万级超长上下文下实现 5-6 倍的解码加速;Vision RL 的跨模态训练甚至让纯文本 benchmark 也提升了约 2.1%。

杨植麟把这些创新概括为三个维度的 Scaling 框架:Token 效率 × 长上下文 × Agent Swarms。

「当前的 Scaling 已经不再是单纯的资源堆砌,而是要在计算效率、长程记忆和自动化协作上同时寻找规模效应。」

一家公司,同时在优化器、残差连接、注意力架构、跨模态训练这些底层战场上全线推进,这种打法在行业里相当特立独行。

这也是为什么 Jerry Tworek 会说出「深度学习 2.0」这样的判断。当然不是说 Attention Residuals 这篇论文就能颠覆一切,更多是它代表了一种方法论的回归:不再满足于在已有框架上修修补补,去重新审视那些被所有人当作「已解决问题」的基础设施。

如果残差连接可以被重新设计,那么 Adam 优化器呢?层归一化呢?位置编码呢?深度学习的基础范式本身正在发生变化,这扇门一旦推开,后面的故事就不再是线性外推能预测的了。

Karpathy 那句「Attention is All You Need 还没被理解透」的感慨,大概也是这个意思。

过去几年,中国 AI 团队的贡献更多集中在工程落地和应用创新上,在底层架构理论方面的原创性突破相对稀缺。Kimi 这篇论文走的是一条完全不同的路线——一个统一的理论框架,一个优雅的工程实现,加上严谨的大规模实验验证。

当然,Kimi 这篇论文还有留下不少需要解决的问题。论文的大规模验证是在 48B 总参数(3B 激活参数)的模型上完成的,这个规模放在今天的第一梯队里并不算大。在真正的千亿乃至万亿参数模型上,1.25 倍的等效优势能否稳住,目前还是个问号。

同时论文展示的也只是预训练阶段的收益,经过指令微调、RLHF 等后训练步骤后,AttnRes 的优势是否会被稀释,缺乏数据。

但话说回来,这些局限恰恰也是想象力的来源。一个仅需约 100 行代码改动、增加不到 4% 训练开销的轻量修改,就能在 48B 规模上带来这样的提升。

当它被应用到更大规模的下一代模型上时,收益的天花板在哪里,谁也说不准。

Attention Residuals 抬高了 Token 效率的天花板,Kimi Linear 拓展了长上下文的边界,Agent Swarms 指向智能体协作的未来。当这三条技术线在下一代模型中汇合,呈现出的可能就是新的范式转变。

在 AI 这座通天塔的工程上,所有人都在争着往上添砖加瓦,而 Kimi 低头往路基重重地凿了一锹,恰好撬动了深度学习的地基。

作者:莫崇宇,李超凡

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

「日本最强AI」塌房了!扒开代码全是DeepSeek,日本网友集体破防

By: 张子豪
18 March 2026 at 12:33

「终于到日本用中国 AI 来冒充日本产 AI 的时代了」

最近这件事在日本的 X 讨论炸了,起因是昨天日本一家科技公司乐天集团(Rakuten)在日本经济产业省(METI)的 GENIAC 项目(日本 AI 政府资助项目)支持下,高调发布了号称「日本最大、性能最强」的 7000 亿参数大模型 Rakuten AI 3.0。

但发布后不久,开源社区就迅速扒出,该模型的底层架构实际上是来自我们的 DeepSeek-V3,乐天仅仅是做了日文数据的微调。

在知名的 AI 开源库 Hugging Face 上,Rukuten AI 3.0 赫然在自己的配置文件里面写着架构来自 DeepSeek V3。

而在 Rakuten AI 3.0 模型的发布新闻稿里,丝毫没有提到任何关于 DeepSeek 的信息,只是含糊的说「它融合了开源社区的精华」,让一众网友以为这款模型就是日本自主研发的。

更致命的是,乐天为了掩盖这一事实,在开源时偷偷删除了 DeepSeek 的 MIT 开源协议文件。在被社区实锤后,才灰溜溜地以「NOTICE」文件名重新补上。

▲在 Hugging Face 上能看到项目文件的提交历史,显示修改

日本网友纷纷表示,「这让人无法接受」,拿着日本政府补贴,竟然只是微调了一波中国的 DeepSeek,还有人说,用 DeepSeek 就算了,还要偷偷藏藏真的很逊。

掩耳盗铃的「日本最强」

单看 Rakuten 公司发布的公关稿,这个模型确实算得上是日本在 LLMs 领域的一次比较有实力的发布。

这是一款拥有约 7000 亿参数的混合专家(MoE)模型,经开源社区确认,是和 DeepSeek V3 一样的671B 总参数,激活 37B。乐天首席 AI 官 Ting Cai 将其形容为「数据、工程和创新架构在规模上的杰出结合」。

Ting Cai 这名字一听就不像是日本当地人,有日本网友在评论区说,用 DeepSeek 很过分,更过分的是,主导这个模型的大老板,是个彻头彻尾的移民强硬派。

我们发现 Ting Cai 曾在美国 Google、苹果公司工作过,并在微软待了超过 15 年,本科在美国石溪大学,计算机科学就读。他曾在采访中表示,十八岁他第一次出国,去的就是日本,确实是个「移民强硬派」。

关于 Rakuten AI 3.0 的模型表现,在官方公布的各项基准测试中,它在日语文化知识、历史、研究生水平推理、甚至竞技数学和指令遵循等维度上,得分表现都极其优异,大有横扫日本本土大模型圈的架势。

不过,用来对比的模型,是已经被下架了的 GPT 4o、只有 1200 亿参数的 GPT OSS,还有日本的新兴另一个 AI 开发企业 ABEJA 基于千问推出的 ABEJA QwQ 32b 模型。

7000 亿和最多 1200 亿比,Rakuten AI 3.0 确实是赢了不少。同时作为经产省 GENIAC 项目的重点扶持对象,乐天获得了大量的算力资源支持。GENIAC 这个项目设立的初衷,正是为了建立日本本土的生成式 AI 生态,缓解对海外巨头技术依赖的焦虑。

日本最大的参数规模,再加上这层「国家队」的滤镜,让 Rakuten AI 3.0 一出场就戴上了「全村希望」的光环。

还得是 DeepSeek

但光环褪去得比想象中更快。

先不说 7000 亿参数、MoE 架构,这几个关键词组合在一起,在当今的开源大模型圈子里,指向性实在太强了。等到开源社区的开发者们,到 Hugging Face 上一看详细的代码配置文件,竟然直接就写着 DeepSeek V3。

从底层逻辑来看,这就是「中国架构 + 日本微调」。DeepSeek 提供了那套被全球验证过、极其高效的底层架构和推理能力,而乐天则利用其本土优势,用高质量的日文语料对其进行了微调,让它变得更懂日本文化。

客观来说,拿开源模型做本土化微调,在技术圈是一件极其正常且合理的事情。就像他们拿来作为对比的 ABEJA QwQ 32b 模型一样,连代号都不改,直接用 Qwen 的 QwQ。

▲日经新闻曾报道,日本公司开发的前十大模型里,有 6 个都是基于 DeepSeek 或 Qwen 进行二次开发

如果乐天这次也坦坦荡荡地承认使用了 DeepSeek 的底座,顶多是一次缺乏新意的「套壳」发布,兴许还能蹭一波 DeepSeek 的热度。

但他们偏偏选择了掩藏。

之前我们分享美团浏览器使用开源项目时,曾提到不同的开源协议,其中 DeepSeek 采用的 MIT 协议,堪称开源界「最卑微、最宽容」的协议。它允许用户免费拿去商用、修改、甚至闭源赚钱。它唯一的请求只有一个:在项目里,保留原作者的版权声明和许可声明。

▲Rakuten 模型发布新闻稿|
https://global.rakuten.com/corp/news/press/2026/0317_01.html

而乐天不仅在模型发布博客中对 DeepSeek 绝口不提,更是直接在代码库里抹除了这份协议文件,还高调宣布自己采用的是 Apache 2.0 协议开源。虽然 Apache 2.0 同样是对商业极度友好的开源协议,但它更正式,常被大厂用来建立自己的开源生态和专利护城河。

▲不同开源协议对比,MIT 协议比 Apache 协议更宽松、更简短,Apache 2.0 在赋予自由的同时,明确包含了专利授权保护和更严谨的责任免除条款,适合更大型、法律风险规避更严格的商业项目|图片来自互联网

乐天的算盘打得很精,抹掉 DeepSeek 的名字,套上自己的 Apache 2.0 协议,再把自己包装成「慷慨开源 7000 亿参数大模型」的日本 AI 救世主。

喊了一年多的欧洲版 DeepSeek、美国版 DeepSeek,最后好像都没有做出来。

乐天也想做日本版 DeepSeek,但在算力和训练成本的压力下,在当前全球大模型飞速发展的局面下,既想要中国技术的极致性价比,又放不下打造「本土巨头」的身段,显然是难上加难。

不如和我们一起等等 DeepSeek V4 吧。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Who called git, and how Claude was caught red-handed

By: hoakley
17 March 2026 at 15:30

When the same unusual dialog appears twice within a few days for two different people, you begin to suspect a pattern. This article explores a rabbit hole that involves git, the log and the fickleness of AI.

On 8 March, Guy wondered whether an XProtect update earlier this month could have been responsible for a dialog reading The “git” command requires the following command line developer tools. Would you like to install the tools now? As the request seemed legitimate but its cause remained unknown, we mulled a couple of possible culprits, and he went off to investigate.

Five days later, after he had installed the update to SilentKnight 2.13, Greg emailed me and asked whether that might be responsible for exactly the same request appearing on his Mac. This time, Greg had consulted Claude, which asked him to obtain a log extract using the pasted command
log show --start "2026-03-13 07:07:00" --end "2026-03-13 07:10:00" --style compact --info | grep -E "14207|spawn|exec|git|python|ruby|make"

Armed with that extract, Claude suggested that SilentKight had been the trigger for that dialog.

I reassured Greg that, while SilentKnight does rely on some command tools, it only uses those bundled with macOS, and never calls git even when it’s feeling bored. While I was confident that my app couldn’t have been responsible, I wondered if its reliance on making connections to databases in my Github might somehow be confounding this.

While I knew Claude was wrong over its attribution, the log extract it had obtained proved to be conclusive. Within a few minutes of looking through the entries, I had found the first recording the request for command line tools:
30.212 git Command Line Tools installation request from '[private]' (PID 14205), parent process '[private]' (parent PID 14161)
30.212 git Command Line Tools installation request from '[private]' (PID 14206), parent process '[private]' (parent PID 14161)

As ever, the log chose to censor the most important information in those entries, but it’s dumb enough to provide that information elsewhere. All I had to do was look back to discover what had the process ID of 14161, as its parent. Less than 6 seconds earlier is:
24.868 launchd [pid/14161 [Claude]:] uncorking exec source upfront

Just to be sure, I found matching entries for SilentKnight and the system_profiler tool it called after the attempt to run git:
30.153 launchd [pid/14137 [SilentKnight]:] uncorking exec source upfront
30.336 launchd [pid/14139 [system_profiler]:] uncorking exec source upfront

There was one small mystery remaining, though: why did Claude’s log show command also look for process ID 14207? That was the PID of the installondemand process that caused the dialog to be displayed:
30.215 launchd [gui/502/com.apple.dt.CommandLineTools.installondemand [14207]:] xpcproxy spawned with pid 14207

Following its previous denial, when Claude was confronted with my reading of the log, it accepted that its desktop app had triggered this dialog. Its explanation, though, isn’t convincing:
“the Claude desktop app calls git at launch — likely for one of a few mundane reasons like checking for updates, querying version information, or probing the environment. It’s not malicious, but it’s poorly considered behavior for an app that can’t assume developer tools are present on every Mac.”

In fact, it was Guy who had probably found the real reason, that the Claude app has Github as one of its four external connectors. However, that shouldn’t give it cause to try running the git command, resulting in this completely inappropriate request.

Conclusions

  • Claude might know how to use the log show command, but it still can’t understand the contents of the Unified log.
  • If you’re ever prompted to install developer command tools to enable git to be run, suspect Claude.
  • What a fickle and ever-changing thing is an AI.*

I’m very grateful to Greg and Guy for providing the information about this curious problem.

* This is based on a well-known English translation of a line from Virgil’s Aeneid, Book 4: “Varium et mutabile semper femina”, “what a fickle and ever-changing thing is a woman”. While all of us should dispute that, there’s abundant evidence that it’s true of Claude and other AI.

刚刚,阿里ATH事业群甩出王炸「悟空」!企业级正规军下场,龙虾们这次真要炸了

By: 张子豪
17 March 2026 at 12:43

昨晚,阿里巴巴突然宣布成立 Alibaba Token Hub(ATH)事业群,CEO 吴泳铭直接负责,这可能是阿里在 AI 时代最重要的一次组织架构调整。

Token ,AI 时代的通用货币。

吴泳铭的逻辑是:未来大量数字化工作将由「数以百亿计的 AI Agent」支撑运行,而这些 Agent 的运行,由模型产生的 Token 驱动。

创造 Token、输送 Token、应用 Token,这将是阿里新的的主线。

其中内部信中还有一个首次出现在公众视野里的名字:悟空事业部。官方对悟空事业部的定位是:「打造 B 端 AI 原生工作平台,将模型能力深度融入企业工作流。」

也就是说原来的钉钉,被提到了一个更核心的战略位置,和千问一起分别在 B 端和 C 端承载阿里 AI 的目标。

这次发布会,悟空事业部交出了成立以来的第一份作业—— AI toB 旗舰应用「悟空 WuKong」,这也是首个以企业智能体为核心的 AI 原生工作平台。

这是ATH 事业群成立第二天,阿里巴巴集团 CEO 吴泳铭也出现在今天的「悟空」发布会现场。

最近在「养龙虾」席卷社交媒体后,每个人或多或少都感受到发现 AI 真的能操控电脑、帮你干活。

然而也便随这混乱,龙虾删邮件停不下来,敏感数据被 AI 随意读取,公司 IT 部门一句「这东西不合规」,大多数企业用户就此止步。

AI Agent 走到了哪一步,能不能广泛使用,还只是个技术问题。企业组织敢不敢用,才是真正的问题

APPSO 在现场给大家快速梳理了这场发布会的要点:

  • 悟空 WuKong:全球首个以企业智能体为核心、更安全、商业可交付的 AI 原生工作平台
  • 首创 AI 原生文件系统 Real Doc:每一步操作可追溯可回退
  • 钉钉全面 CLI 化:重写底层代码,给 AI 造了一套原生操作语言,可以 CLI 原生安全地访问钉钉应用和数据
  • 十大 OPT 行业方案:一人电商、一人门店、一人知识博主……Skill 即生产力
  • AI 能力市场:企业级 Skill 生态完整体系上线,全部纳入统一的安全扫描和分级管控体系
  • AI 硬件:A1 Pro 录音卡 + Cleer H1 AI 耳机首亮相
  • 原生级企业安全架构:底层沙箱隔离与全链路审计,让企业真正敢用 AI

钉钉为 AI 打造钉钉

在理解悟空之前,先要消除一个刻板印象,它绝对不是「钉钉加了一个 AI 对话框」。这句话值得重复一遍——悟空不是钉钉加了一个 AI 功能

过去两年,我们见过太多「产品加 AI」的案例:Word 加了 Copilot,微信加了元宝,网页端加了摘要按钮。这类产品的逻辑是:原有功能不动,AI 作为辅助层叠加在上面,帮你写写文字、润色润色、总结一下。

悟空的逻辑完全不同。

悟空是一个以企业智能体为核心的 AI 原生工作平台。 它能操作我们的电脑、编辑本地文件、调用桌面应用程序、连接钉钉文档 / 审批 / 日程 / 听记等全系产品。

当你对悟空说:「帮我把上周所有客户拜访的记录整理成周报,发给张总确认一下」。

悟空不会给你写一份模板然后让你自己填,它会直接打开你电脑上的拜访记录文件夹,读取每一份记录,生成周报,保存到指定位置,然后在钉钉里发给张总发起审批。

全程,你只说了一句话。

更关键的是:手机可以远程指挥悟空唤起本地环境完成工作。不需要坐在电脑前。出门见客户的路上,发一条消息,悟空在家帮你把活干完。

这是「本地执行 + 远程可控」的 Agent 工作架构,也是悟空正在定义的新工作方式——说一句话,就能干活。

▲体验网址:https://www.dingtalk.com/wukong

悟空与 OpenClaw:解同一道题,用的是不同答卷

很多人的第一反应:这不就是「中国版 OpenClaw」吗?

表面看都在让 AI 操作电脑,但两者的关系,更接近「Linux 的开源社区」和「Red Hat 企业版」,底层技术同源兼容,但面向的战场完全不同。

OpenClaw 证明了 AI Agent 可以操控电脑这个概念,它依赖「视觉模拟」和操作系统原生命令行,让 AI 像人一样看屏幕、点鼠标。这套方案很酷,但也很脆弱,毕竟界面一更新,命令一修改,整个流程就可能崩掉。

更要命的是,OpenClaw 在本地运行时,几乎拥有与用户完全相同的系统权限。理论上,一台实习生电脑上的 OpenClaw,可以读取他不该看到的任何数据。安全机构已发现其技能市场存在数百个恶意程序,Gartner 将其企业部署评级为「不可接受的网络安全风险」。

OpenClaw 是 Agent 的「Linux 时刻」——开源、自由、极客驱动、生态繁荣,但没有企业敢直接用。

悟空要解的题不一样:兼容开源生态的全部 Skill 能力,同时从架构层面把安全内建进去,而非事后打补丁。

统一企业身份认证、专属沙箱隔离、网络代理管控、全链路审计日志——每一层安全都在回答同一个问题:让 IT 部门敢拍板,让 CEO 敢买单

这是 Enterprise Agent 和「开源 Agent 框架」的本质差距。

钉钉 CEO 无招在发布会现场表示,「今天,我们把钉钉打碎,用 AI 重建,炼出悟空。过去是人用钉钉来工作,未来是 AI 用钉钉来工作。和市面上所有的龙虾 Agent 不一样,悟空天然就长在企业组织中,可以在真实的企业环境中安全使用。

CLI 化:给 AI 造一套原生操作语言

要理解悟空为什么「真的能干活」,关键是它有一套让 AI 能「听懂」软件的语言。

过去,几乎所有的 AI Agent 都在试图模拟人类的键鼠操作。这就像是蒙着眼睛,靠别人在旁边喊「往左一点,点击」来用电脑,不仅极度低效,而且极其容易出错。

为了让悟空真正能「干活」,钉钉做了一个相当疯狂的决定:所有底层代码重写了一遍

他们将整个钉钉的既有能力体系全面 CLI 化(Command-line Interface,命令行界面),所谓 CLI 化,就是把钉钉从一个「给人用的图形界面」,变成一个「给 AI 用的命令行接口」。

AI 不再需要「看懂」按钮在哪里,而是直接通过标准化指令调用能力,这相当于给 AI 装上了神经末梢

其中,包括文档、日程、审批、会议甚至 AI 表格,所有的钉钉产品,全部重写为标准的 CLI 指令。

这意味着,悟空不再需要像人类一样去「点击」按钮,而是通过原生指令,直接调用钉钉的一切能力和数据。

不仅是钉钉应用,阿里集团旗下的淘宝、天猫、支付宝、阿里云等核心业务能力,也将逐步作为 Skill 接入悟空。悟空,正在成为整个阿里巴巴 AI 能力在企业工作场景的统一出口。

当用户说「帮我整理下周的客户拜访记录并生成周报」,悟空不是「看懂」这句话,而是直接触发一系列 CLI 指令:调取日程 API → 抓取 CRM 数据 → 运行听记解析 → 写入文档 → 发起审批流。全程没有模拟点击,没有视觉识别,只有机器对机器的精准调用。

这个逻辑,在行业报告「未来属于智能体:万亿 AI 正在重新定义软件」里有一段话说得非常准确:

你构建的一切都必须是 API 优先的。如果一个功能没有 API,它就相当于不存在。如果不能通过 CLI 或 MCP 服务器暴露,你就是处于劣势。

换言之:在 AI 智能体成为软件「主要用户」的时代,不能被 AI 原生调用的软件,等于不存在

▲图片来源:X@karpathy

钉钉理解了这个逻辑,所以选择了极其昂贵的方式——重写服务全球 8 亿用户、2700 万家企业的产品底层。钉钉全面 CLI 化之后,Agent 才能从「能聊天」变成「能干活」。

Realdoc,AI 终于有了原生的文件操作语言

但 CLI 化只解决了「AI 能不能调用钉钉」的问题。还有一个更底层、常被忽视的问题——AI 怎么操作文件

目前市面上几乎没有 AI Agent 产品专门为 AI 设计过文件系统。所有人都在用传统文件系统凑合,结果是什么?

AI 要改一份文档里的一个词,必须先把整篇文档读进内存,改完再整篇写回去。就像改一本书里的一个错别字,却要把整本书重新抄一遍——荒诞,但这就是现实。

这带来三个连锁问题。

第一是 Token 爆炸,每次操作都吞进整篇文档,成本直线飙升,有用户实测用 AI 制作一个 PPT,消耗了 2.7 亿 Token,约合 500 美元。

第二是无法回退,AI 覆盖写入即生效,改坏了没有存档可以回溯,只能从头再来;

最后是文件失控,Agent 随机创建文件,企业根本不知道 AI 在哪里生成了什么,散落的结果是既找不到,也管不住。

悟空为此专门从零搭建了一套 AI 原生文件系统 Realdoc,这是行业首次,有人专门为 AI 重新设计一套文件操作语言

在 Real Doc 里,悟空可以像外科医生一样,按行号、按关键词定位,只动需要动的地方,其他内容一字不碰。Token 消耗大幅压缩,不再因为改一个词而把整篇文档走一遍。

更关键的是版本管理。AI 每执行一步操作,Realdoc 自动保存完整快照——就像游戏里的自动存档点,每一步操作都有记录,可随时退回任意版本,还能自动对比两个快照之间的 Diff,精确到每一行的变动。

还有文件归宿的问题。Realdoc 为每个 AI Agent 分配独立的云端工作空间,AI 产出的每一份文件都有「户口」——存在哪里、谁创建的、哪个 Agent 在什么时候改过,企业管理者一目了然。

到这里,悟空做出了大多数企业级产品还没意识到的改变:不再让 AI 套用到现有工具中,要为 AI 重新造一套工具

悟空首发 十个 OPT Skills 套件,钉钉原生协同

如果说 CLI 化解决了「AI 如何干活」,那么接下来的问题是:AI 该干哪些活,谁来告诉它怎么干

答案是:Skill。

Skill 是悟空的最小生产力单元——一个封装了行业专家 SOP、可直接调用的能力模块。我们不需要懂 AI,不需要写 Prompt,一键启用,AI 团队立刻就位。

这不是一个新概念,但悟空把它推向了一个全新的量级。

悟空首批推出十大行业 OPT(One Person Team,一人团队)技能套件,覆盖一人电商、跨境电商、知识类博主、开发、门店、设计、制造、法律、财税、猎头十大场景。每个行业包预置了若干串联 Skill,把过去需要团队协作才能完成的工作流,压缩成一个人可以独立驾驭的操作序列。

以跨境电商为例。过去,一个店主每天要在亚马逊上找爆款,去 1688 上比价,跟供应商确认库存,再想破头优化商品描述,一个人能管三个品就是极限。

现在接入悟空 OPT 方案后,「选品雷达」每天定时抓取亚马逊热榜数据写入 AI 表格;发现爆款后,「AI 找同款」瞬间完成国内供应链匹配;直接确认样品、生成产品描述、输出视频脚本,都有行业级的 Skills 辅助。从发现需求到供应链跟进,一个人用一个下午,干完了一个小团队一周的活。

「一人门店」的场景更让人感慨。街边的汽修店、美甲店老板,白天忙服务,晚上还要强打精神刷小红书学竞品写文案。现在,同样是多个 Skill 串联,AI 自动监控同行爆款,提炼出可复用的创作模板,自动生成原生网感文案并发布,甚至能 7×24 小时智能回复客户私信。

「当一个店主用 AI 运营账号的质量,比竞争对手请的代运营公司还好时——这件事就不只是效率提升了。这是小微门店生存逻辑的重写。」

这正是 Skill 即生产力的核心逻辑:把行业专家的隐性经验,变成人人可调用的标准化能力。Skill 不只是提高效率,它在重新分配能力——让不具备专业背景的人,也能获得专业级的产出。

这个逻辑的更大野心,体现在钉钉同步上线的 AI 能力市场

Anthropic 推出 Claude Skills 开放标准后,微软、OpenAI、Cursor 等巨头迅速跟进。行业共识正在形成:下一阶段的竞争,不是「谁的模型更强」,而是「谁的 Skill 生态更完整」

钉钉 AI 能力市场覆盖 Skill、Agent、Service 完整体系,从开发、审核、上架、分发到管理,全链路打通。

企业可以把资深员工的方法论固化成私有 Skill,彻底摆脱人才流失的阵痛;开源社区里数千个现成的能力,也能在企业级安全架构下被随时调用。

这是悟空最有想象力的部分,它在搭建 AI 时代的生产力基础设施——Skill 是这套基础设施里流通的「货币」,谁掌握更多高质量的 Skill,谁就掌握了 AI 时代更大的生产力。

AI 新硬件

除了软件,在这场发布会上,钉钉还发布了多款 AI 硬件。

DingTalk A1 Pro:录音卡形态,专为会议和工作场景设计,支持多麦克风阵列拾音,AI 实时转录、翻译、摘要,把「开完会还要整理纪要」的低效循环彻底斩断。

Cleer H1 AI 耳机:钉钉与 Cleer 联名推出,首款与悟空深度联动的 AI 耳机。戴上耳机,语音即可直接与悟空对话下达指令,无需打开屏幕,从而实现真正的「所想即所达」。

更值得关注的是 Real AI 硬件(Realbox):搭载 1 台 PC 环境 + 5 台手机环境,支持多人共用、多并发任务处理。企业部署一台 Realbox,可以同时为多个员工运行多个悟空实例;部署多台 Realbox,可构建 AI 计算机集群,任务并行处理,弹性扩展。

不难看出,钉钉这些 AI 硬件并不是独立存在市面上的同类产品抢夺市场,核心都是为了更好地打通 AI 工作流,成为软硬一体的 AI 原生工作平台。

OpenClaw 跑在一台电脑上,做一台电脑能做的事;悟空搭载 Realbox 集群,正式宣告:AI 算力,可以像水电一样,以基础设施的形式在企业内部流通了

AI 时代的组织生产力

在观看这场发布会时, 我想起前段时间 Sam Altman 在采访中提到的观点:「历史上第一家由一个人独立运营的十亿美元公司,即将出现。」

彼时龙虾还没火爆,一人团队(OPT)的概念也只是在 AI 圈子里。他没有解释这个人会用什么工具,会在哪里,会干哪个行业。但看完这场发布会,这句话变得具体了一些。

这个人,大概率会有一套像悟空这样的东西在身边。过去十一年,钉钉一直在让人学会用工具。悟空想做的,是逐渐让工具真正学会理解人。

当工具开始理解人,一件以前不可能的事情正在变得可能:组织生产力,第一次可以真正被数字化封装、分发和扩展。当 Skill 把行业专家的经验变成人人可调用的能力货币,当 AI 原生平台成为个体接入组织能力的操作系统,一个人或组织能做的事情的边界,将被彻底重新定义。

Sam Altman 看到的是「一人公司」这个终点,悟空要做的,是让更多普通人有机会走到那条路上。它不是专门为天才准备的工具,而是为所有「想做更多但苦于一个人精力有限」的人,提供一套 AI 时代的组织生产力基础设施。

AI 原生工作平台,正在成为这个时代最关键的组织变量。 谁先跑通它,谁就先拿到了超级个体时代的入场券。

之前有一个观点,燃烧 Token 的速度,决定了人的进化速度。而悟空的 1.0 版本,指向的就是人和组织进化的下一个版本。

文|李超凡

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,英伟达龙虾登场!黄仁勋暴论频出,「人车家天地芯」冲击万亿收入

By: 莫崇宇
17 March 2026 at 06:42

今年英伟达 GTC 主题演讲,应该是史上悬念最少的一届。

2022 年说元宇宙,2023-2024 年说生成式 AI,2025 年说物理 AI。但今年不一样,即便台上英伟达创始人黄仁勋的演讲还没有开始,但台下所有人已经知道答案了——Agent。

包括英伟达也悄悄在 GTC 园区里开设了「Build-a-Claw」互动专区,让与会者现场搭建自己的AI Agent。 从芯片到模型,从英伟达版龙虾到数据中心,今年主题演讲的潜台词只有一句话:

一切都要为 Agent 让路。

专为 Agentic AI 打造的 Vera Rubin 正式发布

如果说 Hopper 架构开启了生成式 AI(Generative AI)的时代,让机器学会了「说话」;那么 Vera Rubin 的使命,就是开启智能体(Agentic AI)时代,让机器学会「干活」。

  • 英伟达 Vera Rubin 架构包含七款芯片、五套机架系统,以及一台用于 AI Agent 的超级计算机
  • 七款芯片分别是 NVIDIA Vera CPU、NVIDIA Rubin GPU、NVIDIA NVLink™ 6 交换机、NVIDIA ConnectX-9 超级网卡、NVIDIA BlueField-4 DPU 和 NVIDIA Spectrum™-6 以太网交换机,以及新集成的 NVIDIA Groq 3 LPU
  • 五个机架分别是 NVIDIA Vera Rubin NVL72 机架、NVIDIA Vera CPU 机架、NVIDIA Groq 3 LPX 机架、NVIDIA BlueField-4 STX 存储机架,以及 NVIDIA Spectrum-6 SPX 以太网机架。

过去的 AI 像是一个极其聪明的图书馆管理员,我们问一个问题,它慢条斯理地翻书,然后把答案整理出来。我们对这种速度是宽容的,因为我们自己打字看书也慢。

但 Agent 完全不同。它不仅要用大模型思考,还要疯狂地调用工具——比如打开浏览器、控制云端的虚拟 PC、在无数个数据库里来回比对。更要命的是,AI 对工具的容忍度极低,它要求一切操作都在毫秒级完成。

「它会狠狠地捶打内存。」黄仁勋在台上这样形容。

当模型越来越大,上下文长度从十万 Token 飙升到数百万,还要同时处理结构化和非结构化的数据,传统的算力架构开始喘不过气了。为了应对这种「捶打」,英伟达交出了第一份答卷,全新的 Vera CPU。

这颗芯片特立独行,它是世界上首款专为智能体 AI 和强化学习时代打造的处理器,其效率是传统机架式 CPU 的两倍,速度提升 50%,采用 LPDDR5X 内存,能实现极高的单线程性能、大型的数据吞吐量和极致的能效。

黄仁勋甚至毫不掩饰他的骄傲:「我们从没想过会单独卖 CPU,但现在,这绝对是一个价值数十亿美元的业务。」

紧随其后的是 Rubin GPU,单片芯片直接塞进了高达 288 GB 的海量内存。它就像是一个拥有无限脑容量的思考者,专门用来装载那些体积越来越庞大的超大语言模型,以及处理成百上千万的上下文 KV 缓存。

除了堆叠 CPU 和 GPU,英伟达这次发布的 Vera Rubin 架构,直接把 NVLink 的带宽翻了一倍——260 TB/s 的全互联带宽。

十年前,DGX-1 用第一代 NVLink 把 8 张卡连在一起,那是专为 AI 研究员打造的奇迹;到了 Hopper 时代,是 NVLink 4;而前不久的 Blackwell 架构,用 NVLink 72 实现了 72 张 GPU 的全互联,带宽达到 130 TB/s。

为了配合 Vera Rubin,黄仁勋甚至掏出了被称为 Kyber 的全新机架。在这个机架里,计算节点垂直插入,背后是第六代 NVLink 交换机。完全抛弃了传统的以太网或 InfiniBand 限制,在一个 NVLink 域内直接打通 144 张 GPU。

即便强如 Vera Rubin,在面对「无限生成 Token」的极端需求时,也会感到吃力。

在算力世界里,吞吐量(Throughput,同时处理巨量任务的能力)和延迟(Latency,单次任务的极速响应)是一对物理学上的死敌。英伟达是吞吐量的绝对霸主,但在极致低延迟的 Token 生成上,传统 GPU 架构显得过于笨重。

这时候,Groq 出场了。英伟达早在之前就「收购」并授权了 Groq 团队的技术,在今天正式推出了 Groq LPU(语言处理单元)。

黄仁勋用一款名为 Dynamo 的软件,把这两者完美捏合,首创了「解耦推理(Disaggregated Inference)」。

  • AI 推理前半段的 Prefill(预填充)和极其耗费算力的 Attention(注意力机制),全部交给 Vera Rubin 这个性能王者来处理;
  • 后半段的 Decode(解码),也就是生成 Token 的瞬间,直接卸载给 Groq LPU 来降低延迟。

结果显示,在最具商业价值的高端推理层级,这种组合让性能直接飙涨了 35 倍,且每兆瓦的吞吐量同样提升了 35 倍。

一个开源项目,让所有 CEO 都睡不着觉

主题演讲的后半部分,黄仁勋抛出了一个让全场屏息的判断:OpenClaw,将是这个时代的 Linux,是这个时代的 HTML。

OpenClaw 上线仅数周,下载量和影响力已经超过了 Linux 三十年的积累,其本质上是一套智能体操作系统。它能调用大模型、管理文件、拆解任务、协调子智能体,还能发邮件、发短信,以任何模态与人沟通。

在黄仁勋看来,每一家 SaaS 公司,迟早都会变成 AgaaS 公司,也就是「Agent-as-a-Service(智能体即服务)」公司。而每一位 CEO 现在都必须回答同一个问题:你的 OpenClaw 战略是什么?

当然,开源意味着自由,但企业更需要的是安全。这也是 OpenClaw 规模化落地前最大的障碍。

为此,英伟达联合以 OpenClaw 创始人 Peter Steinberger 为代表的团队,召集了一批顶级安全与计算专家,推出 NeMoClaw 参考架构。

它内置 OpenShell 技术、网络防护机制和隐私路由能力,可以让企业可以在自己的私有环境中安全运行智能体系统。

而支撑这套智能体生态的,是英伟达一整条开源模型产品线。

比如 Nemotron 主攻语言推理,Cosmos 聚焦世界建模,Groot 面向通用机器人,Alpha Mayo 服务自动驾驶,BioNeMo 深耕数字生物学,Earth-2 则专注 AI 物理仿真。

黄仁勋特别强调,这些模型不只是排行榜上的名字。英伟达会持续投入推进,Nemotron 3 之后有 Nemotron 4,Cosmos 1 之后有 Cosmos 2,每一代都会更强。

更重要的是,这些模型全部以基础模型形式开放,任何企业都可以在此基础上继续微调和后训练,打造专属于自己业务场景的定制化智能。英伟达还宣布将与各地区合作伙伴协作,帮助不同国家和市场孵化本土化 AI 能力。

在台上,黄仁勋还宣布了一份让人眼前一亮的合作名单。Black Forest Labs、Cursor、LangChain、Mistral、Perplexity、Sarvam,以及 Mira Murati 创立的 Thinking Machines,悉数加入,共同推进 Nemotron 4 的研发。

划重点,英伟达不甘心只做卖铲人,更要亲自下场带头挖金矿,更重要的是,英伟达也是在构建一个生态,一个围绕智能体时代的完整体系。

玩家的显卡钱,是一场长达 25 年的「众筹」

要理解英伟达今天的恐怖统治力,黄仁勋首先把时钟拨回了 25 年前。

那时候没有 ChatGPT,没有大模型,只有一群为了让游戏画面更流畅而疯狂攒机的年轻人。「GeForce 是英伟达有史以来最伟大的营销活动」,黄仁勋在台上笑着说。

黄仁勋非常直白地承认,GeForce 就是用来吸引未来客户的。他们在我们还买不起企业级产品的时候,通过游戏显卡潜伏进我们的电脑。日复一日,年复一年。

也正是依靠一代代游戏玩家的「供养」,英伟达在 20 年前做出了一个当时看来堪称疯狂、甚至差点拖垮公司利润的决定——研发 CUDA,并将它送到了全世界每一个开发者的桌面上。

这可以说是一个在黑暗中蛰伏的故事。连续 13 代架构,长达 20 年的死磕,英伟达彻底把 CUDA 变成了一个装机量过亿的庞然大物。

这也解释了为什么当深度学习的「宇宙大爆炸」来临时,Alex Krizhevsky 和 Ilya Sutskever 们环顾四周,发现除了英伟达的 GPU,他们别无他选。

Nvidia 不是碰巧站在了风口上,而是花了 20 年时间,自己造了一台造风机。

飞轮一旦转动,就再也停不下来了。因为在这个飞轮里,硬件只是载体,真正黏住开发者的是那成千上万个工具、框架和开源项目。

既然当年是 GeForce 游戏显卡把 AI 算力(CUDA)带给了这个世界,那么十年后的今天,是时候让彻底长大的 AI,反哺它最初的「老家」了。

黄仁勋在台上甩出了惊艳全场的 DLSS 5。简单来说,英伟达正在用 AI 重新发明计算机图形学。传统的 3D 渲染是「结构化数据」,它是死板的、百分百可控的;而生成式 AI 是「概率性计算」,它是天马行空、极其逼真的。

以前这两派路线完全不同,但在 DLSS 5 里,英伟达硬是把它们揉在了一起,用可控的 3D 数据打底,用生成式 AI 去脑补和渲染细节。我们看到的画面,既不会出现 AI 经常犯的幻觉错位,又拥有近乎现实的惊人质感。

「生成出来的世界,变得极其美丽,同时又完全受控。」

但这也不只是一帮极客为了高帧率打游戏搞出来的炫技。黄仁勋说,这种将「结构化数据」与「生成式 AI」融合的逻辑,将会在每一个行业里一遍遍重演。

「这是我最喜欢的一页 PPT」

在演讲的高潮,黄仁勋放出了一张极其复杂的架构图,说这是他最喜欢的一页 PPT。接着,他又半开玩笑地说,团队屡次劝他别放这张图,但他偏要放,「反正你们有些人也是免费进来的,这就是门票钱」。

这张「最不听劝的 PPT」,真正揭示了英伟达接下来要吞噬的真正猎物,全球企业的数据中心。

过去,企业的数据分为两类。

一类是结构化数据,也就是常见的数据库 SQL、Pandas 里的那些庞大表格,它们是商业运转的地基。另一类是非结构化数据,比如海量的 PDF、视频、语音,占据了世界 90% 的信息,却因为难以检索而如同废纸。

过去几十年来,处理这些巨型 Excel 表格一直是 CPU 的绝对领地。当人类去查询这些表格时,CPU 的速度勉强够用。但黄仁勋一针见血地指出了未来的趋势,「未来,使用这些结构化数据库的,将是 AI Agents」。

当成千上万个不知疲倦的 AI Agent,以远超人类百万倍的速度同时向数据库发起查询时,传统的 CPU 计算系统连喘息的机会都没有,只会被瞬间压垮。

为了处理这个问题,英伟达掏出了第一把底层杀器:cuDF。它直接越过 CPU,用 GPU 的恐怖并行算力,把这群数据的处理速度拉爆。

而针对非结构化数据,英伟达掏出了第二把杀器,针对向量数据库和非结构化数据的 cuVS。有了这两个底层库,英伟达实际上是捏住了全球数据处理的咽喉,它正在用 AI 的方式,重新定义企业到底该怎么处理数据。

两个工具库的效果也是相当明显。黄仁勋举了非常多合作伙伴的例子,其中提到雀巢公司每天要处理覆盖 185 个国家的庞大供应链数据,在换上英伟达加速的 IBM Watsonx.data 后,速度飙升了 5 倍,成本却骤降了 83%。

这就是「加速计算」的恐怖之处。当速度实现了几个数量级的跃升,成本就会呈断崖式下跌,新的商业模式就会在此刻涌现。

黄仁勋的演讲进行到这里,满嘴都还是「算法」、「库(Libraries)」和「数据帧」,他直言「英伟达是一家算法公司。」

英伟达将自己的算法库深度嵌入每一家云端,客户为了用 Nvidia 的算力和框架,才会去购买云服务。这也是为什么几乎世界上所有的云服务巨头——Google Cloud、AWS、微软 Azure、Oracle,都得排着队,把英伟达的服务请进自己的机房。

曾经呼风唤雨的云厂商,在加速计算时代,似乎都正悄然沦为英伟达庞大生态的「底层基础设施」和「分销渠道」。

英伟达为什么能做到这一切?黄仁勋给出了一个极度反常识的定义,英伟达是世界上第一家「垂直整合,却又水平开放」的公司。

向下,它自己造芯片、造系统;向上,它懂每一个行业的应用场景。

金融界的量化交易员在用它,医疗行业的医药研发在用它,连电信行业那个只会发射信号的基站,在未来也会变成运行 AI 算法的边缘计算节点。

英伟达甚至还推出了机密计算(Confidential Computing),让极其敏感的企业数据和模型可以在完全隔离的环境下运行,连操作员都看不到。这直接打消了巨头们拥抱 AI 的最后一点顾虑。

它把自己封装成一个个底层算法库,然后像水和电一样,悄无声息地接入了所有人的基础设施;看似把所有的利润都分给了生态伙伴,但实际上,英伟达已经牢牢掌握了整个 AI 时代的命脉。

1 万亿美元,而且还会供不应求

根据黄仁勋的判断,到 2027 年,全球 AI 基础设施规模至少达到 1 万亿美元,而且这还是保守估计,实际计算需求会远超这个数字。

这个数字从何而来?答案藏在过去一年英伟达做的那件最重要的事里——AI 推理。

黄仁勋直言,很多人觉得推理很容易,但事实恰恰相反。

高难度推理是 AI 领域最难的事,也是最重要的事,因为它直接带来收入的增长。为此,英伟达在 Hopper 架构巅峰期做出大胆决定,彻底改变架构,打造出 NVLink 72,引入 NVFP4 精度格式,配合 Dynamo、TensorRT-LLM 及全套新算法,还专门建造了超级计算机来优化整套技术栈。

英伟达押注的结果,远超所有人的预期。

黄仁勋曾宣称 Grace Blackwell NVLink 72 每瓦性能提升 35 倍,当时没人相信他。后来 SemiAnalysis 发布评测报告,分析师 Dylan Patel 说黄仁勋说得太保守了,实际提升是 50 倍。

▲黄仁勋打趣道「Monkey King」「Token King」。

按摩尔定律,一代产品通常只能带来约 1.5 倍提升,没人预料到这次会是 50 倍。

性能提升之后,摆在面前的是另一个问题。一座 1 吉瓦数据中心,按 15 年摊销,建造成本就高达 400 亿美元,设备还没放进去。在这样的投入规模下,放进工厂里的计算系统必须是全球最好的,否则每一瓦浪费的电力都是真实流失的收入。

黄仁勋坦言,全球 AI 工厂里正有大量电力被白白浪费。

为此,英伟达发布了 NVIDIA DSX 平台,基于 Omniverse 数字孪生技术,让工程师在真正动工之前,先在虚拟空间里把整座 AI 工厂仿真一遍,从散热到电网,全部模拟清楚。

配合 Max-Q 技术,系统可以在功耗与算力之间实时动态调节。

黄仁勋说,这里面至少还藏着两倍的优化空间。同一套硬件,英伟达更新算法与软件后,Fireworks 等服务商的 token 生成速度从每秒 700 个跃升至接近 5000 个,提升 7 倍。这就是「极致协同设计」的真实含义。

过去数据中心存放文件,现在它生产 token。土地、电力、机房空间决定了工厂上限,而架构优劣决定了产出多少。黄仁勋说,未来每一家公司都会认真思考自己 token 工厂的效率问题,因为算力,就是收入本身。

更重要的是,地球上的 AI 工厂还没建完,英伟达已经把目光投向了太空。

英伟达 Thor 芯片已通过抗辐射认证,率先应用于卫星之上。英伟达正与合作伙伴联合研发名为 NVIDIA Space-1 Vera Rubin 的新型计算机,目标是直接在太空中建设数据中心。

太空没有空气,无法对流散热,散热是一道极其棘手的工程难题。黄仁勋坦承这件事非常复杂,但他相信英伟达有足够优秀的工程师来攻克它。从地面到轨道,英伟达算力扩张的路线,仍在持续。

自动驾驶的 ChatGPT 时刻,已经到来

物理 AI 是未来十年最重要的课题,而黄仁勋用一句话宣告,自动驾驶的 ChatGPT 时刻,已经到来。

英伟达 RoboTaxi Ready 平台此次新增四位重量级伙伴:比亚迪、吉利、五十铃、日产,携手打造 L4 级自动驾驶汽车。

这四家车企每年合计生产约 1800 万辆汽车,体量惊人。加上此前已加入的梅赛德斯、丰田和通用,英伟达的自动驾驶版图已覆盖全球最重要的一批整车制造商。

英伟达还与 Uber 签署合作协议,计划将具备 RoboTaxi Ready(无人出租车就绪)能力的车辆部署至多个城市,并直接接入 Uber 的全球出行网络。

在工业机器人领域,英伟达与 ABB、Universal Robots、库卡等头部企业展开合作,将物理 AI 模型集成至仿真系统,推动机器人大规模进入制造产线。卡特彼勒的加入,意味着重型工程机械也开始走向智能化。

主题演讲的最后,依旧是经典的机器人环节。

近期,《冰雪奇缘》的雪宝机器人已经现身迪士尼海外游乐园,而这一次,它也迈着憨态可掬的步伐登上 GTC 2026 的舞台,和黄仁勋有来有往地对话,动作自然,反应流畅。

它的肚子里装着英伟达 Jetson 计算机,这是整套系统的大脑。它的步态和动作,全部在 Omniverse 虚拟环境中完成训练,靠的是由英伟达、迪士尼和 Google DeepMind 三方联合研发的 Newton 物理引擎,运行于英伟达 Warp 之上。

正是这套物理仿真系统,让雪宝在进入真实世界之前,就已经充分适应了现实物理规律。黄仁勋说,未来的迪士尼乐园所有角色都将拥有真正的智能,在园区里自由走动,与每一位游客展开真实的互动。

演讲开始的时候,黄仁勋说,我要提醒你们,这是一个技术大会。我们将要谈论技术,谈论平台,最重要的是,我们要谈论生态系统。

生态系统?他实在太谦虚了,用生态帝国也不为过,黄仁勋曾经用一块五层蛋糕来描述 AI 产业的结构:最底层是能源和芯片,往上是基础设施、模型,最顶层是应用。

每一层都不可或缺。这个比喻听起来像是在描述一个分工清晰、各司其职的产业格局。但当你把这块蛋糕从底看到顶,会发现每一层里都有英伟达的手笔。

从最早「潜伏」在玩家机箱里的显卡,到主宰全球云厂商的底层框架;从太空里的抗辐射数据中心,到迪士尼乐园里和我们谈笑风生的机器玩偶。

英伟达用 20 年时间造了一台造风机,如今这台机器已经化身为一台永不停歇的 Token 生产厂。在这个工厂里,算力即权力,生态即壁垒。

当所有的企业、用户都在为如何落地 AI 焦虑时,黄仁勋已经悄悄把通往 Agent 时代的门票,塞进了世界上每一台服务器的咽喉。

这场关于未来 AI 的赌局,英伟达不仅既做庄家又做玩家,它甚至要把牌桌都买下来了。

作者:张子豪、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

什么是交流

By: dimlau
16 March 2026 at 12:18

2016 年我提出 90 后不买房不买车不结婚,把所有时间用于自我提升与科技创新,2026 年我提出,能和 AI 聊天就不要和人类聊天,删除所有 90 后之前出生人的联系方式,千万不要沾染任何老登气息,时间宝贵!全力拥抱未来!
@justinsuntron

我也频繁地和语言模型对话,当作信息补遗、工具包整理、以及自我反省。但是提起交流,如果认可交流是思想的碰撞,那应该就能理解,我始终会选择人类来交流。只和语言模型聊天,是事实上的拥抱过去,而不是拥抱未来。拒绝接受甚至删除包含着扎实重量感的生命体验,消除摩擦避免碰撞,也正是交流的反面。

fin.

❌
❌