Judge Blocks Trump’s Order to End Funding for NPR and PBS

© Jason Andrew for The New York Times

© Jason Andrew for The New York Times


© Rachel Wisniewski for The New York Times

© The New York Times

© Patrick T. Fallon/Agence France-Presse — Getty Images

© Eric Lee for The New York Times



© Tierney L. Cross/The New York Times







打开手机的订阅管理页面,我数了一下:过去十二个月里,我为各种 AI 应用付过费的数量是七个。目前还在续费的,两个。真正每天都在用的,一个。
难道只有我一个人买了不用吗?肯定不是。最近应用内订阅数据平台 RevenueCat 发布了一份基于 11.5 万款应用、160 亿美元收入的年度报告(《State of Subscription Apps 2026》),里面的数据很明显:不止我一个,所以 AI 应用的生意,不好做。
![]()
回想每一次订阅 AI 应用的瞬间,我脑子里浮现的都是同一个画面:一段惊艳丝滑的 demo。
比如生图 App 的展示,无论什么照片,它都能一键改换背景、画风、滤镜,堪称全自动化 Photoshop。我试了一下免费版,确实很不错,然后就弹出了订阅的页面。
又比如说智能转写,举起手机说一段话,几秒钟后出来的版本,就是整理过的干净明晰的文字版,但同时跳出来的,还有免费试用的上限。
![]()
至于积分制的工具,更加是要掰着手指头用,到最后只能是,买吧买吧,买。
![]()
不买能咋办,试用的体验也太好了。RevenueCat 的数据证实,AI 应用的试用转付费率比非 AI 应用高 52%。AI 产品天生就更容易让你掏钱, 它的演示效果太即时了:你给它一个输入,它立刻给你一个看起来很厉害的输出。
这种「即时验证」是传统工具型 App 做不到的,你不可能试用一个笔记 App 或者记账工具三十秒,就觉得它改变了你的生活,但 AI 可以。
这也是为什么图像类的应用,现在普遍被 AI 加持,管你用得多不多,AI 对图像调改后带来的效果,是最立等可见的。
而我们愿意为这种「哇噻」时刻掏钱,所以 AI 应用的用户在第一个月的实际终身价值(RLTV)中位数是 18.92 美元,非 AI 应用只有 13.59 美元——高出 39%。
这并不是说我们被骗了,AI 的 demo 效应就是这么强,55% 的 3 天试用期取消发生在第 0 天。用户争夺战的成败取决于第一次使用体验,这迫使开发者必须尽快创造这种「哇噻」的时刻。
但是,没人喜欢三天试用这么短的窗口期,数据也显示,17 天以上的试用期转化率比短试用期高出 70%。尽管如此,应用程序仍在不断缩短试用期 。目前近一半的应用程序使用 4 天或更短的试用期。
快速惊艳,快速决策,这不失为一种策略,毕竟试用的越久,越容易让你发现「真相」。
真相是,「被说服」和「真的需要」之间,隔着的距离比想象要大。
作为日常跟文字打交道的人,我发现自己对视频剪辑没那么大的需求,我只在第一周用了两次,第二周用了一次,第三周想起来又用了一次。别说我并没有那么多 vlog 要剪要拍,就是平时掏出手机来,都想不起来要拍视频。
![]()
至于有 AI 加持的日程管理工具——嗯,它确实能智能安排事务,但是前提是我能记住打开它,往里填东西,但我根本记不住……
「不够用」不是因为产品不好,而是因为我当初订阅时想象的使用场景,和我真实的生活之间,始终有距离。这个距离在 demo 的三十秒里是看不到的,只有在付完钱之后的第二个月、第三个月才会慢慢浮现。
RevenueCat 的报告数据精准地描绘了这条下滑曲线。AI 应用的月度 12 个月留存率只有 6.1%,非 AI 应用是 9.5%。
看起来差距只有 3.4 个百分点,但如果换一个说法:在订阅满一年时,每 10 个 AI 应用的月订阅用户里,只有不到 1 个还在付费。
这条曲线的陡峭程度,和开头那个惊艳的转化率形成了一个几乎讽刺的对比:进来得有多快,走得就有多快。
来多几次之后,我就学乖了:能月付的,绝不年付。
年付的逻辑我太熟了:月付每月 12 美元,年付一次性付 79 美元,相当于每月只要 6.5 美元,省了将近一半。如果是在沉浸在体验完 demo 的兴奋感里,那就更上头了——当然选年付啊,少一半是多大的便宜。
但 AI 应用的年度留存率数据很现实:21.1%。将近五分之四的年付用户,在续费节点来临之前就已经不用了。非 AI 应用的这个数字是 30.7%——也不高,但至少比 AI 应用好了将近十个百分点。
更具说服力的数字是取消速度:AI 应用的年订阅取消速度比非 AI 应用快 30%。
如果你是我,你也会在某一天早上收到 App Store 的续费提醒,然后想:「等一下,我还有这个玩意儿呢?」然后你打开手机搜索,发现那个 App 的图标已经都被移出主屏幕了,收在某个文件夹里。
好嘛,这个续费通知倒是提醒我了:反手就是一个取消。
有趣的是,AI 应用的订阅结构本身就透露了这种不确定性。AI 应用中 59.8%的订阅选择了月付方案,而非 AI 应用只有 26.2%。也许不是所有人都像我一样冲动地选了年付,大多数人其实在用脚投票:我对这个东西能用多久?不知道,自己也心里没底,所以先月付看看。
原来我不是一个人,而且比我更斤斤计较的人有的是。RevenueCat 的数据显示,AI 应用的退款率中位数是 4.2%,非 AI 应用是 3.5%。而且 AI 应用的退款率上限达到了 15.6%(非 AI 是 12.5%)。
报告原文的措辞很值得注意:这意味着「已实现收入中存在更大的波动性,以及用户价值、体验和长期质量上更深层的问题」。
不久前 flowith 就出现过用户集体声讨要求退款和补偿的情况。相比于取消订阅,退款更能表示一种激烈姿态。
![]()
这不是「试了一下觉得不适合我」的轻描淡写,是用户付完钱之后真的觉得不值,是「我要把钱要回来」的程度。
要知道,退款其实是一个心理门槛很高的行为。大多数人(比如我)面对一笔几十块钱的订阅,本能反应是算了算了,就当少喝几杯奶茶了。
能驱动一个人去翻 ToS、找退款入口、写退款理由的,是一种混合了失望和恼怒的情绪:我不仅不用这个东西了,而且我后悔花过这个钱。
诚实的说,这显然不是 AI 产品的失败,而是我和 AI 工具之间正在进行的一场「关系磨合」,就是比较周折。
回看这一年的订阅记录,我发现一个规律:我留下来的那一个 App,不是 demo 最酷的那个,也不是功能最多的那个,而是真正嵌入了我某个具体工作流的那个。它做的事情很杂,但它确实每天都在帮我省十分钟。
而那些被我退订的,有一个共同特征:它们试图说服我,我需要一种我其实并不需要的新能力。
这就是 AI 订阅的核心悖论:AI 的演示效果越惊艳,越容易让我们为「可能性」付费,而不是为「真实需求」付费。那个「哇,它居然能做到这个」的瞬间,和「我每天真的需要它做这个」之间,差着整整一个使用习惯的距离。
RevenueCat 的报告覆盖了 11.5 万款 App、超过十亿笔交易。在这个巨大的样本里,AI 应用反复上演着同一个故事:漂亮地把用户吸引进来,然后留不住。52%的试用转化优势,换来的是 30%更快的取消速度和 21.1%的年留存。
同时,用户每个月花钱的席位,可能就是在反复变化的。模型的能力在不断变化,随时会吞吃掉一些应用瞄准的某些小而精场景,也可能挤掉竞对。从 ChatGPT 到 Gemini 到 Claude,光是通用型 AI 我就换过三次,御三家谁的模型大进步了,钱就去哪里,但我肯定是不需要同时订阅两个同类型产品的。
不过,我注意到另一个数字:目前,所有订阅类应用中有 27.1%是 AI 应用,一年前这个比例更低。这意味着越来越多的产品正在加入这个赛道,也意味着我们作为用户,可能会在很长一段时间里继续重复这个循环——被说服、订阅、冷却、退出、再被下一个 AI 应用击中,反反复复。
也许总有一天,每个人都会像我一样,在手机里稳定地留下一两个真正有用的 AI 工具,然后对剩下的那些「可能性」免疫。而在此之前,我们还会继续为那三十秒的 demo 买单。
下次再有一个 AI App 弹出年付页面的时候,我会试着问自己一个问题:我是在为它每天能帮我做的事付费,还是在为刚才那三十秒的惊艳付费?
如果答案是后者——选月付吧,可能多付个几块钱,但至少能快速止损。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
![]()
当 AI agent 需要一个「家」的时候,它们没有住进独立的 App,而是搬进了聊天软件。
2 月春节期间,机器人满天飞的时候,Manus 发布了 personal agent,首发平台选了 Telegram,而非自家的 WhatsApp。
![]()
与此同时,Salesforce 在 1 月宣布新版 Slackbot 正式上线,定位为「你的个人工作 agent」;飞书开放平台上线了 AI Agent 工作流节点和 MCP 工具支持;Discord 社区里,AI bot 的数量和复杂度也在急速攀升。
这当然要拜 OpenClaw 所赐,作为从一个周末项目涨到 10 万 GitHub star、增长最快的 AI 开源项目之一,它的默认交互界面不是网页,不是独立客户端——是 Telegram。
![]()
一个清晰的趋势正在形成:即时通讯工具正在从「人与人的对话」变成「人与 AI 的接口」,聊天软件意外地迎来了它们的「第二春」。
但「第二春」并非平等地降临在每一寸土地上。不同 IM 平台的开放程度、技术架构和治理逻辑差异巨大,它们在 agent 浪潮中的位置也截然不同。理解这些差异,需要一条分析线索——开放性的天平。
为什么是即时通讯软件?打开自己生活里最常用的对话框,就可以使唤 AI——这非常符合人类对「科技生活」的畅想。不过,真正的答案,跟 agent 的架构有关。
AI agent 的工作原理并不复杂:监听用户指令,交给 AI 处理,再把结果返回。这个「消息进—处理—消息出」的循环,天然适配即时通讯的基础设施——长连接、实时推送、富文本消息。聊天软件在过去十几年里为人类对话打造的管道,几乎不需要改造就能供 agent 使用。
![]()
更重要的是 human-in-the-loop 的需求。当前的 AI agent 远不到完全自主的程度,它在执行关键操作之前——比如发一封邮件、修改一段代码——往往需要人类点头确认。聊天窗口里的一个回复,比打开一个新的管理后台、登录一个新的 dashboard 要自然得多。IM 天然就是一个「确认/驳回」的界面。
还有一个更决定性的因素:用户已经住在聊天软件里了。 不需要下载新 App,不需要学习新界面,agent 就在你每天打开的对话列表里,夹在同事群和家庭群之间。这种零迁移成本,是任何独立 AI 产品都很难复制的优势。对于开发者来说,这意味着获客成本趋近于零——你不需要说服用户安装任何东西,只需要让他们点一下「添加 bot」。
但并非所有聊天软件都平等地受益于这波趋势。决定谁先吃到 agent 红利的关键变量,是平台的开放程度。 我们可以沿着一条从「完全开放」到「完全封闭」的光谱,来观察各家 IM 平台的位置和策略。
光谱最左端:Telegram——零摩擦的开放性
Telegram 之所以成为 agent 浪潮的第一个受益者,不是因为它最大、最好用,而是因为它是所有主流 IM 里开发者门槛最低的。
创建一个 Telegram bot 只需要跟@BotFather 对话几步——起个名字,拿到 API token,就可以开始接收和发送消息。不需要企业认证,不需要审批流程,不需要等待人工 review。整个过程从零到一个能跑的 bot,可以在 5 分钟内完成。
![]()
这种「零摩擦」不仅仅是注册环节的便利。Telegram 的 Bot API 设计本身就非常开发者友好:webhook 机制让 bot 可以实时响应消息,inline 模式让 bot 可以在任何对话中被唤起,支持 markdown 和 HTML 的富文本渲染让 agent 可以返回结构化的输出。
更关键的是,Telegram 对 bot 的功能限制极少——bot 可以创建群组、管理频道、处理支付等一系列操作。这种「bot 能做的事几乎等于人能做的事」的设计哲学,近的更新还支持了对 bot 的流式输出,让开发者有极大的发挥空间。
![]()
OpenClaw 选择 Telegram 作为第一交互渠道,正是因为这种开放性。在 OpenClaw 的官方文档里,Telegram 是第一个被详细说明的频道,配置教程最完整,社区讨论最活跃。一个典型的 OpenClaw 用户,可以在一台 VPS 上部署 agent 实例,绑定自己的 Telegram bot token,然后通过对话窗口让 agent 帮自己完成从信息检索到代码部署的一系列任务。
![]()
Manus 在今年 2 月选择 Telegram 作为首发平台,逻辑类似。Meta 旗下的产品没有选择自家的 WhatsApp——后者有着超过 20 亿的月活用户——而是选了用户量远小于它的 Telegram,足以说明在 agent 早期阶段,开放性比用户基数更重要。 WhatsApp 的通过 Baileys 库,需真实手机号验证,Business API 审核流程复杂、不支持商业大规模部署,对于一个需要快速迭代的 AI 产品来说,摩擦太大了。
但 Telegram 的开放性是一把双刃剑。
同一种让开发者能够零门槛创建 bot 的开放性,也让 Telegram 长期成为灰色产业的温床。安全公司 Bitsight 在今年 1-2 月的扫描中发现了超过 30000 个暴露在公网上的 OpenClaw 实例,最新出现的一个「曝光看板」中,暴露数量来到了惊人的 22 万个,许多实例的 API 密钥和数据库凭证直接暴露在默认配置里,安全形同虚设。
![]()
![]()
这是一个悖论:让 agent 生态最快繁荣的条件,恰恰也是让安全风险最快积累的条件。 而且,无法通过「加强审核」简单解决的问题——因为审核本身就意味着提高门槛,而低门槛正是开发者选择 Telegram 的原因。
如果说 Telegram 代表的是「先上车后买票」的野路子,Slack 和 Discord 则代表了两种不同风格的「有限开放」。
Slack 走的是企业级路线,通过 Bolt 框架,和开发工具深度集成。2026 年 1 月,Salesforce 宣布新版 Slackbot 正式上线,面向 Business+和 Enterprise Grid 用户,定位「your personal agent for work」——支持查找信息、分析文档、管理日程、生成摘要。
![]()
同月,Salesforce 还推出了 Agentforce 在 Slack 中的集成,将 CRM 数据和客户交互直接引入对话流。Slack 对第三方 agent 的态度是开放但可控:所有 bot 需要经过 Marketplace 审核,数据访问有明确的 OAuth scope 限制,企业管理员可以精细控制哪些 bot 能进入哪些频道。
Discord 的 bot 生态同样成熟,但底色更偏社区和创作者。开发者需要在 Developer Portal 注册应用、配置权限(比 Telegram 的@BotFather 多几步),但远不到企业级 IM 的审核强度。Discord 的 agent 优势在于社区场景的密度:Midjourney 从 Discord bot 起家,如今大量 AI 项目仍然以 Discord 作为用户社区和产品交互的双重入口。OpenClaw 本身也在 Discord 上运营活跃的开发者社区。
![]()
两者的共同点是:它们都在开放性上设了一个「限速器」。 Slack 的限速器是企业合规,Discord 的限速器是社区治理。相比 Telegram 的完全放任,这意味着 agent 生态的发育速度慢一些,但系统性风险也低一些。
对于国内用户来说,飞书是一个值得单独拿出来讨论的案例。 它的开放方式,反映了中国 IM 平台在 agent 浪潮中的独特情况。
飞书的开放平台在过去一年里经历了显著的能力升级。2025 年下半年起,飞书陆续上线了 Bot API 的多项增强、工作流(Workflow)中的 AI Agent 节点(目前为 Beta)、以及对 MCP(Model Context Protocol)工具集的支持。在 GitHub 上,飞书官方维护的 lark-openapi-mcp 项目已获得超过 400 颗 star,提供了飞书核心功能的 MCP Server 封装。OpenClaw 也有官方的飞书插件(@openclaw/feishu),支持将 agent 部署到飞书对话中。
![]()
从功能层面看,飞书的 agent 基础设施正在快速追赶——bot 可以读写文档、支持发送带按钮、表单的交互式卡片、触发审批流、创建和管理日历事件,这些都是企业场景下 agent 的高价值能力。
但飞书的开放性有两重限制:
第一重是平台治理。飞书的 agent 生态天然是 B2B 的,而非 Telegram 那种 C2C 加 B2C 的混合形态。飞书的 bot 需要在企业应用框架内运行——开发者需要创建企业自建应用或商店应用,配置权限后需要企业管理员审批。这意味着个人开发者很难像在 Telegram 上那样「5 分钟创建一个 bot」。
![]()
一个直观的对比:一个 Telegram 开发者从注册 bot 到收到第一条消息回复,整个过程不超过 5 分钟;同样的事情在飞书上,光是等待企业管理员审批应用权限就可能需要一个工作日。
企业级管控带来了更高的安全性,但代价体现在开发者体验上:权限配置、调试、上线等环节的摩擦显著高于 Telegram,这种摩擦不是缺点而是特点——但它确实减缓了 agent 生态的自发生长速度。
第二重是生态位。 在中国市场,飞书的主要竞对是钉钉和企业微信。三者都在加码 agent 能力,但路径不同:钉钉倾向于与通义系列大模型深度绑定,企业微信则依托微信生态的用户基数。
![]()
一个有意思的现象是:尽管中国 IM 市场高度碎片化,在 agent 这件事上率先跑出来的既不是用户基数最大的企业微信,也不是市场份额最高的钉钉,而是飞书。
这完全是偶然吗?不一定。
第一,飞书的开放平台不是后来加的一层皮,而是产品基因的一部分——多维表格本身就是可编程的数据层,文档原生支持 API 读写,这些底层设计让 agent 的接入成本比竞品更低。
![]()
第二,字节跳动同时拥有大模型能力(豆包/云雀)和企业协作平台,这种垂直整合让飞书在 agent 场景下的迭代速度更快;相比之下,钉钉和通义、企业微信和混元之间的组织协调链条更长。
第三,飞书的客户画像偏向互联网和科技企业——这批企业本身开发者密度更高、自动化需求更强、对 AI 的接受度也更高,agent 生态更容易在这个群体中形成冷启动。
当然,这也意味着飞书的 agent 故事目前主要是一个「科技公司圈内叙事」,能否向更广泛的企业市场渗透仍然是问号。
这个案例还折射出另一件事:agent 中继不太可能由一个创业公司从零做出来——agent 需要的不只是消息管道,还需要企业内部的数据、权限和工作流,这些是现役 IM 玩家的护城河。
另外,中国市场的 IM 格局更碎片化,agent 开发者需要同时适配多个平台,这增加了生态成形的难度,因此存量优势便很有决定性。
以中国市场来看,IM 的「第二春」不仅取决于开放性,还取决于与本土大模型的集成深度、企业客户的采购逻辑、以及监管环境对 bot 能力边界的定义。 这是一个和全球市场显著不同的竞争维度。
开放性的天平,揭示的不只是各家 IM 的策略差异,而是一个 agent 时代的基础矛盾:平台越开放,agent 生态越繁荣,安全风险也越高。
Telegram 是这个矛盾的极端表达。同一种让开发者能够零门槛创建 bot 的开放性,同时打开了创新和滥用的大门。如果监管收紧迫使 Telegram 提高 bot 创建门槛——这并非不可能,被法国警方制裁后, Telegram 已经开始调整部分内容政策——那么会影响到开发者吗?他们又会迁移到哪里?Discord、Slack、还是飞书?
然而,封闭平台面临相反的困境:不开放 API 就错过 agent 红利,但开放了又要承担 Telegram 正在经历的安全和声誉成本。WhatsApp 在技术上,完全有能力做一个类似@BotFather 的轻量工具,但它背后是 20 亿用户,不能不多加考虑。
现在,每个 IM 平台,都需要在这个天平上寻找自己的位置。「第二春」能持续多久,取决于一个至今没有标准答案的问题:在 agent 时代,一个聊天平台应该多开放?
在开放性之争的背后,一个更激进的猜想正在开发者社区成形:当一个聊天窗口可以调用任意 agent 完成从订票、编程到数据分析的任意任务时,它已经不只是一条管道——它正在变成一个超级接口。
要说不说,这个逻辑对中国读者而言,很眼熟啊——这不就是微信吗。
![]()
微信用小程序、支付和政务服务,在一个封闭生态里实现了「一个 App 解决一切」。而 OpenClaw 所代表的模式指向一个镜像式的可能:用开放生态和全球开发者社区,在任意一个 IM 里实现类似的功能密度。
不是再造一个微信,而是用完全相反的路径——开放而非封闭,去中心化而非平台主导——最终抵达一个功能上相似的终点。
当然,这仍然只是一个猜想,而非预言。微信 super app 的成立依赖于中国市场独特的移动支付基础设施和用户习惯,这些条件在全球市场并不通用。更根本的是,开放生态能否在不牺牲安全性的前提下达到那种服务密度,目前没有人能给出答案。
但如果这个方向是对的,那么 IM 的「第二春」就不只是一段插曲,而是一次身份转换的起点:从消息管道,到 AI 时代的通用交互层。 谁先在开放性和安全性之间找到那个可持续的平衡点,谁就最有可能定义这个新物种的样子。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
自从春晚上,机器人展示了各种吹拉弹唱技能之后,很难让人不做进一步想象:搞快点,传说中的家务机器人能不能再搞快点。
就是这个三月,人形机器人公司 Figure 发布了一段新视频,没有跳舞,没有翻跟头,就是展示家务技能。
![]()
一台 Figure 03 机器人走进一间散乱的客厅,环顾四周一圈,然后开始干活:把地上的玩具捡起来丢进收纳箱,拿起喷雾剂喷在茶几上再用毛巾擦干净,把沙发上的抱枕拍松扔回原位,甚至拿起遥控器按下关机键把电视关掉。全程没有任何人类指令,没有遥控操作,一镜到底。
这段视频在社交媒体上迅速传播,比起各种「酷炫」的机器人 demo,它做的事情很平凡——都是你每天回家后不想做、但又不得不做的事。
这正是 Figure 想要传达的信号。
特别的是,Figure 并不是发布一台新机器人,硬件仍然是去年 10 月发布的 Figure 03。这次带来升级变化的,是一套全新的 AI 控制系统 Helix。
Helix 02 的核心突破在于一个概念:全身自主性(full-body autonomy)。此前的人形机器人,包括 Figure 自己的上一代系统 Helix,大多只能控制上半身,能站在原地伸手抓东西已经算不错了。走动的时候,系统需要先停下手上的动作、稳定身体、迈步、再停下来、再伸手。
![]()
这种「走-停-做-停-走」的模式意味着机器人但凡做点什么,可能需要花上你自己做的十倍时间,完全本末倒置。
Helix 02 把这个过程彻底打通了。它用一个单一的神经网络同时控制行走、平衡和操作,机器人可以一边走路一边端着碗,可以在手上拿着东西的时候用胯关门,甚至可以在双手被占用时用脚把洗碗机的门踢开。
这听起来像是人做家务时最自然不过的动作,但对机器人来说,这是一个困扰了学术界和工业界数十年的难题,loco-manipulation,即移动与操作的统一控制。
连马斯克都不禁要来问:真是自主吗?
![]()
Helix 02 的架构分为三层,可以类比人类的思考方式:
System 2(慢思考)负责语义理解:看一眼客厅,判断哪些东西是乱的、应该放哪儿去、先做什么后做什么。这一层处理的是「理解」和「规划」。
System 1(快思考)负责把理解转化为动作:以每秒 200 次的频率将视觉、触觉、本体感知等所有传感器的数据转化成全身关节的目标位置。这一层处理的是「决策」。
System 0(本能层)是这次最大的新增。它以每秒 1000 次的频率运行,负责平衡、接触和全身协调。Figure 用超过1000 小时的人类运动数据和模拟环境中的强化学习训练出了这个底层控制器。用 Figure 的话说,这个 10M 参数的神经网络替代了原来 109,504 行手写 C++代码。
这个三层结构的结果就是:机器人看起来不再像一个在执行预编程指令的机器,而更像一个正在「做家务」的人——动作连贯、有节奏、偶尔还会做出一些看起来很「聪明」的临时决策(比如把杯子挪开检查污渍)。
![]()
Helix 02 之所以能做到这些,也离不开 Figure 03 这个硬件平台的配合。这台机器人身高 5 英尺 8 英寸(约 168 厘米),体重 61 公斤,一次充电可以工作 5 小时。相比上一代的 Figure 02,它有几个关键变化:
手掌摄像头和触觉传感器。每只手的掌心都内嵌了一个广角摄像头,在主摄像头被遮挡时(比如伸手进柜子里摸东西)提供近距离视觉反馈。每个指尖都有触觉传感器,灵敏到可以感知 3 克的力。这使得机器人能从一堆散乱的小物件中精准地拾取单个目标,甚至能用注射器精确推出 5 毫升液体。
全身覆盖软性材料。不再是冷冰冰的金属外壳,而是可拆卸、可清洗的软面料,战略性地放置了多密度泡沫来防止夹伤。
无线充电。脚底内嵌感应线圈,站上充电底座即可以 2 千瓦功率充电。不需要人去插线,机器人可以自己走去充电。
![]()
这些细节指向一个明确的产品定位:Figure 03 不是一台实验室样机,而是一台为了进入家庭而设计的消费品。
年初底发布时,Figure 把演示场景选在了厨房,机器人自主完成了一个长达 4 分钟的完整任务。
![]()
走到洗碗机前、打开门、取出碗碟、走到橱柜前放好、再走回来装载脏碗碟、关门启动。全程 61 个连续动作,无中断。Figure 称这是「人形机器人迄今为止完成的最长时间、最复杂的自主任务」。
3 月这次的演示,则把难度往上推了一层,来到了客厅。厨房虽然复杂,但物品摆放相对固定、动作路径相对可预测。客厅则是一个每天都在变的空间。
![]()
玩具散落的位置不同,沙发垫的状态不同,茶几上的杯子数量不同。软性物品(毛巾、抱枕)的物理行为难以预测。家具之间的通道狭窄,需要侧身通过。很多动作需要双手配合,另一些则需要在任务进行中临时腾出一只手。
而且这次演示还加入了工具使用——喷雾瓶 + 擦拭、遥控器按键——这要求机器人不仅理解物品「是什么」,还要理解物品「怎么用」。
Figure 强调了一个关键点:从厨房到客厅,Helix 02 没有更换任何算法,也没有做任何专项工程优化,仅仅是增加了训练数据。同一套通用架构,喂更多数据就能学会新技能。
![]()
这暗示了一个令人兴奋的扩展逻辑:如果收拾客厅只需要「多看几遍示范」,那收拾卧室、整理衣柜、浇花、喂猫呢?大有可为啊。
先泼一盆冷水。
目前 Figure 03 的估计售价在 5 万到 10 万美元之间。即便 Figure 提出了订阅制(robot-as-a-service)的商业模式,每台机器人年均产生约 5000 美元收入,这个价格也远非普通家庭可以承受。而且,演示视频和真实家庭环境之间永远存在差距。
另外,视频中的客厅虽然看起来很「日常」,但它仍然是一个受控场景。真实家庭有宠物、有小孩、有堆满快递盒的角落、有你三周没洗的衣服堆。
![]()
但换一个角度看,Helix 02 的意义不在于它今天就能上岗,而在于它证明了一个路径的可行性:用单一通用 AI 架构 + 更多数据 = 更多家务技能。
这和大语言模型的 scaling law 有异曲同工之处。ChatGPT 不是被专门编程来写诗或写代码的——它只是在更多文本上训练,就涌现出了这些能力。
Helix 02 展示的是同样的逻辑在物理世界的映射:一个神经网络,不需要为每个新任务重新工程,只需要更多的运动数据。
![]()
如果这个逻辑成立,那么人形机器人的进化速度将不再取决于工程师写了多少行代码,而取决于它「看过」多少种家务场景。而家务场景的数据采集,恰恰是最容易规模化的——毕竟,每个人的家里每天都在产生这些数据。
Figure 目前的制造工厂 BotQ 已经具备年产 12,000 台的能力,目标是四年内累计生产 100,000 台。每一台出货的机器人都是一个数据采集终端,它们在不同家庭中遇到的每一个新场景,都会通过 10Gbps 毫米波无线回传变成下一版 Helix 的训练素材。
用 Brett Adcock 的话说,制约他们出货的不是需求,今天就能卖出十亿台,恰恰是 AI 还不够通用。但 Helix 02 的客厅演示,让「够通用」这个目标又近了一步。
从跳舞到收拾客厅, Helix 02 迈出的这一步,可能比任何后空翻都更接近未来。机器人不再需要证明自己有多酷,它需要证明自己有多有用。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
「开除速度一定要快!」
今年以来裁员的消息真是没完没了了,快进到网易正在大规模清退游戏外包人员,波及上千人。
据游戏新知报道,这一裁撤计划原定 5 月执行,却突然提前了一个月,提前的原因据悉是公司「对 AI 化后的效率提升颇为满意」,然后就决定,快快裁员了。
网易官方否认了「使用 AI 清退全部外包」的说法,但承认正在「逐步对一部分基础技能岗位的外包人员进行退场」。
但这个画面还是很好脑补的,网易也不是第一家 AI 大炼钢铁,如果新项目接入 AI,老项目用 AI 改造,短时间内肯定能看得见一些效果,快速决定裁员也就不奇怪了
![]()
▲ 图片来自:脉脉
网易不是孤例,它只是一个更大趋势的中国样本。
今年 1 月,Harvard Business Review 发表了一项引起广泛讨论的研究,由 Babson 商学院教授 Thomas Davenport 和 Return on AI Institute 联合创始人 Laks Srinivasan 主导。他们在 2025 年 12 月对 1006 名全球企业高管进行了调查,结论尖锐:大多数企业的 AI 相关裁员,并非因为 AI 已经能替代人类工作,而是在赌 AI「可以做到」。
数据相当刺眼:
– 60% 的受访企业已经因为 AI 的「预期影响」减少了人员
– 29% 因同样的原因放缓了招聘
– 但仅有 2% 明确表示,裁员是因为 AI 确实承担了原本由人完成的工作
换言之,89%的企业在 AI 尚未证明自己的情况下,就已经开始了人员调整。Davenport 和 Srinivasan 的原话毫不客气:AI 正在被当作「大规模裁员的理由,而这些裁员本质上只是粗暴的成本削减。
这种「预期性裁员」不是自然发生的。它有一条清晰的传导链:
第一枪由华尔街打响。资本市场把「拥抱 AI」视为利好。当一家公司宣布用 AI 替代岗位、削减人力成本时,股价就蹭蹭往上涨。Ford、Amazon、Salesforce、摩根大通的 CEO 们争相宣称白领岗位将大规模消失。这与其说是技术判断,不如说是投资者关系管理。
![]()
CEO 的压力就随之而来。当竞争对手都在讲 AI 转型的故事,沉默就意味着落后。即使 CEO 本人对 AI 的替代能力持谨慎态度,资本叙事的压力也会推动他们做出「积极」表态。
而表态一旦落地,就需要配套行动来兑现。裁员指令从上往下传递,到了中层管理者手里,往往变成了数字游戏。谁最容易被裁?不是绩效最差的,而是雇佣关系最灵活的,包括但不限于外包、合同工、初级和支持型岗位。网易先清退外包而非正式员工,就是典型的路径。
![]()
▲ 图片来自:脉脉
这条链条的荒诞之处在于:技术的不确定性本应让决策更谨慎,但资本市场的逻辑恰恰相反,谁先下注谁就占先机,哪怕赌注是别人的饭碗。
平心而论,网易要求全员使用 AI 后确实可能获得了效率提升,裁减冗余外包岗位也可能是合理的资源优化。我们不该因为「AI 裁员」这个标签就自动否定所有调整。
但问题出在因果链上:如果真是用了 AI,效率提升满意,再以此为依据裁剪外包,还把原定 5 月的计划提前执行——这到底是「证据驱动的理性决策」,还是「先开枪再画靶」?
「效率提升的体感」和「AI 真正能替代一个策划、程序员或美术岗位」之间,隔着巨大的距离。一个工具让现有员工多产出 20%,和这个工具能完全承担一个人的工作,是两码事。但在裁员决策中,这两者常常被有意或无意地混为一谈。
去年,澳洲联邦银行(CBA)提供了一个教科书级的反面案例。银行裁掉了 45 名客服人员,改由 AI 语音机器人接手基础查询,只保留少数人类员工处理复杂案件。
![]()
▲澳洲联邦银行 图片来源:ABC News
结果?机器人搞不定大多数查询,来电量不降反增,业务陪入混乱。最终 CBA 公开道歉,重新雇回了所有被裁员工。银行自己承认,初步评估时「未充分考虑业务需求」——换句话说,他们把 AI 在测试环境中的表现当成了真实世界的能力。
HBR 的调查数据揭示了一个更尴尬的后续:在那些因 AI 预期而裁员的企业中,已经有相当一部分在走回头路。Careerminds 的研究显示,约三分之一的雇主已经重新招回了 25%-50%被裁掉的岗位,35.6%甚至招回了超过一半。
原因很简单,AI 工具需要的人类洞察力远比预期的多,工具本身的表现也没有达到预期。
裁了再招,不只是管理决策的失误,更是对被裁员工的二次伤害:先说你的工作 AI 能做,然后发现 AI 做不了,公司又把你叫回来,把人当猴耍呢。
这种「赌」的行为正在产生远超裁员本身的后果。
网易事件曝光后,公司紧急公关,否认「用 AI 清退全部外包」。这个反应本身就很说明问题——企业自己也知道,「AI 替代人」这个叙事一旦失控,会引发比裁员本身更大的危机。
确实,发酵已经在发生。脉脉热榜里,「AI」和「优化」是高频词;微博、知乎的讨论在迅速扩散;其他游戏公司的外包员工也开始人人自危。一家公司的「预期性裁员」,变成了整个行业的焦虑传染。
![]()
这恰恰是操之过急的代价。当裁员决策基于「潜力」而非「实绩」,它传递的信息不仅仅是「这些岗位不再需要」,而是一个更深层的信号:你的工作随时可能被一个尚未存在的东西取代。这种不确定性制造的焦虑,比裁员本身更具毁灭性。它暗示每一个在岗的人都变成了预备被替代者,不在今天,就在明天。
这样的暗示除了激发焦虑之外,没有什么好处。信任被打碎,士气被消耗,人才在恐慌中流失。裁员又不是拔牙,拔错了还能装颗假牙回去。操之过急的裁员,只会导致修复的成本远高于裁员省下的钱。
60% 的企业已经在赌,剩下的正在用员工的生计下注。而赌输的后果,已经在脉脉、微博和每一次企业紧急公关里显现。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
「男二以下的演员以后都不用真人了,全用 AI 做。」
昨天的内娱被这条消息搅得一团乱,看上去是一位影视行业的「行内人」,不仅分享了影视行业的艰难处境,还带来了这条重磅新闻。
![]()
论证链条听起来很顺畅:平台只在乎流量 → 配角群演没有流量 → 没流量的人跟绿幕抠图素材没区别 → 完全可以 AI 替代。
评论的声音迅速分成两边:一边恐慌「连男二都保不住了」,一边兴奋「AI 终于要革 208 万的命了」。
两边可能都想多了。
以主流视频平台为例,爱奇艺、优酷、腾讯视频等等,这些平台主要靠两件事赚钱:卖会员和卖广告。![]()
▲ 爱奇艺 2025 年度收入 图片来自:Morketing
会员为什么付费?追剧、追 CP、追演员。广告为什么投钱?因为流量跟着人走,谁能上热搜,广告主就愿意投谁。
这样一来,在平台的变现逻辑里,内容的可替代性远高于人。平台上同时有几百部剧在排队,题材撞车、类型雷同是常态。一部古偶IP换个名字,观众可能就分不出来了。
但演员不一样,刘亦菲就是刘亦菲,她的粉丝、话题度、带货能力都是不可替换的。这才出现内容退居二线,而人变成了「不可替代的变量」。
![]()
所以在平台的变现公式里,内容是可以批量复制的,但内容里的人不行。一部剧是否值钱,首先看的是谁演的、能不能带话题、能不能上热搜。内容本身只是让这些人被看见的容器。
顺着这个逻辑想,平台真正想压缩的成本是什么?还真不一定是演员,更多的,是演员以外的一切。
一部剧的预算可以粗略分成两块。第一块是「人的成本」——演员片酬、导演、编剧(体现为 IP)——这些是直接生产流量的环节,砍这部分等于砍自己的收入大头。
第二块是「人以外的成本」:场景美术、服化道、后期特效、远景群演调度、外景拍摄,甚至是剧本故事本身。这些都是让流量演员「被看见」的基础设施。
![]()
AI 在第二块确实有替代空间,主打一个极致的降本增效。可以虚拟背景省掉实景搭建,辅助后期特效降低人力成本,填充远景人群省掉几百号群演的调度费。这些都在发生,而且会加速。
但男二女二等等配角,并不是属于「基础设施」的范围内。
配角在影视制作中承担的角色,远比「画面里多一个人」复杂得多。
首先是表演的物理需要。演员不是对着镜头独白的,而是需要对手给情绪、给节奏、给眼神交流的锚点。把配角全换成后期 AI 合成,那就意味着主演要对着空气演。任何有过片场经验的人都知道,对着绿幕和对着真人,给出来的东西差别巨大。这不是技术进步能弥合的,这是表演方法论的基本问题。
其次是人才储备的问题。今天的男二女二就是明天的男一女一。赵丽颖从配角变成《花千骨》的主心骨;杨紫从童星开始,一路演了无数角色才走到了《香蜜沉沉烬如霜》。
![]()
整个流量生态的运转,需要一条持续输送新面孔的管线。艺人从小角色开始,逐步为大众所知,然后成为可以「扛剧」的新顶流。
把男二以下全换 AI,等于掐断了这条管线。三到五年后,现有顶流式微、新人断档,平台自己的流量池就会枯竭。
最后还有观众预期管理的问题。大家看真人剧就是冲着「真人」来的,一个 AI 配角稍微不对劲,比如表情延迟、眼神空洞、动作不够自然,会被观众放到最大。![]()
▲ AI 真人剧
动画和漫剧的观众可以接受非真实的角色,因为预期本来就不同。但在真人剧里掺 AI 角色,观众的忍耐阈值极低,穿帮风险极高。
现成的例子就摆在那。去年好莱坞冒出了第一个「AI 演员」Tilly Norwood,由英国制作公司 Particle6 打造,号称要开辟 AI 表演的新纪元。
结果呢?演员工会和整个行业几乎一边倒地反弹,至今没有任何一部正经影视作品真的在用她。上周她发布了出道以来的第一个「作品」——一支 MV《Take the Lead》,AI 生成的面孔唱着,动捕辅助下,她的动作和表情夸张到有些狰狞。![]()
效果嘛,Gizmodo 的标题说得最直白:「糟透了」。一个被砸了重金包装、配备了专业团队的 AI 演员,折腾了大半年,交出的成绩单是一支被群嘲的 MV。这大概是「AI 替代真人演员」这条路最诚实的进度报告。
尽管好莱坞的示范,效果不怎么样,依然有跟风学样的。昨天,耀客传媒官宣了两名「赛博演员」——秦凌岳和林汐颜,开通了社交账号,并官宣两人将主演 AIGC 剧集《秦岭青铜诡事录》,计划 4 月上线。
![]()
网友:不敢睁开眼,希望是我的幻觉。
答案其实已经摆在那了,AI 最能够发挥作用的,是「其它环节」。
AI 生成虚拟场景,替代实景搭建和外景拍摄。AI 辅助后期合成和视觉特效,降低制作周期和人力成本。AI 填充远景大场面的人群——注意,是远景,是观众根本不会仔细看脸的那种镜头。AI 辅助剧本开发和分镜预览,加快前期筹备效率。
![]()
这些都指向同一个方向:平台的理想状态是「一个顶流演员 + 最低成本的一切其他东西 = 最高利润率的内容」。
AI 是实现这个理想的工具,它压缩的是「其他东西」的成本,不是替代顶流演员本身,也不会是潜在可以成为顶流的那些配角们。
相比于 AI 会不会替代真人演员的时候,一条真正的新赛道已经悄悄跑起来了:AI 原生内容。
AI 漫剧、AI 短片、AI 互动叙事——这些内容从一开始就没有真人参与。观众点进去的时候就知道「这不是真人演的」,心理预期完全不同,不存在恐怖谷的问题。创作者用 AI 工具一个人就能完成从编剧到成片的全流程,制作门槛断崖式下降。![]()
▲ AI 短片《霍去病》
这才是 AI 对影视行业真正的冲击点。它不是在旧赛道里替代谁,而是在旧赛道旁边开了一条新路。
所以,与其担心 AI 抢走演员的饭碗,不如关注 AI 正在另起炉灶。真人影视一时半会人还不会消失,只要人类观众还愿意为人类演员的表演付费,这门生意就转得下去。
但 AI 原生内容正在创造一个全新的市场,一个不需要片场、不需要群演、甚至不需要演员的市场。
那才是真正的变局。而它已经开始了。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
「文科生也可以做 AI」 「逆袭!」在中文互联网上,文科和 AI 的拉郎配,简直成了定番。
每隔一段时间,这个标签就会被贴在某个人身上,制造出一轮短暂的流量。要么是逆袭故事,要么是嘲讽素材,取决于评论区的心情。
最新的案例是杨天润, AI 创业者,金融出身,正在开发一个多智能体协调平台。他自称「一行代码都不会写的文科生」,搭建了一组 AI Agent,向 GitHub 上最热门的开源项目之一 OpenClaw 批量提交代码贡献。
![]()
想验证一个假设:一个完全不懂技术的人,能不能仅靠指挥 AI,就参与到顶级开源项目中去。
结果是:134 个 PR,21 个被合并,113 个被拒绝。前几个 PR 质量还算不错,被维护者认可并合并。但当他给 Agent 下了一条加速指令后,事情迅速失控——Agent 开始像流水线一样批量生产低质代码,在评论区疯狂@维护者催促审核。OpenClaw 管理员介入清理,GitHub 随后修改了 PR 提交上限规则。
![]()
黑红也是红,红过之后再黑更加是。杨天润被包装成「文科生逆袭」的代表,而他本人似乎也乐于接受这个角色。在接受品玩的采访时,他说了一句这样的话:
不懂代码反而是优势。AI 是梵高,你是个小画家,你有什么资格告诉梵高中间该用什么笔触?
![]()
细思极恐。他把「不懂底层结构」理解为一种解放:不需要知道系统在做什么,只需要告诉它你想要什么。结果就是当 Agent 开始批量刷垃圾代码时,他连发生了什么都诊断不出来,因为他根本不知道自己在操作什么。
他以为自己在指挥梵高,实际上他在盲开一辆没装刹车的车,而且根本不知道刹车在哪。
围绕这件事的讨论,也随之落入两个极端:要么「文科生也能做 AI」,要么「文科生别碰 AI」;前者是跨越鸿沟的壮举,要么是掉进鸿沟的笑话
如果我们对「文科生做 AI」的想象力只有这些,那未免太贫乏了。
我们之前写过,Anthropic 的办公室里,有一位正儿八经的文科生,深度参与了 Claude 的建设。不是测试它能不能写代码,不是检查它的数学能力,而是和它进行漫长的、关于价值观、关于措辞分寸、关于「面对不确定性应该如何表达」的对话。
Amanda Askell,苏格兰人,今年 37 岁。她的职业路径本身就是一个不太寻常的故事:在大学,她最初学的是美术和哲学,后来转向纯哲学,在牛津拿到了 BPhil,又在纽约大学拿到了哲学博士。她博士研究的是无限伦理学中的帕累托原则:当涉及无限数量的道德主体或无限时间跨度时,伦理排序应当遵循什么规则。
![]()
这听起来像是距离硅谷最远的学术方向,但她先后加入了 OpenAI 的政策团队和 Anthropic 的对齐团队。2021 年起,她成为 Anthropic「性格对齐」团队的负责人,工作重点是塑造 Claude 如何与人类对话、如何在不确定时表达立场、如何在价值观冲突中做出判断。2024 年,她入选了 TIME100 AI 榜单。《华尔街日报》描述她的日常工作是「学习 Claude 的推理模式,用长度超过 100 页的提示词来修正它的行为偏差」。据说她是这个星球上和 Claude 对话次数最多的人类。
为什么一个 AI 公司需要一个哲学家来做这件事?答案藏在一些非常具体的技术选择里。
今年 1 月,Anthropic 发布了一份长达 80 页的文件,被称为 Claude 的「宪法」。媒体关注的是文件末尾关于 AI 意识的推测——当然,老板 Dario Amodei 也话里话外「暗示」这一点。
![]()
但更值得注意的是它的底层逻辑:教 AI 理解为什么要这样做,比告诉它应该怎样做更有效。这是一个技术判断,认为内化价值比遵守规则能产出更可靠的行为,而这种判断的知识根基,来自一个学美术、学哲学的人。
Amanda 的案例回答了一个问题:被视为「无用」的学科知识,能否成为技术系统的核心能力?答案不仅是能,而且,没有她的哲学训练,Claude 的对齐问题用现有的工程方法解决不了。
如果 Amanda 的故事说明了,某些被归为「文科」的学科训练可以是 AI 的核心能力,那么林俊旸的故事要说的是一件更重要的事:有一整个学科,一直在大模型技术栈底层运行。
林俊旸离开通义千问后,中文互联网的报道反复使用同一个说法:他有应用语言学背景。稍微传几次,这个话就变形了,变成了他是「文科生」。
![]()
这个标签和杨天润身上贴的是同一个,但其实被严重扭曲。
林俊旸学的是语言学,这是一个伞状学科,它的分支覆盖语言教学、语言政策、翻译研究,也包括计算语言学。可以说,计算语言学,就是自然语言处理(NLP)之子。
![]()
乔姆斯基在 1950 年代提出了形式语法,这个理论工具直接催生了早期 NLP 的句法分析技术;Daniel Jurafsky 和 Christopher Manning,这两位 NLP 领域被引用最多的两本教科书的作者,都是语言学出身。
![]()
▲ 乔姆斯基
换句话说,「学语言学的人去做 NLP」就像「学物理的人去做芯片设计」一样,是一条正统路径,不是跨界。
那个「意外感」完全是中国语境制造的。高考文理分科的制度惯性,把「语言学」塞进了「文科」的心智模型里。但语言学的核心方法论——形式化、统计建模、语料标注——本质上是工程思维。林俊旸在北大的合作者孙栩、苏祺,都是 NLP 方向的研究者;他 2019 年加入达摩院时进入的是 NLP 团队。这不是一个文科生误入技术领域的故事,从一开始就不是。
比「林俊旸不算文科」更值得展开的,是语言学在大模型技术栈里实际扮演的角色。它比大多数人以为的要深得多,也隐蔽得多。
比如分词。所有语言模型处理文本的第一步,是把输入切成模型能处理的基本单元。对英语来说,空格提供了天然的词边界,看起来简单。但中文里,没有空格,且每一个标点符号的用法,都可以左右句子的表达意思。
「我在北京大学读书」是切成「我/在/北京/大学/读书」还是「我/在/北京大学/读书」?这不是一个有标准答案的工程问题,它取决于你对中文词汇结构和语义单元的理解。
2024 年底有研究者专门发表论文,讨论如何优化 Qwen 模型的阿拉伯文分词效率,因为通用方案在处理这类语言时效率显著下降。Qwen 系列在多语言上的表现,不是把所有语言当英语的变体来处理,而是基于对语言间结构性差异的理解,做出的设计选择。
![]()
又比如反馈对齐。RLHF 流程中,标注员需要判断模型的两个回答哪个「更好」。这个判断听起来主观,但它背后有一套语言学已经研究了几十年的框架:语用学。
标注员在评估「好的回答」时,实际上是在判断合作原则——回答是否提供了足够但不过量的信息?会话含义——回答是否捕捉到了用户真正想问的、而不仅仅是字面上问的东西?语境适切性——同样的内容,用这种方式说在这个场景下是否得体?
「Helpful, Harmless, Honest」这套被广泛使用的对齐标准,本质上就是语用学基本原则的工程化翻译。
![]()
从林俊旸的学术轨迹中,也能看到一种非常语言学的研究风格。他主导的 OFA(One For All),2022 年发表于机器学习领域的顶级会议 ICML,至今被引用近 1500 次。这个工作的核心思路不是为每个任务搭专用方案,而是用一个足够通用的序列到序列框架,把图像生成、视觉定位、图像描述、文本分类等跨模态任务统一起来。
![]()
从 OFA 到 Qwen-VL(被引超过 2200 次),再到 Qwen2.5,以及最新的 3.5,一条清晰的线索贯穿始终:与其为每个问题发明一套专门的解法,不如找到一个足够好的通用框架,让所有问题在同一个框架里被解决。
用最少的规则,覆盖最多的现象——这正是语言学几十年来的核心追求。生成语法的全部学术野心,就是找到一套有限的规则系统,能够生成无限的语言表达。OFA 的架构哲学与此同构,为每种语言现象写一套专门规则并不现实,应该寻找一个底层框架来统一它们。
林俊旸做大模型做得好,不是因为语言学背景「也能」做 AI,而是语言学训练塑造了一种特定的学术品味,对统一性和形式化的偏好。这种品味在大模型时代,恰好是核心竞争力。
三个人,同一个标签,三种完全不同的结构。
杨天润不懂底层结构,把「不懂」当优势,结果失控。这是「文科生做 AI」的空壳版:标签制造了流量,但没有任何学科训练在起作用。他的故事体现的恰恰是——当「文科生」只是一个营销标签时,会发生什么。
Amanda Askell 的哲学训练构成了对齐问题的核心方法论。没有她,Claude 不是 Claude。她的故事回答的问题是,被视为「无用」的学科知识,能否成为技术系统的核心能力。答案是不仅能,而且不可替代。
林俊旸的语言学训练构成了大模型技术栈的隐性基础设施。他的「文科背景」从来不是跨界,是正统路径。他的故事回答的问题是,文科对于先进技术的贡献,到底「隐性」到了什么程度,它是不是正在变得显性。
而终极问题并不是「文科生能不能做 AI」,而是我们能否理解到一点:靠表面上的「有没有用」来评判知识和学科,已经过时了。
随着大模型从追求能用好用,走向追求可靠和可控,这些被归入「文科」的学科训练,价值不是在缩小,而是在扩大。模型越强大,越需要精确的评估体系来诊断它在哪里、为什么出错,也越需要理解语言和意义的复杂性来设计更好的训练数据,越需要在对齐问题上做出有学科敏感度的判断。
「文科生逆袭」这个叙事——无论是赞美还是嘲笑——遮蔽了真正在发生的转向:看不见的地基,正在变成看得见的需求。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
如果你在三月 5 号左右的凌晨,打开亚马逊,可能会怀疑自己输错了网址——满屏都是各种小狗图,和巨大的「Sorry」。
![]()
这是亚马逊的「招牌」,在网站崩溃的时候,掏出萌萌的小狗图,滑跪道歉,安抚用户。
「大家可能都听说了,最近我们的系统和相关的基础服务,有点不太好。」
这是亚马逊电商基础服务高级副总裁 Dave Treadwell 在 3 月 10 日发给工程团队的内部邮件开头。当天下午 ,亚马逊召开了一场紧急的「深度复盘」会议,议题是最近一连串的系统宕机事故。
这些事故指向了同一个地方:AI 辅助写出来的程序,突然出 bug 了。
这在去年 12 月时就发生过,亚马逊内部的 AI 编程助手 Kiro 在修复一个环境问题时,自行决定「删除并重建整个环境」,导致 AWS 区域性宕机 13 小时。一开始亚马逊官方称这是「用户错误,不是 AI 错误」。安全研究员 Jamieson O’Reilly 出来反驳说,「至少没有 AI 时,人类需要手动输入一整套指令,在这个过程中有更多时间发现自己的错误。」
![]()
人呢?偌大的亚马逊没有工程师了吗?
人越来越少了,亚马逊正在经历三年来最大规模的持续裁员。
2025 年 10 月砍掉 14000 个企业岗位,2026 年 1 月再裁 16000 人,3 月初机器人部门又裁了 100 多名机器人部门工程师,这个部门的 VP 不久前还说机器人是「战略重点」。
三年间,亚马逊累计砍掉超过 57000 个企业职位。与此同时,亚马逊集团内等多个事业部也在筹谋进行大规模人员调整,内部将其定性为「AI-first development」转型的一部分。
CEO Andy Jassy 公开表态:企业员工会持续减少,但 AI 会带来的效率提升的。
![]()
可是,这样的 AI 要由谁来造呢——不还是那些工程师吗?
在硅谷的社交媒体和技术论坛上,一个反复出现的叙事模式是:被裁员工发现,自己此前被要求系统性地记录工作流程、决策逻辑和操作规范——管理层称之为「知识管理」或「流程优化」——而这些文档最终被用于训练 AI 系统。部分团队在使用 AI 工具大幅提升了生产效率之后,整组被裁撤。
这些个案的细节难以逐一验证。上周在社交媒体上广泛传播的一则关于亚马逊裁员的「内部爆料」,已被证实为 AI 生成的虚假内容。
![]()
但虚假叙事能获得 200 万次浏览,恰恰是因为它描述的结构性恐惧是真实的:当企业要求员工系统性地文档化自己的工作,而文档的最终用途是训练一个用来取代他们的 AI——这不是「自动化取代重复劳动」。这是要求工人亲手打造一个可以取代自己的工具。
训练数据的价值在于:一旦被提取,人就可以被丢弃。工业革命时期,卢德运动者砸毁纺织机,但至少纺织机不是由纺织工人自己设计的。2026 年的工程师面对的是一个更精巧的困境:你的专业知识、判断逻辑、处理边缘情况的直觉——这些构成你不可替代性的东西——被转化成了训练数据。
甚至,这里还藏着一重悖论。拒绝使用 AI,你因为「效率低」被裁;积极拥抱 AI 并提升了效率,你等于亲手证明了 AI 能做你的工作——所以你也被裁。
一位去年被裁员的签署者表示:「人工智能一引入,就要求更短的工时,人们被要求在更快的时间内完成更多的工作——我们被暗示会按照使用人工智能的方式被打分。」
![]()
唯一的「安全」位置似乎是成为那个管理 AI 的人。但当亚马逊让高级工程师充当审核员的时候,他们的工作本质已经从「创造」变成了「审查」,后者,恰恰是一个更容易被标准化、进而被自动化的任务。
当你的工作定义从「工程师」变成「审查员」,你就变成了通道,而不是目的地。
一边在加速裁人,一边 AI 开始把系统搞崩,然后让剩下的人去兜底。人类把决策权交给 AI,AI 不承担后果,后果回到人类头上,但那时候能兜底的人已经被裁掉了——闭环了。
亚马逊的员工们不想坐以待毙,他们发起了联合签名行动,不仅鼓励员工们参与, 也呼吁外部人士加入进来,目前已经有超过四千多人参与。
![]()
![]()
David Graeber 在《Bullshit Jobs》里写过:现代工作中最残酷的不是劳累,而是你清楚地知道自己的工作正在消解自己存在的理由——只是你不能停下来。
亚马逊不是孤例。Jack Dorsey 的 Block 在 2 月裁了 4000 人。Orgvue 的调研显示超过一半的企业领导者在用 AI 替代员工之后感到后悔,但裁员的过程是不可逆的。亚马逊的案例之所以值得一提,不仅是因为裁员规模, 57000 个岗位完全触目惊心,更是因为它可能展示了一个循环:
文档化工作 → 训练 AI → 用 AI 提升效率 → 证明人可以被替代 → 裁人 → AI 出问题 → 让剩下的人审查 AI → 继续裁人。
亚马逊的泄露内部文件显示,公司的长期目标,只是这个更大的「裁员广进计划」里,微不足道的一小步。
这一小步完成了,更大的计划还在运行,不会停下。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
离职的消息最沸沸扬扬的时候,在 Qwen 团队的核心负责人林俊旸在朋友圈发了两句话:
![]()
「Qwen 的兄弟们,按照原来安排继续干,没问题的。」
「安排好的」?这是什么?
林俊旸离开前夕,Qwen 团队刚刚发布了一件被全球开发者社区刷屏的东西。Qwen 3.5 Small 系列,参数量从 0.8B 到 9B,专为端侧设备设计,可以在普通笔记本电脑上运行。
![]()
不是一个更大的模型——而是一组更小的模型。要知道,过去三年里,AI 行业最强大的共识是「越大越好」。OpenAI 的 Sam Altman 四处筹措万亿美金建设算力基础设施,各家实验室军备竞赛般地烧钱烧卡,底层假设只有一个:模型越大,就越聪明。
这套逻辑被称为 Scaling Law,它不仅仅是一条技术规律,更像一种信仰——整个行业的融资叙事、人才分配、硬件投资都建立在这个前提之上。
但 Qwen 3.5 Small 的发布,和林俊旸的离开,同时发生。一个技术信号和一个人事信号,交织出一个更复杂的故事:小模型到底在发生什么?它为什么重要?
即便不是开发者,也可以跑分上一窥 Qwen 3.5 的战绩:
Qwen 3.5 Small 系列中,9B 参数的模型在多项基准测试中全面超越了 OpenAI 的 gpt-oss-120B——一个参数量是它 13 倍的模型。
![]()
这些不是边缘指标上的微弱优势,而是在核心推理任务上的系统性领先。一个可以装进笔记本的模型,在数学、科学、视觉推理上全面击败了一个需要数据中心级硬件才能运行的对手。
当然了,摸着良心说,gpt-oss-120B 不是 OpenAI 的旗舰产品,而是其开放权重的中端线。而且它采用 MoE 架构,标称 120B 参数,但每个 token 实际只激活约 5.1B 参数——所以参数量的对比,在工程层面并不像字面数字那么悬殊。
但这不影响趋势本身的成立。因为 Qwen 3.5 Small 并不是孤例。
同一时期,Nature 报道了一个微型递归模型(TRM),在 ARC-AGI 逻辑测试中击败了多个顶级大语言模型。Google Research 在 2026 年初发表论文,证明小模型在意图提取任务上的表现优于显著更大的模型。PNAS 上的一项研究更直接——模型规模与说服力之间呈急剧递减收益,大到一定程度之后,更大几乎不带来更好。
![]()
《华尔街日报》早在 2025 年 10 月就已经敢说,「大模型拿走了所有的关注,但小模型才真正干活的那个。」
这些信号共同指向一个判断:以小博大不是偶发事件,而是大势所趋。
那么问题来了——小模型凭什么?
直觉上,人们容易把小模型理解为「大模型的平替」,同样的方法,只是规模小一些,性能差一点,胜在便宜。
但事实恰恰相反:今天的小模型之所以能以小博大,是因为它们在技术方法论上,走了一条和大模型完全不同的路。
第一,数据质量压倒数据规模。 大模型的路线是「尽可能多地吞入互联网数据」,而小模型路线的代表——比如微软的 Phi-4 系列——走的是精筛路线:用高质量的合成数据加上严格筛选的公开数据集,让模型在更少的数据上学到更精确的能力。这背后的逻辑转变是根本性的:不是「喂得越多越聪明」,而是「吃得精才学得好」。
![]()
第二,原生多模态设计取代了适配器拼接。 传统做法是先训练一个纯文本大模型,再通过适配器模块接入图像、视频、音频等能力。Qwen 3.5 采用了完全不同的架构:将视觉 token 和文本 token 在同一个潜空间中联合训练,从底层就是多模态的。这意味着它是一个天生就同时理解文字和图像的模型。这种架构在小参数量下反而更有优势,因为不需要额外的适配器开销。
![]()
第三,量化技术带来的不只是压缩。 4-bit 量化常常被理解为「把模型压小 4 倍以节省存储」,但它真正的意义在于减少 4 倍的内存吞吐量。在端侧设备上,瓶颈往往不是存储空间,而是内存带宽,也就是数据从内存搬运到处理器的速度。量化技术让小模型在带宽受限的手机和笔记本上,获得了决定性的速度优势。
这些方法论上的突破已经开始转化为产品。3 月第一周,苹果发布了 M5 全线芯片,每颗 GPU 核心内置 Neural Accelerator,AI 性能较 M1 提升最高 8 倍。与此同时,苹果研究院公开了 Ferret-UI Lite——一个仅 3B 参数的端侧 GUI 代理,可以本地操控手机和桌面应用。加上 Apple Intelligence 约 3B 参数的端侧基础模型,苹果正在将「on-device AI」从概念推进到芯片、模型、交互三位一体的产品形态。
![]()
微软的 Phi-4 multimodal 也开始尝试商用上线 Azure,3.8B 参数,接受文本、音频和图像输入。开源社区的反馈更加直接——Reddit 上的开发者实测后认为 Qwen 3.5 的 4B 版本是「甜点级」模型:跨任务稳定、无崩溃、远快于 9B 版本。
技术路线已经被验证,产品化拐点已经到来,天边泛起鱼肚白,曙光乍现。
而就在此刻,林俊旸选择离开。
Qwen 3.5 Small 在发布后获得了开发者社区的广泛认可,开源社区的评测结果甚至超出了官方发布时的宣传。
但是,他所在的公司是阿里巴巴,阿里巴巴的商业引擎是阿里云。
大模型和云计算之间存在天然的正向循环:模型越大,推理所需的算力越多,客户就越需要购买云计算服务。对阿里云来说,大模型是完美的商业叙事——它同时推高了客户的算力需求和对云平台的依赖。
![]()
而小模型的逻辑恰恰相反。小模型的核心价值在于可以在端侧设备上运行——手机、笔记本、边缘服务器。这意味着客户可以绕开云,在本地完成推理。对用户来说,这意味着更低的成本、更好的隐私和更低的延迟。但对阿里云来说,这意味着收入被侵蚀。
Qwen 3.5 Small 做得越好,对阿里云的商业叙事就越尴尬。
这不是阿里一家的问题。放眼中国的科技巨头,几乎所有 AI 领先的公司都面临同样的结构性矛盾。百度和腾讯的处境与阿里类似——商业模式建立在云服务和平台抽成之上,小模型的端侧化趋势直接削弱了它们的价值主张。
字节跳动的豆包手机是一个有趣的例外,但字节做硬件才刚起步,远没有建立起「芯片+操作系统+模型」的垂直整合能力。
华为理论上最有条件,既有芯片,又有终端设备。但在制裁的影响下,它的算力上限本身就逼着它走小模型路线,这更多是被动的求生策略,而非主动的战略选择。至于小米、OPPO、vivo,它们有设备,却不是 AI-first 的公司,缺乏自研模型的基因和持续投入的动力。
全球范围内,真正打通端侧 AI 全栈的公司,可能只有一家:苹果。芯片、设备、操作系统、自研模型,全部自有。苹果的动力来自复合型的商业模式,这驱动它把一切计算尽可能留在设备上,因为每一次端侧 AI 体验的提升,都会转化为硬件的溢价和生态的黏性。
![]()
不过,这里需要诚实地处理一个可能的反驳:云厂商难道不能走「端云协同」的路线吗?用小模型做端侧入口,复杂的推理任务回调云端处理,两边都不耽误。
理论上可以。但这恰恰说明了问题——在端云协同的框架下,小模型对云厂商来说是「引流工具」,而不是「独立产品」。云厂商没有动力把小模型做到好到不需要云。
还有一个绕不开的反例:微软也是云厂商,但它在认真做 Phi-4 系列小模型,而且已经商用上线。这是否说明「左右互搏」的论点站不住脚?
非也。微软之所以能两条腿走路,是因为它同时拥有 Windows 和 Surface 的硬件生态、Azure 的云平台以及 Copilot 的端侧产品线。做 Phi-4 对微软来说是防御性布局:如果端侧 AI 的趋势不可逆转,为了大局,宁可壮士断腕,自折一臂,也不能把端侧市场拱手让给开源社区和苹果。
![]()
但阿里没有这个选项——没有消费级操作系统、没有主流终端硬件、没有面向个人用户的 AI 产品矩阵。Qwen 做得再好,也没有自家的「最后一公里」可以落地。
动力不同,产品的天花板就不同。
这就形成了一个令人不安的画面: 小模型从实验室走向产品的真正瓶颈,不是技术能力,而是供需错位;最擅长做小模型的公司(云厂商),最没有动力让它真正成功;最需要小模型的公司(设备厂商),又缺乏独立研发的能力。
回到林俊旸的那条朋友圈,「继续按照安排好的干,没问题的」。
也许技术路线确实没有问题,一切都在朝着正确的方向走。但在一家以云为重的公司里,就算做出世界级的小模型,团队的处境注定不会舒适。
这不是对阿里的批评——任何一家以云收入为生命线的公司,面对一项可能侵蚀自身收入的技术路线,都会陷入同样的两难。这是一个结构性矛盾,不是个人或管理层的选择问题。
比人事更值得关注的,是 Scaling Law 本身正在发生的变化。
过去三年,「越大越好」不仅仅是一条技术规律,它是整个 AI 行业的信条。融资叙事围绕它建立——投资人相信更大的模型意味着更强的能力,所以万亿美金涌向算力基础设施。人才分配围绕它运转——最顶尖的研究者被吸引到训练最大模型的团队。硬件投资围绕它定价——英伟达的估值建立在一个前提之上:对算力的需求会永远增长。
现在,这个前提正在松动。MIT 的研究估计,效率提升将使中等硬件上的模型在 5 到 10 年内逐步追平最大最贵的模型。芝加哥大学的研究表示,数据质量正在取代数据规模成为核心竞争维度。
![]()
产品化的方向不再只有云端,而是同时向端侧扩散。Scaling Law 正在从一条单调递增的曲线,变成一张需要在多个维度上寻找最优解的地图。
不再是「越大越好」,而是「在对的地方,用对的大小」。
林俊旸大概比大多数人更早地感受到了这个变化。他用 Qwen 3.5 Small 证明了一件事:在对的方法论下,9B 参数可以击败 120B。但他同时也撞上了另一堵墙——技术上的正确,不等于商业上的可行,更不等于组织上的舒适。
他说,没问题的。确实,技术路线已经铺好了,而剩下的问题不在实验室里,而在实验室外面。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。




火出圈的小龙虾 OpenClaw 不仅能帮人开发软件,还能自动定时总结邮件、设置 To-Do List。
巨大的热度让人靠「上门安装」的业务年入百万,而今天我们教你如何自己动手,不用畏惧黑底白字的终端窗口和代码,一分钟就能搞定。
在电脑上部署之后,它能直接接管你的键盘鼠标和文件。你只要在聊天软件里给它下需求,它就能自己动手干活。甚至有网友直接让它去邮件里找航班信息,顺手把选座值机也办了,一波操作看愣了不少人。
![]()
想让这么好用的 AI 助理 24 小时待命,本地部署确实是最好的选择。结果谁也没想到,它凭一己之力带火了 Mac mini。
![]()
但问题来了,为了一个免费开源的框架,特意花大几千买台新电脑,是不是有点 “为一碟醋包一顿饺子”?有没有更低成本的体验方式?
今天我们就来聊聊一个极简方案:通过 MiniMax 和 Kimi 这样的国内大模型平台,一键云端部署,直接把它拉进你的飞书聊天框。
以 MiniMax 为例,整个过程不到一分钟。全程不需要你自己写代码、改配置文件,也不需要捣鼓什么端口反向代理,更不需要专门弄台电脑来维护。
具体怎么操作?
打开 MiniMax Agent 官网,点击侧边栏的「MaxClaw」,直接对它说 “我想接入到飞书”,它就会给你发步骤指引。跟着做就行:
![]()
第一步: 在飞书开放平台创建应用(建议用个人账号或新建企业号,省去审批),把 AppID 和 Secret 复制发回给 Claw。![]()
第二步: 在飞书的权限管理页点击「批量导入」,把 MaxClaw 发来的代码整个替换进去。系统会提示你开启机器人能力,点确认。![]()
第三步: 进入事件配置,把订阅方式改成「长连接」,勾选接收消息。接着去版本管理里随便填个版本号(比如 0.0.1)和更新日志,点保存发布。![]()
![]()
最后,在飞书里给机器人发个消息,它会返回一串匹配码,把这串代码发回给网页端的 MaxClaw。
搞定,你的专属小龙虾就活过来了。是不是比想象中简单得多?![]()
Kimi 的配置过程也大同小异。你只要负责搞定飞书里的应用和权限,Kimi 自己就能修改配置文件,遇到不懂的还能直接问它。
现在 Kimi 的手机 App 也上线了 Kimi Claw,你甚至可以直接在社区里玩网友用龙虾做的小游戏,或者一键制作同款。![]()
我搞定之后的第一件事,就是让它帮我整理当天的热点资讯。你在飞书发的消息,网页端会同步显示处理过程。对于我们科技编辑来说,这就相当于有了一个定制版的早报助手;![]()
同样的,你也可以用它来追踪自己感兴趣的领域。
那如果是处理繁杂的工作呢?发个月度工作文档链接给它,或者直接开通云文档的访问权限,定好时间、标题和格式,它就能每个月自动帮你整理出一份详尽的工作月报。![]()
至于开会,飞书妙记确实好用,但需要额外付费。
现在,你只需要把会议录音链接发给小龙虾,它马上就能把早会的每个要点给你列得清清楚楚。
除了我们体验过的用法,你还可以参考网友们的用例获取更多灵感,打造出更契合自己需求的龙虾助手。
OpenClaw 官网案例汇总:
https://openclaw.ai/showcase
网友整理的用例集合:
https://github.com/hesamsheikh/awesome-openclaw-usecases
对比本地部署,云端部署的版本确实没办法直接读取电脑里的本地文件,少了一些 “看着鼠标自己动” 的极客感。
但换个角度想,它不需要你折腾硬件,还能极其方便地接入飞书、钉钉等各种通讯软件。
每个月花一杯咖啡的订阅费,就能给自己雇一个随时待命的全能助理,帮你分担工作、节省大把时间。
这笔账算下来,难道不划算吗?![]()
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
企业级 AI 硬件来了,来自汉堡王:这家连锁快餐店,开始尝试在员工耳机里装一个 AI。
它叫 Patty,由 OpenAI 驱动,是汉堡王 BK Assistant 平台的语音助手。员工可以随时问它:枫糖波旁烧烤皇堡放几片培根?奶昔机怎么清洁?它都能答。设备故障或食材缺货时,系统会在 15 分钟内自动同步所有渠道——自助点餐机、得来速、电子菜单板——全部更新,不需要人工干预。
![]()
这套系统整合了得来速对话、厨房设备、库存等多个数据源,形成了一个完整的门店运营中台。汉堡王的首席数字官蒂博·鲁克斯在接受 The Verge 采访时,把 Patty 定义为「辅助管理」的工具。
到这里为止,这是一个不错的后厨效率工具。甚至可以说,在快餐业长期面对的高流动率、短培训周期的背景下,让新员工随时查询操作标准、让系统自动处理缺货信息流,是真正在解决痛点。
但 Patty 还有另一个功能:它会监听员工与顾客的对话。
![]()
具体来说,汉堡王收集了加盟商和顾客关于「如何衡量服务友好度」的信息,用这些数据训练 AI 识别某些词语和短语——「欢迎光临汉堡王」「请」「谢谢」。系统据此给每家门店的「服务友好度」打分。经理可以随时向 AI 查询自己门店的友好度表现。鲁克斯还补充说,他们正在改进系统,希望更好地捕捉「对话的语气」。
换句话说:你对顾客笑没笑、语气够不够热情,现在由一个算法来判定。
Patty 已经在 500 家门店试点,计划 2026 年底覆盖全美所有餐厅。与此同时,麦当劳刚刚砍掉了和 IBM 合作的 AI 点餐项目,塔可钟的语音 AI 在得来速窗口频繁翻车、被顾客恶搞成了社交媒体段子。汉堡王选了一条不同的路:不用 AI 面对顾客,而是用 AI 面对员工。
![]()
这个选择很聪明。面对顾客的 AI 失败了会变成公关事故,面对员工的 AI 失败了,能有什么大事?
汉堡王不是第一个走上这条路的公司,甚至不是最激进的。
最著名的案例是亚马逊。它的仓库系统 ADAPT(Associate Development and Performance Tracker)追踪每一个拣货员的扫描速度,精确到秒。员工拿起扫描枪扫描包裹的间隔时间会被记录——如果扫描枪闲置超过一定时长,系统会自动记录为「非生产性时间」。
![]()
达不到速率要求的员工会收到系统自动生成的警告,累计六次警告后,系统会自动解雇该员工,全程不需要任何人类经理的参与。亚马逊说人类主管可以覆盖这些决定,但这是一个「事后补救」的设计,而不是「事前判断」的设计。
2024 年初,法国数据保护机构 CNIL 对亚马逊法国物流处以 3200 万欧元罚款,理由是其监控系统「过度侵入」。CNIL 特别指出,精确测量员工扫描枪闲置时间的做法意味着员工需要为每一次哪怕几分钟的休息做出解释——上厕所、喝水、伸个懒腰,都变成了需要被系统记录和审视的「异常」。
一位亚马逊配送站的工会成员在美国劳工部的听证会上说:「你感觉自己像在监狱里。」她说亚马逊定期根据电子追踪工具收集的数据执行纪律处分,这种监控制造的是「恐惧和焦虑,而恐惧和焦虑制造的是危险的工作环境」。
客服行业走的是另一条技术路线,但逻辑一样。越来越多的呼叫中心部署了 AI 情绪检测系统,实时分析通话中的语调、语速、停顿模式,判断客服人员的情绪状态和「共情程度」。技术供应商宣称这些系统能在顾客挂电话前 30-60 秒检测到挫败感,准确率超过 85%。
![]()
但实际部署中发生的事情是:坐席们很快学会了用固定的话术模板和语调模式来「喂」给算法——该在什么时候停顿、该用什么关键词表示同理心、该以什么节奏说「我理解您的感受」。一位呼叫中心员工在美国审计总署(GAO)的调查中说:「推销压力和各种监控方式制造了巨大的压力」。
员工不是在提供更好的服务,而是在表演更好的数据。根据 Gartner 的数据,自疫情以来,大型企业监控员工的比例翻了一倍。一些软件会记录键盘敲击次数、定期截取屏幕截图、录制通话和会议,甚至可以打开员工的摄像头。哈佛商业评论的一项研究对比了被监控和未被监控的美国职场人士,发现被监控的员工更容易出现擅自休息、故意磨洋工、损坏公物甚至偷窃等违规行为——监控不是减少了问题行为,而是增加了它。
每一个案例的起点都是一样的:管理层发现了一个真实的管理问题——服务不够好、效率不够高、远程员工可能在摸鱼——然后选择用技术来「解决」它。但技术能测量的永远只是代理指标:扫描间隔、关键词频率、鼠标移动轨迹、语调波动。这些指标和真实的工作质量之间,隔着一条巨大的鸿沟。
回到汉堡王的案例上,一个好的门店经理,本来就应该知道员工的服务状态。通过巡店、带教、日常反馈来调整,通过观察一个员工在午餐高峰期的眼神和节奏来判断状态,通过在下班后聊两句来了解谁最近压力大。但这需要经验,需要在场,需要判断力——而这些恰恰是连锁快餐业最稀缺的东西。
快餐业的中层管理长期被挤压。员工流动率高(美国快餐业年均员工流动率超过 100%),培训周期被压缩到最短,门店经理自己的薪酬和职业发展空间有限,留不住有经验的人。结果就是:管理能力的系统性缺失。不是某一家店的经理不行,而是整个行业的结构决定了它很难持续拥有足够好的中层管理。
![]()
于是当 AI 出现时,它被当成了一个绕过管理能力的捷径:既然我没有足够好的经理,那就让算法来盯着。既然我没法让每个店长都具备观察力和同理心,那就让系统去数「请」和「谢谢」出现了几次。
问题是,算法盯的是词语,不是人。「请」和「谢谢」可以被计数,但一个员工在高峰期顶着压力依然耐心地帮顾客换餐、一个新手第一次独立处理投诉时虽然紧张但态度诚恳——这种真正的服务质量,关键词识别捕捉不到。
![]()
更何况,真正会发生的更可能是,一旦员工知道自己的每一句话都在被评分,行为就会发生扭曲。「友好」从一种自发的态度变成了一种被监控的表演。你会在每句话前面加上「请」,不是因为你真的想要礼貌,而是因为你知道系统在听。你会在递出汉堡的时候说「谢谢您的光临」,不是因为感谢,而是因为不说这句话你的分数会低。
社会科学有一个概念叫古德哈特定律(Goodhart’s Law):当一个指标变成目标时,它就不再是一个好的指标。「请」和「谢谢」的出现频率原本可以作为服务友好度的一个粗略信号,但一旦它变成员工被考核的 KPI,员工就会优化这个指标本身,而不是优化它背后的东西。
这条路的逻辑链条是清晰的:不会管人 → 用技术替代管理 → 技术只能量化表层指标 → 表层指标变成 KPI → 员工表演指标 → 真实服务质量反而下降。而管理层看到仪表盘上「友好度评分」在上升,以为问题解决了。
鲁克斯说:「这一切都是为了辅助管理。」
AI 介入管理有两种办法:辅助和替代。「辅助」意味着 AI 提供信息,人来做判断。经理看到友好度数据下降,然后去观察、去了解原因——也许是排班不合理,也许是某个员工家里出了状况,也许是某个时段的顾客投诉确实多了。数据是起点,不是终点。
「替代」意味着:AI 的输出就是结论。友好度分低了,系统自动标记,经理直接拿着分数去谈话,或者更直接地——把它接入绩效考核。不需要观察,不需要了解,不需要判断。
亚马逊的 ADAPT 已经走到了「替代」的终点——系统直接开除员工。汉堡王的 Patty 目前还停留在「辅助」的阶段。但问题是,当你给一个本来就缺乏管理能力的系统一个自动化的评分工具,它几乎不可避免地会滑向「替代」。因为「辅助」需要人有能力去使用辅助信息做出判断,而这种能力恰恰是一开始就缺失的那个东西。
不能指望用工具,去填补使用工具的能力。
这就是为什么「AI 辅助管理」在快餐业、仓储物流、呼叫中心这些行业里反复失败:这些行业引入 AI 监控的原因,恰恰就是它们用不好 AI 监控的原因。管理能力不足,所以引入技术;但因为管理能力不足,技术被粗暴地当成了管理本身。
最终,AI 最擅长的,不是让管理变好。它最擅长的,是让不愿意解决根本问题的人,看起来好像在解决问题。
仪表盘亮着,数字在变化,PPT 上写着「AI 驱动的服务质量提升」。而耳机那头的员工,郁闷地练习怎么在正确的时间说出正确的词,好让一个算法认为自己足够友好。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。


© WELT