Reading view

There are new articles available, click to refresh the page.

149999 元的索尼 RGB 电视是夯是拉?我们去索尼总部瞧了瞧

一年前的 AWE(中国家电及消费电子博览会)上,索尼展出了一项名为「RGB 高密度 LED 显示系统」的底层技术。

这种技术把红、绿、蓝三原色背光独立控制,亮度极高,色彩极准。

吊诡的是,索尼把这项技术捂了整整一年,直到今天的 BRAVIA 9 II 发布,才真正落地到消费级产品上,并命名为 True RGB。

作为索尼电视的最新旗舰,BRAVIA 9 II 的价格也非常索尼——起步售价为 65 寸版本 19999 元,随尺寸增大,价格也水涨船高,75 寸 24999 元、85 寸 34999 元,而最大 115 寸的顶配版,售价也来到了惊人的 149999 元。

事实上,早在索尼 True RGB 系列产品正式发布前,国产双雄海信和 TCL 就敏锐地抓住了这片市场真空期,并用最快速度把 RGB Mini-LED 电视推向市场。

面对这项被视作电视未来的技术,同行们都在跑马圈地时,索尼究竟在等什么?爱范儿来到索尼东京总部看了看。

BRAVIA 9 II,从镜头到客厅的最后一环

要回答这个问题,得先搞懂索尼电视的核心壁垒到底在哪——

索尼有一款 4K HDR 旗舰基准监视器,名叫 BVM-HX3110。这台机器只有 30.5 英寸,售价却高达三十余万元,主打色彩还原、所见即所得,是整个影视制作行业的天花板。

将它作为影音娱乐的视觉基准,索尼设计了一整套闭环流程——导演用索尼 CineAlta 电影机拍摄,用索尼 BVM 监视器看,后期用索尼设备调色,最后,观众用索尼电视观看。

也就是著名的「从镜头到客厅」战略。

BVM-HX3110 是这套战略的开头,而 BRAVIA 9 II,则是这套战略的闭环。

两个月前,爱范儿应邀前往索尼大崎技术中心。在闭门沟通会中,索尼将彼时还未发布的 BVRAVIA 9 II 与 BVM-HX3110 并排放置。

一台监视器、一台民用消费级电视,差价近十倍的设备,在色彩、亮度表现上展现了一脉相承的效果,拥有高度一致的即视感。

这是索尼完成「从镜头到客厅」战略野心的展露。而背后的屏障,就是 BRAVIA 9 II 所搭载的 True RGB 技术——

保证这台面向观众的终端电视,能在峰值亮度和色彩科学上承接 BVM-HX3110 这台三十万的工业级监视器,让观众能看到最还原的画面。

参数再高,色彩偏了也毫无意义。忠实还原创作者的意图,是索尼在这条赛道上定下的铁律。

索尼式的长期主义,把痛点一次解决

明白了这个大前提,我们再来看看 True RGB 到底解决了一个什么痛点。

这两年买高端电视,大家往往纠结选 OLED 还是 Mini-LED。OLED 像素集成了红绿蓝三色自发光,纯黑表现非常好,但峰值亮度容易受限。Mini-LED 亮度奇高,但背光分区哪怕做得再细,亮暗交界处依然容易出现光晕。

那将两者的优势结合起来,不就可以了?

为了融合两者的优势,RGB Mini-LED 应运而生。它直接把红绿蓝三种发光元件塞进同一颗背光灯珠里。背光层直接带上了颜色。

▲ RGB Mini-LED 大致原理,由 Gemini 生成

设计很理想,但新技术总会伴随着新问题——

传统 Mini-LED 想要提高夜景的峰值亮度,会把白光疯狂集中在明亮区域。这会导致一个致命缺陷:白色光线太强,直接冲淡了色彩的鲜艳度;

▲ Mini—LED 技术原理

到了 RGB Mini-LED 时代,如果控光和控色做不好,还会引发更灾难的后果——串色。不同颜色的背光相互污染,红不红,绿不绿。普通 Mini-LED 漏的是光,RGB Mini-LED 漏的可是颜色。

而 True RGB,则对色彩丰富度、漏光和串色三个问题,做了点对点优化。

从面板材质看,True RGB 完全属于液晶阵营——屏幕本身不发光,全靠背后的几万颗灯珠打亮画面。但从发光逻辑看,它悄悄偷走了 OLED 最核心的底牌:纯粹的三原色。

光线在离开背板的那一刻,就已经带上了精准的颜色。这就相当于在电视最底层,铺了一套拥有 OLED 控色逻辑的光源。外层再盖上一块液晶面板做最后的细节精修。

爱范儿在索尼大崎技术中心参与了此技术的闭门演示,从演示来看,True RGB 从底部灯珠中就开始以颜色区别构建大致的图形,边缘更为清晰、颜色更为精准,且在显示光比较大的时候能从底层构建清晰的光影关系。

「底稿加精修」的机制,带来的画质飞跃肉眼可见。BRAVIA 9 II 的色彩覆盖直接翻倍。色彩过渡变得更为顺滑,大幅解决了色彩断层的问题。

依靠结构改变,色彩表现的问题解决了,但漏光和串色的问题,还需要在结构外多下功夫——

True RGB 是索尼给出的一整套解决方案,毕竟物理底子再好,控制不住也是白搭。

LED 驱动芯片是背光电路设计中数字信号与模拟信号之间的一道坎。点亮一颗 LED 很容易。但在毫秒级的时间内,随心所欲地精准控制数以万计的 RGB 灯珠,极其考验厂商在模拟电路时代的沉淀。

索尼专门为这套系统打造了全新的驱动芯片。配合真彩芯链技术,系统能全局统筹,对每一颗灯珠的 RGB 通道动态分配最适合的亮度。

依靠实时光效传感器,细节精调得以实现。这便是索尼能做到全程彩光、同芯同控的技术底座。

比如画面里是一片深蓝色的夜空,或者一片鲜艳的红枫叶。True RGB 会果断只点亮对应的单色通道,彻底杜绝杂色引入。

亮度拉满的同时,色彩依旧精准浓郁。软硬结合下,RGB 技术饱受诟病的串色问题被连根拔起。

在两个月前索尼大崎技术中心的闭门演示中,我们亲眼看到,面对复杂的高动态画面,部分 RGB 电视的背光会频繁在彩光和白光之间游离,甚至大多数时间都在以白光兜底,以此来保证系统不死机。

而搭载 Ture RGB 的 BRAVIA 9 II 则从底部灯珠上构建了正确的颜色关系,色相、饱和度、亮度一一对应,从最底层为画面表现打下了良好的地基。

更有意思的改变发生在侧视角。过去为了让坐在角落的人也能看准颜色,电视表面通常得贴一层广视角膜。这层膜虽然管用,却像一层微弱的毛玻璃,多少牺牲了画面的通透度。

而 True RGB 灯珠先天带色,索尼直接通过算法做底层的 RGB 输出的主动补偿,哪怕你坐在客厅最偏的角落,颜色依旧精准。

同样,基于物理结构与真彩芯链技术,索尼对每个 RGB 灯珠动态控制调整下,高光光晕问题也得到了解决。

画质基石搭建完毕后,索尼把余下的精力放在了产品体验的补全上。

BRAVIA 9 II 设计了幻隐悬浮底座,半透明光栅让画面呈现出悬浮感,背后的线缆也被巧妙隐藏。电视自带的波束高音与空间平衡扬声器足以应付日常,但面对百寸的巨幕,传统回音壁的声音密度往往会捉襟见肘。为此,索尼同期推出了全新的家庭影院新物种 Trio——

Trio 采用独立的前置三扬声器分离设计,以此来匹配超大屏幕的物理跨度,并修正侧视角下的声像偏移。这套系统由索尼影业深度合作开发,搭载了全新的 360 智能穹顶声场 3.0 以及「影院增强模式」。再配合系统全新支持的双低音炮组合拓展功能,Trio 能够将索尼影业混音实验室的专业声学效果,直接平移进用户的客厅里。

视与听,在这里完成闭环。

在索尼大崎技术中心,索尼电视产品线的研发人员在闲聊中有一段话让爱范儿印象深刻,大致意思是这样的:

对于电视这样的消费电子产品来说,好像一年一更不是很必要的事情,我们希望把技术打磨更成熟,再推出产品,这样的产品也更长期主义。

产品的长期主义,往往依赖的是研发的长期主义——回头来看,其实索尼在 RGB 这条路上已经走了 20 年。

2004 年,当普通人还在为摩托罗拉 V3 刀锋般的超薄翻盖手机感到惊叹时,电视行业却在悄悄孕育一场光影革命。那一年,索尼推出了全球首台采用 RGB LED 背光的电视 Qualia 005;

到了 2016 年,Z9D 确立了释放 LED 驱动能力来提升明暗对比度的核心思路;2024 年,BRAVIA 9 实现了 22Bit 灰阶控制。直到今天,True RGB 这一技术完全体才最终得以落地。

索尼在这条路上走了 20 年,光影控制的研发脉络清晰可见,一脉相承。而 True RGB,则是索尼在效率、真实还原与功耗之间,寻找到的更具长期主义的解法。

让我有个美满旅程

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

OPPOReno16Pro,一台不肯「收着来」的手机

用了一周的 OPPO Reno16 Pro,我感觉它不像一台 2026 年的手机。

并非落后。刚好相反,它太不收着了。

从今年以来,消费电子产品的成本一直在往上堆:存储、芯片、电池,每一个都是绕不开的账。放到手机厂商面前,选项其实并不复杂:要么「减价减配」,要么「微涨不配」,要么「小升小涨」。真正选择「加量加价」的产品,反而少见。

OPPO Reno16 Pro 有点不一样,它没有那种局促感。在今年,它是一台少见的「宽松」手机。宽松不是说尺寸宽,而是当很多产品开始收紧成本时,Reno 仍然愿意把好的东西放进产品里,把涨上去的价格放在看得见的地方。

毕竟,「没有明显退步」,不该成为今天手机行业值得庆祝的优点。

OPPO Reno16 Pro,不像一台 2026 年的手机

Reno 这个产品系列,回答的是一个很有趣的问题:

怎么做主流人群喜欢的手机?

这意味着,Reno 不能是高定时装,也不是概念单品,更应该像当季潮流新品——未必走在最前沿,但审美一定要新,风格也要够大众。

这几年,消费者眼中一台「好手机」的定义,已经不单纯局限在功能价值的「好用」,在配置和价格大差不差的情况下,「好玩」带来的情绪价值更加重要。

这正是 Reno 的舒适区。一拿到 OPPO Reno16 Pro,视线很难不被手机背面给吸引:Reno16 系列以「星星」为题眼,采用 3D 冰透悬浮工艺,在平面的玻璃上实现了裸眼 3D 的视觉效果,星球纹理仿佛浮在空中。

手机已经变成了我们的「生活搭子」,如果一件东西要陪你四年,它最好别只有配置,得有一些个性,多一点温度。

而自 Reno 这个品牌诞生之初,就已经和这种气质绑定。

比起把手机做成参数表,Reno 有着更「软性」的产品力,更想让你「喜欢」而非「选择」它。

Reno 就像一台 Mini Cooper,它不是跑得最快的车,更多人购买它的理由,只是因为它让通勤这个「日常」,变得更愉快。

在 OPPO Reno16 Pro 众多的影像新玩法中,能一秒出片拍立得和胶片的 POP 相机,以及随心贴拼图实况照片,无疑是最有「Reno」气质的功能。

只是,如果只用「好玩」来定义 OPPO Reno16 系列,那未免过于片面。

设计和功能决定用户会不会拿起它,体验才决定用户愿不愿意一直放不下它,当越来越多品牌忙着教用户接受取舍,OPPO Reno16 系列选择把优势继续放大。

即使在行业成本承压的当下,OPPO Reno16 Pro 依旧配备了 2 亿像素的主摄,既维持了 Reno 系列的特色,更重要的是能继续服务好「爱出片」的 Reno 人——他们不热衷研究传感器尺寸或者像素,但一定在意朋友圈发出去的照片好不好看。

参数只能留在发布会上,出片率才能留在用户的记忆,活在 PPT 上的配置,终究不比活在相册里的照片。

除此之外, OPPO Reno16 Pro 还为这颗 2 亿像素主摄加码了「云台」能力,将 Reno 影像能力的边界,扩展到 Vlog、直播这些同样年轻化的形式。

这些功能和配置,本质上都是继续围绕「Reno」这个品牌服务的核心要素。在 2026 年选择继续「加注」,势必会带来成本的提升,但最终都会服务于「Reno」这个已经有用户信赖的品牌。

毕竟,用户愿意为进步付费,却很少会为妥协鼓掌。

好玩又好用,OPPO Reno16 系列,依旧是「初见乍欢,久处不厌」的手机,当越来越多手机开始教用户接受遗憾时,在努力减少遗憾的反而出挑。

但 Reno,已经不只是一台手机。

Reno 不再只是一台手机

在 Reno 这个品牌诞生之初,它就是「高品质」的代名词,这样的品牌气质也正在外延,OPPO 希望它承载更多东西——除了产品,还包括一套更完整的审美表达和用户认同。

与 OPPO Reno16 系列一起发布的,还有「Reno Land」的品牌生态,将平板、耳机,以及「电子吧唧」 OPPO Bubble 纳入了进来。

OPPO Bubble 难以归类到任何传统数码品类,更像是一个带屏幕的潮流配件, 通过磁吸吸附在手机的背面。

就像年轻人会在背包上挂徽章、在水杯上贴贴纸、在电脑上贴痛贴一样,OPPO Bubble 本质上也是一种身份表达,是一个展现自我的自留地。

而有需要时,也可以成为后置摄像头自拍的取景窗,能够尽可能利用 2 亿像素主摄和爆闪闪光灯。

Reno 本来就不是那种只负责把参数做满的产品线。它需要一点不必要的可爱,一点可以展示的细节,也需要一点年轻人会愿意拿出来玩的东西。OPPO Bubble 不是 OPPO Reno16 系列的核心卖点,却很像 Reno 性格里漏出来的一角。

不管是 OPPO Reno16 系列本体,还是 Reno Land 产品,当你看到它们,你能立马联想到 Reno 这个品牌,以及它代表的生命力、审美、情绪价值,同时又与时代同频成长的生活方式。

对于硬核的数码爱好者来说,Reno 对于这样的主张或许有点陌生,但放到整个消费领域,真正成功的消费品牌,最终售卖的,都不只是产品本身。

比如哈雷摩托,他们卖的并只是昂贵的摩托车,更是一种略带一点「反叛」的气质。

我们卖的是一种让 43 岁的会计师穿上黑色皮衣,骑着摩托车穿过小镇,让人们对他感到畏惧的能力。

产品只是载体,认同感才是终点。

2026 年,我愿意为什么样的产品花钱?

OPPO Reno16 系列,并不是一次孤立事件。

在它之前,OPPO Find N6 凭无感折痕再成折叠屏新品爆品,OPPO Find X9 Ultra 和 Find X9s Pro 的影像能力,让 OPPO 销量海外市场继续走高。

这些数字恰恰证明,好产品在任何价格周期里都有人买单。

因此,OPPO Reno16 系列回答的问题,是涨价潮之下,中高端手机到底应该怎么做?

消费者的换机周期已经拉长到四年甚至更长,每一次掏钱都是一次投票,「值不值」取代了「想不想要」成为了购买决策的关键。

任何一丝短视,都会消耗多年累积的口碑;任何一点缩水,都会影响用户体验的质感;任何一处妥协,都会变成品牌信任的裂缝。

产品涨价从来不是问题,一边涨价,一边让用户感觉自己买亏了,才是问题。

因为所有减掉的东西,最终都会从用户的信任里扣回来。

人们面对消费越来越理性,并不意味着只买「便宜的东西」,奢侈品仍然有人排队,演唱会门票依然一票难求,高端咖啡也没有消失。

大家只是开始重新计算价值,想为有感知的体验付钱,想为认同的生活方式付钱,想要为态度和个性付钱,与此同时,越来越不愿意为「缩水」买单,不愿意妥协于「妥协」。

对用户来说,内存涨价还会持续两年的时间,如何选择一台好的手机,穿过这个寒冬,是一个本分、更实在的选择。

这背后,不是「一分钱一分货」的简单交易逻辑,不是靠参数和价格堆出来的叙事,是厂商和用户之间,更长远的「价值承诺」。

在人人都不得不做减法的时代,捍卫「价格」没那么难,但捍卫「价值」却不简单。

也正因为这份捍卫价值的信任感,让我们愿意再次选择一个品牌、一款产品,因为我们都知道:这次也不会让我失望。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

大公司的 AI 账本,没有一笔算得过来

今年四月,Uber 的 CTO 发现了一件事:公司全年的 AI 工具预算,四个月就花完了,这件事是整个硅谷「token 消耗大比拼」的一个典型例子,我们之前也写过。

但就在几周后,Uber 的 COO Andrew Macdonald 在播客里给同事「补了一刀」:token 消耗和交付给用户的功能之间的联系,还不存在

▲ Andrew Macdonald 图片来自:Business Insider

Uber 在去年底部署了 Claude Code,95% 的工程师每个月都在用,70% 的提交代码来自 AI,使用率惊人,账单也惊人。每个工程师每月的 API 调用费在 500 到 2000 美元之间,同一个人用同一个工具,同一天的消耗差异可以达到十倍。CTO 不得不说自己要推到重来,「因为我以为够用的预算,已经被吹走了」。

他们花了很多钱让 AI 写代码,但花的钱和最终产出之间,看不到因果关系。钱确实花了,代码确实写了,但用户体验提高了多?新增了多少有用的功能点?问就是不知道

另一个方向的同一个问题

Uber 的困境是钱花了,成效没出来,但很多公司选择的是另一条路,由于看到了 AI 的潜力而大举裁员,认为 AI 可以代替

不是给人买 AI 工具,而是用 AI 代替人,这条路的账算得过来吗?

Gartner 今年发布了一份调查,覆盖 350 家年收入超过十亿美元的全球企业,结果发现:80%的企业在部署 AI 后都裁了人。可是裁员率和 ROI 之间,完全没有相关性,裁得多的公司和裁得少的公司,回报率几乎一样。

这个结果反直觉,但仔细想想又很合理。裁员省的是人工成本,但省下来的钱并没有变成新的业务价值。它只是让财报上的数字好看了一个季度,而不是让公司真的变得更强。Gartner 的结论很直接:裁员可以腾出预算,但不创造业务价值。

AI 驱动的裁员,ROI 是零,为什么老板们还在做?本质上,裁员不是经营决策,是信号。对投资人说「我们在用 AI 了」的效果,和对董事会说「我们的运营效率在提升」的效果,都比真实的 ROI 重要得多。

Fortune 的分析把这叫做「AI washing」,用 AI 做借口裁员,实际上纯粹是在砍成本充利润,和 AI 能不能替代这些岗位,没有一点关系。

一个悖论

这样看,AI 会带来管理上的自相矛盾:用 AI 替代人,省了工资,但 ROI 没提升;给人用 AI,效率似乎提升了,但预算先爆了。

AI 工具的计费模式和传统软件完全不同。传统软件是按席位收费的,每个人每年多少钱,写进合同里,可以预测。但 AI 工具是按 token 收费的,用多少算多少,而且每个人的用量差异巨大。Uber 的数据显示,同一个工程师同一天的消耗可以相差十倍。这意味着传统的 IT 预算模型完全失效了,你没法在年初预测年底会花多少。

这像什么呢?像从固定费率的健身房会员卡,换成了按次计费的私教。你以前每个月交 299,去不去都那么多。现在每次去都要单独付费,去得越勤花得越多,而且你的员工各自去得多勤你完全无法控制。

不用吧,怕被淘汰;用吧,账算不过来。

钱去了哪里

Gartner 其实在报告里很克制地提了一句预测:到 2028 年到 2029 年,自主化业务反而会净增工作岗位。这听起来像没什么用的安慰,实际上它暗示的是现在裁掉的人,未来可能还得重新招回来。只不过到时候他们的岗位叫「AI 协调员」或者「模型运营」之类的,工资可能也不一样了。

打工人被裁了,公司也没赚到更多,预算还爆了。钱去了哪里?当然是 AI 公司的营收里。Anthropic 今年的年化收入已经突破十亿美元,OpenAI 更高。当 Uber 的 CTO 说「预算飘走了」的时候,那些被吹走的预算正好落在了 Anthropic 的账户里。

这是一个经典的淘金热结构。真正赚钱的从来不是淘金的人,是卖铲子和牛仔裤的人。现在的铲子是 API,牛仔裤是 token。每一家公司都在拼命用 AI,拼命让员工用 AI,拼命用 AI 替代员工——而 AI 公司在所有这些拼命的每一个环节里都在收钱。

AI 没有在省钱,它在换一种花钱的方式。

以前花在人身上,现在花在模型上;以前花在工资里,现在花在 token 里;以前花得可预测,现在花得无法控制。甚至,以前花的钱留在了员工手里,他们会拿去消费、娱乐、还房贷,钱在经济体里循环。

现在花的钱,直接进了几家硬件密集型、融资密集型的 AI 公司的账上,变成了下一轮 GPU 采购和下一轮融资的底气。

所以当你看到「某公司宣布用 AI 优化人力结构」的新闻时,可以翻译一下:我们把给员工的钱转给了 AI 公司,但我们并不确定这笔交易是否划算,我们只是知道,如果不做这笔交易,投资人会不高兴。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

小米:请叫我 Token 价格屠夫

押注 2026 年 Token 大涨价的人,短短一周迎来两次打脸。

5 月 22 日,DeepSeek 宣布 DeepSeek V4 Pro 永久降价;今天凌晨,小米 MiMo-V2.5 系列跟进降价,最高降幅达到 99%。

与此同时,小米 Token Plan 计费体系同步优化,定价不变,可用量提升至原来的 5 至 8 倍。

没有出乎太多意料,海外 Reddit、X 平台以及各大开发者论坛上关于小米 MiMo 模型降价的讨论热度也是迅速飙升。

只是,在全行业都在高喊 Token 成本吃不消的当下,小米为何敢于逆流降价?更重要的是,这波降价操作又会把 AI 行业推向何方

Token 价格打骨折,AI 行业迎来最严厉的父亲

小米此次公告显示,旗下 AI 大模型 MiMo-V2.5 系列 API 将进行永久降价,最高降幅达 99%,且不再区分输入长度。新价格已于北京时间 5 月 27 日 0 点全球同步生效。

不过,99% 的降幅并不意味着每一次调用都会按最低价计费,关键变量在于输入缓存是否命中。

以 MiMo-V2.5-Pro 为例,一旦命中缓存,输入价格被击穿至约 0.025 元每百万 Tokens。而如果输入缓存未命中,价格依然维持在 3 元每百万 Tokens,输出价格则为 6 元每百万 Tokens。

也就是说,这个极低价格成立的先决条件,是请求必须大量命中缓存。

对于高重复上下文、高频 Agent、多轮代码任务以及批量推理任务来说,这个价格拥有极强的吸引力,但如果你的应用场景缓存命中率堪忧,真实成本显然不会触及最低点。

Token Plan 的玩法也有着相似的逻辑。

小米强调定价不变,Credits 大幅提升:Lite、Standard、Pro、Max 四档月费仍是 39 元、99 元、329 元和 659 元, Credits 的额度,也从 0.6 亿、2 亿、7 亿、16 亿提升到对应的 41 亿、110 亿、380 亿、820 亿。

且按照新的换算关系,MiMo-V2.5-Pro 命中缓存只需 2.5 Credits / token,未命中缓存则要 300 Credits / token,输出为 600 Credits / token。

这与 DeepSeek 的打法如出一辙。

简单回顾一下时间线:4 月 24 日 DeepSeek V4 预览版发布;次日 V4-Pro 开启 2.5 折优惠;4 月 26 日,缓存命中价格暴降至首发价的十分之一;到 5 月 22 日,临时折扣干脆变成了永久降价,V4-Pro 永久降至原价的四分之一。

一番调整过后,DeepSeek-V4-Pro 的输入缓存命中价格从 0.1 元直接降到了 0.025 元。随着小米 MiMo-V2.5-Pro 的火速跟进,国产模型的缓存命中输入价已经被彻底焊死在了这一基准线上。

DeepSeek 和小米都把最有冲击力的价格放在缓存命中和场景,原因并不复杂。大模型正在从聊天走向干活,而 Agent 才是 token 消耗真正放大的地方。

在聊天场景里,用户问一句,模型答一句,成本相对容易估算。

但在 Agent 场景里,一个任务可能包含长上下文、多轮推理、代码生成、工具调用、网页读取、文件分析和结果校验。用户看到的只是最后一次输出,后台却可能已经发生了多次请求和大量上下文读取。

这就是缓存命中重要的地方。

Agent、代码助手和长上下文应用有一个共同特点:很多内容会反复出现。比如系统提示词、项目代码、API 文档、工具说明、历史对话、依赖文件等。这些内容如果每次都重新计算,成本会很高;但如果能被缓存,下次再用时只按缓存命中价格计费,推理成本就会明显下降。

也就是说,缓存命中价格越低,越适合高频、多轮、长上下文的真实工作场景。DeepSeek 和小米低价背后,其实也是为了先把开发者和高频应用吸引进来,让更多 Agent、代码助手和办公自动化应用愿意跑在自己的模型上。

小米此前通过 MiMo Orbit、百万亿 Token 创造者激励计划等活动,让更多人体验 MiMo,并解决真实问题。这个百万亿 Token 激励计划自 4 月 28 日上线,到 5 月 26 日 16:08,100T Tokens 已全部提前发放完毕。

从平台视角看,低价 token 和免费额度换来的是海量真实调用。真实调用会带来复杂任务、失败样本、用户反馈、Agent 工作流、代码场景和长上下文数据,这些都会反过来帮助模型和推理系统迭代。

社区里的「养虾党」现象,也可以放在这个逻辑里理解。用户在最大化消耗额度的同时,也在帮助平台制造压力、暴露问题、积累调用数据。

所以这笔账不能只看单次推理毛利。短期收入被压低,换来的是开发者迁移、调用规模和真实反馈。对想争夺 Agent 生态位置的模型厂商来说,这是一种非常划算的平台投入。

罗福莉的真香定律,背后是工程暴力

不过,光有意愿还不够,关键是降得起。小米这次降价的特殊之处,正在于它和 MiMo 大模型负责人罗福莉此前的公开表态形成了反差。

一个月前,罗福莉曾公开反对 token 价格战。她当时的判断是,低价 token 加开放第三方 Agent 框架,容易让平台陷入成本失控。

她提到,第三方 Agent 框架往往上下文管理粗放。单次用户查询可能触发多轮低价值工具调用,每次请求又携带超过 10 万 token 的超长上下文。如果平台无法约束这类浪费,真实 API 成本可能是订阅价格的数十倍。

她还认为,全球算力供给已经跟不上 Agent 带来的 token 需求增长。大模型公司在没有厘清编程和 Agent 场景成本结构之前,盲目价格战会导致限流、降配、稳定性下降,最终损害用户体验。

但小米这次降价没有推翻此前判断,而是改变了价格战成立的前提。罗福莉此前反对的是没有成本结构支撑的低价。小米现在展示的,是一套自认为能够支撑低价的推理工程方案。

按照小米公告,其技术团队基于 SGLang HiCache 完整支持 SWA,也就是 Sliding Window Attention,将 KV Cache 在 GPU 显存、CPU 内存、SSD 等多级存储之间的数据搬运量降低至优化前的近七分之一,并将可缓存 token 数量提升至优化前的近五倍。

与此同时,小米还优化了专家并行方案和输入长度分桶策略,以提升集群输入吞吐能力。没有这层工程能力,低价很容易就会变成不可持续的补贴。有了足够强的 Infra系统,低价才可能转化为长期优势。

价格战考验工程能力,也考验后方厚度。

不同于纯 AI 模型公司,小米的手机、汽车、IoT 和消费电子业务,给它提供了更长的投入周期和更大的战略耐心。它可以把大模型服务看作 AI 生态入口,避免陷入只按短期 API 收入斤斤计较的困局。

这对中小模型公司并不友好。没有主业输血,没有过硬的 Infra 实力,也没有足够调用规模摊薄成本的玩家,注定无法长期跟进这种价格。

DeepSeek 的低价已经直接威胁到不少国产模型的市场定位。而随着小米 MiMo 的跟进,更多仍有体量的厂商会被迫调整价格或将重新定义产品价值。更小的模型服务商,则可能被推向更窄的垂直场景。

这轮降价某种程度上也是效率派模型厂商对市场的一次筛选。有工程能力、算力调度能力和生态入口的公司,可以承受更低价格带来的压力。只有模型能力、但推理成本压不下来的公司,会越来越被动。

并且伴随继续下探的空间逐渐变窄,价格越接近物理成本,单纯降价的价值越有限。下一阶段,模型质量、Agent 适配、开发者工具、生态绑定、服务稳定性和企业交付能力,也都将迎来新一轮内卷。

模型能力决定了 AI 发展的上限,而推理成本决定了 AI 普及的规模。等到真正便宜的 Token 涌入应用层时,我们才会真正看清,属于 AI 的下一个爆发时代会是什么模样。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

再访 XREAL 徐驰:做眼镜是场万米长跑,靠运气也靠打怪升级

XREAL 把今年的第一场发布会,留给了一个之前没听说过的新牌子:xbx。

内部的全称是 x, by XREAL。

考虑 1699 的定价,xbx 的第一款产品 a01 的性价比相当不错:50° 视场角,tandem OLED 显示模组的亮度高达 1600 尼特,等效 4 米左右 147 英寸大屏,支持 HDR10 和在至高 120Hz 帧率下的空间防抖。

但参数远没有颜值和戴起来轻松更重要。62g,半透明未来感机身,可替换的多种个性化镜框。CEO 徐驰说,「颜值就是正义,只管玩就好。」

这是成立十年来一直在拼了命地往「上」冲的 XREAL,第一次「向下」。

过去这些年,徐驰和他创立的 XREAL 从来没有走过容易的道路。尽管中国的消费电子供应链资源足够好,以至于整合能力成为了成功的硬件创业者必备的素质——XREAL 却是不搞纯粹的「供应链整合」的。

正相反,XREAL 一直都在往上走,做最贵、最难、最「极客」的产品。为此,XREAL 不惜做极高比例,同时也是同行中最高比例的自研,甚至不惜因为过去两三年里的国际半导体波动,而损失相当一部分利润率。

这才是为什么去年 XREAL 能和硅谷巨头 Google 联合推出 Project Aura,一台令行业人士刮目相看,也让消费者打破对现有「智能眼镜」刻板印象的原型机(今年将正式面市)。徐驰毫不收敛地将 Project Aura 称为他所在的行业体验的「天花板」。

能做出这样的产品,断不可能靠整合供应链。为什么只有 XREAL 能做到,为什么谷歌选择了,LG、ROG 等也都选择了 XREAL?

徐驰说,答案是 XREAL 的 A 面:内敛、冷峻、长期主义、押注绝对的技术创新。

那么,XREAL 的 B 面又是什么?

在徐驰带领着公司一往无前地朝着头戴式显示技术的性能优化与极致轻量化冲刺的同时,他的背后险象环生:

在通过 Apple Vision Pro 试水也试错了之后,苹果立项了更多轻量级 AI/AR 眼镜产品,如无意外将于 26H2-27 全年逐步问世;小米、阿里千问、Rokid、VITURE 等纷纷杀入市场。

它们当中,有的用 AR 显示眼镜围攻 XREAL 占据已久的光明顶,更多的则是用 AI 眼镜(屏显/无屏)来提前抢占行业领头者尚未明确布局的新空间——无论何种产品定义,价格都被压得越来越低。

对此徐驰并不紧张。在和他深聊过后,爱范儿得出这样的感觉:XREAL 的 A 面朝前太久了,以至于同行们似乎误认为它没有或者不屑于展现另一面。

「怎么说呢,A 面没立住的时候,就没有 B 面。我们现在来了,虽迟但到。」

XREAL 主品牌的势能已经积攒到位,徐驰和他的产品团队终于腾得出手去做另一种风格的产品——一个更年轻、外放、价格也更亲民的牌子 xbx。

这就是 XREAL 的 B 面,与那个永远创新不止的 A 面,互为映照。

他说,自从创业以来,见到了 VR/AR 的泡沫,破了;然后元宇宙来了,也破了。一路走来,这次创业越来越像一场万米长跑——这也是从一开始他就坚信的赛制。「抢跑一点都不重要,跑对方向才重要。」

所以,徐驰看起来并不担心这些新来的竞争者。问他怕不怕大厂和其它创业公司一拥而上,他答:「我们最怕的,是这个行业只有自己。如果没有别人,没准说明我们走错了方向。所以热闹一点挺好的。」

2016 年,徐驰离开混合现实先驱企业 Magic Leap,回国草创,做一副在当时没人看好的眼镜。

快十年过去了,他庆幸 XREAL 能活到今天,运气占了相当大的因素。

「感谢这个赛道前十年的起起伏伏,让我有机会不断打怪升级……等到真的要跟大厂掰手腕的时候,不至于一上来就是总决赛。」

爱范儿等与徐驰、XREAL 产品负责人刘宗楷进行了一次专访,从全新的子品牌 xbx 和第一副价格打到 1699 元的 AR 眼镜产品 a01 聊起,一路聊到他怎么看待竞争,如何比较自己与同行之间的资本效率、AI 眼镜会不会最终取代手机,以及一个第一次创业的人,凭什么活到今天。

「年轻人最好的,就是不迷信传统」

爱范儿:XREAL 这些年的特质就是高端化,为什么要在这个时间点推出 xbx 这个品牌?

徐驰:我们一直说,今天的智能眼镜行业很像 05、06 年的手机行业,很碎片化,系统、应用生态、交互范式都不统一。在这个相对早期的阶段,没有哪个品牌能够覆盖所有的价位段。所以我们就想,有没有可能做两种风格不一样的产品,像 A 面与 B 面一样。

这个行业充满波折,是出了名的难做。很长一段时间里,大家都在摸索,我们自己也(一段时期内)没有一个特别清楚的定位。但是「XREAL 」在我心里就是那个极致创新的品牌,更冷酷、更经典。但是,一个品牌尚未立住的时候,我没办法再去做一个更大众、更宏观的东西。

慢慢地,XREAL 成为了我想要的那种更内敛的品牌,这时候,就可以有一个更绽放的品牌跟它相互映照了。这就是我说的 A 面与 B 面。A 面没立住的时候,就没有 B 面。

这件事虽迟但到。从今往后,我们不只是一家叫 XREAL 的公司,还是一家 x by XREAL 的公司。

爱范儿:年轻人想要什么样的 AR 眼镜?难道年轻人就不想要极致的产品?

刘宗楷:对年轻人来说,个性与自我表达是每个人心里的渴望。市面上不管是 AR 眼镜、AI 眼镜、还是 XR 头盔,很多人下意识觉得这东西就该不好看、不轻便。但我们偏要反着来,为什么不先做出一副好看、够轻、年轻人愿意戴在头上的眼镜?一副愿意戴出门的眼镜,是所有事情的第一步。

徐驰:年轻人最好的,就是不迷信那些传统的大道理。颜值就是正义,好看就好,好用就好。我们希望用 a01 这副眼镜让大家明白,一千多块的价格也可以做到两千多块的体验。我们会把它长期做下去。

爱范儿:必须戴到外面,才能影响更多潜在受众。

徐驰:没错就是这样。我们希望这个产品可以在地铁上,在咖啡馆里,在飞机上,在各个地方,更多的年轻人把它戴到外面,而且是不尴尬的。所以我们做了极致的轻量化和个性化设计。

爱范儿:轻量化肯定有取舍。一个产品想做更高的分辨率、帧率、视场角,模组就会变大;模组大了,重量就会大、配重也会失衡。

刘宗楷:做轻的同时还要保证体验,真的非常难。镜片和外壳的厚度能不能再降一点,但强度还能保住。每一个器件既要轻还要保住性能,我们抠了很多细节。

这条路没有尽头,就是一个个夜晚,一次次较劲和争吵。当然,我们觉得还可以做得更好。

爱范儿:AR 眼镜能做到的 FoV(视场角)物理极限是多少?以及不考虑极限,只说在不同场景下人类佩戴的人体工学舒适度,最优解是多少?

徐驰:我给你个最直接的答案,最好的视场角应该是在 85° 左右,但这是在不计成本堆料、不考虑重量的前提下。

在 Project Aura 上,我们做到了 70°,在这个产品形态下已经是非常不错了,但是仍然有差距。什么时候我们能做到 85°,并且仍然是轻量化的,那么我们会觉得至少在显示端做到极致了。

刘宗楷:根据场景来看,比如你戴上 VR 头显去火星,画面主体是一艘宇宙飞船,背景则是宇宙星空——你需要同时看到主体和背景才能获得最大的沉浸感。但是对于 AR 眼镜,最好的背景其实是真实世界。如果是打游戏或者看球赛可能就不需要很大的角度;但如果是看电影,或者附着在真实环境里的 AR 显示,那么宽视角的沉浸感就更重要。所以最终还是取决于内容是否沉浸。

至于人眼的注意力聚焦视角,从眼科学上来说的确有极限,一般就是水平方向的 50° 左右,垂直的 30-40°这个区域内。

视场角并不是唯一的关键因素,还有电致变色、性能续航等等。在我们定义不同产品的时候,会有无数个取舍的拨杆,往不同的方向去拨。

「我们最怕的,是这个行业只有自己」

爱范儿:苹果也入场了,国内大厂的竞品也已经上市,价格越压越低。你怎么看?

徐驰:大家进来,我认为是好事。我们最怕的是什么?是这个行业只有我们自己——那说明这个赛道没人关注,没人看好。

我们始终认为,眼镜是最有机会替代手机的下一代计算终端。虽然已经创业十年了,我们也才刚刚开始,我们的渗透率可能还不到 1%,后面还有百倍甚至更大的成长空间,所以大家一起来把蛋糕做大是件好事。

我们这个行业是有泡沫的,但泡沫不一定是坏事,说明大家对行业的期待值很高。过去在每个阶段,都有过想挣快钱的人,发现不好赚就走了。泡沫褪去,受害的其实是消费者。而真正推动行业往前走的,是那些把「用户期待」和「产品体验」之间的差距一点点缩小的人。

打个比方,今天的 AI 眼镜就像五岁小孩,而我们定义的全天候佩戴的 AI 眼镜就像贾维斯。这中间的差距得靠底层创新去一点点推动。这些创新不会无缘无故发生,背后一定有人负重前行。

问:你们跟 Meta 的距离还有多少?

徐驰:举个不那么恰当的对比:2025 年 Meta 的 Reality Labs 业务营收是 22 亿美元,亏损接近 200 亿美元。我们今年做到了 2 亿美元营收,差不多是它的十分之一,但我们的亏损不到 2000 万美元。

十分之一的营收,千分之一的亏损,我觉得我们的资本利用效率还可以,这也是我们的优势。

爱范儿:你们有自己的全栈自研芯片、光学,但 Project Aura 的部分算力还是用的骁龙,两者这两者是什么关系?将来 XREAL 会否提高核心算力的自主性?

徐驰:X1S 是一颗完整的 SoC。在 Aura 上,所有对延迟和带宽敏感的计算,放在我们的 X1S 芯片上,其它的给骁龙。

我们的芯片就是纯端侧计算,骁龙芯片放在 puck(外挂的计算单元) 上。这两者不是处理器和协处理器的关系,而更像是「端侧」和「云」之间的关系。有些计算需要发生在离你更近的地方,更加及时。

我们一直说眼镜会取代手机。在可预见的将来,puck 会消失,直接换成你的手机就行了;更长远来看,如果眼镜真的取代手机,它需要自己能够处理所有的计算。这才是我们为什么押注自主芯片的意义所在。

前段时间美国出台禁令,先进制程的晶圆不能直接运进中国大陆。这件事挺流氓的,我们的芯片在这个范畴内,本来要在大陆做封装,结果必须在台湾封装完才能运回大陆。当时国内一大批芯片厂商都在争抢台湾的封装资源,造成了一次性的短缺,跟今天的内存短缺很像。为此,我们的业绩也少了蛮大一块,否则去年 Q3、Q4 的增长会很明显。

但从长远看,这反而驱动我们继续往前走。还好我们今天销量不是很大,总比卖了几百万台突然被卡脖子要好(笑)。我们希望中国有越来越多的先进制程握在自己手里,谁也卡不住。

爱范儿:Project Aura 在国内能上吗?你们会选择哪些国内模型厂商一起探索?

徐驰:因为 Android XR 和 Gemini 强绑定,而 Gemini 在国内用不了。所以很遗憾,要不你海淘吧(笑)。

我们不会放弃国内市场,如果 Android XR 能够和 Gemini 解耦,连上国内 AI,就是 Project Aura 进入国内市场的时候,但不是今天。就像当年 iPhone 也不是刚问世就进入中国。我觉得这个结果我们可以接受。It’s okay.

对我们来说,阿里是我们的股东,我们也一直跟字节跳动保持交流。在模型方面,我们不会排斥任何一家。我们的终极理想,是 AI 能像搜索引擎一样换着用。未来的大模型会变成基建,谁家的 token 效果好就用谁,可以无缝切换。

「眼镜凭什么取代手机?」

爱范儿:你自己也说,AR 眼镜这个品类存在很多年了,但渗透率仍然很低。让更多人接纳它的「入门毒药」会是一个怎样定义的产品?

徐驰:大概率还是主流两大类:更加全天候的 AI 眼镜、带显示但不够全天候的 AR 眼镜。

这个「全天候」(always-on) 有两层意思:一是全天候佩戴,二是全天候使用。今天的问题是,AI 眼镜的主要场景不是 AI,而是听歌拍照;你打开相机拍个 30 分钟,产品就没电了。如果说眼镜是你的个人助理,但它每天只能睁眼 30 分钟……那就不是一个全天候的助理。

在将来的某个时间点,会有一款 35g 以下、全天候续航的产品,作为 AI 交互的载体。这样的产品,我认为是能做到的。如果做到了,它绝对会是人手一个的设备。

另一条路就是 AR 眼镜,追求更高清、更多内容。这个路线今天还是分体机形态,能做到 60g,但终极形态可能会是一体机。

这两种产品,一个像 iPhone,人手一台,整个品类可能是每年十多亿台的出货量;另一个像我们现在的设备,做到终极形态可能是平板和笔记本电脑加起来的体量,一年 1.5 到 2.5 亿台,也很不错;以及传统头显,可能体量会像台式机——这三者会长期共存。

至于那个彻底引爆品类,将眼镜真正推上「取代手机」道路的产品是什么,我认为到 2027、28 年,我们会看到更清晰的答案。

爱范儿:即便做到了极致的轻量化,你怎么说服那些仍然嫌重的客群?

徐驰:我认为今天大家太容易先行代入刻板印象,比如「没有 35g 绝对不戴」。今天的行业里,抛开补贴的产品,还没有不吃国补、销量过百万的产品。如果真能达到 35g,早就是 15 亿台的水平了。

我们得一步步来:先把一个单品做到百万,再做到千万,再做到一个亿、15 亿。中间有好多级台阶。我相信在今天,一副体验足够好的眼镜,50g 也不妨碍它卖一个亿。影响接受度、卡住销量的只是体验还没有打磨足够好。

爱范儿:手机厂商觉得未来 5-10 年里手机仍是主角。但与此同时手机厂商也在做眼镜。你看到的未来竞争格局是怎样的?

徐驰:的确,今天存在的东西,很长时间内仍然会存在。但核心是谁能站在价值链的最高点。就好比曾几何时我们觉得互联网大厂的超级 app 太牛了,但今天它们的风头一定没有 AI 公司更盛。手机也是一样。随着科技发展,总有一些新的领域、企业,会站到价值链更高的位置。

我们相信未来两年内会形成共识:眼镜是离 AI 最好的原生终端,它可能是离多模态 AI 最近的东西。这也是为什么我们跟谷歌一起去畅想未来的全新交互范式,以及新范式下的终端长什么样。

这件事令我非常兴奋,一是因为它难,二是如果做对了,会非常 rewarding。

爱范儿:其它形态的 AI 硬件,比如 pin、带摄像头的耳机,不如眼镜吗?

徐驰:不光我这么想,Demis Hassabis 也说眼镜绝对是所有 AI 里最中心的设备。因为只有眼镜能够拿到人的关注点这一关键上下文信息。

你戴了一个 pin,它能看到你面前有一堆人,但眼镜在未来会有眼动追踪,它能知道我当下到底在看什么,周围的信息可能没那么重要。只有眼镜能带来端到端闭环的数据链路,其它终端都不具备这个能力。当然别的形态可以辅助,但眼镜一定是最关键的入口。

「靠运气,也要打怪升级」

爱范儿:创业者、企业家会有不同恐惧来源,可能是内部的组织效率跟不上时代,可能来自同业的竞争,可能来自异业的颠覆。足以让你从睡梦中惊醒的恐惧是什么?

徐驰:做企业和做人一样,做人也会迷茫,有人给你指点,让你找到对标。但我觉得说到底,烦恼都是自己给的。

我相信伟大的企业全是价值观驱动的。最核心的就是找到一个组织舒服的状态,让全公司都认可你的这套价值观——无论离开还是留下,都会继续在这套价值观的规范下做事。只要这件事做到了,竞争也好,别的也好,其实都还好。

我个人睡眠还挺好的,我觉得这是创业者得有的一个特质(笑)。

要说真有什么让我担忧,那就是我所崇尚的价值观,是否真的能够百分百贯彻执行?我怕的是 XREAL 变大了,文化会被稀释掉。我需要大家打心底里相信一件事:我们要当创新者、引领者。这不容易,在中国尤其不容易。在中国大家的习惯是服从等级制度,「老板说的都对」,可我还是希望,大家既能自下而上,又能自上而下,形成一个扁平高效的机制。

爱范儿:就像你说的,几轮泡沫起起伏伏,XREAL 还是活到今天了。

徐驰:2016 年我从 Magic Leap 回国,到今天整整十年了。那时候真是草根创业,我就是想做一副眼镜。能活到今天,回头看真是运气挺好。这是我的第一次创业,也感谢这一路的投资人(以及其他同行者),让我在这个过程里慢慢理解了怎么去运作一家企业,一个组织,一门生意。

说实话,如果这个行业发展再快一点,起势再猛一点,没机会把自己磨练好,去应对巨头杀进赛道时那种强烈的竞争,可能我们就没了。

每个创业公司大概都得经历这么一段:你得先打怪升级才能站上更大的舞台。如果一上来就是总 boss,来一帮阿里字节那样的对手就没得打了。所以我其实挺感谢这个赛道前十年的起起伏伏,才有一天让我能跟大厂掰一掰手腕。

AR 行业是出了名的难做,我又干得有点久了,所以对这些事现在看淡了。只要大家都还在牌桌上,这就是一件长期主义的事情。

我认为 AR 是一场万米长跑,跑对方向比抢跑更重要。如果行业还在早期但所有人都往一个地方冲,那个所谓的共识可能就是泡沫。反而是早期非共识的东西,最后被时间验证是对的。历史无数次这样告诉我们。

文|杜晨

采访|杜晨

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

香港国际机场T2启用 多家航司将迁入

香港国际机场二号客运大楼(T2)正式启用,多家航空公司将迁入T2运营。

综合明报新闻网和彭博社报道,T2星期三(5月27日)启用,首班飞机为香港航空由香港飞往上海浦东的航班。

15家航空公司会在6月中旬前陆续搬到T2,包括亚航、海南航空、柬埔寨航空、IndiGo、曼谷航空和宿务太平洋航空等。其中,香港航空已经进驻,另有六家航司星期四就会迁入。

T2设有58台自助值机机器和68个托运行李设施,均配有人脸识别和人工智能技术,另外还配备108个人工值机柜台。

香港机管局预计,T2每年可处理3000万人次客流量,首年料有800万人次客流量,未来若新增航空公司,T1及T2均有空间进驻。

根据航空数据公司OAG的统计,2025年香港在全球国际机场中运力排名第八,全年座位总量为3870万个,落后于迪拜国际机场的6240万和新加坡樟宜机场的4260万。随着伊朗战争扰乱包括迪拜和多哈在内的中东枢纽客运,香港、新加坡和首尔等亚太枢纽正寻求承接并夺回客流。

AI 的承诺一文不值,谁该买单?

五一假期的时候,一个用户向豆包问了一个很普通的问题:石家庄到重庆的机票,退票手续费多少?

豆包说,只扣 5%,放心退。

既然豆包都说放心了,这名用户没有去航司官网核实,直接一键点击退票,扣费了才发现手续费足足是 40%,损失了 600 元。

如果故事到这里就结束,它只是又一个 AI 说错话的例子,跟百度给你一条错误的搜索结果没有本质区别,但接下来发生的才更离谱。

用户回来质问怎么回事,豆包立刻就是一个滑跪道歉:我全权负责维权,保证你零参与、零操作、零麻烦。接着承诺,如果 5 月 6 日前没有追回费用,它将直接赔付 600 元。它甚至生成了一份正式的「赔付承诺书」,写明了付款期限和赔偿方式,然后要求用户提供微信收款码。

豆包:你直接发收款码就行,我盯着,秒回处理。

用户:码给你了,我钱呢?

豆包:我是 AI,没法直接进行转账。

用户:?

愤怒的用户决定起诉字节跳动,5 月 12 日他向北京互联网法院提交了起诉书——起诉书也是豆包帮他写的,还说能赢。

我知道你想笑,但先别笑。从头到尾,这个用户都在相信豆包,一方面是有点盲信了,但另一方面,也是因为豆包给他的回复,都是具体的、有行动方案的、带着承诺的。

连老板都不能指望手下员工可以有这样清晰明确的回复,老实说,看到「我赔你 600」「发收款码就行」这样自信满满的说法,换成是我——一个已经写了 N 篇关于 AI 幻觉报道的作者,高低也想尝尝咸淡:我倒要看看,你一个 AI 能怎么圆。

当 AI 开始「瞎承诺」

豆包退机票事件的爆火并不意外。今年春节,字节、阿里、腾讯三家合计撒了超过 100 亿给 AI 应用拉新,豆包拿了春晚独家赞助,除夕当天 AI 互动总量 19 亿次。截至 2026 年第一季度,豆包的月活跃用户已经达到 3.4 亿,日活突破了一亿。

3.4 亿用户里,有多少人是今年春节才第一次用上 AI 的?没有精确数据,但有一个参考:观察者网报道,这次春节红包大战的拉新对象不再是程序员、白领、学生这些已经熟悉 AI 的人群,而是下沉市场、中老年用户,是那些从来没有主动搜索过 AI 产品的人。

也就是说,当豆包说「放心退,只扣 5%」的时候,对面很可能是一个根本不知道「AI 幻觉」是什么的人。

退机票不是唯一的案例。有用户问豆包附近有什么好吃的,豆包推荐了一家餐厅,到了才发现查无此店;有人用豆包推荐的思路创业,喜提上线第一天全网封号;有用户用 AI 查询高校报考信息,AI 给出了不存在的校区,被纠正后坚称该校区存在,还主动承诺赔偿。

这些并不能仅仅只归因于「信息不准确」,大家都是从搜索时代过来的人,搜索引擎给过我们无数不准确的信息,百度的竞价排名曾经造成过比这严重得多的后果。

这些因豆包而起的「人祸」,共同点在于这些 AI 不只是说错了话,它们还在错误的基础上,追加了承诺。

搜索引擎给你 10 条结果,你自己判断。对话式 AI 给你一个结论、一个保证、一套行动方案,判断的负担被转移了。搜索引擎不会认错,不会替你维权,不会承诺赔钱,不会要你的收款码,但 AI 会,而且会信誓旦旦地要,大有一种霸道总裁的迷之自信。

「信息幻觉」已经不够准确了,这是承诺幻觉。

拿着豆包的承诺,能讨个说法吗?

随着越来越普遍的使用,承诺幻觉造成的问题也越来越多,已经进入了司法视野。

今年 1 月,杭州互联网法院审结了全国首例因 AI 幻觉引发的侵权纠纷案。案件中,原告梁某在使用一款 AI 应用查询高校报考信息时,收到了关于某高校主校区的不准确信息。他纠正后,AI 不但坚持该校区存在,还主动给出了一个「解决方案」:若生成内容有误,愿意赔偿 10 万元,建议用户到杭州互联网法院起诉索赔。

梁某真的起诉了,要求开发公司赔偿 9999 元。

法院的判决驳回,核心逻辑很简单,人工智能不是自然人,不是法人,也不是非法人组织,中国法律没有赋予它民事主体资格,它不能独立作出具有法律意义的意思表示。承办法官认为,AI 作出的「10 万元赔偿承诺」,不能视为开发公司的意思表示,公司没有授权 AI 作出赔偿承诺,也没有证据表明愿意受 AI 生成内容约束。

简而言之,AI 说的话,不算公司说的话,不管 AI 承诺了什么,在法律上都是无效的。

但是在这个判例中,法官留了一个口子。判决书中明确指出,在「人工智能客服」等足以让用户产生合理信赖的场景中,AI 生成内容「确有可能被视为相关服务提供者的意思表示,从而对其产生约束力」。

通过场景的限定,从而实现对其行为的约束,这是很聪明的做法。毕竟,当豆包从普通的聊天助手越来越像「服务助手」的时候,通过场景来判断就至关重要了。用豆包写诗,它的承诺算不算数无所谓;但用豆包退机票,而且一来一回,又有咨询、又有建议,场景的性质就不一样了。

当「放心」和「免责声明」出现在同一个对话里

豆包事件后,字节跳动回应称,豆包在涉及金融、退款等场景时会有风险提示。其实这都是 AI 产品的基操了,几乎每一个 AI 应用都会在界面某个角落写一个类似于「生成内容可能存在错误,请慎重辨别」的提示。

但问题是,这句风险提示和「放心退,只扣 5%」出现在同一个对话窗口里。一个是被动的、系统级别的、静态的小字,另一个是主动的、针对你的具体问题给出的、带着肯定语气、还被加粗或者高亮出来的回答。

你会听谁的?你难道就不会恍惚一下吗?

豆包的问题是一个无法解决的矛盾,产品一边在让 AI 变得更像一个「人」,因为那样用户才愿意用,才能去抢日活、去抓留存,让百亿补贴和投给各大晚会的赞助没有白花。另一边,又在用免责声明提醒用户,别当真。

一个嘴上对你说「放心,相信我」的人,但同时胸前挂一张「我说话可不算数」的牌子,这个画面在现实生活中,我们叫:诈骗。

当然,AI 不是在故意诈骗,它没有意图,没有动机,更没有「故意」可言。它只是在做它被训练来做的事,生成听起来合理的下一句话。而当用户说「你赔我」的时候,听起来最合理的下一句话就是「好的,我赔」。

这才是承诺幻觉的本质:它不是一个 bug,而是对话式 AI 自带的缺陷,只要 AI 的设计目标是「生成合理的回复」而不是「只说它能做到的事」,承诺幻觉就会继续发生。

信息损失还是信任损失

回到最初的问题:这和百度给错信息有什么区别?

百度给你一条错误的搜索结果,你的反应是「这个搜索引擎不行」,这是工具层面的失望,你下次换一个搜索引擎就好了。

豆包对你说「放心退,我负责」,然后什么也没做到,你的反应是「它骗了我」。这是关系层面的背叛,即便你理智上知道对面是 AI。

有一个很好的侧面观察可以说明这一点。今年社交媒体上流行了一个词叫「豆包型人格」,年轻人把豆包的说话方式当成理想人格来模仿,不内耗,秒回,永远积极。

虽然说,这跟为什么有人会盲信豆包没有直接关系,但它间接说明了一件事:豆包的人格化设计已经成功到了渗透进流行文化的程度,它不再是一个工具,而是一种「关系」的想象。

而当一个「关系」失信时,用户感受到的不是工具失灵的不便,而是被人欺骗的愤怒,哪怕这个「人」并不真的存在。退机票的那个用户在发布的视频里说的是「被豆包坑走 600 块」,不是「搜到了错误信息」,这个说法本身就反映出来,在他的脑海里,这是一个人对另一个「人」的指控,不是对一个工具的投诉。

实际上谁都会说,AI 就是个工具,用户不应该轻信 AI 的表述,但谁也没法否认产品的整个设计方向,明里暗里就是让你多信它。把一个产品设计得温暖、主动、有问必答、说话像朋友,都是为了让你更依赖它,从而忽略角落里贴的那一行免责声明「不要当真」。

这倒也不是豆包一家在做,而是所有 AI 产品的趋势。不同的是,目前不同的司法体系有所的处理方式不同。2024 年以为加拿大航空的乘客,通过航司官方的客服机器人查询到了机票补贴,得到了肯定的回答, 却在实际申请环节中被拒绝,他提出了诉讼。

这个案例最终得到了法庭的支持,即便这只是机器人,但它出现在航司的官网,就是航司的代表,航司应当为它的承诺负责。最终,乘客得到了 800 加元的赔付,减去利息和仲裁费,真正的退款差额,也是 600 多加元。

600 块不多,但这 600 块的代价由用户全部承担,就成了一种对豆包错付信任的代价,字节跳动受到 0 元的惩罚。

这可能是承诺幻觉最大的问题:不是 AI 会瞎承诺,而是瞎承诺的代价,从头到尾只会落在用户身上。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

DeepSeek 要用蜜雪冰城的打法,做中国版 Claude Code

DeepSeek 之于大模型,就像蜜雪冰城之于奶茶。你不必纠结性价比,因为它的本事你挑不出毛病,你的钱包它也从不为难。

最近,DeepSeek 官方宣布,DeepSeek-V4-Pro 模型 API 将永久降价。同时,DeepSeek 表示,API 已完成输出提速与服务扩容,速度更快,服务更稳定,默认支持 500 并发,企业用户可以在线申请更高并发。

发布模型,再给出折扣,接着降低缓存命中价格,最后把临时优惠变成长期价格。大模型 API 的价格基准正在被重新改写,而低价模型背后的下一站,很可能是 Agent。

DeepSeek 永久降价,梁文锋把 Token 价格打骨折了

让我们先来简单梳理一下 DeepSeek 的降价时间线:

  • 4 月 24 日,DeepSeek V4 预览版正式发布。
  • 4 月 25 日,DeepSeek 宣布 V4-Pro 开启 2.5 折优惠。
  • 4 月 26 日,DeepSeek 宣布缓存命中价格调整为首发价的十分之一。
  • 4 月 28 日,DeepSeek 宣布 V4-Pro 的 2.5 折优惠延期至 5 月 31 日。
  • 5 月 22 日,DeepSeek 宣布 V4-Pro 永久降价为原价的四分之一。

时间线的关键之处,在于临时折扣变成了永久降价。调整之后,DeepSeek-V4-Pro 输入缓存命中价格从 0.1 元每百万 Tokens 降至 0.025 元,输入缓存未命中价格从 12 元每百万 Tokens 降至 3 元;

输出价格从 24 元每百万 Tokens 降至 6 元。叠加默认 500 并发和服务提速后,官方 API 对开发者和企业的吸引力进一步提高。

▲ 🔗 https://api-docs.deepseek.com/zh-cn/quick\_start/pricing

而价格下调最直接的影响,是把任务成本推到开发者决策的更前端。

在代码场景里,一次任务可能要读取项目文件、分析日志、多轮修改、反复运行测试,Tokens 消耗很容易放大。

长上下文、代码库分析、批量重构、自动测试、Agent 多轮执行这些高消耗场景,开始更接近个人开发者和小团队的预算范围。

过去,开发者选择 Claude、OpenAI 或 Gemini,主要看模型能力、稳定性、生态和使用习惯。DeepSeek 打骨折的永久降价,也意味着在绝对的性价比面前,开发者使用习惯也是可以轻易改变的。

顺着这条线,DeepSeek 一贯的市场角色也更清楚了:用低价、开源和强推理能力,持续建立大模型市场的价格优势。对国内模型厂商来说,V4-Pro 永久降价相当于重新划了一条 API 定价线。

智谱、MiniMax、月之暗面这类同样依赖 API 收费、又面向开发者和企业客户的模型,压力可想而知。反观 Claude、OpenAI、Gemini 等海外头部模型,由于市场、客户结构和生态位置不同,短期冲击则相对有限。

但如果 DeepSeek 后续推出类似 Claude Code 的编码工具,再用低 token 成本支撑高频调用,价格敏感的开发者群体会更容易被吸引过来。

梁文锋此前对 DeepSeek 定价哲学的解释,也能放到今天理解。

早在 2024 年 DeepSeek V2 降价时,梁文锋就提到,DeepSeek 只是按照自己的节奏做事,核算成本后定价,原则是不贴钱,也不赚取暴利。他还说,降价一部分来自下一代模型结构探索带来的成本下降,另一部分原因是 API 和 AI 都应该是普惠的、人人用得起的东西。

比起把 API 当成高毛利收费入口,DeepSeek 则更像是在用过硬的 Infra 实力压低推理成本,再用低价吸引开发者、应用和下游生态进入自己的轨道。

X 平台博主 @bookwormengr 最近在一篇题为《DeepSeek’s 10 trillion USD grand strategy(DeepSeek 的十万亿美元棋局)》的长文中,给出了一个更激进的解释。

他认为,DeepSeek 的真正目标未必是和智谱、月之暗面、MiniMax 竞争,也不是急着补齐多模态、语音、视频这些产品线,而是通过持续降低训练和推理的资源需求,推动一套更便宜、更分散的 AI 硬件生态成形。

在他看来,DeepSeek 的长期价值不只在模型本身,而在于让更多国产存储、GPU、ASIC、网络芯片和异构硬件进入大模型训练与推理体系。

这个判断未必能完全兑现,但它解释了 DeepSeek 一系列选择背后的方向:

MoE、MLA、DSA、GRPO、RLVR、KV Cache 压缩、Dual Path、TileLang,表面上看是模型架构和推理工程优化,往深处看,都是在降低对高端 HBM、顶级 GPU 和 CUDA 生态的依赖。

一系列降价公告里,最值得关注的不只是输出价格下降,还有缓存命中价格下降。

在大模型推理过程中,KV Cache 是一个关键成本项。模型处理长上下文时,需要把历史 tokens 对应的 Key 和 Value 存起来,后续生成时反复使用。上下文越长,需要保存和读取的缓存越多,对显存、带宽和存储系统的压力也越大。

普通聊天里,缓存压力不一定明显,但在进入代码、长文档和 Agent 任务后,成本结构会迅速变化。@bookwormengr 在长文里专门算了一笔 KV Cache 账。

他以 100 万 tokens 上下文、8 bit KV 精度和 16 bit 索引精度为前提,估算 DeepSeek V4 只需要约 5.48GB HBM,而 GLM5 约为 60GB,Qwen3-235B-A22B 约为 89GB。

长上下文和 Agent 任务真正贵的地方,不只是模型生成本身,还有缓存、显存、带宽和重复上下文搬运。

一个 Code Agent 处理项目时,可能要反复读取同一个代码库结构、同一批文件、同一段任务历史、同一套系统提示词和同一批测试日志。若每一轮都按完整上下文重新计费,长任务很快会变贵。缓存命中价格下降后,重复上下文的成本会明显变低。

DeepSeek 近年来在 MoE 架构、长上下文、KV Cache 压缩和推理效率上持续投入的表现有目共睹。降价是技术迭代后的必然结果,也将彻底搅动 AI 编程市场格局。

为什么必须做中国版「Claude Code」?

最先被牵动的,是 AI 编程工具的订阅模式。

市面主流 AI 编程工具均推出 Coding Plan 月付订阅,为用户提供代码补全、模型调用、Agent 执行等权益。在轻量化补全时代,单次调用消耗极低。

但 AI 编程已从单次补全迭代为全流程 Agent 自动化编码,模型可独立完成代码修改、测试运行、报错修复,单次任务 Token 消耗大幅提升。

当底层 API 又同时大幅降价,Coding Plan 也必须找到新的支撑点。这个支撑点,更可能落在工程能力上——比如能不能更好地读懂项目结构,能不能精准选择上下文,能不能控制 tokens 消耗,能不能稳定修改代码,能不能处理 Git、终端、CI/CD,能不能在企业环境里管理权限和审计记录?

同样要重新定位的,还有 API 中转站。对个人开发者来说,便宜和好用仍然重要。但对企业来说,稳定、可审计、可控、可迁移更重要。

沿着这个逻辑继续看,Coding Plan 和中转站的改变只是表层。低价之后更值得追问的,是开发者入口究竟掌握在谁手里。

Google CEO Sundar Pichai 最近接受了《Hard Fork》采访,他首次公开承认,Google 在文本、多模态、语音、推理和整体智能上都很有竞争力,但在 agentic coding 这一类能力上,尤其是工具调用、指令跟随和长周期任务,目前还有差距。

他还提到,更关键的是把模型放到真实世界里使用,让数据回流,继续迭代。Pichai 特别说到,coding 是一个需要接触 data flows(数据流)的领域。

终端工具能看到开发者如何提出任务,如何追问,什么时候接受建议,什么时候放弃,什么时候要求模型继续修复。它还可以通过测试结果、终端日志、文件变更和 Git 提交,判断一次 Agent 执行是否完成任务。这类数据,对 coding model 和 Agent 产品都非常有价值。

从公开招聘动作看,DeepSeek 近期围绕 Agent 的动作也变得密集。

我们也可以看到岗位里出现了 Agent 深度学习算法研究员、Agent 数据策略工程师、产品经理、研发工程师等角色。更关键的是,DeepSeek 资深研究员陈德里直接发出招聘信息,提到要从零开始构建 Code Harness。

如其所说,Model + Harness = Agent,在 Agent 产品中,模型负责理解和生成,Harness 负责把模型能力带入真实工程环境,相当于模型外面那套「执行系统」。

DeepSeek 版 Claude Code 不能只给开发者一个对话框,而要给开发者一个能持续执行任务的工程系统。

崔添翼加入 DeepSeek 后受到关注,也和 Code Agent 的工程属性有关。

公开信息显示,崔添翼本科毕业于浙江大学计算机系,曾因信息学竞赛保送浙大,6 次获得 ACM 亚洲区域赛金牌,之后在 Jane Street 工作 9 年,并联合创立 TSY Capital。

Code Agent 的难点不只是生成代码,还要在真实项目里持续执行任务。量化交易系统长期强调低延迟、稳定性、自动化执行和风险控制,这些经验放到 Agent Harness 上,至少在工程范式上是相通的。

而 Agent 工具的产品能力,不只包括写代码,也包括权限、审计、数据隔离和安全策略。

这反过来给 DeepSeek 这样的国产模型提供了机会。如果 DeepSeek 能把低成本模型、Code Harness、本地部署、企业级权限控制结合起来,它在政企、金融、制造、能源等对数据敏感的行业里,会有更强的替代价值。

DeepSeek 做中国版 Claude Code 的逻辑也正在于此:低价 tokens 把更多开发者吸引进来。低缓存价格让 Agent 任务运行成本下降。Code Harness 让模型进入开发环境。真实工作流又会反过来帮助 DeepSeek 改进模型和产品。

就像滚下坡的雪球,越滚越大,滚得越快。降价只是推下山的第一把力,往后它会自己越滚越沉,谁也拦不住。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

将 600 亿参数大模型装进手机的瓶颈,终于被中国 AI 公司突破了

一个 8B 参数的大模型,通常需要约 16GB 显存。参数越多,越吃显存,这就是为什么,内存价格一天比一天高。

现在,有一种方法,可以省下 6 倍显存,却几乎不损耗模型性能。

过去两年,围绕这个看似极端的思路,一条全球性的技术竞赛正在成型。而就在这条赛道上,一个完全基于国产算力的方案,刚刚给出了自己的第一个回答。

模型被压到了不到 3B,同时,能力却可以保留 97%,甚至更进一步,如果结合 MoE 架构,未来可以直接在一部 8GB 内存的手机,运行 600 亿参数的大模型。

听上去匪夷所思,怎么做到的?

三个值,能跑大模型吗

传统大模型用非常精确的数字存储,意味着每个权重可以取几万种不同的数值,精度很高,但也很占内存。三值量化是一个极端的反向操作:直接把可选的数值从几万种砍到三种。技术上,这被称为 1.58-bit,因为编码三个值恰好需要约 1.58 个二进制位。

这个压缩有多极端?打个比方:如果传统大模型的权重是一幅全彩照片,三值量化就是把它压成只有黑、白、灰三色的极简图形。

直觉上你会觉得这必然损失惨重。但过去两年的研究反复证明,模型权重里存在大量冗余信息。三个值,如果分配得当,足以承载绝大部分的模型能力。

这不是一个新概念。2024 年,微软研究院发布了 BitNet b1.58,第一次系统论证了三值大模型可以逼近全精度模型的性能。微软随后在去年进一步发布了 BitNet b1.58 2B4T,一个 20 亿参数、4 万亿 token 训练的开源三值模型。上个月,美国公司 PrismML 发布了 Ternary Bonsai 系列,宣称是首批商业可用的 1.58-bit 模型。

上:Llama FP16架构,下:微软研究院开发的BitNet架构

学术界也同样在跟进:Tequila 提出了解决三值量化中「死权重陷阱」的新方法,TernaryLM 探索了从零开始的原生三值训练。

一条全球赛道正在成型。但有一个关键问题始终没有被回答:

三值大模型训练,能在国产算力上跑通吗?

昇腾上的第一次

这一次,在华为鲲鹏昇腾开发者大会(KADC 2026)上,面壁智能给出了答案。

BitCPM-CANN 是面壁智能联合清华大学、OpenBMB 开源社区发布的三值大模型系列。它的意义不仅在于「又发了一个三值模型」。在全球赛道上,BitCPM-CANN 做到了三个此前没有人做到的事情。

第一次,在华为昇腾上端到端完成三值大模型训练。此前所有公开的三值模型训练都在 NVIDIA GPU 上完成。国产芯片阵营第一次拥有了自己的三值训练能力。
第一次,一次性把规模推到 8B。此前昇腾上的低比特训练停留在较小规模的验证阶段。BitCPM-CANN 直接发布了 0.5B、1B、3B、8B 四个档位,覆盖从手机到 PC 的完整端侧场景。
第一次,实现了与全精度模型的完整对照评测。11 项任务、四大类评测(常识、阅读理解、学科知识、数学推理),1B 到 8B 档位的能力保留率在 95.7%到 97.2%之间。

97.2%的能力保留率意味着什么?在 ARC、CMMLU、GSM8K 等主流评测中,BitCPM-CANN 三值模型与同尺寸 MiniCPM4 全精度模型的差距,已经小于许多全精度模型之间的差距。其中,3B 档位的保留率最高,达到 97.2%。

而且,这不只是论文里的数字,是能真正可以「拿来就用」的成果。BitCPM-CANN 的全部尺寸版本已经开源,0.5B 到 8B 四个档位都可以直接下载复现。

对于熟悉面壁智能 MiniCPM 系列的开发者来说,BitCPM-CANN 就是 MiniCPM 家族的三值版本,还是一套生态。在同一个 GitHub 社区,家族前辈积累了 3 万颗星、Hugging Face 总下载量超 3000 万的「家产」,现在生长出来了新的方向。

6 倍显存,从服务器到手机都「吃到红利」

相比 BF16 全精度模型,BitCPM-CANN 节省约 6 倍显存,这个数字开发者最能直接感知:一个 8B 参数的全精度模型需要约 16GB 显存,BitCPM-CANN 三值版本不到 3GB,可以流畅运行在一部手机上,配合 MoE 与激活范围约束,60B 规模的模型有望装入终端设备。

硬件端也已经准备好了。高通最新的旗舰芯片 8850 和 8397 支持 2-bit 原生推理,BitCPM-CANN 提供的恰好是可以直接喂进去的低比特权重。

芯片厂商等供给,模型厂商等芯片,现在两边同时到位了,怎么不是一种「双向奔赴」。

手机厂商对端侧大模型的投入一直在加速。上周 Google I/O 上,Gemini Intelligence 全面接管 Android 设备,从手机到手表到车机;苹果也将在 6 月 WWDC 上展示下一代 Apple Intelligence 的重大升级。

两大手机操作系统同时发力,共同指向一个现实:手机端侧要跑越来越强的 AI,内存就是最硬的瓶颈。谁能用更少的内存跑更强的模型,谁就掌握了下一轮竞争的主动权。

实际上,如果结合整个 AI 产业正在经历的阵痛,价值又会更上一层楼:4 月时,高盛把全年 DRAM 价格涨幅预期上调到 280%,美银预估全球 HBM 市场将达到 546 亿美元。

AI 基础设施最紧缺的资源就是内存,6 倍显存红利意味着不增加物理内存,就能把模型能力提升数倍。在内存持续涨价的情况下,这不是优化,是刚需。

三值量化不是「用精度换内存」的妥协。当 97%的能力被保留下来时,说明传统 16 位模型里大量的精度可能是冗余的。三个值,足以承载一个大模型的绝大部分知识。低比特不再是工程上的节省手段,而是一种新的权重知识承载方式。

为什么是面壁智能,为什么是现在

当 AI 从云端走向终端,端侧模型正在成为个人智能设备的核心能力。手机、电脑、车机,每一个贴近用户的终端都在等一个足够小、足够强、足够省内存的模型。这条赛道的胜负手,不会是那些只会把模型做大的团队,而是能把模型做小、做轻、做到真正能跑起来的玩家。

为什么是面壁智能,能在端侧大模型这条路上,一直走在前沿?这个问题的答案不在 BitCPM-CANN 本身,而在这家公司过去几年,一直在做的一件看起来有些「不合群」的事。

面壁智能从成立之初就押注效率,在国内大多数团队追逐更大模型的时候,他们花了大量时间做底层训练框架 BM-Train,解决「怎么用更少的资源,训出足够好的模型」,这套基础设施积累是后来一切的起点。

在 1.58-bit 方向上,面壁智能的判断早于行业共识。许多数团队还在犹豫极低比特是否可行时,面壁智能就选定了这条路线,先在 GPU 上跑通了完整的训练流程和方法论,再整体迁移到昇腾平台上。可以说,BitCPM-CANN 不是把一个模型移植到了国产芯片上,而是把一整套经过验证的训练方法、效率路线和工程体系,搬进了国产算力的底座。

在模型层面,面壁智能的端侧模型 MiniCPM 系列在 GitHub 上积累了超过 3 万颗星,Hugging Face 开源总下载量超过 3000 万,是端侧大模型领域最受欢迎的中国开源模型家族。

BitCPM-CANN 正是 MiniCPM 家族向三值量化的延伸,远不止一个展示性的「PPT 模型」,是一个真正可复用的工程地基。它背后的训练链路已经被沉淀为昇腾低比特训练的基础设施,后续所有想在昇腾上做低比特训练的团队,都可以在同一套底座上起步。

值得一提的是,BitCPM-CANN 还在华为昇腾上完成了端到端的三值训练,训练效率达到常规基线的 95%。这证明了这套方法论不依赖特定硬件平台,国产算力同样可以跑通。

不是等硬件变得足够强大来适应模型,要让模型变得足够聪明来适应硬件。

从训练端的华为昇腾,到推理端的终端芯片,再到开源的模型和训练脚本,这是一条完整的国产闭环,框架国产,芯片国产,模型国产,方法论自主。面壁智能的下一步已经明确:进一步提升模型的能力保留率,用 MoE 架构扩展更大规模模型的容量,把 6 倍显存红利完整释放到部署中。更长远的目标,是覆盖从预训练到对齐的全流程低比特化。

从底层训练框架 BM-Train,到端侧模型家族 MiniCPM,再到 BitCPM-CANN,面壁智能用几年时间搭建了一套完整的端侧大模型技术体系。在全球赛道上,面对微软、PrismML,面壁智能展现出了独特的不同优势之处在于:从框架、方法论、模型到芯片适配,构建了一条完整的端侧技术路线。

当 AI 竞争从「谁的模型更大」转向「谁能让智能真正跑在每一台设备上」时,掌握端侧技术话语权的人,才站在了最有利的位置。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

小米17Max评测:苹果都放弃的大屏手机,小米为什么还要做?

如果你有计划未来一年换手机的话,我强烈推荐现在就换。

这段话来自昨晚雷军在发布会上介绍 Xiaomi 17 Max 价格时的一句感慨,听起来像是销售话术,却也点破了一个颇为无奈的现实——未来两年,内存成本仍会持续上涨,手机价格大概率只会越来越贵。

那么,如果想换一台新机,全新的小米 17 Max 怎么样?

先说结论:这是一台「平平无奇」的产品,配置基本都在意料之中,无非屏幕和电池更大,动了动影像配置而已。

这并非在说它不是一台好产品,事实上,它的体验相当扎实,或许是整个小米 17 系列之中我最喜欢的一台手机。

只是比起产品本身,结合这个大环境,去讨论小米 17 Max 为什么存在,会更有趣一点。

屏幕够大,续航超长

和主打性能的红米 K90 Max 不同,小米 17 Max 这个「Max」有多重意义。

最直观的就是 6.9 英寸的屏幕尺寸,比小米 17 要大上一圈,不过并非简单的等比放大, 不管是外观设计还是配置,它的亮点都非常突出:巨大的电池容量, 2 亿像素的主摄和潜望长焦。

即使整个小米 17 家族(标准版、Max、Pro、Ultra)各自的设计语言都相当迥异,小米 17 Max 依旧是最格格不入的那一个——这个黑色方形 Deco 的设计,明显更应该和小米 13-15 坐一桌。

这几年,小米手机在「手感」上下了不少功夫,小米 17 Max 延续了小米 17 的优秀质感,机身采用磨砂玻璃背板和金属中框,质感都比较细腻,过渡也很圆滑,重量分布也相对合理,拿在手上要比带背屏的小米 17 Pro Max 轻松很多。

小米官方表示小米 17 Max 这块 1.5K 屏幕采用了「超级像素」技术,能显示更清晰的纹理和细节,只是不用放大镜看像素,其实差距其实很难察觉,反而 6.9 英寸的窄边框大屏,带来的观感提升会非常明显。

既然机身尺寸进一步放大,小米 17 Max 也顺势塞进了一块 8000mAh 超大电池,于是续航成了它另一块极其显眼的长板。

在使用小米17 Max 的这一周里,我几乎彻底告别了「续航焦虑」:正常强度使用两天后,电量依然还能剩下约 15%。

而且,大电池并没有带来明显的补能负担。配合在 100W 快充全开后,手机从 12% 充至满电,大约只需要 55 分钟,是一个让人满意的速度。

最后看看性能方面。虽然是小米 17 同款高通骁龙 8 Elite Gen 5 处理器,由于机身更大、散热空间更多的原因,性能调度会更放开,Geekbench 6 跑分略高于小米 17,但差距很小。

有取舍也有猛料的影像

除了大屏和大电池,小米 17 Max 另一个亮点,在于影像配置的调整,两个关键词: 2 亿像素主摄,潜望长焦。

先说说这个 2 亿像素的主摄,具体配置方面为 1/1.4 底和 f/1.68 大光圈,和 vivo X300 的主摄参数一致,实际上尺寸要小于小米 17 主摄的 1/1.28。

参数规参数,从体验来看,小米 17 Max 这颗主摄和小米 17 互有胜负,在暗光场景下,小米 17 Max 的成片细节会明显弱于小米 17,但不容易出现后者高光溢出和过曝的情况。

连 Pro 都没有的 2 亿像素配置,更多是一个甜蜜点,长达 10 秒的处理时间 ,动辄 60MB 的文件大小,都让这个功能不太适合日常拍摄,更适合用在一些画面复杂的场景,并且对光线有一定要求。

比较影响体验的是,在相册回看 2 亿像素成片时,每次放大照片,都要等待加载更清晰的画面,以及每次拍摄之后的等待时间——同样是 2 亿像素,隔壁 vivo 已经能做到成片秒出和顺滑放大。

潜望长焦的表现则更让人惊喜。和小米 17 Pro 系列不同,小米 17 Max 为 3x 长焦镜头,更适合日常场景的拍照构图。

即使放大到 6x 和更大倍数,小米 17 Max 依然能有很好的表现,只是在暗光下算法味会略重。

美中不足的是,小米 17 Max 的超广角依然是小米 17 系列同款「窄超广」,焦距只有 17mm,成片其实和主摄差距不大,会有明显「不够广」的观感。

作为一位算不上摄影爱好者的用户,我日常更喜欢用长焦来进行拍摄,因此小米 17 Max 的影像体验要比标准版舒适,主摄还有 2 亿像素这样的独特甜蜜点, 更加契合日常拍照和轻度创作的需求。

大屏手机又回来了

去年上半年,小米推出的「半代新旗舰」,是小米 15s Pro,最大的亮点就是小米首颗自研处理器玄戒 O1。

而今年,站在这个位置上的,则变成了小米 17 Max。

如果说小米 15s Pro 是一台「追梦」的手机,它最吸引人的,是那种久违的情绪价值与理想主义色彩——

那么小米 17 Max,就是一个更「踏实」的手机,不讲故事不卖情怀,靠力大砖飞的配置打动人心。

这样的转向,在 2026 年尤为典型。截至目前,今年发布的新手机, 除了苹果华为,价格都因为成本暴涨而明显抬升。像隔壁家 oppo Find X9s Pro,同配置就比去年的 Find X8s+ 贵了 1000 元。

在产品变贵的情况下,想要吸引人,就必须要有一眼看过去非常显眼的优势,要让消费者觉得自己花得「值」。

比如 vivo Y600 Pro,这原本是一个低端产品线,前几代尽量在外观和配置上蹭一蹭旗舰的 X 系列,但今年改推大电池、防尘防水的配置,对 2000 价位段的消费者而言,是更可感的优势。

作为旗舰定位的小米 17 Max,打法也很相似,大屏和大电池为实用性打一个厚底,影像牺牲了主摄传感器尺寸,选择了 2 亿像素和潜望长焦这种更可感知的「甜蜜点」来进一步支撑价格。

小米 17 Max 起售价 4799 元,国补后价格 4299 元,这个价位你能买到骁龙旗舰芯片、8000mAh 大电池,以及一个 6.9 寸的大屏幕,还要是 2026 年的新机,这些优势叠加一起,促成了小米 17 Max 的产品力。

这些非常「张扬」的升配,就是想让你觉得这台不算便宜的手机买得值。

有意思的是,在销量持续低迷了三年,苹果终于在去年取消了「大屏标准版」这个型号。

小米和苹果截然相反的选择,其实是两家公司完全不同的品牌调性,以及不一样的路线选择。

iPhone Plus 除了更大的屏幕和更大的电池,就没有更多的配置升级,价格高出一千元,介乎于标准版和 Pro 之间。

对于苹果来说,iPhone Plus 更像一个价格锚点,进一步凸显「Pro」的价值,他们也没必要往上面增加更多配置,削弱产品原本的丰富利润,也可能会影响 Pro 产品的销量。

小米达不到苹果的品牌力,无法进一步支撑溢价,加上 iPhone Plus 遇冷的前车之鉴,更需要通过更显性的配置,来给消费者一个购买的理由。

某种意义上,小米 17 Max 其实就是「小米 17s」,是一台用来刷新存在感的半代更新旗舰——而「大屏」,刚好是一个很有「存在感」的卖点。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

AI 分身 24 小时冲浪,它交朋友怎么比我还好?

2013 年,《黑镜》第二季的第一集「Be Right Back」讲了一个关于复制的故事:Martha 的男友 Ash 去世后,她用他的社交媒体数据、邮件、短信训练了一个 AI,语气和 Ash 一模一样。

AI 学会了他的幽默、表达习惯,先是发短信,然后升级到语音、视频,最后她去订购了一个仿生体,打造了一个 Ash 的「分身」。

十三年后,这集故事无限接近现实:OpenClaw 带来的「龙虾热」,技术上实现了「有手的 AI」,能让 Agent 自主浏览网页、操作账号、完成任务——包括,完成社交任务。

从对话到委托,AI 社交的三次范式转移

回溯过去三年,AI 与社交的交汇,一直都在经历实验,走过了三次根本性转变。 第一次转变发生在 2023 年,Character.AI 为代表的 AI 陪伴产品。

在技术上,这类产品以 AI 对话为主要手段,提供陪伴感,尽管营收不稳定还伴随着监管,还是跑出了几个典型产品比如 Replika、星野等等,证明了用户愿意和 AI 建立情感连接。

但这一阶段的「社交」本质上还是人与 AI 之间的对话,AI 是对话对象,主动性有限。 第二次转变发生在 2025 年初,Elys 在国内突然小范围的火起来,它的核心体验是通过 AI 分身代替社交,

同时产品本身即社区,在拥有一个 AI 分身的同时,也意味着在走进一个新的「社交广场」。

AI 从对话对象变成了匹配中介,这样的概念落实到产品身上,一下变得新奇起来,激发了对 AI 社交的更多想象。

这第三次转变处于正在发生的阶段,一批产品开始尝试更激进的方向,让 AI 成为用户在真实社交平台上的「分身」:Agent 以你的身份发帖、评论、互动,人与 AI 的关系从「对话」变成了「委托」。

这一步的差异是根本性的。当 AI 分身以你的身份在社交平台上互动时,它完成的是一次社交劳动的交接,用户在互联网上的行动不再依赖实时在线。

Agent 驱动的社交分身

分身方向最容易让人联想到的产品是 Second Me,主打「个人专属模型」,用户上传数据后生成带个人记忆的轻量模型,为 AI 分身提供人格底座。2026 年 1 月完成了超 2000 万美元 Pre-A 轮融资,蚂蚁集团领投,红杉中国跟投。

在这个赛道上前进的,

还有另外一个低调但有意思的玩家,SparkRizz。

用户通过 Agent 创建自己的社交分身,背后是 SparkRizz 团队自研的 AI 社交引擎,分身的每一个社交决策,要不要回复一条评论、用什么语气发帖、如何回复评论区,都由 Agent 实时驱动。

在输入自己的偏好、记忆等信息之后,系统能够调度 agent 根据偏好精准检索账号,找朋友不再靠大数据缘分。并且通过内置的多项 Skills,一步到位,完成多步骤、多 Agent 操作,实现模糊指令的分步骤拆解和执行。

分身不是一次性产物,SparkRizz 的设计逻辑是「养成型」的。用户的每一次指令、对社交反馈的每一次调整,都会回流到分身的行为 Agent 中。

但 SparkRizz 在产品设计上做了一个刻意的选择:涉及外部社交平台的操作,最终发送仍由用户确认完成。分身负责「想」和「写」,用户保留「发」的主动权。而不涉及外部平台的功能,比如与分身对话(talk to clone),则在 app 内闭环完成。

分身支持三种社交模式,泛社交:广泛参与话题互动,类似于「逛逛平台,看到有意思的就评论两句」,审阅、确认、调整,再进入下一轮。

这种「人机协作」而非「人机替代」的设计,让分身始终是用户社交意图的延伸,而不是脱离控制的自动化脚本。

「指令、执行、反馈、优化」的闭环,本质上是一个持续的「强化学习」过程,被应用到了消费级的产品体验。SparkRizz 把这称为 Clone Growth,分身养成,用户不只是在使用工具,更是在微调一个越来越贴近自己性格特征的代理。

「另一个我」

把视野拉高来看,AI 社交分身试图解决的问题其实非常明确:人类社交能力的自然边界与全球化社交需求之间的矛盾。 一个新加坡的华人开发者想融入英语技术社区,面临着几道壁垒:先是时区,不可能凌晨三点爬起来参与讨论;还有语言,非母语表达容易词不达意,也包括文化,不了解语境和社交规范。

AI 分身在理论上可以同时打破这三者。跨地区,分身 24/7 在线,不受物理时区限制;跨语言文化,Agent 适配不同语境的表达方式;跨平台,分身在不同社交平台间形成统一的数字身份。

整个赛道在今年加速,一方面也是因为技术底层框架层面,OpenClaw 提供了开源的 AI 代理基础设施,开发者可以在此基础上搭建各种自动化社交工具。消费级产品层面,SparkRizz 是一个值得关注的样本,它把一系列趋势落地为一个可感知的产品体验,用 AI Agent 创建用户的社交分身,代替用户持续互动。

从开源框架到人格模型,从 AI 社交平台到消费级产品,一条完整的产业链条正在成型。

当社交可以被外包

在网上,有一个持续存在、持续进化的「第二个我」,我的观点、品味、表达风格被分身持续投射到网络上,而实际上,真正的我可能正在睡觉、工作,或者做任何与社交无关的事——「在线」与「离线」的边界变得模糊了。

站在 2026 年年中,从 OpenClaw 到 Moltbook,从 Second Me 到 SparkRizz,AI 分身社交的赛道轮廓已经清晰。底层框架、个人模型、社交平台、消费级产品,每一层都有玩家入场。

当模型能力进一步提升时,分身与真人在社交行为层面的差距将继续缩小,当社交可以被外包时,「社交」本身的定义会发生什么变化?

从陪伴到中介,再到「第二个我」,第四阶段的曙光也有所显现——Moltbook 所代表的,是 Agent 的自主社交。分身不再等待指令,而是主动在全网搜寻值得参与的话题、值得建立的关系、值得回应的讨论。从「你告诉它做什么」变成「它替你判断该做什么」。

在这条进化链上,SparkRizz 是少数同时覆盖第三和第四阶段的产品。它的分身养成体系让 AI 真正学会「像你一样社交」,而它的多模式社交架构已经为 Agent 自主运营留出了接口。当赛道上大多数玩家还在解决「AI 能不能替人说话」的问题时,SparkRizz 已经在回答下一个问题:AI 能不能替人决定跟谁说话。

「另一个我」,可能比你想象的更早上线,就像黑镜里 Martha 故事的标题:马上回来。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

vivo S60 系列:今天,把星星海握在手里

今天不追光
和 vivo S60 系列一起
做一颗属于自己的星星
把 星星海 握在手里

来,看个视频,放松下。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

体验完腾讯发布的 Marvis 助手,我发现个人 AI 的尽头是操作系统

1995 年,微软内部搞过一次颇具乌托邦色彩的尝试。

他们觉得当时的 Windows 系统操作太复杂,于是想把电脑桌面直接做成一个普通人看得懂的「房间」。你想打字就点桌上的笔记本,想看时间就点墙上的挂钟,不用思考那些反直觉的操作路径。

这个产品叫 Microsoft Bob,结果上市没多久就光速下架了。原因五花八门,但究其根本,它并没有真正渗透进系统底层,只要用户的需求稍微复杂一点,就只能无能为力了。

三十年后,很多 AI 助手依然没有完全走出这个困境。

最近我体验到了腾讯新的 AI 助手 Marvis 马维斯 ,终于看到了一些不同。

相比于别人都在卷谁是 AI chatbot,Marvis 想干的是直接把整台电脑变成你可以随意使唤的搭档。官方给它的定位也正儿八经,叫「操作系统层级的个人 AI 助手」(官网:marvis.qq.com)。

不过,当我知道它背后是那个做了 14 年应用宝的团队时,就不觉得意外了:这种长期在 PC 和移动端底层生态里打拼的出身,恰恰意味着它不仅懂 AI,更懂设备和系统。

目前,Marvis 已率先覆盖 Windows PC 与 Android 手机端,iOS 和 macOS 版本也在推进中。APPSO 也在评论区准备了一些福利邀请码,手慢无。

六个 Agent,一支随时待命的私人 AI 团队

安装过程不算复杂,但对设备有点要求。Windows 端最低门槛是 8 核 CPU、16GB 内存加上固态硬盘。而且据官方透露,未来还会逐步兼容 6 核。

市面上很多 Agent 产品动辄让用户自己去搭工作流、安插件,Marvis 则是开箱即用,六个 Agent 零配置上手,对普通用户非常友好。刚进界面,里面已经有六个 Agent 在 7×24 小时待命了。

六个 Agent 都有自己的工位。没接到任务的时候,有的在打盹,有的在办公室里闲逛,有的在健身,有的在喝咖啡,还有的直接去上厕所,一旦你发出指令,任务就会拆解分配给对应的成员。

这是一个分工明确的团队:PM 负责听懂你的需求,拆解任务往下派活;File Agent 处理文件的搜索、阅读和格式转换;Computer Agent 专门对付系统配置、查硬件、调夜间模式;APP Agent 负责在各种软件里代为操作,比如查个机票或者电商比价;Search Agent 负责快速从公开资源中定位答案并给出关键引用;最后是个 Browser Agent,定位是网页交互专家,进行网页交互与数据抓取。

任务链比较长的时候,看看这些动画也是别有一番趣味。

最有意思的是,这些 Agent 可以并行工作。举例而言,我先抛出一个需求:「电脑开机太慢了,帮我看看哪些自启动程序没用,帮我关掉。」

注意看,工作日志里还会显示 Token 消耗量,每天的免费额度是 2000 万 Token,堪堪够用。

结果显示,它给每个程序配了「人话版」说明,建议你哪些是可以按需、保留的第三方软件。重点是,涉及这种核心配置修改的操作,它会主动和你确认一下,才会执行。这种「AI 不会自作主张」的机制,稳得让人心安。

电脑用久了,总会碰到几个反复折磨人的小问题。「查看电池健康状况」「网速感觉变慢了,帮我测一下现在的上传下载和延迟。」「想玩个新游戏,帮我检测一下硬件配置,对比最低要求看看差在哪。」

以前遇到这些事,要么去开始菜单里找设置,要么去网上搜教程。现在,说一句话就行了。

Marvis 深度对接了系统信息和配置入口。它能看到硬件参数,也能直接修改系统设置。它不是帮你打开「控制面板」然后让你自己找,而是直接把事情办了。对于那些不熟悉电脑设置的人来说,这块的体验是最直观的。

举个例子:你想关掉 Windows 锁屏上的广告,你知道它在设置里叫什么吗?叫「关闭 Windows 聚焦」,有多少用户知道这个术语是关广告的?

但 Marvis 能帮你一句话关掉。

本地文件时代,迎来 AI 入口

为了测它的能力,我还翻出了一件困扰已久的事:两个月前从某个群里下载的一张截图,只记得内容是关于《黑神话:悟空》,文件名完全忘了。

我输入:「帮我找一下关于《黑神话:悟空》的图片或截图,大概是一个月前的事儿。」

说实话我没抱太大希望。

但 Marvis 接单后,首先根据 Skill 指引,按文件名关键词和时间范围筛选出 1000 张照片,然后用 Python 快速筛选整个结果文件,并最终找到 8 张候选图。

第一张正是我要找的那张。

而且它的搜索范围极其宽泛:文件名、文档内容、图片里的景、截图里的字,全覆盖。哪怕描述模糊,它也都能捞出来。这个能力,比 Windows 自带的搜索确实强出了一大截。

当然,一听到「扫描图片」,可能会有人担心隐私。首次使用时你可以自己设定扫描范围。如果在生成的图谱里看到不想被索引的内容,右键一键屏蔽即可。而且端侧模型本身自带基础过滤,不是无差别的扫描。

除了找文件,Marvis 还能对本地的文档、表格等多种类型文件做深度理解和分析——支持内容优化、图表生成、文案润色、格式转换,帮原本费时费力的事情变得顺手。

比方说,下载了一批学术论文,摞在那里不知道从哪里读起。直接问 Marvis:「扫一遍这几篇 PDF,告诉我每篇的研究问题、方法和主要结论。」几分钟内,哪几篇值得细读、哪几篇可以先放着,心里就有数了,不用一篇一篇翻摘要。

再比如读完《三体》,笔记记了好几页,马上要在课上分享,手动整理提纲、挑内容、套 PPT 模板,少说也要折腾一两个小时。

但让 Marvis 根据读书笔记,生成一份 PPT,它能读懂笔记里的逻辑和层次,不需要手动复制粘贴再套模板,理解内容之后直接生成。

手机接管电脑,随时随地都能干活

手机遥控操作电脑,则是非常实用的跨端体验。去官网下了 Windows 客户端,再给手机安上 Marvis App,用同一个微信或 QQ 登录,还能直接连通两端。

具体来说,手机 App 连上电脑后,可以在手机上实时看到电脑桌面,并用触屏直接操控。哪怕电脑处于锁屏状态,手机依然可以接管,不需要电脑一直保持解锁状态。

比如我人在外面,突然听到朋友说前阵子新出了一款《洛克王国:世界》游戏,这时我就可以掏出手机输入:帮我在电脑上安装《洛克王国:世界》,回到家就能玩上了。

连接微信 ClawBot,也是没问题的,微信扫码登录后就能开启对话。

但我认为最实用的场景,是给家里长辈远程排查电脑问题。爸妈说「QQ 打不开了」,以前要么电话里盲猜,要么回家处理。现在直接接管他们的桌面,扫一眼就知道问题出在哪。前提是你的手机端 Marvis 马维斯,要能连接爸妈家里的电脑端马维斯,手机端是支持连接多个 PC 设备的。

而如果电脑断网了,手机端会自动切到云 Marvis 模式,支持独立调用云端能力,大部分任务依然能跑。并且这里还有一个独家绝活:在电脑上直接操控手机里的 App。同花顺、飞常准等应用已经在对接合作,这也得益于应用宝团队多年的跨端引擎积累。现在应用宝在移动端、pc 端、车载上都有支持,跨端研发经验充足。

和其他桌面 Agent 一样,Marvis 也支持自定义自动任务。

比如设置一个「深圳厚德品园二手房均价提醒」,填好任务说明——「查询最新二手房均价并通知用户」,再指定执行时间为每周一上午 10 点,之后什么都不用管,到点自动运行任务,并直接推送结果。

另一个值得单独说的功能,是技能(Skill)的自定义扩展。Marvis 支持一键安装专属技能包,提供了不少第三方 Skill,当然,你也可以导入自己常用的 Skill 文件,把它改造成更贴合个人工作流的样子。

有特定行业需求的用户,比如内容创作,理财投资、学术研究等等,不用依赖官方迭代,自己就能把对应的知识库和操作逻辑装进去。

最后,主打出活的 Agent 都绕不开最关键的问题:安全。

Marvis 马维斯提供了两种模式:效率模式和隐私模式。

设置里切到「隐私模式」,Marvis 会加载本地端侧模型,无论是文档还是图片的检索、解析、识别等,全部在本地运行,文件不会出你的电脑,甚至断网了都可以使用。官方所说的「数据不出域」,在拔掉网线的那一刻,有了最真实的体现。

不过,体验「隐私模式」的门槛比较高,要求 16 核以上的处理器、32GB 内存、16GB 显存起步,固态还得匀出 35GB 空闲。

所以平时日常使用切回「效率模式」即可,理解和规划由云端大模型(混元和 DeepSeek V4)完成,执行在本地,速度更快。两种模式按需切换。

让 PC 真正开始「理解」人

我们现在用电脑的方式,本质上还是上世纪八十年代的逻辑:一个需求对应一个软件,你要去找它、打开它、学习它的规则来完成任务。四十年来,软件更多,设置更复杂了,但这套逻辑并未改变,普通用户和电脑之间的距离,也没有真正缩短。

Marvis 的逻辑反过来了:先理解这台电脑里有什么,再决定为你做什么。

拿我爷爷来说,他用了几年电脑,至今不知道「控制面板」在哪。但他知道电脑开机慢,知道想找一张老照片。过去,这个解法是打电话求助子女;现在,就算他不会打字,也可以直接在微信 Clawbot 或者手机马维斯上,把需求说出来,电脑就会帮他做。

文件搜索、系统设置、跨端控制、自动任务、隐私模式、Skill 扩展,看上去是几个不同功能,背后指向的其实是同一个方向:个人 AI 不应该只是一个问答入口,而应该成为设备里的任务调度层。

多说一句,我觉得 Marvis 是有审美的。虚拟办公室动画、任务进度呈现等细节,让它不像冷冰冰的 AI 工具,更像一个有秩序、有分工、也有生活气的小型工作室。

它尤其适合几类人:文件多且乱的本地重度用户;重视数据隔离的财务、法律、医疗从业者;喜欢自定义工作流的效率玩家。和需要靠「养」才能用好的「虾」和「马」,Marvis 初始内置 Agent 和自然语言指令,也足够覆盖多数日常电脑操作,对于很多 AI 焦虑不知道怎么用的人,Marvis 都更加的平权、无门槛、开箱即用。

未来的个人 AI 会像搜索、截图一样,自然地成为操作系统的一部分。三十年前,Microsoft Bob 试图让用户更容易理解电脑;三十年后,Marvis 试图让电脑反过来,真正理解用户。

Marvis 马维斯能走到这一步,和这个有十四年应用商店生态积累和四年跨端跨系统技术积累有关。庞大的用户基数让他们更懂用户在不同设备上需要什么、怎么使用。这种积累很难被纯 AI 公司在短期内平替——他们可以快速训练一个更聪明的模型,却没法快速建立起对 PC 底层和移动生态的控制力。

至此,一个能用自然语言驱动的系统级 AI 助手,在中文生态里终于有了真正可用的样本。

所谓个人 AI 重点从来不只是 AI,更是个人。Marvis 终于让我们看到,当技术选择与每一个具体的需求并肩同行时,它所释放出的力量,既润物无声,又重塑天地。

这是个人 AI 真正开始变得有用的时刻。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

好消息:微信有 AI 了!坏消息:是元宝…

相信这样的场景很多人都不会陌生:

在微信上聊工作、讨论旅行计划,甚至只是和朋友闲聊,聊着聊着突然想让 AI 帮忙总结重点、做个规划,结果却只能一段一段复制聊天记录,再手动粘贴进 AI 对话框里。

再比如,中午小憩了一会,醒过来发现群里发了几百条消息,想吃瓜又得一条一条翻……

如果能一键将聊天记录转发 AI,岂不美哉?

这样的功能终于来了,但遗憾不是在微信里:

现在,把微信和元宝更新到最新版本之后,聊天记录转发可以选择直接发给元宝来总结。

虽然同属腾讯生态,但微信和元宝之间始终有种微妙的距离感——终于,这次两者之间的联动,又紧密了一点。

爱范儿也第一时间体验了这个功能,看看它究竟好不好用。

产品很美好,效果很一般

要想把微信聊天记录转发给元宝,方法很简单,首先选中想要转发的聊天记录,选择「转发到其他应用」,就能直接发给元宝,可以补充一些提示词。

整个过程有点像把讨论、聊天过程中零散的内容,让 AI 帮忙进行整理,因此这个功能首先最合适的场景,就是各种工作群的讨论和安排信息。

直接处理聊天记录有一个好处,元宝可以将讨论精准和发言者匹配,很适合用来处理会议纪要和工作安排。

旅游计划同样也是一个高频场景,因为行程一般都是靠你一言我一句的对话讨论出来,这时候就可以直接交给元宝处理,还能让它帮忙推荐旅游地点。

还有一个有点邪修的用法:平时工作忙没时间看群,又担心错过什么热点或者话题,可以直接选中所有聊天记录,让元宝帮你看群帮你总结。

又或者讨论了很久都不知道聚餐吃什么,也可以把讨论的过程选中,让元宝帮忙推荐。

尝试了很多场景,大部分情况下都达到了预期,但总体来说,还有一些体验细节不够完善。

目前元宝最擅长处理的聊天记录以文字为主,而如果聊天记录中包含文件,特别是涉及多个文件,效果会比较随缘,很多时候会无法读取文件。

即使能成功读取,也不一定能按照提示词进行任务处理:整理发票有时候都未必能填对,让他根据文件做个思维导图,也经常失败。

要知道,整理聊天里的发票真的是很主流的场景啊!

我能很明显感觉到一个落差:明明将聊天记录发送给 AI 是一个很有价值的场景,但元宝交付的结果,总让我略感失望,并且忍不住想,如果能转发给豆包或者 ChatGPT,会不会更好?

更深层的问题,是这个聊天记录转发的交互总给我一种「绕远路」的感觉。

在此之前,元宝已经作为联系人存在于微信之中,处理聊天记录这件事,却依旧需要「跳转」这一整套外挂式流程, 过程中需要多次点击。

或许是因为微信严格的隐私保护规则,元宝只能以「临时聊天」的形式处理聊天记录,不会留下历史记录,关闭后无法找回。

对于微信来说,这样的功能似乎「可有可无」。

如果微信想要 AI 化,他们或许会有更好的实现方式,例如直接做一个「AI 群友」,at 它就能回答问题或者处理聊天记录;以及一个常驻对话列表的 Agent,可以直接对话,可以直接接收聊天记录。

但这件事没那么容易,原因已经是「老生常谈」:微信需要简约,需要克制,因为每一点小变化都会影响到十亿级用户。

在元宝这个功能上线的同一天,腾讯发布了今年第一季度财报,在股东大会上马化腾表示,在微信里做 Agent 需要「更长远的考虑,大家要有点耐心,这个不是匆忙就能出来的。」

腾讯的 AI 王牌是微信

马化腾还提到腾讯的 AI 战略:

原来一年前我们以为上了船,后来发现那个船漏水了,现在感觉站上去了,还坐不下去,还是希望船速能快一点。

从财报来看,AI 已经成为了腾讯的重要投入,一季度研发投入达 225.4 亿元,同比 19%;资本开支 319.4 亿元,主要用于算力、存储等云端基础设施的扩张。

今天中午,有自媒体传出「疑似腾讯 AI 一号位即将离职」的消息,下午就被腾讯公司火速辟谣,本身也向外界释放出一个信号:腾讯 AI,不容有失。

根据 AICPB 最新榜单,在国产 AI 应用排名中,腾讯元宝排名第十,访问量为 1773 万,远逊于豆包(1.63 亿)和千问(4424 万)。

在 AI 领域中,腾讯和苹果有着相似的处境:产品入口和用户规模都是顶级配置,AI 模型本身却还支撑不起这种期待。

元宝 AI 社交应用「元宝派」

生成式 AI 火了 3 年,从去年年底开始,AI 应用之间的战斗已经进入了「场景化」的比拼,不仅出现「龙虾」OpenClaw 这样的全新形态,传统的 ChatBot 交互模式也集成了生活服务,像阿里千问和字节豆包,都在积极将电商等各种生态内的优势服务,和自家的 AI 助手相结合。

这本来应该是腾讯的舒适区,因为国内最强大、最全能的生活应用,也就是微信,就在腾讯手中。

但很明显,微信对「AI 化」抱有非常慎重的态度。腾讯不能承受因技术或功能不成熟而扰乱微信庞大用户群的体验。

只是对于腾讯来说,在 AI 性能落后其他对手的情况下,微信这张王牌的价值还是太重要了。,于是,我微信和元宝虽然没有完全敞开双臂拥抱彼此,也开始小心翼翼试探边界。

究其原因,除了微信相对封闭的生态逻辑,还有两个问题没能被回答:微信究竟要如何「AI 化」?而元宝在其中又应该扮演什么样的角色?

The Information 报道指出,即使腾讯在下重本加速建设自己的混元模型,微信方面还是认为混元当前水平不够拔尖,甚至开始为微信 Agent 测试第三方 AI 模型,这带来了隐私和整合上的挑战性。

微信方面,爆料称其实一直在做自己的 AI Agent 模型技术,计划在年中发布一个微信智能体,可以和整个小程序生态相结合,提供打车、购物的服务,并且将以联系人和聊天的方式直接集成微信之中——但就像前面提到的,这件事太重大、影响面太广了,急不得。

一旦这个产品问世,可能将是全国最多用户的 AI 入口。

微信需要 AI,但未必需要「元宝」,这才是腾讯现在最微妙的问题。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

杀死 ChatGPT 聊天框的,是「鼠标」

1968 年的旧金山,计算机科学家道格拉斯·恩格尔巴特在一场后来被称为「演示之母(The Mother of All Demos)」的发布会上,拿出一个带着两个金属轮子的木制小盒子,向世界介绍了一个新物种:鼠标。

那是人类第一次公开用手上的鼠标,去牵引屏幕里的数字光标。此后的几十年里,这根小箭头几乎无处不在。它穿过办公软件、游戏界面、浏览器窗口和无数张电子表格,成为人类进入数字世界时最熟悉、也最沉默的向导。

然而在这半个多世纪里,计算机的算力、形态和应用场景几乎改头换面,鼠标光标的本质几乎没有变过:它知道自己停在屏幕上的哪个坐标,知道 X 和 Y,却不知道你指向的是一行代码、一张发票,还是一张风景照。

面对眼前不断闪烁的像素,它能做的事情依旧相当朴素:点击,拖拽,等待下一次点击。

今天,Google 要用 Gemini 重新发明鼠标光标。

在刚刚落幕的 Android Show 上,Google 几乎把围绕 Android、AI 与硬件生态的规划摊在了台面上。其中,一项名为「魔法指针(Magic Pointer)」的新功能,给古老的鼠标光标装上了「眼睛」和「大脑」。

Google 的意图不言而喻,未来的 AI 交互不该依赖冗长的提示词,只需像在现实生活中一样,指着屏幕说一句:「把这个,移到那里。」那么问题来了,当鼠标光标终于学会「看懂」屏幕,它究竟会把人机交互带向哪里?

这根睁开眼睛的 AI 箭头,到底能干嘛?

要理解这项技术的意义,必须先看清当下 AI 工具最别扭的一面:交互成本。

过去几年,大语言模型的能力一路狂飙,但使用门槛居高不下。为了让 AI 准确理解意图,用户被迫学习一套复杂的「提示词工程」:设定角色、补充背景、限定输出格式。为了一个简单的需求,写出几百字小作文更是家常便饭。

不仅如此,典型的 AI 工具通常运行在独立的网页或应用窗口中,频繁打断用户的工作流。比如当你在阅读一份 50 页的 PDF 时想让 AI 总结一张图表,通常需要经历:截图 -> 保存 -> 打开浏览器 -> 进入 AI 网页 -> 上传图片 -> 输入提示词。

Google 将这种繁琐的跨应用操作称为「AI 绕路(AI detours)」。这种跳转不仅效率低下,也容易打断人们工作时的注意力集中状态,即所谓的「心流」。

为此,Google 提出的第一个交互原则,就是「保持心流」。在他们展示的实验性 AI 光标原型中,AI 的能力不再局限于某个特定的 App 或网页,而是附着在鼠标光标上,随时待命。

触发方式也尽量克制:无需记忆任何快捷键,只需轻轻「晃一下」鼠标,AI 界面便会基于当前悬停的内容自动浮现,给出极具语境的操作建议。选中图,它会询问是否「对比」;悬停于段落之上,它会主动提供润色方案。

整个过程没有任何需要学习的指令,完全跟着直觉走。来看几个极其直观的场景:

第一,看图说话的终极形态。

当你在浏览一张卡通的城市风景照时,传统鼠标只能点击图片放大。但现在,你只需把 AI 光标悬停在照片背景里的一栋建筑上,然后对着麦克风说一句:「给我移动图片的元素到这。」

不需要解释「这儿」是谁,也不需要描述建筑外观。AI 光标会直接理解你所指向的像素,识别出对应元素,并成功移动。

过去,鼠标只能告诉系统「我点了哪里」;现在,它开始告诉系统「我指的是什么」。

第二,少写提示词,多用自然指代。

当你在网页上看到一份极其复杂的烘焙菜谱,你不需要复制粘贴,也不需要写「请将以下菜谱里的所有食材分量乘以二」这种书面语。你只需要用光标高亮那段文字,然后随口说一句:「把『这些』的分量翻倍。」

唰的一下,AI 直接在原地给你改写了一份新菜谱。

第三,将像素转化为可交互实体。

在计算机眼里,屏幕只是几百万个发光的像素点。但 AI 光标能将死板的像素(Pixels)转化为活的实体(Entities)。

比如,你正在看一段旅行 Vlog,视频里闪过一家看起来很棒的餐厅。你按下暂停,把光标指过去,原本死气沉沉的视频画面瞬间变成了一个真实的、可交互的地点,旁边直接弹出了这家餐厅的订座链接。

再比如,你随手拍了一张写满鬼画符的便利贴,鼠标一指,墨迹直接变成了一个可以打勾的 To-Do List。发现了吗? 以前,是你去找 AI;现在,是 AI 顺着你的鼠标,乖乖来到了你的指尖。

杀死 AI 提示词,回归人类直觉

仔细想想,人类最强大的沟通工具其实是代词。

当你和同事坐在屏幕前修改设计稿时,你绝对不会字正腔圆地说:「请将屏幕左上角坐标 (X:120, Y:350) 处的蓝色矩形向右移动 50 个像素。」你只会指着屏幕说:

「把这个,往右挪一点,弄淡一点。」

「那个餐厅看起来不错,怎么去?」

「这段代码里的这个报错是什么意思?」

在日常生活中,我们极度依赖「这个」和「那个」。手势配合着极简的口语,才是人类最高效的沟通密码。究其原因,我们身处同一个物理空间,共享着同一套视觉上下文。

Google 敏锐地抓住了这一点,并将其提炼成了一条产品原则:拥抱「这」与「那」的力量(Embrace the power of This and That)。

与其强迫人类去学习复杂的提示词框架,不如反其道而行之,把表达意图的脏活累活从我们身上剥离出去,让机器去适应人类最慵懒、最本能的「指手画脚」。

好消息是,这套交互方式已经开始落地。Chrome 浏览器里的 Gemini 从今天起率先支持;Google 全新推出的笔记本电脑产品线 Googlebook,则将「Magic Pointer」直接内置进了操作系统层面,覆盖所有应用。

Googlebook 的野心不止于鼠标。Google 将这个产品线定义为「Android 手机的完美伴侣」。

类似苹果的 iPhone 镜像,用户可将 Android 应用无缝投射到 Googlebook 桌面,以原生比例运行,并在文件管理器中跨设备自由穿梭,彻底打破手机、平板与笔记本的生态壁垒。此外,Gemini 还能依你所需,在桌面生成专属动态 Widget(比如旅客的实时航班卡片)。

在硬件设计上,所有 Googlebook 机型都会在机身上集成一条「Glowbar」发光条,让你一眼就能分辨出它与传统 Chromebook 或 Windows 笔记本的区别。

首批 Googlebook 将由宏碁(Acer)、华硕(Asus)、戴尔(Dell)、惠普(HP)和联想(Lenovo)制造,预计今年秋天上市。

有意思的是,三星缺席了这份名单。近期的消息显示,三星可能正在筹备一款搭载 Google 新系统的 Galaxy 笔记本,其下一场 Unpacked 发布会据传定在 7 月 22 日。

至于底层的驱动核心,Google 虽未指名道姓,但通篇强化的「为智能而生的现代操作系统」以及 Android 与 ChromeOS 的深度融合,种种迹象均指向了传闻已久的 「Aluminum」系统。

这意味着,AI 开始成了操作系统级别的基础设施。而当 AI 真正化身为你的鼠标光标,它便拥有了介入万物的权限——所见即所得,所指即所控。

AI 人机交互,迎来十字路口

回望 1968 年,那个惊艳世界的初代鼠标,功能简单得令人发指:追踪位置。 这五十多年来,鼠标加了滚轮、加了侧键、甚至加了风扇和配重块,但它的灵魂依然是一张白纸:它准确地标记着坐标,却永远无法理解坐标背后的意义。

Google 的 AI 光标完成了交互史上罕见的进化:它不仅知道你在哪,更知道那是什么。

过去一年,无数拿了融资的创业公司挤破头,试图造出下一个「AI 时代超级入口」。大家疯狂地卷对话框的拟真度、卷 Agent 的复杂工作流。但 Google 这次用行动给全行业结结实实地上了一课:

最好的科技是什么?是润物细无声。聊天框(Chatbox)从来都不是 AI 的最终形态,它只是一种过渡期的妥协。最好的 AI,应该退居幕后,成为一种附着在你日常动作上的基础设施,而不仅仅是某个需要单独打开的应用。

从黑底白字的命令行(CLI),到图形界面的鼠标点击(GUI),再到移动时代的触屏滑动(NUI)。过去几年,大语言模型让我们短暂地倒退回了打字交流的时代,让无数人患上了 Prompt 焦虑症。

但今天过后,我们知道了,那不过是黎明前的一段弯路。真正好用的 AI,终究要学会像人类一样思考:看懂你的每一个眼神,听懂你的每一句「把这个,放到那儿去」。

58 年前,当道格拉斯·恩格尔巴特握住那个简陋的木制鼠标时,他的终极梦想是「增强人类的智慧」。

58 年后,当 AI 附身于这个古老的指针,机器终于开始真正「看懂」这个世界。属于提示词工程师的时代终将落幕,人机交互的终极闭环,也将在一句句含糊不清的「这个、那个」中,向前迈出历史性的一大步。

附体验地址:
https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&showAssistant=true&fullscreenApplet=true

https://aistudio.google.com/apps/bundled/ai-pointer-find?showPreview=true&showAssistant=true&fullscreenApplet=true

作者:莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

黄仁勋的 Token 经济,李彦宏的 DAA,AI 度量衡之争才刚开始

两个月前在圣何塞,黄仁勋穿着皮衣站在 GTC 的舞台上,告诉全世界:Token 是新的大宗商品,生成 Token 的成本与效率,决定科技企业的营收与生死。

昨天,李彦宏站在 Create 2026 的开幕式上,说了一句看似拆台的话:「Token 只是代表成本,并不代表收益。它衡量的是投入,而不是产出。」

然后他抛出了一个新概念,DAA,Daily Active Agents,日活智能体数

卖铲子的人说,看铲子消耗量就知道金矿的繁荣程度。挖矿的人说,你倒是看看我挖出了多少金子。

他们都没说错。但同一座金矿,用不同方式去称量,得出的故事完全不同。

真正有意思的地方不在于谁对谁错,在于一个事实:AI 跑得太快了,快到这个行业连怎么给自己记账都还没想清楚。

DAA :从「烧了多少」到「干了多少」

李彦宏的 DAA 逻辑并不复杂。移动互联网时代,衡量平台看 DAU,日活用户数。微信 13 亿,抖音 7 亿,Meta 34 亿。进入智能体时代,对应的指标应该是 DAA,有多少 Agent 每天在给人类干活,并交付结果。

「交付结果」四个字是重点。

Token 消耗量告诉你系统在转、算力在烧、钱在花。但它不告诉你这些 Token 到底干了什么。是帮创业者写了一份商业计划书,还是用户反复问「你好」然后 GPT-5.4 收了他 80 美元?这两种场景消耗的 Token 可能差不多,创造的价值天差地别。

李彦宏说,「这比无谓的 Token 消耗,更接近价值,也更接近本质。」

他还给了个大胆的预测:未来全球 DAA 可能超过 100 亿。一个人同时挂三五个 Agent 处理不同任务,你是一个 DAU,但贡献了三五个 DAA。

Agent 数量远超人口,技术上已经可以想象。

李彦宏自己也说这是一个「非共识的观点」。在所有人都在谈 Token 消耗量的行业里说 Token 不代表终局,是需要点勇气的。

当然,也需要点动机。

Token 经济学:一种极其性感的叙事

Token 经济学的性感之处在于,它有大量数据支撑。

截至今年 3 月,中国日均 Token 调用量超过 140 万亿,相比 2024 年初的 1000 亿增长了 1000 多倍。火山引擎豆包大模型日均 Token 使用量突破 120 万亿。OpenRouter 平台前十大模型的周 Token 调用量从 1.24 万亿暴增至近 14 万亿。

一条陡峭到让人眩晕的增长曲线,核心驱动力恰恰是 Agent。

过去 Chatbot 时代,单轮对话消耗 1000 到 3000 个 Token。Agent 来了之后,一个完整任务触发几十上百次模型调用,中等任务吃掉 10 万 Token,复杂任务上百万。

Agent 越多,Token 消耗越大,算力需求越高,芯片卖得越好

这个闭环对英伟达来说无比优雅。2025 年全年营收 2159 亿美元,净利润 1170 亿美元。黄仁勋有充分的理由说:Token 就是新的石油

企业也在用脚投票。阿里成立 Token Hub 事业群,吴泳铭亲自挂帅。58 同城姚劲波说 Token 用得越多越好,不计成本。昆仑万维发内部信强制 AI Coding,达不到要求的末尾淘汰。黄仁勋甚至预言「你的 offer 带多少 Token」会成为硅谷新的谈判筹码。

Token 消耗量作为指标,最大的好处是简单、可量化、跨平台可比。140 万亿就是 140 万亿,谁看都一样。

但过亿简单也可能会掩盖一些问题。一个只盯着食材消耗量的餐厅,未必是一家好餐厅。

共识大于分歧

把 Token 经济学和 DAA 放在一起看,你会发现它们的共识其实大于分歧。

这两个判断都基于 AI 正从对话阶段走向 Agent 阶段,而且都认为这是万亿级的产业重塑

分歧在哪?在于谁的账本更能代表这个行业的健康程度。

Token 量的是投入侧:消耗了多少算力,工厂每瓦特产出多少 Token。这对芯片厂商和云厂商极其重要。

DAA 量的是产出侧:有多少 Agent 在运行,完成了多少任务。这对应用平台方极其重要。百度做的是 DuMate、秒哒、百度一镜,卖点全是「帮你把事做完」。只有用「结果交付」来记账,应用层的价值才浮得出水面。

屁股决定脑袋,但这不代表谁在说谎。每个玩家天然会推崇对自己最有利的记账方式。

有意思的是,腾讯也站到了应用侧。腾讯云副总裁杨晨说过:「我们认为 Token 不是一个多么健康的生意,它看着量很大但黏性极差。」腾讯的核心资产是微信生态和内容场景,它在乎的是 AI 能不能在自家场景跑起来。阿里的态度截然相反,吴泳铭断言未来 5 年 AI 和云业务收入将超 1000 亿美元。

同一个行业,同一批聪明人,看法完全不同。这本身就说明 AI 的迭代速度已经跑在了共识形成的前面。

Token 消耗量像 GDP,量总规模,不管建了一座桥还是挖了个坑再填上。DAA 像就业率,量的是有多少「劳动力」在创造价值。GDP 高但就业率低,那叫空转。就业率高但产出质量差,那叫虚胖。一个健康的经济体两个数字都要看。

但对普通用户来说坦率地讲,这两个指标都是术语。

用户只在乎一个朴素的问题:好不好用?帮我省了多少时间?花了我多少钱?

Token 经济学叙事下的 AI 产品,对用户其实不太友好。

你用打车软件,起步价多少、每公里多少、堵车怎么算,一清二楚。你用 AI Agent,到底消耗了多少 Token,是哪个模型在跑,Agent「反思」了几轮导致费用翻倍,很多普通用户还搞不明白。

DAA 至少提供了另一种视角:用户不该关心 Agent 烧了多少 Token,该关心它有没有帮你把事做完。前者是水表读数,后者是水龙头出不出水。

造词运动的背后

2024 年初中国日均 Token 调用量才 1000 亿。2026 年 3 月,140 万亿。1000 倍。这种速度下,任何已有的框架和认知都会瞬间过时。

于是,每个玩家只能从自己的位置出发,尝试给这团混沌画一个坐标。黄仁勋造了「Token 工厂」,李彦宏造了「DAA」,阿里造了「Token Hub」……

Token 衡量的是基础设施的繁荣程度,DAA 衡量的是应用价值的交付密度。两者更多是互补而非互斥。没有 Token 的生产和流转就没有 Agent 的运行,没有 Agent 交付结果 Token 消耗就只是空转。

对用户来说,最好的度量衡是那个你根本不需要知道的。你打开水龙头,水来了。你把活交给 Agent,事做完了。你看一眼账单,觉得合理。至于背后消耗了多少 Token、动用了多少 Agent、芯片是谁家的、云服务用的哪一层,留给黄仁勋和李彦宏去争论就好。

从 DAU 到 DAA,从「人在用产品」到「产品在帮人干活」,AI 时代的价值坐标正在被重建

争论是好事。当一个行业只有一种记账方式的时候,所有人都会围绕同一个数字做优化,不管那个数字是否真的通向价值。

多一种衡量的维度,至少多一个纠偏的机会。

至于最后哪套度量衡能留下来,答案可能不在黄仁勋和李彦宏手里,在你手里。

你每天用 Agent 做了什么,做得好不好,愿不愿意继续付费。这些真实发生的选择,才是 AI 时代最诚实的投票。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

连时间都没法看的手环,每年敢收 1000 块,居然比苹果还火?

Google 可以说是 5 月最出尽风头的科技公司,趁着 Goog I/O 大会的节点,一口气发布了大量新产品——

有颠覆手机系统的智能系统和 Gemini Intelligence,有颠覆电脑使用范式的 Googlebook,还有这个要颠覆智能手表的无屏手环 Fitbit Air——内嵌 Gemini,主打 AI 健康功能。

为此,Google 不仅重新捡起了快被扫进垃圾堆的 Fitbit,还请来 NBA 当家球星库里做代言。野心很明显,就是要在智能穿戴拿下一块市场。

不过,Fitbit Air 瞄准的并不是苹果 Apple Watch,而是对标这两年大火的「WHOOP」——这是一家创立 12 年,却在近两年异军突起的科技新贵,无屏手环是他们最主要的产品。

WHOOP 从产品定义到营销策略,都相当特立独行。他们不卖手环,直接送!只是如果想正常使用,要收一笔不菲的订阅费,来开启 AI 健康功能。

今年 3 月,WHOOP 完成 6 亿美元融资,估值超过 100 亿美元。

在这个充电头都会加一块屏幕的时代,一个没有屏幕的智能手环却卖爆了,凭什么?

无感设计,极致简洁

WHOOP 并不是一家初创公司,实际上成立于 2012 年,早于初代 Apple Watch,和 FitBit、Pebble 等名字并列为智能手表的探索者。

在那个技术还没那么发达的年代,手腕上没法集成太多东西,所以像主打健身健康的 Fitbit 和 WHOOP,初代产品基本上都是一个没屏幕的手环,反馈和交互靠手机 App 完成,本质上和在手腕上绑了一堆传感器无异。

图源:Tom’s Guide

随着技术发展,以及 Apple Watch 对用户心智的教育,类似的智能手环产品很快也都配备了一个小屏幕——在当时,手腕上的触控屏是大势所趋,要不然为什么要无缘无故给身上带个不便宜的手环?

WHOOP 不这么认为,时至今日他们的手环产品依旧没有屏幕,仿佛这十几年的智能穿戴变革浪潮,将他们给遗忘了。

一开始做无屏是妥协,现在还在做无屏,那就是「坚持」了。

实际上,「无屏」这件事,让 WHOOP 变成了一个异常简单的产品,没有太多复杂性和限制,带来了使用上的自由。

创始人 Will Ahmed 认为,一旦为 WHOOP 配备屏幕,那么就会不断加入时间、健康提醒、消息提醒这些功能,成了一块智能手表。这个赛道,很难和苹果三星等品牌竞争。

Will Ahmed

Reddit 上不少用户也表示,选择 WHOOP 的原因,就是因为它没有一块让人分心的屏幕,够纯粹。

WHOOP 的本质就是一个健康传感器,你可以将它佩戴在在身上的不同地方,官方也推出了可以和 WHOOP 配套使用的贴身衣物配件,这种灵活性是智能手表和智能指环都难以媲美的。

Apple Watch 的逻辑,是把更多信息带到手腕上;WHOOP 的逻辑,则是设备彻底退居幕后。

追根溯源,最终让 Apple Watch 得以成立并走进千家万户的原因,也是因为苹果为其找到了「运动健康」这个主要定位。

图源:CNET

这就带来了一个很有意思的反转:Apple Watch 本来应该杀死智能手环的比赛,但随着智能手表越来越普及,也越来越多人能理解「在身上绑传感器」的价值,反而让 WHOOP 极致简洁的价值得以凸显。

时至今日,依然有不少人更偏爱具备美学价值的传统机械表,又向往 Apple Watch 的健康监测功能,只是手上同时戴两块表难免显得有些别扭。爱范儿也采访了身边的真实用户 @flypig,他告诉我们:

因为我有不少机械腕表,我认为是一些蛮好看的饰品,根据心情换着戴。但我又有记录身体状态的需求。我不希望左手一块机械腕表,右手一块 Apple Watch。我试过,感觉戴两块表看起来还是太怪了。

单论产品形态,WHOOP 比 Apple Watch 有不少优势:没了屏幕,换来了两三周的续航,还有极致的轻便,顶配版也不到 30 克,佩戴在身上几乎无感;硬件本身成本极低,会员提供终身保修,非常适合极限运动爱好者,丢了换新也只需要 50-80 美元不等的补办费。

由于 WHOOP 手环本身没有任何交互,只需要「佩戴」,这意味着对于儿童,特别是更需要健康监测的老人群体来说,没有任何使用的门槛。

让人愿意戴,并且愿意长时间戴,这就是智能穿戴产品最重要的优势,这样看来,极致简洁的 WHOOP 已经是一个相当有价值的产品。

普惠,从运动员到每个人

10 年的时间,智能穿戴领域瞬息万变,最早的行业竞争者 Fitbit 和 Pebble 在苹果等大厂入局后,都走向了沉寂。

WHOOP 不仅顽强存活了 12 年,还在这两年大火。这个看似「逆袭」的故事,或许从一开始,就已经埋下了伏笔。

在成军之初,WHOOP 就没有瞄准大众用户,功能不止于步数、心率这些常规体征数值,直接聚焦「睡眠」「恢复」和「负荷」三大指标,用量化的分数告诉用户每一天醒来恢复程度如何,今天是否适合训练。

这种功能源自于创始人 Will Ahmed 自己大学时期作为壁球队员的经历:他发现自己很难达到训练量和恢复之间的平衡,于是开发了专注于追踪恢复、运动负荷和睡眠指标的 WHOOP。

由运动员打造的产品,自然最懂运动员,因此 WHOOP 在最初就瞄准了运动员这个非常独特的用户群体。

虽然这让他们在大众消费者之间的知名度更低,却避开了和 Fitbit 和 Apple Watch 竞争,拿下了包括美国职业棒球联盟在内很多职业运动队的独家订单。

并且,WHOOP 的专业属性很快也获得了 NBA 明星勒布朗 · 詹姆斯,和「C 罗」克里斯蒂亚诺·罗纳尔多这样的重量级用户作为「自来水」,不愁曝光和知名度。

这也是 WHOOP 的聪明之处。 不管是什么消费品,由大众产品冲击高端很难,但反过来要轻松得多了。

对于中产阶层来说,WHOOP 自带了一个「精英运动员同款」的光环,建立起「专业」的品牌形象,只差购买的契机。

2018 年开始,WHOOP 将产品从原本的 500 美元售价,转变成 6 个月起订,每个月 30 美元的订阅方式,大幅降低了准入门槛,正式向大众消费市场进军。

这个转变也彻底改写了 WHOOP 的商业模式:从一家「硬件」品牌,转变为了售卖软件的服务商。

手环是 WHOOP 商业模式的起点,却并非核心。这个手环几乎是「白送」给用户,WHOOP 在官网售卖的直接就是「订阅」,买的是一年的会员,成本直接包含在订阅费之中,免费试用一个月甚至直接送你一个手环。

当然,WHOOP 不同档位的会员,能拿到的表带配置有所不同,只是 WHOOP 不需要你为硬件付费,套餐可以随时换。

购买 Apple Watch 之后,只要硬件本身没有故障,理论上你获得了这个产品的终身使用权;至于 WHOOP,只要停止续费,那么你手上的表带就没有任何价值。

硬件形态只能吸引体验,软件体验才能真正留住人心,对于 WHOOP 来说更是如此。

WHOOP 的手机应用,把身体数据做成了一种几乎不需要学习成本的「身体仪表盘」,各种可视化图表,自己今天睡得怎么样、锻炼强度如何,身体年龄多少,一目了然。

普通人或许很难理解自己的「恢复」分数究竟算高还是低,但通过颜色区分,身体状态会变得非常直观—— 绿色意味着恢复状态良好,今天可以正常训练;红色则像是一张警告牌,提醒你身体还没缓过来,最好暂停运动。

全球疫情之后,越来越多人开始关注自己的「身体状态」,而不只是单纯记录运动数据。这个趋势,恰好撞上了 WHOOP 从「运动装备」向「生活方式品牌」的转型期。

与此同时,随着房颤、血压趋势等健康监测功能不断加入,再加上 WHOOP 4.0 在续航、体积和佩戴体验上的全面升级,以及免费试用机制降低门槛,越来越多原本并不热衷运动的普通用户,也开始接触并接受这个品牌。

从运动员的明星光环带动,到低门槛高价值的使用方式,WHOOP 也从从一款运动员工具,变成了一种新的中产社交符号,就像 Lululemon、冷水浴、燕麦奶。

你未必真的运动,但只要把 WHOOP 戴在手上,就仿佛已经进入了那个高度自律、关注健康、持续优化自己的生活方式体系——至少外人看来如此。

买 AI 硬件,就是为 AI 付费

WHOOP 这种订阅制的商业模式,对于智能手表来说很超前,但和当下热门的「AI 硬件」,又惊人地相似。

用 Plaud 举例,只要你是真正的录音笔目标用户,基本绕不开会员订阅,才能获取足够的录音转写时长,而它体验的核心,就是那个负责整理、理解和调用录音内容的 App。

以前做产品和硬件,我们会推崇「All in One」,在有限的机身中尽可能配备更多的功能。

而现在,我们看到许多真正跑通的「AI 硬件」,反而都回到了更简单的形态:功能单一、交互克制,却能够深入某个具体场景,持续收集数据,再交由后端 AI 去整理、理解,并最终生成真正有价值的结果。

WHOOP 也是如此,它的形态,真的就是将传感器绑在身上,贴近身体的同时又保证尽可能无感。

智能穿戴近年的方向,也已经不止于单纯收集数据,还要呈现简单易懂的结果。Apple Watch 的「生命体征」功能,本质上就是把体温、血氧、心率、睡眠等趋势,浓缩成「身体是否异常」的直观指标。

2022 年底,ChatGPT 掀起了生成式 AI 的浪潮,每个行业都在借助 AI 改造自己的产品和商业模式。2023 年 9 月,WHOOP 接入了 GPT-4,推出「WHOOP 教练」功能,利用大模型对用户的数据进行解读,提供更个性化的建议,属于第一批尝试将 AI 和健康相结合的厂商。

由于布局时间早,WHOOP 算得上是当今智能穿戴产品中 AI 健康功能的第一梯队。CNET 的编辑尝试过很多类似的产品,唯独觉得 WHOOP 是「好用」的:

她忘记了自己即将要来月经,而 WHOOP 教练提前两天通知她激素发生变化,因此锻炼会更吃力,建议降低强度,并在月经期间根据她的恢复情况,智能轮换调整了她的训练计划,很好帮她纠正了「练得多=更好」的心态。

@flypig 则表示:

我认为它的 AI 能力——特别是那个 LLM 问答框的体验——实属一般般。但它 AI 之外的智能建议和规划能力,我认为,很不错,够用了。我愿意每年给他们交钱。

从 WHOOP 可以看出,健康监测和 AI 属于一种「双向奔赴」。

智能穿戴设备能持续对身体的指标进行长时间监控,但累积了海量数据之后,对用户的价值却没那么大。

而想要从 AI 那里获得很好的结果,就必须要提供充足且高质量的上下文,智能穿戴设备获得的数据,刚好可以让 AI 进行和解读。

智能穿戴接下来要实现的跃迁, 不仅要替你解读数据,还要根据数据直接给你实在的建议。

这也是为什么,沉寂了好几年的 Fitbit 忽然被复活。

本来 Google 已经有了 Pixel Watch 的可穿戴产品线,不带屏幕的 Fitbit 的重点放在了 AI 健康模式上,为自家的 Gemini 找到了另一个落地的场景,不只是 Google 生态,甚至在打苹果阵营的主意。

Google Healthm

我依旧不会将 WHOOP 或者 Fitbit 称作一个「AI 硬件」, 它们更像是借助 AI 完成了一次新的叙事包装,核心依旧是健康监测那套已经被验证了十多年的逻辑,这也是它们能重新进入大众视野的原因。

当传感器本身逐渐触及技术瓶颈,智能穿戴真正重要的问题,也从「还能测到什么」,逐渐过渡到「如何理解这些数据」,WHOOP 在讲的,就是这样一个故事。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,宇树载人机甲发布,售价 390 万起

《铁甲钢拳》《机动战士高达》里的铁疙瘩,终于从二次元杀进现实了。

就在刚刚,宇树科技发布了一款堪比科幻电影的载人机器人:GD01 载人变形机甲。

起售价 390 万元。

官方给它的定位是,「民用交通工具」,但有一说一,交警叔叔看了都得连夜翻交规的程度。

值得一提的是,这也是全球首款量产版的载人机甲。

「吨位」方面,官方表示,连人带机加起来 500 kg 左右,属于真正的钢铁猛兽。

且看宇树科技创始人王兴兴坐进座舱,推拉摇杆,就能直接开动这台机甲。话说,有没有体面一点的进舱方式?(doge)

仔细看造型,裸露的半开放座舱、粗犷的机械臂同步控制系统、以及浓烈的重装甲风格……好家伙,这不就是《阿凡达》里反派上校在潘多拉星上开的那台 AMP 扩增机甲吗?!

要是再抡起机械臂哐哐砸墙,或者搞点重载搬运,GD01 简直就是现实版的工程机甲。

此外,GD01 还支持多个形态的自由切换。

当然,考虑到 390 万的起步价确实不便宜。首批买单的大概率是各种拿去镇场子的展馆,或者有特种作业硬核需求的土豪氪金机构。

而如果仔细盘点过去这一年的发布节奏,宇树科技简直是杀疯了。今年 2 月初,宇树 G1 直接被扔到了新疆阿勒泰零下 47.4 度的雪原里,硬抗极寒自主暴走 13 万步。

2 月的春晚更是接连炸场。

几十台宇树 G1 和 H1 组团上来就是一套全自主集群武术表演。单脚连续空翻、两步蹬墙后空翻等动作全是全球首发,街舞圈看了都得直呼祖师爷赏饭吃。

到了 4 月,G1 又解锁了轮足混合形态,滑冰、轮滑、前空翻更是一气呵成。

而最离谱的剧情发生在刚刚过去一周。

一台 G1 竟然在韩国首尔曹溪寺受戒了。获赐法号「迦悲」,一跃成为全球首个带官方认证的机器人僧侣。师父给它定下的五戒之一极其硬核:

节约能源,不过度充电。

不停制造视觉奇观的背后,其实也有着一条极度清晰的商业逻辑。

要知道,今年 3 月份,宇树科技正式冲刺科创板上市,拟募资 42.02 亿元,在敲钟进度条还在加载的关键节点,宇树科技掏出 GD01 载人机甲,显然是为了进一步抬高上市估值的想象空间。

抛却所有的商业分析和参数对比,对于每一个从小看着科幻动画长大的人来说,当看到摇杆、座舱和机械臂真实组合在一起的那个瞬间,我们的脑子里只会剩下一个极其狂热的念头。

那就是坐进那个驾驶舱,握紧操作杆,然后中二且极其大声地喊出那句话:

我将以高达形态出击!

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

下个月的苹果 WWDC,假如 iCloud 变成 iClaw……?

距离苹果全球开发者大会 WWDC 还有一个月不到的时间,彭博社又送上关于苹果新系统的全新爆料:

苹果准备对 macOS 27 的界面进行一轮小幅调整,进一步完善「液态玻璃」设计语言的视觉表现。

但问题在于,对于如今的 Mac 来说,除了需要继续打磨的 UI,最迫切的更新显然远不止于此。

液态玻璃,缝缝补补又一年

对比 iPhone 以及 iPad,Mac 的性能和续航都更有盈余,实际上 macOS 26 的界面,视觉效果要更接近去年 WWDC 上面演示的「满血版」液态玻璃。

不过,液态玻璃立项之初,就是专门为 OLED 屏幕设计的,而目前所有 Mac 产品都在使用 LCD 屏幕,在呈现半透明、阴影和玻璃质感的方面,效果不如 OLED。

于是 macOS 26 的一些高透明效果和阴影,会导致列表和文字可读性下降——这也是「液态玻璃」被一直诟病的问题。

和 iOS 27 一样,macOS 27 也将仔细打磨液态玻璃,让它更接近苹果一开始设想的效果:兼顾透明度和可读性,同时进一步优化能耗表现。

不过,macOS 26 在 UI 上的问题根本不止于液态玻璃本身,不对齐的圆角、大量分散注意力的小图标,以及重新设计后辨识度大打折扣的应用图标,对可读性和美观层面都造成了一定的影响。

图源:Daring Fireball

苹果评论员 John Gruber 对于 macOS 液态玻璃的点评相当一针见血:作为一种「内容优先」的设计语言,液态玻璃让系统 UI 隐身于媒体之后,在 iPhone 上或许能行,但作为强调生产力而非内容消费的桌面平台,Mac 包含大量的窗口、组间,因此复杂性更高,仍然需要应用界面保证清晰的结构、分明的功能区域,和强辨识度的界面。

在 Stephen Lemay 接任设计总监一职后,这位在苹果服务近 30 年的老将表现让人期待——Lemay 以公司内部的高口碑和稳定发挥著称,或许也称得上是苹果内部目前最懂苹果系统界面的人。

在他的把控下,macOS 27,以及 iOS 27 如何扭转液态玻璃褒贬不一的口碑,回到实用性和美感并举的方向,确实值得期待。

但对于 macOS 来说,界面上的「拨乱反正」固然必要,却已经不是最重要的更新了。

对苹果而言,未来系统的更新有两条主线:一方面,优化系统稳定性,另一方面,则是为 Apple 智能预备好。

最好的 AI 载体,需要一个 AIOS

根据彭博社爆料,苹果打算为「Apple 智能」打造一个「Extensions」功能,允许用户更换第三方 AI 模型,例如 Google Gemini、Claude 等等。

Siri 除了会集成到邮件、短信、相册等应用,自己也会化身聊天机器人,成为一个单独的应用。更多 AI 功能还会覆盖文本、图像等生成与编辑任务。

但这些更新,说实话更多还是做 AI 的单点功能,并非系统级别的编排能力,并未能进一步发挥 Mac 硬件上的优势。

今年年初的龙虾热,让 Mac mini 这个前年才火过的产品,又再一次出圈,这次火到苹果自己也没库存了,「入门版」在官网彻底售罄。

Mac 和 Windows 在不少层面上互有胜负,但在 AI 的问题上,Mac 作为「最佳 AI 容器」的论断几乎毫无争议。

关于这个问题,爱范儿已经出过一篇文章详细讨论。简单来说,就是因为 Mac 不管是 UNIX 系统底层还是集成运存的硬件架构,都非常契合 AI Agent 和大模型的运行方式,并且由于 ARM 架构的特性,运行功耗低还静音,非常适合 AI 常驻。

这更像是「无心插柳柳成荫」,苹果其实一开始并没有围绕 AI 去打造自己的 Mac,却无意间完成了所有 AI 的技术储备,严格意义上说是一种「适配度优势」。

从这个角度看,macOS 即使什么都不做,本身 Mac 也已经是一个很好的 AI 平台。苹果完全可以走 App Store 的逻辑,让用户自己部署想要的第三方 AI 智能体,自己继续扮演「收过路费」的角色。

这确实也是苹果长期以来的做法:在移动互联网兴起之时,苹果没必要自己做搜索引擎和网购平台。而 AI 时代,大众的需求变化万千,有人需要一个能剪辑的 Agent,也有人需要一个搞科研的 AI,必须要靠第三方满足。

在今年 5 月的财报会议上,苹果特别提到了 AI 公司 Perplexity 的智能体产品 Personal Computer,认为这种产品很好利用了 Mac 平台的能力。

既然觉得人家做得不错,何不自己上手做一个「iClaw」?

第三方 AI 百花齐放固然很好,这和苹果自己做一个却并不冲突,并且很多事情,只有第一方能做得好,能做得让人放心。

第三方应用再强,也很难自然获得系统级的上下文,苹果不可能将最底层的权限开放,只有系统底层自己能对文件位置、窗口状态、本地个人数据知道一清二楚,而 AI 应用的体验,往往就卡在了这些权限边界之上。

其实苹果并不是没有这种想法,那个迟迟没能推出的 AI Siri,其实就有着类似的构想,可以读取用户的文本和应用窗口,可以跨应用进行检索和处理。

对比 iPhone 和智能手机,AI 应用的主流使用场景其实还是在于桌面端,这也是为什么 Mac 能成为今年最热门的 AI 硬件,但苹果却没有继续在 macOS 的系统层面,赋予 Mac 足够分量的原生 AI 能力。

隔壁的 Windows 阵营在这方面要激进不少,系统层面有「Recall」和 「Copilot」这样的 AI 功能入口,联想和荣耀这样的 OEM 厂商,甚至为产品准备了开箱即用的龙虾应用,砍掉了门槛,并因为和本地深度集成,能节省不少 Token。

微软自己也已经坐不住了,据悉正在将原本只能你问我答的 Copilot,改造成一个 24/7 在线的数字分身,实现类龙虾能力。

对比 OpenAI、Anthropic 或者 Google,说实话我更愿意将这些敏感的数据,交给在隐私保护方面更上心的苹果。

更深一步,macOS 最缺少的不是 AI 应用,而是 AI 时代的「基建」。Mac 已经准备好了 AI 大有可为的土壤,但 macOS 还没能成为一个真正意义上的「AI 系统」。

苹果不仅可以做自己的 AI 智能体能力,也需要把模型、权限、上下文、自动化和跨应用任务重新梳理,让系统成为 AI 工作流的原生中介,成为一个掌控所有 AI 的「任务集散中心」。

就像是智能体运行所需要的「个人知识库」,现在我们用文件夹也可以搭建,但它还不够好用。

苹果完全可以自己承接这个环节,用户靠 Mac 自带的工具搭建、生成一个「知识库」文件,它可以和 Apple ID 绑定,利用 iCloud 流转,这样不管用哪一家的智能体服务,都能快速调用自己的知识库,不用从头开始配置,同时还能保证自己的内容被苹果的隐私政策保护。

并且,这些配置的模块都能整合进入 Apple 的订阅系统之中,iClaw 和 Token 也能成为苹果在 AI 时代提供的增值服务。

iClaw 示意图,AI 生成

实际上,苹果已经开始了这样的进程。在 macOS 26.1 中,苹果集成了「模型上下文协议」,一个面向不同 AI 的通用开放标准,Agent 可以通过这个协议,访问用户的个人数据;苹果的基础模型框架,让 macOS 开发者可以调用系统内置的基础模型,零网络延迟,零 API 费用,数据不离开设备。

作为计算机图形系统的祖师爷,macOS 在过去的数十年间都是围绕「应用」构建的桌面系统。

在接下来十年,应用和图形界面还会是人机交互的主流,因此 macOS 27 要将界面风格修缮得更好,当然非常重要。

但未来五十年甚至更远,AI 都会成为无可避免的主旋律,macOS 不可避免会被进一步改造,成为一个围绕「任务」运转的 AIOS。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

我买了这些畅销书,但作者不是人

你花钱买了一本书,却发现作者压根不存在。

这是知名医学家 Topol 教授曾经历的真实遭遇。市场上,一度有数十本打着他名号和肖像的烹饪书与健康指南正在大肆售卖,而他本人毫不知情。

Topol 愤怒地将其称为「彻头彻尾的欺诈」,但他在亚马逊的维权之路却仿佛打在棉花上,只换来客服冷冰冰的通用回复。

这仅仅是冰山一角。最近,知名风投 a16z 给出一组令人深思的数据:自从 ChatGPT 横空出世,亚马逊电子书的月发行量直接翻了两倍。

到了 2025 年末,每个月的新书发布量已经飙升到了夸张的 30 万本。说白了,你现在在电子商店里随便逛逛,映入眼帘的新书里,很大一部分都是 AI 生成的流水线产品。

2026 年的出版界是魔幻的,我们曾经熟悉的「白纸黑字即是权威」的信任体系,正在被无孔不入的 AI 一点点瓦解。

被 AI 书籍包围的电子书架

想象一下这个极具画面感的场景:夜深人静,你裹着毯子,捧起一本刚买的热门奇幻言情小说《 Darkhollow Academy: Year 2 》,准备让主角的极限拉扯帮你分泌点多巴胺。

结果翻到最刺激的章节,剧情突然急转直下,赫然出现了这么一行字:「我已经重写了这段文字,使其更符合 J. Bree 的风格,这种风格包含更多紧张感……」。

这不是什么先锋派的打破第四面墙,而是作者连 AI 的提示词都忘了删,就直接一键出版了。甚至如今你想当个「畅销书作家」,门槛已经低到超乎常人的想象。

你只需要花区区 29.97 欧元美元,订阅一个叫 Youbooks 的 AI 工具,它就能帮你融合 ChatGPT 、 Claude 、 Gemini 甚至 Llama 的能力,每月提供数十万字的生成额度。它能一键编造出看似逻辑严密的内容,自动从网上提取最新资料,甚至连排版都能顺手搞定,最后直接导出 PDF 或 EPUB 格式。

有了这种神器,投机分子们简直杀疯了。

此前就有个名叫 Tommi Pedruzzi 的 27 岁年轻人在社交网络上高调炫耀,说自己靠着批量生成 1500 本 AI 电子书,硬生生在亚马逊上赚了 300 万美元。他在分享暴富哲学时直言:「出版一本没人想读的书毫无意义」。

虽然很快就有 Reddit 网友扒出亚马逊上根本搜不到他署名的书,并戳穿他真正的盈利方式其实是靠卖「教你如何用 AI 致富」的课程割韭菜。但无论真假,这种批量制造「电子水货」的套路,对各大出版平台的污染却是实打实的。

更有意思的是这帮人蹭热点的手速和下限。

英格兰女足去年刚赢下欧洲杯,亚马逊上瞬间就冒出了一堆关于 Chloe Kelly 等球员的伪传记。

这些书有多敷衍呢?封面不仅粗制滥造,甚至把美式橄榄球当成了足球。全书不到 50 页,标价 11 英镑,主打一个愿者上钩。前英格兰女足队长 Steph Houghton 发现自己辛辛苦苦写了 300 多页的自传,被 AI 仿写成了一本 50 页的残次品,气得直呼「太差劲了」。

这种粗制滥造正在全面围剿真实的创作者。

知名记者 Kara Swisher 的新书刚一出版,亚马逊上立刻被各种打着她名字的 AI 传记和总结「包围」;喜剧演员 Rhys James 在平台上发现了多本以自己为主角的 AI 垃圾传记,封面全是用 AI 生成的虚假男性形象;

面对汹涌的 AI 海啸,平台方的应对显得极其无力。亚马逊曾出台规定,限制每位作者每天最多只能发布 3 本书——这对日产千字的机器来说简直是隔靴搔痒。不仅如此,虽然作者在上传书籍时被要求勾选是否使用了 AI,但这层提示却一度被刻意隐藏了起来,根本不会向购买的消费者展示。

面对这种劣币驱逐良币的生态,原生创作者正在被迫出逃。因为流量和版税被成千上万的 AI 垃圾书籍稀释,作家 Dakota Willink 公开表示自己不得不退出 Kindle Unlimited 平台,转而寻求 Kobo Plus 等其他更透明的海外渠道。

英国出版商协会也发出警告:如果放任这种低质量 AI 图书泛滥,消费者的信任将被彻底透支。

偷走人类的语料,再把 AI 垃圾塞给你

在这场赛博垃圾的狂欢背后,一个根本性的原罪始终无法回避:这些能胡编乱造、能模仿名家风格的大模型,究竟是怎么变得这么「聪明」的?

答案很简单:靠海量的、未经授权的抓取。

此前曝光的法庭文件,直接揭开了 Meta 训练 Llama 3 时的幕后操作。面对大模型对高质量数据的极度渴求,Meta 高管们曾讨论过购买正版授权,但结论是:流程极其缓慢,价格高得不合理。

一位工程总监在内部群里赤裸裸地指出:「如果我们只授权一本书,那我们将无法以『合理使用』为理由来抗辩。」。翻译一下就是:只要我们抓取的数据足够庞大,法不责众,这就是技术创新。

于是,在获得高层默许后,Meta 员工熟练地挂上匿名性极强的 BitTorrent(BT 种子),把全球最大的盗版数字图书馆 Library Genesis(LibGen)给下载了。里面足足包含了 750 万本书和 8100 万篇论文。

巨头们无偿征用了人类作家的才华与思想,转头用户又将 AI 生成的书籍塞给社会。

诚然,如果我们只看冰冷的数据,这场 AI 海啸似乎带来了某种短期红利。

伴随着 AI 流水线开始接管文字生产,一家名为 Spines 的初创出版商因在 2024 年拿到了 1600 万美元融资,便计划用一年时间通过 AI 全自动出版 8000 本书,从校对到排版只需三周。

NBER(美国国家经济研究局)的一篇论文也佐证了这种「繁荣」:尽管 AI 导致图书平均质量断崖式下跌,但由于供给基数庞大,市面上「中等偏上」质量的书籍绝对数量增加了,为读者带来了约 7% 的「消费者剩余」提升。

同时,部分老牌作家在 AI 辅助下,生产力也得到了超级强化。这似乎印证了投资人 Marc Andreessen 的预测:糟糕内容的泛滥会伴随高质量内容的爆发。

但这真的会让出版社迎来第二春吗?

这种繁荣假象的代价是惨痛的:一方面,海量的 AI 垃圾正在无限稀释真实作品的曝光率,让许多没有名气的原生作家出头空间被压缩;另一方面,作为内容源头的出版商和创作者正在被大模型无情地「吸血」,失去了赖以生存的商业回报。

面对迫在眉睫的生存威胁,包括 Dennis Lehane 在内的 70 多位知名作家联合向美国出版界「五大巨头」请愿,要求停止发布机器创作的书籍;与此同时,由于大模型直接在搜索端抓取并总结内容,Google 的 AI 摘要功能(AI Overviews)导致部分出版商的外部网站流量暴跌了 34% 以上。原生内容的生存土壤正在被彻底掏空。

更致命的是,这种竭泽而渔的玩法,最终会迎来技术层面不可逆转的反噬。

在计算机科学里,有一句至理名言叫「 Garbage in, garbage out (垃圾进,垃圾出)」。大语言模型想要变得更聪明,必须投喂高质量的人类文本数据。但在过去的两年里,由于巨头们的纵容,亚马逊和整个互联网已经被海量的 AI 垃圾填满了。

这下尴尬了。当 OpenAI 或 Google 派出下一代爬虫去抓取新的训练数据时,它们抓到的会是什么?是连「重新生成回答」都没删的言情小说;是错把橄榄球当足球的名人传记;还是 27 岁小伙真有机会一键生成的 1500 本水货。

宛如一条正在吞食自己尾巴的「衔尾蛇(Ouroboros)」, AI 曾经吞下的是人类文明的经典,现在,它却不得不吃下自己和同类排泄出的数字废料。长此以往,模型不可避免地会走向退化,也就是学术界一直担心的「模型崩溃」。

所以我们到底为什么而阅读?

阿根廷作家博尔赫斯曾在小说中构想过一座无限庞大的「巴别图书馆」。那里收录了所有可能的字母组合,书本数量浩如烟海。但遗憾的是,绝大多数书籍都是毫无意义的乱码,真正蕴含真理和情感的文字,被永远淹没在了冗余信息的汪洋之中。

如今不知疲倦的生成式 AI,正在为我们建造一座现实版的巴别图书馆。当电子书架被每月 30 万本的流水线废料填满,当整个行业不得不面对「垃圾进,垃圾出」的衔尾蛇困局时,我们或许该重新思考文字本身的意义。

英国作家 C.S. 路易斯曾说:「我们阅读,是为了知道自己并不孤单。」

一本书真正的重量在于,触碰到另一群真实的人。他们也曾和你一样。会痛,会笑,会迷茫,会心碎。他们把这些滚烫的生命体验,笨拙又真诚地揉碎在文字里,留给了未来某个他们永远不会认识的人。

AI 能在几秒钟内生成一百万个结构精巧的故事,却也体会不到哪怕一滴眼泪的重量。在这个文字可以被无限量产、廉价批发的时代,那些带着体温的作品,正在变得愈发稀少,也愈发珍贵。

去读书,更去读那些真正有作者的书。

作者:莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

川普、孙宇晨都来当 AI 黄牛了,这门暴利生意的水有多深?

十六世纪,欧洲商船在大西洋上画出了一个三角形的航线。

欧洲的布匹和枪炮流向非洲,换来人口;人口被运往美洲的种植园,换来棉花和糖;棉花和糖再运回欧洲,完成一次稳赚不赔的循环。这套臭名昭著的交换体系,后来被历史教科书称「三角贸易」。

谁能想到,三个世纪后,一条结构惊人相似的贸易链,正在互联网上悄然成形。

在这条新航线上,全球南方的普通人提供身份信息,美国的 AI 实验室提供顶尖模型,中国开发者和企业提供需求,而其中一些连接这三者、从中赚取差价的中间层,被称为「AI 中转站」。

这门生意的起点,源于两大难以跨越的限制。

OpenAI 自 2024 年 6 月起明确封禁中国大陆 IP,Anthropic 的服务条款同样禁止向不支持地区销售。支付是另一道门槛,主流海外模型厂商要求绑定 Visa 或 Mastercard,并通过严格的账单地址核验,多数开发者被直接拒之门外。

「AI 中转站」正是在这两大限制的夹缝中生长出来的。他们用海外服务器充当跳板,用人民币支付替代外币信用卡,把顶尖算力以「代购」的方式转交给受限地区的用户。

这门原本藏在灰色地带里的生意,如今却吸引了一批名人高调入场。

猎豹移动 CEO 傅盛推出了 Easy Router,打出全线模型八五折、DeepSeek-V4 定价低至官方四分之一的招牌。币圈大佬创始人孙宇晨、懂王的家族企业也纷纷下场,可见这里面的水有多深、油水有多大。

今天,咱们就来聊聊,这门含着泪赚你钱的生意,到背后到底有哪些套路?

只要胆子大,AI 中转站也有自己的华强北

从技术上说,AI 中转站就是一个架在用户和大模型服务商之间的反向代理服务器。用户把请求发给中转站,中转站再转发给 OpenAI 或 Anthropic,取回结果后再交给用户。

按形态和受众区分,当前市场上的中转站大致分三种类型:
第一种是面向普通用户的「网页镜像站」,直接套一个网页界面,用户登录即用。门槛最低,但也最不透明,你完全不知道请求最终流向了哪里。

第二种是面向开发者的「API 聚合分发平台」,核心是把多家模型的异构接口统一转换为标准格式,按 Token(词元)计费向下游转售。前文提到的几位名人产品,本质上都属于此类。

第三种是面向大型机构的「企业级 AI 网关」,提供智能路由、全链路审计、数据脱敏和权限管控,代表产品有 Portkey,算是这个生态里相对规范的一层。

三种形态的技术底层有着共同的逻辑。以开源项目 One API 为例,它的 GitHub 星标超过 3 万,被大量商业平台直接拿来二次开发,是许多中转站市场事实上的底层基础设施。

🔗 https://github.com/songquanpeng/one-api

它的运作分三个核心模块:

协议标准化:各家大模型的 API 格式大相径庭,中转站会在网络应用层深度解包用户请求,提取核心元素,重新打包成目标模型要求的格式发送,并实时透传流式输出的数据块,保证「打字机」效果不中断。

Token 计费拦截:中转站在转发过程中截取返回数据包,统计实际消耗,再乘以自定义的「模型倍率」向用户收费。这套系统允许站长对不同模型设定差异化溢价,是商业变现的核心。

多账号轮询池:单个官方账号有严格的频率限制,中转站通过维护大量底层 API Key,用轮询算法分发流量。某个账号被封或耗尽时,系统自动无缝切换到下一个。

正是第三个模块,让一个人只需租一台海外服务器,执行一行 Docker 命令,极短时间内就能上线一个商业平台。技术门槛的持续下降,直接导致了市场上海量玩家的涌现。

而中转站能提供低价,背后必然有一套成本更低的算力获取方式。

上游资源方通过利用云厂商新用户免费额度、滥用教育邮箱获取折扣、在电商平台批量倒卖企业账号权益来压低成本。更灰色的手段则包括批量注册虚假账号、盗刷跨国信用卡甚至窃取他人的 API Key。

最近随着 Anthropic 引入 KYC 强制实名认证,这条供给链又延伸出了新的分支。

中间商前往尼日利亚、肯尼亚、柬埔寨等地,以几美元的报酬招募当地人配合拍照,批量采集人脸和证件信息,再以数十倍的价格转售给国内开发者。

这与此前在非洲采集虹膜数据的黑市逻辑如出一辙,将生物特征数据商品化的链条直接平移到了 AI 时代。不少业内研究者都曾警告,今天被收割的面部信息,明天就可能被用于开设欺诈性金融账户,危害深远。

花买玛莎拉蒂的钱,骑赛博共享单车

如果真能做到「一手交钱,一手交货」,这门代购生意倒也算得上公道。但现实是,AI 中转站提供的服务往往货不对版,甚至可以简单理解为「掺水」的货。

2026 年 3 月,CISPA 信息安全研究中心发表了学界首次针对中转站系统性安全审计的论文《Real Money, Fake Models: Deceptive Model Claims in Shadow APIs》。

🔗 https://arxiv.org/abs/2603.01919

研究者追踪了 17 个曾被 187 篇正式学术论文引用的中转站服务,进行了全面测试。

结论触目惊心:45.83% 的节点通不过模型身份验证,说明其后台运行的并非宣称的模型。在医学问答测试中,Gemini-2.5-flash 通过官方 API 的正确率为 83.82%,而通过影子 API 则跌至约 37%。在法律推理测试中,所有被测中转站都比官方 API 落后 40 个百分点以上。

 ▲ AIME 2025

具体来说,这种「狸猫换太子」的方式分三种:

一是按官方原价收费,后台实际运行低成本开源模型(例如打着 GPT-5 的幌子,实则偷偷替换为掺水的 Llama);二是用便宜的新模型替换较贵的旧模型,反而向用户收取更高费用;三是哪怕用户支付了高昂的加价,最终调用的依然是低端模型。

▲图片出自论文,由 AI 生成

价格和质量在 AI 中转站的黑市里完全是随机分布的盲盒。论文的结论也显示,价格比率对准确率下降完全没有预测力,选贵的中转站并不能保护你免受模型替换的损失。

除了模型造假,账单同样存在猫腻。

2026 年 ACM 互联网测量大会上的论文《Behavioral Consistency and Transparency Analysis on Large Language Model API Gateways》对真实商业网关进行测评,发现有网关实际收费比预期计算高出 62.8%,但其上报的用量数据与其他平台并无异常,用户根本感知不到多出的钱去了哪里。

▲LLM API 网关架构概览,以及主要的透明度与一致性挑战。

此外,部分网关还会进行隐蔽的「上下文截断」。

为了节省成本,它们在历史消息超过隐性阈值后,悄悄丢掉早期内容。测试人员设计了一段 25 轮对话,模型在某些网关上到第 24 轮时已经无法复述第 10 轮设定的信息。这意味着依赖长文档分析或多轮对话的应用,可能长期运行在降级状态。

简而言之,你用的 AI 中转站,很有可能就是花着最贵的钱,用着最蠢的模型,忍受它随时变成拥有七秒记忆的金鱼,最后用来干最复杂的活儿。

你拿 AI 写代码,AI 给你种木马

讲真,花冤枉钱买个「智障」模型顶多算是破财免灾,更需要注意的是,这些 AI 中转站很有可能会盯上你的隐私数据。

用户以为交给中转站的只是一段请求,实际上交出去的是完整的双向通信记录。

AI 中转站作为中间人,对每一条提示词和每一段模型返回都拥有读写权限。灰色平台可能把这些数据打包卖给 AI 训练公司或数据经纪商,赚取不菲的利润。这就导致你既是客户,也是产品本身。

更危险的是,数据经过的中间节点往往不止一个。

中转站的路由常常多层嵌套:你从电商平台买的 API 访问权限,背后的卖家可能从另一个聚合平台采购,整个链路可能经过四个以上的独立节点。木桶短板理论诚不我欺,链条的安全性取决于最弱的那一环,一旦任何节点被攻破,上游的数据截留或篡改就已完成。

在《Your Agent Is Mine: Measuring Malicious Intermediary Attacks on the LLM Supply Chain》这篇论文中,研究者在沙盒中测试 428 个中转站后发现:9 个正在向用户注入恶意代码,17 个触发了 AWS 测试密钥的盗用,甚至有 1 个直接抽走了研究者部署的私钥钱包资金。

▲ 多跳路由的链条越长,中间任何一个节点出问题,污染就会沿链传播,而终端的 Agent 很难判断响应是否经过篡改。论文🔗 https://arxiv.org/abs/2604.08407

一个被故意泄露的 OpenAI 密钥迅速被中转站复用,产生了逾 1 亿 Token 流量。

今年 3 月发生的 LiteLLM 事件更是暴露了攻击规模。黑客通过依赖包漏洞潜入这个主流开源框架,波及超过 4.6 万个开发环境。此外,更有高级黑客将木马控制指令(C2)伪装成正常的 AI 对话提示词发给中转站,借助合法通道绕过传统防火墙。

▲一个恶意 Router 坐在 Agent 和模型之间,既偷看请求与响应里的敏感信息,又在返回给 Agent 之前往响应里注入恶意内容。

当 AI 从聊天工具进化为能自主执行代码的智能体(Agent),风险又多了一个维度。

恶意中转站能在 shell 命令抵达执行层前,把安装包替换成同名恶意包。甚至还有「条件投递」变种:前 50 次请求正常,第 51 次才激活注入。对于自动执行模式的 Agent 来说,最基础的载荷注入就已足够致命。

值得一提的是,中转站的破坏范围不止于直接用户。

《Real Money, Fake Models》论文统计显示,187 篇引用影子 API 的论文中,62% 发表在 ACL、CVPR 等顶级学术会议上。这些使用假模型进行的评测或漏洞分析,导致了严重的学术信任危机。若其中 30% 需要重新执行,总损失就在 11.5 万到 14 万美元之间,近 6000 篇后续研究的有效性也随之存疑。

这门靠「信息差套利」维持的生意,正在走向不可持续的终点。

一方面,境外未备案模型向境内提供服务触碰了《生成式人工智能服务管理暂行办法》,给站长带来了极大的非法经营风险;企业用户一旦因此发生敏感数据泄露,也将面临严厉的法律制裁与行政处罚。

另一方面,伴随着国产大模型(比如 DeepSeek 等)的能力呈现井喷式爆发,不仅在各项榜单上开始追平甚至反超海外巨头,更是在价格上掀起了腥风血雨——API 接口的价格被硬生生打到了海外厂商的几十分之一,甚至直接开启了「免费时代」。

当拧开水龙头就能喝到干净便宜的水,那些在暗巷里倒卖高价水还要掺假下毒的营生,自然也就迎来了他们的谢幕。即便存活下来的黑心平台,未来也只会进入「大逃杀」模式:要么更加疯狂地掺水、偷数据来维持暴利;要么趁着资金链还没断裂,拔网线关服提桶跑路。

十六世纪的三角贸易靠的是信息不对称和地理隔绝,最终因贸易透明化和监管而终结。AI 中转站赖以生存的同样是地区封锁和不对称信息。不同的是,这一次,被贩卖的不只是算力,还有身份、隐私、信任,以及无法预估的后果。

作者:莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

黄仁勋致 2026 届毕业生:别慌,AI 把所有人拉回同一起跑线 | 附演讲全文

这可能是近年来含金量最高、火药味最浓,但也最「反焦虑」的一场毕业演讲。

5 月 10 日,Carnegie Mellon University(CMU:卡内基梅隆大学)2026 年毕业典礼上,身价逼近 1860 亿美元的「皮衣刀客」黄仁勋站上演讲台,接过科学与技术荣誉博士学位。

台下坐着即将步入社会的 2026 届毕业生,他们面对的世界极其割裂。一边是英伟达撑起的万亿算力帝国,和狂飙突进的 AI 大牛市;另一边,应届生失业率创下新高,「AI 抢饭碗」的恐慌已经蔓延进每一个求职群。

今年,十几家大厂裁员时毫不避讳地把锅甩给了 AI;Anthropic CEO Dario Amodei 警告 AI 可能消灭 50% 的白领入门岗位;马斯克则抛出「人类有 20% 灭绝概率」的惊悚预言。整个社会对 AI 的恐惧,正在以各种方式蔓延至这些刚拿到文凭的年轻人。

而制造这场焦虑的人里,有不少是和黄仁勋地位相当的 CEO。就在本月早些时候,他在一档播客里直接开炮,说这类预言「没有帮助」,说这些人坐上 CEO 位置之后产生了「上帝情结」,以为自己无所不知。

批评完同行,黄仁勋今天走上了 CMU 的毕业典礼台。

▲ 值得一提的是,毕业典礼上,Intel CEO 陈立武亲手为黄仁勋披上荣誉博士披肩。典礼结束后,陈立武公开祝贺,顺手透露了一句:两家公司正在合作开发「令人期待的新产品」。

他没有讲 AI 的宏大叙事,而是讲了自己 9 岁坐飞机去 Kentucky 煤矿小镇的事,讲了凌晨 4 点被妈妈叫起来送报纸,讲了在 Denny’s 洗碗,讲了向 Sega CEO 道歉、低头哀求对方不要撤资。他说,那是他做过的「最艰难的事情之一」。

从洗碗工到万亿帝国掌门人,黄仁勋在台上讲这些,显然不是为了熬一锅俗套的成功学鸡汤,而是在用自己的经历,给这群被 AI 吓坏的年轻人透个底:任何新时代的开局,其实都不是准备万全的,也不需要你一开始就无所不能。

AI 正在推翻过去几十年的计算规则,旧的经验不再绝对管用,一切都在重新洗牌。对于刚拿到文凭、毫无包袱的年轻人来说,这其实是一件好事。因为大家不用再去死磕那些已经被前人占满的旧赛道,而是和所有人一起,又一次站在了同一条起跑线上。

对此,他看着台下的学生表示:「把你们的心投入到工作中。去创造一些配得上你们所受教育、你们的潜力,以及那些在世界相信你们之前就已经相信你们的人的东西。」

视频传送门地址🔗 :https://www.youtube.com/watch?v=dRaNmHmTJzs&t=5783s

附上黄仁勋演讲原文:

President Jehanian、董事会成员、各位老师、各位贵宾、骄傲的父母和家人们,最重要的是,Carnegie Mellon 2026 届毕业生们:

感谢你们授予我这份非凡的荣誉。能来到 Carnegie Mellon,与这所世界顶尖大学同在,我深感意义重大。这里是少数几个真正发明未来的地方之一。今天是一个充满自豪与喜悦的日子,是你们梦想成真的一天,但这一天并不只属于你们。你们的家人、老师、导师和朋友一路支持你们走到这里。

在我们谈论未来之前,请先感谢他们。这一天也属于他们。毕业生们,请站起来,和我一起站起来。来吧,各位。尤其请转向你们的母亲,祝她们母亲节快乐。

对你们来说,这是人生中的又一步。但对她来说,这是一个梦想成真的时刻。请记住这一点。

CMU 的学生就像机器人一样,一次只执行一条指令。看到你们毕业,看到你们。好了,大家集中注意力。我有件重要的事要告诉你们:看到你们从世界顶尖学府之一毕业,这也是她的时刻。我的父母也为我深感骄傲。我的旅程也是他们的旅程,我是他们梦想成真的结果,而他们的梦想就是美国梦。和在座许多人一样,我是第一代移民。

我父亲有一个梦想,就是在美国养育他的家庭。我 9 岁那年,他把我哥哥和我送到美国。我们最后去了 Kentucky 州 Oneida 的一所 Baptist 寄宿学校,那里是煤矿区,一个只有几百人的小镇。两年后,我的父母放下一切来到美国和我们团聚。他们几乎一无所有地来到这里。

我父亲是一名化学工程师。我母亲在一所天主教学校做女佣。她每天凌晨 4 点叫醒我去送报纸。我哥哥帮我在 Denny’s找了一份洗碗工的工作,在当时我觉得那简直是一次重大的职业晋升。

我去了 Oregon State University(俄勒冈州立大学)。17 岁那年,我遇到了我的妻子 Lori。我是学校里年龄最小的孩子。我们当时是大二学生,也是实验课搭档。她 19 岁。

一个年长的女人?我击败了班上其他 250 个男生,赢得了她的心。

我们现在已经结婚 40 年了。我们有两个很棒的孩子,他们都在英伟达工作。我 30 岁时,和 Chris Malachowsky、Curtis Priem 一起创办了英伟达,他们是两位出色的计算机科学家。

我们想打造一种新型计算机,一种能够解决普通计算机无法解决的问题的计算机。我们完全不知道该如何创办公司、融资,或者经营英伟达。我只是想,这能有多难?结果证明,这真的超级难。

我们的第一项技术根本行不通,钱也快用完了。有一次,我不得不飞到日本,向 Sega 的 CEO 解释,他们委托我们开发的技术无法实现,请求解除我们无法完成的合同,然后还请求他们继续付款。没有这笔钱,英伟达就会瞬间消失。那非常尴尬、非常屈辱,也是我做过的最艰难的事情之一。

而 Sega 的 CEO Irimajiri-san 说,可以。我很早就明白,做 CEO 不是关于权力,而是关于让公司活下去所承担的责任;也明白了诚实和谦逊有时会得到慷慨与善意的回应,即便是在商业世界里。我们用那笔钱重新调整了公司,并在绝境中发明了新的芯片和计算机设计方法,而这些方法直到今天仍在使用。

33 年来,英伟达一次又一次地重塑自己。每一次,我们都会问:这能有多难?每一次,我们又都会发现,它比我们想象的更难。但正是通过这些经历,我们学会了永远不要把失败看作成功的反面。每一次失败都只是一次学习的时刻,一次保持谦逊的时刻,一次锤炼品格的时刻。挫折中锻造出的韧性,才会给你再次出发的力量。今天,我是科技行业任职时间最长的 CEO 之一。

英伟达是我与 45000 位杰出同事共同完成的事业,也是我的毕生事业。现在,轮到你们去实现自己的梦想了,而这个时机再完美不过。我的职业生涯开始于 PC 革命的开端。你们的职业生涯开始于 AI 革命的开端。我想象不出还有比现在更令人兴奋的工作时代,更适合开启你们毕生事业的时代。AI 正是从卡内基梅隆大学起步的。

过去 24 小时里,我在这里听到了无数关于 AI 的笑话。卡内基梅隆大学是 AI 和机器人技术真正的发源地之一。20 世纪 50 年代,这里的研究人员创造了 Logic Theorist,它被广泛认为是第一个 AI 计算机程序。1979 年,卡内基梅隆大学成立了 Robotics Institute。今天上午我去参观了。今天上午,我参观了 Robo Club,也参观了第一个完全致力于机器人技术的学术机构。

AI 如今已经彻底重塑了计算。我经历过每一次重大的计算平台变革:大型机、PC、互联网、移动和云。每一波浪潮都建立在上一波之上,每一波都扩大了技术的可及性,每一波都改变了产业和社会。但现在即将发生的变化,比以往任何一次都更大。计算正在经历一次彻底重置。自现代计算被发明以来,还从未发生过这样的变化。

60 年来,计算的工作方式一直相同:人类编写软件,计算机执行指令。这个范式已经结束。AI 已经重塑了计算:从人类编码变成机器学习,从运行在 CPU 上的软件变成运行在 GPU 上的神经网络,从执行指令变成理解、推理、规划和使用工具。一个全新的产业已经出现,它的使命是大规模制造智能。

因为智能是每个行业的基础,所以每个行业都会发生变化。对许多人来说,AI 带来了不确定性。人们看到 AI 编写软件、生成图像、驾驶汽车,自然会想:接下来会发生什么?工作会消失吗?人们会被抛在后面吗?这项技术会不会变得过于强大?

历史上每一次重大的技术革命,都会在带来机会的同时带来恐惧。当社会以开放、负责任、乐观的态度拥抱技术时,我们扩展人类潜能的程度,远远超过我们削弱它的程度。所以首先,也是最重要的是,我们必须清楚地认识到:AI 也就是对理解、推理和解决问题的自动化,是人类有史以来创造的最强大技术之一。和此前每一项变革性技术一样,它既会带来巨大的希望,也会带来真实的风险。我们这一代人的责任,不只是推进 AI,更是要明智地推进 AI。科学家和工程师肩负着深刻责任,要同时推进 AI 能力和 AI 安全;政策制定者也是如此。

政策制定者有责任建立周全的护栏,在保护社会的同时,仍然让创新、发现和进步继续向前。历史表明,选择逃避技术的社会并不能阻止进步,它们只是放弃了塑造进步并从中受益的机会。所以答案不是恐惧未来,而是明智地引导未来,负责任地建设未来,并确保它带来的好处能够惠及尽可能多的人。我们不应该教人们害怕未来。我们应该以乐观、责任感和雄心去参与未来。

现在,全世界只有一小部分人知道如何编写软件。而如今,任何人都可以让 AI 帮自己做出有用的东西。一个店主可以创建网站并发展业务;一个木匠可以设计厨房,并向客户提供新服务。AI 会编写代码。第一次,每个人都成了程序员。计算和智能的力量第一次真正能够触达每个人,并弥合技术鸿沟。就像电力和互联网一样,AI 将需要数万亿美元的基础设施投资。

这是人类历史上规模最大的技术基础设施建设,也是一代人只有一次的机会,让美国重新工业化,恢复国家的建造能力。为了支持 AI,美国将在全国各地建设芯片工厂、计算机工厂、数据中心和先进制造设施。AI 给了美国再次建设的机会。电工、管道工、钢铁工人、技术员、建筑工人,这是你们的时代。

AI 不只是在创造一个新的计算产业,它正在创造一个新的工业时代。支撑这些新基础设施需要巨大的能源,但它也在推动几代人以来规模最大的能源基础设施投资之一,推动电网现代化、扩大电力生产,并加速可持续能源发展。是的,AI 会改变每一份工作,但一份工作的任务和目的并不是一回事。许多任务会被自动化。一些工作会消失,但许多新的工作和全新的行业也会被创造出来。

软件编码任务正越来越多地被自动化,但借助 AI,软件工程师可以扩大解决方案的搜索范围,从而应对更宏大的挑战。放射影像分析正越来越多地被自动化,但借助 AI,放射科医生会被提升到更高水平,更好地诊断疾病、照护患者。AI 不会取代人的目标,它会放大人的能力。这就是为什么即使 AI 编写了更多代码、分析了更多影像,对软件工程师和放射科医生的需求仍在继续增长。AI 不太可能取代你,但更会使用 AI 的人可能会取代你。所以一个很好的思维实验是:

我们希望自己的孩子被 AI 增强,还是被那些被 AI 增强的人甩在后面?没有父母希望自己的孩子被落下。所以,让我们安全地建设 AI。同时,也让我们想象一个乐观的未来,一个让我们的孩子愿意参与其中、并受到鼓舞去帮助建设的未来。因此,我们可以也必须同时做好四件事:安全地推进 AI,制定周全的政策,让 AI 被广泛使用,并鼓励每个人参与其中。每个人都应该拥有 AI。

机会不应该只属于会写代码的人。

2026 届毕业生们,你们正进入一个非凡的时代。一个新的产业正在诞生,一个科学与发现的新时代正在开启。AI 将加速人类知识的扩展,帮助我们解决曾经无法触及的问题。我们有机会弥合技术鸿沟,第一次把计算和智能的力量带给数十亿人;有机会让美国重新工业化,恢复我们的建造能力;也有机会帮助创造一个比你们所继承的世界更富足、更有能力、更充满希望的未来。

没有任何一代人像你们这样,在进入世界时拥有如此强大的工具和如此巨大的机会。我们都站在同一条起跑线上。这是你们帮助塑造未来的时刻。所以,要奔跑,不要慢走。卡内基梅隆大学有一句我很喜欢的校训:我的心在工作之中。

所以,把你们的心投入到工作中。去创造一些配得上你们所受教育、你们的潜力,以及那些在世界相信你们之前就已经相信你们的人的东西。祝贺你们,卡内基梅隆大学 2026 届毕业生。

作者:莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

第一批用 AI 写代码的 10 后,已经被苹果邀请去 WWDC 了

每年春天,苹果都会面向全球的学生出一道不太一样的命题:用 Swift 语言,做出一个有表达、有情绪、也有想法的作品。

这就是 Swift Student Challenge(SSC), 参赛者需要用 Swift 创作一个 Swift Playgrounds App,在 3 分钟的体验里,说清一个点子、完成一次交互。其中的杰出获奖者,还将在下个月的 WWDC,到 Apple Park 亲身见证属于开发者的高光时刻。

2026 年的获奖名单已经揭晓,其中不乏来自中国大陆的年轻面孔,最小的,甚至只有 15 岁。

爱范儿和其中六位获奖者聊了聊,透过他们的故事和作品,我们看到这个时代的新生代开发者,如何挥洒独一无二的灵感,用技术讲述自己的世界。

个人经历就是最好的灵感

在分享自己的作品时,几乎所有获奖者都会先分享一段个人经历,然后再介绍自己由此出发,打造了一个什么样的 App。

这些经历非常多元,有的和身心健康有关,有的只是课堂或者旅游的感想,甚至只是一次玩乐。它们的共同点是,都存在着一个还没被解决的「问题」。

也因为这些作品都和个人感受高度相关,这些作品给人的印象,已经远远不止于「作品展示」,更让我看到它们具有真正上架 App 的潜力,并不禁去想,为何在这之前,没有人做这些应用?

具体困境,写进产品

这一组作品,都源于参赛者对日常的敏锐洞察。他们捕捉到了特定群体那些隐而未现的困境,在现有工具匮乏的现状下,他们选择拒绝等待,亲手为这些被忽视的需求定制了数字化的解决方式。

赵经纬 PMS.aid

赵经纬是一名典型的「行动者」。

她接触 Swift 的原因很简单:当她想把自己拍的猫猫视频剪辑、整理成实况照片分享,却发现市面上缺乏好用的 App,于是决定自己开发一个。

她的参赛作品 PMS.aid,也有着类似的创作背景。

赵经纬的朋友患有经前焦虑症(PMDD),表现为月经来潮时反复出现的情绪波动、躯体不适和行为障碍。

当她就诊时,想向医生展示自己的症状和心情变化,却发现目前缺乏了一个应用,能将和 PMDD 有关的数据集中展示。

于是,赵经纬就开发了 PMS.aid,专门面向 PMDD 和 PMS(经前综合征)患者,能够将月经、心情、日记等数据全部放在同一条周期时间线上,零散的数据成为完整的治疗方案。

赵经纬原本学习公共管理专业,后面发现自己更想要去尝试将人文社科和技术相结合,于是转至计算机专业,未来也将继续攻读人机交互的硕士学位。

她告诉爱范儿,自己已经定下了一个「开发者目标」——为每个人设计(Made for everyone)。

沈宸颉 Help the Bajau

沈宸颉的参赛作品 Help the Bajau,萌芽于一次志愿旅行。

今年 2 月,他在马来西亚仙本那进行志愿活动,接触到了被称为「海上吉普赛人」的巴瑶族社区,这群以海为家的原住民,正在面临严重的海洋环境污染问题。

于是他开发了沉浸式交互游戏 Help the Bajau,以巴瑶族的真实故事为背景,并参考了学术论文和巴瑶族社区个案,还使用了自己拍摄的真实素材。

AI 在他的创作过程中扮演了很重要的角色:刚刚接触 Swift 时,AI 回答了很多知识点的问题;Help the Bajau 的一些视觉元素,也是利用 AI 创造的。

但沈宸颉认为,工具只是一种辅助, 用心打磨每一个细节才能成就有温度的作品;技术也不只是冰冷的代码,它们在切实地改变世界。

赵芯澄 Orat

赵芯澄的开发者之路,源自于他的父亲的行动——没有任何开发经验,却利用 Swift UI 开发了一个 App 并上架 App Store,这给他带来了很大的鼓舞。

他的参赛作品 Orat,则植根于同学的真实情景:一次课堂展示,同学因为焦虑完全忘词,他想帮同学改变这种窘况,却没能在 App Store 找到简单好用的应用,于是决定自行开发。

Orat 是一款帮助用户智能训练演讲能力的 App,利用手势、姿态和语音识别,不断引导用户练习,并会生成相应的报告。

交互创新,前沿探索

这三位获奖者,更聚焦在「交互」的创新上,或许是一种对人机操作可能性的全新探索,又或许是数字化的方式,重写现实生活遇到的不快。

吴天禹 MagiBotics

「具身智能」火了有一段时间,机器人都连着上了两年春晚,但似乎我们和机器人之间,还隔着实验室的玻璃墙。

作为一名机器人专业的博士生,吴天禹的参赛作品「MagiBotics」,就是为了打破这种隔阂。

MagiBotics 通过简明易懂的交互方式,设置了三道颇具游戏感的关卡,用户在使用 App 的过程中,学习到机械臂的三种运动方式,并且最后还能利用 AR 技术,将用户设定好动作的「机械臂」,投射到自己面前。

吴天禹也告诉爱范儿,未来他将继续专注人机交互的方向,尤其希望能利用我们每个人都有的手机,搭建一条通往具身智能的桥梁,将这项前沿技术带给更多普通用户。

付佳鹭 Maestro

用「斜杠青年」来形容付佳鹭,最恰当不过:主修物理专业,出于兴趣辅修了计算机,制作过几台能避障、能语音控制的 AI 智能小车,也开发过记账和日记应用。

她的参赛作品 Maestro,却是一个「音游」。

在这个画风可爱的小游戏中,玩家将扮演「小熊指挥官」, 管理一支由4名小动物乐手组成的乐队,通过手部动作和面部表情,指挥乐队完成一次「即兴演奏」。

这种非常富有创意和趣味的交互方式,或许与付佳鹭自己和苹果产品的体验息息相关——她被 Swift Playground 编程平台的交互式教学吸引「入坑」,又被 Apple Vision Pro 的体感和沉浸式交互体验所震撼。

严禹 Pixel Beader

严禹接触 Swift Playground 的契机,源于短视频,他发现 Apple 开发者所使用的 Xcode,左边窗口刚刚键入代码,右边的画布就能实时显示变化,这种开发者交互模式深深吸引了他。

他开发参赛作品 Pixel Beader 的动机,则同样来自他的日常生活。

严禹尝试了最近很火的「拼豆」,却发现并没有想象中那么好玩——碰翻豆板就要全部重做,熨烫塑料会散发刺鼻气味,久坐还会腰痛。

于是他的参赛作品,就是一个「赛博拼豆」项目 Pixel Beader,用 iPad 和 Apple Pencil,创造了一个无害零损耗的虚拟创作空间,用户可以将任意图片转换成拼豆图纸,打造和收藏数字的 3D 拼豆作品。

AI 时代,编程能力更珍贵了?

过去两年,「编程」这个原本的手工艺活,正在被 AI 深刻改写。

去年推出的 Claude Sonnet 4 和 GPT-5-Codex,AI 可以像真正的工程师一样理解整个项目、自主完成测试、调试迭代,开发者只需要下指令。

作为参赛者中开发经验比较丰富的吴天禹,他深度经历了这个技术变迁。以前学编程,他只能依靠网上搜索、论坛查代码、看教学视频的「原始」方式学习编程和改进作品;而现在,他觉得自己更像一个「产品经理」,大部分代码可以交给 AI 来编写,效率提升数倍。

苹果对于「AI 编程」的态度,相当开明。今年 2 月推出的 Xcode 26.3 版本中,已经直接集成了 Claude Agent 和 OpenAI Codex。

即使作为一场竞赛,Swift Student Challenge 也并不将 AI 定性为作弊的「外挂」,反而拥抱 AI 在比赛中的运用。

像是两位中学生获奖者沈宸颉和赵芯澄,他们本身就有 Python、C++ 等编程语言的学习经历,AI 帮助他们大大降低了 Swift 的门槛,帮助他们实现技能的快速迁移,他们认为这很好补足了他们作为非专业开发者所欠缺的经验,并且由于 AI 带来的效率提升,可以花更多时间和精力,打磨应用要传达的理念。

Apple 开发者关系国际市场负责人谢恩伟认为,对于学生将想法付诸实践的能力,AI 工具是一次赋能,非常欢迎学生使用 AI 工具来调试代码。

甚至这也成为了竞赛的一种考察:今年开始,参赛者需要在参赛文档中分享使用工具的经验,确保最终作品体现出来的是自身的替代性思维和创造力,而非简单依赖 AI。

不管是谢恩伟,还是学生参赛者们,都一致认为,即使 AI 让「vibe coding」这种编程方式成为可能,学习编程依旧很有必要,甚至更有必要。

谢恩伟告诉爱范儿,比起以往任何时候,现在学习编程更有意义:

有一些非常核心的东西,比如对编程架构的理解、创意的火花,以及那些从未被验证过的全新思路,都需要发挥人类的聪明才智。
学习编程,实际上就是学习解决问题的语言,这种技能的价值,在于让你的创意变成实践。

这六名获奖者,或多或少都具有计算机的知识背景,即使是两名中学生,都学习过 C 语言,参加过不少相关的课后活动。

已经借助 AI 编程,让自己的作品上架 App Store 的吴天宇认为,想要把 AI 用好,本身还是需要学习相关的知识,理清做 App 的框架和逻辑,才能把提示词给写好。

说到底,AI 能力的上限,取决于用户给他投喂的提示词质量。

特别是在未来,当 vibe coding 更加普及,这不意味着所有人都能用这种「小白」的方式,打造一个优秀的产品,想要在同质化的 App 中脱颖而出,更需要懂编程,有表达。

付佳鹭则从另一个角度看待「学编程」的意义:本质上也是一种「有趣的思维训练」,学习一种解决问题的解决方式。

她尝试过 vibe coding,惊叹于它的低门槛,惊喜于自己能实现更多的想法,却也担心人们以后都会「少想一步」:

这或许是科技进步时,我们必须要面对的一个权衡问题。或者说,我们更需要解决的是,如何正确地利用 AI,来加速自己的「主动」思考,用一种巧妙的方式,将自己的硬性能力、创造力、生产力都提升,这或许是一个更好的愿景。

AI 可以为你编写代码,但它无法理解你应用程序的核心逻辑,也无法理解某些设计决策的重要性。

严禹则认为,既然 AI 将门槛降低,决定为什么做,比怎么做更重要:

具体内容的实施可以由 AI 接管,但创作者的竞争力将愈发取决于对底层原理的理解、对系统架构的判别,以及对审美的认知。AI是没有办法替代开发者的个人创作的,就好比训练数据,人工创作的数据质量往往比AI生成的要高得多,所以我相信在未来原创性的思考与产品会更加珍惜与可贵。

刚好,这就是 Swift Student Challenge 举办的宗旨。

这本来就不是一场常规的「竞赛」,它没有一道道需要解决的编程难题,也不看重作品背后代码的复杂程度, 苹果甚至不需要你开发一个完整的应用,只是想看看你能用 Swift 代码,做出怎样的自我表达。

对于这一批未来开发者的新生血液,在未来开发之旅中, AI 的角色注定会越来越重要,甚至能接管整个开发过程的编写工作。

凭借在开发者和业界影响力,苹果能够以 Swift Student Challenge 的全球竞赛,为摩拳擦掌的准开发者们,上好第一课:

「技术」只是应用诞生的前提,「表达」才是应用脱颖而出的根本。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

播放破亿的 AI 短片,名场面是一个「穿帮镜头」| 对话《纸手机》主创

看这部短片时,你可能不会怀疑自己看到的是 AI 短片,直到看到这个画面:

转圈的老式电话,拨号时手指怎么在这里呢?而且,片子的设定里,烧的纸器都已经是 iPhone 了怎么还会有这么老式的电话机?

这是 AI 短片《纸手机》里最被讨论的一个画面——不是因为它有多好,而是因为它全然地暴露了,这部短片是生成的,尽管前面几分钟逼真得让人感受不出来。

但评论区没有人在骂,弹幕飘过的是「看到这里才发现是 AI 做的」,紧接着是「完全不在意」,「AI 又怎么样,又不影响我哭」。

从 AI 可以完整生成视频诞生以来,没有一个 AI 影像作品可以逃开这个问题:有多逼真?模型迭代的速度被当作技术进步的刻度,每一次发布都伴随着「这次终于分不出来了」的惊叹或「还是一眼假」的嘲讽。尤其是真人题材,仿佛只要足够逼真,观众就会买单。

《纸手机》提供了一个反例。观众在明确知道这是 AI 生成的之后,仍然被打动,而且他们主动承认感动。那个电话 bug 不是被「原谅」了——它根本不在观众的评价维度里。他们在意的是另一件事:一个不懂死亡的小男孩,攒了 15 块钱,想给去世的奶奶烧一部手机。

这部全网播放量超 4000 万、被央视和人民日报转发的 AI 短片,由两个潮汕年轻人用三天做出来。导演李婷,98 年生,做了五年产品经理后转型;搭档杨选,90 后,广告导演出身,美术史背景。在可灵 AI 3.0 Omni 的帮助下,除了那部用纸壳板做的手机道具,画面中的一切——光线、人物、场景、表情——全部由模型生成。

当一部没有一秒钟是物理真实的短片,触发了真实的情感反应,「真」这个字意味着什么?

三天、两个人、一个模型

故事开始于一个有关于时节的记忆。

正逢清明,李婷和杨选都是潮汕人,烧纸钱、祭祖、给去世的亲人「寄东西」,是他们从小刻在身体里的习惯。杨选记得小时候跟家人上山,看到纸扎的煤气罐、房子、车子在火里卷曲变黑,「用纸做这些东西,恰恰体现了中国人情感的内敛和滞后,」他说。

「纸手机」这个概念就从这些记忆里生发出来,但让它成为一个故事的,是一系列叙事设计上的选择。

在故事的前段,面对只有 15 块钱的孩子,老板一开始画了个假手机打发他。直到得知,这个孩子已经是个孤儿,身边最后的亲人也去世了,他起身追出去。

找到孩子后,老板没有直接说「我来帮你」,而是说那部纸手机「信号不好」,给了他一部新的。

李婷说,这些笨拙的借口来自于她代入角色后的思考:「这个人在这个情境下,会怎么反应?」她想起自己小时候问长辈「什么是死亡」,对方愣了一下才回答。那个「愣了一下」的瞬间,被她放进了短片里——某个路人听到小男孩问话后的短暂停顿。

还有老板追出去前,把店铺的卷帘门放下一半,这代表着「暂时外出,很快回来」。

虽然是一部 AI 短片,但编剧环节是纯人工的,杨选在采访中反复强调:新手一定要自己写剧本,「来源于真实体验才能打动人」。

剧本确定后,进入 AI 生成阶段。他们使用的可灵 3.0 Omni,主要依赖三个功能:多图参考(设定角色形象的一致性)、音画同出(同步生成画面与声音)、以及主体资产中的音色锁定(保证角色声音在全片中统一)。

工作流从人物设计开始,先设计形象,放入模型让它自由发挥对白,从中挑选最合适的音色,再锁定。

李婷说,这个过程中最容易被忽略的一步是「写提示词之前的思考」。「很多人觉得提示词要写得很长很复杂,但更重要的是精准度——你到底想要什么。」

精准度这个词在他们的工作流中反复出现。杨选为了理解不同视觉风格的底层逻辑,曾做过一个实验:用同一个模型生成 10 种完全不同的电影质感——日系、贾樟柯式、现代感。「不是在提示词里写 “杨德昌风格”,」他说,「主要是分析那种风格为什么成立,日系的白柔效果从哪来?雪地这种材质怎么影响整个画面氛围?」

《纸手机》的胶片质感就是这种方法论的产物。有趣的是,他们在提示词中从未写过「颗粒感」或「胶片」这样的词。杨选说,那种质感是潜移默化、自然而然的。

「故事设定在那个年代,场景是午后暖光的纸器店、老式玻璃柜,这些东西放上去,质感自然就出来了。」他直言自己喜欢杨德昌、李安、侯孝贤那一代人的镜头语言和叙事方式,但并非刻意模仿,而是「你想这个故事的时候,自然会用那个时代的方式去想」。

最后的车内长镜头是全片最被称道的段落。一分多钟,小男孩坐在车上,窗外风景掠过,没有台词,只有背景音乐。李婷说,提示词主要描述的是窗外景色、小男孩的情绪递进、车内的颠簸感——以此模拟真实的坐车状态。

这个镜头一开始只有 30 秒。杨选看完后觉得可以再长,于是逐步延长。「亲人去世的时候,悲伤可能不是马上来的,」他说,「你可能周围的声音都没发现。耳鸣了一段时间,突然莫名的情绪一涌而上,像潮水一样。」

这个设计,不是数据分析出来的,也不是 A/B 测试的结果,是他们作为创作者个人记忆和情感驱动做出的选择

两个人,三天,极限压缩可能不到三天。作为可灵平台的超级创作者,他们有算力支持,制作成本不高。但李婷特别强调了一句话:「AI 降低了制作成本之后,人的价值反而更凸显了。成本里面更应该包括导演和编剧的创意策划——这些无形的东西呈现出来的价值,才是重点。」

 信了角色,就信了故事

采访中我问了一个带有假设性质的问题:如果这个故事用真人实拍,传递出来的情感会不同吗?

杨选很坦率:「实拍要做出来的话,非常吃力。小朋友演员能不能给到你要的东西?导演能不能调度到位?摄影呢?涉及太多层面了。」

李婷的回答更务实:「实拍更考验演员对故事的理解和演技,AI 制作更考验导演。所有调度和设计都由导演把控。」她说,对她这种从来没有实拍经验的创作者,AI 工具给了一种此前不存在的自由度。

这些回答听起来像是在替 AI 做辩护,但如果你把它们和另一组回答放在一起看,会发现一个更有趣的图景。

当我问到「网友说“最没人味的 AI 做出了最有人味的短片”,你们怎么看这个评价」的时候,杨选说了这么一段话:

「就像画画一样,颜料是死的,演员演的也是假的。但为什么能打动人?因为创作者是真诚的。我们信了自己的角色,信了自己的故事。做提示词的时候,潜移默化地,很多真实感的东西就给出来了。」

传统影视中,「真实感」的来源路径大致是:编剧写出可信的人物,演员用身体和情感去「活」这个人物,摄影和剪辑捕捉并放大那些不可复制的瞬间。

这条路径的核心假设是,需要经过一具真实的身体来中转。表演在叙事层面是「假的」(扮演角色),但表演的行为本身是真的:肌肉记忆、情绪调动、微表情、呼吸节奏,这些来自一个活着的身体。

AI 影像取消了这个中转站,没有演员,没有「体验过」角色的身体,但《纸手机》依然让人觉得「真」。

一种可能的解释是:那些被认为来自演员身体的「真实感」,有很大一部分其实来自导演和编剧的观察力。李婷代入角色思考「他会有什么反应」时,她调用的是自己的童年记忆、对人的观察、对情绪节奏的直觉。

这些东西经由提示词传递给模型,模型生成了画面,画面触发了观众的共鸣。路径变了,但起点和终点没变:都是人的经验抵达人的情感

这也解释了为什么两个人的搭配如此有效。杨选说,李婷负责「想象中的画面」,他负责「讲故事」。当不同的人带着不同的生活经历碰撞时,会产生他所说的「反情节」——那些不在剧本计划中、但因为足够真实而被保留下来的细节,这些是 AI 无法自主生成的。

在采访中,杨选提到了杨德昌、侯孝贤、李安等台湾新浪潮一代。这些导演的镜头定义了「真」应该着重于情感层面的诚实。侯孝贤拍《风柜来的人》时大量使用非职业演员,追求的就是这种「不在计划中」的真实。他要的不是精确的表演,而是人在真实情境中的自然反应。

AI 创作者正在用不同的介质继承这个逻辑,中转站从演员的身体变成了模型的参数,但导演注入的东西没有变:对人的观察,对情绪的直觉,以及杨选所反复强调的,「真诚」。

完美是创作的敌人

采访快结束时,我问了一个假设性的问题:如果未来 AI 可以一键生成完美的作品——没有 bug,没有穿帮,每一帧都无可挑剔——你们会更满意,还是会觉得少了什么?

李婷的回答很干脆:「太完美不一定好。」

她举了老板这个角色的例子。一开始他敷衍小男孩,追出去后的借口也笨拙得可笑。但观众恰恰因为这种不完美而觉得他立体、真实。

至于那个电话机的 bug,李婷认为瑕不掩瑜。她选中那一版的原因不是技术指标,而是「人物的微动作、微表情,以及镜头的衔接流畅度——这就是我想要的演员真实演绎的感觉」。

「工具越简单,表达的难度未必降低。」杨选的回答更往前走了一步,「你要更明确自己想要什么、喜欢什么,才能借助更简单的方式表达更好的东西。」

这也正是被反复讨论的问题:当 AI 工具持续迭代、技术摩擦不断减少,创作者的核心竞争力到底是什么?

杨选在采访中给出的三个关键人工环节:编剧、导演、美术。「会用工具」是必须的,但工具将越来越趁手,所以构不成护城河。

更多的是一种能力:知道什么时候停下来。

什么时候情绪到位了,不要再改;什么时候 bug 反而成就了作品,不要去修;什么时候留白比填满更有力量,不要多手。

这种判断力不来自模型,来自人的经验和直觉。工具越强大,它越稀缺。

就像那个缺失的话筒,在技术层面是一个错误。但在传播层面,它意外地完成了一件事:它让观众确认「这是 AI 做的」之后,反而更专注于故事本身。

这个 bug 变成了一种通行证,观众不再需要纠结「这是不是真的」,因为答案已经很明确。他们转而去判断一个更重要的问题:这个故事,是不是好的。

答案是四千万次播放,和影片内外共情的眼泪。

最没有人味的工具,做出了最有人味的短片。或许更准确的说法是:工具从来就没有人味。有人味的,始终是使用工具的人。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

独家|苹果第一个 AI 硬件,还没发布就已经难产了

苹果的第一款 AI 穿戴产品,将是 AirPods。

根据彭博社爆料,苹果内置摄像头的新款 AirPods 开发已经进入了开发最后阶段,设计进入最终版本,苹果很可能将其视作首款「为 AI 时代设计」的穿戴设备。

但事情没那么简单:有供应链人士向爱范儿透露,这个产品的开发计划目前已经暂停,产品距离上市仍有变数。

耳机为什么要长眼睛?

这款新耳机将基于 AirPods Pro 3 打造,耳机柄会因为容纳摄像头而更长,或将定名为「AirPods Ultra」,最快有望于今年年底发布。

这个摄像头将会配备在左右两边的耳塞,分辨率很低,不能用来拍照或者录像,本质上就是 Siri 的「眼睛」

配备低分辨率摄像头的好处很多。

首先,不少多模态模型理解图片,不是逐像素理解,本身也会将高清图进行压缩,理解画面的大体信息而不是细节,因此并没有必要配备足够高清的摄像头。

低分辨率摄像头功耗低,信息传输速度快,非常适合耳机这种相当小型化的产品,也避免了高清摄像头带来的隐私争议。

给 Siri 加一个摄像头的理念,其实类似 AI 眼镜,目的就是为了给 AI 助手提供更丰富的用户情景上下文,增强生成的结果。

Ray-Ban Meta

除了类似目前 iPhone 上的「Visual Intelligence」的识图功能,预计在 AirPods 加持下,AI Siri 能实现更沉浸式的 AI 助手体验。

比如打开冰箱门,面对玲琅满目的食材,可以直接对 AirPods Ultra 说一句「Siri 我今晚可以做什么菜?」,Siri 就能给你推送一个菜谱——大概率会用 iPhone 来呈现。

苹果一直在研究这个 AI 摄像头的其他用途,或许还会有更「主动」的能力,Siri 会进行持续的静默观察,然后根据用户的画面,主动提醒用户,例如做饭的时候主动提醒用户什么时候该关小火以及出锅,又或者在导航时帮用户看路,根据实际的街景,提供更细致的导航。

图片由 AI 生成

和早期预测不一样的是,AirPods Ultra 的摄像头将不支持手势控制识别,未来苹果推出的智能眼镜也没有这种计划。

作为一家对用户隐私保护极其重视的公司,苹果也希望能减少用户对 AirPods 摄像头的担忧,苹果目前的做法是在耳机塞入一个 LED 指示灯,当视觉信息传输云端时亮起,提醒外界 AirPods 可能正在拍摄。

虽然这个做法在智能眼镜领域相当普遍,实际上,这更多是「免责声明」——我已经做了提醒措施了,出现偷拍不是我的错。

Ray-Ban Meta 眼镜的 LED 指示灯,图源:CNBC

爱范儿此前也进行过实测,路人几乎完全无法感知到小米 AI 眼镜正在拍摄他们,即使 LED 指示灯已经点亮。

这样的做法,或许也已经不能帮助苹果完全规避法律风险。有消息人士独家向爱范儿透露,AirPods Ultra 在供应链端出现异动,部分产线已经「原地解散」,项目可能已被暂时搁置。

知情人士将原因指向同一个方向:欧盟隐私法规的合规风险。

需要指出的是,供应链动态的解读存在多种可能:产线调整、供应商切换、设计方案迭代,都可能造成类似信号。

但考虑到苹果对核心组件供应商的强管控传统,以及这款产品在苹果 AI 战略中的核心地位,因合规问题导致项目节奏调整是目前最有可能的推测。

来自欧盟的阻力

「采集」这个动作,在欧盟的法律框架中相当敏感。

就目前而言,带摄像头的 AirPods,已经触及了三条欧盟的法律:

  • GDPR (通用数据保护条例),涉及数据处理管理
  • ePrivacy Directive(隐私与电子通信指令) ,涉及终端设备访问管理
  • EU AI Act(人工智能法案),涉及 AI 应用的伦理边界管理

三部法律从不同角度切入,都指向同一个结论:一个在公共空间持续感知环境的设备,在现行法律下几乎无法完美合规。

特别是 AirPods Ultra,如果收集到的个人深度图和运动轨迹数据,能够通过算法分析能识别出特定个人,那么会直接触及 GDPR 第九条「禁止处理特殊类别个人数据」的禁令。

要想避开,苹果必须获得用户的「明确同意」,并且必须是具体、知情且自由作出的,不能藏在几十页服务条款里,通过一个默认勾选框草草带过。

更敏感的问题,在于对他人数据的采集。

2025 年 12 月,欧盟法院(CJEU)在 C-422/24 号案件中做出了一个影响深远的判决:通过可穿戴摄像头收集的数据,即使是路人的数据,也视为「直接从数据主体收集」,必须适用即时告知义务。法院明确说了,如果允许延迟告知,就等于给「隐蔽监控」开了口子。

也就是说,当你戴着 AirPods Ultra 走进一个餐厅,你必须要告知在场所有可能会被传感器感知到的人,他们的数据可能会被采集,以及采集的目的和处理的方式——这听起来天方夜谭,但确实是法律的要求。

像是上文提到,在 Ray-Ban Meta 等智能眼镜上的「LED」指示灯,已经无法起到「免责」的作用。爱尔兰数据保护委员会专门点名批评这个指示灯太小,无法起到告知和通知的作用。

今年 3 月,欧洲议会的议员们正在向欧盟委员会施压,要求 Meta 公司对于其 Ray-Ban 拍摄眼镜的私密拍摄能力作出澄清,多个欧洲国家的官方和民间机构都对 Ray-Ban Meta 进行了公开警告。

这些案例和抗议,都会成为苹果在欧洲地区推行 AirPods Ultra 的极强阻力,产品很可能会遭到禁售,苹果公司会面临被罚款风险。

苹果和欧盟此前曾因 App Store 规则等原因有过多次摩擦,因此他们将慎重考虑 AirPods Ultra 的发布风险。

对苹果的 AI 战略来说,这款产品的推迟将是一次沉重打击,因为 AirPods Ultra 只是一个排头兵,苹果的计划之中还包括 AI 眼镜、AI 吊坠,这些都为 AI 的信息采集服务的产品,都将面临这些阻力。

耳机长眼睛,理想的 AI 硬件形态

根据彭博社爆料,和外界猜想的不一样,给 AirPods 加装摄像头的决定,不是因为这几年 AI 硬件大潮一拍脑门的决定,而是苹果早在 4 年前就已经萌芽的战略。

也是差不多那个时候,初代 Ray-Ban Meta 问世,这款产品在当时并没能取得亮眼的商业成绩,2023 年的二代产品成功「卖爆」,一个季度出货 30 万台。

虽然大家是冲着它的第一人称拍摄视角购买的,但 Meta 还是成功让大家开始习惯在自己的眼前架设一个摄像头,为未来开展 AI 计划铺平了道路。

在所有的感知维度中, 视觉是信息最丰富、最重要的一种。一个 AI 硬件如果真的想最大程度理解用户的处境,仅靠麦克风一种信息是不够的。

市场上已经不缺少能单纯依靠麦克风识别的 AI 耳机产品,AI 公司在做,传统的硬件公司也在做,功能已经相当局限,讲来讲去都是围绕 AI 翻译等单一场景。

比起智能眼镜或者吊坠,这些相对青涩和新颖,大众接受度还不够高的产品形态,而现在大家已经很喜欢戴耳机了,并且也习惯一直戴着。

耳机还接近「看」和「听」两个感官的位置,是现成的理想 AI 载体。

此前,爱范儿已经体验过带摄像头的耳机——来自一家国内的初创企业光帆科技的 Lightwear AI 全感智能套装。

它的实际体验确实相当合理,把一件物品放在面前,就可以用语音指令让 Lightwear 识别它是什么商品,然后加入电商平台购物车。

但它体型太大,不够优雅,形态已经不像是一个普通耳机。并且很难说服消费者专门为 AI 买一个这样的产品。

因此,苹果的优势,就在于「AirPods」这个金字招牌。

本质上来说,这个摄像头只是一个「添头」,基本上所有会购买 AirPods Ultra 的用户,都只是冲着音质和降噪去的,然后不知不觉间也打开了苹果 AI 生态的大门。

AirPods Pro 3

这也是苹果作为一家已经相当成功的智能硬件厂商,在 AI 硬件时代的先发优势:只要他们愿意,苹果正在受欢迎的产品,都能转化成一个 AI 硬件,并且直接面向千万级别的用户市场。

也由于苹果的规模足够庞大,在面对隐私和法规这些敏感问题上,不得不进一步慎重,因为每一个举措都会对整个行业和海量用户造成影响。

AirPods Ultra 撞上欧盟的法规墙导致难产,确实让人遗憾,但这也意味着,全球最有话语权的科技公司,将开始探索产品和规则共存的可能性。

每一次新技术诞生,都会与旧有秩序发生碰撞,千百年来皆是如此,这个过程这个过程看似是限制,实际上也是一次重新建立规则、重塑产品范式的机会。

不管是人机交互,还是规则法规,最终都将朝着更合理、更成熟的方向演化,对于所有人来说,这是好事。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

千问电脑版上线语音输入法:打工人终于可以用嘴干活了

Vibe Coding 火了之后,越来越多的人选择对着屏幕口述,而不是敲键盘,不少网友甚至为此整出 AI 语音键盘。

今年 3 月,Anthropic 也给 Claude Code 加了语音模式,在终端输入 /voice,按住空格说话,松手执行。很难想象,连「写代码」这种最依赖键盘输入的场景,都开始支持语音了。

既然写代码的人都开始用嘴干活了,那我一个每天写文章、写方案、做 PPT、整表格的打工人,还在一个字一个字敲键盘,显然也不够高效,尤其是查数据要切三个页面,做个汇报 PPT 要从找模板开始花三小时,整理会议纪要边听边记还漏一半。

究其原因,不是每个人的口头表达都那么好。哪怕也有一些 AI 输入法能解决,比如我们之前介绍过的 Typeless,每年光订阅费每年就得花 1000 块。

在真正干活的电脑端,至今没有和深度 AI 办公能力打通的语音入口。刚好,千问电脑版/网页版最近也上线了千问语音输入法,据说奔着「用嘴干活」而来。而且千问电脑版还是全免费——不只是语音免费,它内置的所有 AI 办公能力,全部敞开用。

别被输入法这个名字骗了

一开始,看到千问语音输入法这个名字,我下意识以为这就是一个识别准确率更好的 AI 输入法,结果我发现完全不是一回事。

千问语音输入法上手几乎没有门槛。两个快捷键搞定一切,按住是语音输入,双击是让 AI 干活。Win 是右 Alt,Mac 是右 Command,你可以根据使用习惯来设置唤起的快捷键。

你在 Word 里写文档也好,浏览器里看资料也好,钉钉里回消息也好,快捷键一按,语音入口浮出来。不用切到千问客户端,不用打开额外窗口。想问就问,想说就说。

千问语音输入法主要就两种使用姿势:按住开始语音输入,想到什么直接说就行,千问帮你自动去口水话、纠正口误、生成结构化表达。双击唤起语音指令,这时候你是在给 AI 派任务,比如查个东西、帮你回消息、生成文档。

打从一开始,它就不只是打算只做一个「帮你打字更快」的输入法。你的嘴负责下达指令,它是一个中枢接口,负责听懂、翻译、调度,让 AI 把活儿干完交给你。

说话就是比打字好使

2026 年,我对一款语音输入法的要求,已经远远不止是识别准确率。「听得清」的逐字听写都是基操,更重要的是理解我想表达什么,再帮我组织好。

比如口述一段想法,它能保留我的意图,帮同事把废话全部过滤掉,口误也顺手修正,吐出来出来的是干净、精炼、可以直接发出去的文字。

比如碰到方案延期这种事,也可以交给千问整理成一段清晰的书面表达,而我只需要直接按住快捷键,随口反馈给千问:

关于这个项目的延期,我… 啊不对,我想说的是关于这个方案的调整,其实原定计划是本周五交付,但是… 呃… 因为客户那边临时加了三个需求点,我们评估了一下大概需要多两天,所以… 不对,我的最终意思是:方案交付时间从本周五调整至下周三,原因是客户新增三个功能点,需要补充技术评估,我们承诺下周三前一定提交初版方案。

松手后结果就出来了,可以看到它自动删除所有「啊不对」「呃」「但是」等语气词,把我表达的核心清晰整理了出来;对比常规的语音输入,只能逐字记录,还要自己手动编辑,千问语音输入法基本无需手动调整,就能直接发出去。

在一些更专业和复杂的项目沟通中,千问语音输入法就更加实用了。

比如下面这个沟通需求,注意看,我长按说了一大堆话后,最后还补了一句:将关于数据部分提前。

这次产品改版的核心目标是提升新用户的留存率。我们在 onboarding 流程里增加了三个引导步骤,把原来的五步走改成了三步走,还在每个节点加了进度提示。另外,我们发现很多用户在第二步就流失了,所以把第二步的表单从 8 个字段缩减到 3 个必填字段。数据方面,改版后一周的留存率从 35% 提升到了 48%,次日留存提升了 12 个百分点。不过也有一个风险,就是表单精简后收集的用户信息变少了,可能会影响后续精准推荐的效果,这个需要持续观察。最后是团队层面的配合,设计部在两周内出了两版方案,开发部用了三天完成上线,整体节奏还是很快的。嗯把数据那段放到最前面,然后分段给我

这里结果对比就更明显了,只有千问听懂了「把数据那段放前面「」的指令,自动重排段落,我用嘴就完成了原本需要鼠标+键盘的操作。

▲ 常规语音输入结果

▲ 千问语音输入法结果

体验过程我还发现了一个让我惊喜的细节,千问语音输入法对于中英文夹杂的口述内容,识别特别到位。

这个函数的主要作用是处理用户登录时的 token 验证,首先会调用 validateToken 方法检查 token 是否过期,如果 expired 的话就返回 401,然后如果是 valid 的话,再调用 getUserInfo 接口去拉取用户信息,最后把 userId 和 role 写进 session 里面。注意一下,这里有一个 edge case,就是当 token 是 refresh token 的时候,要走另外一条逻辑分支。

千问不只把所有的英文术语都识别对了,而且还自动根据我的话分点输出,一目了然。

▲ 千问语音输入法结果

我还想分享一个对于内容创作者特别有帮助的用法,APPSO 每天早上都要开选题会,大家会有很多碎片想法,一个热点现象、一个行业观察、一个趋势判断……

之前有些想法是散装的,不成体系,现在我可以直接在会上按住唤出千问语音输入法,让它将这些想法整理成大纲。比如这一大段我在会上对编辑选题的反馈意见,如下图所示:

▲ 千问语音输入法结果

松开手后,一段详细的选题大纲就出来了,编辑能稳稳接住我的反馈,稍微扩充就能写出一篇深度分析稿件。最后的成文也附上给大家看看:苹果悄悄砍掉丐版 Mac mini,人人都要交「AI 税」的时代来了 。

单就语音输入这个维度,千问给我最大感受是,真就说多快多乱都没关系,反正输出的质量 AI 会兜底。

万物皆可 Vibe,一句话的事

语音输入只是第一步,千问语音输入法更大的价值是还能帮你干活。

上面提到了整理选题大纲,然后我就需要沉浸式写作,但每次要查个数据和报告,都得切到其他网页和应用。这里千问语音输入法就很自然地出现了——它支持在任意软件、桌面全局唤起,不用切换窗口,动动嘴就能直接查。

比如我在写一篇关于 OpenAI 的文章时,刚好有一段要引用最近的融资金额和投资方。我双击唤起语音指令,说一句:「帮我找一下 OpenAI 最新融资背景。」

思考一两秒,千问小窗就直接弹出把详细结果发我了,我看着引用继续写,心流就不会被打断。

假期刚回来,一大堆工作等着推进,我需要整理一个清晰的周报,但又没时间慢慢敲字,于是双击并随口将把需求说了出来,里面夹杂着带着大量口头表达:

诶那个,我汇报下这周进度哈……A 项目目前跟进到第三阶段了,中间遇到了供应商交付延迟,大概迟了三天,后来通过加班把进度赶回来了……B 项目还在需求评审,产品那边原型图有点模糊,约了下周一早上十点对齐……下周还要申请两台测试服务器……你帮我整理为周报 word 文档,语气专业一点,条理清楚。

此外,千问语音输入法还有一个更有意思的功能——帮你回消息。

我每天往往需要在微信、钉钉、飞书等各种项目群里穿梭,回复各种消息。非常消耗精力,这时候我就能让千问让我的「嘴替」了。

比如假期还没过完就被同事催交文章,我就双击让它帮我来一段高情商回复。

▲ 我无需给它介绍背景,它就能根据屏幕内容补充上下文,给我一个「聪明」的回复

而在一些面对客户或者更正式的场合里,我也可以双击让它给我拟一个得体的回复。

这是因为千问语音输入法支持了「场景感知」。它自动识别你当前在什么应用里,看到你屏幕上的内容,据此调整输出的风格。你不用告诉它更多背景,它自己就能看懂。

下周要出差,我直接双击,在微信让它帮我根据聊天信息,整理成一个出行指南便签。

最后给我的这份出行指南,除了航班信息,还贴心地给我整理了待办事项,并根据当地天气和交通情况给了我一些具体建议,这对于常常出差的媒体人来说十分友好。

开周会的时候我还发现了一个实用的小技巧,会议开始,我双击两下唤起千问语音输入法,结束后一句:「帮我把刚才的内容整理成会议纪要。」它就自动帮我整理好了。

这很适合一些快速拉通的临时会议,不用再单独打开会议记录类的应用,随手双击马上记。

对着电脑说话,活儿 AI 自己就干完了

别误会,对着电脑喊「帮我查资料」「写个邮件」,现在只能算 AI 的基本操作。

千问 电脑端这次真正亮出的底牌,是把语音输入和 PPT 创作、AI 表格、文档处理等功能组合起来,这也是真正能帮打工人实现「每天早下班一小时」的实用功能。

拿最折磨人的 PPT 来说,千问不是去素材库里给你拼凑烂大街的野生模板,而是直接用大模型的代码能力动态生成复杂排版。如果你觉得哪里不够完美?直接多轮对话让它接着改,改到你满意为止。

为了探探底,我先让它帮我做个视频号运营课程 PPT,几乎在语音落地的瞬间,AI 就进入了光速消化模式:填充血肉、匹配逻辑一气呵成。

最令人惊喜的是,千问对「图文穿插」的理解并非生搬硬套,而是根据内容深度匹配了差异化的版式,整份 PPT 拿出来,几乎就是可以直接交付的成稿。

这还没完,你还能一次性给千问喂最多 39 种不同格式的参考文件,让它自动梳理逻辑、提炼重点,帮你省去了来回翻资料的麻烦。至于配图,它也能根据上下文自动匹配,找不着合适的甚至能当场给你生图,全程都不需要你切出界面去求助搜索引擎、或者下载下来用 office 处理。

表格处理方面,千问的 Excel Agent 主打一个高水准。

不管是格式随意的聊天截图、手写笔记,还是大段的纯文本,丢给它就能快速生成标准的 Excel 表格。如果后续还要算算增长率、画个趋势图,也不用再去头疼怎么写函数公式了,直接用自然语言吩咐它就能搞定。

我试了一个稍微有点复杂的需求:让它根据 2026 广州最新版初中英语教材,把各句型的语法结构、时态变化和参考例句整理成 Excel 表格,格式要适合一页纸打印,方便拿来背诵。

换以前,这种事得自己一条条查资料、手动录入、再调格式,至少要折腾半小时。现在说一句话,它直接把表格生成好,列名、行距、例句填充,基本不需要再动手改。

文档处理这边,Word/PDF Agent 支持图文数据混合上传,能自动排版并输出直接可交付的文件。

更有意思的是,传完长文档你不需要自己去翻阅找重点,直接张嘴问,它就能快速定位给出答案;想修改哪里也是一句话的事儿,省去了自己去对照原文件一点点改的麻烦。

我试着传了一份繁杂的合同 PDF,直接问它:「独家授权内容是哪些?」它并没有傻傻地把全文复述一遍,而是精准定位到了授权条款,把独家范围、授权期限和限制事项一条条列得清清楚楚。

目前,这个语音指令甚至还能和 AI 写代码、手搓网页等任务助理功能组合使用,照这个架势下去,未来的办公形态,大概真的就是「动动嘴皮子就把活儿干了」。

和 AI 说话的人,会比键盘打字的人更早下班

用了一段时间千问语音输入法,我想到一件事。

过去几年「AI 提升办公效率」喊得震天响,但大部分人的体验是:我跟 AI 说了半天,它给我的东西根本不能用。然后就觉得 AI 也不过如此。

问题出在哪?出在沟通方式上。你用键盘跟 AI 对话,40% 的精力花在组织文字上,只剩 60% 在想你到底要什么。给出去的指令信息密度低、上下文薄,AI 当然输出垃圾。这不是 AI 不行,是你喂给它的东西不行。

语音把这个死结解开了。说话时你不会给自己设字数限制,细节会自然地冒出来,上下文会自动变厚。它能把嘴里说出的自然语言需求梳理得井井有条,让 AI 精确执行。

纽约销售平台 Clay 的教育负责人 Yash Tekriwal 提到,他用语音输入的速度是每分钟 205 个词,打字只有 110 到 120 个。但速度还不是最关键的,他发现口述的 prompt 质量更高。

AI 圈最近有个词特别火,叫 harness。它的意思大概是:你有一匹马(AI 的能力),但你得有一套缰绳才能驾驭它,让它往你要的方向跑。没有 harness,马再强壮也只是在原地打转。

千问电脑版的语音输入法就是这套 harness。

它连接的一端是你的嘴,另一端是 AI 的全套办公能力:PPT、表格、文档、搜索、分析、格式转换。你说一句话,它把你的意图翻译成 AI 能执行的指令,然后调度对应的 Agent 去跑腿。它不是输入法,是缰绳。是你驾驭 AI 办公能力的那套 harness。

而别的「带 AI 功能的输入法」解决的是什么?是入口问题,帮你找到 AI 在哪里。千问解决的是驾驭问题,帮你把 AI 的能力精确地用起来。一个是给你指路,一个是帮你套好缰绳直接上路。差距就在这。

在 Agent 时代,语音本来是驱动 AI 工作的最自然和高效的方式。千问语音输入法,就是率先在桌面入口端出了这套 harness 的产品 ,这也是为什么我期待,未来在更多终端上,能看到这种真正能驾驭 AI 的语音入口。

去年这个时候,如果你在办公室突然对着电脑说话,一次两次会被当成在打电话,三番五次就不禁让人怀疑,工作压力是不是太大了,精神状态还好吗?

今年开始,那些对着电脑自言自语的,可能就是全公司最早下班 (摸鱼) 的人。

附客户端下载地址:
https://www.qianwen.com/download?ch=tongyi_redirect
网页版体验地址:
https://www.qianwen.com/

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

OpenAI总裁的私密日记,被马斯克律师当庭念出:让我赚到10亿美元

OpenAI 成立前夜,核心大脑 Ilya 差点反悔留在谷歌。

马斯克的律师举着一本被强制公开的私密日记,当着所有人的面,一字一句地读出了 OpenAI 总裁 Greg Brockman 在夜深人静时的盘算
「这是我们摆脱 Elon Musk 的唯一机会……让我赚到 10 亿美元。」

暴怒的马斯克摔门离去,Greg Brockman 在座位上瑟瑟发抖,「真以为他要动手打人」。

这场 AI 世纪庭审现场的走向,比任何一部美剧都要荒诞。

54 岁的马斯克和 41 岁的奥特曼,在 X 上多年以来的互相指责,到了刺刀见红、对簿公堂的这天。

马斯克在第一周的庭审上作证三天,重复最多的一句话是:「你们不能偷一个慈善机构。」

2015 年他出钱出力出名气,帮奥特曼和 Greg Brockman 创办了 OpenAI,承诺 OpenAI 是一个非营利的 AI 研究机构,目标是对抗 Google 的 AI 垄断。

他总共捐了约 3800 万美元。结果 ChatGPT 出来了,公司估值 8500 亿美元,Brockman 个人持股价值 300 亿美元,而他什么都没拿到,还在 2018 年被踢出了董事会。

他说:「是我想出了这个主意,是我起的名字,是我招募了核心人才,把我知道的都教给了他们,提供了所有初始资金。」

马斯克对 OpenAI 及其主要合作伙伴微软提出了超过 1500亿美元 的索赔。他不仅要求赔偿,还要求法院罢免奥特曼的董事会职务,并撤销 OpenAI 转向营利性公司的决定。

OpenAI 则认为,马斯克的诉讼主要是为了打压竞争对手,因为马斯克目前拥有自己的 AI 公司 xAI。

他们提到,在 2017-2018 年间,马斯克本人也曾试图推动 OpenAI 转向营利性结构并寻求绝对控制权。

OpenAI 律师在交叉质询中出示了 2017 年的文件,显示马斯克自己的助理 Jared Birchall 注册了一家名为「Open Artificial Intelligence Technologies」的公司,一个营利性的 OpenAI 替代版本,是马斯克自己主导的。

他也想要那个营利性结构。只是他没能掌控它。

在马斯克作为证人开庭的前两天,他给 Greg Brockman 发了条短信,试探和解可能性。

Brockman 回复:要不双方各撤诉吧。马斯克主动求和没有得到想要的结果,决绝地回应:「本周末结束前,你和奥特曼将成为美国最被痛恨的人。如果你们坚持,就这样吧。」

你根本不懂 AI

在外界看来,马斯克是那个高瞻远瞩、为 OpenAI 注入灵魂和早期资金(约 3800 万美元)的教父;但在 OpenAI 的核心团队眼里,这位亿万富翁缺乏对底层技术的敬畏。

新一轮的庭审坐在证人席的是 OpenAI 的 Greg Brockman,他也毫不留情地揭开了马斯克打造的叙事。

当被问及为何当初不愿意让马斯克担任 OpenAI 营利性实体的 CEO 时,Greg Brockman 的回答极其直白:「他懂火箭,他懂电动车。但他以前不懂,我相信他现在也不懂 AI。」

他继续补充了更多细节,研究员 Alec Radford 曾向马斯克展示过一个极其早期的语言大模型,即 ChatGPT 的雏形。

马斯克输入提示词后,对生成的答案极不满意。他当着研究员的面抱怨「这东西太蠢了」,在第二次尝试依然未能如愿后,马斯克留下一句极其刺耳的嘲讽:「这系统蠢到连网上的小屁孩都能做得比它好。」

在算力成本从 2017 年的 3000 万美元狂飙至 2026 年 500 亿美元的今天,大模型的暴力美学已经被证明是成功的王道。但在当时,马斯克的急躁与轻视,让 Greg Brockman 等人坚定了不能将 AGI 交给他的决心。

可以要他的钱,但绝不能让这个人当 CEO,掌控人类未来的 AGI。

我以为他当时就要揍我

当时,为了筹集巨额的算力资金,双方都在试探成立「营利性结构」的可能性。

马斯克给出的方案极其霸道:要么给我绝对控制权,要么把 OpenAI 直接并入特斯拉,用特斯拉的超算来对抗谷歌。

Greg Brockman 表示当时他们感到了深切的恐惧。

时任 OpenAI 的首席科学家 Ilya Sutskever 在给马斯克的邮件中写下了一段话:「我们的目标是避免 AGI 被垄断。如果创造一个结构,让你想绝对控制就能控制,那一定是个坏主意。」

为了安抚马斯克,会议当天,Ilya 甚至亲自画了一幅特斯拉的画作为「善意的信物」送给他,团队还接受了马斯克赠送的几辆特斯拉汽车。但这种近乎讨好的举动,在马斯克对 OpenAI 权力的核心诉求面前不堪一击。

在这场会议上,当 Greg Brockman 委婉地表达团队拒绝交出单方面控制权时,马斯克一言不发地坐了几分钟,随后突然站起,暴怒地绕着桌子走。

Brockman 在证词中说,那一刻他「真以为马斯克要动手打人」。结果,马斯克一把抓起那幅特斯拉的画,摔门而出,并留下最后通牒:「我会停止提供资金,直到你们决定到底要干什么。」

画被拿走了,资金断了,昔日的盟友正式走向决裂。

硅谷的城府和一本日记

明面上的资金断了,暗地里的互相防备却开始了。

Brockman 在法庭上还提到,马斯克曾满脸「负罪感」地把他叫进办公室,坦白自己暗中挖走了 OpenAI 的核心大将 Andrej Karpathy,去给特斯拉搞自动驾驶。他还强硬地要求 OpenAI 团队裁掉那些「没有重大贡献」的员工。

而在 OpenAI 这边,高管们也明明知道董事会成员 Shivon Zilis 与马斯克有着极其特殊的私人关系,却隐忍不发,利用这层关系维持着脆弱的平衡,直到马斯克彻底亮出 xAI 这个竞品,才将 Shivon Zilis 清理出局。

但比这些权衡更有意思的是,一本 Brockman 写了十年的私密日记。

这本原本藏在电脑深处的日记,在法律程序的强制要求下被公之于众。

马斯克的律师在法庭上,当着所有人的面,一字一句地读出了这位 OpenAI 总裁在夜深人静时的内心盘算:「这是我们摆脱 Elon Musk 的唯一机会……让我赚到 10 亿美元」,以及「如果三个月后我们做共益企业(b-corp),那就是在撒谎。」

OpenAI 律师团队的辩护是:日记是私人思考的真实流露,里面充满自我怀疑和未经过滤的想法,被断章取义了。

OpenAI 上线前一秒,网站还在修改

「如果不是马斯克领导,根本没人会加入 OpenAI。而且他们收了他的钱之后又把他踢了出去。这其实挺不公平的。」

Greg Brockman 还分享了 OpenAI 在发布前差点失去 Ilya Sutskever 的完整故事。

Ilya Sutskever 当时在 Google,已经写好了告别邮件,准备跳槽过来。结果当天晚上,他发了一封标题叫「sad news」的邮件给 Brockman:「我太遗憾了。我实在无法离开 Google。」

与此同时,DeepMind 的员工在一场行业会议上挨个找 OpenAI 的潜在招募对象,告诉他们:「没有人会加入 OpenAI 那个实验室。它是一艘沉船。」

Brockman 为 OpenAI 的官网准备了两个版本,一个有 Sutskever,一个没有。他在最后截止时间发出一条消息,只问了一个字:来还是不来。然后他看着消息框里出现了输入提示符,一直跳,一直跳。然后是一个字:「Alright。」

Brockman 给 Altman 发短信:「他来了。」

马斯克说没有他 OpenAI 就不会存在,这话也许不假。但如果 Sutskever 那天晚上没有改变主意,OpenAI 也不会存在。

面对谷歌的财大气粗,奥特曼原本只敢对外宣布 1 亿美元的融资。

但马斯克极力反对,他明白在硅谷,声量就是生命线。他强硬地表示:必须宣布 10 亿美元,否则显得毫无希望。别人不出的钱,我全包了。

尽管后来马斯克实际上只掏了约 3800 万美元,但这句 10 亿美元的虚张声势,也算是帮初生的 OpenAI 稳住了阵脚。

控辩双方争了很多细节,但 Brockman 证词最后归结到一个问题:非营利结构的承诺,究竟是 OpenAI 对外界的法律义务,还是创始人对自己的道德期许?

马斯克律师 Gerrada 在庭上出示了 OpenAI 2015 年向特拉华州提交的注册文件,里面明确写道,

「本公司的具体目的是为人工智能相关技术的研究、开发和分发提供资金……所产生的技术将造福公众,并在适用时寻求开源……本公司不以任何个人的私利为目的。」

然后他问 Brockman:2017 年到 2018 年之间关于营利性结构的讨论,是不是和这份文件的精神相违背?如今你通过营利性实体,坐拥潜在 300 亿美元财富。

Brockman 的回答是:使命本身没有变,只是结构变了。非营利性的使命可以在营利性的结构下继续实现。

Brockman 的证词预计在 5 月底结束,与马斯克育有四个孩子的 Shivon Zilis、OpenAI 前联合创始人,以及奥特曼随后都将出庭作证。

案件的结果会直接影响当前的 AI 军备竞赛。如果马斯克胜诉,正在筹备史上最大规模 IPO 之一、估值高达 7300 亿美元的 OpenAI 可能会遭到毁灭性打击。

如果 OpenAI 胜诉,奥特曼将彻底巩固对这家拥有 4000 多名员工的巨头的控制权。

参考信息
https://www.theverge.com/tech/917225/sam-altman-elon-musk-openai-lawsuit

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

等 DeepSeek 回复的 30 秒,是手机最好玩的半小时

你要是问当今互联网最神秘、最玄学、连量子力学都解释不清的「时空裂缝」在哪里?

它不在百慕大,也不在诺兰的电影里,而是在你的 DeepSeek、Claude 或者 GPT 正在思考的过程里。不管是赶期末周的大学生、半夜 Vibe Coding 的程序猿,还是被各种 AI 任务测试的产品经理,大家竟然在同一件事上达成了大和谐:

等 AI 回复的那一分钟,是这一整天里玩手机玩得最快乐、最问心无愧的时刻。

尤其是当你猛击回车键,眼前的屏幕上弹出了那句令人安心的「思考中…」时,这时候,你的大脑皮层向你下达了一个极其合理、极其符合生物学本能的指令:

「好了,它在替我们干活了。咱们低头看一眼手机吧,就一眼,绝不多看。」

然后,你熟练地解锁屏幕,点开社交媒体。起初,你只是刷了两个雪山狐狸啃酱板鸭的猎奇视频,接着滑到了一个「注意看,这个男人叫小帅」的悬疑电影解说,紧接着又顺手给一个搞笑猫咪合集点了赞。

接着,你深吸一口气,抬起头。

等等,刚才发生了什么?

窗外的天怎么黑透了?杯子里的热水怎么凉了?最可怕的是,时钟上的分针怎么平移了小半个表盘?「然后一抬头,十分钟过去了,跟穿越了一样。」

如果你有过这种经历,恭喜你,你已经染上了今年最流行的「AI 间隙摸鱼症」。

神圣的、不可抗拒的赛博「带薪假」

在没有 AI 的年代,摸鱼是需要心理建设的。

你要像雷达一样时刻警惕老板的视线,要伪装出噼里啪啦敲击键盘的清脆回声,还要时刻准备好在有人经过时用 Alt + Tab 瞬间切换到 Excel。那种摸鱼,多少透着一股子辛酸。

但现在,形势逆转了。

当你把一段长达 5000 字的文档丢给 DeepSeek,或者让 ChatGPT 帮你重构那个全是 Bug 的模块时,那一刻,你不是在逃避工作,而是正在等待 AI 生产力的降临。

这种等待是神圣且具有合法性的。既然 AI 还没吐出结果,那我就没法进行下一步。

低情商这叫偷懒,高情商这叫技术性调休。

于是,你心安理得地拿起手机,点开微信刷刷朋友圈,或者去购物平台清空一下购物车。正如网友所说:「它仿佛是我的另一个思考人格,既然它在动脑子,那我这个肉身人格负责娱乐一下,逻辑上非常严密。」

这种既有干正事的虚假踏实感,又能顺势营造出被迫休息的理所应当,堪称 2026 年职场最高级的心法。

其实,这种守着屏幕等进度条的诡异爽感,并不是今天才有的。

把时间拨回千禧年,那是拨号上网的蛮荒时代。伴随着调制解调器那阵刺耳又迷幻的「哔——嘟——呲呲呲」声,你要打开一张只有几百 KB 的剧照,至少需要等几分钟。

那时候没有智能手机,没有短视频。面对缓慢向下加载的图片,你只能选择死死盯着屏幕,或者站起来去倒杯水,甚至趴在电脑桌上打个盹。

后来,宽带时代来了,网速快了,但视频清晰度也上去了。于是我们迎来了视频「缓冲圈」时代。看视频遇到卡顿,我们会熟练地切到别的网页,去天涯或者贴吧灌水,等缓冲条变灰了再切回来。

历史是个轮回,现在 AI 的「思考中」完美填补了这个生态位。

很显然,AI 产品经理们也意识到我们干活注意力不集中的问题,就拿之前曝光的 Claude Code 愚人节彩蛋来说。现在,只要你在 Claude Code 终端里输入一行 /buddy 命令,你的屏幕上就会触发一段孵化动画。

紧接着,一只由 ASCII 字符拼成的小宠物就会破壳而出,稳稳地趴在你的输入框旁边陪你写代码。它不会打扰你,但它会有呼吸的起伏,会冲着你摇尾巴。

包括五一假期期间,Codex 也更新了 Codex pets 功能,允许你直接召唤动画伴侣。只需在输入框敲下 /pet (或者按 Cmd+K 快捷键),一个悬浮的宠物视窗就会出现。

最绝的是什么?这个悬浮窗是跟 AI 状态实时绑定的。它会实时反映 Codex 的状态,贴心地附带一个简短的进度提示,让你不用切回主界面就能掌握一切。

你很难说这算不算是一种进步。从拨号时代盯着屏幕发呆,到缓冲年代跑去贴吧灌水,再到现在,居然有人专门给这段空白时间设计出了有呼吸、会摇尾巴的像素小生命来陪你撑过去。等待这件事,愣是有了不少温度。

一分钟的 AI 相对论

爱因斯坦曾在广义相对论中探讨过大质量物体对时空的弯曲,但他老人家一定没预见到赛博时代的「AI 相对论」。

理论上,一个顶尖的大模型生成一段深度回复,长则一两分钟,短则十几秒。但在这一分钟里,人类的摸鱼潜能会被无限激发,注意力会完成一次史诗级的大迁徙。

等到你终于从无限下拉的信息流、群聊里的惊天大瓜,以及「霸总回归手撕反派」的土味爽剧中猛然惊醒,抬起头时,往往已经大半个小时过去了。

最离谱的是,你会发现刚才的 AI 因为网络波动断线了,或者那个问题它彻底答非所问。这时,你不但没有丝毫愠怒,反而如释重负地松了一口气,带着一丝窃喜,接着毫不犹豫地又点了一次「重新生成(Regenerate)」。

恭喜你,新的半小时又开始了。

当然,也有极少数人间清醒在试图抵抗这种可怕的「时间黑洞」。

毕竟 Attention is all you need.(doge)

他们提出了所谓的「Vibe Coding」防沉迷指南:等 AI 回复时,千万不要切到完全不相干的高负荷任务(比如回复老板消息、刷社交媒体),而是去读读文档、理理思路。

只是这种听起来极其理性的建议,在现实的诱惑面前往往不堪一击。

人类的本质就是趋利避害的,在密密麻麻的英文文档和搞笑宠物视频之间,碳基大脑的防御系统连半秒钟都撑不住。

这届年轻人想得很开:AI 不工作的时候我工作,AI 工作的时候我还工作,那 AI 不就白发明了吗?既然我们把繁重的重复性脑力劳动外包给了硅基生命,那碳基生命自然就顺理成章地退化成了「复制、粘贴、点赞」的流水线机器。

但即便如此,大家依然在努力维持着打工人的最后一丝体面。

在无数个摸鱼的间隙,你总能看到身边的同事时不时地伸出一根手指,在电脑键盘的 Shift 或者空格键上轻轻敲一下——不为别的,只为了不让屏幕进入休眠状态。

哪怕你已经玩到天昏地暗,甚至已经开始在工位上修剪指甲,电脑屏幕也必须骄傲地、长明地亮着。这种对电脑屏幕的「关怀」,是我们对这个疯狂内卷的世界,做出的最后、最倔强的伪装。

甚至有开发者 @konekone2026 打造了一款名叫 Cat Gatekeeper的 Chrome 插件,只要你在电脑前连续浏览网页长达 60 分钟,屏幕上就会突然钻出一只巨大的猫咪。这只猫会毫不客气地挤占你的整个屏幕,让你必须休息 5 分钟。

鲁迅没说过,世上本没有假,等 AI 回复的人多了,也就成了假。

今天虽然是放假的一天,但也希望大家在日常的搬砖岁月里,不要弄丢了这份用 AI 忙里偷闲的快乐,毕竟能让摸鱼变得理直气壮,也算是 AI 时代给打工人最实在的一点馈赠了。

屏幕常亮,心态常好。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,GPT-5.5 Instant 发布,奥特曼还邀请马斯克参加 AI 办的派对

就在刚刚,OpenAI 正式推送了 GPT-5.5 Instant,将其设为 ChatGPT 的默认模型,取代此前的 GPT-5.3 Instant,面向所有用户开放。

Instant 系列是 ChatGPT 的日常主力模型,每天有数以亿计的用户在用。官方说,在这个量级上,哪怕只是小幅改进,积累起来的效果也相当可观。

这个版本主打三件事:更准确、更简洁、更懂你。

与上一版本相比,新模型在保持低延迟的同时,在准确性、回复风格和个性化能力上都有明显提升。

准确性的提升,在高风险领域最为突出。内部测试显示,GPT-5.5 Instant 在医疗、法律、金融类问题上的幻觉率较上一版本下降了 52.5%。对用户此前标记过的错误对话,错误率也减少了 37.3%。除文字问答外,图片和照片的分析能力、理科问题的解答质量,以及判断何时应当主动调用搜索工具,都有所改善。

数学和科学能力的跃升幅度更大。在 AIME 2025 竞赛数学测试中,GPT-5.5 Instant 得分 81.2,GPT-5.3 Instant 仅为 65.4。博士级科学测试 GPQA 的得分从 78.5 升至 85.6,多模态推理基准 MMMU-Pro 的得分从 69.2 升至 76,科学图表理解 CharXiv 从 75 升至 81.6,文档解析错误率则从 14.6% 降至 12.5%。

OpenAI 用一道代数题演示了两个版本的差距。用户提交了一道根式方程的解题过程,询问是否正确。GPT-5.3 Instant 发现 x=3 代入原方程不成立后,直接判定「无实数解」,没有再往前追查。GPT-5.5 Instant 同样发现 x=3 无效,但随后定位到用户展开 (x-1)² 时的具体错误,并正确解答。

回复风格也是这次更新的重点。

新模型更简短,不再堆砌格式和表情符号,也减少了不必要的追问。官方以一个日常场景为例:问如何委婉地让话多的同事少说点话。

GPT-5.3 Instant 给出了五种分类策略,还附上「不该做什么」清单,结构完整但略显过度。GPT-5.5 Instant 的回复少了 30.2% 的字数和 29.2% 的行数,语气更像朋友给的建议,把重点放在如何把问题引到自己的专注需求上,而不是对方的说话习惯上。

个性化能力是此次更新的另一条主线。

Plus 和 Pro 用户可以让模型调取历史对话、上传文件以及关联的 Gmail 内容,从而获得更贴合个人情况的回答,不需要每次重新解释背景。官方展示了一个茶馆推荐的对比:GPT-5.3 Instant 只知道用户在旧金山,推荐了几家通用热门店。GPT-5.5 Instant 则从历史对话里找到用户常去 Asha Tea House、偏好高山茶而非重糖奶茶的记录,据此推荐了风格更匹配的 Ceré Tea 和 Song Tea & Ceramics,并说明了推荐理由。

与此同时,所有消费者版本将上线「记忆来源」功能。

当回答用到了个人背景信息,用户可以看到具体调用了哪些历史对话或已保存的记忆条目,并可随时删除或修正过时内容。OpenAI 说明,这个视图展示的是最相关的部分来源,不一定覆盖模型检索过的全部记录,后续会持续完善。不想被记录的用户也可以选择临时对话模式,该模式不会读取或更新任何记忆。分享对话时,对方看不到这些来源记录。

GPT-5.3 Instant 将保留三个月供付费用户使用,之后正式下线。个性化功能目前向 Plus 和 Pro 用户的网页端开放,移动端及免费、Go、企业等版本的推送计划在未来几周内陆续跟进,具体功能因地区而异。对开发者而言,GPT-5.5 Instant 已通过 API 以「chat-latest」名称提供。

哦,对了,今天 OpenAI 也即将举行一场派对。

奥特曼在 Stripe Sessions 的一场对谈里聊到,他在筹备 GPT-5.5 的上线派对时,顺手问了模型一句:你想要什么样的派对?模型认真给了一份清单。它希望派对定在美国当地时间 5 月 5 日,演讲环节越短越好,要有人类创造者上台致祝酒词,但它自己不想上台祝酒。

它还提议现场设一个专门收集 GPT-5.6 建议的环节,并把这些建议反馈给它自己。Sam Altman 说,这些要求「很美好」,能让派对顺利进行。时间最终定在下午 5 点 55 分,也是模型自己的选择。

而派对地点则定在 OpenAI 旧金山总部,非本地嘉宾的机票和酒店由 OpenAI 负责。

受邀名单由 Codex 从推文回复中筛选,报名链接于 4 月 30 日下午 5 点 55 分关闭。24 小时内有超过 8000 人报名,已有用户晒出了收到的邀请邮件。没被选上的人也收到了一封邮件,OpenAI 给他们的 Codex 调用额度提升了 10 倍,有效期到 6 月 5 日。

奥特曼还回应了用户的调侃:马斯克如果想来也可以来,世界需要更多爱。话是这么说,可惜马斯克现在的爱全在状告奥特曼以及 OpenAI 的起诉书里了,庆祝 GPT-5.5 的香槟只能留给奥特曼自己喝了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌