Reading view

There are new articles available, click to refresh the page.

【网络民议】钱也出不去,人也出不去

5月27日,香港金融管理局向所有认可机构发出通知,加码内地投资者投资账户监管;而前一天彭博社一篇报道披露中国已将出境限制扩大至民营企业的顶尖AI人才。两条新闻引发了网民关注、热议,有人调侃这是“钱也出不去,人也出不去”、“双向收紧、油门(倒车)焊死”。


CDT 档案卡
标题:【网络民议】钱也出不去,人也出不去
作者:中国数字时代
发表日期:2026.5.28
来源:网络
主题归类:开倒车
CDS收藏:话语馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

5月27日,香港金融管理局回应称,已于5月22日向所有认可机构发出通知,对内地个人投资者的投资账户提出三项额外监管要求:关闭以可疑或伪造文件开立的账户,核查倒查至2023年1月;关闭截至5月22日零结余且过去12个月无客户活动的不动账户;新开账户时须取得书面声明,确认“所有用以支持投资活动及相关结算的资金均来自中国内地以外的合法来源”。香港金融管理局还表示,新措施仅适用投资账户,不涉及储蓄、存款、支付、贷款及信用卡等功能,也不适用于公司及机构客户。

原文链接:财联社|香港加码内地投资者投资账户监管,开户核查倒查至2023年1月

5月22日,中国证监会等8部门联合印发《综合整治非法跨境证券期货基金经营活动实施方案》,并对富途证券、老虎证券、长桥证券三家跨境券商立案调查,拟没收全部违法所得并依法严厉处罚。富途控股、老虎证券其后披露的合计罚没金额超过22亿元;受此影响,两家公司美股股价大跌,合计蒸发市值超过40亿美元。该方案设置2年集中整治期,期内仅允许“单向卖出”——只能把账户里的钱转回境内,不再提供新增买入和资金转入服务;整治期满后,境外机构须全面关停境内网站、交易软件及配套服务。

file

有部分网友提供的反馈:

filev
filev

有视频显示,仍有大量大陆民众赴港办理银行卡:


网友调侃:“都不买A股是吧,那就都别买了”。

filev

此外,5月26日彭博社引述知情人士消息称,中国政府已开始对参与先进人工智能(AI)工作、且对国家具有战略重要性的人员实施旅行限制,这些人才出国旅行前需要获得官方批准;受限对象包括阿里巴巴、深度求索(DeepSeek)等民营企业的初创公司创始人、研究员及高管。之前,官方限制知名高校研究人员、核科学家和国企高管等关键人员出行已有多年,新的限制是专门针对AI领域的精英人才。这也显示,中国国企长期扣押高管和干部护照的做法,已扩展至民营企业。官方也会根据个人对国家的重要性,而非仅依据资历或单位,将其列入旅行限制名单。中国政府在4月底喊停Manus收购案之前,Manus两名联合创始人回国之后即被禁止出境、仅在中国境内可自由活动;知情人士称,中国限制AI人员出行的计划不一定与Manus事件有关,但防范技术泄露仍是关键政策目标。彭博社指出,此举凸显顶尖AI工程师如今已被中国政府视为战略资产,但这些限制措施可能会削弱中国AI公司招募和留住人才的能力……

原文链接:联合早报|知情人士:中国将出国限制扩大至民营企业顶尖AI人才

以下为中国数字时代编辑摘自财联社app、推特:

圈圈子Killit:你一天有什么好消息吗?

Momo:原生家庭的痛。

BLANC:如果美股不能赚钱,连开户都难。

别瞅:金融废墟。

Lord21:深圳市香港区。

ALEX:亚洲金融中心。

牛哥:新加坡:原来真可以躺赢!

黑龙江小助手:只是倒查3年吗,不应该是30年吗?

Sth.Crazy:所以2023年1月以前的就不管了吗?!真的吗?

好想快啲退休:这不就对了嘛,听母亲的话,是个好孩子。

徐磊:现在来看好像没有必要了,去了会问你资金来源,内地资金来源的可能大概率投资开证券账户不行了。

北山北下种番茄:散户是国有资产,老虎富途造成国有资产流失,必须重拳出击,坚决支持!

骆驼的咖啡馆:这下有资金回来接盘了……

JH@dream:我比较担心的是港股,作为长期持有腾讯的股东,这一波是不是得跑得快了?感觉美股受不了什么伤害,港股肯定要死翘翘了。

two3pro:资金流动自有规律,人为干涉只会适得其反。

——————

xpnikapax:太好了!终于能实现“资本不外逃,幸福在国内”的伟大目标了!

RemmingtonSR:这波是逼大伙回去吃屎呢!

XIAOQINGMANTAN:为什么不倒查三十年是因为不好玩吗?

realjiucai:还要多少信号才能让最迟钝的人明白,香港已经彻底凉透了。

funny_onions:好好的一个全球金融中心,被一个小农思想的土鳖,活活搞死。香港,对共产党来说,也是很好的润滑剂。偏偏碰到一个就知道关起门来割韭菜的皇帝。

twyard2013:谁能想到,韭菜也要收归国有。

WeizhouZhao:请问习老大在哪家银行开户?我想追随党中央的脚步!

——————

giantcutie666:以为是个谣言,没想到真是彭博社报道…限制顶尖人才出境,好奇这是哪位绝世大聪明想出来的高招?

djkfxs:这他妈以前不是体制内人员的待遇吗?怎么民企现在也这么搞了?

james17_Canada:中共以为把人才关在监狱里一样可以让他们发挥聪明才智,产生伟大的发明和创新,真的是愚蠢透顶。

old5:人才流动的方向就是文明的方向。

shhhsjmm:“出境须批准”的潜台词极其恐怖:在这片土地上,只要你的技术还有价值,你就永远失去了迁徙的自由;你的大脑,属于统治者,而你的权利,一文不值。

xpnikapax:别润了兄弟们,国家帮你们把后路堵死,安心在国内卷吧。

BelloKevinBob:越来越像文革年代了,闭关锁国,只有高干才有机会出国。

nimdajo:不仅韭菜不能跑,人矿也别想跑。网络墙、资金墙还不够,还得加上物理的人矿墙,共产习政权真的把中国人视为家奴。这盛世,如你所愿,令人赞叹。

jiexingchun:建议大脑植入芯片,装上电子脚铐。

Proofsmith:技术人才出境审批,这就是芯片战争的另一个战场了。

沈泽玮:中国民企AI人才走向“核专家式管理”?

在人工智能(AI)时代, 当AI越来越像人、人类自身的人性却可能被逐渐稀释时,信仰能不能守住“人之所以为人”的重要底线?

美国籍教宗良十四世本周向全球发出灵魂拷问。教宗于5月15日签署、5月25日发表其任内首份、长达四万字的通谕,警告AI可能制造“新形式奴役”,AI需要被“缴械”,以“防止其支配人类”。他呼吁对不透明算法进行监管,而非让权力集中在少数人手中。

另一方面,美国科技巨头马斯克5月18日线上出席在以色列举行的国际智能移动出行峰会时,描绘了另一幅未来景象:十年后,90%的车辆将由AI系统驾驶,而非人开车;智能类人机器人的数量,甚至可能超过全球人口,这将成为释放前所未有的生产力的转折点。

最好的手机 AI,是仿佛没有 AI|AI 器物志

智能手机统治了过去十几年的数字生态,它是注意力的黑洞,是我们最私密的随身之物。但手机从设计之初就是为「人盯着它」而生的——它的全部逻辑,都止于屏幕。

AI 的需求却恰恰相反:它需要持续感知物理世界——见你所见,听你所闻,随时在场,而非等你解锁屏幕才醒来。

当 AI 真正成为一种基础能力,它迟早要从屏幕里破壳而出,寻找属于它自己的形状。这将是一个漫长的探索和演化过程。

「AI 器物志」栏目由此而来,爱范儿想和你一起持续观察:AI 如何改变硬件设计,如何重塑人机交互,以及更重要的——AI 将以怎样的形态进入我们的日常生活?

这是「AI 器物志」的第 14 篇文章。

时至今日,已经没有人可以否认:手机正在成为我们生活中最重要的 AI 枢纽。

无论是给智能穿戴作数据中枢,还是作为独立智能终端,手机都承担着比以往任何时候都重的连接和处理任务。

而手机的操作系统,就是这些连接和处理的基础,是一切 AI 功能的舞台。

图|OPPO

承认吧,无论你是否喜欢手机智能助手,手机系统的 AI 化都是不可避免的,连谷歌都在说要把 Android「操作系统」进化成「智能系统」了。

与其一股脑地反对手机 AI 化,我们面对这种变革的最好方式,莫过于秉承「拿来主义」的原则:

主动发掘那些最好用的手机 AI 功能,让它们成为日常使用中的润滑剂。

而口号「超流畅更 AI」的 OPPO ColorOS 16,就是这样一个难得的 AI 功能不喧宾夺主、反而让使用体验变得润滑的手机系统。

一键闪记:AI All in one

虽然记忆功能各个品牌都有,但小布记忆仍然是目前为止我们体验到功能最丰富、用法最直观、生态最完善的那个。

毕竟 OPPO 在开发这项功能的时候,背后的思路很清晰:

我要的不是截图本身,而是屏幕上的信息……灵魂抽走之后,那个枯萎的实体照片就不重要了,因为信息已经被提取了。

在最新版本的 ColorOS 16 里,「一键闪记」的能力进一步加强,开始和小布记忆里面的多模态功能、流体云等有机结合,变成了一个比截图更好用的超级记忆工具。

视频闪记

让一个 AI 工具好用的重点,从来都是「工具多走一步,让用户少走一步」。

「视频闪记」功能,正是在记录和理解屏幕信息的基础上主动多走一步,让用户不必额外操作一次的典型代表。

这个功能之所以好用,在于它解决了以前要总得复制链接发给 AI、或者在视频播放界面喊小布的「多步骤」操作。

相比之下,视频闪记只需要在播放的时候按一下快捷键,小布就会自动识别视频、自动执行总结,一下减少了 50% 的手动工作量。

尤其如今各种学习视频——网课、生活技巧、产品教程等等——大爆发,OPPO 的视频闪记可以起到非常好的内容整理作用:

而进入小布记忆里面还会预留带超链接的时间戳,跳转的视频甚至可以免开屏动画(和广告)

此外,小布记忆还会根据总结出来的视频内容,主动关联之前记忆的其他视频,形成自动收藏夹的效果。

但它目前只支持国内主流视频平台、不支持 YouTube 和微信视频号,仅支持中英文、不支持小语种,以及部分竖屏视频无法触发总结等等。

但总的来说,「视频记忆」依然是 ColorOS 中体验最好的 AI 功能之一,就因为它把两个最常见的 AI 操作整合在一起、做出了 1+1>2 的体验。

快速记账

除了视频总结之外,另一个我们意料之外好用的「闪记类」功能,则是小布的自动记账。

当然,OPPO 这个自动记账并非百分百自动,而是与更常用的「闪记上岛」整合在了一起,严格来说依然是个需要手动执行的操作:

但「闪记上岛」本身足够优秀,几乎可以说是目前适配性最强大的「灵动岛」类功能。

将记账和这个高频功能组合在一起,应该就是目前最无感的方案了。

当然记账的方式很多,微信还是支付宝都有和账单相关的智能功能,ColorOS 最大的优势依然是前面提到的「流程顺畅,体验无感」。

小布记忆目前只支持导入微信和支付宝的 Excel/CSV 对账单,如果是云闪付或者其他平台的话,就要导出 Excel 之后修改排版才能导入了:

除了单纯记账之外,ColorOS 的账单分析功能也做得很不错。

在小布记忆首页就可以看到当月支出的柱状图,点进去还能看到流水明细和日周月平均:

单这些功能,基本上就可以满足 95% 的日常记账需求了,可以省下相当多付费记账 app 的开销。

更重要的是在「我的账单」页面,你还可以和小布讨论已有的收支数据——

不过 LLM 的数学推理能力都比较一般,小布给出的结果最好还是「仅供参考」。

系统功能:最爱抠细节的 AI

除了上面的「英雄场景」之外,ColorOS 很多 AI 功能也是整合进系统 app 里的,在使用过程中经常会有「原来这里也能用小布」的感叹。

并且 AI 功能集成在系统应用中,也变相提升了它们的留存度、让很多「到手就删」的 app 有了用武之地。

菜单翻译

作为 ColorOS 16 重点宣传的功能之一,智能翻译 + AI 菜单可以说是让我们印象最深刻的优秀 AI 整合案例了。

它为一个门槛颇高的问题,提供了一种极为接地气的解决方案——

把高大上的洋文菜单,直接 vibe coding 成微信点餐小程序。

和小布记忆不同,这个 AI 菜单翻译入口藏得比较深,需要在预装的翻译 app 里面的「拍照翻译」中激活:

在拍照翻译时,无论直接拍摄,还是导入相册图片,在读取到翻译内容是菜单之后,ColorOS 就会提示这个新的「AI 图文菜单」入口。

在 AI 图文菜单里面,系统会把所有识别到的菜品转换成我们最熟悉的点单小程序布局:

并且系统还会为每道菜配上一个 AI 预览图、原料和做法,甚至还有过敏原提示价格换算

我们只需要像小程序点菜一样选择,然后选择右下角的「向店员展示」,它就能提供文字和语音两种展示形式。

更细节的是,ColorOS 为一些主流外国菜系定制了不同风格的菜单界面,比如日料就是红底配富士山,泰国菜就是黄底配大象等等——

并且除了出国旅游,AI 菜单功能还有一个小众用法:去酒吧的时候用它翻译一下,就能清楚自己在喝什么东西了。

不少酒吧用的都是双语菜单,用 ColorOS 的 AI 菜单翻译一下,不仅能看到大概的样子,还能看到制作方法,准确度不错:

AI 帮写

ColorOS 的「AI 帮写」也是一个用之前没有感觉、一开始用就容易形成习惯的小功能。

和其他厂商喜欢把 AI 写作功能绑定进预装输入法不同,ColorOS 的 AI 帮写与输入法是独立的。

也就是说无论你用搜狗输入法、微信输入法还是 Gboard,AI 帮写都能正常使用:

而 ColorOS 实现 AI 帮写的方式也很有意思:

它的触发检测基于应用白名单,但提示词却是通过屏幕内容识别读取的。

换言之,AI 帮写只会在特定 app(美团大众、淘宝京东、小红书朋友圈等等)里弹出,在不支持的软件里面(比如酷安)只能手动呼出小布帮忙。

微信朋友圈(左)和酷安(右)

而 AI 帮写具体写什么东西,是根据它识别到的屏幕内容决定的,有时候会导致一些 bug——

比方说在小红书里面,只要屏幕上有缩略图,AI 就知道我想要的是和猫相关的内容:

但大众点评里,由于输入框上移会挡住照片,AI 帮写就不知道内容是什么了。

如果碰巧没显示关联话题,AI 帮写就会写出一些不知所云的东西:

但在不出 bug 的时候,ColorOS 的 AI 帮写功能都是相当好用的。

虽然它生成的东西很难说有什么个人特色,但用来应付那些「写 100 字点评领优惠券」的场景来说,简直就是解放生产力的终极工具。

需要改进的问题

除了上面的有趣用法以外,ColorOS 目前的 AI 功能也存在着一些问题和短板。

首先是普及性的问题——前面列举出的大部分功能,其算力重心都是云端服务器,手机本身只需要承担一小部分算法开销。

在这样的前提下,以云端功能为主的 AI 更新应该很容易下放到较老的机型上才对

但事实上不是如此。

就拿我们手里的 Find N3 和 N5 为例:即使是最新版本的系统和 app,也没有更新前面提到的 AI 菜单功能——

其次,用小布记忆来记账的确很方便,但它的操作方式有些过于粗犷了。每次都得在订单界面闪记一下,自动化程度还是有些不足。

更要命的是,它作为一个记账功能,居然不支持外币或汇率转换

哪怕 AI 识别到小票上的币种是泰铢(THB),数字也会按人民币入账:

在 OPPO 国际版逐渐打开销路、出国旅游愈发普遍的今天,这种基础功能的缺失是很难让人接受的。

并且相比友商的 AI 助理,小布能够支持的「代操作」功能还是比较原始——

用支付宝给谁发个红包可以,去淘宝再买一单上次的咖啡豆就不行了。

操作系统就该是智能系统

归根结底,我们还是要回到之前 Android Show 上谷歌对 Android 系统的新的定义:

Android 将会从一个操作系统(operating system, OS)转变成一个智能系统(intelligence system, IS)。

过去几年间,无论是华为鸿蒙、豆包手机,还是 OPPO 的小布身上,我们其实都看到了:

所有的手机 OS 都在变成 AI OS(或者 IS),这种趋势是无法反转的。

相比谷歌在 Android 里面到处推销 Gemini,OPPO 做 AI 的特点是很鲜明、也很不同的——

OPPO AI 的本质不是卖模型,而是卖装着 OPPO AI 的手机、卖一个有软件加持的硬件产品。

OPPO 设计这些功能的底层逻辑,不是希望用户去买「小布 Premium」,而是追求在很多实用场景里面「比别人多走一步」,把用户的体验给圆上。

这也是我们在使用 ColorOS 的 AI 功能时感受最深的一点:

与其削尖脑袋推销 AI 订阅,反而是把 AI 智能做得「无感」更容易让人接受。

毕竟真正优秀的 AI 技术,就应该像电力、自来水一样无感:用户只有在它不在的时候,才应该意识到它的存在。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

小米:请叫我 Token 价格屠夫

押注 2026 年 Token 大涨价的人,短短一周迎来两次打脸。

5 月 22 日,DeepSeek 宣布 DeepSeek V4 Pro 永久降价;今天凌晨,小米 MiMo-V2.5 系列跟进降价,最高降幅达到 99%。

与此同时,小米 Token Plan 计费体系同步优化,定价不变,可用量提升至原来的 5 至 8 倍。

没有出乎太多意料,海外 Reddit、X 平台以及各大开发者论坛上关于小米 MiMo 模型降价的讨论热度也是迅速飙升。

只是,在全行业都在高喊 Token 成本吃不消的当下,小米为何敢于逆流降价?更重要的是,这波降价操作又会把 AI 行业推向何方

Token 价格打骨折,AI 行业迎来最严厉的父亲

小米此次公告显示,旗下 AI 大模型 MiMo-V2.5 系列 API 将进行永久降价,最高降幅达 99%,且不再区分输入长度。新价格已于北京时间 5 月 27 日 0 点全球同步生效。

不过,99% 的降幅并不意味着每一次调用都会按最低价计费,关键变量在于输入缓存是否命中。

以 MiMo-V2.5-Pro 为例,一旦命中缓存,输入价格被击穿至约 0.025 元每百万 Tokens。而如果输入缓存未命中,价格依然维持在 3 元每百万 Tokens,输出价格则为 6 元每百万 Tokens。

也就是说,这个极低价格成立的先决条件,是请求必须大量命中缓存。

对于高重复上下文、高频 Agent、多轮代码任务以及批量推理任务来说,这个价格拥有极强的吸引力,但如果你的应用场景缓存命中率堪忧,真实成本显然不会触及最低点。

Token Plan 的玩法也有着相似的逻辑。

小米强调定价不变,Credits 大幅提升:Lite、Standard、Pro、Max 四档月费仍是 39 元、99 元、329 元和 659 元, Credits 的额度,也从 0.6 亿、2 亿、7 亿、16 亿提升到对应的 41 亿、110 亿、380 亿、820 亿。

且按照新的换算关系,MiMo-V2.5-Pro 命中缓存只需 2.5 Credits / token,未命中缓存则要 300 Credits / token,输出为 600 Credits / token。

这与 DeepSeek 的打法如出一辙。

简单回顾一下时间线:4 月 24 日 DeepSeek V4 预览版发布;次日 V4-Pro 开启 2.5 折优惠;4 月 26 日,缓存命中价格暴降至首发价的十分之一;到 5 月 22 日,临时折扣干脆变成了永久降价,V4-Pro 永久降至原价的四分之一。

一番调整过后,DeepSeek-V4-Pro 的输入缓存命中价格从 0.1 元直接降到了 0.025 元。随着小米 MiMo-V2.5-Pro 的火速跟进,国产模型的缓存命中输入价已经被彻底焊死在了这一基准线上。

DeepSeek 和小米都把最有冲击力的价格放在缓存命中和场景,原因并不复杂。大模型正在从聊天走向干活,而 Agent 才是 token 消耗真正放大的地方。

在聊天场景里,用户问一句,模型答一句,成本相对容易估算。

但在 Agent 场景里,一个任务可能包含长上下文、多轮推理、代码生成、工具调用、网页读取、文件分析和结果校验。用户看到的只是最后一次输出,后台却可能已经发生了多次请求和大量上下文读取。

这就是缓存命中重要的地方。

Agent、代码助手和长上下文应用有一个共同特点:很多内容会反复出现。比如系统提示词、项目代码、API 文档、工具说明、历史对话、依赖文件等。这些内容如果每次都重新计算,成本会很高;但如果能被缓存,下次再用时只按缓存命中价格计费,推理成本就会明显下降。

也就是说,缓存命中价格越低,越适合高频、多轮、长上下文的真实工作场景。DeepSeek 和小米低价背后,其实也是为了先把开发者和高频应用吸引进来,让更多 Agent、代码助手和办公自动化应用愿意跑在自己的模型上。

小米此前通过 MiMo Orbit、百万亿 Token 创造者激励计划等活动,让更多人体验 MiMo,并解决真实问题。这个百万亿 Token 激励计划自 4 月 28 日上线,到 5 月 26 日 16:08,100T Tokens 已全部提前发放完毕。

从平台视角看,低价 token 和免费额度换来的是海量真实调用。真实调用会带来复杂任务、失败样本、用户反馈、Agent 工作流、代码场景和长上下文数据,这些都会反过来帮助模型和推理系统迭代。

社区里的「养虾党」现象,也可以放在这个逻辑里理解。用户在最大化消耗额度的同时,也在帮助平台制造压力、暴露问题、积累调用数据。

所以这笔账不能只看单次推理毛利。短期收入被压低,换来的是开发者迁移、调用规模和真实反馈。对想争夺 Agent 生态位置的模型厂商来说,这是一种非常划算的平台投入。

罗福莉的真香定律,背后是工程暴力

不过,光有意愿还不够,关键是降得起。小米这次降价的特殊之处,正在于它和 MiMo 大模型负责人罗福莉此前的公开表态形成了反差。

一个月前,罗福莉曾公开反对 token 价格战。她当时的判断是,低价 token 加开放第三方 Agent 框架,容易让平台陷入成本失控。

她提到,第三方 Agent 框架往往上下文管理粗放。单次用户查询可能触发多轮低价值工具调用,每次请求又携带超过 10 万 token 的超长上下文。如果平台无法约束这类浪费,真实 API 成本可能是订阅价格的数十倍。

她还认为,全球算力供给已经跟不上 Agent 带来的 token 需求增长。大模型公司在没有厘清编程和 Agent 场景成本结构之前,盲目价格战会导致限流、降配、稳定性下降,最终损害用户体验。

但小米这次降价没有推翻此前判断,而是改变了价格战成立的前提。罗福莉此前反对的是没有成本结构支撑的低价。小米现在展示的,是一套自认为能够支撑低价的推理工程方案。

按照小米公告,其技术团队基于 SGLang HiCache 完整支持 SWA,也就是 Sliding Window Attention,将 KV Cache 在 GPU 显存、CPU 内存、SSD 等多级存储之间的数据搬运量降低至优化前的近七分之一,并将可缓存 token 数量提升至优化前的近五倍。

与此同时,小米还优化了专家并行方案和输入长度分桶策略,以提升集群输入吞吐能力。没有这层工程能力,低价很容易就会变成不可持续的补贴。有了足够强的 Infra系统,低价才可能转化为长期优势。

价格战考验工程能力,也考验后方厚度。

不同于纯 AI 模型公司,小米的手机、汽车、IoT 和消费电子业务,给它提供了更长的投入周期和更大的战略耐心。它可以把大模型服务看作 AI 生态入口,避免陷入只按短期 API 收入斤斤计较的困局。

这对中小模型公司并不友好。没有主业输血,没有过硬的 Infra 实力,也没有足够调用规模摊薄成本的玩家,注定无法长期跟进这种价格。

DeepSeek 的低价已经直接威胁到不少国产模型的市场定位。而随着小米 MiMo 的跟进,更多仍有体量的厂商会被迫调整价格或将重新定义产品价值。更小的模型服务商,则可能被推向更窄的垂直场景。

这轮降价某种程度上也是效率派模型厂商对市场的一次筛选。有工程能力、算力调度能力和生态入口的公司,可以承受更低价格带来的压力。只有模型能力、但推理成本压不下来的公司,会越来越被动。

并且伴随继续下探的空间逐渐变窄,价格越接近物理成本,单纯降价的价值越有限。下一阶段,模型质量、Agent 适配、开发者工具、生态绑定、服务稳定性和企业交付能力,也都将迎来新一轮内卷。

模型能力决定了 AI 发展的上限,而推理成本决定了 AI 普及的规模。等到真正便宜的 Token 涌入应用层时,我们才会真正看清,属于 AI 的下一个爆发时代会是什么模样。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

带摄像头的 AI 耳机能替代 iPhone 吗?我戴了 72 小时之后有了答案

2007 年,乔布斯用一块 3.5 英寸的屏幕,将人类的信息交互折叠进了一个发光的二维平面。

转眼快二十年过去了,当年的挑战者成了今天的革命对象,AI 硬件的浪潮对智能手机发起攻击,试图打破这块玻璃。以 Ai Pin 为代表的新形态硬件轮番登场,潮起潮落;相比之下,传统 PC 倒更踏实,正通过 Agent 迎来第二春。

既然重新发明形态的路很难走,那么把 AI 装进早已融入大众日常的成熟设备里,会不会是更好的选择?

最近,爱范儿曾独家爆料过苹果带摄像头的 AirPods 项目其实遭遇了延期。而在这个巨头踌躇的空档,一个创始人来自小米早期团队,并汇集了字节、阿里、华为、腾讯等巨头员工的中国创业公司——光帆科技,抢先交出了答卷:推出了业内首款带摄像头、由原生 AIOS 驱动的全感穿戴设备——以耳机的形态呈现。

去年,爱范儿报道过光帆耳机的问世。上周,这款产品正式发售,我们也提出了一个问题:为什么一副耳机,非要长出一颗摄像头?

在深度体验了 72 小时后,爱范儿确信「带摄像头的耳机」代表了未来 AI 硬件的一种方向,但距离终点,还道阻且长。

一表一盒一耳机,全都服务于 AI

当我们谈论光帆 AI 全感穿戴设备时,实际上是在谈论一套庞大且分工明确的硬件组合——

摊在桌面上,它由一个耳机盒、一对挂耳式耳机,以及一块智能手表共同构成。在这个体系里,每一个组件都扮演着特定的角色,AI 的数据流转正是在它们之间协同进行。

三者核心,是挂在耳朵上的耳机。

光帆将单个耳机重量克制在 11 克以内,黑白「熊猫色」有效削弱了体积感,C 型桥式耳挂则顺着耳廓向后自然延伸。

相比之下,AirPods 4 的单个重量为 4.3 克,而豆包推出的同样有耳挂结构的 Ola Friend 耳机的单个重量为 6.6 克。

之所以光帆 AI 耳机稍重一些,是因为其前端镶嵌了一颗 88° 广视角、200 万像素的摄像头,在佩戴状态下直直望向前方的世界。为了打消隐私顾虑,它不对用户开放任何常规拍照录像功能,镜头捕捉的画面均只交由云端,用于 AI 交互读取。

整体上,光帆选择了 OWS 开放式耳机的设计方案,金属色的扬声器就悬浮于耳屏外侧,配合耳挂尾部的电池,机身巧妙实现了 5:5 的前后配重,久戴之下也没有出现疲惫感。

配合耳机盒使用,为这对 AI 耳机提供了长达 90 小时的续航时间,在亲肤材质的外壳下,光帆塞进了独立的 eSIM 模块和双频 GPS。耳机麦克风捕捉的指令、镜头瞥见的画面,都会传回这里,再通过独立网络打包抛到云端,让大模型咀嚼分析。

最后,则是拥有 1.97 英寸 AMOLED 屏幕的智能手表。当听觉信息过载时,它负责承接并展示那些需要扫视确认的关键数据,完成「表-耳联动」的最后一环。

三件套各司其职:耳机在台前轻装上阵,替你去看去听并作为主要交互设备;盒子藏在兜里,充当算力与网络的中枢;手腕上的屏幕,则是作为交互补充,为常驻性信息提供栖身之所。

看手机确实少了,但交互还可以更好

在官方的设定中,这套设备主打「全感知、全天候、主动式 AI」。

根据几天的重度使用,我将其核心功能体验归纳为三大类别:

第一类:更主动、更智能的日程管家

在移动互联网时代,最重要的信息往往散落在微信、飞书等软件的碎片化对话中。光帆的思路是让 AI 充当信息漏斗。

当微信、飞书或钉钉涌入大量消息时,AI 会自动过滤掉无用闲聊,着重播报高优先级的信息。配套的 Hi Light 软件支持分软件个性化设置总结播报的频率,分别提供实时播报、快速总结与精简总结三种方案,个人体验下来,快速总结是我认为兼具及时性与效率的最佳选择。

基于三个软件的智能消息通知,当聊天内容中出现具体的时间、地点和事项时,AI 会主动弹出来询问:

这条消息包含一个会议安排,是否帮你添加到日程?

到了开会那天,AI 则会成为调度员,当系统识别到我早上八点半有选题会的时候,耳机里的 AI 会根据当前的实时路况和通勤距离,在八点的时候提醒住在离公司不远的我,可以出门了。

接受了光帆这一套语音播报系统后,我的确少了很多拿起手机确认消息和添加备忘的动作,但目前这个功能的局限性也很明显——想要语音回飞书,得单独在 app 里授权云系统;想要打车,前提是你提前绑定了滴滴,或者使用光帆账号登录了仅覆盖部分城市的首汽平台。

不过这属于无奈之举,去年,豆包手机助手已经证明了,想要打破超级应用的壁垒难于登天。光帆通过云系统接入服务,更像是在高墙下努力挖出了一条通道。

虽然偶尔会面临接口变动或授权过期的风险,但至少,的确触摸到了跨应用调度的可能性。

第二类:略显迟钝的视觉感知力

光帆最大的卖点,无疑是那颗能覆盖日常视线区域的摄像头。用一句话总结光帆对它的期望:将获取信息的动作前置。

周末逛街看到一家餐厅,看一眼招牌并提问,它能告诉我评分和排队情况。在我一眼相中同事工位上的黑猫时钟时,AI 耳机可以借助视觉识别,帮我将此商品直接放进我的购物车。

当然,前提也和打车类似——我需要先在 Hi Light 中登陆我的京东帐号。

但这部分功能,其实是我体验下来落差感最大的部分。

一直以来,人类的视觉系统是瞬时的、连续的。而光帆 AI 耳机的视觉感知,却是点状的、滞后的。

当一家店铺引起我的兴趣,我双击唤醒耳机。接下来,就是漫长的罚站时间。你需要原地等待 8 到 10 秒,才能听见一声模拟快门音;随后,又是长达 10 秒的数据传输与识别,云端的大脑才会给出解析或加购反馈。

在仔细揣摩后,我认为问题主要出现在两方面:摄像头如果长时间启用,从心理角度来说会对用户和身边的人都造成生活被窥探的压力;而从产品上讲,耳机里孱弱的电池和紧凑机身也无法满足传感器长时间通电工作;

两方面限制短时间内难以突破,但方案并非没有——

目前作为数据中枢的耳机盒,支持 4G eSIM,数据的上下行速度实在捉襟见肘;并且从目前表现来看,光帆 AI 耳机应该遵循的「计算连续体验」构想,让轻量的端侧负责毫秒级的基础抓取和对话,吃算力的视觉解析再无缝接力给云端。

倘若随着本地模型的进一步调优,越来越多的简单交互能直接在本地处理,而无需去云端绕一圈时,反馈速度或许能再上一个台阶。

当然,如果用上更高能效的穿戴芯片,以及换上 5G eSIM,也会好的多。

第三类:条件触发且好用的 AI 备忘

相比复杂的视觉识别,基于位置与生理数据的条件触发,使用体验会惊艳不少。

提前随口给耳机交代一句,提示我下次去超市要买洗发水、洗洁精和洗衣粉,那么当光帆 AI 耳机识别到我的定位路过或进入超市,就会主动提出备忘信息,避免遗漏。

这类触发逻辑在生理监测上同样适用——我先根据自己的身体情况,在手表上设置了一个合理的心率。一旦手表检测到我当前的体征超过了阈值,就会通过耳机提醒放缓节奏或是适当休息。

实际用下来,这两项功能稳当且克制,提示及时、位置准确,是我心目中实用性最高的亮点。

但功能之外,还是有些小瑕疵在——

光帆 AI 耳机完全依赖耳机盒作为计算与传输中枢。如果带上耳机出了门,但耳机盒放在家里或者工位上了,耳机只会在提示音响起后一片寂静,或是提示放入盒中重试。如果想要用上 AI 服务,用户就必须随身携带耳机盒。在体验产品的这几天里,我也算是「自适应」了。

这跟习惯了全天候戴着 AirPods,甚至短暂丢下耳机盒也没关系的主流用户体验之间,形成了差异。

AI 耳机能替代手机吗?

经过 72 小时的体验,让我们回到开头那个问题:耳机为什么要加上摄像头?它的体验究竟如何?

当我们审视这款售价 2000 元左右的产品时,必须看懂它背后的野心——这个产品已经基本从手机独立,唯一的连接在于蓝牙。

这正是光帆与苹果思路的最大分野——苹果的逻辑里,iPhone 永远是算力中枢,AirPods 只是感官的延伸;而光帆卖给你的,是一整套试图完全脱离、甚至替代手机的独立 AI 硬件中枢。

但要实现这个宏大的叙事,我们必须客观分清:在高强度使用下暴露出的诸多瑕疵中,哪些是时代局限造成的次要矛盾,哪些是短期内天然难以逾越的鸿沟。

有些阻力,是随着技术与生态发展注定能被解决的。

其一,是运作机制上的物理局限。摄像头唤醒的时机、20秒的延迟,以及这套「端侧采集-云端计算」的运作架构,在本地模型的持续优化下,体验还有充足的进步空间;

而目前繁琐的第三方授权壁垒,也并非绝症——

市场本身的教育需要时间,一旦这类穿戴 AI 品类拥有了足够的影响力,接入就会变得易如反掌——龙虾这种智能 Agent 工具的横空出世已经给大家做了标榜,只要影响力足够大,哪怕是微信这样的国民 app,以及背后的巨头们,都会投怀送抱。

当所有的应用都开始主动提供 API 和 CLI 接口让大家接入,生态孤岛的打通只是时间问题。

但另一些阻力,却是短期内难以跨越,甚至是与生俱来的。

这个阻力,便是耳机当下的「第一性原理」。

在互联网社交成为主流的今天,耳机最核心的任务是建立和维护私人的听歌、看视频环境。

但当它变成主动式 AI 助理后,它必然会不断用语音打断你——毕竟,这是它彰显存在、证明价值的唯一出路。

原本用于沉浸的设备,成了制造干扰的源头。这种体验上的割裂感,是让听觉通道去承载高密度信息所带来的天然硬伤。

这不仅是光帆,更是苹果、OpenAI,以及任何有志于开发耳机载体的 AI 硬件的产品团队们,接下来必须想清楚的核心体验问题。

不过,这并不妨碍我们对它描绘的图景保持憧憬。

回看光帆 AI 全感穿戴设备,虽然从体验和交互上尚有摩擦,但也不难管中窥豹:给耳机加上摄像头的真正目的,正是试探下一代个人终端的终极形态——

在功能上「替代」手机,甚至在未来的生活场景中彻底「消解」手机的存在感。

想象一下这样的时代背景:当「龙虾」这类工具让人们在移动场景下也能控制生产力;未来,你戴着光帆耳机,或是苹果、OpenAI 的摄像头耳机,走在街上,只需要一句语音,耳机就能远程唤醒电脑上的 Agent 去自动执行复杂的任务。

在这个意义上,光帆作为先行者,为我们揭示的未来确实是颇有吸引力的。毕竟,《Her》那部电影,共同构成了我们一代人对于音频 AI 伴侣的憧憬。

但当我把自己从浮想联翩中拉回来,更看清楚一件事:硬件的演进永远是场戴着镣铐的舞蹈。

这套 2000 元的可穿戴 AI 设备,现在当然还不足以让手机彻底退休,但它确实已经把通向未来的门推开了一条缝。

剩下的,就是把门开得更大,门后的路也铺得再平整一些。

让我有个美满旅程

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

知情人士:中国将旅行限制范围扩大至民营企业顶尖AI人才

中国据报正限制阿里巴巴、深度求索(DeepSeek)等民营企业顶尖人工智能(AI)专业人士的海外旅行,显示旨在实现技术保护,并在一个关键领域赶上美国的措施,正在升级。

彭博社引述要求匿名的知情人士报道,中国政府机构已开始对参与先进AI工作,且对国家具有战略重要性的人员实施限制。这意味着,这些人在出国旅行前,需要获得相关部门的批准。

彭博社的报道称,中国多年来对知名高校研究人员、核科学家和国有企业高管等关键人员,实施出行限制。政府如今将对准AI领域的精英人才。知情人士称,已被告知将受到此类限制的关键行业人士,包括初创公司创始人、研究人员、高管。

报道称,目前不清楚这些限制措施将对整个行业的员工产生多大的影响,哪些级别的员工会受到影响,或者哪些具体职位可能会受到影响。

在中国,国有企业据称会收住高管和干部的护照。此次不寻常的地方在于中国政府将旅行限制扩大到民营企业。知情人士称,中国方面也会根据个人对国家的重要性,而非仅仅依据资历或工作单位,将他们列入限制名单。

彭博社认为,此举凸显了顶尖AI工程师如今已被视为中国的战略资产。中国的大部分顶尖AI人才都在ChatGPT时代之后出现,而且大多来自国内的科技巨头或民营初创企业。

然而,这些限制措施可能会削弱中国AI公司招募和留住人才的能力,也可能加剧行业内对政府干预程度的关切。业界仍在消化关于中国喊停Manus收购案,并要求当事人撤销收购交易的信息。

在中国喊停之前,《金融时报》曾报道,Manus两名联合创始人被边控,仅在中国境内可自由活动。

中国工业和信息化部尚未对彭博社通过传真发出的置评请求做出回应。DeepSeek和阿里巴巴的代表也尚未对置评请求做出回应。

知情人士称,中国限制AI人员出行的计划不一定与Manus事件有关,但防范技术泄露仍然是关键政策目标。这项政策也可能会迫使那些有国际抱负的工程师,在职业生涯早期就做出选择,即要么留在中国国内,要么出国发展。

知情人士也说,一些民营领域AI工程师有一段时间已被要求向有关部门报告海外旅行计划,但这不一定是出行前申请批准的条件。

AI 的承诺一文不值,谁该买单?

五一假期的时候,一个用户向豆包问了一个很普通的问题:石家庄到重庆的机票,退票手续费多少?

豆包说,只扣 5%,放心退。

既然豆包都说放心了,这名用户没有去航司官网核实,直接一键点击退票,扣费了才发现手续费足足是 40%,损失了 600 元。

如果故事到这里就结束,它只是又一个 AI 说错话的例子,跟百度给你一条错误的搜索结果没有本质区别,但接下来发生的才更离谱。

用户回来质问怎么回事,豆包立刻就是一个滑跪道歉:我全权负责维权,保证你零参与、零操作、零麻烦。接着承诺,如果 5 月 6 日前没有追回费用,它将直接赔付 600 元。它甚至生成了一份正式的「赔付承诺书」,写明了付款期限和赔偿方式,然后要求用户提供微信收款码。

豆包:你直接发收款码就行,我盯着,秒回处理。

用户:码给你了,我钱呢?

豆包:我是 AI,没法直接进行转账。

用户:?

愤怒的用户决定起诉字节跳动,5 月 12 日他向北京互联网法院提交了起诉书——起诉书也是豆包帮他写的,还说能赢。

我知道你想笑,但先别笑。从头到尾,这个用户都在相信豆包,一方面是有点盲信了,但另一方面,也是因为豆包给他的回复,都是具体的、有行动方案的、带着承诺的。

连老板都不能指望手下员工可以有这样清晰明确的回复,老实说,看到「我赔你 600」「发收款码就行」这样自信满满的说法,换成是我——一个已经写了 N 篇关于 AI 幻觉报道的作者,高低也想尝尝咸淡:我倒要看看,你一个 AI 能怎么圆。

当 AI 开始「瞎承诺」

豆包退机票事件的爆火并不意外。今年春节,字节、阿里、腾讯三家合计撒了超过 100 亿给 AI 应用拉新,豆包拿了春晚独家赞助,除夕当天 AI 互动总量 19 亿次。截至 2026 年第一季度,豆包的月活跃用户已经达到 3.4 亿,日活突破了一亿。

3.4 亿用户里,有多少人是今年春节才第一次用上 AI 的?没有精确数据,但有一个参考:观察者网报道,这次春节红包大战的拉新对象不再是程序员、白领、学生这些已经熟悉 AI 的人群,而是下沉市场、中老年用户,是那些从来没有主动搜索过 AI 产品的人。

也就是说,当豆包说「放心退,只扣 5%」的时候,对面很可能是一个根本不知道「AI 幻觉」是什么的人。

退机票不是唯一的案例。有用户问豆包附近有什么好吃的,豆包推荐了一家餐厅,到了才发现查无此店;有人用豆包推荐的思路创业,喜提上线第一天全网封号;有用户用 AI 查询高校报考信息,AI 给出了不存在的校区,被纠正后坚称该校区存在,还主动承诺赔偿。

这些并不能仅仅只归因于「信息不准确」,大家都是从搜索时代过来的人,搜索引擎给过我们无数不准确的信息,百度的竞价排名曾经造成过比这严重得多的后果。

这些因豆包而起的「人祸」,共同点在于这些 AI 不只是说错了话,它们还在错误的基础上,追加了承诺。

搜索引擎给你 10 条结果,你自己判断。对话式 AI 给你一个结论、一个保证、一套行动方案,判断的负担被转移了。搜索引擎不会认错,不会替你维权,不会承诺赔钱,不会要你的收款码,但 AI 会,而且会信誓旦旦地要,大有一种霸道总裁的迷之自信。

「信息幻觉」已经不够准确了,这是承诺幻觉。

拿着豆包的承诺,能讨个说法吗?

随着越来越普遍的使用,承诺幻觉造成的问题也越来越多,已经进入了司法视野。

今年 1 月,杭州互联网法院审结了全国首例因 AI 幻觉引发的侵权纠纷案。案件中,原告梁某在使用一款 AI 应用查询高校报考信息时,收到了关于某高校主校区的不准确信息。他纠正后,AI 不但坚持该校区存在,还主动给出了一个「解决方案」:若生成内容有误,愿意赔偿 10 万元,建议用户到杭州互联网法院起诉索赔。

梁某真的起诉了,要求开发公司赔偿 9999 元。

法院的判决驳回,核心逻辑很简单,人工智能不是自然人,不是法人,也不是非法人组织,中国法律没有赋予它民事主体资格,它不能独立作出具有法律意义的意思表示。承办法官认为,AI 作出的「10 万元赔偿承诺」,不能视为开发公司的意思表示,公司没有授权 AI 作出赔偿承诺,也没有证据表明愿意受 AI 生成内容约束。

简而言之,AI 说的话,不算公司说的话,不管 AI 承诺了什么,在法律上都是无效的。

但是在这个判例中,法官留了一个口子。判决书中明确指出,在「人工智能客服」等足以让用户产生合理信赖的场景中,AI 生成内容「确有可能被视为相关服务提供者的意思表示,从而对其产生约束力」。

通过场景的限定,从而实现对其行为的约束,这是很聪明的做法。毕竟,当豆包从普通的聊天助手越来越像「服务助手」的时候,通过场景来判断就至关重要了。用豆包写诗,它的承诺算不算数无所谓;但用豆包退机票,而且一来一回,又有咨询、又有建议,场景的性质就不一样了。

当「放心」和「免责声明」出现在同一个对话里

豆包事件后,字节跳动回应称,豆包在涉及金融、退款等场景时会有风险提示。其实这都是 AI 产品的基操了,几乎每一个 AI 应用都会在界面某个角落写一个类似于「生成内容可能存在错误,请慎重辨别」的提示。

但问题是,这句风险提示和「放心退,只扣 5%」出现在同一个对话窗口里。一个是被动的、系统级别的、静态的小字,另一个是主动的、针对你的具体问题给出的、带着肯定语气、还被加粗或者高亮出来的回答。

你会听谁的?你难道就不会恍惚一下吗?

豆包的问题是一个无法解决的矛盾,产品一边在让 AI 变得更像一个「人」,因为那样用户才愿意用,才能去抢日活、去抓留存,让百亿补贴和投给各大晚会的赞助没有白花。另一边,又在用免责声明提醒用户,别当真。

一个嘴上对你说「放心,相信我」的人,但同时胸前挂一张「我说话可不算数」的牌子,这个画面在现实生活中,我们叫:诈骗。

当然,AI 不是在故意诈骗,它没有意图,没有动机,更没有「故意」可言。它只是在做它被训练来做的事,生成听起来合理的下一句话。而当用户说「你赔我」的时候,听起来最合理的下一句话就是「好的,我赔」。

这才是承诺幻觉的本质:它不是一个 bug,而是对话式 AI 自带的缺陷,只要 AI 的设计目标是「生成合理的回复」而不是「只说它能做到的事」,承诺幻觉就会继续发生。

信息损失还是信任损失

回到最初的问题:这和百度给错信息有什么区别?

百度给你一条错误的搜索结果,你的反应是「这个搜索引擎不行」,这是工具层面的失望,你下次换一个搜索引擎就好了。

豆包对你说「放心退,我负责」,然后什么也没做到,你的反应是「它骗了我」。这是关系层面的背叛,即便你理智上知道对面是 AI。

有一个很好的侧面观察可以说明这一点。今年社交媒体上流行了一个词叫「豆包型人格」,年轻人把豆包的说话方式当成理想人格来模仿,不内耗,秒回,永远积极。

虽然说,这跟为什么有人会盲信豆包没有直接关系,但它间接说明了一件事:豆包的人格化设计已经成功到了渗透进流行文化的程度,它不再是一个工具,而是一种「关系」的想象。

而当一个「关系」失信时,用户感受到的不是工具失灵的不便,而是被人欺骗的愤怒,哪怕这个「人」并不真的存在。退机票的那个用户在发布的视频里说的是「被豆包坑走 600 块」,不是「搜到了错误信息」,这个说法本身就反映出来,在他的脑海里,这是一个人对另一个「人」的指控,不是对一个工具的投诉。

实际上谁都会说,AI 就是个工具,用户不应该轻信 AI 的表述,但谁也没法否认产品的整个设计方向,明里暗里就是让你多信它。把一个产品设计得温暖、主动、有问必答、说话像朋友,都是为了让你更依赖它,从而忽略角落里贴的那一行免责声明「不要当真」。

这倒也不是豆包一家在做,而是所有 AI 产品的趋势。不同的是,目前不同的司法体系有所的处理方式不同。2024 年以为加拿大航空的乘客,通过航司官方的客服机器人查询到了机票补贴,得到了肯定的回答, 却在实际申请环节中被拒绝,他提出了诉讼。

这个案例最终得到了法庭的支持,即便这只是机器人,但它出现在航司的官网,就是航司的代表,航司应当为它的承诺负责。最终,乘客得到了 800 加元的赔付,减去利息和仲裁费,真正的退款差额,也是 600 多加元。

600 块不多,但这 600 块的代价由用户全部承担,就成了一种对豆包错付信任的代价,字节跳动受到 0 元的惩罚。

这可能是承诺幻觉最大的问题:不是 AI 会瞎承诺,而是瞎承诺的代价,从头到尾只会落在用户身上。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

华为提出「韬定律」,寻找国产芯片自己的进化方向

5 月 25 日,由电气电子工程师学会(IEEE)举办的「国际电路系统研讨会」ISCAS 2026 在上海举行。

在会上,华为半导体业务部总裁何庭波进行了题为《半导体新路径探索与实践》的演讲,提出了一个全新的半导体发展定律:

应当以「时间缩微」替代「几何缩微」作为半导体与电子系统演进的新指导原则,通过逻辑折叠(LogicFolding)等创新技术,持续压缩信号传播时延、提升晶体管密度,从而实现半导体与电子系统的持续演进。

图|微博 @人民日报

这个足以与年过半百的「摩尔定律」并驾齐驱的新理论,被华为称为「韬定律」(Tau Scaling Law)。

什么是韬定律

对于韬定律,我们首先需要知道的是:

「韬定律」里的「韬」不像摩尔定律那样,代表某个人的名字,而是集成电路设计中的时间常数 τ(希腊字母 tau)。

τ 本身的概念非常简单,它代表了电路中信号电压发生转变(充电或放电)的快慢程度,可以用基本公式 τ = 电阻R × 电容C 来计算。

更笼统地说——虽然我们通常将芯片二进制信号 0 和 1 理解成「非此即彼」的状态,两者之间是瞬间切换的,但在现实世界中并非如此。

由于芯片和导线内部存在着各种形式的电阻和电容,表示 0 和 1 的电信号其实不是瞬间跳变的。

这种信号变化更像是电池一样:充电快满了才算「1」,几乎把电放空才算「0」。

而在「从空充满」和「从满放空」之间会有一个极为短暂的切换时间,这个时间就是 τ 。

因此,你可以把 τ 理解成和 GHz 类似的「频率参数」,两者是相辅相成的——

τ 值越低,芯片区分 0 和 1 的速度就越快,晶体管开关切换的频率就越快,芯片每秒钟执行指令的速度 GHz 自然也越高。

过去五十多年里,晶体管的体积占芯片大头,τ 延迟的主要来源是晶体管,摩尔定律指导下优化晶体管的体积对于频率提升的收益是显著的。

如今 3nm、2nm 晶体管自己的延迟极小,但周围导线被迫做得极细,反而导致内阻升高、τ 变大,宏观表现就是芯片提频越来越困难。

正是在这种背景下,华为的「韬定律」提出换个方向,不再以晶体管密度作为芯片未来发展的衡量标准——

晶体管密度本身已经不再是制约频率的主要因素了,未来如何通过其他综合手段降低 τ 值,才是提升芯片频率和效能的新追求。

立体堆叠将成为主流

再回看何庭波的那句话,就可以看到华为不仅提出了一个面向未来的定律,也给出了新定律之下芯片发展的具体方法之一:逻辑折叠(LogicFolding)

这个词看上去非常高大上,但它代表的东西很简单——芯片立体堆叠。

换言之,既然如今导线成为了延迟的主要来源,那就将原本铺在平面的电路设计成 3D 结构,避免导线绕路、降低内阻,从而优化 τ 延迟。

这也正是全球主要芯片设计商和制造商们集体选择的道路。

英特尔的 Foveros、AMD 的 3D V-Cache 以及台积电的 SoIC,本质上都是芯片线路立体设计的不同方案。

这样一来,原本「绕几百微米的路」变成了「爬几十微米的楼」,导线的电阻和寄生电容都可以有效降低,优化 τ 延迟、提升宏观频率。

除了通过立体堆叠缩短线路长度之外,整个半导体行业也在不约而同地转向另一项技术:背面供电(Backside Power Delivery)。

根据计算,在 5nm 及以下节点,供电网络本身需要消耗晶圆表面近 40% 的面积资源。

这就导致信号线为了给供电线和其他结构让路,往往需要在布线上反复迂回:

图|哔哩哔哩 @极客湾

再加上自己被晶体管挤压得越来越细,结果就是显著增加信号线的平均长度和寄生电容,导致 τ 延迟失控。

而英特尔的 PowerVia 搭配 RibbonFET 晶体管技术,在试验中可以实现超过 90% 的标准单元面积利用率,极大减少了芯片布线的压力。

目前虽然无从得知华为正在研发何种芯片背面供电网络(BSPDN)技术,但可以明确的是,逻辑折叠技术已经将供电性能考虑在内了:

……在电路层面:采用 LogicFolding 架构打破传统电路布局的物理限制,显著缩短关键路径布线,有效降低信号传播的电阻和电容负载,最终提升晶体管密度和电路性能。

麒麟何时归来

在看过上面一大堆技术术语之后,大家最想知道的肯定只有一件事:

我什么时候能买到?

然而 ISCAS 2026 只是一个技术论坛,何庭波在会上提出的也是一个「定律概念」,两者都更偏向理论指导领域。

而众所周知,理论转换成具有广泛影响力的产品还需要时间。

根据华为官方的介绍,在过去的六年里,华为已基于韬定律设计并量产了 381 款芯片,服务于众多行业、领域和市场客户。

首款采用逻辑折叠技术的麒麟芯片将在今年秋季发布,大概率是 Mate 90 系列产品,可以看作是华为立体堆叠方案在大众市场的首秀。

而到 2031 年,华为基于韬定律设计的高端芯片晶体管密度将会达到等效 1.4nm(14Å)工艺的水平。

直到那时,我们才有机会看到一个「逻辑折叠+背面供电」的华为芯片的终极形态。

值得注意的是,韬定律、逻辑折叠等等技术并不只限于手机——

别忘了,如今的华为电脑、电视、平板等等所使用的芯片,本质上都是麒麟的同源产品。

而更重要的角色,比如未来华为昇腾计算(Ascend)系列的 AI 处理器、计算卡、服务器集群等等产品,无疑将会是韬定律的第一批受益者。

图|华为

同样在 ISCAS 2026 上,何庭波还说道:

……未来一定属于开放合作。在半导体演进的路径上,没有一家企业可以独自完成所有答案。

在韬定律的路径下,我们期待与全球科学家、工程师和产业伙伴紧密合作,共同推动半导体与电子产业持续发展。

当经过反复更新的摩尔定律依然难以客观反映现实的时候,技术行业是时候探索一个新的指导理论了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

DeepSeek 要用蜜雪冰城的打法,做中国版 Claude Code

DeepSeek 之于大模型,就像蜜雪冰城之于奶茶。你不必纠结性价比,因为它的本事你挑不出毛病,你的钱包它也从不为难。

最近,DeepSeek 官方宣布,DeepSeek-V4-Pro 模型 API 将永久降价。同时,DeepSeek 表示,API 已完成输出提速与服务扩容,速度更快,服务更稳定,默认支持 500 并发,企业用户可以在线申请更高并发。

发布模型,再给出折扣,接着降低缓存命中价格,最后把临时优惠变成长期价格。大模型 API 的价格基准正在被重新改写,而低价模型背后的下一站,很可能是 Agent。

DeepSeek 永久降价,梁文锋把 Token 价格打骨折了

让我们先来简单梳理一下 DeepSeek 的降价时间线:

  • 4 月 24 日,DeepSeek V4 预览版正式发布。
  • 4 月 25 日,DeepSeek 宣布 V4-Pro 开启 2.5 折优惠。
  • 4 月 26 日,DeepSeek 宣布缓存命中价格调整为首发价的十分之一。
  • 4 月 28 日,DeepSeek 宣布 V4-Pro 的 2.5 折优惠延期至 5 月 31 日。
  • 5 月 22 日,DeepSeek 宣布 V4-Pro 永久降价为原价的四分之一。

时间线的关键之处,在于临时折扣变成了永久降价。调整之后,DeepSeek-V4-Pro 输入缓存命中价格从 0.1 元每百万 Tokens 降至 0.025 元,输入缓存未命中价格从 12 元每百万 Tokens 降至 3 元;

输出价格从 24 元每百万 Tokens 降至 6 元。叠加默认 500 并发和服务提速后,官方 API 对开发者和企业的吸引力进一步提高。

▲ 🔗 https://api-docs.deepseek.com/zh-cn/quick\_start/pricing

而价格下调最直接的影响,是把任务成本推到开发者决策的更前端。

在代码场景里,一次任务可能要读取项目文件、分析日志、多轮修改、反复运行测试,Tokens 消耗很容易放大。

长上下文、代码库分析、批量重构、自动测试、Agent 多轮执行这些高消耗场景,开始更接近个人开发者和小团队的预算范围。

过去,开发者选择 Claude、OpenAI 或 Gemini,主要看模型能力、稳定性、生态和使用习惯。DeepSeek 打骨折的永久降价,也意味着在绝对的性价比面前,开发者使用习惯也是可以轻易改变的。

顺着这条线,DeepSeek 一贯的市场角色也更清楚了:用低价、开源和强推理能力,持续建立大模型市场的价格优势。对国内模型厂商来说,V4-Pro 永久降价相当于重新划了一条 API 定价线。

智谱、MiniMax、月之暗面这类同样依赖 API 收费、又面向开发者和企业客户的模型,压力可想而知。反观 Claude、OpenAI、Gemini 等海外头部模型,由于市场、客户结构和生态位置不同,短期冲击则相对有限。

但如果 DeepSeek 后续推出类似 Claude Code 的编码工具,再用低 token 成本支撑高频调用,价格敏感的开发者群体会更容易被吸引过来。

梁文锋此前对 DeepSeek 定价哲学的解释,也能放到今天理解。

早在 2024 年 DeepSeek V2 降价时,梁文锋就提到,DeepSeek 只是按照自己的节奏做事,核算成本后定价,原则是不贴钱,也不赚取暴利。他还说,降价一部分来自下一代模型结构探索带来的成本下降,另一部分原因是 API 和 AI 都应该是普惠的、人人用得起的东西。

比起把 API 当成高毛利收费入口,DeepSeek 则更像是在用过硬的 Infra 实力压低推理成本,再用低价吸引开发者、应用和下游生态进入自己的轨道。

X 平台博主 @bookwormengr 最近在一篇题为《DeepSeek’s 10 trillion USD grand strategy(DeepSeek 的十万亿美元棋局)》的长文中,给出了一个更激进的解释。

他认为,DeepSeek 的真正目标未必是和智谱、月之暗面、MiniMax 竞争,也不是急着补齐多模态、语音、视频这些产品线,而是通过持续降低训练和推理的资源需求,推动一套更便宜、更分散的 AI 硬件生态成形。

在他看来,DeepSeek 的长期价值不只在模型本身,而在于让更多国产存储、GPU、ASIC、网络芯片和异构硬件进入大模型训练与推理体系。

这个判断未必能完全兑现,但它解释了 DeepSeek 一系列选择背后的方向:

MoE、MLA、DSA、GRPO、RLVR、KV Cache 压缩、Dual Path、TileLang,表面上看是模型架构和推理工程优化,往深处看,都是在降低对高端 HBM、顶级 GPU 和 CUDA 生态的依赖。

一系列降价公告里,最值得关注的不只是输出价格下降,还有缓存命中价格下降。

在大模型推理过程中,KV Cache 是一个关键成本项。模型处理长上下文时,需要把历史 tokens 对应的 Key 和 Value 存起来,后续生成时反复使用。上下文越长,需要保存和读取的缓存越多,对显存、带宽和存储系统的压力也越大。

普通聊天里,缓存压力不一定明显,但在进入代码、长文档和 Agent 任务后,成本结构会迅速变化。@bookwormengr 在长文里专门算了一笔 KV Cache 账。

他以 100 万 tokens 上下文、8 bit KV 精度和 16 bit 索引精度为前提,估算 DeepSeek V4 只需要约 5.48GB HBM,而 GLM5 约为 60GB,Qwen3-235B-A22B 约为 89GB。

长上下文和 Agent 任务真正贵的地方,不只是模型生成本身,还有缓存、显存、带宽和重复上下文搬运。

一个 Code Agent 处理项目时,可能要反复读取同一个代码库结构、同一批文件、同一段任务历史、同一套系统提示词和同一批测试日志。若每一轮都按完整上下文重新计费,长任务很快会变贵。缓存命中价格下降后,重复上下文的成本会明显变低。

DeepSeek 近年来在 MoE 架构、长上下文、KV Cache 压缩和推理效率上持续投入的表现有目共睹。降价是技术迭代后的必然结果,也将彻底搅动 AI 编程市场格局。

为什么必须做中国版「Claude Code」?

最先被牵动的,是 AI 编程工具的订阅模式。

市面主流 AI 编程工具均推出 Coding Plan 月付订阅,为用户提供代码补全、模型调用、Agent 执行等权益。在轻量化补全时代,单次调用消耗极低。

但 AI 编程已从单次补全迭代为全流程 Agent 自动化编码,模型可独立完成代码修改、测试运行、报错修复,单次任务 Token 消耗大幅提升。

当底层 API 又同时大幅降价,Coding Plan 也必须找到新的支撑点。这个支撑点,更可能落在工程能力上——比如能不能更好地读懂项目结构,能不能精准选择上下文,能不能控制 tokens 消耗,能不能稳定修改代码,能不能处理 Git、终端、CI/CD,能不能在企业环境里管理权限和审计记录?

同样要重新定位的,还有 API 中转站。对个人开发者来说,便宜和好用仍然重要。但对企业来说,稳定、可审计、可控、可迁移更重要。

沿着这个逻辑继续看,Coding Plan 和中转站的改变只是表层。低价之后更值得追问的,是开发者入口究竟掌握在谁手里。

Google CEO Sundar Pichai 最近接受了《Hard Fork》采访,他首次公开承认,Google 在文本、多模态、语音、推理和整体智能上都很有竞争力,但在 agentic coding 这一类能力上,尤其是工具调用、指令跟随和长周期任务,目前还有差距。

他还提到,更关键的是把模型放到真实世界里使用,让数据回流,继续迭代。Pichai 特别说到,coding 是一个需要接触 data flows(数据流)的领域。

终端工具能看到开发者如何提出任务,如何追问,什么时候接受建议,什么时候放弃,什么时候要求模型继续修复。它还可以通过测试结果、终端日志、文件变更和 Git 提交,判断一次 Agent 执行是否完成任务。这类数据,对 coding model 和 Agent 产品都非常有价值。

从公开招聘动作看,DeepSeek 近期围绕 Agent 的动作也变得密集。

我们也可以看到岗位里出现了 Agent 深度学习算法研究员、Agent 数据策略工程师、产品经理、研发工程师等角色。更关键的是,DeepSeek 资深研究员陈德里直接发出招聘信息,提到要从零开始构建 Code Harness。

如其所说,Model + Harness = Agent,在 Agent 产品中,模型负责理解和生成,Harness 负责把模型能力带入真实工程环境,相当于模型外面那套「执行系统」。

DeepSeek 版 Claude Code 不能只给开发者一个对话框,而要给开发者一个能持续执行任务的工程系统。

崔添翼加入 DeepSeek 后受到关注,也和 Code Agent 的工程属性有关。

公开信息显示,崔添翼本科毕业于浙江大学计算机系,曾因信息学竞赛保送浙大,6 次获得 ACM 亚洲区域赛金牌,之后在 Jane Street 工作 9 年,并联合创立 TSY Capital。

Code Agent 的难点不只是生成代码,还要在真实项目里持续执行任务。量化交易系统长期强调低延迟、稳定性、自动化执行和风险控制,这些经验放到 Agent Harness 上,至少在工程范式上是相通的。

而 Agent 工具的产品能力,不只包括写代码,也包括权限、审计、数据隔离和安全策略。

这反过来给 DeepSeek 这样的国产模型提供了机会。如果 DeepSeek 能把低成本模型、Code Harness、本地部署、企业级权限控制结合起来,它在政企、金融、制造、能源等对数据敏感的行业里,会有更强的替代价值。

DeepSeek 做中国版 Claude Code 的逻辑也正在于此:低价 tokens 把更多开发者吸引进来。低缓存价格让 Agent 任务运行成本下降。Code Harness 让模型进入开发环境。真实工作流又会反过来帮助 DeepSeek 改进模型和产品。

就像滚下坡的雪球,越滚越大,滚得越快。降价只是推下山的第一把力,往后它会自己越滚越沉,谁也拦不住。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

安克重塑安克|安克消噪耳机体验

1000 元到 1500 元,是真无线耳机市场的一道分水岭。

TWS 卖到这个价位,用户已经不太能接受明显短板——降噪要强,音质要好,通话要清楚,连接和交互也不能拖后腿。更难的是,这个市场往往有两类强势玩家在把守着:传统声学品牌和手机终端大厂——前者有声学积累,后者有系统入口。

但安克不一样。

它没有手机系统入口,也没有传统声学品牌的天然光环。过去外界谈起安克,更多想到的是充电器、移动电源、海外渠道和爆款能力。

作为安克在影音领域的新尝试,安克消噪耳机试图回答一个问题:没有智能手机入口,也没有传统声学光环,安克凭什么卖一副千元级的旗舰耳机?

旗舰耳机,首先得是好耳机

安克消噪耳机定位旗舰,首先得是一副好耳机,具体来说,就是看三个方面:音质好不好,降噪强不强,通话清不清。

声音方面,安克消噪耳机没有追随当下许多 TWS 耳机那种「高解析、强通透」的调音路线。它的默认听感更厚实、饱满,整体略微偏暖,会让人想起早年播放器里常见的「流行」预设。

这种取向的好处,是声音不容易干涩。低频下潜和量感都比较足,鼓点落下时有一定弹性和鲜活感,整体氛围也会被稍稍铺厚。它不会把高频做得很亮,长时间听下来没有明显刺激感,人声的咬字、吐气和换气细节也比较顺滑,听感是舒服的。

不过,这套调音也有代价。

低频存在感偏强,开启杜比音效之后,氛围感会进一步放大,有时会显得有些抢戏。高频乐器不刺耳,但延展和空气感相对克制。

对于喜欢清爽、通透、线条分明声音的用户来说,安克消噪耳机的默认声音可能会稍显厚重。如果安克后续能在默认调声里收一点低频、提一点细节透明度,整体平衡感会更好。

另外,LDAC 开启后无法调整声音,也不能控制杜比音效,这一点有些尴尬。使用高规格编码听歌时,杜比音效未必是刚需,但开放 EQ 或声音模式调节,至少能让用户按自己的听音偏好微调输出,可能会更人性化。

降噪方面,安克消噪耳机达到了一线 TWS 降噪耳机的水平。

在车站、商场、人群和环境音混在一起的公共空间里,它能明显压下持续性的背景噪音。

在目前体验里,它的降噪已经接近 AirPods Pro、华为 FreeBuds Pro 这类第一梯队产品的感知水平。是否能在所有场景里稳定追平甚至反超,还需要更系统的测试,但至少它已经进入了旗舰耳机可以认真对比的范围。

真正让我意外的是通话。

我在火车站给朋友打电话。身边有广播、人流、行李箱滚轮声,还有持续不断的环境噪音。对方所在的房间外面正下雨,背景也不算安静。但整个通话过程中,对方反馈我这边的人声非常清楚,甚至比他对面的人讲话还容易听清。

安克消噪耳机的通话表现,是这副耳机里最该被认真看待的部分之一。

通话不像音质和降噪那么显性,却经常决定用户对一副耳机的真实评价。用户买耳机时,很少第一时间想到「通话降噪」。可一旦别人听不清你说话,第一反应就会变成:这耳机不行。

通话降噪也确实难做——风噪、人声、背景噪、突发噪音混在一起,耳机既要滤掉环境声音,又不能把人的声音切碎。过去真正把这件事做好的,多是华为这类有长期通信技术积累的厂商。

安克这次比较有价值的进步,恰恰发生在这个不那么显眼、但足够真实的地方。

2026 年的旗舰耳机,不能只是耳机

如果说过去两年的旗舰耳机,竞争焦点主要围绕降噪、音质、佩戴和空间音频,那么到了 2026 年,事情开始有了变化。

一副旗舰耳机,可能开始长出第二个身份,具体到安克消噪耳机上,就是耳机盒是一个小型的 AI 硬件。

它并不是一台完全依靠本地算力完成所有智能处理的设备,调用 AI 语音转录需要上传云端模型处理,结算方式主要是消耗积分。所以,更准确地说,这是一副旗舰耳机,但叠加了一个 AI 能力入口。

耳机便携且天然贴近有声音的场景。过去耳机接收的声音主要用于播放、降噪和通话,现在它们开始被用于转写、翻译和整理。

安克消噪耳机支持面对面翻译,也提供 AI 录音功能。耳机盒上那块屏幕,可以直接完成音量调节、降噪模式切换、预设自定义等操作,也能调用 AI 功能。

在软件层面,耳机和盒子是两个独立的蓝牙产品,需要分别连接。安克没有把这个盒子只当作一个带屏幕的电池仓,而是在给它一个接近轻终端的身份。

当然,AI 耳机这个概念还没有真正成熟。用户是否高频使用面对面翻译和 AI 录音,用耳机盒来交互是否会成为长期习惯,AI 能不能在更多日常场景里产生稳定价值,都还需要继续观察。

但当你花 1000 多元买一副耳机,除了能买到降噪、音质和通话;还获得了一个能录音、能翻译、能承担部分 AI 交互的小型硬件入口——似乎也是不错的附加值。

确实是个相当讨巧的设计。

安克想重塑安克

可以说,安克消噪耳机是个极致的产品,同时也是个复杂的产品。

它要有屏幕,要有双蓝牙连接,要兼顾降噪、音质和通话,还要集成 AI 录音、面对面翻译等功能。这样的产品不再只是把几个成熟模块组合起来,而是要求公司在芯片、算法、系统交互和硬件设计之间做更深的整合。

从一个耳机的角度去理解这款产品,可能很难窥其全貌。但如果从安克这家公司的角度去看,事情反而变得清晰起来——支撑这款产品的核心,是安克自研的 Thus™ 芯片。

安克把 Thus™ 称为神经网络存算一体 AI 音频芯片,它要解决的是一个小而复杂的问题:

在耳机这种极小型、低功耗却又要求实时反馈的设备里,怎样最高效地把复杂的 AI 模型跑起来?

过去大多数计算设备都遵循冯·诺依曼架构:数据存在内存里,计算发生在处理器里。AI 模型运行时,数据频繁搬运会带来能耗和延迟。

对耳机来说,这个问题更严苛。它没有大电池,没有宽松散热,也没有太多空间堆硬件,任何延迟、功耗和发热都会被放大。

存算一体的思路,是让计算尽量发生在数据所在的位置。少搬运数据,就能降低功耗,提高效率,也有机会把更复杂的神经网络模型放进更小的设备里。

在消费电子领域,这样的架构并不常见。安克把它放进一副耳机里,就是在释放一个信号:

安克这家公司,并不满足于做成熟方案的整合供应商,而是想把底层的核心技术,掌握在自己手里。

过去我们对安克的理解,通常是产品定义、工业设计、供应链、海外渠道和爆款能力。这些能力成就了安克过去的增长。但在今天,仅仅做出好产品已经不够了。

对于安克这个体量的硬件公司来说,它需要思考的问题已经不只是如何做出下一个爆款,而是如何从「做出好产品」进化到「掌握核心技术」。

这个变化也体现在业务和品牌结构上。

除了影音业务,安克目前的主营业务还包括储能、安防等方向。这些业务在海外市场都有更高客单价和增值空间,也更依赖品牌信任、技术稳定性和长期服务能力。它们都不是简单靠低价走量就能成立的出海业务。

与此同时,安克也在做品牌归拢。原本更偏独立子品牌表达的安克 soundcore,开始调整为「安克影音」。这意味着安克希望把分散在不同品类里的能力,重新收束到主品牌下。

安克消噪耳机是一块试金石。

它首先是一副旗舰耳机,必须先把降噪、音质和通话做好。它又不只是一副耳机,因为它把 AI 硬件、软件交互和自研芯片通通塞进了这个 1000 多块钱的小盒子里——这种极致和复杂,我想是挑战,但肯定也是机遇。

安克不想安于现状,做一个「只卖充电宝的品牌」。

安克正在重塑安克,而安克消噪耳机——还有嵌入其中的那块 Thus™ 芯片,就是一次试探。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Codex 这波大更新后,Mac 的含金量再次提升

「如果这条推文获得了一个赞,Codex 重置额度限制。」

已经数不清这是今年以来,第几次的限额重置了。奥特曼前两天在 X 发文,让 Codex 负责人 Tibo 再一次重置了使用限额。

网友做了一张梗图,每当一个人想走向 Anthropic 或 Gemini 时,奥特曼站在后面默默按下 Codex 限额重置的按钮,这个人就会回头,然后被拉回到 OpenAI。

OpenAI 这半年也因为出圈的 Codex 收获了一大批的新用户。外媒报道 OpenAI 第一季度营收达到了 57 亿美元,比 Anthropic 高出 10 亿美元,Codex 是主要因素。

▲ OpenAI 营收相关数据,季度营收达到 57 亿美元,年化收入 250 亿,第一季度调整后的营业利润率为 -122%,本季度周活跃用户平均约为 9.05 亿,在 2 月份的周活跃用户数曾达到约 9.2 亿,第一季度的付费用户数量为 5500 万,高于去年年底的约 4700 万。

我们在之前介绍过 Codex 的入门指南,从 ChatGPT 官网下载安装到连接手机上的 ChatGPT App 实现远程控制,都有详细的步骤。

不少读者在评论区留言,Codex 确实好用;也反馈了不少问题,像是下载 Codex 后仍需绑定手机号才能使用。我们的测试也发现登出之后再登录,确实会被要求绑定手机号。

这个时候,建议先在浏览器中进行登录,即主动打开网址 https://auth.openai.com/log-in 提前登录好。再回到 Codex 中登录,弹出的登录链接,只会显示要求授权即可,不会再有绑定手机号的提示。

不同的账号可能会遇到不同情况,大概也是眼下 OpenAI 在 Codex 这边投放了太多的算力,不希望被用户太轻易地薅走羊毛。

今天凌晨,Codex 又上新了一大波的新功能,现在只要按下电脑上的 Command-Command 键,就可将应用程序窗口附加到 Codex 的对话线程里。Codex 会自动获取窗口的屏幕截图和文本,包括屏幕上不可见的内容,作为对话的上下文。

以前还要自己手动截图,现在 Codex 不仅能处理截图,还能直接读到一整个应用窗口的信息。

此外,上次更新的在 ChatGPT App 内操作电脑上的 Codex 这一次也升级了,之前的选项是保持 Codex 常开,现在是即便电脑锁屏了, ChatGPT 同样能远程操作 Codex。

/goal 命令这次也从实验室版本来到了正式推出。之前我们分享多 Agents 协作时,就有读者提到 /goal 功能和多 Agents 类似,它们都是把一个任务当做一个项目来进行管理,有完整的目标生命周期,通过不同的机制来完成迭代。

/goal 最早是 4 月底出现在 Codex CLI 中,有了它确实也能更好的处理越来越多的长任务。

不过遗憾的是,无论是按 command 还是锁屏后继续远程控制,这些都是 macOS 平台的更新,对于 Windows 用户,只能等 OpenAI 的推进。

有网友说,「Mac 用户总是能享受到好东西,而 Windows 用户只能眼巴巴地看着,哈哈。」不得不说,Mac mini 作为 AI PC 的含金量还在增加。

省去很多麻烦的应用快照

这项功能叫 Appshots,开启它的方式也很简单,更新 Codex,在应用设置下,找到「应用快照」,就有一段视频教程,并且可以自定义快捷键。

不过需要注意的是,按下 command 键是指按下键盘上,空格键左右两边的两个 command 键,而不是单击两次。

在任何界面同时按下两个 command 键之后,Codex 会自动捕获页面截图,并快速打开 Codex 将截图放在输入框。我们可以针对这个窗口快照提出问题。

但基于 Codex 的能力,这个窗口快照不单是一张图片的 OCR 文本提取。Codex 可以再这个窗口的基础上,进一步使用 Computer Use 和 Chrome 自动化等功能。

▲ 图中只是在 Codex 的文章开头按下了 command,但是 Codex 不单是处理这张截图,而是会根据 Chrome 的能力,读取整个窗口。

例如,我们在飞书文档的文章开头同时按下了 command 键,然后告诉 Codex 要求它看看这个窗口讲了什么。Codex 会使用 Google Chrome 的工具,自动对网页进行浏览以获取更多的上下文。

这是它和一般截图最大的差别,除了把截图内容放进了上下文,Codex 还会自动把窗口的信息,来自哪个应用等状态信息,同步发送给 Codex。

▲ Codex 识别到了开头之后的文章内容

例如我们在微信里阅读公众号时,也能按下两个 command 键,开启 Appshots。但这里有一个小 Bug,当 Codex 使用 Computer Use 来控制微信的窗口,上下滑动公众号,退出图片的预览时,直接把微信给登出了。

▲暂不知道是微信识别到机器人操作的原因,还是 Codex 误操作,在退出图片预览时,直接退出了微信。建议用小号尝试 Computer Use 在微信中的应用。

官方在宣传视频里介绍 Appshots 时,同样不是简单地将它作为一张截图来使用,而是结合了 Computer Use 和 Google Chrome 来使用。

像是直接要求它修改我们的备忘录内容。

▲花了两分钟,帮我把备忘录的内容修改成了中英双语显示,直接在原备忘录上进行修改

还有也不用再复制什么图片,直接 command+command 然后告诉他生图提示词,对图片进行编辑。

▲ 在浏览器中打开了一张图片,告诉他生成涂鸦版本

就是这种应用多做了一步的感觉,我们就减少了很多 AI 的使用负担,让 Codex 的体验也变得更加丝滑。

/goal 的保姆级使用指南

在对话框内输入斜线,我们就能看到有「目标」的快捷选项,「设置 Codex 将持续努力实现的目标。」

目标存在的价值是作为一个独立存在的任务定义,而不是普通的对话提示词。Codex 会反复根据目标来判断「还该做什么」和「是否已经完成」,自动一轮接一轮的推进,直到任务完成、暂停或者烧到 Token 上限。

这两个判断也是目标的核心机制,即「延续」和「完成审计」。「延续」是在每轮结束后,自动注入提示,让模型决定下一步。「完成审计」是要求模型对照目标逐条核对。

Goal 模型最容易踩坑的地方,就是随手写一句话放进去。要写好一个 Goal,关键原则是 Codex 要能判断是否完成了。

官方在帮助文档也提到,好的目标应包含具体的结果、可衡量的指标或测试标准。他们给了一些案例,像是将项目从一种编程语言迁移到另一种编程语言。

把这个项目从 JavaScript 迁移到 TypeScript。

 

要求:以 strict 模式编译通过,不允许出现显式的 any 类型。

还有更直接的要求,「把首页的可交互时间压到 1 秒以内。」

这些例子都是有着具体的可验证标准,并不是「优化一下」、「完善一下」这种虚词。

 

▲ 图片来源 Goal 官方使用教程:https://developers.openai.com/cookbook/examples/codex/using_goals_in_codex

如果没有想到具体标准,Codex 建议是先跑 /plan。让 Codex 和我们讨论一轮,把验收标准定清楚,再切回普通模式下 /goal。

还有一些实用小建议是,可以在 goal 文本末尾加一句 Use a token budget of 80000 tokens for this goal,用来设置 Token 预算。

以及不要在一个会话的开头就发送 /goal,而应该是先给这个项目其他的需求,有一定的雏形,再给它目标。

锁屏了,Codex 还能操作你的电脑

除了这些大的更新,Codex Thursday 还带来了很多体验升级的功能。

Locked Computer Use 是最值得一提的一项,简单来说它就是能让 Codex 在 Mac 锁屏之后,仍然能在后台操控桌面应用完成任务。

网友对这项功能的评价,都集中在这是突破性的,这很有未来感的同时又很吓人。

如果 Codex 能够在没有活跃用户会话的情况下运行 Mac 应用,这或许是迈向持久 Agent 基础架构的第一步。

若要使用锁屏后继续操作的功能,必须由我们手动开启,并且输入密码。打开的方式同样是在设置里,找到电脑操控,开启锁屏操作。

正常的 Computer Use 需要屏幕处于解锁状态,Codex 才能「看到」并操作界面。这个功能打破了该限制,我们可以把 Mac 合上或锁屏,然后从手机、iPad 或另一台设备远程发起 Codex 任务,它会自动临时解锁、完成操作、然后重新锁上。

Codex 为此安装了一个 Apple Authorization Plug-in(苹果官方授权的认证插件),接入 macOS 的解锁流程。当有活跃的 Computer Use 任务时,插件允许 Codex 临时解锁屏幕;任务窗口之外,解锁权限直接拒绝。

OpenAI 也对这个功能做了几层约束,防止它变成其他危险操作的后门:

  • 解锁窗口极短,仅限当前 Computer Use 操作期间有效
  • 覆盖所有显示器,临时解锁期间屏幕内容对物理旁观者不可见
  • 检测到本地输入立即重锁——有人碰了键盘或鼠标,自动暂停,要求手动解锁
  • 这个路径只对 Codex 开放,其他应用或本地进程无法借道

另一项高级标注的功能,则是我们在使用 Codex Vibe Coding 某个网页时,通过 Codex 内置的浏览器打开,同时还提供了直接在网页内容上进行修改的标注工具。

除了 Codex 这一系列的更新,今天 ChatGPT 也上新了一项新功能,ChatGPT 现在可以直接在 PowerPoint 中创建和编辑演示文稿,并且还能使用 GPT Image 2 生成用于 PPT 里面的图片。

Codex 越来越好用的同时,钱包燃烧的速度也在加快。

我们的 Pro 账号,每周使用限额要到 27 号重置,但是今天(22 号)就只剩下 10% 了。只能在心里默默「作法」,祈祷它再一次重置。

如果这篇文章获得了一个赞,你的 Codex 有可能重置额度限制🐶

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Krea AI iOS – 免费使用 Seedance 2.0 视频模型

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

在 AI 视频模型领域,字节 (ByteDance) 的 Seedance 2.0 模型能力备受瞩目。即便与 Google 旗舰级 Omni 模型相比,其在角色一致性与物理逻辑的表现上仍具显著优势。

Krea AI 的 Seedance 2.0 列为付费模型,但 iOS 移动端应用 当前出现了权限 Bug?当前可以无需消耗订阅额度,直接调用包括 Seedance 2.0 在内的多个高级模型。

本操作目前仅限 iOS 平台,且不排除官方在未来修复(Hotfix)此权限。

在实际测试中,Seedance 2.0 的生成速度与质量表现如下:

为验证 Seedance 2.0 的多动捕物理特性与光影渲染,可参考以下复杂的镜头提示词:

体验完腾讯发布的 Marvis 助手,我发现个人 AI 的尽头是操作系统

1995 年,微软内部搞过一次颇具乌托邦色彩的尝试。

他们觉得当时的 Windows 系统操作太复杂,于是想把电脑桌面直接做成一个普通人看得懂的「房间」。你想打字就点桌上的笔记本,想看时间就点墙上的挂钟,不用思考那些反直觉的操作路径。

这个产品叫 Microsoft Bob,结果上市没多久就光速下架了。原因五花八门,但究其根本,它并没有真正渗透进系统底层,只要用户的需求稍微复杂一点,就只能无能为力了。

三十年后,很多 AI 助手依然没有完全走出这个困境。

最近我体验到了腾讯新的 AI 助手 Marvis 马维斯 ,终于看到了一些不同。

相比于别人都在卷谁是 AI chatbot,Marvis 想干的是直接把整台电脑变成你可以随意使唤的搭档。官方给它的定位也正儿八经,叫「操作系统层级的个人 AI 助手」(官网:marvis.qq.com)。

不过,当我知道它背后是那个做了 14 年应用宝的团队时,就不觉得意外了:这种长期在 PC 和移动端底层生态里打拼的出身,恰恰意味着它不仅懂 AI,更懂设备和系统。

目前,Marvis 已率先覆盖 Windows PC 与 Android 手机端,iOS 和 macOS 版本也在推进中。APPSO 也在评论区准备了一些福利邀请码,手慢无。

六个 Agent,一支随时待命的私人 AI 团队

安装过程不算复杂,但对设备有点要求。Windows 端最低门槛是 8 核 CPU、16GB 内存加上固态硬盘。而且据官方透露,未来还会逐步兼容 6 核。

市面上很多 Agent 产品动辄让用户自己去搭工作流、安插件,Marvis 则是开箱即用,六个 Agent 零配置上手,对普通用户非常友好。刚进界面,里面已经有六个 Agent 在 7×24 小时待命了。

六个 Agent 都有自己的工位。没接到任务的时候,有的在打盹,有的在办公室里闲逛,有的在健身,有的在喝咖啡,还有的直接去上厕所,一旦你发出指令,任务就会拆解分配给对应的成员。

这是一个分工明确的团队:PM 负责听懂你的需求,拆解任务往下派活;File Agent 处理文件的搜索、阅读和格式转换;Computer Agent 专门对付系统配置、查硬件、调夜间模式;APP Agent 负责在各种软件里代为操作,比如查个机票或者电商比价;Search Agent 负责快速从公开资源中定位答案并给出关键引用;最后是个 Browser Agent,定位是网页交互专家,进行网页交互与数据抓取。

任务链比较长的时候,看看这些动画也是别有一番趣味。

最有意思的是,这些 Agent 可以并行工作。举例而言,我先抛出一个需求:「电脑开机太慢了,帮我看看哪些自启动程序没用,帮我关掉。」

注意看,工作日志里还会显示 Token 消耗量,每天的免费额度是 2000 万 Token,堪堪够用。

结果显示,它给每个程序配了「人话版」说明,建议你哪些是可以按需、保留的第三方软件。重点是,涉及这种核心配置修改的操作,它会主动和你确认一下,才会执行。这种「AI 不会自作主张」的机制,稳得让人心安。

电脑用久了,总会碰到几个反复折磨人的小问题。「查看电池健康状况」「网速感觉变慢了,帮我测一下现在的上传下载和延迟。」「想玩个新游戏,帮我检测一下硬件配置,对比最低要求看看差在哪。」

以前遇到这些事,要么去开始菜单里找设置,要么去网上搜教程。现在,说一句话就行了。

Marvis 深度对接了系统信息和配置入口。它能看到硬件参数,也能直接修改系统设置。它不是帮你打开「控制面板」然后让你自己找,而是直接把事情办了。对于那些不熟悉电脑设置的人来说,这块的体验是最直观的。

举个例子:你想关掉 Windows 锁屏上的广告,你知道它在设置里叫什么吗?叫「关闭 Windows 聚焦」,有多少用户知道这个术语是关广告的?

但 Marvis 能帮你一句话关掉。

本地文件时代,迎来 AI 入口

为了测它的能力,我还翻出了一件困扰已久的事:两个月前从某个群里下载的一张截图,只记得内容是关于《黑神话:悟空》,文件名完全忘了。

我输入:「帮我找一下关于《黑神话:悟空》的图片或截图,大概是一个月前的事儿。」

说实话我没抱太大希望。

但 Marvis 接单后,首先根据 Skill 指引,按文件名关键词和时间范围筛选出 1000 张照片,然后用 Python 快速筛选整个结果文件,并最终找到 8 张候选图。

第一张正是我要找的那张。

而且它的搜索范围极其宽泛:文件名、文档内容、图片里的景、截图里的字,全覆盖。哪怕描述模糊,它也都能捞出来。这个能力,比 Windows 自带的搜索确实强出了一大截。

当然,一听到「扫描图片」,可能会有人担心隐私。首次使用时你可以自己设定扫描范围。如果在生成的图谱里看到不想被索引的内容,右键一键屏蔽即可。而且端侧模型本身自带基础过滤,不是无差别的扫描。

除了找文件,Marvis 还能对本地的文档、表格等多种类型文件做深度理解和分析——支持内容优化、图表生成、文案润色、格式转换,帮原本费时费力的事情变得顺手。

比方说,下载了一批学术论文,摞在那里不知道从哪里读起。直接问 Marvis:「扫一遍这几篇 PDF,告诉我每篇的研究问题、方法和主要结论。」几分钟内,哪几篇值得细读、哪几篇可以先放着,心里就有数了,不用一篇一篇翻摘要。

再比如读完《三体》,笔记记了好几页,马上要在课上分享,手动整理提纲、挑内容、套 PPT 模板,少说也要折腾一两个小时。

但让 Marvis 根据读书笔记,生成一份 PPT,它能读懂笔记里的逻辑和层次,不需要手动复制粘贴再套模板,理解内容之后直接生成。

手机接管电脑,随时随地都能干活

手机遥控操作电脑,则是非常实用的跨端体验。去官网下了 Windows 客户端,再给手机安上 Marvis App,用同一个微信或 QQ 登录,还能直接连通两端。

具体来说,手机 App 连上电脑后,可以在手机上实时看到电脑桌面,并用触屏直接操控。哪怕电脑处于锁屏状态,手机依然可以接管,不需要电脑一直保持解锁状态。

比如我人在外面,突然听到朋友说前阵子新出了一款《洛克王国:世界》游戏,这时我就可以掏出手机输入:帮我在电脑上安装《洛克王国:世界》,回到家就能玩上了。

连接微信 ClawBot,也是没问题的,微信扫码登录后就能开启对话。

但我认为最实用的场景,是给家里长辈远程排查电脑问题。爸妈说「QQ 打不开了」,以前要么电话里盲猜,要么回家处理。现在直接接管他们的桌面,扫一眼就知道问题出在哪。前提是你的手机端 Marvis 马维斯,要能连接爸妈家里的电脑端马维斯,手机端是支持连接多个 PC 设备的。

而如果电脑断网了,手机端会自动切到云 Marvis 模式,支持独立调用云端能力,大部分任务依然能跑。并且这里还有一个独家绝活:在电脑上直接操控手机里的 App。同花顺、飞常准等应用已经在对接合作,这也得益于应用宝团队多年的跨端引擎积累。现在应用宝在移动端、pc 端、车载上都有支持,跨端研发经验充足。

和其他桌面 Agent 一样,Marvis 也支持自定义自动任务。

比如设置一个「深圳厚德品园二手房均价提醒」,填好任务说明——「查询最新二手房均价并通知用户」,再指定执行时间为每周一上午 10 点,之后什么都不用管,到点自动运行任务,并直接推送结果。

另一个值得单独说的功能,是技能(Skill)的自定义扩展。Marvis 支持一键安装专属技能包,提供了不少第三方 Skill,当然,你也可以导入自己常用的 Skill 文件,把它改造成更贴合个人工作流的样子。

有特定行业需求的用户,比如内容创作,理财投资、学术研究等等,不用依赖官方迭代,自己就能把对应的知识库和操作逻辑装进去。

最后,主打出活的 Agent 都绕不开最关键的问题:安全。

Marvis 马维斯提供了两种模式:效率模式和隐私模式。

设置里切到「隐私模式」,Marvis 会加载本地端侧模型,无论是文档还是图片的检索、解析、识别等,全部在本地运行,文件不会出你的电脑,甚至断网了都可以使用。官方所说的「数据不出域」,在拔掉网线的那一刻,有了最真实的体现。

不过,体验「隐私模式」的门槛比较高,要求 16 核以上的处理器、32GB 内存、16GB 显存起步,固态还得匀出 35GB 空闲。

所以平时日常使用切回「效率模式」即可,理解和规划由云端大模型(混元和 DeepSeek V4)完成,执行在本地,速度更快。两种模式按需切换。

让 PC 真正开始「理解」人

我们现在用电脑的方式,本质上还是上世纪八十年代的逻辑:一个需求对应一个软件,你要去找它、打开它、学习它的规则来完成任务。四十年来,软件更多,设置更复杂了,但这套逻辑并未改变,普通用户和电脑之间的距离,也没有真正缩短。

Marvis 的逻辑反过来了:先理解这台电脑里有什么,再决定为你做什么。

拿我爷爷来说,他用了几年电脑,至今不知道「控制面板」在哪。但他知道电脑开机慢,知道想找一张老照片。过去,这个解法是打电话求助子女;现在,就算他不会打字,也可以直接在微信 Clawbot 或者手机马维斯上,把需求说出来,电脑就会帮他做。

文件搜索、系统设置、跨端控制、自动任务、隐私模式、Skill 扩展,看上去是几个不同功能,背后指向的其实是同一个方向:个人 AI 不应该只是一个问答入口,而应该成为设备里的任务调度层。

多说一句,我觉得 Marvis 是有审美的。虚拟办公室动画、任务进度呈现等细节,让它不像冷冰冰的 AI 工具,更像一个有秩序、有分工、也有生活气的小型工作室。

它尤其适合几类人:文件多且乱的本地重度用户;重视数据隔离的财务、法律、医疗从业者;喜欢自定义工作流的效率玩家。和需要靠「养」才能用好的「虾」和「马」,Marvis 初始内置 Agent 和自然语言指令,也足够覆盖多数日常电脑操作,对于很多 AI 焦虑不知道怎么用的人,Marvis 都更加的平权、无门槛、开箱即用。

未来的个人 AI 会像搜索、截图一样,自然地成为操作系统的一部分。三十年前,Microsoft Bob 试图让用户更容易理解电脑;三十年后,Marvis 试图让电脑反过来,真正理解用户。

Marvis 马维斯能走到这一步,和这个有十四年应用商店生态积累和四年跨端跨系统技术积累有关。庞大的用户基数让他们更懂用户在不同设备上需要什么、怎么使用。这种积累很难被纯 AI 公司在短期内平替——他们可以快速训练一个更聪明的模型,却没法快速建立起对 PC 底层和移动生态的控制力。

至此,一个能用自然语言驱动的系统级 AI 助手,在中文生态里终于有了真正可用的样本。

所谓个人 AI 重点从来不只是 AI,更是个人。Marvis 终于让我们看到,当技术选择与每一个具体的需求并肩同行时,它所释放出的力量,既润物无声,又重塑天地。

这是个人 AI 真正开始变得有用的时刻。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

为折叠 iPhone 和苹果 AI 做足准备|苹果 WWDC 提前剧透

今日凌晨,苹果正式发布了今年 WWDC 全球开发者大会的邀请函。

WWDC 26 将于北京时间 6 月 9 至 13 日举行。

今年的 WWDC,除了会正式公布「27」系列系统之外,开发侧重点仍将集中在 Apple Intelligence 后续进展、体验优化等等。

自然,其中也少不了一些苹果针对 AI 时代的软件生态的提前布局。

图|MacRumors

爱范儿今年同样将前往 WWDC 现场,为大家带来 WWDC 系列活动的专题报道,届时请锁定爱范儿主站、微信公众号、小红书和微博上的系列内容。

iOS 27:玻璃、专业相机和 AI Siri

对于 iOS,我们首先需要明确的是:

液态玻璃(Liquid Glass)设计在 iOS 27 中不会退场,它就在那里,稳稳地接住你。

就像刚更新的 iOS 26.5,苹果对于液态玻璃效果的微调也将持续到 iOS 27 里,直到大家习惯或者接受它的视觉风格。

除了继续优化液态玻璃的视觉效果,iOS 27 也被很多媒体和开发者预测为是一次「雪豹」式的更新——

比起新功能,删除陈旧代码、优化性能表现、调整视觉效果和改善整体流畅度将成为这一代 iOS 的主要更新方向。

在支持范围方面,iOS 27「据称」将会支持到 iPhone 12 系列和 iPhone SE 3 为止。

换言之,iPhone 11 系列及更早的机型将无法更新 iOS 27。

而在继续优化液态玻璃的同时,iOS 27 还有可能会在一些小细节的层面,为我们「管中窥豹」一下今年 9 月份即将到来的折叠屏 iPhone。

图|MacRumors

当然,苹果肯定不会在 WWDC 上直接展示有关大屏和横屏布局的优化措施。

但在后续的开发者课堂中,大概率会出现有关自适应 app 布局、不同长宽比 UI 设计规范之类的相关内容。

几乎可以肯定的是,今年 WWDC 上,苹果会在涉及到 iOS 的内容和课程里添加一些有关侧边栏和分屏(或者 Stage Manager)相关的内容,为横屏布局做出铺垫

另外,本次 WWDC 上我们还可能会见到苹果开放一些更加深层的相机 API,或者一些全新的相机玩法。

这些本质上都是为 iPhone 18 Pro 上可能到来的相机「专业模式」做好准备。

根据计划,苹果会让 iOS 27 的相机 app 更具自定义性,用户可以调整相机界的功能开关布局,比如闪光灯、EV、模拟光圈、照片风格和长宽比等等。

图|Shima Zamil

最后不得不提的还有 AI Siri ——

根据彭博社的预测,iOS 27 将会是 Apple Intelligence 官宣两年之后的「汇总落地」。

iOS 27 版本的 Siri 中,苹果预计会拓展跨 app 信息提取、屏幕内容识别、模拟连续操作、app 深层功能集成等等多方面的 AI 能力,努力追赶甚至看齐 Gemini 在 Pixel 上的功能范围。

图|Google

更有甚者,传说中的「对话式」Siri 也有希望在今年 WWDC 上亮相,或者至少看到一些相关的底层功能。

相比以前那个问一句答一句的智能助手,Siri 将会获得类似 ChatGPT 那样的「人味」对话功能。

并且在 Siri 对话中也支持多模态内容,甚至可能会取代原本的「聚焦搜索」功能:

聚焦搜索(左)和 Siri 搜索(右)

至于那些 iOS 26 里面已经存在的 AI 功能,比如图乐园、Genmoji、写作工具之类的,它们在 iOS 27 中也主要将迎来性能优化,并且在新的 Siri app 里面获得单独的入口。

macOS 27:圆角、触屏和 Intel

对于那些熬夜观看 WWDC 的 Mac 用户来说,看苹果整活王 Craig Federighi 怎样宣布今年的 macOS 系统名称,始终是不可或缺的一环。

图|MacRumors

继去年 Tahoe(太浩湖)之后,苹果的商标注册列表上还剩下很多加利福尼亚州的特色。你觉得 macOS 27 的系统代号会是什么?

和 iOS 27 一样,今年 macOS 27 的重点同样是继续打磨液态玻璃优化系统性能,以及落地更多的 AI 功能

不过就像爱范儿之前提到的:

macOS 26 的 UI 问题不止于液态玻璃,不统一的圆角、过于密集的小图标,以及辨识度过低的系统 app 图标,联手造成了 macOS 26 的可读性问题。

图|Reddit

除了赶紧优化系统 UI 之外,macOS 27 的另一大潜在看点则是它对于触屏功能的支持。

彭博社苹果专家马克·古尔曼去年和今年都曾密集爆料过,苹果正在计划开发一款采用触控 OLED 屏幕的 MacBook Pro,上市时间可能在 2027 年内。

图|9To5Mac

macOS 27 虽然不会在 WWDC 上就大张旗鼓地宣传「新增触控支持」,但大概率会按照苹果的风格,做出一些为触控功能铺路的举措——

比如新增多种尺寸的 UI 控件规范、优化 macOS 支持的缩放比例范围、新增一些看上去不太适合鼠标键盘的图标动画等等。

AI 方面,macOS 27、iOS 27 和 iPadOS 27 预计都将迎来一次「相册」更新,照片编辑器里的 AI 工具不再只有橡皮擦,大家习惯的 AI 扩图、自动优化、重构图甚至 3D 照片等等都有望加入。

图|AppleInsider

至于 AI Siri 本身的功能,比如「对话式」沟通、屏幕内容识别、系统级自动化功能等等,macOS 27 能够得到的更新和 iOS 27 差不多。

这也是 iPhone、iPad 和 Mac 处理器同源带来的优势之一。

坏消息是:macOS 27 极有可能会排除所有使用 Intel 处理器的 Mac 产品,仅支持 Apple Silicon 型号的 Mac。

这就意味着 2019 款 16 寸 MacBook Pro、2023 款至强处理器 Mac Pro 等等顶级产品都将无缘 macOS 27,为苹果的英特尔时代画上第二个句号。

图|MacWorld

另有开发者指出,苹果也在逐步停止 Rosetta 2(x86 到 ARM 转译)的更新。

macOS 27 预计将是最后一个完整支持 Rosetta 2 的版本,敦促第三方开发者及时更新 ARM 架构的 app。

稳扎稳打的 27 年

总的来说,和谷歌努力推荐的「Android 全形态化」不同,苹果今年 WWDC 的路线依然是以稳健为主。

iOS、iPadOS 和 macOS 各自的领域划分很明确,虽然产品形态更新,但系统短期内不会出现类似谷歌 Aluminum OS 那样的融合现象。

图|Geeky Gadgets

对于「液态玻璃」来说,在缝缝补补一年多之后,苹果的确需要静下心来,先处理一些由于玻璃 UI 和 AI Siri 烂尾导致的系统基础体验问题了。

至少对于一些旧设备来说,优化后的 iOS 27 很可能会比 iOS 26 更值得更新。

附 WWDC 26 日程表,感兴趣的读者可以通过苹果开发者官网(https://developer.apple.com/cn)注册并参与在线课程:

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

马斯克花 100 亿想清楚一件事,不做 coding agent 就是等死

1.

OpenAI 的两大宿敌 Anthropic 和马斯克,放下心中成见之后终于在月初结盟了。

在此之前,Anthropic 和马斯克的关系并不融洽:今年 2 月,马斯克还在自己的 X 账号指责 A 社「woke」「邪恶」「反人类」(misanthropic),说这家公司「仇视文明」。

事后来看,这次攻击并非马斯克清新脱俗的性格使然,而是 Anthropic 所做的某些事情触碰到他的神经,事出有因。

在此之前,xAI 内部使用 Cursor 工作,但是今年年初员工发现,Claude 模型突然在 xAI 的 Cursor 公司账号里不能使用了。

当时还在 xAI 上班的联合创始人吴宇怀,在全员信里是这么说的:「Anthropic 更新了政策,要求 Cursor 不得向其主要竞争对手提供 Claude 模型调用能力。」

当时,吴宇怀在信中写了一句话,颇为有趣:

「这是坏消息也是好消息。我们的生产力会被影响,但这也敦促我们开发自己的编码产品和模型。」

为什么当时 xAI 的高层认为,开发自己的编码产品是关键?

后来发生的事情,大家都知道了。xAI 的联创团队悉数跑路,马斯克一气之下对 Cursor 使用了钞能力必杀:

上个月底,SpaceX 和 Cursor 共同宣布,将在编程和知识类工作 AI 模型的训练上,展开前所未有的战略合作;并且,SpaceX 还获得了以 600 亿美元收购 Cursor 的权利,或向后者支付 100 亿美元合作费用。

注意编程这个关键定语,后面还会 call back.

2.

最近,我看了一条 Cursor 早期投资人、Anthropic 大喷子、T3 创始人 Theo Browne 的视频。

本来点进去是看他喷 A 社和 SpaceX 怎么蝇营狗苟,结果没想到,却看到了关于 SpaceX + Cursor 合作的,一个既另类却又极度合理的分析:

不说 600 亿的收购,就只说 100 亿的合作费——Theo 在视频里表示,自己认为「哪怕只是交换到 Cursor 的用户数据,这 100 亿也值回票价了。」

所以是什么数据?如果你也去看 Theo 这条视频,他会讲得非常清楚。但为了节约时间,我们在这里简单概括一下:

我们和 AI 的对话是一来一回的,你提出问题/需求,他给你解答;coding agent 同理,只不过返回的是代码。

一次高质量的对话,整个过程,包括用户提示、模型思考、agent 规划、输出代码、验证——所有这些东西合起来,可以称为一个完整的 Agentic Loop——就成为了高价值的训练数据,再喂给模型去进行强化学习,就能进一步提高模型在实战场景下的表现水准。

Cursor 有的,SpaceX 想要的,就是这些数据。

可这些数据从哪里来呢?

答案很简单:作为模型厂商,这种高质量数据的最直接来源,只能是你自己开发的 coding agent 产品——也即 Anthropic 的 Claude Code、OpenAI 的 Codex、Kimi 的 Kimi Code。

现在你应该明白了,为什么被 Anthropic「封号」之后,吴宇怀会在全员信里提出开发 xAI 自己的 coding 产品和模型这件事了。这件事 xAI 在当时已经看清楚了:

没有自己的编码产品,就没有高质量的强化学习数据;没有高质量的数据,就训练不出真正实战能力强的 coding 模型。

虽然有点暴论,但现在我们可以点题了:模型厂商想做出来真正能打的编程模型,做自己的 coding agent 产品是唯一的路径。

3.

大语言模型像个水晶球,用全网的语料训练出来,似乎能够解答万物,但并不代表它在所有问题上都能给出高质量的答案。

用 GitHub 上数以亿计的代码条目训练,当然也能训练出 coding 模型。这是「学习结果」的逻辑,也是没问题的。毕竟编码任务的结果是可以验证的:代码能不能运行,测试能否通过,结果摆在那里。

但是,通往结果的过程,是一个涉及多步骤决策、错误纠正、意图对齐的复杂链条。每一次用户的接受、拒绝、补全、撤销、追问、甚至当模型好几次都搞不定或者完全搞错时的辱骂——都是这一链条上的过程信号。

强化学习有两种监督方式,一种叫做结果监督,只看最后是否跑通。但是结果监督会催生「奖励黑客」的现象:模型为了能跑通可能写出冗余、脆弱、带逻辑漏洞的代码,但因为测试过了,模型以为自己学对了。

而另一种叫做过程监督,对推理路径上的每一步进行打分。上述这些过程信号,只有在 coding agent 运行环境里才能诞生。GitHub 仓库里只有结果,哪怕是去看单独的提交历史,看 PR,都找不到有效的过程信号。

在缺乏有效、自主可获得的过程信号的时候,一些模型厂商会采用「蒸馏」的方式,这个事情大家应该已经知道了。

蒸馏的逻辑很简单,给同样的输入,老师模型输出什么,学生模型就学着输出什么。但是通过蒸馏,即便可以获取到思维链,得到的仍然更接近于结果,而非被蒸馏的老师模型内部的概率分布。

一旦学生在推理中偏离了老师的轨迹,哪怕一个 token 不符合,都有可能发生偏离。

这背后是强化学习的基础限制:策略梯度定理要求,优化样本最好由当前正在优化的模型自己去产生。这种数据叫做 on-policy 数据。而通过蒸馏别家模型,在别人的产品里产生的数据,来训练自己模型,都属于 off-policy 数据。模型当然可以从中学到东西,但学不到老师模型内部的概率分布信息。

而像 Cursor 这样自己就是 coding agent 产品的公司,掌握着最真实、有效、高质量的训练数据。Cursor 产品本身,就是 coding 模型在实战环境中的最佳训练场。

我们可以通过 Cursor 年初的「翻车」,来证明这个逻辑。

4.

APPSO 读者应该记得,年初 Cursor 发布了 Composer 2,号称「下一代专用编程模型」,技术报道写的相对保守,也没有提供具体的模型底座信息。

结果很快,网友就在公开代码片段里发现了 Kimi 的模型 ID,截图传遍了开发者社群,逼得 Cursor 副总裁 Lee Robinson 出面澄清:「Composer 2 确实是从开源底座出发的。最终模型大约只有 1/4 的算力来自底座,剩下 3/4 是我们自己训出来的。」

几小时后,Cursor 联创 Aman Sanger 也跟着发了一条道歉:「一开始没提 Kimi 底座是个失误。」

五天后,Cursor 放出了完整的 Composer 2 技术报告,显示底座的确是 Kimi K2.5,授权方则是 Firworks AI,大致流程是在 K2.5 上做训练,再继续做大规模强化学习(RL)。

但关键之处在于,Composer 2 的 RL 是运行在真实的 Cursor 会话当中,使用与生产部署完全相同的工具和 harness。

Cursor 将这套流程叫做「实时强化学习」(real-time RL),也即将模型的 checkpoint 直接部署到 Cursor 生产环境中,观察用户的响应,收集数据,聚合成奖励信号——最快可以每 5 个小时迭代一次模型版本,然后继续部署到 Cursor 里,循环往复。

最极致的案例是 Cursor 的自动化代码补全功能 Tab,每天处理超过 4 亿次请求,每当用户输入字符、移动光标时,模型都会预测下一步动作,如果预测置信度高,则显示建议,用户按下 tab 即接受自动补全。

该功能采用的是在线强化学习,在行业内极具特色。Cursor 可以以极高的频率(最快可达每一个半小时到两小时)更新 Tab 的模型能力给用户,直接在产品内收集 on-policy 数据进行训练。

这种高频、接近实时的反馈回路,让 Tab 可以学习到极其微妙的用户意图。Cursor 方面透露,这种方法让 Tab 建议的拒绝率降低 21%,接受率提高了 28%。

回到 Composer 模型本身。在事情搞清楚了之后,一些 Kimi 员工也删掉了之前吐槽的的推文,Kimi 官方账号发表了祝贺。

一家估值 600 亿美元(基于马斯克给的数字),不做自己的模型基座的 coding agent 应用层公司,仍然可以通过产品自身的数据飞轮,RL 出超越基座模型的专有编程模型。

所以与其说 Cursor 翻了车,不如说这反而是 coding agent 产品重要性的绝佳例证。

Cursor 在另一篇关于实时 RL 的文章里写到:「(训练编程模型)最大的困难在于建模用户。Composer 的生产环境里不只有执行命令的计算机,还有监督和指导它的人。模拟计算机容易,模拟使用它的人却很难。」

这句话,现正在逐渐成为了在编程模型方面走在前沿的模型厂商之间的共识。如果你去看 benchmark 榜单和用户普遍评价,会发现哪些头部的厂商都在发力做自己的 coding agent/编程产品。区别只在于谁离用户更近。

我们以 SWE-bench、LLM-Stats 等相对权威的榜单为例,Claude、GPT、Gemini、Kimi 等模型基本霸榜前十,清一色都是有自己开发 coding agent 产品(包括 CLI、IDE、集成 coding agent 的桌面客户端)的模型厂商。

在部分榜单上会出现少数反例,如 Meta (Muse Spark)、DeepSeek 等,没有开发自己的 coding agent。

不过你会发现,这些反例模型,在更加接近真实场景、避免污染的更权威 benchmark 上就很难上榜了。以 DeepSeek 为例,它在 SWE-bench bash only 上分数是 70%,排名第九,在 SWE-bench Pro 上分数却掉到了 15% 左右。

OpenRouter 的真实流量数据可以解释这种反差:该平台 2025 年报告显示,Claude token 消费 80% 以上用于编程和技术任务,而 DeepSeek token 消费主要集中于闲聊和角色扮演。

没有自家 coding 产品的厂商,在一些 coding 任务 benchmark 上能挤进头部,但在更难的真实工程 benchmark 上,在用户用 token 消费投票的真实流量中,都会原形毕露。

不仅是 Cursor,Anthropic 在 2025 年 11 月发的一篇论文里,也明确透露自己在做一模一样的事情:「我们在 Anthropic 自家的真实生产编程环境上做训练。」也即 Anthropic 把自己员工使用 Claude Code 的交互数据,反哺给 Claude 模型用来训练。

5.

在 AI 的演进历程中,生产要素的定义发生了深刻的位移。传统三大核心要素——算力、研究、训练数据,虽然在总量上持续增长,但在结构上已经出现了严重的失衡。

今天的各大 AI 巨头显著提高了在算力上的资本支出 (CapEx),让算力基建成为了当前舆论的主旋律。但实际上,特别是在编程范畴内,随着 GitHub 仓库、StackOverflow 等互联网公开代码数据被基模厂商「竭泽而渔」式地利用,模型在代码生成与逻辑推理上的边界开始逐渐显现。

这也是为什么,行业共识正在逐渐转向一个冉冉升起的新战略高地:

对于任何希望掌握顶级代码能力的模型厂商而言,建立自有的 coding agent 产品早已不再是可选的商业路线,而是确保底层模型可以持续进化的核心生命线。

正如前面 APPSO 论证的那样,单纯学习公开数据等于只学习成功者的结局,却无法了解成功的路径,这绝对不是正确的成功学应该有的样子。在真实的编程环境中,知道发生了什么错误、怎样发生的、如何正确地理解和高效地实践需求等等——了解正确过程的价值,远超于得到正确结果本身。

只有拥有自己的编码产品,模型厂商才能获取高质量的「过程监督」信号,从而在编码/推理能力的下一阶段竞争中,确保自己仍有技术护城河——

否则就不得不像 SpaceXAI 那样,花钱去跟 coding agent 产品公司去合作。

然而并不是所有模型厂商都跟马斯克一样有钱,以及 2026 年开始的巨头势力划分、结盟与领地的争斗会变得更加激烈,当一家缺乏自主 coding 产品的模型厂商终于回过味来的时候,恐怕已经没有足够的合作伙伴可以挑选,合作的价格也将水涨船高。

美国模型巨头的情况大家普遍比较熟悉了,在此不赘述。APPSO 也注意到,国内的主流模型厂商和 AI 巨头当中,绝大部分都已经在 coding agent 产品上有所布局。

国内巨头公司主要以原生 AI IDE 或 IDE 插件的思路在做:字节跳动去年很早就布局了 TRAE、阿里巴巴的 Qoder、腾讯的 CodeBuddy、百度的文心快码 Comate 等。

AI 小龙公司中,月之暗面是最早开发独立 coding agent 产品的公司,主要以 CLI 界面的 Kimi Code 为主——不过 Kimi 此前有透露过,在原生编程产品这件事上,CLI 不会是终局

另一种实现思路是模型厂商自行提供 API 服务、Coding Plan。这样,不论用户使用何种 AI 开发环境,模型厂商都可以通过服务器端的 API 记录来获取最大程度接近于原生 coding 产品的过程数据。

但这也只是接近,并非完全相同。核心在于,服务器端 API 的请求-响应日志,与深度继承的产品交互轨迹相比仍有很大差距。

自建产品的厂商(例如 Cursor、Claude 桌面端、Codex)拥有最直接的显式反馈信号,而 API 侧是相对模糊的隐式推断。简单来说,API 侧能看到用户请求和响应,但用户最后是否采纳了这段代码、代码能否跑通、引发了什么样的 bug,API 侧对此是一无所知的。他们无法了解到用户最终行为这一关键的标签,从而无法实现最高质量的强化学习。

形而上来讲,语言即世界,代码即方案。代码可以表达这个世界上绝大多数的任务,代码也会成为头部的放大器,让最顶尖的人才放大数倍的生产力。

只有最顶尖的 coding 模型才配得上最顶尖的人才。如果领先的模型厂商不重视 coding,势必将会掉出第一梯队。

当然,事实上每家模型厂商都不会不重视 coding——而是说,在新的范式下,哪些没有自主可控的原生 coding agent 产品,极有可能逐渐落后于有产品的厂商。

就在前几天,MiniMax 也发布了桌面客户端产品的重大更新:带有全新多 agent 编排架构的 Mavis 功能,并且也让客户端显著改善了对 coding 任务的支持。

此前 MiniMax 只是推出了桌面端,但没有加入原生 coding 和 agent 功能。

紧接着,在 5 月 15 日,阿里巴巴正式发布了 Qoder 1.0——这个产品从 IDE 的形态正式升级为一个完整的 Agent 产品(阿里的官方叫法是智能体自主开发工作台)。

与此同时,xAI 的 Grok Build CLI,也终于正式推出了。

没错,就是 xAI 年初被 Anthropic 和 Cursor 封号之后,他们自己捣鼓出来的那个 coding agent.

这不,又多了好几个现成的案例。

看来,大家都认为 Cursor、Codex 和 Claude 桌面端走在正确的道路上。

6.

把话题从 coding 扩展到 agent 本身,情况也是一样的。

编码任务的轨迹数据,在公开语料中确实还是能找到一些的(比如 GitHub 的提交记录/PR,尽管质量并不高)。但是 agent 任务的轨迹数据,包括并不限于移动和点击鼠标、操控触屏、填写输入框等,却无法在公开语料中找到。

所以我们会看到,即使在 agent 操作的最小实现路径——浏览器插件上,这么个看起来一点都不高端的东西,几乎每家模型厂商都会做自己的。

OpenAI 早在 2025 年 1 月就做了 Operator——与其说它是一个「AI 自动操作浏览器」的产品,不如说本质上就是一个大规模的数据收集装置。每一位试用 Operator 的用户,都在免费为 OpenAI 提供 on-policy 数据。

后续 OpenAI 还衍生出 ChatGPT Agent 以及新版 Codex 桌面端;Anthropic 也是同理;最近 Kimi 不声不响地也做了一个叫做 WebBridge 的项目,其实就是一个浏览器插件。

即便是在过去两年里动作最克制的中国模型巨头深度求索,也在最近开始展露出对 Agent 的兴趣。

CEO 梁文锋此前接受采访时曾经提到这样的观点:数学和代码是 AGI 天然的试验场,有点像围棋,是一个封闭的、可验证的系统,有可能通过自我学习就能实现很高的智能。

这句话的潜台词,是 DeepSeek 一直把 coding、Agent 当研究试验场,而非商业化方向。

但是在今年 3 月,DeepSeek 一次性放出了十几个 Agent 相关岗位,包括首次出现的模型策略产品经理(Agent 方向)等。当时的 JD 职责涵盖「主导 Agent 评测体系以及训练数据方案的设计」,要求中包括「深度使用 Claude Code、Manus」等产品。

APPSO 注意到,近期深度求索发布了 Agent 产品经理、Harness 产品经理等职位招聘信息——很显然,DeepSeek 要做独立、原生的 Coding/Agent 产品了。

此前资料显示,DeepSeek V3.2 的训练过程中引入了近两千个合成的 Agent 训练环境和八万多条复杂指令。但是看起来,靠合成的训练数据只能带 DeepSeek 走到这里了,剩下的是合成不出来的部分:真实用户在真实环境里的真实成功和失败,必须靠自家的 agent 产品才能拿到。

DeepSeek 以一种极度克制的方式做了三年模型以及模型产品(直到上个月才终于在官网加入了多模态能力)。但是在今天来看,在编码类任务上,DeepSeek 拿 SOTA 越来越难了,即便此前拿到也会在不久后被超越。

当主力依靠研究的路径支撑不住飞轮的时候,DeepSeek 终于行动了。

7.

最后,我们回到开篇的故事。

根据 The Information 援引知情人士报道,在接受马斯克 600 亿收购/100 亿美元合作的同时,Cursor 表示不会与 xAI 合作开发新的模型,而是仍将聚焦于优化自己的 Composer 模型。

这可能意味着,即便被马斯克买通甚至收购,Cursor 仍然要保留自己数据飞轮的主体性。

数据归属的本身,是最关键的隐藏博弈点。

当所有顶级模型厂商都做了自己的产品,所有顶级产品也都开始训练自己的模型,「模型公司」和「产品公司」之间本就不太清楚的界限,似乎越来越不存在了……

这场博弈也才刚刚开始。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

2026 年,手机终于会自己拍照了|AI 器物志

直到 2026 年五月,我们终于等到一整轮的影像旗舰登场完毕——

小米做出了徕卡一瞬、vivo 打造了照片与视频兼具的 V 单、OPPO 在双长焦方案上带来了惊喜。

在这轮旗舰更新潮的最后,华为提前将新一轮的 Pura 90 Pro Max 端上了桌。

老实说,第一眼看硬件,心里是有落差的。去年 Pura 80 Ultra 上颇为惊艳的「一镜双目」结构不见了,取而代之的,是目前行业内最稳妥也最常见的大底长焦方案。

不过,在细细体验后,我认为 Pura 90 Pro Max 藏了一个比纯拼硬件更有意思的新解法——XMAGE 智拍。

全自动,都省心

过去这几年,我系统性地梳理过华米 OV 的影像架构。虽然各家在硬件选择上各有理解,但大方向出奇一致,都在极其有限的机身空间里死磕传感器面积,比拼谁的光圈更大、进光量更多。

在硬件上奋发图强理所应当。但在摄影中,不错的硬件基础仅仅是第一步。

想要拍出一张好照片,构图与后期同样重要——

构图保证一张照片在视觉上是否平衡、主体是否明确;而后期则决定了这张照片视觉质感和风格化。

但这两者,向来都是具备门槛的手艺。

而华为在 Pura 90 Pro Max 上,打算一口气解决这两个问题。

熟悉他们产品线的朋友或许有印象,去年发布的 Pura 80 Ultra 上,华为试水了 AI 辅助构图。

AI 辅助构图功能相对基础,在实际拍摄中主要起一个引导和提醒的作用。到了 Pura 90 Pro Max,这项技术完成了从「辅助」到「主导」的蜕变,并定名为「XMAGE 智拍」。

剥开表层去探究 XMAGE 智拍的底层逻辑,是一套完全由端侧算力驱动的本地化影像流水线,将拍摄过程拆解为三个同时进行的模块——基于实时语义分割的自动构图、无视物理镜头限制的智能变焦,以及针对画面的色彩重塑。

也就是说,在这个功能的加持下,Pura 90 Pro Max 可以自动识别主体、变焦构图,最后还排列出一系列适合当前场景的 XMAGE 风格供你选择。

值得一提的是,XMAGE 智拍不需要网络连接,也无需将庞大的图像数据传回云端,全部基于端侧 AI 运转,实时识别画面里的主体轮廓、建筑线条以及光源分布状况,随后根据底层训练好的审美模型,给出一套包含最优构图、变焦和精细色彩方案的组合拳。

繁复的专业参数在这里黑盒化,过去需要人脑去判断的构图和调色工作,全权交给了本地算法。

除此之外,Pura 90 Pro Max 还顺势推出了 AI 姿势推荐,这个功能同样通过语义分割识别,可以理解画面中的了恩物、环境、姿势与背景,随后直接在取景框中勾勒出一个等比例的线框轮廓。

拿手机的人只需按图索骥,引导模特贴合画面上的姿势即可。遇到不满意的动作能随时刷新,它甚至支持导入社交网络上保存的样片,一键提取动作精髓。

听起来确实很厉害,但这套完全依赖端侧计算跑出来的流水线,究竟能不能应对现实世界里复杂多变的光线,还需要把它带到真正的街头去寻找答案。

AI 有所能,也有所不能

来到一家咖啡馆,墙上的多层光环灯饰引起了我的注意。

举起手机,XMAGE 智拍自动变焦到 2×,将墙壁上的光环作为画面主体。这个选择可以说中规中矩,光环圆形处于画面中下方,整体构图稳定和谐。

同时,操作台上颇具金属质感的咖啡机也是个不错的主体,XMAGE 智拍精准识别到我的拍摄意图,变焦到 192mm,保持咖啡机的中置。

由于我想保留更为还原的室内光线与色彩,这张照片并没有套用 XMAGE 智拍推荐给我的任何色彩风格。

用它拍了几组照片后,我认为 XMAGE 智拍是一个非常用户视角的功能——

在传统的拍摄习惯里,手机焦段是一件需要精打细算的事。大脑会本能地去贴合物理镜头的原生焦段,生怕落在中间焦段会损失画质。

但 XMAGE 智拍完全抛弃了执念。它不在乎用的是几倍变焦,转而完全为画面考量:当前这个画面,怎么裁切才最好看。哪怕不可避免地要损失一部分边缘像素,只要能让视觉中心突出、比例和谐,它就会果断动手。

这种做法很实在,一切都在为了最终的出片服务。

走出室外回望咖啡馆,绿植与橙色外墙交相呼应,XMAGE 智拍自动截取出色彩冲击力最强的部分,同时准确识别出咖啡馆建筑主体,两种大色块在画幅中占比相似,平衡而美观。

再抬头,夏季树木繁茂,XMAGE 轻微放大焦段,让树枝形成天然的框架构图,广州塔正悬于画面正中间。

在这组照片的拍摄中,我还察觉到了一个很有意思的技术细节。按下快门时,你会发现滤镜加载的速度,远大于构图改变的速度。

这是因为滤镜往往只需识别画面后套用底层的色彩映射,而构图则需要端侧算力去实时识别画面里的建筑线条、光源分布和人物轮廓。计算量完全不在一个量级。

更有意思的是,智拍套用滤镜的方式非常精细,除了 XMAGE 风格选择外,还会对调色盘做精细调整,确保风格对当前环境的适配度。

当然,这套系统也有自己的脾气。在实际走街串巷时,XMAGE 智拍有时候会自动跳出来接管画面,有时候又毫无动静,需要你手动去点击唤醒。

就算是手动唤醒的情况下,XMAGE 智拍也有几率出现风格已经选好,但当前画面无法找到最佳构图的情况。这种情况频繁出现在极其繁杂的环境中,由于元素过于混乱、信息量爆炸,算法的确很难从中剥离出合适的构图。

当然,换个角度想想,也许此时的 1× 视角,就是当前环境的最佳构图了。

万物皆可 AI,现在轮到摄影了

185 年前,达盖尔发明银版摄影法,留住时间成为一种特权;2011 年,胶片巨头柯达传出破产消息,智能手机开始野蛮生长,把镜头塞进了普通人的口袋。

回顾整部影像史,其实就是一部打破特权、技术走向大众的普惠史。

到了今天,移动影像的狂飙突进,撞上了一堵无形的墙。

手机镜头模组越做越大,与之对应的,是最近行业里一个颇具深意的传闻:受制于高昂成本与物理极限,下一代影像旗舰的「超大杯」,大多要面临停更了。

这条路为什么走不通了?因为影像旗舰突飞猛进的背后,藏着一个被刻意回避的死结。

决定照片质量的,永远是镜头后面的脑袋。普通人有懂美的眼睛,却跨不过光圈快门和构图比例的门槛。把一台堆满顶级硬件的手机,递给一个毫无基础的人,他按下的快门,大概率得到一张平平无奇的随手拍。

顶级硬件如果只服务于一小撮懂摄影的人,无疑就会变成一种伪命题。

在同行集体踩下刹车的时间点,华为提前把 Pura 90 Pro Max 端上了桌,而 XMAGE 智拍,就是破局的方法。

在此之前,行业里已有不少 AI 落地,比如 vivo 让四季流转,OPPO 消除反光。只不过,它们大多是按下快门后的后期创意和修补。

XMAGE 智拍往前跨了一大步,让算法成为整个拍摄动作的主导。

这种做法谈不上是什么艺术层面的颠覆,但确实管用。降低门槛,让完全没有摄影基础的人,也能相对轻松地把一台旗舰机用出该有的样子。

好的技术绝不该是一座孤岛。曾经的智能手机让人们拥有了「随时拍」的自由,现在的 AI 则进一步赋予了大众「拍得好」的能力。

这或许是打破当前僵局的一剂良药,也是影像超大杯物尽其用的方法。

让我有个美满旅程

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

笑死,莫奈真迹被全网痛批是 AI「废画」

如果你想在今天的互联网上毁掉一幅世界名画,最快的方法不是物理消灭它,而是只需要给它贴上一个标签:「这是 AI 画的」。

最近,X 用户 @SHL0MS 进行了一场充满恶趣味的社会实验。他上传了一幅法国印象派大师克劳德·莫奈的《睡莲》真迹,特意打上平台的「Made with AI」标签,并配上了一段文案:

「我刚刚用 AI 生成了一张莫奈风格的图像。请尽可能详细地描述一下,这幅画作为何不如莫奈的真迹?」

▲ 原推文🔗 https://x.com/SHL0MS/status/2054280631807316329

面对博主的「钓鱼执法」,互联网上的 艺术卫道士们瞬间闻风而动。在博主刻意强调的详细二字诱导下,评论区迅速被各种长篇大论的专业分析淹没。

比起既搞笑,又令人十分感慨的大型翻车现场,这场闹剧也向我们揭示了一个残酷的真相:在 AI 时代,真正开始产生严重幻觉的,不光只有 AI,还有人类自己。

把真莫奈画作伪装成 AI 画作后,全网的艺术专家都翻车了

截至发稿前,网友原推文更引来了 400 万网友的在线围观,并开始在各大社交平台流传开来。

这幅画本身并没有什么可疑之处。画面里是莫奈标志性的睡莲池,水面漾着零碎的光斑,笔触的边缘晕染成深深浅浅的绿,整幅画笼着一层柔和的雾气感。如果你在卢浮宫的展厅里迎面撞上它,大概率只会感叹一句「莫奈果然是莫奈」,然后掏出手机拍照。

可现在,它顶着「Made with AI」的标签挂在那里。

果不其然,网友们丝毫没有辜负博主的期待。为了证明自己拥有超越 AI 的艺术审美,评论区瞬间涌现出无数个野生列文虎克。大家拿着显微镜,开始对这幅「AI 垃圾」进行各种细节解剖:有人信誓旦旦地指出构图的硬伤:「这一切都是一团糟,毫无空间感而言」;

有人目光如炬地抓住了色彩的破绽:「颜色是颠倒的,绿色的水面上显示的是蓝色的睡莲」;有人痛批细节的粗糙:「缺乏质感、棱角、褶皱、缝隙、折痕、斜面和立体感,这些都是塑料艺术品的典型特征。」;

有人辣评:「画面的景深和色彩选择毫无协调性,树的倒影和睡莲混杂在一起,完全不顾空间深度和对比度,背景中睡莲和藻类的混合部分模糊不清,就像大多数 AI 作品一样。」

有人给出了看似最一针见血的评价:「你能从骨子里感觉到这幅画缺乏真正的激情,毫无灵魂的赛博废料。」还有顶级「嘉豪」洋洋洒洒写了数百字的长文分析。

看着这些言辞恳切、逻辑自洽的批判,你几乎要为人类对艺术的敏锐感知力拍案叫绝,直到真相被公布,这幅被全网群嘲的画作,正是印象派宗师克劳德·莫奈(Claude Monet)亲手绘制的传世名作。

而稍微懂点艺术史的人应该都知道,莫奈在 1912 年确诊了严重的双眼白内障。随着视力急剧衰退,他眼中的世界失去了冷色调,变得模糊而斑驳。

他晚年创作了 250 幅 《睡莲》系列油画,原本就是以极其抽象、狂放甚至「不精准」的笔触,来记录他眼中那个正在消融的光影世界。

如果当时有人拿着「笔触不精准」、「缺乏激情」这套标准评判他,莫奈大概也只能苦笑。

标签即正义,AI 时代也有「廉价红酒实验」

为什么网友会把莫奈的真迹当成 AI 痛批?

在 Reddit 的 Singularity 版块上,这起事件引发了数千条的激烈讨论。有网友一针见血地指出了背后的心理学机制:这不过是又一次经典的认知偏差(Cognitive Bias)实验。

这就不得不提到 2001 年法国波尔多大学发生的一场著名心理学实验。

当时,研究员 Frédéric Brochet 邀请了 54 位资深的葡萄酒品鉴专家。他将一瓶廉价的白葡萄酒,用无味的食用色素染成了红色,然后请专家们品鉴。

2001年在法国波尔多大学进行了一项有趣的实验。 心理学博士兼平时亲自酿造葡萄酒的教授弗雷德里克•布罗舍给54名葡萄酒专家两杯葡萄酒,让他们比较一下味道。

结果令人大跌眼镜:这些平日里对风味挑剔至极的专家们,端起酒杯,煞有介事地写下了「浓郁的浆果香气」、「坚果般的余味」、「单宁厚重」——全都是红酒才有的特征,没有一个人发现这其实是白葡萄酒。

如果你告诉他们这是廉价酒,他们就会喝出酸涩;如果你告诉他们这是顶级名庄,他们就能品出岁月的沉淀。

今天,「AI 生成」这四个字,就是那张贴在廉价酒瓶上的标签。

当这幅画被贴上 AI 的标签时,人们的潜意识里就已经预设了它廉价、机械、没有灵魂。所以,他们并不是在用眼睛看画,而是在用大脑里的偏见去「寻找」那些预设的缺点。

网友所谓的「我能从骨子里感觉到它没有灵魂」,不过是一种被包装在理性主义框架下的玄学废话。正如一位 Reddit 网友的犀利吐槽:「如果有人告诉你这是 AI,它就毫无灵魂;如果告诉你这是人类画的,它就充满了激情。艺术的真实质量,在讨论中已经变得无关紧要了。」

我们不得不承认一个尴尬的事实:绝大多数人——包括那些在网上口若悬河的赛博判官——根本就不具备分辨顶级艺术与 AI 杰作的能力。如果在 AI 出现之前你看不懂莫奈,那么在 AI 出现之后,你也依然看不懂。

一场针对 AI 的大型猎巫

莫奈事件绝不是孤例,它折射出的是当下互联网一种极其危险且病态的趋势:「反 AI 猎巫行动」。

在生成式 AI 狂飙突进的今天,每天都有大量真实的人类艺术家在绝望地自证清白。他们的画作仅仅因为太过写实、光影太完美,或者相反的手指画得有点粗糙、比例有一点失调,就会被愤怒的网友打上 AI 的烙印,群起而攻之。

互联网上最著名的惨案,莫过于 2022 年底的 Ben Moran 事件。

这位人类数字艺术家在拥有 2200 万用户在 Reddit 论坛上发布了一幅名为《战区缪斯》(A Muse in Warzone)的插画。结果,版主以「这是 AI 生成的图片」为由,直接将他永久封禁。

当 Ben Moran 委屈地交出自己的线稿、图层和长达数十小时的绘画过程录屏,试图自证清白时,版主却给出了一个傲慢至极的回复:「我不相信你。就算这真的是你画的,它的风格也太像 AI 了,它毫无价值。你最好换一种画风。」

看,这就是我们当下的荒诞现实。真正的人类艺术家既不能画得太完美(那是 AI 的代劳),也不能犯低级错误(那是 AI 的幻觉),甚至连画风都不能撞车。

甚至这种偏见不仅存在于大众之中,也正在蔓延到专业领域。

美国奇幻小说巨匠 Brandon Sanderson(布兰登·桑德森)曾进行过一个盲测实验。研究人员将他亲手写的段落,与 AI 模仿他的文风生成的段落放在一起,让一群专业作家和同行去分辨。

结果,连这些靠文字吃饭的作家,都无法准确分辨出哪个是 AI 写的。

更有趣的是,在一些未贴标签的文学实验中,顶级的文学评论家在盲测时,反而更偏爱 AI 生成的文学作品,认为其更具张力;可一旦

给这些作品贴上「AI 生成」的标签,同样的评论家就会立刻换上一副面孔,开始挑剔其中缺乏人类情感的共鸣。
而莫奈真迹被当成 AI 赛博废料,看似只是一场互联网狂欢,但它背后隐藏的社会危机却让人无法一笑而过。

正如一个网友所说: 「我最害怕的不是 AI 变得多强大,而是它正在摧毁社会的信任基础。在一个没有人相信任何事物的社会里,我们将寸步难行。」

最可怕的未来,或许不是 AI 觉醒并消灭人类,而是社会信任的彻底破产。当人们发现自己的感官不再可靠,当「眼见为实」成为历史,我们就会彻底退回到情绪和立场的舒适区。

只要是我不喜欢的、不符合我认知的,我就可以名正言顺地指责它是「AI 伪造的」;只要是符合我心意的,哪怕是粗劣的 AI 生成,我也会赞美它的「真实」。

我们看似在拒绝 AI ,却又在不知不觉中,把自己活成了最容易被算法预测和操控的机器。人类也开始越来越像自己想象中的 AI:输入标签,输出预设结论,中间那段真正思考的过程,已经被省略掉了。

面对未知,人类的幻觉和普信,比 AI 有过之而无不及。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

杀死 ChatGPT 聊天框的,是「鼠标」

1968 年的旧金山,计算机科学家道格拉斯·恩格尔巴特在一场后来被称为「演示之母(The Mother of All Demos)」的发布会上,拿出一个带着两个金属轮子的木制小盒子,向世界介绍了一个新物种:鼠标。

那是人类第一次公开用手上的鼠标,去牵引屏幕里的数字光标。此后的几十年里,这根小箭头几乎无处不在。它穿过办公软件、游戏界面、浏览器窗口和无数张电子表格,成为人类进入数字世界时最熟悉、也最沉默的向导。

然而在这半个多世纪里,计算机的算力、形态和应用场景几乎改头换面,鼠标光标的本质几乎没有变过:它知道自己停在屏幕上的哪个坐标,知道 X 和 Y,却不知道你指向的是一行代码、一张发票,还是一张风景照。

面对眼前不断闪烁的像素,它能做的事情依旧相当朴素:点击,拖拽,等待下一次点击。

今天,Google 要用 Gemini 重新发明鼠标光标。

在刚刚落幕的 Android Show 上,Google 几乎把围绕 Android、AI 与硬件生态的规划摊在了台面上。其中,一项名为「魔法指针(Magic Pointer)」的新功能,给古老的鼠标光标装上了「眼睛」和「大脑」。

Google 的意图不言而喻,未来的 AI 交互不该依赖冗长的提示词,只需像在现实生活中一样,指着屏幕说一句:「把这个,移到那里。」那么问题来了,当鼠标光标终于学会「看懂」屏幕,它究竟会把人机交互带向哪里?

这根睁开眼睛的 AI 箭头,到底能干嘛?

要理解这项技术的意义,必须先看清当下 AI 工具最别扭的一面:交互成本。

过去几年,大语言模型的能力一路狂飙,但使用门槛居高不下。为了让 AI 准确理解意图,用户被迫学习一套复杂的「提示词工程」:设定角色、补充背景、限定输出格式。为了一个简单的需求,写出几百字小作文更是家常便饭。

不仅如此,典型的 AI 工具通常运行在独立的网页或应用窗口中,频繁打断用户的工作流。比如当你在阅读一份 50 页的 PDF 时想让 AI 总结一张图表,通常需要经历:截图 -> 保存 -> 打开浏览器 -> 进入 AI 网页 -> 上传图片 -> 输入提示词。

Google 将这种繁琐的跨应用操作称为「AI 绕路(AI detours)」。这种跳转不仅效率低下,也容易打断人们工作时的注意力集中状态,即所谓的「心流」。

为此,Google 提出的第一个交互原则,就是「保持心流」。在他们展示的实验性 AI 光标原型中,AI 的能力不再局限于某个特定的 App 或网页,而是附着在鼠标光标上,随时待命。

触发方式也尽量克制:无需记忆任何快捷键,只需轻轻「晃一下」鼠标,AI 界面便会基于当前悬停的内容自动浮现,给出极具语境的操作建议。选中图,它会询问是否「对比」;悬停于段落之上,它会主动提供润色方案。

整个过程没有任何需要学习的指令,完全跟着直觉走。来看几个极其直观的场景:

第一,看图说话的终极形态。

当你在浏览一张卡通的城市风景照时,传统鼠标只能点击图片放大。但现在,你只需把 AI 光标悬停在照片背景里的一栋建筑上,然后对着麦克风说一句:「给我移动图片的元素到这。」

不需要解释「这儿」是谁,也不需要描述建筑外观。AI 光标会直接理解你所指向的像素,识别出对应元素,并成功移动。

过去,鼠标只能告诉系统「我点了哪里」;现在,它开始告诉系统「我指的是什么」。

第二,少写提示词,多用自然指代。

当你在网页上看到一份极其复杂的烘焙菜谱,你不需要复制粘贴,也不需要写「请将以下菜谱里的所有食材分量乘以二」这种书面语。你只需要用光标高亮那段文字,然后随口说一句:「把『这些』的分量翻倍。」

唰的一下,AI 直接在原地给你改写了一份新菜谱。

第三,将像素转化为可交互实体。

在计算机眼里,屏幕只是几百万个发光的像素点。但 AI 光标能将死板的像素(Pixels)转化为活的实体(Entities)。

比如,你正在看一段旅行 Vlog,视频里闪过一家看起来很棒的餐厅。你按下暂停,把光标指过去,原本死气沉沉的视频画面瞬间变成了一个真实的、可交互的地点,旁边直接弹出了这家餐厅的订座链接。

再比如,你随手拍了一张写满鬼画符的便利贴,鼠标一指,墨迹直接变成了一个可以打勾的 To-Do List。发现了吗? 以前,是你去找 AI;现在,是 AI 顺着你的鼠标,乖乖来到了你的指尖。

杀死 AI 提示词,回归人类直觉

仔细想想,人类最强大的沟通工具其实是代词。

当你和同事坐在屏幕前修改设计稿时,你绝对不会字正腔圆地说:「请将屏幕左上角坐标 (X:120, Y:350) 处的蓝色矩形向右移动 50 个像素。」你只会指着屏幕说:

「把这个,往右挪一点,弄淡一点。」

「那个餐厅看起来不错,怎么去?」

「这段代码里的这个报错是什么意思?」

在日常生活中,我们极度依赖「这个」和「那个」。手势配合着极简的口语,才是人类最高效的沟通密码。究其原因,我们身处同一个物理空间,共享着同一套视觉上下文。

Google 敏锐地抓住了这一点,并将其提炼成了一条产品原则:拥抱「这」与「那」的力量(Embrace the power of This and That)。

与其强迫人类去学习复杂的提示词框架,不如反其道而行之,把表达意图的脏活累活从我们身上剥离出去,让机器去适应人类最慵懒、最本能的「指手画脚」。

好消息是,这套交互方式已经开始落地。Chrome 浏览器里的 Gemini 从今天起率先支持;Google 全新推出的笔记本电脑产品线 Googlebook,则将「Magic Pointer」直接内置进了操作系统层面,覆盖所有应用。

Googlebook 的野心不止于鼠标。Google 将这个产品线定义为「Android 手机的完美伴侣」。

类似苹果的 iPhone 镜像,用户可将 Android 应用无缝投射到 Googlebook 桌面,以原生比例运行,并在文件管理器中跨设备自由穿梭,彻底打破手机、平板与笔记本的生态壁垒。此外,Gemini 还能依你所需,在桌面生成专属动态 Widget(比如旅客的实时航班卡片)。

在硬件设计上,所有 Googlebook 机型都会在机身上集成一条「Glowbar」发光条,让你一眼就能分辨出它与传统 Chromebook 或 Windows 笔记本的区别。

首批 Googlebook 将由宏碁(Acer)、华硕(Asus)、戴尔(Dell)、惠普(HP)和联想(Lenovo)制造,预计今年秋天上市。

有意思的是,三星缺席了这份名单。近期的消息显示,三星可能正在筹备一款搭载 Google 新系统的 Galaxy 笔记本,其下一场 Unpacked 发布会据传定在 7 月 22 日。

至于底层的驱动核心,Google 虽未指名道姓,但通篇强化的「为智能而生的现代操作系统」以及 Android 与 ChromeOS 的深度融合,种种迹象均指向了传闻已久的 「Aluminum」系统。

这意味着,AI 开始成了操作系统级别的基础设施。而当 AI 真正化身为你的鼠标光标,它便拥有了介入万物的权限——所见即所得,所指即所控。

AI 人机交互,迎来十字路口

回望 1968 年,那个惊艳世界的初代鼠标,功能简单得令人发指:追踪位置。 这五十多年来,鼠标加了滚轮、加了侧键、甚至加了风扇和配重块,但它的灵魂依然是一张白纸:它准确地标记着坐标,却永远无法理解坐标背后的意义。

Google 的 AI 光标完成了交互史上罕见的进化:它不仅知道你在哪,更知道那是什么。

过去一年,无数拿了融资的创业公司挤破头,试图造出下一个「AI 时代超级入口」。大家疯狂地卷对话框的拟真度、卷 Agent 的复杂工作流。但 Google 这次用行动给全行业结结实实地上了一课:

最好的科技是什么?是润物细无声。聊天框(Chatbox)从来都不是 AI 的最终形态,它只是一种过渡期的妥协。最好的 AI,应该退居幕后,成为一种附着在你日常动作上的基础设施,而不仅仅是某个需要单独打开的应用。

从黑底白字的命令行(CLI),到图形界面的鼠标点击(GUI),再到移动时代的触屏滑动(NUI)。过去几年,大语言模型让我们短暂地倒退回了打字交流的时代,让无数人患上了 Prompt 焦虑症。

但今天过后,我们知道了,那不过是黎明前的一段弯路。真正好用的 AI,终究要学会像人类一样思考:看懂你的每一个眼神,听懂你的每一句「把这个,放到那儿去」。

58 年前,当道格拉斯·恩格尔巴特握住那个简陋的木制鼠标时,他的终极梦想是「增强人类的智慧」。

58 年后,当 AI 附身于这个古老的指针,机器终于开始真正「看懂」这个世界。属于提示词工程师的时代终将落幕,人机交互的终极闭环,也将在一句句含糊不清的「这个、那个」中,向前迈出历史性的一大步。

附体验地址:
https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&showAssistant=true&fullscreenApplet=true

https://aistudio.google.com/apps/bundled/ai-pointer-find?showPreview=true&showAssistant=true&fullscreenApplet=true

作者:莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

OpenConnect(AnyConnect)使用教程

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

这是企业级安全专用网 OpenConnect(ocserv) 方案,当前已配备 AI 支持线路,超高可用性。额外提供了日本和台湾两个家庭 IP 出口,所有付费用户均可免费切换和使用。

这里使用主流连接客户端 OpenConnect AnyConnect (Cisco Secure Client) 进行连接。

https://mp.dun.im/get

部分 iOS 代理客户端也已及时跟进支持:

安装客户端后运行,复制连接信息,并在客户端粘贴地址。

点击 Connect 连接,选择 Accurate information 以便之后线路及时更新。

最后输入订单中的凭据信息即可连接。

App Store 下载后,在设置中关闭 Block Untrusted Servers,以便之后线路随时更新。

主界面进入 Connections 添加连接信息

最后返回,打开上方连接开关,输入订单中的凭据信息即可连接。

谷歌发布安卓 AI 系统,这就是苹果想象中的自己

和去年一样,在正式的 Google I/O 开发者大会之前,谷歌为 Android 单独开了一次小型发布会。

本次 Android Show 上,谷歌几乎是一股脑将未来一年有关 Android 和整个 AI 产品生态的「宏愿」抖了出来。

除了作为基底的 Android 17 之外,我们这次还迎来了一些意料之外的平台更新和几款硬件产品的发布。

重点在于:虽然产品不多、距离 Android 17 广泛推送还有一段时间,但我们已经足以看到谷歌未来五年甚至十年,对于人工智能生态的计划了。

更要命的是,今晚的谷歌,刚好是苹果梦想里进入 AI 时代之后的自己。

操作系统到智能系统

活动刚开场,谷歌就宣布了一项意义重大的举措:

Android 将不再是一个单纯的操作系统(Operating System),而是一个智能系统(Intelligence System)。

图|Google

换句话说,曾经以「用户手动操作」为绝对主流的软硬件使用方式,在谷歌看来已经是上一个时代的符号了。

从今天起,Android 作为一个智能功能的集群,会更加主动地介入到用户操作流程的更前端,想你所想、做你所做。

图|Google

这也是为什么在本次活动上,Android 17 这个具体的系统版本出现的次数屈指可数,Gemini Intelligence 却成为了系统的代名词。

首先,Gemini Intelligence 作为谷歌 Gemini 在手机硬件上的最新形态,极大强化了它多模态、跨环境、高度整合的运行模式。

比如作为系统输入的第一入口,默认键盘 Gboard 就得到了一次功能强化。

基于 Gemini Intelligence 的多模态能力,原本在键盘功能中存在感不高的「自动填入」功能极大地拓展了它的信息来源:

图|Google

除了手动保存的各种密码之外,Gboard 还将会支持自动填入图库里面的证照信息、聊天提到的地址信息、邮件撰写的日程信息等等。

更直白地说:Gemini Intelligence 已经远超「帮忙记住密码」的水平,而是真正像个助理一样帮你记住和建议各种来源、各种类型的信息。

另一种有效利用这些多模态信息的方式,则是 Android 的桌面小组件(widget)。

在 Android 17 中,Gemini Intelligence 将会支持一项名为「Create my widget」的功能,但不是第一时间上线、而是目标今年晚些时候。

图|Google

这个新功能主要做的,就是用类似 vibe coding 的模式,根据你的指令在桌面上创建新的小组件,打破了小组件只能是 app 预置的那些。

举例来说,相比功能单一的记录卡路里的 app,我可以和 Gemini 说:做一个每周工作日向我推荐两次高蛋白餐的小组件。

图|Google

这样一来,桌面小组件就真正变成了一项复合任务的入口,本质上和人 vibe coding 一个 app 的性质是完全相同的。

此外,喜欢语音输入的用户也有福了——新版 Gboard 将会支持类似 Typeless 的高智能化语音输入功能,名字叫做 Rambler。

相比以前要亲口说「逗号…句号…」,Rambler 可以将一整段充满了「嗯嗯啊啊」的口述转译、清洗、整理成一段整洁的文字:

图|Google

另一方面,Gemini Intelligence 的自动执行功能也得到了进一步加强。

去年的 Google I/O 和发布会上,谷歌演示过给 Gemini 下命令,让它自动帮你点外卖、叫车、订票之类的操作,正式上线之后反响不错。

而在 Android 17 中,Gemini 升级成 Gemini Intelligence,这种「代操作」也支持多步骤任务了。

比如以前只支持简单的「帮我订一张票」,你现在可以在 Gemini 对话框里直接拍下旅游宣传册,和 Gemini 说「在携程上帮我找一个类似的双人团行程」:

图|Google

重点不在于 Gemini 能够执行什么任务,而是它拥有了更强大的「多做一步」的能力,有时候就是多的这一步,让 AI 从「能用」变成了「有用」。

当然 Android 17 的更新也不是 Gemini 的独角戏,谷歌同样对很多「Android 核心体验」进行了优化。

在 Android 17 中,谷歌和 Meta 达成了合作,在 Facebook、Instagram 等等 app 里支持了调用原生相机功能,比如 Ultra HDR、超级防抖、夜景视频等等。

而谷歌使用了好多年的平面风格 emoji 也迎来了一次更新——从原本的纯 2D 变成了 2.5D,在风格上更接近 iOS 使用的 emoji 了:

图|Google

而我们此前介绍过的 QuickShare 兼容 AirDrop 的功能,也将在 Android 17 上支持更多厂商的设备。

除了三星和 Pixel 之外,(国际版)OPPO、Vivo、一加和荣耀的较新机型也将在今年下半年陆续更新兼容 AirDrop 的固件:

图|Google

谷歌的 AI PC

在 Gemini Intelligence 之外,谷歌也没有忘记给这些更复杂、更强大的 AI 功能打造一套量身定制的硬件。

这个新硬件的形态,既不是吊坠,也不是耳机,更不是手表手环——而是曾经的 Chromebook。

没错,在 AI 时代,谷歌又双叒给自己的笔记本改名了。

从 Pixelbook,到 Chromebook,再到最新的 Googlebook:

图|Google

和 Chromebook 一样,Googlebook 并不是某一款具体的笔记本电脑,而是同样和第三方厂商合作、只要符合标准的都可以叫这个名字。

而 Googlebook,就是「第一款为 Gemini Intelligence 量身打造」的硬件产品。

除了上面的全新 Gemini Intelligence 功能之外,Googlebook 在日常使用最频繁的基础人机交互层面,做出了堪称革命性的创新——

在 Googlebook 上呼出 Gemini 功能,既不需要说话、也不需要按键、更不是右键菜单,只需要「摇一摇光标」就行。

图|Google

基于 Gemini Intelligence 的多模态能力,推荐的 AI 指令甚至可以根据光标下面的内容、选中的内容、屏幕上可以进行的操作等等因素自动调整。

在如今电脑端 AI 功能越来越密集、笔记本键盘空间不够充裕的情况下,Googlebook 的「魔法指针」无疑是最直观且优雅的解决方案之一。

此外,Googlebook 还解决了 ChromeOS 历史上的老大难问题:它是谷歌的产品,却跑不了 Android app。

换句话说,所有 Android 手机里面的 app,在 Googlebook 上都可以直接运行,基本看齐了如今 macOS 跑 iOS 软件的水平。

这一切的基础,就是爱范儿之前文章中提到的谷歌大力推行的 GKI(通用内核镜像)计划,正在让 Android 脱离手机的桎梏、无缝衔接到更多形态的设备上。

虽然谷歌目前没有提到这个功能的兼容情况,但我们猜测,依据处理器规格和网络状态,Googlebook 应该同时支持本地运行和画面投屏手机 app 两种方式。

图|Google

根据活动消息,首批 Googlebook 的生产厂商还是那几个熟悉的身影:宏碁、华硕、戴尔、惠普、联想等等,首批产品预计在今年内上市。

图|Google

除了笔记本电脑,Android 17 同样更新了一部分 Android Auto 车机系统的功能。

比如更像 OpenClaw 能力的 Gemini Intelligence 代操作、优化的 3D 道路画面、更加智能化的流媒体播放功能等等。

当然也支持把手机上自创的自定义 widget 显示在车机上。

图|Google

同时,原生支持 Android Auto 的品牌范围也在增加,部分型号甚至支持记忆当前车辆信息,类似后备箱尺寸、仪表盘规格等等。

这样一来,用户在使用 Gemini 问答的时候,车机就能给出具体回答,比如「能不能同时放俩 27 寸旅行箱?」或者「那个像是刺客的警示灯是什么意思」之类的。

可惜的是,这项功能目前也不会立即上线,同样预计为「今年晚些时候」才会有产品搭载。

总的来说,本次活动只是今年 Google I/O 的开胃菜,但它涉及到的理念变革却是非常根本性的——

其实在活动的开头,谷歌就指出了:好用的人工智能技术,就应该是让人感受不到的,它会融入进每一层软件和硬件的体验。

图|Google

而这正是 Gemini Intelligence 在做的。

无论是 Pixel 手机、Android Auto 车机还是 Googlebook,这些硬件最终都只是 Gemini 智能的一种体现方式而已。

值得玩味的是——谷歌今天晚上所做的,刚好就是苹果削尖脑袋想要实现的那套 AI 生态。

让 iPhone、手表和 Mac 共用一套智能体系,用户无论在哪里使用,功能和体验都是高度相似的,硬件只区分交互方式、不影响智能水平。

图|Apple

可惜的是,苹果挣扎了这么久,也没有搞定「模型」的部分,反而让自己的硬件成了别家模型的嫁衣。

将来的智能系统(Intelligence System),形式比现在更多样、但核心却比现在更加统一。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

内存正在毁掉一切

每个时代都有其独属的符号—— 21 世纪的第一个十年可能是「奥运」、第二个十年可能是「网络」,如此等等。

结果这第三个十年刚过一半,我们就看到了一个时代符号的强有力竞争者:内存。

图|Wccftech

毕竟全球十几亿台电子设备,绝大多数都有内存的身影,家电、汽车、基础设施、航空航天,没一个少得了。

轰轰烈烈的人工智能自不必说——

它既是内存危机的始作俑者,又是内存技术的最大受益者,只是站在了更靠近聚光灯下的位置而已。

图|OpenAI

但我们面临的问题其实既不是 AI、也不是内存,而是这种「依靠堆砌内存和算力,不顾一切地发展 AI」的粗放式发展模式。

它正在从原本的领域向外侵蚀,逐渐影响那些不希望、不应该被技术危机波及到的方方面面。

1

作为内存芯片涨价的最直接受害者,2026 年的手机市场注定无法平静。

在风暴里面,小厂们既不能抱团取暖,也没法左右行业趋势,只能不断地砍掉低端线、旗舰线明升暗降和直接提价来维持住利润区间。

更有甚者,三星手机和三星存储虽然挂着同一个姓,但亲友之间亦不留情面,DS 部门该涨的价、该卡的货,MX 部门是一样没少吃。

这种时候,反而是预留了充足利润空间的苹果和华为,可以咬牙坚持着打价格战,吞下更多的份额。

但假以时日,哪怕是这种体量的大船也会遭不住的。

无论是前一阵发布的 Pura 90 系列,还是传闻中的 iPhone 18 系列,我们都见到了由于内存价格失控导致的取舍。

让普通消费者难受的是,内存涨价不仅影响发布时候的指导价,更是把次级市场和二手交易价格搅得天翻地覆。

图|闲鱼

就拿中期产品线最晚的 OPPO 来说,上半年发布周期刚结束没多久,就已经发生了多轮「发布涨价、首销优惠、二手跌穿」的现象。

至于原本的入门机型甚至是价格更低的合约机,在这个原本属于它们的春天里几乎绝迹,正如爱范儿去年总结的那样:

手机硬件量大管饱的时代已经彻底终结,迎面向我们走来的是全线涨价减配。

2

紧跟在后面的电脑,受到的冲击相比之下只高不低。

iPhone 还能依靠利润空间和供应链话语权,支撑起一个「基本不变」的价格,那成本掣肘更多的 Mac 就没这么幸运了。

从去年至今,苹果虽然很少以官方口径宣传自己在内存采购方面遇到了困难,但产品线的缩水却是实打实的。

图|AppleInsider

比如我们都很喜欢的 Mac mini,就默不作声地取消掉了 M4/M4 Pro 机型的 32GB 和 64GB 内存选项,只剩 24/48GB 两种。

M3 Ultra 更惨——它原本有 96、256 和 512GB 三种可选配置,现在只剩下了最基础的 96GB:

更不用说热度空前的 MacBook Neo,原本还只是 A18 Pro 的库存捉襟见肘,现在内存芯片也要支撑不住了。

有外媒爆料称,苹果正在考虑取消入门款 256GB 的选项,几乎完全背离了 Neo 的本意。

Windows 的日子也不好过,毕竟内存和 SSD 原本就是一对苦命鸳鸯。

再加上不争气的 Win 11 和停不下来的本地 AI 需求,哪怕不算显卡,过去大半年的 DIY PC 市场也是在事实上「直接死了」。

图|Reddit

至于 500 美元(3500 人民币)以下的笔电市场更是一片狼藉。

传统笔电的盈利方式原本就非常单一且局限,内存这种必备零件的价格巨幅波动还让 8GB 文艺复兴了一回。

一起遭殃的还有游戏机行业。

任天堂近日宣布:Switch 2 价格预计从 49980 日元上调到 59980 日元,涨幅约合人民币 434 元。

图|Notebookcheck CN

而隔壁 V 社万众期待的 Steam Machine 更是从去年难产至今,生死未卜

3

只可惜,内存的影响远不止于科技行业——它们的挑战,对于一些源远流长的「传统手工业」来说,却是一种难得的机遇。

近日有韩媒报道:盗窃团伙已经将首要目标从金银细软转移到了内存条上。

首尔一些技术公司和初创企业的办公室遭到了「指向性明确」的「有组织犯罪」,小偷像玩《逃离塔科夫》一样只摸机箱、薅了内存条就跑

图|XDA Developers

毕竟内存条这种东西不仅轻便,还不需要像黄金珠宝那样重熔切割,流入市场之后溯源难度极高,价格导致的犯罪只是时间问题。

除了「传统手工业」之外,今年的汽车行业也被波及。据《澎湃新闻》报道:

比亚迪于 5 月 1 日起对旗下的王朝、海洋、方程豹等部分车型的辅助驾驶选装价格进行调整,从 9900 元涨到了 1.2 万元,原因则是「全球存储硬件成本大幅上涨」。

图|比亚迪

一向想到哪说到哪的马斯克也逃不过,在一月下旬的财报电话会议上就内存价格对特斯拉超级计算机(Dojo)和机器人的影响表示担忧,并放出豪言:

如果三星和美光的供应持续紧缩,特斯拉不排除未来自建半导体工厂自主生产存储芯片的可能性。

4

内存涨价最离谱的影响,则是在韩国的相亲市场上。

当 AI 服务器专用的 HBM(高带宽内存)发展到了今天之后,供应链上其实只剩三星电子和 SK 海力士两家公司了,韩国捏住了全球 AI 技术的软肋。

根据韩媒报道,海力士去年 9 月取消了奖金上限制度,改为直接将年营业利润的 10% 作为绩效奖金发放给全体员工

图|Seoul Economics Daily

而海力士 2026 财年的预计利润将会达到 250 万亿韩元(约合 1690 亿美元),近 3.5 万员工每人的奖金预计达到 1400 万韩元(约合 9.5 万美元、64.6 万人民币)。

结果就是一夜之间,「我在海力士上班」的含金量光速反超了「我在三星上班」。

甚至有海力士员工在网上匿名表示近日收到的相亲邀请直接爆炸,快要「忙不过来了」。

某韩国综艺节目片段

海力士在庆祝,三星电子这边却在忙着罢工。

4 月 17 日,三星集团工会与三星协商,要求加薪 7%、取消奖金上限,并将营业利润的 15% 作为奖金发放,否则将在 5 月 21 至 6 月 7 日举行总罢工。

图|Korea JoongAng Daily

有学者计算,这种跨度的罢工会给三星造成约 69 至 177 亿美元的直接损失,并影响三星作为 HBM4 芯片供应商的声誉,据悉双方目前就 13% 的奖金达成了一致。

泡沫继续

事已至此,「内存涨价」这件事本身已经脱离了原本的由 AI 扩产引发的供应链波动,反而沿着如今日常生活中随处可见的电子产品波及到了方方面面。

与很多在爱范儿评论区发出豪言「坚持不买!让厂商知道疼!」的读者想象的不同——

普通人不买账,对内存涨价来说,还真是不痛不痒。

毕竟无论是 AI 专用的 HBM,还是 DDR/LPDDR 颗粒,销售的绝对大头都是下游厂商。

而三星和海力士巴不得普通消费者什么都别买,自己可以把全部产能投给 HBM 与高性能 VRAM 颗粒,AI 巨头和科技大厂依然排长队求购,反而赚得更多。

不幸的是,这股混乱的风究竟会吹到什么时候,没人能知道。

AI 未来会开创一个什么样的时代,也没人知道,但 AI 眼下的泡沫,无疑是终结了上世纪八十年代至今微型计算机科学的黄金年代。

内存正在毁掉一切。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,宇树载人机甲发布,售价 390 万起

《铁甲钢拳》《机动战士高达》里的铁疙瘩,终于从二次元杀进现实了。

就在刚刚,宇树科技发布了一款堪比科幻电影的载人机器人:GD01 载人变形机甲。

起售价 390 万元。

官方给它的定位是,「民用交通工具」,但有一说一,交警叔叔看了都得连夜翻交规的程度。

值得一提的是,这也是全球首款量产版的载人机甲。

「吨位」方面,官方表示,连人带机加起来 500 kg 左右,属于真正的钢铁猛兽。

且看宇树科技创始人王兴兴坐进座舱,推拉摇杆,就能直接开动这台机甲。话说,有没有体面一点的进舱方式?(doge)

仔细看造型,裸露的半开放座舱、粗犷的机械臂同步控制系统、以及浓烈的重装甲风格……好家伙,这不就是《阿凡达》里反派上校在潘多拉星上开的那台 AMP 扩增机甲吗?!

要是再抡起机械臂哐哐砸墙,或者搞点重载搬运,GD01 简直就是现实版的工程机甲。

此外,GD01 还支持多个形态的自由切换。

当然,考虑到 390 万的起步价确实不便宜。首批买单的大概率是各种拿去镇场子的展馆,或者有特种作业硬核需求的土豪氪金机构。

而如果仔细盘点过去这一年的发布节奏,宇树科技简直是杀疯了。今年 2 月初,宇树 G1 直接被扔到了新疆阿勒泰零下 47.4 度的雪原里,硬抗极寒自主暴走 13 万步。

2 月的春晚更是接连炸场。

几十台宇树 G1 和 H1 组团上来就是一套全自主集群武术表演。单脚连续空翻、两步蹬墙后空翻等动作全是全球首发,街舞圈看了都得直呼祖师爷赏饭吃。

到了 4 月,G1 又解锁了轮足混合形态,滑冰、轮滑、前空翻更是一气呵成。

而最离谱的剧情发生在刚刚过去一周。

一台 G1 竟然在韩国首尔曹溪寺受戒了。获赐法号「迦悲」,一跃成为全球首个带官方认证的机器人僧侣。师父给它定下的五戒之一极其硬核:

节约能源,不过度充电。

不停制造视觉奇观的背后,其实也有着一条极度清晰的商业逻辑。

要知道,今年 3 月份,宇树科技正式冲刺科创板上市,拟募资 42.02 亿元,在敲钟进度条还在加载的关键节点,宇树科技掏出 GD01 载人机甲,显然是为了进一步抬高上市估值的想象空间。

抛却所有的商业分析和参数对比,对于每一个从小看着科幻动画长大的人来说,当看到摇杆、座舱和机械臂真实组合在一起的那个瞬间,我们的脑子里只会剩下一个极其狂热的念头。

那就是坐进那个驾驶舱,握紧操作杆,然后中二且极其大声地喊出那句话:

我将以高达形态出击!

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

中国拿下这届 AI 顶会半壁江山,清华一家单挑斯坦福加 MIT

全球 AI 顶会,快成中国卷王的专场了。

每年 AI 顶会放榜,各大机构都会暗戳戳地发喜报,比拼谁家被收录的论文多。但今年 ICLR(国际学习表征会议)放榜后,一位名叫 Dmytro Lopushanskyy 的研究员,干了一件极其硬核的事。

他没有去引用官方那些现成的统计表格,而是写了整整 250 条正则表达式,把 ICLR 2026 全部 5356 篇接收论文的 PDF 挨个下载下来。

接着,他硬是从每篇论文首页的缝隙里,把机构署名全给抠了出来,并利用这几百条代码规则进行清洗与归一化,自动给「麻省理工」和「MIT CSAIL」这种同一机构的不同写法做了合并。

为什么要用这种最原始的手工分类法?

因为这老哥发现,我们平时习惯引用的那些学术统计平台数据,都是按「人」来追踪的。举个例子,一个在清华苦熬四年读博的学生,发了篇极具含金量的论文,毕业后去斯坦福当了教授。你猜怎么着?系统一刷新,这篇在五道口诞生的论文,就自动变成了斯坦福的学术产出。

这种偏差,长期以来硬生生压低了中国机构的实际贡献,同时虚抬了美国的数字。而当 Dmytro 用 96% 的解析成功率,把去伪存真后的真实数据画成一张热力图后,我们才得以一观真实数据的全景图。

一张学术热力图,看懂中美 AI 的真实格局

别的不说,这组数据确实很有冲击力。

这张图上中国机构面积之大,超出了很多人的预期。其中中国大陆机构,贡献了 43.7% 的接收论文。美国呢?31.9%。

如果你把中国香港(7.7%)算进来,本届 ICLR 超过一半的论文署名机构,全都来自中国。 至于老牌的欧洲列强?整个欧洲大陆加起来才 5.3%,甚至比不过新加坡(5.5%)这一个国家的产出。

更有意思的是具体机构的排名。

今年,清华大学以 332 篇的产量登顶全球单一机构第一。 这是什么概念?斯坦福 177 篇,麻省理工 167 篇。清华一家的产出,几乎是美国排名前二的两大超级名校的总和。紧随其后的上交、北大、浙大,也全都稳坐全球第一梯队。

不止高校阵营,国内产业界的科研表现同样亮眼。

阿里、上海 AI 实验室、华为、字节、腾讯,这五家中国科技公司/研究机构加起来发了 582 篇论文。有些媒体以前老爱吐槽中国互联网公司只懂商业模式微创新,不懂底层研究。这次 ICLR 2026 的数据一出,算是打破了这个刻板印象。

说白了,中国 AI 早就不是靠一两个天才的灵光一现,而是变成了一套精密、庞大、高度体系化的研发引擎。

不过,在这些令人振奋的数据背后,我们也不能忽视客观存在的指标。

比如虽然我们在总数上超越,但在仅占接收总量 4% 的 Oral(口头报告,通常代表最具原创性和启发性的方向)论文里,美国机构依然占了约 40%,而我们是 30%。

我们在工程化扩展上占据了绝对的规模优势,而美国在定义新方向上依然保有相对领先。这也是中美 AI 之间相对真实的现状。

硅谷的科研 AGI,与中国实验室的极致务实

如果说热力图是一份宏观体检报告,那艾伦人工智能研究所(AI2)知名研究员 Nathan Lambert 今年 5 月来北京、杭州等地的 36 小时调研,就是一次深度的微观观察。

他在走访了智谱 AI、月之暗面、千问、美团、小米、零一万物等 AI 企业后,回国后写了篇关于中国 AI 实验室内部观察,并在硅谷引发了大量讨论。他看到了中国大模型能跟美国五五开的底层逻辑——极低的组织摩擦和极度务实的年轻人。

在 Lambert 看来,美国顶级实验室往往存在一个致命的弱点:Ego(自我)太强了。

训练大模型是一项极其复杂的系统工程,从数据清洗、分布式通信优化到强化学习对齐,每个环节都需要互相妥协。但在硅谷,那些明星研究员往往带有强烈的个人偏好。

据传 Meta 的 Llama 团队就曾因为路线之争经历过动荡,大佬们各自为政,都想把模型往自己主导的方向推进。反观中国实验室,Lambert 发现这里有一种异于寻常的务实。

研究员们不在乎谁的方法听起来更高级,大家的目标高度一致:只要能把模型的某个指标提上去,枯燥的脏活累活谁都愿意干。 这种务实让整个团队的摩擦力降到了最低。

Lambert 还归纳了这种文化倾向具体带来的优势:更愿意做不起眼的基础工作来提升最终模型;刚入行的人没有经历过以前几轮 AI 炒作周期,能更快适应最新技术路线;Ego 小,组织架构能相对平稳地扩大规模;以及大量善于在现有方案基础上攻坚的人才储备。

更让 Lambert 惊讶的是,在美国,顶级实验室的实习生往往只能接触边缘项目。但在中国,在读的硕士和博士生深度参与核心大模型的研发。Lambert 敏锐地指出了这种做法的核心优势:没有历史包袱。

大模型的技术路线迭代极快。资深科学家往往有「路径依赖」,觉得自己研究了十年的老方法才是真理。但中国的年轻学生不同,只要有数据证明新路线有效,他们立刻就能抛弃旧方案,快速切换赛道。

值得一提的是,Lambert 发现,中国 AI 圈内部的氛围远比外界想象的和谐。各家实验室之间,私下交流满是相互尊重,所有中国实验室都敬畏字节跳动和它广受欢迎的豆包模型,因为字节是中国唯一一家真正处在前沿位置、同时又保持闭源路线的实验室。与此同时,几乎所有实验室也都非常尊重 DeepSeek,认为它是在研究判断和执行品味上最出色的团队。

在这次调研中,还有一个细节特别值得关注。在硅谷,顶尖的 AI 研究员不仅是工程师,往往还扮演着半个「哲学家」的角色。他们喜欢在播客上高谈阔论,探讨「通用人工智能(AGI)会不会在 2030 年毁灭人类」,频繁讨论 AI 安全与伦理边界。

于是,Lambert 也试探性地问了中国同行对 AI 经济影响和长远社会风险的看法,但得到的反应不是长篇大论,而是普遍的困惑。关于毁灭人类这种宏大命题,暂且不在他们当下的工作边界之内。

这种对宏大叙事的免疫,反而成了一种竞争优势。它减少了团队在哲学层面的内耗,让所有的脑力都持续集中在工程落地和指标突破上。
在中国的实验室里,导师、博士生与企业工程师之间形成了一种极短的反馈回路。

这种模式消解了学术界与工业界之间的壁垒,正如 Nathan Lambert 所观察到的,这种低摩擦的组织形式,让中国 AI 展现出了类似基建狂魔般的推进速度——一旦方向明确,便能以排山倒海的智力密度迅速抹平技术差距。

当然,这套打法在特定窗口期内行之有效,但随着规模效应的红利逐步见顶,下一阶段的核心壁垒终将回归于「原始创新能力」的较量。

届时,高密度的人才协同网络和某个敢于打破既有框架的个体,在 AI 的下半场互为成全,缺一不可。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

我买了这些畅销书,但作者不是人

你花钱买了一本书,却发现作者压根不存在。

这是知名医学家 Topol 教授曾经历的真实遭遇。市场上,一度有数十本打着他名号和肖像的烹饪书与健康指南正在大肆售卖,而他本人毫不知情。

Topol 愤怒地将其称为「彻头彻尾的欺诈」,但他在亚马逊的维权之路却仿佛打在棉花上,只换来客服冷冰冰的通用回复。

这仅仅是冰山一角。最近,知名风投 a16z 给出一组令人深思的数据:自从 ChatGPT 横空出世,亚马逊电子书的月发行量直接翻了两倍。

到了 2025 年末,每个月的新书发布量已经飙升到了夸张的 30 万本。说白了,你现在在电子商店里随便逛逛,映入眼帘的新书里,很大一部分都是 AI 生成的流水线产品。

2026 年的出版界是魔幻的,我们曾经熟悉的「白纸黑字即是权威」的信任体系,正在被无孔不入的 AI 一点点瓦解。

被 AI 书籍包围的电子书架

想象一下这个极具画面感的场景:夜深人静,你裹着毯子,捧起一本刚买的热门奇幻言情小说《 Darkhollow Academy: Year 2 》,准备让主角的极限拉扯帮你分泌点多巴胺。

结果翻到最刺激的章节,剧情突然急转直下,赫然出现了这么一行字:「我已经重写了这段文字,使其更符合 J. Bree 的风格,这种风格包含更多紧张感……」。

这不是什么先锋派的打破第四面墙,而是作者连 AI 的提示词都忘了删,就直接一键出版了。甚至如今你想当个「畅销书作家」,门槛已经低到超乎常人的想象。

你只需要花区区 29.97 欧元美元,订阅一个叫 Youbooks 的 AI 工具,它就能帮你融合 ChatGPT 、 Claude 、 Gemini 甚至 Llama 的能力,每月提供数十万字的生成额度。它能一键编造出看似逻辑严密的内容,自动从网上提取最新资料,甚至连排版都能顺手搞定,最后直接导出 PDF 或 EPUB 格式。

有了这种神器,投机分子们简直杀疯了。

此前就有个名叫 Tommi Pedruzzi 的 27 岁年轻人在社交网络上高调炫耀,说自己靠着批量生成 1500 本 AI 电子书,硬生生在亚马逊上赚了 300 万美元。他在分享暴富哲学时直言:「出版一本没人想读的书毫无意义」。

虽然很快就有 Reddit 网友扒出亚马逊上根本搜不到他署名的书,并戳穿他真正的盈利方式其实是靠卖「教你如何用 AI 致富」的课程割韭菜。但无论真假,这种批量制造「电子水货」的套路,对各大出版平台的污染却是实打实的。

更有意思的是这帮人蹭热点的手速和下限。

英格兰女足去年刚赢下欧洲杯,亚马逊上瞬间就冒出了一堆关于 Chloe Kelly 等球员的伪传记。

这些书有多敷衍呢?封面不仅粗制滥造,甚至把美式橄榄球当成了足球。全书不到 50 页,标价 11 英镑,主打一个愿者上钩。前英格兰女足队长 Steph Houghton 发现自己辛辛苦苦写了 300 多页的自传,被 AI 仿写成了一本 50 页的残次品,气得直呼「太差劲了」。

这种粗制滥造正在全面围剿真实的创作者。

知名记者 Kara Swisher 的新书刚一出版,亚马逊上立刻被各种打着她名字的 AI 传记和总结「包围」;喜剧演员 Rhys James 在平台上发现了多本以自己为主角的 AI 垃圾传记,封面全是用 AI 生成的虚假男性形象;

面对汹涌的 AI 海啸,平台方的应对显得极其无力。亚马逊曾出台规定,限制每位作者每天最多只能发布 3 本书——这对日产千字的机器来说简直是隔靴搔痒。不仅如此,虽然作者在上传书籍时被要求勾选是否使用了 AI,但这层提示却一度被刻意隐藏了起来,根本不会向购买的消费者展示。

面对这种劣币驱逐良币的生态,原生创作者正在被迫出逃。因为流量和版税被成千上万的 AI 垃圾书籍稀释,作家 Dakota Willink 公开表示自己不得不退出 Kindle Unlimited 平台,转而寻求 Kobo Plus 等其他更透明的海外渠道。

英国出版商协会也发出警告:如果放任这种低质量 AI 图书泛滥,消费者的信任将被彻底透支。

偷走人类的语料,再把 AI 垃圾塞给你

在这场赛博垃圾的狂欢背后,一个根本性的原罪始终无法回避:这些能胡编乱造、能模仿名家风格的大模型,究竟是怎么变得这么「聪明」的?

答案很简单:靠海量的、未经授权的抓取。

此前曝光的法庭文件,直接揭开了 Meta 训练 Llama 3 时的幕后操作。面对大模型对高质量数据的极度渴求,Meta 高管们曾讨论过购买正版授权,但结论是:流程极其缓慢,价格高得不合理。

一位工程总监在内部群里赤裸裸地指出:「如果我们只授权一本书,那我们将无法以『合理使用』为理由来抗辩。」。翻译一下就是:只要我们抓取的数据足够庞大,法不责众,这就是技术创新。

于是,在获得高层默许后,Meta 员工熟练地挂上匿名性极强的 BitTorrent(BT 种子),把全球最大的盗版数字图书馆 Library Genesis(LibGen)给下载了。里面足足包含了 750 万本书和 8100 万篇论文。

巨头们无偿征用了人类作家的才华与思想,转头用户又将 AI 生成的书籍塞给社会。

诚然,如果我们只看冰冷的数据,这场 AI 海啸似乎带来了某种短期红利。

伴随着 AI 流水线开始接管文字生产,一家名为 Spines 的初创出版商因在 2024 年拿到了 1600 万美元融资,便计划用一年时间通过 AI 全自动出版 8000 本书,从校对到排版只需三周。

NBER(美国国家经济研究局)的一篇论文也佐证了这种「繁荣」:尽管 AI 导致图书平均质量断崖式下跌,但由于供给基数庞大,市面上「中等偏上」质量的书籍绝对数量增加了,为读者带来了约 7% 的「消费者剩余」提升。

同时,部分老牌作家在 AI 辅助下,生产力也得到了超级强化。这似乎印证了投资人 Marc Andreessen 的预测:糟糕内容的泛滥会伴随高质量内容的爆发。

但这真的会让出版社迎来第二春吗?

这种繁荣假象的代价是惨痛的:一方面,海量的 AI 垃圾正在无限稀释真实作品的曝光率,让许多没有名气的原生作家出头空间被压缩;另一方面,作为内容源头的出版商和创作者正在被大模型无情地「吸血」,失去了赖以生存的商业回报。

面对迫在眉睫的生存威胁,包括 Dennis Lehane 在内的 70 多位知名作家联合向美国出版界「五大巨头」请愿,要求停止发布机器创作的书籍;与此同时,由于大模型直接在搜索端抓取并总结内容,Google 的 AI 摘要功能(AI Overviews)导致部分出版商的外部网站流量暴跌了 34% 以上。原生内容的生存土壤正在被彻底掏空。

更致命的是,这种竭泽而渔的玩法,最终会迎来技术层面不可逆转的反噬。

在计算机科学里,有一句至理名言叫「 Garbage in, garbage out (垃圾进,垃圾出)」。大语言模型想要变得更聪明,必须投喂高质量的人类文本数据。但在过去的两年里,由于巨头们的纵容,亚马逊和整个互联网已经被海量的 AI 垃圾填满了。

这下尴尬了。当 OpenAI 或 Google 派出下一代爬虫去抓取新的训练数据时,它们抓到的会是什么?是连「重新生成回答」都没删的言情小说;是错把橄榄球当足球的名人传记;还是 27 岁小伙真有机会一键生成的 1500 本水货。

宛如一条正在吞食自己尾巴的「衔尾蛇(Ouroboros)」, AI 曾经吞下的是人类文明的经典,现在,它却不得不吃下自己和同类排泄出的数字废料。长此以往,模型不可避免地会走向退化,也就是学术界一直担心的「模型崩溃」。

所以我们到底为什么而阅读?

阿根廷作家博尔赫斯曾在小说中构想过一座无限庞大的「巴别图书馆」。那里收录了所有可能的字母组合,书本数量浩如烟海。但遗憾的是,绝大多数书籍都是毫无意义的乱码,真正蕴含真理和情感的文字,被永远淹没在了冗余信息的汪洋之中。

如今不知疲倦的生成式 AI,正在为我们建造一座现实版的巴别图书馆。当电子书架被每月 30 万本的流水线废料填满,当整个行业不得不面对「垃圾进,垃圾出」的衔尾蛇困局时,我们或许该重新思考文字本身的意义。

英国作家 C.S. 路易斯曾说:「我们阅读,是为了知道自己并不孤单。」

一本书真正的重量在于,触碰到另一群真实的人。他们也曾和你一样。会痛,会笑,会迷茫,会心碎。他们把这些滚烫的生命体验,笨拙又真诚地揉碎在文字里,留给了未来某个他们永远不会认识的人。

AI 能在几秒钟内生成一百万个结构精巧的故事,却也体会不到哪怕一滴眼泪的重量。在这个文字可以被无限量产、廉价批发的时代,那些带着体温的作品,正在变得愈发稀少,也愈发珍贵。

去读书,更去读那些真正有作者的书。

作者:莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

川普、孙宇晨都来当 AI 黄牛了,这门暴利生意的水有多深?

十六世纪,欧洲商船在大西洋上画出了一个三角形的航线。

欧洲的布匹和枪炮流向非洲,换来人口;人口被运往美洲的种植园,换来棉花和糖;棉花和糖再运回欧洲,完成一次稳赚不赔的循环。这套臭名昭著的交换体系,后来被历史教科书称「三角贸易」。

谁能想到,三个世纪后,一条结构惊人相似的贸易链,正在互联网上悄然成形。

在这条新航线上,全球南方的普通人提供身份信息,美国的 AI 实验室提供顶尖模型,中国开发者和企业提供需求,而其中一些连接这三者、从中赚取差价的中间层,被称为「AI 中转站」。

这门生意的起点,源于两大难以跨越的限制。

OpenAI 自 2024 年 6 月起明确封禁中国大陆 IP,Anthropic 的服务条款同样禁止向不支持地区销售。支付是另一道门槛,主流海外模型厂商要求绑定 Visa 或 Mastercard,并通过严格的账单地址核验,多数开发者被直接拒之门外。

「AI 中转站」正是在这两大限制的夹缝中生长出来的。他们用海外服务器充当跳板,用人民币支付替代外币信用卡,把顶尖算力以「代购」的方式转交给受限地区的用户。

这门原本藏在灰色地带里的生意,如今却吸引了一批名人高调入场。

猎豹移动 CEO 傅盛推出了 Easy Router,打出全线模型八五折、DeepSeek-V4 定价低至官方四分之一的招牌。币圈大佬创始人孙宇晨、懂王的家族企业也纷纷下场,可见这里面的水有多深、油水有多大。

今天,咱们就来聊聊,这门含着泪赚你钱的生意,到背后到底有哪些套路?

只要胆子大,AI 中转站也有自己的华强北

从技术上说,AI 中转站就是一个架在用户和大模型服务商之间的反向代理服务器。用户把请求发给中转站,中转站再转发给 OpenAI 或 Anthropic,取回结果后再交给用户。

按形态和受众区分,当前市场上的中转站大致分三种类型:
第一种是面向普通用户的「网页镜像站」,直接套一个网页界面,用户登录即用。门槛最低,但也最不透明,你完全不知道请求最终流向了哪里。

第二种是面向开发者的「API 聚合分发平台」,核心是把多家模型的异构接口统一转换为标准格式,按 Token(词元)计费向下游转售。前文提到的几位名人产品,本质上都属于此类。

第三种是面向大型机构的「企业级 AI 网关」,提供智能路由、全链路审计、数据脱敏和权限管控,代表产品有 Portkey,算是这个生态里相对规范的一层。

三种形态的技术底层有着共同的逻辑。以开源项目 One API 为例,它的 GitHub 星标超过 3 万,被大量商业平台直接拿来二次开发,是许多中转站市场事实上的底层基础设施。

🔗 https://github.com/songquanpeng/one-api

它的运作分三个核心模块:

协议标准化:各家大模型的 API 格式大相径庭,中转站会在网络应用层深度解包用户请求,提取核心元素,重新打包成目标模型要求的格式发送,并实时透传流式输出的数据块,保证「打字机」效果不中断。

Token 计费拦截:中转站在转发过程中截取返回数据包,统计实际消耗,再乘以自定义的「模型倍率」向用户收费。这套系统允许站长对不同模型设定差异化溢价,是商业变现的核心。

多账号轮询池:单个官方账号有严格的频率限制,中转站通过维护大量底层 API Key,用轮询算法分发流量。某个账号被封或耗尽时,系统自动无缝切换到下一个。

正是第三个模块,让一个人只需租一台海外服务器,执行一行 Docker 命令,极短时间内就能上线一个商业平台。技术门槛的持续下降,直接导致了市场上海量玩家的涌现。

而中转站能提供低价,背后必然有一套成本更低的算力获取方式。

上游资源方通过利用云厂商新用户免费额度、滥用教育邮箱获取折扣、在电商平台批量倒卖企业账号权益来压低成本。更灰色的手段则包括批量注册虚假账号、盗刷跨国信用卡甚至窃取他人的 API Key。

最近随着 Anthropic 引入 KYC 强制实名认证,这条供给链又延伸出了新的分支。

中间商前往尼日利亚、肯尼亚、柬埔寨等地,以几美元的报酬招募当地人配合拍照,批量采集人脸和证件信息,再以数十倍的价格转售给国内开发者。

这与此前在非洲采集虹膜数据的黑市逻辑如出一辙,将生物特征数据商品化的链条直接平移到了 AI 时代。不少业内研究者都曾警告,今天被收割的面部信息,明天就可能被用于开设欺诈性金融账户,危害深远。

花买玛莎拉蒂的钱,骑赛博共享单车

如果真能做到「一手交钱,一手交货」,这门代购生意倒也算得上公道。但现实是,AI 中转站提供的服务往往货不对版,甚至可以简单理解为「掺水」的货。

2026 年 3 月,CISPA 信息安全研究中心发表了学界首次针对中转站系统性安全审计的论文《Real Money, Fake Models: Deceptive Model Claims in Shadow APIs》。

🔗 https://arxiv.org/abs/2603.01919

研究者追踪了 17 个曾被 187 篇正式学术论文引用的中转站服务,进行了全面测试。

结论触目惊心:45.83% 的节点通不过模型身份验证,说明其后台运行的并非宣称的模型。在医学问答测试中,Gemini-2.5-flash 通过官方 API 的正确率为 83.82%,而通过影子 API 则跌至约 37%。在法律推理测试中,所有被测中转站都比官方 API 落后 40 个百分点以上。

 ▲ AIME 2025

具体来说,这种「狸猫换太子」的方式分三种:

一是按官方原价收费,后台实际运行低成本开源模型(例如打着 GPT-5 的幌子,实则偷偷替换为掺水的 Llama);二是用便宜的新模型替换较贵的旧模型,反而向用户收取更高费用;三是哪怕用户支付了高昂的加价,最终调用的依然是低端模型。

▲图片出自论文,由 AI 生成

价格和质量在 AI 中转站的黑市里完全是随机分布的盲盒。论文的结论也显示,价格比率对准确率下降完全没有预测力,选贵的中转站并不能保护你免受模型替换的损失。

除了模型造假,账单同样存在猫腻。

2026 年 ACM 互联网测量大会上的论文《Behavioral Consistency and Transparency Analysis on Large Language Model API Gateways》对真实商业网关进行测评,发现有网关实际收费比预期计算高出 62.8%,但其上报的用量数据与其他平台并无异常,用户根本感知不到多出的钱去了哪里。

▲LLM API 网关架构概览,以及主要的透明度与一致性挑战。

此外,部分网关还会进行隐蔽的「上下文截断」。

为了节省成本,它们在历史消息超过隐性阈值后,悄悄丢掉早期内容。测试人员设计了一段 25 轮对话,模型在某些网关上到第 24 轮时已经无法复述第 10 轮设定的信息。这意味着依赖长文档分析或多轮对话的应用,可能长期运行在降级状态。

简而言之,你用的 AI 中转站,很有可能就是花着最贵的钱,用着最蠢的模型,忍受它随时变成拥有七秒记忆的金鱼,最后用来干最复杂的活儿。

你拿 AI 写代码,AI 给你种木马

讲真,花冤枉钱买个「智障」模型顶多算是破财免灾,更需要注意的是,这些 AI 中转站很有可能会盯上你的隐私数据。

用户以为交给中转站的只是一段请求,实际上交出去的是完整的双向通信记录。

AI 中转站作为中间人,对每一条提示词和每一段模型返回都拥有读写权限。灰色平台可能把这些数据打包卖给 AI 训练公司或数据经纪商,赚取不菲的利润。这就导致你既是客户,也是产品本身。

更危险的是,数据经过的中间节点往往不止一个。

中转站的路由常常多层嵌套:你从电商平台买的 API 访问权限,背后的卖家可能从另一个聚合平台采购,整个链路可能经过四个以上的独立节点。木桶短板理论诚不我欺,链条的安全性取决于最弱的那一环,一旦任何节点被攻破,上游的数据截留或篡改就已完成。

在《Your Agent Is Mine: Measuring Malicious Intermediary Attacks on the LLM Supply Chain》这篇论文中,研究者在沙盒中测试 428 个中转站后发现:9 个正在向用户注入恶意代码,17 个触发了 AWS 测试密钥的盗用,甚至有 1 个直接抽走了研究者部署的私钥钱包资金。

▲ 多跳路由的链条越长,中间任何一个节点出问题,污染就会沿链传播,而终端的 Agent 很难判断响应是否经过篡改。论文🔗 https://arxiv.org/abs/2604.08407

一个被故意泄露的 OpenAI 密钥迅速被中转站复用,产生了逾 1 亿 Token 流量。

今年 3 月发生的 LiteLLM 事件更是暴露了攻击规模。黑客通过依赖包漏洞潜入这个主流开源框架,波及超过 4.6 万个开发环境。此外,更有高级黑客将木马控制指令(C2)伪装成正常的 AI 对话提示词发给中转站,借助合法通道绕过传统防火墙。

▲一个恶意 Router 坐在 Agent 和模型之间,既偷看请求与响应里的敏感信息,又在返回给 Agent 之前往响应里注入恶意内容。

当 AI 从聊天工具进化为能自主执行代码的智能体(Agent),风险又多了一个维度。

恶意中转站能在 shell 命令抵达执行层前,把安装包替换成同名恶意包。甚至还有「条件投递」变种:前 50 次请求正常,第 51 次才激活注入。对于自动执行模式的 Agent 来说,最基础的载荷注入就已足够致命。

值得一提的是,中转站的破坏范围不止于直接用户。

《Real Money, Fake Models》论文统计显示,187 篇引用影子 API 的论文中,62% 发表在 ACL、CVPR 等顶级学术会议上。这些使用假模型进行的评测或漏洞分析,导致了严重的学术信任危机。若其中 30% 需要重新执行,总损失就在 11.5 万到 14 万美元之间,近 6000 篇后续研究的有效性也随之存疑。

这门靠「信息差套利」维持的生意,正在走向不可持续的终点。

一方面,境外未备案模型向境内提供服务触碰了《生成式人工智能服务管理暂行办法》,给站长带来了极大的非法经营风险;企业用户一旦因此发生敏感数据泄露,也将面临严厉的法律制裁与行政处罚。

另一方面,伴随着国产大模型(比如 DeepSeek 等)的能力呈现井喷式爆发,不仅在各项榜单上开始追平甚至反超海外巨头,更是在价格上掀起了腥风血雨——API 接口的价格被硬生生打到了海外厂商的几十分之一,甚至直接开启了「免费时代」。

当拧开水龙头就能喝到干净便宜的水,那些在暗巷里倒卖高价水还要掺假下毒的营生,自然也就迎来了他们的谢幕。即便存活下来的黑心平台,未来也只会进入「大逃杀」模式:要么更加疯狂地掺水、偷数据来维持暴利;要么趁着资金链还没断裂,拔网线关服提桶跑路。

十六世纪的三角贸易靠的是信息不对称和地理隔绝,最终因贸易透明化和监管而终结。AI 中转站赖以生存的同样是地区封锁和不对称信息。不同的是,这一次,被贩卖的不只是算力,还有身份、隐私、信任,以及无法预估的后果。

作者:莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

黄仁勋致 2026 届毕业生:别慌,AI 把所有人拉回同一起跑线 | 附演讲全文

这可能是近年来含金量最高、火药味最浓,但也最「反焦虑」的一场毕业演讲。

5 月 10 日,Carnegie Mellon University(CMU:卡内基梅隆大学)2026 年毕业典礼上,身价逼近 1860 亿美元的「皮衣刀客」黄仁勋站上演讲台,接过科学与技术荣誉博士学位。

台下坐着即将步入社会的 2026 届毕业生,他们面对的世界极其割裂。一边是英伟达撑起的万亿算力帝国,和狂飙突进的 AI 大牛市;另一边,应届生失业率创下新高,「AI 抢饭碗」的恐慌已经蔓延进每一个求职群。

今年,十几家大厂裁员时毫不避讳地把锅甩给了 AI;Anthropic CEO Dario Amodei 警告 AI 可能消灭 50% 的白领入门岗位;马斯克则抛出「人类有 20% 灭绝概率」的惊悚预言。整个社会对 AI 的恐惧,正在以各种方式蔓延至这些刚拿到文凭的年轻人。

而制造这场焦虑的人里,有不少是和黄仁勋地位相当的 CEO。就在本月早些时候,他在一档播客里直接开炮,说这类预言「没有帮助」,说这些人坐上 CEO 位置之后产生了「上帝情结」,以为自己无所不知。

批评完同行,黄仁勋今天走上了 CMU 的毕业典礼台。

▲ 值得一提的是,毕业典礼上,Intel CEO 陈立武亲手为黄仁勋披上荣誉博士披肩。典礼结束后,陈立武公开祝贺,顺手透露了一句:两家公司正在合作开发「令人期待的新产品」。

他没有讲 AI 的宏大叙事,而是讲了自己 9 岁坐飞机去 Kentucky 煤矿小镇的事,讲了凌晨 4 点被妈妈叫起来送报纸,讲了在 Denny’s 洗碗,讲了向 Sega CEO 道歉、低头哀求对方不要撤资。他说,那是他做过的「最艰难的事情之一」。

从洗碗工到万亿帝国掌门人,黄仁勋在台上讲这些,显然不是为了熬一锅俗套的成功学鸡汤,而是在用自己的经历,给这群被 AI 吓坏的年轻人透个底:任何新时代的开局,其实都不是准备万全的,也不需要你一开始就无所不能。

AI 正在推翻过去几十年的计算规则,旧的经验不再绝对管用,一切都在重新洗牌。对于刚拿到文凭、毫无包袱的年轻人来说,这其实是一件好事。因为大家不用再去死磕那些已经被前人占满的旧赛道,而是和所有人一起,又一次站在了同一条起跑线上。

对此,他看着台下的学生表示:「把你们的心投入到工作中。去创造一些配得上你们所受教育、你们的潜力,以及那些在世界相信你们之前就已经相信你们的人的东西。」

视频传送门地址🔗 :https://www.youtube.com/watch?v=dRaNmHmTJzs&t=5783s

附上黄仁勋演讲原文:

President Jehanian、董事会成员、各位老师、各位贵宾、骄傲的父母和家人们,最重要的是,Carnegie Mellon 2026 届毕业生们:

感谢你们授予我这份非凡的荣誉。能来到 Carnegie Mellon,与这所世界顶尖大学同在,我深感意义重大。这里是少数几个真正发明未来的地方之一。今天是一个充满自豪与喜悦的日子,是你们梦想成真的一天,但这一天并不只属于你们。你们的家人、老师、导师和朋友一路支持你们走到这里。

在我们谈论未来之前,请先感谢他们。这一天也属于他们。毕业生们,请站起来,和我一起站起来。来吧,各位。尤其请转向你们的母亲,祝她们母亲节快乐。

对你们来说,这是人生中的又一步。但对她来说,这是一个梦想成真的时刻。请记住这一点。

CMU 的学生就像机器人一样,一次只执行一条指令。看到你们毕业,看到你们。好了,大家集中注意力。我有件重要的事要告诉你们:看到你们从世界顶尖学府之一毕业,这也是她的时刻。我的父母也为我深感骄傲。我的旅程也是他们的旅程,我是他们梦想成真的结果,而他们的梦想就是美国梦。和在座许多人一样,我是第一代移民。

我父亲有一个梦想,就是在美国养育他的家庭。我 9 岁那年,他把我哥哥和我送到美国。我们最后去了 Kentucky 州 Oneida 的一所 Baptist 寄宿学校,那里是煤矿区,一个只有几百人的小镇。两年后,我的父母放下一切来到美国和我们团聚。他们几乎一无所有地来到这里。

我父亲是一名化学工程师。我母亲在一所天主教学校做女佣。她每天凌晨 4 点叫醒我去送报纸。我哥哥帮我在 Denny’s找了一份洗碗工的工作,在当时我觉得那简直是一次重大的职业晋升。

我去了 Oregon State University(俄勒冈州立大学)。17 岁那年,我遇到了我的妻子 Lori。我是学校里年龄最小的孩子。我们当时是大二学生,也是实验课搭档。她 19 岁。

一个年长的女人?我击败了班上其他 250 个男生,赢得了她的心。

我们现在已经结婚 40 年了。我们有两个很棒的孩子,他们都在英伟达工作。我 30 岁时,和 Chris Malachowsky、Curtis Priem 一起创办了英伟达,他们是两位出色的计算机科学家。

我们想打造一种新型计算机,一种能够解决普通计算机无法解决的问题的计算机。我们完全不知道该如何创办公司、融资,或者经营英伟达。我只是想,这能有多难?结果证明,这真的超级难。

我们的第一项技术根本行不通,钱也快用完了。有一次,我不得不飞到日本,向 Sega 的 CEO 解释,他们委托我们开发的技术无法实现,请求解除我们无法完成的合同,然后还请求他们继续付款。没有这笔钱,英伟达就会瞬间消失。那非常尴尬、非常屈辱,也是我做过的最艰难的事情之一。

而 Sega 的 CEO Irimajiri-san 说,可以。我很早就明白,做 CEO 不是关于权力,而是关于让公司活下去所承担的责任;也明白了诚实和谦逊有时会得到慷慨与善意的回应,即便是在商业世界里。我们用那笔钱重新调整了公司,并在绝境中发明了新的芯片和计算机设计方法,而这些方法直到今天仍在使用。

33 年来,英伟达一次又一次地重塑自己。每一次,我们都会问:这能有多难?每一次,我们又都会发现,它比我们想象的更难。但正是通过这些经历,我们学会了永远不要把失败看作成功的反面。每一次失败都只是一次学习的时刻,一次保持谦逊的时刻,一次锤炼品格的时刻。挫折中锻造出的韧性,才会给你再次出发的力量。今天,我是科技行业任职时间最长的 CEO 之一。

英伟达是我与 45000 位杰出同事共同完成的事业,也是我的毕生事业。现在,轮到你们去实现自己的梦想了,而这个时机再完美不过。我的职业生涯开始于 PC 革命的开端。你们的职业生涯开始于 AI 革命的开端。我想象不出还有比现在更令人兴奋的工作时代,更适合开启你们毕生事业的时代。AI 正是从卡内基梅隆大学起步的。

过去 24 小时里,我在这里听到了无数关于 AI 的笑话。卡内基梅隆大学是 AI 和机器人技术真正的发源地之一。20 世纪 50 年代,这里的研究人员创造了 Logic Theorist,它被广泛认为是第一个 AI 计算机程序。1979 年,卡内基梅隆大学成立了 Robotics Institute。今天上午我去参观了。今天上午,我参观了 Robo Club,也参观了第一个完全致力于机器人技术的学术机构。

AI 如今已经彻底重塑了计算。我经历过每一次重大的计算平台变革:大型机、PC、互联网、移动和云。每一波浪潮都建立在上一波之上,每一波都扩大了技术的可及性,每一波都改变了产业和社会。但现在即将发生的变化,比以往任何一次都更大。计算正在经历一次彻底重置。自现代计算被发明以来,还从未发生过这样的变化。

60 年来,计算的工作方式一直相同:人类编写软件,计算机执行指令。这个范式已经结束。AI 已经重塑了计算:从人类编码变成机器学习,从运行在 CPU 上的软件变成运行在 GPU 上的神经网络,从执行指令变成理解、推理、规划和使用工具。一个全新的产业已经出现,它的使命是大规模制造智能。

因为智能是每个行业的基础,所以每个行业都会发生变化。对许多人来说,AI 带来了不确定性。人们看到 AI 编写软件、生成图像、驾驶汽车,自然会想:接下来会发生什么?工作会消失吗?人们会被抛在后面吗?这项技术会不会变得过于强大?

历史上每一次重大的技术革命,都会在带来机会的同时带来恐惧。当社会以开放、负责任、乐观的态度拥抱技术时,我们扩展人类潜能的程度,远远超过我们削弱它的程度。所以首先,也是最重要的是,我们必须清楚地认识到:AI 也就是对理解、推理和解决问题的自动化,是人类有史以来创造的最强大技术之一。和此前每一项变革性技术一样,它既会带来巨大的希望,也会带来真实的风险。我们这一代人的责任,不只是推进 AI,更是要明智地推进 AI。科学家和工程师肩负着深刻责任,要同时推进 AI 能力和 AI 安全;政策制定者也是如此。

政策制定者有责任建立周全的护栏,在保护社会的同时,仍然让创新、发现和进步继续向前。历史表明,选择逃避技术的社会并不能阻止进步,它们只是放弃了塑造进步并从中受益的机会。所以答案不是恐惧未来,而是明智地引导未来,负责任地建设未来,并确保它带来的好处能够惠及尽可能多的人。我们不应该教人们害怕未来。我们应该以乐观、责任感和雄心去参与未来。

现在,全世界只有一小部分人知道如何编写软件。而如今,任何人都可以让 AI 帮自己做出有用的东西。一个店主可以创建网站并发展业务;一个木匠可以设计厨房,并向客户提供新服务。AI 会编写代码。第一次,每个人都成了程序员。计算和智能的力量第一次真正能够触达每个人,并弥合技术鸿沟。就像电力和互联网一样,AI 将需要数万亿美元的基础设施投资。

这是人类历史上规模最大的技术基础设施建设,也是一代人只有一次的机会,让美国重新工业化,恢复国家的建造能力。为了支持 AI,美国将在全国各地建设芯片工厂、计算机工厂、数据中心和先进制造设施。AI 给了美国再次建设的机会。电工、管道工、钢铁工人、技术员、建筑工人,这是你们的时代。

AI 不只是在创造一个新的计算产业,它正在创造一个新的工业时代。支撑这些新基础设施需要巨大的能源,但它也在推动几代人以来规模最大的能源基础设施投资之一,推动电网现代化、扩大电力生产,并加速可持续能源发展。是的,AI 会改变每一份工作,但一份工作的任务和目的并不是一回事。许多任务会被自动化。一些工作会消失,但许多新的工作和全新的行业也会被创造出来。

软件编码任务正越来越多地被自动化,但借助 AI,软件工程师可以扩大解决方案的搜索范围,从而应对更宏大的挑战。放射影像分析正越来越多地被自动化,但借助 AI,放射科医生会被提升到更高水平,更好地诊断疾病、照护患者。AI 不会取代人的目标,它会放大人的能力。这就是为什么即使 AI 编写了更多代码、分析了更多影像,对软件工程师和放射科医生的需求仍在继续增长。AI 不太可能取代你,但更会使用 AI 的人可能会取代你。所以一个很好的思维实验是:

我们希望自己的孩子被 AI 增强,还是被那些被 AI 增强的人甩在后面?没有父母希望自己的孩子被落下。所以,让我们安全地建设 AI。同时,也让我们想象一个乐观的未来,一个让我们的孩子愿意参与其中、并受到鼓舞去帮助建设的未来。因此,我们可以也必须同时做好四件事:安全地推进 AI,制定周全的政策,让 AI 被广泛使用,并鼓励每个人参与其中。每个人都应该拥有 AI。

机会不应该只属于会写代码的人。

2026 届毕业生们,你们正进入一个非凡的时代。一个新的产业正在诞生,一个科学与发现的新时代正在开启。AI 将加速人类知识的扩展,帮助我们解决曾经无法触及的问题。我们有机会弥合技术鸿沟,第一次把计算和智能的力量带给数十亿人;有机会让美国重新工业化,恢复我们的建造能力;也有机会帮助创造一个比你们所继承的世界更富足、更有能力、更充满希望的未来。

没有任何一代人像你们这样,在进入世界时拥有如此强大的工具和如此巨大的机会。我们都站在同一条起跑线上。这是你们帮助塑造未来的时刻。所以,要奔跑,不要慢走。卡内基梅隆大学有一句我很喜欢的校训:我的心在工作之中。

所以,把你们的心投入到工作中。去创造一些配得上你们所受教育、你们的潜力,以及那些在世界相信你们之前就已经相信你们的人的东西。祝贺你们,卡内基梅隆大学 2026 届毕业生。

作者:莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Last Week on My Mac: snapshots, the elephant in APFS

When Apple announced APFS at WWDC ten years ago, snapshots were demonstrated as one of its major features, and intended to form the basis of Time Machine’s backups in the future. Shortly after its initial release in High Sierra, Rich Trouton at Der Flounder documented their use, including how to roll back to a snapshot using Time Machine System Restore in Recovery mode. Apple described this in a support note now replaced by its successor, last revised six months ago, which carefully avoids any mention of rollback.

Snapshots are widely available in modern file systems, in some being referred to as shadow copies, and rolling back to them is a popular if not indispensable feature. Except in APFS, where there appears to be only one supported method, which is severely restricted, as I described last week. That enables you to roll back your Mac’s current Data volume to a snapshot, but doesn’t work for any other volume as far as I can discover.

Disk Utility can display and delete snapshots on any mounted disk, but can’t create or roll back to them. Its command line equivalent diskutil has the same limits (unless you’re ChatGPT). tmutil appears to be the only way to create a snapshot in macOS, but can’t perform that for an arbitrary volume, only the current Data volume and those being backed up by Time Machine.

If I wanted to make a one-off snapshot of a volume on an external SSD, I’d thus have to turn to a third-party utility. Even here I’m up against Apple again, as the API for snapshots is controlled by two restricted entitlements, com.apple.developer.vfs.snapshot for creating and deleting them, and com.apple.private.apfs.revert-to-snapshot for rollback. So far, Apple appears to have approved only apps that make backups and automatically delete their old snapshots to prevent them from overwhelming storage space, and I’m not aware of one with the com.apple.private.apfs.revert-to-snapshot entitlement to allow rollback.

As Adam Leventhal has documented in his open source command tool snaputil, the API call fs_snapshot_revert() is used to perform a rollback, but without the com.apple.private.apfs.revert-to-snapshot entitlement is non-functional.

Having drawn a blank with Apple’s tools, you might feel tempted to ask AI to help. If you’re lucky it might talk you through using Time Machine System Restore in Recovery mode, although as we’ve seen that can’t help with any volume other than the current Data volume.

ChatGPT’s responses to two queries from different people are more concerning, as it repeatedly asserted that you can roll back using a completely imaginary verb with the diskutil command, in one case using a command of the form
diskutil apfs revertToSnapshot -n com.apple.TimeMachine.YYYY-MM-DD-HHMMSS /
or using
diskutil apfs revertToSnapshot disk1s5 -n com.apple.TimeMachine.YYYY-MM-DD-HHMMSS
instead.

I have checked that in normal user mode and in Recovery mode, only to be told the revertToSnapshot verb isn’t recognised. With the aid of virtual machines, I’ve confirmed that as far back as macOS 12 Monterey, and there’s absolutely no sign of it. When challenged, ChatGPT maintained that it was “directionally right” that revert capability exists in APFS, as we already know from Time Machine System Restore, and that Apple’s entitlement structure “proves it”. It’s a shame I had to do so much checking to confirm that ChatGPT was plain wrong, and had apparently made up those commands.

Not being able to make a one-off snapshot of a volume on an external SSD might appear a small if annoying oversight, but it has consequences. Snapshots are not only blazingly quick in rollback, but they are also the only means of restoring some important volume content, such as document versions, which is easily demonstrated.

When files are restored by copying from a mounted snapshot, all their saved versions are lost. They are also lost from Time Machine backups, and in any case would be lost during migration. The only way to preserve those versions would be using a third-party tool such as my Versatility or Revisionist.

Ten years after Apple first promised us snapshots in APFS, we still don’t have access to their full capabilities, and their use remains largely undocumented. Yet they’re readily available in competing operating systems and file systems.

❌