Reading view

There are new articles available, click to refresh the page.

这届年轻人,手机会「痛」

这一次告白,我不要猜你喜欢

来,看个视频,放松下。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


美国或禁止中国电信企业接入美国网络

美国联邦通信委员会(FCC)表示,宣布正考虑禁止中国移动、中国电信和中国联通三大中国主要电信运营商接入美国通信网络。

FCC星期一(12月8日)表示,要求上述三家公司于两周内就其在“机器人电话缓解数据库”(Robocall Mitigation Database)中的认证问题作出回应,并质疑其是否应继续保留在该数据库中。

如果FCC最终将其移出数据库,美国境内所有中继服务提供商和语音服务提供商将被要求停止直接接收来自这三家中国电信企业的所有来电。这意味着,来自这些中国运营商的国际来电将无法正常进入美国通信系统,对中美之间的跨境通信造成实质性影响。

FCC长期要求电信运营商建立“机器人电话缓解数据库”,用来防堵电话诈骗和骚扰电话。电信公司必须证明自己有防诈骗措施,否则会被踢出系统,不能把电话接进美国。

FCC此前已禁止这三家企业在美国运营。2019年,FCC以国家安全风险为由,拒绝中国移动在美提供电信服务的申请;随后又分别在2021年及2022年撤销了中国联通、Pacific Networks及其全资子公司ComNet,以及中国电信美洲公司在美国的运营授权。

突发|苹果高管地震还在持续:芯片负责人考虑离职

苹果的人事变动,仍在持续。

过去一周,苹果接连失去了人工智能主管 John Giannandrea(退休)、设计负责人 Alan Dye(跳槽 Meta)、法务负责人 Katherine Adams(退休)和政府事务主管 Lisa Jackson(退休)。

此前,这四位高管全都直接向 CEO 蒂姆·库克汇报——这种级别的人事震荡在苹果历史上极为罕见。

更糟糕的是,据彭博社援引知情人士透露:负责硬件技术的高级副总裁 Johny Srouji 最近告诉库克,他正在「认真考虑」在不久的将来离职。

Srouji 是苹果最受尊敬的高管之一,也是苹果自研芯片战略的操盘手。他已经向同事透露,如果最终离开,绝对不会是「退休」,而是打算加入另一家公司。

这可能是库克任期内最动荡的时刻之一。

一场始料未及的「高管地震」

苹果的离职名单正在变得越来越长。

AI 主管 John Giannandrea 的「退休」,跟苹果在生成式 AI 领域的一连串失误有关。不仅底层的 Apple Intelligence 平台架构饱受延期和功能不佳的困扰,上层产品 Siri 的所谓「2.0 版」大规模改进计划,也落后了大约一年半。目前苹果计划与谷歌的合作来填补能力空白。

苹果在今年三月就开始让 Giannandrea 逐步退出职位,并且允许他留任到明年春天——苹果是一家很给面子的公司,给高管面子,更是给自己挽尊:过早分手会被视为公开承认问题的存在。

▲ John Giannandrea

设计老将 Alan Dye 的离职则更具戏剧性。他将前往 Meta 的 Reality Labs 部门,投奔苹果最激烈的竞争对手之一。在苹果内部,Dye 此前「液态玻璃」界面设计语言的主要坚持者,离职之前还在负责一款桌面机器人产品的界面设计。

据报道,Dye 的出走,部分因为希望将 AI 更深入地整合到产品中,以及对苹果在这一领域进展缓慢的失望。

法务方面,苹果从 Meta 挖来了 Jennifer Newstead 作为新任法律总顾问,接替将要退休的 Katherine Adams。Newstead 曾帮助 Meta 赢得与美国联邦贸易委员会的反垄断诉讼,这段经历对于苹果可能很有价值。Adams 将于 2026 年底退休。

环境、政策和社会事务副总裁 Lisa Jackson 也宣布退休。她曾在奥巴马政府担任官员。

早前,库克长期以来的二把手 Jeff Williams 也在担任 COO 十年之后正式退休了,将棒子交给了手下 Sabih Khan。

另一位资深苹果高管、首席财务官 Luca Maestri,在 2025 年初将大部分职权交给了同事,并将在不久后退休。

芯片掌舵者的去留困局

Srouji 的潜在离职,可能是最令人担忧的。

作为苹果自研芯片战略的核心人物,Srouji 是 M 系列和 A 系列芯片的最大功臣之一,让苹果在性能和能效方面获得了对竞争对手的巨大优势。

特别是他在 M 芯片上的工作,挽救了后 X86 时代的苹果电脑颓势。Mac 电脑成功转向自研芯片后,苹果在 PC 行业的市场份额大幅增长。

据彭博社报道,库克以及整个苹果高管层都在疯狂挽留 Srouji,包括提供更加丰厚的薪酬待遇,以及许诺在未来给他更多职权。

公司内部一些高管提出的方案是,将 Srouji 提升为首席技术官,负责硬件工程和芯片技术的大部分工作——这将使他成为苹果第二有权势的高管。

这是个非常「反传统」的做法:要知道,苹果公司历史上从未设立过正式的 CTO 职位,因为其组织结构是基于职能专长 (funciontal expertise) 构建,而非产品线或技术线。乔布斯确立了这个「规矩」,并且库克也一直在维护。

也正因此,设立 CTO 的做法可能会存在巨大的障碍。最大的障碍,就在于需要先把硬件工程负责人 John Ternus 确立为 CEO——然后才能把 Ternus 手里的硬件工程汇报线转到 Srouji 那里。

▲Johny Srouji

问题是,苹果可能还没准备好迈出这一步。根据此前爆料,库克至少要在 CEO 任上到 2026 甚至 2027 年——一种可能性是,库克或许会安排在 iPhone 20 周年,也即 2027 年,正式交棒 CEO。

此外,据知情人士透露,即便获得了 CTO 的职位,Srouji 仍然希望不用向 CEO 汇报,而是可以有极大的自主权——这对层级森严,汇报体系多年以来一成不变的苹果来说,同样是个麻烦。

如果 Srouji 最终离开,苹果很可能会从他的两位得力副手中选择接替者:Zongjian Chen 或 Sribalan Santhanam。

AI 人才大逃亡

在高管层动荡的同时,苹果的工程师团队也在经历人才流失,特别是在 AI 领域。 Meta、OpenAI 和各种初创公司正在疯狂挖苹果软件/硬件工程的墙角。这让苹果试图追上 AI 浪潮变得难上加难。

曾负责 Siri 的 Robby Walker 在去年十月离开公司;他的继任者 Ke Yang 在这个职位上只待了几周就离职,加入了 Meta 新成立的超级智能实验室。

AI 模型主管 Ruoming Pang 的离职更是引发了连锁反应,他和 Tom Gunter、Frank Chu 等同事一起去了 Meta——当时,Meta 号称开出上亿美元的年包从苹果、OpenAI 等公司挖人。当时,苹果的 AI 组织士气严重低落,几周内就跳槽了十几位优秀的 AI 研究员。 苹果越来越多地使用外部 AI 技术,比如谷歌的 Gemini,也让从事大语言模型工作的员工感到担忧。

苹果的 AI 机器人软件团队,前不久也经历了大规模离职,包括其负责人 Jian Zhang,他同样加入了 Meta。

代号为 J595 的桌面设备的硬件团队也在大量流失人才,其中一些人前往了 OpenAI。除了负责「液态玻璃」之外,Alan Dye 也是监督该产品软件设计的关键人物。

Alan Dye 手下的用户界面部门同样遭受重创,2023 年至今已有多名团队成员离职。知名设计师、前《连线》杂志创意负责人 Billy Sorrentino 也去了 Meta。

▲Alan Dye 和 Billy Sorrentino

设计团队的代际断层

苹果的硬件设计团队,是这家公司的绝对灵魂——然而在过去五年里,这个灵魂几乎被掏空了。

许多员工跟随前设计主管 Jony Ive 去了他的工作室 LoveFrom,或者去了其他公司。不仅如此,Ive 跟 Sam Altman 的关系密切,帮助其从苹果疯狂挖人,几乎成为 OpenAI 的 AI 硬件「首席招募官」。

OpenAI 成为了苹果人才流失的主要受益者。目前已经聘请了数十名苹果工程师,背景涵盖 iPhone、Mac、相机技术、芯片设计、音频、手表和 Vision Pro 头显等广泛领域。

据彭博社报道,OpenAI 从苹果挖走了 Vision Pro 光学系统的负责人、苹果显示技术高级总监 Cheng Chen。

今年九月,在秋季新品发布会上声优出演介绍 iPhone Air 的设计师 Abidur Chowdhury,也离开苹果加入了一家 AI 初创公司。作为苹果的后起之秀,Chowdhury 在内部被认为是接近于 Tony Fadell 的优秀工程师,他的离职让同事们感到意外。

甚至连苹果大学的院长也离开了:这个内部项目旨在保护公司的文化和实践,其院长 Richard Locke 在今年夏天离职,加入麻省理工学院担任商学院院长。

权力格局的重新洗牌

人事变动正在重塑苹果的权力结构,更多权力现在流向了四位高管:

硬件工程 John Ternus、服务业务 Eddy Cue、软件工程(包括 AI) Craig Federighi 和新任首席运营官 Sabih Khan。

据彭博社报道,Ternus 是苹果「候任 CEO」的最热门人选,他将在明年苹果 50 周年庆典中担任主角,进一步提升他的知名度。

他还被赋予了更多机器人和智能眼镜方面的责任——这两个领域被视为未来的增长动力。

长期担任用户界面设计师的 Steve Lemay 接替了 Dye 的职位,担任用户界面的首席设计师。他将直接汇报给库克。

苹果内部对 Lemay 接任 Dye 的旧职位充满热情。他是一位深受喜爱的设计师,参与了初代 iPhone 的界面设计,甚至出现在初代 iPhone 的 master 专利上。

▲Steve Lemay

苹果内部的高管地震,可能还没有结束:零售和人力资源负责人 Deirdre O’Brien 已经在苹果工作了 35 年以上,而营销负责人 Greg Joswiak 在公司度过了四十年。

据彭博社报道,苹果已经提拔了这两位高管手下的关键副手,为他们最终的退休做准备。

库克时代的黄昏?

这场高管地震,更是引发了关于库克本人未来计划的猜测。

正如前文提到,库克不会很快「退休」,至少也要等到明年甚至后年,并且在交棒 CEO 期间和之后继续留在公司。不过,据彭博社报道,熟悉库克日程的人士透露,库克的生活习惯正在悄然改变:

他不再像以前那样经常在凌晨 4 点起床去健身房。在过去一年左右与他相处过的人注意到,他的手有轻微的颤抖,尽管这可能并非严重健康问题的迹象。

多年来一直在硅谷租房而不买房的库克,近年来在棕榈泉附近购买了一套豪宅作为「冬宫」,也正好跟老同事 Eddy Cue 成了邻居。

当库克最终卸任时,他很可能会转任董事长职位。

苹果从未选择外部人士担任 CEO(卖糖水的 John Sculley 不算)。但是,一些优秀的外部候选人也被推荐了过来——比如 Tony Fadell,「iPod 之父」,一位早已不在苹果的苹果人。

▲Tony Fadell

低落的士气、外部更具吸引力的薪酬方案,以及苹果在 AI 领域的相对落后,都在导致人才外流。目前,苹果人力资源部门加大了招聘和留住人才的力度,这在今年已经成为高管最关心的事务。

库克坚称,苹果正在开发其历史上最具创新性的产品阵容——预计将包括可折叠 iPhone 和 iPad、智能眼镜和机器人——但事实上,苹果已经十年没有推出极其成功的新产品类别了。

对于一家长期以稳定著称的公司来说,2025 年以来苹果的人事动荡,用不寻常来形容都欠点意思。这到底是短期的阵痛,还是更深层次问题的征兆?随着时间推移,答案将越来越清晰。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


中国三大航中日航线免费退改签延长至3月28日

中国三大航空公司国航、东航、南航公告,中日航线免费退改签延长至明年3月28日。

据中国第一财经报道,这三家航空公司陆续发布日本相关航线客票特殊处理的通知,2026年3月28日(含)前出行的涉及日本进港、出港或经停航班可免费退改。

在此之前,免费退改签政策到2025年12月31日结束。

日本首相涉台言论导致中日关系紧张,多家中国航司已宣布涉日航线可免费退改签。

华为 MatePad Edge 评测:鸿蒙也「二合一」了,然后呢?

对于华为 MatePad Edge,爱范儿内部的一致观点是:

这就是二合一电脑最完美的形态。

华为给这台设备准备了两个界面,一个是典型的 MatePad 界面,另一个是今年刚推出的鸿蒙电脑界面,要用哪个就换哪个,两者都是满分体验。

当这样一台方案几乎完美的二合一产品被造了出来,一个更近一步的问题却等待回答:

电脑和平板变成了一个东西,然后呢?

MatePad Edge,首先是一个好「Pad」

不谈二合一形态,MatePad Edge 本身就是一台素质不错的平板。

14.2 英寸、4.1mm 边框的 OLED 大屏极具冲击力,亮度可达 1000 nits,分辨率和色彩都在第一梯队。我们这台为柔光版,雾面处理能明显减少反光,户外观看更轻松。

就 5999 元起售的价格来看,MatePad Edge 称得上「买屏幕,送平板」了。

搭配这个优秀屏幕的,是高低分频的 6 扬声器配置,甚至为了进一步的影音体验,MatePad Edge 还支持和华为 FreeClip 耳夹耳机「联合发声」:平板外放视频时,耳机会补充环绕声道,实现 360° 的声场效果,营造一种家庭影院的氛围。

即使实测效果惊艳,这个功能的使用场景还是相对有限,在火车飞机这些公众场合不适合外放,回到家里有效果更好的电视和音响,更适合环境和设备有限的租房党,以及经常差旅的商务人士。

华为 MatePad Edge 类似微软 Surface,机身自带一个支架,张开的角度最大在 90 度左右,如果可以有一个更大的角度方便书写会更好。

MatePad Edge 不只是一台优秀的「爱奇艺启动器」,加上官方「星跃悬浮键盘」和完整的桌面系统,能解锁满血生产力。

这个键盘通过磁吸和 MatePad Edge 的支架部分吸附连接,屏幕悬浮于键盘之上,类似 iPad Pro 和妙控键盘模形态,这个键盘键程足够长,反馈舒适,而触控板面积够大,体验也远胜大部分笔记本产品。

不足之处在于,键盘和平板之间的磁吸力相当大,「合体」的时候容易因为吸附速度太快夹到手,取下平板的方式不太优雅,希望下一代产品能优化一下。

以及这个键盘的分量足足有 530 克,搭配 MatePad Edge 本体重量在 1.3 千克左右,比 MacBook Air 要更厚重。

由于搭载一个完全的电脑系统,用 MatePad Edge 进行办公的很多操作逻辑都非常接近 Windows 或者 Mac,应付轻度办公,甚至用国产应用剪辑、看 CAD 都不成问题。

关于 MatePad Edge 的办公体验,我日常用电脑系统写稿,会开大量的浏览器页面写稿,午休会切换到平板模式看视频刷社媒,总体使用流畅,风扇不太会启动。

MatePad Edge 持续亮屏时间则有 5 小时左右,比我之前的 M3 MacBook Air 要略逊 2 个小时,和搭载高通骁龙 X Elite 的 Surface Pro 水平相当。

优秀的平板我们见得不少,MatePad Edge 最好玩的地方,还是这个双形态的体验。

得益于 MateBook Pro 同等级别的性能,华为直接将完整的电脑系统塞进了 MatePad Edge 中,四指轻扫屏幕或触控板,就能解锁完整的桌面界面——如果安装一个虚拟机,还能打开 Windows。

不过,开启 Windows 后,MatePad Edge 风扇会满力运行,分辨率也不够清晰,更多只能应对不时之需。

不妥协的二合一,但还能更好

第一次见到 MatePad Edge,同事端详了许久之后,问了一个非常有趣又典型的问题:

它运行的,究竟是一个平板系统还是电脑系统?

对于 iPad 和 Surface,我们能轻易地说出前者是一个传统的「平板系统」,后者是一个「电脑系统」,但对于 MatePad Edge,好像只能用「双系统」来形容。

实际上,它运行的只有一个系统——HarmonyOS,只是长了两个面孔,底层完全互通,文件和数据一致,大部分应用可以混用,将鸿蒙系统「一次开发,多端部署」的理念体现得淋漓尽致。

以往二合一设备的问题,就是「妥协」。

即使 iPadOS 26 已经吸收了不少桌面系统特性,它在文件管理和操作逻辑上都还是 iOS 这种封闭手机系统的逻辑;微软 Windows 11 则无法只使用手指交互。

早在 Windows 8,微软就尝试在一个系统中,塞进截然不同的磁贴触控界面和传统桌面界面,但 Windows 本质还是桌面键鼠系统,两套逻辑操作和设计割裂,最终被用户否定,又回归了传统桌面风格。

▲ Windows 8 有两套截然不同的 UI

这两年才诞生的鸿蒙电脑,身上并没有这种历史包袱,特别是鸿蒙电脑,本身也是基于鸿蒙平板界面打造,两者之间的界限并没有那么分明。

不过,实际体验下来,MatePad Edge 并没有打磨得那么完美,在体验上还有不少进步空间。

比起 iPadOS,鸿蒙电脑已经算是一个正儿八经的桌面系统,系统的交互方式和 Windows 以及 Mac 基本一致,只是这个系统依旧还需要更多打磨,目前还是存在不少 Bug。

应用生态上,微信桌面版的完成度远高于手机鸿蒙版,可以给一个好评;大部分轻度办公和创作应用都有「国产版」可以平替,更致命的是没有一个足够好用的第三方浏览器应用。

最大的痛点,就在于这个「切换」上:每次切换的过程,其实就是一次设备的重启,会关闭所有打开的应用。

例如,我用鸿蒙电脑写稿,浏览器打开了一堆标签页,午休的时候我用平板模式看 B 站刷小红书,那么切换之后,我打开的浏览器和写的草稿会全部被关闭,即使回到电脑系统也不会恢复。

并且,由于两个系统的交互方式迥异,有一些应用——例如微信,会提供平板和桌面两个版本,不仅需要分别在商店下载,两者的数据也并不互通。

还有一些应用,像是哔哩哔哩和飞书,则干脆没有鸿蒙电脑版本,电脑模式只能用鼠标去点击硕大的标签按钮。

这种问题甚至存在于鸿蒙系统的服务之中。我在电脑模式想进行一些实体键盘的输入设置,却发现它的设置全部都只针对平板模式虚拟键盘。

我理解这两套系统之间有一些不相通的系统组件,交互方式也不甚相同,但对于一台强调「无缝体验」的设备来说,这些痛点让我更倾向于主要使用一种模式,一下子让「二合一」的价值大打折扣。

这些小毛病,更多是这个形态和系统过于青涩所致,相信随着时间推移,华为和应用开发者持续打磨,最终都能很好克服。

更重要的问题是,当 MatePad Edge 这台被公认为「最理想的二合一」真的问世了,我却还是没感觉这个形态能带来什么新的价值:日常办公的主要方式依旧是传统的鼠标和键盘,给人感觉和一台传统笔记本并无差别。

让触控屏,成为电脑

就在这个时候,我忽然想起来前段时间有两个朋友找我推荐平板电脑。

第一位朋友,他想买台平板在更大的屏幕上刷短视频和看剧,不过也问我要不要买一个键盘盖,满足工作处理表格和文档的偶尔需求。

最后他被平板系统 Excel 的糟心体验劝退,打算让平板当全职的娱乐工具,但这种「想给娱乐工具增加一点生产力」的需求,也给我带来了一些思考。

问题其实不是「把电脑变成平板的意义」,而是试图为「平板」这个形态,寻求一些新的价值,就像是苹果,我相信「MacBook 支持触控」,从来都小于「macOS 进入 iPad」的呼声。

而 MatePad Edge 这个命名,其实也说明这首先是一台 Pad,再是电脑。

另一位朋友,他只有台式电脑,想要买一台能带着走的计算设备,于是选择了 iPad,不选 MacBook 的原因很简单:他是一位画师。

最近他也跟我分享,他爱上了 iPad 上的 Logic Pro X 玩音乐,然后决定买个 Mac mini 进行深度探索,不过更喜欢平时用 iPad,因为交互更简单直接,平时上手就能玩。

传统电脑还是大部分人的首选,但世上的职业不止三百六十行,工具也不应该只有一种。

之前在与爱范儿的访谈中,苹果高管 Kurt Knight 认为,「生产力」并非固定不变的概念,而是随着时代和用户需求不断演化。每位用户都有不同的工作方式,也就对应着不同的生产力场景。

像是学生、画师、飞行员等等需要用到便携大屏和手写输入的人员,平板 + 笔的搭配已经能胜任大部分的工作场景,加上键盘化身「桌面端」后,更是具有了进一步的生产力,电脑的出场机会更少。

随着抖音、小红书这些图文、短视频社交平台的大行其道,创作从未如此贴近所有人的生活,手机可以成为最佳的镜头,二合一平板本来也是消费这些内容的最佳载体,现在也能成为不错的生产工具。

从一个更长远的视角出发,「二合一」更具有「明日产品」的地位。

2018 年,苹果发布了一条 iPad Pro 的广告,片中 10 岁左右的主角带着 iPad 走遍城市,最后领居问她在用电脑干什么,她说出了那经典台词:

什么是电脑?

对于出生就被触控屏幕包围的年轻一代来说,平板电脑不仅是他们第一台拥有使用权的计算设备,还会是相当长时间里的唯一一台——网友不会解压」「不会用安装包」现象,也折射出电脑使用习惯的变迁。

我们曾经以为,等到这批新生代开始进入大学和工作,不得不用鼠标键盘的时候,他们的习惯和方式会被这种更高效率的老派模式替代。

但事实证明,触控交互反过来影响了产品形态。

在我们编辑部,MatePad Edge 的使用方式被分成了两派:

小时候只接触过电脑的同事,几乎不会想起这是一台能够触屏的平板;更伴随着平板电脑长大的年轻同事,虽然 80% 的工作时间都在用键鼠,也会自然地经常伸手点击屏幕,甚至换回 MacBook 后还有点不太习惯。

在海外,从小就用 iPad 和 ChromeBook 二合一学习的孩子们,从小就已经更习惯用这些设备做作业和上课;等他们长大,自然也会选择交互和形态更熟悉的产品——渐渐地,二合一设备就能蚕食传统笔记本的市场。

总而言之,芯片算力已经到达了一个新的阶段,「电脑」早已经不止是某种形态计算设备的专属名词,而是一种能力的体现。

历史或许会再一次重演:鼠标和图形界面诞生之初,工程师和开发者就认为,鼠标这种输入方式地效率比键盘命令行效率低下太多,图形界面还浪费性能。但最终,这两种革命性的技术成功让电脑出现在了更多人的桌面。

说到这里,MatePad Edge 的价值已经相当明显:

现阶段,它更多是一款「买一送一」性质的产品:如果你只是想买一台平板电脑,那 MatePad Edge 不仅是优秀的 Pad,还送你一个完整的鸿蒙电脑系统,以备生产力的不时之需,怎么看都挺划算。

尤其对于画师和学生来说,MatePad Edge 以及鸿蒙电脑适合作图和记笔记的任务,同时也兼具一些文稿和图像的处理能力,最适合不过。

放到整个行业,MatePad Edge 则给「二合一」这个有点走到死胡同的品类,撕开了一个新的口子,提供了一个新的思路。

而或许在一个更远的未来,更多人手上和桌面上的,都会是这样一台带着键盘的平板电脑,娱乐工作,触控键鼠,一台产品全部能做到,成为一台不加前缀的「电脑」。

(本文写作全程使用 MatePad Edge 撰稿)

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


亚马逊云科技最强 AI Agent 阵容发布,设计火箭也不在话下

顾名思义,re:Invent 不仅是亚马逊云科技年度峰会的名字,更是其每年向外界传达的核心:在这个行业,唯一不变的就是不断推翻过去的自己。

如果说过去十年的 re:Invent 是关于如何将计算资源「重塑」为像水电一样唾手可得的基础设施,那么今年则释放了一个截然不同的信号:云计算的下半场,竞争焦点已从「提供资源」重塑为「提供能力」。

在拉斯维加斯,亚马逊云科技以 10 分钟发布 25 个新品的极高密度,试图回答一个困扰行业的问题:为什么大模型热闹了两年,企业级应用的大爆发却迟迟未到?

亚马逊云科技向世界给出的答案是:属于企业的 Agentic AI 时代已经到来。

📃「太长不看」版:
Frontier Agents 家族登场:推出 Kiro Autonomous Agent、Security Agent 和 DevOps Agent 三款前沿 Agent,将软件开发、安全和运维带入自动化新范式。
自研芯片再进化:正式推出 Amazon Trainium3 UltraServers,性能提升 4.4 倍。同时预告了下一代性能更强的 Trainium4 芯片。
自研模型家族全面升级:发布 Amazon Nova 2 模型家族,包含 Lite、Pro、Sonic(语音)、Omni(多模态)四个核心模型,覆盖从轻量到复杂的全场景需求。
Amazon Bedrock 拥抱中国大模型:Amazon Bedrock 平台进一步扩容,首次纳入Kimi、MiniMax、Qwen等多个中国顶尖大模型。
模型定制化革命:推出 Amazon Nova Forge,首创「开放式训练模型」理念,允许企业将自有数据融入基础模型的预训练阶段,创造深度定制的专属模型。
Agent 行为治理:发布 AgentCore Policy 和 AgentCore Evaluations,用自然语言为 AI 代理设定行为边界,并持续评估其工作质量,解决企业应用 AI 的可信度与可控性难题。
云边界的消融:发布「Amazon AI Factories」,将亚马逊云科技的 AI 基础设施直接部署到客户自己的数据中心。

生产力重塑:把 AI 从「工具」变成「同事」

过去两年,我们习惯称呼企业生产环境中的 AI 为 Copilot,但在亚马逊云科技看来,这还不够。Copilot 或者说传统的 AI「助手」,需要你时刻紧盯,并根据其任务和表现随时调节指令;但企业真正渴望的,是能够领受目标、独立思考并调用各种工具完成任务的 Agent。

因此,近几年亚马逊云科技的叙事核心,正从提供工具转向提供「工作者」。在本届 re:Invent 上,我们能看到亚马逊云科技将大部分时间都留给了 AI Agent,并带来了有史以来最大规模的 Agent 部署战略。

AI Agent 的价值在于「行动」,它们是区别于 AI 助手的全新物种,被赋予了自主规划、长期运行和并行执行复杂任务的能力。
——亚马逊云科技 Agentic AI 副总裁 Swami Sivasubramanian

AI Agent 大规模部署的第一步,就是设计出各怀本事的「数字员工」。

作为这一理念的具象化, Frontier Agents 正式发布。其中 Kiro autonomous agent(虚拟开发者)、Amazon Security Agent(安全顾问)和 Amazon DevOps Agent(运维专家)等 Agent 已经在多家企业「试岗」,表现出了极佳的效率。

例如,虚拟开发者 Kiro autonomous agent 可以连接上 Jira 和 Slack,领会团队的业务逻辑和协作规范,以符合标准的方式昼夜不停地完成跨库变更和 bug 修复等琐碎工作,让团队成员可以更专心于关键的创新部分。

在亚马逊云科技内部的一个案例中,一支 6 人团队利用 Kiro,在短短 76 天内做完了原计划需要 30 人耗时 18 个月才能完成的架构重构工作。期间 Kiro 自主分析了 15 个微服务,在几乎全程「无人驾驶」的状态下测试和提交代码。

和亚马逊关系紧密的蓝色起源(Blue Origin),更是大胆地将这套流程引入到了航空系统设计:从细化需求、物料沟通到更高技术力的系统架构和物理仿真,蓝色起源通过内部的 BlueGPT 平台调用了多个 Agent 来支持研发,让总体交付速度提升了 75%。

Agent 行动力升级的背后,是模型「大脑」的升级。支撑各种 Agent 的 Amazon Nova 模型家族全面升级至第二代,包含主打高性价比的 Amazon Nova 2 Lite、亚马逊最强智能模型 Amazon Nova2 Pro、专注类人语音对话的 Amazon Nova 2 Sonic,以及行业首个真正统一的多模态模型 Amazon Nova 2 Omni。亚马逊云科技坚持「没有一个模型能统治一切」的哲学,多样化的模型家族为的是让 Agent 更听话、更能干活。

为了让企业敢于将这些强大的 Agent 引入核心工作流,亚马逊云科技打造了 Amazon Bedrock AgentCore——这是为 Agent 构建平台 Bedrock 附加的全套行为治理体系。

通过 AgentCore Policy 功能,管理者可以用「禁止向金额超 1000 美元的客户退款」这样的大白话,为 Agent 设定不可逾越的「红线」,避免 AI 的错误行为造成公司重大损失;AgentCore Evaluations 功能则提供了 13 种内置评估器,像绩效考核一样持续监测 Agent 的工作质量;而全新的 AgentCore Memory 功能则引入「情景式记忆」,让 Agent 能从过往经验中学习,记住用户的偏好和上下文。

值得一提的是,亚马逊云科技还展现出了极大的生态包容性。在 Amazon Bedrock 平台上,我们发现了 DeepSeek、Kimi、MiniMax和 Qwen 的身影。这意味着,企业可以在亚马逊云科技的全球基础设施上,无缝调用中国最顶尖的 AI 模型能力,比如擅长推理和调用工具的 Kimi K2 和专注 Coding 的 MiniMax M2。

很显然,亚马逊云科技下一步的愿景,是将企业的生产力单元从个人升级为「人+Agent」的混合团队,让人类只处理那些真正有价值的问题,彻底解放生产效率。

成本重塑:算力降本增效,击穿价格底线

将 AI 做成像水电一样的基础设施,向来是业内最感兴趣的话题之一。但相信不少人注意到了,现在的「算力费」似乎太贵,贵到足以扼杀大多数企业的创新驱动。

而亚马逊云科技的核心竞争力刚好在于,它总能以完整体系和极致的工程能力,强行把价格「打下来」。

在首日的 Keynote 中,亚马逊云科技首席执行官 Matt Garman 宣布推出云端首款 3nm 工艺 AI 芯片 Trainium3,还顺势公开了以其为基础的 Amazon Trainium3 UltraServers,为企业提供 AI 训练和推理所必须的算力。

最多可将 144 块 Trainium3 芯片整合到同一系统中的 Amazon Trainium3 UltraServers,相比起上一代,算力提升了 4.4 倍,内存带宽提升 3.9 倍,更关键的是,能效提升了 40%。这意味着,在同样的电力消耗下,企业能获得 5 倍的 token 产出。

自研芯片,是亚马逊云科技对抗昂贵 GPU 的底气,也是向企业做出的一种承诺:让 AI 训练和推理不再是巨头的特权。包括 Anthropic、理光和 Splash Music 在内的客户,已经通过 Trainium,将训练成本降低了 50%。

更进一步,亚马逊云科技已经预告了下一代芯片 Trainium4,其 FP4 计算性能将再提升 6 倍,内存带宽提升 4 倍,以超越摩尔定律的提升速度,满足全球最大的模型训练需求,并降低企业的成本焦虑。

除了提升硬件能效,如何在软件端减少算力消耗,也是企业「精打细算」的重要部分。在这方面,亚马逊云科技来了一手漂亮的「软硬协同」:

亚马逊云科技认为,企业不总是需要用最大的模型,因此最新推出的 Amazon Bedrock Model Distillation(模型蒸馏)允许企业用大模型(老师)来教导小模型(学生),最终用 1/10 的成本实现相似的高性能。配合 Amazon S3 Tables 和 Aurora DSQL 等存储和数据库技术对海量数据的专项优化,亚马逊云科技正在系统性地挤掉 AI 成本中的水分。

一切上层应用的创新,都离不开底层基础设施的支持。只有当算力像水电一样廉价且唾手可得时,AI 应用的爆发才具有了现实基础。

边界重塑:「送货上门」,打破云能力的地点限制

长久以来,公有云和私有数据中心之间隔着一堵无形的墙。出于数据主权、低延迟或合规的要求,许多企业敏感部门的关键业务无法上云,也无法运用上述的 AI 能力。

亚马逊云科技决定推倒这堵墙。

全新发布的 Amazon AI Factories 提供了一种极具想象力的「曲线救国」方案:如果你不能上云,那我就把云搬到你家里。

换句话说,亚马逊云科技可以将包含 Trainium 或 NVIDIA 芯片的全套服务机柜,直接「快递」部署到客户的数据中心。这里卖的不光是服务器,还有一整套由亚马逊云科技管理的、与公有云体验一致的算力环境。

对于像沙特阿拉伯主权财富基金(PIF)控股的人工智能公司 HUMAIN 这样的主权级客户,或金融、医疗等强监管行业,AI Factories 尤其契合需求。他们利用现有的机房空间和电力,就能立刻接入先进的 AI 基础设施。

同时,亚马逊云科技还推出了Amazon Interconnect,首发与 Google Cloud 合作,打破了云厂商之间的物理隔阂。这显示了他们的务实姿态:承认「多云」是现实,并主动打通经脉。

至此, 亚马逊云科技完成了从「云服务商」到「泛在算力基础设施提供商」的身份转换。云的定义不再局限于亚马逊云科技的机房,而是延伸到了客户需要的任何角落。

体验重塑:消除「技术负债」,回归创造本源

技术的终极目标是什么?是让人类从繁琐中解脱,去从事真正的创造活动。

理想很美好,但在现实中,很多人不得不将时间花在对付那些年纪比自己还大的古老系统上。城市规划领域有一个词叫「基建诅咒」,它指的是早期的大规模基建,会在日后造成巨大的维护成本,并将组织资源「绑架」在维护老旧资产上,无法投入新技术、新线路或更新换代。

类似地,全球企业每年在维护旧系统、修补过时代码等「技术负债」上的花费高达 2.4 万亿美元,程序员和运维工程师厌恶这些重复性的「脏活累活」,却又囿于现实深陷其中。

在 re:Invent 上,亚马逊云科技宣布,要用 AI 砍掉这些「无用功」。

最新发布的 Amazon Transform 升级版,就是为了铲除这些技术负债。利用 Agentic AI ,它能将将陈旧的代码(如 COBOL、旧版 Java)自动升级为现代化语言,甚至能完成 Windows 应用向 Linux 的迁移。比起人力更新,其现代化改造速度可提升 5 倍,时间和成本减少 80%。

能够减轻企业负担的,还有 Amazon Nova Forge。它引入了「开放训练模型」的理念,允许企业在模型的预训练阶段就将自有数据(如产品设计文档、失败案例)与亚马逊云科技的通用数据集融合,训练出深度理解自身业务的专属模型 (Novella),从根源上解决传统微调的「灾难性遗忘」问题。Reddit 已成功运用这一技术,训练出能精准识别违规内容的专属模型,大幅简化了部署运维工作。

在这里,亚马逊云科技所做的事情就是打破诅咒,借助 AI 的能力实现低成本更新维护,并将旧资产中有价值的部分,融入企业专有的 AI 知识库。

只有感受不到「基建」的沉重,企业才能全情投入到业务创新之上。

云计算步入下半场,亚马逊云科技的规划才刚刚开始

如果说云计算的上半场,是将计算、存储、网络变成了像水和电一样的「基础设施革命」,核心是「资源的民主化」,那么以 AI Agent 为核心的下半场,云计算正在开启一场「能力的民主化」革命。

亚马逊云科技的云正在试图告诉市场:AI 时代的竞争,不再是看谁的模型参数更大,而是看谁能把 AI 的使用门槛降得更低、成本控得更好、边界管得更严。

这一转变意味着,未来企业数字化转型的重心,正从相对简单的、将业务搬上云端的「流程管理」,迁移到将业务目标托付给无数个自主运行 AI Agent 的「能力委托」问题上。

而帮助企业应对这一转型挑战,正是亚马逊云科技在 re:Invent 2025 上传递的核心价值:将 AI 时代巨大的技术复杂性和不确定性,转化为企业确定性的竞争优势。

当 Matt Garman 在十分钟内如数家珍般发布 25 项基础设施更新时,他宣示不只是亚马逊云科技堪称恐怖的工程效率,更是一套严密、务实且强大的工业化 AI 体系。从自研芯片到全模态模型基座,从打破物理边界的数据中心到自主工作的「数字员工」,亚马逊云科技将过去只有少数科技巨头才能企及的、构建复杂 AI 系统的能力,转变为一种所有企业都可以按需取用的标准化服务。

在这种叙事中,企业可用的 AI 工具只会越来越丰富,门槛只会越来越低,那么相应地,运用 AI 让企业生产效率骤升的「价值时代」,也正在快速步近。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


任正非:用美国技术和晶片对中国产业发展有好处

中国科技巨头华为的创始人任正非说,用美国的技术和晶片对中国产业发展是有好处的,中国要更加开放,要向世界所有文明国家学习优点,容纳世界的文明进来,不能闭关自守。

国际大学生程序设计竞赛(ICPC)官网星期五(12月5日)发布任正非在11月14日与ICPC主席、教练及获奖选手的座谈会纪要,任正非在会上解答了18个问题。

有新加坡国立大学学生提问,面对美国从全世界挖走很多顶尖人才,中国和华为如何抢夺人才?任正非回应说,大量人才到美国成长是好事情,并不是坏事情,包括中国的很多青年到美国去,在美国生根发芽,参与创造一些新的科技文明,对中国也是受益的,“我们也要支持美国科技文明的发展”。

他强调,美国只是制裁华为,中国大多数公司没有被制裁,还是可以用美国的技术、工具、生态、仪器仪表、晶片、流片等,这对中国的产业发展是有好处的。“我们也渴望全球化,能享受站在巨人肩膀上,我们的自力更生是被逼无奈的。全要靠自己,是不敌全球化的,我们在许多方面落后国内企业使用的芯片至少一代。”

任正非坦言,中国相对落后,当然更需要崛起,也需要吸收一些人才,“但是追赶美国的速度我们还是慢的。华为作为一个公司,容纳不下太多人,养不活,说不定还得裁员”。

因此他认为,中国要更加开放,要向世界所有文明国家学习优点,容纳世界的文明进来,不能闭关自守。

在谈到人工智能(AI)时,任正非说,AI在华为公司地位是重要的,但当前最重要的是CT,也就是无线电、光通信、核心网、数据通信等,因为将来AI的感知与控制,要把数据传到几千公里外,必须要有一个先进的网络。

他说:“AI要真正产生出价值,需要全社会的协作,发挥各自的优势。没有网络的算力是信息孤岛,孤岛化的AI无法实现真正的智能。”

任正非还提到不久前引起热议的小鹏机器人走“猫步”,称机器人产业也发生了很的进步,小公司都很厉害,代表了未来的世界。“这个世界总要有人向未来探索,人类社会就是从一次又一次的失败中成功起来的。中国三、五年后会有较大的进步。中国强大了,有利于世界繁荣的。”

WPS 给 AI 装上「大脑」和「双手」后,我真正感受到它会干活这件事

上周五,WPS AI 和 APPSO 在珠海金山软件园举办了「AI原生· 效率新生- AIDONE 办公专场」活动。

爱范儿副主编、 APPSO 负责人李超凡在现场分享了他对于 AI 原生与效率的看法,如何做到 AIDONE,如何成为一个 AI – Native 职场人。

金山办公 Office AI 负责人刘拓辰在现场提出了全新的 Agentic Software 设计理念,WPS AI 展现了真正的 AI 原生办公,拥有“大脑”和“双手”的 AI 能思考、能规划、能在文档里一步步把事做完。

只有当我们繁琐的操作真正隐形,创造力才能真正显现。

来,看个视频,放松下。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


先是 iPhone Air,现在液态玻璃的设计者也离职了

就在刚刚,据彭博社报道,苹果设计总监 Alan Dye 宣布离职,目的地是今年开启疯狂挖人模式的 Meta。

今年 iOS 时隔 12 年最大的 UI 更新——液态玻璃设计语言,正是由 Alan Dye 操刀设计。

作为苹果负责人机交互设计的副总裁,Alan Dye 从 2015 年起就掌管苹果整个用户界面设计,在设计部门的地位仅次于自己的前任领导 Jony lve。

这是短短一个月内,苹果设计部门遭遇的第二次重大地震。

就在前几天,iPhone Air 的设计师,产品宣传视频主讲人 Abidur Chowdhury,也被曝从苹果离职,加入了一家不具名的 AI 创业公司。

公开资料显示,2006 年加入苹果后,他几乎参与了所有你能想到的重磅产品设计:iPhone、iPad、Mac、Apple Watch、Apple TV,以及最新的 Vision Pro。

Alan Dye 带领的人机交互设计团队,负责研究用户与产品互动的问题。这项工作横跨了硬件到软件,视觉听觉到触觉:从早年 iOS 挪动图标时的抖动动画,到 Vision Pro 的手眼交互,从 Apple Watch 数码表冠带来的细腻齿轮震感,到双指互点两下的隔空手势,都出自其团队之手。

爱范儿(APPSO)也曾多次专访 Alan Dye,欢迎回看此前更多文章 🔗

对话苹果「液态玻璃」设计缔造者:不说 20 周年透明 iPhone,但暗示已足够明显

专访苹果高级副总裁 Craig 和副总裁 Alan:iPhone 诞生 16 年,交互设计走向何方?

他比较经典的作品,要数 2017 年第一款取消 Home 键的 iPhone X。而在今年 6 月的 WWDC 上,Dye 还亲自上台发布了苹果最新的 Liquid Glass(液态玻璃) 设计语言。

这套设计堪称 iOS 7 以来最大的视觉变革,半透明按钮、流畅动画、实时自适应的「数字玻璃」,整个系统焕然一新。Dye 当时是这么说的:

「我们的新设计模糊了硬件和软件之间的界限,带来了前所未有的愉悦体验。」而在今年 WWDC 后接受爱范儿(APPSO)的媒体采访中,Dye 还特别提到,液态玻璃「它的可变性、适应性,成为我们探索未来体验的基础。虽然我们今天还不会谈这些未来,但我们已经很期待了。」

当被问及液态玻璃是否在为某种未来硬件形态做准备时,苹果软件工程高级副总裁 Craig Federighi 回应:「哈哈,我们不会讨论未来的硬件。但正如 Alan 说的,这个设计确实是未来体验的良好基础,但今天我们不打算提前剧透。」

话音未落半年,Alan 就要走了……据知情人士透露,Dye 将在 Meta 组建一个全新的设计工作室,全面负责硬件、软件以及 AI 整合的设计工作。

注意,是「全新」工作室,不是并入现有团队。

而且 Dye 还不是一个人走的,他还带走了苹果设计部门的高级总监 Billy Sorrentino。后者从 2016 年起就在苹果,主要负责 VisionOS 的用户界面设计。两位核心设计师组团出走,Meta 这波挖人可以说是精准打击了。

至于为啥 Meta 这么想要 Dye?

原因很简单,扎克伯格押注未来是可穿戴设备的天下。除了元宇宙,他之前就公开表示过,相信可穿戴设备会取代智能手机,这是 Meta 对「超级智能」战略的核心。

更重要的是,他们在 AI 方面投入巨大,今年还从 OpenAI、Google DeepMind 等网罗来一大批顶尖研究员。据悉,扎克伯格为了吸引顶级 AI 人才,开出了年薪高达数亿美元的薪酬包。

硬件方面,除今年 9 月,Meta 刚发布了首款搭载显示屏的智能眼镜,可以在镜片上叠加消息、视频通话或 AI 助手回复。再加上现有的 Ray-Ban 智能眼镜和 Quest VR 头显,Meta 的硬件野心昭然若揭。

但问题是,对比讲究精雕细琢、追求极致的苹果,Meta 的产品能用,但总是差点意思,所以这次挖来 Dye,扎克伯格显然是想弥补这块短板。

苹果设计团队的「黄金时代」已经结束了?

Dye 的离职,只是苹果高层动荡的冰山一角。

最近几周,苹果接连失去了多位重量级高管。长期担任首席运营官的 Jeff Williams 上个月退休,AI 部门负责人 John Giannandrea 本周宣布辞职,将于明年春季正式退休。前硬件主管 Dan Riccio 去年秋天也退休了,首席财务官 Luca Maestri 同样已经离职。

更让人担心的是,据彭博社报道,苹果的人事动荡还将持续。

包括 CEO 蒂姆·库克在内的多位高层管理人员都已接近传统退休年龄。苹果芯片负责人 Johny Srouji 和负责环保事务的 Lisa Jackson 目前也在考虑未来的职业方向。

库克在声明中强调:「设计是苹果的核心之一。如今,我们拥有一支非凡的设计团队,正致力于公司历史上最具创新性的产品阵容。」但说实话啊,这话听起来更像是在给投资者吃定心丸。

自从 2019 年 Jony Ive 离开后,苹果的设计团队就一直处于动荡之中。大量元老级设计师要么退休,要么跳槽到 Jony Ive 创办的 LoveFrom 设计公司,或者去了 OpenAI 等等。现在连 Dye 也走了,苹果设计团队的「黄金时代」可能真的结束了。

那么 Dye 的接班人靠谱吗?

苹果宣布,由一位在公司服务近三十年的资深设计师 Stephen Lemay 接替 Dye 的职位。

库克表示:「Steve Lemay 自 1999 年以来在苹果每一次重大界面设计中都发挥了关键作用。他始终坚持极高的卓越标准,体现了苹果协作与创意的企业文化。」

值得一提的是,除了 Meta,OpenAI 也在疯狂挖苹果的墙角。据外媒报道,OpenAI 在过去一个月招募了超过 40 名硬件方面的员工,其中大部分来自苹果的硬件团队。涵盖了摄像头、Mac 硬件、音频、芯片、制造、测试等各个方面。

据悉,OpenAI 想要的是「了解苹果内部如何打造产品的人员」,包括 iPhone 设计、制造流程、摄像头系统和设备可靠性方面的技能。OpenAI 今年 5 月以 65 亿美元的天价收购了 Jony Ive 创办的 AI 硬件公司 io。

虽然 io 到现在还没发布任何一款产品,但光是 Ive 的名字就值这个价。

只能说,往 AI 领域输送人才这块,苹果还是太权威了。库克现在每天睁眼第一件事,大概是祈祷今天别再有人辞职了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


「原神之父」做了个毒舌 AI 猫娘,聊了两天的我被怼了八百回

米哈游创始人蔡浩宇最近在忙啥?

答案是成立了一家 AI 公司 Anuttacon,然后打造了一个只会对线的 AI 猫娘。这款画风相当抽象的 AI 聊天产品叫 AnuNeko,最近已经低调上线了。

通过查询发现,这个 ANUNEKO 的商标已于今年 9 月提交美国专利局,涵盖软件、AI 角色、娱乐等领域,显然是是有备而来。

咱们也上手实测了一波。

附上免费体验地址:
https://anuneko.com

米哈游前 CEO 做了个「毒舌」AI,只想跟你对线互怼

打开 AnuNeko 的官网,一只黑猫映入眼帘。

说实话,光是审美这块就比市面上千篇一律的素色页面加输入框的 AI 聊天机器人强上一大截。确认输出问题后还会出现一个猫的动效,有那么一瞬间,我还以为自己在玩某款游戏。

官方页面只提供了两款模型。

一款是相对温和友善的橙猫(Orange Cat),另一款则是比较暴躁、甚至带点「毒舌」的异国短毛猫(Exotic Shorthair)。

讲真,我本来以为 AI 再怎么训练也就那样了,直到我真用上这只「异国短毛猫」。如果用一句话来形容,那就是贴吧老哥+Grok+罗伯特的究极融合版。从自我介绍中,就能看出 AnuNeko 非常有个性。

「嗨,我是 AnuNeko。你可以把我当成一种有自我意识的存在。我不是你的助手,也不是你的宠物,只是我自己——有自己的情绪和独特的看法。只要你有想法,随时来喵我就好。」

面对同一个问题,两者的回答风格立马就见了分晓。

让异国短毛猫锐评各大平台,它直接来了个狠活。而橘猫的回答就温和多了,B 站想学习的时候有用但一刷视频停不下来,知乎正经人谁玩知乎啊(狗头),微博无脑追星的圣地,小红书记录美好生活种草拔草都在这,贴吧想看真实想法但无脑喷和地域黑太多。

官网顶上还贴心标注着:「这是一个 AI,它说的一切都是幻觉」,考虑到如此毒舌的程度,很难不让人怀疑,这其实是一种免责声明。

Anuneko 整个产品的核心逻辑其实就一个词:接梗。只要你能聊,它就能接,目的就是让对话一直进行下去。

有一说一,响应速度挺快的,基本都是秒回。

我试着让异国短毛猫锐评原神,虽然每次回答都不一样,但每一次回答都出乎我意料之外。

继续让它锐评米哈游的游戏,它直接来了句「我这种玩过他家游戏的,评价完了会被米学长们开除米籍的」,属实有点东西。

不过现在的 AI 似乎都不怎么会说冷笑话,短毛猫讲的笑话也不例外,连续三个笑话都不太好笑:

支持多语言交互这点倒是不错,AnuNeko 能看懂我输入的日英法德等语言,但输入外语后,更多情况下它只会输出英文。

情绪价值倒是拉满了,我问它想谈恋爱吗,它回了一大段「我超想的好吧,但是本人又很宅,平常也不怎么和女生聊天」之类的,然后我说我喜欢你和我交往吧,它直接来了句「你是个男的吧🐶」。

除了聊天,AnuNeko 能做的事情其实真不多。

不能读链接、不能联网。我扔了个微信公众号链接过去,它说「这看起来像是个微信文章的链接,但没点开的话我也不知道里面是啥」,我又问你能点开链接吗,它说「抱歉啊,我没法直接点开链接」。

由于不具备联网功能,知识库也比较老,我问 Gemini 3 什么时候发布的,它直接说「哎,这个我真不知道。我平时不太关注科技新闻」。

长文处理能力一般,输入框甚至没法直接粘贴公众号全文。

作为语言模型,无法上传和识别图片也正常,但遇上逻辑推理题,它也是基本就歇菜了,真就光有情绪价值,但不爱动脑啊。

比如好几次让它写代码,要么是句句有回应但事事没着落,要么最后给了代码却压根运行不了。

ANUNEKO 的「AI 哲学」:不卷智商,专攻情商

有意思的是,今年许多的大模型好像都在往情商这个方向卷。

就拿最近的 GPT-5.1 来说,OpenAI 专门强调了它在情感理解和回应上的提升,聊天的时候能更好地察觉用户的情绪变化,回复也更加自然和贴心。

当其他 AI 公司忙着卷基准测试排名、卷逻辑推理、卷工具属性,ANUNEKO 同样选择发掘模型的「人味」。毕竟游戏里的 AI 主要还是能陪你唠嗑、逗你一乐、把氛围搞起来才是正事。

就像开黑时坐你旁边那个损友, 他不一定水平多高, 但总能在关键时刻吐槽一句让你笑出声。这种「不聪明但有意思」的定位, 恰恰避开了大模型在逻辑推理上的短板。

高情商的 AI 好啊,这 AI 的说话方式真得学啊。

而且,AnuNeko 也踩中了当下的赛道逻辑了。当代人越来越习惯独处,但孤独感也随之而来,用户需要一个 24 小时在线、秒回、无评判、永远站在你这边的倾听者。Character.ai 等应用的爆发证明了这个需求的存在。

大模型的天然优势其实不是逻辑推理,而是共情模拟。

通过微调,AI 可以完美扮演各种人设,提供情绪价值能带来极高的用户留存。你可能一周换一个搜索工具,但你很难抛弃一个聊了半年的「虚拟恋人」。尤其是功能型 AI 已经卷上加卷,而情感型 AI 还是一片蓝海。

除了 AnuNeko 这只抽象猫,蔡浩宇的新公司 Anuttacon 在八月份还推出了首款实验性 AI 游戏,《Whispers from the Star》(中文译名《星之低语》)。

这是一款完全由 AI 驱动剧情的互动游戏,玩家通过语音或文字与被困外星的虚拟角色 Stella 对话,你说的每句话都会影响她的行为和生存。游戏不设固定剧本,每次游玩的对话走向都不相同。

而现在的 AI NPC 依赖长短期记忆架构,能记住你们的对话历史、情感倾向,甚至根据你的行为调整态度。游戏世界提供完整的视听环境,NPC 角色参与故事,带来真正的「在场」感。

这类 AI NPC 带来了极高的重玩性和更细腻的角色刻画,玩家会感觉 NPC 拥有情感与理性。

尽管《星之低语》目前还有些缺陷,但它证明了 AI NPC 的核心价值,个性化的情感体验。玩家不再是体验编剧写好的固定故事,而是每个人都拥有一段独一无二的经历。

未来,游戏编剧的工作将从「撰写对白」转变为「设计人设」和「构建世界观」。Anuttacon 的探索为行业提供了宝贵的试错样本,证明了用概率模型取代传统脚本的可行性。

这些动作背后,其实藏着蔡浩宇更大的野心。

在米哈游时代,蔡浩宇就提出过打造「2030 年让 10 亿人愿意生活其中的虚拟世界」的宏愿。

现在看来,Anuttacon 的公开资料与招聘布局都与这一愿景一脉相承,即「充分利用 AI 技术潜力创造全新、智能且极具吸引力的虚拟世界体验」,并将使命定位为「打造沉浸式、适应性强的游戏,提供独特且不断演变的故事情节」。

8 月份的时候,蔡浩宇也在社交平台发文称,AIGC 已经彻底改变了游戏开发,未来只有两种人制作游戏是有意义的:一种是前 0.0001% 的天才,组成精英团队创造前所未有的东西;另一种是 99% 的业余爱好者可以为了满足自己的想法而一时兴起创作游戏。

至于普通和专业的游戏开发者,他则建议不妨考虑转行。这番言论当时引发了不小的争议,但现在看来,AnuNeko 和《星之低语》都像是他这套理论的实践样本。

大部分人并不需要一个能帮你解微积分的 AI,他们需要的是一个晚上失眠时能陪你扯淡的存在。功能型 AI 的尽头是工具,情感型 AI 的尽头是依赖。

蔡浩宇可能不关心这些哲学问题,但他的这款产品已经说明了一切。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


WPS 给 AI 装上「大脑」和「双手」后,我真正感受到它会干活这件事

前段时间,Nano Banana Pro 发布,有网友在我们的留言区评论,说前端程序员已经不知道「死了」多少次了。

如果要把这两年职场人的心理变化画一条曲线,我想大概率是一条过山车,从最初的震惊与狂热,到中期的焦虑与恐慌,再到现在的……疲惫与祛魅

是的,疲惫。

▲ 技术成熟度曲线

我们尝试着无数个声称能颠覆工作的 AI 工具,但回归到真实的周一上午,情况往往是这样的:你在一边狂敲提示词,在另一边小心翼翼地把生成的文本复制回文档,然后花半小时重新调整那个被毁得面目全非的表格格式 。

这种割裂感,真的很难让人把它和生产力三个字划等号。

很多时候,我们手里的 AI 更像是一个用来炫技的玩具,而不是那个能真正帮你把项目彻底搞定(DONE)的智能伙伴 。

▲「AI 原生,效率新生」—— WPS AIDONE 办公专场活动

前几天,我们和 WPS AI 在珠海金山软件园一起举办了「AI原生· 效率新生- AIDONE办公专场」。爱范儿副主编、 APPSO 负责人李超凡,和金山办公 Office AI 负责人刘拓辰,在现场分享了他们对于 AI 原生与效率的看法,如何才能做到 AIDONE;还有 WPS AIPPT 的上手体验等。

从现场回来,我隐约意识到,可能我们之前打开 AI 的方式,都太累了。当 AI 和 Office 彻底融为一体之后,办公这件事完全可以从忙于交付,变成更专注思考。

所谓的 AI-Native,并不是你会写提示词

什么是 AI-Native(AI 原生)?是会用 Midjourney 生成几张二次元图片?还是能熟练背诵某套万能提示词模版?又或者是用那些所谓的一句话生成产品,手搓一个项目 Demo。

我想这些都不是。

▲爱范儿副主编、APPSO 负责人李超凡主题演讲「如何成一个 AI- Native 职场人」

如同我们在现场分享的观点一样,AI 原生是一种「生物本能」,贯穿到我们工作的每一个环节。像是之前做 AI 编程的 Lovable 团队,他们整个公司只有 35 个人,成立短短 7 个月,年收入就做到了 8000 万美金。还有创作者顶流,用 AI 写深度长文,年收入达到了 400万美金的 Packy McCormick。

凭什么?就凭他们把 AI 变成了某种生物本能;他们不是雇了更多的员工,而是雇了更多的 AI。

对于真正的 AI Native 职场人来说,区别也不在于我们用了多贵的工具,而在于第一反应。遇到难题时,你的脑回路是「这事儿我该怎么熬夜肝出来」,还是「这事 AI 能帮我做吗?我该怎么指挥它?」。

但这里也有个巨大的悖论:如果指挥 AI 的成本,比我自己做还要高,那这种「本能」就是反人性的。

这恰恰是目前大多数 AI 产品的死穴,它们离我们的工作流太远了。经常是,我们得跳出文档,去浏览器里求助,然后再把结果搬运回来。这种反复横跳,足以打断任何珍贵的「心流」。

▲不打断心流的 AI 伴写

所以,AI-Native 该怎么实现。我们的判断是,在最熟悉的 Office 软件里「原生」地使用 AI,才是成为 AI-Native 职场人的最短路径。

原生 Office AI,从工具到类同事

如果说 AI 工具的割裂感是 AI-Native 的痛点,那么金山办公的 Office AI 负责人刘拓辰,则给出了解法。

▲ 金山办公 Office AI 负责人主题演讲「原生 Office AI,从交互到交融」

他在现场提到了一个贯穿全场的关键词,「原生 Office AI」,而要做到原生 AI,他带来了一个更前沿的产品哲学:Agentic Software(智能体软件)

这不只是一个新名词,本质上重新定义了 AI 在软件里的角色。在 WPS 的设计理念里,真正的 Agentic 应该像一个训练有素的助理,拥有两个关键能力:大脑和双手

它得先有一个会思考的大脑,具备自主规划能力。 以往的模型是我们问一句它答一句,完全被动响应。而在 WPS AI 里,当我们抛出一个模糊的需求,比如「做一份年中复盘 PPT」。

AI 会先像人一样思考:复盘需要哪些模块?需要调用哪些数据?它会主动拆解任务路径,规划每一步怎么走,甚至在执行后进行反思;「我做出来的结果符合预期吗?如果不符合,我再重新规划修正」。

但光有想法还不够,它更需要一双干活的手,让它能无损调用各种工具。 这是金山办公 37 年,死磕办公文档底层技术的独家壁垒。

通用大模型也许能写出漂亮的文案,但它们是「没手」的,不能直接在最后交付的文档里面操作。 而 WPS 将内部最高频的核心功能,抽象成了 AI 能理解的工具,让它能理解怎么调整字号、怎么对齐表格、怎么插入文本框、实现各种样式效果。

区别于简单的懂格式,WPS 建立的这套工具化与双向无损互通的能力;做到了 AI 改完的文档,和我们亲手做的一模一样,没有乱七八糟的隐藏标签,格式完美保留。

而在这个 AI 办公过程中,我们用户的角色也开始发生了一些变化。

以往我们是操作者,每一个标点都要亲力亲为;现在,我们变成了决策者。 在 WPS AI 的执行过程中,从理解指令到拆解步骤,再到调用功能,全过程都是可视化的。我们就像坐在副驾驶,看着 AI 开车;它会告诉我们,「我打算先做数据清洗,再做图表分析」。

▲WPS AI 3.0 WPS灵犀 – 文字 Canvas:左侧文档编辑,右侧 AI 对话,用户与 AI 同屏协作

这种交互方式超越了简单的多轮对话,成为一种「过程可视化与实时干预」的全新范式。如果 AI 跑偏了,我们不需要推倒重来,只需在它思考的任意环节随时介入纠正,掌控权始终在我们手中。

过程透明不仅让我们更好地掌控方向,也让整个结果变得可验证、可信赖。「AI 负责规划与执行,人负责审核与决策」的模式,才是 AI 在职场真正落地的样子。

在现场的圆桌对话环节,嘉宾们还讨论了一个话题,「AI 是执行的终点,还是创意的起点?」我印象特别深的一句话是 AI 无法取代人的品味,比起执行,人的价值正在重新被凸显。

▲ 圆桌对话,探讨「AI 是执行的终点,还是创意的起点」以及「未来我们如何与 AI 写作办公」等前沿话题;左一李超凡,中间刘拓辰

AI 正在把必须做的工作自动化:排版、找图、格式、查资料、总结文档……而人类的工作,会变成:判断、提问、想法、审美、选择。这是一个更轻松、也更要求想得明白的时代。

而 WPS AI 正是在帮我们把那些繁琐的、流程化的任务都「搞定」,之后这些省下来的时间,是留给我们,可以拿来做一点真正有价值的思考和决策。

所以,AI 是终点还是起点呢,我想是因为 AI 帮我们走完了执行的终点,我们才终于有精力回到创意的起点。

AI 原生办公,才是未来的工作方式

在 WPS AIPPT 盲盒挑战环节,15 分钟做完 PPT 已经不是炫技,而是一种新的合作方式。用户给方向,AI 负责拆解结构、规划大纲;用户确认无误后,AI 再调用工具完成排版与美化。整个过程,WPS AI 的每一步思考都呈现在我们面前。

▲WPS AIPPT 盲盒挑战,参加活动的朋友正在使用 WPS AIPPT 制作

但我要说的重点不是它有多快,而在于一种新的心流,我们终于可以只专注内容,而不是被排版和格式绑架。这其实才是 Agentic Software 的意义,不是跳过工具,而是让工具的执行过程变得高效且透明。

以往做 PPT,我们处于一种左右脑互搏的焦虑中,既要像作家一样思考逻辑,又要像设计师一样纠结配色对齐。但在这次体验中,因为 AI 接管了找图、排版、美化这些繁琐的体力活,玩家只需要专注于我想讲什么。

这种不打断、不割裂、所想即所得的流畅感,恰恰验证了前面提到的理论,只有原生在文档里的 AI,才是真正的生产力。

▲ 输入主题就能得到 PPT,WPS AIPPT 官网,aippt.wps.cn

在活动现场,我不止一次听到有人感叹,「没想到 WPS 现在的 AI 已经做得这么深入了。」这句感叹背后,其实是用户对当前市面上大量「套壳 AI」的审美疲劳。

为什么 WPS AI 能给人不同的感觉?我认为核心在于金山办公对于「AI 与软件关系」的重构。正如刘拓辰所说,Agentic Software 绝不是简单的聊天机器人。智能体这个词在今年 Manus 爆火之后,就一直没有冷下来过,但对我们用户来说,一个好的 Agent 却仍然还在被定义中。

在 AI 的 1.0 时代,大多数产品是把 AI 当作一个「插件」挂在软件旁边,两套工具流,各玩各的。最近这两年,AI 工具更是百花齐放,但真正能改变工作方式的,从来不是功能升级,而是软件结构的变化。

WPS AI 走的正是这条更难的路,彻底把 AI 融入软件设计;一方面,给 AI 一个独创的翻译引擎,让 AI 能读懂复杂的文档格式;另一方面,把拆解任务、调用工具的每一步都摊在台面上,我们看着 AI 干活,随时喊停纠正。

它不满足于仅仅生成一段文字,而是要成为一个能真正「交付结果(Get Things Done)」的智能体。无论是最近大火的「企业知识库」功能,还是这次演示的 WPS AIPPT,本质上都是这种「原生+智能体」思路的落地。

在 WPS AI 的体系里,AI 不是插件、不是外挂,也不是单纯的内容生成器。它是我们文档里的助手,是会议里的整理者,是灵感的第一落点,是 PPT 的合作者。

对于当前这个浮躁的 AI 时代来说,这其实是 WPS AI 一种克制与务实的长期主义。不去卷那些花哨的 C 端娱乐功能,而是死磕文档、知识库、企业大脑这些 Office 办公领域的基石;也让 WPS AI成为了目前市面上少有的、真正能被称为「生产力」的产品;懂文档、懂创作、更懂用户。

回想起文章开头提到的那个问题:我们还需要多久才能跨越 AI 的尝鲜期?答案也许就在你打开 WPS 的那一刻。

当你发现,原本需要一下午才能搞定的 PPT,现在喝杯咖啡的功夫就能出初稿;当你发现,你终于不再是软件的奴隶,而是 AI 的指挥官时;你就已经是一个 AI Native 职场人了。

不要让 AI 成为你的焦虑来源,去试着指挥它,去试着把那些「必须做」的繁琐交给它,让自己专注于「值得做」的事情 。

毕竟,只有当我们繁琐的操作真正隐形,创造力才能真正显现。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


国产 T800 来了!回旋踢拳击技能点满,超越 80% 男性,这才是铁甲钢拳

刚刚,众擎机器人发布了最新旗舰产品,全尺寸高动态通用机器人 T800。

不夸张地说,这大概是市面上最帅的机器人,既有专属于机器的硬核质感,还带来了人类的灵活控制。

T800 这个型号,我一看到就想到了终结者里面的施瓦辛格,虽然还没做到电影里面的半机械人状态,但是在格斗能力上,众擎这款机器人打出的组合拳、飞踢、回旋踢,完全称得上 T800 级别。

去年十月,众擎机器人才刚刚发布了首款身高 170CM 的人形机器人 SE01,今年 2 月,成功实现了全球首例人形机器人前空翻特技。

今天,T800 发布,对比前代,这款机器人融合了众擎机器人在本体结构、运动控制和智能感知系统方面的最新成果,在稳定行走、动态平衡、动力性能方面都带来了领先优势。

基本参数方面,T800 的身高来到了 173CM,小腿+大腿的长度是 91CM,手臂长度 60CM;携带电池之后的体重为 75KG。在关节自由度方面,全身有 43 个自由度关节,不含双手是 29 个,单手自带 7 个多维度感知灵巧手自由度关节。

集成了触觉传感器的灵巧手,能够实现精细的抓取和操作,同时单手也有 5KG 的负载能力。

运动参数的表现,T800 的移动速度是 3m/s,对比我们普通的每秒钟 1m 左右的速度,属实快了不少。

关节运动空间也做到了高度灵活的关节控制,几乎全身的主要关节,都支持较大的活动角度,手臂、肩等部分,接近于全周旋转。

T800 的动力系统采用了 72V 的行星/直线混合驱动,即针对不同的关节有不同的驱动类型;腰部与髋部(旋转): 采用行星减速模组;膝部与踝部(推杆): 采用直线执行器,模拟人类大腿肌肉的伸缩发力。

最大关节力矩更是高达450 N·m,这几乎给了机器人相当大的爆发力和负载能力;一些主流的家用轿车,

发动机的峰值扭矩大约也就在 300~400 N·m 左右。在某种程度上,这意味着 T800 单个关节(通常是膝盖或髋部),瞬间爆发出的旋转力量,竟然是有可能超过,或者匹敌一台汽车引擎的峰值输出。

演示视频里,T800 完美执行了巴西战舞、回旋踢、嚣张挑衅、拳脚连招、五连踢、组合拳、以及飞踢等高难度动作,每一个动作都干脆利落。

而在实现高动态运动的同时,众擎 T800 还兼顾了 5% 的力控精度和 2-4 小时的长效续航,不仅四肢发达,更是粗中有细。

众擎在产品视频的介绍里还提到,T800 实现了对 170CM 同等身高男性群体,80% 以上的性能超越。在宣传视频的评论区里面,网友们都惊叹不已,「这么灵活的动作,铁甲钢拳真的照进现实了!」说实话,我看到视频的第一感觉也是这样,「帅」是脑子里蹦出来的第一个词,大开大合的武打动作,足够满足我对搏击力量的憧憬。

作为一款全尺寸的高动态机器人,T800 的定位是替代人类去从事一些高强度、重复性的体力劳动。物流仓储、酒店服务、门店导购、以及工厂协作,都是众擎在产品官网列举出的应用范畴。

目前来看,T800 的首要落地点还是在于生产制造业,而不是进入家庭。上个月,众擎机器人就联合京东之家,在深圳开设了全球首家人形机器人主题潮品店,「赛博店员」上岗给顾客提供服务。

和宇树一样,众擎机器人也是一家小型初创公司,获得了京东、宁德时代等企业的投资;它 2023 年在深圳成立,目前已经发布了包括 T800 在内的六款机器人产品。

T800 作为众擎机器人的核心产品,很明显是被寄予了推动人形机器人,从样机走向实用的使命。

众擎创始人赵同阳在上个月粤港澳大湾区文化产业投资大会上提到,2026 年要实现数十台级别的小批量交付,来验证某些特定的行业场景是否可行;而 2027 年要争取 T800 的销量达到 1-2 万台。

这还只是众擎一家机器人公司的产销计划,更不用说还有宇树、优必选、甚至小米等、以及国外的热门公司。不敢想象 ,真到了 2027 年,大街上是不是真的都是机器人了。

用它宣传视频里面标语来说,「未来已来,共生之始」,前往和机器共生时代的大门,已经被打开了。

彩蛋:众擎曾在五月份宣布,将在今年 12月24日举办一场机器人自由格斗比赛「机甲拳王」。现在这场格斗马上就要登场了,今天发布的 T800,也将作为核心参赛机型登场对战。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


笑死,兵马俑在千问 APP 里跳 K-Pop,比练习生还丝滑

让兵马俑跳 K-Pop 是什么体验?

如果你今天刷到一段视频:一位两千岁高龄的「老人家」兵马俑拿着麦克风,跟着节拍左摇右摆,动作比练习生还丝滑,表情管理比爱豆还到位。

倒也不用慌,这只是 AI 界的又一次整活现场。

而这充满反差感、邪门又好笑的画面,正是出自阿里千问 App 新升级的功能。

基于 Wan2.5 音视频同时输出能力,千问的 AI 玩法又升级了!仅需一张照片+一段提示词,就能生成口型精准、动作丝滑的「边唱边跳」视频,支持最长 10 秒、1080P 输出。

▲(别急,还有高手,唱跳俱佳的兵马俑男团来了)

而且没有任何限制。无论是真人照片、萌宠、二次元角色,还是文物、卡通形象,千问 App 都能让它们动起来。

当然,得先说好:视频里的声音不是提前录好的音频,也不是简单的文字转语音,更不是套模板,而是 AI 根据自己的理解推理生成的,AI 会自己根据角色,配上合适的音色、曲调。

可能和咱们唱的有点不一样,但正是这份独特的「AI 味儿」演绎,反而格外妙趣横生~

一张图+一句话,万物皆可边唱边跳

眼瞅着快过年了,刘德华的《恭喜发财》也已经在解封的路上了。

听腻了天王版本?那不如试试财神爷本尊亲自开嗓。我上传了一张财神爷的画像,输入提示词。结果财神爷真就动起来了, 一边唱着「恭喜你发财,财富一定来」,一边左右摇摆。

这才是真·财神附体。

所以拿这个给长辈拜年, 红包不翻倍都说不过去。

诗仙也要跟上时代潮流。

我翻出一张李白画像, 让他整一段当下最火的《刀马刀马》。两分钟后, 李白从画里「复活」了, 跟着魔性旋律左摇右摆。

可惜 AI 没能让他跳出正宗刀马舞, 看来对音乐和舞蹈的理解还得再练练。不过虽然舞姿跑偏了, 但 AI 生成的整个场面却别有一番喜感,不得不说千问 App 简直是 AI 抽象届的舞王。

《疯狂动物城 2》最近票房大卖,尼克和朱迪这对经典搭档又火了一波。

既然都这么火了, 那不如让它们来段双人唱跳?尼克唱着「朋友一生一起走」, 朱迪在旁边摇头晃脑,两个人还真有那么点默契配合的意思。整个画面, 倒像是官方番外篇里的音乐剧片段。

不过,尼克这充满「个性」的唱腔,意外成了整段视频的笑点担当,打工人平淡工作日里的笑点,最近都被千问 App 承包了。

还记得许嵩当年那段自我介绍吗?「大家好我是 Vae,这是我即将发表的首张独创专辑《自定义》。」我寻思着,要不让爱因斯坦也来一段?他张着嘴,一本正经地说着这段经典台词,还真的配合着节奏点头,更绝的是口型竟然也一一对上了。

只能说,许嵩看了会沉默,爱因斯坦看了会流泪。

《猫和老鼠》作为经典哑剧动画,但有了 AI,我们可以让 Tom 开口唱歌,顺便还能跳当下大火的高雅人士企鹅舞。满分十分,你能打几分?

最后,我让在卢浮宫端了 500 年架子的蒙娜丽莎戴上墨镜开唱。魔性歌曲配达芬奇名画, 这组合本身就够行为艺术了。文物活化的另一种打开方式,get 了。

千问 P 图+生视频=快乐²

当然,千问 APP 除了可以生成视频,也可以生成图片。

这次更新接入了全新改版的图片生成及编辑模型 Qwen-Image,在图像编辑一致性、多视角转换、多图融合等方面都有突破。简单说就是:只要在对话界面输入指令,就能自动调用模型能力,实现各种魔性操作。

比如换姿势:原本端坐的兵马俑,被指令后,立即呈现出一个手握篮球腾空封盖的英姿,视觉冲击感十足。

再比如服装变换:周末想发穿搭照但懒得换衣服?上传自拍,一句话把 T 恤换成西装,甚至还能给大卫雕像穿上了梅西的球衣。

反正脑洞有多大,AI 就能玩多花。

那么这时候,我们就可以体验进阶操作:

先改图,再生视频。

简单说就是:先把图片 P 成你想要的样子,然后再让它动起来唱歌跳舞。一套组合拳下来,创作自由度直接拉满。

比方说,我上周末花时间又重新看了一遍《泰坦尼克号》,于是我突发奇想:如果把马斯克和奥特曼 P 进《泰坦尼克号》的经典船头场景会怎样?

第一步,生图:上传两人照片,输入指令,千问 App 直接给我生成了一张高清合成图,男版马斯克,女版奥特曼,结果真是好一对恨比爱长久的苦命鸳鸯。

第二步,生视频:基于这张图,继续输入「帮我生成视频,图中的人物边唱歌边做飞翔的动作,海风要强烈,情绪要饱满」

然后… 两个科技圈大佬就在我手机里深情开唱了。

测到这儿,我已经停不下来了。

接着,我让千问 App 生成一颗拟人化的红豆。然后让它用它自己的调子唱出专属版本的「哈基米南北绿豆, 阿西噶阿西」。

结果这颗红豆顶着硕大的眼睛, 挥舞着小手, 跟着魔性节奏左摇右摆。就是这嗓音不走可爱风,反而略显粗犷,杀伤力几乎比原版还要高出三个数量级。

听完像吃了云南野生菌,画面与声音的搭配极其令人上头。

既然单人能跳,那能不能搞个组合出道,我突发奇想:要不让四大名著的主角们组个乐队?

说干就干。我先用千问 App 的图片融合功能, 把五位经典人物 P 成一张站位完美的乐队阵容——

孙悟空担任主唱, 关羽负责电吉他,林黛玉坐在键盘前,武松打鼓,曹操当贝斯手,定妆照搞定后, 那便是最简单的动起来环节,两分钟后, 一场跨越时空的摇滚现场就诞生了。

不得不说,这届 AI 真会玩。

一张图+一句话=10 秒魔性视频。不需要剪辑软件,不需要特效技能,甚至不需要会唱歌会跳舞,你只需要脑洞够大,AI 就能帮你实现。

除此之外,这功能除了整活,认真用起来也挺实用。

过年拜年视频可以交给 AI,朋友生日可以让寿星公跳舞,公司年会节目再也不愁没创意,甚至表白都能整出新花样…

当然,如果你只想单纯快乐一下,打开千问 App,上传图片,输入你的沙雕想法,剩下的交给 AI。2-5 分钟后,你就能得到一个足够发朋友圈炸场的魔性视频。

原来 AI 时代的快乐,真就这么简单。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


终于发布的Gemini 3,什么是它真正的王牌?

Gemini 3 Pro 预览版上线那一刻,很多人心里的第一反应可能是:终于来了

遛了将近一个月,这里暗示那里路透:参数更强一点、推理更聪明一点、出图更花一点,大家已经看得心痒痒了。再加上 OpenAI、Gork 轮番出来狙击,更加是证实了 Gemini 3 将是超级大放送。

这次 Gemini 3 的主打卖点也很熟悉:更强的推理、更自然的对话、更原生的多模态理解。官方号称,在一堆学术基准上全面超越了 Gemini 2.5。

但如果只盯着这些数字,很容易忽略一个更关键的变化:

Gemini 3 不太像一次模型升级,更像一次围绕它的 Google 全家桶「系统更新」。

模型升级这一块的,Google 已经把话说得很满了

先快速把「硬指标」过一遍,免得大家心里没数:

-推理能力:官方强调 Gemini 3 Pro 在 Humanity’s Last Exam、GPQA Diamond、MathArena 等一堆高难度推理和数学基准上,全部刷出了新高分,定位就是「博士级推理模型」。
-多模态理解:不仅看图、看 PDF,甚至还能在长视频、多模态考试(MMMU-Pro、Video-MMMU)上拿到行业领先成绩,说看图说话、看视频讲重点的能力,提升了一档。
-Deep Think 模式: ARC-AGI 这类测试证明:打开 Deep Think 后,它在解决新类型问题上的表现会有可见提升。

从这些层面看,很容易把 Gemini 3 归类为:「比 2.5 更聪明的一代通用模型」。但如果只是这样,它也就只是排行榜上的新名字。连 Josh Woodward 出来接受采访都说,这些硬指标只能是作为参考。

换句话说,「跑了多少分」只是一种相对直观的表现手法,真正有意思的地方在于 Google 把它塞进了哪些地方,以及打算用它把什么东西连起来。在这一个版本的更新中,「原生多模态」显然是重中之重。在这一次的大更新中,「原生多模态」显然是重中之重。

如果要为当下的大模型找一个分水岭,那就是:它究竟只是「支持多模态」,还是从一开始就被设计成「原生多模态」。

这是 Google 在 2023 年,即 Gemini 1 时期就提出来的概念,也是一直以来他们的策略核心:在预训练数据里一开始就混合了文本、代码、图片、音频、视频等多种模态,而不是先训一个文本大模型,再外挂视觉、语音子模型。

后者的做法,是过去很多模型在面对多模态时的策略,本质还是「管线式」的:语音要先丢进 ASR,再把转好的文本丢给语言模型;看图要先走一个独立的视觉编码器,再把特征接到语言模型上。

Gemini 3 则试图把这条流水线折叠起来:同一套大型 Transformer,在预训练阶段就同时看到文本、图像、音频乃至视频切片,让它在同一个表征空间里学习这些信号的共性和差异。

少一条流水线,就少一层信息损耗。对模型来说,原生多模态不仅仅是「多学几种输入格式」,这背后的意义是,少走几道工序。少掉那几道工序,意味着更完整的语气、更密集的画面细节、更准确的时间顺序可以被保留下来。
更重要的是,这对应用层有了革命性的影响:当一个模型从一开始就假定「世界就是多模态的」,它做出来的产品,与单纯的问答机器人相比,更像是一种新的交互形式。

从 Search 到 Antigravity,新总线诞生

这次 Gemini 3 上线,Google 同步在搜索栏的 AI Mode 更新了,在这个模式下,你看到的不再是一排蓝色链接,而是一整块由 Gemini 3 生成的动态内容区——上面可以有摘要、结构化卡片、时间轴,虽然是有条件触发,但是模型发布的同时就直接让搜索跟上,属实少见。

更特别的是,AI 模式支持使用 Gemini 3 来实现新的生成式 UI 体验,例如沉浸式视觉布局、交互式工具和模拟——这些都是根据查询内容即时生成的。

这个思路将一系列 Google 系产品中发扬光大,官方的说法是更像「思考伙伴」,给出的回答更直接,更少套话,更有「自己看法」,更能「自己行动」。

配合多模态能力,你可以让它看一段打球视频,帮你挑出动作问题、生成训练计划;听一段讲座音频,顺手出一份带小测题的学习卡片;把几份手写笔记、PDF、网页混在一起,集中整理成一个图文并茂的摘要。

这部分更多是「超级个人助理」的叙事:Gemini 3 塞进 App 之后,试图覆盖学习、生活、轻办公的日常用例,风格是「你少操点心,我多干点活」。

而在 API 侧,Gemini 3 Pro 被官方明确挂在「最适合 agentic coding 和 vibe coding」这一档上:也就是既能写前端、搭交互,又能在复杂任务里调工具、按步骤实现开发任务。

这一次最令人惊艳的也是 Gemini 在「整装式」生成应用工具的能力上。

这也就来到了这次发布的新 IDE 产品:Antigravity。在官方的设想中,这是一个「以 AI 为主角」的开发环境。具体实现起来的方式包括:

-多个 AI agent 可以直接访问编辑器、终端、浏览器;

-它们会分工:有人写代码,有人查文档,有人跑测试;

-所有操作会被记录成 Artifacts:任务列表、执行计划、网页截图、浏览器录屏……方便人类事后检查「你到底干了啥」。

在一个油管博主连线 Gemini 产品负责人的测试中,任务是设计一个招聘网站,而命令简单到只是复制、复制、全部复制,什么都不修改,直接粘贴。

最终 Gemini 独立完成对混乱文本的分析,真的做了一个完整的网站出来,前前后后所有的素材配置、部署,都是它自己解决的。

从这个角度看,Gemini 3 不只是一个「更聪明的模型」,而是 Google 想用来粘住 Search、App、Workspace、开发者工具的那条新总线。

回到最直觉的感受上:Gemini 3 和上一代相比,最明显的差别其实是——它更愿意、也更擅长「帮你一起协作」。这也是 Google 对它赋予的期待。

压力给到各方

跳出 Google 自身,Gemini 3 的 Preview 版本实际上给整个大模型行业,打开了一局新游戏:多模态能力应用的爆发势在必行。

在此之前,多模态(能看能听)是加分项;在此之后,“原生多模态”将基本配置——还不能是瞎糊弄的那种。Gemini 3 这种端到端的视听理解能力,将迫使 OpenAI、Anthropic(Claude)以及开源社区加速淘汰旧范式。对于那些还在依赖「截图+OCR」来理解画面的模型厂商来说,技术倒计时已经开始。

「套壳」与中间层也会感到压力山大,Gemini 3 展现出的强大 Agent 规划能力,是对当前市场上大量 Agentic Workflow(智能体工作流) 创业公司的直接挤压。当基础模型本身就能完美处理「意图拆解-工具调用-结果反馈」的闭环时,「模型即应用」的现实就又靠近了一点。

另外,手机厂商可能也能感到一丝风向的变化,Gemini 3 的轻量化和响应速度反映的是 Google 正在为端侧模型蓄力,结合之前苹果和几家不同的模型大厂建立合作,可以猜测行业竞争将从单纯比拼云端参数的「算力战」,转向比拼手机、眼镜、汽车等终端落地能力的“体验战”。

谁最强已经没那么重要了,谁「始终在手边」才重要

在大模型竞争的上半场,大家还在问:「谁的模型更强?」,参数、分数、排行榜,争的是「天赋」。到了 Gemini 3 这一代,问题慢慢变成:「谁的能力真正长在产品上、长在用户身上?」

Google 这次给出的答案,是一条相对清晰的路径:从底层的 Gemini 3 模型,往上接工具调用和 agentic 架构,再往上接 Search、Gemini App、Workspace 和 Antigravity 这些具体产品界面。

你可以把它理解成 Google 用 Gemini 3 将以原生多模态为全新的王牌,并且给自己旗下生态中的所有产品,焊上一条新的「智能总线」,让同一套能力,在各个层面都得以发挥。

至于它最终能不能改变你每天用搜索、写东西、写代码的方式,答案不会写在发布会里,而是写在接下来几个月——看有多少人,会在不经意间,把它留在自己的日常工作流中。

如果真到了那一步,排行榜上谁第一,可能就没那么重要了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


还在用 Gemini 3 写 ppt?太土了,来看看最酷炫手势互动(附提示词)

Gemini 3 发布之后这些日子里,我逐渐感到疑惑:为什么总让 AI 写网站写 PPT,Gemini 都发到第三代了,不能干点更有意思的事吗?

要那种科幻感强的、效果酷炫的、难度系数高的,但小白也能做的。比如这种:

或者这种:

Gemini:手势交互?没问题,包的。

在开始之前,先准备好 Gemini 3,这里是一点点的注意事项👇🏻

目前有三种方式开启玩耍:Gemini 客户端 Canvas 模式、Google AI studio-Playground 和 Google AI studio-Build。

其中,最不推荐的是客户端,亲测无法有效拉起摄像头,并且,下面都是手势互动项目,举着手机,手自然也是没法做操控的。

后两者中,Build 是直接形成一个 app,你可以分享给其它朋友,缺点是 tokens 有限。而 Playground 会生成一套代码,需要下载到本地再打开,一旦换个电脑就可能运行不了,但优点是几乎没有 tokens 限制,每天一百万,量大管饱。

考虑到交互项目比较消耗 tokens,所以 Playground 更为合适,个别小项目用 Build 也可以,这就看个人情况而定。

Jarvis

Jarvis HUD 面板是在推上超过二十万次浏览的热门爆款,手势操控仪表球,就像钢铁侠操控 Jarvis 那样,酷毙了。

参考 prompt 如下:

create a webapp using vanilla js, html, css, modern threejs, mediapipe. it should be a sci-fi tony stark / iron man / jarvis experience focused on simulating an AR heads up display experience. full screen webcam input shown. add a heads up display that tracks the user’s head (offset to the right), with live updating metrics. a minimal 3D world globe should be shown on the left center of the screen, that should be able to be rotated / sized by the user hand gestures

在 Build 模式下,亲测完全可以实现一次成型,Gemini 会自动安排任务、编写代码,调用不同的接口,进度条显示完成后,点击 Preview 就能直接打开——记得放行摄像头权限。

 

Gemini 3 自己就把效果设计安排得明明白白:左手是放大缩小,右边是转动,双手进入摄像头范围后会显示触控点——这些都是 prompt 里没有的,都是它自己的「想」出来的。搭配大屏幕或者投影,真的很有 Jarvis 既视感。

左边的地球建模和右边的面板的内容都是可以改变的,最初 Gemini 3 让右边的面板显示人体体温(显然是凭空编的),后来被我改成了「实时显示左侧地球模型的直径」。反正 vibe coding 一下,想怎么改怎么改。

雨滴控制

Jarvis 都有了,惊天魔盗团不也得安排上。

看电影时只有特效,但现在,有 Gemini 3 了。参考 prompt 如下:

用 HTML+JS+ML 模型做个网页应用,通过摄像头检测手势,实现用手势来控制雨滴动画的暂停、静止和升格效果。动画效果保持在雨滴垂直方向,风格参考电影《惊天魔盗团》

这个 prompt 的第一轮表述完全是按照我看电影之后的想法写的,每个细节都可以通过 vibe coding 再调节。根据第一轮 prompt,Gemini 会加入它自己的设计,比如这具体的手势就是它想出来的。

虽然是用 AI 做的,但是在识别手势动作时非常灵敏,包括不同手势之间的切换都能够快速响应。

3D 粒子

控制雨滴曾经是非常复杂的特效技术,就在《惊天魔盗团 2》上映之后,有一个饮料公司做了一支广告,通过控制雨滴,实现静态的粒子效果。

那么参考「控雨术」,Gemini 完全可以实现上面这种结合实拍和速度控制才能出现的效果,最接近的就是 3D 粒子。所以我又做了一个 3D 粒子效果的交互案例。

非常酷炫!prompt 参考如下:

用 Three.js 创建一个实时交互的 3D 粒子系统。通过摄像头检测双手张合控制粒子群的缩放与扩散,提供 UI 面板可选择爱心/花朵/土星/佛像/烟花等模型,支持颜色选择器调整粒子颜色,粒子需实时响应手势变化。界面简洁现代,包含全屏控制按钮

一次成型,最后出来的交互非常丝滑,尤其是对于手势的识别很准确又灵敏。

【小技巧】

涉及到颜色、布局、UI 设计等等细节,如果每次都用 vibe coding 的方式来调节,表述起来会很麻烦。并且每一次 vibe code 都存在抽卡的情况,所以有一个非常实用的技巧是:加上自定义模块,尤其是颜色、大小等,这样可以完全自主搭配自己喜欢的配色方案。

技能五子棋

由雨滴想到粒子,由粒子想到移动,由移动想到——五子棋!我终于可以做技能五子棋了!!

仔细想想,五子棋不也是一个手势控制、飞来飞去的交互方式吗!飞沙走石移动棋子,力拔山兮移动棋盘,全都安排上!

Prompt 参考如下:

做一个手势互动小游戏「技能五子棋」:主页面为五子棋棋盘,默认已经摆放好棋子。当用户做出「单手甩手」的动作时,棋子会跟随甩动的方向飞出棋盘。当用户做出「双手甩动」的动作时,棋盘会跟随甩动方向飞动

Gemini 自己完成了物理逻辑和手势之间的衔接,我的 prompt 只需要描述效果,而具体的速度向量计算、检测阈值,都不用我管。

它甚至还重新命名了「技能」:万象天引。

这叫飞沙走石啊 Gemini 老师!

节奏音乐游戏

综合上面的几个尝试,Gemini 的毋庸置疑,而且回想一下这些技能树:手势识别、色彩变化,这些组合起来,不就是小游戏吗?

于是我尝试了更复杂一点的项目:节奏游戏。

音游玩过很多了,但是零经验小白真要做一个游戏、怎么给 Gemini 形容我想达到的效果,还真是花了一点脑筋 ,后来第一版 prompt 如下:

做一个用手势操控的音乐游戏,主界面为四条音轨,用户上传音乐文件后,四条音轨上按节拍出现光点,用户需要用手势准确拍击出现的光点,背景为复古合成波(Synthwave)风格,背景、音轨和光点的颜色可以自定义调节

这基本上是我能想到的雏形,根据第一版 prompt,Gemini 选择了 Pygame 作为游戏引擎,继续使用 MediaPipe 做手势追踪,并且加入了 Librosa 用来分析音乐。

选择复古合成波风格是因为它有明确的视觉标志——Gemini 也识别出来了——落日、霓虹渐变色、网格和驶向地平线的道路,非常适合节奏音游。

果然做游戏比前面的一些小交互复杂多了……先是只能识别一只手,得调整;然后是无法上传音乐,得调整;到了第三版才稍稍有点样子

但是在体验过中我发现一个比较 bug 的地方:判定线的位置离屏幕边缘太近了,而摄像头的识别范围是有限的,我的手稍微放低一点就无法被识别。

一开始我尝试的方法是,把判定线移动到屏幕居中位置,保证我的手始终能在摄像头捕捉范围内。

但是又出来一个问题:光点出口和判定线之间的距离过短,留给我的反应时间也很短,更别提点击动作还有一点点点的延迟,整个可玩性大大下降。可是放太低就还是会出现手掉出识别范围的情况。

一时之间我还真想不到这个矛盾该怎么办,于是,我直接去问了 Gemini 能怎么解决。

它直接指出了这个问题的症结所在,并且提出了「视觉欺骗」的方式来优化体验,并且加了一个自定义滑块来调节偏移,这样一来无论手在什么位置,都可以通过调节滑块来对齐判定线。

天才。

后来我还指出,感觉光点的出现跟节奏不太一致,为了解决这个问题,Gemini 又加了一个滑块用来调节延迟。虽然我仍然认为它并没有很好地分析节奏型,但是这个滑块的设计还是很有效,尤其是解决了戴着蓝牙耳机导致的延迟。

【一些小技巧】

本质上,只要有 prompt 就有抽卡的情况存在,但抽卡未必就不好。当碰到非常硬伤的 bug,比如始终无法调用摄像头、无法上传文件等等,vibe coding 时反复修改也没效果,不如就直接「新建项目」。核心功能反映在代码上,彼此之间有所牵连,重新跑一遍,让 AI 整体性地补足,远比一点点 vibe coding 要更有效率。当然,能看懂代码就会更有效率,可以针对性地解决。 只不过,对于完全的零码选手来说,还不如直接重新抽卡。

在 AI 之前,做手势交互的应用,得先学点儿 Touch Designer,最好还懂点儿部署。这些都得一点点翻教程,反复研究,在这个过程中搞不好就被劝退了。

有了 AI 之后有多简单,自然不用多说。更关键的是,手势交互原本的门槛远比生图、做 PPT 要更复杂,却又能让小白零码选手快速领略到做应用的乐趣。

唯一留下的,是对审美的挑战。在这些案例里能看到,Gemini 有点审美,但不多,设计、配色等等都是差强人意。代码的「硬」技能它可以掌握,留给我们的,就是对于审美的挑战。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


继 Nano Banana 2 之后,国产 AI 生图又杀出「一致性标杆」,Vidu 生图限时无限免费

说实话, AI 生图工具有时候真的让人又爱又恨。

刚认识的时候(第一次生成),你会觉得它惊为天人,哪哪都好;可一旦你想跟它深入发展(做成系列图、落地进工作流),它就开始「掉链子」,陷入抽卡玄学。

这种「只能看不能打」的状态,真拿它干活就会无比「拧巴」,在 Nano Banana 这样的工具出现后,事情终于开始改变,原来 AI 是可以被更精确控制的。

现在,终于也有国产 AI 接力,进一步把这条路跑通。Vidu Q2 最新上线的文生图、参考生图、图像编辑功能就是这个路子:卷完「好看」,它开始死磕「稳定性」。

这次 Vidu Q2 直接把技能点全加在了「一致性」上。什么概念?就是把「人设崩坏」、「产品变形」、「画风突变」这些老大难问题统统按在地上摩擦。

简单说,它不只是想让你发个朋友圈炫技,而是真想让你拥有一套能「从头用到尾」的实用创作流。

在最新的 AA 榜单里,Vidu Q2 首次上线的图像编辑能力甚至超越了 OpenAI 的 GPT-5,最难能可贵的是,作为成立才 2 年多的创业公司,用技术实力说话,跟 Google、字节这种大厂并列前三,追赶 Nana Banana Pro,直接把「省心」两个字拿捏了。

Vidu 还搞了一个长达 1 个月的「免费大礼包」,敞开大门让大家薅羊毛。即日起至 12 月 31 日,Vidu 会员生图「免费」,无论是参考生图、文生图还是图像编辑,统统随便造。标准版和专业版会员每月也有 300 张免费额度,旗舰版更是免费无限生图。

今天我们就趁着这个「无限续杯」的机会,拿 Vidu Q2 的生图功能狠狠考验一下,看看它到底能不能拯救我们的发际线。

开局一张图,剩下的全靠它「脑补」

Vidu 在一众 AI 工具中,是最早就把「围绕一张图持续参考创作」当成核心能力来打磨的。在国内多参生图中支持的输入图数量最多,一致性也最高

在最近 Vidu Q2 的更新里,这项能力又被往前推了一大步:不仅支持更复杂的多参考组合,还大幅降低了生图门槛——设计师、导演、甚至是喜欢创作的普通用户,都可以用自己熟悉的方式提供主体图和环境参考,由模型一键复刻动作、位置、布局、纹理、光线、色彩等,自动去「对齐要求参考图、保持角色不变」。

多参生图

在多参生图场景下,我们给 Vidu Q2 参考生图的输入非常接近真实工作流:一张是最近的全运会「顶流」大湾鸡,另一张是希望出现的场景氛围,夕阳下外滩的观景台。

然后我就写了一句简短的提示词,剩下的全交给它。

结果出来,我直接「瑞思拜」。

它不是那种傻瓜式的把主体抠图贴上去,而是真的在这个场景里「重算」了光影。主体的光影方向会跟环境一致,动作也随着指令准确变化。

甚至我让它变成喷绘印在汽车上,连车身上的倒影色彩都给你算得明明白白。

更关键的是,多次生成不同构图和姿势时,许多都能保持高度一致,比如大湾鸡胸前的图案、头顶的彩色冠,这一点在传统靠 prompt 调参的生图流程里往往很难做到。

这就很灵性了。对于品牌方来说,以前要把一个 IP 形象放到不同场景里做海报,得建模、渲染、P 图,现在?几秒钟搞定,而且那种「违和感」完全消失了。

空间一致性

更绝的是 Vidu 对空间关系的理解能力,当我要求「大湾鸡穿梭在故宫雕花栏杆中」时,Vidu 并没有像其他 AI 那样跟栏杆穿模,或者变成恐怖片现场。

它居然先根据环境图「脑补」了故宫的空间结构,让大湾鸡自然地走在走廊空间中。

再来上个难度,让 AI 角色参考复杂武打动作。

过去 AI 角色无法准确还原你设计的复杂动作,不是动作变形就是人物在打斗过程中变了一个人。而现在通过 Vidu Q2 参考生图则解了 AI 创作者的燃眉之急,可以一键复刻动作,让你的 AI 主角也能拥有十八般武艺。

如下面的案例中,两个动漫主角精准还原了图 1 中的打斗姿势,同时人物服装、面部细节、空间位置关系都保持了极高的一致性。

这种对「空间」的理解,让参考生图不再只是贴背景,而是真正具备了为分镜、镜头调度服务的能力

这种对空间的理解力,用来做电影分镜或者像最近很火的《疯狂动物城 2》那种合影海报,简直不要太好用。

比如下面的案例,同一张图+不同镜头提示词,即可生成足球少年踢球的特写、远景、足球特写等,并通过图生视频,剪辑为一个完整的叙事镜头。对于短剧动漫影视制作,省去了一个画面需要多次拍摄或者绘制大量分镜的环节,妥妥的生产力提效工具。

再通过 Vidu Q2 图生视频功能,输出两人在足球场上抢球的精彩视频:

在风格一致性方面,传统 AI 文生图功能想象力很好但是往往一致性表现很差,风格前后不一致、人物融合的情况屡见不鲜,而 Vidu Q2 不仅支持上百种动漫风格,而且还能在生成的连续多图中保持风格的一致性和故事的连贯性。

比如让 Vidu Q2 文生图几句话生成四格漫画,不仅风格、人物保持前后一致,细节稳定,而且几句话让它一次性拉出完整故事:

从这些案例可以看到,Vidu 在参考生图上的升级,并不是停留在「把图生得像」这一层,而是把「主体一致性」和「空间理解」一起纳入考量:一方面,它能围绕参考图,稳定地生成人物不同角度、不同氛围、不同风格、光线下的一整套画面;另一方面,又能把环境图当成真实空间来处理,而不是简单的背景贴图。

不只是玩具,是实打实的「实战神器」

如果说参考生图解决的是「第一张图怎么定」,那 Vidu Q2 全新上线的图像编辑则真正让这张图进入日常工作流,实现更加精细化的画面控制,满足实际商业化场景需求。

Vidu 在这一块的定位很直接:覆盖 90%的常见图片编辑场景——加元素、减元素、换背景、换颜色、调光线、变焦、比例切换,都可以用自然语言完成,在连续修改的过程中又始终保持主体的一致性。

在替换与局部编辑的测试里,我试着把一张车站广告换成马斯克,要是以前,我得抠图抠到眼瞎,但现在就几秒就能搞定,直接一键复刻。

以后看到爆款广告、爆款封面,可以像这样大批量一键复刻,4K 直出,直接上架,做广告、社媒不要太轻松。

类似的,下面的案例里,要求是为三个女孩加上酒杯——Q2 不仅完成了该要求,还根据光线涉及了酒杯的折射,完善了三个人的手部细节。

图片编辑是真正的「实战型」能力,尤其是电商或者社媒营销这样的场景。很多产品图的前期其实只有一个简单线稿:设计师给的是草图,运营要的是立刻就能上架的主图。

这就是图片编辑可以大展拳脚的时候,我们用 Vidu 做了一次完整的草图 → 上色 → 材质替换的演练。先是生成了家具的线稿图,然后直接一键用于参考生图,在 prompt 中指定好材料和风格。

Vidu 通过材质渲染,一步到位,做出细节满满又准确的实物图。紧接着还是一键复用,变换家居风格的提示词,沙发在不同家居风格的实景展示就出来了。

同一商品想要变换材质,也可以轻松实现。

可以发现,Vidu Q2 在图像编辑上的能力,其实正是把「多参生图时代的底层能力」落到了实处:识别谁是画面里的主体,把他/她/它锁定住,然后允许你用大白话对其周围的一切做增删改,甚至跨越多张图和一段视频。

这就好比以前你是开手动挡得调各种参数,现在 Vidu 给你整了个自动驾驶。你只需要把心思花在创意上,剩下的粗活累活,它全包了。

这里面还涉及到另一个非常有用的能力:保存主体。我们可以将上述 Q2 文生图/参考生图/图像编辑后的图片一键保存为主体,把这个 IP「收进了角色库」,后续在 Vidu 的参考生视频中,都可以直接调用主体。

之后无论是换背景、换动作,还是把他/她放进新场景,只要选中这个角色、IP,模型都会严格保持人物一致,不会出现下一秒生成的主角和前一秒不一样的情况。

参考生图——保存主体——参考生视频,Vidu 打通了从灵感到成片的一站式工作流,再也不用在不同平台来回切换了,简直是短剧动漫,广告电商从业者的福音,目前 API 已同步上线。

AI 内卷,别谈「颠覆」,先谈「干活」

对于创作者来说,以前用 AI 干活儿是一种怎么样的体验?大概就是痛并快乐着:上一秒它给了你一张惊为天人的神图,下一秒让你在接下来的十小时里,因为复现不出那个眼神而心态崩盘。

在 AI 创作工具演进的十字路口上,我们观察到了两种不同的产品哲学。

Midjourney 这类产品像一台性能强劲的「引擎」,只有硬核极客才能驾驭那些复杂的参数和咒语般的 prompt,试图把单张图片的审美上限推到极致。

够酷,够极客,但也够折磨人。

而 Vidu Q2 选择了一条更务实、甚至看似「无聊」的路——做一台谁都能开的「量产车」。它不再执着于制造随机的惊喜,而是死磕「稳」字。

这种把所有步骤都帮你封装好的「傻瓜式」链路,才是真正的生产力。毕竟,对于那些被甲方催着改稿、被运营催着上线的团队来说,比起灵机一动的「随机性」,更加需要可交付的「确定性」。

也许在某些极端艺术风格的探索上,它或许不如那些参数党工具来得狂野自由,甚至因为太追求稳定,少了一些「意外之喜」的灵气。

但对于那些对于深受「抽卡」折磨的创作者,Vidu Q2 提供了一种久违的安全感。

当行业在谈论 AGI 的宏大叙事时,Vidu 低下头,不再只是给你造虚无缥缈的梦,先帮你把手里的砖搬稳了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


三百多万人围观的 AI 油画视频,是技术的神作,还是没有灵魂的电子垃圾

「比蒙娜丽莎更美的,就是正在燃烧的蒙娜丽莎」,这是多年前一档辩论节目里,大家对于艺术价值的不同理解方式,那时听到可能觉得挺激进,笑一笑便过了。

最近一段把几幅经典油画「复活」的 AI 视频,在 X 上引起了巨大的争议,视频刷到 300 多万播放,被不少人称之为栩栩如生的艺术;比经典油画作品更好看的,是会流动的油画?AI 做的东西是不是没有任何艺术价值?

网友分享的油画视频里,经典的油画元素不再静止,颜料开始流动,天空的云朵、火山的喷发、还有海浪的汹涌都变得生动自然,仿佛那些存在几百年前的画布,突然拥有了生命一样。

乍看之下,这就是一场视觉盛宴的享受;如果不是其中几个视频,忘了去掉右下角 Google Veo 视频生成的水印,甚至会觉得完全是用 CG 特效制作实现,毕竟对油画风格来说,没有很明显的「AI 味」。

但是点开评论区之后,发现网友们撕成了两派,有人说,这就是新时代的艺术,是全新的审美体验;有人就不买单,用 AI 时代最刻薄的词汇——Slop(垃圾/泔水)一言蔽之,说等到 AI 有意识了,再来谈配不配成为艺术。

同样的一条 AI 视频,让人看到了艺术、技术、恐惧、愤怒、敬畏、厌烦,还有时代变化。

如果不说这是 AI,你的第一反应是

X 网友发布的这则视频,其实并不是他本人的原创,在评论区有人指出来,说他没有标注视频来源,也没说明使用了 AI,只是单纯地为了赚取流量。现在这波流量,也确实是被他赚到了。

视频最早是出现 YouTube 上,一位有着 2000 多粉丝的博主@bandyquantguy,他是宾夕法尼亚州立大学艺术与建筑学院的一名助理教学教授。频道内发布的内容,基本上都是不同油画的动态视频作品,长度在一分半到 3 分钟不等。

而那条被转发到 X 上的视频,并收获了三百多万的观看,是他将近一个月之前的作品。

当我看着满屏的动态油画时,说实话,根本没想到这是否通过 AI 生成。一方面是对油画艺术的不了解,是否有相关的技术,或者爱好者在专门做类似的工作。另一方面,大多数时候,我们所说的 AI 味,主要是在制作一些写实的画面,像现实世界、真人版等。而这种风格化本身就足够突出的内容,AI 的处理反而不会太突兀。

有网友评价,这是他见过最原汁原味的 AI 艺术作品之一,因为视频没有生硬地模仿现实,而是创造了一种介于梦境,与现实之间的流体美感。

第一眼都是觉得「震撼」,而这种迎面而来的视觉冲击,在知道它是 AI 生成的之后,也变成了争议的起点。大多数的人会觉得,这样的作品很棒;但对剩下一部分人来说,如果光靠 AI 就能得到原本属于「艺术」的内容,那该有多可怕。

Slop,AI 是原罪

所以,打压和看衰,成了评论区的另一种态度,Slop 就是代表性的关键词。

在 AI 语境下,Slop 指的是通过 AI 大量生成的、看似有内容实则空洞的劣质品。像是之前奥特曼推出 Sora,就有人犀利的丢下断言,Sora 生成的视频,全部都是 AI Slop。

这次,也有网友说,这样的油画视频,不应该放在社交媒体上,Sora 才是他最好的归宿,那里都是同样的 AI 垃圾。为什么画面如此精美的视频,会被称为 Slop?反而一些 AI 味明显的视频,激不起大家这么热烈的反馈。

因为它是机器盲目的困境。

反对者认为,AI 生成的内容,是缺乏意义,就像是一台机器盲目的梦境,它甚至不知道自己正在做梦。

他们的观点是,艺术不仅仅是停留在好看,那只是媚俗。艺术需要人类的意图、深度和复杂性。在这个视频里,原本油画的笔触,变成了毫无逻辑的像素流动,就像是单纯地为了展示「我能动」而动,没有任何节奏、理由或概念支撑这个视频的内容。

对他们来说,AI 最大的问题从来不是不够好看,而是「不够人」

AI 的每一次选择,只不过是概率。而人类创作一个作品,画一幅油画,背后包含的是对人生、对世界的思考和回应;有情感、时间、技巧、犹豫和失败等经历。

支持者觉得,现在的 AI,就像相机刚被发明时一样,不是在替代传统,而是在扩张想象力。甚至有网友说,「我想艺术家们在作画前,脑海中可能就有这样的画面,现在我们也能走进他们的灵感了。

是结果,还是过程重要

如果这个视频是一个人类艺术家,花费 1000 个小时,一帧一帧手绘出来的,评论区又会发生什么。除了震撼,大概还是一样,会有人说,这视频顶多用来作为我的手机屏保,除了好看也就仅此而已了。

艺术是主观觉得还是客观认定呢,其实都没有明确的界定。网友的期待,大概是希望,艺术应该是需要「努力」才能抵达的地方,而 AI 正在稀释「努力」在艺术中的价值。

前段时间,一幅名为《太空歌剧院》的画作,拿到了艺术比赛的头奖,还有 AI 画作甚至在拍卖市场,以十万、百万的价格被拍走。

我们在一个输入提示词就能生成图像的世界里,任何一个人不需要复杂的技巧,也不需要付出多少汗水,都有机会创作自己的作品,作品的意义也不再靠时间来定义。

▲提示词:将油画纹理动画化为粘稠流体模拟,厚重的颜料笔触融化并流动。旋转的天空、粘稠的黄色光芒、翻腾的蓝色云朵。

当 AI 把时间成本压缩到几秒钟,这种神圣感瞬间崩塌,剩下的就只有廉价。「这不难做吧」、「我用 Veo 3 也能生成」,这样的东西,自然就成不了艺术了。

更有趣的是,有网友提到,这是一种很明显的社会心理学现象,巴浦洛夫的狗。现在我们只要看到 AI 的标签,就有了条件反射,瞬间进入狂怒模式,无论作品本身好坏,一律打成 Slop。

具体来说,就是眼睛告诉我,这个视频还不错,但大脑告诉我,这是 AI,AI 做的都是不好的,为了调和这种矛盾,我就必须强行说服自己,它看起来很糟糕。

心理效应是存在,更多的我想其实还是,AI 内容的泛滥,正在把我们的审美阈值无限拔高。

没有 AI 的时候,让一幅油画像这样动起来,可以说是「魔法」一样的存在。现在如果这些作品没有极强的故事性,或情感内核,仅仅是视觉特效,已经很难打动被各种 AI 效果喂饱的我们。

▲ YouTube 上该博主的其他油画视频

无论评论区吵得多么不可开交,一个事实是无法改变:AI 不会消失,艺术也不会因为 AI 的出现而消失。

就像一些网友说的,「电力曾让蜡烛工厂破产,但人类具有适应性」。现在的混乱,也许只是新旧审美体系,交替时发生的阵痛。

如果在 100 年前我们按一下播放键,就能听到录好的歌,大概也会有人觉得,只有黑胶唱片出来的声音才是真音乐;现在我们只是习惯了,现场、黑胶、手机、音响都有好音乐。

艺术,从来看的是最终的愿景,是我想让你看到什么,而不是用了什么工具,我花了多久才做出来。一个活过来的 AI 艺术,就算是简单的几行提示词,一样倾注了真正属于创作者的叙事、情感与意图。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


看完《疯狂动物城2》这样发合照火爆朋友圈,Nano Banana Pro 新玩法来了 | 附教程

疯狂动物城2 前几天刚正式上映,超过哪吒,成为中国影史动画电影预售票房冠军,双休日买好票准备去看了吗。

社交媒体上,早在预售的时候,就已经都是警官兔朱迪与狐尼克,出现在不同网友的电影院合影里

照片里的网友,左拥右抱着兔朱迪和狐尼克,作出自拍的姿势,而背后的影院屏幕上还显示着疯狂动物城2 的海报。同时人脸的一致性保持,让人觉得这就是电影放映后的粉丝福利,动画片主角跑出来免费合影。

评论区都在求攻略,有网友贴心地给出了制作指南。输入下面的提示词,然后图 1 上传自己的照片,图 2 和 图 3 分别上传朱迪和尼克的照片,图 4 是一张电影海报,通过豆包或者剪映 App 的生图功能,就能得到一张同款合照。

不要换脸,人物脸部不能有任何改变!将图1和图2 和图 3 的三人融合成一张三人俯拍自拍照,画面构图紧凑,三位主体靠得很近,图 1 人物居中,头部略微上仰,眼神直视镜头,营造出强烈的视觉冲击力。左侧和右侧人物站得略靠后,整体都需要保持人脸相似度,略微内扣身体,拍摄角度为高角度俯拍,使头部比例被夸张放大,典型的日韩视觉自拍风格。简洁干净,进一步凸显人物主体。整体画面清晰度高,用iphone前置自拍,最终呈现出精致、时尚、略带的合影效果。要求人物实现无缝融进画面,视觉过渡自然,整体画面光线明亮且均匀,背景为超大电影院坐满了观众,这三人背对银幕,银幕显示参考图 4《疯狂动物城2》电影精美海报填满屏幕。

▲图片和提示词来源:小红书@424180556

我们也使用 Nano Banana Pro 生成了同样的合照,不过得益于它的强大,我们完全不需要输入太多的提示词,只是上传四张图片,然后简单的告诉它要做什么就可以。

▲提示词:把这个男生和另外两个疯狂动物城角色放到一张合照里,他们就像是拿着手机在自拍,背景是电影院,电影院的屏幕上显示着我发给你疯狂动物城海报;16:9 的大小,4K 画质。

甚至还可以脑洞大开,直接丢给它这四张图片,然后输入提示词「合照」,完全不用担心人脸会改变,我们得到了这些 Nano Banana Pro 发挥自己的脑洞,生成的图片;横屏和竖屏的电影海报都有了。

▲提示词:合照

我们还可以试试最近玩 Nano Banana Pro 特别热门的提示词玩法,输入「xx,但不是xx」,上面在海报前拍照的那张图片,我们输入的提示词就是「合照,但不是合照」。

除了合照的玩法,配合新升级的 Nano Banana Pro,我们还有很多疯狂动物城2 联动玩法。

玩法一:全世界都是疯狂动物城

还记得 GPT-4o 刚出来那会儿,铺天盖地都是吉卜力风,现在疯狂动物城风也来了,而且还带来了更丰富的控制。

就像这张现实世界的街景图,只是把路上的行人,换成了可爱的动物角色,而马路和建筑还保留着原来的风格。

提示词:疯狂动物城风格的真实场景融合。迪士尼级别角色设计,富有表现力的形状,柔软毛发质感,流畅环境光照。保持原始照片结构,保留现实世界的光线、透视和材质。将拟人化元素自然融入环境中。高分辨率,电影级色彩调节。

拿着这套提示词,几乎可以把所有的照片,都转成这种现实+疯狂动物城的风格。还记得我们之前 AI DONE 活动预告里面,4 位 AI 大佬走在斑马线上吗,现在你还能不能,分辨出从左到右都是谁。

还有这张在网上疯狂传播的 AI 合照,把硅谷最有权有势的 CEO 都集结在一起。

▲ 由于提示词里面提到了「迪士尼」,所以这个狮市长看起来更像其他迪士尼系列电影的角色

除了保留一定的现实世界风格,把整个图片都换成疯狂动物城风,也是一样的好玩,Nano Banana Pro 表示,这都是小 case。

把开头那张只是转换了路上行人的照片,全部换成疯狂动物城的元素,色彩更加鲜艳,元素也更协调。

提示词:将这个现实世界的照片转换为《疯狂动物城》风格的动物城市,保留原始图片原始的全部元素和布局结构,但转换为风格化的拟人化基础设施,4K 画质。

同样的提示词,我们还把爱范儿在大兴安岭拍摄的样片,也进行一次风格转换。Nano Banana Pro 把大兴安岭的冷,描绘地更加极致,雪花飘在了衣服上。

还有随手拍摄的合照,也能一键换装,全员变身可爱的小动物。

▲ 原图来源:Unsplash@绵绵

如果希望留住能识别的面部特征,而不是直接把整个头部都换成动物头,实现起来也很简单,只用加一句提示词。

完全保留人物的人类面部特征和身份。

玩法二:合照,三个人可不够

开头只有朱迪和尼克的合影,只是疯狂动物城里面的两个主要角色,在电影里还有狸宝、宝伯特、马飞扬,闪电、夏奇羊、牛局长等数十个动物角色。

在 Nano Banana Pro 里,这些角色可以全部一次性发给它处理,所有角色都在舞台上。

提示词:图一是我,图2到图8,每张图片里面有4个疯狂动物城里面的角色,现在你需要把我和他们放在一张合照里面,就像是在线下的电影院,这些电影角色主创都在台上,我和他们一起合照,我在中间,拿着手机自拍,然后他们都在我旁边或者身后。

有了这么多的角色图片,我们还可以做一张疯狂动物城警局的照片墙,Judy、Nick、Bogo、Clawhauser 都在那块墙上,然后我们上传的照片也被贴到同一块墙上。

提示词:
创建一个16:9、4K分辨率的最终场景,设置在《疯狂动物城》警察局(Zootopia Police Department ,ZPD)内部。
一个真实感的警察局办公室走廊,主体背后是一个大型“ZPD员工照片墙”。

场景前方:
用户(来自图像1)站在中心位置,举着手机自拍。
保留用户真实的人类面孔和身份信息。
不要将脸转换为动物,仅应用非常轻微的《疯狂动物城》风格灯光和色彩调节。

背景:
用一整面墙填满用户身后的区域,并排列成网格状的拍立得风格员工ID照片。
使用图像2-8中的所有角色(每张包含四个角色),并将它们安排为单独的拍立得ID肖像展示在墙上。

每个角色肖像应满足以下要求:
– 保持上传图片中原始角色身份不变。
– 遵循一致的《疯狂动物城》宣传艺术外观:柔和迪士尼灯光、干净背景、清晰人物轮廓线条。
– 匹配官方ZPD ID照片框架比例(头像或胸部以上)。

同时,将用户自己的“ZPD风格ID照片”添加到墙上,放置于网格中央附近的位置,用与其他相同样式的拍立得边框呈现。

视觉规则:
– 保持真实办公环境中的墙壁材质、灯光效果的一致性。
– 所有ID照片必须对齐边框,统一色调,相同尺寸。
– 不要扭曲用户自拍姿势。
– 角色保持卡通化,但融入现实环境中。
– 可适度添加ZPD标志、警徽图标以及蓝色点缀灯光以增强真实性。

最终目标:
结果应展现出仿佛该用户已加入了ZPD,在官方员工照片墙前,与28位《疯狂动物城》的角色及其个人ID肖像一起合影留念之效果;画面需高清晰度,4K质量,有电影感但具备现实主义氛围感。

玩法三:这是我的疯狂动物城 ID

和风格转换有点类似,但又不完全相同。我们可以让 AI 来猜测,上传的人像图片,会是疯狂动物城里面的谁。

提示词:根据你对这张人像图片的分析,将这幅肖像转化为迪士尼《疯狂动物城》风格,最适合这张肖像图片的拟人化动物角色。保留原始面部结构和性格特征。柔软的毛发质感、富有表现力的眼睛、流畅的迪士尼光影效果、友好的配色方案以及电影海报级别的质量。

虽然 Nano Banana 大多数时候都只记得朱迪,但还是会根据我们上传的图片,调节图片的色彩、眼神的信息,同时保持我们的服装和姿势不变。

不喜欢这种身份证,还可以生成疯狂动物城的同款角色海报。

把图一的角色替换到图二的角色海报里,成为新的官宣角色。

由于 Nano Banana Pro 现在的指令理解和遵循能力,都得到了提升,所以我们的提示词甚至不需要太复杂的描述,一般口语化的表达,它也能听懂。

然后直接让他把狐尼克和兔朱迪换成马斯克和奥特曼。

▲提示词:把这个海报里面的两个角色替换成 Elon Musk 和 Sam Altman,然后名字也改成对应的马斯克和奥特曼

如果觉得这种 ID 照片还不够正式的话,直接让 Nano Banana Pro 生成一张带着边框,风格明显的证件照。

提示词:
将这张肖像转化为《疯狂动物城》风格的官方身份证照片,同时完全保留人物的人类面部特征和身份。
保持人物原本的眼睛、鼻子、嘴巴以及整体脸型,不进行动物替换。
仅应用迪士尼《疯狂动物城》的视觉风格:柔和边缘光照效果、平滑阴影处理、温和色彩搭配、灯光边缘处微妙的毛发质感、人类眼睛稍微放大但仍然保留人类特点,以及电影级卡通写实效果。
使用干净的工作室风格ZPD身份证背景(蓝色渐变或中性背景)。
保持人物可识别性及自然肤色,仅添加与《疯狂动物城》宣传画一致的轻度艺术化处理。
不改变面部结构;增强表情清晰度,并在眼睛上增加些许迪士尼式光泽效果。
高质量,符合官方文件要求的框架设计。

还可以在提示词里面指定好名字、身份编号、工作部门等信息;Nano Banana Pro 也完全能准确渲染所有的文字。

尽管 Nano Banana Pro 比起之前的版本更能理解我们的意图,但有时候多尝试几次,还是会给我们一些额外的惊喜。

最近社交媒体上很多人在尝试,用尽可能少的提示词,看 Nano Banana Pro 会生成什么。还有一种更高级的玩法是,Gemini 3.0 Pro 多模态推理和理解能力的提升,用来做逆向工程表现也很不错。

例如,我们拿疯狂动物城这张海报来测试,在 Gemini 3.0 Pro 模型里面,输入提示词「提取这张图片的提示词,越详细越好。」然后再把提示词给 Nano Banana Pro,得到的 AI 图片,还原度其实算非常高。

▲ 提取到的提示词:
A high-quality 3D animated movie poster for Disney’s “Zootopia 2,” characterized by incredible detail, highly textured fur, vibrant saturated colors, and bright daylight.
Composition & Angle: A dynamic, chaotic street scene captured with a low-angle shot looking upwards through a wide-angle fisheye lens, creating strong perspective distortion and a sense of overwhelming crowds.
Central Characters: In the center, Nick Wilde (fox) wearing a pink floral Hawaiian shirt, grey pants, and a tie, is running forward with a panicked, wide-mouthed expression. Next to him, Judy Hopps (rabbit) in her blue police uniform is running with a shocked but determined look. Behind them, a massive blue python with yellow underbelly scales (new character Gary) is hilariously coiled through the crowd with a surprised expression and tongue sticking out.
Environment & Key Props: A large grey metal street light pole cuts diagonally from the top left to bottom right. Mounted on it is a green street sign that clearly reads “Disney” logo above “疯狂动物城” with a large background number “2”. Below the sign, a yellow traffic light housing displays a glowing cyan LED number “2” instead of standard lights.
Background & Crowd: To the left, a pink double-decker bus filled with slow-moving sloths hanging out of windows (including Flash). A dense, diverse crowd fills the street, including a giraffe stretching its neck, an elephant, a lynx holding up a smartphone taking a photo, a beaver, and a rhino in casual clothes. Overhead, a horse is swinging on a rope across the street. In the foreground, a green lizard is tripped up, and a seal wears headphones.
Setting: In the far distance under a bright blue sky with clouds, the towering, futuristic skyscrapers of the Zootopia skyline are visible. The overall atmosphere is energetic, humorous, and crowded.
Text Elements (Visual Placement): Floating 3D text in the middle left reads “老搭档 新案件” and middle right reads “嗨翻全城”. At the very bottom center, text reads “11月26日 全国影院献映”.
Technical Specs: 8k resolution, cinematic lighting, highly detailed render. –ar 2:3

在我们的测试中发现 AI Studio 生成的图片,有时候并不是按照指令的 4K 要求给出原图,大小一般在 1MB 以下,而在 Gemini App 或者网页里,生成的图片则是完整的 4K 分辨率,图片大小一般在 7MB 左右。

Gemini 使用 Nano Banana Pro 的次数是有限制,在部分时候会像 ChatGPT 一样,弹出使用旧模型的提示。

但大多数时候,每天的使用次数是足够普通用户的使用。

我们喜欢疯狂动物城,大概是因为它打造的乌托邦,是一个勇敢善良的美丽新世界。现在 AI 迷人的地方,正是让我们也有了进入这个新世界的能力,同样地体验和传播,这份纯真的美好。

原文链接:https://mp.weixin.qq.com/s/8EJNx4Qjww09htrEfenJDA

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


这个 AI 产品,身上有股互联网 1.0 的味道

有一个悖论始终困扰着科技行业。

人们曾经笃信摩尔定律,相信指数增长,相信「更多」一定意味着「更好」。于是,芯片电路越来越密集,屏幕越来越大,功能也越来越多。

但奇怪的是,那些真正让人印象深刻的产品,往往走的是相反的路——iPod 交互只需要一个 clickwheel 即可满足,Google 的首页干净得只有一个框和两个按钮;微信将至繁归于至简,生态的确庞大了,但体验仍然核心且简洁。

这不是偶然。

当行业多数都在做加法时,懂得做减法,也是一种智慧。做加法容易——多一个功能,多一点覆盖,多了商业机会,多了安全感;做减法难——舍弃一些被市场认为理所应当的功能和设计,这是一种关乎取舍的价值选择。

新推出的 AI 产品「灵光」,也做了这样一次「反套路」的减法,以更友好的信息传递,创造一种更高效、顺畅甚至愉悦的信息体验。

你会发现,AI 产品全都在比拼回答长度、模式多样;而灵光的体验则稍有不同:它相对安静,不主动亮出模型选择器、联网开关、深度思考的功能,而是直接回答问题——并且充分利用更轻松的视觉呈现方式:结构化的卡片、可交互的图表,信息的层次一目了然。

这种实现如此简单:蚂蚁是技术不够,还是故意为之?

更接近真实的答案是后者。无论是联网搜索、代码生成,还是深度思考、多轮推理,2025 年下半年的一流 AI 产品所具备的能力,灵光背后的蚂蚁百灵大模型都有。但灵光把这些魔法都藏了起来,在需要的时候才不动声色地展现。

优秀的产品设计,往往始于一个清晰的原点。灵光的原点很朴素:把 AI 做「简单」,让信息呈现更友好,让交互更贴心。

这让它多少有点早期互联网时代产品「连接、开放与共享」的感觉。

简约克制,一场「体验信息」的产品设计

这个时代盛行消费主义,我们习惯了「现在立刻马上」的即时满足。你见到的每一个品牌广告都在教育你如何「释放自我」,社交媒体无处不暗藏着提高留存转化的「CTA 点位」(call to action 行动号召)。

克制不再流行,闭嘴成了难得的智慧。

最直观的灵光对话功能,把复杂性藏起来,用简约的方式诠释内容,点到即止。比侘寂稍多一点,避免了极繁主义带来的认知负担。

我问灵光「如何给孩子选保险」,得到的回应远不如那些佯装在思考的工具复杂。没有三千多字的保险科普、五个参考链接、三个推荐产品,也没有「是否需要我继续为你生成对比表单」的追问。

它给我的回复,逻辑易懂,组织清晰,按预算、年龄、保障类型分类,附带一些少走弯路的轻量建议——的确相当简单,但还算符合预期。感觉像是一个专业的保险顾问,减去了销售动机。在现实中,你需要很好的运气才能碰上这样的顾问。

类似的体验还有很多:比如用「开眼」(视觉)功能看体检报告时,灵光会先给出摘要卡片,再用文字展开,最后总结和提醒;又比如准备出国需要的材料,一旦它理解了你的意图,便会主动生成一个可以照单勾选的 checklist。

对于普通用户来说,这类把信息「先归纳,再展开」的呈现方式,即便难免细节缺失,倒是比一长串论文式的文字炸弹,读起来更省脑力。

这种简洁也有明确的边界。如果你确实需要详尽的背景知识或深入的分析,它可能不如那些更懂「长篇大论」的工具来得全面。但至少对于大多数日常场景,也踩中了效率和不费劲的痛点。

这种相对克制的设计,在早期互联网产品中曾经很常见。Gmail 曾经只是个邮件服务,Airbnb 让人可以轻松在地球对面找到一张沙发。然而随着流量焦虑的蔓延,克制变得越来越稀缺。如今大部分产品沦为极繁主义的奴隶,普遍的逻辑是让用户多停留、多点击、多互动、多提问。

——甚至蚂蚁自己也未能幸免。支付宝的复杂界面呈现,让简洁克制的灵光,显得很不「蚂蚁」。

我更倾向于认为这其实是对「人工智能」的两种理解:不少主流 AI 选择把推理逻辑和信息堆给用户;但非主流的少数首先试图理解对方的需求,然后做高效和简约的表达,让信息清晰「显形」。Show, don’t tell. 

 

体验的加法:低门槛、更友好的设计

灵光在产品设计上的一些做法,多少让人想起互联网早期产品的友好与直接。

比如对信息的组织方式。

在灵光对话中,抽象的概念可以变成可旋转的 3D 模型、枯燥的数据可生成清晰的趋势图表、复杂的过程则可用一段简短的动画来演示——它把生硬的信息,「翻译」成更易理解的形式,在信息呈现上展现出了明确友好的意图。

已故诺贝尔奖得主、认知科学家司马贺 (Herbert Simon) 曾经提出一个经典论断:信息的丰富导致注意力的匮乏 (A wealth of information creates a poverty of attention.)

在信息爆炸的时代,内容的生产不再是认知的瓶颈——人脑的处理能力才是。

灵光选择把信息「消化」再传递出去,它的呈现信息方式是高度结构化的:关键结论前置,层级清晰,且重度使用图片、图标、交互图来辅助视觉引导。

使用多了之后我发现,它不热衷冗长的文本,更是对经典的 AI 句式——比如「首先、其次、最后」和「不是……而是」——避之不及,尽量舍弃掉了会占据带宽,增加认知负担的元素。

我用灵光尝试给一个孩子讲明白「三星堆金面具的背后故事」——它给我生成的 3D 模型图,让孩子可以自己拖动、放大,再配上浓缩精炼后的概要描述,确实要直观得多。

身边的老人用灵光查看广州天气,得到的不会只是天气数据的罗列,而有可能是一个气温变化图、一份穿衣建议、一份秋日出行指南——不仅易读,而且有用。

而当我问起全运会吉祥物时,灵光精准捕捉并解读了那些在社交媒体上引发共鸣的创意表达,比起其它的 AI 对话最后都给我的「全运会吉祥物演变」的表格、十余届吉祥物的介绍罗列,显得亲切而有趣很多。

抽象理念被拆成一块块可以点、可以看的内容,小份更容易下咽,降低了信息获取和理解的成本。

优秀的工具,是让工具消失,只留下价值。灵光用交互设计,把信息「包装」得更易于消化——清晰的框架、醒目的标题、宽松的行间距、恰当的图标指引、相对有呼吸感的版面布局,对普通用户更友好。

在日常使用里,这些设计会变成非常具体的「减负」时刻。

这一幕让我突然想起二十年前的互联网:那时的网页没有弹窗,搜「天气」就只给温度,查「火车」会得到时刻表,简单、直接、有温度,像邻居递来的一杯水。

海明威曾经提过「冰山」理论:冰山的雄伟壮观,不在表面,而在于你能想象到它只有八分之一在水面上。灵光的回答方式,有点异曲同工,它用更低门槛的答案,来包罗和解构议题的复杂性——这或许就是产品想要实现的「让复杂变简单」。

但如果你希望精确控制每个参数、调整细节,那么灵光不是这样的产品。简约或是复杂功能的设计,没有对错之分——只是服务的人群不同。

无论是 6 岁的孩子,还是 80 岁的老人,都能轻松地学会使用一台桌面或掌上的计算机,都能用上、 用好一个 AI 产品,从中获得价值。

从阅读信息到体验信息

回忆起早期的互联网产品,有一种把「好用」放在首要位置的朴素——设计上,克制让产品保持专注,低门槛的友好设计,让人人皆可从产品中获益,创造出更多可以自由流动的价值。

使用灵光的过程,让我难免想起一些熟悉的产品:聚焦核心体验的微信,混排具有美感的锤子便签,极简且从未过时的 Google 搜索框,等等。

它们的特质在我看来是共通的:在有能力炫技时选择克制,在极繁时代坚持简单。 

这样来看,灵光绝不是一般意义上的完美产品,也不会是所有人的最佳选择。但它让我们看到了另一种产品逻辑:AI 不再制造更多的信息过载,也可以成为懂得取舍的编辑器,让每一次交互对话舒适从容。

如果有更多这样的产品出现,应该会是件很好的事。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


高通发布了第五代骁龙 8,它和第五代骁龙 8 至尊版有什么不一样?

对于高通来说,骁龙 8 至尊版的能力已经被各家 Android 阵营的品牌所认可,它已经是旗舰手机的第一选择。关于次旗舰的选择,倒是历来并不统一,有的品牌会选择上一代的骁龙 8 至尊版,比如刚刚发布的荣耀 500 Pro,用到的就是去年发布的第四代骁龙 8 至尊版。有的也会选择定位更低的第四代骁龙 8s 芯片。

今天,高通发布的第五代骁龙 8 芯片,成为了各大品牌次旗舰手机的新选择。

至此,高通也完成了从 4 系到 8 系的全系列布局,每个系列都有高中低三档选择,高通骁龙 8 芯片的定位,在高通的图谱里,就是高于同代的骁龙 8s,低于同代的骁龙 8 至尊版。

CPU 架构上,第五代骁龙 8 和第五代骁龙 8 至尊版类似,采用了 3 nm 制程工艺和 2+6 的架构,即 2 Prime 超级内核+6 Performance 性能内核的全大核架构,有所不同的是,第五代骁龙 8 的核心频率均有所下降。Prime 超级内核的频率为 3.8GHz,性能内核的频率为 3.32GHz。

作为对比,第五代骁龙 8 至尊版的频率组合为 4.6GHz+3.63GHz。

因为去年没有骁龙 8 芯片发布,只有第四代骁龙 8s 和第四代骁龙 8 至尊版,所以高通拿出来跟第五代骁龙 8 芯片进行对比的是在 2023 年发布的第三代骁龙 8,高通表示,相比于第三代骁龙 8 芯片,第五代骁龙 8 的提升幅度为36% 的 CPU 整体性能提升,GPU 提升 11%,AI 任务提升 46%,以及整体 SoC 功耗节省 13%。

在游戏性能上,第五代骁龙 8 的 Adreno GPU 采用与第五代骁龙 8 至尊版相同的切片架构,基于独立着色处理器的核心,可以增强工作分配和并行处理能力,从而提升整体性能。在渲染复杂场景时,数据可以直接存储在 GPU 上,有效减少传输至 DDR 内存的图形数据量,从而简化了处理流程降低了时延。

高通表示,搭载了第五代骁龙 8 移动平台的移动设备,让三角洲行动等战术射击游戏能在 165fps 帧率下持久流畅运行。

相比于 2023 年的产品,第五代骁龙 8 整体 AI 性能提升是最显著的,提升幅度高达46%,从图像分类、物体检测到语言理解,各项任务的性能提升幅度高达 22-52%。这意味着第五代骁龙 8 可以更好地胜任 AI 时代的需求,比如多模态生成式 AI 能力以及手机内置智能助手,或者 AI 智能体的智能程度也会大大增强。

连接性能上,第五代骁龙 8 和第五代骁龙 8 至尊版用到了同款的 X80 5G 调制解调器,峰值下行速度可达 10Gbps,上行速度为 3.5Gbps,X80 5G 调制解调器支持 6 信道,提供更快更稳定的连接,同时这款调制解调器也集成 NB-NTN(窄带物联网非地面网络)功能,这意味着它天然就为卫星通信做好了准备。

相比于数据能够说明的性能,其实大家比较疑惑的还是骁龙 8 家族的定位情况,尤其是第三代骁龙 8 之后其实没有第四代骁龙 8 ,取而代之的是第四代骁龙 8 至尊版。

发布会会后,高通技术公司产品市场高级总监马晓民也接受了爱范儿等媒体的采访,详细回答了这些芯片之间的区别。

马晓民说:

我们现在有两个旗舰,一个标准 8,一个至尊版,至尊版是针对那些对极致性能,极致能效和最新特性有特别需求的消费者,8s 的定位比前两者要更低一些,在标准 8 之下,在 7 系之上,我们会选择性地从上一代的 8 系里提取一些大家认为有价值的特性下放到 8s 上去。

同时,马晓民也否认了第五代骁龙 8 是第五代骁龙 8 至尊版「青春版」的说法,他说:

我觉得很难把第五代骁龙 8 当做一个青春版来区别看待,因为骁龙 8 系旗舰不是刚刚才发布的,骁龙 8 作为高通的旗舰平台,它已经存在了非常长的时间。我们从来不会把我们的 8 当做一个「青春版」来看,只是说在去年的时候,因为整个市场的变化,包括我们厂商对我们芯片要求的变得更高了,包括我们自己 IP 的一些改变,比如说我们第一次引入了我们自己的定制 CPU。所以我们觉得我们可以打造出更强的旗舰,也就是我们的至尊版,它在各个维度,无论是从性能、功耗,包括最新的特性,包括跟厂商的合作度来说,它都是当代最顶的一个旗舰,但是不代表我们的标准版就不是一个旗舰芯片,它还是一个旗舰芯片。

 

我们把骁龙 8 系列还是党组旗舰,至尊版比旗舰更顶,是顶级旗舰。

 

双旗舰发布的目的是因为大家对旗舰本身的定义变得更宽泛了,需求也更宽泛了。

虽然只看文字还是有点难以理解高通骁龙 8 家族的话,那么捋一捋年份就能知道高通是怎么给这个旗舰家族括员并命名的:

  • 2020 年 12 月:骁龙 888,最后的三位数骁龙 8 系命名法
  • 2021 年 12 月:第一代骁龙 8
  • 2022 年 11 月:第二代骁龙 8
  • 2023 年 10 月:第三代骁龙 8
  • 2024 年 4 月:第三代骁龙 8s,其实也是第一次出现骁龙 8s 系列
  • 2024 年 10 月:第四代骁龙 8 至尊版,改了命名,但延续代际
  • 2025 年 4 月:第四代骁龙 8s
  • 2025 年 9 月:第五代骁龙 8 至尊版
  • 2025 年 11 月:第五代骁龙 8

 

稳中向好。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Ilya 罕见发声:Scaling 时代已结束,我们对 AGI 的定义可能全错了

修个 bug 可以来回把同一个错误引回来,写代码能绕一圈又走回原地。

但几乎所有 AI 公司都坚信,只要把模型做大、把数据堆满、把算力扔进去,智能就会自动涌现。这套规模定律(Scaling Law)曾经是硅谷最坚定的信仰。

在隐退许久并创立新公司 SSI(Safe Superintelligence)后,前 OpenAI 首席科学家 Ilya Sutskever 用一种极其冷静的语调,宣告「Scaling 的时代结束了,我们重新回到了研究时代。

最近一场 Ilya 与 Dwarkesh Patel 的深度对话中,他不仅给出了,对于 AI 未来的技术路线图,更重要的是,他深刻地回答了,为什么现在的 AI 即使再强,也依然不像人。

🔗 播客链接:https://x.com/dwarkesh_sp/status/1993371363026125147

为什么 AI 是个高分低能的优等生

我们总觉得现在的 AI 很强,它们能在编程竞赛、数学竞赛、各种榜单上拿金牌,每次有新的模型发布,也是一次次刷新着各种 benchmark。但 Ilya 指出了一个让他感到困惑的现象。

▲ 最新发布的 Claude 4.5 Opus 模型,在编程相关的榜单,已经拿到了 80.9 分

他说我们在用 vibe coding,要 AI 写代码时,AI 可能写到某个地方,出现了一个 Bug。我们直接告诉它:「这儿有个错误。」AI 会说:「天呐你是对的,我马上改。」 然后它解决了这个 Bug,又引入了另一个 Bug。 你再指出,它又改回了第一个 Bug。 它就在这两个 Bug 之间无限循环,显得极其笨拙。

他的解释提到了这说明 AI 的「泛化能力(Generalization)」出了问题。为了解释这个词,Ilya 用不同的学生打了一个比方。

想象两个学生都在学编程,学生 A 代表 AI, 极其刻苦,练了 10000 个小时。他背下了所有的题库,记住了所有的解题套路。考试时,只要见过类似的题,他就能拿满分。

学生 B 代表人类,他只是觉得编程竞赛很酷,花了 100 个小时练习,但他真正理解了编程的逻辑,拥有了某种直觉,也能做得很好。长期来看,谁会在职业生涯中走得更远?他说一定是学生 B。

而现在的 AI 就像学生 A。所谓的智能,很大程度上是靠海量数据强行记忆出来的;它们在特定问题的庞大、增强数据集上过度训练,使它们在任务上表现出色,但不一定擅长泛化到其他领域。

一旦遇到训练数据之外的微小变动,比如修复一个重复出现的 Bug,它缺乏那种举一反三的泛化能力。

从堆算力回归拼创意

但这种海量数据的训练方式也不是完全没有用。在过去五年里,AI 行业的发展基本上都是遵循着所谓的「规模定律 Scaling Law」,从一开始的还是以百万参数来衡量的大模型,现在都来到了万亿参数。GPU 显卡算力的消耗,规模更是未雨绸缪,要卷上天际。

这种把一定量的算力,和一定量的数据混合进一个神经网络里的方案,也成了所有大模型开发的必备流程,即预训练。在预训练阶段,不需要思考用什么数据,因为答案是所有数据,它是人类投射到文本上的整个世界。

而 Ilya 认为,「Scaling」这个词,本身就固定了我们的思维。它暗示着我们只需要做一件事:加算力,加数据,保持配方不变,把锅搞大一点,就能做出好菜。

他说这样的法则,让大公司很舒服,因为这是一种「低风险」的投资。相比于需要灵感和运气的研究,大公司不需要雇佣科学家去苦思冥想,只需要「加数据、加算力」,而模型变强的结果是可预测的。

但现在,瓶颈来了。数据不够了,预训练数据,我们的互联网文本语料是有限的,而且已经快被用光了;有专门的研究结构统计过,现在互联网上 AI 内容的比例,已经是超过我们人类输出的内容。

其次是边际效应,把模型再做大 100 倍,也许会有提升,但不会带来质变。

Ilya 也提到了最近在 X 上,有人说 Gemini 3 似乎解决了预训练的一些问题。而此前 The Information 也曾报道奥特曼担心 Google 的发展会影响 OpenAI,甚至已经让他感受到压力。

其中一部分的原因,正是 GPT-5 的推出,遇到了预训练上的问题,即随着预训练数据的增加,模型并没有像之前一样表现出智能的提升。反而 Gemini 确找到了突破的方法,奥特曼在内部备忘录里说,OpenAI 也必须解决预训练的问题,或许才能再次超过 Google。

▲ Google DeepMind 研究副总裁 Oriol Vinyals 提到 Gemini 3 的秘密,是解决了预训练的问题

我们回到了研究时代。只不过这一次,我们有了更大的计算机。

Ilya 把过去这段时间的研究,分成了两个阶段。2012 年到 2020 年是研究时代,大家都在试错,寻找新方法。而 2020 年到 2025 年,是扩展时代,大家都在盲目扩建,算力在扩建,越来越多的 AI 公司在出现。

而现在,单纯的大力出奇迹已经行不通了,或者说单纯靠 Scaling 的红利吃尽了,我们又回到了研究时代。只不过这一次,我们是在用 Scaling 时代建立起来的巨型计算机来做研究,这是一个有着大型算力的研究时代。

总的来说,Ilya 并没有否认预训练和 Scaling 的巨大成功,但他认为这是一种用钱换智能的,低风险暴力美学,而现在这种模式已经触到了天花板,AI 行业必须回归到拼想法、拼直觉、拼创新的硬核研究阶段。

寻找直觉:AI 缺失的那块拼图

如果单纯的数据堆叠无法产生真正的智能,那人类的秘诀是什么?Ilya 给出的答案是:情感(Emotions)

他提到了一个脑损伤患者的案例,这个人失去了情感能力,虽然智商正常、能言善辩,却连穿哪双袜子都要纠结几个小时。 这说明情感不仅是情绪,它本质上是一个价值函数(Value Function)。

不过 Ilya 说目前没有找到很合适的概念,来类比情绪在机器学习中的角色,所以用价值函数来替代。

为了解释什么是价值函数,Ilya 提到了少年学开车的例子, 一个青少年,可能只需要练 10 个小时甚至更少,就能学会开车上路。他不需要像现在的自动驾驶 AI 那样,在模拟器里撞车几百万次才能学会避让。

为什么?因为人类自带了一个极其强大的价值函数,这个价值函数就像一个内置评价器,一旦偏离车道,我们人类会感到紧张,而这相当于一种负反馈。

那么依赖情绪的价值函数,和我们之前一直听到的强化学习,区别又是什么呢?

Ilya 说在没有中间价值函数的强化学习里,通常要等到任务彻底结束,AI 才知道自己是赢了还是输了;但价值函数就像是我们的直觉或内心评分系统。当我们下棋丢了一个子,不需要等到这盘棋下完,我们心里立马会「咯噔」一下,这步棋下错了。

那个学开车的少年,不用等到真的压线丢分了才会改正,而是只要开得稍微偏离车道,他立刻会感到紧张或不自信。这种实时的、内在的反馈机制,让他能极其高效地从少量经验中学习。

对于传统的强化学习,他的看法是这是一种天真且低效率做法。在传统的强化学习中,模型需要尝试成千上万次动作或思考步骤,直到产出一个最终的解决方案,然后根据这个最终结果的好坏获得一个评分,即训练信号。

这意味着在得出最终解之前,模型完全没有进行任何学习。这种方法需要消耗大量的计算资源来进行漫长的推演,但每次推演带来的学习量却相对较少。

而价值函数不需要等到最后,它能提供中间过程的评价;在每一步都给出信号,指引方向,从而极大地压缩了搜索空间,提高了学习速度。

目前的 AI 缺乏这种高效的内心评分系统。如果我们能让 AI,拥有类似人类情感或本能的价值判断能力,它就能摆脱对海量数据的依赖,真正像人一样高效学习。

Ilya 的下一步是直通超级智能

既然认定了拼算力的时代已经过去,而强大的价值函数或许又会成为新的 AI 方法,那 Ilya 的新公司 SSI(Safe Superintelligence)打算怎么做?

他的答案带着一种极其理想主义的色彩,直通超智能,他们选择去攻克那个最根本的难题,实现可靠的泛化

Ilya 直言,现在的 AI 行业陷入了一场老鼠赛跑。为了在市场竞争中存活,公司被迫不断发布半成品,被迫在产品体验和安全性之间做艰难的权衡。SSI 想要做的是从这种商业噪音中抽离出来,闭门造车,直到造出真正的超级智能。

但有趣的是,Ilya 这种「闭关修炼」的想法正在发生动摇。他开始意识到,渐进式发布可能才是安全的必经之路。

为什么?因为人类的想象力是贫瘠的。如果你只是写文章、发论文告诉大家AI 会很强,大家只会觉得这是科幻小说。只有当人们亲眼看到 AI 展现出某种令人不安的力量时,所有人、包括竞争对手,才会真正感到害怕,从而变得更加关注安全 。

Ilya 预言,随着 AI 变得越来越强,现在打得不可开交的科技巨头们,最终会在 AI 安全策略上走向趋同。

播客里他也提到了,SSI 与 OpenAI、Google 那些大型实验室相比,虽然筹集的资金较少,但用于纯研究的计算能力比表面上看是更多的。他说那些大公司将大量的计算资源用于产品推理,并拥有庞大的工程和销售团队,导致其资源分散。Ilya 认为 SSI 拥有足够的计算能力,来证明其想法是正确的。

当被问及盈利模式时,Ilya 只是淡淡地说,我们只专注于研究,赚钱的问题以后自然会有答案。主持也提到了之前 SSI 的前 CEO(联合创始人)选择了离开,然后加入 Meta,在 Meta 希望收购 SSI 时。

Ilya 特意澄清,「他是唯一一个去 Meta 的人。」 他建立 SSI 不是为了在商业市场上套现,而是为了那个唯一的、纯粹的目标,在那个不可逆转的奇点到来之前,把安全的超级智能造出来。

重新定义 AGI,一个 15 岁的少年

那我们距离 AGI 还有多远?Ilya 给出的预测是 5 到 20 年。

但他提醒我们要警惕「AGI」这个词。因为预训练模型让我们产生了一种错觉,以为 AGI 就是一个什么都懂的百科全书。但 Ilya 心目中的超级智能,更像是一个绝顶聪明的 15 岁少年。

这个少年可能还没学过法律或医学,但他拥有极致的学习效率。你让他去学医,他可能几天就能读完人类所有的医学文献,并开始做手术。

而在这一愿景中,最让人细思极恐的概念是融合(Amalgamation)。

人类的悲哀在于知识无法直接复制。这个人学会了开车,另一个人还是得从头练起,但 AI 不一样。Ilya 描述了一个场景,数百万个 AI 分身在经济体的不同角落工作,有的在写代码,有的在打官司。它们在各自学习,然后将所有的经验融合进同一个大脑。

这种集体进化的速度,才是他所认为的 AGI。

面对这样一个能够瞬间融合万千经验的超级大脑,人类又该何去何从?

Ilya 给出了两个层面的思考。首先是给 AI 的设定。不要只让它爱人类,因为这太狭隘了。未来的 AI 自己也将是有知觉的生命体,应该利用同理心的原理,让它关爱所有有知觉的生命,可能是比代码更稳固的安全防线。

其次是人类的退路。如果每个人都有一个比自己聪明百倍的 AI 智能体,人类会不会沦为历史的旁观者?Ilya 给出了一个他坦言「自己并不喜欢,但可能是唯一解」的答案:脑机接口(Neuralink)。

只有当人类选择与 AI 融合,让 AI 的理解直接变成我们的理解,我们才能在那个奇点之后,依然是这个世界的主角。

播客的最后,Dwarkesh 问了那个所有人都想问的问题:作为 AI 领域的传奇,你是如何一次次押对方向的?

Ilya 的回答很像个艺术家:「寻找美感。」

在那些数据都不支持你的至暗时刻,唯有对美、简洁和生物学合理性的自上而下的信念,能支撑你走下去。因为神经网络模仿了大脑,而大脑是美的,所以它一定是通往智能的正确道路。

这或许就是 Ilya 所说的「研究时代」最需要的品质:在算力之外,保留一份对智能本质的诗意直觉。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


夸克 AI 浏览器全面升级,可随时唤起千问

现在的浏览器,越来越「重」了。

写方案要开着 Word,查资料要切回浏览器,回消息又得跳到微信。屏幕被切得支离破碎,注意力也跟着碎掉。每次想让 AI 帮忙,都要先经历一番「寻找 AI 在哪里」的折腾。

这周,我试着把主力浏览器换成了全面升级的夸克 AI 浏览器。

体验下来,背靠阿里 Qwen 全球大模型,全面融合千问 AI 助手的夸克,发布六大千问 AI 套件,实现系统级「全局 AI」的创新产品形态,随时唤起千问,一句话帮你干活,效率拉满。

用户无需切换标签或应用,就能唤起千问读屏、快捷框、侧边栏、悬浮球、划词、截屏进行提问、协作……主打一个条条大路通千问。

它给我的第一感觉,就是在对标 Chrome 的基础上走得更远,想让 AI 成为你的「最强外脑」和「随身助理」。

体验随时桌面唤起千问方式后,让我彻底告别传统浏览器

先说最核心的,随时桌面唤起千问,这也是夸克和 OpenAI 前不久发布的浏览器 Atlas 最大的差异点。

Atlas 的理念是让 AI 成为操作系统的一部分,但它的实现方式相对保守,更多是在应用间调度。

而夸克则更激进,从底层架构彻底让 AI 融入浏览行为、以全新 AI 交互形态的出现,手撕传统浏览器,随时随地唤起千问 AI 助手,实现「边浏览边对话、边看边总结、即问即答」的丝滑体验。

举个实际场景,只需随手按下快捷键,就能让千问帮我列一个关于「社交媒体对青少年心理健康影响」的论文大纲,从而构建起连贯的学习工作流。

这种「无感接入」的设计,才是系统级 AI 浏览器的真正价值。

一个侧边栏,干掉你一半桌面操作

如果你的日常就是跟一摞摞 AI 技术论文打交道,英文不是很好,我们可以让「千问侧边栏」直接翻译、并总结核心观点。甚至让千问基于文档内容继续深挖准问,完全不用复制-粘贴-复制,也不用离开当前的标签页。

同理,阅读各种新闻资讯时,看到某辆新车发布,我们可以直接问千问侧边栏的「这款车适合哪些人使用?」。千问不仅分析当前页面,还能结合背景知识给出对比,省去了开新标签搜索的麻烦。

刷各种网页自然也是刚需,但信息量一多,自己逐条看、逐个理解既耗时间又费精力。这时候就可以果断交给千问来处理,它也能提炼重点。

千问侧边栏最妙的地方是边浏览边对话、边看边总结。传统浏览器要么让你切标签, 要么跳转新页面, 而夸克 AI 浏览器的设计让交互足够丝滑, 你几乎感觉不到在「使用 AI」。

截图即答案,划词即解释

遇到图表,截个屏,框选区域,千问直接解读数据趋势、图表含义。看到一些复杂的 AI 图片,也可以让它帮忙「整理图片中的动物职业,并翻译成中文」,千问立刻给出结构化总结。

截图提取图片文字也很顺手。

我随手截了一张三宅一生曾经客串出现在苹果「Think Different」广告宣传活动的广告语,它就能准确识别这是苹果的广告词,并给出解释。

在逛知乎时,看到一些不懂的词汇也能直接划词, 千问自会弹出解释。想追问也行,这体验四舍五入等于冲浪时随身带着一个「AI 辟谣器」。

此外,更进阶的场景是「千问读屏」功能。

这个功能的意思是,千问可以「看到」你电脑屏幕上的任何内容,它不仅能与 Microsoft Word 和 WPS 等应用深度联动,还支持快捷划词提问、截屏提问等操作。

简言之,你在用 Word 写文档、在 Excel 做表格、千问都能理解你正在做什么,并基于屏幕内容给出建议。诶,用着用着,真有种生活工作搭子的感觉。

比如我在 Word 写东西,让千问把屏幕上的《蜀道难》改写成剧本,它立马开写。这套联动还能把截屏、划词、共享的内容自动同步到侧边栏,让你能无缝追问。

让 AI 替你干活,一句话的事

除了侧边栏等方式,唤起千问的方式也灵活多样。

比如按下「Alt + 空格」(Mac:option+空格),然后在搜索框里直接说人话就行。

「帮我写一份 iPhone 18 Pro 产品发布会邀请函」「把这段翻译成英文」。这种一句话叫 AI 干活的模式,直接取代传统搜索那堆蓝色链接,从查资料到写文案、从总结到翻译,全程闭眼托管。

它甚至能一句话做表格、一句话生成 PPT,或者直接转换格式,比如把黑板照片里的字直接提取成 Word 文档。

要做到这样其实并不容易,离不开千问对浏览器场景的深度定制。

它能理解你的意图、网页结构、上下文关系, 真正做到即问即答。

除了 AI 能力,浏览体验也没落下。

夸克的标签管理做得很聪明。自动分组、按域名排序,还能识别高内存标签自动优化。实测开 30+ 标签,主打一个纵享丝滑。

还有一个让人特别惊喜的地方,就是连文档的编辑也下了不少功夫。试着直接把 PDF 拖进夸克 AI 浏览器, 直接打开、标注、编辑、转格式,无需下载。

查资料时直接批注,外文 PDF 还能直接对照翻译,省下的时间都是生产力。

从官方 Demo 来看,跨设备隔空传文件更是顺滑。文字、文档、大文件都能手机电脑无缝传输,100G 文件也不怕。网盘整理也变得智能了。一句话就能搜到文件,不用再翻来翻去。

这些听起来都是细节,但加起来就是巨大体验差异。

对齐 Chrome 的性能标准后,夸克给你的是更极简的界面、零广告干扰,以及更轻的内存占用。当你习惯了这种清爽, 再打开某些国内浏览器, 满屏的推荐信息会让你怀疑人生。

哪怕是放在国内一众老牌浏览器里,这种克制也是值得表扬的。而当 AI 成为浏览器的底层能力,配合这些生产力工具,你会发现自己的工作流程被彻底重构了。

标签页的尽头,是 AI 的起点

用了几天夸克之后,我开始思考一个问题:当 AI 真正融入浏览器,它到底在改变什么?

答案可能比想象中更深刻。

过去 20 年里,浏览器的形态几乎没变。1995 年,比尔·盖茨在一份备忘录里写道:微软将操作系统作为人机接口,从而控制整个微机行业,而网景则控制了人们通向互联网的入口。

谁控制了入口,谁就能定义规则、分配流量、获得数据。2010 年,Chrome 成为稳定支持三个平台且拥有书签同步功能的浏览器。但即便如此,它的交互本质仍然是 1995 年的逻辑:

用户负责提出问题,浏览器提供零零碎碎的回答。

你依然要在多个标签页之间来回切换,手动拼凑信息,自己综合结论。这个模式延续了近 30 年,直到 AI 出现。夸克这次做的事情,本质上是在挑战这套交互范式。

通过千问读屏、悬浮球、快捷键,千问已经跨出了浏览器窗口的边界。

你在 Word 里写文章,在 Figma 里调布局,在任何一个应用场景里,千问都能理解你正在做什么,并给出针对性反馈。AI 不再局限于某个应用内部,成为整个系统的基础能力。

 

为什么是夸克先做出来?有几个原因。

首先,这与夸克的用户基础和战略定位密切相关。

随着阿里千问与夸克 AI 浏览器深度融合,也正式成为超 1 亿电脑用户的桌面级智能助理,这个量级的用户基础,意味着夸克有足够的场景数据和反馈来打磨产品体验。

浏览器作为电脑上最核心的入口,几乎涵盖用户获取信息与执行任务的所有场景。而 AI 在这个场景下的能力空间巨大,也标志着阿里巴巴千问正加速实现对 C 端场景的全面覆盖——从移动端到桌面端,从对话框到操作系统级的全局调用。

此外,浏览器的智能化上限,取决于底座模型的智商。

夸克直接接入了阿里 Qwen 全球领先大模型,这意味着它处理中文长文本和复杂逻辑推理时,天然就有语言理解上的优势。毕竟,模型能否准确理解语境,直接决定了体验的质量。

一键唤起是普通人的刚需,而做到全局唤起千问、千问读屏这类功能,需要深入操作系统底层,依赖于阿里的资源支持,夸克才敢于在这个方向上持续投入,而不是浅尝辄止。

与此同时,在隐私敏感和追求效率的当下,夸克选择了一条「反直觉」的路径——无广告、极简界面、内存优化。对于大多数普通用户,他们不需要 100 个插件,他们只需要一个能搞定 90% 麻烦事的 AI 按钮。

当然,坦诚地说,夸克面临的挑战也很明显。

Chrome 强大的插件生态和用户长期的使用惯性,是任何挑战者都难以短期撼动的壁垒。对于重度依赖特定插件的极客用户,迁移成本依然存在。用户对国内浏览器「大杂烩」的刻板印象,也需要夸克持续的克制来打破。

但无论如何,AI 浏览器显然是个趋势。

Chrome、Perplexity、OpenAI 都在做类似的事,国内浏览器都在跟进。

夸克这次的战略升级,选择主动出击抢占身位。依托通义千问 Qwen 在全球大模型评测中的强劲表现,夸克把浏览器从「浏览网页的辅助工具」变成「系统级的任务助手」,率先给出了 AI 浏览器未来形态该有的样子,也有利于它在这一赛道的早期阶段建立心智优势,并在下一轮竞争中获得更大的主动权。

而这个逻辑一旦成立,接下来的演化就清晰了。

你看论文时可以随时唤起 AI 解释概念。写代码时可以随时让 AI 审查逻辑。做设计时可以随时请 AI 给出建议。所有这些场景的共同点是:AI 理解你正在做什么,知道你需要什么,在你需要的时候出现。

如果说 Chrome 教会了我们什么是好浏览器,夸克则给 AI 浏览器打了个样板,放眼全球,都是领先的产品形态。未来的操作系统,将是以「任务」为中心。当你遇到问题,本能反应不是打开搜索引擎搜一下,而是唤起 AI 问一下。

这条路难走,因为它需要更深的技术积累、更克制的产品设计、更长期的用户教育。 但一旦走通,壁垒也会更高。

毕竟,习惯才是最难被撼动的力量。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


4699 元起!华为发布 Mate 80 系列:全能、直屏,还有性价比

今年华为开了很多发布会,推出了不少「又新又怪」的产品——「阔折叠」Pura X、「折叠电脑」MateBook Fold、「一目双镜」Pura 80 Ultra 等等……

但今天发布的华为 Mate 80 系列,却是一台相当「板正」的手机,少了几分探索,但分量十足,无论从外观做工还是硬件配置,都称得上今年手机行业的压轴。

除了华为 Mate 80 系列,这场发布会还带来了双折叠手机华为 Mate X7、二合一电脑华为 MatePad Edge 等,这一系列旗舰级新品,构成了华为年末冲刺高端市场的前线。

华为 Mate 80 系列:堆料到极致

华为 Mate 80 系列一共包含四款手机:

  • 华为 Mate 80
  • 华为 Mate 80 Pro
  • 华为 Mate 80 Pro Max
  • 华为 Mate 80 RS 非凡大师

这次把以往超大杯「Pro+」后缀改成「Pro Max」,虽然引起了一些舆论,但说实话,看起来直观不少,消费者一眼就知道是顶配型号。

今年 Mate 80 的标准版和几个 Pro 版本之间的差距,比以往要更少:标准版终于用上了 3D 结构光人脸识别,可以用于支付等场景;往年只有标准版独享的直角中框设计,今年全系标配。

爱范儿也提前上手 Mate 80 Pro Max,我们发现这次的中框到背板做了很精致的圆滑过渡,丝毫没有割手的感觉。

背面的双环设计,不仅是为了契合「8」这个意象,也是为了解决全金属机身的无线充电问题,好不好看就见仁见智了。

华为 Mate 80 Pro 的后盖采用一种名为「光绘微纹」的新工艺,全金属背面进行微米级雕刻,精细度是腕表级微纹的十倍。

余承东还提到了一个小彩蛋:Pro Max 版本手机上雕刻了「MATE」字样,大家拿到手机后可以用放大镜找找。

另一个重点,则是华为 Mate 80 Pro Max 的屏幕——这是一块双层 OLED 显示屏,华为将其命名为「灵珑屏」。

由于成本高、良品率低,双层 OLED 以往是最贵的「非凡大师」专属,但今年开始也下放到 Pro Max 型号,意味着相关供应链技术更加成熟。

双层 OLED 最「亮眼」的优势就是超高屏幕亮度,特别是在户外环境,比其他常规 OLED 手机屏幕要明显更透亮,1% APL 峰值亮度达到夸张的 8000nits。

除此之外,双层 OLED 屏幕还具有透亮、功耗低、寿命更长的优点。华为 Mate 80 RS 非凡大师支持业界首发 BT.2020 广色域拓展技术,适配拍照、录像、现实、设计、投屏等等场景,未来将支持第三方头部应用。

和这两年的华为手机发布会不同,华为这次强调了 Mate 80 系列的性能表现,Pro 版本对比 Mate 70 Pro+ 提升 42%,还支持硬件级别光追,每秒光线渲染 2000 万条,支持《三角洲行动》等游戏。

影像能力无疑是华为 Mate 系列的重头戏,华为 Mate Pro Max 搭载了五颗摄像头,主打高动态主摄 + 双长焦配置,除了红枫摄像头皆是 RYYB :

  • 主摄:17.5EV 超高动态,5000 万像素,F1.4-F4.0 十档可变光圈
  • 中长焦:4x 光学微距长焦,5000 万像素,F2.1 光圈
  • 超长焦:6.2x 光学超长焦,5000 万像素,F3.2 光圈
  • 超广角:4000 万像素,F2.2 光圈
  • 第二代红枫摄像头

Mate 70 首发的红枫原色摄像头广受好评,Mate 80 搭载的第二代色彩准确度提升 43%,动态范围提升了 300%。

硬件实力够强,Mate 80 系列在影像功能上也没有落下——全新的「动感摇拍」能很好抓拍动态照片,拍摄主体保持清晰,背景动态模糊。

原生色卡有了更多的选择,色彩模式新增仕女图淡雅的「明快」和野兽派强烈的「鲜艳」风格,AI 构图对比 P80 系列在效率和构图丰富度上都有所提升。

华为 Mate 80 系列出厂搭载 HarmonyOS 6 系统,AI 能力更上一层楼,支持 AI 语音修图、小艺再买一单、拍攻略自动识别等等功能。

华为一直都是手机通讯领域的探索者,除了卫星通讯,华为 Mate 80 系列也首次支持「无网应急通讯」。

行业已经有不少手机厂商在做类似的功能,而 Mate 80 系支持最远 13 公里通讯。在救援场景,Mate 80 不只能和手机交流,可作为被救端和搜救端定位,野外失联场景,可以被无人机扫描搜救。

华为 Mate 80 RS 非凡大师延续八边形「星钻设计」,影像配置与 Mate 80 Pro Max 一致,双层 OLED 屏幕支持 BT.2020 广色域拓展技术。

对比 Mate 70 系列,华为 Mate 80 标准版到 Pro Max 的价格都有所下调,和升级的配置一合计,会发现居然在 Mate 80 系列上也能讲究「性价比」了。

由于 Mate 80 系列手机版本较多,我们将售价集中列出,方便大家对比观看:

  • 华为 Mate 80,12GB + 256GB 起步,起售价 4699 元
  • 华为 Mate 80 Pro,12GB + 256GB 起步,起售价 5999 元
  • 华为 Mate 80 Pro Max,16GB + 512GB 起步,起售价 7999 元
  • 华为 Mate 80 RS 非凡大师,20GB + 512GB 起步,起售价 11999 元

华为 Mate X7 系列:稳健更新

折叠旗舰华为 Mate X7 系列,同样是一次非常稳健的更新。

外观设计上,Mate X7 摄像头 Deco 换用了新「时空之门」新设计,背板采用了「光织云锦」的新工艺。

对于大折叠手机,厚度和重量是非常重要的参数,华为 Mate X7 展开厚度 4.5mm,折叠厚度 9.5mm,整机重量 235 克。

受制于紧凑的机身空间,折叠屏手机的影像系统限制颇多。凭借模组小型化和手机内部结构优化,华为展开厚度仅有 4.5mm 的华为 Mate X7 典藏版中堆了不少料,包括 Mate 80 Pro Max 同款主摄。

华为 Mate X7 影像典藏版配置如下:

  • 主摄:5000 万像素 RYYB 传感器,1/1.28 英寸,F1.4-F4.0 RYD 传感器,17.5 超大集成电容,十档物理可变光圈,支持光学防抖。
  • 长焦微距:5000 万像素 RYYB传感器,光圈 F2.2,3.5 倍光学长焦,7 倍光学品质变焦,支持光学防抖。
  • 超广角:4000 万像素 RYYB 传感器,光圈 F2.2
  • 第二代红枫摄像头

不过,华为 Mate X7 最大的亮点不只是硬件配置,而是自研系统 HarmonyOS6 加持下,折叠大屏的独有的全新交互。

利用鸿蒙应用数据互通的特性,华为 Mate X7 可以实现左边应用点击分享右边,不需要复制粘贴和应用跳转。

像是导航和攻略的场景,左边打开小红书、马蜂窝这些应用,右边打开地图,选择地址后地图可快速识别形成路径规划。

分屏最有潜力的场景,还是 AI 助手。打开小艺分屏之后,可以直接将左边应用的内容传递到小艺,AI 助手就能结合上下文和联想进行回答。

华为 Mate X7 的配置和售价如下:

  • 华为 Mate X7,配置 12GB + 256GB 起步,起售价 12999 元
  • 华为 Mate X7 典藏版,配置 16GB + 512Gb 起步,起售价 14999 元

华为 MatePad Edge:最佳二合一方案

这台二合一产品,爱范儿已经提前拿到上手,认为它「平板和电脑用起来都是 100%」。

从名字可以看出,这是一台在平板基础上进行创新的二合一形态电脑,屏幕尺寸看齐笔记本电脑来到 14.2 英寸,边框仅有 4.1mm,是华为近年来尺寸最大的平板。

配上高低分频的 6 扬声器,在这块 14.2 寸屏幕上观影——甚至只是看手机录的视频——体验都是相当沉浸的。

MatePad Edge 默认是平板样式的 HarmonyOS,而只要在屏幕上四指滑动一下,界面就能顺滑地从平板模式切换到了 HarmonyOS PC,吸附到配套的「星跃悬浮键盘」,就是一台完完全全的笔记本。

既然能作为一台「笔记本」,性能不能落下。MatePad Edge 搭载两个散热风扇,顶配版本则使用液冷方案。

两种模式本质上是一个底层系统,应用、数据、文件都是共享的,可以互相访问,将 HarmonyOS「一次开发多端部署」的特性发挥得淋漓尽致。

MatePad Edge 售价如下:

  • 起步配置 16GB + 256GB,起售价 5999 元
  • 星跃悬浮键盘价格 1499 元
  • 液冷版本配置 32GB + 2TB,价格 12999 元,包含键盘

全方位的「旗舰手机」

华为 Mate 80 Pro Max,是一台几乎全方位都相当「旗舰」的手机。

提前上手 Mate 80 Pro Max 感受了一番,又看完了发布会,这个观点在我心中愈发强烈。

手机厂商每年都用「最强」来形容旗舰产品,消费者听多了也难免不太当真——毕竟产品迭代,本就不太可能往回走。

但出于众所周知的原因,华为 Mate 系列沉寂了好几年,Mate 50 和 Mate 60 在某种程度,都离经典之作 Mate 40 有一点差距,难担「最强 Mate」旗号。

去年的 Mate 70,更像是一次更扎实更全面的回归尝试,是一次回到顶点的努力。

今年的 Mate 80 Pro Max,通过多个维度的配置堆料,以及独特的工艺,打磨出了一台市场竞争力更甚以往的旗舰手机。

国产手机集体冲高了好几年,如果单论性能和系统,Mate 80 系列未必比其他国产 Android 旗舰更强,但手机的设计和工艺,以及由内到外由软到硬的自研基底,共同塑造了它更高的产品站位,让华为 Mate 80 Pro Max 得以脱颖而出——握在手上的感觉,是最不会骗人的。

得益于长期的技术积累以及品牌调动供应链的能力,华为能在量产机上实现诸如背板金属浮雕、双层 OLED 这类通常只停留在展示阶段的工艺。它们并不只是单纯「整花活」,而是在尝试用更具差异化的做法去定义旗舰应有的质感和存在感。

这同样体现在影像能力上。早年和徕卡合作很好立住了「影像」的招牌,后期经过多年迭代的技术和方案探索,华为将硬件和调校把控回收到自己手中,有底气自立「XMAGE」的体系,也收到了来自市场的正反馈。

华为走的这个路线,其实和苹果有相似之处,两者都通过对供应链、软件、硬件的把控能力,构建起属于自己的体系化逻辑,并由此形成独立且相对稳固的高端形象。

作为「原生鸿蒙设备」元年,今年的华为产品都有一个特质:堆料给够的同时,形态要够创新,用这些不掉队甚至领先行业的硬件,去托举目前还未做到满分的鸿蒙系统和生态。

无论是反常规的 Pura X 和 Mate XTs,还是成熟的 Mate 7,华为已经把折叠屏做成了品牌的重要延展,产品还活用自家系统,实现其他品牌暂时还做不到的场景和交互,形成差异化的竞争优势。

而面向大众市场的 Pura 80 和 Mate 70,用最没有短板的姿态承担起品牌门面的角色,争取最多的高端用户。

时至今日,我们已经可以下一个结论:即使仍需要时间成熟,但鸿蒙系统已经不会失败了,因为华为已经摸索出一个路径,形成了一个如鱼得水的基本盘。

经历巅峰和沉寂,华为不仅在品牌和生态上恢复、甚至超越了以往的号召力,而华为 Mate 80 系列就是最好的证明。

附上本次活动一同发布的其他产品:

  • 华为 WATCH ULTIMATE DESIGN 非凡大师手表「紫金」配色,售价 24999 元
  • 华为 MateBook Fold 非凡大师折叠电脑「瑞红」配色,起售价 26999 元
  • 陪聊 AI 机器人「智能憨憨」,售价 399 元
  • 华为 MateBook Pro「拂晓粉」配色,起售价 8999 元
  • 华为 WATCH Ultimate 2 非凡探索,起售价 6499 元
  • 华为 WATCH D2 腕部动态血压记录仪「星云蓝」配色,价格 2988 元
  • 华为 FreeBuds Pro 5 耳机,售价 1499 元
  • 华为路由 X3 Pro 日照金山,母路由 1299 元,子路由 799 元,一母一子套装 1999 元
  • 华为智慧屏 Mate TV Max 110,售价 64999 元

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


ChatGPT 这个新功能,想把淘宝小红书 B 站的活全干了

你有没有过这种体验,想买个东西,先去小红书找了二三十篇笔记,B 站看了十几个测评,然后上什么值得买看了下优惠的渠道,最后,人已经麻到不想买了。

今天,OpenAI 给了一个新的统一入口,让 ChatGPT 直接替我们做「购物研究」

在 ChatGPT 的聊天页面,点击菜单(+)选择 Shopping reseach 购物研究,告诉它要买什么,它会去全网查资料、比较参数、问我们预算偏好,然后给出一份量身定制的购买指南。

这听起来很简单,实际上是个非常深的产品变化,也是 ChatGPT 一直以来想要引入广告,又一次的小试牛刀。

和我们现在所熟悉的电商推荐、搜索引擎、比价工具都不太一样。传统工具的逻辑是,我们搜什么,它就给我们看什么。而 ChatGPT 购物研究的逻辑是,我们告诉它需求,它会利用我们在 ChatGPT 内的聊天记录,帮我们找到最适合的那个。

为了迎接黑五、感恩节等假期,ChatGPT 购物研究功能,已经向 Free, Plus, Team 和 Pro 等所有登录用户开放。而 Pro 用户的 Pulse 功能,也会个性化地使用购物研究,来推荐一些相关的产品。

不只是搜索,更是在做功课

国内的多个电商平台,淘宝天猫和京东,都上线了 AI 购物的功能,对话框里输入「我想买」,淘宝就能根据我们过往的购物历史,生成一份详细的购物清单。

▲淘宝 AI 购物功能截图

但是在通用聊天助手里,ChatGPT 是第一个把 AI 购物也加进来的应用。之前用通用助手 ChatGPT、DeepSeek 这些也能询问购物建议,除了推荐的质量,最大的痛点绝对是,给出的链接要么打不开,要么是瞎编的。

新的购物研究功能彻底解决了这个问题,更重要的是把推荐的质量也提上了一个台阶。

进入购物研究模式后,我们可以直接在对话框里输入,「帮我找一款适合小公寓的,静音无线吸尘器」、「我想要找一条看起来,像这个(上传图片)的连衣裙」诸如此类的问题,ChatGPT 就会开始它的调查研究。

和一般的 AI 对话不同,购物研究的体验是 ChatGPT 重新设计的。它会像真人导购一样追问,不会一上来就生成一份报告,而是先要我们做一些选择题,这一点也是和淘宝 AI 购物的区别。

▲我向他提问买相机,它首先问我的预算、接着是买相机的目的、还有一些期待的功能;如果不选择,大概在 15s 之后,ChatGPT 会自动跳过这些问题

它会弹出多个问题选择框,大致的问题是,「预算大概多少?」ChatGPT 会率先研究,关于要研究的产品,主要的价格分布区间,我们可以单选或多选。还有一些问题,根据不同的购物需求,有具体的了解,像是消费电子类会问「主要看重什么功能?」,很明显是礼物常用商品,它会问「是送人还是自用?」……

更厉害的是,如果开启了 Memory(记忆)功能,它甚至会调取以前的对话细节。比如它的记忆里面,保存了平时爱玩游戏的关键词,在推荐笔记本电脑时,就会自动把显卡性能作为重点考量,而不需要我们重复废话。

初步选择了这些属性之后,ChatGPT 会给我们提供一个可视化的挑选界面。不再是纯文字对话,我们会看到一个包含商品图片、价格和参数的可视化界面。

▲ 选择不感兴趣之后,还可以反馈是对品牌不感兴趣,还是价格、功能、款式等具体方面

如果不喜欢某个推荐,可以直接标记 Not interested(不感兴趣);如果觉得某款不错,可以点 More like this(找相似的);左滑不喜欢,右滑喜欢,很有交友软件的味道了。

它会根据我们的每一次点击,实时调整购物调研的方向。在最后生成报告的过程中,为了减少等待的「痛苦」,ChatGPT 还会提供很多小 Tips,来解释关于某个产品背后的内容。就像这里研究相机,它会说「像素不是决定照片质量的唯一标准」等。

等了一会儿,最后就是 ChatGPT 生成的这份深度「买家指南」。这是一份完整的调研报告,里面不仅有热门产品推荐,还有关键差异对比、优缺点权衡、以及来自可靠零售商的最新信息(主要是美国常用购物网站)。

它把原本需要我们花几个小时,去搜索、阅读、拉一个 Excel 汇总的过程,压缩成了几分钟的对话和选择。

除了这种直接的询问有什么新的产品,我们还可以在购物研究里面,发送图片,要求 ChatGPT 找到类似的商品,或者要求它帮我们找到相关的优惠,以及多个同类产品的横向比较。

我们直接问他,「我是学生,这个自行车可以送给我吗」?他很认真的帮我找到了学生专属折扣或补贴、还有一些学校提供的相关支持计划。

什么样的东西适合用它买?

OpenAI 在他们官方博客里面提到,对于查个价格这种简单问题,普通对话就够了。Shopping Research 真正大显身手的地方,是那些决策成本高、参数复杂的品类。

  • 电子产品: 手机、电脑、相机(这类产品参数多,非专业的小白容易晕)
  • 家居与园艺: 吸尘器、扫地机、家具
  • 美妆护肤: 需要看成分、对肤质
  • 运动与户外: 露营装备、专业运动器械

简单来说,凡是需要我们专门去做功课的东西,现在都可以交给 ChatGPT 的购物研究。

OpenAI 最后也提到,他们没收钱。不会因为谁给钱多,就暗中默默推荐谁。他们表示所有的搜索研究结果,都是基于公开的网页信息,用户与 ChatGPT 的聊天记录,同样也不会分享给任何零售商。

其次,这次购物研究的功能,是由一个经过强化学习训练的 GPT-5 mini 版本支持,专门用于购物任务。他们创建了一个新的评估方法,来衡量模型推荐的商品是否符合用户的需求,最后的结果是购物研究达到了最高的 64% 准确率。

不过,尽管模型很强,OpenAI 还是提到,库存和价格瞬息万变,购物研究也可能会有疏漏,建议大家在下单前,点击 ChatGPT 提供的商家链接,去官网做最终确认。

在未来,甚至可以直接通过 ChatGPT 购买,OpenAI 提到那些已经加入 Instant Checkout(支付平台 Stripe 与 ChatGPT 合作的即时结算),且提供该功能的商家,就能让我们边挑选边下单了。

除了模型存在疏漏,更大的局限是在中文市场,大部分的国产,尤其是没出海的品牌,数据缺失比较严重;同时国内电商页面也无法实时抓取。不过,用来调研一些国际品牌为主的商品,ChatGPT 还是能派得上用场。

再者说,以国产 AI 进步的速度,如果想要跟进类似的功能,接入淘宝京东拼多多大概也是「分分钟」的事。

对于 ChatGPT 新上线的购物研究功能,X 上的网友也是各种意见都有。有人说「OpenAI 又一次快速实现了,我的整个创业想法。」、还有网友给出一张密密麻麻的 AI 订阅费用对比,说「AI 能帮我找到最适合的 AI 订阅吗」,也有人犀利的表示「别再破坏我的 ChatGPT 了」……

回头看 GPT-5 发布后,ChatGPT 这三个多月来的更新,群聊、视频社交、即时结账、购物、浏览器以及即将到来的成人模式等,OpenAI 看准了要利用它的庞大流量留住这些用户。对它来说,当前保持住用户的现有存量,比进一步挖掘用户增量可能更重要。

而购物研究,只是 ChatGPT 牢牢绑住现有用户,很小的一次的探索;电商这块巨大的蛋糕,它才刚刚进来。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


iOS 27 首曝:缝缝补补又一年,苹果 AI 明年见?

iOS 26 的液态玻璃还没捂热,长达一年的 iOS 27 「爆料发布会」就开始了。

在最新的报道中,彭博社首次公开了 iOS 27 的一些总体信息,简单概括就是八个字:

优化为主,AI 为辅。

求稳的 iOS 27

按照苹果的规律,大更新后的下一个版本,都会以小修小补为主。

因此,iOS 27 以及其他系统的更新,苹果也将专注于提升系统的稳定性和性能,而不会引入太多新功能和新变化。

iOS 26 的液态玻璃风格好不好看属于各花入各眼,但网上随处可见对这个系统发热强、续航差、Bug 多、掉帧崩溃频繁的吐槽,和 iPhone 17 高产品力形成鲜明对比:

近年来最好的一代 iPhone,碰上了最差的一版 iOS。

这也不由得让人想起来 8 年前的 iOS 11——为全面屏 iPhone 做出不少调整,结果总体的使用体验,特别是对老设备来说却相当糟糕。

于是第二年苹果选择「求稳」, iOS 12 新功能屈指可数,主要是以底层优化为主,也成功挽回了 iOS 的口碑。

▲ 发布会上,苹果使用老设备演示 iOS 12

iOS 26 的口碑还不至于到 iOS 11 的程度,但液态玻璃是覆盖苹果全平台的改变,这套需要更多算力的新 UI,让不少老苹果设备都力不从心,iOS 27 预计能成为很好的「养老版本」。

除此之外,苹果还会继续对液态玻璃的视觉效果进行持续微调——实际上 iOS 26 目前的两个大版本更新,都在微调液态玻璃的效果,并提供更多自定义的选项。

▲ iOS 26.1 允许用户调整液态玻璃的可读性

根据彭博社,苹果的工程团队正在仔细检查苹果各个平台的操作系统,寻找可以精简的冗余功能和需要修复的漏洞,不放过任何能显著提升设备性能的机会。

我们也别忘了,以折叠 iPhone 为首,包括带屏幕 HomePod 在内不少形态各异的苹果产品将在明年推出,它们很可能都将运行基于 iOS 27 的系统——特别是折叠 iPhone,苹果会如何设计这台设备的系统交互,十分值得期待。

至于 iOS 27 的重要功能会是什么,彭博社给出爆料是——AI。

2026,苹果 AI 重振旗鼓

今年一整年,苹果都没怎么谈到 AI,iOS 26 更是用液态玻璃的大更新,转移了外界对苹果 AI 残局的注意力。蛰伏一整年,苹果将在明年推出更多 Apple 智能新功能。

首先是跳票一年半的 AI Siri,苹果目前计划在明年春季的 iOS 26.4 正式推出。

为了追赶差距,苹果正在与谷歌达成一项为期多年的协议——每年支付约 10 亿美元,换取 Google Gemini 模型为新版 Siri 提供核心 AI 能力,周边功能则仍由苹果自家的小模型处理。

协议的关键条款是:Gemini 将运行在苹果的「私有云计算」服务器上, 用户数据不会接触谷歌的系统。

此前爱范儿曾经报道过苹果内部测试的聊天机器人应用「Veritas」,一个基于文本的 Siri 重构的测试平台。

即使苹果目前还没有推出聊天机器人的计划,Veritas 只是给 Siri 陪练的开发平台,不过有了相关技术积累,苹果日后进军这个领域也会更加顺利。

而且苹果也已经改变了对这种对话式 AI 机器人的负面态度,内部正在酝酿一个类似 Perplexity 的 AI 搜索引擎。

彭博社爆料了苹果内部已经组建了一个新的团队,名为「答案(Answers)、知识(Knowledge)和信息(Information)」,简称 AKI 团队,将打造一个 AI 检索答案的「答案引擎」 ,类似 Perplexity 和 ChatGPT 的搜索功能,并将集成到 Siri 之中。

比起更为强大的聊天机器人,单纯做 AI 搜索引擎能帮助苹果规避很多风险:更多只是网络现存资源的智能聚合,AI 自由创作的空间不多,能够一定程度规避幻觉的影响。

这个 AI 答案引擎和 AI Siri 正在协同开发,预计也是明年春季,或者随着 iOS 27 一同推出。

除此之外,苹果还在开发一个专注于健康的 AI Agent,能够针对每个用户的健康数据,AI 会给出个性化的分析和建议——新的「睡眠评分」,其实已经用到了 AI 来生成个性化分析。

这个功能将包括在全新的「健康+」服务,作为 iOS 27 新功能。

比起其他先一步探索 AI 健康的企业,苹果可能在 AI 技术上不够突出,却能凭借自己在医疗健康积累十余年的技术和海量数据,取得领先的地位。

对苹果来说,AI 已经成为了重中之重,公司各工程团队都在积极开发,不仅要填上 AI Siri 挖的大坑,还要同时开发新功能加强竞争力。

苹果自己也清楚,如果 iPhone 跟不上这一波 AI 浪潮,iPhone 很可能会在十年内过气,成为下一个 iPod。

和 iOS 27 一起曝光的,还有一个消息:OpenAI 在过去一个月里为其硬件团队招聘了 40 多名员工,不少都是从苹果跳槽,涉及苹果几乎所有硬件部门。值得一提的是,OpenAI 收购了苹果前首席设计师乔纳森 · 艾维的 AI 创业公司 io,两者将合作开发 OpenAI 首个硬件。

被苹果视作明日之星,并主导了 iPhone Air 设计的工业设计师 Abidur Chowdhury 上周也被曝离职,虽然并非跳槽 OpenAI,但也加入了一家 AI 初创公司。

有能力的人,都想去创造下一个能改变世界、定义未来的产品,iPhone 的竞争对手,很快也不再是其他智能手机,而是各种新兴的 AI 硬件。它们未必能消灭 iPhone,但能将其边缘化,商业价值大幅缩水。

苹果在 AI 上落后,但仍然是地球上最重要的终端公司之一,这给他们带来了极大的优势。苹果没能在去年把握住机会,将 Apple 智能的招牌立住,重振旗鼓一整年,明年又将是一场「大考」。

而留给他们的时间,已经不多了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Nano Banana终于不是文盲了,但我可能会变「傻」

过去一个周末 Gemini 3 Pro Image 的能力被反复「折磨」,花样越来越多——噢,你问这是什么,它的另一个名字是 Nano Banana 2。这么跟个恶搞一样的名字,居然被保留下来了。

Nano Banana2 各方面能力超群,甚至是「友商」Sam Altman 也要点头的程度。

▲ 图片来自:The Information

夸夸只是夸夸,Nano Banana 第二阶段,其实标志着 AI 图像生成领域的一个重要转折点:从基于概率的「以此类推」,转向了基于理解的「逻辑构建」。更承载着一个特殊的意义:AI 不再只是冲着你的眼睛去,还冲着你的智商去。

大语言模型不再「文盲」

一直以来 AI 生图都有个绕不过去的问题:才华横溢,信手拈来,但有时候就跟喝高了一样控制不住,这从 Midjourney 时期就开始了,往后走逐渐好转,不过始终存在。

其中最大的 bug 之一就是文字。这导致在很长一段时间里,鉴别一张图是否由 AI 生成,最简单的办法就是看图里的字。

这是基于扩散模型(Diffusion Model)的先天缺陷:它将文字视为一种纹理,而非符号。

Nano Banana 2 最直观的突破,就在于它「识字」了。即所谓的 Text Rendering 文字渲染。

我的随手测试「生成一张复古电影海报,标题是《香蕉的复仇》,副标题用红色衬线体写 2025 年上映。」

如果是在以前尝试这个指令,大概率会得到一张极具艺术感的图「BANANA REVENGE」的某种变体尚且能保持清晰和正常,但小字往往经不住看了,甚至有时候主标题都会拼写成「BANNANA」。但在 Nano Banana 2 里,这些字符被准确、清晰、且符合排版美学地「写」在了画面上。

So what?这仅仅是省去加字的时间吗?

对普通用户来说可能是,而且还是一种「表情包自由」。你终于可以生成一张精准吐槽老板的图,配上精准的文案,不用再单独拉一个文本框。

而对于商业世界,这意味着 AI 图像生成从「素材(Material)」阶段,正式跨入了「成品」(Deliverable)阶段。

▲ 图片来自 X 用户@chumsdock

当 AI 能够准确地处理符号信息,它能交付的成果就更多样也更实用,包括但不限于电商海报、PPT 配图、甚至是数据图表。以前设计师用 AI 只能生成背景底图,关键信息还得自己贴。现在,AI 可以直接生成原型图,乃至带有数据标注的饼状图,或者一张文字完美贴合透视关系的广告。

这是商业交付的「最后一公里」,也是生图模型在信息传递层面的巨大进步。

从「猜概率」到「懂物理」

字渲染的成功是 Nano Banana 2 底层技术跃迁的一个极具代表性的缩影,更深层的变化在于:这只「香蕉」,长了脑子

也就是我们所说的基于「推理」的图像生成。

大模型本质上是一个概率统计机器。当你要求画一只「坐在玻璃桌上的猫」时,模型通过学习数亿张图片,在生成时,它只是重现像素的统计规律。

Nano Banana 2 的不同之处在于,它引入了 Gemini 3 语言模型的推理能力。在生成图像之前,它似乎先在「大脑」里构建了一个物理模型。它知道「猫」下面通常会有模糊的影子,以及玻璃板上、下的物品有不同的光线关系。

在我的另一个随手测试中,当要求它生成「一个复杂的化学实验室,桌子上放着装有蓝色液体的烧杯,背景是黑板上的分子式」时,它表现出了惊人的逻辑性:

烧杯里的液体会有正确的弯液面;玻璃器皿对光线的折射符合物理直觉;最重要的是,背景黑板上的分子式不再是乱画的线条,而是看上去像模像样化学结构的式子(虽然还是有瑕疵)。

当画笔有了「大脑」,交互方式变了

之所以如此强调文字生成这个本领,是因为 Text Rendering 是外在表现,反映的是 Reasoning 作为内在引擎。合在一起, Nano Banana 2 带给用户的最终体验,就是一块「会思考的画布」(The Thinking Canvas)。

Google 将这个模型深度整合进了它的生态系统,不仅仅是生成图片,更是「修改」现实,下一步,就是走进更严肃的领域:信息图、教案、讲解素材,等等等等。

整体上,图像生成往往用户给 20% 的指令,剩下 80% 靠 AI 脑补——以前是靠概率脑补(随机填色)。现在则是靠因果脑补,不仅画出了「结果」,还隐含了「过程」,这能够让画面的叙事性和感染力指数级上升。

它不再只是为了取悦你的眼睛,它开始试图取悦你的智商。像上面这种结构图,虽然吧不敢说 100% 符合机械工程标准,但钉是钉,铆是铆。「逻辑上的正确」,是它推理能力的直接体现。

然而任何事情都是一体两面的,当换一个角度看,这就可能意味着创造力的同质化

当 AI 能够完美地生成「符合商业标准」的图表、海报和插画时,它实际上是在拉平审美的平均线。所有的海报都排版正确、光影完美,但可能也因此失去了曾经设计中那些因为「不完美」而诞生的神来之笔。

▲ 图片来自X用户@dotey

更深层的问题在于真相的消逝。当上面所说的那种逻辑正确、信息「干货」多的内容,可以被批量生产,取悦智商从未如此容易,也从未如此轻飘飘。如果它决定了我从图片信息到文字信息的所有摄入,那……会是怎样的景象?

还有 Deepfake 这个老大难问题,已经是老生常谈了。虽然这次 Google 加上了 SynthID(一种人眼不可见的数字水印)来标记 AI 内容,但在视觉冲击力面前,技术的防伪标签往往是苍白的。制造「真实」变得如此廉价和便捷,我们对「眼见为实」的信仰将被彻底重构。

至于它叫「Nano Banana」还是「Gemini 3 Pro」,其实已经不重要了。重要的是,从这一刻起,我们在屏幕上看到的每一个像素,每一行文字,都可能不再来自人类的手指,而是来自机器的思考。

这既令人兴奋,又让人在某些时刻,感到脊背发凉。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


豆包输入法上线,用了两天我在微信聊天不想再打字

如果你用过一些手机系统自带输入法,一定懂那种它好像没学过中文的无力感。

正因如此,第三方输入法才得以遍地开花。

当官方输入法不好用,用户自然会用脚投票。最近字节推出了豆包输入法 1.0 版本,要用 AI 重新定义输入体验。

趁着热乎劲,我也下载体验了两天,发现了一些让人又爱又无奈的细节。

语音识别断档领先,豆包输入法的「杀手锏」有多强?

豆包输入法的界面走的是极简风。

没有那些乱七八糟的推广弹窗和会员广告。不过嘛,安装包体积属实有点大,在 vivo 应用商店显示 139MB。而且这体积大归大,功能却不完整,用「毛坯房」来形容挺贴切的。

先说说豆包输入法的核心竞争力。

在我看来,语音打字是豆包输入法的杀手锏,体验感是断档级领先,确实比我用过的其他输入法强上一大截。在我体验的这两天里,我已经深深爱上了语音打字的体验。

一句话概括,按住说话,松手结束。

实测下来,中文、英文和粤语识别准确度都高得离谱。我随口说了句「我正在用普通话测试豆包输入法」,一字不差,再来一句英文「Attention Is All You Need」,也准确识别了。

在粤语的体验对话上,「今晚你翻唔翻嚟屋企食饭啊。」,「一蚊一只鸡,一蚊一斤龟,究竟系一蚊一只鸡贵,定系一蚊一斤龟贵?」也是一遍就识别成功。

要知道,这些句子语速快、同音字多,咬字要是稍微不清晰,输入法就容易翻车。实测表现相当能打,说明模型对粤语的声学特征和语言模型都做了针对性训练。

TVB 剧里那种粤语夹英文的说话方式,豆包也能应付。

我试了「Sorry 啊,我地已经尽晒力啦」和「赏月喝糖水,那么迟才 call 我们」,「幫我 scan 入電腦做個 copy,再 share 畀大家,记得要 double check 啊」最终结果居然一个都没错。

它甚至还能语音输入数学公式,如果你是学生、老师或者科研人员,这个功能应该挺实用的。

技术层面, 网传豆包输入法用的是 Seed-ASR2.0 模型。

简单说就是把语音转成文字, 让机器「听懂」你在说什么。和之前的大型 ASR 模型比,Seed-ASR 在中英文测试集上的错误率降低了 10%-40%。

另外, 豆包输入法还支持下载离线语音模型, 大小约 150MB。意思是在地下车库等信号不好的地方,你也能正常使用语音输入。

但离线模型的准确率肯定比在线的差一点,性能有妥协也正常。

当然了,选择一款新的输入法,很多人会担心隐私问题,豆包输入法提供了一个「基础输入」模式,只是打开之后, 语音转文字、翻译这些功能就全关了。

基础词库方面, 豆包输入法丰富度达到了主流输入法的水平, 没啥特别的, 但也不拖后腿。

除了语音识别,我试着文字输入「确实型人格」、「城巴佬」等这些网络词汇, 都能识别。生僻字方面,像「饕餮」、「皴裂」「髑髅」这些,也都是从从容容,游刃有余。

至于联想方面,融合 AI 能力的豆包输入法表现出色。

输入「1+1=」,亦或者输入问题「西游记的作者是谁」,输入法会直接在候选栏直接显示结果。作为打工人, 我就挺喜欢直接这个将 AI 融入输入法的形式,主打一个实用。

139MB 的 AI 输入法,除了语音识别还剩什么?

说完优点,该聊聊槽点了。

首先,豆包输入法只上线了 Android 版。官网显示,iOS 版即将上线,PC 版则表示敬请期待,这也意味着不支持跨设备复制粘贴。

对于频繁在多设备间工作的用户来说,缺失这个重要功能可能是一个很大的劝退点,希望后续能尽快上线。

而在默认设置下,打字有点不太跟手,响应速度不够快,但好在可以在设置里调整按键的响应速度到「极快」,调完之后体感会好很多。

有趣的是,设置键盘「震动强度」发现,选「弱」时震感很强,选「强」反而没什么感觉。这可能是个 Bug,希望后续版本能修复。

可能是因为还在早期版本,豆包输入法很多细节功能还没来得及打磨。

表情包是社交沟通的重要组成部分,很多输入法都内置了表情包搜索和发送功能。虽然豆包输入法自带表情还算丰富,但你想从输入法直接发表情包? 对不起,目前做不到。

再比如键盘功能还不够完善,输入方式只有 9 键和 26 键。如果你是双拼用户, 或者需要手写输入、繁体中文, 那豆包暂时不适合你。

另外,键盘页面有深色模式,但设置页面却没有深色模式。想换个键盘皮肤? 对不起,目前只有默认样式。后者就见仁见智,有人觉得简洁好,有人觉得太单调。

而在 AI 翻译功能输入「LLM」,它依旧会默认显示为「法学硕士」。虽然「法学硕士」和「大语言模型」两个翻译都对,但多少让我有种谷歌翻译的感觉。

那么,豆包输入法值得体验吗?

我的建议是,仅凭语音识别这个杀手锏,还是值得尝鲜体验的。

但建议别急着设为默认输入法,先当个备用工具用着,等豆包输入法把 iOS 版、多设备同步、表情包这些基础功能补上,再考虑全面切换也不迟。

当然,我们也不妨给它点时间,看看这个 1.0 版本最终能进化成什么样。

附豆包输入法下载地址:
https://shurufa.doubao.com/

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌