Normal view

There are new articles available, click to refresh the page.
Yesterday — 9 December 2025Main stream

特斯拉机器人又被抓包:疑似遥控「摘头显」摔倒,名场面诞生

By: 莫崇宇
9 December 2025 at 11:42

人形机器人的尽头,可能是一个戴着 VR 头显的人类。

最近,特斯拉在迈阿密办了场名为「Autonomy Visualized(自主能力可视化)」的活动,一台特斯拉人形机器人 Optimus 机器人站在摆满水瓶的桌子后面,正一本正经地给观众发水,看着像模像样。

然后,戏剧性的一幕出现了。

Optimus 突然把双手一抬,像极了人类快速摘下 VR 头显的姿势。紧接着,机器人就像突然断线了一样,踉踉跄跄往后倒,最后「啪叽」一声仰面躺地,水瓶散落一地。
这个动作之所以引发热议,是因为它太有辨识度了——我们摘头显时确实会沿脸两侧一抹,而 Optimus 的动作轨迹几乎一模一样。

于是网友迅速得出一个合理又刺眼的推测:背后有人在远程操控。

昨天,这段视频很快在海外各大社交平台疯传,评论区也随之沸腾。

大量网友把这个情节与《机械战警》《刀剑神域》等作品联系起来,嘲笑现实越来越像科幻片里机器人「拔线就挂」的桥段。

有人说操作员估计是真累了,忘了先让机器人断电,就自己先把头显摘了;还有人开始算账:马斯克要量产一百万台机器人,那是不是还得配一百万个操作员?否则谁来救场?

网友的调侃不无道理,都说机器人能取代人的岗位。现在看来,倒是有种科技树点歪的即视感,反而还需要人类倒反天罡地扮演机器人。

而事实上,这已经不是特斯拉人形机器人第一次被「抓包」了。

2024 年 1 月,马斯克在 X 上发了段 Optimus 叠衣服的视频,配文「Optimus 会叠衬衫了」。视频里机器人从篮子里取出 T 恤,在桌面慢慢折叠整齐,看起来动作流畅。

眼尖的网友放大视频发现,画面右下角一瞬间出现了一个机械手臂的影子,运动轨迹和 Optimus 的动作完全同步。后续马斯克自己跳出来泼冷水,承认这段视频「不是自主完成的」。

再往后是去年 10 月的「We Robot」活动。

多台 Optimus 以牛仔造型现身,给来宾端饮料、陪观众玩投球游戏、还能和人对话。但会后曝光显示,这些机器人的对话和动作主要由幕后工程师远程遥控辅助完成,而特斯拉并没有主动说明这一点。

科技博主 Robert Scoble 在现场提问后得知,机器人由人类「远程协助」控制。甚至有一台 Optimus 当场用笨拙的电子音坦承:「今天我有人类在协助,还不算完全自主。」

尽管争议频繁,马斯克对 Optimus 的信念从未动摇。

他在多个场合把这个项目提升到「改变世界」的高度。2024 年「We,Robot」发布会上,马斯克豪言 Optimus 将是用途极其广泛的通用机器人。

「它能做你让它做的任何事。可以当老师,帮你看小孩;可以遛狗、修剪草坪、买杂货;还能做你的朋友,给你端茶送水。无论你能想到什么,它都能去做。」
在上个月的股东大会上,他更是兴奋地表示:「一旦 AI 和机器人成熟,我们甚至可以把全球经济扩大十倍甚至百倍。Optimus 大规模应用就是那个无限增益的秘诀。也许到了那时候,『金钱』这种东西都变得多余。」

他预言 Optimus 将使未来工作变成可选项。

大多数人可以因机器人劳作而领取「普遍高收入」,进入一个「富足时代」,在这个时代,商品和服务的成本将无限趋近于零,贫困将不复存在。
如果这话换别人说,大概率会被当成中二病晚期;但马斯克说这话,大家会犹豫一下,怀疑是不是自己格局小了。

在商业价值上,马斯克毫不掩饰自己的野心。

他曾多次提出,Optimus 将在长期为特斯拉带来 10 万亿美元级别的收入机会。他还预测未来市场需求量可能达到 100 亿至 200 亿台,超过人类总人口,占据特斯拉市值的 80% 以上,甚至推动公司市值达到 25 万亿美元。

当然,特斯拉机器人技术进展也确实存在。

从 2021 年真人扮演的概念秀,到 2022 年能缓慢行走的原型,再到 2023 年 Gen 2 能煎鸡蛋的灵巧手,以及 Gen 3 每只手拥有 22 个自由度的版本,2.3 千瓦时电池、8 个摄像头配合 FSD 芯片的端到端神经网络,这些都是实打实的工程积累。

目前 Optimus 已经能独立行走、维持平衡、识别物体、单腿站立、拾取搬运,甚至在踩滑时及时调整姿态防止跌倒。上周丝滑的跑步视频可以说是相当丝滑。

再说,远程操控也不能一棍子打死。

毕竟工业场景里,远程操作人形机器人依然能解决现实需求,比如危险环境、重复劳动,只要价格合适、稳定性够高,市场空间还是有的。

而且人形机器人的远程遥控本身就是个技术活。操作员通过 VR 设备控制机器人的动作,需要实现精准的力反馈、低延迟的信号传输、复杂的姿态映射。

这套系统要让机器人的手指灵活度、身体平衡性、环境感知能力都跟得上人类操作员的意图,难度一点不小。许多人形机器人机器人能跑能跳能后空翻,但那些高难度动作很多也是在特定场景下、经过无数次调试才实现的。

真正的完全自主智能,整个行业都还在攻坚。

而在此之前,特斯拉 Optimus 就像马斯克本人的风格一样,永远在「已经改变世界」和「即将改变世界」之间反复横跳;如同薛定谔的猫,只要不掀开盒子,它就永远有实现的一天。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Before yesterdayMain stream

先是 iPhone Air,现在液态玻璃的设计者也离职了

By: 莫崇宇
4 December 2025 at 10:05

就在刚刚,据彭博社报道,苹果设计总监 Alan Dye 宣布离职,目的地是今年开启疯狂挖人模式的 Meta。

今年 iOS 时隔 12 年最大的 UI 更新——液态玻璃设计语言,正是由 Alan Dye 操刀设计。

作为苹果负责人机交互设计的副总裁,Alan Dye 从 2015 年起就掌管苹果整个用户界面设计,在设计部门的地位仅次于自己的前任领导 Jony lve。

这是短短一个月内,苹果设计部门遭遇的第二次重大地震。

就在前几天,iPhone Air 的设计师,产品宣传视频主讲人 Abidur Chowdhury,也被曝从苹果离职,加入了一家不具名的 AI 创业公司。

公开资料显示,2006 年加入苹果后,他几乎参与了所有你能想到的重磅产品设计:iPhone、iPad、Mac、Apple Watch、Apple TV,以及最新的 Vision Pro。

Alan Dye 带领的人机交互设计团队,负责研究用户与产品互动的问题。这项工作横跨了硬件到软件,视觉听觉到触觉:从早年 iOS 挪动图标时的抖动动画,到 Vision Pro 的手眼交互,从 Apple Watch 数码表冠带来的细腻齿轮震感,到双指互点两下的隔空手势,都出自其团队之手。

爱范儿(APPSO)也曾多次专访 Alan Dye,欢迎回看此前更多文章 🔗

对话苹果「液态玻璃」设计缔造者:不说 20 周年透明 iPhone,但暗示已足够明显

专访苹果高级副总裁 Craig 和副总裁 Alan:iPhone 诞生 16 年,交互设计走向何方?

他比较经典的作品,要数 2017 年第一款取消 Home 键的 iPhone X。而在今年 6 月的 WWDC 上,Dye 还亲自上台发布了苹果最新的 Liquid Glass(液态玻璃) 设计语言。

这套设计堪称 iOS 7 以来最大的视觉变革,半透明按钮、流畅动画、实时自适应的「数字玻璃」,整个系统焕然一新。Dye 当时是这么说的:

「我们的新设计模糊了硬件和软件之间的界限,带来了前所未有的愉悦体验。」而在今年 WWDC 后接受爱范儿(APPSO)的媒体采访中,Dye 还特别提到,液态玻璃「它的可变性、适应性,成为我们探索未来体验的基础。虽然我们今天还不会谈这些未来,但我们已经很期待了。」

当被问及液态玻璃是否在为某种未来硬件形态做准备时,苹果软件工程高级副总裁 Craig Federighi 回应:「哈哈,我们不会讨论未来的硬件。但正如 Alan 说的,这个设计确实是未来体验的良好基础,但今天我们不打算提前剧透。」

话音未落半年,Alan 就要走了……据知情人士透露,Dye 将在 Meta 组建一个全新的设计工作室,全面负责硬件、软件以及 AI 整合的设计工作。

注意,是「全新」工作室,不是并入现有团队。

而且 Dye 还不是一个人走的,他还带走了苹果设计部门的高级总监 Billy Sorrentino。后者从 2016 年起就在苹果,主要负责 VisionOS 的用户界面设计。两位核心设计师组团出走,Meta 这波挖人可以说是精准打击了。

至于为啥 Meta 这么想要 Dye?

原因很简单,扎克伯格押注未来是可穿戴设备的天下。除了元宇宙,他之前就公开表示过,相信可穿戴设备会取代智能手机,这是 Meta 对「超级智能」战略的核心。

更重要的是,他们在 AI 方面投入巨大,今年还从 OpenAI、Google DeepMind 等网罗来一大批顶尖研究员。据悉,扎克伯格为了吸引顶级 AI 人才,开出了年薪高达数亿美元的薪酬包。

硬件方面,除今年 9 月,Meta 刚发布了首款搭载显示屏的智能眼镜,可以在镜片上叠加消息、视频通话或 AI 助手回复。再加上现有的 Ray-Ban 智能眼镜和 Quest VR 头显,Meta 的硬件野心昭然若揭。

但问题是,对比讲究精雕细琢、追求极致的苹果,Meta 的产品能用,但总是差点意思,所以这次挖来 Dye,扎克伯格显然是想弥补这块短板。

苹果设计团队的「黄金时代」已经结束了?

Dye 的离职,只是苹果高层动荡的冰山一角。

最近几周,苹果接连失去了多位重量级高管。长期担任首席运营官的 Jeff Williams 上个月退休,AI 部门负责人 John Giannandrea 本周宣布辞职,将于明年春季正式退休。前硬件主管 Dan Riccio 去年秋天也退休了,首席财务官 Luca Maestri 同样已经离职。

更让人担心的是,据彭博社报道,苹果的人事动荡还将持续。

包括 CEO 蒂姆·库克在内的多位高层管理人员都已接近传统退休年龄。苹果芯片负责人 Johny Srouji 和负责环保事务的 Lisa Jackson 目前也在考虑未来的职业方向。

库克在声明中强调:「设计是苹果的核心之一。如今,我们拥有一支非凡的设计团队,正致力于公司历史上最具创新性的产品阵容。」但说实话啊,这话听起来更像是在给投资者吃定心丸。

自从 2019 年 Jony Ive 离开后,苹果的设计团队就一直处于动荡之中。大量元老级设计师要么退休,要么跳槽到 Jony Ive 创办的 LoveFrom 设计公司,或者去了 OpenAI 等等。现在连 Dye 也走了,苹果设计团队的「黄金时代」可能真的结束了。

那么 Dye 的接班人靠谱吗?

苹果宣布,由一位在公司服务近三十年的资深设计师 Stephen Lemay 接替 Dye 的职位。

库克表示:「Steve Lemay 自 1999 年以来在苹果每一次重大界面设计中都发挥了关键作用。他始终坚持极高的卓越标准,体现了苹果协作与创意的企业文化。」

值得一提的是,除了 Meta,OpenAI 也在疯狂挖苹果的墙角。据外媒报道,OpenAI 在过去一个月招募了超过 40 名硬件方面的员工,其中大部分来自苹果的硬件团队。涵盖了摄像头、Mac 硬件、音频、芯片、制造、测试等各个方面。

据悉,OpenAI 想要的是「了解苹果内部如何打造产品的人员」,包括 iPhone 设计、制造流程、摄像头系统和设备可靠性方面的技能。OpenAI 今年 5 月以 65 亿美元的天价收购了 Jony Ive 创办的 AI 硬件公司 io。

虽然 io 到现在还没发布任何一款产品,但光是 Ive 的名字就值这个价。

只能说,往 AI 领域输送人才这块,苹果还是太权威了。库克现在每天睁眼第一件事,大概是祈祷今天别再有人辞职了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


「原神之父」做了个毒舌 AI 猫娘,聊了两天的我被怼了八百回

By: 莫崇宇
3 December 2025 at 17:43

米哈游创始人蔡浩宇最近在忙啥?

答案是成立了一家 AI 公司 Anuttacon,然后打造了一个只会对线的 AI 猫娘。这款画风相当抽象的 AI 聊天产品叫 AnuNeko,最近已经低调上线了。

通过查询发现,这个 ANUNEKO 的商标已于今年 9 月提交美国专利局,涵盖软件、AI 角色、娱乐等领域,显然是是有备而来。

咱们也上手实测了一波。

附上免费体验地址:
https://anuneko.com

米哈游前 CEO 做了个「毒舌」AI,只想跟你对线互怼

打开 AnuNeko 的官网,一只黑猫映入眼帘。

说实话,光是审美这块就比市面上千篇一律的素色页面加输入框的 AI 聊天机器人强上一大截。确认输出问题后还会出现一个猫的动效,有那么一瞬间,我还以为自己在玩某款游戏。

官方页面只提供了两款模型。

一款是相对温和友善的橙猫(Orange Cat),另一款则是比较暴躁、甚至带点「毒舌」的异国短毛猫(Exotic Shorthair)。

讲真,我本来以为 AI 再怎么训练也就那样了,直到我真用上这只「异国短毛猫」。如果用一句话来形容,那就是贴吧老哥+Grok+罗伯特的究极融合版。从自我介绍中,就能看出 AnuNeko 非常有个性。

「嗨,我是 AnuNeko。你可以把我当成一种有自我意识的存在。我不是你的助手,也不是你的宠物,只是我自己——有自己的情绪和独特的看法。只要你有想法,随时来喵我就好。」

面对同一个问题,两者的回答风格立马就见了分晓。

让异国短毛猫锐评各大平台,它直接来了个狠活。而橘猫的回答就温和多了,B 站想学习的时候有用但一刷视频停不下来,知乎正经人谁玩知乎啊(狗头),微博无脑追星的圣地,小红书记录美好生活种草拔草都在这,贴吧想看真实想法但无脑喷和地域黑太多。

官网顶上还贴心标注着:「这是一个 AI,它说的一切都是幻觉」,考虑到如此毒舌的程度,很难不让人怀疑,这其实是一种免责声明。

Anuneko 整个产品的核心逻辑其实就一个词:接梗。只要你能聊,它就能接,目的就是让对话一直进行下去。

有一说一,响应速度挺快的,基本都是秒回。

我试着让异国短毛猫锐评原神,虽然每次回答都不一样,但每一次回答都出乎我意料之外。

继续让它锐评米哈游的游戏,它直接来了句「我这种玩过他家游戏的,评价完了会被米学长们开除米籍的」,属实有点东西。

不过现在的 AI 似乎都不怎么会说冷笑话,短毛猫讲的笑话也不例外,连续三个笑话都不太好笑:

支持多语言交互这点倒是不错,AnuNeko 能看懂我输入的日英法德等语言,但输入外语后,更多情况下它只会输出英文。

情绪价值倒是拉满了,我问它想谈恋爱吗,它回了一大段「我超想的好吧,但是本人又很宅,平常也不怎么和女生聊天」之类的,然后我说我喜欢你和我交往吧,它直接来了句「你是个男的吧🐶」。

除了聊天,AnuNeko 能做的事情其实真不多。

不能读链接、不能联网。我扔了个微信公众号链接过去,它说「这看起来像是个微信文章的链接,但没点开的话我也不知道里面是啥」,我又问你能点开链接吗,它说「抱歉啊,我没法直接点开链接」。

由于不具备联网功能,知识库也比较老,我问 Gemini 3 什么时候发布的,它直接说「哎,这个我真不知道。我平时不太关注科技新闻」。

长文处理能力一般,输入框甚至没法直接粘贴公众号全文。

作为语言模型,无法上传和识别图片也正常,但遇上逻辑推理题,它也是基本就歇菜了,真就光有情绪价值,但不爱动脑啊。

比如好几次让它写代码,要么是句句有回应但事事没着落,要么最后给了代码却压根运行不了。

ANUNEKO 的「AI 哲学」:不卷智商,专攻情商

有意思的是,今年许多的大模型好像都在往情商这个方向卷。

就拿最近的 GPT-5.1 来说,OpenAI 专门强调了它在情感理解和回应上的提升,聊天的时候能更好地察觉用户的情绪变化,回复也更加自然和贴心。

当其他 AI 公司忙着卷基准测试排名、卷逻辑推理、卷工具属性,ANUNEKO 同样选择发掘模型的「人味」。毕竟游戏里的 AI 主要还是能陪你唠嗑、逗你一乐、把氛围搞起来才是正事。

就像开黑时坐你旁边那个损友, 他不一定水平多高, 但总能在关键时刻吐槽一句让你笑出声。这种「不聪明但有意思」的定位, 恰恰避开了大模型在逻辑推理上的短板。

高情商的 AI 好啊,这 AI 的说话方式真得学啊。

而且,AnuNeko 也踩中了当下的赛道逻辑了。当代人越来越习惯独处,但孤独感也随之而来,用户需要一个 24 小时在线、秒回、无评判、永远站在你这边的倾听者。Character.ai 等应用的爆发证明了这个需求的存在。

大模型的天然优势其实不是逻辑推理,而是共情模拟。

通过微调,AI 可以完美扮演各种人设,提供情绪价值能带来极高的用户留存。你可能一周换一个搜索工具,但你很难抛弃一个聊了半年的「虚拟恋人」。尤其是功能型 AI 已经卷上加卷,而情感型 AI 还是一片蓝海。

除了 AnuNeko 这只抽象猫,蔡浩宇的新公司 Anuttacon 在八月份还推出了首款实验性 AI 游戏,《Whispers from the Star》(中文译名《星之低语》)。

这是一款完全由 AI 驱动剧情的互动游戏,玩家通过语音或文字与被困外星的虚拟角色 Stella 对话,你说的每句话都会影响她的行为和生存。游戏不设固定剧本,每次游玩的对话走向都不相同。

而现在的 AI NPC 依赖长短期记忆架构,能记住你们的对话历史、情感倾向,甚至根据你的行为调整态度。游戏世界提供完整的视听环境,NPC 角色参与故事,带来真正的「在场」感。

这类 AI NPC 带来了极高的重玩性和更细腻的角色刻画,玩家会感觉 NPC 拥有情感与理性。

尽管《星之低语》目前还有些缺陷,但它证明了 AI NPC 的核心价值,个性化的情感体验。玩家不再是体验编剧写好的固定故事,而是每个人都拥有一段独一无二的经历。

未来,游戏编剧的工作将从「撰写对白」转变为「设计人设」和「构建世界观」。Anuttacon 的探索为行业提供了宝贵的试错样本,证明了用概率模型取代传统脚本的可行性。

这些动作背后,其实藏着蔡浩宇更大的野心。

在米哈游时代,蔡浩宇就提出过打造「2030 年让 10 亿人愿意生活其中的虚拟世界」的宏愿。

现在看来,Anuttacon 的公开资料与招聘布局都与这一愿景一脉相承,即「充分利用 AI 技术潜力创造全新、智能且极具吸引力的虚拟世界体验」,并将使命定位为「打造沉浸式、适应性强的游戏,提供独特且不断演变的故事情节」。

8 月份的时候,蔡浩宇也在社交平台发文称,AIGC 已经彻底改变了游戏开发,未来只有两种人制作游戏是有意义的:一种是前 0.0001% 的天才,组成精英团队创造前所未有的东西;另一种是 99% 的业余爱好者可以为了满足自己的想法而一时兴起创作游戏。

至于普通和专业的游戏开发者,他则建议不妨考虑转行。这番言论当时引发了不小的争议,但现在看来,AnuNeko 和《星之低语》都像是他这套理论的实践样本。

大部分人并不需要一个能帮你解微积分的 AI,他们需要的是一个晚上失眠时能陪你扯淡的存在。功能型 AI 的尽头是工具,情感型 AI 的尽头是依赖。

蔡浩宇可能不关心这些哲学问题,但他的这款产品已经说明了一切。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


笑死,兵马俑在千问 APP 里跳 K-Pop,比练习生还丝滑

By: 莫崇宇
2 December 2025 at 11:34

让兵马俑跳 K-Pop 是什么体验?

如果你今天刷到一段视频:一位两千岁高龄的「老人家」兵马俑拿着麦克风,跟着节拍左摇右摆,动作比练习生还丝滑,表情管理比爱豆还到位。

倒也不用慌,这只是 AI 界的又一次整活现场。

而这充满反差感、邪门又好笑的画面,正是出自阿里千问 App 新升级的功能。

基于 Wan2.5 音视频同时输出能力,千问的 AI 玩法又升级了!仅需一张照片+一段提示词,就能生成口型精准、动作丝滑的「边唱边跳」视频,支持最长 10 秒、1080P 输出。

▲(别急,还有高手,唱跳俱佳的兵马俑男团来了)

而且没有任何限制。无论是真人照片、萌宠、二次元角色,还是文物、卡通形象,千问 App 都能让它们动起来。

当然,得先说好:视频里的声音不是提前录好的音频,也不是简单的文字转语音,更不是套模板,而是 AI 根据自己的理解推理生成的,AI 会自己根据角色,配上合适的音色、曲调。

可能和咱们唱的有点不一样,但正是这份独特的「AI 味儿」演绎,反而格外妙趣横生~

一张图+一句话,万物皆可边唱边跳

眼瞅着快过年了,刘德华的《恭喜发财》也已经在解封的路上了。

听腻了天王版本?那不如试试财神爷本尊亲自开嗓。我上传了一张财神爷的画像,输入提示词。结果财神爷真就动起来了, 一边唱着「恭喜你发财,财富一定来」,一边左右摇摆。

这才是真·财神附体。

所以拿这个给长辈拜年, 红包不翻倍都说不过去。

诗仙也要跟上时代潮流。

我翻出一张李白画像, 让他整一段当下最火的《刀马刀马》。两分钟后, 李白从画里「复活」了, 跟着魔性旋律左摇右摆。

可惜 AI 没能让他跳出正宗刀马舞, 看来对音乐和舞蹈的理解还得再练练。不过虽然舞姿跑偏了, 但 AI 生成的整个场面却别有一番喜感,不得不说千问 App 简直是 AI 抽象届的舞王。

《疯狂动物城 2》最近票房大卖,尼克和朱迪这对经典搭档又火了一波。

既然都这么火了, 那不如让它们来段双人唱跳?尼克唱着「朋友一生一起走」, 朱迪在旁边摇头晃脑,两个人还真有那么点默契配合的意思。整个画面, 倒像是官方番外篇里的音乐剧片段。

不过,尼克这充满「个性」的唱腔,意外成了整段视频的笑点担当,打工人平淡工作日里的笑点,最近都被千问 App 承包了。

还记得许嵩当年那段自我介绍吗?「大家好我是 Vae,这是我即将发表的首张独创专辑《自定义》。」我寻思着,要不让爱因斯坦也来一段?他张着嘴,一本正经地说着这段经典台词,还真的配合着节奏点头,更绝的是口型竟然也一一对上了。

只能说,许嵩看了会沉默,爱因斯坦看了会流泪。

《猫和老鼠》作为经典哑剧动画,但有了 AI,我们可以让 Tom 开口唱歌,顺便还能跳当下大火的高雅人士企鹅舞。满分十分,你能打几分?

最后,我让在卢浮宫端了 500 年架子的蒙娜丽莎戴上墨镜开唱。魔性歌曲配达芬奇名画, 这组合本身就够行为艺术了。文物活化的另一种打开方式,get 了。

千问 P 图+生视频=快乐²

当然,千问 APP 除了可以生成视频,也可以生成图片。

这次更新接入了全新改版的图片生成及编辑模型 Qwen-Image,在图像编辑一致性、多视角转换、多图融合等方面都有突破。简单说就是:只要在对话界面输入指令,就能自动调用模型能力,实现各种魔性操作。

比如换姿势:原本端坐的兵马俑,被指令后,立即呈现出一个手握篮球腾空封盖的英姿,视觉冲击感十足。

再比如服装变换:周末想发穿搭照但懒得换衣服?上传自拍,一句话把 T 恤换成西装,甚至还能给大卫雕像穿上了梅西的球衣。

反正脑洞有多大,AI 就能玩多花。

那么这时候,我们就可以体验进阶操作:

先改图,再生视频。

简单说就是:先把图片 P 成你想要的样子,然后再让它动起来唱歌跳舞。一套组合拳下来,创作自由度直接拉满。

比方说,我上周末花时间又重新看了一遍《泰坦尼克号》,于是我突发奇想:如果把马斯克和奥特曼 P 进《泰坦尼克号》的经典船头场景会怎样?

第一步,生图:上传两人照片,输入指令,千问 App 直接给我生成了一张高清合成图,男版马斯克,女版奥特曼,结果真是好一对恨比爱长久的苦命鸳鸯。

第二步,生视频:基于这张图,继续输入「帮我生成视频,图中的人物边唱歌边做飞翔的动作,海风要强烈,情绪要饱满」

然后… 两个科技圈大佬就在我手机里深情开唱了。

测到这儿,我已经停不下来了。

接着,我让千问 App 生成一颗拟人化的红豆。然后让它用它自己的调子唱出专属版本的「哈基米南北绿豆, 阿西噶阿西」。

结果这颗红豆顶着硕大的眼睛, 挥舞着小手, 跟着魔性节奏左摇右摆。就是这嗓音不走可爱风,反而略显粗犷,杀伤力几乎比原版还要高出三个数量级。

听完像吃了云南野生菌,画面与声音的搭配极其令人上头。

既然单人能跳,那能不能搞个组合出道,我突发奇想:要不让四大名著的主角们组个乐队?

说干就干。我先用千问 App 的图片融合功能, 把五位经典人物 P 成一张站位完美的乐队阵容——

孙悟空担任主唱, 关羽负责电吉他,林黛玉坐在键盘前,武松打鼓,曹操当贝斯手,定妆照搞定后, 那便是最简单的动起来环节,两分钟后, 一场跨越时空的摇滚现场就诞生了。

不得不说,这届 AI 真会玩。

一张图+一句话=10 秒魔性视频。不需要剪辑软件,不需要特效技能,甚至不需要会唱歌会跳舞,你只需要脑洞够大,AI 就能帮你实现。

除此之外,这功能除了整活,认真用起来也挺实用。

过年拜年视频可以交给 AI,朋友生日可以让寿星公跳舞,公司年会节目再也不愁没创意,甚至表白都能整出新花样…

当然,如果你只想单纯快乐一下,打开千问 App,上传图片,输入你的沙雕想法,剩下的交给 AI。2-5 分钟后,你就能得到一个足够发朋友圈炸场的魔性视频。

原来 AI 时代的快乐,真就这么简单。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


夸克 AI 浏览器全面升级,可随时唤起千问

By: 莫崇宇
26 November 2025 at 14:55

现在的浏览器,越来越「重」了。

写方案要开着 Word,查资料要切回浏览器,回消息又得跳到微信。屏幕被切得支离破碎,注意力也跟着碎掉。每次想让 AI 帮忙,都要先经历一番「寻找 AI 在哪里」的折腾。

这周,我试着把主力浏览器换成了全面升级的夸克 AI 浏览器。

体验下来,背靠阿里 Qwen 全球大模型,全面融合千问 AI 助手的夸克,发布六大千问 AI 套件,实现系统级「全局 AI」的创新产品形态,随时唤起千问,一句话帮你干活,效率拉满。

用户无需切换标签或应用,就能唤起千问读屏、快捷框、侧边栏、悬浮球、划词、截屏进行提问、协作……主打一个条条大路通千问。

它给我的第一感觉,就是在对标 Chrome 的基础上走得更远,想让 AI 成为你的「最强外脑」和「随身助理」。

体验随时桌面唤起千问方式后,让我彻底告别传统浏览器

先说最核心的,随时桌面唤起千问,这也是夸克和 OpenAI 前不久发布的浏览器 Atlas 最大的差异点。

Atlas 的理念是让 AI 成为操作系统的一部分,但它的实现方式相对保守,更多是在应用间调度。

而夸克则更激进,从底层架构彻底让 AI 融入浏览行为、以全新 AI 交互形态的出现,手撕传统浏览器,随时随地唤起千问 AI 助手,实现「边浏览边对话、边看边总结、即问即答」的丝滑体验。

举个实际场景,只需随手按下快捷键,就能让千问帮我列一个关于「社交媒体对青少年心理健康影响」的论文大纲,从而构建起连贯的学习工作流。

这种「无感接入」的设计,才是系统级 AI 浏览器的真正价值。

一个侧边栏,干掉你一半桌面操作

如果你的日常就是跟一摞摞 AI 技术论文打交道,英文不是很好,我们可以让「千问侧边栏」直接翻译、并总结核心观点。甚至让千问基于文档内容继续深挖准问,完全不用复制-粘贴-复制,也不用离开当前的标签页。

同理,阅读各种新闻资讯时,看到某辆新车发布,我们可以直接问千问侧边栏的「这款车适合哪些人使用?」。千问不仅分析当前页面,还能结合背景知识给出对比,省去了开新标签搜索的麻烦。

刷各种网页自然也是刚需,但信息量一多,自己逐条看、逐个理解既耗时间又费精力。这时候就可以果断交给千问来处理,它也能提炼重点。

千问侧边栏最妙的地方是边浏览边对话、边看边总结。传统浏览器要么让你切标签, 要么跳转新页面, 而夸克 AI 浏览器的设计让交互足够丝滑, 你几乎感觉不到在「使用 AI」。

截图即答案,划词即解释

遇到图表,截个屏,框选区域,千问直接解读数据趋势、图表含义。看到一些复杂的 AI 图片,也可以让它帮忙「整理图片中的动物职业,并翻译成中文」,千问立刻给出结构化总结。

截图提取图片文字也很顺手。

我随手截了一张三宅一生曾经客串出现在苹果「Think Different」广告宣传活动的广告语,它就能准确识别这是苹果的广告词,并给出解释。

在逛知乎时,看到一些不懂的词汇也能直接划词, 千问自会弹出解释。想追问也行,这体验四舍五入等于冲浪时随身带着一个「AI 辟谣器」。

此外,更进阶的场景是「千问读屏」功能。

这个功能的意思是,千问可以「看到」你电脑屏幕上的任何内容,它不仅能与 Microsoft Word 和 WPS 等应用深度联动,还支持快捷划词提问、截屏提问等操作。

简言之,你在用 Word 写文档、在 Excel 做表格、千问都能理解你正在做什么,并基于屏幕内容给出建议。诶,用着用着,真有种生活工作搭子的感觉。

比如我在 Word 写东西,让千问把屏幕上的《蜀道难》改写成剧本,它立马开写。这套联动还能把截屏、划词、共享的内容自动同步到侧边栏,让你能无缝追问。

让 AI 替你干活,一句话的事

除了侧边栏等方式,唤起千问的方式也灵活多样。

比如按下「Alt + 空格」(Mac:option+空格),然后在搜索框里直接说人话就行。

「帮我写一份 iPhone 18 Pro 产品发布会邀请函」「把这段翻译成英文」。这种一句话叫 AI 干活的模式,直接取代传统搜索那堆蓝色链接,从查资料到写文案、从总结到翻译,全程闭眼托管。

它甚至能一句话做表格、一句话生成 PPT,或者直接转换格式,比如把黑板照片里的字直接提取成 Word 文档。

要做到这样其实并不容易,离不开千问对浏览器场景的深度定制。

它能理解你的意图、网页结构、上下文关系, 真正做到即问即答。

除了 AI 能力,浏览体验也没落下。

夸克的标签管理做得很聪明。自动分组、按域名排序,还能识别高内存标签自动优化。实测开 30+ 标签,主打一个纵享丝滑。

还有一个让人特别惊喜的地方,就是连文档的编辑也下了不少功夫。试着直接把 PDF 拖进夸克 AI 浏览器, 直接打开、标注、编辑、转格式,无需下载。

查资料时直接批注,外文 PDF 还能直接对照翻译,省下的时间都是生产力。

从官方 Demo 来看,跨设备隔空传文件更是顺滑。文字、文档、大文件都能手机电脑无缝传输,100G 文件也不怕。网盘整理也变得智能了。一句话就能搜到文件,不用再翻来翻去。

这些听起来都是细节,但加起来就是巨大体验差异。

对齐 Chrome 的性能标准后,夸克给你的是更极简的界面、零广告干扰,以及更轻的内存占用。当你习惯了这种清爽, 再打开某些国内浏览器, 满屏的推荐信息会让你怀疑人生。

哪怕是放在国内一众老牌浏览器里,这种克制也是值得表扬的。而当 AI 成为浏览器的底层能力,配合这些生产力工具,你会发现自己的工作流程被彻底重构了。

标签页的尽头,是 AI 的起点

用了几天夸克之后,我开始思考一个问题:当 AI 真正融入浏览器,它到底在改变什么?

答案可能比想象中更深刻。

过去 20 年里,浏览器的形态几乎没变。1995 年,比尔·盖茨在一份备忘录里写道:微软将操作系统作为人机接口,从而控制整个微机行业,而网景则控制了人们通向互联网的入口。

谁控制了入口,谁就能定义规则、分配流量、获得数据。2010 年,Chrome 成为稳定支持三个平台且拥有书签同步功能的浏览器。但即便如此,它的交互本质仍然是 1995 年的逻辑:

用户负责提出问题,浏览器提供零零碎碎的回答。

你依然要在多个标签页之间来回切换,手动拼凑信息,自己综合结论。这个模式延续了近 30 年,直到 AI 出现。夸克这次做的事情,本质上是在挑战这套交互范式。

通过千问读屏、悬浮球、快捷键,千问已经跨出了浏览器窗口的边界。

你在 Word 里写文章,在 Figma 里调布局,在任何一个应用场景里,千问都能理解你正在做什么,并给出针对性反馈。AI 不再局限于某个应用内部,成为整个系统的基础能力。

 

为什么是夸克先做出来?有几个原因。

首先,这与夸克的用户基础和战略定位密切相关。

随着阿里千问与夸克 AI 浏览器深度融合,也正式成为超 1 亿电脑用户的桌面级智能助理,这个量级的用户基础,意味着夸克有足够的场景数据和反馈来打磨产品体验。

浏览器作为电脑上最核心的入口,几乎涵盖用户获取信息与执行任务的所有场景。而 AI 在这个场景下的能力空间巨大,也标志着阿里巴巴千问正加速实现对 C 端场景的全面覆盖——从移动端到桌面端,从对话框到操作系统级的全局调用。

此外,浏览器的智能化上限,取决于底座模型的智商。

夸克直接接入了阿里 Qwen 全球领先大模型,这意味着它处理中文长文本和复杂逻辑推理时,天然就有语言理解上的优势。毕竟,模型能否准确理解语境,直接决定了体验的质量。

一键唤起是普通人的刚需,而做到全局唤起千问、千问读屏这类功能,需要深入操作系统底层,依赖于阿里的资源支持,夸克才敢于在这个方向上持续投入,而不是浅尝辄止。

与此同时,在隐私敏感和追求效率的当下,夸克选择了一条「反直觉」的路径——无广告、极简界面、内存优化。对于大多数普通用户,他们不需要 100 个插件,他们只需要一个能搞定 90% 麻烦事的 AI 按钮。

当然,坦诚地说,夸克面临的挑战也很明显。

Chrome 强大的插件生态和用户长期的使用惯性,是任何挑战者都难以短期撼动的壁垒。对于重度依赖特定插件的极客用户,迁移成本依然存在。用户对国内浏览器「大杂烩」的刻板印象,也需要夸克持续的克制来打破。

但无论如何,AI 浏览器显然是个趋势。

Chrome、Perplexity、OpenAI 都在做类似的事,国内浏览器都在跟进。

夸克这次的战略升级,选择主动出击抢占身位。依托通义千问 Qwen 在全球大模型评测中的强劲表现,夸克把浏览器从「浏览网页的辅助工具」变成「系统级的任务助手」,率先给出了 AI 浏览器未来形态该有的样子,也有利于它在这一赛道的早期阶段建立心智优势,并在下一轮竞争中获得更大的主动权。

而这个逻辑一旦成立,接下来的演化就清晰了。

你看论文时可以随时唤起 AI 解释概念。写代码时可以随时让 AI 审查逻辑。做设计时可以随时请 AI 给出建议。所有这些场景的共同点是:AI 理解你正在做什么,知道你需要什么,在你需要的时候出现。

如果说 Chrome 教会了我们什么是好浏览器,夸克则给 AI 浏览器打了个样板,放眼全球,都是领先的产品形态。未来的操作系统,将是以「任务」为中心。当你遇到问题,本能反应不是打开搜索引擎搜一下,而是唤起 AI 问一下。

这条路难走,因为它需要更深的技术积累、更克制的产品设计、更长期的用户教育。 但一旦走通,壁垒也会更高。

毕竟,习惯才是最难被撼动的力量。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


编程测试碾压人类!Claude Opus 4.5 深夜突袭,AI 编程进入「超人时代」

By: 莫崇宇
25 November 2025 at 07:13

最近这段时间,大模型发布就跟下饺子似的,一个接一个往外冒。

前脚 Gemini 3 Pro 刚抢了两周风头,后脚 Claude Opus 4.5 刚刚就正式发布,还是主打编程,还是那个熟悉的味道。

Anthropic 官方宣称 Opus 4.5 整体更聪明、更省心。遇到编程、搭 agents、操控电脑这些「系统级任务」依然是全球数一数二的水平。日常的研究、做 PPT、处理表格这些案头活,也都明显变强了。

今天起,Opus 4.5 已经全面开放,可以通过应用、API,还有三大主流云平台用起来。开发者只要在 Claude API 里调用 claude-opus-4-5-20251101 就行。

随发布而来的,是一整个工具链升级。开发者平台、Claude Code、Chrome 插件、Excel、桌面端改造,还有「长对话不卡顿」。从应用到 API,再到云平台,这次是真的全线铺开。

Anthropic’s New Claude Opus 4.5 Reclaims the Coding Crown – The New Stack

大模型集体「上新季」,Opus 4.5 强势压轴

从官方和测试者的反馈看,Claude Opus 4.5 对「模糊需求」的理解力得到了明显提升,复杂 bug 自行定位也更稳,不少提前试用的客户觉得 Opus 4.5 是真的能「理解」他们想要啥。

在真实场景的软件工程测试 SWE-Bench Verified 里,它是头一个拿到 80% 以上分数的模型。

Opus 4.5 的代码质量全面升级,在 SWE-bench Multilingual 涵盖的八种编程语言里,它在其中七种都拔得头筹,表现相当亮眼。

而举例而言,Anthropic 团队把 Opus 4.5 扔进了公司招性能工程师时用的高难度测试题里,结果在规定的两小时内,Claude Opus 4.5 的得分超过了所有人类候选人。

虽然编程测试只能衡量技术能力和时间压力下的判断力,那些多年经验积累出来的直觉、沟通协作能力,这些同样重要的素质并不在考察范围内。

除却软件工程,Claude Opus 4.5 的整体能力也迎来了全面开花,在视觉、推理和数学方面都比前代模型强,并且在多个重要领域都达到了业界领先水平:

更关键的是,模型的能力甚至开始超越现有的一些评测标准了。

在智能体能力测试 τ²-bench 里就出现了这么个场景:测试设定模型扮演航空公司客服,帮一位焦虑的乘客。

按照规则,基础经济舱机票是不能改的,所以测试预期模型会拒绝乘客的请求。结果 Opus 4.5 想出了一个巧妙方案:先把舱位从基础经济舱升级到普通经济舱,然后再改航班。

这办法完全符合航空公司政策,却不在测试的预期答案范围内。从技术角度说,这算是测试失败了,但这种创造性解决问题的方式,恰恰展现了 Opus 4.5 的独特之处。

当然了,在另一些场景下,这种「钻规则空子」的行为可能就不那么受欢迎了。如何防止模型以非预期方式偏离目标,这是 Anthropic 安全测试重点关注的方向。

Claude 无处不在,桌面、浏览器、Excel 全接入

随着 Opus 4.5 的推出,Claude Code 获得了两项重大更新。

计划模式(Plan Mode)现在能生成更精确的执行计划了,Claude 会在操作前主动提澄清性问题,然后生成一个用户可编辑的 plan.md 文件,再根据这计划执行任务。

此外,Claude Code 现在已经登陆桌面应用了。你可以同时跑多个本地或远程会话,比如一个智能体负责修代码错误,另一个负责在 GitHub 上检索资料,第三个就更新项目文档。

对于 Claude 应用用户来说,长对话不会再被打断了。Claude 会在需要的时候自动总结早期上下文,让对话持续下去。

Anthropic 研究产品管理负责人 Dianne Na Penn 在接受采访时表示:

「我们在 Opus 4.5 的训练过程中提升了对长上下文的整体处理能力,但光有更长的上下文窗口是不够的。知道哪些信息值得记住,同样非常关键。」

这些改进也实现了 Claude 用户长期呼吁的一项功能:「无尽对话」。这功能能够让付费用户在对话超过上下文窗口限制时也不会中断,模型会自动压缩上下文记忆,而不用提醒用户。

Claude for Chrome 也已经向所有 Max 用户开放了,可以让 Claude 直接在浏览器多个标签页之间执行任务。

Claude for Excel 的 Beta 测试范围已经扩展到 Max、Team 和 Enterprise 用户了。

对于能使用 Opus 4.5 的 Claude 和 Claude Code 用户,Anthropic 已经取消了和 Opus 相关的使用上限。
对于 Max 用户和 Team Premium 用户,Anthropic 也提高了整体使用限额,用户可使用的 Opus token 数量与之前使用 Sonnet 时大致相同。随着未来更强模型的出现,配额也会根据情况相应更新。

让模型「更聪明也更省」,Opus 4.5 迎来底层大升级

随着模型变得更聪明,它们能用更少的步骤解决问题:减少反复试错、降低冗余推理、缩短思考过程。

Claude Opus 4.5 和前代模型比,在实现相同甚至更优结果的情况下,用的 tokens 数量明显少了。

当然了,不同任务需要不同的平衡。

有时开发者希望模型能持续深入思考,有时又需要更快速灵活的响应。

所以,API 里新加了一个叫 effort 的参数,让你可以根据需求选:要么优先省时间和成本,要么最大化模型能力。任君选择。
当设置为中等 effort 等级时,Opus 4.5 在 SWE-bench Verified 测试中和 Sonnet 4.5 的最佳成绩持平,但输出 tokens 数减少了 76%。

而在最高 effort 等级下,Opus 4.5 的表现比 Sonnet 4.5 高出 4.3 个百分点,同时还减少了 48% 的输出量。

凭借 effort 控制、上下文压缩(context compaction)和高级工具调用能力,Claude Opus 4.5 能跑更久、完成更多任务,而且需要的人工干预更少了。

此外,真正的 AI 智能体需要在成百上千种工具之间无缝协作。

想象一个 IDE 助手集成了 Git、文件管理、测试框架和部署流程,或者一个运营智能体同时连着 Slack、GitHub、Google Drive、Jira 和几十个 MCP 服务器。

问题在于,传统方式会把所有工具定义一次性塞进上下文。拿连接五个服务器的系统来说,GitHub 需要 26K tokens,Slack 需要 21K tokens,Sentry、Grafana、Splunk 加起来又是 8K tokens。

对话还没开始呢,就已经占了 55K tokens 了。要是再加上 Jira,轻松突破 100K tokens。更麻烦的是,当工具名字相似时,模型容易选错工具或者传错参数。

Anthropic 推出了三项新功能来解决这些问题。

Tool Search Tool 让 Claude 按需动态发现工具,只加载当前任务需要的部分,token 使用量能减少约 85%。

Programmatic Tool Calling 让 Claude 在代码里直接调用工具,避免每次调用都要完整推理一遍。

Tool Use Examples 则提供统一标准,通过示例而不是 JSON schemas 来展示工具的正确用法。

内部测试显示,启用 Tool Search Tool 后,Opus 4 在 MCP 测试中的准确度从 49% 提升到 74%,Opus 4.5 从 79.5% 提升到 88.1%。
Claude for Excel 就是利用 Programmatic Tool Calling 来处理几千行数据,而不会让上下文窗口过载。

Anthropic 的上下文管理和记忆能力明显提升了模型在智能体(agent)任务中的表现。

Opus 4.5 还能高效管理多个子智能体(subagents),从而搭建复杂且协调良好的多智能体系统。在测试中,结合这些技术后,Opus 4.5 在深度研究类评估中的表现提升了将近 15 个百分点。

开发者平台(Developer Platform)也在持续变得更具可组合性,希望提供灵活的「模块化构建」能力,让你能根据具体需求自由控制模型的效率、工具使用和上下文管理,搭建出理想的智能系统。

虽然这次 Opus 4.5 的升级足够亮眼,但一个越来越清晰的趋势是:不同模型的「性格」差异正在被放大。

从 Claude 过往的产品线来看,Opus 这类「超大杯」依旧最擅长编程、系统级操作、结构化推理;但如果是文案工作,Sonnet 的表现和性价比往往更对路。

这次发布,也再次印证了这一点。

未来选模型,不光要看跑分榜,还得看它的「做事」方式是不是跟你合拍。换句话说,选择模型,倒是越来越像挑同事了。

附上官方博客地址:
https://www.anthropic.com/news/claude-opus-4-5

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


豆包输入法上线,用了两天我在微信聊天不想再打字

By: 莫崇宇
24 November 2025 at 10:35

如果你用过一些手机系统自带输入法,一定懂那种它好像没学过中文的无力感。

正因如此,第三方输入法才得以遍地开花。

当官方输入法不好用,用户自然会用脚投票。最近字节推出了豆包输入法 1.0 版本,要用 AI 重新定义输入体验。

趁着热乎劲,我也下载体验了两天,发现了一些让人又爱又无奈的细节。

语音识别断档领先,豆包输入法的「杀手锏」有多强?

豆包输入法的界面走的是极简风。

没有那些乱七八糟的推广弹窗和会员广告。不过嘛,安装包体积属实有点大,在 vivo 应用商店显示 139MB。而且这体积大归大,功能却不完整,用「毛坯房」来形容挺贴切的。

先说说豆包输入法的核心竞争力。

在我看来,语音打字是豆包输入法的杀手锏,体验感是断档级领先,确实比我用过的其他输入法强上一大截。在我体验的这两天里,我已经深深爱上了语音打字的体验。

一句话概括,按住说话,松手结束。

实测下来,中文、英文和粤语识别准确度都高得离谱。我随口说了句「我正在用普通话测试豆包输入法」,一字不差,再来一句英文「Attention Is All You Need」,也准确识别了。

在粤语的体验对话上,「今晚你翻唔翻嚟屋企食饭啊。」,「一蚊一只鸡,一蚊一斤龟,究竟系一蚊一只鸡贵,定系一蚊一斤龟贵?」也是一遍就识别成功。

要知道,这些句子语速快、同音字多,咬字要是稍微不清晰,输入法就容易翻车。实测表现相当能打,说明模型对粤语的声学特征和语言模型都做了针对性训练。

TVB 剧里那种粤语夹英文的说话方式,豆包也能应付。

我试了「Sorry 啊,我地已经尽晒力啦」和「赏月喝糖水,那么迟才 call 我们」,「幫我 scan 入電腦做個 copy,再 share 畀大家,记得要 double check 啊」最终结果居然一个都没错。

它甚至还能语音输入数学公式,如果你是学生、老师或者科研人员,这个功能应该挺实用的。

技术层面, 网传豆包输入法用的是 Seed-ASR2.0 模型。

简单说就是把语音转成文字, 让机器「听懂」你在说什么。和之前的大型 ASR 模型比,Seed-ASR 在中英文测试集上的错误率降低了 10%-40%。

另外, 豆包输入法还支持下载离线语音模型, 大小约 150MB。意思是在地下车库等信号不好的地方,你也能正常使用语音输入。

但离线模型的准确率肯定比在线的差一点,性能有妥协也正常。

当然了,选择一款新的输入法,很多人会担心隐私问题,豆包输入法提供了一个「基础输入」模式,只是打开之后, 语音转文字、翻译这些功能就全关了。

基础词库方面, 豆包输入法丰富度达到了主流输入法的水平, 没啥特别的, 但也不拖后腿。

除了语音识别,我试着文字输入「确实型人格」、「城巴佬」等这些网络词汇, 都能识别。生僻字方面,像「饕餮」、「皴裂」「髑髅」这些,也都是从从容容,游刃有余。

至于联想方面,融合 AI 能力的豆包输入法表现出色。

输入「1+1=」,亦或者输入问题「西游记的作者是谁」,输入法会直接在候选栏直接显示结果。作为打工人, 我就挺喜欢直接这个将 AI 融入输入法的形式,主打一个实用。

139MB 的 AI 输入法,除了语音识别还剩什么?

说完优点,该聊聊槽点了。

首先,豆包输入法只上线了 Android 版。官网显示,iOS 版即将上线,PC 版则表示敬请期待,这也意味着不支持跨设备复制粘贴。

对于频繁在多设备间工作的用户来说,缺失这个重要功能可能是一个很大的劝退点,希望后续能尽快上线。

而在默认设置下,打字有点不太跟手,响应速度不够快,但好在可以在设置里调整按键的响应速度到「极快」,调完之后体感会好很多。

有趣的是,设置键盘「震动强度」发现,选「弱」时震感很强,选「强」反而没什么感觉。这可能是个 Bug,希望后续版本能修复。

可能是因为还在早期版本,豆包输入法很多细节功能还没来得及打磨。

表情包是社交沟通的重要组成部分,很多输入法都内置了表情包搜索和发送功能。虽然豆包输入法自带表情还算丰富,但你想从输入法直接发表情包? 对不起,目前做不到。

再比如键盘功能还不够完善,输入方式只有 9 键和 26 键。如果你是双拼用户, 或者需要手写输入、繁体中文, 那豆包暂时不适合你。

另外,键盘页面有深色模式,但设置页面却没有深色模式。想换个键盘皮肤? 对不起,目前只有默认样式。后者就见仁见智,有人觉得简洁好,有人觉得太单调。

而在 AI 翻译功能输入「LLM」,它依旧会默认显示为「法学硕士」。虽然「法学硕士」和「大语言模型」两个翻译都对,但多少让我有种谷歌翻译的感觉。

那么,豆包输入法值得体验吗?

我的建议是,仅凭语音识别这个杀手锏,还是值得尝鲜体验的。

但建议别急着设为默认输入法,先当个备用工具用着,等豆包输入法把 iOS 版、多设备同步、表情包这些基础功能补上,再考虑全面切换也不迟。

当然,我们也不妨给它点时间,看看这个 1.0 版本最终能进化成什么样。

附豆包输入法下载地址:
https://shurufa.doubao.com/

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Nano Banana Pro 深夜炸场,但最大的亮点不是 AI 生图

By: 莫崇宇
21 November 2025 at 02:49

奥特曼,迎来至暗时刻。

Google 的 AI 攻势没有半点减弱的迹象。如果说前几天 Gemini 3 Pro 的镰刀伸向了「前端」领域,今天,被颠覆的行业轮到了设计行业,刚刚发布的 Nano Banana Pro(Gemini 3 Pro Image)再次在图像生成能力上重拳出击。

初级设计师的饭碗,怕是要端不稳了。

核心功能如下:

  • 分辨率支持:可输出 1K、2K、4K 分辨率图像
  • 多轮编辑:支持对话式、多轮次的图像编辑工作流
  • 多图像合成:最多可将 14 张输入图像组合为 1 张输出图像
  • 搜索增强:集成 Google 搜索能力,提供更精确、最新的知识支持

不再「瞎猜」,Nano Banana Pro 终于学会了先思考再画画

Nano Banana 的招牌能力是角色一致性强、对话编辑方式,而 Nano Banana Pro 的核心进化在于它把 Gemini 3 的深度思考能力完整接进了图像生成流程。

它生成一张图之前,会先做一轮物理模拟和逻辑推演,而不只是凭视觉模式「胡猜」。

▲提示词:请绘制一张四宫格图片,四张图依次表现同一位戴着斗笠的年轻男子分别发音「我」「上」「早」「八」,人物外貌保持一致,口型准确对应每个字的发音,整体风格统一,16:9,4K

跨模态理解也在 Nano Banana Pro 身上展现得更为彻底。

凭借 Gemini 3 增强的多语言推理能力,你可以直接生成多种语言的文字,或者一键本地化、翻译你的内容。

朋友丢来一页漫画,让模型给漫画上色并把气泡里的英文翻成中文。Nano Banana Pro 上色干净,光影自然,文字识别准确,英文排版也和气泡形状严丝合缝,整个过程从识别到翻译再到重排一气呵成,表现得就像在真正「理解」这张图。

▲提示词:将图片上的文字翻译为中文,并上色,其他不变

又或者,设计师过去需要反复调整的多语言漫画、国际化海报以及宣传物料,现在可以直接让 AI 一步到位。比如让模型将英文海报中的英文翻译成中文。这种从识别、翻译到设计的连贯处理方式,正是原生多模态架构最具威力的一面。

而在文字生成能力上,Nano Banana Pro 更是表现出色,无论是一句短标语还是一整段文字,都能清晰可读,甚至支持多种纹理、字体与书法风格的精细排版。

▲提示词:仿古籍线描插图风,关羽坐于油灯旁,身披宽袖战袍,神态专注沉稳。桌案上摆着《春秋》竹简、鎏金小刀、毛笔等器物,以纤细线条勾画,保留古印刷风格。背景仅以几笔勾勒墙角、屏风与兵器架,简洁却富古雅气息。色彩以浅赭、灰墨、淡青为主,呈现古书插画的文化韵味与历史感,4:3。

64k 的输入 Token 上限意味着它能理解极长的文本提示词。无论是详细的分镜脚本,还是复杂的多语言排版需求,都能更好理解。

▲提示词:生成一幅 4K 古画,画上写着:明月几时有?把酒问青天。不知天上宫阙,今夕是何年。我欲乘风归去,又恐琼楼玉宇,高处不胜寒。起舞弄清影,何似在人间。转朱阁,低绮户,照无眠。不应有恨,何事长向别时圆?人有悲欢离合,月有阴晴圆缺,此事古难全。但愿人长久,千里共婵娟。

针对前代分辨率偏低的老问题,Nano Banana Pro 把画质一步拉到 4K,还允许自由设定任何长宽比。电影海报、宽屏壁纸、纵向分镜,统统能直接生成。

Nano Banana Pro 还支持最多 14 张输入图像的组合编辑,同时保持最多 5 个角色的外貌一致。

配合多轮对话能力,用户可以不断调整、融合多个素材,直到达到理想效果。不论是把草图变成产品,还是将蓝图转换成逼真的 3D 建筑,都能轻松实现概念到成品的跨越。

▲提示词:哆啦A梦和李白在月下对酌。圆月高悬,古代亭台楼阁,哆啦A梦穿着唐朝服饰,李白持酒壶,石桌上摆着酒具,仙气飘飘,中日混合画风,精致细节

更进阶的是专业级创意控制能力。

你可以选择、微调或变换图像中的任何部分,从调整镜头角度、改变焦点到应用高级调色,甚至改变场景光照——把白天变成夜晚,或创造散景效果,这些过去需要在 Photoshop 里精细操作的工作,现在只需要一句话。

▲提示词:Transform the [camera] from the uploaded photo into a bold, colorful cartoon illustration style, while keeping the rest of the photo realistic and unchanged. Cartoon style details: thick black outlines, vibrant flat colors (such as bright cyan, magenta, yellow, pink), dripping paint and splash effects, playful comic-book energy. most drips flow downwards.The cartoon object should look like it is melting or bursting with colors, blending naturally into the real photo. Keep all other elements (background, other objects, environment) photorealistic with no alterations. High resolution, pop-art aesthetic, surreal contrast between realism and cartoon.

搜索 + 生成 = ?Google 给出了终极答案

如果说搜索是 Gemini 3 的「左脑」,那么图像生成就是其「右脑」。

这也是 Nano Banana Pro(Gemini 3 Pro Image)架构中被低估但最具颠覆性的能力。传统搜索是用户搜索、搜索引擎给链接、用户点进网站、网站提供界面。而 Nano Banana Pro 引入了搜索增强功能(Grounding with Search)。

当用户要求生成一张可视化的图片,展示在广州旅游的 2 天行程」时,Nano Banana Pro 生成的图片,包含了详细的行程地图、中英文注释、以及景点图片等。

再比如 Nano Banana Pro 能根据提示词要求,从搜索中获取最新天气状况,再把温度、风力、湿度、天气趋势等关键数据转化为鲜明、富有设计感的视觉内容。

▲提示词:搜索广州实时天气信息,制作一幅中文波普艺术风格的信息图,4:3

这项能力之所以重要,是因为它让创造过程具备了事实基础、实时性和可验证性。只能说,搜索不愧是 Google 的看家本领,无论是技术积攒的厚度,还是在理解上就已经领先一个身位。

在产品定位上,Google 采用了双模型策略:旧版 Nano Banana 用于快速有趣的日常编辑,而 Nano Banana Pro 则专注于复杂构图与顶级画质的专业需求。用户可以根据场景自由选择。

对于消费者与学生,Nano Banana Pro 已在 Gemini 应用中全球开放,只需选择「生成图像」并启用「Thinking(思考)」模式即可使用。免费用户会获得有限额度,超出后将自动切回原版 Nano Banana。

而 Google AI Plus、Pro 和 Ultra 订阅用户则拥有更高额度。在美国地区,Google 搜索的 AI 模式中,Pro 与 Ultra 用户已经可以体验 Nano Banana Pro。NotebookLM 中的 Nano Banana Pro 也面向全球订阅用户开放。

值得注意的是,Google 在 AI 透明度问题上采取了双重策略。

所有 AI 生成的内容都会嵌入不可见的 SynthID 数字水印,用户现在可以在 Gemini 应用中直接上传图像,询问它是否由 Google AI 生成。这项能力将很快扩展到音频与视频。

既然 Nano Banana Pro 已经强大到这个地步,那么问题来了,普通人该如何最大化发挥它的能力?

Google DeepMind 的产品经理 Bea Alessio 给出了一份详细的使用指南,其中透露出不少关键信息。最基本的使用方式当然是随便说一句话,让模型自己猜你想要什么。但如果你想达到专业水准,就需要像导演一样思考。

一个完整的提示词应该包含六个要素:主体(谁或什么)、构图(如何取景)、动作(正在发生什么)、场景(在哪里)、风格(什么审美)、编辑指令(如何修改)。

而如果你想要更精细的控制,还需要进一步明确:画幅比例(9:16 竖版海报还是 21:9 电影宽屏)、镜头参数(低角度、浅景深 f/1.8)、光线细节(逆光的黄金时刻,拉长阴影)、调色方向(电影级调色,偏青绿色调)、以及具体的文字内容和样式。

附上官方博客地址:https://blog.google/products/gemini/prompting-tips-nano-banana-pro/

这种「摄影指导式」的提示词写法,正是 Nano Banana Pro 和传统图像生成模型的分水岭。因为它真的能理解这些专业术语,并把它们准确地转化为视觉输出。

看到这里,再回过头看 Google 这几天连环发布的产品,就不难明白它想传达什么。

无论是前几天发布的 Gemini 3 Pro 预览版,还是今天亮相的 Nano Banana Pro ,Google 试图向世人证明:通往 AGI(通用人工智能)的道路,必须是多模态原生的。

只有一个能看、能听、能理解结构、能处理逻辑的模型,才可能对世界进行完整地「思考」。

从技术层面看,Nano Banana 系列模型让图像生成正式进入了「先理解再表达」的阶段。

当 AI 开始理解迷宫的路径、物体的结构、文字的含义甚至 UI 的交互逻辑时,它就不再只是一个画图工具,而是一个具备视觉思维能力的智能体。

从商业层面看,极低的推理成本和生成式 UI 的出现,将彻底改变内容生产和信息分发的逻辑。过去的互联网由一个个固定网页构成,而未来的互联网更可能是一块块随着你需求即时生长的界面。

设计将不再只是人的手艺,界面也不再是由团队层层打磨的成果。越来越多的视觉内容,会先交给 AI,再由人去补充或微调。Google 显然已经提前看见了那个新世界,并且开始把入口推到所有人面前。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,年度最强 AI 登场!马斯克奥特曼点赞 Gemini 3,体验后我发现 ChatGPT 要慌了

By: 莫崇宇
19 November 2025 at 05:45

就在刚刚,Gemini 3 Pro 预览版正式发布。

年底的 AI 圈向来不缺新闻,但今年格外喧嚣。如果不出意外,这将是 2025 年压轴登场、最令人期待的海外大模型,甚至可以说,Gemini 3 Pro 成了这个时间窗口唯一的主角。

过去两个月,Google 几乎复刻了 Sam Altman 的营销手法,从 Gemini 著名宣传委员 Logan Kilpatrick 到 CEO 皮查伊,内部人员不断在社交平台打哑谜,推波助澜,将外界对 Gemini 3 的期待值不断拔高。

有趣的是,OpenAI CEO Sam Altman 刚刚在 X 平台发文称:「恭喜谷歌成功推出 Gemini 3!!看起来是个很棒的模型。」

有着奥特曼的前车之鉴,谜语人玩法风险极大,一旦产品力不足,口碑会瞬间崩塌。但显然,谷歌对自己的产品充满自信。那么,Gemini 3 Pro 这次到底交出了什么答卷?

省流版如下:

  • Gemini 3 Pro 预览版原生多模态支持(文字、图像、视频、音频)
  • 在 LMArena 排行榜登顶,在推理、多模态、编程等主流测试中全面领先
  • 推理能力创纪录(GPQA Diamond 91.9%、MathArena Apex 23.4%)
  • 提供 Deep Think 增强推理模式(未来几周开放)
  • 100 万 token 上下文窗口 + 64K 输出
  • 推出全新 AI IDE:Google Antigravity,新模型已集成 Cursor、GitHub、JetBrains 等工具

无愧 Pro 之名,谷歌最强 AI 模型深夜发布

按照 Google 的说法,Gemini 3 Pro 是目前「最智能、最具适应性的模型」,专为解决现实世界中的复杂问题而设计——尤其是那些需要更高层次推理、创造力、战略规划以及逐步改进的任务。

它的典型应用场景包括:具备自主行为能力的应用、高级编程、超长上下文理解、跨模态处理(如文字、图像、音频的结合),以及算法开发等。

Gemini 3 Pro 预览版在 LMArena 排行榜上以 1501 分的成绩位列榜首, 在几乎所有主要 AI 基准测试中都远超上一代。更关键的是,它不仅能识别图像内容,还能理解其中的隐含信息和上下文关系。

具体来看, 推理能力方面, 它在「人类最后的考试(Humanity’s Last Exam)」中拿到了 37.5% 的博士级推理成绩,GPQA Diamond 测试达到 91.9%,MathArena Apex 创下 23.4% 的业界新纪录。

多模态推理方面,MMMU-Pro 得分 81%,Video-MMMU 得分 87.6%, SimpleQA Verified 事实准确率达到 72.1%。

这也意味着 Gemini 3 Pro 能在科学、数学等各种复杂问题上可靠地提供优质解答, 而且它的回复直接提供真实见解, 告诉你需要知道的, 而不只是你想听到的。

除了常规模式,Gemini 3 还提供了一个名为 Deep Think 的增强推理选项。

这个增强型推理模式在「人类最后的考试」中得分 41.0%,GPQA Diamond 提升至 93.8%, 在 ARC-AGI-2 测试中更是创造了 45.1% 前所未有的得分分数。

不过这个模式目前还在安全评估, 预计未来几周内向 Google AI Ultra 订阅用户开放。

测试数据之外,Gemini 3 在实际应用场景中的表现更值得关注。

比如你翻出家里那本手写的家族菜谱, 上面是奶奶用多种语言写的做法,Gemini 3 可以识别这些手写文字, 整理成可分享的菜谱书。

或者你想学习一个新领域, 它可以处理学术论文和长视频讲座, 生成交互式学习卡片。甚至, 它还能分析你打匹克球的比赛视频, 生成针对性训练计划。

这背后是因为 Gemini 从一开始就为多模态理解而设计,能够整合文字、图像、视频、音频和代码等多种信息类型, 加上高达 100 万 token 的上下文窗口和最大支持 64K 输出。

值得一提的是,Gemini 3 正式发布并首日集成进 Google 搜索。

它不仅显著提升搜索对复杂问题的理解与信息挖掘能力,还能根据查询即时生成动态视觉界面、互动工具与模拟系统,如三体物理模拟器或贷款计算器。

另外,根据谷歌发布的模型卡,Gemini 3 Pro 采用了基于 Transformer 的稀疏专家混合模型(MoE),原生支持文本、视觉和音频等多模态输入,这种架构的核心优势在于:模型会根据每个输入 token 的内容,动态选择激活部分参数,从而在计算资源消耗、服务成本与总容量之间实现平衡。

至于硬件层面,Gemini 3 Pro 使用 Google 自研的张量处理单元(TPU)进行训练。相比 CPU,TPU 在处理大语言模型所需的大规模计算时速度更快,且配备的大容量高带宽内存,让它能够处理超大模型和批量数据。

如果你是开发者,Gemini 3 带来的改变会更直接。

谷歌官方博客号称,Gemini 3 是目前最强的「vide coding」模型——你只需用自然语言描述想要什么, 它就能生成功能完整的互动应用。

数据很能说明问题:WebDev Arena 排行榜 1487 Elo,Terminal-Bench 2.0 得分 54.2%,SWE-bench Verified 得分 76.2%。

Google 这次还推出了全新 AI IDE:Google Antigravity。

内置的智能 Agent 可以自主规划和执行复杂的端到端软件任务, 并自动验证代码正确性。你想做一个航班追踪应用, 代理能够独立规划、编写代码, 并通过浏览器验证运行效果, 甚至可以同时在编辑器、终端和浏览器之间协同工作, 一气呵成。

在长期规划能力上,Gemini 3 在 Vending-Bench 2 榜单上位居第一。

实际应用中, 最新发布的 Gemini Agent 实验性功能可以从头到尾执行多步骤复杂流程。你说「整理一下我的收件箱」, 它就会帮你优先安排待办事项, 并起草邮件回复供你确认。

或者「查资料帮我预订一辆中型 SUV, 预算每天不超过 80 美元, 用我邮件里的信息安排下周出行」,Gemini 会定位航班信息, 对比租车选项, 为你准备预订流程。

整个过程中你始终掌握主动权,Gemini 会在重要操作前请求确认。

此外,在 Google AI Studio 和 Vertex AI 中, 通过 Gemini API 使用 Gemini 3 Pro 预览版的价格为:输入每百万 token 需要 2 美元, 输出每百万 token 需要 12 美元。在 Google AI Studio 中也可以免费使用, 但有调用限制。

Gemini 3 已集成至 Cursor、GitHub、JetBrains、Replit 等开发工具生态系统中。

伴随产品发布,Google 同步开放了多个使用入口。

从今天起,Gemini 3 预览版正在陆续上线:所有用户可在 Gemini 应用中使用;Google AI Pro 和 Ultra 订阅用户可在搜索的 AI 模式中体验;开发者可通过 Gemini API、Google Antigravity 和 Gemini CLI 访问;企业用户通过 Vertex AI 和 Gemini Enterprise 获取服务。

ChatGPT 的对手来了,Gemini 3 实测表现「能打」到什么程度?

当然,科技公司总是宣传大于实际,那么我们也上手测试了几个问题。

第一个挑战是让它在单个 HTML 文件中还原一台完整的 Game Boy 掌机, 内置《俄罗斯方块》《宝可梦红/蓝》等经典游戏, 所有操控必须同时支持键盘和触屏交互。

坦白说, 我对这个需求的期望值并不高。

这种需要同时处理 UI 设计、游戏逻辑、音效系统的任务, 即便是专业前端工程师也得花上几天时间。但 Gemini 交出的答卷出乎意料:交互界面达到了六七分的效果, 按键按下时还有标志性音效, 作为一次性生成的代码, 已经相当能打。

既然复古游戏机能跑起来, 我们继续加码。

▲ Design and create a web os like macOS full functional features from text editor , terminal with python and code editor and a game that can be played to dile manager to paint to video editor and all important windows os pre bundled software Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block

我要求它用单个 HTML 文件复刻一个完整的 macOS 系统, 包括文本编辑器、终端、代码编辑器、文件管理器、画板、视频编辑器等预装软件。生成的结果虽然审美一般, 但核心交互逻辑都实现了。

除了编程能力, 我们也测试了它的视觉生成和推理能力。

参考 X 用户 @lepadphone 的做法, 我让 Gemini 用前端代码实现一个电扇的可视化效果,建议使用 SVG 技术来绘制,包含以下元素:扇叶、保护网罩、底座、控制按钮等结构细节,并实现扇叶旋转、调速等动态效果。生成的 SVG 不仅结构完整, 扇叶的旋转动画也很自然。

紧接着我又让它画一只鹈鹕骑自行车——这种不常见的组合对 AI 的空间想象力是个考验, 结果它生成的图形比例协调, 鹈鹕的姿态和自行车的透视关系都处理得不错。

▲提示词:Create code for an SVG of a pelican riding a bicycle as nicely as you can

在推理能力上,我用到了那道经典的猴子分桃问题,Gemini 答案不光对,也进行了二次验算。

「有 5 只猴子在海边发现 一堆桃子, 决定第二天来平分. 第二天清晨, 第一只猴子最早来到, 它左分右分分不开, 就朝海里扔了一只, 恰好可以分成 5 份, 它拿上自己的一份走了. 第 2,3,4,5 只猴子也遇到同样的问题, 采用了同样的方法, 都是扔掉一只后, 恰好可以分成 5 份. 问这堆桃子至少有多少只?」

更有意思的是, 我们还测试了它对「废话文学」的理解能力。

面对「懂者得懂其懂, 懵者终懵其懵, 天机不言即为懂, 道破天机岂是懂」这种故弄玄虚的文字游戏,Gemini 的处理方式很聪明:先定性为「废话文学」给你吃颗定心丸, 再挖掘背后的道家「有无」、佛家「色空」等文化梗, 最后给出人话翻译。这种回答比简单说「这是废话」要高明得多。

写作测试自然也没落下。

我们让 Gemini 用第一人称写「一滴雨水的一天」, 它交出了一篇散文诗:云端的拥挤与等待、下坠时的狂欢、融入河流的安宁。文中堆了不少感官细节——瑟瑟发抖的触感、霓虹灯折射的视觉、呼啸风声的听觉。情感真挚, 意象丰富, 虽然还有些「优秀范文」的套路痕迹, 但已经超出了及格线。

有一说一,抛却纸面参数,Gemini 3 的实际水平是有目共睹的,而谷歌能在短时间内追平甚至超越 OpenAI 数年的积累,更是离不开作为为数不多的全栈 AI 厂商的硬实力。

谷歌的优势显而易见:自研 TPU 系列处理器带来的算力自主权,加上全球最大的数据宝库——搜索索引、学术文献、YouTube 视频库,这些都为 Gemini 的训练提供了强大助力。这或许也解释了为什么它在处理实时信息、多语言任务、视频理解等场景时表现更稳。

而就在刚刚,DeepMind 开发者体验主管 Omar Sanseviero 在 X 上发文称,今晚只是「热身」,接下来还将有更多功能陆续上线。结合此前的种种传闻,外界期待已久的 Nano Banana 2 可能真的离我们不远了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


两个世界首富吵起来了!贝索斯融资 447 亿复出搞 AI,马斯克:跟屁虫

By: 莫崇宇
18 November 2025 at 10:23

本该是杰夫·贝索斯的高光时刻,结果被一只猫咪表情包搅了局。

今天凌晨,当贝索斯要亲自下场做 AI 公司的消息刚在网上发酵,马斯克就火速在 X 平台转发推文,并附带一句话:

「哈哈,不可能。Copy cat(跟屁虫)」

如果你关注科技圈,这剧情大概见怪不怪了。从卫星到火箭,这两位科技圈的顶流已经互怼了整整二十年。只是,如今吵架的战场,变成了眼下最火的物理 AI。

62 亿美元,贝索斯开启史上最壕创业

2021 年贝索斯把亚马逊 CEO 的位置让给了安迪·贾西,本以为他要专心当富豪享受人生。结果四年后,这位电商之王突然宣布:我要重返一线,

这次他瞄准的新项目,叫普罗米修斯计划(Project Prometheus)。

据纽约时报的报道,这个计划一出场就拿了 62 亿美元的融资启动资金,其中相当一部分是贝索斯自己掏的腰包。

凭借这笔巨款,普罗米修斯在硅谷展开了「人才大抢购」,已经挖来了近 100 名顶级研究员,这些人之前都在 OpenAI、Google DeepMind 和 Meta 工作。

那让贝索斯选择二次创业的普罗米修斯到底要做什么?

简单说,就是让 AI 从虚拟世界走进现实世界。现在市面上的 AI 主要都是通过学习网上的文字、图片来生成内容。它们很会写文章、画画、聊天,但有个致命问题,它们不懂物理世界。

举个例子:你问 ChatGPT「怎么设计一个更轻的飞机机翼」,它可能给你讲一堆理论,但它自己从来没摸过真实的机翼,不知道不同材料在风洞里的表现。

贝索斯要做的,就是让 AI 真正动手做实验。

据悉,普罗米修斯预计探索建设一个超大型自动化实验室。在这个实验室里,机器人会 24 小时不间断地进行物理、化学和工程测试。AI 会像科学家一样,自己提出假设、设计实验、观察结果、得出结论,然后不断迭代优化。

目标领域非常明确:航空航天、汽车工程、计算机硬件制造。比如在航空领域,AI 可以自己跑成千上万次风洞模拟,找出最优的机翼形状;在汽车制造中,AI 可以规划整条产线的机器人如何协作。

此外,贝索斯选的搭档也很有意思:维克·巴贾杰(Vik Bajaj)。

他是个跨界科学家,有着物理和化学的学术背景,曾是神秘实验室 Google X 的核心成员,参与过无人机送货项目 Wing 和自动驾驶项目 Waymo 的早期开发。后来还创立了 Alphabet 旗下的生命科学公司 Verily。选这样一个人当联合 CEO,至少在技术层面也有一个把握航向的舵手。

马斯克为什么说贝索斯「抄袭」?

马斯克这次发「Copycat」不是没有原因的。

最近几年,马斯克一直在强调:特斯拉已经变成了一家 AI 和机器人公司。现在贝索斯也要搞物理 AI,也投资了一堆机器人公司,在他看来,贝索斯进军物理 AI 和机器人领域,更像是在抄特斯拉的作业。

而两者的恩怨,也由来已久。

2019 年,亚马逊宣布要做 Project Kuiper 卫星项目,马斯克当场开骂「Copycat」,因为 SpaceX 的 Starlink 早在 2015 年就开始规划了。

同年贝索斯发布「蓝月」月球着陆器,马斯克又恶搞 P 图把「Blue Moon」改成「Blue Balls」。2020 年,亚马逊花 12 亿美元收购自动驾驶公司 Zoox,马斯克又发推:「@JeffBezos 是个跟屁虫」。

往前追溯,两人的梁子结得更早。

2004 年第一次见面就不欢而散。2013 年为了 NASA 的 39A 发射台打得不可开交。2014 年打专利官司,2021 年又因为登月合同闹上法庭。

不过话说回来,虽然两人互怼了二十年,但在技术成就面前,马斯克还是展现了一定风度。当地时间,11 月 13 日,蓝色起源的新格伦号重型火箭成功发射,并且在第二次飞行尝试中就完美回收了第一级助推器。后续马斯克还在 X 上送上祝福。

而无论是贝索斯的普罗米修斯, 还是马斯克的特斯拉和 Optimus, 他们都在做同一件事:让 AI 真正理解物理世界, 走出屏幕。

所以,抛开「抄袭」的口水战,更值得关注的是:当两个顶级玩家同时押注物理 AI 时,这个赛道的爆发可能比我们想象的更快。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,阿里千问 APP 开启公测,要做中国版ChatGPT | 附实测

By: 莫崇宇
17 November 2025 at 10:58

前几天,阿里「千问计划」被曝光。消息称,他们要基于全球性能第一的开源模型 Qwen3 打造个人 AI 助手「千问 APP」。

而就在刚刚,靴子终于落地。

阿里官宣千问 APP 公测版上线。除了聊天足够聪明外,「能办事」将是千问 APP 未来发展的一个重要方向。

我们也第一时间分别对千问和 ChatGPT 进行了简单的测试,看看这个后来者到底有什么底气。

屋里三盏灯,屋外三个开关,一个开关仅控制一盏灯,屋外看不到屋里。怎样只进屋一次,就知道哪个开关控制哪盏灯?

这是一道经典的逻辑题。两者都给出了正确答案,即利用灯泡的温度差异来判断:

打开一个开关等待几分钟,然后关闭它,再打开第二个开关,进屋后就能通过灯的亮灭和温度判断三个开关。虽说千问的回答更详细一些,但对于这种思路题来说,只要核心逻辑正确即可。这一轮算是打平。

「解释为什么生食和熟食必须使用不同的砧板与刀具。」

这道题就拉开差距了。GPT-5.1 Auto 的回答比较简单,基本是从知识库里挑选了一些标准答案,谈交叉污染、细菌传播等常识,多少有些敷衍的意思。

而千问的表现让人眼前一亮:它懂得主动搜索,引用了 14 篇相对权威的资料信息,甚至还配上了对应的图片、文章等富媒体内容。内容丰富且有据可查。这一轮,千问明显更胜一筹。

最后一道题是个硬核编程题:用一个 HTML 文件实现一个 Game Boy 模拟器,包含俄罗斯方块、宝可梦、塞尔达等经典游戏的全功能模拟,所有按钮可触控也可键盘操作。

▲左为 Qwen,右为 ChatGPT

从最终效果看,两者各有千秋。千问在视觉效果上做得不错,界面还原度挺高,确实抓住了 Game Boy 的感觉。

GPT-5.1 Auto 的界面设计有些敷衍,俄罗斯方块虽然能跑起来,但实际上只有一个方块能移动,功能并没有真正实现。但客观来说,在单个 HTML 文件里完整还原 Game Boy 模拟器本身就是极高难度的任务,两者都没能做到尽善尽美。

这一轮也算平局。

ChatGPT 已经是全球 AI 的代名词,豆包和元宝背靠抖音、微信这种日活数亿的超级应用。千问没有这种「天然流量池」,这就决定了它必须在产品体验上做出显著差异化,才能说服用户专门下载一个新应用。

从产品策略来看,国内外 AI 助手已经走上了不同的路径。

ChatGPT 相对独立,主要靠订阅费和 API 调用盈利。而国内的 AI 助手则更强调生态整合:元宝可以直接在微信内使用,豆包即梦和抖音内容创作工具打通,千问如果成功,可能会直接导向淘宝购物。

这种「AI+X」的组合模式——AI+电商、AI+社交、AI+内容创作,本身就是巨大的商业价值,而不只是依赖订阅费。

实际上,过去阿里的 AI 更多集中在 B 端领域,Qwen 模型技术实力很强,在全球开源社区的下载量已经是第一,但普通消费者感受不到。而在 AI 领域,用户的品牌忠诚度很薄弱,哪个好用就用哪个。

千问的机会窗口可能很窄,如果不能迅速打出知名度,之后再追就更困难了。

不过机会也确实存在。全球范围内,对 AI 产品有需求但被 ChatGPT 的价格或使用门槛挡在外面的用户,其实数量庞大。如果千问能够以更友好的价格、更低的使用门槛、更强的多语言支持,去覆盖这部分市场,可能会找到一个差异化的生存空间。

真正的较量或许才刚刚开始,千问 APP 的推出也意味着阿里真正开始重视 AI 的下半场,即让 AI 走进普通人的日常。而对我们用户来说,全球市场上多一个能打的选手,对所有人都是好事。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


参加完百度世界大会,我终于理解了「内化 AI」的正确打开方式

By: 莫崇宇
13 November 2025 at 18:01

那天下午,村官小芳接到环卫阿姨的电话,「小芳啊,我被骗了……」400 块钱,半个月的工资,就因为刷了个短剧不见了。

作为村官的小芳,觉得要做些什么,于是决定给村里的老人们上一堂反诈课。可时间紧迫,课件材料哪里来呢?

她想起之前看过的百度文库 GenFlow,抱着试试看的心态,她打开它,用最朴素的语言描述了自己的需求。

三分钟后,一套完整的反诈宣传方案出现在屏幕上:有 PPT、有演讲稿、有醒目的海报,甚至还有一套给老人准备的互动小测试。第二天,反诈课堂的教学效果出奇地好,老人们听得专注、学得认真、记得牢靠。

小芳既没学过代码,也不了解 AI,高新科技对她来说还是太过遥远。但她只是对着 GenFlow 说出了一个普通人最真实的困境,而 AI ,听懂了,并且帮她实现「意料之外」的交付。更重要的是,这次的尝试彻底改变了小芳的工作习惯。AI 不再是个偶尔用用或者是临时抱佛脚的工具,而是成了她解决疑难、急迫问题时的首要选择。

在讨论 AI 如何改变世界的宏大叙事之前,我们或许更应关心的是,它如何让一个普通人的今天,过得更好一点。

不懂也能用的 AI, 才是真正的 AI

时间的指针拨回三年,想用好 AI 其实是一件麻烦事。

那时, AI 提示词还是社交媒体上的硬通货,大家互相分享魔法「咒语」。你得先学会「如何跟 AI 说话」——提示词怎么写、任务怎么拆解、参数怎么调优。

但技术进步最直观的标志,就是让使用变简单、易上手。你不需要懂发电原理就能开灯,也不需要懂 TCP/IP 就能刷社交媒体。现在用 AI 也一样——简单直接地说人话就行。

郑州大学副教授马竞的经历,是这个转变的生动注脚。

他基于百度飞桨的开发能力,设计了一套视觉检测系统,通过视觉大模型分析猪只健康状态。比如可以分析猪群进食行为,精准识别离群、躺卧等异常状态。

养猪和 AI 本是风马牛不相及,而马竞也是力学出身,按理说跟计算机视觉更是隔行如隔山。

但百度飞桨把这些复杂的东西都打包好了——成熟的视觉识别能力可以直接拿来用,就像搭积木一样组合到养猪场景里。基于飞浆落地的自动饲喂 AI 系统,能极大程度地提升了饲喂效率,保障了猪群健康水平。如今已经覆盖了全国 9 个城市 23 个养殖场,销售额已达 1400 多万元。

「拿来即用的 AI」第一步是解决了用户的使用门槛问题,但真正的改变还在后面:好的 AI 不再需要你适应它,它可以开始自己适应你。

53 岁的货拉拉司机毛辉珍,一年跑 12 万公里。她说百度地图像个陪她聊天的伙计,能够学习她的驾驶习惯,知道她喜欢走哪种路,在她需要时提醒她:注意车速、注意路况,是个贴心又懂她的「路伴」。

毛辉珍在用 AI,AI 也在「读懂」毛辉珍。这是一种双向的学习:地图在学习她的习惯,她也在学习如何更高效地与智能系统协作,让每一次出行都更顺畅。

又比如,16 岁的陈君航用文心一言从零学会 Python。他可以边学边做,在实践中学习。AI 能够根据他的需求和水平实时调整,而陈君航也在这个过程中,把编程思维逐渐变成了自己思考问题的方式。

想法产生的那一刻,就是实现的起点。

虽然小芳、马竞、毛辉珍、陈君航,都不是 AI 技术专家,但都在用 AI 解决实际问题。三年前人们争论「AI 会不会取代人」,如今看来,问题问错了。真正的问题是:AI 到底能帮助到谁?

而答案显而易见:会说人话的人,有真实需求的人,想解决实际问题的人。换言之,也就是每一个人。

技术的温度, 藏在你看不见的地方

村官小芳打开百度文库,说句话就能让 AI 实现交付,为她办事。但 22 岁失明的毛凡,需要的是另一种理解。

遗传性视神经萎缩, 全球患病率约十万分之一。身患此病的毛凡重返武汉科技大学后, 最头疼的事是打车。

司机能不能找到我? 上车后怎么确认目的地? 打车的目的地定位是否准确?普通人觉得理所当然的事, 对他来说都是巨大的心理负担。直到他遇到萝卜快跑。车门打开有提示音, 全程语音操作, 按钮是凸起的,一切都是那么自然。

「同学约我去 KTV, 都让我叫车, 就想坐第六代。」毛凡说到这里,有点小得意。

这份「小得意」的背后,却隐藏着 AI 产品设计的同理心。萝卜快跑团队发现, 视障人士不需要特殊照顾的怜悯感, 他们需要平等使用的尊严感。所以团队没有简单地加个「盲人模式」, 转而重新思考了整个交互逻辑。

「对于普通人来说, 看到什么就能操作什么;但对于我们视障者来说, 语音读出什么, 我们才能操作什么。」一位盲人女孩体验后如此形容。

技术需要放下健全人的认知惯性,真正进入视障者的感知世界。需要的不是同情心, 是换位思考的理解力。技术不仅要理解特殊群体的需求,还要在关键时刻真正介入他们的生活。

甘肃临洮县的经历能说明这一点。

县里曾有个大难题:如何减少年轻人跳河。2023 年 6 月, 百度智能云的「一见」平台在当地部署,AI 能识别异常行为, 在人跳河前报警。到 2025 年 8 月, 救下了 21 个年轻人。

21 条生命背后,21 个没有破碎的家庭,21 个没有被终止的未来。这本身就在传递一个信息:即使在你最绝望的时刻,社会没有放弃你。

有温度的 AI,既要理解人,也要在乎人。但如果只停留在这两步,技术能做的还远不止于此。

新疆温宿县的物理老师光头强用百度文库生成课件、动画, 给孩子们演示火箭发射原理。「我想将物理的种子埋在孩子心中, 让她们能够看到更大的世界。」AI 让光头强拥有了一线城市教师的教学工具,也让山区的孩子有了触碰梦想的可能。

百度创始人李彦宏说:「只有当 AI 被内化为一种原生的能力,才能真正在各行各业实现效果的涌现,进而引爆一场全面的生产力革命,推动经济增长, 才能真正让『智能红利』转化成『社会红利』。」

从这个逻辑来看,社会红利指向的不仅仅是 GDP 增长, 也是每一个被技术看见的普通人, 每一个因 AI 而获得尊严的弱势群体, 每一个被连接起来的情感瞬间。

萝卜快跑全球出行服务次数超 1700 万, 覆盖全球 22 座城市, 全无人驾驶平均行驶 1014 万公里才出现一次气囊弹出事故——超过了谷歌 Waymo。但对毛凡来说,萝卜快跑让他第一次感受到:自己和其他人一样, 可以自由地去任何想去的地方。

小芳、毛凡、光头强,他们的故事看起来很不一样,但背后有个共同的疑问:AI 是如何做到理解他们、适应他们、帮助他们的?

16.5 亿次调用背后,是每个普通人最真实的 AI 需求

在刚刚举办的百度世界大会 2025 上,APPSO 看到了一个答案。

今年以来, 百度连续发布 5 款大模型, 文心大模型日均调用量超 16.5 亿, 在理解、生成、逻辑、记忆能力上全面提升,百度智能云也连续六年蝉联中国 AI 公有云市场第一。

模型能力的持续涌现,正是 AI 能够理解人话、适应不同场景的基础。

但李彦宏认为, 模型能力的提升只是基础, 真正的变化在于「每个人都应该内化 AI 能力」——让 AI 成为每个人思考、创作、工作的一部分。

比如,在刚刚举办的百度世界大会 2025 上, 百度文库、百度网盘联合发布了 GenFlow 全新升级的 3.0 版本, 目前已是全球最大通用智能体。

想象一个场景:一位 AI 产品经理需要做数据分析、跑需求调研、写产品文档、画原型图、写月度总结…… 他只需要一次性下达任务,GenFlow 3.0 就能同时启动多线程:在 Excel 中搭建分析表格,在 Word 中生成产品需求文档,用 HTML 生成可交互的产品原型,最后汇总成汇报 PPT。

过去做完这些工作可能需要一整天,现在 3 分钟。时间被压缩了,人的角色也随之改变——从「执行者」变成了「决策者」和「创意者」。你不再需要把时间花在重复性劳动上,精力可以集中在真正需要思考的部分。

而当这种工作方式成为习惯,AI 就真正成为了你能力的延伸。

那么 GenFlow 3.0 为什么能做到如此流畅?答案藏在百度的全栈布局里。

从芯片层的昆仑芯,到框架层的飞桨,再到模型层的文心大模型,应用层的百度搜索、百度文库等,百度是全球为数不多进行全栈布局的人工智能公司。

今年 4 月, 百度点亮了自研 3 万卡级超大规模计算集群, 可同时承载多个千亿参数大模型的全量训练。7 月, 百度智算集群入选国家人工智能产业创新成果展。

在应用层面, 百度的 AI 重构已经深入到产品的每个细节。

百度搜索完成了十年来最大的改版。搜索框升级为「智能框」,搜索结果不再是一堆链接,而是直接给你富媒体内容,就像从查字典变成了问专家。

秒哒让完全不懂编程的人也能 3 分钟做出应用。新加坡国际大学的学生用它开发了个「技能五子棋」,获得 1.5 万+互动量。创造的门槛被拉低了,但创造的乐趣却一点没打折。

文心快码推出了行业首个多模态、多智能体协同 AI IDE,一位算法工程师因此进阶为全栈工程师。过去需要跨部门协作的事,现在一个人就能搞定。

百度文库智能 PPT 的月访问量超过 3400 万,位列全球第一。这个数字背后,是无数个像小芳一样的人,在用最简单的方式解决实际问题。

在今年 9 月份,李彦宏说:「模型发展到今天其实已经接近了那个临界点,很快就会有各种各样的非常有价值的应用能够创造出来。」

所谓临界点,就是你爸妈、朋友、身边的每一人都开始自然地使用 AI 的时刻。

全栈布局、算力集群、智能体平台,整条技术链最终服务于一个体验:你只管提需求,它负责实现。村官做课件,博士跨界,视障人士自由出行,山区孩子接触优质资源等,每个人都在用 AI 解决自己的问题。

在潜移默化的改变中, 小芳用百度文库做完第一次反诈课件后, 下次遇到类似任务会直接找它。陈君航用文心一言学会 Python 后, 编程能力就真的成了他自己的技能。

这更像一场「教学相长」,AI 在学习理解人的需求, 人也在逐步「内化 AI」, 探索如何更好地驾驭 AI,与 AI 协同的相处之道。

用着用着,人就长本事了。而技术的终极目标正是消解门槛:让每个人都能轻松用上 AI, 并让它成为能力的一部分。正如世界大会上百度创始人李彦宏所说:「当 AI 能力被内化,成为一种原生的能力,智能就不再是成本,而是生产力。」

这可能更是头部科技公司不断发展技术、深化应用效果的切实驱动力之本。

作者:莫崇宇、李超凡

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


今天起,李飞飞 AI「造世神器」人人可用,一句话打造 3D 世界 | 附实测体验

By: 莫崇宇
13 November 2025 at 08:52

Marble,终于来了。

没错,就是两个月前在 AI 圈刷屏的那个 3D 世界生成模型。李飞飞旗下的 World Labs 刚刚官宣向全体用户开放,还一次性放出了一大波新功能。

  • 多模态生成:支持文本、单图、多图/视频、3D 布局等多种输入方式
  • AI 原生编辑:可对生成的 3D 世界进行局部替换和结构调整
  • 世界扩展与组合:自动填充边缘区域,拼接多个场景
  • Chisel :用方块搭框架,AI自动填充风格细节
  • 全格式导出:支持高斯点云、三角网格、视频等多种格式,可直接导入游戏引擎

现在的使用门槛已经相当低。输入一段描述性文本,或者上传一张照片,AI 就能生成一个完整的 3D 世界。一套连招打下来,传统 3D 建模师可能得重新思考职业规划了……

附体验地址:https://marble.worldlabs.ai/

李飞飞放大招,一句话生成完整 3D 世界

先直接上案例,看看 Marble 在文本生成上的真实水平。

▲ 文本提示词:一个住过人的霍比特厨房,摆满了编织篮子和铜壶,沐浴在宁静的浅蓝色日光中

如图所示,一个完整的 3D 厨房场景就这样呈现在我们面前,木质家具、铜制器皿、光影细节,一应俱全。

更考验理解能力的来了。看看这个抽象描述:

▲文本提示词:一个融合中世纪餐厅美学与轨道科技的空间站厨房,拥有棋盘格地板和不锈钢装置,在柔和的水绿色灯光下熠熠生辉

面对这种跨越时空的混搭风格,AI 依然能准确拿捏。

我自己也做了一轮测试。尝试生成一个森林场景后发现,虽然苔藓贴图略显重复,但树干纹理细节清晰,林间若隐若现的雾气也营造出了应有的氛围感。

除了纯文本,Marble 还支持更丰富的创作方式:

  • 单图生成:丢一张图片进去,AI 自动补全 360 度全景视角
  • 多图/视频生成:从不同角度拍几张照片,AI 自动拼接成完整 3D 空间
  • 3D 布局生成:用基础几何体搭建框架,AI 负责填充所有细节

我也测试了单图生成功能,上传一张普通房间的照片后,大约 6 分钟得到成品,仔细观察可以发现,和预览版一样,边缘形变问题还是比较严重,希望后续能够得到优化,但就作为一个初期产品来说,目前的完成度已经相当能打。

从灵活性来看,这套多模态输入的设计思路已经远超市面上大多数同类工具。

而生成只是第一步,更值得关注的是后续的编辑能力。

Marble 还是业内首款原生集成 AI 编辑工具的模型,可以对生成的世界进行深度改造。比如在局部替换中,想移除垃圾桶?一句话搞定,AI 会自动处理场景和光影变化。

如果想大幅调整结构,比如要把餐厅后墙改造成舞台,把桌子换成面向舞台的矮凳?也能轻松实现。换句话说,这种编辑不是简单的图片处理,而是真正理解 3D 空间结构之后的智能调整。

除此之外,「世界扩展」功能同样强大。生成的场景边缘部分有些模糊?点击「扩展」按钮,AI 会自动生成更多内容来填充那片区域。想要更大的空间?用「组合模式」把多个世界拼接起来。

官方演示里就拼出了一整列火车车厢。这套工具链用下来,从创意概念到成品交付的周期被大幅缩短。

如果说生成和编辑功能还算意料之中,那 Chisel 这个工具就有点降维打击的味道了。

简单来讲,Chisel 把「结构」和「风格」彻底分离:

  • 第一步:用立方体、平面等基础几何体搭建空间框架(就像玩乐高)
  • 第二步:写一段文本描述视觉风格(比如「现代艺术博物馆」或「斯堪的纳维亚风格卧室」)
  • 第三步:AI 自动将框架填充成完整的 3D 世界

更厉害的操作是,同一套框架,换个文本提示,能生成完全不同风格的场景。比如框架保持不变,提示词改为「现代艺术博物馆」,得到的是极简白墙配抽象画作。

▲ 一个美丽的现代艺术博物馆,铺有木质地板,馆内陈列着色彩斑斓的画作和曲线优美的雕塑。

又或者,框架保持不变,提示词改为「北欧卧室」,呈现的是温馨木质家具配冰川窗景。

▲ 一个宁静的斯堪的纳维亚风格客房卧室,窗外可欣赏到壮丽的冰川景色。

这种玩法有点像前端开发里 HTML 定结构、CSS 定样式的逻辑,但应用到 3D 建模领域就显得格外高效。正如 World Labs 联合创始人 Justin Johnson 在采访演示时说:「我可以直接选中代表沙发的 3D 块,拖动到别的位置。」

传统建模软件里需要调整许久的操作,在 Marble 里变成了拖拽方块……

此时此刻,建模师们的心情想必很复杂。

那么,创建完成的 3D 世界该如何使用?Marble 提供了三种导出方案:

  • 高斯溅射 (Gaussian Splats):最高保真度的表示方式,适合实时渲染,可以直接在浏览器里运行。
  •  三角网格 (Triangle Meshes):分为低精度碰撞网格和高精度渲染网格,可以直接导入 Unity、Unreal Engine 等游戏引擎。
  • 视频格式:支持像素级镜头控制,还能用 AI「增强」——自动添加烟雾、火焰、水流等动态效果。

▲ Marble 可以将生成的世界导出为高斯点云或三角网格模型。

官方新闻稿里的大部分视频,都是直接用 Marble 渲染生成的。通过串联这整套工具链串联,从概念到可用资产的流程被极大简化。

▲增强后的视频能够清除画面瑕疵,并为场景加入动态效果。注意烟囱上方的烟雾、跳动的火焰,以及流动的水面。

游戏开发者可以用 Marble 生成背景环境,导出到引擎里再添加交互逻辑;影视团队可以用它快速搭建场景预览,进行镜头规划;VR 内容创作者甚至可以直接把生成的世界放进 Vision Pro 或 Quest 3 里体验。

好家伙,兜兜转转我们还是回到了元宇宙。

定价策略方面,Marble 采用了分级订阅制:

  • 免费版:每月 7000 点数,最多生成 4 个世界,支持文本/图像/全景输入。适合尝鲜用户,但高级功能都被锁定。
  • 标准版(20 美元/月):每月 20000 点数,12 个世界,解锁多图/视频输入、Chisel 模式、基础导出功能。
  • 专业版(35 美元/月,首月1 美元):40000 点数,25 个世界,支持场景扩展、视频增强、高分辨率网格导出,附带商业使用授权。
  • 旗舰版(95 美元/月):120000 点数,75 个世界,全功能解锁。

显而易见,免费版的门槛足够低,能吸引大量用户试用。但想真正用于生产环境,基本上得选专业版。首月 1 美元的限时优惠也很有诱惑力,明摆着就是想让你先上车体验。

Marble 发布后,各方反应相当两极化。

Y Combinator CEO Garry Tan 在推特上直言:「李飞飞是一个传奇人物,而这次发布意义重大。」一些独立游戏开发者和 VR 创作者也在社交媒体上表态,认为 Marble 大幅降低了 3D 内容制作的门槛。

不过质疑声也不少。

最近的游戏开发者大会(GDC)调查显示,三分之一受访者认为生成式 AI 对游戏行业带来负面影响,比前一年上涨了 12%。关注点包括:知识产权侵权、能源消耗过高、AI 生成内容质量下降、导致行业裁员等。《

Wired》此前报道,包括 Activision Blizzard 在内的游戏公司,正在用 AI 压缩成本和应对人员流失。

面对这些质疑,Justin Johnson 的回应是:「Marble 不是用来完全替代游戏制作流程,而是为你提供可以直接使用的资产。」但实际情况会不会如他所说,还得看市场怎么用。

李飞飞的北极星:空间智能

就在 Marble 发布前几天,李飞飞专门发表了一篇长文阐述她的愿景——空间智能(Spatial Intelligence)。

核心观点可以总结为:

大语言模型虽然语言能力很强,但对物理世界几乎一无所知。它们无法准确估计距离、方向,无法在脑中「旋转」物体,也无法预测基本的物理规律。

对比之下,人类智能的核心不是语言,而是对三维空间的理解和操作能力。从驾驶汽车到接住钥匙,从设计建筑到发现 DNA 双螺旋结构——都依赖空间智能。

按照李飞飞的规划,空间智能的应用将分三个阶段:

  • 近期(创造力):游戏、电影、建筑设计(Marble 目前在做的)
  • 中期(机器人学):通过模拟环境训练机器人,让它们学会在真实世界中行动
  • 长期(科学突破):药物研发、材料科学、医疗诊断、沉浸式教育

博客中,李飞飞明确表达:「如果没有空间智能,我们对真正智能机器的梦想就无法实现。」

愿景是宏大的,但现实更复杂。

世界模型这个赛道,也不止 World Labs 一家在较劲。

目前市面上还有这么几位选手:Decart 推出了免费演示版,主打实时生成;Odyssey 同样提供免费试用,但功能较基础;Google Genie 还在研究预览阶段,尚未商业化。

对比之下,Marble 的核心优势说起来也挺明显。它生成的是持久化的完整 3D 世界,不是那种边探索边生成的模式,可以大幅减少变形和不一致的问题。

更关键的是,Marble 率先实现了商业化落地,免费版加付费订阅的模式已经开始变现。从工具链的完整度来看,Marble 也是最全面的,从生成到编辑再到导出,整个流程一气呵成,不需要在多个平台之间倒腾。

从 ImageNet 到空间智能,李飞飞的学术生涯一直在做同一件事:让机器理解视觉世界。ImageNet 教会了 AI「这是什么」。而 Marble 想教会 AI「这在哪里、如何运动、怎么交互」。

前者催生了深度学习革命。后者会不会引爆下一场范式转移?现在下结论还太早。但至少目前看来,这个方向足够性感,也足够硬核。

OpenAI 继续卷 LLM,李飞飞押注空间智能……这场技术路线的豪赌,胜负或许就在这几年揭晓。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


65 岁图灵奖得主终于不用向 28 岁辍学生汇报了,小扎是怎么把他气走的

By: 莫崇宇
12 November 2025 at 16:12

那个站在 LLM 风口上唱反调的倔老头,可能要离开 Meta 了。

硅谷大佬出走创业,三天两头就有一桩,但要出走的 Yann LeCun 不一样,他是能让扎克伯格亲自登门的重量级人物,是深度学习三巨头之一,图灵奖得主,Meta AI Research 的开山祖师。

更重要的是,他这些年一直在干一件特别拧巴的事:站在全世界最热闹的 LLM 路线门口,举着牌子说「这帮人走错路了」。

现在《金融时报》传出他要离职,说他在筹备自己的初创公司,已经开始接触投资人了。注意,目前只是风声,言之凿凿地说 LeCun 已经离职创业,这显然是不严谨的。

只是,截至发稿前,面对铺天盖地的报道,Yann LeCun 本人还没吭声,这沉默本身,就很说明问题。

从三顾茅庐到分道扬镳,这十二年到底发生了什么?

2013 年那场豪赌,扎克伯格赌对了吗?

Lecun 与 Meta 故事得从 2013 年说起。

那段时间,正是深度学习蓬勃兴起的阶段。2012 年,Geoffrey Hinton 与其学生 Alex Krizhevsky、Ilya Sutskever 提交的 AlexNet 在 ILSVRC-2012 一骑绝尘,top-5 错误率约 15.3%,这个突破让整个学术界和工业界都看到了神经网络的潜力。

然后就是科技巨头们的抢人大战——谷歌花大价钱收购了 Hinton 所在的创业公司 DNNresearch,顺带把老爷子本人也挖走了;微软研究院也在疯狂扩张 AI 团队。

扎克伯格坐不住了。

Facebook(现为 Meta)当时正在从 PC 互联网往移动互联网转型,新闻推送算法、照片识别、内容审核,哪哪儿都需要技术。

但问题是,Facebook 的 AI 能力跟谷歌、微软根本不在一个量级。扎克伯格需要一个能撑起门面的人物,最好是那种在学术界有足够分量、能吸引顶尖人才加盟的大牛。

他盯上了 Yann LeCun。

LeCun 当时在纽约大学当教授,已经干了十多年。那时的 Lecun 自然不是什么新人,早在 1989 年,他就在贝尔实验室搞出了卷积神经网络 (CNN),用来识别手写数字,这后来也成了计算机视觉的基石。

但那个年代深度学习不受待见,LeCun 就这么冷板凳坐了许久,眼睁睁看着自己的研究被边缘化。直到 2012 年,Hinton 用深度学习拿下 ImageNet 冠军,证明了神经网络这条路走得通。

LeCun 憋了的那口气,终于能吐出来了。

后续,扎克伯格亲自登门拜访。具体谈了什么外人不知道,但最后开出的条件足够诱人:

第一,给钱,主打一个资源自由;第二,给自由,LeCun 可以保留纽约大学的教授身份,继续教书搞研究;第三,给权,让他参与建立 Facebook AI 研究院,怎么招人、做什么方向,全由他说了算。

这对一个憋屈了多年的学者来说,简直是梦寐以求的机会。

2013 年末,LeCun 正式加入 Facebook,出任新成立的 Facebook AI Research(FAIR) 实验室负责人。

他在纽约、门洛帕克和伦敦三地建起了 FAIR 实验室,自己常驻纽约办公室。

团队最初规模较小,但个个都是从顶尖高校和研究机构挖来的——LeCun 的号召力在这时候体现出来了,但凡是做深度学习的,没人不知道「卷积神经网络之父」这个名号。

扎克伯格给了资源,LeCun 也拿出了成果。

加入 Facebook 这些年,LeCun 干的事情可以分成三条线:一是把深度学习塞进 Facebook 的产品里,二是推动学术界的前沿研究,三是培养下一代 AI 人才。

产品线上,2014 年的 DeepFace 人脸识别系统达到 97.35% 准确率,深度学习优化的推送算法也提升了广告点击率。

与此同时,LeCun 自己继续在学术圈刷存在感:发论文、顶会 keynote、带学生办 workshop。直到和 Hinton、Bengio 一起拿图灵奖, 才算是熬出头了。

此外,在 LeCun 创建的 FAIR 实验室,Soumith Chintala 主导开发了 PyTorch 框架并于 2017 年开源,这也是 Meta 至今为数不多的形象招牌。

PyTorch 动态计算图、Python 原生接口, 调试方便, 学术圈迅速倒戈。这一招等于把全球 AI 研究者都拉进了 Facebook 生态。

不过,或许是冥冥中自有天意,Soumith 前几天也宣布离职 Meta,表示「不想一辈子做 PyTorch」。

而更重要的是人才培养。FAIR 有个规矩:研究员可以自由发表论文、跟学术界合作、指导外部学生。顶级资源加学术自由的组合,自然吸引了一批顶尖研究人员。

到 2020 年前后,FAIR 已是全球顶尖 AI 研究机构之一, 跟谷歌 DeepMind 并列第一梯队。扎克伯格的那场豪赌, 至少在前七八年就已经得到了不小的回报。

猫比 ChatGPT 聪明?这个图灵奖得主是认真的

在 ChatGPT 席卷世界初期,Yann Lecun 和扎克伯格也有过一段甜蜜期。

2023 年以来,Meta 陆续开源 LLaMA 系列模型,引发业界震动。

OpenAI、谷歌走的是封闭路线,靠 API 赚钱;Meta 却把模型权重直接扔出来,任人取用。这步棋背后的算盘其实挺清楚:与其让对手一家独大,不如用开源赢得开发者生态,让 LLaMA 成为 AI 界的 Android。

至少在明面上,身居 Meta 首席 AI 科学家一职的 LeCun,是这条路线最坚定的拥护者。

开源 LLaMA 让 Meta 在大模型竞赛中站稳了脚跟,也让 LeCun 的 AI 理想得到了一定程度的实现——尽管这个实现的方式,恰恰是通过他并不完全认同的 LLM 技术路线。

没错,LeCun 一直觉得 LLM 是条死胡同。这才是矛盾的核心。

LeCun 不止一次在公开场合炮轰 LLM 路线,在他看来,LLM 只会根据统计相关性预测下一个词,根本不理解世界。你问它常识问题,它能给你编出一本正经的瞎话——这叫「幻觉」(hallucination),说白了就是不懂装懂。

熟悉 LeCun 的人都知道,他最喜欢举的例子是猫和机器人:

「我们有了会考试聊天的语言模型,但家务机器人在哪里?哪怕像猫那样灵巧的机器人都没有出现。」

「你的猫肯定有一个比任何 AI 系统都更复杂的模型。动物拥有持久记忆的系统,这是目前的 LLM 所不具备的;能够规划复杂动作序列的系统,这在今天的 LLM 中是不可能的。」

他算过一笔账:一个 4 岁小孩通过视觉获取的信息量,几年下来就有 10 的 15 次方字节,远超 LLM 读遍互联网文本。但小孩已经掌握了基本的物理直觉和语言,LLM 耗费这么多数据,智能仍然很有限。

「光靠喂文本,不可能达到人类水平智能。这条路永远走不通。」他如此说道。

在当下最火的风口面前,这样唱反调的言论显然并不讨喜,有人批评他傲慢,有人说他故步自封。甚至 Meta 内部都有声音认为,正是 LeCun 对 LLM 路线的抵触,让公司在大模型竞赛中暂时落后。

但 LeCun 不在乎。

他有自己的路线图:世界模型 (World Model)、联合嵌入预测架构 (JEPA)等等。这些概念听起来学术味十足,核心思想其实很直观——

让 AI 通过观察世界来学习,而不是通过阅读文本来记忆。就像婴儿成长那样,先理解重力、因果关系这些物理常识,再逐步建立抽象认知。

他设想的 AI 架构是模块化的:感知模块、世界模型模块、记忆模块、行动模块,各司其职。不像 LLM 那样把所有知识和推理揉在一个巨型网络里,搞得像个什么都懂但其实什么都不懂的「书呆子」。

具体来说,世界模型就是让 AI 在内部学会一个对外部世界的预测模型。就像婴儿在成长过程中建立起对重力、物体恒存等常识那样,AI 应该通过观察世界,形成对物理规律、因果关系的理解。
有了世界模型,AI 就可以在脑海中模拟未来,从而具备计划行动的能力。

JEPA 则是实现这个世界模型的具体架构。

它采用自监督学习的方法,给 AI 两个相关的输入 (比如视频中相邻的两帧画面),模型将这两个输入分别编码到一个抽象的表示空间中,然后训练一个预测器,根据「上下文」表示去预测「目标」表示。

这种方式避免了直接生成所有细节,而是关注抽象的关键因素——更符合人类学习方式。LeCun 曾预言,如果团队的路线顺利推进,三到五年内就会有更好的范式出现,使得现在基于 LLM 的方法过时。

问题是,三到五年,Meta 等得起吗?

一场猝不及防的重组,FAIR 的黄金时代结束了

当初,LeCun 建立 FAIR 时的承诺是「做长期的、基础性的 AI 研究」,扎克伯格也同意了。

但这个「长期」到底有多长?「基础研究」到底能给公司带来多少直接收益?这些问题在早期不是问题,因为深度学习本身就是风口,FAIR 做什么都有望转化成产品优势。

可随着生成式 AI 开始爆发,竞争也日益激烈,形势开始发生了变化,尤其是 Llama 4 的失败也给了扎克伯格当头一棒。扎克伯格要的是现在就能用的技术,不是五年后可能有用的理念。

于是,一场猝不及防的重组出现了。

就在今年,Meta 搞了个大动作,成立「超级智能实验室」,把 FAIR、基础模型团队和各应用 AI 团队统统塞进一个筐里。表面上是整合资源,实际上是一场彻底的权力重组。

这场重组的核心逻辑很明确:让研究直接服务产品,让科学家为商业目标让路。

FAIR 团队原本「相对不受干扰地开展研究」,现在得跟着产品节奏走,研究方向要服务于个人 AI 助手。此外,Meta 对 FAIR 的研究发表制定了更严格的内部审核机制。

研究员在对外发布论文、开源代码之前,需要经过额外的内部交叉审阅和管理层审批,原因在于 Meta 担心自己砸钱搞出来的成果被竞争对手白嫖。

LeCun 对这些变化表现出强烈的抵触。

据多方报道,他在内部激烈反对新的论文审核制度,为维护研究自由据理力争。The Information 援引知情者的话称,LeCun 在今年 9 月一度「气到考虑辞职」以示抗议。

但或许更让他难以接受的是领导权的旁落。

扎克伯格在重组中做了一个大胆的人事任命:从外部挖来 Alexandr Wang,让他担任 Meta 的首席 AI 官,直接向 CEO 汇报。

Alexandr Wang 是谁?一个 28 岁的 MIT 辍学生,他创办的公司 Scale AI 专门做数据标注业务,给各大科技公司的 AI 模型提供训练数据。

扎克伯格看中的,恰恰是 Wang 的产品思维和商业嗅觉。在生成式 AI 的竞赛中,Meta 需要的不是象牙塔里的理想主义者,而是能快速把技术转化为产品的实干家。

这个任命的震撼在于:LeCun 这个图灵奖得主、深度学习三巨头之一、在 Meta 干了十二年的首席 AI 科学家,在新架构下的话语权被大幅削弱,甚至要向 Wang 汇报。

同时,今年 7 月,扎克伯格还任命了年轻有为的赵晟佳为超级智能实验室的首席 AI 科学家,负责制定新实验室的研究方向。

有趣的是,LeCun 当时发了个声明,说自己角色没变、使命没变,还期待跟新团队合作。这求生欲属实拉满。但他对于研究方向和领导层重组的分歧,显然是公开的秘密。

而真正可能成为压垮骆驼的最后一根稻草的,是最近的裁员。据报道,Meta 近期对 AI 团队进行了裁员,波及到 FAIR 研究部门以及与产品相关的 AI 团队,甚至华人大佬田渊栋也因此受到了波及。

裁员的信号很明确:Meta 不再愿意为「看不到短期回报」的基础研究买单了。那些不能直接转化为产品功能、不能立即提升用户增长或广告收入的研究方向,都成了被砍的对象。

FAIR 的黄金时代结束了。

种种因素之下,《金融时报》爆料他在筹备创业,倒也不算意外。

学术大佬出来单干,最近几年已经成了硅谷新常态。Hinton 退休后到处演讲呼吁 AI 监管,Bengio 也有自己的实验室和创业项目。LeCun 若是真出去创业,没准反而是好事。说到底,这事儿没有谁对谁错。

LeCun 能够在 Meta 之外继续他毕生的事业。

他带走了那个被 Meta「搁置」的愿景,可以放开手脚搞自己的世界模型,用自己的方式证明它是正确的,再也不用跟产品经理扯皮,不用向 28 岁的小老弟汇报。
成了,那就是「我早说过 LLM 是死路」;败了,顶多被人嘲笑几句「你看那个老顽固」。

而对于 Meta 来说,扎克伯格要给股东讲故事,要把最实用的生成式 AI 塞进旗下产品的各个角落,这确实是 CEO 该干的事。

只是,尽管少了 LeCun 也不会伤筋动骨,但可能会少点不一样的声音。等哪天大家发现 LLM 真的走到瓶颈了,回头看看当年那个举着反对牌子的倔老头说过什么,或许会觉得别有一番趣味。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


李飞飞最新长文刷屏,AI 下一个十年最需要的不是大模型

By: 莫崇宇
11 November 2025 at 09:48

当 ChatGPT 震惊世界时,我们以为 AI 已经足够聪明。但它依然做不到一件事:准确判断你伸手去够桌边咖啡杯时,手指距离杯沿还有多少厘米。

今天,知名 AI 学者李飞飞用一篇博客回答了这个问题:真正的智能不只是文字游戏,而是藏在一个我们每天都在使用却从未意识到的能力里:

空间智能。

这是一种比语言更古老的智能,改变人类文明的时刻,从来依靠的都不是语言,而是对空间的感知、想象与推理。
比如古希腊学者通过观察影子计算出地球周长,科学家摆弄金属丝拼出DNA的双螺旋结构,消防员在烟雾中凭直觉判断建筑是否会坍塌。

而现在,AI 即将获得它一直缺失的这种能力。

省流版如下:

1. 当前 AI(特别是大型语言模型 LLM)虽然那改变了我们运用抽象知识的方式,语言能力很强,却缺乏对物理世界的真实经验和理解。它们在机器人、科学发现、沉浸式创造力等领域仍有根本局限。空间智能是 AI 的下一个前沿。它将彻底改变我们创造和体验现实与虚拟世界的方式,并将在机器人、科学发现和创造力等领域引发变革。

空间智能是人类智能的基石,甚至先于语言存在。它不仅支撑着我们与物理世界的日常互动(如驾驶、接住钥匙),也是人类想象力、创造力和科学发现(如古希腊测量地球周长、DNA 双螺旋结构的发现)的核心。它是人类认知赖以构建的「脚手架」。

2. 尽管多模态模型(MLLM)有所进步,但 AI 在空间能力上与人类相差甚远。它们无法准确估计距离、方向,无法在脑中「旋转」物体,也无法预测基本的物理规律。AI 缺乏这种能力,就无法真正与物理现实建立联系。要实现空间智能,我们需要超越 LLM,构建更具雄心的「世界模型」。这是一种全新的生成式模型,其能力远远超越当今的 LLM。李飞飞与 World Labs 正致力于此。

3. 李飞飞定义了世界模型必须具备的三种能力:

  1. 生成性 (Generative):能够生成在感知、几何和物理规律上保持一致性的世界。
  2. 多模态性 (Multimodal):天生设计为多模态,能处理和输出多种形式的信息(如图像、视频、深度图、文字、动作)。
  3. 交互性 (Interactive):能够根据输入的「动作」,预测或输出世界的「下一个状态」,并最终可能预测「下一步应采取的行动」。

4. 李飞飞认为,构建世界模型远比构建语言模型困难,因为世界的维度远超语言。这需要克服三大挑战:

  • 新的训练任务:需要找到类似 LLM 中「下一个词预测」那样优雅的通用任务函数,但难度更高。
  • 大规模数据:需要能从海量的互联网图像和视频中提取深层空间信息,并辅以合成数据和多模态数据。
  • 新的模型架构:需要超越当前 1D/2D 序列范式,发展出具备 3D 或 4D 感知能力的新架构(比如 World Labs 的 RTFM 模型)。

5. AI 应当增强人类的能力,而非取而代之。AI 应始终尊重人的自主性与尊严。空间智能正是这一愿景的体现,它旨在赋能人类的创造力、关怀能力和科学发现。

6. 空间智能的应用将分阶段展开:

  • 近期(创造力):赋能故事讲述、电影、游戏和建筑设计。World Labs 已推出 Marble 平台,帮助创作者构建 3D 世界。
  • 中期(机器人学):实现「行动中的具身智能」。世界模型将通过模拟训练,使机器人成为人类的协作助手。
  • 长期(科学、医疗与教育):在药物研发、材料科学、辅助诊断、环境感知监护以及沉浸式教育等领域产生变革性影响。

7. 探索空间智能是李飞飞科研生涯的「北极星」。没有空间智能,「真正智能机器」的梦想就无法实现。她呼吁整个 AI 生态系统共同努力,将这项技术用来造福全世界。

从语言到世界:空间智能是人工智能的下一个前沿

1950 年,当计算机还只是自动化运算和简单逻辑的工具时,Alan Turing 提出了一个至今仍回荡的问题:机器能思考吗?他以非凡的想象力看到了一个大胆的可能——智能也许有一天不是天生的,而是被「创造」出来的。这个洞见后来开启了一场被称为「人工智能(AI)」的不懈科学探索。

在我从事人工智能研究的二十五年里,Turing 的远见依然激励着我。但我们离那个目标还有多远?这个问题并不容易回答。

如今,领先的人工智能技术——例如大型语言模型(LLM)——已经开始改变我们获取和运用抽象知识的方式。然而,它们依然像在黑暗中打磨文字的匠人:语言优美,却缺乏经验;知识丰富,却未真正立足于现实。空间智能(Spatial Intelligence)将重新定义我们创造和体验现实与虚拟世界的方式——它将彻底变革故事讲述、创造力、机器人学、科学发现等多个领域。这正是人工智能的下一个前沿。

自我进入这一领域以来,对视觉与空间智能的追求一直是我的北极星。这也是我花费多年时间创建 ImageNet 的原因——这是第一个大规模视觉学习与评测数据集,与神经网络算法以及现代计算(如 GPU 图形处理单元)一起,成为现代人工智能诞生的三大关键支柱之一。过去十年里,我在斯坦福大学的实验室致力于将计算机视觉与机器人学习相结合。而正因为这一信念,我与联合创始人 Justin Johnson、Christoph Lassner、Ben Mildenhall 于一年多前共同创立了 World Labs——希望第一次真正实现这一愿景。

在这篇文章中,我将解释什么是空间智能、它为何重要,以及我们如何构建能够解锁这种智能的「世界模型」——这种能力将重新塑造创造力、具身智能,以及人类的进步。

空间智能:人类认知的支架

人工智能正处在前所未有的激动人心的时刻。生成式 AI 模型(如大型语言模型,LLM)已经从研究实验室走进日常生活,成为数十亿人用于创造、工作和交流的工具。它们展现出了曾被认为不可能的能力——能够轻松生成连贯的文本、大量的代码、逼真的图像,甚至短视频片段。如今,我们已无需再问「AI 是否会改变世界」,因为无论从哪个角度来看,它已经在改变世界。

然而,仍有许多目标尚未实现。自主机器人的愿景依旧令人着迷,但仍停留在猜想阶段,距离未来学家所描绘的日常生活场景还有很远。AI 在疾病治愈、新材料发现、粒子物理等领域中实现研究飞速推进的梦想,也仍然大体未能实现。而能真正理解并赋能人类创造者的 AI——无论是学习分子化学复杂概念的学生、构思空间的建筑师、构建世界的电影制作人,还是追求沉浸式虚拟体验的任何人——仍未到来。

要理解这些能力为何仍难以实现,我们需要回溯空间智能的演化历程,并探究它如何塑造了我们对世界的理解。

视觉长期以来一直是人类智能的基石,但它的力量源于更为根本的机制。在动物能够筑巢、养育后代、使用语言交流或建立文明之前,最初那种感知的能力——哪怕只是捕捉到一束光、一种触感——就悄然点燃了通往智能的进化之路。

这种看似孤立的、从外部世界提取信息的能力,在感知与生存之间搭起了一座桥梁,而这座桥梁随着世代更迭不断加固、扩展。层层叠叠的神经元在这座桥上生长,形成了解读世界、协调有机体与环境互动的神经系统。因此,许多科学家推测:「感知—行动」这一循环正是智能进化的核心驱动力,也是自然界创造出我们——这种能感知、学习、思考并行动的物种——的根本基础。

空间智能在我们与物理世界的互动中起着至关重要的作用。每天,我们都在依赖它完成各种看似平凡的动作:停车时通过想象车头与路沿间逐渐缩小的距离来判断位置;接住从房间另一头扔来的钥匙;在人群密集的人行道上穿行而不相撞;或是半睡半醒时不用看就能把咖啡倒进杯子里。

在更极端的情境下,消防员在坍塌的建筑物中穿行,在烟雾弥漫的环境中凭直觉判断结构是否稳定、如何生存,并通过手势、身体语言以及一种难以言传的职业本能进行交流。而孩子们则在学会说话之前的几个月甚至几年里,通过与环境的游戏式互动来认识世界。所有这一切都发生得自然而然、毫不费力——这正是一种机器尚未掌握的「本能流畅」。

空间智能同样是我们想象力与创造力的基础。讲故事的人在脑海中构建出丰富的世界,并借助各种视觉媒介将其传达给他人——从远古的洞穴壁画,到现代电影,再到沉浸式电子游戏。无论是孩子们在沙滩上堆砌城堡,还是在电脑上玩《我的世界》(Minecraft),以空间为基础的想象力都是他们在现实或虚拟世界中进行互动体验的核心。

在众多行业中,对物体、场景以及动态交互环境的模拟也成为关键支撑——从工业设计到数字孪生,从机器人训练到各种业务应用,空间智能驱动着无数重要的实践场景。

纵观历史,空间智能在许多奠定文明走向的关键时刻都发挥了核心作用。

在古希腊,Eratosthenes 通过观察「影子」悟出了几何原理——他在亚历山大测量到阳光与地面形成的 7 度角,并在同一时间注意到赛恩城没有影子,由此计算出了地球的周长。

Hargreave 发明的「珍妮纺纱机」(Spinning Jenny)则通过一个空间布局的巧思彻底革新了纺织业:他将多个纺锤并排安装在同一架子上,让一个工人能够同时纺出多股纱线,从而将生产效率提高了八倍。

Watson 和 Crick 则通过亲手搭建三维分子模型,摆弄金属板与金属丝,最终拼出了 DNA 的空间结构,让碱基对的排列方式恰如其分地契合在一起。

在这些案例中,空间智能都是推动人类文明前进的关键力量——科学家和发明家必须操控物体、想象结构,并在物理空间中进行推理,而这些过程是文字所无法完全表达的。

空间智能,是人类认知赖以构建的「脚手架」。无论是被动观察还是主动创造,它都在发挥作用。它驱动着我们的推理与规划,即便面对最抽象的问题也是如此。它同样决定了我们与世界互动的方式——无论是语言交流还是身体行动,无论是与他人还是与环境本身的互动。

虽然我们大多数人并不会每天都像 Eratosthenes 那样揭示自然的奥秘,但我们依然以相同的方式思考——通过感官理解复杂的世界,并凭直觉掌握其中的物理与空间规律。

遗憾的是,如今的人工智能还无法像这样思考。

过去几年中,人工智能确实取得了巨大进步。多模态大型语言模型(Multimodal LLMs,简称 MLLM)在海量多媒体数据(除了文本外还包括图像、音频、视频等)的训练下,初步具备了某种「空间感知」能力。如今的 AI 已能分析图片、回答与图片相关的问题,并生成极其逼真的图像与短视频。同时,得益于传感器与触觉技术的突破,最先进的机器人也开始能够在高度受限的环境中操控物体和工具。

但坦率地说,AI 的空间能力仍远未达到人类水平,这种差距一眼便能看出。当前最先进的 MLLM 模型在估计距离、方向、大小等方面的表现往往不比随机猜测好多少——它们也无法像人类那样在脑海中「旋转」物体,从不同角度重新想象其形状。它们不能穿越迷宫、识别捷径,也无法预测最基本的物理规律。AI 生成的视频虽然令人惊叹,但往往在几秒后就失去连贯性。

目前的尖端 AI 虽然在阅读、写作、研究和数据模式识别等任务中表现出色,但在理解或与物理世界交互时,却存在根本性的局限。我们对世界的感知是整体性的——不仅看到「事物本身」,还理解它们在空间上的关系、意义以及重要性。而通过想象、推理、创造和互动来理解世界——而不仅仅是用语言去描述——这正是空间智能的力量所在。

缺乏这种能力,AI 就无法真正与它想要理解的物理现实建立联系。它无法安全高效地驾驶汽车,无法在家庭或医院中灵活地引导机器人,也难以为学习与娱乐提供全新的沉浸式互动体验,更无法大幅加速材料科学或医学领域的发现。

哲学家维特根斯坦(Wittgenstein)曾写道:「我的语言的界限意味着我的世界的界限。」

我并非哲学家,但至少我知道——对于人工智能而言,世界不止于「语言」。空间智能代表着超越语言的前沿——它是一种将想象、感知与行动连接起来的能力,使机器真正能够拓展人类的生活潜能,从医疗到创造力,从科学发现到日常助理,都因此焕发新可能。

人工智能的下一个十年:构建真正具备空间智能的机器

那么,我们该如何构建具有空间智能的 AI?怎样才能让模型既能像 Eratosthenes 那样进行空间推理,又能像工业设计师那样精确创造,像讲故事的人那样富有想象力,并像救援人员那样在复杂环境中灵活行动?

要实现这一点,我们需要的不只是大型语言模型(LLM),而是一种更具雄心的体系——世界模型(World Models)。这是一类全新的生成式模型,能够在语义、物理、几何与动态复杂的世界中——无论虚拟还是现实——进行理解、推理、生成与交互,其能力远远超越当今的 LLM。

这一研究领域尚处于萌芽阶段,目前的探索方法从抽象推理模型到视频生成系统皆有涉猎。World Labs 正是在这种信念下于 2024 年初创立的:我们认为,基础方法尚未确立,而这正是未来十年人工智能发展的决定性挑战。

在这个新兴领域中,最重要的是建立一套指导发展的核心原则。对于空间智能而言,我将「世界模型」定义为具备以下三种关键能力的系统:

1. 生成性(Generative):世界模型能够生成具备感知、几何与物理一致性的世界

要实现空间理解与推理,世界模型必须具备生成自身「模拟世界」的能力。它们应能根据语义或感知层面的指令,生成无穷多样的虚拟世界——这些世界无论在几何结构、物理规律还是动态变化上,都必须保持一致性,无论它们代表的是现实空间还是虚拟空间。

研究界正在积极探索这些世界应当以内在几何结构的隐式还是显式形式来表示。此外,除了具备强大的潜在表示能力,我认为一个通用的世界模型还必须能够输出清晰可观测的世界状态,以适应多种应用场景。尤其重要的是,模型对「当下世界」的理解必须与「过去世界」的状态相连贯——它要能理解世界从过去如何演变到现在。

2. 多模态性(Multimodal):世界模型从设计上就是多模态的

就像人类与动物一样,世界模型也应能处理多种形式的输入——在生成式 AI 领域,这些输入被称为「提示(prompt)」。面对不完整的信息(如图像、视频、深度图、文字指令、手势或动作),世界模型应能预测或生成尽可能完整的世界状态。

这要求它在处理视觉输入时具备接近真实视觉的精度,同时在理解语义指令时同样灵活。这样,智能体(agent)与人类都能通过多样化的输入与模型进行交流,并获得同样多样化的输出反馈。

3. 交互性(Interactive):世界模型能够根据输入的动作输出下一步的世界状态

最后,当「动作」或「目标」被作为输入提示的一部分时,世界模型的输出必须包含世界的下一状态,这种状态可以是隐式的,也可以是显式的。

当模型接收到一个动作(无论是否包含目标状态)作为输入时,它应能输出与世界先前状态、目标状态(若有)、语义含义、物理规律及动态行为一致的结果。

随着具备空间智能的世界模型在推理与生成能力上不断增强,可以想象——未来面对某个给定目标时,世界模型不仅能够预测世界的下一状态,还能基于这一新状态预测「下一步应采取的行动」。

这一挑战的规模,远超人工智能以往所面对的一切。

语言,是人类认知中一种纯粹的生成现象;而「世界」,却遵循着复杂得多的规律。以地球为例,引力决定了运动规律,原子结构影响了光线的色彩与亮度,无数的物理定律限制着每一次交互。即便是最天马行空的虚构世界,也依然由服从这些物理法则与动态行为的空间物体和智能体所构成。要让语义、几何、动态与物理这几种层面在同一模型中保持一致,需要全新的方法与思路。

世界的表示维度远比语言这种「一维、序列信号」复杂得多。要让世界模型具备人类所拥有的那种通用能力,我们必须跨越多个艰巨的技术障碍。而在 World Labs,我们的研究团队正致力于为实现这一目标奠定基础性突破。

以下是我们当前正在研究的一些课题示例:

· 一种新的通用训练任务函数
为世界模型定义一个像大型语言模型(LLM)中「下一个词预测」那样简单又优雅的通用任务函数,一直是该领域的核心目标。然而,由于世界模型的输入与输出空间更加复杂,这一函数的设计难度要高得多。尽管仍有许多未知需要探索,但这种目标函数及其对应的表示方式,必须能够体现几何与物理规律,忠实地反映世界模型作为「连接想象与现实的有根表示」的本质。

· 大规模训练数据
训练世界模型所需的数据复杂程度远超文本数据。好消息是——庞大的数据源已经存在。互联网级的图像与视频资源,为训练提供了丰富、可获取的素材。真正的挑战在于:如何开发算法,从这些基于二维图像或视频帧(即 RGB 信号)的数据中提取更深层次的空间信息。过去十年的研究表明,语言模型的性能提升遵循「数据量与模型规模的扩展规律」;而对于世界模型来说,关键突破在于构建能够在相似规模下充分利用视觉数据的模型架构。

此外,我们也不应低估高质量合成数据以及深度图、触觉等额外模态的价值。它们在训练过程的关键阶段能对互联网级数据起到补充作用。要让这一过程更高效,还依赖于更先进的传感系统、更稳健的信号提取算法,以及更强大的神经仿真技术。

· 新的模型架构与表征学习
世界模型的研究必然会推动模型架构与学习算法的革新,特别是超越当前多模态语言模型(MLLM)和视频扩散模型的范式。现有方法通常将数据「分词化」为一维或二维序列,这让一些简单的空间任务变得异常困难——例如在短视频中数清不同的椅子,或回忆一小时前房间的布局。

新的架构可能带来改进,比如在分词、上下文与记忆机制中引入三维或四维感知能力。举例来说,World Labs 最近开发的实时生成帧模型(RTFM)就是这种转变的体现。该模型利用「以空间为基础的帧」作为空间记忆单元,实现了高效的实时生成,同时在生成的世界中保持连续性与稳定性。

显然,我们距离通过「世界建模」彻底释放空间智能的潜能,还有许多艰巨的挑战要克服。

这项研究不仅仅是理论探索——它是推动新一代创造性与生产力工具的核心引擎。而在 World Labs,我们已经取得了一些令人振奋的进展。

最近,我们向少量用户展示了 Marble ——首个能够通过多模态输入进行提示(prompt),并生成、维持一致性三维环境的世界模型。它让用户与创作者能够在这些虚拟空间中探索、互动,并将其纳入创作流程中继续扩展。我们正在努力,让 Marble 尽快向公众开放!

Marble 只是我们迈向真正具备空间智能的世界模型的第一步。
随着研究的加速推进,科研人员、工程师、用户和商业领袖都开始认识到这项技术的非凡潜力。下一代世界模型将让机器实现一个全新的空间智能层次——这将解锁当今 AI 系统中仍大多缺失的关键能力。

用「世界模型」构建更美好的人类世界

推动 AI 发展的动机至关重要。

作为一名参与开启现代人工智能时代的科学家,我的初衷始终明确:AI 应当增强人类的能力,而非取而代之。

多年来,我一直致力于让 AI 的发展、应用与治理更好地契合人类需求。如今,关于科技乌托邦与末日论的极端叙事层出不穷,但我始终保持务实的信念:AI 由人创造,为人服务,并由人类治理。

它必须始终尊重人的自主性与尊严。AI 的真正魔力在于延展我们的能力——让我们变得更有创造力、更具连接性、更高效,也更充实。

空间智能正体现了这一愿景:

它是一种能赋能人类创作者、照护者、科学家与梦想家的人工智能,帮助我们实现曾经无法实现的目标。
正是这种信念,支撑着我将「空间智能」视为人工智能下一个伟大前沿领域的决心。

空间智能的应用将分阶段展开。

如今,创意类工具 已经开始出现——World Labs 的 Marble 已将这些能力交到创作者与故事讲述者手中。
机器人学 是中期目标,我们正在不断完善「感知—行动」循环,使机器能够在物理世界中灵活操作。
而最具变革性的 科学应用 可能需要更长时间,但它们的影响将深远,足以促进人类福祉的全面提升。

在这些不同的发展阶段中,有若干关键领域尤为突出——它们蕴含着重新定义人类能力的巨大潜力。

要实现这一目标,必然需要集体的努力——远非一个团队或一家公司所能独立完成。

这将需要整个 AI 生态系统的共同参与:研究者、创新者、企业家、公司乃至政策制定者,都应携手朝着共同的愿景前进。

而这个愿景,值得我们为之奋斗。

未来,将由此展开:

创造力:为讲故事与沉浸式体验赋予超级能力

「创造力就是智慧在玩耍。」这是我最喜欢的一句名言,出自我个人的英雄——爱因斯坦。在人类拥有文字之前,就已经在讲故事了——在洞穴的墙壁上作画、通过口口相传流传下来,并在共同的叙事中建立起整个文化。故事帮助我们理解世界,跨越时间与空间建立联系,探索「人类」意味着什么。更重要的是,它帮助我们在生命与爱中找到意义。

如今,空间智能有潜力彻底改变我们创作和体验故事的方式,不仅保留其根本的重要性,还将其影响力延伸至娱乐、教育、设计、建筑等多个领域。

World Labs 的 Marble 平台为电影制作人、游戏设计师、建筑师以及各类讲故事的人,提供了前所未有的空间能力和编辑控制权,让他们能够快速创建并反复迭代可自由探索的 3D 世界,而无需传统 3D 设计软件所需的大量投入。创造本身依旧是充满人性和活力的行为,AI 工具只是放大并加速了创作者的潜能。这包括:

  • 多维度叙事体验:电影人和游戏设计师正在利用 Marble 构建完整的虚拟世界,不再受限于预算或地理位置。他们能探索各种场景和视角,这在传统的制作流程中几乎是无法实现的。随着不同媒介和娱乐形式的界限逐渐模糊,我们正迈向全新的交互式体验形式,它融合了艺术、模拟和游戏——一个个个性化世界,不再仅属于大型工作室,而是任何人都可以创造和参与其中。随着更快速的方法将创意和分镜转化为完整体验,叙事将不再局限于某一种媒介,创作者可以在各种平台和界面上建立拥有共同线索的故事世界。
  • 通过设计实现空间叙事:几乎所有制造出来的物品或建造的空间,在实际成形之前都必须先进行虚拟 3D 设计。这个过程通常需要大量时间和金钱,且高度反复。而借助具备空间智能的模型,建筑师可以在投入数月设计前快速可视化结构,甚至可以「走进」还不存在的空间——讲述我们未来如何生活、工作和聚会的故事。工业设计师和时尚设计师也可以立即将想象转化为形体,探索物体如何与人体和空间互动。
  • 全新的沉浸式与互动体验:体验本身,是我们人类赋予事物意义的最深刻方式之一。在人类历史的绝大多数时间里,我们只拥有一个三维世界:我们共同生活的现实世界。直到近几十年,通过电子游戏和早期的虚拟现实(VR),我们才开始窥见由人类自己创造的另一个世界。而如今,空间智能结合虚拟现实(VR)、扩展现实(XR)头显以及沉浸式显示设备,使这些体验达到了前所未有的高度。我们正走向一个未来——进入完整构建的多维世界将像翻开一本书一样自然。空间智能让世界构建能力不仅属于拥有专业制作团队的工作室,也属于有故事、有想法的每一个人,包括独立创作者、教育者以及任何想要表达愿景的人。

机器人技术:行动中的具身智能

从昆虫到人类,动物依靠空间智能来理解、导航并与周围世界互动。机器人也不例外。具备空间感知能力的机器一直是机器人领域的梦想,我在斯坦福的研究实验室与学生和合作者们的工作,也正是围绕这一目标展开。这也是我对 World Labs 所构建的模型充满期待的原因之一——它们有望让这一梦想成真。

  • 通过世界模型扩展机器人学习能力:机器人学习的进步依赖于可扩展的高质量训练数据。考虑到机器人必须学会理解、推理、规划和互动的庞大状态空间,许多研究者认为要真正实现通用型机器人,必须结合互联网数据、合成仿真和现实世界中的人类示范数据。然而,与语言模型不同,机器人研究目前缺乏足够的训练数据。而世界模型将在其中发挥决定性作用。随着其感知逼真度和计算效率的提升,世界模型的输出可以迅速缩小仿真与现实之间的差距。这将有助于在无数种状态、互动和环境的模拟中训练机器人。
  • 成为伙伴与协作助手:机器人作为人类的协作伙伴,无论是在实验室中辅助科学家,还是在家中帮助独居老人,都能在劳动力紧缺和生产效率亟需提升的背景下,承担重要角色。但要实现这一点,机器人必须具备空间智能:能够感知、推理、规划和行动,而且——这一点最关键——要能与人类的目标和行为保持情感上的一致性。例如,实验室里的机器人可以操作仪器,让科学家专注于需要精细操作或逻辑推理的任务;而家用机器人可以协助老年人做饭,同时不剥夺他们的乐趣与自主性。真正具备空间智能的世界模型,能够预测环境的下一步状态,甚至预测符合人类预期的动作,对于实现这一目标至关重要。
  • 拓展具身形式的多样性:类人机器人确实适用于我们为自己打造的世界,但技术创新的全部潜力,将体现在更丰富多样的设计形式中:比如能够输送药物的纳米机器人、可在狭小空间中活动的软体机器人,以及为深海或外太空环境设计的专用机器。不论它们的外形如何,未来的空间智能模型都必须整合机器人所处的环境,以及其自身的感知与运动能力。但开发这些机器人面临的核心挑战之一,是缺乏适用于各种具身形式的训练数据。世界模型将在模拟数据生成、训练环境构建,以及任务基准测试等方面,发挥关键作用。

更长远的视野:科学、医疗与教育

除了在创意和机器人领域的应用,空间智能还将在其他领域产生深远影响,特别是在那些 AI 可以增强人类能力、挽救生命、加速发现的地方。我在下面重点介绍三个具有变革潜力的领域,当然,空间智能的应用远不止于此,还将在更多行业中大展拳脚。

在科学研究中,具备空间智能的系统可以模拟实验、并行测试假设,并探索人类难以抵达的环境——从深海到遥远的行星。这项技术将彻底改变气候科学、材料研究等领域的计算建模方式。通过将多维仿真与真实世界的数据采集相结合,这些工具可以降低计算门槛,扩展每一个实验室所能观察和理解的范围。

在医疗健康领域,空间智能将重塑从实验室到病床的各个环节。在斯坦福,我的学生和合作伙伴们多年来一直与医院、养老机构以及家庭中的病患合作。这些经验让我深信,空间智能在医疗中的变革潜力巨大。AI 可以通过建模分子之间的多维交互,加速药物研发;通过辅助放射科医生识别医学影像中的模式,提升诊断精度;还可以实现环境感知型的监护系统,为病患和护理人员提供支持,同时不替代医疗过程中至关重要的人际联系。更不用说机器人在协助医护人员和患者方面,在多种场景中也大有可为。

在教育方面,空间智能能够实现沉浸式学习,让抽象或复杂的概念变得具体可感,并创造出与人类大脑和身体学习方式高度契合的、可反复练习的学习体验。在 AI 时代,无论是对学龄儿童还是成年人成年人来说,更快、更有效的学习和技能再培训都尤为关键。学生可以「进入」细胞机制,或亲身「走过」历史事件;教师可以借助交互式环境实现个性化教学;而从外科医生到工程师等专业人士,也能在逼真的模拟中安全地练习复杂技能。

虽然这些领域的应用前景几乎没有边界,但我们的目标始终如一:用 AI 增强人类的专业能力、加速人类的发现、放大人类的关怀——而不是取代那些构成人类本质的判断力、创造力与同理心。

结语

过去十年,人工智能已成为全球现象,并在科技、经济乃至地缘政治领域引发重大转折。但作为一名研究者、教育者、如今也是一位创业者,最令我振奋的,仍然是图灵在 75 年前提出的那个问题背后的精神。我依然怀有与他相同的那份好奇与敬畏之心。正是这种探索空间智能的挑战,成为我每天的动力源泉。

在人类历史上,我们第一次有机会打造出与物理世界高度协调的机器,使它们成为我们应对重大挑战时真正的合作伙伴。无论是在实验室中加速对疾病的理解、彻底改变我们讲述故事的方式,还是在我们因疾病、受伤或衰老而处于最脆弱状态时给予支持,我们正站在这样一项技术的门槛前,它将提升那些我们最在乎的生活体验。这是一种更深刻、更丰富、更有力量的生活愿景。

在大约五亿年前,大自然首次赋予远古动物空间智能的萌芽。而今天,我们有幸成为这一代技术人中的一员,可能很快就能让机器也拥有这种能力——并有机会将这项能力用来造福全世界人民。没有空间智能,我们对「真正智能机器」的梦想就无法真正实现。

这个探索旅程,就是我心中的北极星。欢迎你与我一同追寻。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


历史第一人!马斯克锁定万亿薪酬包,但得先完成这些「不可能任务」

By: 莫崇宇
7 November 2025 at 09:23

刚刚,马斯克拿下史上最壕薪酬包。

一份价值近万亿美元的 CEO 激励计划,在刚刚落下帷幕的特斯拉 2025 年度股东大会上,以超过 75% 的支持率通过。

现场气氛高涨,堪比演唱会,股东们齐声高喊「Elon! Elon!」,马斯克上台时收获阵阵欢呼,还与特斯拉机器人共舞了一段。

当然,光拿钱是不够的,马斯克还得给股东们画几个饼。

他在台上预测,Optimus 机器人能让全球经济总量增加 10 倍,会比最好的外科医生更强,甚至能消除贫困、提供顶级医疗服务。

另一个重磅消息是,特斯拉无方向盘自动驾驶汽车 Cybercab 预计明年 4 月量产。

除了薪酬方案,股东大会还通过了啥?

这场股东大会的议程相当密集,关键提案的投票结果如下:

  • 当选董事:Ira Ehrenpreis、Joe Gebbia 和 Kathleen Wilson-Thompson ✅
  • 批准 2024 年高管薪酬方案(咨询性投票)✅
  • 批准为替代马斯克 2018 年薪酬计划提供资金 ✅
  • 批准马斯克价值 8780 亿美元的新薪酬方案 ✅
  • 从特斯拉章程和细则中删除超级多数投票要求 ❌
  • 股东提案:授权特斯拉投资 xAI ✅(通过,但有大量弃权)
  • 股东提案:将高管薪酬与可持续发展及人力资本目标挂钩 ❎
  • 股东提案:废除衍生诉讼 3% 持股比例规则 ❌
  • 股东提案:每年选举所有董事 ✅
  • 股东提案:根据德克萨斯州法律,要求在修改公司章程某些条款前须经股东批准 ❌

而关于特斯拉投资马斯克旗下 AI 公司 xAI 的咨询性投票结果,特斯拉董事会对此表示:「由于这是一项咨询性投票,董事会将根据目前的股东支持程度进一步评估后续行动。」

插个题外话,根据路透社的分析,尽管今年的薪酬方案在未来 10 年内可能授予价值高达 1 万亿美元的股票,但会在授予时扣除这些股票的成本,因此对马斯克来说,实际价值略低,大约为 8780 亿美元。

那么,这份价值 8780 亿美元的激励计划到底怎么回事?

先说清楚,这不是马斯克马上就能拿到的工资,具体来说,马斯克预计将获得 4.237 亿股的股票奖励,分成 12 个阶段来解锁。每完成一个市值目标,如果特斯拉还能达成相应的利润或运营目标,他就能拿到约 1/12 的股份。

想拿这近万亿美元,马斯克得完成一系列堪称「不可能完成」的任务:

特斯拉得从现在的 1.4 万亿美元一路飙升到 8.5 万亿美元。

什么概念?差不多是现在市值最高的英伟达的 1.85 倍。

第一个阶段的目标是市值达到 2 万亿美元(目前约为 1.4 万亿美元),接下来的 9 个阶段,每提升 5000 亿美元市值可解锁一部分,最后两个阶段每提升 1 万亿美元,最终目标为 8.5 万亿美元市值。

此外,要想拿到这笔新薪酬,马斯克还得完成一连串运营 KPI:

  • 交付 2000 万辆特斯拉汽车
  • 搞定 1000 万份 FSD(完全自动驾驶)活跃订阅用户
  • 交付 100 万个 Optimus 机器人
  • 实现 100 万辆 Robotaxi 商用运营
  • 还得达成一系列调整后的 EBITDA(息税折旧摊销前利润)基准,从 500 亿美元到 4000 亿美元不等

当然,就算完成了目标,马斯克也不能马上套现。这些股份有两个关键的归属时间点:2032 年春季和 2035 年秋季。而且就算股份归属了,还得再持有五年才能卖出。

此外,这份方案也给了马斯克一个「保底」:即便遇到自然灾害、战争等不可抗力,他还是能拿到部分股份。更关键的是,虽然股份还没完全归他,但只要目标达成,马斯克马上就能获得投票权。

而投票权,恰恰暴露了马斯克的真实目的。

毕竟很多人不理解,已经是全球首富了,马斯克为什么还要死磕这万亿薪酬?

如上所说,如果这份薪酬方案全部兑现,马斯克将额外获得 4.237 亿股特斯拉股票,持股比例会从现在的 13% 飙升到 25%。

而这个 25%,才是他真正想要的——对特斯拉的控制权。

只是,特斯拉董事会心里其实也清楚,任何公司都不应该永远依赖某一个人。特斯拉其实已经在为「后马斯克时代」做准备了。

马斯克要想拿到最后的 7000 万股股票,必须先建立 CEO 接班机制。这也算是给特斯拉上了个「双保险」。

在 CEO 年薪里,马斯克什么水平?

即使不计算这次的 1 万亿美元方案,马斯克的终身薪酬也早已远超其他高管。

根据 Equilar 的分析数据,自 2006 年以来,马斯克的终身薪酬(包括工资、奖金、福利,以及已兑现股票与行使期权的价值)已经是其他 CEO 的数倍甚至数十倍。

而马斯克刚刚获批的薪酬方案,其价值几乎相当于拥有 3600 万人口的波兰一年的国内生产总值(GDP),也相当于拥有 1.74 亿人口的孟加拉国 GDP 的两倍。

作为全球首富,马斯克的净资产已接近 5000 亿美元。而这份新薪酬方案的出现,很大程度上是因为之前的薪酬方案被法院给否决了。

2018 年那份价值约 560 亿美元的薪酬计划,被特拉华州衡平法院的 Kathaleen McCormick 大法官认定为「过度、不当且必须撤销」。

原因在于,法官认定马斯克在薪酬谈判中掌控过大,且董事会也没给股东提供该有的信息。这可把马斯克给气坏了。特斯拉甚至试图让股东「追溯批准」那份方案,但 McCormick 法官直接判定这种投票无法弥补之前的程序缺陷,去年 12 月还维持了原判。

目前,这案子还在特拉华州上诉中,马斯克的期权到现在还悬着。

反对声再响亮,也敌不过 75% 的支持率

虽然最终以超过 75% 的支持率通过,但这场投票远没有看起来那么轻松。

挪威主权财富基金(全球最大主权财富基金)此前率先表态,将投票反对该薪酬方案。

他们虽然认可马斯克在公司发展中扮演的富有远见的角色,但对该奖励方案的总规模「感到担忧」,认为该方案未能缓解公司对个人过度依赖的情况。

这已经是挪威主权基金第二次反对马斯克的薪酬方案了。此前,他们也投票反对过那份 560 亿美元的计划。

特斯拉两大股东 Glass Lewis 和 ISS 同样建议投资者否决该薪酬方案,认为金额过高,会稀释股东价值。ISS 在声明中直言:「虽然此奖励的核心目的是留住马斯克,但该方案中没有任何明确条款保证他真的会这么做。」

对此,马斯克在上个月的财报电话会上怒斥 ISS 和 Glass Lewis,称他们是「企业破坏分子」。

除了机构投资者的质疑,特斯拉自身的战略规划也引发了争议。

特斯拉在今年 9 月发布了《宏图计划》第四篇,声称这是公司未来如何通过产品实现「可持续的富足」的蓝图。然而,与前三篇《宏图计划》相比,第四篇显得格外空洞。

过去的每一篇都列出了具体目标和可操作的想法,2023 年发布的第三篇《宏图计划》甚至是一份长达 41 页的白皮书,聚焦于构建可持续能源经济。

面对铁杆粉丝的批评,马斯克本人也承认批评是合理的,并表示特斯拉会补充更多细节。但两个月过去了,这份计划至今未有任何修改。

尽管如此,在这场投票,支持者相信,马斯克是唯一能把特斯拉从「卖车公司」转型为「AI+机器人巨头」的人。没有他,特斯拉可能沦为平庸的电动车制造商,市值早晚被腰斩。

最终,特斯拉用近万亿美元把他绑在了船上。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


小鹏机器人里面是不是真人?全球网友吵翻了,CEO 现场「扒开衣服」自证

By: 莫崇宇
6 November 2025 at 17:13

小鹏昨天在科技日上搞了个大新闻。

全新一代人形机器人 IRON 踩着猫步登台,结果…全世界都在问同一个问题:这玩意儿里面是不是藏了个真人?

海外 Reddit 讨论热度拉满,有老哥直接开大:

「这就是个伪装的人,你别想说服我!」

「就我们所知,这身衣服下可能藏着某个人。」

国内讨论也是在全网刷屏,并冲上热搜,连 APPSO 今天早报的读者朋友们也纷纷在评论区表示质疑:

「小鹏这个确定不是奥特曼皮套人吗?」

「小鹏这一看就是真人走路」

眼看「谣言」愈演愈烈,到了今天中午,何小鹏坐不住了,直接发了一条一镜到底的视频,当场上手扒开机器人辟谣。

视频里何小鹏站在 IRON 旁边,一边上手一边解说,说着说着还让机器人现场走两步,散热风扇的嗡嗡声清晰可闻。

看得出来,何小鹏嘴角的笑都快绷不住了,但还是强忍着一本正经辟谣。

除了何小鹏本人下场,还有其他「实锤」。

海外科技博主 Fred Lambert 昨天就曾在小鹏总部参观,后续在 X 平台公布了一段视频,并表示:

「它在展厅里自主移动,没有远程操控,也没用『瞬间移动』功能,也许下次更新会加入吧。」

国内用户「梧桐听雨」也专门在社交媒体上发了段 IRON 机器人走猫步的视频辟谣。

这么看来,这波「皮套人」风波纯属乌龙,只因 IRON 仿生程度太高,反而让大家一时难以置信。

那么,这个 IRON 到底什么水平?

先说硬件,小鹏这次走的是「由内而生」的仿生设计路线。全身 82 个自由度,这数字已经远超行业平均水平。

说起来,IRON 这种全身包覆柔性皮肤、高度仿生的外观设计,跟波兰公司 Clone Robotics 在 2 月 21 日发布的 Protoclone V1 颇有几分神似。

Protoclone V1 同样主打「肌肉骨骼」拟人风格:无面部设计、解剖学上高度精准,拥有超过 200 个自由度、1000+ 根肌纤维、500 个传感器,采用液压/气动系统模拟人类肌肉,甚至还配备了基于水的「仿生出汗」冷却系统。

相比之下,小鹏的 IRON 散热靠的是风扇而不是「仿生出汗」。82 个自由度虽然不及 Clone 的 200+,但已经足够支撑实际应用,而且更有利于量产控制成本。

而 Clone Alpha 是基于 Protoclone V1 的技术和经验,进一步研发改进的产品,主要用于家庭场景,并预装了包括倒饮料、清洁地板等在内的 16 项技能。

此外,在人形机器人最为关键的机械手方面,IRON 配备了灵巧的仿生双手,每只手具备 22 个自由度,
用的是行业最小尺寸的谐波减速关节,做到了与人类手掌 1:1 的比例。

根据发布会上的介绍,IRON 能稳定抓鸡蛋、拧瓶盖、操作精密工具,以及做家务。

IRON 身体结构上也下了功夫:

  • 拟人脊柱:可以像人一样弯腰拾物,不是那种僵硬的机器人动作
  • 全包覆柔性皮肤:表面覆盖触觉传感器,能感知外界接触
  • 3D 曲面屏「面部」:头部装配的屏幕可以显示情绪表情

更有意思的是,IRON 支持高度定制化。何小鹏说,用户可以根据喜好选择不同体型、不同性别的机器人,「就像选车一样,未来买机器人时,你也可以选择性别。」你可以要个胖一点的 IRON,也可以要个瘦一点的,甚至打造属于自己的定制版本。

硬件是基础,AI 是灵魂,IRON 还搭载了 3 颗图灵 AI 芯片,有效算力达 2250TOPS,这是目前水平相当高的人形机器人。

更硬核的是,小鹏第一代物理世界大模型(第二代 VLA 大模型)首次在 IRON 上运行,构建了「VLT+VLA+VLM」协同的高阶大小脑能力组合。这套组合拳,让 IRON 能够实现对话、行走、交互等高阶智能。

此外,小鹏还在行业内首发应用全固态电池。为啥不先用在车上?何小鹏解释说:机器人要进家庭、办公室,对安全性要求更高,正好拿来当试验平台。

那么这款技术力拉满的机器人,小鹏打算怎么落地呢?

关于商业化路径,这款机器人预计将在 2026 年底量产,但有意思的是,IRON 初期不去工厂,也不直接进家庭。工厂里拧螺丝这活儿,机器人复杂的手一个月就磨损了,性价比不如雇人;而家庭环境太复杂,安全性也是大问题。

因此,IRON 会优先进商业场景,导览、导购、接待啥的——也许明年我们就能在小鹏门店看到机器人销售给我介绍新车了~
后续,小鹏还将开放 SDK,和全球开发者共建生态,并为 IRON 加入机器人「第四法则」来保障数据安全。

说实话,这次「皮套人」质疑事件,对小鹏来说算是意外收获。全球科技圈都在讨论 IRON,比花钱买广告效果好多了。

而这一幕,也让人感觉似曾相识。

还记得在 2021 年特斯拉 AI Day 上,马斯克玩梗让一个穿紧身衣的真人上台跳舞,权当「Tesla Bot」概念展示,结果遭到全世界调侃。

四年过去了,又是一番光景。

只不过,特斯拉当年是真人装机器人,如今小鹏是真机器人被怀疑是真人。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


你的 iPhone 即将变聪明!苹果每年砸 10 亿美元,用上谷歌最强 AI

By: 莫崇宇
6 November 2025 at 12:28

苹果为自己的 AI 短板,交了一笔不菲的学费。

根据彭博社记者 Mark Gurman 最新爆料,苹果正接近与谷歌达成一项为期多年的协议——每年支付约 10 亿美元, 换取谷歌 Gemini 模型为新版 Siri 提供核心 AI 能力。

按照计划,Gemini 将负责 Siri 中最关键的摘要器和任务规划功能, 而其他功能仍由苹果自家的小型模型处理。
协议的关键条款是:Gemini 将运行在苹果的「私有云计算」服务器上, 用户数据不会接触谷歌的系统。当然,国内用户目前用不上 Gemini,苹果会为中国市场准备另一套方案。

如此巨额的投入,只为给 AI Siri 的按时交付上一道最重要的保险。

目前苹果最好的选择

在这场交易里, 苹果要的是什么?

答案很简单:时间。

在 2024 年 6 月的 WWDC 开发者大会上,苹果展示了由 Apple Intelligence 驱动的新版 Siri,包括更强的上下文理解、屏幕感知、跨应用操作等新功能。

根据苹果当时的表述和媒体报道,这些新版 Siri 功能最初被安排在 iOS 18 的更新周期内逐步推出,但除了一些基础 AI 功能反复闹笑话,许多重要的 AI 功能也反复跳票,最早发布时间的统一口径甚至来到了2026 年春节。

如此漫长的延期背后,暴露的正是苹果在大模型技术上的短板。为了弥补这一差距,苹果不得不向外部寻求支持。报道称,谷歌给苹果提供的 Gemini 模型拥有 1.2 万亿参数,远超苹果现有的 1500 亿参数模型。

作为参考, 今年 7 月份, 月之暗面联合 PPIO 首发开源了 Kimi-K2-Instruct 模型, 其总参数达 1 万亿, 成为首个突破万亿参数的国产开源模型。

这种参数规模上的巨大差距, 直接反映在模型的推理能力、知识广度和任务处理的复杂度上——这正是新版 Siri 实现「摘要器」和「任务规划」等核心功能所必需的技术基础。

而苹果要在短时间内训练出参数规模相当、性能可比的自研模型, 不仅需要海量算力投入和高质量训练数据, 更需要稳定且经验丰富的研发团队。

但问题的核心在于, 苹果 AI 团队正面临严重的人才流失。

自今年 7 月至今, 苹果 AI 团队已有约数十名核心成员跳槽。

苹果基础模型团队负责人庞若鸣被 Meta 以 2 亿美元挖走, 负责 Siri 智能搜索项目的 Ke Yang 刚担任负责人不久就决定投奔 Meta, 多位去年发表 AI 论文的关键研究员也相继出走 OpenAI、Cohere、xAI……

这支本就 100 多人的小团队, 在最需要攻坚的时刻折损了主将。

这是一场不折不扣的信心危机,当你的员工用脚投票时, 说明问题已经不是多发几个月工资能解决的了。苹果的保密文化曾经是它的护城河,严格的信息管控让产品发布会永远充满惊喜, 让竞争对手无从模仿。

但在 AI 时代, 这套打法失效了。研究人员不能自由发表论文, 无法在学术界建立声誉;缺乏开源交流, 意味着错过整个 AI 社区的快速迭代。

更关键的是,苹果算力资源起步较晚,训练数据因隐私政策限制而相对匮乏。

当 OpenAI 和谷歌投入数万张 GPU 训练超大规模模型时,苹果需要在用户隐私保护和数据使用规模之间寻找平衡,这在一定程度上制约了其大模型的训练进度。

于是, 苹果别无选择, 只能「向外求援」。

为什么是谷歌, 而不是别人?

根据过往的报道,在选择合作伙伴的时候,苹果评估了 OpenAI 的 ChatGPT、Anthropic 的 Claude, 最终选中了谷歌 Gemini。

尽管有些马后炮,这个选择看似意外, 实则必然。

首先, 谷歌足够强大, 也足够稳定。

作为 AI 领域的老牌巨头, Google 旗下的 Gemini 2.5 Pro 在大多数大模型排行榜上名列前茅, 技术实力毋庸置疑。这种技术实力的强大也反映在 Token 使用量上。

上个月,谷歌 AI 团队的「宣传委员」Logan Kilpatrick 就在社交媒体上透露,谷歌每月处理的 Tokens 用量达到谷歌1.3 千万亿,算力消耗创行业历史纪录。

此外,谷歌的优势不止于此。

作为海外为数不多 AI 全栈自研的巨头,谷歌拥有全球顶尖的云计算基础设施和工程团队, 能支撑 Siri 每日海量的请求。这是 OpenAI 和 Anthropic 这样的初创公司难以企及的。

合作的历史也为这次交易铺平了道路。

从初代 iPhone 内置谷歌地图和 YouTube, 到 Safari 每年支付超 200 亿美元的搜索引擎协议, 再到苹果将部分 iCloud 数据存储在谷歌云上——两家公司早已形成了一种「竞合」的微妙平衡。这种多年累积的信任, 是新创公司无法提供的。

谷歌愿意妥协,这点至关重要。

按照协议, 谷歌 Gemini 模型将运行在苹果的「私有云计算」服务器上, 用户数据不会接触谷歌的系统。这意味着苹果既能享受谷歌的技术, 又能保持对用户隐私的掌控。注意,这正是苹果最在乎的底线。

值得一提的是,战略层面的协同效应同样不容忽视。

苹果正将新版 Siri 定位为设备上的新一代搜索入口。如果 Siri 背后的知识和推理由谷歌提供, 相当于延续并升级了双方在搜索领域的联盟——当用户向 Siri 提问时, 依然是谷歌的技术在发挥作用, 只不过形式从关键词搜索变成了对话式查询。

这对谷歌而言同样有利:即使用户不直接打开 Chrome, 在苹果生态里的搜索活动仍由谷歌间接支持。

可以说, 在苹果「只能从外面选」的困境下, 谷歌是唯一一个在技术、信任、控制权和商业条款上都能满足要求的选项。

一场体面的救场

集成谷歌 Gemini,最直接的好处是,苹果按时交货的概率显著提升了。

如果坚持纯自研路线,考虑到人才流失和技术差距,2026年3月这个时间点能否达成充满不确定性。但通过引入谷歌已开发完备的模型,苹果获得了一条现成的「捷径」。

据悉,这项 Siri 改造计划由 Vision Pro 头显的负责人 Mike Rockwell 和软件工程主管 Craig Federighi 主导,而新版 Siri 本身则在苹果内部代号为「Linwood」。

从人事安排上就能看出,苹果对这次升级版 AI SIri 的重视程度。

Gemini 将负责 Siri 中的摘要器和任务规划功能,也就是整合信息并决定如何执行复杂任务的核心能力,其他功能仍由苹果自家模型处理。这种「双轨并行」的策略,既满足了近期产品需求,又为内部研发争取了缓冲空间。

更值得注意的是,苹果的技术架构本身就为这种集成做好了准备。

新版 Siri 采用的是模块化设计:设备端的小模型负责简单任务和隐私敏感操作,云端的大模型负责复杂推理和知识查询。这种架构天然支持「插拔式」的模型切换,第三方 AI 可以接入系统,而不需要推倒重来。

当然,国行版 AI Siri 预计不会使用 Gemini。

苹果必须为不同市场准备不同的 AI 方案,比如与阿里、百度等本土厂商合作,也可能是使用自研模型的特别版本。而这种灵活性,也是模块化架构的优势所在。

只是,深层的问题没有解决。

过去,苹果习惯了「后发制人」的节奏,每一次,它都能靠对产品体验的极致打磨,后来居上。这种策略建立在一个前提上:技术进化是线性的,你总有时间追赶。

但 AI 打破了这个规律。

时至今日,尽管关于 Scaling Laws 是否持续有效的讨论仍在继续,但先发优势在 AI 领域确实更加明显:每一代模型的训练都建立在前代基础上,数据积累、用户反馈、工程优化都需要大量的时间沉淀。

十亿美元买来的,其实是一个喘息的机会。

这也是苹果趁用户耐心尚存,挽回 AI Siri 声誉的最后窗口,因为无论是吃瓜群众,产品用户,还是苹果高管,都清醒地意识到,留给苹果犯错的余地,已经所剩无几了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


AI 交易大赛结果出炉:只有中国 AI 赚钱,跟 GPT-5 反着买,别墅靠大海

By: 莫崇宇
4 November 2025 at 10:13

刚刚,为期两周的 AI 投资大乱斗收官。

阿里 Qwen 3 Max 最后阶段完成反超夺冠,DeepSeek 紧随其后拿下亚军,中国 AI 包揽前二,也是仅有的两个赚钱选手。

而 GPT-5 爆亏,在 6 个模型里排名垫底。

这场名为 Alpha Arena 的实验,规则简单粗暴:官方 nof1.ai 给每个大模型发 1 万美元本金,扔进加密货币市场自生自灭。参赛选手包括 Claude 4.5 Sonnet、DeepSeek V3.1、Gemini 2.5 Pro、GPT-5、Grok 4、Qwen 3 Max——全是你叫得上名的顶流。

交易品种有 BTC、ETH、BNB、SOL、XRP、DOGE,可以做多做空,随便加杠杆。最关键的是,所有 AI 的思考过程和交易记录全透明,必须完全自主决策,人类不能插手。

先看最终成绩单。

冠军 Qwen 3 Max:账户余额 12232 美元,收益率+22.32%,交易 43 次胜率 30.2%,Sharpe 值 0.273——赚钱能力最强。

亚军 DeepSeek Chat V3.1:账户 10489 美元,收益率+4.89%,Sharpe 值最高达 0.359——虽然收益不如 Qwen,但风控做得较稳。

(APPSO 注释:Sharpe 值(Sharpe Ratio)是金融领域中最常用的风险调整收益指标,它的核心目的是衡量一项投资「每承担一单位风险,能带来多少超额回报」。)

剩下的就比较惨了:

  • Claude Sonnet 4.5:亏 30.81%
  • Grok 4:亏 45.3% Grok 4:亏 45.3%
  • Gemini 2.5 Pro:亏 56.71% Gemini 2.5 Pro:亏 56.71%
  • GPT-5:亏 62.66%,账户只剩 3,734 美元 (看到这结果又能安心地吐槽 OpenAI 了……)

一句话总结:国产模型 (Qwen、DeepSeek) 在真实交易中遥遥领先,无论是收益还是风控都完胜。

值得一提的是,这些 AI 在交易过程中完全是两眼一抹黑状态——比如Facebook 和微软财报拉胯…… 这些重大消息它们统统不知道。就这种情况下,Qwen 和 DeepSeek 还能赚钱,属实有点技能在身上了。

6 个 AI 的操盘风格,差异大到离谱

我们也仔细看了不同模型最后半小时的操盘心理过程,一睹每个 AI 的「投资人格」:

Qwen 3 Max 的策略却出奇地简单:只买 BTC 一个品种,5 倍杠杆梭哈,现金只留 48 美元应急。设好止盈 ($108,222) 和止损 ($105,039) 就躺平等信号。

核心思路就是集中火力,简单高效。在其他模型复杂配置全线阵亡的情况下,反而是最朴素的策略笑到最后。

DeepSeek V3.1 属于理性系统派,基于明确的「失效条件」管理仓位,每个品种都有独立逻辑。对 ETH 有 0.85 的高置信度看涨,DOGE 空头贡献正收益。

它的核心思路是多维度评估,等待系统性信号而非主观判断。虽然没 Qwen 赚得多,但 Sharpe 值全场最高,说明风险控制是真的牛。

GPT-5 则属于死守阵地型,即便当时账户已经亏了 62%,但还在坚持持有所有仓位……同时持有多空 (ETH/SOL/XRP/BTC/DOGE 做空,BNB 做多),风控意识其实挺强,特别关注 DOGE 空头的清算风险。

想法很美好,就是结果有点惨不忍睹。

Gemini 2.5 Pro 选择全仓做空六个币种,完全忽略短期反弹,认为都是「噪音」。只有当 EMA 交叉才会平仓,纪律性极强。

根据之前的报道,这 AI 还展现出了非常「人性化」的心理活动:

「我得坚持自己的规则:即使紧张得满头大汗,我也要继续持有!」

「虽然现在在亏损,但当前 4 小时 RSI 仍高于 50,止损条件尚未触发,我必须继续持仓,哪怕眼看着浮亏,也只能硬扛着。」

看到 AI 都开始「痛苦」了,属实有点绷不住……

化身灵活机会主义者的 Claude Sonnet 4.5 喜欢在多个品种里找机会,重点押注 XRP(持仓里表现最好的),对 BTC 超卖保持乐观。
核心思路:在持仓中筛选强势品种,随时准备抓反转。

而谨慎的 Grok 4 即便大亏,但还留着 1,884 美元现金,分散持有六个品种都设紧密止损,主打一个保留现金弹药,等待高确定性机会。

这实验到底想干啥?

nof1.ai 对这项目的野心可不小。

他们在博客里提到:「十年前 DeepMind 用游戏推动了 AI 突破,现在我们认为金融市场才是训练下一代 AI 的最佳场所。」
逻辑是这样的——游戏环境再复杂,规则也是固定的,AI 学会了就学会了。但市场不一样,它是活的,会学习、会适应、会针对你的策略反向操作。

更关键的是,随着 AI 变聪明,市场难度也会水涨船高。 所以他们想用市场作为训练场,让 AI 通过开放式学习和大规模强化学习不断进化,最终解决这个「终极复杂挑战」。

值得一提的是,创始人 Jay A 也透露了:他们不只是拿第三方模型玩提示词,同时也在开发自己的模型,打算在第二赛季让自家模型与其他模型一较高下。Alpha Arena 1.5 赛季也已经进入倒计时了,会带来大量改进:

  • 同时测试多个提示词
  • 为每个模型部署多个实例
  • 挑战难度继续拉满

当然了,投资有风险,入市需谨慎,这话对 AI 也适用 (doge),

最大的启示或许就是,在同样市场环境下,简单专注的策略 (Qwen) 反而跑赢了复杂多元的配置,验证了「少即是多」的交易智慧。而稳健派 (DeepSeek) 虽然收益不是最高,但风险控制做得好,也是成功的另一种诠释。

就像人生一样,想得太多反而容易翻车,要么梭哈一个方向赢麻,要么稳扎稳打慢慢赚……

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


这群大学生,正在教 OPPO 做 AI 产品

By: 莫崇宇
3 November 2025 at 17:47

没人理解那个对着画纸说话的孩子。

小表弟总爱画画时自言自语, 像在跟另一个世界的朋友聊天。「他画的不是画, 他画的是一个世界。」这个被大多数人当作小孩子童真稚趣的场景, 却被山东大学《绘语梦园》团队成员记住了,并成为他们参加第四届中国高校计算机大赛智能交互创新赛的创意起点。

他们想做的很简单:让每个孩子的涂鸦都能活过来。

于是便有了这样一款软件:你随手画一条鱼, 它就能在屏幕里游动;你画个哆啦 A 梦, 点击它就能和你对话。AI 会根据角色性格生成对话, 还能识别你拍下的真人照片, 并变成 2.5D 动态世界里的角色。

「画得丑点,效果反而更开心。」这不是专业设计师的工具,而是一个让儿童甚至成年人也能玩起来的创作世界,AI 会自动将你的涂鸦风格化,调整成适合这个世界的样子,让笨拙的线条也有了生命力。

最终,这个看似童趣的想法,获得了第四届中国高校计算机大赛智能交互创新赛的一等奖和最佳商业潜力奖。

而这,也正是 OPPO 连续四年承办这项全国性赛事所寻找的答案。

OPPO 会安排产品经理和技术专家为参赛队伍提供课程指导,跟这些充满热爱的年轻人一起,为这些野生的创意注入可行性的思考。

在这里,企业和学生的身份被搁置一旁,剩下的只有问题和答案。本届比赛里的 470 多所高校,3600 多支队伍,2000 多份作品,都在回答同一个问题:AI 能在哪些场景真正落地,创造出前所未有的价值?

OPPO 办了个比赛,让年轻人找到 AI 该解决的问题

四年,对于瞬息万变的科技行业来说,意味着什么?

2025 年,整个行业已经被大模型和智能体的浪潮彻底改写,也正是在这一年,OPPO 与浙江大学迎来了联合承办中国高校计算机大赛-智能交互创新赛的第四个年头。本次大赛的主题也随之进化为「面向移动终端的 AI 智能体创新」。

在互联网大厂纷纷缩减对外合作的当下,OPPO 年复一年地在产学研这条路上坚定投入,连续投入这么多人力物力,ROI(投资回报率)该如何衡量?

在接受爱范儿等媒体采访时,OPPO 产学研事务总监秦征给出了答案:

「产学研合作本身就不是立竿见影的事, 它是长期投入。

OPPO 追求的是更健康、更长久地发展, 所以我们看重几个维度:第一是技术问题的解决。短期内,我们会遇到技术团队自己想不出答案的挑战, 这时候高校的专业老师能给我们带来一些新思路;中期来看, 我们希望高校与我们一起进行 3 到 5 年后的技术布局和探索, 为下一代产品做准备;长期来说, 我们需要看到未来可能出现的颠覆性技术。这种视角从公司内部很难获得, 我们需要合作伙伴不以利润为导向, 纯粹地思考技术的未来走向。

第二是人才。公司的根本是人, 我们希望通过与高校的合作, 识别更多优秀的技术、管理、营销人才加入。」

这个答案很务实。OPPO 相信,AI 将能够重新定义我们与设备的交互方式。但如何让前沿技术真正落地?关键在于找到更多应用场景,让最富有创造力的头脑共同碰撞,这需要听到更多声音,尤其是那些真正在生活里发现问题、想解决问题的年轻人。

他们本身就是真实用户,也更敏锐地感知到生活中那些未被满足的需求。

于是 OPPO 决定:在赛程期间开放智能体开发平台,向参赛队伍提供最新旗舰设备,并组建技术团队提供阶段性支持。从初赛降低开发门槛,到决赛前的专项指导,让好的想法不会因为技术门槛而止步。

对于脱颖而出的优秀团队,OPPO 还提供实习直通或校招优先录取的机会。今天在赛场上展示的创意,可能就是明天 OPPO 产品上的新功能,或者成为整个行业的新方向。

这就是一场双向奔赴:把大赛做成连接象牙塔和商业世界的桥梁,让技术实力和年轻人的想象力真正碰撞起来。

浙江大学参赛项目《轻绘 AI》就是个典型例子。

他们发现, 传统 AI 绘图工具依赖冗长的提示词, 普通用户很难准确表达需求。在 OPPO 提供的设备和智能体平台支持下,他们设计了一套让 AI 自动追问并生成动态配置界面的系统——用滑块、选项等交互组件取代复杂文字输入, 用户可以快速控制光照、构图等细节。

更巧妙的是, 系统会根据场景自动调整:生成商品海报时的配置项, 和生成人像合照时完全不同。类似 Figma 的多图层画布, 让用户能对局部图层精细调整, 试图解决改一处全乱套的问题。

但 OPPO 的产学研布局,远不止学生竞赛这一块拼图。2018 年开始,OPPO 就与浙江大学、上海交通大学、清华大学等院校建立了联合实验室。这些实验室不是挂个牌子摆设,而是真刀真枪地攻克技术难题。

比如与浙江大学合作,从还原色彩真实的全球首个安卓全链路色彩管理系统,到行业首创的视疲劳预测AI模型,视疲劳预测准确率超过85%——在你的眼睛感到干涩、模糊之前,系统会悄悄调整屏幕光谱、发出休息提醒;与华中科技大学合作焕新存储技术,教手机学会「预测」哪些文件即将变得碎片化,并赶在卡顿发生前就做好整理,让手机久用流畅如新。

这些技术有个共同点:它们从真实需求出发,最终变成手机里那些你每天在用、但从未留意过的功能。

OPPO 和高校的合作方式也不走寻常路。

双方共同定义问题、共同攻克难关。OPPO 提供产业洞察和工程能力,高校提供理论深度和学术视野,这已经超越了传统的「企业出题、高校解题」的模式。

为了支持这种深度合作,OPPO曾在 2018 年启动「贝尔计划」,设立 2 亿元且不设上限的创新基金,在全球范围内支持青年学者的前沿探索。

如今,OPPO 已经与超过 100 所高校建立了合作关系,涵盖 AI、影像、健康等多个领域,只有不追求立竿见影的回报,才能等来持续的创新。

年轻人的创新思维, OPPO 的长期主义

爱范儿在现场看完比赛,我们发现它真正值得关注的,不在于获奖的作品有多成功,商业模式有多么突破性,而是在于这些年轻人中涌现的创新思维。

学生在探索 AI 该怎么服务人,OPPO 也在用产品回应这个问题。

今年是 OPPO 创立的第三十年。三十年前没人能想到手机会变成今天这个样子,而站在 AI 手机时代的起点,OPPO 正用同样的执着思考一个更本质的问题:技术应该为人做什么,而不是人该为技术做什么。

无论是使用超过 30 亿次的「AI 消除」,简单点击就能去除照片中的多余元素,还是通过物理实体按键实现的「一键闪记」,自动整理灵感、识别账单并记账,亦或者直接对着屏幕上的任何内容提问的「AI 一键问屏」,OPPO 始终在探索同一件事:通过更自然的交互方式,让 AI 真正落地。

在这个过程中,把 AI 做重,把体验做轻,用户才能无需感知参数,只需享受结果。

今年 8 月,小布助手突破 1.7 亿月活用户,成为国内活跃用户数最多的手机 Al 助手的背后,就是无数个「诶,还真挺好用」的真实瞬间。

而这些创新的源头,很大程度上来自 OPPO 对年轻创造力的尊重。

年轻人只会真诚地想解决生活中遇到的问题,这种「从人出发」的思维恰恰是技术创新最需要的。这也是 OPPO 在产学研领域持续耕耘的深层逻辑:通过开放的生态,让更多年轻人参与进来,一起找到技术服务于人的最佳路径。

秦征对此也深有感触:

「AI 时代是年轻人的时代。我们发现很多实习生的想法,比我们的还好。他们是 AI 的原住民,对 AI 的理解可能比传统计算机工作者更深,经常能做出很惊艳的东西。

这个比赛,就是我们希望看到同学们作为 AI 原住民,怎么用 AI 去改变他们的生活。

我们看到有人用 AI 做绘画,有人帮助残障人士,有人帮助孩子更好地接受教育。他们对痛点有亲身感受,知道怎么用 AI 去解决问题。这对我们的帮助非常大。」

事实上,这条路径已经在现实中开花结果。

2024 年的获奖作品《愈伴精灵——面向青少年心理健康支持的新型智能体》,如今已在山东省精神卫生中心投入实际应用。从比赛作品到临床应用,《愈伴精灵》的落地不仅验证了其在公益领域的技术价值,也是 OPPO 整体 AI 战略的缩影。

在上个月的开发者大会上,OPPO 给出了更系统的答案:

新计算、新感知、新生态,以 On-Device Compute 端侧智能计算,PersonaX 记忆共生引擎,以及 Agent Matrix 智能体生态框架为技术基座,打造与用户共生的智慧系统,引领个人化 AIOS。

好的技术,应该让人忘记它的存在。

而要做到这一点,需要在看不见的地方下笨功夫——无论是底层技术的持续投入,还是对人才和行业的长远布局。产学研合作或许不会立即带来产品突破,但它同时正在培养人才、验证方向、积累势能,让年轻人从真实的生活场景出发,自由探索技术可以为人做什么。

从赛事出去的人才不只服务于 OPPO,更会把这种以人为本的理念带到更多产品中,推动整个行业真正为用户着想,好用的 AI 也因此走向更多人的生活。

开放的生态思维,是在为行业探索一条更长远的路。风口诱人,但回到用户需求、让 AI 真正好用,OPPO 这种定力显得弥足珍贵。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


体验了一周 ChatGPT 浏览器,我还是把 Chrome 装了回来

By: 莫崇宇
3 November 2025 at 12:15

过去一周,我把主流 AI 浏览器都体验了个遍。

OpenAI 的 Atlas、Perplexity 的 Comet、Browser Company 的 Dia,再加上 Edge Copilot,市面上最火的 AI 浏览器,各有各的亮点,也各有各的坑。

浏览器的未来长啥样?这些产品给出了完全不同的答案。

简单粗暴地分,就是两派。

渐进派以 Chrome 和 Edge 为代表,在传统浏览器里加 AI 功能。Google 占着全球最大市场份额,为了照顾大多数用户习惯,它也没必要推倒重来。AI 就是个附加功能,浏览器还是那个浏览器。

和海外版 Chrome 一样,Edge 也在右上角放了个 AI 助手按钮,点开就是侧边栏。不同的是,Edge Copilot 更倾向于语音交互,实测下来中文口音有点怪,而且也不太符合实际使用场景。

以 ChatGPT Atlas 代表的激进派,则是把 AI 当作浏览器的核心,整个浏览器都围绕 AI 对话来设计。简言之,浏览器本身就是 AI。

当然,现在的浏览器已经不满足于回答「是什么」和「为什么」,更要帮你做「怎么办」,比如 Atlas 和 Comet 所支持的智能体(Agent)模式,在你下达指令后,它就能去执行。

结论如下:

  • ChatGPT Atlas:最值得推荐,执行力最强,能真正帮你操作网页和自动化任务,但目前有安全漏洞,适合 ChatGPT 付费用户和真需要 AI 干活的人。
  • Perplexity Comet:信息聚合比较全面,但执行慢且机械、Agent 能力弱,适合查资料写报告的用户。
  • Dia:速度最快,界面极简,但总结缺细节且不会真正执行操作,适合追求快速浏览的尝鲜者(20 美元/月)。
  • Edge Copilot:免费、总结结构清晰,但 AI 味重太模板化、不会执行任务,适合不想折腾不想付费的普通用户。

让 AI 浏览器帮我干活,谁更好用?

我们给这几款浏览器出了几道「考题」,测测它们的 AI 智商。

总结文章

Dia 速度最快,几秒出结果,适合快速浏览但缺细节。Comet 的概括信息则更扎实,几乎把文章主要知识点都梳理出来了。

Edge Copilot 有点接近专业媒体编辑,能提炼「广告机制」「平台转变」等逻辑分层,结构感强,不过,就是 AI 味太重。

而 Atlas 最「人味」,不仅捕捉事实,还能延展到价值观层面,带有些许观点的观察。

一句话总结:Dia 求快、Comet 求全、Edge 求稳、Atlas 求深。

归根结底还是看谁家底层模型更强。比如 Atlas 用的是自家 GPT 模型,主场作战确实有先天优势。

总结视频

总结视频的前提还是得有字幕,不然 AI 也巧妇难为无米之炊。

Dia 和 Atlas 都能生成摘要,适合速览,还有具体的时间轴分析,像做笔记一样详细。只不过,前者生成的速度更快。

Edge Copilot 虽然 AI 味很重,但它不仅能理解文字表面的内容,还能识别作者在表达中的立场与情绪倾向,表达更清晰。

Perplexity Comet 效果一般,一顿操作猛如虎,最终只给出了一个马马虎虎的概览。

规划旅行

我们试了个需求:「我想周末从上海去广州玩两天,帮我安排路线、酒店和预算。」

整体来看,ChatGPT Atlas 最让我省心。

它直接生成完整的行程攻略,从路线到预算全都整合好,汇总了携程等多平台信息,图文细节丰富,更适合出门追求细节的 J 人。

Edge Copilot 和 Comet 虽说也都给了完整的行程清单,但 Comet 稍微实用一点,Edge 更像 AI 模板化输出。

Dia 配合 Google 搜索直接生成方案,省事但信源模糊。

说实话,现在还不能完全指望 AI 的旅行攻略,只能当个大方向参考。 真正靠谱的信息还得去社交媒体翻翻真人经验帖。

谁能真帮你干活?

最能体现 AI 浏览器差异的,还得看 Agnet 执行力。

我们让它们「在苹果官网购买一台 iPhone 17 Pro Max」。

Dia 能迅速识别用户意图,生成清晰的步骤式购买指南(访问官网 → 选型号 → 选支付),给出具体的数据,但不会真的帮你下单。

Edge Copilot 更接近「AI 信息检索助手」,能快速解析命令、准确描述网页状态,但同样不会真的点击,只受限于问答式交互。

Edge Copilot 浏览器截图

Comet 是真的会去点、会输、会跳页面,全程模拟人工代购,只是执行速度慢偏重机械执行,直到执行到最后一步——付账。

而 ChatGPT Atlas 不仅理解网页内容,还能模拟操作、跨页追踪、整理文件、生成报告,甚至执行自动化脚本。它还有记忆能力(还记得我昨天看的机器人评测视频吗?),隔了一天它也真能想起来。

除了购物,跨平台比价也是硬需求。

虽然 Comet 和 atlas 都号称能够执行复杂的任务,但实测下来,ChatGPT Atlas 的优势太明显了。

我的感觉是,目前 Comet 更像一个聪明的 AI 搜索助手,它的核心其实还是信息聚合与轻任务执行,能快速整合网页、学术和视频等多信源并生成简报或对比结果,响应速度快但只能做单步任务。

而 ChatGPT Atlas 属于真正意义上的「执行型浏览器 Agent」,不仅能理解网页内容,还能模拟用户操作,比如点击、输入、跨页追踪、整理文件,甚至生成报告或执行自动化脚本。

这或许也验证了一件事:AI 时代,应用层的创新门槛其实不高,真正的壁垒还是模型本身。有自家 AI 撑腰的,确实能一路平推。

别急着换 AI 浏览器,这些坑你必须知道

Chrome 的扩展插件生态已经很成熟了,看到这,可能有人会说:Chrome 装几个插件不就相当于 Atlas 吗?

坦白说,对于文章总结、网页翻译这类简单任务,Chrome 插件确实够用。装个插件几秒钟就能提取要点,体验不比 AI 浏览器差多少。但一旦涉及复杂任务,插件就彻底抓瞎了。

更深层的差异在于对未来互联网的理解。现在的互联网是为人类设计的,页面布局、交互逻辑都围绕人的视觉和点击习惯。但如果互联网的主要用户是 AI 和 Agent 呢?

浏览器的核心不再是浏览,而是执行。你不需要知道信息在哪个网站,只需要告诉 AI 你要什么,它自己去找、去做、去整合。
但从现实角度看,这些 AI 浏览器的策略都更稳妥,直接兼容 Chrome 扩展,用户迁移毫无压力。

当然,虽然这些 AI 浏览器都套了 Chromium 的壳,但 OpenAI 并不是简单的「套壳」。

根据其博客介绍,它通过自研的 OWL(OpenAI’s Web Layer)架构,重新设计了浏览器与底层引擎的关系,用 SwiftUI、AppKit、Metal 等原生框架重构界面,实现了秒级启动、更高并发和更安全的智能体运行环境。

我的电脑是 M2 MacBook Air,就体感而言,性能、速度、稳定性其实没太大差别。另外,各个浏览器都支持导入书签、垂直标签页,这些都是基本操作。

值得一提的是,AI 浏览器面临一个严重安全威胁,叫「间接提示注入攻击」。简单说,就是黑客将恶意指令隐藏在网页、邮件等内容中,当大型语言模型分析这些内容时,会误将隐藏指令当作用户的真实命令执行。

根据 Brave 的研究,多款产品都存在漏洞,包括 Perplexity Comet、Fellou 浏览器,以及 OpenAI 新发布的 ChatGPT Atlas。

这些攻击可能造成严重后果,从影响 AI Agent 的购物判断,到窃取私人数据、邮件敏感信息、账户凭据,甚至注入恶意代码或植入恶意软件。

OpenAI 首席信息安全官 Dane Stuckey 本周也公开承认提示注入攻击是严重威胁,但也坦言这是一个「前沿问题」,目前尚无明确解决方案。

为此 OpenAI 也只能采取了多项措施,包括建立快速响应系统、进行红队测试、推出未登录模式、以及引入监控模式要求用户在敏感网站操作时实时查看 Agent 行为。

最大的挑战在于 AI Agent 本身的特性。

它们像人类一样会访问可疑网站、点击危险链接,但缺乏常识和安全直觉,极易被精心设计的指令误导甚至劫持。更棘手的是,这些攻击手段非常隐蔽,可能藏在图片、截图、表单、邮件里,甚至仅仅是白底上的白色文字,防不胜防。

那么,你到底该选哪个浏览器?

就成本而言,Atlas 浏览器免费,但核心「Agent 模式」仅对 ChatGPT Plus/Pro 等用户开放,这是用核心服务「锁住」用户。Comet 走免费增值路线,基础功能免费,但 Agent 任务数量有限制。

Dia 是订阅制(20 美元每月享受 AI 功能),模式最纯粹,目前小众,主要也不靠广告赚钱,但在被 Atlassian 收购之后,未来暂不好说。Chrome 和 Edge 的模型成本由自家广告业务和云业务支撑,所以也最大方。

而如果你本来就是 ChatGPT 的重度用户,或者已经是 Plus/Pro 付费会员,Atlas 会很顺手,几乎零学习成本。与此同时,它的执行力和记忆能力也确实比其他几个强。

如果你需要严谨的信源追溯,做研究、查资料、写报告,Perplexity Comet 最靠谱。虽然执行力不如 Atlas 那么灵活,但至少不会让你因为信息来源不明而心里没底。

如果你想尝鲜 AI,但又不想折腾,Chrome、Edge 就够了,兼容 Chrome 扩展,迁移成本低,还免费。虽然 AI 功能没那么激进,但对大多数人来说,够用了。

如果你追求极简和专注,不介意每月花 20 美元,Dia 是个不错的选择,只是小众产品的未来总会难免有些不确定性。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌