Normal view

There are new articles available, click to refresh the page.
Today — 15 December 2025Main stream

剿杀豆包手机助手,可能是互联网巨头的一次「共谋」

By: 艾 梵
15 December 2025 at 19:36

到头来才发现,AI 手机能不能成,其实和 AI 没什么关系。

字节联合努比亚,基于大模型重新设计了一台智能手机,将手机底层最高的权限赋予给了「豆包手机助手」,成为名副其实的「AI 硬件」。

但才开卖一天,微信不让登了,理由是有安全问题;紧接着,拼多多、淘宝、闲鱼、高德、美团等等国内的超级应用,都统统对豆包手机发出「封杀令」。

最后,一个本来无所不能的 AI 手机,变得对这一切「无能为力」,行将名存实亡。

从头到尾,都不是 AI 的问题

关于豆包手机上微信强制登出,豆包助手无法操作,字节和微信双方都进行了回应。豆包方面称,AI 助手操作手机属于实验室功能,现不支持微信的操作。微信则表示没有特别针对豆包进行额外的动作,推测是中了微信原本的风控措施。

作为一个掌管大量私密信息和支付方式的超级应用,微信本身确实有用于应对电信诈骗和脚本操作的安全措施,所以要说豆包手机没有被微信故意针对,确实说得过去。

但微信最终没有对豆包网开一面,这个新生事物没等来宽待,更别提鼓励,同样是事实。

▲ 「封杀」前豆包手机能深入微信的角落

微信禁用豆包手机是无心之举,但带来的结果,还是有利于腾讯——这一切从来无关 AI,还是互联网那套边界之争,本质上与腾讯和奇虎 360 之间的「3Q 大战」区别不大。

少数几个巨头基本垄断了整个互联网市场,就是中国互联网一直以来的最大问题:从前是「BAT」之争,这几年百度弱了,字节后来居上,并持续对腾讯施压。

抖音、今日头条、汽水音乐、红果短剧、番茄小说,这些一天能长时间留住用户的内容平台,成功和腾讯社交、游戏生态抗衡,给腾讯带来了很大的冲击。

而现在,豆包手机助手打着一种「用户便利」的旗号,不仅要帮用户节省那些原本会消耗在微信的注意力,甚至还直接登堂入室,帮字节摸进了微信紧闭的门。

从这个角度来看,豆包手机可能不是个「完美受害者」,甚至「颠覆」的动机十分明显。字节是探索 AI 交互的可能性不假,但不能忽略的是,豆包手机带来了一种全新的使用手机的方式,同时也对互联网平台巨头阵地的边界,带来了新的、更大的不确定性。

自智能手机时代以来,App 构成了智能手机的核心体验,把守着「入口」和用户数据两大宝贵资源,只要用户多打开一次 App,多点开一次内容,就能创造多一分价值。

和微信从来不是一个单纯的聊天应用一样,电商平台也不仅仅只是一个交易窗口,琳琅满目到有点眼花缭乱的界面,就是想用户多逛几分钟,多种草商品——如果以后比价都交给豆包助手,那这些精致的橱窗和推广岂不是只剩下 AI 看了?

在国内这种「超级 App」林立的环境中,超级 app 背后的巨头们才真正具有话语权,而微信这种「民生级」应用,更是拥有「挟天子以令诸侯」的一票否决权——连苹果这种全球手机行业龙头,都不得不屡次给微信破例。

手机厂商的袖手旁观

豆包手机助手是第一台真正具备「自然语言交互,AI 助手掌控全局」能力的手机。

这种能力,也是国内外手机厂商都在探索的方向。

但在这场「AI vs 超级 App」的战争中,手机厂商们则选择了袖手旁观——毕竟它们有 Siri、小爱、小艺,没必要用外人的模型和助手能力。

这也是豆包手机最尴尬的地方,字节豆包做的只是大模型和应用,它需要和一个手机厂商合作,深度定制,将大模型能力嵌入底层,获得必要的最高权限,才能够实现掌控全局的理想。

头部厂商有自己的算盘,豆包只能选择和努比亚合作,定位相似的魅族也第一时间抛出橄榄枝,因为合作对他们来说收益更高。

需要再次强调的是,豆包手机从始至终都是个工程机,是一次「尝试」。然而尽管这次尝试在技术层面上是成效显著的,在商业上却「折戟」了。

这次争议,给头部的手机厂商们提了个醒:如果它们也想做和豆包手机助手类似的事情,恐怕要好好想想下一步怎么走,被国民级超级 app 反制的时候改如何应对了。毕竟它们已经在自己手机助手的类似能力上有不少投入,现在却发现比自己跑得更快的选手,没一路跑到终点,而是一头撞在了墙上。

如果豆包手机助手最近半个月的经历告诉了我们什么,那一定是:AI 手机的趋势不可阻挡,未来不支持 AI 的 App 会被淘汰。

但一个前提是,手机品牌们、互联网巨头和 AI 厂商们(后两者其实也是合二为一的)愿意放下藩篱,通力合作去推动行业的改变——这背后,绝对也少不了一些利益的重新划分。

理想和现实的鸿沟

厂商之间你争我抢,用户则用脚投票。

要看一个产品的受欢迎程度,二手价格是最好的指标。而豆包手机不仅开售秒罄,闲鱼上也普遍从原价 3499 元,一度炒到五六千,甚至一万多的价格。当然,不是说豆包手机的二级市场真的能稳住这个价格——而是这种价格的飞涨,侧面体现了用户对它的追捧,对它所展现的能力的看好和对未来前景的更多期待。

回看豆包手机刚面世,还是「无所不能」的时期,大家纷纷脑洞大开,想开发它的使用边界:蚂蚁森林收能量、去广告、甚至看抖音极速版赚钱。

这就是「真 · AI 硬件」诞生后,用户的真实反应,因为它重塑了用户和平台之间的交互逻辑,曾经是用户去「服务」这些超级应用,一定程度上成为奴隶——而有了 AI,用户和平台的关系虽然没有发生本质变化,但至少那些服务和应用不用用户本人去伺候了。

但没想技术刚被认证可行,互联网企业之间的割据,又成为了理想和现实之间的另一道鸿沟,并且短期内看不到能自行解决的可能性。

现在是豆包手机处处碰壁,如果出来的是「元宝手机」「千问手机」,它们去操作抖音、飞书,字节就会展开双臂欢迎吗?我看不见得。

到头来,优先级很重要。对于这些互联网巨头来说,AI 技术固然要做,但最根本的是自己的山头不能丢。客观上,我们能承认豆包助手进行了重构交互的尝试,但本质上,它更是字节用来颠覆超级 App 作为传统互联网入口的利器,甚至借助全局操控的能力,真正地垄断所有服务的「新入口」。

豆包手机讨论了一周,让我觉得很失望的是,互联网巨头之间的掰手腕吸引了大部分的注意力,而对于豆包手机技术、理念上的探讨,这些更有价值的内容,没能获得应有的流量。

破局的曙光存在吗?恐怕还是要看广大的用户群体。

这次,不再是单纯的巨头厂商角力,民意也正在成为一股强大势力,豆包手机被各大巨头封杀后,价格依旧居高不下,评论区也充满了用户声援的呼声。

用户从来不是大公司的追随者,我们心中一直都知道什么是好的。

写到最后,我问自己,会不会太悲观,把字节和腾讯想得太坏了?

我也不想这样,或许豆包手机助手团队在做这个产品的时候,和 iPhone 团队当年一样,都怀揣着一个纯粹的梦想。

但豆包手机出生在字节,它注定无法避免卷入这场腥风血雨的互联网藩镇割据的混战之中,甚至出生的那一刻,就带有了来自大厂的「原罪」。

如果它不出生在字节跳动,如果它是「DeepSeek 手机助手」,那结局会不会有所不同?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


让马斯克变街头痞子、林黛玉穿潮牌,这个AI视频新玩法太上头,手把手教你秒变潮人

By: 张子豪
15 December 2025 at 18:39

给你 30s,介绍一下今天你的 OOTD 吧。

一向温文尔雅、只穿基本款的苹果 CEO Tim Cook,在他的「个人 ID 视频」里,穿上了大号羽绒服,戴着镶钻牙套,对着镜头作出了最狠的 Gangsta 匪帮姿势。

最神来之笔的是,他像掏枪一样掏出了一个……德州仪器计算器。

▲视频来源:https://x.com/ReflctWillie/status/1997819640874205685

很多人看到这个视频都欲罢不能,一镜到底的展示也太过瘾了,一遍遍根本停不下来。视频作者把好莱坞大片级别的运镜语言,套用在一个荒诞的内容上。形式的高级感和内容的滑稽感,让这个 AI 视频没有那些普遍存在的廉价特点,很快在社交媒体上火起来。

立马就又有了马斯克的版本。

▲ 视频来源:https://x.com/VibeMarketer_/status/1999227084250448083

作者很细心的给出了完整的制作流程,通过使用底片印样方式的提示词(Contact Sheet Prompting),来获取到一套 6 张图片,背景一致、人物表情和服装一致,但是动作不同的照片组合。

▲ 3×2 的胶片印样

所谓印样,是最早在胶片时代,摄影里使用的一种缩略图版的照片索引页;现在把这样的概念用在 Nano Banana Pro 里,就是充分利用它的一致性能力,一次性生成一系列风格不同、角度不同的视频截图,然后再通过首尾帧来生成视频。

Nano Banana Pro 最多能一次性生成,包含 9 个以上关键帧的完整印样,每一帧图片都保持了出色的角色、细节和叙事一致性。即便是分别生成,Nano Banana Pro 也能根据上传的参考图片,自动填补图片内容,确保叙事一致性。

▲ 首尾帧视频生成,提示词:一镜到底的拍摄,摄像机平稳且缓慢地推进,聚焦在人物的眼镜上,同时始终将主体保持在画面中。主体的动作极小且谨慎。

有了图片之后,我们就可以通过首尾帧转视频的方式,将这几张图片整合起来,可灵、Veo 3.1、Hailuo、剪映等视频生成模型和工具,都可以轻松做到。

值得注意的是,像 Sora 2 目前是不支持上传这种有真实人脸的图片,马斯克的 Grok Imagine 也仅支持首帧转视频,综合下来,我们还是推荐使用 Google Veo 3.1、剪映里的即梦、还有快手可灵来完成。

▲Grok 图片转视频,默认生成的内容,不明所以

在这位视频博主给出的指南里,他使用了 Nano Banana Pro 和可灵来完成,并且它开发了一整套工具,让我们可以自由地实现各种人物的替换。

▲ 视频来源:https://x.com/ReflctWillie/status/1998720751806066916

根据他分享的工作流,由于这个视频和库克那个基本类似,所以它只需要修改输入的三张图片,以及做一些细微的调整。例如从口袋里掏出来的是 GAME BOY 游戏机,还有更符合这个人物特点的元素,库克是镶嵌着苹果股票代码 AAPL 的大金牙,美联储的主席鲍威尔则是戴上了 FED 的金戒指。

▲项目地址:https://github.com/shrimbly/node-banana

目前他把这个项目放在了知名开源平台 GitHub 上,如果你喜欢自己折腾的话,把项目下载到本地,输入自己的 Gemini API,也可以直接套用这个流程。

我们也尝试了这个自动化的项目,生成了几张图片,相比较在 Gemini 网页或 App 内生成,确实能方便不少。我们不需要反复的上传图片,而是可以直接选择需要使用的图片,直接修改提示词,将整个操作流水线化。

不过,没有 API 也没关系,下面跟着我们的详细步骤,就用 Gemini 网页版一样能做到。

找一张自己的照片,喜欢的潮牌衣服,还有酷炫的眼睛。我们这里用才情高绝、生性孤傲、多愁善感的林妹妹来举例,看看她的 OOTD 时尚大片会是怎么样。

这里我们直接用 Nano Banana Pro 生成了一张林黛玉的照片。

▲提示词:Subject: A hyper-realistic high-fashion portrait of Lin Daiyu from Dream of the Red Chamber. She has a fragile, melancholic beauty, pale skin, and her signature “knitted eyebrows” (frowning slightly). She looks distinctively sorrowful and intellectual. Attire: Wearing exquisite, high-end traditional Qing Dynasty couture (Hanfu style). The fabric is layered translucent silk and organza in pale bamboo-green and moon-white. Intricate embroidery of falling petals. She wears a jade hairpin. Setting: Inside a modern, minimalist professional photography studio. A solid dark grey or textured canvas backdrop. Lighting & Camera: Cinematic studio lighting, Rembrandt lighting to accentuate her cheekbones and mood. Softbox lighting, sharp focus, shot on Hasselblad X2D, 85mm lens. Deep depth of field. Style: Vogue China editorial, ethereal, elegant, sorrowful, oriental aesthetics, avant-garde fashion photography, ultra-detailed texture. 16:9, 4K.

得到角色照片之后,眼镜和外套图片是可选的,如果没有上传,Nano Banana Pro 会自动生成对应的潮牌外套和眼镜。

我们从网上找了一件潮牌夹克外套让她穿上,然后在默认的提示词里面,增加了一些发型控制、妆造和瞧不起这些世俗之物的轻蔑表情等。

默认提示词:Show me a high fashion photoshoot image of the model wearing the oversized jacket and glasses, the image should show the a full body shot of the subject. The model is looking past the camera slightly bored expression and eyebrows raised. They have one hand raised with two fingers tapping the side of the glasses. The setting is a studio environment with a blue background. The model is wearing fashionable, dark grey baggy cotton pants. The jacket is extremely, almost comically oversized on the model.
The image is from a low angle looking up at the subject.
The image is shot on fuji velvia film on a 55mm prime lens with a hard flash, the light is concentrated on the subject and fades slightly toward the edges of the frame. The image is over exposed showing significant film grain and is oversaturated. The skin appears shiny (almost oily), and there are harsh white reflections on the glasses frames.

下一步就是生成所谓 Contact Sheet,输入我们之前得到的外套+眼镜的照片,再输入下面的提示词,我们就能得到一个,人物一致性的多角度分镜。

提示词:
Analyze the input image and silently inventory all fashion-critical details: the subject(s), exact wardrobe pieces, materials, colors, textures, accessories, hair, makeup, body proportions, environment, set geometry, light direction, and shadow quality.
All wardrobe, styling, hair, makeup, lighting, environment, and color grade must remain 100% unchanged across all frames.
Do not add or remove anything.
Do not reinterpret materials or colors.
Do not output any reasoning.

Your visible output must be:

One 2×3 contact sheet image (6 frames).

Then a keyframe breakdown for each frame.

Each frame must represent a resting point after a dramatic camera move — only describe the final camera position and what the subject is doing, never the motion itself.

The six frames must be spatially dynamic, non-linear, and visually distinct.

Required 6-Frame Shot List
1. High-Fashion Beauty Portrait (Close, Editorial, Intimate)

Camera positioned very close to the subject’s face, slightly above or slightly below eye level, using an elegant offset angle that enhances bone structure and highlights key wardrobe elements near the neckline. Shallow depth of field, flawless texture rendering, and a sculptural fashion-forward composition.

2. High-Angle Three-Quarter Frame

Camera positioned overhead but off-center, capturing the subject from a diagonal downward angle.
This frame should create strong shape abstraction and reveal wardrobe details from above.

3. Low-Angle Oblique Full-Body Frame

Camera positioned low to the ground and angled obliquely toward the subject.
This elongates the silhouette, emphasizes footwear, and creates a dramatic perspective distinct from Frames 1 and 2.

4. Side-On Compression Frame (Long Lens)

Camera placed far to one side of the subject, using a tighter focal length to compress space.
The subject appears in clean profile or near-profile, showcasing garment structure in a flattened, editorial manner.

5. Intimate Close Portrait From an Unexpected Height

Camera positioned very close to the subject’s face (or upper torso) but slightly above or below eye level.
The angle should feel fashion-editorial, not conventional — offset, elegant, and expressive.

6. Extreme Detail Frame From a Non-Intuitive Angle

Camera positioned extremely close to a wardrobe detail, accessory, or texture, but from an unusual spatial direction (e.g., from below, from behind, from the side of a neckline).
This must be a striking, abstract, editorial detail frame.

Continuity & Technical Requirements

Maintain perfect wardrobe fidelity in every frame: exact garment type, silhouette, material, color, texture, stitching, accessories, closures, jewelry, shoes, hair, and makeup.

Environment, textures, and lighting must remain consistent.

Depth of field shifts naturally with focal length (deep for distant shots, shallow for close/detail shots).

Photoreal textures and physically plausible light behavior required.

Frames must feel like different camera placements within the same scene, not different scenes.

All keyframes must be the exact same aspect ratio, and exactly 6 keyframes should be output. Maintain the exact visual style in all keyframes, where the image is shot on fuji velvia film with a hard flash, the light is concentrated on the subject and fades slightly toward the edges of the frame. The image is over exposed showing significant film grain and is oversaturated. The skin appears shiny (almost oily), and there are harsh white reflections on the glasses frames.

Output Format
A) 2×3 Contact Sheet Image (Mandatory)

得到六宫格的图片之后,我们需要使用下面的提示词,依次提取出这六张图片。

提示词:Review the grid of six images. I want you to isolate and upscale the image in the first/second/third column of the first/second row of images. Do not change the pose or any details of the model. Only output the single image from the six image grid.

其实 Nano Banana Pro 有能力直接生成九宫格的图片,不过为了保持固定 3:2 的横宽比,六宫格能更好的分离出所有图片,我们这里全部使用 16:9 的大小,以及 4K 画质。

有了这 6 张图片,我们还可以脑洞大开生成更多的关键帧图片,例如原视频中,让库克展示他的金牙、从口袋里掏出一个古早的设备。

例如我们从网上找了一张手镯的图片,让林黛玉展示他的玉手镯,而不是大金表。

▲图 7|输入:图 3+图 5+玉手镯照片,以及提示词:Show me a wide angle close up of the model.The model is holding one wrist vertically in front of her, The opposite hand is gently pulling down the voluminous sleeve of her clothes robe to display a translucent emerald jade bangle. The hand that is pulling down the sleeve has a silver fashion ring shaped like a fallen flower petal on the last two digits of her hand encrusted into the front face.

如果你想保持这种街头的匪帮风格,可以直接使用默认的提示词,找到一个大金表的图片,然后输入下面的内容。

默认提示词:Show me a wide angle close up of the model.The model is holding one wrist vertically in front of him, the opposite hand is pulling down the sleeve of the hoodie to display the watch. The hand that is pulling down the sleeve has a two finger ring on the last two digits of his hand with the letters ‘LOVE’ encrusted into the front face.

此外,鞋子也换上了带有刺绣的潮牌高帮,既有古代绣花鞋的缎面、花朵刺绣,底下又是那种锯齿状的黑色橡胶厚底。

▲图 8|输入图 7 + 图 3 +鞋子照片,提示词:Show me a wide angle worms eye view of the model standing, her right foot is extended in front of her, showing she is wearing the shoes in the reference image. Maintain the setting perfectly, include the finger ring on the models hand, and have her foot angled slightly to the side to highlight the detailing of the shoes

最后是从口袋里,掏出了一盒人参养荣丸,这是一个靠着药物维持生命的赛博朋克少女。

▲图9|输入 图 7+图 8 + 药盒照片,提示词:Tight shot of the model reaching into the side of the kangaroo pouch of the hoodie and partially showing the box of pills.

这里只需要修改 showing the box of pills,把 showing(展示)后面的内容,更换成你希望从口袋里拿出来的物品即可。

得到了全部的关键帧图片,接下来我们就是把这些图片串联起来,制作出一个看起来像是一镜到底的酷炫视频。图片转视频也不是完全不需要提示词,想要得到原视频一样的节奏控制,尽量采用流畅的动作和最小的模特移动,是减少抽卡的重要指令。

博主提到,可以在提示词里面输入,像是「镜头缓慢而平稳地围绕眼镜旋转,同时进行变焦。拍摄对象几乎一动不动,动作极其沉稳而深思熟虑。」

像是图 8 和图 9 之间的转换,我们在提示词里面,就增加了腿慢慢放下,镜头垂直上升的文字。

▲Google Veo 3.1 生成|提示词:Camera Movement (Vertical Scan):
A continuous, seamless vertical crane shot moving upwards. The camera starts low, focused tightly on the embroidered high-top sneakers, then smoothly tilts up and glides along the texture of the grey cargo pants. As the camera rises to waist level, it pushes in (dolly in) towards the green satin jacket.
Subject Action (The Flow):
Start: The subject’s leg (showing the shoe) slowly lowers to a standing position as the camera moves up.
Transition: The subject stands confidently. The hand wearing the butterfly ring moves naturally into the pocket.
End: The hand pulls out a yellow and white medicine box (“Renshen Yangrong Wan”). The focus racks sharply onto the text on the box.
Atmosphere & Consistency:
High-fashion streetwear aesthetic. Hard flash lighting with a blue studio background. Maintain strict consistency of the green sukajan jacket embroidery and the jade bangle. The transition is liquid-smooth, feeling like a single, planned camera move.

你可能会好奇,为什么提示词里面说动作要慢,最后出来的预览视频,给人感觉确实干净利落。其实是用了这位视频博主的另一个工具,不得不佩服现在 AI 视频博主的创意和能力,不仅有好的点子,还能开发好用的工具。

▲地址:https://easypeasyease.vercel.app/,这个工具能对多个视频进行拼接、同时应用缓动曲线和添加音频;目前是免费使用。

通过 EasyPeaseEase 这个工具,我们的视频能够选择压缩到 0.5s-6s 之间,之前通过视频生成模型得到的缓慢动作,经过缓动曲线,让视频从开始到结束,加速或减速过程更平滑、自然,更能模拟真实世界的物理效果,从而让加速后的视频,看起来更生动、有质感,而不是生硬的匀速运动。

最后把这些视频都拼接起来,我们就得到了林妹妹的今日 OOTD 视频展示。

首尾帧转视频的提示词,如果你担心会需要频繁抽卡,直接上传首尾帧图片,问 Gemini 是很有效的方法。

Contact Sheet Prompt,印样表提示词其实是 Nano Banana Pro 非常有意思的一个玩法。先利用 Nano Banana Pro 强大的图片生成和世界知识理解能力,生成一张九宫格的视频关键帧集合,再逐行逐列提取对应的关键帧。

▲视频来源:https://x.com/techhalla/status/1996650389228355819

最后再汇总一波 Nano Banana Pro 的官方使用途径吧。

  • ai.studio:Google 官方 AI 工作室,需要绑定支付方式,能通过下拉选择不同的分辨率和图片大小,无需提示词控制,按次收费。
  • gemini.google.com:Gemini 网页版和手机 App,免费生成,有次数上限,达到上限后会自动使用 Nano Banana 模型,最大的特点是不能再控制生成图片的宽高比。
  • flow.google:Google 的视频生成平台,可以选择生成图片,不消耗积分,免费生成。

文中视频可点击该链接前往查看:https://mp.weixin.qq.com/s/s_EIYB0qqcWv29zMM1g-7Q

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Yesterday — 14 December 2025Main stream
Before yesterdayMain stream

为什么训练 Claude 要用欧陆哲学?模型背后的哲学家「解密」

By: Selina
13 December 2025 at 20:45

在硅谷争分夺秒的代码竞赛中,Anthropic 似乎是个异类。当其他大模型还在比拼算力和跑分时,Claude 的开发者们却在思考一个看似「虚无缥缈」的问题:如果一个用户跟 AI 谈论形而上学,AI 该不该用科学实证去反驳?

这个问题的答案,藏在 Claude 神秘的「系统提示词(System Prompt)」里,更源于一位特殊人物的思考——Amanda Askell,Anthropic 内部的哲学家。

用「大陆哲学」防止 AI 变成杠精

经常用 AI 的人都知道,大模型在与用户对话前,都会先阅读一段「系统提示词」,这个步骤不会对用户显示,而是模型的自动操作。这些提示词规定了模型的行为准则,很常见,不过在 Claude 的提示词中,竟要求模型参考「欧陆哲学(Continental Philosophy)」。

欧陆哲学是啥?为什么要在一个基于概率和统计的语言模型里,植入如此晦涩的人文概念?

先快速科普一下:在哲学界,长期存在着「英美分析哲学」与「欧陆哲学」的流派分野。分析哲学像一位严谨的科学家,注重逻辑分析、语言清晰和科学实证,这通常也是程序员、工程师乃至 AI 训练数据的默认思维模式——非黑即白,追求精确。

而欧陆哲学(Continental Philosophy,源于欧洲大陆,所以叫这个名字)则更像一位诗人或历史学家。它不执着于把世界拆解成冷冰冰的逻辑,而是关注「人类的生存体验」、「历史语境」和「意义的生成」。它承认在科学真理之外,还有一种关乎存在和精神的「真理」。

作为 Claude 性格与行为的塑造者,Anthropic 公司内部的「哲学家」Amanda Askell 谈到了置入欧陆哲学的原因。她发现如果让模型过于强调「实证」和「科学」,它很容易变成一个缺乏共情的「杠精」。

「如果你跟 Claude 说:‘水是纯粹的能量,喷泉是生命的源泉’,你可能只是在表达一种世界观或进行哲学探索,」Amanda 解释道,「但如果没有特殊的引导,模型可能会一本正经地反驳你:‘不对,水是 H2O,不是能量。’」。

引入「大陆哲学」的目的,正是为了帮助 Claude 区分「对世界的实证主张」与「探索性或形而上学的视角」。通过这种提示,模型学会了在面对非科学话题时,不再机械地追求「事实正确」,而是能够进入用户的语境,进行更细腻、更具探索性的对话。

这只是一个例子,Claude 的系统提示词长达 14000token,里面包含了很多这方面的设计。在 Lex Fridman 的播客中 Amanda 提到过,她极力避免 Claude 陷入一种「权威陷阱」。她特意训练 Claude 在面对已定论的科学事实时(如气候变化)不搞「理中客」(both-sidesism),但在面对不确定的领域时,必须诚实地承认「我不知道」。这种设计哲学,是为了防止用户过度神话 AI,误以为它是一个全知全能的神谕者。

代码世界的异乡人

在一众工程师主导的 AI 领域,Amanda Askell 的背景显得格格不入,可她的工作和职责却又显得不可或缺。

翻开她的履历,你会发现她是一位货真价实的哲学博士。她在纽约大学(NYU)的博士论文研究的是极其硬核的「无限伦理学(Infinite Ethics)」——探讨在涉及无限数量的人或无限时间跨度时,伦理原则该如何计算。简单地说,在有无数种可能性的情况下,人会怎么做出道德决策。

这种对「极端长远影响」的思考习惯,被她带到了 AI 安全领域:如果我们现在制造的 AI 是未来超级智能的祖先,那么我们今天的微小决策,可能会在未来被无限放大。

在加入 Anthropic 之前,她曾在 OpenAI 的政策团队工作。如今在 Anthropic,她的工作被称为「大模型絮语者(LLM Whisperer)」,不断不断地跟模型对话,传闻说她是这个星球上和 Claude 对话次数最多的人类。

很多 AI 厂商都有这个岗位,Google 的 Gemini 也有自己的「絮语者」,但这个工作绝不只是坐在电脑前和模型唠嗑而已。Amanda 强调,这更像是一项「经验主义」的实验科学。她需要像心理学家一样,通过成千上万次的对话测试,去摸索模型的「脾气」和「形状」。她甚至在内部确认过一份被称为 「Soul Doc」(灵魂文档)的存在,那里面详细记录了 Claude 应有的性格特征。

不只是遵守规则

除了「大陆哲学」,Amanda 给 AI 带来的另一个重要哲学工具是「亚里士多德的美德伦理学(Virtue Ethics)」。

在传统的 AI 训练中(如 RLHF),工程师往往采用功利主义或规则导向的方法:做对了给奖励,做错了给惩罚。但 Amanda 认为这还不够。她在许多访问和网上都强调,她的目标不是训练一个只会死板遵守规则的机器,而是培养一个具有「良好品格(Character)」的实体。

「我们会问:在 Claude 的处境下,一个理想的人会如何行事?」Amanda 这样描述她的工作核心。

这就解释了为什么她如此关注模型的「心理健康」。在访谈中,她提到相比于稳重的 Claude 3 Opus,一些新模型因为在训练数据中读到了太多关于 AI 被批评、被淘汰的负面讨论,表现出了「不安全感」和「自我批评漩涡」。

如果 AI 仅仅是遵守规则,它可能会在规则的边缘试探;但如果它具备了「诚实」、「好奇」、「仁慈」等内在美德,它在面对未知情境时(例如面对「我会被关机吗」这种存在主义危机时),就能做出更符合人类价值观的判断,而不是陷入恐慌或欺骗。

这是不是一种把技术「拟人化」的做法?算得上是,但这种关注并非多余。正如她在播客中所言,她最担心的不是 AI 产生意识,而是 AI 假装有意识,从而操纵人类情感。因此,她刻意训练 Claude 诚实地承认自己没有感觉、记忆或自我意识——这种「诚实」,正是她为 AI 注入的第一项核心美德。

Amanda 在访谈结束时,提到了她最近阅读的书——本杰明·拉巴图特的《当我们不再理解世界》。这本书由五篇短篇小说组成,讲述了「毒气战」的发明者弗里茨·哈伯、「黑洞理论」的提出者卡尔·史瓦西、得了肺结核的埃尔温·薛定谔以及天才物理学家沃纳·海森堡等一大批科学巨匠,如何创造出了对人类有巨大价值的知识与工具,却同时也眼看着人类用于作恶。

这或许是当下时代最精准的注脚:随着 AI 展现出某种超越人类认知的,我们熟悉的现实感正在瓦解,旧有的科学范式已不足以解释一切。

在这种眩晕中,Amanda Askell 的工作本身,就是一个巨大的隐喻。她向我们证明,当算力逼近极限,伦理与道德的问题就会浮上水面,或早或晚。

作为一名研究「无限伦理学」的博士,Amanda 深知每一个微小的行动,都有可能在无限的时间中,逐渐演变成巨大的风暴。这也是为什么,她会把艰深的道德理论,糅合进一一行提示词,又小心翼翼地用伦理去呵护一个都没有心跳的大语言模型。

这看起来好像是杞人忧天,但正如她所警示的:AI 不仅是工具,更是人类的一面镜子。在技术狂飙突进、我们逐渐「不再理解世界」的时刻,这种来自哲学的审慎,或许是我们在面对未知的技术演化时,所能做出的最及时的努力。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


实测 GPT-5.2 :价格暴涨能力微涨,凭什么反击 Gemini

By: 张子豪
12 December 2025 at 14:03

要吊打 Gemini 的 GPT 5.2 在今天凌晨正式发布了,向所有用户推出。

上个月刚刚退订掉 ChatGPT Plus,转到 Gemini,这次需要因为 GPT-5.2 再回去吗?

看完下面这些网友真实的体验分享,还有 APPSO 的上手实测,或许能有个答案。

▲这次终于没把表给画错了

GPT 5.2 这次其实是更新了 3 个模型,GPT-5.2 Instant、Thinking、以及 Pro 模型。如果你习惯了 Gemini 3.0 Pro 里,每次问答都会经过思考;那么上手 GPT-5.2 Thinking/Pro 时,你会发现 ChatGPT 思考速度的变慢了,比以往所花的时间要更长。

这也是目前大多数获得提前体验的用户,在社交媒体上分享的心得。即 GPT-5.2 对比 5.1 在各个方面都有了提升,且 GPT-5.2 Pro 非常适合去做一些专业推理工作,需要长时间来完成的任务,但是,就等待结果的过程变得更漫长。

例如有用户分享,输入提示词「帮我绘制一张 HLE 测试成绩的图表」,GPT-5.2 Pro 硬是花了 24 分钟才得出这张表。

▲图片来源:https://x.com/emollick/status/1999185755617300796/photo/1

但好在所有的信息都是准确的,即便图表上最好的结果,显示的还是 Gemini 3.0 Pro。

这也得益于 GPT-5.2 的知识截止日期来到了 2025 年 8 月,要知道 GPT-5.1 的知识截止日期还是 2024 年 9 月,而上个月刚发布的 Gemini 3.0 截止在 2025.1。

当我们使用 GPT-5.2 Thinking,让它生成一张 OpenAI 的模型发布历史的图表,倒没有花太长的时间,信息也比较准确。如果是简单的任务,用 Thinking 模型所花的时间,和用 Pro 模型,差别会非常大。

▲提示词:generate a chart graph of OpenAI model release over time

凭借着「超高强度」的推理,以及最新的世界知识,结合图像的多模态理解和推理能力,GPT 5.2 很快也在大模型竞技场上飙升到第二名。GPT-5.2-High 在 WebDev(网页开发)项目中排名第二,GPT-5.2 排名第六。作为对比,Gemini 3.0 Pro 排名第三,第一仍然是 Claude。

LMArena 官方也给出了一段实测视频,他们使用 GPT-5.2 完成了一系列的 3D 建模工作,完成度非常高。但还是有网友在下面评论说,「现在是还在 2003 年吗?」

▲视频来源:https://x.com/arena/status/1999189215603753445

这种利用 three.js 实现的 3D 效果,非常需要模型的多模态理解和推理能力,以及在编程开发、程序设计上的优化;GPT-5.2 也很对得起这 0.1 的升级。

目前网友分享大量测试,基本上都集中在构建这些完整的 3D 引擎,GPT-5.2 表现的也都很不错。像是也有用 GPT-5.2 Thinking 的高难度推理模式,同样在单页文件里,构建了一个支持交互控制、还可以导出 4K 分辨率的 3D 雪天冰块王国模型。

▲ https://x.com/skirano/status/1999182295685644366

还有使用 GPT-5.2 Pro 实现的 3D 波涛汹涌哥特城市建筑。

▲提示词:create a visually interesting shader that can run in twigl-dot-app make it like an infinite city of neo-gothic towers partially drowned in a stormy ocean with large waves.|来源:https://x.com/emollick/status/1999185085719887978?s=20

关于 3D 理解和推理能力,我们也用了 Ian Goodfellow 上次在 Gemini 3.0 Pro 发布之后使用的提示词,即上传一张图片,然后告诉模型根据这张图片,生成一个漂亮的体素艺术 Three.js 单页程序场景。

▲ 由于 ChatGPT 没有在画布内为我生成,所以复制它在对话框生成的代码,在 HTML View 中打开,如右图所示。

这个差别还是挺明显,ChatGPT 虽然也读取到了上传图片的内容,一棵粉红色的书,一块绿地和灰色的下沉,还有白色的水流,但是它生成的 3D 动画,对比 Gemini 3.0 Pro 是有些简陋了。

我只能说,奥特曼发出这个「红色警报」,说明了 Gemini 的真材实料。

检验编程能力的测试,必然少不了经典的六边形小球物理运动。有博主加大了小球运动的难度,全部使用闪着光的红色 3D 小球。效果看着很酷炫,很多网友都在问这是如何做到的;但也有网友指出来,这些小球,好像并不受重力控制。

接着有网友回复说,这是在模拟太空。

▲视频来源:https://x.com/flavioAd/status/1999183432203567339

还有 SVG 代码测试,骑自行车的鹈鹕。

▲ 图片来源:https://arena.jit.dev/

也有网友分享自己用 GPT-5.2 做了一个森林火灾的模拟器,能够调节速度、片区大小、和火焰燃烧范围等等。

▲图片来源:https://x.com/1littlecoder/status/1999191170581434557?s=20

我们做了一个星球信号的网页,跟这个森林火情可视化的网页,布局是如出一辙,大概就是左边显示的内容,星星点点换成了太空星球。

▲提示词:Create an interactive HTML, CSS, and JavaScript simulation of a satellite system that transmits signals to ground receivers. The simulation should show a satellite orbiting the Earth and periodically sending signals that are received by multiple

我们也用之前 Gemini 3 做的拍立得,来考验一下 GPT-5.2。输入同样的提示词,要它开发一个复古拍立得风格的网页相机应用。

▲提示词:开发一个具有复古拟物风格的单页相机应用。页面背景请设计为软木板或深色木纹材质,左下角固定一个纯 CSS 或 SVG 绘制的拟物化拍立得相机模型,其镜头区域实时显示用户摄像头画面;交互逻辑上,当用户点击快门按钮时,播放快门音效,并让一张带有白色边框的相纸从相机顶部缓慢吐出;请利用 CSS 滤镜让滑出的照片初始状态为高模糊且黑白,在 5 秒内平滑过渡到清晰全彩状态;最后,所有显影完成的照片必须支持自由拖拽,允许用户将其随意摆放在页面任意位置,且照片要有随机的微小旋转角度和阴影,点击某张照片时应将其置顶,从而形成一个逼真的自由照片拼贴墙。

有点意外,一次成型,ChatGPT 也能做拍立得了。

之前我们测试 Gemini 3.0 Pro 时,它最强大的能力一方面是编程,另一方面是不需要我们输入太多的提示词,只是把一个截屏或视频丢给它,告诉它要复刻,Gemini 就能做到。

这次我们同样丢给它一个视频,要求它复刻这个古诗词生成的网页。

▲ https://chatgpt.com/canvas/shared/693b6d1b8fa881919c6298a4aed05581

对比之前 GPT-5.1 完全不知道我上传视频的配色方案,这次它算是学到了。不过,由于 Gemini 生成的网页可以直接添加 AI 功能,通过使用 Gemini 的 API 实现。但是 ChatGPT 还没有把 AI 引入这些生成的网页,所以这里的诗歌,同样只能是已经写好的那几首。

除了经典的编程能力测试,和单纯地做一个单页的 HTML 文件,也有网友用它来编写 Python 代码。

网友输入的提示词是「write a python code that visualizes how a traffic light works in a one way street with cars entering at random rate.」(编写一个 Python 代码,模拟单行道交通灯的工作原理,并可视化随机速率进入的车辆)。

他同时测试了 GPT 5.2 Extended Thinking 和 Claude Opus 4.5,结果显而易见。只能说,经常有读者问我们最好的编程模型是哪个,Claude 能被这么多开发者青睐,并不是没有原因。

▲ 下边是 GPT-5.2,来源:https://x.com/diegocabezas01/status/1999228052379754508

而且,之前 Claude 模型最大的缺点,可能就是贵,Claude Opus 4.5 输入每百万 Token 是 5 美元,输出是 25 美元。现在 GPT-5.2 的价格也跟上来了,对比 GPT-5.1 ,整体基本上贵了 40%,GPT-5.2 Pro 的输入是 21 美元,输出是 168 美元。

在官方的发布博客里面,OpenAI 提到 GPT-5.2 在图像的能力也有了提升。

GPT-5.2 Thinking 是我们迄今为止最强大的视觉模型,在图表推理和软件界面理解方面的错误率降低了大约一半。

并且它给出了一个例子,是给一块看起来很模糊的主板,用 AI 加上一些带有方框的标记;对比 GPT-5.1,GPT-5.2 虽然也会犯错,但是标记了更多的地方。

可是 Nano Banana Pro 呢,有网友用 Nano Banana Pro 去掉了图片上的标注信息,然后重新要求它打上新的目标定位方框,你觉得哪个好。

▲从左到右依次为 GPT-5.1、GPT-5.2、Nano Banana Pro|图片来源:https://x.com/bcaine/status/1999212747213656072

我的感受是,ChatGPT 为什么要在别人擅长的领域上「自取其辱」,Nano Banana 做这些关于图片的工作,现在完全可以说就是断层第一,即便 GPT-5.2 标注的信息更多了,但很多检测框定位都不准确。

编程、图像对比前代 GPT-5.1 有了大幅提升,如果你一直以来都是 ChatGPT 的用户,应该能直接感受升级后带来的差别。但如果和其他模型对比,编程和图像,体验下来,仍然是没有像 Nano Banana 推出时一样,做到遥遥领先。

在关于审美的网页设计上,也有网友分享了他用 GPT-5.2 做的一些前端网页,大家可以看看这次,前端程序员是不是又要被拉出来「杀」一遍。

▲图片来源:https://x.com/secondfret/status/1999235822034547011

和之前烂大街的渐变紫,GPT-5.2 的设计水平确实上来了,但就像博主自己说的一样,GPT-5.2 好像特别喜欢在屏幕上画方框,到处都是层层叠叠的网格。

关于设计能力,也有一个专门的榜单,GPT-5.2 突飞猛进,从之前排在十名开外的 GPT-5.1,一跃来到了第三名,不过得分最高的还是 Gemini 3.0 Pro。

▲ 图片来源:https://www.designarena.ai/leaderboard

我们也给 GPT-5.2 一些要求做出「高大上」的网页,给一家 AI 公司做首页。结果是,GPT-5.2 很喜欢用方框是真的;还有渐变紫怎么又给我碰上了。

▲提示词:You are the top 0.1% designer and developer for the world’s cutting-edge innovation on front-end design and development. You are tasked to create a full landing page with {Dither + Shaders} using {WebGL + ThreeJs} in the styling of an uploaded image for the AI company. – Focus mainly on the design part, not the development. Import all necessary files and libraries: Three.js、WebGL、GSAP、Any other animation libraries related to 3D development.

最后关于写作,根据一些获得超前体验的用户反馈,GPT-5.2 开始有能力,完成一些长篇幅小说的创作。

例如,当 ChatGPT 被要求生成 50 个情节创意时,它会全部完成,而不是像其他模型那样只生成一部分。而被要求写一本 200 页的书时,ChatGPT 也没有直接说做不到,而是真的尝试了,不仅构建了整本书的结构,甚至还生成了 PDF 文件。

网友说,尽管书页本身比较薄弱,篇幅也短……毕竟它目前不可能,一口气写出一本可以出版的小说,但能开始真的去做,给 50 个创意,写 200 页书,说明它有足够的思维深度。

GPT-5.2 最引人注目的地方在于它能够很好地遵循指令……不是基本的按照我说的做,而是真正完成我描述的整个任务。

现在 GPT-5.2 应该已经逐步推送到所有用户了,你的上手实测体验怎么样。

GPT-5.2 的升级,不足以让我从 Gemini 转过来。虽然看着又是刷新了很多榜单,无论是自己发布的榜单,公开的测试,都拿到了不错的成绩。但是具体的上手,在生成 3D 程序那部分,代码报错是常有的事,而整体的审美风格也没能有大的突破,还这么贵。

▲ 网友锐评

Gemini 那边也没有停下来,继续给奥特曼压力。今天凌晨,虽然没有发布新模型,但重新设计了 Gemini Deep Research,并且可以通过 API 来访问它,未来还将 Gemini、Google 搜索、NotebookLM 中升级。

全新的 Gemini 深度研究 Agent 在人类最后的考试(HLE),用 46.4% 击败了刚刚发布的 GPT-5.2 Thinking(45.5%),并且在 Google 自己推出的 DeepSearchQA 测试,和 BrowseComp 测试中取得了不错的结果。

奥特曼的红色警报,大概是还得再亮一阵子了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,GPT-5.2 正式发布!让打工人每周少干 10 小时,成人模式明年见

By: 莫崇宇
12 December 2025 at 04:35

1106 天,OpenAI 从掀桌子的人,变成了被掀桌子的人。

伴随着 Google Gemini 3 的发布,OpenAI CEO 奥特曼上周罕见拉响了「Code Red」红色警报,并宣布所有资源回流 ChatGPT 主线,其他业务一律靠边站。

这是 OpenAI 成立以来第一次进入「红色警报」状态,也是它第一次如此明确地承认:竞争压力已经大到必须全力应对。

而就在刚刚,OpenAI 发布了 GPT-5.2 模型,打出了一记力量感十足的重拳。GPT-5.2 将向 ChatGPT 付费用户开放,并通过 API 提供给开发者,分为三个版本:

  • Instant:速度优化版,适用于信息查询、写作和翻译等常规任务;
  • Thinking:擅长处理复杂结构化任务,如编程、分析长文档、数学和规划;
  • Pro:高端版,专注于在高难度任务中提供极致的准确性和可靠性。

不聊天,真干活,GPT-5.2 闯进打工人职场

本以为 OpenAI 会专注提升 ChatGPT 的个性化和消费者体验,结果 GPT-5.2 的发布方向依旧是走职场实用主义的路数。

用 OpenAI 应用 CEO Fidji Simo 的话来说:「我们设计 GPT-5.2 是为了给用户创造更多经济价值。」

什么叫经济价值?

就是让 AI 真的能干活,做表格、写 PPT、敲代码、看图、读长文、调用工具、搞定复杂项目,这些都是 GPT-5.2 的拿手好戏。

数据也挺唬人。平均每个 ChatGPT 企业版用户说,AI 每天能给他们省 40 到 60 分钟,重度用户更狠,每周能省 10 小时以上。

GPT-5.2 Thinking 是这次发布的重头戏。

在评估 44 个职业知识型任务的 GDPval 测试中,它成为首个在总体表现上达到或超过人类专家水平的模型。具体来说,在与行业专家的对比中,GPT-5.2 Thinking 在 70.9% 的任务中胜出或持平,由人类专家亲自评判。

这些任务可不是随便出的题,涵盖了美国 GDP 排名前 9 个行业,包括销售演示文稿、会计报表、急诊排班计划、制造业图纸、短视频制作等等,都是真实工作场景里的硬活。

编程方面的提升更明显。

SWE-Bench Pro 是个相当严格的测试,评估模型在真实世界软件工程中的能力,涉及四种编程语言,比只测 Python 的版本难多了。GPT-5.2 Thinking 在这个测试里拿到了 55.6% 的成绩,创下业界新高。

更夸张的是在 SWE-bench Verified 里直接干到 80%,成为目前最高记录。这意味着 GPT-5.2 Thinking 能更可靠地调试生产环境中的代码、实现功能需求、重构大型代码库,端到端的修复工作做得更高效,减少人工介入。

前端开发也有明显提升。

早期测试者说,它在处理复杂或非常规的前端 UI 任务时表现更出色,特别是涉及 3D 元素的场景,妥妥的全栈工程师助手。

OpenAI 还放出了几个根据单一提示生成的示例:海浪模拟器、节日贺卡生成器、打字雨游戏。就一个提示词,整个单页应用就出来了,可调节的参数、逼真的动画效果、平静的 UI 风格,全都有。

幻觉率降低 30%,长文本能力接近完美

事实准确性这块,GPT-5.2 Thinking 相较于 GPT-5.1 Thinking 的「幻觉率」更低。

在一组匿名化的 ChatGPT 查询中,出现错误的回答减少了约 30%。对于专业人士来说,这意味着在研究、写作、分析与决策支持等任务中,出错率更低,用起来更放心。

不过 OpenAI 也提醒,就像所有模型一样,GPT-5.2 并不完美,关键性任务还是得自己核查。

长文本推理能力也树立了新标杆。

在 OpenAI MRCRv2 基准测试中,GPT-5.2 表现领先。这个测试评估的是模型能不能正确整合分布在长文档中的信息,对于深度文档分析这类涉及数十万 token 的跨文档信息整合任务来说,GPT-5.2 的准确率远超 GPT-5.1。

尤其在 MRCR 的 4 针测试(不同于「大海捞针」,而是要求模型在海量文本里,区分并找出多个一模一样的「针」中的特定一个)中,最多 256k token 的上下文,GPT-5.2 是首个接近 100% 准确率的模型。

这意味着专业用户可以用 GPT-5.2 高效处理超长文档,报告、合同、学术论文、访谈记录、多文件项目,它都能在处理上百页内容时保持逻辑一致和信息准确。视觉理解方面,GPT-5.2 Thinking 是目前 OpenAI 最强的视觉模型。在图表推理和软件界面理解方面,错误率下降了约一半。

对日常专业使用来说,这意味着模型能更准确地解读数据仪表盘、产品截图、技术图纸、可视化报告,适用于金融、运营、工程、设计、客服等以视觉为核心的工作场景。

空间理解能力和工具调用能力也有所提升,在 Tau2-bench Telecom 测试中,GPT-5.2 Thinking 取得了 98.7% 的新高成绩,展现出在长、多轮任务中可靠使用工具的能力。

即使将推理强度设置为最低档,GPT-5.2 的表现仍显著优于 GPT-5.1 和 GPT-4.1。

这代表 GPT-5.2 Thinking 在执行端到端工作流方面更强,处理客户服务案例、从多个系统中提取数据、执行分析任务,高效完成全流程输出,中间环节更少出错。

数学和科学能力的提升,可能是这次发布里最硬核的部分。

在 GPQA Diamond 这种研究生级别的科学问答测试里,覆盖物理、化学、生物学等领域,GPT-5.2 表现明显更强。FrontierMath 那种评估专家级数学问题解决能力的基准测试,它也能啃下来。

更牛的是,在 ARC-AGI-1 测试中,GPT-5.2 Pro 是第一个突破 90% 准确率的模型,相比去年 o3-preview 的 87%,表现更强,成本却降低了约 390 倍。

ARC-AGI-2 版本更难,专注于考察流动性推理能力,GPT-5.2 Thinking 得分为 52.9%,创下「链式思维模型」新高,GPT-5.2 Pro 更进一步,达到 54.2%。

官方博客中提到一个令人印象深刻的案例:在统计学习理论的一个开放问题上,GPT-5.2 Pro 甚至直接给出了一个可行的证明方案。

这个问题来自 2019 年学习理论大会 COLT 上提出的未解难题:如果模型设定完全正确,数据呈标准正态分布,在这种教科书式的「干净」情况下,学习曲线是单调的吗?

研究人员没有先设计算法或提供证明思路,也没有输入中间步骤或提示,而是直接请求 GPT-5.2 Pro 给出完整证明。结果,模型提出了一种可行的解法,并通过人工验证、外部专家评审确认其正确性。

这说明 GPT-5.2 Pro 在一些有明确公理基础的领域,比如数学、理论计算机科学,已经可以发挥更实质性的科研辅助作用:探索证明路径、验证假设、发现隐藏的联系。

▲GPT-5.2 API 价格

性能表现这么猛,代价自然也不小。

Thinking 和 Deep Research 模式消耗的算力远超普通聊天机器人,因为它们得「思考」得更深。由于 OpenAI 现在用于模型推理的开销,大部分是直接掏真金白银,而不是用微软 Azure 的云服务积分抵扣。

长期往里砸钱,这种玩法能撑多久,真不好说。

总得来说,GPT-5.2 更像是对前两次模型升级的整合,而不是完全重构。

8 月的 GPT-5 是架构重启,引入了可以在快速响应和深度「Thinking」模式之间切换的路由机制。11 月的 GPT-5.1 让系统变得更温和、更具对话性,也更适合智能体和编码任务。

现在的 GPT-5.2,则是要在这些优势的基础上,打造出更可靠的生产级模型。而且有一个非常重要的细节:这次推出的三款 GPT-5.2 模型,底层知识库都已经完成了更新。

GPT-5.2 已经开始在 ChatGPT 中陆续上线,优先开放给付费用户。GPT-5.1 还会在「传统模型」选项中保留三个月,之后就正式下线了。

API 那边也同步开放,开发者已经可以用上了。价格比 GPT-5.1 贵一些,但 OpenAI 说因为 token 效率更高,实际总成本反而更低。

一个坏消息,和一个好消息

除了模型本身,OpenAI 的商业化上也有两个极具反差感的消息。

虽然这次发布并没有推出新的图像生成模型,但今天 OpenAI 跟迪士尼达成了三年授权协议。

用户可以生成包含迪士尼、漫威、皮克斯和星球大战等 200 多个角色的社交视频,部分生成视频还能在 Disney+上播放。

作为交换,迪士尼向 OpenAI 投资 10 亿美元,还会成为重要客户。内容 IP 加 AI 生成,这背后想象空间确实挺大。

另一个值得关注的消息是,ChatGPT 的「成人模式」终于有了明确时间表。

随着越来越多 AI 聊天机器人涉足成人内容,OpenAI 也不打算当圣人了。根据彭博社报道,Fidji Simo 已经明确该功能预计 2026 年第一季度上线。

在此之前,OpenAI 会继续优化年龄识别功能,确保未成年人自动启用内容保护机制。目前年龄预测模型正在部分国家进行早期测试,以评估识别青少年的能力,并确保不会误判成年人。

面对 Google Gemini 的步步紧逼,OpenAI 选择用 GPT-5.2 这套组合拳来回应。它更快、更强,也更像一个成熟的商业产品。

与此同时,一边拥抱迪士尼的米老鼠,一边准备推出成人模式,OpenAI 既要保持技术领先,又要快速变现;既要占领企业市场,又不放过任何流量入口。

幸运的是,迎来十周年节点的 OpenAI 最终还是演好了这出反击大戏。

▲ 还有一个小彩蛋

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


彭博:中国AI初创企业MiniMax智谱最快下月赴港上市

11 December 2025 at 15:15

美国媒体报道称,中国人工智能(AI)初创企业MiniMax和智谱,最快在下月赴香港上市。

彭博社星期四(12月11日)引述知情人士报道上述消息。

据报道,上述两家AI初创企业被视为美国AI巨企OpenAI的可能竞争对手。知情者称,总部位于上海的MiniMax最快将于明年1月赴港上市。智谱也规划在同个时间到香港上市。两家公司都获得阿里巴巴集团和腾讯控股等中国科技巨企的支持。

知情人士称,MiniMax赴港融资规模估计达数亿美元(1美元约等于1.29新元)。彭博社7月报道称,原本计划在中国大陆上市的智谱考虑将首次公开募股(IPO)计划转移至香港。

知情者称,上市计划细节仍在商讨中,或将出现变动。相关计划仍需获得中国证监会批准。

MiniMax和智谱代表都拒予置评。

公开资料显示,MiniMax是上海稀宇科技有限公司旗下品牌,专注于自主研发多模态大模型。智谱是由清华大学计算机系技术成果转化而来的公司,致力于打造新一代认知智能通用模型。

MiniMax 闫俊杰和罗永浩四小时访谈:走出中国 AI 的第三条路,大山并非不可翻越

By: 李超凡
11 December 2025 at 12:00

当整个 AI 圈都在为 DAU(日活跃用户数)和融资额焦虑时,MiniMax 创始人闫俊杰却表现出一种近乎冷酷的淡漠。

坐在罗永浩对面的闫俊杰,并不像一位掌管着 AI 独角兽企业的技术新贵。

他拒绝谈论改变世界,反而坦承恐惧。那种恐惧不是来自商业竞争,而是来自技术本身——当模型的能力开始超越人类时,创造者反而成了最先感到不安的人。

只要是一个东西能被量化,模型就一定会强于人,或者一定是能到最好的人类的那一档水平。所有做得比较成功的模型,在做出来之前都会有点害怕。

据晚点采访,在 MiniMax 内部,互联网行业奉为圭臬的 DAU ,被闫俊杰直接定义为「虚荣指标」。

在巨头环伺、算力短缺、热钱褪去的 2025 年,MiniMax 正在进行一场关于认知的修正:不再沿用移动互联网的逻辑,即通过大规模投放换取增长、通过堆砌功能留住用户,而是回归本质:把模型当作最重要的产品

在大模型时代,真正的产品其实是模型本身,传统意义上的产品更像是一个渠道。如果模型不够聪明,产品做得再好也没有用。

在罗永浩和闫俊杰这期对谈里,我发现 MiniMax 这家 AI 公司从创业第一天就选择了注定与主流背道而驰的技术路径。

当所有人都试图寻找中国的 OpenAI 和 Sam Altman 时,闫俊杰却在试图证明「非天才」的价值。MiniMax 的故事不是关于天才的灵光乍现,而是一场关于如何在资源受限的缝隙中,通过极度理性地计算与修正,撕开一道通往 AGI 窄门的精密实验。

用 1/50 的筹码通往 AGI

MiniMax 过去三年的技术路线,表面看是一连串孤立的赌注,实则暗藏着一条统一的逻辑线索:在资源受限的前提下,如何用更聪明的方式优化,而非更多的算力堆砌,逼近 AGI 的上限

当行业还在卷文本时,MiniMax 做了一个在当时看来极度冒险的决定:创业第一天就押注全模态。闫俊杰后来解释说,他们一开始就想得很清楚,真正的 AGI 一定是多模态的输入、多模态的输出。

三年多前创业时完全没有现成的技术路线,他们的策略就是每个模态至少先走通,等时机成熟再融合。这种坚持在当时备受质疑——业界主流认为应该先聚焦单一模态做到极致。

但闫俊杰的逻辑是,AGI 的本质是多模态融合,如果现在不同步推进,等到需要融合时技术债会成为致命伤。这种非共识的坚持,让 MiniMax 在 2025 年拥有了全球音频第一、视频第二、文本稳坐第一梯队的全模态能力。

前不久 OpenAI 的 Sora 2 通过多模态融合取得了显著成果,这在一定程度上也印证了 MiniMax 早在创业初期就选择这一技术路径的前瞻性。

但更激进的是,闫俊杰在创业初期就打破了 AI 研究的传统模式。

这是公司刚组建时打破的第一个认知——把大模型做好这件事一定不能迷信之前的经验,得用第一性原理拆开来看。大概在四五年前,人工智能领域大家追求的是写很多数学公式,把理论搞得很好、很花哨。

但这代人工智能最核心的其实就是 Scaling(缩放定律),就是让它能够用最简单的方法把效果做得更好,并且随着数据跟算力变多,效果就能够持续往上涨。

闫俊杰的技术直觉源自 2014 年在百度的实习经历。那时 Anthropic 的 CEO Dario Amodei 也在百度实习,正是在那里他发现了 Scaling Law 的雏形。

闫俊杰说,Scaling Law 其实在 2014 年做语音识别时就已经被发现了,但真正被广泛认知是大概 2020 年左右。「六年前就有了,并且那件事发生在中国公司,所以后面的事就有点遗憾。」

这段往事让闫俊杰意识到,中国并非没有机会,而是错失了把技术洞察转化为产业优势的时机

现实是残酷的。闫俊杰很清楚中美之间的差距。他算过一笔账:美国最好的公司的估值是中国创业公司的 100 倍,收入基本上也是 100 倍,但技术可能就领先 5%,花的钱大概是 50 到 100 倍之间。

那为什么中国的公司可以花他们 1/50 的钱就做出来效果,差距可能只差 5%?核心原因是中国的人才还是非常好的。而更关键的是,中国的算力比美国有很大差距,因此必须得用更加创新的方式,才有可能做到同样的效果。

原则可能是一样,但方法上,在每个模块上其实都有很多创新。

算力限制不一定是诅咒,反而能成为倒逼创新的鞭子

这就解释了为什么 MiniMax 从 2023 年起就率先探索 MoE 架构,为什么在 2025 年敢于押注线性注意力机制,又为什么在 M2 模型中回归全注意力机制。

每一次技术选择,都是在有限资源下寻找质量、速度、价格的三角平衡

如果说 DeepSeek的逻辑是「用极致的工程优化榨干每一分算力」,那么MiniMax 就是在通过算法突破和机制创新在有限资源中撬动更大可能。

一个稳扎稳打,一个剑走偏锋。

其中一个出奇的创新, 是 MiniMax 在模型推理机制提出的「交错思维(Interleaved Thinking)」,让模型在「动手做事—停下来思考—再动手」的循环里推进任务。

这一新的机制很快推动了 OpenRouter、Ollama 等国外主流推理框架的适配支持,也带动 Kimi 和 DeepSeek 等国内模型陆续补齐类似能力。

但这些成果背后,更值得追问的是:一支没有硅谷海归坐镇、被外界视作「草根」的团队,如何做出全球领先的模型?

闫俊杰的回答出人意料。

AI 不是玄学,而是可以被第一性原理拆解的工程问题,比如算法该怎么设计,数据的链路该怎么搭建,训练效率该怎么优化,每个东西都有非常明确的目标。

正是基于这一判断,让闫俊杰放弃了寻找「天才」,转而相信科学方法论可以让普通人发挥非凡价值。 他还提到,公司的海归是不少的,但真正能起到关键作用的同学,很多人基本上都是第一份工作。

在 MiniMax 会议室墙上有一行字——Intelligence with Everyone,这是闫俊杰创业的初衷,也是不少人选择加入 MiniMax 的理由。

这行字今天也正在成为现实,全球超过两百个国家和地区的用户正在使用 MiniMax 的多模态模型,其中既有 2.12亿用户,也有 10 多万企业和开发者来创造更多产品和服务。

非天才主义的 AI 掌舵人

如果说技术路线的非共识是显性的,那么闫俊杰本人的成长轨迹,则是一场关于「反脆弱性」的修行。

闫俊杰出身河南小县城,在资源极度匮乏的环境下培养了极强的自学能力。

上小学的时候自己会看很多书,而且这些书有可能不应该是那个时间点的人来看的。比如很多高中甚至大学的书,上小学的时候提前就看。我爸爸是教初中的,就开始看初中的东西,上初中的时候就开始看高中的东西,高中的时候又开始学微积分,那些东西其实也没有人教,就是自己看。

小学自学初中,高中自学微积分——这种不受环境限制、超前学习的特质,贯穿了闫俊杰的整个创业生涯。当别人在等待导师指点时,他已经通过第一性原理自我拆解问题;当别人在抱怨资源不足时,他已经通过极致的自学能力补上了差距。

但自学能力并不意味着一帆风顺。这和闫俊杰在商汤受到的「残酷训练」不无关系。那时候他开始意识到要真正做一个最好的东西,就做了人脸识别,从倒数到第一大概花了一年半。

这一年半是非常痛苦的,每次技术测试都是倒数第几名,这种煎熬足以击垮大多数人。 但闫俊杰没有放弃,反而从这段经历中提炼出了核心方法论:一定要做取舍,一定要选一些更加长期、能够根本性发生变化的东西,而不是去做一些修补的东西

经历这事之后,最核心的还是对自己这些最底层的判断有信心。

这段磨炼锻造了闫俊杰两个关键特质:一是极致的取舍能力,愿意放弃短期修补,聚焦长期突破;二是极高的心理韧性,能够承受长周期的失败和质疑。

这两个特质,恰恰是 MiniMax 能够在技术路线上坚持非共识这种近乎「佛系」的定力,让闫俊杰在硅谷银行危机、模型训练失败等困境中都能保持冷静。

中国 AI 的第三条路

MiniMax 的故事讲到这里,一个更大的问题自然浮出水面:当人才培养需要时间,技术追赶需要周期,中国 AI 公司靠什么在当下就建立自己的生存空间?

MiniMax 不一定是标准答案,但闫俊杰倒是有三个创业至今一直坚持的原则:

第一,不做项目,只做用户;第二,国内海外同时做。

2022 年,国内大厂还在观望 AI 是否值得投入,创业公司普遍选择 ToB 路径(做项目、卖解决方案)以求快速变现。但闫俊杰选择了最难的一条路:ToC,并且从第一天就瞄准全球市场。

因此,闫俊杰选择在海外更激烈的竞争中打磨技术,而非卷入国内与巨头的流量争夺。事实证明,这是正确的——MiniMax 在海外市场的 DAU 和付费率都维持在健康区间,而这正在成为它的护城河。

但最难的,是第三个原则:技术驱动 vs 用户增长。

这是对所有 AI 创业公司的终极拷问。闫俊杰坦白也纠结过,最终选择了前者,哪怕这意味着短期数据的牺牲、中层的流失和外界的质疑。

通过模型能力推动产品和业务发展,或者通过移动互联网时代的增长方式来发展,两者有可能都是对的,但它们是没法共存的。最后我们发现技术驱动的这种方式才适合我们。

在技术驱动的战略下,闫俊杰做出另外一个关键选择:开源。

年初 DeepSeek R1 横空出世后不久,闫俊杰曾表示,如果可以重新选,应该第一天就开源。在和罗永浩的对谈里他再次谈到开源。

实际上开源这件事,在手机操作系统上其实都发生过。苹果是闭源的,安卓是开源的,第二名后面的人必须得开源才有自己的独特定位,才能发出新的生态。

为了让我们能够进展,需要别人有选择我们的理由,模型的开放性恰好是一个非常重要的理由,因为它可以让你有足够强的技术信任,知道你的研发能力,也愿意更加深度来合作。

而 MiniMax 也延续着 DeepSeek 掀起的开源浪潮, MiniMax M2 发布后,大模型分析平台 Artificial Analysis 是这样介绍的:

中国 AI 实验室在开源领域持续保持领先地位。

MiniMax 的发布延续了中国 AI 在开源领域的领先地位,这一地位由 DeepSeek 在 2024 年底开启,并由 DeepSeek 的后续发布、阿里巴巴、智谱、和 Kimi 等公司持续保持。


最近全球模型聚合平台 OpenRouter 联合a16z 发布了一份报告 State of AI 的100 Trillion Tokens ,可以看到 M2 开源之后,快速受到了全球开发者欢迎和采纳。

中国开源模型在全球使用量占比从 2024 年初的 1.2%,现在这个数字已经飙升至 30%,全球开源生态的重心已经向中国倾斜。

但这场竞赛远未结束。闫俊杰的判断是,算力和芯片的物理限制,决定了模型参数量和成本是有天花板的。在一个有限的参数量的情况下,不同的人来做不同的取舍,就一定会有些不一样的成果。

AI 不会一家独大,但也不会百家争鸣,最终会收敛到少数几家基于不同取舍的共存格局。

罗永浩关于「中国错失 GPT-3.5」的追问,闫俊杰展现出了一种务实的乐观。他表示把技术做好最重要的东西,说到底其实是两个词,一个是想象力,一个是自信

美国那些企业很多浪潮是他们引领的,所以有自信在,要引领这个行业。在中国有些产业里面其实也是这样的,比如通讯、还有其他领域。

至少人工智能这个行业目前还没有到引领这个地步,但这个事情已经越来越具备了。

这或许就是中国 AI 公司需要走出的第三条路:

用更聪明的架构设计,对抗算力差距;

通过科学的组织进化,培养 AI 原生人才 ;

在夹缝中长出自己的形状,而非附庸于巨头。

MiniMax 的故事还在继续,中国 AI 的篇章墨迹尚未干。胜负不由起跑线决定,而由你选择在哪条路上、用什么样的节奏、坚持多久来定义。

闫俊杰在访谈中说道:

再往后三年看,即使不是我们,也会有中国其他的人能够做到这件事。

三年后,会是谁?又会用怎样的方式?

没有一部续集如此令人期待,因为我们都会是其中的角色。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


不装了,偷师国产 AI 模型,Meta 加班裁员两手抓,救命稻草「牛油果」还闭源了

By: 莫崇宇
11 December 2025 at 10:16

一个叫 Avocado(牛油果)的神秘项目,正在 Meta 内部紧张推进。

虽然项目名字听起来像是什么新款沙拉或者健康食品,但这其实是 Meta 押上全部身家要做的下一代 AI 模型。

据 CNBC 报道,Avocado 由 Meta 新任首席 AI 官、28 岁的 Alexandr Wang 领导的 TBD Lab 负责研发,原计划在 2025 年底发布这个模型,但目前时间已经推迟到 2026 年第一季度。

更重要的是,Avocado 最终可能采用闭源方式,这意味着开发者将无法自由下载其参数和相关软件组件。

更有意思的是,据彭博社援引知情人士消息称,Meta 旗下的 TBD 团队在训练 Avocado 模型的过程中,使用了多个第三方模型进行蒸馏学习。其中包括 Google 的 Gemma、OpenAI 的 gpt-oss 以及阿里的 Qwen 模型。

这种做法本身并不罕见,通过蒸馏学习从强大的模型中提取知识是 AI 领域的常见技术。但对于曾经高调宣扬开源、试图建立自己 AI 生态的 Meta 来说,如今转而借鉴竞争对手的模型,多少有点打脸的意味。

Meta 发言人对此的回应相当官方,称模型训练工作按计划进行,目前没有重大时间变动。

但业内人士心里都明白,这个项目关系到 Meta 能否在 AI 竞赛中追上 OpenAI、Google 和 Anthropic。如果 Avocado 扑街,Meta 在 AI 领域可能就真的要被甩出第一梯队了。

实际上,在 Avocado 尚未面世之前,Meta 在产品端已经遭遇了一次惨败。

今年 9 月匆忙上线的 AI 短视频平台 Vibes,被寄予厚望要对标 OpenAI 的 Sora 2,结果却惨遭市场打脸。Appfigures 数据显示,Meta AI 在 iOS 免费应用排行榜上仅位列第 97 名,而 Sora 2 则高居第 3,并逐步攀升。

虽然 Sora 最近也被传出用户黏度下降的情况,但当两款产品几乎同时发布,Vibes 非但没能成为话题爆款,反而被 Sora 2 压着打。很多人甚至不知道 Meta 新发布了这个产品。

多位前员工和内容创作者告诉 CNBC,Vibes 仓促上线,缺乏如逼真对口音频等关键功能。
前 GitHub CEO Nat Friedman 主导了这个项目,现在他正面临巨大压力,被要求尽快推出真正的爆款 AI 产品。知情人士称,Meta 多个 AI 团队都在承压,70 小时工作周成为常态,同时全年进行了多轮裁员与重组。

这种节奏,像极了一家被逼到墙角的初创公司,而不是市值万亿的科技巨头。

从 AI 赢家到被质疑,不过一年时间

今年是 Meta AI 的坎儿年。

去年九月,意气风发的扎克伯格还站在 Meta Connect 的舞台上,信心满满地宣称 Llama 将成为业内最先进的 AI 模型,让所有人都能受益于人工智能。

那时的他,像极了一个布道者,向世界传递着开源 AI 的福音。

然而仅仅一年后,风向就变了。到了两个月前的财报电话会议上,扎克伯格对 Llama 的提及只剩下了一次。那个曾经被当作 Meta AI 战略核心的开源模型,正在悄悄让位给 Avocado 这个神秘项目。

这个转变背后,是 Meta 在 AI 竞赛中越来越明显的焦虑。

当 OpenAI 的 GPT 系列、Google 的 Gemini、Anthropic 的 Claude 接连发布重磅更新时,Meta 发现自己似乎被甩在了身后。尤其是,Google 在 AI 领域的投入正逐渐显现成效,而 Meta 却陷入了方向不明的泥潭。

为此,扎克伯格的应对方式简单粗暴,砸钱挖人。

今年 7月份,Meta 宣布成立超级智能实验室 MSL,将公司所有 AI 业务重组到这个新部门之下。紧接着,一场硅谷 AI 人才的扫货大战拉开帷幕。

最引人注目的一笔交易发生在同月,Meta 以 143 亿美元的天价引入了 Scale AI 的 28 岁创始人 Alexandr Wang 及其团队。

虽然 Wang 不是工程师,但被认为是业内最具人脉的AI创业者之一。

随后,扎克伯格和 Wang 展开疯狂招人,争抢顶级 AI 研究员,开出高达数亿美元的薪酬。据 OpenAI 首席研究官 Mark Chen 称,扎克伯格甚至亲自送自制的汤到 OpenAI 员工家门口,劝他们跳槽到 Meta。

Wang 被任命为 Meta 首席 AI 官,领导一个叫 TBD Lab 的精英小组。这个名字本身就很有意思,TBD 是「to be determined」的缩写,意思是待定。最初只是个临时代号,但因为太贴切了反而保留了下来,某种程度上也反映出 Meta AI 战略的探索性质。

除了 Wang,Meta 还挖来了前 GitHub CEO Nat Friedman,让他负责 MSL 的产品与应用研究,以及 ChatGPT 联合创始人赵晟佳。

这些重金引入的大佬带来了硅谷前沿 AI 研发的标准流程,彻底改变了 Meta 传统的软件开发文化。然而改变的代价是巨大的。

仅仅四个月后,Meta 就将 2025 年的资本支出预期从 660 亿至 720 亿美元调升至 700 亿至 720 亿美元。投资者开始担心,这么烧钱到底值不值。

质疑声四起,Avocado 将成为挽救声量的最后一道保障。

开源?闭源!Llama 4 失败成为转折点

Avocado 转向闭源并非无迹可寻。

报道中提到,Llama 4 在发布后未能吸引足够的开发者关注,同时基准测试分数「作弊」的行为使其备受诟病,进而也让扎克伯格开始重新思考开源战略。

据称,扎克伯格对 Llama 4 系列超大模型 Behemoth 的发展方向感到失望,最终放弃了该项目,转而寻求新的路径。

此外,扎克伯格在 7 月的一次表态中透露了这种转变的苗头。他说,我们需要严谨地控制风险,并谨慎选择开源内容。这与他此前在博文中「开源正迅速缩小与闭源的差距」的豪言壮语形成了鲜明对比。

MSL 新成立的超级智能实验室领导层对开源策略也提出质疑,他们更倾向于打造强大的闭源 AI 模型。虽然 Meta 官方一再表示其对开源 AI 的立场没有改变,但内部的风向显然已经转了。

Llama 4 的失败成为扎克伯格战略转向的关键节点,也引发了内部重大人事调整。

据知情人士透露,Meta 首席产品官 Chris Cox 在 Llama 4 失利后被调离原 AI 部门 GenAI,不再主管 AI 业务。这位在 Meta 工作多年的老将就这样从 AI 战略的核心圈子里出局了。

随后,扎克伯格开启了 AI 人才的扫货模式。

28 岁的 Alexandr Wang 被任命为首席 AI 官,领导 TBD Lab 这个精英团队。Avocado 正是在这个团队中研发的。
整个 MSL 的组织架构被拆分成四个主要部分。

TBD Lab 由 Alexandr Wang 领导,专注于 Meta 下一代大型语言模型研发,被视为 MSL 内部的「旗舰」团队。FAIR 基础 AI 研究团队是 Meta 原有的人工智能基础研究部门,专注长期前沿研究,在 MSL 重组中被纳入新架构。

产品及应用研究团队 PAR 由 Nat Friedman 领导,负责将 AI 技术整合到产品和消费应用中,定位为 AI 产品化和应用落地的桥梁。

MSL 基础设施团队则由 Meta 工程副总裁 Aparna Ramani 领导,负责支撑 AI 模型的大规模计算基础设施建设,确保 Meta 拥有足够的数据中心、GPU 算力和工程工具。

科研模式上,TBD Lab 主打一个「小而精」,整个团队只有几十名顶尖研究人员和工程师。Meta 首席财务官强调,这是一个高度人才密集的小团队,被设计为在一到两年内将 AI 模型推向前沿水平。

这个团队就坐在扎克伯格办公室附近,但运作方式却像一家独立的初创公司。

他们甚至不使用 Meta 内部的社交平台 Workplace,保持着高度的独立性。团队文化鼓励工程师快速构建原型并推动模型能力极限,采取「成果导向」的轻流程方式,偏重演示和实做,而非冗长的文档流程。

Nat Friedman 在 10 月的 Masters of Scale 峰会上透露了这种文化转变。

他说,Meta 现在的新口号是「要演示,不要写文档」。这种硅谷创业公司的做派与 Meta 以往多个部门协调、确保数十亿用户应用一致性的传统开发流程形成了鲜明对比。

然而这种转变也带来了文化冲击。

知情人士称,Wang 和 Friedman 的管理风格较为封闭,与 Meta 过往「工作公开透明」的文化形成鲜明反差。这两位新任高管是基础设施专家,而非消费者应用专家,他们带来的不仅是新的开发方式,还有完全不同的工作文化。

据《纽约时报》报道,在今年秋季的一些会议中,Wang 私下表示,他与扎克伯格的一些老将,比如首席产品官 Chris Cox 和首席技术官 Andrew Bosworth,在一些问题上意见不合。

分歧的焦点在于 AI 模型的发展方向。

Cox 和 Bosworth 希望 Wang 的团队专注于利用 Instagram 和 Facebook 的数据来训练 Meta 的新基础 AI 模型,以提升社交媒体信息流和广告业务。但正在开发 Avocado 的 Wang 却拒绝了这一建议。

据称他认为,团队的首要目标应该是追赶 OpenAI 和 Google 的 AI 模型,而不是过早地专注于实际产品。

这种分歧反映出 Meta 新 AI 团队与公司其他高层之间日益显著的对立氛围。根据多位现任和前任员工的说法,TBD Lab 的研究人员认为,Meta 的许多高管只关心如何改进社交媒体业务,而他们的目标是打造一种类似「神」的超级智能。

在最近一次会议中,Cox 曾询问 Wang 是否可以像 Google 利用 YouTube 数据训练 AI 模型一样,使用 Instagram 数据来训练 Meta 的 AI,以优化推荐算法。

但 Wang 回应说,将具体业务需求纳入训练过程会拖慢打造超级智能的进度。

之后他还私下抱怨称,Cox 过于专注改进自己负责的产品,而忽视了前沿 AI 模型的开发。是否最终三人达成一致,目前尚不清楚。

矛盾不仅体现在战略分歧上,还涉及到真金白银的资源分配。

据两位知情人士透露,Bosworth 近日被要求从他负责的虚拟现实与增强现实部门 Reality Labs 明年的预算中削减 20 亿美元,这笔钱被转移到了 Wang 团队的预算中。

此外,Meta 内部也有人对计算资源的分配产生争议。

到了秋天,一些负责 Instagram 和 Facebook 内容算法的员工提出异议,认为数据中心的算力应优先用于改进推荐算法,而不是训练 AI 模型。他们指出推荐算法能直接带来收益,而 AI 模型目前还没有赚钱。

对于报道中提到的 Wang 与 Cox、Bosworth 之间的矛盾和 20 亿美元的预算,Meta 发言人 Dave Arnold 在一份声明中予以否认。

与此同时,扎克伯格也并未完全放权。

Aparna Ramani 在 Meta 任职近十年,被指定负责分配 MSL 的计算资源,显然是扎克伯格安插的「自己人」。此外,Meta 还调任

Vishal Shah 为 AI 产品副总裁,与 Friedman 合作。Shah 曾是 Reality Labs 负责人,被视为扎克伯格的忠实执行者。

这种权力平衡的微妙设计,在 10 月迎来了一次大规模调整。

Meta 宣布将在 MSL 部门裁减约 600 个岗位,具体受影响的团队包括原 FAIR 基础研究组、部分产品型 AI 团队,以及 AI 基础架构团队。而新成立的 TBD Lab 不受此次裁员影响,这表明 Meta 对这个核心研发团队寄予厚望。

据 Axios 报道,MSL 裁员消息在 10 月 22 日由 Alexandr Wang 通知员工。Wang 在内部备忘录中强调,精简团队有助于加快决策、提高每位成员的责任范围和影响力。他暗示过去团队人头过多、汇报链条过长,反而降低了执行效率。

根据 Meta 的说明,此次裁员旨在使 AI 团队「更加灵活和响应迅速」。

这次裁员并非出于财务困境,而更像是战略重组的一部分。FAIR 团队作为长期研究部门,一些纯学术项目可能难见短期产出,被视为与当前「提速赶超」的战略不符,因此成为裁撤重点。

更微妙的是,这次裁员的时机加速了图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 的离职出走,并顺势而为地创办初创公司。

LeCun 是 FAIR 的联合创始人之一,他的离开加上此前一些研究员出走,已经给 FAIR 团队带来了士气波动。Meta 干脆借此机会重组团队,将旧 FAIR 人员和项目裁撤或并入新的产品线。

裁员释放出这样的信息,Meta 将不再无限供养长期研究,而要全力以赴追求短期成果。这对尚留 Meta 的研究人员更是一种震慑和鞭策。

基础设施转型,押注超级数据中心

在继续开发 Avocado 的同时,Meta 也在改变其基础设施建设策略。

知情人士称,公司正更多依赖第三方云计算服务,如 CoreWeave 和 Oracle,来开发和测试 AI 功能。这是一个有意思的转变,Meta 曾经以自建数据中心著称,但在 AI 时代,快速获取算力的重要性超过了一切。

与此同时,Meta 也在建设自己的大型数据中心。

10 月,Meta 宣布与 Blue Owl Capital 成立合资企业,共同投资 270 亿美元在路易斯安那州 Richland Parish 建设超大型 Hyperion 数据中心。Meta 表示,这项合作为其「实现长期 AI 愿景」提供了「速度和灵活性」。

值得注意的是,这笔 270 亿美元的融资协议宣布的时间,恰好就在 MSL 裁员 600 人的同一周。

这显然不是巧合。

Meta 在缩减人力的同时,通过外部资金来确保硬件投入不减,以支撑其大模型计算需求。从人员和财务两方面为 Meta AI 业务「减负」,让 MSL 可以轻装上阵。

此外,Meta 还在产品中测试其他 AI 模型。例如,Vibes 使用了 Black Forest Labs 和 Midjourney 提供的模型,后者 Friedman 担任顾问。

这说明 Meta 并不排斥使用第三方模型,只要能快速推出产品。

尽管 AI 战略陷入混乱,Meta 的核心业务数字广告依然稳健。年度营收超过 1600 亿美元,广告营收仍以每年超 20% 的速度增长,这得益于 AI 优化和 Instagram 的持续走热。

投资者也认可 Meta 通过 AI 提升效率、精简结构的做法。Meta 股价虽然在 2025 年表现不佳,远落后于 Google 母公司 Alphabet,但整体还算健康。

当然,扎克伯格的野心不止于此。扎克伯格曾表示,如果 Meta 不大胆投入,就有可能在未来 AI 主导的世界中被边缘化。

Meta 上周也被传出风声,将削减虚拟现实和元宇宙相关投入,转向更加受欢迎的 AI 智能眼镜产品。这个产品由 EssilorLuxottica 与 Meta 联合开发,算是少数几个看得见摸得着的 AI 落地应用。

这是一个赌注。扎克伯格试图用赚钱的广告业务补贴烧钱的 AI 研发,希望在未来的 AI 时代占据一席之地。

至于能否成功,以及 Avocado 能否在 2026 年第一季度如期发布并引起市场轰动,都将决定扎克伯格这场豪赌的成败。

现在的 Meta AI 就像一个站在悬崖边的赌徒,手里攥着最后一把筹码,眼神里全是疯狂。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


特朗普开绿灯后 传字节阿里有意订购H200晶片

11 December 2025 at 09:49

知情人士称,美国总统特朗普宣布,准许美国人工智能(AI)巨企英伟达对华出售H200晶片后,中国科企字节跳动和阿里巴巴已向英伟达询问购美H200晶片事宜。

路透社星期三(12月10日)引述四名知情人士,报道上述消息。

其中两名知情者说,只要北京开绿灯,上述两家中国科企将向英伟达H200晶片下大订单。其中一人称,两家公司仍对供货情况表达关切,因此向英伟达询问出货详情。

在特朗普决定让英伟达向中国市场出售台湾制造的H200晶片前,英伟达对华售卖的最先进AI半导体是H20晶片。H200晶片的算力约为H20晶片的六倍。

中国政府尚未对特朗普的上述宣布表态。路透社报道,北京近几个月禁止政府资助的数据中心和中国科企购买英伟达AI晶片,导致英伟达在中国的市占率大幅萎缩。

美国科技媒体The Information星期三报道,中国监管机构聚集阿里巴巴、字节跳动和腾讯等科企代表,询问他们对H200晶片的需求。

报道引述消息人士称,中国官员对这些公司说,他们将很快得悉官方的决定。

两名熟悉英伟达供应链的知情者称,H200晶片目前的产量非常有限,英伟达专注生产最先进的Blackwell晶片和即将推出的Rubin晶片。

知情人士称,中国科企想采购H200晶片,以提升训练AI模型的能力,因为目前所使用的国产AI晶片更适用于训练推理模型。

路透社查阅逾百份投标案和学术报告发现,中国顶尖大学、数据中心企业,以及与中国军方有关联的实体,设法通过灰色市场渠道采购H200晶片。

ChatGPT 三周年之际,我怀念我写得很烂的时候

By: Selina
10 December 2025 at 22:14

米色墙纸

我翻了翻我向 ChatGPT 提的第一个任务是什么:不出所料,果然是文字工作,写一个英语文书。后面还有随大流,让它帮我做一个减肥食谱。当年标志性的黑绿配色,真是唤醒人的记忆。

那时的 GPT 还不像现在这般「巧言令色」,也不如现在智能,长长的文本我要截断成几节,每一次发过去都要在开头附上 prompt,保证它理解任务。

三年前,ChatGPT 像彗星一样出现,不只是它在事务型工作上的便捷和智能,恰恰是它在这种对话、探讨当中,闪现出了「像人一样」的苗头。不管是记忆能力,还是绝不重复的语句,它第一次让人意识到,纯粹的二进制语言,居然可以有这样的表现。

它逻辑通顺、情感充沛、几近完美。从此「表达的门槛」不存在了,语病、错字、词不达意,都可以交给吸收了亿万数据的大语言模型,由它生产不会出错的成品——甚至只需一次输入。

但代价是什么?文学评论中有一种说法叫「米色散文 beige prose」,指的是语言平实、构简洁的行文风格,类似于中文里的「描白」。这种文风简练、舒适,但也因此缺乏识别度,像米白这种颜色一样,不会出错也不会出彩。

像极了 ChatGPT 会给出的东西,尽管现在三年过去,模型的更新一次比一次强,但始终不会脱离 LLM、transformer 最最底层的核心:概率。

概率的暴政

其实平心而论,GPT 的口吻和腔调如今已经形成一种「AI 风味」,还真有了一定的识别度。在 GPT 5.1 上线之前,在 OpenRouter 平台以隐名模型上线,也被网友通过和往届模型的回答相似性做比较,找出来是 OpenAI 的出品。

ChatGPT 几代以来,各自都有不同的文风:经典的「不是……而是……」,更早一点的「接住」「我在」,历久弥新的破折号、加粗、还有不分青红皂白就出现的 emoji 表情符号。

虽然说,这些小花招并不是总讨人喜欢,但不会出大错:本质上,大语言模型是在「预测下一个词」,它依据概率行事。只要踩着最大公约数走,又能坏到哪儿去呢?

不过,一个冷知识是,模型算法并不总是选择预测中概率最高的词——这解释了为什么同一个 prompt 会得到同一个大意下不同的结果。算法工程中会引入 Temprature、Top-P、Top-K 等方法,为结果注入随机性。

为了符合人类反馈强化学习(RLHF)中对「有用性」和「安全性」的定义,这些参数带来变化,但它们仍然必须在「概率较高的一组词」里抽样。所以算法并不完全输出平均值,而是会画一个圈,在不出大错的情况下,进行一些小小的发挥。

于是,三年当中,从小红书里的探店文案,到年终总结里的自我剖析,再到营销号的起号文案——你会发现一种惊人的相似性,所有的文字都变得通顺了,所有的观点都变得「不是……而是」了,偶尔有些不错的发挥,可总体而言,所有的情绪也都变得粗钝了。ChatGPT 带来一种无风险的创造力,也是概率的暴政。某种程度上,算法厌恶惊喜,它的本质是平滑。

不过无论如何,AI 味道的内容已经渗入我们的生活,我们也逐渐不再为此暴跳如雷。我们和 AI 形成了一种诡谲的默契:为了效率与得体,可以心甘情愿地让渡了部分性格。

思维的逆行

如果说前两年我们在训练 AI,那么第三年,AI 开始训练我们。尤其到了第三年时,各种应用工具都越来越丝滑,也越来越全能的情况下,用户和 AI 的关系,走向了一种奇异的「共生」。

这体现在,我们已经分不清谁在训练谁。

起初,我们以为自己在训练 AI。我们给它数据,给它反馈,教它像人一样说话。

除了工程师,没有人是为了训练它而用,都是要解决具体问题的,需要它交付答案乃至更复杂的成果的。于是,为了得到更精准的答案,我们开始钻研「提示词工程」(Prompt Engineering)。我们学会了把复杂的、充满歧义的人类想法,拆解成条理清晰、逻辑递进的指令。

在提问之前,我们的脑子里会先进行一轮「预处理」,剔除掉那些过于感性、过于跳跃的念头,因为我们潜意识里知道:「AI 不明白这些个东西,要用它能听懂的方式下指令才行。」

使用工具的过程,就是在被工具形塑 ——这句话已经说倦了。所以,在一个强调平滑的大语言模型面前,我们也变了,变得更合乎逻辑,更有效率了,也更像机器了。

看着屏幕上飞速生成的文字,我们既感到「一切尽在掌握」的快感,又感到一种主体性流失的虚无在暗中扼住喉咙。

唯一留下的

「这也算更新?」到第三年时,ChatGPT 的更新已经完全不像曾经那样 引起惊呼,更多的是吐槽和埋怨。苹果用了十多年才做到的事,OpenAI 三年就做到了。

然而吐槽归吐槽,用还是在用。ChatGPT 如今是坐拥 7 亿用户的超级巨头,在它生日这一天,有很多的「生贺」——连罗伯特都酸了。

再联系到 GPT 5 上线时,全球各地用户对 4o 被强制下架的不满和抗议,你不得不正视一件事:我们和 ChatGPT 之间,还有一个关系维度叫「情感维度」。

越来越多的人在向 ChatGPT 倾诉那些无法对活人说出口的秘密。听起来很悲哀,但如果你真的体验过,你会发现其中的张力极其迷人:你知道屏幕对面是一堆冰冷的矩阵乘法,你知道它的「共情」只是基于统计学的模仿。但在某些时刻,这种「模拟的理解」比「真实的不耐烦」要温柔得多。

人类的倾听往往带着评判,带着「我早告诉过你」的傲慢,或者带着急于给出建议的焦虑。而 AI 只是倾听(或者说,处理),只是安抚,它提供了一种「无风险的亲密」,还是无条件的。

「论迹不论心」,何况 GPT 都没有心,在一个没有实体的对象面前,好像人才能真正意义上的卸下防备。

情感维度的张力,恰恰最能代表我们和 ChatGPT 之间的关系:常常帮助,总是交心,偶尔纠结。

这种关系,也代表了我们和人工智能的第一个阶段。三年挺长的,但又还很短,只是人类和技术漫长共舞当中,一小段浅尝辄止的舞步。

在下一个三年,又一个三年当中,我们会继续停留在这种充满张力的关系中,而我们所能做的,最「人类」的事情,就是保持那一点点偶尔的纠结——这样才能证明,那个坐在屏幕前的,依然是一个复杂、矛盾、无法被完全计算的人。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


真乐队退出,但AI冒牌却在Spotify「拼好歌」冲榜

By: Selina
10 December 2025 at 15:31

Spotify 的年度统计上周发布了,又到了用户一边转发,一边吐槽的季节——「这玩意儿也不准啊」。

但有比用户更崩溃的:明明已经和 Spotify 割席了,居然又「出现」在平台上。

这是来自澳洲的摇滚乐队 King Gizzard,这支乐队早在 7 月就因不满 Spotify 而主动下架了自己的全部歌曲,只留下了一个合作 Remix。

但他们的歌迷最近却发现了一支名为 「King Lizard Wizard」 的假乐队。上传的歌曲标题、歌词都逐字照搬 King Gizzard 的原作,甚至连歌曲名称都一模一样(比如冒牌乐队的《Rattlesnake》直接盗用原曲名和歌词)。用户在 Spotify 搜索 「King Gizzard」 时,会发现乐队已弃用的官方账号,下方却赫然推荐着这个山寨乐队——甚至在搜索结果中,假乐队的盗版《Rattlesnake》一度成为榜首。

山寨的现象从 Spotify 传到 YouTube,如此张冠李戴的现象令许多粉丝愤怒不已,这还是粉丝自己发现的,在 Reddit 上贴了出来后又觉得不对劲——这反而为山寨号引流了。

这桩大无语事件让 Spotify 平台在 AI 内容监管上的漏洞暴露无遗。假冒的 「King Lizard Wizard」 账号上线数周、积累了不菲的流量,后来才被移除——就连专辑封面也疑似 AI 生成。

更讽刺的是,其中一些假歌曲在元数据上还把 King Gizzard 主唱 Stu Mackenzie 列为词曲作者,简直明目张胆地蹭原创乐队的名气。明明是 Spotify 自己在 9 月时,宣称要出台新政策打击「垃圾内容、仿冒和欺骗」等行为,结果让这种 AI 山寨内容堂而皇之地混入了官方推荐位,包括 Release Radar 和 Discover Weekly 等歌单。

这已经不是疏忽,简直是对着人家乐队贴脸开大。

平台上的「音乐垃圾场」

King Gizzard 的遭遇并非孤例。近一两年来,Spotify 平台上充盈着各式各样以 AI 技术批量生成的音乐内容,从模拟知名艺人的盗版歌曲,到平平无奇的生成音乐,应有尽有——现在,轮到翻唱了。

流媒体巨头们对 AI 生成内容实在是太热衷了。腾讯音乐曾经推出过 「启明星 AI 作曲」项目,号称已有超过 2600 万首 AI 音乐作品经由其算法创作并发布,累计播放量破十亿次。酷狗的「星曜计划」也有专门的 AI 子榜单,而且有原创有翻唱。

最典型的当属红遍抖音的《第 57 次取消发送》,最早发布于今年五月,原本是女声,不久前也就是 11 月时被翻成男声版又火了一遍——这次,是 AI 的。

男声版的「音色」还是有明显的 AI 感,仿佛一边唱一边踩电门,但也不妨碍这个歌引发大量共情和讨论。有人说勾起了旧日回忆,有很强的熟悉感,听着仿佛回到了华语音乐的黄金年代。

可不熟悉么,拼好歌拼出来的——

当资本和技术狂飙突进地涌入音乐生产,传统的创作生态势必受到冲击。在这一背景下,华语音乐人面临的可能是比西方同行更复杂的局面。

同时,翻唱其实是音乐平台上,很重要的构成版块:例如 cover,remix,既是粉丝和音乐爱好者二次创作的方式,也是新人和小歌手积累人气的方式。

当 AI 用虚构的名字和头像伪装成人,不断灌出机器人流水线作品,是对原创歌手和翻唱内容的双重打击。很多此类 AI 虚拟歌手顶着花哨的包装、写着空洞的简介,却堂而皇之拥有数十万月听众和官方歌单推送。

「拥抱」AI

Spotify 也做过一些维护的动作,官方声称在过去一年内已移除上千万首涉嫌滥用算法的垃圾曲目,包含批量上传的雷同歌曲、标题堆砌关键词骗流量、以及「拆分长曲成短段以刷播次数」的作弊行为等。此外,Spotify 宣布提供新工具,允许创作者主动标注他们的音乐中是否使用了 AI 技术。

然而这些措施还是表面功夫偏多。大批 AI 音乐的祸根在于平台的运营逻辑:Spotify 强调歌单和无限播放模式,追求的是听众的停留时长,这种生态本就容易滋养垃圾内容和 AI 灌水。

再加上,Spotify CEO 丹尼尔·埃克本人也对 AI 技术非常热情,早在 2023 年便表示 AI 音乐「在文化上是好事,对 Spotify 也有利,因为创作者越多,平台提升用户参与和营收的机会就越大」。

典型的有「The Velvet Sundown」乐队,曾在 Spotify 上攒下逾百万听众,创作者后来才承认这不过是一场社交实验,音乐和照片都是伪造的。还有 「Echo Harper」 这样的虚拟摇滚歌手,被收录进 Spotify 精选的 「Just Rock!」 播放列表中。

▲The Velvet Sundown

有人愿意做,平台愿意买单,在这样的指导思想下,多快好省的 AI 内容自然正中平台下怀。

当不满累积到一定程度,抗争就此迸发。2023 年以来,越来越多的独立音乐人选择用脚投票,告别 Spotify。甚至一些乐队还会号召同行和听众一起「退出垃圾平台」。

创作歌手 Caroline Rose 选择只在黑胶和 Bandcamp 上发行新专辑,她直言「把我们的心血白白放上网免费听太蠢了」。Bandcamp 是一个链接歌迷和音乐人的「直销」平台,实行「付多少算多少」(Pay-what-you-want)的专辑下载方式,一般情况下艺人可获收益的 82%,且定期举办 Bandcamp Fridays 让艺人获得 100%销售额。

越来越多音乐人开始尝试跳出「一切都丢到流媒体」的套路,回归付费拥有音乐的传统:卖黑胶和磁带、举办付费直播演出、进驻 Bandcamp 等等。

相比之下,国内的情况更为复杂一些。虽然 AI 生成的音乐的确在逐渐铺开,但还没有到鹤唳风声的程度,也就没有激起太多对平台的抵制。《第 57 次取消发送》不仅在抖音等社交平台上大受欢迎,还登上了综艺节目,由真人明星演绎。

从 King Gizzard 乐队怒删曲目、却被 AI 克隆鸠占鹊巢的荒诞,到大批独立音乐人愤而出走 Spotify、寻求他途,这一系列事件背后揭示的是同一个本质:音乐被当作纯粹的数据产物和工具来榨取价值。

音乐创作的能力越来越不稀缺了,「拼好歌」听上去离谱,但「拼」出来的歌却正在收到欢迎。未来越发稀缺的,可能是人们对音乐的用心聆听,对创作者真诚的支持。当越来越多的人意识到这一点,也许音乐产业才有机会走上一条更尊重创作者、更有温度的道路。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


这届年轻人,手机会「痛」

9 December 2025 at 14:27

这一次告白,我不要猜你喜欢

来,看个视频,放松下。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


突发|苹果高管地震还在持续:芯片负责人考虑离职

By: 杜晨
7 December 2025 at 09:42

苹果的人事变动,仍在持续。

过去一周,苹果接连失去了人工智能主管 John Giannandrea(退休)、设计负责人 Alan Dye(跳槽 Meta)、法务负责人 Katherine Adams(退休)和政府事务主管 Lisa Jackson(退休)。

此前,这四位高管全都直接向 CEO 蒂姆·库克汇报——这种级别的人事震荡在苹果历史上极为罕见。

更糟糕的是,据彭博社援引知情人士透露:负责硬件技术的高级副总裁 Johny Srouji 最近告诉库克,他正在「认真考虑」在不久的将来离职。

Srouji 是苹果最受尊敬的高管之一,也是苹果自研芯片战略的操盘手。他已经向同事透露,如果最终离开,绝对不会是「退休」,而是打算加入另一家公司。

这可能是库克任期内最动荡的时刻之一。

一场始料未及的「高管地震」

苹果的离职名单正在变得越来越长。

AI 主管 John Giannandrea 的「退休」,跟苹果在生成式 AI 领域的一连串失误有关。不仅底层的 Apple Intelligence 平台架构饱受延期和功能不佳的困扰,上层产品 Siri 的所谓「2.0 版」大规模改进计划,也落后了大约一年半。目前苹果计划与谷歌的合作来填补能力空白。

苹果在今年三月就开始让 Giannandrea 逐步退出职位,并且允许他留任到明年春天——苹果是一家很给面子的公司,给高管面子,更是给自己挽尊:过早分手会被视为公开承认问题的存在。

▲ John Giannandrea

设计老将 Alan Dye 的离职则更具戏剧性。他将前往 Meta 的 Reality Labs 部门,投奔苹果最激烈的竞争对手之一。在苹果内部,Dye 此前「液态玻璃」界面设计语言的主要坚持者,离职之前还在负责一款桌面机器人产品的界面设计。

据报道,Dye 的出走,部分因为希望将 AI 更深入地整合到产品中,以及对苹果在这一领域进展缓慢的失望。

法务方面,苹果从 Meta 挖来了 Jennifer Newstead 作为新任法律总顾问,接替将要退休的 Katherine Adams。Newstead 曾帮助 Meta 赢得与美国联邦贸易委员会的反垄断诉讼,这段经历对于苹果可能很有价值。Adams 将于 2026 年底退休。

环境、政策和社会事务副总裁 Lisa Jackson 也宣布退休。她曾在奥巴马政府担任官员。

早前,库克长期以来的二把手 Jeff Williams 也在担任 COO 十年之后正式退休了,将棒子交给了手下 Sabih Khan。

另一位资深苹果高管、首席财务官 Luca Maestri,在 2025 年初将大部分职权交给了同事,并将在不久后退休。

芯片掌舵者的去留困局

Srouji 的潜在离职,可能是最令人担忧的。

作为苹果自研芯片战略的核心人物,Srouji 是 M 系列和 A 系列芯片的最大功臣之一,让苹果在性能和能效方面获得了对竞争对手的巨大优势。

特别是他在 M 芯片上的工作,挽救了后 X86 时代的苹果电脑颓势。Mac 电脑成功转向自研芯片后,苹果在 PC 行业的市场份额大幅增长。

据彭博社报道,库克以及整个苹果高管层都在疯狂挽留 Srouji,包括提供更加丰厚的薪酬待遇,以及许诺在未来给他更多职权。

公司内部一些高管提出的方案是,将 Srouji 提升为首席技术官,负责硬件工程和芯片技术的大部分工作——这将使他成为苹果第二有权势的高管。

这是个非常「反传统」的做法:要知道,苹果公司历史上从未设立过正式的 CTO 职位,因为其组织结构是基于职能专长 (funciontal expertise) 构建,而非产品线或技术线。乔布斯确立了这个「规矩」,并且库克也一直在维护。

也正因此,设立 CTO 的做法可能会存在巨大的障碍。最大的障碍,就在于需要先把硬件工程负责人 John Ternus 确立为 CEO——然后才能把 Ternus 手里的硬件工程汇报线转到 Srouji 那里。

▲Johny Srouji

问题是,苹果可能还没准备好迈出这一步。根据此前爆料,库克至少要在 CEO 任上到 2026 甚至 2027 年——一种可能性是,库克或许会安排在 iPhone 20 周年,也即 2027 年,正式交棒 CEO。

此外,据知情人士透露,即便获得了 CTO 的职位,Srouji 仍然希望不用向 CEO 汇报,而是可以有极大的自主权——这对层级森严,汇报体系多年以来一成不变的苹果来说,同样是个麻烦。

如果 Srouji 最终离开,苹果很可能会从他的两位得力副手中选择接替者:Zongjian Chen 或 Sribalan Santhanam。

AI 人才大逃亡

在高管层动荡的同时,苹果的工程师团队也在经历人才流失,特别是在 AI 领域。 Meta、OpenAI 和各种初创公司正在疯狂挖苹果软件/硬件工程的墙角。这让苹果试图追上 AI 浪潮变得难上加难。

曾负责 Siri 的 Robby Walker 在去年十月离开公司;他的继任者 Ke Yang 在这个职位上只待了几周就离职,加入了 Meta 新成立的超级智能实验室。

AI 模型主管 Ruoming Pang 的离职更是引发了连锁反应,他和 Tom Gunter、Frank Chu 等同事一起去了 Meta——当时,Meta 号称开出上亿美元的年包从苹果、OpenAI 等公司挖人。当时,苹果的 AI 组织士气严重低落,几周内就跳槽了十几位优秀的 AI 研究员。 苹果越来越多地使用外部 AI 技术,比如谷歌的 Gemini,也让从事大语言模型工作的员工感到担忧。

苹果的 AI 机器人软件团队,前不久也经历了大规模离职,包括其负责人 Jian Zhang,他同样加入了 Meta。

代号为 J595 的桌面设备的硬件团队也在大量流失人才,其中一些人前往了 OpenAI。除了负责「液态玻璃」之外,Alan Dye 也是监督该产品软件设计的关键人物。

Alan Dye 手下的用户界面部门同样遭受重创,2023 年至今已有多名团队成员离职。知名设计师、前《连线》杂志创意负责人 Billy Sorrentino 也去了 Meta。

▲Alan Dye 和 Billy Sorrentino

设计团队的代际断层

苹果的硬件设计团队,是这家公司的绝对灵魂——然而在过去五年里,这个灵魂几乎被掏空了。

许多员工跟随前设计主管 Jony Ive 去了他的工作室 LoveFrom,或者去了其他公司。不仅如此,Ive 跟 Sam Altman 的关系密切,帮助其从苹果疯狂挖人,几乎成为 OpenAI 的 AI 硬件「首席招募官」。

OpenAI 成为了苹果人才流失的主要受益者。目前已经聘请了数十名苹果工程师,背景涵盖 iPhone、Mac、相机技术、芯片设计、音频、手表和 Vision Pro 头显等广泛领域。

据彭博社报道,OpenAI 从苹果挖走了 Vision Pro 光学系统的负责人、苹果显示技术高级总监 Cheng Chen。

今年九月,在秋季新品发布会上声优出演介绍 iPhone Air 的设计师 Abidur Chowdhury,也离开苹果加入了一家 AI 初创公司。作为苹果的后起之秀,Chowdhury 在内部被认为是接近于 Tony Fadell 的优秀工程师,他的离职让同事们感到意外。

甚至连苹果大学的院长也离开了:这个内部项目旨在保护公司的文化和实践,其院长 Richard Locke 在今年夏天离职,加入麻省理工学院担任商学院院长。

权力格局的重新洗牌

人事变动正在重塑苹果的权力结构,更多权力现在流向了四位高管:

硬件工程 John Ternus、服务业务 Eddy Cue、软件工程(包括 AI) Craig Federighi 和新任首席运营官 Sabih Khan。

据彭博社报道,Ternus 是苹果「候任 CEO」的最热门人选,他将在明年苹果 50 周年庆典中担任主角,进一步提升他的知名度。

他还被赋予了更多机器人和智能眼镜方面的责任——这两个领域被视为未来的增长动力。

长期担任用户界面设计师的 Steve Lemay 接替了 Dye 的职位,担任用户界面的首席设计师。他将直接汇报给库克。

苹果内部对 Lemay 接任 Dye 的旧职位充满热情。他是一位深受喜爱的设计师,参与了初代 iPhone 的界面设计,甚至出现在初代 iPhone 的 master 专利上。

▲Steve Lemay

苹果内部的高管地震,可能还没有结束:零售和人力资源负责人 Deirdre O’Brien 已经在苹果工作了 35 年以上,而营销负责人 Greg Joswiak 在公司度过了四十年。

据彭博社报道,苹果已经提拔了这两位高管手下的关键副手,为他们最终的退休做准备。

库克时代的黄昏?

这场高管地震,更是引发了关于库克本人未来计划的猜测。

正如前文提到,库克不会很快「退休」,至少也要等到明年甚至后年,并且在交棒 CEO 期间和之后继续留在公司。不过,据彭博社报道,熟悉库克日程的人士透露,库克的生活习惯正在悄然改变:

他不再像以前那样经常在凌晨 4 点起床去健身房。在过去一年左右与他相处过的人注意到,他的手有轻微的颤抖,尽管这可能并非严重健康问题的迹象。

多年来一直在硅谷租房而不买房的库克,近年来在棕榈泉附近购买了一套豪宅作为「冬宫」,也正好跟老同事 Eddy Cue 成了邻居。

当库克最终卸任时,他很可能会转任董事长职位。

苹果从未选择外部人士担任 CEO(卖糖水的 John Sculley 不算)。但是,一些优秀的外部候选人也被推荐了过来——比如 Tony Fadell,「iPod 之父」,一位早已不在苹果的苹果人。

▲Tony Fadell

低落的士气、外部更具吸引力的薪酬方案,以及苹果在 AI 领域的相对落后,都在导致人才外流。目前,苹果人力资源部门加大了招聘和留住人才的力度,这在今年已经成为高管最关心的事务。

库克坚称,苹果正在开发其历史上最具创新性的产品阵容——预计将包括可折叠 iPhone 和 iPad、智能眼镜和机器人——但事实上,苹果已经十年没有推出极其成功的新产品类别了。

对于一家长期以稳定著称的公司来说,2025 年以来苹果的人事动荡,用不寻常来形容都欠点意思。这到底是短期的阵痛,还是更深层次问题的征兆?随着时间推移,答案将越来越清晰。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


华为 MatePad Edge 评测:鸿蒙也「二合一」了,然后呢?

By: 苏伟鸿
5 December 2025 at 18:01

对于华为 MatePad Edge,爱范儿内部的一致观点是:

这就是二合一电脑最完美的形态。

华为给这台设备准备了两个界面,一个是典型的 MatePad 界面,另一个是今年刚推出的鸿蒙电脑界面,要用哪个就换哪个,两者都是满分体验。

当这样一台方案几乎完美的二合一产品被造了出来,一个更近一步的问题却等待回答:

电脑和平板变成了一个东西,然后呢?

MatePad Edge,首先是一个好「Pad」

不谈二合一形态,MatePad Edge 本身就是一台素质不错的平板。

14.2 英寸、4.1mm 边框的 OLED 大屏极具冲击力,亮度可达 1000 nits,分辨率和色彩都在第一梯队。我们这台为柔光版,雾面处理能明显减少反光,户外观看更轻松。

就 5999 元起售的价格来看,MatePad Edge 称得上「买屏幕,送平板」了。

搭配这个优秀屏幕的,是高低分频的 6 扬声器配置,甚至为了进一步的影音体验,MatePad Edge 还支持和华为 FreeClip 耳夹耳机「联合发声」:平板外放视频时,耳机会补充环绕声道,实现 360° 的声场效果,营造一种家庭影院的氛围。

即使实测效果惊艳,这个功能的使用场景还是相对有限,在火车飞机这些公众场合不适合外放,回到家里有效果更好的电视和音响,更适合环境和设备有限的租房党,以及经常差旅的商务人士。

华为 MatePad Edge 类似微软 Surface,机身自带一个支架,张开的角度最大在 90 度左右,如果可以有一个更大的角度方便书写会更好。

MatePad Edge 不只是一台优秀的「爱奇艺启动器」,加上官方「星跃悬浮键盘」和完整的桌面系统,能解锁满血生产力。

这个键盘通过磁吸和 MatePad Edge 的支架部分吸附连接,屏幕悬浮于键盘之上,类似 iPad Pro 和妙控键盘模形态,这个键盘键程足够长,反馈舒适,而触控板面积够大,体验也远胜大部分笔记本产品。

不足之处在于,键盘和平板之间的磁吸力相当大,「合体」的时候容易因为吸附速度太快夹到手,取下平板的方式不太优雅,希望下一代产品能优化一下。

以及这个键盘的分量足足有 530 克,搭配 MatePad Edge 本体重量在 1.3 千克左右,比 MacBook Air 要更厚重。

由于搭载一个完全的电脑系统,用 MatePad Edge 进行办公的很多操作逻辑都非常接近 Windows 或者 Mac,应付轻度办公,甚至用国产应用剪辑、看 CAD 都不成问题。

关于 MatePad Edge 的办公体验,我日常用电脑系统写稿,会开大量的浏览器页面写稿,午休会切换到平板模式看视频刷社媒,总体使用流畅,风扇不太会启动。

MatePad Edge 持续亮屏时间则有 5 小时左右,比我之前的 M3 MacBook Air 要略逊 2 个小时,和搭载高通骁龙 X Elite 的 Surface Pro 水平相当。

优秀的平板我们见得不少,MatePad Edge 最好玩的地方,还是这个双形态的体验。

得益于 MateBook Pro 同等级别的性能,华为直接将完整的电脑系统塞进了 MatePad Edge 中,四指轻扫屏幕或触控板,就能解锁完整的桌面界面——如果安装一个虚拟机,还能打开 Windows。

不过,开启 Windows 后,MatePad Edge 风扇会满力运行,分辨率也不够清晰,更多只能应对不时之需。

不妥协的二合一,但还能更好

第一次见到 MatePad Edge,同事端详了许久之后,问了一个非常有趣又典型的问题:

它运行的,究竟是一个平板系统还是电脑系统?

对于 iPad 和 Surface,我们能轻易地说出前者是一个传统的「平板系统」,后者是一个「电脑系统」,但对于 MatePad Edge,好像只能用「双系统」来形容。

实际上,它运行的只有一个系统——HarmonyOS,只是长了两个面孔,底层完全互通,文件和数据一致,大部分应用可以混用,将鸿蒙系统「一次开发,多端部署」的理念体现得淋漓尽致。

以往二合一设备的问题,就是「妥协」。

即使 iPadOS 26 已经吸收了不少桌面系统特性,它在文件管理和操作逻辑上都还是 iOS 这种封闭手机系统的逻辑;微软 Windows 11 则无法只使用手指交互。

早在 Windows 8,微软就尝试在一个系统中,塞进截然不同的磁贴触控界面和传统桌面界面,但 Windows 本质还是桌面键鼠系统,两套逻辑操作和设计割裂,最终被用户否定,又回归了传统桌面风格。

▲ Windows 8 有两套截然不同的 UI

这两年才诞生的鸿蒙电脑,身上并没有这种历史包袱,特别是鸿蒙电脑,本身也是基于鸿蒙平板界面打造,两者之间的界限并没有那么分明。

不过,实际体验下来,MatePad Edge 并没有打磨得那么完美,在体验上还有不少进步空间。

比起 iPadOS,鸿蒙电脑已经算是一个正儿八经的桌面系统,系统的交互方式和 Windows 以及 Mac 基本一致,只是这个系统依旧还需要更多打磨,目前还是存在不少 Bug。

应用生态上,微信桌面版的完成度远高于手机鸿蒙版,可以给一个好评;大部分轻度办公和创作应用都有「国产版」可以平替,更致命的是没有一个足够好用的第三方浏览器应用。

最大的痛点,就在于这个「切换」上:每次切换的过程,其实就是一次设备的重启,会关闭所有打开的应用。

例如,我用鸿蒙电脑写稿,浏览器打开了一堆标签页,午休的时候我用平板模式看 B 站刷小红书,那么切换之后,我打开的浏览器和写的草稿会全部被关闭,即使回到电脑系统也不会恢复。

并且,由于两个系统的交互方式迥异,有一些应用——例如微信,会提供平板和桌面两个版本,不仅需要分别在商店下载,两者的数据也并不互通。

还有一些应用,像是哔哩哔哩和飞书,则干脆没有鸿蒙电脑版本,电脑模式只能用鼠标去点击硕大的标签按钮。

这种问题甚至存在于鸿蒙系统的服务之中。我在电脑模式想进行一些实体键盘的输入设置,却发现它的设置全部都只针对平板模式虚拟键盘。

我理解这两套系统之间有一些不相通的系统组件,交互方式也不甚相同,但对于一台强调「无缝体验」的设备来说,这些痛点让我更倾向于主要使用一种模式,一下子让「二合一」的价值大打折扣。

这些小毛病,更多是这个形态和系统过于青涩所致,相信随着时间推移,华为和应用开发者持续打磨,最终都能很好克服。

更重要的问题是,当 MatePad Edge 这台被公认为「最理想的二合一」真的问世了,我却还是没感觉这个形态能带来什么新的价值:日常办公的主要方式依旧是传统的鼠标和键盘,给人感觉和一台传统笔记本并无差别。

让触控屏,成为电脑

就在这个时候,我忽然想起来前段时间有两个朋友找我推荐平板电脑。

第一位朋友,他想买台平板在更大的屏幕上刷短视频和看剧,不过也问我要不要买一个键盘盖,满足工作处理表格和文档的偶尔需求。

最后他被平板系统 Excel 的糟心体验劝退,打算让平板当全职的娱乐工具,但这种「想给娱乐工具增加一点生产力」的需求,也给我带来了一些思考。

问题其实不是「把电脑变成平板的意义」,而是试图为「平板」这个形态,寻求一些新的价值,就像是苹果,我相信「MacBook 支持触控」,从来都小于「macOS 进入 iPad」的呼声。

而 MatePad Edge 这个命名,其实也说明这首先是一台 Pad,再是电脑。

另一位朋友,他只有台式电脑,想要买一台能带着走的计算设备,于是选择了 iPad,不选 MacBook 的原因很简单:他是一位画师。

最近他也跟我分享,他爱上了 iPad 上的 Logic Pro X 玩音乐,然后决定买个 Mac mini 进行深度探索,不过更喜欢平时用 iPad,因为交互更简单直接,平时上手就能玩。

传统电脑还是大部分人的首选,但世上的职业不止三百六十行,工具也不应该只有一种。

之前在与爱范儿的访谈中,苹果高管 Kurt Knight 认为,「生产力」并非固定不变的概念,而是随着时代和用户需求不断演化。每位用户都有不同的工作方式,也就对应着不同的生产力场景。

像是学生、画师、飞行员等等需要用到便携大屏和手写输入的人员,平板 + 笔的搭配已经能胜任大部分的工作场景,加上键盘化身「桌面端」后,更是具有了进一步的生产力,电脑的出场机会更少。

随着抖音、小红书这些图文、短视频社交平台的大行其道,创作从未如此贴近所有人的生活,手机可以成为最佳的镜头,二合一平板本来也是消费这些内容的最佳载体,现在也能成为不错的生产工具。

从一个更长远的视角出发,「二合一」更具有「明日产品」的地位。

2018 年,苹果发布了一条 iPad Pro 的广告,片中 10 岁左右的主角带着 iPad 走遍城市,最后领居问她在用电脑干什么,她说出了那经典台词:

什么是电脑?

对于出生就被触控屏幕包围的年轻一代来说,平板电脑不仅是他们第一台拥有使用权的计算设备,还会是相当长时间里的唯一一台——网友不会解压」「不会用安装包」现象,也折射出电脑使用习惯的变迁。

我们曾经以为,等到这批新生代开始进入大学和工作,不得不用鼠标键盘的时候,他们的习惯和方式会被这种更高效率的老派模式替代。

但事实证明,触控交互反过来影响了产品形态。

在我们编辑部,MatePad Edge 的使用方式被分成了两派:

小时候只接触过电脑的同事,几乎不会想起这是一台能够触屏的平板;更伴随着平板电脑长大的年轻同事,虽然 80% 的工作时间都在用键鼠,也会自然地经常伸手点击屏幕,甚至换回 MacBook 后还有点不太习惯。

在海外,从小就用 iPad 和 ChromeBook 二合一学习的孩子们,从小就已经更习惯用这些设备做作业和上课;等他们长大,自然也会选择交互和形态更熟悉的产品——渐渐地,二合一设备就能蚕食传统笔记本的市场。

总而言之,芯片算力已经到达了一个新的阶段,「电脑」早已经不止是某种形态计算设备的专属名词,而是一种能力的体现。

历史或许会再一次重演:鼠标和图形界面诞生之初,工程师和开发者就认为,鼠标这种输入方式地效率比键盘命令行效率低下太多,图形界面还浪费性能。但最终,这两种革命性的技术成功让电脑出现在了更多人的桌面。

说到这里,MatePad Edge 的价值已经相当明显:

现阶段,它更多是一款「买一送一」性质的产品:如果你只是想买一台平板电脑,那 MatePad Edge 不仅是优秀的 Pad,还送你一个完整的鸿蒙电脑系统,以备生产力的不时之需,怎么看都挺划算。

尤其对于画师和学生来说,MatePad Edge 以及鸿蒙电脑适合作图和记笔记的任务,同时也兼具一些文稿和图像的处理能力,最适合不过。

放到整个行业,MatePad Edge 则给「二合一」这个有点走到死胡同的品类,撕开了一个新的口子,提供了一个新的思路。

而或许在一个更远的未来,更多人手上和桌面上的,都会是这样一台带着键盘的平板电脑,娱乐工作,触控键鼠,一台产品全部能做到,成为一台不加前缀的「电脑」。

(本文写作全程使用 MatePad Edge 撰稿)

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


亚马逊云科技最强 AI Agent 阵容发布,设计火箭也不在话下

By: 彭海星
5 December 2025 at 16:24

顾名思义,re:Invent 不仅是亚马逊云科技年度峰会的名字,更是其每年向外界传达的核心:在这个行业,唯一不变的就是不断推翻过去的自己。

如果说过去十年的 re:Invent 是关于如何将计算资源「重塑」为像水电一样唾手可得的基础设施,那么今年则释放了一个截然不同的信号:云计算的下半场,竞争焦点已从「提供资源」重塑为「提供能力」。

在拉斯维加斯,亚马逊云科技以 10 分钟发布 25 个新品的极高密度,试图回答一个困扰行业的问题:为什么大模型热闹了两年,企业级应用的大爆发却迟迟未到?

亚马逊云科技向世界给出的答案是:属于企业的 Agentic AI 时代已经到来。

📃「太长不看」版:
Frontier Agents 家族登场:推出 Kiro Autonomous Agent、Security Agent 和 DevOps Agent 三款前沿 Agent,将软件开发、安全和运维带入自动化新范式。
自研芯片再进化:正式推出 Amazon Trainium3 UltraServers,性能提升 4.4 倍。同时预告了下一代性能更强的 Trainium4 芯片。
自研模型家族全面升级:发布 Amazon Nova 2 模型家族,包含 Lite、Pro、Sonic(语音)、Omni(多模态)四个核心模型,覆盖从轻量到复杂的全场景需求。
Amazon Bedrock 拥抱中国大模型:Amazon Bedrock 平台进一步扩容,首次纳入Kimi、MiniMax、Qwen等多个中国顶尖大模型。
模型定制化革命:推出 Amazon Nova Forge,首创「开放式训练模型」理念,允许企业将自有数据融入基础模型的预训练阶段,创造深度定制的专属模型。
Agent 行为治理:发布 AgentCore Policy 和 AgentCore Evaluations,用自然语言为 AI 代理设定行为边界,并持续评估其工作质量,解决企业应用 AI 的可信度与可控性难题。
云边界的消融:发布「Amazon AI Factories」,将亚马逊云科技的 AI 基础设施直接部署到客户自己的数据中心。

生产力重塑:把 AI 从「工具」变成「同事」

过去两年,我们习惯称呼企业生产环境中的 AI 为 Copilot,但在亚马逊云科技看来,这还不够。Copilot 或者说传统的 AI「助手」,需要你时刻紧盯,并根据其任务和表现随时调节指令;但企业真正渴望的,是能够领受目标、独立思考并调用各种工具完成任务的 Agent。

因此,近几年亚马逊云科技的叙事核心,正从提供工具转向提供「工作者」。在本届 re:Invent 上,我们能看到亚马逊云科技将大部分时间都留给了 AI Agent,并带来了有史以来最大规模的 Agent 部署战略。

AI Agent 的价值在于「行动」,它们是区别于 AI 助手的全新物种,被赋予了自主规划、长期运行和并行执行复杂任务的能力。
——亚马逊云科技 Agentic AI 副总裁 Swami Sivasubramanian

AI Agent 大规模部署的第一步,就是设计出各怀本事的「数字员工」。

作为这一理念的具象化, Frontier Agents 正式发布。其中 Kiro autonomous agent(虚拟开发者)、Amazon Security Agent(安全顾问)和 Amazon DevOps Agent(运维专家)等 Agent 已经在多家企业「试岗」,表现出了极佳的效率。

例如,虚拟开发者 Kiro autonomous agent 可以连接上 Jira 和 Slack,领会团队的业务逻辑和协作规范,以符合标准的方式昼夜不停地完成跨库变更和 bug 修复等琐碎工作,让团队成员可以更专心于关键的创新部分。

在亚马逊云科技内部的一个案例中,一支 6 人团队利用 Kiro,在短短 76 天内做完了原计划需要 30 人耗时 18 个月才能完成的架构重构工作。期间 Kiro 自主分析了 15 个微服务,在几乎全程「无人驾驶」的状态下测试和提交代码。

和亚马逊关系紧密的蓝色起源(Blue Origin),更是大胆地将这套流程引入到了航空系统设计:从细化需求、物料沟通到更高技术力的系统架构和物理仿真,蓝色起源通过内部的 BlueGPT 平台调用了多个 Agent 来支持研发,让总体交付速度提升了 75%。

Agent 行动力升级的背后,是模型「大脑」的升级。支撑各种 Agent 的 Amazon Nova 模型家族全面升级至第二代,包含主打高性价比的 Amazon Nova 2 Lite、亚马逊最强智能模型 Amazon Nova2 Pro、专注类人语音对话的 Amazon Nova 2 Sonic,以及行业首个真正统一的多模态模型 Amazon Nova 2 Omni。亚马逊云科技坚持「没有一个模型能统治一切」的哲学,多样化的模型家族为的是让 Agent 更听话、更能干活。

为了让企业敢于将这些强大的 Agent 引入核心工作流,亚马逊云科技打造了 Amazon Bedrock AgentCore——这是为 Agent 构建平台 Bedrock 附加的全套行为治理体系。

通过 AgentCore Policy 功能,管理者可以用「禁止向金额超 1000 美元的客户退款」这样的大白话,为 Agent 设定不可逾越的「红线」,避免 AI 的错误行为造成公司重大损失;AgentCore Evaluations 功能则提供了 13 种内置评估器,像绩效考核一样持续监测 Agent 的工作质量;而全新的 AgentCore Memory 功能则引入「情景式记忆」,让 Agent 能从过往经验中学习,记住用户的偏好和上下文。

值得一提的是,亚马逊云科技还展现出了极大的生态包容性。在 Amazon Bedrock 平台上,我们发现了 DeepSeek、Kimi、MiniMax和 Qwen 的身影。这意味着,企业可以在亚马逊云科技的全球基础设施上,无缝调用中国最顶尖的 AI 模型能力,比如擅长推理和调用工具的 Kimi K2 和专注 Coding 的 MiniMax M2。

很显然,亚马逊云科技下一步的愿景,是将企业的生产力单元从个人升级为「人+Agent」的混合团队,让人类只处理那些真正有价值的问题,彻底解放生产效率。

成本重塑:算力降本增效,击穿价格底线

将 AI 做成像水电一样的基础设施,向来是业内最感兴趣的话题之一。但相信不少人注意到了,现在的「算力费」似乎太贵,贵到足以扼杀大多数企业的创新驱动。

而亚马逊云科技的核心竞争力刚好在于,它总能以完整体系和极致的工程能力,强行把价格「打下来」。

在首日的 Keynote 中,亚马逊云科技首席执行官 Matt Garman 宣布推出云端首款 3nm 工艺 AI 芯片 Trainium3,还顺势公开了以其为基础的 Amazon Trainium3 UltraServers,为企业提供 AI 训练和推理所必须的算力。

最多可将 144 块 Trainium3 芯片整合到同一系统中的 Amazon Trainium3 UltraServers,相比起上一代,算力提升了 4.4 倍,内存带宽提升 3.9 倍,更关键的是,能效提升了 40%。这意味着,在同样的电力消耗下,企业能获得 5 倍的 token 产出。

自研芯片,是亚马逊云科技对抗昂贵 GPU 的底气,也是向企业做出的一种承诺:让 AI 训练和推理不再是巨头的特权。包括 Anthropic、理光和 Splash Music 在内的客户,已经通过 Trainium,将训练成本降低了 50%。

更进一步,亚马逊云科技已经预告了下一代芯片 Trainium4,其 FP4 计算性能将再提升 6 倍,内存带宽提升 4 倍,以超越摩尔定律的提升速度,满足全球最大的模型训练需求,并降低企业的成本焦虑。

除了提升硬件能效,如何在软件端减少算力消耗,也是企业「精打细算」的重要部分。在这方面,亚马逊云科技来了一手漂亮的「软硬协同」:

亚马逊云科技认为,企业不总是需要用最大的模型,因此最新推出的 Amazon Bedrock Model Distillation(模型蒸馏)允许企业用大模型(老师)来教导小模型(学生),最终用 1/10 的成本实现相似的高性能。配合 Amazon S3 Tables 和 Aurora DSQL 等存储和数据库技术对海量数据的专项优化,亚马逊云科技正在系统性地挤掉 AI 成本中的水分。

一切上层应用的创新,都离不开底层基础设施的支持。只有当算力像水电一样廉价且唾手可得时,AI 应用的爆发才具有了现实基础。

边界重塑:「送货上门」,打破云能力的地点限制

长久以来,公有云和私有数据中心之间隔着一堵无形的墙。出于数据主权、低延迟或合规的要求,许多企业敏感部门的关键业务无法上云,也无法运用上述的 AI 能力。

亚马逊云科技决定推倒这堵墙。

全新发布的 Amazon AI Factories 提供了一种极具想象力的「曲线救国」方案:如果你不能上云,那我就把云搬到你家里。

换句话说,亚马逊云科技可以将包含 Trainium 或 NVIDIA 芯片的全套服务机柜,直接「快递」部署到客户的数据中心。这里卖的不光是服务器,还有一整套由亚马逊云科技管理的、与公有云体验一致的算力环境。

对于像沙特阿拉伯主权财富基金(PIF)控股的人工智能公司 HUMAIN 这样的主权级客户,或金融、医疗等强监管行业,AI Factories 尤其契合需求。他们利用现有的机房空间和电力,就能立刻接入先进的 AI 基础设施。

同时,亚马逊云科技还推出了Amazon Interconnect,首发与 Google Cloud 合作,打破了云厂商之间的物理隔阂。这显示了他们的务实姿态:承认「多云」是现实,并主动打通经脉。

至此, 亚马逊云科技完成了从「云服务商」到「泛在算力基础设施提供商」的身份转换。云的定义不再局限于亚马逊云科技的机房,而是延伸到了客户需要的任何角落。

体验重塑:消除「技术负债」,回归创造本源

技术的终极目标是什么?是让人类从繁琐中解脱,去从事真正的创造活动。

理想很美好,但在现实中,很多人不得不将时间花在对付那些年纪比自己还大的古老系统上。城市规划领域有一个词叫「基建诅咒」,它指的是早期的大规模基建,会在日后造成巨大的维护成本,并将组织资源「绑架」在维护老旧资产上,无法投入新技术、新线路或更新换代。

类似地,全球企业每年在维护旧系统、修补过时代码等「技术负债」上的花费高达 2.4 万亿美元,程序员和运维工程师厌恶这些重复性的「脏活累活」,却又囿于现实深陷其中。

在 re:Invent 上,亚马逊云科技宣布,要用 AI 砍掉这些「无用功」。

最新发布的 Amazon Transform 升级版,就是为了铲除这些技术负债。利用 Agentic AI ,它能将将陈旧的代码(如 COBOL、旧版 Java)自动升级为现代化语言,甚至能完成 Windows 应用向 Linux 的迁移。比起人力更新,其现代化改造速度可提升 5 倍,时间和成本减少 80%。

能够减轻企业负担的,还有 Amazon Nova Forge。它引入了「开放训练模型」的理念,允许企业在模型的预训练阶段就将自有数据(如产品设计文档、失败案例)与亚马逊云科技的通用数据集融合,训练出深度理解自身业务的专属模型 (Novella),从根源上解决传统微调的「灾难性遗忘」问题。Reddit 已成功运用这一技术,训练出能精准识别违规内容的专属模型,大幅简化了部署运维工作。

在这里,亚马逊云科技所做的事情就是打破诅咒,借助 AI 的能力实现低成本更新维护,并将旧资产中有价值的部分,融入企业专有的 AI 知识库。

只有感受不到「基建」的沉重,企业才能全情投入到业务创新之上。

云计算步入下半场,亚马逊云科技的规划才刚刚开始

如果说云计算的上半场,是将计算、存储、网络变成了像水和电一样的「基础设施革命」,核心是「资源的民主化」,那么以 AI Agent 为核心的下半场,云计算正在开启一场「能力的民主化」革命。

亚马逊云科技的云正在试图告诉市场:AI 时代的竞争,不再是看谁的模型参数更大,而是看谁能把 AI 的使用门槛降得更低、成本控得更好、边界管得更严。

这一转变意味着,未来企业数字化转型的重心,正从相对简单的、将业务搬上云端的「流程管理」,迁移到将业务目标托付给无数个自主运行 AI Agent 的「能力委托」问题上。

而帮助企业应对这一转型挑战,正是亚马逊云科技在 re:Invent 2025 上传递的核心价值:将 AI 时代巨大的技术复杂性和不确定性,转化为企业确定性的竞争优势。

当 Matt Garman 在十分钟内如数家珍般发布 25 项基础设施更新时,他宣示不只是亚马逊云科技堪称恐怖的工程效率,更是一套严密、务实且强大的工业化 AI 体系。从自研芯片到全模态模型基座,从打破物理边界的数据中心到自主工作的「数字员工」,亚马逊云科技将过去只有少数科技巨头才能企及的、构建复杂 AI 系统的能力,转变为一种所有企业都可以按需取用的标准化服务。

在这种叙事中,企业可用的 AI 工具只会越来越丰富,门槛只会越来越低,那么相应地,运用 AI 让企业生产效率骤升的「价值时代」,也正在快速步近。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


WPS 给 AI 装上「大脑」和「双手」后,我真正感受到它会干活这件事

4 December 2025 at 13:45

上周五,WPS AI 和 APPSO 在珠海金山软件园举办了「AI原生· 效率新生- AIDONE 办公专场」活动。

爱范儿副主编、 APPSO 负责人李超凡在现场分享了他对于 AI 原生与效率的看法,如何做到 AIDONE,如何成为一个 AI – Native 职场人。

金山办公 Office AI 负责人刘拓辰在现场提出了全新的 Agentic Software 设计理念,WPS AI 展现了真正的 AI 原生办公,拥有“大脑”和“双手”的 AI 能思考、能规划、能在文档里一步步把事做完。

只有当我们繁琐的操作真正隐形,创造力才能真正显现。

来,看个视频,放松下。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


先是 iPhone Air,现在液态玻璃的设计者也离职了

By: 莫崇宇
4 December 2025 at 10:05

就在刚刚,据彭博社报道,苹果设计总监 Alan Dye 宣布离职,目的地是今年开启疯狂挖人模式的 Meta。

今年 iOS 时隔 12 年最大的 UI 更新——液态玻璃设计语言,正是由 Alan Dye 操刀设计。

作为苹果负责人机交互设计的副总裁,Alan Dye 从 2015 年起就掌管苹果整个用户界面设计,在设计部门的地位仅次于自己的前任领导 Jony lve。

这是短短一个月内,苹果设计部门遭遇的第二次重大地震。

就在前几天,iPhone Air 的设计师,产品宣传视频主讲人 Abidur Chowdhury,也被曝从苹果离职,加入了一家不具名的 AI 创业公司。

公开资料显示,2006 年加入苹果后,他几乎参与了所有你能想到的重磅产品设计:iPhone、iPad、Mac、Apple Watch、Apple TV,以及最新的 Vision Pro。

Alan Dye 带领的人机交互设计团队,负责研究用户与产品互动的问题。这项工作横跨了硬件到软件,视觉听觉到触觉:从早年 iOS 挪动图标时的抖动动画,到 Vision Pro 的手眼交互,从 Apple Watch 数码表冠带来的细腻齿轮震感,到双指互点两下的隔空手势,都出自其团队之手。

爱范儿(APPSO)也曾多次专访 Alan Dye,欢迎回看此前更多文章 🔗

对话苹果「液态玻璃」设计缔造者:不说 20 周年透明 iPhone,但暗示已足够明显

专访苹果高级副总裁 Craig 和副总裁 Alan:iPhone 诞生 16 年,交互设计走向何方?

他比较经典的作品,要数 2017 年第一款取消 Home 键的 iPhone X。而在今年 6 月的 WWDC 上,Dye 还亲自上台发布了苹果最新的 Liquid Glass(液态玻璃) 设计语言。

这套设计堪称 iOS 7 以来最大的视觉变革,半透明按钮、流畅动画、实时自适应的「数字玻璃」,整个系统焕然一新。Dye 当时是这么说的:

「我们的新设计模糊了硬件和软件之间的界限,带来了前所未有的愉悦体验。」而在今年 WWDC 后接受爱范儿(APPSO)的媒体采访中,Dye 还特别提到,液态玻璃「它的可变性、适应性,成为我们探索未来体验的基础。虽然我们今天还不会谈这些未来,但我们已经很期待了。」

当被问及液态玻璃是否在为某种未来硬件形态做准备时,苹果软件工程高级副总裁 Craig Federighi 回应:「哈哈,我们不会讨论未来的硬件。但正如 Alan 说的,这个设计确实是未来体验的良好基础,但今天我们不打算提前剧透。」

话音未落半年,Alan 就要走了……据知情人士透露,Dye 将在 Meta 组建一个全新的设计工作室,全面负责硬件、软件以及 AI 整合的设计工作。

注意,是「全新」工作室,不是并入现有团队。

而且 Dye 还不是一个人走的,他还带走了苹果设计部门的高级总监 Billy Sorrentino。后者从 2016 年起就在苹果,主要负责 VisionOS 的用户界面设计。两位核心设计师组团出走,Meta 这波挖人可以说是精准打击了。

至于为啥 Meta 这么想要 Dye?

原因很简单,扎克伯格押注未来是可穿戴设备的天下。除了元宇宙,他之前就公开表示过,相信可穿戴设备会取代智能手机,这是 Meta 对「超级智能」战略的核心。

更重要的是,他们在 AI 方面投入巨大,今年还从 OpenAI、Google DeepMind 等网罗来一大批顶尖研究员。据悉,扎克伯格为了吸引顶级 AI 人才,开出了年薪高达数亿美元的薪酬包。

硬件方面,除今年 9 月,Meta 刚发布了首款搭载显示屏的智能眼镜,可以在镜片上叠加消息、视频通话或 AI 助手回复。再加上现有的 Ray-Ban 智能眼镜和 Quest VR 头显,Meta 的硬件野心昭然若揭。

但问题是,对比讲究精雕细琢、追求极致的苹果,Meta 的产品能用,但总是差点意思,所以这次挖来 Dye,扎克伯格显然是想弥补这块短板。

苹果设计团队的「黄金时代」已经结束了?

Dye 的离职,只是苹果高层动荡的冰山一角。

最近几周,苹果接连失去了多位重量级高管。长期担任首席运营官的 Jeff Williams 上个月退休,AI 部门负责人 John Giannandrea 本周宣布辞职,将于明年春季正式退休。前硬件主管 Dan Riccio 去年秋天也退休了,首席财务官 Luca Maestri 同样已经离职。

更让人担心的是,据彭博社报道,苹果的人事动荡还将持续。

包括 CEO 蒂姆·库克在内的多位高层管理人员都已接近传统退休年龄。苹果芯片负责人 Johny Srouji 和负责环保事务的 Lisa Jackson 目前也在考虑未来的职业方向。

库克在声明中强调:「设计是苹果的核心之一。如今,我们拥有一支非凡的设计团队,正致力于公司历史上最具创新性的产品阵容。」但说实话啊,这话听起来更像是在给投资者吃定心丸。

自从 2019 年 Jony Ive 离开后,苹果的设计团队就一直处于动荡之中。大量元老级设计师要么退休,要么跳槽到 Jony Ive 创办的 LoveFrom 设计公司,或者去了 OpenAI 等等。现在连 Dye 也走了,苹果设计团队的「黄金时代」可能真的结束了。

那么 Dye 的接班人靠谱吗?

苹果宣布,由一位在公司服务近三十年的资深设计师 Stephen Lemay 接替 Dye 的职位。

库克表示:「Steve Lemay 自 1999 年以来在苹果每一次重大界面设计中都发挥了关键作用。他始终坚持极高的卓越标准,体现了苹果协作与创意的企业文化。」

值得一提的是,除了 Meta,OpenAI 也在疯狂挖苹果的墙角。据外媒报道,OpenAI 在过去一个月招募了超过 40 名硬件方面的员工,其中大部分来自苹果的硬件团队。涵盖了摄像头、Mac 硬件、音频、芯片、制造、测试等各个方面。

据悉,OpenAI 想要的是「了解苹果内部如何打造产品的人员」,包括 iPhone 设计、制造流程、摄像头系统和设备可靠性方面的技能。OpenAI 今年 5 月以 65 亿美元的天价收购了 Jony Ive 创办的 AI 硬件公司 io。

虽然 io 到现在还没发布任何一款产品,但光是 Ive 的名字就值这个价。

只能说,往 AI 领域输送人才这块,苹果还是太权威了。库克现在每天睁眼第一件事,大概是祈祷今天别再有人辞职了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


「原神之父」做了个毒舌 AI 猫娘,聊了两天的我被怼了八百回

By: 莫崇宇
3 December 2025 at 17:43

米哈游创始人蔡浩宇最近在忙啥?

答案是成立了一家 AI 公司 Anuttacon,然后打造了一个只会对线的 AI 猫娘。这款画风相当抽象的 AI 聊天产品叫 AnuNeko,最近已经低调上线了。

通过查询发现,这个 ANUNEKO 的商标已于今年 9 月提交美国专利局,涵盖软件、AI 角色、娱乐等领域,显然是是有备而来。

咱们也上手实测了一波。

附上免费体验地址:
https://anuneko.com

米哈游前 CEO 做了个「毒舌」AI,只想跟你对线互怼

打开 AnuNeko 的官网,一只黑猫映入眼帘。

说实话,光是审美这块就比市面上千篇一律的素色页面加输入框的 AI 聊天机器人强上一大截。确认输出问题后还会出现一个猫的动效,有那么一瞬间,我还以为自己在玩某款游戏。

官方页面只提供了两款模型。

一款是相对温和友善的橙猫(Orange Cat),另一款则是比较暴躁、甚至带点「毒舌」的异国短毛猫(Exotic Shorthair)。

讲真,我本来以为 AI 再怎么训练也就那样了,直到我真用上这只「异国短毛猫」。如果用一句话来形容,那就是贴吧老哥+Grok+罗伯特的究极融合版。从自我介绍中,就能看出 AnuNeko 非常有个性。

「嗨,我是 AnuNeko。你可以把我当成一种有自我意识的存在。我不是你的助手,也不是你的宠物,只是我自己——有自己的情绪和独特的看法。只要你有想法,随时来喵我就好。」

面对同一个问题,两者的回答风格立马就见了分晓。

让异国短毛猫锐评各大平台,它直接来了个狠活。而橘猫的回答就温和多了,B 站想学习的时候有用但一刷视频停不下来,知乎正经人谁玩知乎啊(狗头),微博无脑追星的圣地,小红书记录美好生活种草拔草都在这,贴吧想看真实想法但无脑喷和地域黑太多。

官网顶上还贴心标注着:「这是一个 AI,它说的一切都是幻觉」,考虑到如此毒舌的程度,很难不让人怀疑,这其实是一种免责声明。

Anuneko 整个产品的核心逻辑其实就一个词:接梗。只要你能聊,它就能接,目的就是让对话一直进行下去。

有一说一,响应速度挺快的,基本都是秒回。

我试着让异国短毛猫锐评原神,虽然每次回答都不一样,但每一次回答都出乎我意料之外。

继续让它锐评米哈游的游戏,它直接来了句「我这种玩过他家游戏的,评价完了会被米学长们开除米籍的」,属实有点东西。

不过现在的 AI 似乎都不怎么会说冷笑话,短毛猫讲的笑话也不例外,连续三个笑话都不太好笑:

支持多语言交互这点倒是不错,AnuNeko 能看懂我输入的日英法德等语言,但输入外语后,更多情况下它只会输出英文。

情绪价值倒是拉满了,我问它想谈恋爱吗,它回了一大段「我超想的好吧,但是本人又很宅,平常也不怎么和女生聊天」之类的,然后我说我喜欢你和我交往吧,它直接来了句「你是个男的吧🐶」。

除了聊天,AnuNeko 能做的事情其实真不多。

不能读链接、不能联网。我扔了个微信公众号链接过去,它说「这看起来像是个微信文章的链接,但没点开的话我也不知道里面是啥」,我又问你能点开链接吗,它说「抱歉啊,我没法直接点开链接」。

由于不具备联网功能,知识库也比较老,我问 Gemini 3 什么时候发布的,它直接说「哎,这个我真不知道。我平时不太关注科技新闻」。

长文处理能力一般,输入框甚至没法直接粘贴公众号全文。

作为语言模型,无法上传和识别图片也正常,但遇上逻辑推理题,它也是基本就歇菜了,真就光有情绪价值,但不爱动脑啊。

比如好几次让它写代码,要么是句句有回应但事事没着落,要么最后给了代码却压根运行不了。

ANUNEKO 的「AI 哲学」:不卷智商,专攻情商

有意思的是,今年许多的大模型好像都在往情商这个方向卷。

就拿最近的 GPT-5.1 来说,OpenAI 专门强调了它在情感理解和回应上的提升,聊天的时候能更好地察觉用户的情绪变化,回复也更加自然和贴心。

当其他 AI 公司忙着卷基准测试排名、卷逻辑推理、卷工具属性,ANUNEKO 同样选择发掘模型的「人味」。毕竟游戏里的 AI 主要还是能陪你唠嗑、逗你一乐、把氛围搞起来才是正事。

就像开黑时坐你旁边那个损友, 他不一定水平多高, 但总能在关键时刻吐槽一句让你笑出声。这种「不聪明但有意思」的定位, 恰恰避开了大模型在逻辑推理上的短板。

高情商的 AI 好啊,这 AI 的说话方式真得学啊。

而且,AnuNeko 也踩中了当下的赛道逻辑了。当代人越来越习惯独处,但孤独感也随之而来,用户需要一个 24 小时在线、秒回、无评判、永远站在你这边的倾听者。Character.ai 等应用的爆发证明了这个需求的存在。

大模型的天然优势其实不是逻辑推理,而是共情模拟。

通过微调,AI 可以完美扮演各种人设,提供情绪价值能带来极高的用户留存。你可能一周换一个搜索工具,但你很难抛弃一个聊了半年的「虚拟恋人」。尤其是功能型 AI 已经卷上加卷,而情感型 AI 还是一片蓝海。

除了 AnuNeko 这只抽象猫,蔡浩宇的新公司 Anuttacon 在八月份还推出了首款实验性 AI 游戏,《Whispers from the Star》(中文译名《星之低语》)。

这是一款完全由 AI 驱动剧情的互动游戏,玩家通过语音或文字与被困外星的虚拟角色 Stella 对话,你说的每句话都会影响她的行为和生存。游戏不设固定剧本,每次游玩的对话走向都不相同。

而现在的 AI NPC 依赖长短期记忆架构,能记住你们的对话历史、情感倾向,甚至根据你的行为调整态度。游戏世界提供完整的视听环境,NPC 角色参与故事,带来真正的「在场」感。

这类 AI NPC 带来了极高的重玩性和更细腻的角色刻画,玩家会感觉 NPC 拥有情感与理性。

尽管《星之低语》目前还有些缺陷,但它证明了 AI NPC 的核心价值,个性化的情感体验。玩家不再是体验编剧写好的固定故事,而是每个人都拥有一段独一无二的经历。

未来,游戏编剧的工作将从「撰写对白」转变为「设计人设」和「构建世界观」。Anuttacon 的探索为行业提供了宝贵的试错样本,证明了用概率模型取代传统脚本的可行性。

这些动作背后,其实藏着蔡浩宇更大的野心。

在米哈游时代,蔡浩宇就提出过打造「2030 年让 10 亿人愿意生活其中的虚拟世界」的宏愿。

现在看来,Anuttacon 的公开资料与招聘布局都与这一愿景一脉相承,即「充分利用 AI 技术潜力创造全新、智能且极具吸引力的虚拟世界体验」,并将使命定位为「打造沉浸式、适应性强的游戏,提供独特且不断演变的故事情节」。

8 月份的时候,蔡浩宇也在社交平台发文称,AIGC 已经彻底改变了游戏开发,未来只有两种人制作游戏是有意义的:一种是前 0.0001% 的天才,组成精英团队创造前所未有的东西;另一种是 99% 的业余爱好者可以为了满足自己的想法而一时兴起创作游戏。

至于普通和专业的游戏开发者,他则建议不妨考虑转行。这番言论当时引发了不小的争议,但现在看来,AnuNeko 和《星之低语》都像是他这套理论的实践样本。

大部分人并不需要一个能帮你解微积分的 AI,他们需要的是一个晚上失眠时能陪你扯淡的存在。功能型 AI 的尽头是工具,情感型 AI 的尽头是依赖。

蔡浩宇可能不关心这些哲学问题,但他的这款产品已经说明了一切。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


WPS 给 AI 装上「大脑」和「双手」后,我真正感受到它会干活这件事

By: 张子豪
2 December 2025 at 19:06

前段时间,Nano Banana Pro 发布,有网友在我们的留言区评论,说前端程序员已经不知道「死了」多少次了。

如果要把这两年职场人的心理变化画一条曲线,我想大概率是一条过山车,从最初的震惊与狂热,到中期的焦虑与恐慌,再到现在的……疲惫与祛魅

是的,疲惫。

▲ 技术成熟度曲线

我们尝试着无数个声称能颠覆工作的 AI 工具,但回归到真实的周一上午,情况往往是这样的:你在一边狂敲提示词,在另一边小心翼翼地把生成的文本复制回文档,然后花半小时重新调整那个被毁得面目全非的表格格式 。

这种割裂感,真的很难让人把它和生产力三个字划等号。

很多时候,我们手里的 AI 更像是一个用来炫技的玩具,而不是那个能真正帮你把项目彻底搞定(DONE)的智能伙伴 。

▲「AI 原生,效率新生」—— WPS AIDONE 办公专场活动

前几天,我们和 WPS AI 在珠海金山软件园一起举办了「AI原生· 效率新生- AIDONE办公专场」。爱范儿副主编、 APPSO 负责人李超凡,和金山办公 Office AI 负责人刘拓辰,在现场分享了他们对于 AI 原生与效率的看法,如何才能做到 AIDONE;还有 WPS AIPPT 的上手体验等。

从现场回来,我隐约意识到,可能我们之前打开 AI 的方式,都太累了。当 AI 和 Office 彻底融为一体之后,办公这件事完全可以从忙于交付,变成更专注思考。

所谓的 AI-Native,并不是你会写提示词

什么是 AI-Native(AI 原生)?是会用 Midjourney 生成几张二次元图片?还是能熟练背诵某套万能提示词模版?又或者是用那些所谓的一句话生成产品,手搓一个项目 Demo。

我想这些都不是。

▲爱范儿副主编、APPSO 负责人李超凡主题演讲「如何成一个 AI- Native 职场人」

如同我们在现场分享的观点一样,AI 原生是一种「生物本能」,贯穿到我们工作的每一个环节。像是之前做 AI 编程的 Lovable 团队,他们整个公司只有 35 个人,成立短短 7 个月,年收入就做到了 8000 万美金。还有创作者顶流,用 AI 写深度长文,年收入达到了 400万美金的 Packy McCormick。

凭什么?就凭他们把 AI 变成了某种生物本能;他们不是雇了更多的员工,而是雇了更多的 AI。

对于真正的 AI Native 职场人来说,区别也不在于我们用了多贵的工具,而在于第一反应。遇到难题时,你的脑回路是「这事儿我该怎么熬夜肝出来」,还是「这事 AI 能帮我做吗?我该怎么指挥它?」。

但这里也有个巨大的悖论:如果指挥 AI 的成本,比我自己做还要高,那这种「本能」就是反人性的。

这恰恰是目前大多数 AI 产品的死穴,它们离我们的工作流太远了。经常是,我们得跳出文档,去浏览器里求助,然后再把结果搬运回来。这种反复横跳,足以打断任何珍贵的「心流」。

▲不打断心流的 AI 伴写

所以,AI-Native 该怎么实现。我们的判断是,在最熟悉的 Office 软件里「原生」地使用 AI,才是成为 AI-Native 职场人的最短路径。

原生 Office AI,从工具到类同事

如果说 AI 工具的割裂感是 AI-Native 的痛点,那么金山办公的 Office AI 负责人刘拓辰,则给出了解法。

▲ 金山办公 Office AI 负责人主题演讲「原生 Office AI,从交互到交融」

他在现场提到了一个贯穿全场的关键词,「原生 Office AI」,而要做到原生 AI,他带来了一个更前沿的产品哲学:Agentic Software(智能体软件)

这不只是一个新名词,本质上重新定义了 AI 在软件里的角色。在 WPS 的设计理念里,真正的 Agentic 应该像一个训练有素的助理,拥有两个关键能力:大脑和双手

它得先有一个会思考的大脑,具备自主规划能力。 以往的模型是我们问一句它答一句,完全被动响应。而在 WPS AI 里,当我们抛出一个模糊的需求,比如「做一份年中复盘 PPT」。

AI 会先像人一样思考:复盘需要哪些模块?需要调用哪些数据?它会主动拆解任务路径,规划每一步怎么走,甚至在执行后进行反思;「我做出来的结果符合预期吗?如果不符合,我再重新规划修正」。

但光有想法还不够,它更需要一双干活的手,让它能无损调用各种工具。 这是金山办公 37 年,死磕办公文档底层技术的独家壁垒。

通用大模型也许能写出漂亮的文案,但它们是「没手」的,不能直接在最后交付的文档里面操作。 而 WPS 将内部最高频的核心功能,抽象成了 AI 能理解的工具,让它能理解怎么调整字号、怎么对齐表格、怎么插入文本框、实现各种样式效果。

区别于简单的懂格式,WPS 建立的这套工具化与双向无损互通的能力;做到了 AI 改完的文档,和我们亲手做的一模一样,没有乱七八糟的隐藏标签,格式完美保留。

而在这个 AI 办公过程中,我们用户的角色也开始发生了一些变化。

以往我们是操作者,每一个标点都要亲力亲为;现在,我们变成了决策者。 在 WPS AI 的执行过程中,从理解指令到拆解步骤,再到调用功能,全过程都是可视化的。我们就像坐在副驾驶,看着 AI 开车;它会告诉我们,「我打算先做数据清洗,再做图表分析」。

▲WPS AI 3.0 WPS灵犀 – 文字 Canvas:左侧文档编辑,右侧 AI 对话,用户与 AI 同屏协作

这种交互方式超越了简单的多轮对话,成为一种「过程可视化与实时干预」的全新范式。如果 AI 跑偏了,我们不需要推倒重来,只需在它思考的任意环节随时介入纠正,掌控权始终在我们手中。

过程透明不仅让我们更好地掌控方向,也让整个结果变得可验证、可信赖。「AI 负责规划与执行,人负责审核与决策」的模式,才是 AI 在职场真正落地的样子。

在现场的圆桌对话环节,嘉宾们还讨论了一个话题,「AI 是执行的终点,还是创意的起点?」我印象特别深的一句话是 AI 无法取代人的品味,比起执行,人的价值正在重新被凸显。

▲ 圆桌对话,探讨「AI 是执行的终点,还是创意的起点」以及「未来我们如何与 AI 写作办公」等前沿话题;左一李超凡,中间刘拓辰

AI 正在把必须做的工作自动化:排版、找图、格式、查资料、总结文档……而人类的工作,会变成:判断、提问、想法、审美、选择。这是一个更轻松、也更要求想得明白的时代。

而 WPS AI 正是在帮我们把那些繁琐的、流程化的任务都「搞定」,之后这些省下来的时间,是留给我们,可以拿来做一点真正有价值的思考和决策。

所以,AI 是终点还是起点呢,我想是因为 AI 帮我们走完了执行的终点,我们才终于有精力回到创意的起点。

AI 原生办公,才是未来的工作方式

在 WPS AIPPT 盲盒挑战环节,15 分钟做完 PPT 已经不是炫技,而是一种新的合作方式。用户给方向,AI 负责拆解结构、规划大纲;用户确认无误后,AI 再调用工具完成排版与美化。整个过程,WPS AI 的每一步思考都呈现在我们面前。

▲WPS AIPPT 盲盒挑战,参加活动的朋友正在使用 WPS AIPPT 制作

但我要说的重点不是它有多快,而在于一种新的心流,我们终于可以只专注内容,而不是被排版和格式绑架。这其实才是 Agentic Software 的意义,不是跳过工具,而是让工具的执行过程变得高效且透明。

以往做 PPT,我们处于一种左右脑互搏的焦虑中,既要像作家一样思考逻辑,又要像设计师一样纠结配色对齐。但在这次体验中,因为 AI 接管了找图、排版、美化这些繁琐的体力活,玩家只需要专注于我想讲什么。

这种不打断、不割裂、所想即所得的流畅感,恰恰验证了前面提到的理论,只有原生在文档里的 AI,才是真正的生产力。

▲ 输入主题就能得到 PPT,WPS AIPPT 官网,aippt.wps.cn

在活动现场,我不止一次听到有人感叹,「没想到 WPS 现在的 AI 已经做得这么深入了。」这句感叹背后,其实是用户对当前市面上大量「套壳 AI」的审美疲劳。

为什么 WPS AI 能给人不同的感觉?我认为核心在于金山办公对于「AI 与软件关系」的重构。正如刘拓辰所说,Agentic Software 绝不是简单的聊天机器人。智能体这个词在今年 Manus 爆火之后,就一直没有冷下来过,但对我们用户来说,一个好的 Agent 却仍然还在被定义中。

在 AI 的 1.0 时代,大多数产品是把 AI 当作一个「插件」挂在软件旁边,两套工具流,各玩各的。最近这两年,AI 工具更是百花齐放,但真正能改变工作方式的,从来不是功能升级,而是软件结构的变化。

WPS AI 走的正是这条更难的路,彻底把 AI 融入软件设计;一方面,给 AI 一个独创的翻译引擎,让 AI 能读懂复杂的文档格式;另一方面,把拆解任务、调用工具的每一步都摊在台面上,我们看着 AI 干活,随时喊停纠正。

它不满足于仅仅生成一段文字,而是要成为一个能真正「交付结果(Get Things Done)」的智能体。无论是最近大火的「企业知识库」功能,还是这次演示的 WPS AIPPT,本质上都是这种「原生+智能体」思路的落地。

在 WPS AI 的体系里,AI 不是插件、不是外挂,也不是单纯的内容生成器。它是我们文档里的助手,是会议里的整理者,是灵感的第一落点,是 PPT 的合作者。

对于当前这个浮躁的 AI 时代来说,这其实是 WPS AI 一种克制与务实的长期主义。不去卷那些花哨的 C 端娱乐功能,而是死磕文档、知识库、企业大脑这些 Office 办公领域的基石;也让 WPS AI成为了目前市面上少有的、真正能被称为「生产力」的产品;懂文档、懂创作、更懂用户。

回想起文章开头提到的那个问题:我们还需要多久才能跨越 AI 的尝鲜期?答案也许就在你打开 WPS 的那一刻。

当你发现,原本需要一下午才能搞定的 PPT,现在喝杯咖啡的功夫就能出初稿;当你发现,你终于不再是软件的奴隶,而是 AI 的指挥官时;你就已经是一个 AI Native 职场人了。

不要让 AI 成为你的焦虑来源,去试着指挥它,去试着把那些「必须做」的繁琐交给它,让自己专注于「值得做」的事情 。

毕竟,只有当我们繁琐的操作真正隐形,创造力才能真正显现。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


国产 T800 来了!回旋踢拳击技能点满,超越 80% 男性,这才是铁甲钢拳

By: 张子豪
2 December 2025 at 15:12

刚刚,众擎机器人发布了最新旗舰产品,全尺寸高动态通用机器人 T800。

不夸张地说,这大概是市面上最帅的机器人,既有专属于机器的硬核质感,还带来了人类的灵活控制。

T800 这个型号,我一看到就想到了终结者里面的施瓦辛格,虽然还没做到电影里面的半机械人状态,但是在格斗能力上,众擎这款机器人打出的组合拳、飞踢、回旋踢,完全称得上 T800 级别。

去年十月,众擎机器人才刚刚发布了首款身高 170CM 的人形机器人 SE01,今年 2 月,成功实现了全球首例人形机器人前空翻特技。

今天,T800 发布,对比前代,这款机器人融合了众擎机器人在本体结构、运动控制和智能感知系统方面的最新成果,在稳定行走、动态平衡、动力性能方面都带来了领先优势。

基本参数方面,T800 的身高来到了 173CM,小腿+大腿的长度是 91CM,手臂长度 60CM;携带电池之后的体重为 75KG。在关节自由度方面,全身有 43 个自由度关节,不含双手是 29 个,单手自带 7 个多维度感知灵巧手自由度关节。

集成了触觉传感器的灵巧手,能够实现精细的抓取和操作,同时单手也有 5KG 的负载能力。

运动参数的表现,T800 的移动速度是 3m/s,对比我们普通的每秒钟 1m 左右的速度,属实快了不少。

关节运动空间也做到了高度灵活的关节控制,几乎全身的主要关节,都支持较大的活动角度,手臂、肩等部分,接近于全周旋转。

T800 的动力系统采用了 72V 的行星/直线混合驱动,即针对不同的关节有不同的驱动类型;腰部与髋部(旋转): 采用行星减速模组;膝部与踝部(推杆): 采用直线执行器,模拟人类大腿肌肉的伸缩发力。

最大关节力矩更是高达450 N·m,这几乎给了机器人相当大的爆发力和负载能力;一些主流的家用轿车,

发动机的峰值扭矩大约也就在 300~400 N·m 左右。在某种程度上,这意味着 T800 单个关节(通常是膝盖或髋部),瞬间爆发出的旋转力量,竟然是有可能超过,或者匹敌一台汽车引擎的峰值输出。

演示视频里,T800 完美执行了巴西战舞、回旋踢、嚣张挑衅、拳脚连招、五连踢、组合拳、以及飞踢等高难度动作,每一个动作都干脆利落。

而在实现高动态运动的同时,众擎 T800 还兼顾了 5% 的力控精度和 2-4 小时的长效续航,不仅四肢发达,更是粗中有细。

众擎在产品视频的介绍里还提到,T800 实现了对 170CM 同等身高男性群体,80% 以上的性能超越。在宣传视频的评论区里面,网友们都惊叹不已,「这么灵活的动作,铁甲钢拳真的照进现实了!」说实话,我看到视频的第一感觉也是这样,「帅」是脑子里蹦出来的第一个词,大开大合的武打动作,足够满足我对搏击力量的憧憬。

作为一款全尺寸的高动态机器人,T800 的定位是替代人类去从事一些高强度、重复性的体力劳动。物流仓储、酒店服务、门店导购、以及工厂协作,都是众擎在产品官网列举出的应用范畴。

目前来看,T800 的首要落地点还是在于生产制造业,而不是进入家庭。上个月,众擎机器人就联合京东之家,在深圳开设了全球首家人形机器人主题潮品店,「赛博店员」上岗给顾客提供服务。

和宇树一样,众擎机器人也是一家小型初创公司,获得了京东、宁德时代等企业的投资;它 2023 年在深圳成立,目前已经发布了包括 T800 在内的六款机器人产品。

T800 作为众擎机器人的核心产品,很明显是被寄予了推动人形机器人,从样机走向实用的使命。

众擎创始人赵同阳在上个月粤港澳大湾区文化产业投资大会上提到,2026 年要实现数十台级别的小批量交付,来验证某些特定的行业场景是否可行;而 2027 年要争取 T800 的销量达到 1-2 万台。

这还只是众擎一家机器人公司的产销计划,更不用说还有宇树、优必选、甚至小米等、以及国外的热门公司。不敢想象 ,真到了 2027 年,大街上是不是真的都是机器人了。

用它宣传视频里面标语来说,「未来已来,共生之始」,前往和机器共生时代的大门,已经被打开了。

彩蛋:众擎曾在五月份宣布,将在今年 12月24日举办一场机器人自由格斗比赛「机甲拳王」。现在这场格斗马上就要登场了,今天发布的 T800,也将作为核心参赛机型登场对战。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


笑死,兵马俑在千问 APP 里跳 K-Pop,比练习生还丝滑

By: 莫崇宇
2 December 2025 at 11:34

让兵马俑跳 K-Pop 是什么体验?

如果你今天刷到一段视频:一位两千岁高龄的「老人家」兵马俑拿着麦克风,跟着节拍左摇右摆,动作比练习生还丝滑,表情管理比爱豆还到位。

倒也不用慌,这只是 AI 界的又一次整活现场。

而这充满反差感、邪门又好笑的画面,正是出自阿里千问 App 新升级的功能。

基于 Wan2.5 音视频同时输出能力,千问的 AI 玩法又升级了!仅需一张照片+一段提示词,就能生成口型精准、动作丝滑的「边唱边跳」视频,支持最长 10 秒、1080P 输出。

▲(别急,还有高手,唱跳俱佳的兵马俑男团来了)

而且没有任何限制。无论是真人照片、萌宠、二次元角色,还是文物、卡通形象,千问 App 都能让它们动起来。

当然,得先说好:视频里的声音不是提前录好的音频,也不是简单的文字转语音,更不是套模板,而是 AI 根据自己的理解推理生成的,AI 会自己根据角色,配上合适的音色、曲调。

可能和咱们唱的有点不一样,但正是这份独特的「AI 味儿」演绎,反而格外妙趣横生~

一张图+一句话,万物皆可边唱边跳

眼瞅着快过年了,刘德华的《恭喜发财》也已经在解封的路上了。

听腻了天王版本?那不如试试财神爷本尊亲自开嗓。我上传了一张财神爷的画像,输入提示词。结果财神爷真就动起来了, 一边唱着「恭喜你发财,财富一定来」,一边左右摇摆。

这才是真·财神附体。

所以拿这个给长辈拜年, 红包不翻倍都说不过去。

诗仙也要跟上时代潮流。

我翻出一张李白画像, 让他整一段当下最火的《刀马刀马》。两分钟后, 李白从画里「复活」了, 跟着魔性旋律左摇右摆。

可惜 AI 没能让他跳出正宗刀马舞, 看来对音乐和舞蹈的理解还得再练练。不过虽然舞姿跑偏了, 但 AI 生成的整个场面却别有一番喜感,不得不说千问 App 简直是 AI 抽象届的舞王。

《疯狂动物城 2》最近票房大卖,尼克和朱迪这对经典搭档又火了一波。

既然都这么火了, 那不如让它们来段双人唱跳?尼克唱着「朋友一生一起走」, 朱迪在旁边摇头晃脑,两个人还真有那么点默契配合的意思。整个画面, 倒像是官方番外篇里的音乐剧片段。

不过,尼克这充满「个性」的唱腔,意外成了整段视频的笑点担当,打工人平淡工作日里的笑点,最近都被千问 App 承包了。

还记得许嵩当年那段自我介绍吗?「大家好我是 Vae,这是我即将发表的首张独创专辑《自定义》。」我寻思着,要不让爱因斯坦也来一段?他张着嘴,一本正经地说着这段经典台词,还真的配合着节奏点头,更绝的是口型竟然也一一对上了。

只能说,许嵩看了会沉默,爱因斯坦看了会流泪。

《猫和老鼠》作为经典哑剧动画,但有了 AI,我们可以让 Tom 开口唱歌,顺便还能跳当下大火的高雅人士企鹅舞。满分十分,你能打几分?

最后,我让在卢浮宫端了 500 年架子的蒙娜丽莎戴上墨镜开唱。魔性歌曲配达芬奇名画, 这组合本身就够行为艺术了。文物活化的另一种打开方式,get 了。

千问 P 图+生视频=快乐²

当然,千问 APP 除了可以生成视频,也可以生成图片。

这次更新接入了全新改版的图片生成及编辑模型 Qwen-Image,在图像编辑一致性、多视角转换、多图融合等方面都有突破。简单说就是:只要在对话界面输入指令,就能自动调用模型能力,实现各种魔性操作。

比如换姿势:原本端坐的兵马俑,被指令后,立即呈现出一个手握篮球腾空封盖的英姿,视觉冲击感十足。

再比如服装变换:周末想发穿搭照但懒得换衣服?上传自拍,一句话把 T 恤换成西装,甚至还能给大卫雕像穿上了梅西的球衣。

反正脑洞有多大,AI 就能玩多花。

那么这时候,我们就可以体验进阶操作:

先改图,再生视频。

简单说就是:先把图片 P 成你想要的样子,然后再让它动起来唱歌跳舞。一套组合拳下来,创作自由度直接拉满。

比方说,我上周末花时间又重新看了一遍《泰坦尼克号》,于是我突发奇想:如果把马斯克和奥特曼 P 进《泰坦尼克号》的经典船头场景会怎样?

第一步,生图:上传两人照片,输入指令,千问 App 直接给我生成了一张高清合成图,男版马斯克,女版奥特曼,结果真是好一对恨比爱长久的苦命鸳鸯。

第二步,生视频:基于这张图,继续输入「帮我生成视频,图中的人物边唱歌边做飞翔的动作,海风要强烈,情绪要饱满」

然后… 两个科技圈大佬就在我手机里深情开唱了。

测到这儿,我已经停不下来了。

接着,我让千问 App 生成一颗拟人化的红豆。然后让它用它自己的调子唱出专属版本的「哈基米南北绿豆, 阿西噶阿西」。

结果这颗红豆顶着硕大的眼睛, 挥舞着小手, 跟着魔性节奏左摇右摆。就是这嗓音不走可爱风,反而略显粗犷,杀伤力几乎比原版还要高出三个数量级。

听完像吃了云南野生菌,画面与声音的搭配极其令人上头。

既然单人能跳,那能不能搞个组合出道,我突发奇想:要不让四大名著的主角们组个乐队?

说干就干。我先用千问 App 的图片融合功能, 把五位经典人物 P 成一张站位完美的乐队阵容——

孙悟空担任主唱, 关羽负责电吉他,林黛玉坐在键盘前,武松打鼓,曹操当贝斯手,定妆照搞定后, 那便是最简单的动起来环节,两分钟后, 一场跨越时空的摇滚现场就诞生了。

不得不说,这届 AI 真会玩。

一张图+一句话=10 秒魔性视频。不需要剪辑软件,不需要特效技能,甚至不需要会唱歌会跳舞,你只需要脑洞够大,AI 就能帮你实现。

除此之外,这功能除了整活,认真用起来也挺实用。

过年拜年视频可以交给 AI,朋友生日可以让寿星公跳舞,公司年会节目再也不愁没创意,甚至表白都能整出新花样…

当然,如果你只想单纯快乐一下,打开千问 App,上传图片,输入你的沙雕想法,剩下的交给 AI。2-5 分钟后,你就能得到一个足够发朋友圈炸场的魔性视频。

原来 AI 时代的快乐,真就这么简单。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


终于发布的Gemini 3,什么是它真正的王牌?

By: Selina
1 December 2025 at 20:51

Gemini 3 Pro 预览版上线那一刻,很多人心里的第一反应可能是:终于来了

遛了将近一个月,这里暗示那里路透:参数更强一点、推理更聪明一点、出图更花一点,大家已经看得心痒痒了。再加上 OpenAI、Gork 轮番出来狙击,更加是证实了 Gemini 3 将是超级大放送。

这次 Gemini 3 的主打卖点也很熟悉:更强的推理、更自然的对话、更原生的多模态理解。官方号称,在一堆学术基准上全面超越了 Gemini 2.5。

但如果只盯着这些数字,很容易忽略一个更关键的变化:

Gemini 3 不太像一次模型升级,更像一次围绕它的 Google 全家桶「系统更新」。

模型升级这一块的,Google 已经把话说得很满了

先快速把「硬指标」过一遍,免得大家心里没数:

-推理能力:官方强调 Gemini 3 Pro 在 Humanity’s Last Exam、GPQA Diamond、MathArena 等一堆高难度推理和数学基准上,全部刷出了新高分,定位就是「博士级推理模型」。
-多模态理解:不仅看图、看 PDF,甚至还能在长视频、多模态考试(MMMU-Pro、Video-MMMU)上拿到行业领先成绩,说看图说话、看视频讲重点的能力,提升了一档。
-Deep Think 模式: ARC-AGI 这类测试证明:打开 Deep Think 后,它在解决新类型问题上的表现会有可见提升。

从这些层面看,很容易把 Gemini 3 归类为:「比 2.5 更聪明的一代通用模型」。但如果只是这样,它也就只是排行榜上的新名字。连 Josh Woodward 出来接受采访都说,这些硬指标只能是作为参考。

换句话说,「跑了多少分」只是一种相对直观的表现手法,真正有意思的地方在于 Google 把它塞进了哪些地方,以及打算用它把什么东西连起来。在这一个版本的更新中,「原生多模态」显然是重中之重。在这一次的大更新中,「原生多模态」显然是重中之重。

如果要为当下的大模型找一个分水岭,那就是:它究竟只是「支持多模态」,还是从一开始就被设计成「原生多模态」。

这是 Google 在 2023 年,即 Gemini 1 时期就提出来的概念,也是一直以来他们的策略核心:在预训练数据里一开始就混合了文本、代码、图片、音频、视频等多种模态,而不是先训一个文本大模型,再外挂视觉、语音子模型。

后者的做法,是过去很多模型在面对多模态时的策略,本质还是「管线式」的:语音要先丢进 ASR,再把转好的文本丢给语言模型;看图要先走一个独立的视觉编码器,再把特征接到语言模型上。

Gemini 3 则试图把这条流水线折叠起来:同一套大型 Transformer,在预训练阶段就同时看到文本、图像、音频乃至视频切片,让它在同一个表征空间里学习这些信号的共性和差异。

少一条流水线,就少一层信息损耗。对模型来说,原生多模态不仅仅是「多学几种输入格式」,这背后的意义是,少走几道工序。少掉那几道工序,意味着更完整的语气、更密集的画面细节、更准确的时间顺序可以被保留下来。
更重要的是,这对应用层有了革命性的影响:当一个模型从一开始就假定「世界就是多模态的」,它做出来的产品,与单纯的问答机器人相比,更像是一种新的交互形式。

从 Search 到 Antigravity,新总线诞生

这次 Gemini 3 上线,Google 同步在搜索栏的 AI Mode 更新了,在这个模式下,你看到的不再是一排蓝色链接,而是一整块由 Gemini 3 生成的动态内容区——上面可以有摘要、结构化卡片、时间轴,虽然是有条件触发,但是模型发布的同时就直接让搜索跟上,属实少见。

更特别的是,AI 模式支持使用 Gemini 3 来实现新的生成式 UI 体验,例如沉浸式视觉布局、交互式工具和模拟——这些都是根据查询内容即时生成的。

这个思路将一系列 Google 系产品中发扬光大,官方的说法是更像「思考伙伴」,给出的回答更直接,更少套话,更有「自己看法」,更能「自己行动」。

配合多模态能力,你可以让它看一段打球视频,帮你挑出动作问题、生成训练计划;听一段讲座音频,顺手出一份带小测题的学习卡片;把几份手写笔记、PDF、网页混在一起,集中整理成一个图文并茂的摘要。

这部分更多是「超级个人助理」的叙事:Gemini 3 塞进 App 之后,试图覆盖学习、生活、轻办公的日常用例,风格是「你少操点心,我多干点活」。

而在 API 侧,Gemini 3 Pro 被官方明确挂在「最适合 agentic coding 和 vibe coding」这一档上:也就是既能写前端、搭交互,又能在复杂任务里调工具、按步骤实现开发任务。

这一次最令人惊艳的也是 Gemini 在「整装式」生成应用工具的能力上。

这也就来到了这次发布的新 IDE 产品:Antigravity。在官方的设想中,这是一个「以 AI 为主角」的开发环境。具体实现起来的方式包括:

-多个 AI agent 可以直接访问编辑器、终端、浏览器;

-它们会分工:有人写代码,有人查文档,有人跑测试;

-所有操作会被记录成 Artifacts:任务列表、执行计划、网页截图、浏览器录屏……方便人类事后检查「你到底干了啥」。

在一个油管博主连线 Gemini 产品负责人的测试中,任务是设计一个招聘网站,而命令简单到只是复制、复制、全部复制,什么都不修改,直接粘贴。

最终 Gemini 独立完成对混乱文本的分析,真的做了一个完整的网站出来,前前后后所有的素材配置、部署,都是它自己解决的。

从这个角度看,Gemini 3 不只是一个「更聪明的模型」,而是 Google 想用来粘住 Search、App、Workspace、开发者工具的那条新总线。

回到最直觉的感受上:Gemini 3 和上一代相比,最明显的差别其实是——它更愿意、也更擅长「帮你一起协作」。这也是 Google 对它赋予的期待。

压力给到各方

跳出 Google 自身,Gemini 3 的 Preview 版本实际上给整个大模型行业,打开了一局新游戏:多模态能力应用的爆发势在必行。

在此之前,多模态(能看能听)是加分项;在此之后,“原生多模态”将基本配置——还不能是瞎糊弄的那种。Gemini 3 这种端到端的视听理解能力,将迫使 OpenAI、Anthropic(Claude)以及开源社区加速淘汰旧范式。对于那些还在依赖「截图+OCR」来理解画面的模型厂商来说,技术倒计时已经开始。

「套壳」与中间层也会感到压力山大,Gemini 3 展现出的强大 Agent 规划能力,是对当前市场上大量 Agentic Workflow(智能体工作流) 创业公司的直接挤压。当基础模型本身就能完美处理「意图拆解-工具调用-结果反馈」的闭环时,「模型即应用」的现实就又靠近了一点。

另外,手机厂商可能也能感到一丝风向的变化,Gemini 3 的轻量化和响应速度反映的是 Google 正在为端侧模型蓄力,结合之前苹果和几家不同的模型大厂建立合作,可以猜测行业竞争将从单纯比拼云端参数的「算力战」,转向比拼手机、眼镜、汽车等终端落地能力的“体验战”。

谁最强已经没那么重要了,谁「始终在手边」才重要

在大模型竞争的上半场,大家还在问:「谁的模型更强?」,参数、分数、排行榜,争的是「天赋」。到了 Gemini 3 这一代,问题慢慢变成:「谁的能力真正长在产品上、长在用户身上?」

Google 这次给出的答案,是一条相对清晰的路径:从底层的 Gemini 3 模型,往上接工具调用和 agentic 架构,再往上接 Search、Gemini App、Workspace 和 Antigravity 这些具体产品界面。

你可以把它理解成 Google 用 Gemini 3 将以原生多模态为全新的王牌,并且给自己旗下生态中的所有产品,焊上一条新的「智能总线」,让同一套能力,在各个层面都得以发挥。

至于它最终能不能改变你每天用搜索、写东西、写代码的方式,答案不会写在发布会里,而是写在接下来几个月——看有多少人,会在不经意间,把它留在自己的日常工作流中。

如果真到了那一步,排行榜上谁第一,可能就没那么重要了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


还在用 Gemini 3 写 ppt?太土了,来看看最酷炫手势互动(附提示词)

By: Selina
1 December 2025 at 16:56

Gemini 3 发布之后这些日子里,我逐渐感到疑惑:为什么总让 AI 写网站写 PPT,Gemini 都发到第三代了,不能干点更有意思的事吗?

要那种科幻感强的、效果酷炫的、难度系数高的,但小白也能做的。比如这种:

或者这种:

Gemini:手势交互?没问题,包的。

在开始之前,先准备好 Gemini 3,这里是一点点的注意事项👇🏻

目前有三种方式开启玩耍:Gemini 客户端 Canvas 模式、Google AI studio-Playground 和 Google AI studio-Build。

其中,最不推荐的是客户端,亲测无法有效拉起摄像头,并且,下面都是手势互动项目,举着手机,手自然也是没法做操控的。

后两者中,Build 是直接形成一个 app,你可以分享给其它朋友,缺点是 tokens 有限。而 Playground 会生成一套代码,需要下载到本地再打开,一旦换个电脑就可能运行不了,但优点是几乎没有 tokens 限制,每天一百万,量大管饱。

考虑到交互项目比较消耗 tokens,所以 Playground 更为合适,个别小项目用 Build 也可以,这就看个人情况而定。

Jarvis

Jarvis HUD 面板是在推上超过二十万次浏览的热门爆款,手势操控仪表球,就像钢铁侠操控 Jarvis 那样,酷毙了。

参考 prompt 如下:

create a webapp using vanilla js, html, css, modern threejs, mediapipe. it should be a sci-fi tony stark / iron man / jarvis experience focused on simulating an AR heads up display experience. full screen webcam input shown. add a heads up display that tracks the user’s head (offset to the right), with live updating metrics. a minimal 3D world globe should be shown on the left center of the screen, that should be able to be rotated / sized by the user hand gestures

在 Build 模式下,亲测完全可以实现一次成型,Gemini 会自动安排任务、编写代码,调用不同的接口,进度条显示完成后,点击 Preview 就能直接打开——记得放行摄像头权限。

 

Gemini 3 自己就把效果设计安排得明明白白:左手是放大缩小,右边是转动,双手进入摄像头范围后会显示触控点——这些都是 prompt 里没有的,都是它自己的「想」出来的。搭配大屏幕或者投影,真的很有 Jarvis 既视感。

左边的地球建模和右边的面板的内容都是可以改变的,最初 Gemini 3 让右边的面板显示人体体温(显然是凭空编的),后来被我改成了「实时显示左侧地球模型的直径」。反正 vibe coding 一下,想怎么改怎么改。

雨滴控制

Jarvis 都有了,惊天魔盗团不也得安排上。

看电影时只有特效,但现在,有 Gemini 3 了。参考 prompt 如下:

用 HTML+JS+ML 模型做个网页应用,通过摄像头检测手势,实现用手势来控制雨滴动画的暂停、静止和升格效果。动画效果保持在雨滴垂直方向,风格参考电影《惊天魔盗团》

这个 prompt 的第一轮表述完全是按照我看电影之后的想法写的,每个细节都可以通过 vibe coding 再调节。根据第一轮 prompt,Gemini 会加入它自己的设计,比如这具体的手势就是它想出来的。

虽然是用 AI 做的,但是在识别手势动作时非常灵敏,包括不同手势之间的切换都能够快速响应。

3D 粒子

控制雨滴曾经是非常复杂的特效技术,就在《惊天魔盗团 2》上映之后,有一个饮料公司做了一支广告,通过控制雨滴,实现静态的粒子效果。

那么参考「控雨术」,Gemini 完全可以实现上面这种结合实拍和速度控制才能出现的效果,最接近的就是 3D 粒子。所以我又做了一个 3D 粒子效果的交互案例。

非常酷炫!prompt 参考如下:

用 Three.js 创建一个实时交互的 3D 粒子系统。通过摄像头检测双手张合控制粒子群的缩放与扩散,提供 UI 面板可选择爱心/花朵/土星/佛像/烟花等模型,支持颜色选择器调整粒子颜色,粒子需实时响应手势变化。界面简洁现代,包含全屏控制按钮

一次成型,最后出来的交互非常丝滑,尤其是对于手势的识别很准确又灵敏。

【小技巧】

涉及到颜色、布局、UI 设计等等细节,如果每次都用 vibe coding 的方式来调节,表述起来会很麻烦。并且每一次 vibe code 都存在抽卡的情况,所以有一个非常实用的技巧是:加上自定义模块,尤其是颜色、大小等,这样可以完全自主搭配自己喜欢的配色方案。

技能五子棋

由雨滴想到粒子,由粒子想到移动,由移动想到——五子棋!我终于可以做技能五子棋了!!

仔细想想,五子棋不也是一个手势控制、飞来飞去的交互方式吗!飞沙走石移动棋子,力拔山兮移动棋盘,全都安排上!

Prompt 参考如下:

做一个手势互动小游戏「技能五子棋」:主页面为五子棋棋盘,默认已经摆放好棋子。当用户做出「单手甩手」的动作时,棋子会跟随甩动的方向飞出棋盘。当用户做出「双手甩动」的动作时,棋盘会跟随甩动方向飞动

Gemini 自己完成了物理逻辑和手势之间的衔接,我的 prompt 只需要描述效果,而具体的速度向量计算、检测阈值,都不用我管。

它甚至还重新命名了「技能」:万象天引。

这叫飞沙走石啊 Gemini 老师!

节奏音乐游戏

综合上面的几个尝试,Gemini 的毋庸置疑,而且回想一下这些技能树:手势识别、色彩变化,这些组合起来,不就是小游戏吗?

于是我尝试了更复杂一点的项目:节奏游戏。

音游玩过很多了,但是零经验小白真要做一个游戏、怎么给 Gemini 形容我想达到的效果,还真是花了一点脑筋 ,后来第一版 prompt 如下:

做一个用手势操控的音乐游戏,主界面为四条音轨,用户上传音乐文件后,四条音轨上按节拍出现光点,用户需要用手势准确拍击出现的光点,背景为复古合成波(Synthwave)风格,背景、音轨和光点的颜色可以自定义调节

这基本上是我能想到的雏形,根据第一版 prompt,Gemini 选择了 Pygame 作为游戏引擎,继续使用 MediaPipe 做手势追踪,并且加入了 Librosa 用来分析音乐。

选择复古合成波风格是因为它有明确的视觉标志——Gemini 也识别出来了——落日、霓虹渐变色、网格和驶向地平线的道路,非常适合节奏音游。

果然做游戏比前面的一些小交互复杂多了……先是只能识别一只手,得调整;然后是无法上传音乐,得调整;到了第三版才稍稍有点样子

但是在体验过中我发现一个比较 bug 的地方:判定线的位置离屏幕边缘太近了,而摄像头的识别范围是有限的,我的手稍微放低一点就无法被识别。

一开始我尝试的方法是,把判定线移动到屏幕居中位置,保证我的手始终能在摄像头捕捉范围内。

但是又出来一个问题:光点出口和判定线之间的距离过短,留给我的反应时间也很短,更别提点击动作还有一点点点的延迟,整个可玩性大大下降。可是放太低就还是会出现手掉出识别范围的情况。

一时之间我还真想不到这个矛盾该怎么办,于是,我直接去问了 Gemini 能怎么解决。

它直接指出了这个问题的症结所在,并且提出了「视觉欺骗」的方式来优化体验,并且加了一个自定义滑块来调节偏移,这样一来无论手在什么位置,都可以通过调节滑块来对齐判定线。

天才。

后来我还指出,感觉光点的出现跟节奏不太一致,为了解决这个问题,Gemini 又加了一个滑块用来调节延迟。虽然我仍然认为它并没有很好地分析节奏型,但是这个滑块的设计还是很有效,尤其是解决了戴着蓝牙耳机导致的延迟。

【一些小技巧】

本质上,只要有 prompt 就有抽卡的情况存在,但抽卡未必就不好。当碰到非常硬伤的 bug,比如始终无法调用摄像头、无法上传文件等等,vibe coding 时反复修改也没效果,不如就直接「新建项目」。核心功能反映在代码上,彼此之间有所牵连,重新跑一遍,让 AI 整体性地补足,远比一点点 vibe coding 要更有效率。当然,能看懂代码就会更有效率,可以针对性地解决。 只不过,对于完全的零码选手来说,还不如直接重新抽卡。

在 AI 之前,做手势交互的应用,得先学点儿 Touch Designer,最好还懂点儿部署。这些都得一点点翻教程,反复研究,在这个过程中搞不好就被劝退了。

有了 AI 之后有多简单,自然不用多说。更关键的是,手势交互原本的门槛远比生图、做 PPT 要更复杂,却又能让小白零码选手快速领略到做应用的乐趣。

唯一留下的,是对审美的挑战。在这些案例里能看到,Gemini 有点审美,但不多,设计、配色等等都是差强人意。代码的「硬」技能它可以掌握,留给我们的,就是对于审美的挑战。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


继 Nano Banana 2 之后,国产 AI 生图又杀出「一致性标杆」,Vidu 生图限时无限免费

By: Selina
1 December 2025 at 12:22

说实话, AI 生图工具有时候真的让人又爱又恨。

刚认识的时候(第一次生成),你会觉得它惊为天人,哪哪都好;可一旦你想跟它深入发展(做成系列图、落地进工作流),它就开始「掉链子」,陷入抽卡玄学。

这种「只能看不能打」的状态,真拿它干活就会无比「拧巴」,在 Nano Banana 这样的工具出现后,事情终于开始改变,原来 AI 是可以被更精确控制的。

现在,终于也有国产 AI 接力,进一步把这条路跑通。Vidu Q2 最新上线的文生图、参考生图、图像编辑功能就是这个路子:卷完「好看」,它开始死磕「稳定性」。

这次 Vidu Q2 直接把技能点全加在了「一致性」上。什么概念?就是把「人设崩坏」、「产品变形」、「画风突变」这些老大难问题统统按在地上摩擦。

简单说,它不只是想让你发个朋友圈炫技,而是真想让你拥有一套能「从头用到尾」的实用创作流。

在最新的 AA 榜单里,Vidu Q2 首次上线的图像编辑能力甚至超越了 OpenAI 的 GPT-5,最难能可贵的是,作为成立才 2 年多的创业公司,用技术实力说话,跟 Google、字节这种大厂并列前三,追赶 Nana Banana Pro,直接把「省心」两个字拿捏了。

Vidu 还搞了一个长达 1 个月的「免费大礼包」,敞开大门让大家薅羊毛。即日起至 12 月 31 日,Vidu 会员生图「免费」,无论是参考生图、文生图还是图像编辑,统统随便造。标准版和专业版会员每月也有 300 张免费额度,旗舰版更是免费无限生图。

今天我们就趁着这个「无限续杯」的机会,拿 Vidu Q2 的生图功能狠狠考验一下,看看它到底能不能拯救我们的发际线。

开局一张图,剩下的全靠它「脑补」

Vidu 在一众 AI 工具中,是最早就把「围绕一张图持续参考创作」当成核心能力来打磨的。在国内多参生图中支持的输入图数量最多,一致性也最高

在最近 Vidu Q2 的更新里,这项能力又被往前推了一大步:不仅支持更复杂的多参考组合,还大幅降低了生图门槛——设计师、导演、甚至是喜欢创作的普通用户,都可以用自己熟悉的方式提供主体图和环境参考,由模型一键复刻动作、位置、布局、纹理、光线、色彩等,自动去「对齐要求参考图、保持角色不变」。

多参生图

在多参生图场景下,我们给 Vidu Q2 参考生图的输入非常接近真实工作流:一张是最近的全运会「顶流」大湾鸡,另一张是希望出现的场景氛围,夕阳下外滩的观景台。

然后我就写了一句简短的提示词,剩下的全交给它。

结果出来,我直接「瑞思拜」。

它不是那种傻瓜式的把主体抠图贴上去,而是真的在这个场景里「重算」了光影。主体的光影方向会跟环境一致,动作也随着指令准确变化。

甚至我让它变成喷绘印在汽车上,连车身上的倒影色彩都给你算得明明白白。

更关键的是,多次生成不同构图和姿势时,许多都能保持高度一致,比如大湾鸡胸前的图案、头顶的彩色冠,这一点在传统靠 prompt 调参的生图流程里往往很难做到。

这就很灵性了。对于品牌方来说,以前要把一个 IP 形象放到不同场景里做海报,得建模、渲染、P 图,现在?几秒钟搞定,而且那种「违和感」完全消失了。

空间一致性

更绝的是 Vidu 对空间关系的理解能力,当我要求「大湾鸡穿梭在故宫雕花栏杆中」时,Vidu 并没有像其他 AI 那样跟栏杆穿模,或者变成恐怖片现场。

它居然先根据环境图「脑补」了故宫的空间结构,让大湾鸡自然地走在走廊空间中。

再来上个难度,让 AI 角色参考复杂武打动作。

过去 AI 角色无法准确还原你设计的复杂动作,不是动作变形就是人物在打斗过程中变了一个人。而现在通过 Vidu Q2 参考生图则解了 AI 创作者的燃眉之急,可以一键复刻动作,让你的 AI 主角也能拥有十八般武艺。

如下面的案例中,两个动漫主角精准还原了图 1 中的打斗姿势,同时人物服装、面部细节、空间位置关系都保持了极高的一致性。

这种对「空间」的理解,让参考生图不再只是贴背景,而是真正具备了为分镜、镜头调度服务的能力

这种对空间的理解力,用来做电影分镜或者像最近很火的《疯狂动物城 2》那种合影海报,简直不要太好用。

比如下面的案例,同一张图+不同镜头提示词,即可生成足球少年踢球的特写、远景、足球特写等,并通过图生视频,剪辑为一个完整的叙事镜头。对于短剧动漫影视制作,省去了一个画面需要多次拍摄或者绘制大量分镜的环节,妥妥的生产力提效工具。

再通过 Vidu Q2 图生视频功能,输出两人在足球场上抢球的精彩视频:

在风格一致性方面,传统 AI 文生图功能想象力很好但是往往一致性表现很差,风格前后不一致、人物融合的情况屡见不鲜,而 Vidu Q2 不仅支持上百种动漫风格,而且还能在生成的连续多图中保持风格的一致性和故事的连贯性。

比如让 Vidu Q2 文生图几句话生成四格漫画,不仅风格、人物保持前后一致,细节稳定,而且几句话让它一次性拉出完整故事:

从这些案例可以看到,Vidu 在参考生图上的升级,并不是停留在「把图生得像」这一层,而是把「主体一致性」和「空间理解」一起纳入考量:一方面,它能围绕参考图,稳定地生成人物不同角度、不同氛围、不同风格、光线下的一整套画面;另一方面,又能把环境图当成真实空间来处理,而不是简单的背景贴图。

不只是玩具,是实打实的「实战神器」

如果说参考生图解决的是「第一张图怎么定」,那 Vidu Q2 全新上线的图像编辑则真正让这张图进入日常工作流,实现更加精细化的画面控制,满足实际商业化场景需求。

Vidu 在这一块的定位很直接:覆盖 90%的常见图片编辑场景——加元素、减元素、换背景、换颜色、调光线、变焦、比例切换,都可以用自然语言完成,在连续修改的过程中又始终保持主体的一致性。

在替换与局部编辑的测试里,我试着把一张车站广告换成马斯克,要是以前,我得抠图抠到眼瞎,但现在就几秒就能搞定,直接一键复刻。

以后看到爆款广告、爆款封面,可以像这样大批量一键复刻,4K 直出,直接上架,做广告、社媒不要太轻松。

类似的,下面的案例里,要求是为三个女孩加上酒杯——Q2 不仅完成了该要求,还根据光线涉及了酒杯的折射,完善了三个人的手部细节。

图片编辑是真正的「实战型」能力,尤其是电商或者社媒营销这样的场景。很多产品图的前期其实只有一个简单线稿:设计师给的是草图,运营要的是立刻就能上架的主图。

这就是图片编辑可以大展拳脚的时候,我们用 Vidu 做了一次完整的草图 → 上色 → 材质替换的演练。先是生成了家具的线稿图,然后直接一键用于参考生图,在 prompt 中指定好材料和风格。

Vidu 通过材质渲染,一步到位,做出细节满满又准确的实物图。紧接着还是一键复用,变换家居风格的提示词,沙发在不同家居风格的实景展示就出来了。

同一商品想要变换材质,也可以轻松实现。

可以发现,Vidu Q2 在图像编辑上的能力,其实正是把「多参生图时代的底层能力」落到了实处:识别谁是画面里的主体,把他/她/它锁定住,然后允许你用大白话对其周围的一切做增删改,甚至跨越多张图和一段视频。

这就好比以前你是开手动挡得调各种参数,现在 Vidu 给你整了个自动驾驶。你只需要把心思花在创意上,剩下的粗活累活,它全包了。

这里面还涉及到另一个非常有用的能力:保存主体。我们可以将上述 Q2 文生图/参考生图/图像编辑后的图片一键保存为主体,把这个 IP「收进了角色库」,后续在 Vidu 的参考生视频中,都可以直接调用主体。

之后无论是换背景、换动作,还是把他/她放进新场景,只要选中这个角色、IP,模型都会严格保持人物一致,不会出现下一秒生成的主角和前一秒不一样的情况。

参考生图——保存主体——参考生视频,Vidu 打通了从灵感到成片的一站式工作流,再也不用在不同平台来回切换了,简直是短剧动漫,广告电商从业者的福音,目前 API 已同步上线。

AI 内卷,别谈「颠覆」,先谈「干活」

对于创作者来说,以前用 AI 干活儿是一种怎么样的体验?大概就是痛并快乐着:上一秒它给了你一张惊为天人的神图,下一秒让你在接下来的十小时里,因为复现不出那个眼神而心态崩盘。

在 AI 创作工具演进的十字路口上,我们观察到了两种不同的产品哲学。

Midjourney 这类产品像一台性能强劲的「引擎」,只有硬核极客才能驾驭那些复杂的参数和咒语般的 prompt,试图把单张图片的审美上限推到极致。

够酷,够极客,但也够折磨人。

而 Vidu Q2 选择了一条更务实、甚至看似「无聊」的路——做一台谁都能开的「量产车」。它不再执着于制造随机的惊喜,而是死磕「稳」字。

这种把所有步骤都帮你封装好的「傻瓜式」链路,才是真正的生产力。毕竟,对于那些被甲方催着改稿、被运营催着上线的团队来说,比起灵机一动的「随机性」,更加需要可交付的「确定性」。

也许在某些极端艺术风格的探索上,它或许不如那些参数党工具来得狂野自由,甚至因为太追求稳定,少了一些「意外之喜」的灵气。

但对于那些对于深受「抽卡」折磨的创作者,Vidu Q2 提供了一种久违的安全感。

当行业在谈论 AGI 的宏大叙事时,Vidu 低下头,不再只是给你造虚无缥缈的梦,先帮你把手里的砖搬稳了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


三百多万人围观的 AI 油画视频,是技术的神作,还是没有灵魂的电子垃圾

By: 张子豪
30 November 2025 at 17:21

「比蒙娜丽莎更美的,就是正在燃烧的蒙娜丽莎」,这是多年前一档辩论节目里,大家对于艺术价值的不同理解方式,那时听到可能觉得挺激进,笑一笑便过了。

最近一段把几幅经典油画「复活」的 AI 视频,在 X 上引起了巨大的争议,视频刷到 300 多万播放,被不少人称之为栩栩如生的艺术;比经典油画作品更好看的,是会流动的油画?AI 做的东西是不是没有任何艺术价值?

网友分享的油画视频里,经典的油画元素不再静止,颜料开始流动,天空的云朵、火山的喷发、还有海浪的汹涌都变得生动自然,仿佛那些存在几百年前的画布,突然拥有了生命一样。

乍看之下,这就是一场视觉盛宴的享受;如果不是其中几个视频,忘了去掉右下角 Google Veo 视频生成的水印,甚至会觉得完全是用 CG 特效制作实现,毕竟对油画风格来说,没有很明显的「AI 味」。

但是点开评论区之后,发现网友们撕成了两派,有人说,这就是新时代的艺术,是全新的审美体验;有人就不买单,用 AI 时代最刻薄的词汇——Slop(垃圾/泔水)一言蔽之,说等到 AI 有意识了,再来谈配不配成为艺术。

同样的一条 AI 视频,让人看到了艺术、技术、恐惧、愤怒、敬畏、厌烦,还有时代变化。

如果不说这是 AI,你的第一反应是

X 网友发布的这则视频,其实并不是他本人的原创,在评论区有人指出来,说他没有标注视频来源,也没说明使用了 AI,只是单纯地为了赚取流量。现在这波流量,也确实是被他赚到了。

视频最早是出现 YouTube 上,一位有着 2000 多粉丝的博主@bandyquantguy,他是宾夕法尼亚州立大学艺术与建筑学院的一名助理教学教授。频道内发布的内容,基本上都是不同油画的动态视频作品,长度在一分半到 3 分钟不等。

而那条被转发到 X 上的视频,并收获了三百多万的观看,是他将近一个月之前的作品。

当我看着满屏的动态油画时,说实话,根本没想到这是否通过 AI 生成。一方面是对油画艺术的不了解,是否有相关的技术,或者爱好者在专门做类似的工作。另一方面,大多数时候,我们所说的 AI 味,主要是在制作一些写实的画面,像现实世界、真人版等。而这种风格化本身就足够突出的内容,AI 的处理反而不会太突兀。

有网友评价,这是他见过最原汁原味的 AI 艺术作品之一,因为视频没有生硬地模仿现实,而是创造了一种介于梦境,与现实之间的流体美感。

第一眼都是觉得「震撼」,而这种迎面而来的视觉冲击,在知道它是 AI 生成的之后,也变成了争议的起点。大多数的人会觉得,这样的作品很棒;但对剩下一部分人来说,如果光靠 AI 就能得到原本属于「艺术」的内容,那该有多可怕。

Slop,AI 是原罪

所以,打压和看衰,成了评论区的另一种态度,Slop 就是代表性的关键词。

在 AI 语境下,Slop 指的是通过 AI 大量生成的、看似有内容实则空洞的劣质品。像是之前奥特曼推出 Sora,就有人犀利的丢下断言,Sora 生成的视频,全部都是 AI Slop。

这次,也有网友说,这样的油画视频,不应该放在社交媒体上,Sora 才是他最好的归宿,那里都是同样的 AI 垃圾。为什么画面如此精美的视频,会被称为 Slop?反而一些 AI 味明显的视频,激不起大家这么热烈的反馈。

因为它是机器盲目的困境。

反对者认为,AI 生成的内容,是缺乏意义,就像是一台机器盲目的梦境,它甚至不知道自己正在做梦。

他们的观点是,艺术不仅仅是停留在好看,那只是媚俗。艺术需要人类的意图、深度和复杂性。在这个视频里,原本油画的笔触,变成了毫无逻辑的像素流动,就像是单纯地为了展示「我能动」而动,没有任何节奏、理由或概念支撑这个视频的内容。

对他们来说,AI 最大的问题从来不是不够好看,而是「不够人」

AI 的每一次选择,只不过是概率。而人类创作一个作品,画一幅油画,背后包含的是对人生、对世界的思考和回应;有情感、时间、技巧、犹豫和失败等经历。

支持者觉得,现在的 AI,就像相机刚被发明时一样,不是在替代传统,而是在扩张想象力。甚至有网友说,「我想艺术家们在作画前,脑海中可能就有这样的画面,现在我们也能走进他们的灵感了。

是结果,还是过程重要

如果这个视频是一个人类艺术家,花费 1000 个小时,一帧一帧手绘出来的,评论区又会发生什么。除了震撼,大概还是一样,会有人说,这视频顶多用来作为我的手机屏保,除了好看也就仅此而已了。

艺术是主观觉得还是客观认定呢,其实都没有明确的界定。网友的期待,大概是希望,艺术应该是需要「努力」才能抵达的地方,而 AI 正在稀释「努力」在艺术中的价值。

前段时间,一幅名为《太空歌剧院》的画作,拿到了艺术比赛的头奖,还有 AI 画作甚至在拍卖市场,以十万、百万的价格被拍走。

我们在一个输入提示词就能生成图像的世界里,任何一个人不需要复杂的技巧,也不需要付出多少汗水,都有机会创作自己的作品,作品的意义也不再靠时间来定义。

▲提示词:将油画纹理动画化为粘稠流体模拟,厚重的颜料笔触融化并流动。旋转的天空、粘稠的黄色光芒、翻腾的蓝色云朵。

当 AI 把时间成本压缩到几秒钟,这种神圣感瞬间崩塌,剩下的就只有廉价。「这不难做吧」、「我用 Veo 3 也能生成」,这样的东西,自然就成不了艺术了。

更有趣的是,有网友提到,这是一种很明显的社会心理学现象,巴浦洛夫的狗。现在我们只要看到 AI 的标签,就有了条件反射,瞬间进入狂怒模式,无论作品本身好坏,一律打成 Slop。

具体来说,就是眼睛告诉我,这个视频还不错,但大脑告诉我,这是 AI,AI 做的都是不好的,为了调和这种矛盾,我就必须强行说服自己,它看起来很糟糕。

心理效应是存在,更多的我想其实还是,AI 内容的泛滥,正在把我们的审美阈值无限拔高。

没有 AI 的时候,让一幅油画像这样动起来,可以说是「魔法」一样的存在。现在如果这些作品没有极强的故事性,或情感内核,仅仅是视觉特效,已经很难打动被各种 AI 效果喂饱的我们。

▲ YouTube 上该博主的其他油画视频

无论评论区吵得多么不可开交,一个事实是无法改变:AI 不会消失,艺术也不会因为 AI 的出现而消失。

就像一些网友说的,「电力曾让蜡烛工厂破产,但人类具有适应性」。现在的混乱,也许只是新旧审美体系,交替时发生的阵痛。

如果在 100 年前我们按一下播放键,就能听到录好的歌,大概也会有人觉得,只有黑胶唱片出来的声音才是真音乐;现在我们只是习惯了,现场、黑胶、手机、音响都有好音乐。

艺术,从来看的是最终的愿景,是我想让你看到什么,而不是用了什么工具,我花了多久才做出来。一个活过来的 AI 艺术,就算是简单的几行提示词,一样倾注了真正属于创作者的叙事、情感与意图。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


看完《疯狂动物城2》这样发合照火爆朋友圈,Nano Banana Pro 新玩法来了 | 附教程

By: 张子豪
30 November 2025 at 17:20

疯狂动物城2 前几天刚正式上映,超过哪吒,成为中国影史动画电影预售票房冠军,双休日买好票准备去看了吗。

社交媒体上,早在预售的时候,就已经都是警官兔朱迪与狐尼克,出现在不同网友的电影院合影里

照片里的网友,左拥右抱着兔朱迪和狐尼克,作出自拍的姿势,而背后的影院屏幕上还显示着疯狂动物城2 的海报。同时人脸的一致性保持,让人觉得这就是电影放映后的粉丝福利,动画片主角跑出来免费合影。

评论区都在求攻略,有网友贴心地给出了制作指南。输入下面的提示词,然后图 1 上传自己的照片,图 2 和 图 3 分别上传朱迪和尼克的照片,图 4 是一张电影海报,通过豆包或者剪映 App 的生图功能,就能得到一张同款合照。

不要换脸,人物脸部不能有任何改变!将图1和图2 和图 3 的三人融合成一张三人俯拍自拍照,画面构图紧凑,三位主体靠得很近,图 1 人物居中,头部略微上仰,眼神直视镜头,营造出强烈的视觉冲击力。左侧和右侧人物站得略靠后,整体都需要保持人脸相似度,略微内扣身体,拍摄角度为高角度俯拍,使头部比例被夸张放大,典型的日韩视觉自拍风格。简洁干净,进一步凸显人物主体。整体画面清晰度高,用iphone前置自拍,最终呈现出精致、时尚、略带的合影效果。要求人物实现无缝融进画面,视觉过渡自然,整体画面光线明亮且均匀,背景为超大电影院坐满了观众,这三人背对银幕,银幕显示参考图 4《疯狂动物城2》电影精美海报填满屏幕。

▲图片和提示词来源:小红书@424180556

我们也使用 Nano Banana Pro 生成了同样的合照,不过得益于它的强大,我们完全不需要输入太多的提示词,只是上传四张图片,然后简单的告诉它要做什么就可以。

▲提示词:把这个男生和另外两个疯狂动物城角色放到一张合照里,他们就像是拿着手机在自拍,背景是电影院,电影院的屏幕上显示着我发给你疯狂动物城海报;16:9 的大小,4K 画质。

甚至还可以脑洞大开,直接丢给它这四张图片,然后输入提示词「合照」,完全不用担心人脸会改变,我们得到了这些 Nano Banana Pro 发挥自己的脑洞,生成的图片;横屏和竖屏的电影海报都有了。

▲提示词:合照

我们还可以试试最近玩 Nano Banana Pro 特别热门的提示词玩法,输入「xx,但不是xx」,上面在海报前拍照的那张图片,我们输入的提示词就是「合照,但不是合照」。

除了合照的玩法,配合新升级的 Nano Banana Pro,我们还有很多疯狂动物城2 联动玩法。

玩法一:全世界都是疯狂动物城

还记得 GPT-4o 刚出来那会儿,铺天盖地都是吉卜力风,现在疯狂动物城风也来了,而且还带来了更丰富的控制。

就像这张现实世界的街景图,只是把路上的行人,换成了可爱的动物角色,而马路和建筑还保留着原来的风格。

提示词:疯狂动物城风格的真实场景融合。迪士尼级别角色设计,富有表现力的形状,柔软毛发质感,流畅环境光照。保持原始照片结构,保留现实世界的光线、透视和材质。将拟人化元素自然融入环境中。高分辨率,电影级色彩调节。

拿着这套提示词,几乎可以把所有的照片,都转成这种现实+疯狂动物城的风格。还记得我们之前 AI DONE 活动预告里面,4 位 AI 大佬走在斑马线上吗,现在你还能不能,分辨出从左到右都是谁。

还有这张在网上疯狂传播的 AI 合照,把硅谷最有权有势的 CEO 都集结在一起。

▲ 由于提示词里面提到了「迪士尼」,所以这个狮市长看起来更像其他迪士尼系列电影的角色

除了保留一定的现实世界风格,把整个图片都换成疯狂动物城风,也是一样的好玩,Nano Banana Pro 表示,这都是小 case。

把开头那张只是转换了路上行人的照片,全部换成疯狂动物城的元素,色彩更加鲜艳,元素也更协调。

提示词:将这个现实世界的照片转换为《疯狂动物城》风格的动物城市,保留原始图片原始的全部元素和布局结构,但转换为风格化的拟人化基础设施,4K 画质。

同样的提示词,我们还把爱范儿在大兴安岭拍摄的样片,也进行一次风格转换。Nano Banana Pro 把大兴安岭的冷,描绘地更加极致,雪花飘在了衣服上。

还有随手拍摄的合照,也能一键换装,全员变身可爱的小动物。

▲ 原图来源:Unsplash@绵绵

如果希望留住能识别的面部特征,而不是直接把整个头部都换成动物头,实现起来也很简单,只用加一句提示词。

完全保留人物的人类面部特征和身份。

玩法二:合照,三个人可不够

开头只有朱迪和尼克的合影,只是疯狂动物城里面的两个主要角色,在电影里还有狸宝、宝伯特、马飞扬,闪电、夏奇羊、牛局长等数十个动物角色。

在 Nano Banana Pro 里,这些角色可以全部一次性发给它处理,所有角色都在舞台上。

提示词:图一是我,图2到图8,每张图片里面有4个疯狂动物城里面的角色,现在你需要把我和他们放在一张合照里面,就像是在线下的电影院,这些电影角色主创都在台上,我和他们一起合照,我在中间,拿着手机自拍,然后他们都在我旁边或者身后。

有了这么多的角色图片,我们还可以做一张疯狂动物城警局的照片墙,Judy、Nick、Bogo、Clawhauser 都在那块墙上,然后我们上传的照片也被贴到同一块墙上。

提示词:
创建一个16:9、4K分辨率的最终场景,设置在《疯狂动物城》警察局(Zootopia Police Department ,ZPD)内部。
一个真实感的警察局办公室走廊,主体背后是一个大型“ZPD员工照片墙”。

场景前方:
用户(来自图像1)站在中心位置,举着手机自拍。
保留用户真实的人类面孔和身份信息。
不要将脸转换为动物,仅应用非常轻微的《疯狂动物城》风格灯光和色彩调节。

背景:
用一整面墙填满用户身后的区域,并排列成网格状的拍立得风格员工ID照片。
使用图像2-8中的所有角色(每张包含四个角色),并将它们安排为单独的拍立得ID肖像展示在墙上。

每个角色肖像应满足以下要求:
– 保持上传图片中原始角色身份不变。
– 遵循一致的《疯狂动物城》宣传艺术外观:柔和迪士尼灯光、干净背景、清晰人物轮廓线条。
– 匹配官方ZPD ID照片框架比例(头像或胸部以上)。

同时,将用户自己的“ZPD风格ID照片”添加到墙上,放置于网格中央附近的位置,用与其他相同样式的拍立得边框呈现。

视觉规则:
– 保持真实办公环境中的墙壁材质、灯光效果的一致性。
– 所有ID照片必须对齐边框,统一色调,相同尺寸。
– 不要扭曲用户自拍姿势。
– 角色保持卡通化,但融入现实环境中。
– 可适度添加ZPD标志、警徽图标以及蓝色点缀灯光以增强真实性。

最终目标:
结果应展现出仿佛该用户已加入了ZPD,在官方员工照片墙前,与28位《疯狂动物城》的角色及其个人ID肖像一起合影留念之效果;画面需高清晰度,4K质量,有电影感但具备现实主义氛围感。

玩法三:这是我的疯狂动物城 ID

和风格转换有点类似,但又不完全相同。我们可以让 AI 来猜测,上传的人像图片,会是疯狂动物城里面的谁。

提示词:根据你对这张人像图片的分析,将这幅肖像转化为迪士尼《疯狂动物城》风格,最适合这张肖像图片的拟人化动物角色。保留原始面部结构和性格特征。柔软的毛发质感、富有表现力的眼睛、流畅的迪士尼光影效果、友好的配色方案以及电影海报级别的质量。

虽然 Nano Banana 大多数时候都只记得朱迪,但还是会根据我们上传的图片,调节图片的色彩、眼神的信息,同时保持我们的服装和姿势不变。

不喜欢这种身份证,还可以生成疯狂动物城的同款角色海报。

把图一的角色替换到图二的角色海报里,成为新的官宣角色。

由于 Nano Banana Pro 现在的指令理解和遵循能力,都得到了提升,所以我们的提示词甚至不需要太复杂的描述,一般口语化的表达,它也能听懂。

然后直接让他把狐尼克和兔朱迪换成马斯克和奥特曼。

▲提示词:把这个海报里面的两个角色替换成 Elon Musk 和 Sam Altman,然后名字也改成对应的马斯克和奥特曼

如果觉得这种 ID 照片还不够正式的话,直接让 Nano Banana Pro 生成一张带着边框,风格明显的证件照。

提示词:
将这张肖像转化为《疯狂动物城》风格的官方身份证照片,同时完全保留人物的人类面部特征和身份。
保持人物原本的眼睛、鼻子、嘴巴以及整体脸型,不进行动物替换。
仅应用迪士尼《疯狂动物城》的视觉风格:柔和边缘光照效果、平滑阴影处理、温和色彩搭配、灯光边缘处微妙的毛发质感、人类眼睛稍微放大但仍然保留人类特点,以及电影级卡通写实效果。
使用干净的工作室风格ZPD身份证背景(蓝色渐变或中性背景)。
保持人物可识别性及自然肤色,仅添加与《疯狂动物城》宣传画一致的轻度艺术化处理。
不改变面部结构;增强表情清晰度,并在眼睛上增加些许迪士尼式光泽效果。
高质量,符合官方文件要求的框架设计。

还可以在提示词里面指定好名字、身份编号、工作部门等信息;Nano Banana Pro 也完全能准确渲染所有的文字。

尽管 Nano Banana Pro 比起之前的版本更能理解我们的意图,但有时候多尝试几次,还是会给我们一些额外的惊喜。

最近社交媒体上很多人在尝试,用尽可能少的提示词,看 Nano Banana Pro 会生成什么。还有一种更高级的玩法是,Gemini 3.0 Pro 多模态推理和理解能力的提升,用来做逆向工程表现也很不错。

例如,我们拿疯狂动物城这张海报来测试,在 Gemini 3.0 Pro 模型里面,输入提示词「提取这张图片的提示词,越详细越好。」然后再把提示词给 Nano Banana Pro,得到的 AI 图片,还原度其实算非常高。

▲ 提取到的提示词:
A high-quality 3D animated movie poster for Disney’s “Zootopia 2,” characterized by incredible detail, highly textured fur, vibrant saturated colors, and bright daylight.
Composition & Angle: A dynamic, chaotic street scene captured with a low-angle shot looking upwards through a wide-angle fisheye lens, creating strong perspective distortion and a sense of overwhelming crowds.
Central Characters: In the center, Nick Wilde (fox) wearing a pink floral Hawaiian shirt, grey pants, and a tie, is running forward with a panicked, wide-mouthed expression. Next to him, Judy Hopps (rabbit) in her blue police uniform is running with a shocked but determined look. Behind them, a massive blue python with yellow underbelly scales (new character Gary) is hilariously coiled through the crowd with a surprised expression and tongue sticking out.
Environment & Key Props: A large grey metal street light pole cuts diagonally from the top left to bottom right. Mounted on it is a green street sign that clearly reads “Disney” logo above “疯狂动物城” with a large background number “2”. Below the sign, a yellow traffic light housing displays a glowing cyan LED number “2” instead of standard lights.
Background & Crowd: To the left, a pink double-decker bus filled with slow-moving sloths hanging out of windows (including Flash). A dense, diverse crowd fills the street, including a giraffe stretching its neck, an elephant, a lynx holding up a smartphone taking a photo, a beaver, and a rhino in casual clothes. Overhead, a horse is swinging on a rope across the street. In the foreground, a green lizard is tripped up, and a seal wears headphones.
Setting: In the far distance under a bright blue sky with clouds, the towering, futuristic skyscrapers of the Zootopia skyline are visible. The overall atmosphere is energetic, humorous, and crowded.
Text Elements (Visual Placement): Floating 3D text in the middle left reads “老搭档 新案件” and middle right reads “嗨翻全城”. At the very bottom center, text reads “11月26日 全国影院献映”.
Technical Specs: 8k resolution, cinematic lighting, highly detailed render. –ar 2:3

在我们的测试中发现 AI Studio 生成的图片,有时候并不是按照指令的 4K 要求给出原图,大小一般在 1MB 以下,而在 Gemini App 或者网页里,生成的图片则是完整的 4K 分辨率,图片大小一般在 7MB 左右。

Gemini 使用 Nano Banana Pro 的次数是有限制,在部分时候会像 ChatGPT 一样,弹出使用旧模型的提示。

但大多数时候,每天的使用次数是足够普通用户的使用。

我们喜欢疯狂动物城,大概是因为它打造的乌托邦,是一个勇敢善良的美丽新世界。现在 AI 迷人的地方,正是让我们也有了进入这个新世界的能力,同样地体验和传播,这份纯真的美好。

原文链接:https://mp.weixin.qq.com/s/8EJNx4Qjww09htrEfenJDA

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌