Normal view

There are new articles available, click to refresh the page.
Yesterday — 10 December 2025Main stream

ChatGPT 三周年之际,我怀念我写得很烂的时候

By: Selina
10 December 2025 at 22:14

米色墙纸

我翻了翻我向 ChatGPT 提的第一个任务是什么:不出所料,果然是文字工作,写一个英语文书。后面还有随大流,让它帮我做一个减肥食谱。当年标志性的黑绿配色,真是唤醒人的记忆。

那时的 GPT 还不像现在这般「巧言令色」,也不如现在智能,长长的文本我要截断成几节,每一次发过去都要在开头附上 prompt,保证它理解任务。

三年前,ChatGPT 像彗星一样出现,不只是它在事务型工作上的便捷和智能,恰恰是它在这种对话、探讨当中,闪现出了「像人一样」的苗头。不管是记忆能力,还是绝不重复的语句,它第一次让人意识到,纯粹的二进制语言,居然可以有这样的表现。

它逻辑通顺、情感充沛、几近完美。从此「表达的门槛」不存在了,语病、错字、词不达意,都可以交给吸收了亿万数据的大语言模型,由它生产不会出错的成品——甚至只需一次输入。

但代价是什么?文学评论中有一种说法叫「米色散文 beige prose」,指的是语言平实、构简洁的行文风格,类似于中文里的「描白」。这种文风简练、舒适,但也因此缺乏识别度,像米白这种颜色一样,不会出错也不会出彩。

像极了 ChatGPT 会给出的东西,尽管现在三年过去,模型的更新一次比一次强,但始终不会脱离 LLM、transformer 最最底层的核心:概率。

概率的暴政

其实平心而论,GPT 的口吻和腔调如今已经形成一种「AI 风味」,还真有了一定的识别度。在 GPT 5.1 上线之前,在 OpenRouter 平台以隐名模型上线,也被网友通过和往届模型的回答相似性做比较,找出来是 OpenAI 的出品。

ChatGPT 几代以来,各自都有不同的文风:经典的「不是……而是……」,更早一点的「接住」「我在」,历久弥新的破折号、加粗、还有不分青红皂白就出现的 emoji 表情符号。

虽然说,这些小花招并不是总讨人喜欢,但不会出大错:本质上,大语言模型是在「预测下一个词」,它依据概率行事。只要踩着最大公约数走,又能坏到哪儿去呢?

不过,一个冷知识是,模型算法并不总是选择预测中概率最高的词——这解释了为什么同一个 prompt 会得到同一个大意下不同的结果。算法工程中会引入 Temprature、Top-P、Top-K 等方法,为结果注入随机性。

为了符合人类反馈强化学习(RLHF)中对「有用性」和「安全性」的定义,这些参数带来变化,但它们仍然必须在「概率较高的一组词」里抽样。所以算法并不完全输出平均值,而是会画一个圈,在不出大错的情况下,进行一些小小的发挥。

于是,三年当中,从小红书里的探店文案,到年终总结里的自我剖析,再到营销号的起号文案——你会发现一种惊人的相似性,所有的文字都变得通顺了,所有的观点都变得「不是……而是」了,偶尔有些不错的发挥,可总体而言,所有的情绪也都变得粗钝了。ChatGPT 带来一种无风险的创造力,也是概率的暴政。某种程度上,算法厌恶惊喜,它的本质是平滑。

不过无论如何,AI 味道的内容已经渗入我们的生活,我们也逐渐不再为此暴跳如雷。我们和 AI 形成了一种诡谲的默契:为了效率与得体,可以心甘情愿地让渡了部分性格。

思维的逆行

如果说前两年我们在训练 AI,那么第三年,AI 开始训练我们。尤其到了第三年时,各种应用工具都越来越丝滑,也越来越全能的情况下,用户和 AI 的关系,走向了一种奇异的「共生」。

这体现在,我们已经分不清谁在训练谁。

起初,我们以为自己在训练 AI。我们给它数据,给它反馈,教它像人一样说话。

除了工程师,没有人是为了训练它而用,都是要解决具体问题的,需要它交付答案乃至更复杂的成果的。于是,为了得到更精准的答案,我们开始钻研「提示词工程」(Prompt Engineering)。我们学会了把复杂的、充满歧义的人类想法,拆解成条理清晰、逻辑递进的指令。

在提问之前,我们的脑子里会先进行一轮「预处理」,剔除掉那些过于感性、过于跳跃的念头,因为我们潜意识里知道:「AI 不明白这些个东西,要用它能听懂的方式下指令才行。」

使用工具的过程,就是在被工具形塑 ——这句话已经说倦了。所以,在一个强调平滑的大语言模型面前,我们也变了,变得更合乎逻辑,更有效率了,也更像机器了。

看着屏幕上飞速生成的文字,我们既感到「一切尽在掌握」的快感,又感到一种主体性流失的虚无在暗中扼住喉咙。

唯一留下的

「这也算更新?」到第三年时,ChatGPT 的更新已经完全不像曾经那样 引起惊呼,更多的是吐槽和埋怨。苹果用了十多年才做到的事,OpenAI 三年就做到了。

然而吐槽归吐槽,用还是在用。ChatGPT 如今是坐拥 7 亿用户的超级巨头,在它生日这一天,有很多的「生贺」——连罗伯特都酸了。

再联系到 GPT 5 上线时,全球各地用户对 4o 被强制下架的不满和抗议,你不得不正视一件事:我们和 ChatGPT 之间,还有一个关系维度叫「情感维度」。

越来越多的人在向 ChatGPT 倾诉那些无法对活人说出口的秘密。听起来很悲哀,但如果你真的体验过,你会发现其中的张力极其迷人:你知道屏幕对面是一堆冰冷的矩阵乘法,你知道它的「共情」只是基于统计学的模仿。但在某些时刻,这种「模拟的理解」比「真实的不耐烦」要温柔得多。

人类的倾听往往带着评判,带着「我早告诉过你」的傲慢,或者带着急于给出建议的焦虑。而 AI 只是倾听(或者说,处理),只是安抚,它提供了一种「无风险的亲密」,还是无条件的。

「论迹不论心」,何况 GPT 都没有心,在一个没有实体的对象面前,好像人才能真正意义上的卸下防备。

情感维度的张力,恰恰最能代表我们和 ChatGPT 之间的关系:常常帮助,总是交心,偶尔纠结。

这种关系,也代表了我们和人工智能的第一个阶段。三年挺长的,但又还很短,只是人类和技术漫长共舞当中,一小段浅尝辄止的舞步。

在下一个三年,又一个三年当中,我们会继续停留在这种充满张力的关系中,而我们所能做的,最「人类」的事情,就是保持那一点点偶尔的纠结——这样才能证明,那个坐在屏幕前的,依然是一个复杂、矛盾、无法被完全计算的人。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


真乐队退出,但AI冒牌却在Spotify「拼好歌」冲榜

By: Selina
10 December 2025 at 15:31

Spotify 的年度统计上周发布了,又到了用户一边转发,一边吐槽的季节——「这玩意儿也不准啊」。

但有比用户更崩溃的:明明已经和 Spotify 割席了,居然又「出现」在平台上。

这是来自澳洲的摇滚乐队 King Gizzard,这支乐队早在 7 月就因不满 Spotify 而主动下架了自己的全部歌曲,只留下了一个合作 Remix。

但他们的歌迷最近却发现了一支名为 「King Lizard Wizard」 的假乐队。上传的歌曲标题、歌词都逐字照搬 King Gizzard 的原作,甚至连歌曲名称都一模一样(比如冒牌乐队的《Rattlesnake》直接盗用原曲名和歌词)。用户在 Spotify 搜索 「King Gizzard」 时,会发现乐队已弃用的官方账号,下方却赫然推荐着这个山寨乐队——甚至在搜索结果中,假乐队的盗版《Rattlesnake》一度成为榜首。

山寨的现象从 Spotify 传到 YouTube,如此张冠李戴的现象令许多粉丝愤怒不已,这还是粉丝自己发现的,在 Reddit 上贴了出来后又觉得不对劲——这反而为山寨号引流了。

这桩大无语事件让 Spotify 平台在 AI 内容监管上的漏洞暴露无遗。假冒的 「King Lizard Wizard」 账号上线数周、积累了不菲的流量,后来才被移除——就连专辑封面也疑似 AI 生成。

更讽刺的是,其中一些假歌曲在元数据上还把 King Gizzard 主唱 Stu Mackenzie 列为词曲作者,简直明目张胆地蹭原创乐队的名气。明明是 Spotify 自己在 9 月时,宣称要出台新政策打击「垃圾内容、仿冒和欺骗」等行为,结果让这种 AI 山寨内容堂而皇之地混入了官方推荐位,包括 Release Radar 和 Discover Weekly 等歌单。

这已经不是疏忽,简直是对着人家乐队贴脸开大。

平台上的「音乐垃圾场」

King Gizzard 的遭遇并非孤例。近一两年来,Spotify 平台上充盈着各式各样以 AI 技术批量生成的音乐内容,从模拟知名艺人的盗版歌曲,到平平无奇的生成音乐,应有尽有——现在,轮到翻唱了。

流媒体巨头们对 AI 生成内容实在是太热衷了。腾讯音乐曾经推出过 「启明星 AI 作曲」项目,号称已有超过 2600 万首 AI 音乐作品经由其算法创作并发布,累计播放量破十亿次。酷狗的「星曜计划」也有专门的 AI 子榜单,而且有原创有翻唱。

最典型的当属红遍抖音的《第 57 次取消发送》,最早发布于今年五月,原本是女声,不久前也就是 11 月时被翻成男声版又火了一遍——这次,是 AI 的。

男声版的「音色」还是有明显的 AI 感,仿佛一边唱一边踩电门,但也不妨碍这个歌引发大量共情和讨论。有人说勾起了旧日回忆,有很强的熟悉感,听着仿佛回到了华语音乐的黄金年代。

可不熟悉么,拼好歌拼出来的——

当资本和技术狂飙突进地涌入音乐生产,传统的创作生态势必受到冲击。在这一背景下,华语音乐人面临的可能是比西方同行更复杂的局面。

同时,翻唱其实是音乐平台上,很重要的构成版块:例如 cover,remix,既是粉丝和音乐爱好者二次创作的方式,也是新人和小歌手积累人气的方式。

当 AI 用虚构的名字和头像伪装成人,不断灌出机器人流水线作品,是对原创歌手和翻唱内容的双重打击。很多此类 AI 虚拟歌手顶着花哨的包装、写着空洞的简介,却堂而皇之拥有数十万月听众和官方歌单推送。

「拥抱」AI

Spotify 也做过一些维护的动作,官方声称在过去一年内已移除上千万首涉嫌滥用算法的垃圾曲目,包含批量上传的雷同歌曲、标题堆砌关键词骗流量、以及「拆分长曲成短段以刷播次数」的作弊行为等。此外,Spotify 宣布提供新工具,允许创作者主动标注他们的音乐中是否使用了 AI 技术。

然而这些措施还是表面功夫偏多。大批 AI 音乐的祸根在于平台的运营逻辑:Spotify 强调歌单和无限播放模式,追求的是听众的停留时长,这种生态本就容易滋养垃圾内容和 AI 灌水。

再加上,Spotify CEO 丹尼尔·埃克本人也对 AI 技术非常热情,早在 2023 年便表示 AI 音乐「在文化上是好事,对 Spotify 也有利,因为创作者越多,平台提升用户参与和营收的机会就越大」。

典型的有「The Velvet Sundown」乐队,曾在 Spotify 上攒下逾百万听众,创作者后来才承认这不过是一场社交实验,音乐和照片都是伪造的。还有 「Echo Harper」 这样的虚拟摇滚歌手,被收录进 Spotify 精选的 「Just Rock!」 播放列表中。

▲The Velvet Sundown

有人愿意做,平台愿意买单,在这样的指导思想下,多快好省的 AI 内容自然正中平台下怀。

当不满累积到一定程度,抗争就此迸发。2023 年以来,越来越多的独立音乐人选择用脚投票,告别 Spotify。甚至一些乐队还会号召同行和听众一起「退出垃圾平台」。

创作歌手 Caroline Rose 选择只在黑胶和 Bandcamp 上发行新专辑,她直言「把我们的心血白白放上网免费听太蠢了」。Bandcamp 是一个链接歌迷和音乐人的「直销」平台,实行「付多少算多少」(Pay-what-you-want)的专辑下载方式,一般情况下艺人可获收益的 82%,且定期举办 Bandcamp Fridays 让艺人获得 100%销售额。

越来越多音乐人开始尝试跳出「一切都丢到流媒体」的套路,回归付费拥有音乐的传统:卖黑胶和磁带、举办付费直播演出、进驻 Bandcamp 等等。

相比之下,国内的情况更为复杂一些。虽然 AI 生成的音乐的确在逐渐铺开,但还没有到鹤唳风声的程度,也就没有激起太多对平台的抵制。《第 57 次取消发送》不仅在抖音等社交平台上大受欢迎,还登上了综艺节目,由真人明星演绎。

从 King Gizzard 乐队怒删曲目、却被 AI 克隆鸠占鹊巢的荒诞,到大批独立音乐人愤而出走 Spotify、寻求他途,这一系列事件背后揭示的是同一个本质:音乐被当作纯粹的数据产物和工具来榨取价值。

音乐创作的能力越来越不稀缺了,「拼好歌」听上去离谱,但「拼」出来的歌却正在收到欢迎。未来越发稀缺的,可能是人们对音乐的用心聆听,对创作者真诚的支持。当越来越多的人意识到这一点,也许音乐产业才有机会走上一条更尊重创作者、更有温度的道路。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Before yesterdayMain stream

终于发布的Gemini 3,什么是它真正的王牌?

By: Selina
1 December 2025 at 20:51

Gemini 3 Pro 预览版上线那一刻,很多人心里的第一反应可能是:终于来了

遛了将近一个月,这里暗示那里路透:参数更强一点、推理更聪明一点、出图更花一点,大家已经看得心痒痒了。再加上 OpenAI、Gork 轮番出来狙击,更加是证实了 Gemini 3 将是超级大放送。

这次 Gemini 3 的主打卖点也很熟悉:更强的推理、更自然的对话、更原生的多模态理解。官方号称,在一堆学术基准上全面超越了 Gemini 2.5。

但如果只盯着这些数字,很容易忽略一个更关键的变化:

Gemini 3 不太像一次模型升级,更像一次围绕它的 Google 全家桶「系统更新」。

模型升级这一块的,Google 已经把话说得很满了

先快速把「硬指标」过一遍,免得大家心里没数:

-推理能力:官方强调 Gemini 3 Pro 在 Humanity’s Last Exam、GPQA Diamond、MathArena 等一堆高难度推理和数学基准上,全部刷出了新高分,定位就是「博士级推理模型」。
-多模态理解:不仅看图、看 PDF,甚至还能在长视频、多模态考试(MMMU-Pro、Video-MMMU)上拿到行业领先成绩,说看图说话、看视频讲重点的能力,提升了一档。
-Deep Think 模式: ARC-AGI 这类测试证明:打开 Deep Think 后,它在解决新类型问题上的表现会有可见提升。

从这些层面看,很容易把 Gemini 3 归类为:「比 2.5 更聪明的一代通用模型」。但如果只是这样,它也就只是排行榜上的新名字。连 Josh Woodward 出来接受采访都说,这些硬指标只能是作为参考。

换句话说,「跑了多少分」只是一种相对直观的表现手法,真正有意思的地方在于 Google 把它塞进了哪些地方,以及打算用它把什么东西连起来。在这一个版本的更新中,「原生多模态」显然是重中之重。在这一次的大更新中,「原生多模态」显然是重中之重。

如果要为当下的大模型找一个分水岭,那就是:它究竟只是「支持多模态」,还是从一开始就被设计成「原生多模态」。

这是 Google 在 2023 年,即 Gemini 1 时期就提出来的概念,也是一直以来他们的策略核心:在预训练数据里一开始就混合了文本、代码、图片、音频、视频等多种模态,而不是先训一个文本大模型,再外挂视觉、语音子模型。

后者的做法,是过去很多模型在面对多模态时的策略,本质还是「管线式」的:语音要先丢进 ASR,再把转好的文本丢给语言模型;看图要先走一个独立的视觉编码器,再把特征接到语言模型上。

Gemini 3 则试图把这条流水线折叠起来:同一套大型 Transformer,在预训练阶段就同时看到文本、图像、音频乃至视频切片,让它在同一个表征空间里学习这些信号的共性和差异。

少一条流水线,就少一层信息损耗。对模型来说,原生多模态不仅仅是「多学几种输入格式」,这背后的意义是,少走几道工序。少掉那几道工序,意味着更完整的语气、更密集的画面细节、更准确的时间顺序可以被保留下来。
更重要的是,这对应用层有了革命性的影响:当一个模型从一开始就假定「世界就是多模态的」,它做出来的产品,与单纯的问答机器人相比,更像是一种新的交互形式。

从 Search 到 Antigravity,新总线诞生

这次 Gemini 3 上线,Google 同步在搜索栏的 AI Mode 更新了,在这个模式下,你看到的不再是一排蓝色链接,而是一整块由 Gemini 3 生成的动态内容区——上面可以有摘要、结构化卡片、时间轴,虽然是有条件触发,但是模型发布的同时就直接让搜索跟上,属实少见。

更特别的是,AI 模式支持使用 Gemini 3 来实现新的生成式 UI 体验,例如沉浸式视觉布局、交互式工具和模拟——这些都是根据查询内容即时生成的。

这个思路将一系列 Google 系产品中发扬光大,官方的说法是更像「思考伙伴」,给出的回答更直接,更少套话,更有「自己看法」,更能「自己行动」。

配合多模态能力,你可以让它看一段打球视频,帮你挑出动作问题、生成训练计划;听一段讲座音频,顺手出一份带小测题的学习卡片;把几份手写笔记、PDF、网页混在一起,集中整理成一个图文并茂的摘要。

这部分更多是「超级个人助理」的叙事:Gemini 3 塞进 App 之后,试图覆盖学习、生活、轻办公的日常用例,风格是「你少操点心,我多干点活」。

而在 API 侧,Gemini 3 Pro 被官方明确挂在「最适合 agentic coding 和 vibe coding」这一档上:也就是既能写前端、搭交互,又能在复杂任务里调工具、按步骤实现开发任务。

这一次最令人惊艳的也是 Gemini 在「整装式」生成应用工具的能力上。

这也就来到了这次发布的新 IDE 产品:Antigravity。在官方的设想中,这是一个「以 AI 为主角」的开发环境。具体实现起来的方式包括:

-多个 AI agent 可以直接访问编辑器、终端、浏览器;

-它们会分工:有人写代码,有人查文档,有人跑测试;

-所有操作会被记录成 Artifacts:任务列表、执行计划、网页截图、浏览器录屏……方便人类事后检查「你到底干了啥」。

在一个油管博主连线 Gemini 产品负责人的测试中,任务是设计一个招聘网站,而命令简单到只是复制、复制、全部复制,什么都不修改,直接粘贴。

最终 Gemini 独立完成对混乱文本的分析,真的做了一个完整的网站出来,前前后后所有的素材配置、部署,都是它自己解决的。

从这个角度看,Gemini 3 不只是一个「更聪明的模型」,而是 Google 想用来粘住 Search、App、Workspace、开发者工具的那条新总线。

回到最直觉的感受上:Gemini 3 和上一代相比,最明显的差别其实是——它更愿意、也更擅长「帮你一起协作」。这也是 Google 对它赋予的期待。

压力给到各方

跳出 Google 自身,Gemini 3 的 Preview 版本实际上给整个大模型行业,打开了一局新游戏:多模态能力应用的爆发势在必行。

在此之前,多模态(能看能听)是加分项;在此之后,“原生多模态”将基本配置——还不能是瞎糊弄的那种。Gemini 3 这种端到端的视听理解能力,将迫使 OpenAI、Anthropic(Claude)以及开源社区加速淘汰旧范式。对于那些还在依赖「截图+OCR」来理解画面的模型厂商来说,技术倒计时已经开始。

「套壳」与中间层也会感到压力山大,Gemini 3 展现出的强大 Agent 规划能力,是对当前市场上大量 Agentic Workflow(智能体工作流) 创业公司的直接挤压。当基础模型本身就能完美处理「意图拆解-工具调用-结果反馈」的闭环时,「模型即应用」的现实就又靠近了一点。

另外,手机厂商可能也能感到一丝风向的变化,Gemini 3 的轻量化和响应速度反映的是 Google 正在为端侧模型蓄力,结合之前苹果和几家不同的模型大厂建立合作,可以猜测行业竞争将从单纯比拼云端参数的「算力战」,转向比拼手机、眼镜、汽车等终端落地能力的“体验战”。

谁最强已经没那么重要了,谁「始终在手边」才重要

在大模型竞争的上半场,大家还在问:「谁的模型更强?」,参数、分数、排行榜,争的是「天赋」。到了 Gemini 3 这一代,问题慢慢变成:「谁的能力真正长在产品上、长在用户身上?」

Google 这次给出的答案,是一条相对清晰的路径:从底层的 Gemini 3 模型,往上接工具调用和 agentic 架构,再往上接 Search、Gemini App、Workspace 和 Antigravity 这些具体产品界面。

你可以把它理解成 Google 用 Gemini 3 将以原生多模态为全新的王牌,并且给自己旗下生态中的所有产品,焊上一条新的「智能总线」,让同一套能力,在各个层面都得以发挥。

至于它最终能不能改变你每天用搜索、写东西、写代码的方式,答案不会写在发布会里,而是写在接下来几个月——看有多少人,会在不经意间,把它留在自己的日常工作流中。

如果真到了那一步,排行榜上谁第一,可能就没那么重要了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


还在用 Gemini 3 写 ppt?太土了,来看看最酷炫手势互动(附提示词)

By: Selina
1 December 2025 at 16:56

Gemini 3 发布之后这些日子里,我逐渐感到疑惑:为什么总让 AI 写网站写 PPT,Gemini 都发到第三代了,不能干点更有意思的事吗?

要那种科幻感强的、效果酷炫的、难度系数高的,但小白也能做的。比如这种:

或者这种:

Gemini:手势交互?没问题,包的。

在开始之前,先准备好 Gemini 3,这里是一点点的注意事项👇🏻

目前有三种方式开启玩耍:Gemini 客户端 Canvas 模式、Google AI studio-Playground 和 Google AI studio-Build。

其中,最不推荐的是客户端,亲测无法有效拉起摄像头,并且,下面都是手势互动项目,举着手机,手自然也是没法做操控的。

后两者中,Build 是直接形成一个 app,你可以分享给其它朋友,缺点是 tokens 有限。而 Playground 会生成一套代码,需要下载到本地再打开,一旦换个电脑就可能运行不了,但优点是几乎没有 tokens 限制,每天一百万,量大管饱。

考虑到交互项目比较消耗 tokens,所以 Playground 更为合适,个别小项目用 Build 也可以,这就看个人情况而定。

Jarvis

Jarvis HUD 面板是在推上超过二十万次浏览的热门爆款,手势操控仪表球,就像钢铁侠操控 Jarvis 那样,酷毙了。

参考 prompt 如下:

create a webapp using vanilla js, html, css, modern threejs, mediapipe. it should be a sci-fi tony stark / iron man / jarvis experience focused on simulating an AR heads up display experience. full screen webcam input shown. add a heads up display that tracks the user’s head (offset to the right), with live updating metrics. a minimal 3D world globe should be shown on the left center of the screen, that should be able to be rotated / sized by the user hand gestures

在 Build 模式下,亲测完全可以实现一次成型,Gemini 会自动安排任务、编写代码,调用不同的接口,进度条显示完成后,点击 Preview 就能直接打开——记得放行摄像头权限。

 

Gemini 3 自己就把效果设计安排得明明白白:左手是放大缩小,右边是转动,双手进入摄像头范围后会显示触控点——这些都是 prompt 里没有的,都是它自己的「想」出来的。搭配大屏幕或者投影,真的很有 Jarvis 既视感。

左边的地球建模和右边的面板的内容都是可以改变的,最初 Gemini 3 让右边的面板显示人体体温(显然是凭空编的),后来被我改成了「实时显示左侧地球模型的直径」。反正 vibe coding 一下,想怎么改怎么改。

雨滴控制

Jarvis 都有了,惊天魔盗团不也得安排上。

看电影时只有特效,但现在,有 Gemini 3 了。参考 prompt 如下:

用 HTML+JS+ML 模型做个网页应用,通过摄像头检测手势,实现用手势来控制雨滴动画的暂停、静止和升格效果。动画效果保持在雨滴垂直方向,风格参考电影《惊天魔盗团》

这个 prompt 的第一轮表述完全是按照我看电影之后的想法写的,每个细节都可以通过 vibe coding 再调节。根据第一轮 prompt,Gemini 会加入它自己的设计,比如这具体的手势就是它想出来的。

虽然是用 AI 做的,但是在识别手势动作时非常灵敏,包括不同手势之间的切换都能够快速响应。

3D 粒子

控制雨滴曾经是非常复杂的特效技术,就在《惊天魔盗团 2》上映之后,有一个饮料公司做了一支广告,通过控制雨滴,实现静态的粒子效果。

那么参考「控雨术」,Gemini 完全可以实现上面这种结合实拍和速度控制才能出现的效果,最接近的就是 3D 粒子。所以我又做了一个 3D 粒子效果的交互案例。

非常酷炫!prompt 参考如下:

用 Three.js 创建一个实时交互的 3D 粒子系统。通过摄像头检测双手张合控制粒子群的缩放与扩散,提供 UI 面板可选择爱心/花朵/土星/佛像/烟花等模型,支持颜色选择器调整粒子颜色,粒子需实时响应手势变化。界面简洁现代,包含全屏控制按钮

一次成型,最后出来的交互非常丝滑,尤其是对于手势的识别很准确又灵敏。

【小技巧】

涉及到颜色、布局、UI 设计等等细节,如果每次都用 vibe coding 的方式来调节,表述起来会很麻烦。并且每一次 vibe code 都存在抽卡的情况,所以有一个非常实用的技巧是:加上自定义模块,尤其是颜色、大小等,这样可以完全自主搭配自己喜欢的配色方案。

技能五子棋

由雨滴想到粒子,由粒子想到移动,由移动想到——五子棋!我终于可以做技能五子棋了!!

仔细想想,五子棋不也是一个手势控制、飞来飞去的交互方式吗!飞沙走石移动棋子,力拔山兮移动棋盘,全都安排上!

Prompt 参考如下:

做一个手势互动小游戏「技能五子棋」:主页面为五子棋棋盘,默认已经摆放好棋子。当用户做出「单手甩手」的动作时,棋子会跟随甩动的方向飞出棋盘。当用户做出「双手甩动」的动作时,棋盘会跟随甩动方向飞动

Gemini 自己完成了物理逻辑和手势之间的衔接,我的 prompt 只需要描述效果,而具体的速度向量计算、检测阈值,都不用我管。

它甚至还重新命名了「技能」:万象天引。

这叫飞沙走石啊 Gemini 老师!

节奏音乐游戏

综合上面的几个尝试,Gemini 的毋庸置疑,而且回想一下这些技能树:手势识别、色彩变化,这些组合起来,不就是小游戏吗?

于是我尝试了更复杂一点的项目:节奏游戏。

音游玩过很多了,但是零经验小白真要做一个游戏、怎么给 Gemini 形容我想达到的效果,还真是花了一点脑筋 ,后来第一版 prompt 如下:

做一个用手势操控的音乐游戏,主界面为四条音轨,用户上传音乐文件后,四条音轨上按节拍出现光点,用户需要用手势准确拍击出现的光点,背景为复古合成波(Synthwave)风格,背景、音轨和光点的颜色可以自定义调节

这基本上是我能想到的雏形,根据第一版 prompt,Gemini 选择了 Pygame 作为游戏引擎,继续使用 MediaPipe 做手势追踪,并且加入了 Librosa 用来分析音乐。

选择复古合成波风格是因为它有明确的视觉标志——Gemini 也识别出来了——落日、霓虹渐变色、网格和驶向地平线的道路,非常适合节奏音游。

果然做游戏比前面的一些小交互复杂多了……先是只能识别一只手,得调整;然后是无法上传音乐,得调整;到了第三版才稍稍有点样子

但是在体验过中我发现一个比较 bug 的地方:判定线的位置离屏幕边缘太近了,而摄像头的识别范围是有限的,我的手稍微放低一点就无法被识别。

一开始我尝试的方法是,把判定线移动到屏幕居中位置,保证我的手始终能在摄像头捕捉范围内。

但是又出来一个问题:光点出口和判定线之间的距离过短,留给我的反应时间也很短,更别提点击动作还有一点点点的延迟,整个可玩性大大下降。可是放太低就还是会出现手掉出识别范围的情况。

一时之间我还真想不到这个矛盾该怎么办,于是,我直接去问了 Gemini 能怎么解决。

它直接指出了这个问题的症结所在,并且提出了「视觉欺骗」的方式来优化体验,并且加了一个自定义滑块来调节偏移,这样一来无论手在什么位置,都可以通过调节滑块来对齐判定线。

天才。

后来我还指出,感觉光点的出现跟节奏不太一致,为了解决这个问题,Gemini 又加了一个滑块用来调节延迟。虽然我仍然认为它并没有很好地分析节奏型,但是这个滑块的设计还是很有效,尤其是解决了戴着蓝牙耳机导致的延迟。

【一些小技巧】

本质上,只要有 prompt 就有抽卡的情况存在,但抽卡未必就不好。当碰到非常硬伤的 bug,比如始终无法调用摄像头、无法上传文件等等,vibe coding 时反复修改也没效果,不如就直接「新建项目」。核心功能反映在代码上,彼此之间有所牵连,重新跑一遍,让 AI 整体性地补足,远比一点点 vibe coding 要更有效率。当然,能看懂代码就会更有效率,可以针对性地解决。 只不过,对于完全的零码选手来说,还不如直接重新抽卡。

在 AI 之前,做手势交互的应用,得先学点儿 Touch Designer,最好还懂点儿部署。这些都得一点点翻教程,反复研究,在这个过程中搞不好就被劝退了。

有了 AI 之后有多简单,自然不用多说。更关键的是,手势交互原本的门槛远比生图、做 PPT 要更复杂,却又能让小白零码选手快速领略到做应用的乐趣。

唯一留下的,是对审美的挑战。在这些案例里能看到,Gemini 有点审美,但不多,设计、配色等等都是差强人意。代码的「硬」技能它可以掌握,留给我们的,就是对于审美的挑战。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


继 Nano Banana 2 之后,国产 AI 生图又杀出「一致性标杆」,Vidu 生图限时无限免费

By: Selina
1 December 2025 at 12:22

说实话, AI 生图工具有时候真的让人又爱又恨。

刚认识的时候(第一次生成),你会觉得它惊为天人,哪哪都好;可一旦你想跟它深入发展(做成系列图、落地进工作流),它就开始「掉链子」,陷入抽卡玄学。

这种「只能看不能打」的状态,真拿它干活就会无比「拧巴」,在 Nano Banana 这样的工具出现后,事情终于开始改变,原来 AI 是可以被更精确控制的。

现在,终于也有国产 AI 接力,进一步把这条路跑通。Vidu Q2 最新上线的文生图、参考生图、图像编辑功能就是这个路子:卷完「好看」,它开始死磕「稳定性」。

这次 Vidu Q2 直接把技能点全加在了「一致性」上。什么概念?就是把「人设崩坏」、「产品变形」、「画风突变」这些老大难问题统统按在地上摩擦。

简单说,它不只是想让你发个朋友圈炫技,而是真想让你拥有一套能「从头用到尾」的实用创作流。

在最新的 AA 榜单里,Vidu Q2 首次上线的图像编辑能力甚至超越了 OpenAI 的 GPT-5,最难能可贵的是,作为成立才 2 年多的创业公司,用技术实力说话,跟 Google、字节这种大厂并列前三,追赶 Nana Banana Pro,直接把「省心」两个字拿捏了。

Vidu 还搞了一个长达 1 个月的「免费大礼包」,敞开大门让大家薅羊毛。即日起至 12 月 31 日,Vidu 会员生图「免费」,无论是参考生图、文生图还是图像编辑,统统随便造。标准版和专业版会员每月也有 300 张免费额度,旗舰版更是免费无限生图。

今天我们就趁着这个「无限续杯」的机会,拿 Vidu Q2 的生图功能狠狠考验一下,看看它到底能不能拯救我们的发际线。

开局一张图,剩下的全靠它「脑补」

Vidu 在一众 AI 工具中,是最早就把「围绕一张图持续参考创作」当成核心能力来打磨的。在国内多参生图中支持的输入图数量最多,一致性也最高

在最近 Vidu Q2 的更新里,这项能力又被往前推了一大步:不仅支持更复杂的多参考组合,还大幅降低了生图门槛——设计师、导演、甚至是喜欢创作的普通用户,都可以用自己熟悉的方式提供主体图和环境参考,由模型一键复刻动作、位置、布局、纹理、光线、色彩等,自动去「对齐要求参考图、保持角色不变」。

多参生图

在多参生图场景下,我们给 Vidu Q2 参考生图的输入非常接近真实工作流:一张是最近的全运会「顶流」大湾鸡,另一张是希望出现的场景氛围,夕阳下外滩的观景台。

然后我就写了一句简短的提示词,剩下的全交给它。

结果出来,我直接「瑞思拜」。

它不是那种傻瓜式的把主体抠图贴上去,而是真的在这个场景里「重算」了光影。主体的光影方向会跟环境一致,动作也随着指令准确变化。

甚至我让它变成喷绘印在汽车上,连车身上的倒影色彩都给你算得明明白白。

更关键的是,多次生成不同构图和姿势时,许多都能保持高度一致,比如大湾鸡胸前的图案、头顶的彩色冠,这一点在传统靠 prompt 调参的生图流程里往往很难做到。

这就很灵性了。对于品牌方来说,以前要把一个 IP 形象放到不同场景里做海报,得建模、渲染、P 图,现在?几秒钟搞定,而且那种「违和感」完全消失了。

空间一致性

更绝的是 Vidu 对空间关系的理解能力,当我要求「大湾鸡穿梭在故宫雕花栏杆中」时,Vidu 并没有像其他 AI 那样跟栏杆穿模,或者变成恐怖片现场。

它居然先根据环境图「脑补」了故宫的空间结构,让大湾鸡自然地走在走廊空间中。

再来上个难度,让 AI 角色参考复杂武打动作。

过去 AI 角色无法准确还原你设计的复杂动作,不是动作变形就是人物在打斗过程中变了一个人。而现在通过 Vidu Q2 参考生图则解了 AI 创作者的燃眉之急,可以一键复刻动作,让你的 AI 主角也能拥有十八般武艺。

如下面的案例中,两个动漫主角精准还原了图 1 中的打斗姿势,同时人物服装、面部细节、空间位置关系都保持了极高的一致性。

这种对「空间」的理解,让参考生图不再只是贴背景,而是真正具备了为分镜、镜头调度服务的能力

这种对空间的理解力,用来做电影分镜或者像最近很火的《疯狂动物城 2》那种合影海报,简直不要太好用。

比如下面的案例,同一张图+不同镜头提示词,即可生成足球少年踢球的特写、远景、足球特写等,并通过图生视频,剪辑为一个完整的叙事镜头。对于短剧动漫影视制作,省去了一个画面需要多次拍摄或者绘制大量分镜的环节,妥妥的生产力提效工具。

再通过 Vidu Q2 图生视频功能,输出两人在足球场上抢球的精彩视频:

在风格一致性方面,传统 AI 文生图功能想象力很好但是往往一致性表现很差,风格前后不一致、人物融合的情况屡见不鲜,而 Vidu Q2 不仅支持上百种动漫风格,而且还能在生成的连续多图中保持风格的一致性和故事的连贯性。

比如让 Vidu Q2 文生图几句话生成四格漫画,不仅风格、人物保持前后一致,细节稳定,而且几句话让它一次性拉出完整故事:

从这些案例可以看到,Vidu 在参考生图上的升级,并不是停留在「把图生得像」这一层,而是把「主体一致性」和「空间理解」一起纳入考量:一方面,它能围绕参考图,稳定地生成人物不同角度、不同氛围、不同风格、光线下的一整套画面;另一方面,又能把环境图当成真实空间来处理,而不是简单的背景贴图。

不只是玩具,是实打实的「实战神器」

如果说参考生图解决的是「第一张图怎么定」,那 Vidu Q2 全新上线的图像编辑则真正让这张图进入日常工作流,实现更加精细化的画面控制,满足实际商业化场景需求。

Vidu 在这一块的定位很直接:覆盖 90%的常见图片编辑场景——加元素、减元素、换背景、换颜色、调光线、变焦、比例切换,都可以用自然语言完成,在连续修改的过程中又始终保持主体的一致性。

在替换与局部编辑的测试里,我试着把一张车站广告换成马斯克,要是以前,我得抠图抠到眼瞎,但现在就几秒就能搞定,直接一键复刻。

以后看到爆款广告、爆款封面,可以像这样大批量一键复刻,4K 直出,直接上架,做广告、社媒不要太轻松。

类似的,下面的案例里,要求是为三个女孩加上酒杯——Q2 不仅完成了该要求,还根据光线涉及了酒杯的折射,完善了三个人的手部细节。

图片编辑是真正的「实战型」能力,尤其是电商或者社媒营销这样的场景。很多产品图的前期其实只有一个简单线稿:设计师给的是草图,运营要的是立刻就能上架的主图。

这就是图片编辑可以大展拳脚的时候,我们用 Vidu 做了一次完整的草图 → 上色 → 材质替换的演练。先是生成了家具的线稿图,然后直接一键用于参考生图,在 prompt 中指定好材料和风格。

Vidu 通过材质渲染,一步到位,做出细节满满又准确的实物图。紧接着还是一键复用,变换家居风格的提示词,沙发在不同家居风格的实景展示就出来了。

同一商品想要变换材质,也可以轻松实现。

可以发现,Vidu Q2 在图像编辑上的能力,其实正是把「多参生图时代的底层能力」落到了实处:识别谁是画面里的主体,把他/她/它锁定住,然后允许你用大白话对其周围的一切做增删改,甚至跨越多张图和一段视频。

这就好比以前你是开手动挡得调各种参数,现在 Vidu 给你整了个自动驾驶。你只需要把心思花在创意上,剩下的粗活累活,它全包了。

这里面还涉及到另一个非常有用的能力:保存主体。我们可以将上述 Q2 文生图/参考生图/图像编辑后的图片一键保存为主体,把这个 IP「收进了角色库」,后续在 Vidu 的参考生视频中,都可以直接调用主体。

之后无论是换背景、换动作,还是把他/她放进新场景,只要选中这个角色、IP,模型都会严格保持人物一致,不会出现下一秒生成的主角和前一秒不一样的情况。

参考生图——保存主体——参考生视频,Vidu 打通了从灵感到成片的一站式工作流,再也不用在不同平台来回切换了,简直是短剧动漫,广告电商从业者的福音,目前 API 已同步上线。

AI 内卷,别谈「颠覆」,先谈「干活」

对于创作者来说,以前用 AI 干活儿是一种怎么样的体验?大概就是痛并快乐着:上一秒它给了你一张惊为天人的神图,下一秒让你在接下来的十小时里,因为复现不出那个眼神而心态崩盘。

在 AI 创作工具演进的十字路口上,我们观察到了两种不同的产品哲学。

Midjourney 这类产品像一台性能强劲的「引擎」,只有硬核极客才能驾驭那些复杂的参数和咒语般的 prompt,试图把单张图片的审美上限推到极致。

够酷,够极客,但也够折磨人。

而 Vidu Q2 选择了一条更务实、甚至看似「无聊」的路——做一台谁都能开的「量产车」。它不再执着于制造随机的惊喜,而是死磕「稳」字。

这种把所有步骤都帮你封装好的「傻瓜式」链路,才是真正的生产力。毕竟,对于那些被甲方催着改稿、被运营催着上线的团队来说,比起灵机一动的「随机性」,更加需要可交付的「确定性」。

也许在某些极端艺术风格的探索上,它或许不如那些参数党工具来得狂野自由,甚至因为太追求稳定,少了一些「意外之喜」的灵气。

但对于那些对于深受「抽卡」折磨的创作者,Vidu Q2 提供了一种久违的安全感。

当行业在谈论 AGI 的宏大叙事时,Vidu 低下头,不再只是给你造虚无缥缈的梦,先帮你把手里的砖搬稳了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Nano Banana终于不是文盲了,但我可能会变「傻」

By: Selina
24 November 2025 at 14:29

过去一个周末 Gemini 3 Pro Image 的能力被反复「折磨」,花样越来越多——噢,你问这是什么,它的另一个名字是 Nano Banana 2。这么跟个恶搞一样的名字,居然被保留下来了。

Nano Banana2 各方面能力超群,甚至是「友商」Sam Altman 也要点头的程度。

▲ 图片来自:The Information

夸夸只是夸夸,Nano Banana 第二阶段,其实标志着 AI 图像生成领域的一个重要转折点:从基于概率的「以此类推」,转向了基于理解的「逻辑构建」。更承载着一个特殊的意义:AI 不再只是冲着你的眼睛去,还冲着你的智商去。

大语言模型不再「文盲」

一直以来 AI 生图都有个绕不过去的问题:才华横溢,信手拈来,但有时候就跟喝高了一样控制不住,这从 Midjourney 时期就开始了,往后走逐渐好转,不过始终存在。

其中最大的 bug 之一就是文字。这导致在很长一段时间里,鉴别一张图是否由 AI 生成,最简单的办法就是看图里的字。

这是基于扩散模型(Diffusion Model)的先天缺陷:它将文字视为一种纹理,而非符号。

Nano Banana 2 最直观的突破,就在于它「识字」了。即所谓的 Text Rendering 文字渲染。

我的随手测试「生成一张复古电影海报,标题是《香蕉的复仇》,副标题用红色衬线体写 2025 年上映。」

如果是在以前尝试这个指令,大概率会得到一张极具艺术感的图「BANANA REVENGE」的某种变体尚且能保持清晰和正常,但小字往往经不住看了,甚至有时候主标题都会拼写成「BANNANA」。但在 Nano Banana 2 里,这些字符被准确、清晰、且符合排版美学地「写」在了画面上。

So what?这仅仅是省去加字的时间吗?

对普通用户来说可能是,而且还是一种「表情包自由」。你终于可以生成一张精准吐槽老板的图,配上精准的文案,不用再单独拉一个文本框。

而对于商业世界,这意味着 AI 图像生成从「素材(Material)」阶段,正式跨入了「成品」(Deliverable)阶段。

▲ 图片来自 X 用户@chumsdock

当 AI 能够准确地处理符号信息,它能交付的成果就更多样也更实用,包括但不限于电商海报、PPT 配图、甚至是数据图表。以前设计师用 AI 只能生成背景底图,关键信息还得自己贴。现在,AI 可以直接生成原型图,乃至带有数据标注的饼状图,或者一张文字完美贴合透视关系的广告。

这是商业交付的「最后一公里」,也是生图模型在信息传递层面的巨大进步。

从「猜概率」到「懂物理」

字渲染的成功是 Nano Banana 2 底层技术跃迁的一个极具代表性的缩影,更深层的变化在于:这只「香蕉」,长了脑子

也就是我们所说的基于「推理」的图像生成。

大模型本质上是一个概率统计机器。当你要求画一只「坐在玻璃桌上的猫」时,模型通过学习数亿张图片,在生成时,它只是重现像素的统计规律。

Nano Banana 2 的不同之处在于,它引入了 Gemini 3 语言模型的推理能力。在生成图像之前,它似乎先在「大脑」里构建了一个物理模型。它知道「猫」下面通常会有模糊的影子,以及玻璃板上、下的物品有不同的光线关系。

在我的另一个随手测试中,当要求它生成「一个复杂的化学实验室,桌子上放着装有蓝色液体的烧杯,背景是黑板上的分子式」时,它表现出了惊人的逻辑性:

烧杯里的液体会有正确的弯液面;玻璃器皿对光线的折射符合物理直觉;最重要的是,背景黑板上的分子式不再是乱画的线条,而是看上去像模像样化学结构的式子(虽然还是有瑕疵)。

当画笔有了「大脑」,交互方式变了

之所以如此强调文字生成这个本领,是因为 Text Rendering 是外在表现,反映的是 Reasoning 作为内在引擎。合在一起, Nano Banana 2 带给用户的最终体验,就是一块「会思考的画布」(The Thinking Canvas)。

Google 将这个模型深度整合进了它的生态系统,不仅仅是生成图片,更是「修改」现实,下一步,就是走进更严肃的领域:信息图、教案、讲解素材,等等等等。

整体上,图像生成往往用户给 20% 的指令,剩下 80% 靠 AI 脑补——以前是靠概率脑补(随机填色)。现在则是靠因果脑补,不仅画出了「结果」,还隐含了「过程」,这能够让画面的叙事性和感染力指数级上升。

它不再只是为了取悦你的眼睛,它开始试图取悦你的智商。像上面这种结构图,虽然吧不敢说 100% 符合机械工程标准,但钉是钉,铆是铆。「逻辑上的正确」,是它推理能力的直接体现。

然而任何事情都是一体两面的,当换一个角度看,这就可能意味着创造力的同质化

当 AI 能够完美地生成「符合商业标准」的图表、海报和插画时,它实际上是在拉平审美的平均线。所有的海报都排版正确、光影完美,但可能也因此失去了曾经设计中那些因为「不完美」而诞生的神来之笔。

▲ 图片来自X用户@dotey

更深层的问题在于真相的消逝。当上面所说的那种逻辑正确、信息「干货」多的内容,可以被批量生产,取悦智商从未如此容易,也从未如此轻飘飘。如果它决定了我从图片信息到文字信息的所有摄入,那……会是怎样的景象?

还有 Deepfake 这个老大难问题,已经是老生常谈了。虽然这次 Google 加上了 SynthID(一种人眼不可见的数字水印)来标记 AI 内容,但在视觉冲击力面前,技术的防伪标签往往是苍白的。制造「真实」变得如此廉价和便捷,我们对「眼见为实」的信仰将被彻底重构。

至于它叫「Nano Banana」还是「Gemini 3 Pro」,其实已经不重要了。重要的是,从这一刻起,我们在屏幕上看到的每一个像素,每一行文字,都可能不再来自人类的手指,而是来自机器的思考。

这既令人兴奋,又让人在某些时刻,感到脊背发凉。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


30秒做应用、实时写图文,「灵光」想用AI重塑创造力边界

By: Selina
18 November 2025 at 13:14

想要在手机放一个 AI 助手,选项不少,但要么像个「高级复读机」,要么是信息的搬运工——天知道,我想要的是一个能真干活的助手,一个除了能说还能动手的「创意合伙人」。

今年你应该也感觉到了,AI 正在从「能聊」变成「能干」。OpenAI 搞了个 Atlas, Google 即将发布的 Gemini 3.0 让 AI 直接操作电脑……大家都在玩同一个方向:让说话变成操作,让对话变成动作。

刚刚,蚂蚁也推出了一个新的全模态通用 AI 助手灵光。它不跟你绕弯子,你开口,它动手——把你脑子里的想法,变成眼前能看、能用、能玩的东西。

从回答到表达,AI 也需要信息美学

灵光的落地页是熟悉的对话窗口,只需要用自然语言发起请求,比如「告诉我这罐饮料的热量」或「记录一下今天的饮食摄入」,极大地降低了上手时的学习成本,也让整个 App 显得比传统应用更流动。

看起来还是像聊天对话啊?其实,跟灵光的每一句对话,对它而言都是一次行动。下面是三个你很可能也会用到的真实例子。

最近因为全运会,广州也享受了一把网红城市的待遇,尤其是广州塔,每天都被游客包围。我问了灵光,「广州塔在建筑设计上有何特别之处?」它返送的不只是文字说明,还带上了一个可交互的 3D 建筑模型。

可以旋转、可以拉近看结构细节,可交互的形式让我清晰直观地感受到了广州塔双面扭转结构、斜交网状外筒的设计语言。

在和灵光的对话中,它不仅能告诉你答案「是什么」,还能让你看到答案「长什么样」。文本、图像、结构动画都整合在一起,整个问答体验,就像在对话里放进了一个实时生成的「解说图文」。不管是建筑专业学生、城市爱好者,甚至只是出于兴趣想多了解这座地标,都能真的省下了你一点点搜索、翻页、拼凑资料的时间。

紧接着,我补充了一个追问「那帮我规划一个附近的美食打卡行程吧」,它马上理解这个「附近」是广州,并直接生成了一张可缩放的交互地图,标注了六七家风格不同的小店,甚至还有「隐藏路线」。每个点位都能点开看推荐理由、评分、营业时间,甚至还顺带估算了步行路线。

惊人,直接在手机上就能生成可以交互的内容展示,放眼整个行业也并不多见。

如果说这两个案例是让人感受到「好看、酷炫」,那接下来要展示的,是灵光的「理性美」。

对于一个优秀的通用 AI 助手来说,一问一答显然是不够的,而是要能实现结构化的输出,也就意味着需要对信息语义的深度理解和再组织——不仅是检索信息,更能提炼信息点,智能理解语义并进行分层。

比如,碰到「为什么消费品牌正在出售中国区业务/为什么拟物风格的 UI 设计会退潮?」这些既需要宏观视野,也需要微观分析的问题,灵光的回应方式并不依赖大段大段的文字,而是先拆解出关键因素——如消费市场变化、品牌生命周期、股东压力等——再依此组织内容输出,形成一组因果清晰、逻辑递进的解释结构。

以标题+概括的卡片式风格,镶嵌在一个完整的图文里,可以避免枯燥,又不像 PPT/网页报告那样冗长无重点。这样的结构化输出不仅逻辑清晰,也在视觉上展现出一种「信息美学」:干净、聚焦、节奏舒适,不仅让信息吸收更高效,也模拟了专家型写作者的内容组织方式,让 AI 输出更像一份「讲得通」的深度内容,远不仅是「查得到」的浅层答案。

你可能已经想了一路了:这到底是怎么做到的?为什么能既结构清晰,又视觉友好,还能实时互动?

其实在接收到问题时,灵光会调动一套以代码生成为核心的内容创建流程。无论是图文、地图还是 3D 动画,底层都是由模型即时写出对应代码、样式和组件,再动态拼装呈现出来。要完成这些工作,并不是由一个大模型孤军奋战,而是由多个智能体协作实现:有的负责图像,有的负责布局,有的调取数据结构……像搭积木一样。

既整合不同内容体裁,又能适配常见的内容呈现方式,从而给出极其自然的内容。最终实现的效果,也更适合转发、截图、总结成「朋友圈可用」的内容——既有理性判断,又能传递个人观点和情绪

一句话、30 秒,给自己做个 App

如果说对话中能做图、做路线规划已经够神奇,那么接下来的能力接近「魔法」:用键盘敲一句需求,它就能直接帮你把一个小 App 搭好。

用 agent 生成应用,现在处于一个比较尴尬的位置:很多应用总是卡在「能理解、不能执行」的断点上。而灵光的「闪应用」瞄准的就是这个痛点,对话已经超越调用和请求工具的步骤,能够做到直接生成工具。

是的,不是生成一段代码、一个原型、一个建议,而是原地生成一个「即刻能用的工具」。实现想法终于不再是程序员专属的快乐,闪应用可以给每个普通人亲手「造东西」一个起点。

来看看它是怎么让「想法落地」变得这么轻巧的:我给它的第一个任务是,「我想要一个能把长文本拆分成更小段落的工具」。

仅仅 30 秒,一个可以设置段落数、自动分段文件的小工具就出现了,甚至不需要打开新页面,它会将生成结果直接嵌在对话流中,点开即用。

再来一个轻巧又实用的例子:做一个菜单翻译器,这里的要义在于:既能把外语菜名翻译成中文让我知道是什么,又能原样朗读出外语,方便我点菜。

理解文字,生成语言,组织界面,并且用声音反馈——这些能力以前得靠多个组件组合才能实现,可能还需要我详细解释代码逻辑,现在只用一句话,它就全都打包完成。

无论是出国旅行用来点菜,还是练习口语用来熟悉菜名表达,这样的小工具一经生成就能上手,真正做到了「即做即用」。这背后是一套完整的应用构建:不仅能输出前端页面,还能一并调用大模型的后端能力。不仅给你实现了代码,还免费给你上 UI 设计。像翻译、语音合成这些动态模块,全都集成在这个小工具里。

这样一来,生成出来的成品就不只是个 demo,而是真的能与用户实时互动、响应输入,具备完整的前后端逻辑闭环。

与其花时间翻遍整个应用商店,拿闪应用一分钟做一个完全贴合我个人需求的小工具,显然更快也更好。灵活、即时、零门槛。它不是通用解法,而是「为这一次定制」的临时小解决方案,却能激发普通人对「创造」的心理满足感——哪怕不懂开发,也能凭一句自然语言体验「自己做了个小应用」的快乐和分享冲动。

带着「眼睛」展开互动

实时视频已经是目前 AI 助手的「标准配置」了,灵光给这个功能起了个相当有创意的名字:开眼。还真挺贴切,不是靠打字输入,而是打开摄像头,如同给 AI 打开了眼睛,接受另一种自然语言:视觉语言。

比如举起手机对准一杯奶茶,屏幕上马上浮现出饮食建议、保存注意事项,还带着几个延展提问,满足你的好奇心:

这个功能在食品药品上非常方便,无论是给自己选,还是给父母买了新产品他们却不认识时,灵光开眼正好能大展身手。

开眼的特点在于,通过流式识别,超越简单的「认得一个东西」,而是变成了能做出响应、展开对话的智能视觉入口。它能理解你此刻潜在的意图,主动发起跟进动作,把一次镜头下的识别。变成一套连贯的行为链条。

比起那些只能识别 Logo 或商品的旧时代 AI 视觉,它明显走得更远了一步:不仅识别是什么,还试图理解你为什么看它、接下来可能需要什么。

也就是说,它把「摄像头」变成了另一个对话渠道,一种通过视觉引导交互的对话,真正意义上的「开眼」:带着「眼睛」展开互动。

把「创造」这件事交还给了每一个人

语言就是编码,需求就是原型。对话从来不是最终目的,它真正的价值在于:变成生产力的触发器。灵光打破了「提问—回答—再动手」的传统路径,把语言本身变成工具的起点。让「我有个点子」变成「我已经做出来了」之间的路径更短、更直觉。

原本需要懂代码、设计、产品逻辑的人才能做出的 App,现在用一句自然语言就能生成。普通人第一次可以用日常语言直接「生产」一个功能工具、一张内容卡片,或者一段交互流程,「自己做自己的产品经理」。这种从「会说话」到「能造物」的跃迁,标志着生产力门槛的全面打开。

在 AI 行业的下一阶段,拼的早已不只是「谁的模型更强」,而是「谁能把能力转成体验」。年初 DeepSeek 引领了中国在开源模型的浪潮,2025 年快结束了,我们在灵光上看到 AI 交互范式新可能性。它用非常具体的方式,示范了一条关键路径:从底层大模型,到中层工具能力,再到用户侧的应用产品。

这一次,「AI 能做什么」终于从实验室语言,变成了用户能用的日常动词。把「动手做」变成了「开口说」,也把「创造」这件事交还给了每一个人。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


第一波 2025 年度词汇出炉,一半毫无悬念,一半完全懵圈

By: Selina
14 November 2025 at 20:22

近几年,各大词典评选的年度词汇中,AI 相关的新词异军突起。最新出炉的 2025 年柯林斯词典年度词汇,选择了「vibe coding」,这个今年几乎是最热门的 AI 技术。

如果再往回拨一点,稍早前牛津、韦氏、Dictionary.com 和剑桥等机构发布的一系列热点词,不难发现,AI 已经深刻影响了我们的语言,已然是生活中的高频词。

Vibe Coding:年度最热门技术词

「Vibe coding」在中文里并没有一个完美的翻译,比较流行的译法是「氛围编程」。这个词最早由特斯拉前 AI 总监、OpenAI 创始工程师 Andrej Karpathy 提出,形象地描述了 AI 能让人们「几乎忘记代码本身存在」也可以开发应用的情景。

不懂编程的用户,用自然语言对话,就生成计算机代码。开发者只需要告诉 AI 自己想要一个什么功能或应用,AI 就能自动生成,实现「凭感觉,写代码」的效果。

「Vibe coding」之所以能够登上 2025 年度词汇宝座,一方面从数据上能看出来——自 2025 年 2 月首次出现以来,这个词在媒体和社交平台上存在感飙升,贯穿了一整年。柯林斯词典的语言学家从包含 240 亿词汇的语料库中捕捉到了这一趋势,认为这个词充分反映了一年来语言的演变。

另一方面,这个选择揭示出 AI 技术在 2025 年的社会文化热度之强:程序员群体在讨论,普通用户也在谈论,「AI 可以帮我写代码」已成为大众认知的一部分。正如柯林斯官方博客所说,这个词「捕捉了我们与科技演变中的某些根本变化」,它不仅在硅谷科技圈内流行,更折射出 AI 作为「超强辅助」,已渗透日常生活的广泛文化转向。

今年的柯林斯 2025 年度词汇候选名单可谓科技味十足。同榜的还有「clanker」,这个词源自《星球大战》,不过,现在它多用于对 AI 聊天机器人的批评,类似于中文语境里说的「人工智障」。

「biohacking」指生物黑客式的自我改造;「broligarchy」调侃科技富豪把持权力的「兄弟寡头政治」等。这些五花八门的新词一起勾勒出 2025 年的图景:从工作到娱乐,AI 正重塑我们的语言和生活方式。

技术语言如何渗透生活

实际上,从去年起,各大权威词典发布的年度词汇中,就有多条都和 AI 热潮有千丝万缕的联系。

牛津词典:Brain rot 脑腐

英国牛津大学出版社把「brain rot」(脑腐)评为 2024 年的年度词汇,是去年讨论度最高的一个年度词汇。这个带点夸张的俚语,指的是「大脑或智力状态的退化」,主要是用来形容过度沉迷于碎片化数字内容,从而导致的迟钝、注意力退化等等。

2024 年人们越来越注意到,无节制地刷社交媒体,大量低质、无营养的信息让人「脑子生锈」。这个词生动地概括了在碎片化内容时代,身心都在接受信息过载的挑战。牛津语言部总裁卡斯帕·格拉斯沃尔评价说:「brain rot 道出了数字生活潜在的危险。」他认为,这个词标志着有关人性与科技的新一轮文化讨论。

在无人注意的角落,牛津去年的年度词汇候选列表里,还有另一个与 AI 直接相关的词,「slop」,意指「由人工智能生成的劣质网络内容」。虽然最后未当选,但它出现在提名中本身就说明,AI 生成的内容,数量已经到了惹人反感的地步。

无论是「brain rot」还是「slop」,都从不同侧面反映出 2024 年人们对数字内容生态的担忧,以及 AI 算法在其中扮演的复杂角色。

韦氏词典:Authentic 真实

韦氏词典在 2023 年选择的年度词汇,是「authentic」真实的,同时也有「本真」的意思。这个词存在已久,但在充斥 deepfake 和 AI 生成内容的一年里,它的脱颖而出,意义非凡。

2023 年与 AI 相关的新闻和讨论激增,引发了人们对「authentic」这一概念的关注和大量查询,搜索量暴增。正是因为 AI 可以轻易生成以假乱真的图像、视频和文本,人们也就越来越难分辨真伪。所以,对于「真实的、原汁原味的」的追求成为社会心理的一个重要主题。

韦氏词典主编彼得·索科洛夫斯基在解释这一选择时提到,「authentic」有「非伪造、真实可靠」之意,也包含「忠于自我」的延伸意义。它成为年度词汇,某种程度上是对科技充斥下社会心理的映射:当聊天机器人可以模拟人类口吻聊天,当 AI 可以模仿名人声音,我们比以往任何时候都更加珍视人与信息的真实性。

剑桥词典:Hallucinate 幻觉

英国剑桥词典则把目光投向了「hallucinate」幻觉。剑桥将其评为 2023 年的年度词汇之一,原因在于这个心理学动词在当年获得了全新的技术含义。

原本,hallucinate 主要用来指因为生病或服药副作用,导致出现幻觉、看见不存在的东西。不过在 2023 年,人们开始用它描述大语言模型「胡编乱造、产出虚假信息」的现象。

剑桥词典专门为此新增了 AI 相关义项,并表示这一新义「切中了 2023 年人们热议 AI 的核心原因」——生成式 AI 功能强大,但不是没有问题,「hallucinate」正好一语道破了 AI 最大的弱点之一。

值得一提的是,剑桥选择「hallucinate」紧随柯林斯词典将「AI」本身选为 2023 年度词汇之后。也就是说,从「AI」这种宏大的技术概念,到「hallucinate」这样具体描述 AI 缺陷的术语,AI 相关词汇在权威词典的年度榜单上实现了连纵霸榜,说明了眼下 AI 居高不下的热度。

从「vibe coding」到「hallucinate」,AI 相关词汇接连登上年度词汇榜,绝非巧合。

当 AI 改变世界时,也在改变着我们的语言;它们有的描述了 AI 给生活带来的便利,有的反映出人们对 AI 潜在问题的担忧,还有的表达了数字时代人们内心的矛盾与诉求。这一系列语言现象背后,恰恰是 AI 正以前所未有的深度,介入我们的工作、娱乐和社交。语言的变化又反过来成为时代的一面镜子,折射出科技与社会的碰撞。

One More Thing

柯林斯是今年较早发布年度词汇的机构,另一个是 Dictionary.com,但是他们选择了一个奇怪的词:67。读作「六、七」,而不是「六十七」。

Dictionary.com 组委会分析了大量数据,包括新闻标题、社交媒体趋势、搜索引擎结果等,发现从 2025 年夏天开始,对这个数字的搜索量有明显的增长,而且一直在增长。

这个词的意思大概就是「还行」「凑合」「及格线」,六分七分吧。确实有点抽象,不好理解。Dictionary.com 的组委会说,他们还在努力弄明白它到底是什么意思,但它的确展现了一个新词,如何随着年轻人的爱用、多用而迅速风靡全球。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


AI 生成的歌首次登顶权威音乐榜,还把人听哭了?

By: Selina
14 November 2025 at 14:19

无人注意的角落里,权威榜单 Billboard 接二连三地迎来一批新歌手上榜,低调但行动快速,闷声就登顶了。

等一下等一下,大家发现:什么?又是 AI?

榜一《Walk My Walk》是 AI 生成的歌曲作品你,从数据来看,它不仅登顶了,还连续在榜了三周。对于任何一个新人来说,都是堪称「爆」了的成绩。

然而这不是人,只是 AI。Billboard 发现,登上自己榜单的 AI 歌手和歌曲,已经越来越多了。

冠军?什么来路?

其中一位 AI 歌手,Xania Monet ,出道两三个月,发过的歌却个个受欢迎。最新的《How Was I supoosed to Know?》在油管直接是百万播放量,这还没算 Tiktok 和 Instagram 的数据。

自夏天出道以来,Xania Monet 已在 Billboard 的多个排行榜上取得佳绩,不到两个月内,已创造超过 5 万美元收入。

AI 歌手并不是新鲜事,甚至,用 AI 做一个数字人形象,也不是新鲜事。但我确实想知道,Xania Monet 为什么会有如此的表现。

要知道,很多人不只是看不出来她是 AI,更加是觉得她的歌很好听,很动人。

这不高低得尝尝咸淡。听了几首之后,我很快意识到为什么:主题。

Xania Monet 的歌在旋律上并没有什么特别之处,这很正常,AI 生成的音乐,不会偏离主流形态太远,毕竟是数据算出来的。

唱法层面,该有的细节都有:颤音、转音、声区切换,但还是那句话,这些都是可以生成的。而且在一些细节上,还是有瑕疵。比如在一些高音时,很像是挂了 auto-tune,有点点轻微的「电音」感。

可是,她的歌全部围绕着当代人的 emo 情绪出发,歌词写得相当切中人心。

看看这个歌词,非常写实地描绘了恋人之中,只有一方付出,另一方只会闪躲的情态。这首歌就叫做《I asked for so little》,可以翻译成「我要的不多」,典型的苦情歌,受到欢迎完全不稀奇。

在这首《Still not choosing me》中,写的是为什么「我爱的人不爱我」,很常见的主题,经典永流传。没有人永远失恋,但总有人正在失恋着。

之前的视觉效果 AI 感还是很强,尤其是视频,基本上经不起细看。

但是到了她的大热单曲《How Was I supoosed to Know》,不仅是唱感情问题,还唱到了原生家庭伤痛:父母没有教过什么是好的「爱」,只能让孩子带着伤痕,「错把虚情当真爱」。

这不得掀翻了社交媒体,简直是 buff 叠满。

而且相比于早期简陋的动态歌词板,《How Was I supoosed to Know?》制作精良了不少,不仅没有粗糙的 AI 感,音乐编曲也好了不少。片尾一看,多了许多名字——背后有人了。

Xania Monet 出道没多久,就能够强势上榜,自然也引来了不少橄榄枝,很快就签了公司 Hallwood Media,经纪合约价值三百万美元。

难怪,有了公司,新歌档次都上去不少,登顶榜单也就不奇怪了。

等下,你说你去找了 Billboard,没看到这首歌?

登顶,但没完全登顶

这里的确有一个小小的信息差:Xania Monet 登上的是垂类电台榜单之一,Adult R&B Airplay Chart 成人 R&B 电台播放榜。

这是一个衡量美国成人 R&B 广播电台播放频率的榜单,以电台播放数据为口径。要知道,现在美国依然有大量覆盖全国或地区的 FM/AM 广播电台,这些电台每天仍然需要大量歌曲轮播,并且还是保持着人工编辑的体系。

Billboard 与一个叫 Mediabase 的监测机构合作,利用自动识别技术(audio fingerprinting),监控这些电台在每小时、每个地区播放了哪些歌,统计播放次数、时间段、地区等,最终形成榜单。

这意味着,Xania Monet 的歌想要被电台播放,仍然需要编辑加入到播放列表当中。她能登顶,恰恰意味着这些歌已经被不少 R&B 电台认可并轮播,进入了日常听众的耳朵中。

平时开着车、做着家务而随手打开电台的听众,可能根本不知道她是 AI 歌手。

这使得她登顶的榜单,意义更加独特:她恰恰是因为已经在社交媒体上很红了,才进入电台视野。

简单点说:Xania Monet 无论是在流量层面,还是在品质层面,都出现了一些「逆转」。尽管专业圈内人还是批评态度,一般听众却相当受感动。

类似的评论还有很多,般听众并不会细究创作过程,他们更关心歌曲本身能带来怎样的情绪体验。

不过,这并不意味着 AI 就已经登峰造极,可以写出打动人心的歌了——尤其是 Xania Monet 的例子里,她的旋律和演唱是由 AI 生成的,可是歌词,却完全是来自人类创作者。

Xania Monet 背后,是一位叫做 Telisha “Nikki” Jones 的创作者,她并非专业歌手,但是热爱写诗填词。今年她接触到了 Suno,尝试把自己写的诗歌和歌词输入进去,设定诸如「灵魂唱腔」「慢板 R&B 风格」「轻吉他配重鼓点」等一系列风格关键词,然后让 AI 创作出完整的歌曲。

歌词 100% 源自琼斯本人的经历和情感,例如《How Was I Supposed to Know?》,灵感正是来自 Jones 童年时就失去父亲的真实创痛,这些发自肺腑的诗句后来成为歌曲的核心。

歌词和主题的确是 Xania Monet 最出挑的地方,当然,歌曲和演唱也没有拖后腿,都是在平均水准之上的。主歌旋律通常舒缓真挚,副歌迸发情感张力。

在 Jones 的设定中,Monet 的嗓音突出灵魂乐质感,唱腔也一下就抓住了听众的耳朵。再加上歌词写得细腻动人,全部加在一起,这才能如此受到欢迎。

可以说,Xania Monet 提供了一个 AI 创作的「高分示范」:保证核心内容(主题歌词)的品质,同时完全原创,从而规避版权风险。从音乐作品到人设都走真情路线,而不是「为了 AI 而 AI」,把生成本身当噱头。

听众更容易把她看作一个有血有肉的新人歌手来欣赏,自然比面对一个夸张虚拟网红时更能产生好感。

最关键的一点:作品本身够打动人。这也是最「背反」的一点,回想我一开始听 Xania Monet 的歌时,已经知道了她是 AI,所以从未关注她的唱法,却能够一下子识别出歌词和主题是她的突出点。

这是不是意味着,AI 始终难以越过一道天堑,那种细腻幽深的情感,归根到底无法「生成」,只能来源于人自身。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


GPT 5.1 披「马甲」公测,免费可用,杀入年底大更新战场

By: Selina
11 November 2025 at 11:01

Gemini 3 还没影子,GPT 5.1 已经在路上。7 号深夜,OpenRouter 平台上线了一个全新的隐名模型。已经有眼尖动作快的网友尝鲜体验,并且认为这就是披着马甲的 GPT 5.1,暂名:Polaris Alpha。

目前提供 API 调用(包括 OpenRouter),知识库截止时间为 2024 年 10 月,不支持推理模式。最大 context 容量 256K,单次最大输出 128K。

开发商信息保密,但是在网友的不懈努力下,成功「越狱」,让 Polaris Alpha 自曝了家门。

▲ 图片来自 X 用户 @LarryAtherton1

这倒也算不上实锤,可能只是训练数据的问题——很多模型都会输出来自专有供应商的数据。除非系统提示中明确说明,或者通过指令调优反复灌输,否则这些模型实际上并不「知道」自己是什么。

无论如何,目前暂时没有官宣,暂且就还是叫它 Polaris 吧。APPSO 也第一时间简单试用了一下。由于是通过 API,部分功能比如处理语音素材暂时受限,除此之外,Polaris 的表现,让人相当期待 GPT 5.1。

案头工作:流畅,一如既往

首先是一些比较基础的简单任务:根据要求写邮件。这是一封道歉邮件,跟嘉宾通报活动改期。我特地强调了口吻要既饱含歉意,又表示亲近,让 Polaris 感受一下。

算是中规中矩吧,信息齐全,行文逻辑清楚,语气不会有强烈的「人机感」。比较神奇的是,在打开 Search 模式的前提下,Polaris 会去检索一些道歉信的写法,而它的引用信息里,居然有淘宝百科…… 看上去 Polaris 覆盖的信息源越来越多,也越来越冷门了。

然后是需要创意想法的文案写作任务,prompt 我都给得很模糊,只要求有网感,适合在小红书上传播。

Polaris 给出了三种不同的风格,给出的文案非常完整。后面还给出了活动具体执行的方案。从这里已经可以看出来,措辞上颇有 GPT 系会有的文字风格。也有网友专门做了相似性统计——马甲快要披不住了。

文字风格仍然是每一个大语言模型的立身之本,毕竟现在最主流的应用场景就是案头工作。2026 年都快要来了,还给出「人机味」的文字,是不能被原谅的。目前 Polaris 的文风,有相当典型的「GPT」风味,很多网友都有同样的感受。

同时,对于 chatbot、聊天、陪伴等应用场景里,文风能否快速适应用户节奏,并且灵活「习得」个性化的口吻,也将是 GPT5.1 面临的挑战——全球用户要求 4o 回来的盛况,OpenAI 应该不想再经历一次了吧。

由于不能直接处理音频文件,我上传了转录后的播客文字稿,让 Polaris 整理提炼信息点,适当调整口语化的地方,重点是:根据不同的主题维度,拉出一个层次明确的提纲,同时保留时间戳。

输入目前看来可以超过 1w 字(单条发送),受限于 OpenRouter 每个窗口只能保存八条记忆的限制,超长输入会一定程度的影响输出稳定性。不过自我纠正能力不错,第一次跑的时候生造了并不存在的时间戳,重抽一次之后自行纠正了。

自从 GPT 5 之后,ChatGPT 的单个窗口容量明显增大,从社交媒体上的反馈来看,最高的 token 总数可以去到 60 万-80 万才达到上限。这对于个性化用户信息而言是个非常好的信号,但不可避免的是,超长上下文额之后,会出现记忆调度的失序,以及输出稳定性的下降。

这留给了 GPT 5.1 全新的挑战,如何在进一步扩大窗口容量之后,依然保持灵活准确的记忆调度。对于用户而言,几乎是第一秒就能感受到的决定性体验。

编程:超简单,超顺滑

OpenRouter 提供几种基础的编程工作实现和预览。我快速用它测了一下 Polaris 写小游戏的本事。

最直观的感觉是时间稍微有点久,差不多要个五分钟了。不过倒是不需要我提供复杂的 prompt,「设计一个贪吃蛇游戏代码」,就足够生成一个可以上手的小游戏。

甚至还提供不同的模式、设置,在 preview 里的试玩都很顺畅。另外又让它跑了一个打地鼠游戏,也是顺利完成。

网页设计也很 OK,我把上面生成出来的咖啡馆文案,丢回给 Polaris,让它设计一个活动的落地页。

Polaris 研究了整个文案,并且加入了一些补充,最后出来的视觉效果也不错,我挺喜欢它给按钮设计的发光效果,这似乎是它的一个「独家特色」,在其他网友的测试中也出现了:

▲ 图片来自 X 用户

从网上的其它测试是来看,它的美学表现值得期待。

▲ 图片来自 X 用户 @HarshithLucky3

这些基础工作都没有太大的问题,但老实说,现在 AI 编程的赛道堪称白热化,而 GPT 系产品在编程上,竞争力一直不算很强。GPT 5.1 实装后,在编程上的表现能不能有大突破,只有继续等待才能知道。

前阵子 Sam Altman 明确发话表示,年底时 ChatGPT 将推行 NSFW 模式(成人模式),在目前的 Polaris 上,似乎已经看得到苗头了。

如果是这样,那 Polaris 是 GPT 5.1 的证据又多一条,尤其是考虑到最近 OpenAI 已经在小范围内做年龄验证,这并非全量行动,而是针对不确定实际年龄的用户做定向推送。

成人模式的争议很大,实际执行也并不如想象中简单,除了验证,还有隐私信息识别、储存等一系列麻烦。到底能不能有一个平衡多方诉求的解决方案,还得看真正的 GPT 5.1 如何应对。

眼瞧着年底又是一场血战,Gemini 3 早就放出风声(虽然一直跳票),Nano Banana 2 也突然冒头。更别提前阵子 Kimi K2 Thinking 的发布,收获了海内外一大波关注,训练成本仅为 460 万美元。

OpenAI 仍然有着惊人的支出,虽然也有着惊人的活跃用户群,但盈利还看不到苗头。在一系列又强又便宜的中国模型的狙击下,GPT 5.1 能达到期望吗?

快知道了,网传 11 月中就将发布,到时或许会有答案。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


可口可乐,你浓眉大眼的也用 AI 做广告了?

By: Selina
5 November 2025 at 18:22

每逢年底,都是各品牌推出假期广告的时候——也是最容易翻车的时候。

可口可乐今年的圣诞广告,就翻车了,因为用了 AI,而且是第二次用了 AI。去年同期,他们就发过基本一样的圣诞广告,也是 AI,也是翻车。

果然是可口可乐,要寻求刺激,就要把「黑红也是红」贯彻到底。

创意乃王道

平心而论,用 AI 做广告,可口可乐不是头一家。这两支广告被骂,除了有群众对 AI 的怨气之外,还有一个抛不开的原因:做得真是不好。

首先是核心创意没有变化。这两支广告当中,彩灯火车、圣诞假背景,都是对 1985 年经典版本的延续,核心框架几乎都保留了。AI 在当中的工作是生成了所有的画面元素,效果也不能称得上很好。比如这一小段树懒的动态,再长两秒钟就要把人吓跑了……

这个工作量还不小,可口可乐另外发了一支制作特辑,涉及的素材量很大,几乎用到了所有主流 AI 图像视频产品。

从工作量看,品相还是提高了。去年同系列、同创意的广告,都是人像,带着典型的 AI 慢速降格感,所以每一个镜头都很短,不太能细看。

但无论如何,这俩都是比较平庸的广告。尤其是这个创意主体:可乐大货车,放在 1995 年架势很足,放到现在,如果不做任何改造,看起来就是平平无奇——怎么了,可乐不就是货柜车运送吗?

最早这个广告出现在 1985 年,回顾原来的版本,创意更加清晰:一片漆黑的森林小镇,原本因为深冬而沉寂。但随着缀满彩灯的可乐货车到来,树林和房屋都像被施了魔法一样,被逐渐点亮。

配合假期季节,可乐作为必点饮料,这个创意象征可口可乐把欢乐的氛围送到千家万户。

在不同的时期,这个创意主体都得到了延续,但是手法会有所不同。比如在 1995 年版本中,有了一个小男孩最为主要人物,他追逐着可乐货车,却晚了一步。正当他失落时,圣诞老人用魔法,送了一瓶到他手上。

这个特效也是早期的电视特效,很粗糙却很朴实。作为快消品龙头,可口可乐从来都是快速拥抱新技术,现在是,当年也是,但为什么以前的广告,就更不一样呢?

2006 年,可口可乐联合导演 Todd & Kylie 制作了动画电影 Happiness Factory,直接拿下了艾美奖。其中用到了大量的动画特效,在当年也算是流行技术。

这个电影合作延续了好几年,背后有一个完整的世界观:每一个自动售货机里,都是一个异世界,里面生活着各种精灵。一旦有硬币投掷进来,精灵们会分工合作,生产出一瓶可乐,然后再敲锣打鼓地送出去给人类。

动画电影即便是在现在,也是一个人工密集型的创作方式。不过,即便是在有了 AI 的年代,可口可乐也拿出过很扎实的广告。

2023 年时,可口可乐联合英国创意广告公司 Blitzworks,制作了一支名为「Masterpiece」的广告,也同属于今年 AI 生成的系列,「Real Magic」。

它的核心创意是,在一个美术馆里,知名的画作人物「活」了过来,彼此传递着一瓶可口可乐。每一个画作人物的动态,都涉及到大量特效,甚至还有动作合成。

幕后特辑中,制作组清晰地展示了制作流程:每一个段落都由 CG、数字绘制、实拍合成以及 AI 的参与。

制作非常难非常复杂,却没有抢掉创意本身。「Masterpiece」的意思是「杰作」,一语双关。在剧情里,表面上看是所有的这些画作。而一瓶可乐,把所有的这些杰作连接到了一起。

但是最后唤醒主人公灵感的,创作出他自己的「杰作」的,还是一瓶可乐。

好的创意,工具只是辅助。反过来,如果创意不行,工具再厉害也无法补救,连致敬经典看上去都更像是借口而不是理由。

链接人,而不是抛弃人

更关键的是,这是可口可乐。

在快消品中,可口可乐出品的创意广告相当出名。远的不说,你应该还记得前两年风靡的「姓名瓶」(Share a Coke)。

可口可乐围绕这一个概念推出了产品和相对应的广告,在全球范围内创造了巨大的社交媒体热度和购买潮。

这个创意一举拿下戛纳国际创意节和艾菲奖等顶级广告奖项,而且名利双收,不仅塑造了品牌影响力,还直接拉升了销量,在多个市场成功逆转了销售下滑趋势,显著提高了年轻消费者的参与度。

更早一点的创意「拥抱机」,也是斩获过不少奖项。可口可乐把自动售卖机改造了一下,路人抱一下这个机器,就会有一罐可乐滚落出来。

这个创意把可口可乐品牌理念中核心的「快乐与连接」,以非常直观又生动的互动方式实现,强化了品牌的亲近感。

还有「For Everyone」主题,是一个完全依赖产品静物,靠文案创造奇迹的创意系列。从可乐瓶、Logo、瓶盖等等产品细部出发,用极具创意的文案字幕,把「人人皆有」的创意呈现出来。

这个创意也是一个系列创意,最早见于 2002 年戛纳奖,二十几年来一直延续。在疫情时期,可口可乐用类似的手法,致敬了所有参与抗疫工作的医护人员、志愿者,以及普通人。

一直以来,可口可乐的广告当中,「与人分享、更多链接」都是重点要传递的信息,这也是为什么圣诞、春节这种时间点,也是他们推出新广告的重要时机。

然而这个核心并没有在这些 AI 生成的广告里,清晰地传递出来。模型生成的小动物确实很精致,既逼真写实,又有动画电影的质感。但是它们起到的作用并不明确,没有能很好地延续 1985 年经典版本的理念。

为了用 AI 而用 AI,是最要不得的。更何况,因为用了 AI,而让「人味」退出了广告画面,更加是和可口可乐自身的品牌理念背道而驰。

对可口可乐这个「创意教科书」来说,最大的挑战不是会不会用 AI,而是如何用 AI 继续制造感动人心的「真魔法」。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


我相信理想,于是我背叛了它:Ilya 的52页小作文都告诉了我们什么

By: Selina
4 November 2025 at 15:40

1808 年,歌德创作出了经典诗剧《浮士德》,主角浮士德博士掌握了哲学、神学、法学和医学,懂得世上所有的知识,却还是无法理解生命本身,从而陷入绝望。

这时,魔鬼梅菲斯特来到他身边,表示愿意提供最为极致的体验。浮士德答应了,又没完全答应,而是向魔鬼提出了一个赌约:一旦,他在魔鬼提供的体验中感受到幸福,想要停留在当前——那么他就立刻死去,魔鬼就可以取走他的灵魂。

两百多年后,同样是怀抱着对人工智能最前沿知识的 Ilya,也面对了同样的「魔鬼」时刻——两次。

来吧,你崇高的理想可以实现

10 月 1 号,作为关键证人,Ilya 出席了马斯克诉 Sam Altman 的官司,尤其针对他在 2023 年牵头的「宫斗」接受了大量提问和质询。

在初创的四人帮里,Ilya 被认为是最有科学理想的一位。在加入 OpenAI 之前,就是 Google 的研究科学家,也是深度学习领域最具影响力的研究人员之一。在他对技术极致追求的背后,是一种更宏大的理念:他相信,一个非营利、不受大型企业利润驱动的 AI 实验室是必要的。

这难道不是像极了浮士德,想要追寻一种更超越性的生命体验。2015 年 Ilya 第一次接受了「魔鬼」的邀约:不顾 Google 的极力挽留,接受马斯克的邀请,共同参与创办 OpenAI。

说马斯克是「魔鬼」并不完全准确,在那个时候,他还是非常坚持 OpenAI 要保持非营利的内核——这也是为什么现在都过去了这么多年,他还要打官司。钱是小事,就算是富如马斯克,也不想当冤大头。

可是对于 Ilya 来说,马斯克像极了「魔鬼」梅菲斯特:许诺了一条可以实现理想的道路。那时,他完全认同 OpenAI 的非营利使命——以最可能造福人类的方式开发通用人工智能(AGI)。他希望 OpenAI 能够将 AI 技术向所有人开放,并继续保持在 AI 研究的前沿。

可想而知马斯克之于 Ilya,简直就是梅菲斯特本特,要钱给钱,要人给人,「我做你的伙伴,只要你欢喜,就做仆人,奴才,我也甘愿!」

不过,想要接近人工智能的愿景,并不是只靠技术,更是要靠两个字:算力。而即便是在 2017 年,搭载八块英伟达顶级 GPU 的定制服务器,售价就高达 15 万美元。训练单个模型需要成千上万块 GPU,还不考虑电费,那意味着每年数十亿美元的运营成本。

跟魔鬼做交易,总要付出点什么。当时马斯克要的很明确:OpenAI 是他一手扶持起来的,他要做 CEO,要绝对控股。

另一边,Sam Altman 则通过私人关系向 Ilya 递话,表示自己对非营利的坚持,以及做 CEO 也会零股权的立场。

就在 Ilya 犹豫再三的时候,第二「魔鬼时刻」正要降临,这次,真正的赌约开始了。

52 页 pdf

选择谁当 OpenAI 的 CEO,无疑是当时的 Ilya 所经历过最棘手的决定,远超他当年决定是否离开 Google。最后他选择了 Sam Altman,但从过往的资料,以及近日公开出来的法庭证词来看,这个决定始终伴随着他对 Sam Altman 的不信任。

这从一开始就出现了,在二选一的时候,他就发邮件问过 Sam Altman,为什么对 CEO 的名头那么执着,「你的理由不断变化,我实在难以理解背后的驱动力。AGI 真是你的首要动机吗?」

Sam Altman 是什么人,话术一套一套的。况且他筹钱的本领又实在是惊人,尤其是拉来了微软、YC,巨额资金不断融入,OpenAI 成了硅谷最炙手可热的明日之星。

这在一定程度上,让 Ilya 和 Sam Altman 形成了平衡——就像梅菲斯特和浮士德,也有短暂「携手」的时候。Ilya 坚信规模化对于训练模型的重要,把公司运营交给 Sam Altman 之后,他也更加沉浸在自己的技术哲学当中。直到他发现,Sam Altman 的领导已经让这家公司,在暗中偏航了。

于是,就出现了现在被全网热议的「52 页 pdf」,这是 Ilya 写给独立董事的备忘录,里面集合了大量他对于 Sam Altman 所作所为的记录,包括但不限于:他如何挑起办公室政治、让不同的团队之间竞争、习惯性地操纵和欺骗别人。

吃瓜群众不禁要问:怎么顶级大佬也用 pdf 撕来撕去啊?

聚集在这份 pdf 上的视线太多,以至于有些关键问题被模糊过去了:这些信息和素材,是当时 Ilya 发送给董事会,推动 Sam Altman 下台的核心证据。曾经一度接近成功:董事会单方面表示解除 Altman 的职务,并任命 Mira Murati 为临时 CEO——这期间,董事会成员和 Ilya 沟通非常密切。

可也是这个关键节点,Ilya 动摇了。宫斗带来的影响远超想,员工大量离职跳到竞争对手那里,董事会开始质疑。OpenAI 毕竟是他的心血,如果坚持和 Altman 站在对立面,拉长战线,只会让公司上下都更加分崩离析。

这和他的初心背道而驰:他想的是让 OpenAI 能如他所愿,朝着 AGI 的方向,也朝着造福人类的方向前进,而不是彻底垮掉。

在上个月的法庭上,他被问到当时的判断,Ilya 举棋不定,他表示自己一直在接收别人给到的信息,没想过去更进一步的对质。

网友评论:筹划了一年的行动,就这?

正义并不永恒

如果只是把当年的宫斗,看成是 Ilya 想要造反夺权,并不足以理解他在最新的法庭证词中所表现出来的样子:纠缠、内耗、反反复复。

因为,他当时反对的并不只是 Sam Altman 的领导,更是他自己的误判和错信。如果早知道选 Sam Altman 当 CEO 的代价,是把 OpenAI 引向资本化的道路,那他会答应这桩交易吗?如果注定保不住 OpenAI 作为非营利的性质,那这一切是不是都错了?

这一次,历史没有给他选择的机会了,他最后被神与魔同时抛弃,成为「造反分子」,在 Sam Altman 复职之后,离开 OpenAI。

Ilya 身上有着跟浮士德如出一辙的、理性的天真。他相信对技术和理性的追求,以及对信仰的坚持,能够突破权力和声名的诱惑。但当他自己面对巨大的压力——员工的离职、投资者威胁——他也不得不改变立场,签字妥协。

他既相信自己在「道义上正确」,又担忧行动的后果会玉石俱焚,只能是在理想与现实冲突下,做出充满防御性的决策。

「就这样吧。」这是浮士德和梅菲斯特的赌约中,最核心的概念:浮士德赌自己永远不会满足于任何成就或快感,他会永远求索,不停前进。这也让他最后得到了天使们的拯救。

而 Ilya 输掉了赌约,却是因为他真真正正被困住:并非是被已经取得的成就困住,而是被自己心中的「正义」困在了进退两难的境地。

他在赌的,是正义的理想不会出错。但世间的故事如出一辙:在商业、资本和权力构成的「魔鬼」面前,信念会动摇,至高无上的理想,也会破碎。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


你刷抖音小红书不会变笨,但你的 AI 会

By: Selina
2 November 2025 at 18:23

好消息:AI 越来越好用了。

坏消息:越用它越笨。

无论是哪家 AI 厂商,现在都会在「长期记忆」「超长上下文储存」等方面下功夫,这样才能让用户用起来顺手、顺心。不过,最近一项研究发现,AI 未必就能越用越懂你、越用越聪明,还可能往反方向跑偏。

AI 也会认知退化?还不可逆?

研究者们用开源模型(如 LLaMA 等),做了一个小但精巧的实验。他们不是简单地在训练数据里混入一些错别字,而是想要模拟人类那种「无休止地刷着低质量、碎片化内容」的互联网生活,并用「持续预训练」(Continual Pre-training)的方式来模拟模型的长期暴露。

为了实现这个目标,他们从真实的社交媒体平台上筛选了两种「垃圾数据」,一种是「参与度驱动型垃圾」,也就是那些短平快、高人气、点赞和转发爆炸的帖子,类似于我们刷手机时那些只为博眼球的「流量密码」。

另一种是语义质量驱动型垃圾,那些充斥着「震惊」、「细思极恐」、「xxx 不存在了」这种夸张、耸动字眼的内容。他们将这些垃圾语料以不同的比例混合,持续喂食给模型,模拟剂量对「脑腐烂」的影响。

随后,他们让好几个大语言模型持续地、长时间地被投喂这些垃圾,作为训练语料。再用一系列基准测试来衡量 LLM 的「认知功能」,包括推理能力、长文本理解能力、安全性和道德判断,等等。

结果是:全面完蛋。模型的推理能力和长文本理解力出现了断崖式下跌,在处理复杂的逻辑推理任务和长篇幅内容时,表现出明显的退化。

当垃圾数据的比例从 0%提升到 100%时,模型的推理准确率急剧下降。这反映出模型越来越「懒得思考」,也越来越「记不住事」。

到底是什么原因呢?研究者深入分析后,发现了一个主要病灶:Thought-Skipping。

原本,一个优秀的 LLM 在解决复杂问题时,会生成一步步的中间推理过程;但在被「垃圾」腐蚀后,模型开始跳过这些中间步骤,直接给出一个粗糙的、可能是错误的答案。

就像一个原本逻辑缜密的律师,突然变得浮躁、敷衍,不再提供论证过程,而是随口丢出一个结论。

甚至,评估发现,模型在安全和伦理方面的表现也下降了,更容易屈服于负面 prompt,逐渐「黑化」。

这说明,当模型持续接触碎片化、煽动性的低质量文本时,它不仅能力下降,连「三观」也开始向互联网的平均值,甚至是「阴暗面」靠拢。

如果说这项研究里什么最让人倒吸凉气,恐怕就是整个过程的不可逆性。

研究员试图在中途进行补救,重新投喂了大量高品质的数据,还做了指令微调。但即便如此,模型的认知能力也无法完全恢复到最初的基线水平。

也就是说,垃圾数据已经从根本上改变了模型处理信息、构建知识的底层结构,这就像一块海绵被污水泡透了,即便再用清水清洗,也无法回到最初的纯净状态。

横扫「脑腐」,用好 AI

可是话说回来,这毕竟是实验,一个普通用户的「破坏力」应该不至于吧。

的确,没有人会故意给自己的 chatbot 喂垃圾数据,还如此大量高频。不过,这个实验的数据来源,正是社交媒体平台。

识别、抓取和总结社交媒体内容,是大模型产品的常见工作之一。有些人用它来帮忙,省下自己刷社交媒体的时间;有些则是为了更密切地发现信息,以免热点都凉了才看到。

这个实验恰恰反映了,模型在勤勤恳恳抓取内容的时候,自身暴露在了退化的风险当中。而这一切,用户都不会看到。

于是在不知不觉中,AI 被投喂了垃圾,生成了垃圾,你使用了垃圾,垃圾再进入互联网,用于下一轮训练,周而复始,陷入恶性循环。

这项研究最深刻的价值,在于它颠覆了我们对 AI 互动的传统认知:以前我们总觉得 AI 像一个等待填满的容器,输入什么都能消化。但现在看来,它更像一个敏感的孩子,对输入食物的质量非常挑剔。作为日常用户,我们与 AI 的每一次对话,都是在进行一次「微调」。

既然知道「思考跳过」是主要的病灶,那么我们日常使用 AI 时,就必须主动要求它进行「反向操作」。

首先要做的,就是警惕那些「完美的答案」。不管是要求 AI 总结一个长文章,或者写一份复杂的项目方案时,如果它只给出的结果,却没有显示任何逻辑依据和推理过程(尤其是在支持思维链的情况下),就要多留个心眼。

相比于让它反复调整结果,不如问一问它推理过程,「请列出你得出这个结论的全部步骤和分析依据」。强迫 AI 恢复推理链条,不仅能帮你验证结果的可靠性,也是在防止它在这次任务中养成「偷懒」的坏习惯。

另外,对于那些基于社交媒体的工作任务,要格外小心。基本上要把 AI 当个实习生,它能力或许很强,但是不够踏实靠谱,必须得有二次审核——实际上,我们的核查和纠正是极其宝贵的「高质量输入」。不管是指出「这里的数据来源是错的」,还是「你跳过了这个步骤」,都是在对模型进行一次有价值的微调,用高质量的反馈去抵抗互联网中的垃圾信息。

这项研究比较让人摸不着头脑的地方在于:难道要让 AI 少处理混乱的文件吗?这岂不是本末倒置?

确实,如果为了避免 AI 可能出现的脑腐症状,而只让它处理结构化程度更高的数据,那 AI 的价值就少了一半。我们使用 AI,恰恰在于处理那些混乱的、充满重复句和情绪化表达的非结构化数据。

不过还是可以平衡一下,继续让 AI 执行信息整理工作,只不过在 AI 面对低质量输入前,就给 AI 更清晰的指令。

比如,「总结这份聊天记录」,容易让 AI 闷头只出结构。而更细化的「将这份聊天记录进行分类处理,识别对话人物,去除口癖和连接词,再提炼出客观信息」,就在强行促使 AI 先思考一轮,整理出内部行动指南,再展开工作。

用户不是不能用 AI 处理垃圾数据,毕竟这是它最能发挥的地方。只不过,为了降低 AI「脑腐」的风险,要用结构化的指令和高质量的反馈,将 AI 变成一个高效的「垃圾处理和净化器」,而不是让它被垃圾信息同化。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌