Normal view

There are new articles available, click to refresh the page.

Today — 10 December 2025Main stream

爱范儿
好莱坞首位 AI 女演员幕后：花 6 万美元「整」出黑眼圈，毙掉 2000 版，卡梅隆：令人毛骨悚然
10 December 2025 at 17:08

好莱坞首位 AI 女演员幕后：花 6 万美元「整」出黑眼圈，毙掉 2000 版，卡梅隆：令人毛骨悚然

爱范儿

By: 姚桐

10 December 2025 at 17:08

两个月前，女演员 Tilly Norwood 遭遇了一场「网暴」。

《权力的游戏》里的「三傻」苏菲·特纳没给她留一点面子，直接在 Instagram 下留言：「哇……不用你，可谢谢了。」

而主演过《傲骨贤妻》的知名演员贝蒂·吉尔平更狠，洋洋洒洒写了几千字的公开信，嘲讽 Tilly 「不是人」，让她「回家」。

为什么这么大仇？因为 Tilly 确实不是人，而是英国公司 Particle6 用 AI 生成的「女演员」。

不过更有意思的是，在《华尔街日报》最近一篇报道里，我们终于看到 Tilly 到底是怎么被「捏」出来的。

漫漫造星路，说不上来是哪几个 AI 的混血儿

Tilly 的诞生故事听起来像个段子：那是 Particle6 公司的创始人兼 CEO 范德维尔登（ Eline Van der Velden）在伦敦一家私人俱乐部的洗手间里想出来的。

范德维尔登首先求助于 ChatGPT，她输入了一段简短但具体的描述，描绘了她理想中的「候选人」：

一位魅力四射、享誉全球的女名人。她五官对称，肌肤光彩照人，拥有一双迷人的绿色眼睛。她有一头长发。

ChatGPT 还建议叫她 Tilly Warner，但被范德维尔登否决。经过团队的讨论，最终定名为 Tilly Norwood。团队还特意确认了现实世界中没有同名的公众人物。

后来，为了让她能动、能说、能演，Particle6 几乎把市面上最顶尖的 AI 工具用了个遍：Runway、Sora、11Labs、ChatGPT，甚至还包括 DeepSeek。

说实话，Tilly 才是 AI 界的「集大成者」。

不仅如此，Sora 2 的发布更是给她送来了「东风」。以前的 AI 视频漏洞百出，现在 Sora 2 已经能做到画面逻辑和一致性的大幅提升。这意味着，Tilly 不仅能活在精修图里，她马上就能进组拍长视频甚至电影。

为了「妈生感」，这位姐花 6 万美元「整容」

范德维尔登在接受采访时透露：为了捏出这张脸，她带着 15 个人的团队，像疯狂的选角导演一样，毙掉了 2000 个 AI 生成的「练习生」。

初代的 Tilly 也曾是个灾难。

ChatGPT 生成的第一张形象图是卡通风格，嘴唇圆润，眼睛像猕猴桃一样，种族特征模糊不清。或许是因为 AI 参考了世界上黑发人口远多于金发人口的数据，决定把她设定成棕发。

范德维尔登不喜欢第一个 Tilly：「它显然非常人工智能化，非常卡通化，这不是我想要的效果。」

几天后，范德维尔登将第一张图像输入到一个可以添加新特征的工具中。然而，Tilly 仍然显得不真实。范德维尔登考虑过把她做成半机器人，但那并不是最令人震惊的，她认为 AI 最让人震惊的是它能做到如此逼真。

现在的 Tilly，头发有点乱，眼底挂着淡淡的黑眼圈，脸上还有雀斑。为了实现这一切，范德维尔登自掏腰包花费了超过 6 万美元。

更有意思的是，在一次测试中，AI 自作主张给她的无名指戴上了一枚婚戒，使其带有了一种诡异的真实。

Tilly 背后的女人

要说 Tilly 为什么能「火」，还得看她背后的女人范德维尔登。

她出身优渥，生在加勒比海的库拉索岛，爸妈是高管和艺术家。她 14 岁就只身闯荡英国，进了著名的特林公园表演艺术学校，跟「灰姑娘」莉莉·詹姆斯、「星战女主」黛西·雷德利是校友。

在范德维尔登勇闯好莱坞时，一位洛杉矶的经纪人非常直白地跟她说：「你只要再瘦个 10 磅，整一下外表，你就是下一个布莱克·莱弗利（Blake Lively）。」

面对让人下头的身材焦虑和流水线审美，换别人可能就忍了，或者直接抑郁了。但这位姐选择了「发疯」反击。

她转头就为 BBC Three 的网剧《Miss Holland》塑造了一个滑稽可笑的选美皇后角色。在名场面里，这位「选美皇后」梳着土气的挤奶女工辫，不仅被廉价美黑喷雾呛得狼狈不堪，更是毫不避讳地展示浓密的腋毛。

后来，她在伦敦创办 Particle6，很快就开始为 BBC Three 和 YouTube 制作短片，内容包括一些搞笑桥段，比如让身穿比基尼的日光浴者穿上衣服，或者故意靠近陌生人观察会发生什么。

这种特立独行的劲头，最后演变成了现在的 Tilly ：既然你们想要完美的流水线产品，那我就直接用代码给你们造一个。

出道即巅峰，黑红也是红

自「签约好莱坞」的消息传出后， Tilly 便陷入了争议之中。

英国演员艾米丽·布朗特在参与一档播客期间得知 Tilly，惊呼：我们完蛋了。

这种恐惧真不是空穴来风。还记得今年《超人》电影里那只超狗 Krypto 吗？导演本来想让救助犬 Ozu 本色出演，结果成片出来，那就是一只由 CGI 和 AI 重塑的数字狗。

真狗都得给假狗让路，何况人呢？

2023 年的大罢工核心议题就是 AI 对演员肖像权的侵蚀，而 Tilly 的出现证明，资本甚至不需要剥削真人的肖像，因为他们可以直接凭空创造一个。

为什么好莱坞的资本家们对 Tilly 如此上头？原因很现实。

就像范德维尔登所说：「当预算在缩水，期望却在不断提高时，你为什么不使用一个能让你用 10% 的成本获得 10 倍产出的工具呢？」

Tilly 是完美的打工人，她不需要休息、吃饭，不会生病，更省去了与经纪人扯皮谈片酬的繁琐环节。

最重要的是，她没有私生活，不会涉及偷税漏税，也不会因为在网上发表不当言论而遭封杀。

相比于之前的虚拟网红仅限于时尚代言，Tilly 直接切入了影视表演的关键环节。她不仅有外表，还在构建性格。

前几天，范德维尔登问她是否有什么话想对卡梅隆说，这位导演曾公开表示对 AI 演员的想法，她给出了一个充满挑衅意味的回答：

噢，真可爱，詹姆斯。（Oh, how cute, James.）

说到这里，就不得不提最近好莱坞发生的另一件大事，Netflix 要花 720 亿美元收购华纳兄弟。

这两件事看似没关系，其实本质上都是同一场地震。

Netflix 买华纳大概率是要把好莱坞的百年基业变成更高效的「内容流水线」。而 Tilly 的出现，是为了把不可控的「人」变成可控的「数字资产」。

不过，你也别哀叹 AI 要「杀死」好莱坞，别忘了，好莱坞本身就是靠「杀死」前辈起家的。

20 世纪初，当电影刚刚兴起时，戏剧界谴责它廉价、粗俗、缺乏艺术性。但正是这种「廉价」和「粗俗」，让更多普通人能够接触到故事和表演，最终催生出了一种全新的艺术形式。

更有意思的是，那些今天被我们奉为经典的好莱坞黄金时代作品，当年也是工业流水线的产物。米高梅、派拉蒙、华纳兄弟这些片厂签约演员，量产类型片，用明星制度和宣发机器操控市场。直到 1948 年最高法院的「派拉蒙案」打破片厂垄断，好莱坞才逐渐进入了所谓的「作者电影」时代。

▲ 图片来自：维基百科

从这个角度看，AI 演员的出现，也并非史无前例的威胁，当年配音技术的成熟，不也让无数默片时代的演员失业了吗？但电影并没有因此变得更糟，反而诞生了《乱世佳人》《卡萨布兰卡》这样的杰作。

或许正是那些看似「毁灭」创作的技术，催生出了新的创作可能性。想象一下：一个导演可以让 Tilly 出演一个 80 岁老妇人，然后在同一部电影里让她回到 18 岁的模样，而不需要任何特效化妆或年龄替身。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

真乐队退出，但AI冒牌却在Spotify「拼好歌」冲榜

爱范儿

By: Selina

10 December 2025 at 15:31

Spotify 的年度统计上周发布了，又到了用户一边转发，一边吐槽的季节——「这玩意儿也不准啊」。

但有比用户更崩溃的：明明已经和 Spotify 割席了，居然又「出现」在平台上。

这是来自澳洲的摇滚乐队 King Gizzard，这支乐队早在 7 月就因不满 Spotify 而主动下架了自己的全部歌曲，只留下了一个合作 Remix。

但他们的歌迷最近却发现了一支名为「King Lizard Wizard」的假乐队。上传的歌曲标题、歌词都逐字照搬 King Gizzard 的原作，甚至连歌曲名称都一模一样（比如冒牌乐队的《Rattlesnake》直接盗用原曲名和歌词）。用户在 Spotify 搜索「King Gizzard」时，会发现乐队已弃用的官方账号，下方却赫然推荐着这个山寨乐队——甚至在搜索结果中，假乐队的盗版《Rattlesnake》一度成为榜首。

山寨的现象从 Spotify 传到 YouTube，如此张冠李戴的现象令许多粉丝愤怒不已，这还是粉丝自己发现的，在 Reddit 上贴了出来后又觉得不对劲——这反而为山寨号引流了。

这桩大无语事件让 Spotify 平台在 AI 内容监管上的漏洞暴露无遗。假冒的「King Lizard Wizard」账号上线数周、积累了不菲的流量，后来才被移除——就连专辑封面也疑似 AI 生成。

更讽刺的是，其中一些假歌曲在元数据上还把 King Gizzard 主唱 Stu Mackenzie 列为词曲作者，简直明目张胆地蹭原创乐队的名气。明明是 Spotify 自己在 9 月时，宣称要出台新政策打击「垃圾内容、仿冒和欺骗」等行为，结果让这种 AI 山寨内容堂而皇之地混入了官方推荐位，包括 Release Radar 和 Discover Weekly 等歌单。

这已经不是疏忽，简直是对着人家乐队贴脸开大。

平台上的「音乐垃圾场」

King Gizzard 的遭遇并非孤例。近一两年来，Spotify 平台上充盈着各式各样以 AI 技术批量生成的音乐内容，从模拟知名艺人的盗版歌曲，到平平无奇的生成音乐，应有尽有——现在，轮到翻唱了。

流媒体巨头们对 AI 生成内容实在是太热衷了。腾讯音乐曾经推出过「启明星 AI 作曲」项目，号称已有超过 2600 万首 AI 音乐作品经由其算法创作并发布，累计播放量破十亿次。酷狗的「星曜计划」也有专门的 AI 子榜单，而且有原创有翻唱。

最典型的当属红遍抖音的《第 57 次取消发送》，最早发布于今年五月，原本是女声，不久前也就是 11 月时被翻成男声版又火了一遍——这次，是 AI 的。

男声版的「音色」还是有明显的 AI 感，仿佛一边唱一边踩电门，但也不妨碍这个歌引发大量共情和讨论。有人说勾起了旧日回忆，有很强的熟悉感，听着仿佛回到了华语音乐的黄金年代。

可不熟悉么，拼好歌拼出来的——

当资本和技术狂飙突进地涌入音乐生产，传统的创作生态势必受到冲击。在这一背景下，华语音乐人面临的可能是比西方同行更复杂的局面。

同时，翻唱其实是音乐平台上，很重要的构成版块：例如 cover，remix，既是粉丝和音乐爱好者二次创作的方式，也是新人和小歌手积累人气的方式。

当 AI 用虚构的名字和头像伪装成人，不断灌出机器人流水线作品，是对原创歌手和翻唱内容的双重打击。很多此类 AI 虚拟歌手顶着花哨的包装、写着空洞的简介，却堂而皇之拥有数十万月听众和官方歌单推送。

「拥抱」AI

Spotify 也做过一些维护的动作，官方声称在过去一年内已移除上千万首涉嫌滥用算法的垃圾曲目，包含批量上传的雷同歌曲、标题堆砌关键词骗流量、以及「拆分长曲成短段以刷播次数」的作弊行为等。此外，Spotify 宣布提供新工具，允许创作者主动标注他们的音乐中是否使用了 AI 技术。

然而这些措施还是表面功夫偏多。大批 AI 音乐的祸根在于平台的运营逻辑：Spotify 强调歌单和无限播放模式，追求的是听众的停留时长，这种生态本就容易滋养垃圾内容和 AI 灌水。

再加上，Spotify CEO 丹尼尔·埃克本人也对 AI 技术非常热情，早在 2023 年便表示 AI 音乐「在文化上是好事，对 Spotify 也有利，因为创作者越多，平台提升用户参与和营收的机会就越大」。

典型的有「The Velvet Sundown」乐队，曾在 Spotify 上攒下逾百万听众，创作者后来才承认这不过是一场社交实验，音乐和照片都是伪造的。还有「Echo Harper」这样的虚拟摇滚歌手，被收录进 Spotify 精选的「Just Rock!」播放列表中。

▲The Velvet Sundown

有人愿意做，平台愿意买单，在这样的指导思想下，多快好省的 AI 内容自然正中平台下怀。

当不满累积到一定程度，抗争就此迸发。2023 年以来，越来越多的独立音乐人选择用脚投票，告别 Spotify。甚至一些乐队还会号召同行和听众一起「退出垃圾平台」。

创作歌手 Caroline Rose 选择只在黑胶和 Bandcamp 上发行新专辑，她直言「把我们的心血白白放上网免费听太蠢了」。Bandcamp 是一个链接歌迷和音乐人的「直销」平台，实行「付多少算多少」（Pay-what-you-want）的专辑下载方式，一般情况下艺人可获收益的 82%，且定期举办 Bandcamp Fridays 让艺人获得 100%销售额。

越来越多音乐人开始尝试跳出「一切都丢到流媒体」的套路，回归付费拥有音乐的传统：卖黑胶和磁带、举办付费直播演出、进驻 Bandcamp 等等。

相比之下，国内的情况更为复杂一些。虽然 AI 生成的音乐的确在逐渐铺开，但还没有到鹤唳风声的程度，也就没有激起太多对平台的抵制。《第 57 次取消发送》不仅在抖音等社交平台上大受欢迎，还登上了综艺节目，由真人明星演绎。

从 King Gizzard 乐队怒删曲目、却被 AI 克隆鸠占鹊巢的荒诞，到大批独立音乐人愤而出走 Spotify、寻求他途，这一系列事件背后揭示的是同一个本质：音乐被当作纯粹的数据产物和工具来榨取价值。

音乐创作的能力越来越不稀缺了，「拼好歌」听上去离谱，但「拼」出来的歌却正在收到欢迎。未来越发稀缺的，可能是人们对音乐的用心聆听，对创作者真诚的支持。当越来越多的人意识到这一点，也许音乐产业才有机会走上一条更尊重创作者、更有温度的道路。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

Yesterday — 9 December 2025Main stream

爱范儿
逼得奥特曼紧急掏出 GPT-5.2，Gemini 3 凭什么逆风翻盘 | Google 首席 AI 架构师首次揭秘
9 December 2025 at 09:44

逼得奥特曼紧急掏出 GPT-5.2，Gemini 3 凭什么逆风翻盘 | Google 首席 AI 架构师首次揭秘

爱范儿

By: 姚桐

9 December 2025 at 09:44

「这确实是一个很棒的逆袭故事。」

11 月 19 日凌晨，Gemini 3 的发布彻底打破了平淡。上线当日，全球访问量便突破 5400 万次，创平台历史新高。

Google 这一次王者归来，震感甚至直接传导到了竞争对手的神经中枢。据 The Information 报道，面对 Google 步步紧逼的攻势，OpenAI CEO Sam Altman 本周一紧急在内部备忘录中宣布公司进入「红色警戒（code red）」状态，准备调动一切战略资源对 ChatGPT 的能力进行大幅升级。

据 The Verge 援引知情人士消息称，OpenAI 计划最早于下周初发布 GPT-5.2 模型，这一时间表较原定的 12 月下旬计划大幅提前。

这不仅侧面印证了 Gemini 3 带来的压迫感，也让接下来的对话显得更加意味深长。

近日，DeepMind CTO、Google 新任首席 AI 架构师 Koray Kavukcuoglu 在 Logan Kilpatrick 的访谈节目中亮相，他说「我们曾是追赶者，但创新是唯一的出路。」

亮点速览：

1. Koray Kavukcuoglu 强调，Gemini 的优化重点集中在以下几个关键领域：

指令遵循：确保模型能准确理解并执行用户的具体需求，而非随意生成内容。
国际化：提升多语言支持能力，确保全球用户都能获得高质量体验。
代理与工具能力：模型不仅能自然使用我们已有的工具和函数，还能自主编写工具。

2. Gemini 3 是一款「全 Google 团队协作的模型」。来自欧洲、亚洲等世界各地的团队都做出了贡献，不仅有 DeepMind 团队，还有 Google 各个部门的团队。

3. 随着技术进步，文本模型和图像模型的架构、理念正在不断融合。过去，两者的架构差异很大，但现在越来越趋同。这是技术自然演进的结果：大家都在探索更高效的方案，理念逐渐统一，最终形成了共同的发展路径。

视频链接：

以下为完整内容的转录和翻译。(顺序有改动)

基准测试只是第一步，用户反馈是 Step Two

Logan Kilpatrick: 大家好，欢迎回到 Release Notes。我是 Logan Kilpatrick，我在 DeepMind 团队。今天很荣幸邀请到 DeepMind 的 CTO、Google 的新任首席 AI 架构师——Koray。Koray，感谢你的到来，期待与你深入交流。

Koray Kavukcuoglu: 我也很期待。谢谢邀请！

Logan Kilpatrick: 当然，Gemini 3 已经发布。我们此前就预感这款模型会表现出色，基准测试结果也非常亮眼，但真正将它交到用户手中后，实际反响……

Koray Kavukcuoglu: 这才是最终的考验。基准测试只是第一步，之后我们也做了大量测试，包括让可信测试者参与预发布体验等。所以我们能感受到这是一款优秀的模型，能力出众，虽然不完美，但用户的反馈确实让我很满意。

大家似乎很喜欢这款模型，而且我们觉得有意思的部分，他们也同样感兴趣。所以目前来看挺好的，一切都很顺利。

Logan Kilpatrick: 没错，我们昨天还在聊，核心话题就是感慨 AI 的发展速度从未放缓。回想上次，也就是去年 I/O 大会上我们发布 Gemini 2.5 时，听着演示、Serge 谈论 AI 的未来，当时就觉得 2.5 已经是最先进的模型，在多个维度上都突破了前沿。而现在，Gemini 3.0 再次实现了突破。我很好奇，关于「这种进步能否持续」的讨论一直存在，你现在的看法是什么？

Koray Kavukcuoglu: 我对目前的进展和研究都充满信心。身处研究一线，你会发现各个领域都洋溢着创新的热情，从数据、预训练、微调，到每一个环节，都有大量新想法、新突破涌现。

归根结底，这一切都依赖于创新和创意。当我们的技术能切实影响现实世界、被人们广泛使用时，我们能获得更多反馈信号，接触面也会扩大，进而催生更多灵感。

而且我认为，未来的问题会更复杂、更多元，这会带来新的挑战，但这些挑战是有益的，也是推动我们迈向通用智能的动力。

有时候，如果你只看一两个基准测试，可能会觉得进步放缓了，但这很正常。基准测试是在某个技术难题凸显时设立的，随着技术发展，它不再是前沿的代名词，这时就需要制定新的基准。

这在机器学习领域很常见：基准测试与模型开发是相辅相成的，基准测试指导模型迭代，而只有接近当前前沿，才能明确下一个目标，进而制定新的基准。

Logan Kilpatrick: 我完全认同。比如早期的 HLE 基准测试，所有模型的正确率都只有 1% 到 2%，而现在 DeepMind 的最新模型已经能达到 40% 左右，这太惊人了。ArcGIS 基准测试最初也几乎没有模型能应对，现在正确率也超过了 40%。

不过有些静态基准测试确实经受住了时间的考验，比如 GPQA Diamond，虽然我们现在只能一点点提升 1% 左右的正确率，但它依然被广泛使用，可能已经接近饱和了。

Koray Kavukcuoglu: 这些基准测试中确实有很多难题，我们目前还无法完全攻克，但它们依然具有测试价值。以 GPQA 为例，我们没必要追求 90% 以上的极致正确率，现在已经接近目标了，所以尚未解决的问题数量自然在减少。

因此，寻找新前沿、制定新基准至关重要。基准测试是衡量进步的一种方式，但并非绝对对齐。理想情况下两者完全一致，但现实中永远无法完全契合。

对我来说，衡量进步最重要的标准是：我们的模型是否在现实世界中被广泛使用？科学家、学生、律师、工程师是否在用它解决问题？人们是否用它进行写作、收发邮件等？无论简单还是复杂，能在更多领域、更多场景中持续为用户创造更大价值，这才是真正的进步。而基准测试只是帮助我们量化这种进步的工具。

Logan Kilpatrick: 我有一个不算争议性的问题：Gemini 3 在众多基准测试中表现出色，同步登陆 Google 所有产品端和合作伙伴生态，用户反馈也非常积极。如果展望下一次 Google 重大模型发布，你觉得还有哪些方面是我们需要改进的？比如「我们希望能在 X、Y、Z 方面做得更好」，还是说我们应该先享受 Gemini 3 带来的成果？

Koray Kavukcuoglu: 我觉得两者可以兼顾。我们应该享受当下，毕竟发布日值得庆祝，团队也应该为自己的成就感到自豪。但与此同时，我们也清楚地看到，模型在各个领域都存在不足：写作能力并不完美，编码能力也有提升空间。

尤其是在智能体行动和编码方面，还有很大的进步空间，这也是最令人兴奋的增长领域。我们需要找出可以优化的方向，然后持续改进。我认为我们已经取得了长足的进步：对于 90% 到 95% 的编码相关用户（无论是软件工程师，还是想构建产品的创意人士）来说，Gemini 3 可能是目前最好用的工具，但确实还有一些场景需要进一步优化。

从「有创意」变得「能落地」

Logan Kilpatrick: 你如何看待「逐步优化」？比如从Gemini 2.5 到 3.0，或者其他版本迭代中，我们的优化重点是什么？如今基准测试数量繁多，我们如何选择优化方向，无论是针对整个 Gemini 系列，还是专门针对 Pro 版本？

Koray Kavukcuoglu: 我认为有几个关键领域至关重要。首先是指令遵循能力。模型需要准确理解用户需求并执行，而不是随意输出答案，这是我们一直重视的方向。其次是国际化。 Google 的业务遍布全球，我们希望让全世界的用户都能用上这款模型。

Logan Kilpatrick: 确实，我今天早上还和 Tulsi 聊过，她提到这款模型在一些我们过去表现不佳的语言上，表现得非常出色。

Koray Kavukcuoglu: 这真的很棒。所以我们必须持续聚焦这些领域，它们可能不是知识前沿，但对用户交互至关重要。正如我之前所说，我们需要从用户那里获取反馈信号。

再说到更技术化的领域，函数调用、工具调用、智能体行动和代码能力也极为关键。

函数调用和工具调用能极大提升模型的智能乘数效应：模型不仅能自然使用我们已有的工具和函数，还能自主编写工具。本质上，模型本身也是一种工具。

代码能力之所以重要，不仅因为我们团队中有很多工程师，更因为代码是数字世界的基础。无论是软件开发，还是将任何想法变为现实，代码都不可或缺。它能让模型与人们生活中的诸多场景深度融合。

我举个例子，比如「即时编码」（vibe coding），我很看好这个功能。很多人富有创造力，但缺乏将想法落地的能力，而即时编码能让他们从「有创意」变得「能落地」：只需写下想法，就能看到对应的应用程序呈现在眼前，而且大多数时候都能正常运行。

这种从创意到产品的闭环非常棒，它让更多人有机会成为创造者。

Logan Kilpatrick: 太赞了！这简直是 AI Studio 的完美宣传点，我们会把这段剪辑出来发布到网上。你刚才提到的一个重要话题是，在 Gemini 3 发布之际，我们同步推出了 Google Anti-gravity 平台。从模型角度来看，你认为这种产品架构对提升模型质量的重要性有多大？显然，这和工具调用、编码能力息息相关。

Koray Kavukcuoglu: 对我来说，这至关重要。平台本身确实令人兴奋，但从模型角度看，这是双向作用的。首先，模型能通过与终端用户（指软件工程师）直接集成，获取他们的反馈，进而明确模型需要改进的方向，这对我们来说至关重要。

就像 Gemini、AI Studio 一样，Anti-gravity 平台也是如此。这些产品能让我们与用户紧密相连，获取真实的反馈信号，这是巨大的财富。Anti-gravity 平台作为我们的关键发布合作伙伴，虽然加入时间不长，但在过去两三周的发布筹备中，它的反馈起到了决定性作用。

搜索 AI 模式（AI Mode）也是如此，我们从那里获得了大量反馈。基准测试能帮助我们推动科学、数学等领域的智能提升，但了解现实世界的使用场景同样重要，模型必须能解决实际问题。

Gemini 3，一款全 Google 团队协作的模型

Logan Kilpatrick: 在你担任新任首席 AI 架构师后，你的职责不仅是确保我们拥有优秀的模型，还要推动产品团队将模型落地，在 Google 的所有产品中打造出色的用户体验。 Gemini 3 在发布当天就同步登陆 Google 所有产品端，这对用户来说是巨大的惊喜，也希望未来能覆盖更多产品。从DeepMind 的角度来看，这种跨团队协作是否增加了额外的复杂性？毕竟一年半前，事情可能还简单得多。

Koray Kavukcuoglu: 但我们的目标是构建智能，对吧？很多人问我，身兼 CTO 和首席 AI 架构师两个职位，会不会有冲突，但对我来说，这两个角色本质上是一致的。

要构建智能，就必须通过产品与用户的联动来实现。我的核心目标是确保 Google 的所有产品都能用上最先进的技术。我们不是产品团队，而是技术开发者，我们负责研发模型和技术，当然，我们也会对产品有自己的看法，但最重要的是，以最佳方式提供技术支持，与产品团队合作，在 AI 时代打造最优秀的产品。

这是一个全新的时代，新技术正在重新定义用户期望、产品行为和信息传递方式。因此，我希望能在 Google 内部推动这种技术赋能，与所有产品团队合作。这不仅对产品和用户有益，对我们自身也至关重要。

只有贴近用户，才能感受到他们的需求，获取真实的反馈信号，这是推动模型迭代的核心动力。这就是我们构建通用人工智能（AGI）的方式：通过产品与用户共同成长。

Logan Kilpatrick: 我完全认同。这简直可以作为你的推特文案了！我也觉得，我们本质上是在与客户、合作伙伴共同构建通用人工智能（AGI）——这不是某个实验室的孤立研究，而是与全世界共同推进的联合事业。

Koray Kavukcuoglu: 我认为这也是一个「可信测试体系」——我们越来越强调工程思维。这种思维很重要，因为精心设计的系统才会更稳健、更安全。

我们在构建现实世界的产品时，借鉴了很多「可信测试」的理念，这体现在我们对安全、隐私的重视上：我们从一开始就将安全隐私作为核心原则，而不是事后补充。

无论是预训练、微调，还是数据筛选，团队中的每个人都需要考虑安全问题。我们当然有专门的安全团队和隐私团队，他们会提供相关技术支持，但我们更希望 Gemini 团队的每个人都深度参与其中，将安全隐私融入开发的每一个环节，这些团队本身也是微调团队的一部分。

因此，在模型迭代、发布候选版本时，我们不仅会参考 GPQA、HLE 等基准测试结果，还会严格审查安全隐私指标。这种工程思维至关重要。

Logan Kilpatrick: 我完全同意。这也很符合 Google 的企业文化，毕竟，发布 Gemini 模型是一项需要全球团队协作的庞大工程。

Koray Kavukcuoglu: 说到 Gemini 3，我觉得最值得一提的是，它是一款「全 Google 团队协作的模型」。

Logan Kilpatrick: 我们可以看看相关数据，这可能是史上参与人数最多的项目之一，就像 NASA 的阿波罗计划一样，这是一项全球性的庞大工程。

Koray Kavukcuoglu: 没错，是全球性的。

Logan Kilpatrick: Google 所有团队都参与其中，这太不可思议了。

Koray Kavukcuoglu: 来自欧洲、亚洲等世界各地的团队都做出了贡献，不仅有 DeepMind 团队，还有 Google 各个部门的团队。这是一项巨大的集体努力：我们与 AI 模式（AI Mode）、Gemini 应用程序同步发布，这不容易。

这些产品团队在模型开发阶段就与我们深度协作，这也是为什么我们能在发布当天实现全平台同步上线。所谓「全 Google 参与」，不仅指直接参与模型构建的团队，还包括所有各司其职、默默付出的团队。

Nano Banana，自发的名字，自然地融合

Logan Kilpatrick: 另一个我关心的话题是生成式媒体模型——虽然我们一直有关注，但过去并未作为重点。不过，随着 Veo 3、Veo 3.1、Nano Banana 模型的推出，我们在产品落地方面取得了很大成功。

我很好奇，在追求通用人工智能（AGI）的过程中，你如何看待生成式视频模型的作用？有时候我会觉得视频模型似乎与 AGI 无关，但仔细想想，它涉及对世界、物理规律的理解，所以两者应该是相互关联的。

Koray Kavukcuoglu: 10 到 15 年前，生成式模型主要集中在图像领域，因为当时我们能更好地观察图像生成的过程，而且理解世界、物理规律也是图像生成模型的核心目标。

Google 在生成式模型方面的探索可以追溯到 10 年前，甚至更早。我读博时，大家都在做生成式图像模型，比如像素卷积神经网络（Pixel CNNs）。后来我们意识到，文本领域的进步速度会更快。

但现在，图像模型的重要性再次凸显。DeepMind 长期以来在图像、视频、音频模型方面积累了深厚的技术实力，将这些技术与文本模型融合是顺理成章的。

我们一直强调多模态，包括输入多模态和输出多模态。随着技术进步，文本模型和图像模型的架构、理念正在不断融合。过去，两者的架构差异很大，但现在越来越趋同。这不是我们刻意推动的，而是技术自然演进的结果：大家都在探索更高效的方案，理念逐渐统一，最终形成了共同的发展路径。

这种融合的核心价值在于，文本模型拥有丰富的世界知识，而图像模型从另一个视角理解世界，将两者结合，能让模型更好地理解用户的意图，创造出更令人惊喜的成果。

Logan Kilpatrick: 我还有一个关于 Nano Banana 的问题：你觉得我们应该给所有模型起一些有趣的名字吗？这会不会有帮助？

Koray Kavukcuoglu: 不一定。我觉得名字应该自然产生，而不是刻意为之。比如 Gemini 3，我们并没有刻意设计名字。

Logan Kilpatrick: 如果 Gemini 3 不叫这个名字，你会起什么？会不会是很搞笑的名字？

Koray Kavukcuoglu: 我不知道，我不擅长起名字。其实我们的 Gemini 模型有内部代号，有些代号甚至是用 Gemini 模型自己生成的，但 Nano Banana 不是，它没有经过模型生成。

这个名字背后有个故事，我记得已经公开了。我觉得只要名字是自然、自发产生的，就很好。构建模型的团队能对名字产生情感共鸣，这很有意义。

「Nano Banana」这个名字之所以被沿用，是因为我们在测试时用了这个代号，大家都很喜欢，它是自发传播开来的。我觉得这种自然形成的名字很难通过流程刻意创造，有就用，没有的话，用标准名称也很好。

Logan Kilpatrick: 那我们来聊聊 Nano Banana Pro，这是基于 Gemini 3 Pro 打造的最先进的图像生成模型。我听说团队在完成 Nano Banana 后，发现将其升级为 Pro 版本后，在文本渲染、世界知识理解等更精细的场景中，性能有了很大提升。对于这方面的发展，你有什么看法？

Koray Kavukcuoglu: 这正是不同技术融合的体现。我们一直说，每个版本的 Gemini 都是一个模型家族，比如 Pro、Flash 等，不同尺寸的模型在速度、准确率、成本等方面各有取舍。图像生成模型也是如此，自然会形成不同定位的产品。

团队基于 Gemini 3.0 Pro 的架构，结合第一代模型的经验，通过扩大模型规模、优化调优方式，打造出了更强大的图像生成模型，这很合理。它的核心优势在于处理复杂场景：比如输入大量复杂文档，模型不仅能回答相关问题，还能生成对应的信息图表，而且效果很好。这就是输入多模态与输出多模态自然融合的体现，非常棒。

Logan Kilpatrick: 是啊，这简直像魔法一样！希望大家在这段视频发布时已经看到了相关示例，内部分享的一些案例真的太惊人了。

Koray Kavukcuoglu: 完全同意！当你看到模型能将海量文本、复杂概念，用一张清晰直观的图片呈现出来时，真的会惊叹「太厉害了」。这能直观地体现模型的能力。

Logan Kilpatrick: 而且其中还有很多细节值得品味。我还有一个相关问题：去年 12 月，Tulsi 曾承诺我们会推出统一的 Gemini 模型检查点（checkpoint）。你刚才描述的内容，是不是意味着我们现在已经非常接近这个目标了？

Koray Kavukcuoglu: 从历史上看，生成式模型的架构一直是统一的……

Logan Kilpatrick: 所以我猜这是我们的目标：让这些功能真正融入一个模型中，但现实中肯定有一些阻碍。你能从宏观层面解释一下吗？

Koray Kavukcuoglu: 正如我之前所说，技术和架构正在不断趋同，这种统一是必然趋势，但这需要验证。我们不能凭主观臆断，必须遵循科学方法：提出假设、进行测试、观察结果，有时成功，有时失败，但这就是技术进步的过程。

我们正在逐步接近目标，我相信在不久的将来，我们会看到更统一的模型，但这需要大量的创新。

这其实很难——模型的输出空间至关重要，因为它直接关系到学习信号的质量。目前，我们的学习信号主要来自代码和文本，这也是模型在这些领域表现出色的原因。

而图像生成则不同：它对质量要求极高，不仅需要像素级的精准度，还需要图像概念的连贯性，也就是每个像素都要符合整体画面的逻辑。要同时做好文本和图像生成，难度很大。但我认为这绝对是可行的，只是需要找到合适的模型创新方向。

Logan Kilpatrick: 太令人期待了！希望这也能让我们的工作更高效，比如拥有一个统一的模型检查点。

Koray Kavukcuoglu: 这很难说，但可能性很大。

一切都建立在学习之上

Logan Kilpatrick: 我再追问一个关于编码和工具使用的问题。回顾 Gemini 的发展历程：1.0 版本聚焦多模态，2.0 版本开始搭建基础设施。虽然我们的进步速度很快，但为什么在多模态领域，我们没能从一开始就在智能体工具使用方面达到最先进水平？毕竟 Gemini 1.0 在多模态领域一直保持领先。

Koray Kavukcuoglu: 我不认为这是刻意为之。说实话，我觉得这与模型开发环境是否贴近现实世界密切相关，越贴近现实，就越能理解用户的真实需求。

Gemini 的发展历程，也是我们从「纯研究」转向「工程思维」、与产品深度绑定的过程。 Google 在 AI 研究方面有着深厚的积淀，拥有众多优秀的研究人员，但 Gemini 的特别之处在于，它让我们从「写论文、做研究」转向了「通过产品和用户共同开发」。

我为我们的团队感到骄傲——包括我在内，大多数人四五年前还在专注于发表论文、开展 AI 研究，而现在，我们站在技术前沿，通过产品和用户共同推进技术迭代。

这种转变非常惊人：我们每 6 个月就推出一个新模型，每 1 到 1.5 个月就进行一次更新。我认为，我们正是在这个过程中逐步完善智能体工具使用能力的。

Logan Kilpatrick: 还有一个有趣的话题：现在 DeepMind 拥有众多世界顶尖的 AI 产品，比如即时编码（vibe coding）、AI Studio、Gemini、Anti-gravity 平台等， Google 旗下也有很多前沿模型，比如 Gemini 3、Nano Banana、Veo 等。10 年甚至 15 年前，世界完全不是这样的。

我很好奇，回顾你的个人历程，你昨天提到，你是 DeepMind 的第一位深度学习研究员，这一点我和其他人都感到很意外。从 13 年前（2012年）人们对深度学习并不看好，到现在这项技术支撑着众多产品、成为核心驱动力，你有什么感想？这一切是在意料之中，还是让你感到意外？

Koray Kavukcuoglu: 我觉得这是最理想的结果。就像所有读博的人一样，你会坚信自己所做的事情很重要，会产生重大影响——我当时就是这种心态。

所以当 Demi 和 Shane 联系我，告诉我 DeepMind 是一个专注于构建智能、以深度学习为核心的团队时，我非常兴奋。我和我的朋友 Carl Greger（我们都来自纽约大学 Jan 的实验室）同时加入了 DeepMind。在当时，专注于深度学习和 AI 的初创公司非常罕见，所以 DeepMind 的理念非常有远见，能在那里工作真的很令人激动。后来，我组建了深度学习团队，看着它不断发展壮大。

我对深度学习的态度一直是：以第一性原理为基础，坚持「基于学习」的思维方式，这也是 DeepMind 的核心理念：一切都建立在学习之上。

回顾这段旅程，从早期的 DQN、AlphaGo、AlphaZero、AlphaFold，到现在的 Gemini，真的很令人感慨。我们一直怀着积极的期望推进工作，但同时也觉得自己很幸运。

我们有幸生活在这个时代,很多人曾为 AI 或自己热爱的领域奋斗一生，希望能见证技术爆发，但这一切现在真的发生了。AI 的崛起不仅得益于机器学习和深度学习的进步，还离不开硬件、互联网和数据的发展，这些因素共同促成了今天的局面。所以，我既为自己选择了 AI 领域而自豪，也为能身处这个时代而感到幸运。这真的太令人兴奋了。

Logan Kilpatrick: 我最近看了《思维游戏》（The Thinking Game）的视频，了解了 AlphaFold 的相关故事。我没有亲历那个时代，只能通过资料和他人的讲述来了解。你经历了 DeepMind 的多个重要项目，你觉得现在的工作与过去相比有什么不同？比如你之前提到的，「我们已经掌握了将模型推向世界的方法」，这种感觉与之前的项目有什么相似或不同之处？

Koray Kavukcuoglu: 如何组织团队、培养文化，才能将复杂的科学技术问题转化为成功的成果？我认为我们从多个项目中积累了很多经验，从 DQN、AlphaGo、AlphaZero 到 AlphaFold，这些项目都产生了深远影响。我们学会了如何围绕特定目标和使命，组织大规模团队开展工作。

我记得 DeepMind 早期，我们曾有 25 人共同参与一个项目，共同发表一篇论文——当时很多人都质疑「25 人怎么可能合作完成一篇论文」，但我们确实做到了。在科研领域，这种大规模协作并不常见，但我们通过有效的组织实现了。这种经验和思维方式，随着时间的推移不断演进，变得越来越重要。

而在过去两三年里，我们又融入了工程思维——我们有了模型的主线开发方向，学会了在主线基础上进行探索。

我觉得「深度思维模型」（Deep Think）就是一个很好的例子：我们用它参加国际数学奥林匹克（IMO）、国际大学生程序设计竞赛（ICPC）等顶级赛事。这些竞赛的问题难度极大，很多人会想为赛事定制专门的模型，但我们选择将其作为优化现有模型的机会。

我们坚信技术的通用性，通过赛事探索新想法，并将这些想法融入现有模型，最终打造出能参加顶级赛事的模型，再将其开放给所有人使用。

Logan Kilpatrick: 这让我想到了一个对应：以前是 25 人共同发表一篇论文，现在 Gemini 3 的贡献者名单可能已经有 2500 人了——很多人可能会觉得「 2500 人怎么可能都参与其中」，但事实确实如此。这种大规模协作解决问题的方式，真的很令人惊叹。

Koray Kavukcuoglu: 这一点非常重要，也是 Google 的优势所在。 Google 拥有全栈技术能力，我们能从中受益：从数据中心、芯片、网络，到大规模模型的部署，每个环节都有专家坐镇。

回到工程思维的话题，这些环节是密不可分的。我们设计模型时，会考虑它将运行的硬件；而设计下一代硬件时，也会预判模型的发展方向。这种协同非常美妙，但要协调这么多环节，确实需要数千人的共同努力。我们应该认可这种协作的价值，这真的很了不起。

Logan Kilpatrick: 这绝非易事。再回到 DeepMind 的传统：我们一直采用多元科学方法，尝试解决各种有趣的问题。而现在，我们已经明确这项技术在多个领域都有效，只需持续扩大规模。当然，这也需要创新支撑。

你认为在当今时代，DeepMind 如何平衡「纯科学探索」和「扩大 Gemini 规模」？比如「Gemini 扩散模型」（Gemini Diffusion），就是这种决策的一个体现。

Koray Kavukcuoglu: 这是最关键的问题：找到两者的平衡至关重要。

现在很多人问我，Gemini 最大的风险是什么？我认真思考过，答案是「缺乏创新」。我绝不相信我们已经找到了「万能公式」，只需按部就班执行即可。

我们的目标是构建通用智能，这需要与用户、产品深度绑定，但这个目标本身依然极具挑战性，我们并没有现成的解决方案——创新才是实现目标的核心动力。

创新可以有不同的规模和方向：在 Gemini 项目内部，我们会探索新架构、新想法、新方法；而作为 Google DeepMind 整体，我们还会开展更多跨领域的探索，因为有些想法可能在 Gemini 项目内部过于受限，无法充分发展。

所以， Google DeepMind 和 Google 研究院需要共同探索各类想法，然后将这些想法融入 Gemini，因为 Gemini 不是一种架构，而是一个目标：构建通用智能，让 Google 的所有产品都能依托这个 AI 引擎运行。

无论最终采用哪种架构，我们都会持续演进，而创新将永远是核心驱动力。找到平衡，或以不同方式推进探索，这至关重要。

Logan Kilpatrick: 我有一个相关的问题：在 I/O 大会上，我曾和 Sergey 聊过，当你把这么多人聚集在一起，共同发布模型、推动创新时，你能感受到一种「人性的温度」——这一点我深有体会。我当时坐在你旁边，也感受到了你的热情。

这一点对我个人来说很有意义，因为它也反映了 DeepMind 的整体文化：既有深厚的科学底蕴，又有友善、包容的团队氛围。很多人可能没有意识到这种文化的重要性，以及它如何影响工作。作为团队的领导者，你如何看待这种文化的体现？

Koray Kavukcuoglu: 首先，谢谢你的夸奖，这让我有点不好意思。但我确实相信团队的力量，也坚信要信任他人、给予他人机会。团队协作至关重要，这一点我也是在 DeepMind 工作期间学到的。

我们从一个小团队起步，在成长过程中始终保持信任。我认为，营造一个「专注于解决有影响力的复杂技术和科学问题」的环境，非常重要，这也是我们现在正在做的。

Gemini 的核心是构建通用智能，这是一个极具挑战性的技术和科学问题，我们需要以谦逊的态度去面对，不断质疑自己、优化自己。希望团队也能感受到这一点，我真的为我们的团队感到骄傲，他们齐心协力、相互支持。

就像我刚才在茶水间和团队聊的那样：「这很辛苦，我们都很累，但这就是构建前沿技术的常态。我们没有完美的流程，但每个人都在全力以赴、相互支持。」而让这一切变得有趣、有意义，让我们有勇气面对挑战的，很大程度上是「拥有一支优秀的团队」，大家共同为技术的潜力而奋斗。

我可以肯定地说，20 年后，我们现在使用的大语言模型（LLM）架构肯定会被淘汰。所以，持续探索新方向是正确的选择。 Google DeepMind、 Google 研究院，以及整个学术研究社区，都需要共同推进多个领域的探索。

我认为，不必纠结于「什么是对的、什么是错的」，真正重要的是技术在现实世界中的能力和表现。

Logan Kilpatrick: 最后一个问题：我个人在 Google 的第一年多时间里，感受到了一种「 Google 逆袭」的氛围。尽管 Google 拥有强大的基础设施优势，但在 AI 领域，我们似乎一直在追赶。比如在 AI Studio 的早期阶段，我们没有用户（后来增长到3万人），没有收入，Gemini 模型也处于早期阶段。

而现在，随着 Gemini 3 的发布，我最近收到了很多来自生态系统各方的反馈，人们似乎终于意识到「 Google 的AI时代已经到来」。你是否也有过这种「逆袭」的感受？你相信我们能走到今天吗？对于团队来说，这种角色的转变会带来什么影响？

Koray Kavukcuoglu: 在大语言模型（LLM）的潜力逐渐显现时，我坦诚地说，我既认为 DeepMind 是前沿 AI 实验室，也意识到我们作为研究人员，在某些领域的投入还不够，这对我来说是一个重要的教训：我们必须拓宽探索范围，创新至关重要，而不是局限于某一种架构。

我一直对团队坦诚相待：大约 2.5 年前，当我们开始认真对待大语言模型、启动 Gemini 项目时，我们在很多方面都与最先进水平有差距，我们有很多不懂的东西，虽然也有自己的优势，但确实处于追赶状态。

这种追赶持续了很长时间，而现在，我认为我们已经进入了领先梯队。我对我们的发展速度、团队动态和协作节奏感到非常满意。但我们必须正视过去的追赶历程。

在追赶过程中，我们既要学习他人的优点，也要坚持自己的创新，找到适合自己的解决方案：无论是技术、模型、流程，还是团队运作方式，这些都是我们独有的。

很多人说「 Google 太大了，做事效率低」，但我认为这可以转化为优势。我们有能力做一些独特的、大规模的事情，比如让 Gemini 同步登陆所有 Google 产品。我对我们现在的状态很满意，但这是通过持续学习和创新实现的。这确实是一个很棒的「逆袭」故事。

当然，总会有各种比较，但我们的目标始终是构建通用智能——我们希望以正确的方式实现这一目标，并为此倾注全部心力和创新。

Logan Kilpatrick: 我觉得未来六个月可能会和过去六个月、乃至之前的六个月一样令人振奋。再次感谢你抽出时间接受采访，非常愉快！希望在明年 I/O 大会前我们能再聊一次。

虽然感觉还有很久，但时间肯定会过得很快。我相信下周就会有关于 2026 年 I/O 大会的规划会议了。再次祝贺你和 DeepMind 团队，以及所有模型研究人员，成功推出 Gemini 3、Nano Banana Pro 等一系列产品！

Koray Kavukcuoglu: 谢谢！这次交流非常棒。感谢团队的付出，也感谢你的邀请！

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

Before yesterdayMain stream

AI 生成的歌首次登顶权威音乐榜，还把人听哭了？

爱范儿

By: Selina

14 November 2025 at 14:19

无人注意的角落里，权威榜单 Billboard 接二连三地迎来一批新歌手上榜，低调但行动快速，闷声就登顶了。

等一下等一下，大家发现：什么？又是 AI？

榜一《Walk My Walk》是 AI 生成的歌曲作品你，从数据来看，它不仅登顶了，还连续在榜了三周。对于任何一个新人来说，都是堪称「爆」了的成绩。

然而这不是人，只是 AI。Billboard 发现，登上自己榜单的 AI 歌手和歌曲，已经越来越多了。

冠军？什么来路？

其中一位 AI 歌手，Xania Monet ，出道两三个月，发过的歌却个个受欢迎。最新的《How Was I supoosed to Know？》在油管直接是百万播放量，这还没算 Tiktok 和 Instagram 的数据。

自夏天出道以来，Xania Monet 已在 Billboard 的多个排行榜上取得佳绩，不到两个月内，已创造超过 5 万美元收入。

AI 歌手并不是新鲜事，甚至，用 AI 做一个数字人形象，也不是新鲜事。但我确实想知道，Xania Monet 为什么会有如此的表现。

要知道，很多人不只是看不出来她是 AI，更加是觉得她的歌很好听，很动人。

这不高低得尝尝咸淡。听了几首之后，我很快意识到为什么：主题。

Xania Monet 的歌在旋律上并没有什么特别之处，这很正常，AI 生成的音乐，不会偏离主流形态太远，毕竟是数据算出来的。

唱法层面，该有的细节都有：颤音、转音、声区切换，但还是那句话，这些都是可以生成的。而且在一些细节上，还是有瑕疵。比如在一些高音时，很像是挂了 auto-tune，有点点轻微的「电音」感。

可是，她的歌全部围绕着当代人的 emo 情绪出发，歌词写得相当切中人心。

看看这个歌词，非常写实地描绘了恋人之中，只有一方付出，另一方只会闪躲的情态。这首歌就叫做《I asked for so little》，可以翻译成「我要的不多」，典型的苦情歌，受到欢迎完全不稀奇。

在这首《Still not choosing me》中，写的是为什么「我爱的人不爱我」，很常见的主题，经典永流传。没有人永远失恋，但总有人正在失恋着。

之前的视觉效果 AI 感还是很强，尤其是视频，基本上经不起细看。

但是到了她的大热单曲《How Was I supoosed to Know》，不仅是唱感情问题，还唱到了原生家庭伤痛：父母没有教过什么是好的「爱」，只能让孩子带着伤痕，「错把虚情当真爱」。

这不得掀翻了社交媒体，简直是 buff 叠满。

而且相比于早期简陋的动态歌词板，《How Was I supoosed to Know？》制作精良了不少，不仅没有粗糙的 AI 感，音乐编曲也好了不少。片尾一看，多了许多名字——背后有人了。

Xania Monet 出道没多久，就能够强势上榜，自然也引来了不少橄榄枝，很快就签了公司 Hallwood Media，经纪合约价值三百万美元。

难怪，有了公司，新歌档次都上去不少，登顶榜单也就不奇怪了。

等下，你说你去找了 Billboard，没看到这首歌？

登顶，但没完全登顶

这里的确有一个小小的信息差：Xania Monet 登上的是垂类电台榜单之一，Adult R&B Airplay Chart 成人 R&B 电台播放榜。

这是一个衡量美国成人 R&B 广播电台播放频率的榜单，以电台播放数据为口径。要知道，现在美国依然有大量覆盖全国或地区的 FM/AM 广播电台，这些电台每天仍然需要大量歌曲轮播，并且还是保持着人工编辑的体系。

Billboard 与一个叫 Mediabase 的监测机构合作，利用自动识别技术（audio fingerprinting），监控这些电台在每小时、每个地区播放了哪些歌，统计播放次数、时间段、地区等，最终形成榜单。

这意味着，Xania Monet 的歌想要被电台播放，仍然需要编辑加入到播放列表当中。她能登顶，恰恰意味着这些歌已经被不少 R&B 电台认可并轮播，进入了日常听众的耳朵中。

平时开着车、做着家务而随手打开电台的听众，可能根本不知道她是 AI 歌手。

这使得她登顶的榜单，意义更加独特：她恰恰是因为已经在社交媒体上很红了，才进入电台视野。

简单点说：Xania Monet 无论是在流量层面，还是在品质层面，都出现了一些「逆转」。尽管专业圈内人还是批评态度，一般听众却相当受感动。

类似的评论还有很多，般听众并不会细究创作过程，他们更关心歌曲本身能带来怎样的情绪体验。

不过，这并不意味着 AI 就已经登峰造极，可以写出打动人心的歌了——尤其是 Xania Monet 的例子里，她的旋律和演唱是由 AI 生成的，可是歌词，却完全是来自人类创作者。

Xania Monet 背后，是一位叫做 Telisha “Nikki” Jones 的创作者，她并非专业歌手，但是热爱写诗填词。今年她接触到了 Suno，尝试把自己写的诗歌和歌词输入进去，设定诸如「灵魂唱腔」「慢板 R&B 风格」「轻吉他配重鼓点」等一系列风格关键词，然后让 AI 创作出完整的歌曲。

歌词 100% 源自琼斯本人的经历和情感，例如《How Was I Supposed to Know?》，灵感正是来自 Jones 童年时就失去父亲的真实创痛，这些发自肺腑的诗句后来成为歌曲的核心。

歌词和主题的确是 Xania Monet 最出挑的地方，当然，歌曲和演唱也没有拖后腿，都是在平均水准之上的。主歌旋律通常舒缓真挚，副歌迸发情感张力。

在 Jones 的设定中，Monet 的嗓音突出灵魂乐质感，唱腔也一下就抓住了听众的耳朵。再加上歌词写得细腻动人，全部加在一起，这才能如此受到欢迎。

可以说，Xania Monet 提供了一个 AI 创作的「高分示范」：保证核心内容（主题歌词）的品质，同时完全原创，从而规避版权风险。从音乐作品到人设都走真情路线，而不是「为了 AI 而 AI」，把生成本身当噱头。

听众更容易把她看作一个有血有肉的新人歌手来欣赏，自然比面对一个夸张虚拟网红时更能产生好感。

最关键的一点：作品本身够打动人。这也是最「背反」的一点，回想我一开始听 Xania Monet 的歌时，已经知道了她是 AI，所以从未关注她的唱法，却能够一下子识别出歌词和主题是她的突出点。

这是不是意味着，AI 始终难以越过一道天堑，那种细腻幽深的情感，归根到底无法「生成」，只能来源于人自身。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

SUiTHiNK
被时间拉长的人
31 August 2025 at 18:05

被时间拉长的人

SUiTHiNK

By: Steven

31 August 2025 at 18:05

丢了一批人物标签给 AI 写人物小传，让它模仿某位小说家的笔法，来给演员交代角色。

你觉得这像谁的手笔？

————

南方的空气里常常有潮湿的味道，像是雨下过以后残留的影子，久久不散。城市白天拥挤喧嚣，夜晚却显得空旷，好像光亮突然被抽走，留下无数未完的句子。在这样的环境里，一个男人行走。他的脚步从不急躁，像对时间有着自己的节奏感，和别人不太一样。

年少的时候，他把自己交给了工业设计。形状、光影、比例，这些东西比人群更让他安心。六年在公司，十年在创业，那些日子像一张张被翻阅过的旧画册，色彩褪去了，但线条还在。产品的生与死，像车站里人群的来去。大多数人只看见成功或失败，他却更在意其中被忽略的细节。

别人眼中的他冷静得过分，总是习惯提前几步想好方向，就像棋局上的布局。但在那层冷静的外壳下，常常闪现一些不合逻辑的柔软时刻。比如一段旋律，随便一盏灯的影子，甚至一个不经意的眼神，足以让他停下手里的笔。理性和浪漫在心里不停打架，谁也没有赢过谁。

他知道自己带着黑暗生活。抑郁的日子像一条看不见的走廊，没有尽头。他学会了靠药物维持稳定，像有人随身带着一块怀表，偶尔瞥一眼，提醒自己仍然存在。那段经历让他对痛苦格外敏感，也让他在与人相处时多了一层隐秘的温柔。他不会轻易表现出来，但在内心深处，对别人的脆弱始终心知肚明。

夜晚经常独自坐在桌前，电脑屏幕的光照在脸上，桌上散落着草图和未完成的文字。那些想法有时像城市里的霓虹一样闪烁不定，无法全部抓住。他清楚其中大部分不会被记住，就像梦醒时遗落的片段。但仍旧一遍一遍画下去，像一种执念，也像是一种呼吸。

在喧闹的城市里，他习惯保持慢半拍的步伐。人群汹涌，他的节奏却像潜水时的心跳，缓慢、克制，不慌不忙。他看似与周围保持着距离，其实心里始终怀有一种模糊的渴望——不是要成为谁，也不是要得到什么，而是想在梦与现实之间找到某种入口。梦与梦之间，总有裂缝。裂缝里偶尔透进光。

对很多人来说，他是个不好接近的人。但真正靠近以后会发现，那些冷漠与安静只是表层，像水面下覆盖着的冰。深处的水仍然温热，流动着。理性、浪漫、痛苦和温柔同时存在，没有谁能完全把它们分开。

这样的人物，像一个在现实里造梦的旅人。他的路从不喧哗，却留下清晰的痕迹。

（*正文及标题均由 AI 完成）