Normal view

There are new articles available, click to refresh the page.
Today — 10 December 2025Main stream

好莱坞首位 AI 女演员幕后:花 6 万美元「整」出黑眼圈,毙掉 2000 版,卡梅隆:令人毛骨悚然

By: 姚桐
10 December 2025 at 17:08

两个月前,女演员 Tilly Norwood 遭遇了一场「网暴」。

《权力的游戏》里的「三傻」苏菲·特纳没给她留一点面子,直接在 Instagram 下留言:「哇……不用你,可谢谢了。」

而主演过《傲骨贤妻》的知名演员贝蒂·吉尔平更狠,洋洋洒洒写了几千字的公开信,嘲讽 Tilly 「不是人」,让她「回家」。

为什么这么大仇?因为 Tilly 确实不是人,而是英国公司 Particle6 用 AI 生成的「女演员」。

不过更有意思的是,在《华尔街日报》最近一篇报道里,我们终于看到 Tilly 到底是怎么被「捏」出来的。

漫漫造星路,说不上来是哪几个 AI 的混血儿

Tilly 的诞生故事听起来像个段子:那是 Particle6 公司的创始人兼 CEO 范德维尔登( Eline Van der Velden)在伦敦一家私人俱乐部的洗手间里想出来的。

范德维尔登首先求助于 ChatGPT,她输入了一段简短但具体的描述,描绘了她理想中的「候选人」:

一位魅力四射、享誉全球的女名人。她五官对称,肌肤光彩照人,拥有一双迷人的绿色眼睛。她有一头长发。

ChatGPT 还建议叫她 Tilly Warner,但被范德维尔登否决。经过团队的讨论,最终定名为 Tilly Norwood。团队还特意确认了现实世界中没有同名的公众人物。

后来,为了让她能动、能说、能演,Particle6 几乎把市面上最顶尖的 AI 工具用了个遍:Runway、Sora、11Labs、ChatGPT,甚至还包括 DeepSeek。

说实话,Tilly 才是 AI 界的「集大成者」。

不仅如此,Sora 2 的发布更是给她送来了「东风」。以前的 AI 视频漏洞百出,现在 Sora 2 已经能做到画面逻辑和一致性的大幅提升。这意味着,Tilly 不仅能活在精修图里,她马上就能进组拍长视频甚至电影。

为了「妈生感」,这位姐花 6 万美元「整容」

范德维尔登在接受采访时透露:为了捏出这张脸,她带着 15 个人的团队,像疯狂的选角导演一样,毙掉了 2000 个 AI 生成的「练习生」。

初代的 Tilly 也曾是个灾难。

ChatGPT 生成的第一张形象图是卡通风格,嘴唇圆润,眼睛像猕猴桃一样,种族特征模糊不清。或许是因为 AI 参考了世界上黑发人口远多于金发人口的数据,决定把她设定成棕发。

范德维尔登不喜欢第一个 Tilly:「它显然非常人工智能化,非常卡通化,这不是我想要的效果。」

几天后,范德维尔登将第一张图像输入到一个可以添加新特征的工具中。然而,Tilly 仍然显得不真实。范德维尔登考虑过把她做成半机器人,但那并不是最令人震惊的,她认为 AI 最让人震惊的是它能做到如此逼真。

现在的 Tilly,头发有点乱,眼底挂着淡淡的黑眼圈,脸上还有雀斑。为了实现这一切,范德维尔登自掏腰包花费了超过 6 万美元。

更有意思的是,在一次测试中,AI 自作主张给她的无名指戴上了一枚婚戒,使其带有了一种诡异的真实。

Tilly 背后的女人

要说 Tilly 为什么能「火」,还得看她背后的女人范德维尔登。

她出身优渥,生在加勒比海的库拉索岛,爸妈是高管和艺术家。她 14 岁就只身闯荡英国,进了著名的特林公园表演艺术学校,跟「灰姑娘」莉莉·詹姆斯、「星战女主」黛西·雷德利是校友。

在范德维尔登勇闯好莱坞时,一位洛杉矶的经纪人非常直白地跟她说:「你只要再瘦个 10 磅,整一下外表,你就是下一个布莱克·莱弗利(Blake Lively)。」

面对让人下头的身材焦虑和流水线审美,换别人可能就忍了,或者直接抑郁了。但这位姐选择了「发疯」反击。

她转头就为 BBC Three 的网剧《Miss Holland》塑造了一个滑稽可笑的选美皇后角色。在名场面里,这位「选美皇后」梳着土气的挤奶女工辫,不仅被廉价美黑喷雾呛得狼狈不堪,更是毫不避讳地展示浓密的腋毛。

后来,她在伦敦创办 Particle6,很快就开始为 BBC Three 和 YouTube 制作短片,内容包括一些搞笑桥段,比如让身穿比基尼的日光浴者穿上衣服,或者故意靠近陌生人观察会发生什么。

这种特立独行的劲头,最后演变成了现在的 Tilly :既然你们想要完美的流水线产品,那我就直接用代码给你们造一个。

出道即巅峰,黑红也是红

自「签约好莱坞」的消息传出后, Tilly 便陷入了争议之中。

英国演员艾米丽·布朗特在参与一档播客期间得知 Tilly,惊呼:我们完蛋了。

这种恐惧真不是空穴来风。还记得今年《超人》电影里那只超狗 Krypto 吗?导演本来想让救助犬 Ozu 本色出演,结果成片出来,那就是一只由 CGI 和 AI 重塑的数字狗。

真狗都得给假狗让路,何况人呢?

2023 年的大罢工核心议题就是 AI 对演员肖像权的侵蚀,而 Tilly 的出现证明,资本甚至不需要剥削真人的肖像,因为他们可以直接凭空创造一个。

为什么好莱坞的资本家们对 Tilly 如此上头?原因很现实。

就像范德维尔登所说:「当预算在缩水,期望却在不断提高时,你为什么不使用一个能让你用 10% 的成本获得 10 倍产出的工具呢?」

Tilly 是完美的打工人,她不需要休息、吃饭,不会生病,更省去了与经纪人扯皮谈片酬的繁琐环节。

最重要的是,她没有私生活,不会涉及偷税漏税,也不会因为在网上发表不当言论而遭封杀。

相比于之前的虚拟网红仅限于时尚代言 ,Tilly 直接切入了影视表演的关键环节。她不仅有外表,还在构建性格。

前几天,范德维尔登问她是否有什么话想对卡梅隆说,这位导演曾公开表示对 AI 演员的想法,她给出了一个充满挑衅意味的回答:

噢,真可爱,詹姆斯。(Oh, how cute, James.)

说到这里,就不得不提最近好莱坞发生的另一件大事,Netflix 要花 720 亿美元收购华纳兄弟。

这两件事看似没关系,其实本质上都是同一场地震。

Netflix 买华纳大概率是要把好莱坞的百年基业变成更高效的「内容流水线」。而 Tilly 的出现,是为了把不可控的「人」变成可控的「数字资产」。

不过,你也别哀叹 AI 要「杀死」好莱坞,别忘了,好莱坞本身就是靠「杀死」前辈起家的。

20 世纪初,当电影刚刚兴起时,戏剧界谴责它廉价、粗俗、缺乏艺术性。但正是这种「廉价」和「粗俗」,让更多普通人能够接触到故事和表演,最终催生出了一种全新的艺术形式。

更有意思的是,那些今天被我们奉为经典的好莱坞黄金时代作品,当年也是工业流水线的产物。米高梅、派拉蒙、华纳兄弟这些片厂签约演员,量产类型片,用明星制度和宣发机器操控市场。直到 1948 年最高法院的「派拉蒙案」打破片厂垄断,好莱坞才逐渐进入了所谓的「作者电影」时代。

▲ 图片来自:维基百科

从这个角度看,AI 演员的出现,也并非史无前例的威胁,当年配音技术的成熟,不也让无数默片时代的演员失业了吗?但电影并没有因此变得更糟,反而诞生了《乱世佳人》《卡萨布兰卡》这样的杰作。

或许正是那些看似「毁灭」创作的技术,催生出了新的创作可能性。想象一下:一个导演可以让 Tilly 出演一个 80 岁老妇人,然后在同一部电影里让她回到 18 岁的模样,而不需要任何特效化妆或年龄替身。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


真乐队退出,但AI冒牌却在Spotify「拼好歌」冲榜

By: Selina
10 December 2025 at 15:31

Spotify 的年度统计上周发布了,又到了用户一边转发,一边吐槽的季节——「这玩意儿也不准啊」。

但有比用户更崩溃的:明明已经和 Spotify 割席了,居然又「出现」在平台上。

这是来自澳洲的摇滚乐队 King Gizzard,这支乐队早在 7 月就因不满 Spotify 而主动下架了自己的全部歌曲,只留下了一个合作 Remix。

但他们的歌迷最近却发现了一支名为 「King Lizard Wizard」 的假乐队。上传的歌曲标题、歌词都逐字照搬 King Gizzard 的原作,甚至连歌曲名称都一模一样(比如冒牌乐队的《Rattlesnake》直接盗用原曲名和歌词)。用户在 Spotify 搜索 「King Gizzard」 时,会发现乐队已弃用的官方账号,下方却赫然推荐着这个山寨乐队——甚至在搜索结果中,假乐队的盗版《Rattlesnake》一度成为榜首。

山寨的现象从 Spotify 传到 YouTube,如此张冠李戴的现象令许多粉丝愤怒不已,这还是粉丝自己发现的,在 Reddit 上贴了出来后又觉得不对劲——这反而为山寨号引流了。

这桩大无语事件让 Spotify 平台在 AI 内容监管上的漏洞暴露无遗。假冒的 「King Lizard Wizard」 账号上线数周、积累了不菲的流量,后来才被移除——就连专辑封面也疑似 AI 生成。

更讽刺的是,其中一些假歌曲在元数据上还把 King Gizzard 主唱 Stu Mackenzie 列为词曲作者,简直明目张胆地蹭原创乐队的名气。明明是 Spotify 自己在 9 月时,宣称要出台新政策打击「垃圾内容、仿冒和欺骗」等行为,结果让这种 AI 山寨内容堂而皇之地混入了官方推荐位,包括 Release Radar 和 Discover Weekly 等歌单。

这已经不是疏忽,简直是对着人家乐队贴脸开大。

平台上的「音乐垃圾场」

King Gizzard 的遭遇并非孤例。近一两年来,Spotify 平台上充盈着各式各样以 AI 技术批量生成的音乐内容,从模拟知名艺人的盗版歌曲,到平平无奇的生成音乐,应有尽有——现在,轮到翻唱了。

流媒体巨头们对 AI 生成内容实在是太热衷了。腾讯音乐曾经推出过 「启明星 AI 作曲」项目,号称已有超过 2600 万首 AI 音乐作品经由其算法创作并发布,累计播放量破十亿次。酷狗的「星曜计划」也有专门的 AI 子榜单,而且有原创有翻唱。

最典型的当属红遍抖音的《第 57 次取消发送》,最早发布于今年五月,原本是女声,不久前也就是 11 月时被翻成男声版又火了一遍——这次,是 AI 的。

男声版的「音色」还是有明显的 AI 感,仿佛一边唱一边踩电门,但也不妨碍这个歌引发大量共情和讨论。有人说勾起了旧日回忆,有很强的熟悉感,听着仿佛回到了华语音乐的黄金年代。

可不熟悉么,拼好歌拼出来的——

当资本和技术狂飙突进地涌入音乐生产,传统的创作生态势必受到冲击。在这一背景下,华语音乐人面临的可能是比西方同行更复杂的局面。

同时,翻唱其实是音乐平台上,很重要的构成版块:例如 cover,remix,既是粉丝和音乐爱好者二次创作的方式,也是新人和小歌手积累人气的方式。

当 AI 用虚构的名字和头像伪装成人,不断灌出机器人流水线作品,是对原创歌手和翻唱内容的双重打击。很多此类 AI 虚拟歌手顶着花哨的包装、写着空洞的简介,却堂而皇之拥有数十万月听众和官方歌单推送。

「拥抱」AI

Spotify 也做过一些维护的动作,官方声称在过去一年内已移除上千万首涉嫌滥用算法的垃圾曲目,包含批量上传的雷同歌曲、标题堆砌关键词骗流量、以及「拆分长曲成短段以刷播次数」的作弊行为等。此外,Spotify 宣布提供新工具,允许创作者主动标注他们的音乐中是否使用了 AI 技术。

然而这些措施还是表面功夫偏多。大批 AI 音乐的祸根在于平台的运营逻辑:Spotify 强调歌单和无限播放模式,追求的是听众的停留时长,这种生态本就容易滋养垃圾内容和 AI 灌水。

再加上,Spotify CEO 丹尼尔·埃克本人也对 AI 技术非常热情,早在 2023 年便表示 AI 音乐「在文化上是好事,对 Spotify 也有利,因为创作者越多,平台提升用户参与和营收的机会就越大」。

典型的有「The Velvet Sundown」乐队,曾在 Spotify 上攒下逾百万听众,创作者后来才承认这不过是一场社交实验,音乐和照片都是伪造的。还有 「Echo Harper」 这样的虚拟摇滚歌手,被收录进 Spotify 精选的 「Just Rock!」 播放列表中。

▲The Velvet Sundown

有人愿意做,平台愿意买单,在这样的指导思想下,多快好省的 AI 内容自然正中平台下怀。

当不满累积到一定程度,抗争就此迸发。2023 年以来,越来越多的独立音乐人选择用脚投票,告别 Spotify。甚至一些乐队还会号召同行和听众一起「退出垃圾平台」。

创作歌手 Caroline Rose 选择只在黑胶和 Bandcamp 上发行新专辑,她直言「把我们的心血白白放上网免费听太蠢了」。Bandcamp 是一个链接歌迷和音乐人的「直销」平台,实行「付多少算多少」(Pay-what-you-want)的专辑下载方式,一般情况下艺人可获收益的 82%,且定期举办 Bandcamp Fridays 让艺人获得 100%销售额。

越来越多音乐人开始尝试跳出「一切都丢到流媒体」的套路,回归付费拥有音乐的传统:卖黑胶和磁带、举办付费直播演出、进驻 Bandcamp 等等。

相比之下,国内的情况更为复杂一些。虽然 AI 生成的音乐的确在逐渐铺开,但还没有到鹤唳风声的程度,也就没有激起太多对平台的抵制。《第 57 次取消发送》不仅在抖音等社交平台上大受欢迎,还登上了综艺节目,由真人明星演绎。

从 King Gizzard 乐队怒删曲目、却被 AI 克隆鸠占鹊巢的荒诞,到大批独立音乐人愤而出走 Spotify、寻求他途,这一系列事件背后揭示的是同一个本质:音乐被当作纯粹的数据产物和工具来榨取价值。

音乐创作的能力越来越不稀缺了,「拼好歌」听上去离谱,但「拼」出来的歌却正在收到欢迎。未来越发稀缺的,可能是人们对音乐的用心聆听,对创作者真诚的支持。当越来越多的人意识到这一点,也许音乐产业才有机会走上一条更尊重创作者、更有温度的道路。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Yesterday — 9 December 2025Main stream

逼得奥特曼紧急掏出 GPT-5.2,Gemini 3 凭什么逆风翻盘 | Google 首席 AI 架构师首次揭秘

By: 姚桐
9 December 2025 at 09:44

「这确实是一个很棒的逆袭故事。」

11 月 19 日凌晨,Gemini 3 的发布彻底打破了平淡。上线当日,全球访问量便突破 5400 万次,创平台历史新高。

Google 这一次王者归来,震感甚至直接传导到了竞争对手的神经中枢。据 The Information 报道,面对 Google 步步紧逼的攻势,OpenAI CEO Sam Altman 本周一紧急在内部备忘录中宣布公司进入「红色警戒(code red)」状态,准备调动一切战略资源对 ChatGPT 的能力进行大幅升级。

据 The Verge 援引知情人士消息称,OpenAI 计划最早于下周初发布 GPT-5.2 模型, 这一时间表较原定的 12 月下旬计划大幅提前。

这不仅侧面印证了 Gemini 3 带来的压迫感,也让接下来的对话显得更加意味深长。

近日,DeepMind CTO、Google 新任首席 AI 架构师 Koray Kavukcuoglu 在 Logan Kilpatrick 的访谈节目中亮相,他说「我们曾是追赶者,但创新是唯一的出路。」

亮点速览:

1. Koray Kavukcuoglu 强调,Gemini 的优化重点集中在以下几个关键领域:

  • 指令遵循: 确保模型能准确理解并执行用户的具体需求,而非随意生成内容。
  • 国际化: 提升多语言支持能力,确保全球用户都能获得高质量体验。
  • 代理与工具能力:模型不仅能自然使用我们已有的工具和函数,还能自主编写工具。

2. Gemini 3 是一款「全 Google 团队协作的模型」。来自欧洲、亚洲等世界各地的团队都做出了贡献,不仅有 DeepMind 团队,还有 Google 各个部门的团队。

3. 随着技术进步,文本模型和图像模型的架构、理念正在不断融合。过去,两者的架构差异很大,但现在越来越趋同。这是技术自然演进的结果:大家都在探索更高效的方案,理念逐渐统一,最终形成了共同的发展路径。

视频链接:

以下为完整内容的转录和翻译。(顺序有改动)

基准测试只是第一步,用户反馈是 Step Two

Logan Kilpatrick: 大家好,欢迎回到 Release Notes。我是 Logan Kilpatrick,我在 DeepMind 团队。今天很荣幸邀请到 DeepMind 的 CTO、Google 的新任首席 AI 架构师——Koray。Koray,感谢你的到来,期待与你深入交流。

Koray Kavukcuoglu: 我也很期待。谢谢邀请!

Logan Kilpatrick: 当然,Gemini 3 已经发布。我们此前就预感这款模型会表现出色,基准测试结果也非常亮眼,但真正将它交到用户手中后,实际反响……

Koray Kavukcuoglu: 这才是最终的考验。基准测试只是第一步,之后我们也做了大量测试,包括让可信测试者参与预发布体验等。所以我们能感受到这是一款优秀的模型,能力出众,虽然不完美,但用户的反馈确实让我很满意。

大家似乎很喜欢这款模型,而且我们觉得有意思的部分,他们也同样感兴趣。所以目前来看挺好的,一切都很顺利。

Logan Kilpatrick: 没错,我们昨天还在聊,核心话题就是感慨 AI 的发展速度从未放缓。回想上次,也就是去年 I/O 大会上我们发布 Gemini 2.5 时,听着演示、Serge 谈论 AI 的未来,当时就觉得 2.5 已经是最先进的模型,在多个维度上都突破了前沿。而现在,Gemini 3.0 再次实现了突破。我很好奇,关于「这种进步能否持续」的讨论一直存在,你现在的看法是什么?

Koray Kavukcuoglu: 我对目前的进展和研究都充满信心。身处研究一线,你会发现各个领域都洋溢着创新的热情,从数据、预训练、微调,到每一个环节,都有大量新想法、新突破涌现。

归根结底,这一切都依赖于创新和创意。当我们的技术能切实影响现实世界、被人们广泛使用时,我们能获得更多反馈信号,接触面也会扩大,进而催生更多灵感。

而且我认为,未来的问题会更复杂、更多元,这会带来新的挑战,但这些挑战是有益的,也是推动我们迈向通用智能的动力。

有时候,如果你只看一两个基准测试,可能会觉得进步放缓了,但这很正常。基准测试是在某个技术难题凸显时设立的,随着技术发展,它不再是前沿的代名词,这时就需要制定新的基准。

这在机器学习领域很常见:基准测试与模型开发是相辅相成的,基准测试指导模型迭代,而只有接近当前前沿,才能明确下一个目标,进而制定新的基准。

Logan Kilpatrick: 我完全认同。比如早期的 HLE 基准测试,所有模型的正确率都只有 1% 到 2%,而现在 DeepMind 的最新模型已经能达到 40% 左右,这太惊人了。ArcGIS 基准测试最初也几乎没有模型能应对,现在正确率也超过了 40%。

不过有些静态基准测试确实经受住了时间的考验,比如 GPQA Diamond,虽然我们现在只能一点点提升 1% 左右的正确率,但它依然被广泛使用,可能已经接近饱和了。

Koray Kavukcuoglu: 这些基准测试中确实有很多难题,我们目前还无法完全攻克,但它们依然具有测试价值。以 GPQA 为例,我们没必要追求 90% 以上的极致正确率,现在已经接近目标了,所以尚未解决的问题数量自然在减少。

因此,寻找新前沿、制定新基准至关重要。基准测试是衡量进步的一种方式,但并非绝对对齐。理想情况下两者完全一致,但现实中永远无法完全契合。

对我来说,衡量进步最重要的标准是:我们的模型是否在现实世界中被广泛使用?科学家、学生、律师、工程师是否在用它解决问题?人们是否用它进行写作、收发邮件等?无论简单还是复杂,能在更多领域、更多场景中持续为用户创造更大价值,这才是真正的进步。而基准测试只是帮助我们量化这种进步的工具。

Logan Kilpatrick: 我有一个不算争议性的问题:Gemini 3 在众多基准测试中表现出色,同步登陆 Google 所有产品端和合作伙伴生态,用户反馈也非常积极。如果展望下一次 Google 重大模型发布,你觉得还有哪些方面是我们需要改进的?比如「我们希望能在 X、Y、Z 方面做得更好」,还是说我们应该先享受 Gemini 3 带来的成果?

Koray Kavukcuoglu: 我觉得两者可以兼顾。我们应该享受当下,毕竟发布日值得庆祝,团队也应该为自己的成就感到自豪。但与此同时,我们也清楚地看到,模型在各个领域都存在不足:写作能力并不完美,编码能力也有提升空间。

尤其是在智能体行动和编码方面,还有很大的进步空间,这也是最令人兴奋的增长领域。我们需要找出可以优化的方向,然后持续改进。我认为我们已经取得了长足的进步:对于 90% 到 95% 的编码相关用户(无论是软件工程师,还是想构建产品的创意人士)来说,Gemini 3 可能是目前最好用的工具,但确实还有一些场景需要进一步优化。

从「有创意」变得「能落地」

Logan Kilpatrick: 你如何看待「逐步优化」?比如从Gemini 2.5 到 3.0,或者其他版本迭代中,我们的优化重点是什么?如今基准测试数量繁多,我们如何选择优化方向,无论是针对整个 Gemini 系列,还是专门针对 Pro 版本?

Koray Kavukcuoglu: 我认为有几个关键领域至关重要。首先是指令遵循能力。模型需要准确理解用户需求并执行,而不是随意输出答案,这是我们一直重视的方向。其次是国际化。 Google 的业务遍布全球,我们希望让全世界的用户都能用上这款模型。

Logan Kilpatrick: 确实,我今天早上还和 Tulsi 聊过,她提到这款模型在一些我们过去表现不佳的语言上,表现得非常出色。

Koray Kavukcuoglu: 这真的很棒。所以我们必须持续聚焦这些领域,它们可能不是知识前沿,但对用户交互至关重要。正如我之前所说,我们需要从用户那里获取反馈信号。

再说到更技术化的领域,函数调用、工具调用、智能体行动和代码能力也极为关键。

函数调用和工具调用能极大提升模型的智能乘数效应:模型不仅能自然使用我们已有的工具和函数,还能自主编写工具。本质上,模型本身也是一种工具。

代码能力之所以重要,不仅因为我们团队中有很多工程师,更因为代码是数字世界的基础。无论是软件开发,还是将任何想法变为现实,代码都不可或缺。它能让模型与人们生活中的诸多场景深度融合。

我举个例子,比如「即时编码」(vibe coding),我很看好这个功能。很多人富有创造力,但缺乏将想法落地的能力,而即时编码能让他们从「有创意」变得「能落地」:只需写下想法,就能看到对应的应用程序呈现在眼前,而且大多数时候都能正常运行。

这种从创意到产品的闭环非常棒,它让更多人有机会成为创造者。

Logan Kilpatrick: 太赞了!这简直是 AI Studio 的完美宣传点,我们会把这段剪辑出来发布到网上。你刚才提到的一个重要话题是,在 Gemini 3 发布之际,我们同步推出了 Google Anti-gravity 平台。从模型角度来看,你认为这种产品架构对提升模型质量的重要性有多大?显然,这和工具调用、编码能力息息相关。

Koray Kavukcuoglu: 对我来说,这至关重要。平台本身确实令人兴奋,但从模型角度看,这是双向作用的。首先,模型能通过与终端用户(指软件工程师)直接集成,获取他们的反馈,进而明确模型需要改进的方向,这对我们来说至关重要。

就像 Gemini、AI Studio 一样,Anti-gravity 平台也是如此。这些产品能让我们与用户紧密相连,获取真实的反馈信号,这是巨大的财富。Anti-gravity 平台作为我们的关键发布合作伙伴,虽然加入时间不长,但在过去两三周的发布筹备中,它的反馈起到了决定性作用。

搜索 AI 模式(AI Mode)也是如此,我们从那里获得了大量反馈。基准测试能帮助我们推动科学、数学等领域的智能提升,但了解现实世界的使用场景同样重要,模型必须能解决实际问题。

Gemini 3,一款全 Google 团队协作的模型

Logan Kilpatrick: 在你担任新任首席 AI 架构师后,你的职责不仅是确保我们拥有优秀的模型,还要推动产品团队将模型落地,在 Google 的所有产品中打造出色的用户体验。 Gemini 3 在发布当天就同步登陆 Google 所有产品端,这对用户来说是巨大的惊喜,也希望未来能覆盖更多产品。从DeepMind 的角度来看,这种跨团队协作是否增加了额外的复杂性?毕竟一年半前,事情可能还简单得多。

Koray Kavukcuoglu: 但我们的目标是构建智能,对吧?很多人问我,身兼 CTO 和首席 AI 架构师两个职位,会不会有冲突,但对我来说,这两个角色本质上是一致的。

要构建智能,就必须通过产品与用户的联动来实现。我的核心目标是确保 Google 的所有产品都能用上最先进的技术。我们不是产品团队,而是技术开发者,我们负责研发模型和技术,当然,我们也会对产品有自己的看法,但最重要的是,以最佳方式提供技术支持,与产品团队合作,在 AI 时代打造最优秀的产品。

这是一个全新的时代,新技术正在重新定义用户期望、产品行为和信息传递方式。因此,我希望能在 Google 内部推动这种技术赋能,与所有产品团队合作。这不仅对产品和用户有益,对我们自身也至关重要。

只有贴近用户,才能感受到他们的需求,获取真实的反馈信号,这是推动模型迭代的核心动力。这就是我们构建通用人工智能(AGI)的方式:通过产品与用户共同成长。

Logan Kilpatrick: 我完全认同。这简直可以作为你的推特文案了!我也觉得,我们本质上是在与客户、合作伙伴共同构建通用人工智能(AGI)——这不是某个实验室的孤立研究,而是与全世界共同推进的联合事业。

Koray Kavukcuoglu: 我认为这也是一个「可信测试体系」——我们越来越强调工程思维。这种思维很重要,因为精心设计的系统才会更稳健、更安全。

我们在构建现实世界的产品时,借鉴了很多「可信测试」的理念,这体现在我们对安全、隐私的重视上:我们从一开始就将安全隐私作为核心原则,而不是事后补充。

无论是预训练、微调,还是数据筛选,团队中的每个人都需要考虑安全问题。我们当然有专门的安全团队和隐私团队,他们会提供相关技术支持,但我们更希望 Gemini 团队的每个人都深度参与其中,将安全隐私融入开发的每一个环节,这些团队本身也是微调团队的一部分。

因此,在模型迭代、发布候选版本时,我们不仅会参考 GPQA、HLE 等基准测试结果,还会严格审查安全隐私指标。这种工程思维至关重要。

Logan Kilpatrick: 我完全同意。这也很符合 Google 的企业文化,毕竟,发布 Gemini 模型是一项需要全球团队协作的庞大工程。

Koray Kavukcuoglu: 说到 Gemini 3,我觉得最值得一提的是,它是一款「全 Google 团队协作的模型」。

Logan Kilpatrick: 我们可以看看相关数据,这可能是史上参与人数最多的项目之一,就像 NASA 的阿波罗计划一样,这是一项全球性的庞大工程。

Koray Kavukcuoglu: 没错,是全球性的。

Logan Kilpatrick: Google 所有团队都参与其中,这太不可思议了。

Koray Kavukcuoglu: 来自欧洲、亚洲等世界各地的团队都做出了贡献,不仅有 DeepMind 团队,还有 Google 各个部门的团队。这是一项巨大的集体努力:我们与 AI 模式(AI Mode)、Gemini 应用程序同步发布,这不容易。

这些产品团队在模型开发阶段就与我们深度协作,这也是为什么我们能在发布当天实现全平台同步上线。所谓「全 Google 参与」,不仅指直接参与模型构建的团队,还包括所有各司其职、默默付出的团队。

Nano Banana,自发的名字,自然地融合

Logan Kilpatrick: 另一个我关心的话题是生成式媒体模型——虽然我们一直有关注,但过去并未作为重点。不过,随着 Veo 3、Veo 3.1、Nano Banana 模型的推出,我们在产品落地方面取得了很大成功。

我很好奇,在追求通用人工智能(AGI)的过程中,你如何看待生成式视频模型的作用?有时候我会觉得视频模型似乎与 AGI 无关,但仔细想想,它涉及对世界、物理规律的理解,所以两者应该是相互关联的。

Koray Kavukcuoglu: 10 到 15 年前,生成式模型主要集中在图像领域,因为当时我们能更好地观察图像生成的过程,而且理解世界、物理规律也是图像生成模型的核心目标。

Google 在生成式模型方面的探索可以追溯到 10 年前,甚至更早。我读博时,大家都在做生成式图像模型,比如像素卷积神经网络(Pixel CNNs)。后来我们意识到,文本领域的进步速度会更快。

但现在,图像模型的重要性再次凸显。DeepMind 长期以来在图像、视频、音频模型方面积累了深厚的技术实力,将这些技术与文本模型融合是顺理成章的。

我们一直强调多模态,包括输入多模态和输出多模态。随着技术进步,文本模型和图像模型的架构、理念正在不断融合。过去,两者的架构差异很大,但现在越来越趋同。这不是我们刻意推动的,而是技术自然演进的结果:大家都在探索更高效的方案,理念逐渐统一,最终形成了共同的发展路径。

这种融合的核心价值在于,文本模型拥有丰富的世界知识,而图像模型从另一个视角理解世界,将两者结合,能让模型更好地理解用户的意图,创造出更令人惊喜的成果。

Logan Kilpatrick: 我还有一个关于 Nano Banana 的问题:你觉得我们应该给所有模型起一些有趣的名字吗?这会不会有帮助?

Koray Kavukcuoglu: 不一定。我觉得名字应该自然产生,而不是刻意为之。比如 Gemini 3,我们并没有刻意设计名字。

Logan Kilpatrick: 如果 Gemini 3 不叫这个名字,你会起什么?会不会是很搞笑的名字?

Koray Kavukcuoglu: 我不知道,我不擅长起名字。其实我们的 Gemini 模型有内部代号,有些代号甚至是用 Gemini 模型自己生成的,但 Nano Banana 不是,它没有经过模型生成。

这个名字背后有个故事,我记得已经公开了。我觉得只要名字是自然、自发产生的,就很好。构建模型的团队能对名字产生情感共鸣,这很有意义。

「Nano Banana」这个名字之所以被沿用,是因为我们在测试时用了这个代号,大家都很喜欢,它是自发传播开来的。我觉得这种自然形成的名字很难通过流程刻意创造,有就用,没有的话,用标准名称也很好。

Logan Kilpatrick: 那我们来聊聊 Nano Banana Pro,这是基于 Gemini 3 Pro 打造的最先进的图像生成模型。我听说团队在完成 Nano Banana 后,发现将其升级为 Pro 版本后,在文本渲染、世界知识理解等更精细的场景中,性能有了很大提升。对于这方面的发展,你有什么看法?

Koray Kavukcuoglu: 这正是不同技术融合的体现。我们一直说,每个版本的 Gemini 都是一个模型家族,比如 Pro、Flash 等,不同尺寸的模型在速度、准确率、成本等方面各有取舍。图像生成模型也是如此,自然会形成不同定位的产品。

团队基于 Gemini 3.0 Pro 的架构,结合第一代模型的经验,通过扩大模型规模、优化调优方式,打造出了更强大的图像生成模型,这很合理。它的核心优势在于处理复杂场景:比如输入大量复杂文档,模型不仅能回答相关问题,还能生成对应的信息图表,而且效果很好。这就是输入多模态与输出多模态自然融合的体现,非常棒。

Logan Kilpatrick: 是啊,这简直像魔法一样!希望大家在这段视频发布时已经看到了相关示例,内部分享的一些案例真的太惊人了。

Koray Kavukcuoglu: 完全同意!当你看到模型能将海量文本、复杂概念,用一张清晰直观的图片呈现出来时,真的会惊叹「太厉害了」。这能直观地体现模型的能力。

Logan Kilpatrick: 而且其中还有很多细节值得品味。我还有一个相关问题:去年 12 月,Tulsi 曾承诺我们会推出统一的 Gemini 模型检查点(checkpoint)。你刚才描述的内容,是不是意味着我们现在已经非常接近这个目标了?

Koray Kavukcuoglu从历史上看,生成式模型的架构一直是统一的……

Logan Kilpatrick: 所以我猜这是我们的目标:让这些功能真正融入一个模型中,但现实中肯定有一些阻碍。你能从宏观层面解释一下吗?

Koray Kavukcuoglu: 正如我之前所说,技术和架构正在不断趋同,这种统一是必然趋势,但这需要验证。我们不能凭主观臆断,必须遵循科学方法:提出假设、进行测试、观察结果,有时成功,有时失败,但这就是技术进步的过程。

我们正在逐步接近目标,我相信在不久的将来,我们会看到更统一的模型,但这需要大量的创新。

这其实很难——模型的输出空间至关重要,因为它直接关系到学习信号的质量。目前,我们的学习信号主要来自代码和文本,这也是模型在这些领域表现出色的原因。

而图像生成则不同:它对质量要求极高,不仅需要像素级的精准度,还需要图像概念的连贯性,也就是每个像素都要符合整体画面的逻辑。要同时做好文本和图像生成,难度很大。但我认为这绝对是可行的,只是需要找到合适的模型创新方向。

Logan Kilpatrick: 太令人期待了!希望这也能让我们的工作更高效,比如拥有一个统一的模型检查点。

Koray Kavukcuoglu: 这很难说,但可能性很大。

一切都建立在学习之上

Logan Kilpatrick: 我再追问一个关于编码和工具使用的问题。回顾 Gemini 的发展历程:1.0 版本聚焦多模态,2.0 版本开始搭建基础设施。虽然我们的进步速度很快,但为什么在多模态领域,我们没能从一开始就在智能体工具使用方面达到最先进水平?毕竟 Gemini 1.0 在多模态领域一直保持领先。

Koray Kavukcuoglu: 我不认为这是刻意为之。说实话,我觉得这与模型开发环境是否贴近现实世界密切相关,越贴近现实,就越能理解用户的真实需求。

Gemini 的发展历程,也是我们从「纯研究」转向「工程思维」、与产品深度绑定的过程。 Google 在 AI 研究方面有着深厚的积淀,拥有众多优秀的研究人员,但 Gemini 的特别之处在于,它让我们从「写论文、做研究」转向了「通过产品和用户共同开发」。

我为我们的团队感到骄傲——包括我在内,大多数人四五年前还在专注于发表论文、开展 AI 研究,而现在,我们站在技术前沿,通过产品和用户共同推进技术迭代。

这种转变非常惊人:我们每 6 个月就推出一个新模型,每 1 到 1.5 个月就进行一次更新。我认为,我们正是在这个过程中逐步完善智能体工具使用能力的。

Logan Kilpatrick: 还有一个有趣的话题:现在 DeepMind 拥有众多世界顶尖的 AI 产品,比如即时编码(vibe coding)、AI Studio、Gemini、Anti-gravity 平台等, Google 旗下也有很多前沿模型,比如 Gemini 3、Nano Banana、Veo 等。10 年甚至 15 年前,世界完全不是这样的。

我很好奇,回顾你的个人历程,你昨天提到,你是 DeepMind 的第一位深度学习研究员,这一点我和其他人都感到很意外。从 13 年前(2012年)人们对深度学习并不看好,到现在这项技术支撑着众多产品、成为核心驱动力,你有什么感想?这一切是在意料之中,还是让你感到意外?

Koray Kavukcuoglu: 我觉得这是最理想的结果。就像所有读博的人一样,你会坚信自己所做的事情很重要,会产生重大影响——我当时就是这种心态。

所以当 Demi 和 Shane 联系我,告诉我 DeepMind 是一个专注于构建智能、以深度学习为核心的团队时,我非常兴奋。我和我的朋友 Carl Greger(我们都来自纽约大学 Jan 的实验室)同时加入了 DeepMind。在当时,专注于深度学习和 AI 的初创公司非常罕见,所以 DeepMind 的理念非常有远见,能在那里工作真的很令人激动。后来,我组建了深度学习团队,看着它不断发展壮大。

我对深度学习的态度一直是:以第一性原理为基础,坚持「基于学习」的思维方式,这也是 DeepMind 的核心理念:一切都建立在学习之上。

回顾这段旅程,从早期的 DQN、AlphaGo、AlphaZero、AlphaFold,到现在的 Gemini,真的很令人感慨。我们一直怀着积极的期望推进工作,但同时也觉得自己很幸运。

我们有幸生活在这个时代,很多人曾为 AI 或自己热爱的领域奋斗一生,希望能见证技术爆发,但这一切现在真的发生了。AI 的崛起不仅得益于机器学习和深度学习的进步,还离不开硬件、互联网和数据的发展,这些因素共同促成了今天的局面。所以,我既为自己选择了 AI 领域而自豪,也为能身处这个时代而感到幸运。这真的太令人兴奋了。

Logan Kilpatrick: 我最近看了《思维游戏》(The Thinking Game)的视频,了解了 AlphaFold 的相关故事。我没有亲历那个时代,只能通过资料和他人的讲述来了解。你经历了 DeepMind 的多个重要项目,你觉得现在的工作与过去相比有什么不同?比如你之前提到的,「我们已经掌握了将模型推向世界的方法」,这种感觉与之前的项目有什么相似或不同之处?

Koray Kavukcuoglu: 如何组织团队、培养文化,才能将复杂的科学技术问题转化为成功的成果?我认为我们从多个项目中积累了很多经验,从 DQN、AlphaGo、AlphaZero 到 AlphaFold,这些项目都产生了深远影响。我们学会了如何围绕特定目标和使命,组织大规模团队开展工作。

我记得 DeepMind 早期,我们曾有 25 人共同参与一个项目,共同发表一篇论文——当时很多人都质疑「25 人怎么可能合作完成一篇论文」,但我们确实做到了。在科研领域,这种大规模协作并不常见,但我们通过有效的组织实现了。这种经验和思维方式,随着时间的推移不断演进,变得越来越重要。

而在过去两三年里,我们又融入了工程思维——我们有了模型的主线开发方向,学会了在主线基础上进行探索。

我觉得「深度思维模型」(Deep Think)就是一个很好的例子:我们用它参加国际数学奥林匹克(IMO)、国际大学生程序设计竞赛(ICPC)等顶级赛事。这些竞赛的问题难度极大,很多人会想为赛事定制专门的模型,但我们选择将其作为优化现有模型的机会。

我们坚信技术的通用性,通过赛事探索新想法,并将这些想法融入现有模型,最终打造出能参加顶级赛事的模型,再将其开放给所有人使用。

Logan Kilpatrick: 这让我想到了一个对应:以前是 25 人共同发表一篇论文,现在 Gemini 3 的贡献者名单可能已经有 2500 人了——很多人可能会觉得「 2500 人怎么可能都参与其中」,但事实确实如此。这种大规模协作解决问题的方式,真的很令人惊叹。

Koray Kavukcuoglu: 这一点非常重要,也是 Google 的优势所在。 Google 拥有全栈技术能力,我们能从中受益:从数据中心、芯片、网络,到大规模模型的部署,每个环节都有专家坐镇。

回到工程思维的话题,这些环节是密不可分的。我们设计模型时,会考虑它将运行的硬件;而设计下一代硬件时,也会预判模型的发展方向。这种协同非常美妙,但要协调这么多环节,确实需要数千人的共同努力。我们应该认可这种协作的价值,这真的很了不起。

Logan Kilpatrick: 这绝非易事。再回到 DeepMind 的传统:我们一直采用多元科学方法,尝试解决各种有趣的问题。而现在,我们已经明确这项技术在多个领域都有效,只需持续扩大规模。当然,这也需要创新支撑。

你认为在当今时代,DeepMind 如何平衡「纯科学探索」和「扩大 Gemini 规模」?比如「Gemini 扩散模型」(Gemini Diffusion),就是这种决策的一个体现。

Koray Kavukcuoglu: 这是最关键的问题:找到两者的平衡至关重要。

现在很多人问我,Gemini 最大的风险是什么?我认真思考过,答案是「缺乏创新」。我绝不相信我们已经找到了「万能公式」,只需按部就班执行即可。

我们的目标是构建通用智能,这需要与用户、产品深度绑定,但这个目标本身依然极具挑战性,我们并没有现成的解决方案——创新才是实现目标的核心动力。

创新可以有不同的规模和方向:在 Gemini 项目内部,我们会探索新架构、新想法、新方法;而作为 Google DeepMind 整体,我们还会开展更多跨领域的探索,因为有些想法可能在 Gemini 项目内部过于受限,无法充分发展。

所以, Google DeepMind 和 Google 研究院需要共同探索各类想法,然后将这些想法融入 Gemini,因为 Gemini 不是一种架构,而是一个目标:构建通用智能,让 Google 的所有产品都能依托这个 AI 引擎运行。

无论最终采用哪种架构,我们都会持续演进,而创新将永远是核心驱动力。找到平衡,或以不同方式推进探索,这至关重要。

Logan Kilpatrick: 我有一个相关的问题:在 I/O 大会上,我曾和 Sergey 聊过,当你把这么多人聚集在一起,共同发布模型、推动创新时,你能感受到一种「人性的温度」——这一点我深有体会。我当时坐在你旁边,也感受到了你的热情。

这一点对我个人来说很有意义,因为它也反映了 DeepMind 的整体文化:既有深厚的科学底蕴,又有友善、包容的团队氛围。很多人可能没有意识到这种文化的重要性,以及它如何影响工作。作为团队的领导者,你如何看待这种文化的体现?

Koray Kavukcuoglu: 首先,谢谢你的夸奖,这让我有点不好意思。但我确实相信团队的力量,也坚信要信任他人、给予他人机会。团队协作至关重要,这一点我也是在 DeepMind 工作期间学到的。

我们从一个小团队起步,在成长过程中始终保持信任。我认为,营造一个「专注于解决有影响力的复杂技术和科学问题」的环境,非常重要,这也是我们现在正在做的。

Gemini 的核心是构建通用智能,这是一个极具挑战性的技术和科学问题,我们需要以谦逊的态度去面对,不断质疑自己、优化自己。希望团队也能感受到这一点,我真的为我们的团队感到骄傲,他们齐心协力、相互支持。

就像我刚才在茶水间和团队聊的那样:「这很辛苦,我们都很累,但这就是构建前沿技术的常态。我们没有完美的流程,但每个人都在全力以赴、相互支持。」 而让这一切变得有趣、有意义,让我们有勇气面对挑战的,很大程度上是「拥有一支优秀的团队」,大家共同为技术的潜力而奋斗。

我可以肯定地说,20 年后,我们现在使用的大语言模型(LLM)架构肯定会被淘汰。所以,持续探索新方向是正确的选择。 Google DeepMind、 Google 研究院,以及整个学术研究社区,都需要共同推进多个领域的探索。

我认为,不必纠结于「什么是对的、什么是错的」,真正重要的是技术在现实世界中的能力和表现。

Logan Kilpatrick: 最后一个问题:我个人在 Google 的第一年多时间里,感受到了一种「 Google 逆袭」的氛围。尽管 Google 拥有强大的基础设施优势,但在 AI 领域,我们似乎一直在追赶。比如在 AI Studio 的早期阶段,我们没有用户(后来增长到3万人),没有收入,Gemini 模型也处于早期阶段。

而现在,随着 Gemini 3 的发布,我最近收到了很多来自生态系统各方的反馈,人们似乎终于意识到「 Google 的AI时代已经到来」。你是否也有过这种「逆袭」的感受?你相信我们能走到今天吗?对于团队来说,这种角色的转变会带来什么影响?

Koray Kavukcuoglu: 在大语言模型(LLM)的潜力逐渐显现时,我坦诚地说,我既认为 DeepMind 是前沿 AI 实验室,也意识到我们作为研究人员,在某些领域的投入还不够,这对我来说是一个重要的教训:我们必须拓宽探索范围,创新至关重要,而不是局限于某一种架构。

我一直对团队坦诚相待:大约 2.5 年前,当我们开始认真对待大语言模型、启动 Gemini 项目时,我们在很多方面都与最先进水平有差距,我们有很多不懂的东西,虽然也有自己的优势,但确实处于追赶状态。

这种追赶持续了很长时间,而现在,我认为我们已经进入了领先梯队。我对我们的发展速度、团队动态和协作节奏感到非常满意。但我们必须正视过去的追赶历程。

在追赶过程中,我们既要学习他人的优点,也要坚持自己的创新,找到适合自己的解决方案:无论是技术、模型、流程,还是团队运作方式,这些都是我们独有的。

很多人说「 Google 太大了,做事效率低」,但我认为这可以转化为优势。我们有能力做一些独特的、大规模的事情,比如让 Gemini 同步登陆所有 Google 产品。我对我们现在的状态很满意,但这是通过持续学习和创新实现的。这确实是一个很棒的「逆袭」故事。

当然,总会有各种比较,但我们的目标始终是构建通用智能——我们希望以正确的方式实现这一目标,并为此倾注全部心力和创新。

Logan Kilpatrick: 我觉得未来六个月可能会和过去六个月、乃至之前的六个月一样令人振奋。再次感谢你抽出时间接受采访,非常愉快!希望在明年 I/O 大会前我们能再聊一次。

虽然感觉还有很久,但时间肯定会过得很快。我相信下周就会有关于 2026 年 I/O 大会的规划会议了。再次祝贺你和 DeepMind 团队,以及所有模型研究人员,成功推出 Gemini 3、Nano Banana Pro 等一系列产品!

Koray Kavukcuoglu: 谢谢!这次交流非常棒。感谢团队的付出,也感谢你的邀请!

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Before yesterdayMain stream

AI 生成的歌首次登顶权威音乐榜,还把人听哭了?

By: Selina
14 November 2025 at 14:19

无人注意的角落里,权威榜单 Billboard 接二连三地迎来一批新歌手上榜,低调但行动快速,闷声就登顶了。

等一下等一下,大家发现:什么?又是 AI?

榜一《Walk My Walk》是 AI 生成的歌曲作品你,从数据来看,它不仅登顶了,还连续在榜了三周。对于任何一个新人来说,都是堪称「爆」了的成绩。

然而这不是人,只是 AI。Billboard 发现,登上自己榜单的 AI 歌手和歌曲,已经越来越多了。

冠军?什么来路?

其中一位 AI 歌手,Xania Monet ,出道两三个月,发过的歌却个个受欢迎。最新的《How Was I supoosed to Know?》在油管直接是百万播放量,这还没算 Tiktok 和 Instagram 的数据。

自夏天出道以来,Xania Monet 已在 Billboard 的多个排行榜上取得佳绩,不到两个月内,已创造超过 5 万美元收入。

AI 歌手并不是新鲜事,甚至,用 AI 做一个数字人形象,也不是新鲜事。但我确实想知道,Xania Monet 为什么会有如此的表现。

要知道,很多人不只是看不出来她是 AI,更加是觉得她的歌很好听,很动人。

这不高低得尝尝咸淡。听了几首之后,我很快意识到为什么:主题。

Xania Monet 的歌在旋律上并没有什么特别之处,这很正常,AI 生成的音乐,不会偏离主流形态太远,毕竟是数据算出来的。

唱法层面,该有的细节都有:颤音、转音、声区切换,但还是那句话,这些都是可以生成的。而且在一些细节上,还是有瑕疵。比如在一些高音时,很像是挂了 auto-tune,有点点轻微的「电音」感。

可是,她的歌全部围绕着当代人的 emo 情绪出发,歌词写得相当切中人心。

看看这个歌词,非常写实地描绘了恋人之中,只有一方付出,另一方只会闪躲的情态。这首歌就叫做《I asked for so little》,可以翻译成「我要的不多」,典型的苦情歌,受到欢迎完全不稀奇。

在这首《Still not choosing me》中,写的是为什么「我爱的人不爱我」,很常见的主题,经典永流传。没有人永远失恋,但总有人正在失恋着。

之前的视觉效果 AI 感还是很强,尤其是视频,基本上经不起细看。

但是到了她的大热单曲《How Was I supoosed to Know》,不仅是唱感情问题,还唱到了原生家庭伤痛:父母没有教过什么是好的「爱」,只能让孩子带着伤痕,「错把虚情当真爱」。

这不得掀翻了社交媒体,简直是 buff 叠满。

而且相比于早期简陋的动态歌词板,《How Was I supoosed to Know?》制作精良了不少,不仅没有粗糙的 AI 感,音乐编曲也好了不少。片尾一看,多了许多名字——背后有人了。

Xania Monet 出道没多久,就能够强势上榜,自然也引来了不少橄榄枝,很快就签了公司 Hallwood Media,经纪合约价值三百万美元。

难怪,有了公司,新歌档次都上去不少,登顶榜单也就不奇怪了。

等下,你说你去找了 Billboard,没看到这首歌?

登顶,但没完全登顶

这里的确有一个小小的信息差:Xania Monet 登上的是垂类电台榜单之一,Adult R&B Airplay Chart 成人 R&B 电台播放榜。

这是一个衡量美国成人 R&B 广播电台播放频率的榜单,以电台播放数据为口径。要知道,现在美国依然有大量覆盖全国或地区的 FM/AM 广播电台,这些电台每天仍然需要大量歌曲轮播,并且还是保持着人工编辑的体系。

Billboard 与一个叫 Mediabase 的监测机构合作,利用自动识别技术(audio fingerprinting),监控这些电台在每小时、每个地区播放了哪些歌,统计播放次数、时间段、地区等,最终形成榜单。

这意味着,Xania Monet 的歌想要被电台播放,仍然需要编辑加入到播放列表当中。她能登顶,恰恰意味着这些歌已经被不少 R&B 电台认可并轮播,进入了日常听众的耳朵中。

平时开着车、做着家务而随手打开电台的听众,可能根本不知道她是 AI 歌手。

这使得她登顶的榜单,意义更加独特:她恰恰是因为已经在社交媒体上很红了,才进入电台视野。

简单点说:Xania Monet 无论是在流量层面,还是在品质层面,都出现了一些「逆转」。尽管专业圈内人还是批评态度,一般听众却相当受感动。

类似的评论还有很多,般听众并不会细究创作过程,他们更关心歌曲本身能带来怎样的情绪体验。

不过,这并不意味着 AI 就已经登峰造极,可以写出打动人心的歌了——尤其是 Xania Monet 的例子里,她的旋律和演唱是由 AI 生成的,可是歌词,却完全是来自人类创作者。

Xania Monet 背后,是一位叫做 Telisha “Nikki” Jones 的创作者,她并非专业歌手,但是热爱写诗填词。今年她接触到了 Suno,尝试把自己写的诗歌和歌词输入进去,设定诸如「灵魂唱腔」「慢板 R&B 风格」「轻吉他配重鼓点」等一系列风格关键词,然后让 AI 创作出完整的歌曲。

歌词 100% 源自琼斯本人的经历和情感,例如《How Was I Supposed to Know?》,灵感正是来自 Jones 童年时就失去父亲的真实创痛,这些发自肺腑的诗句后来成为歌曲的核心。

歌词和主题的确是 Xania Monet 最出挑的地方,当然,歌曲和演唱也没有拖后腿,都是在平均水准之上的。主歌旋律通常舒缓真挚,副歌迸发情感张力。

在 Jones 的设定中,Monet 的嗓音突出灵魂乐质感,唱腔也一下就抓住了听众的耳朵。再加上歌词写得细腻动人,全部加在一起,这才能如此受到欢迎。

可以说,Xania Monet 提供了一个 AI 创作的「高分示范」:保证核心内容(主题歌词)的品质,同时完全原创,从而规避版权风险。从音乐作品到人设都走真情路线,而不是「为了 AI 而 AI」,把生成本身当噱头。

听众更容易把她看作一个有血有肉的新人歌手来欣赏,自然比面对一个夸张虚拟网红时更能产生好感。

最关键的一点:作品本身够打动人。这也是最「背反」的一点,回想我一开始听 Xania Monet 的歌时,已经知道了她是 AI,所以从未关注她的唱法,却能够一下子识别出歌词和主题是她的突出点。

这是不是意味着,AI 始终难以越过一道天堑,那种细腻幽深的情感,归根到底无法「生成」,只能来源于人自身。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


被时间拉长的人

By: Steven
31 August 2025 at 18:05

丢了一批人物标签给 AI 写人物小传,让它模仿某位小说家的笔法,来给演员交代角色。

你觉得这像谁的手笔?

————

南方的空气里常常有潮湿的味道,像是雨下过以后残留的影子,久久不散。城市白天拥挤喧嚣,夜晚却显得空旷,好像光亮突然被抽走,留下无数未完的句子。在这样的环境里,一个男人行走。他的脚步从不急躁,像对时间有着自己的节奏感,和别人不太一样。

年少的时候,他把自己交给了工业设计。形状、光影、比例,这些东西比人群更让他安心。六年在公司,十年在创业,那些日子像一张张被翻阅过的旧画册,色彩褪去了,但线条还在。产品的生与死,像车站里人群的来去。大多数人只看见成功或失败,他却更在意其中被忽略的细节。

别人眼中的他冷静得过分,总是习惯提前几步想好方向,就像棋局上的布局。但在那层冷静的外壳下,常常闪现一些不合逻辑的柔软时刻。比如一段旋律,随便一盏灯的影子,甚至一个不经意的眼神,足以让他停下手里的笔。理性和浪漫在心里不停打架,谁也没有赢过谁。

他知道自己带着黑暗生活。抑郁的日子像一条看不见的走廊,没有尽头。他学会了靠药物维持稳定,像有人随身带着一块怀表,偶尔瞥一眼,提醒自己仍然存在。那段经历让他对痛苦格外敏感,也让他在与人相处时多了一层隐秘的温柔。他不会轻易表现出来,但在内心深处,对别人的脆弱始终心知肚明。

夜晚经常独自坐在桌前,电脑屏幕的光照在脸上,桌上散落着草图和未完成的文字。那些想法有时像城市里的霓虹一样闪烁不定,无法全部抓住。他清楚其中大部分不会被记住,就像梦醒时遗落的片段。但仍旧一遍一遍画下去,像一种执念,也像是一种呼吸。

在喧闹的城市里,他习惯保持慢半拍的步伐。人群汹涌,他的节奏却像潜水时的心跳,缓慢、克制,不慌不忙。他看似与周围保持着距离,其实心里始终怀有一种模糊的渴望——不是要成为谁,也不是要得到什么,而是想在梦与现实之间找到某种入口。梦与梦之间,总有裂缝。裂缝里偶尔透进光。

对很多人来说,他是个不好接近的人。但真正靠近以后会发现,那些冷漠与安静只是表层,像水面下覆盖着的冰。深处的水仍然温热,流动着。理性、浪漫、痛苦和温柔同时存在,没有谁能完全把它们分开。

这样的人物,像一个在现实里造梦的旅人。他的路从不喧哗,却留下清晰的痕迹。

(*正文及标题均由 AI 完成)

❌
❌