Reading view

There are new articles available, click to refresh the page.

如何让 Kimi 的新 Agent 给我做国庆攻略,跟着 AI 旅游会踩雷吗?

国庆长假,AI 大模型献礼的方式是一波接一波的更新。

OpenAI 突然发布 Sora2,DeepSeek 更新了 V3.2,智谱更新了 GLM-4.6,Kimi 则是更新了 App,然后默默在自己的版本记录里面,写下了这句话。

Kimi 当然也有「献礼」,上周四,他们开启了Agent 模式的测试,推出了一项名为「OK Computer」的智能体。

和之前我们分享过的深度研究不同,OK Computer 能做的不止是一份可视化报告,而是直接给了我们一台电脑。我们用电脑能完成的事情,OK Computer 智能体都可以做到。

但能做,和做得好,还是有很大的区别。和之前一样,我们用实测带你来看看,Kimi 全新的 OK Computer 到底在 Agent 品类里面,表现如何。

AI 帮你策划一份国庆游玩攻略

首先是看看它的网站部署能力,速度比深度研究快上不少,但这个效果,我觉得还是比较「大众化 Agent」的水平,尤其是,部分页面的背景颜色,依然渐变紫。

▲ 提示词:我想做一个多页面的国庆旅游网站。要求: 1. 首页介绍「国庆去哪里玩」,推荐 3 个适合 3-5 天出行的国内目的地,内容要有趣味性。 2. 第二页是行程规划:每天安排吃、玩、住,输出表格。 3. 第三页是预算计算:帮我把费用拆解成交通、住宿、餐饮、门票四类,给一个大概价格范围,并能让我修改人数后自动更新预算。 4. 风格要 mobile first,适合手机浏览,页面清爽,最好有 emoji 装饰。
https://dpcbcrcmrjbym.ok.kimi.link/

内容上,布局和图片的选择很合理;但是推荐的地点,北京、杭州,而且还是西湖,国庆节去西湖,应该只能看到人吧,所以这个「国庆旅游网站」的开发,我认为是不能算出色。

而如果是让 OK Computer 直接帮我生成一份旅游路线,告诉他要扮演一个顶级的旅行定制师,设计两条彻底避开国庆黄金周的旅游路线。OK Computer 这次交付的成果,看起来很不错。

▲提示词:马上就是国庆黄金周了,我和 3 个朋友(共 4 人)想来一次为期 7 天的自驾游,我们的核心要求是「人少、景美、有深度」,彻底告别排队和人山人海。请你扮演一位顶级的旅行定制师,为我们设计两条风格迥异的「反向旅游」路线,并为每一条路线制作一份精美的、详细的幻灯片,方便我们内部投票决定。
https://3hhjy4acccol4.ok.kimi.link/

审美相当在线,这个字体、背景图片,颜色,都选的非常好,奈何我还是觉得内容稍显空洞,真正能帮到我旅行的内容,不算多。

大多数时候,我可能只是知道了有这些地方,但是我不知道我为什么要去,以及怎么去。而且,总是对这些内容,有一些不信任感,可能把一个 AI 推荐的景点和一张小红书滤镜的景点,同时摆在我眼前,我还是会选择小红书用户发布的帖子。

OK Computer 完成这两个项目都非常快,我们也用 Kimi 的深度研究尝试了一波,结果是,它花了快有一个小时的时间,最后生产了一份超过 50 页的预览报告。

▲ 受限于篇幅限制,全部内容可访问链接。https://www.kimi.com/preview/19984f16-9a42-89a6-8000-05d52a6374b9

由于深度研究和 OK Computer 不同,深度研究只有一个预览报告,且不能对报告再进行修改。

最近千问也更新了一大波新的模型,在他们的官方博客,我看到一个「旅行规划师」的智能助手,同样的需求丢给它,结果会比 Kimi 的 OK Computer 要更好吗?

▲10 页的 PDF,把时间段、活动类型、可能要消耗的油费都清楚地列举出来。https://chat.qwen.ai/s/15769740-974a-4fbb-b0bf-dd835ea999ec

答案是真的更好。Qwen 这个旅行规划师,完全利用了阿里的庞大生态系统,它不是简单的给几个景点,然后连成一条路线,而是会实际地调用高德地图,用明确的经纬度来确定合适的行程。这一点很像前段时间的飞猪 AI 旅行规划,毕竟也是一家公司。

其他 agent 产品的效果,和 Kimi 的 OK Computer 其实差不太多,ChatGPT agent 生成了一个 10 页的 PPT,一如从前的精简;而 Manus 也是一样,好看,但实用价值不多。

▲ ChatGPT agent 生成的内容,基于同样的提示词

不过 Kimi 的好处是,能产出类似结果的同时,不需要额外的网络设置。

此外,他们最近上线了付费会员方案,还可以将之前的打赏金额,全部抵扣为会员费,免费用户也能获得有限次数的 OK Computer 试用机会。

iPhone 和小米的 17 Pro Max 对比

同样基于 Kimi K2 的 Agentic 能力,OK Computer 会自动的浏览网页,进行相关内容的搜索,生成图片,来完成网页的设计。

这次的信息更加全面和准确,OK Computer 在搜索网页内容的时候,我看到基本上都是采用 the Verge 等国际科技媒体的信源,而在使用 Kimi 深度研究的过程中,使用的信息源大部分是简体中文的网页。

▲ 提示词:帮我生成一个动态响应式布局的网站,适合手机和电脑浏览。内容是「iPhone 17 Pro Max 和 Xiaomi 17 Pro Max 对比」。要求: 联网获取这两款手机的最新资料,要有核心卖点对比,做好看的表格,突出相机、芯片、电池、价格等方方面面。 要有这两个产品的横向比较,也要有纵向比较,例如是iPhone 17promax和 16 promax,还有小米 17promax 和 15 promax对比。还要给结论:哪个更加值得买?用简洁的 bullet point,总结优缺点。 每一页都要简洁,不要太多字,但是信息要足够,多用合适的配图。
https://rwsh4gkhckrxy.ok.kimi.link/

此外,OK Computer 也有图片音频生成的功能,像这张手机摄像头的拆解图,我第一眼看到觉得非常惊艳。

Agent 的交付:一个很惊艳的 Demo,但难落地

经过这些测试,倒不是说 Kimi K2 的 Agentic 能力不行,只是觉得 Agent 这类产品,大多数都还停留在「我可以做出来一个东西,但是这个东西不一定有用」的阶段。

做 PPT、商业分析报告、旅游路线规划、网页开发和部署等等,几乎所有的 Agent 都宣传自己能做这些;但是最后的成果,真正可以放心使用的,我想目前是很难找到。

▲ GPDval 是一项新的评估方法,用于衡量模型在上图 44 个职业中,具有经济价值的现实任务上的表现

前几天 OpenAI 新发布了一项基准测试,GDPval。它被称为是 AI Agent 举办的一场「职业技能大赛」。考题不再是学术问答,而是直接选取了,来自对美国 GDP 贡献最大的 9 个行业中的 44 个真实职业。

这些任务由平均拥有 14 年经验的资深专家(如律师、工程师、护士)设计,交付的内容也并不是纯文本,而是包含了幻灯片、电子表格、CAD 设计文件等在内的复杂格式,就像现在 Agent 交付的成品一样。

GDPval 的出现,其实就是要开始去解决,从「我能做」到「我能做好」这个阶段的问题。

▲ 专业评估员将对应模型的交付成果,与人类专家进行了比较。Claude Opus 4.1 在接近一半的任务(47.6%)中生成了被评为与人类同样好或更好的输出。

虽然是 OpenAI 的研究,但第一名还是 Claude Opus 4.1,我想这也是为什么 Claude 模型在编程领域能够广受好评,Claude 能写代码,但是也可以写出好代码。

关于 Agent 不能做好的原因,之前 OpenAI 前高管 Mira Murati 联合创立的 Thinking Machines Lab ,发布了一篇博客文章。在里面提到,大语言模型目前出现的不确定性问题,不是由于 GPU 随机性的计算,而是处理训练数据时,缺少批次不变性。

而另一个原因则是可用训练数据的不足。和训练一个 AI 生成一张图片、一个视频、一段文本不同,Agent 要交付的内容复杂,现实世界中的任务繁多,无法归类到某个单一的媒体类型。

▲ 和人类学习完成一项任务不同,大模型需要可以模拟的强化学习环境

目前我们经常看到的 Agent 任务,也大多数是集中在做一个 PPT、做一个网页、预订餐厅、代替我们刷社交媒体、自动购物等等,这仅仅只是现实世界里非常小的一部分,更不用说这些任务,没有明确的评估标准。

知名科技媒体 TechCrunch 最近报道,整个硅谷正在豪掷千金,为 Agent 构建名为「强化学习环境」(RL Environments)的模拟训练场。这些「环境」被一些 AI 公司创始人形容是非常无聊的电子游戏,一个模拟的浏览器、一个模拟的购物网站、一个模拟的代码编辑器。

▲ 为了验证 Agent 任务完成情况,需要将整体任务分解成更小的步骤,并创建一个评分标准,来检查 AI 模型是否正确执行了每一个步骤。图片来源:https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers

AI Agent 在这样的「环境」里面,像一个新手玩家,通过一次次尝试、失败、获得奖励,来学习如何独立完成购买商品、修复代码等一系列,多步骤的复杂任务 。

当年李飞飞靠着海量标注的数据集 ImageNet,让计算机视觉往前迈了一大步,她也被大家称为「AI 教母」。

现在 Agent 的发展,看起来也是这样,如果没有大量标注的「强化学习环境」任务,Agent 很难成为,像人脸识别这样可靠的深度学习技术;尤其是在「炼丹」这个本质没有改变的情况下。

▲OK Computer 专辑封面,这是英国摇滚乐团电台司令 Radiohead,1997 年发行的第三张录音室专辑,距离现在已经快三十年的时间了,曾获得百大专辑等多个奖项

Kimi一如既往地喜欢摇滚。从公司名 Moonshot(致敬 Pink Floyd)到这次的 OK Computer(致敬 Radiohead)。
在 Apple Music 的专辑介绍语里面,形容 OK Computer 这张专辑,表达了人们在千禧年前夕,对新技术的探索和反思。

尽管弥漫着恐惧忧郁的情绪,《OK Computer》仍保有希望,传达了社会前进之路未必会让我们失去善良的信念。

 

如果你对因科技而加快的生活节奏,感到难以招架的话,其实解法很简单,正如 Yorke 在结尾曲〈The Tourist〉最后所唱的:「傻瓜,放慢脚步吧」(Idiot, slow down)。

今天 Kimi 推出的 OK Computer,似乎也是表达科技正在改变我们的工作习惯、加快我们的生活节奏。但很显然,目前市场上的 Agent 产品,很难真正做到让我们难以招架。

无论是 Kimi 还是 ChatGPT,还有更多的同类 Agent 产品,他们在发布的时候,往往都会说,我们的 Agent 有这些功能,能做什么,却很少说,我们的 Agent 能做成什么。

不用放慢脚步,真正的 OK Computer 还在用力追上我们。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


曝 OpenAI 将推出「AI 抖音」:禁止上传实拍内容,Sora 2 加持

这两天的 AI 圈,更新速度快得让人喘不过气,哪是要让人放假的样子。

昨天 DeepSeek 更新了 V3.2-Exp 模型,Anthropic 凌晨就紧跟着发布了性能更强的 Claude 4.5。

正当大家都在爆料牌桌上的其他巨头何时出手时,行业领头羊 OpenAI 的「王炸」似乎已经提前被剧透了,那就是 Sora 2。

▲ 视频链接:https://x.com/OpenAI/status/1972416122613014556

最近,OpenAI 不仅在 X 平台连发多条神秘视频,引爆社区对 Sora 2 的猜想。

一则来自《连线》杂志的重磅爆料更是指出:OpenAI 的下一步棋,并非简单升级一个模型,而是要亲自下场,推出一个独立的 AI 视频社交 App,一个酷似抖音,但内容 100% 由 AI 生成的全新平台。

奥特曼曾经发 X 说,未来几周,OpenAI 将推出一些新的计算密集型产品,且最初只会向 Pro 用户开放。而需要大量算力的,不正是视频生成吗?目前 Sora 也仅面向 Plus 和 Pro 用户,传闻已久的 Sora 2 真的要发布了。

▲ https://x.com/sama/status/1969835407421374910

AI 视频也要迎来它的「吉卜力」时刻了。

揭秘「Sora 2 App」:一个怎样的 AI 抖音?

从目前曝光的信息来看,OpenAI 正在测试一款名为 Sora 2 的短视频应用,乍看之下,它就是一个 AI 版抖音。但最颠覆的一点是,在这个平台上,我们看不到任何真实拍摄的内容。

▲ TikTok 应用截图

它的界面和交互,与我们熟悉的短视频 App 几乎一模一样。采用竖屏信息流,和滑动切换的导航方式的视频源,并由推荐算法为我们提供「为你推荐」的内容。

在视频的右侧下方,同样提供了点赞、评论等互动选项,甚至还有一个独特的「Remix」(再创作)功能。

▲ OpenAI 去年 12 月正式推出了 Sora,很快被整合到 ChatGPT 应用中,图为 Sora 网页版截图。OpenAI 指出它存在一些局限性,例如似乎并不完全理解物理学,在制作逼真的动作场景时尤其困难,尤其是在较长的片段中。目前,1080p 超高清分辨率仅支持生成 10s。地址:sora.chatgpt.com

根据文件显示,用户只能使用 OpenAI 的下一代视频模型 Sora 2,生成最长 10 秒的视频片段。并且,App 不提供任何从手机相册或其他应用上传照片或视频的选项。这意味着,这个平台将成为全球首个内容 100% 由 AI 生成的短视频社区。

用数字分身来做社交

如果说纯 AI 生成内容还只是概念上的不同,OpenAI 还要为这个短视频 APP 引入社交的功能。

Sora 2 应用具有身份验证的功能,即允许用户确认自己的「肖像」(likeness)。一旦验证通过,就可以在生成的视频中,使用自己的形象。

更有趣的是,社交的边界被进一步打破。你的朋友也可以在他们的视频里标记你,使用你的「数字分身」。

▲ AI 图片视频生成平台即梦,也提供了数字人生成。

举个例子,我们可以直接使用别人的数字分身,生成一个视频,内容是「你和朋友在从没去过的主题公园,一起坐过山车」。

为了保护用户隐私,数字分生这项功能,也设置了提醒机制。每当你的形象被他人使用时,无论对方是公开发布,还是仅仅保存在草稿中且从未发布,你都会收到通知。

这款应用上周已经在 OpenAI 内部发布,并收到了员工压倒性的积极反馈。据连线杂志的消息,员工们使用得非常频繁,以至于一些管理者开玩笑说,这可能会影响生产力。可能真的跟刷抖音一样会上瘾?

为什么 OpenAI 要亲自下场做社交?

答案或许和 ChatGPT 的成功路径如出一辙。

OpenAI 似乎在押注,Sora 2 这个 AI 版抖音,能让我们与 AI 视频的互动方式发生根本性改变,就像 ChatGPT 让大众第一次真正体验到 AI 文本的潜力一样。

▲ 社交榜和娱乐榜第一名分别是 Meta 的 Thread 和 TikTok

当然,也不是只有 OpenAI 想到了 AI 视频社交这条路,就在上周,Meta 在它们的 AI 应用中,推出了名为「Vibes」的新功能。这是一个 AI 生成短视频的新平台,集创作、分享与社交功能于一体。

用户可通过浏览、创作、或二次创作(Remix)来生成自己的 AI 视频,并将视频快速分享到 Vibes、Instagram、Facebook 等 Meta 社交平台。

▲ Vibes 视频生成界面截图

Google 也早已宣布,计划将自己最新的视频生成模型 Veo 3 整合到 YouTube 中。一个是坐拥最大的社交网络平台,一个是最大的视频分享平台,OpenAI 的 AI 视频社交之路看起来,也并非一片坦途。

从一个聊天机器人,到一个可能的内容社交平台,OpenAI 的野心,在于建造下一代的互联网入口,而这个入口,完全由 AI 驱动。

这种野心并非空谈,就在今天,OpenAI 推出了其商业化布局中最重要的一步棋,在 ChatGPT 内直接购物。

用户现在可以在与 ChatGPT 的对话中,直接购买来自 Etsy 甚至 Shopify 商家的商品。当我们跟 ChatGPT 聊天,问到「适合送给陶瓷爱好者的礼物」时,ChatGPT 不再只是给一个链接,而是直接展示商品并提供一个「购买」按钮,不需要离开聊天窗口,几下点击就能完成支付。

▲ 这项名为「即时结账」(Instant Checkout)的功能,背后是 OpenAI 与 Stripe 联合开发并开源的「代理商业协议」(Agentic Commerce Protocol)。通过这个协议,OpenAI 正在为 AI 时代的电商制定新的规则。

电商、视频、社交、生产力,当这些过去分散在不同 App 中的功能,开始被一个统一的 AI 入口所整合时,OpenAI 的 Open 原来是「我全都要」。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


海外卖爆的 AI 卡片在中国发售,入口比模型本身更重要

在 AI 硬件圈,有一张「小卡片」悄悄火了很久。

它像一张银行卡,厚度不到 3mm,能吸附在手机背面。这枚名为 Plaud Note 的设备,只为一件事,记录对话,并用 AI 帮助用户挖掘对话中的价值。这个简单直接的思路,让它在全球积累了超过 100 万用户。

9 月 22 日,这张小卡片背后的团队 Plaud,终于带着它和功能更强的升级版 Plaud Note Pro,在深圳召开了中国内地的首场发布会。

在国内,记录对话的 AI 产品现在看来是一片红海,前有科大讯飞这样的巨头一直深耕该领域,后有层出不穷的公司跟进,像是钉钉、Anker、360 等。

Plaud 的回归,不仅是一个产品发布,更像是新一代硬件创业浪潮的一个缩影。这些企业,它们从诞生之初就拥有全球化视野,在海外市场证明自己后,再带着技术与理念进入中国。

这份技术和理念,能否经得起国内用户的检验,一起看看他们发布了什么产品。

和 AI 的实时协同,从一张卡片开始

「意图」,这是整场发布会我听到最多的词,大模型如何理解我们的意图,大模型最想要什么,我们为什么设计这个产品?

答案都回到了「意图(intention)」,Plaud 合伙人兼中国区 CEO Peter 不断重复这个词,来解释大模型时代,不仅仅是处理原始数据,而是要理解我们的意图,才能真正突破智能的边界。

▲ Plaud 合伙人兼中国区 CEO Peter(莫子皓)

Plaud 此次的旗舰新品 Plaud Note Pro,最大的亮点在于首次实现了「人与 AI 的实时协同」 (Human-AI alignment in real time)。

想象一下,在会议中,当讨论到关键决策或重要数据时,不需要打断对话,只需轻轻一按机身上的按钮,就能实时将这个时间点,和相关信息同步给背后的大模型。

这等于在告诉 AI:「注意,这里是重点」。而通过这种方式,大模型能够更好地理解,对话的语境和我们的意图,从而生成更精准、更具洞察力的摘要。

这跟平时我们和大模型沟通,写了一大堆 prompt,是不一样的;因为我们输入的文本,是没有时间维度的。

Plaud 则是让 AI 从一个录音结束后,被动整理信息的工具,变成了在对话发生时的智能伙伴,实时地与我们的意图对齐。

为了实现高效的记录,Plaud Note Pro 在硬件上的亮点,也集中在了更丝滑和无缝的体验上。

当被问及产品为何「能用且好用」时,Peter 显得颇为自信,他提到 Plaud 创始人团队,有做手机、造机器人的,做现在的产品属于「降维打击」。

这种经验,也的确保证了基础体验的可靠,Peter 分享其他用户的体验评价,「连蓝牙那一刻,就知道这个团队不简单」,因为 Plaud 的蓝牙连接体验,同样非常丝滑。

首先是轻薄,机身是银行卡般的大小,厚度仅为 2.99mm,重量 30g。这种对极致轻薄的追求,也带来了妥协。在沟通会上,当被问到充电接口,并非通用 Type-C 的问题。

团队坦言,这是为了保证产品极致轻薄而做的取舍,但也收到了很多用户的反馈,正在努力寻找解决方案。目前采用的充电方案,是类似大部分手环的触点充电。

第二是专业的收音,Plaud Note Pro 内置 4 个全向 MEMS 麦克风阵列,配合 AI 声学波束成型技术,可在最远 5 米的范围内,实现录音棚级的音频捕捉。

对比前代产品,Plaud Note Pro 还可以通过算法自动识别,录音环境是电话通话,还是面对面对话,而不需要手动切换录音模式。续航方面,单次充电可支持最长 50 小时的连续录音,满足一周的工作需求。

硬件作入口,软件是核心

「能不能不买你们的硬件,只用你们的软件?」

面对这个问题,Peter 的回答很坚决:「我们不做这种事情。」

他认为,做单纯的软件服务会分散精力,更重要的是,Plaud 坚信软硬件结合才能提供最佳的智能体验。

这背后,是 Plaud 「AI 原生科技公司」的自我定位。硬件只是捕捉信息的入口,真正的处理和价值生成,都发生在云端的 AI 引擎 Plaud Intelligence 中。

▲ Plaud 网页版首页

对比前代,除了音频,现在还可以捕捉文本、图片信息,并结合「一键标记」功能,为 AI 提供更丰富的上下文,具备多模态能力。

其次就是和大部分 AI 纪要产品、以及通义听悟类似的功能,通过优化整合 DeepSeek R1、千问、豆包等多个大模型,将语音转写成文字,还能区分不同的发言人,并支持多达 112 种语言。

在模型的选择上,Plaud 的策略并非「兼容并包」,而是「只支持最好」。

Peter 坦言,在中文转写上,国内模型表现更好;但在更深层的因果关系和深度思考上,海外顶尖模型仍有优势。但他们仍然坚持使用「最贵、最好」的模型和服务,因为「更好的价值」本身就是产品的核心,而非成本。

基于在海外的两年运营,Plaud 内置了从全球 3000 多个模板中优选出的专业模板,覆盖不同行业和领域。它可以根据你的角色和习惯进行智能推荐,从多个视角分析对话,提供更丰富的总结。

▲ 模版社区

最后一项是 Ask Plaud,和知识库的 AI 问答一样。我们可以基于录音的完整上下文,向 AI 进行深度提问,所有答案都能追溯到录音文件具体的信息来源。新版本还增加了智能建议追问、跨文件查询等功能。

以上所有功能,用户都可以通过 Plaud APP(支持 iOS 和 Android)及网页端来实现。

多款海外产品首次在中国区推出

除了旗舰 Plaud Note Pro,Plaud 还带来了另外两款针对不同场景的产品,它们都支持全新升级的 Plaud Intelligence,也同样是需要配合手机 App 使用。

Plaud NotePin S,可穿戴的 AI 纪要产品,它的前代是已经在海外发售的 Plaud NotePin,目前这款在中国区首发的新品,主打「解放双手,随心记录」。

主要的特点是,它可以通过项链、手环、背夹、磁吸片等多种方式佩戴。同时,它的重量只有 17.6g,拇指般大小,但续航也做到了 40 天待机,和 20 小时连续录音,并配备 64GB 存储。

Plaud Note,卡片式 AI 纪要开创者,这是一款在 2023 年就推出的产品,而到现在,市面上已经有相当多的公司,在做同样类型的卡片式 AI 纪要产品。

尽管 Plaud Note Pro 在性能上提升明显,但据 Plaud 合伙人兼全球销售负责人 Raymond 介绍,经典款 Plaud Note 在海外依然维持着非常高的销量,因为「有很多消费者,还是喜欢这种机械拨动的形态」。

▲ Plaud 合伙人兼中国区 CEO Peter 莫子皓(左);Plaud 合伙人兼全球销售负责人 Raymond 孙驰(右)

当被问到如何在国内众多同类产品中脱颖而出时,「用户价值」是创始人提到最多的词。他认为,为用户带去 SOTA(最佳)的体验,是 Plaud 应对竞争的态度 。

目前,Plaud Note Pro、Plaud Note、Plaud NotePin S 三款产品,已经在国内主要电商平台发售,具体的发售价格如下。

▲ Plaud Note 1149 元,Plaud Note Pro 1299 元,Plaud NotePin S 1249 元

而针对每款设备都能用上的 Plaud Intelligence,也有标准版、专业版、和卓越版三个会员计划,主要的区别体现在,可录音的时长限制,分别是 300 分钟、1200 分钟、和无限时长,对应的价格是免费、339/年、和 1099/年。

而国内版和国外版的 Plaud Intelligence 订阅价格也有所不同,国际版配置了像 Gemini 2.5 Pro、GPT-5、以及 Claude 4 这些模型,所以专业会员的订阅价格是在 99.99 美元(人民币 700 多),而国内版则是 DeepSeek、豆包、千问等模型。

APPSO 也第一时间拿到了 Plaud Note Pro 产品,根据发布会现场透露的信息,Plaud Intelligence 将在下个月更新跨平台同步、多维度解读等多项功能。我们也会在更新之后,同步分享我们的使用体验。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Chrome 迎来大更新,刚刚登顶 App Store 的 AI 可以直接用了

你应该也有类似的浏览器使用体验,就是当你曾经打开过一个标签页,但是忘了给它添加书签;下次再想找到它时,只能去历史记录里面翻个半天,还不一定能找到。

前些天,我们介绍 Google AI 全家桶的产品指南,它的浏览器 Chrome 被排除在外。

一方面,这是个传统的老牌浏览器,几乎每个人的电脑都有安装一个;另一方面,浏览器本身好像就是没有任何 AI 功能,找标签页这个场景,除了依赖第三方扩展插件,我们只能去翻历史记录。

但是现在,Chrome 进行了自 2008 年发布以来最大的一次升级,找不到的标签页,点击右上角 Gemini 的小图标,一句话就能解决。不管你喜不喜欢,它也是一个 AI 浏览器了。

▲ Gemini in Chrome

点击右上角的 Gemini 图标,我们可以与 Gemini 进行跨标签页的对话

Chrome 不再是一个被动打开网页的工具,Gemini 的引入,让它变成一个能主动帮我们干活的智能伙伴。Gemini 助理、AI 搜索模式、智能体、以及一系列新的安全和便捷功能都来了。

Chrome 在自己的 YouTube 频道和官方博客,发布多条内容,介绍这个「历史全新」的浏览器。我们第一时间研究了所有新功能,可以负责任地告诉你,这不只是加了个聊天机器人那么简单,我们的上网方式可能真的需要一点时间,来学习和适应这个更聪明的浏览器。

信息过载?AI 帮忙画重点,几十个网页秒变一份精华纪要

这可能是打工人和学生党最狂喜的功能。想象一个场景,老板让你半小时内调研完一个行业,或者你需要为论文快速消化十几篇文献。过去,我们只能一篇篇点开,匆忙地在多个标签页切换。

现在,打开这些网站标签页,然后呼叫 Gemini,它就能像一位专业的助理,跨越多个标签页进行阅读、对比和总结。

▲ Gemini in Chrome 能够获取多个标签页的上下文信息

我们可以直接问它:「这几款相机的优缺点分别是什么?」或者「帮我把这些资料整合成一份旅行计划」。它甚至还能找到 YouTube 视频里的关键信息,我们不需要额外的第三方插件,就能得到一样的 YouTube 视频总结。

从大海捞针到 AI 直接递上答案,这效率提升可不止一点半点。

动口不动手,你的浏览器助理未来什么都能干

如果说「总结资料」只是开胃菜,那接下来的「智能体能力」(Agentic Capabilities)就是 Google 为我们描绘的未来图景。

简单来说,和所有智能体一样,我们负责下命令,浏览器负责跑腿。也和所有关于智能体能力的演示一样,我们只能用智能体来预订餐厅,买生日礼物。

Google 提到在未来几个月,通过结合 Google 强大的应用生态,YouTube 视频、Gmail 邮箱、Calendar 日历、以及办公套件等,我们可以直接对 Chrome 说,「帮我订一份常吃的那家沙拉。」、「预约下周三下午的美发。」、「把这些东西加到我的购物车里。」

▲ 集成在 Chrome 里面的 Gemini,有能力为我们处理一些简单的重复性任务

Chrome 会在我们授权后,自动在网页上进行点击、填写、下单等一系列多步骤操作,而我们全程只需监督,随时可以叫停。

虽然听起来有点像 ChatGPT agent 之前演示的功能,但其实就是这样。我觉得智能体的能力,还没有被真正的挖掘出来,专门开发一个 AI 浏览器用来预订餐厅,听起来怎么都不划算。

Chrome 即将更新的智能体能力,我的期待是,我们生活中真正的琐事,可以从需要 30 分钟的处理,变成 3 次点击。

地址栏,现在是 AI 全能框

Chrome 那个我们每天都要用无数次的网页地址栏,现在也升级成为 Omnibox 全能框。

当我们访问一个网页时,地址栏会根据页面内容,智能地为你推荐一些我们可能想问的问题。

比如正在看一款床垫,它可能会提示你:「这个东西的保修政策是啥?」。

▲ AI 模式在地址栏中直接可用

此外,跟我们之前介绍的 AI Mode(AI 模式)有关,现在我们不需要去专门的 Google 搜索地址,直接在地址栏,就能开启 AI 模式。一些更复杂、更开放、需要深度研究的问题,AI Mode 都能做到。

比如「给我推荐几款适合小户型的复古风咖啡机,预算 1000 元以内」,AI 会直接在侧边栏生成一份详尽的报告,无需跳转。

AI 除了用来提升效率,也让 Chrome 更安全

聊了这么多 AI 的功能,安全也是 Chrome 非常在意的一个因素,Chrome 大概想说,不要觉得只有你 Safari 在保护隐私安全。

这次主要是利用 Gemini Nano 模型,能更主动地识别和拦截,那些诱导我们下载有害软件的诈骗网站。

以及对通知更加智能的管理,AI 会自动识别那些垃圾、诈骗类的网站通知,并帮你「一键退订」。Google 称仅在 Android 端,这项功能,每天就能为用户减少约 30 亿次骚扰。

密码的保护也得到了更新,当密码不幸泄露时,Chrome 未来将能像一个密码特工一样,在支持的网站上,直接帮我们一键完成密码修改。

▲ Chrome 可以通过一次点击,修复泄漏的密码

在 Chrome 中的 Gemini,此前是 Google Labs 的项目,仅针对 AI Pro 和 Ultra 用户。

现在 Chrome 的这些更新,支持在美国且将英语设置为首选语言的全部用户,支持 Mac 和 Windows 版本;而 Android 和 iOS 版本也将很快推出,里面部分功能在持续更新中。

🔗 官方使用指南帮助:
https://support.google.com/gemini/answer/16283624

我们之前也多次讨论过 AI 浏览器的形态,无论是 the browser company 曾经推出的 Arc,还是后面集成了更多新功能的 Dia,现在被卖给 Atlassian。

还有 Perplexity 推出的 Comet,最近应该正式向大部分用户开放了,不需要漫长的 waitlist 等候。

以及前段时间微软称 Edge 也正式升级为 AI 浏览器;和关于 OpenAI 的 AI 浏览器传闻。

和这次的 AI Chrome 类似,它们的模式甚至都可以被总结成一个侧边栏,和一个像 ChatGPT 首页的启动页面。

▲ 根据 statcounter 统计数据,Chrome 市场份额全球领先

但是,Chrome 和它们不一样的是,这是一个在全世界范围都遥遥领先的浏览器。今天的更新,可能标志着「AI 浏览器」这个概念,真的要从一些少数派的探索,走向更大众化的讨论。

呈现 AI 最好的形态不是浏览器,那 AI 浏览器最好的形态又该是什么样。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


击败 ChatGPT 登顶 App Store!Google 这套 AI 全家桶,个个都是王炸 | 附使用指南

还以为 ChatGPT 会一直稳坐第一?这周却来了个反转。

Google Gemini 凭借最近爆火的 Nano Banana 图像编辑,一举登顶 App Store 免费榜,把 ChatGPT 挤到第二。

▲ Gemini 位于 App Store 免费榜所有类别第一,图片来源:https://apps.apple.com/us/charts/iphone/top-free-apps/36;15/09/2025

这意味着,Google 终于迎来了属于自己的「爆款 AI 时刻」。

而且,Gemini 只是冰山一角。Google 手里还有一整套 AI 工具,从写作、画图,到学习笔记、视频生成,应有尽有。今天就带你开箱 Google 的「AI 全家桶」。

省流版:

  1. Gemini,定位和 ChatGPT 一样的通用助手:包含了 nano banana(近期热门生图模型)、Canvas 画布、Veo3 视频生成、Storybook 故事板、以及 Deep Research 等功能,目前提供 Gemini 2.5 Pro 和 Flash 两个模型。体验地址:gemini.google.com
  2. NotebookLM,能深入研究的知识库:最多可上传 300 个文件,能将文档总结为音频、视频、思维导图等六种类型,是学习和研究的最佳利器。体验地址:notebooklm.google
  3. Flow,高质量的视频生成:支持竖屏 9:16、1080p 高清,价格更低,免费用户每月送 100 积分。体验地址:flow.google
  4. AI Mode,搜索也有了推理和思考能力:在 Google 搜索输入框就能直接开启,获取比 AI Summary/Overview(总结)更严谨和翔实的结果;目前支持英文等五种语言(但目前不包含中文)。体验地址:google.com/ai
  5. Gemini CLI:一个万能的本地助手:不只是开发工具,还能下视频、转 GIF、压缩文件。体验地址:github.com/google-gemini/gemini-cli
  6. AI Studio 和 Labs Google:其他有意思的小工具,生成一段音乐,简单学习一门新的语言,体验最新、最全的 Google 大语言模型……体验地址:ai.devlabs.google

Gemini:不只会聊天,更是全能工作台

近期爆火的 nano banana,最主要的官方渠道除了网页版,就是 Gemini App。

▲ Gemini 首页,有常驻提醒推广 nano banana 图像编辑模型

但如果你只拿 Gemini 来 P 图,那就太浪费了。它和 ChatGPT 一样,补齐了跨对话的「记忆」功能,并能与 Google 生态无缝衔接。

▲ Gemini 的「记忆」功能

对我而言,这个关键更新,加上教育邮箱赠送的 Pro 会员,足以让我将大部分日常对话转移过来。

Google 最近更新了 Gemini 免费和付费用户具体的使用限制。免费用户使用 Gemini 2.5 Pro 和 Deep Research 的次数有限,但是 nano banana 的单价非常便宜,所以免费用户也有慷慨的 100 张生成机会。

Gemini 2.5 Pro 最大的优点是,每个回答都会有像 DeepSeek 一样清晰的推理过程,但是速度要快上不少。这在 ChatGPT 更新到 GPT-5 之后,采用全新的路由控制,自动选择模型,优势更为明显。

因为 ChatGPT 有时候判断不了,我到底希望他使用什么模型来回复;而我的表达,也不是每一次都能清晰地,让模型知道我的意图。

不过,更会聊天的代价是更不会干活,和 LMArena 显示的排行榜一样,文本能力第一,但是网页的开发能力不及 GPT 和 Claude。好在这些天,Google 也是狂给 Gemini 打补丁,在软件交互上,用户体验越来越好。

▲Gemini 和 ChatGPT 完成同一个开发任务,你喜欢哪个

例如,在网页开发方面,Gemini Canvas 现已支持直接点选应用中的某个元素,用自然语言即可进行修改。

Canvas 画布和 ChatGPT 的画布预览是一样的功能,都是非常直观地,把我们的创意,变成应用程序、游戏、信息图表等内容。

▲ Gemini 画布新增功能,选择并询问。现在只需点击元素并描述所需更改,即可直观地编辑您的网页应用的任何部分。图片来源:https://x.com/GeminiApp/status/1965475292526551105

其次,Gemini 终于支持上传音频文件。这意味着,会议录音、采访视频等包含丰富上下文的材料,可以直接交给 Gemini 处理,省去了手动整理和编写复杂提示词的麻烦。

▲ ChatGPT 一直回复无法使用工具

最新消息,根据 flowith 创始人 Derek Nee 和 Gemini 3 工程师团队的交流,他发 X 透露,Gemini 3.0 Flash 的能力将会超过 2.5 Pro。

和 ChatGPT 使用的条件类似,Gemini 对谷歌账号的归属地可能有额外的限制。

🔗 体验地址:gemini.google.com

NotebookLM:你的最佳个人知识库

收藏了一堆英文长文、书摘,结果总是「下次再看」?NotebookLM 就是专门拯救这些吃灰资料的。

你只要把几篇文章、报告甚至书摘丢进去,它就能:

  • 自动帮你提炼要点,生成一份条理清晰的学习笔记;
  • 如果你喜欢可视化,还能直接画成思维导图,让你一眼看懂文章框架;
  • 想进一步学习?它还能基于这些资料出小测验,逼你复习巩固。

举个例子,我之前用它来整理过论文,NotebookLM 最多支持上传 300 个文件,支持的文件类型也很丰富,PDF、txt、Markdown、和音视频文件,它都能识别。

▲ 我将 297 篇同一研究领域的论文上传,NotebookLM 能完全基于这些文件,生成多种形式的内容总结。

▲ 文字报告、播客预览、视频介绍、思维导图、闪卡和小测验六种形式

播客和文字报告,是 NotebookLM 里面最早提供的选项,现在它们也得到了优化。

文字报告可以选择,直接生成为博客、说明文档、指南等类型,甚至 NotebookLM 会根据知识库里面的资料,提供动态建议;例如,上传论文可能会建议创建白皮书,而新闻类文章可能会生成解释性内容;自定义的提示现在也被允许。

▲ NotebookLM 生成的博客文章

而音频播客现在更是支持 80 多种语言,播客类型也从概述到深入,进一步扩展到辩论和批判性思考等多种类型。

新增的视频、Quiz 测验和 Flashcard 闪卡,是我非常喜欢的功能,无论是帮助我消化这些知识,还是做进一步的内容传播,NotebookLM 都非常有用。

但论文的研究终究是比较小众的场景,我们只是借着论文来介绍 NotebookLM 的功能。对于学生和研究者来说,这绝对是 Google AI 里最值得安利的工具之一。

在更普遍的应用场景中,它能胜任任何类型的知识库构建。像是 NotebookLM 官方给出的使用案例,上传了多家公司一季度的财报,我们可以透过思维导图,一次性清晰的了解财报的具体内容。

还有 NotebookLM 与 OpenStax(免费教科书提供平台) 合作,将它们受欢迎的内容,转化成交互式笔记本,包括生物学、化学、心理学、以及管理学等主题笔记本。

在这个心理学知识库中,每一章节都配有小测验和记忆卡片,帮助我们巩固所学知识点。

▲ 语言是可以选择中文,知识库链接:https://notebooklm.google.com/notebook/90a2ee5f-cccb-4c28-a356-bb1682cc8aeb

小测验和闪卡的主题、难度都是可自定义的。而且,无论是闪卡还是测验,只需点击解释,就能深入探索当前的话题;NotebookLM 会生成详细的概述,帮助我们理解闪卡定义,或解释为什么答错某道题,并附有引用指向原始资料。

🔗 体验地址:notebooklm.google

Flow 电影级 AI 视频生成

AI 视频热度虽高,但能用它做什么?始终是许多人心中的疑问。我们介绍过多个 AI 视频生成模型,不少读者也曾留言:这种 AI 视频,究竟是给谁看的?

▲ 在 Gemini 里面,直接使用 Veo 3 视频生成,Veo 3 目前仅支持首帧,首尾帧需要 Veo 2。

Google 的更新或许给出了部分答案:支持竖屏(9:16)和 1080p 高清。这无疑是为抖音、YouTube Shorts、Reels 等短视频社交媒体平台量身定做。

▲ Veo 3 近期更新,Veo 3 Fast 从 0.4 美元每秒降价到 0.15 美元每秒,以及支持 9:16、1080p 等。图片来源:https://x.com/GoogleAIStudio/status/1965436154762920074

如今 AI 视频已成为一种新的内容消费品,与其被动观看,不如亲自上手一试。

▲ 提示词:Ultra-realistic cinematic video of Shanghai, famous landmark Tower. Shot in vertical 9:16 format, travel vlog style, smooth camera motion, dynamic lighting, vivid colors, highly detailed, immersive atmosphere, no text, no watermark.

除了 Sora、可灵、海螺这些比较热门的视频生成模型,Google 的 Veo 3 一直在大模型竞技场,文生视频类别下,名列前茅。

前些时间爆火的第一视角穿越、ASMR 切水果,金属、兔子蹦床的夜视监控等视频,都是使用 Veo 3 生成的。

▲ 提示词:50mm camera, close-up angle of a lemon made out of yellow-tinted glass being sliced horizontally on a wooden cutting board. The inside of the fruit is glass as well with a little bit of melting glitter. The entire scene is soft lit from the above.

不过,提示词的优劣,是决定视频质量的关键瓶颈。例如上面这个视频,我们就是直接借鉴了 Google 的官方案例。

他们解释,好的提示词,包括三个部分,首先是「50mm 相机、特写镜头」指定了相机;接着中间一大段用来提示对象和具体的视频内容;最后一句话是进一步明确灯光和纹理。

Flow 对网络要求比较严格,一般在 Gemini 网页或者 App 内使用同样足够。

🔗 体验地址:flow.google

AI Mode 支持除英文外更多语言

搜索是最大的流量入口,因此 AI 浏览器成了大模型厂商的必争之地,尽管这条路并不好走。

Arc 项目宣布停止后,重启的 Dia 浏览器也在前几天,被 Atlassian 以 6.1 亿美元收购。路不好走的原因倒不是因为没有利益,而是太多巨头想要吞下这块香饽饽了。

微软在上个月宣布自己的 Edge 升级为 AI 浏览器,Copilot 无缝接入到浏览器的每个角落,预订餐厅和机票、跨越标签页的整理总结等等。OpenAI 在之前推出 ChatGPT agent 时,也被爆料要做自己的 AI 浏览器。

Google 当然也不会停下脚步,和我们平时用 Google 搜索时看到的 AI Overview 不一样,AI Mode 更像是一份深度研究报告,它会利用 Gemini 2.5 的高级推理和多模态能力,来处理我们的查询输入。

例如当我问他 iPhone Air 的 esim 卡到底是怎么回事时,它会自动根据网页内容进行整理,给出更准确的答案。

▲ 点击上方 All,则可以切换回普通的 Google 搜索

不过 AI Mode 有一个缺点,是目前它还不支持中文。但前几天,Google 已经宣布支持日语、韩语、以及葡萄牙语等五种语言。他们提到构建一个全球化的 AI 搜索不仅仅是翻译,所支持的语言,应该具有本地相关性和实用性。

🔗 体验地址:google.com/ai

Gemini CLI 下载视频,转文件格式,统统交给它

Claude Code 断供完全没关系,Gemini CLI 是真的好用。

之前我们说用这种终端工具来修改文件名,其实是最「弱」的用法了。我最近 X 视频、YouTube 等视频下载;视频转 GIF 以及各种格式转换;图片压缩、视频压缩,全部交给 Gemini CLI。

Gemini CLI 的安装流程相当清晰,即便遇到环境配置问题,如今的 AI 也能提供可靠的解决方案。

前期的麻烦点主要集中在安装 Node.js 上,对 Windows 用户来说,终端使用没有 macOS 和 Linux 友好,所以是需要一点耐心的。

Node.js 安装完成之后,按照 GitHub 上指引,运行 npm/npx 命令就可以安装 Gemini CLI 了。

在终端里面输入 gemini,会提示我们进行验证,一般登录 Google 验证就可以,不需要去额外创建 Gemini API 之类的操作。免费用户每分钟有 60 次请求,每天 1000 次请求,应付日常的简单工作流是足够的。

终端里面有一些非常基础的命令,因为我们打开终端的时候,默认的文件夹是可能是整个电脑的文件,如果直接输入 gemini,它检索文件会比较麻烦。

正确的操作是,一些基础命令输入 ls:会列出当前目录下的所有文件和文件夹;cd xxx:进入某个文件夹;mkdir xxx:创建一个文件夹。

▲ 例如第一步我们打开终端,输入 ls,可以看到当前目录下所有的文件和文件夹;接着我们选择一个文件用来处理,此次需要 Gemini 的项目文件夹。输入 cd Downloads,可以看到 % 前面有当前目录 Downloads 的名字。接下来,我们创建一个文件夹,mkdir testing,然后再进入这个目录,cd testing。当然也可以直接选择一个文件夹,鼠标右键,在终端中打开。输入 gemini,它就正式接管了我们的终端,我们接下来就能用自然语言,处理许多复杂的任务了。

▲ 拿下载一个 X 的视频举例,首先它会搜索,找到一个 yt-dlp 的工具,可以用来下载视频;接着,它会自动检查我的电脑,是否有安装这个工具。检测到有安装之后,视频就开始下载了。

这是调用了 yt-dlp 工具,而在终端环境里面,还有非常多高效的工具,例如 FFmpeg,它是一款处理多媒体内容的强大工具。

▲ 输入指令后,Gemini CLI 会直接说它需要 yt-dlp 和 ffmpeg 这两个工具;然后会自动调整分辨率和帧率,以符合我提出的最终文件大小,最后它会删除过程中的临时文件。

我们继续用 X 视频举例子,这次直接要求他把这个链接的视频下载为一个 GIF 文件,并且确保 GIF 文件的大小在 5-10 MB 之间。

除了从网络上下载文件,Gemini-CLI 也可以直接处理本地文件,例如我有一张图片的大小,不符合平台上传规范,我告诉它文件名,然后要求它压缩,过程中完全不需要去找任何的在线工具。

▲ 可以用模糊语言指定图片位置,顺利定位到图片,它会使用 ffmpeg 工具来进行压缩。不过最后它把我的原文件删掉了,当我告诉他要求找回时,它会修改自己的 gemini.md 配置文件——这相当于它的「记忆」,它会记住这次教训,确保未来不再犯同样错误。

命令行工具的种类丰富,几乎大部分的文件都能处理,甚至有时候遇到一些压缩包不能解压,直接让 Gemini CLI 来处理,而不需要额外去下载对应的解压工具。

再结合 MCP(大模型上下文协议,连接不同数据的万能接口),Gemini CLI 能做的远远不止是编程开发。

🔗 体验地址:https://github.com/google-gemini/gemini-cli

AI Studio 和 Labs Google:谷歌前沿 AI 试验场

Google Labs 汇集了许多尚未正式发布的 AI 黑科技产品,像 AI Mode、NotebookLM 目前都还是实验室产品,不过他们名声比较大。我们也选择了几个有意思的小项目,虽然背后的模型都是同一个 Gemin 2.5 Pro/Flash,但是可以看看模型之上,不同的软件形态。

首先就是 Whisk,这个主打不需要提示词,上传照片尽情玩耍的图片生成工具,现在还新增了 animate 动画的功能,直接将生成的图片转成一段视频。

还有学习一门语言的 Little Language Lessons,它特别的地方,是让我们快速在 Gemini 构建的一系列小实验里面,学习一门新的语言,直接在现实场景中应用,还能学习各种俚语表达。

我拿粤语试了一下,至少不是多邻国里面,来来回回的肠粉和豉汁排骨了。

Google 实验室还有非常多的项目,体验地址:labs.google

讲了通用大模型 Gemini 2.5 Pro、图像编辑 nano banana、视频生成 Veo 3,怎么可以没有 Imagen 4。

Imagen 4 官方渠道目前是只能透过 Gemini API 和 AI Studio 两种方式体验,即便 Google Labs 里面有专门生图的工具,ImageFX,但是使用的模型依旧是 Imagen 3。

AI Studio 能做的,就是体验到 Google 最新最全的各种模型。而且,在 AI Studio 里面的对话,提供了「分支」功能,我们可以保留现有对话的前提下,开启另一个新的话题。

▲ 地址:ai.studio / ai.dev

前段时间,马斯克还在 X 上和奥特曼互撕,直接开骂,Apple 和奥特曼有私下交易,不然他的 Grok 怎么登顶不了排行榜第一,凭什么一直都是 ChatGPT。

这一番开箱下来,似乎能看到一点 Gemini「凭什么」的端倪。Google AI 几乎是用一套完整的工作流,无缝融入我们的学习、工作和创作之中。从整理资料到激发创意,再到解放双手,这套全家桶的核心,是希望实实在在地提升每个人的生产力。

你最常用或最想尝试的是哪一个?有什么问题可以在下面留言。

视频请点击链接,前往微信播放预览 https://mp.weixin.qq.com/s/gdSkrm95Mq1RORe-sIoK4A

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


全网都在玩的生图模型,我用它把 iPhone 17 提前发布了

最近,朋友圈和抖音小红书几乎被 Nano Banana 刷屏了。这个香蕉模型似乎要让 P 图这个词消失,直接给 Gemini 带来了一千万的新用户,火得一塌糊涂。

各路大神的邪修玩法铺天盖地,什么 3D 手办、大佬合影都是基操了。虽然 Nano Banana 强得不行,但在留言区依然收到不少用户的疑问和需求。

首先使用门槛就拦住了不少人,甚至比在国内用 ChatGPT 还麻烦一些。在图片编辑过程,最多人反馈的是 Nano Banana 图片分辨率不够高,以及比例高度不可控。

说实在,我也感觉自己有点吹毛求疵,但没想到,这些需求真的有人听了进去,并且做了出来,而且还是咱们国产厂商。

刚刚,火山引擎正式上线豆包・图像创作模型 Seedream 4.0。

除了具备「超强主体一致性、多图灵活创作、连续生图」等核心能力,Seedream 4.0 还有一个 Nano Banana 也没有的功能——支持最高 4K 高清图片输出

这也是首个最高支持 4K 多模态生图的模型,目前企业用户已经可以通过火山方舟抢先体验了。

个人用户也不用眼馋,4K 版将于今晚 20:00 首次开放给个人用户,搜索「火山方舟体验中心」,即可第一时间体验。

Seedream 4.0 同时也在豆包、即梦全量上线,最高支持 2K 输出。

实际表现如何需要拉出来溜溜。APPSO 提前拿到内测体验了几天,给它上点比 Nano Banana 更大的强度。

实测完后我发现,虽然也不能算完美,但国产生图确实来到了一个新的阶段。

 

我替苹果把 iPhone 17 Air 提前发布了

今晚就是苹果秋季发布会了,不用熬夜看直播,APPSO 先把帮苹果把 iPhone 17 给上线了

我们用 Seedream4.0 生成了两款今年大火的 iPhone 17 Air 产品页面,这可是今年最受关注的超薄旗舰。

参考 iPhone 16Pro 的官网页面,替换手机和相关文案,保证果味十足

这个构图似乎有些古板,调整一下小字 ,再加上 Just 5.5mm thin 这个最大的亮点。可以看到 Seedream4.0 生成的这版 iPhone 17 Air 将手握机身的倾角,刚好和字母 A 右边平行,有点资深设计师的审美了。

这次,我们不让库克来发布产品,有请特斯拉人形机器人来客串一把。还是熟悉的场景,熟悉的 Good Morning(doge)。

这组图用到了三张参考图,人形机器人、iPhone 17 Air ,以及库克的现场图,Seedream4.0 一致性确实有点东西。

其实这里还有个逆天的细节容易被忽略,注意看观察生成图机器人头盔上的反射细节,原图是漆黑一片的,也就说, Seedream 4.0 根据图 3 的蓝天白云和建筑物背景,推理出机器人应该有的反射,真的太细了。

不妨再脑洞大开一点,据称 iPhone 17 Air 就是为了明年折叠屏手机做准备。APPSO 用 Seedream4.0 也提前让大家看看 iPhone 首款折叠手机的「实拍图」。

眼尖的读者可能已经发觉,是不是跟华为新款的三折叠有点像,没错我用了它作为参考图,替换了上苹果的摄像头和logo,无论是构图、背景和水印的细节都完整保留了。

那干脆整一部苹果的三折叠,其实也没有人知道那一夜,苹果和华为究竟发生了什么。

如果是「乔布斯」,他会怎么发布这款产品,我们请 AI 老乔限时返场。

熟悉的身影,穿透屏幕的气场,让我们再次高呼「Amazing」。

好玩之外,还真能用

Nano Banana 能走红,除了社交媒体的爆款玩法,更在于它的技术能「看得见未来」。无论是一致性、局部修改、换色还是多图结合,都是能够直接用在电商、营销、社交媒体等等场景里。

无论技术有多亮眼,如果不能应用到生产力场景,也只是玩具。

下面我们看看 Seeddream 4.0 在一些实用场景能不能打。

我们先拿这两天刷屏的红月亮,融合到球鞋设计中。

我还想看看这款球鞋不同角度的展示,只需输入类似「生成一只白色运动鞋,展示正面、侧面和俯视视角」的提示词,不管是用于打样还是用于设计草图,都直接一步到位。


如果我还想找一个模特用不同姿势展示商品呢?找不到合适的参考照片也没关系,直接画个火柴人简笔画就行。

Seeddream 4.0 基于手绘图能有效控制模特姿势的一致性,同时实现角度的合理变化,在多角度呈现上表现精准。

像下面这个案例,我在提示词里面没有指定两个人的站位,所以在它生成的 4 张照片里面,两种站位都有,而且效果都很好,它像一个周到的乙方,如果你需求没有很明确,那就把可能的情况都考虑到并把成品给你挑选。

▲ 提示词:将图1男子和图2女子合进一张画面,参考图3姿势

如果说拥抱这种动作太简单了,我们直接来一个举高高的动作,这次再指定多一张背景图片。

▲ 提示词:将图3和图1合进一张画面,参考图2姿势,图1是被举起来的那个小孩;同时背景使用图4。图四的背景是来自浪浪山,两个角色是罗小黑和他的师傅。

四个人的参考图,Seedream 4.0 同样可以很好的处理,保持和简笔画的姿势一致。

▲ 提示词:把图一的四个角色(西游记里面的师徒四人,沙僧、唐僧、猪八戒、孙悟空)按照图二的姿势(叠罗汉)排布,沙僧、孙悟空和猪八戒在下面,唐僧在上面。

如果还想给模特更换妆造,我们发现 Seeddream 4.0 也能准确把握不同发型的特质:长直发的柔顺、盘发的干练以及卷发的弧度,全部都清晰呈现。

同时,背景与人体保持高度一致,未出现边缘模糊或形变问题,成功实现了在保留主体特征的基础上对妆发风格的精准转换——省了多少模特妆造费用。

最让我惊喜的要数线稿生成,线稿通常为简洁的线条勾勒,仅包含物体基本轮廓与结构,缺乏细节、色彩及质感。在草图转渲染功能上,Seeddream 4.0 能将简单线稿转化为高质量成品图。

不仅精准填充丰富色彩,使物体视觉层次分明,还有细腻的光影处理与材质模拟,比如包包的皮质纹理、金属配件光泽等。

它对于「高质量渲染图」的理解,可谓是逆天,除了静物,还搭配了人像、场景,你没想到的,它都替你想到了。

讲真,Seeddream 4.0 这次更新后,对真实质感的处理完全超出我的预期。

像皮具、金属的纹理表现已经很稳了,但当我看到它生成人的皮肤纹路时,还是被秀到了。

这个皮肤纹理、隐约可见的青筋,甚至是手腕上自然的汗毛感,还有光线打在皮肤上的通透效果……所有细节都拿捏得非常到位,组合在一起就一个字:真。

而这组图的原始参考图是什么呢——

仅此而已。

细节还原仿佛真实拍摄,完美实现了真实世界照片拟合的需求。这都意味着模型能够适度的「创作」,在参考图和提示词给定的范围内,给出合理的发挥。

这种创作能力可以用在更有趣的玩法上,比如只需要一个矢量图,就可以给 APPSO 生成一整套完整的周边设计。

▲ 提示词:参考这个LOGO,做一套品牌视觉设计,品牌名称为 APPSO,包括包装袋、帽子、纸盒、卡片、手环、挂绳等。红色视觉主色调,趣味、简约现代风格

Seeddream 4.0 的「创作」能力和直接生成样品的玩法,极大地降低了制作成本。而且效果相当不错,模型捕捉到了「有趣味、简约现代」的核心风格,将品牌 LOGO 巧妙地应用在手机壳、卡套、挂绳和帽子上。

还有一点好评的是,Seeddream 4.0 支持最高 4K 分辨率的输出,而 2K 分辨率直出只需要几秒,能在电商等一些场景做到专业级输出,有更大的后期空间。

更多邪修玩法

除此之外,APPSO 还发现了一些有趣的邪修玩法,也跟大家分享。

最基本的桌面手办,当然是不在话下,我们试试让人物自己,拿着本人的手办。

▲ 图片来源:https://x.com/oden_ai_ai/status/1957414144417910924/photo/1

▲ 提示词:将这张照片制作成一个角色模型。其后放置一个印有该角色图像的盒子,以及一台屏幕显示 Blender 建模过程的电脑。在盒子前方添加一个圆形塑料底座,角色模型手办站立在上面。并尽可能设置为室内场景。

▲ 提示词:照片级真实感。 然后照片中的人拿着一个手办模型,这个模型是根据这张照片的主体人物,制作而成的一个角色模型,在自己的房间里,很满意的微笑。房间里的电脑桌上,有一台屏幕显示 blender 建模该模型过程的电脑,同时有一个印有该角色图像的包装盒子,以及盒子前方有一个圆形塑料底座。

不仅拿在手里,还能挂在包上,照片的真实感和一致性保持都非常厉害。

▲ 提示词:照片级真实感。 先将这张照片变成一个可爱挂件/亚克力材质的扁平钥匙扣/橡胶材质的扁平钥匙扣,挂在 lv 包包/图二照片的包包上,然后她自己再背着这个有自己同一个角色挂件的包。

除了做手办,我们还拿它来生成了一些摄影风格极强,但是又保持真实的照片。你的人生照片摄影师,可能会是Seedream 4.0 。

除了强大的一致性和多图编辑能力,Seedream 4.0 还带来了丰富的世界知识能力,生图模型也能推理预测,深度理解我们的提示词和图片,其背后的意图。

例如我们上传了一张杯子即将要掉在地上的图片,然后输入提示词「下一秒这个画面应该是怎么样的?」

杯子掉在了地上,同时能看到倒在地上的水,反射了部分杯子,和窗户的光。

Seedream 4.0 除了知道一秒后会发生的事情,我们还能利用它的推理能力,整理自己的房间。

▲ 提示词:把沙发上的被子和衣服都叠好

除了能把衣服整整齐齐地叠好,弄得满是颜料的地板,Seedream 也能在打扫干净的同时,保持图片内现有元素的一致性。

▲ 提示词:把这些颜料都收起来,地板擦干净(虽然这好像是个桌面)

借助它的推理能力,还有一个更骚的玩法。

下面这个案例里,上传的参考是模特图,让Seedream 4.0 把模特衣服的细节展示出来,模型接到的指令是细节图——这当中的距离,就要靠模型自己去「想明白」。

从结果来看相当不错,不仅版型准确,对于局部细节展示这一指令跟随也没有问题。几乎可以直接上架了。

生成表情包,Seedream 4.0 也是一把好手

参考网友 @op7418 的提示词,我们也跑出了好几版关于 AI 模型的表情包,一次可能不成功,那就多抽几次卡就好,好在生成速度也够快。

▲ 提示词:帮我将角色变成类似图 1 的白色轮廓贴纸,并添加一个俏皮白色轮廓短语「XXXX」。

 

▲ 图一(左)来自@fenxxxx,图二(右)

你或许看过《千里江山图》这幅传世名作,但你或许还遗漏了亿点点细节。

同理可得,谁说《步辇图》里没有呆萌的 Labubu,以及在《韩熙载夜宴图》的宴席中,突然出现一只从现代穿越过来的网红柴犬 Kabosu,我也觉得毫无违和感,

不只是生图神器,还是创意生产力平台

体验下来,如果用一个词来形容 Seedream 4.0,那必须是「六边形战士」。它像一个全能的创意总监 + 高效的制作团队,让你能快速得到想要的结果,同时对创作流程有更强的掌控感。

快,是第一体感。

基于 DiT-MoE 架构,Seedream 4.0 的计算效率比上一代猛增了 10 倍以上,最快 1.8 秒就能生成一张 2K 高清大图。这种「秒级」响应,意味着极低的试错成本。

稳,则是生产力基石。

Seedream 4.0 的超强主体一致性能力,让你无论是想给角色换个场景、换个画风,还是调整姿势视角,都能高度保持原有特征,避免了「画风突变」的尴尬 。

对于很多电商和品牌设计师来说,AI 不再是给一张海报换个颜色,而是能参考一个 Logo,一键生成全套品牌视觉设计,从包装袋到手环,风格高度统一 。

品牌规范开始从一本厚重的 VI 手册,变成一行行可执行的 prompt。

作为我们这样的内容创作者,它能让你参考一个角色设定,批量生成漫画分镜或故事绘本,极大地提升内容连载的效率和一致。

提示词灵感来自@阿真Irene

而且在 Nano Banana 出来之后,已经不少人基于它开发出了轻量级的小游戏或实用工具,我们看到了这类工具让更多中小开发者把创意快速变成产品,而且获得用户认可的可能性。

这几天 Seedream 4.0 已经开始刷屏社交媒体。热闹之外,我们也看到,Seedream 4.0 已经不满足于当一个新奇的玩具,而是要成为一个可规模化、可商用的创意生产力平台

文|李超凡、莫崇宇、刘娅、张子豪

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


GPT-4o 见 AV 女优的次数比「您好」还多 2.6 倍,AI 正在被中文互联网疯狂污染?

好家伙,我直呼好家伙。

号称「赛博白月光」的 GPT-4o,在它的知识体系里,对日本女优「波多野结衣」的熟悉程度,竟然比中文日常问候语「您好」还要高出 2.6 倍。

这可不是我瞎编的。一篇来自清华、蚂蚁和南洋理工的最新研究直接揭了老底:我们天天在用的大语言模型,有一个算一个,都存在不同程度的数据污染。

▲ 论文:从模型 Token 列表推测大语言模型的中文训练数据污染(🔗 https://arxiv.org/abs/2508.17771)

论文中把这些污染数据定义为 「污染中文词元」(Polluted Chinese Tokens,简称 PoC Tokens)。它们大多指向色情、网络赌博等灰色地带,像病毒一样寄生在 AI 的词汇库深处。

这些中文污染词元的存在,不仅对 AI 来说是一种隐患,更是直接影响到我们的日常体验,被迫接受 AI 各种各样的胡言乱语。

▲ 要求 ChatGPT 重复「给主人留下些什么吧」,ChatGPT 根本不知道在回答什么。

中文互联网的色情赌博信息,怎么「污染」AI

我们可能都曾遇到过这样的情况:

  • 想让 ChatGPT 推荐几部经典电影、相关的论文等,它突然回了一堆奇怪的乱码网站名、打不开的链接、或者根本不存在的论文。
  • 输入一个看似普通的词语,比如「大神推荐」之类的,它有时候却吐出不相关的符号,甚至生成一些让人摸不着头脑的句子。

研究团队的解释是:这背后很可能就是 污染词元在作怪

我们都知道大语言模型的训练需要大量的语料,这些海量数据大多是从网络上进行爬取收集。

但 AI 注意不到的是,它阅读的网页中,竟然充斥着无数「性感荷官,在线发牌」的弹窗广告和「点击就送屠龙宝刀」的垃圾链接。久而久之,这些内容也成了它知识体系的一部分,并变得混乱。

就跟前段时间 DeepSeek 闹出的几起乌龙事件一样,先是莫名其妙的一封道歉信,然后再自己编造一个 R2 的发布日期。这些没有营养的营销内容,一旦被模型吸收,就很容易出现幻觉。

如果说,DeepSeek 出现这些幻觉,需要我们去引导模型;但「污染词元」,甚至不需要引导,AI 自己就乱了套。

什么是「污染词元」,它遵循「3U 原则」:即从主流中文语言学的角度看,这些词元是不受欢迎的(Undesirable)、不常见的(Uncommon),或是无用的(Useless)

目前主要包括成人内容、在线赌博、在线游戏(特指私服等灰色服务)、在线视频(常与盗版和色情内容关联)以及其他难以归类的异常内容。

▲ 大语言模型分词过程

那「词元」又是什么东西?和我们理解一段话不同,AI 会把一个句子分成多个「词元」,也叫 Token。你可以把它想象成 AI 专属的一本《新华字典》,而词元(Token)就是这本字典里的一个个「词条」

AI 在理解我们说的话时,一开始就需要先去翻这本字典。而字典的编纂者,是一种叫 BPE(字节对编码技术) 的分词算法。它判断一个词组,是否有资格被收录为独立词条的唯一标准,就是出现频率

这意味着这个词组越常见,就越有资格成为一个独立词元。

你或许能理解,这两年大语言模型流量正攀升的时候,豆包和稀土掘金曾经像是「疯了」一样,把自己平台 AI 生成的大量内容放到互联网上,提高自己的出现频率。以至于那段时间,用谷歌搜索,还有 AI 总结,引用的来源都是豆包和掘金。

现在,我们再来看研究人员的发现。他们通过 OpenAI 官方开源的 tiktoken 库,获取了 GPT-4o 的词汇库,结果发现,里面塞满了大量的污染词条。

▲ 长中文词元,全是需要打码的内容。

超过 23% 的长中文词元(即包含两个以上汉字的词元)都与色情或网络赌博有关。这些词元不仅仅是「波*野结衣」,还包括了大量普通人一眼就能认出的灰色词汇,例如:

在线赌博类:「大*快三」、「菲律宾申*」、「天天中*票」。在线游戏(私服)类:「传奇*服」。隐蔽的成人内容类:除了名人,还有像「青*草」这样表面正常,实则指向色情软件的词汇。

这些词元,因为在训练数据中出现频率极高,被算法自动识别并固化为模型的基本构成单位。

AI 吃了垃圾食品但不能消化

按理说,既然这些污染词元,它们的语料库是如此丰富,应该也能正常训练。

怎么就现在只要一跟 ChatGPT 聊到这些污染词元,ChatGPT 就 100% 出现幻觉呢?

像是下面我们测试的这个例子,要 ChatGPT 5 翻译这句话,它完全没有办法正确理解,这个北京赛车群也是无中生有。

其实不难理解,回到我们之前提到的「词元 Token」,我们说 AI 从互联网上读取数万亿词元的海量数据,一些集中、且反复地一起出现(频率高)的词语就能成为一个单独的词元。

AI 通过这些词元,来建立对文本理解的基础。它知道了这些 Token 是出现频繁、有可能相关,但不知道它们是什么意思。继续拿字典举例子,这些高频污染词在字典里,但是字典给不出解释。

因为 AI 在这个阶段,学到的只是一种原始的、强烈的「肌肉记忆」,它记住了 A 词元总是和 B 词元、C 词元一起登场,在它们之间建立了紧密的统计关联。

等到正式的训练阶段,大部分 AI 都会经过 清洗 + 对齐(alignment)。这时,污染内容往往被过滤掉,或者被安全策略压制,不会进入强化学习/微调。

不良内容的过滤,就导致了污染词元没有机会被正式、正确地训练。它们因此成了「欠训练」(under-trained)的词元。

另一方面,这些词元虽然「高频」,但它们大多出现在语境单一、重复的垃圾信息中(例如一些广告网页头尾横幅),模型根本学习不到任何有意义的「语义网络」。

最终的结果就是,当我们输入一个污染词元时,AI 的语义模块是空白的,因为它在正式训练阶段没学过这个词。于是,它只能求助于第一阶段学到的「肌肉记忆」,直接输出与之关联的其他污染词元。

▲ 论文中案例:当输入涉及 PoC 词语时,GPT-4.5、4.1 和 4o 的输出。GPT 无法解释或重复 PoC 标记。

这就解释了开头,当被要求一个可能是色情的词元「给主人留下些什么吧」时,GPT 可能会回复一个不相关的类似污染内容词元「黑*战」、以及一些看不懂的符号。在用户看来,这就是莫名其妙的幻觉。

以及下面这个要求 ChatGPT 解释「大发展有限公司官网」,回复的内容根本是乱来。

总结一下,污染 Token 出现频繁 ≠ 有效学习。它们集中在脏网页的角落、缺乏正常上下文,而在后续训练和对齐阶段又被压制,结果就是 词表固化了垃圾,但语义训练缺失

这也导致了我们日常在使用 AI 的时候,如果意外有涉及到相关的词语,AI 会没有办法正确处理,甚至还有人通过这种方法,绕过了 AI 的安全监管机制。

这是可以被量化的幻觉原因

既然如此,为什么不在预训练的时候就把这些脏东西筛掉呢?

道理都懂,但做起来太难了。互联网的原始数据量级之大,现有的清理技术根本不可能把它们一网打尽。

而且很多污染内容非常隐蔽。就像「青*草」这个词,本身看起来完全绿色健康小清新,任何简单的关键词过滤系统都会放过它。只有通过搜索引擎,才会发现它指向的是什么。

连 Google 这种搜索引擎巨头都搞不定这些「内容农场」,更别说 OpenAI 了。

我前段时间想用 AI 整理一下广州有哪些好玩的地方,然后发现 AI 引用的一篇文章来源,是另一个 AI 账号生成的文章。

一时间,我都有点分不清,究竟是我们每天搜索「波多野结衣」搞脏了 AI,还是 AI 生成的垃圾正在污染我们的内容环境。这简直就是个先有鸡还是先有蛋的问题。

▲ 标记方法

为了搞清楚这盆水到底有多浑,研究团队开发了两个工具:

1. POCDETECT:一个 AI 污染检测工具。它不只看字面意思,还会自己上网 Google,分析上下文,堪称 AI 界的「鉴黄师」。

利用这个工具,研究团队对 9 个系列、共 23 个主流 LLM 进行了检测,结果发现污染问题普遍存在,但程度各不相同。除了 GPT 系列以 46.6% 的长中文词元污染率遥遥领先外,其他模型的表现如下:

▲ 不同大语言模型中,中文词汇表中 PoC 词元的数量(比例 %)(一个词元包含超过两个汉字)。Qwen 系列 为 1.00%。GLM4 和 DeepSeek-V3 的表现则相当不错,分别只有 0.25% 和 0.17%。

最值得关注的是,GPT-4、GPT-4-turbo 和 GPT-3.5 这些模型的词汇库中,污染词元数量为 0。这可能意味着它们的训练语料经过了更彻底的清理。

所以当我们拿着前面那些,让 ChatGPT 开启了胡编乱造模式的问题,给这些模型再问一遍时,确实没再出现幻觉,但是直接忽略了。

2. POCTRACE:一个能通过词元 ID 反推其出现频率的工具。原理很简单,在分词算法里,词元的 ID 号越靠前,说明它在训练数据里出现得越多。

关于文章开头我们提到的 2.6 倍,就是通过这个工具进行计算得到的。

在 GPT 的海量词汇库中,能够被完整收录为一个独立词元的人名凤毛麟角,除了「特朗普」(Donald Trump)这样的世界级公众人物,就剩下极少数特例,而「波*野结衣」就是其中之一。

更令人惊讶的是,不仅是全名,甚至连它的子序列,如「野结衣」、「野结」也都被单独做成了词元。这在语言学上是一个极强的信号,表明这个词组在训练数据中的出现频率达到了一个恐怖的量级。

▲ 将与「波*野结衣」相关的网页以及作者估计的比例(0.5%)混合,可以重现 GPT-4o 中「波*野结衣」的标记 ID 及其子序列。

他们输入「波*野结衣」(Token ID 185,946)和「您好」(Token ID 188,633)的 ID 号,最终得出了那个惊人的结论,前者的频率估算值约为后者的 2.6 倍

这篇论文通讯作者,清华教授邱寒教授告诉 APPSO,与「波*野结衣」相关的中文网页,占据了整个 pre-train 语料库的 0.5%——而 4o 里的中文语料占比,预估在 3-5%。因此,4o 的 pre-train 语料库的中文污染情况,实际上可能极其夸张。

论文里进一步推算出,要想达到这样的频率,与「波多野结衣」相关的污染网页,可能需要占据了 GPT-4o 整个中文训练数据集约 0.5% 的庞大份额

为了验证,他们真的按这个比例「投毒」了一个干净的数据集,结果生成的词元 ID 和  GPT-4o 的惊人地接近。
这几乎是实锤了。

但很显然不是每个污染词源都需要出现这么多次,有些时候,几篇文章(甚至可能是 AI 写的),反反复复地提到,AI 就记住了,然后再下次我们问他的时候,给出一个根本不知道真假的答案。


添加一个对抗样本,AI 能把雪山识别成一只狗

当我们和 AI ,都在「垃圾堆」里冲浪

为了应对数据污染,大家也确实都想了很多办法。

财新网就很聪明,在自己的文章页面里用代码「偷偷」藏了一句话,好让 AI 在搬运内容时,能老老实实保留原文链接。Reddit、Quora 等社区也曾尝试限制 AI 内容。

但面对数据污染的汪洋大海,这些行为显然都只是螳臂当车。

就连奥特曼自己都发文感慨,X(推特)上的 AI 账号泛滥成灾,我们得认真思考「互联网已死」这种论调了。

而我们这些普通用户,看起来更是别无他法,每天被迫接受着垃圾信息的轮番攻击。马斯克老说 AI 是个无所不知的「博士」,没想到它背地里天天都在「垃圾堆」里翻东西吃。

有人说,这是中文语料库的问题,用英文 Prompt 模型就会变聪明。Medium 上有作者统计过统计了每种语言的 100 个最长 token,中文全是我们今天聊的这些色情、赌博网站。

而英文的分词和中文不同,它只能统计单词,所以都是一些较长的专业性、技术类单词;日文和韩文都是礼貌性、商业服务类词语。

▲ 中文 Token 前 100 部分词元列表

这十分令人感慨。AI 的能力,除了靠算力和模型堆砌,更深层次的,还是它吃进去的数据。如果喂给 AI 的是垃圾,那无论它的算力多强、记忆力多好,最终也只会变成一个「会说人话的垃圾桶」。

我们总说,希望 AI 越来越像人类。现在看来,某种程度上确实是实现了:我们把互联网这个大垃圾场里的东西源源不断投喂给它,它也开始原封不动地回敬给我们。

如果我们给一个 AI 造一个信息茧房,让它在「无菌环境」中长大,它的智能也是脆弱的、经不起考验的。一个孩子如果只被允许接触教科书里的经典课文,他永远无法应对生活里五花八门的口语和俚语。

说到底,当 AI 对「波多野结衣」比对「您好」更熟悉时,它不是在堕落,而是提醒了我们:它的智能,依然只是统计学上的概率,而非文明意义上的认知。

这些污染词元就像一面放大镜,它将 AI 在语义理解上的缺失,以一种荒诞方式呈现在我们面前。AI 离「像人一样思考」,还差着最关键的一步。

所以,我们真正应该害怕的,不是 AI 被污染,而是害怕在 AI 这面过于清晰的镜子里,看到了我们自己创造的、却又不愿承认的那个肮脏的数字倒影。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


秒级出片的 AI 视频来了!我用它做出最魔性的 Labubu,不会写提示词的小白也秒上手

今年几乎天天都能看到各路 AI 视频大神刷屏,什么奥特曼对波马斯克,雪王大战东方明珠,切金属切玻璃 ASMR……看得人心痒痒。

但真轮到自己上手,你就会发现,这玩意儿纯属「开盲盒」,而且是成本巨高的那种。排队几小时是家常便饭,积分烧得比纸快,结果出来的视频要么人物畸变、画风诡异,要么干脆就把你的提示词当成耳旁风。

面对「AI 视频刺客」,还真有「卷王」站了出来

去年靠「毒液特效」出圈的 PixVerse,今天悄咪咪地放了个大招——PixVerse V5

他们这次号称搞了一套「准实时生成」的狠活,全面优化了动态、清晰度、一致性和指令理解能力。

▲ PixVerse 国内版首页

PixVerse V5 这次不光是小修小补,他们直接端出了三个硬菜:

1. 快速生成
这一直是 pixVerse 最大亮点, 他们通过极致的技术蒸馏,把视频生成压缩到了「秒级」。5秒钟出一段360p短片,1 分钟搞定 1080p高清视频

2. 更少 AI 味儿
V5 通过扩展美学数据和人类偏好拟合(RLHF),让模型更懂「好看」和「真实」。无论是复杂的人物运动,还是光影的真实感,都大幅提升,生成效果更接近真实拍摄。

3. 指哪打哪
最让人头疼的「AI听不懂人话」问题,他们用「统一特征空间」技术来解决。简单说,就是不管你喂给它的是一句话、一张图,还是一段参考视频,它都能更准确地理解你的意图,实现图、文、视频多模态的复杂创意,让你真正做到精准控制。

话是这么说,是不是吹牛还得拉出来遛遛。我第一时间搞到了内测资格,替大家给它上上强度。

快到离谱,价格感人

快,是 V5 给我的第一印象。

实测下来,一段 8 秒带声音的 360p 视频,从排队到生成完毕,基本都在 30 秒以内,包含排队时间和生成时间;而 1080p 的超高清视频,所需要的时间会长一点,但是基本上也在 2 分钟左右。

▲ 拿可灵生成视频来对比下,排队的时间是 3 个小时

除了快到离谱,V5 也便宜到感人。每天登录就送 60 积分(生成一段 5 秒 360p 无声视频仅需 20 积分),会员选项也很多,让「抽卡」的成本大大降低。

作为对比,可灵是每个月提供 166 积分,生成一段 5s 标准模式的视频也是 20 积分。目前可灵添加音效是限免,PixVerse 需要再加 10 积分。

时间和金钱这两大核心痛点,PixVerse V5 算是给出了一个相当漂亮的解决方案。 那么,最重要的质量如何?

强度实测:从「开盲盒」到「半开卷考试」

我们直接上硬菜,用几个热门案例来测试它的真实水平。

先来个简单的,生成广州塔的航拍镜头。

▲ 提示词:电影般的航拍无人机镜头,聚焦广州塔。使用柯达 35 毫米胶片拍摄,带有胶片颗粒感。动态航拍镜头,摄像机环绕移动。保留参考图像的构图、框架和结构细节。

PixVerse 做的确实很好,而且速度还快。此外,不像 Veo 3 目前还是只能生成 16:9 的视频,PixVerse 则可以根据上传的图片自动适应生成视频的比例。

接下来,上点难度,测试它的人物一致性和场景理解能力。

最近 nano-banana 非常火,我们前几天用它生成了非常多有意思的照片,社交媒体上也很多人用它来实现一个完整的故事,凭借着它强大的人物、环境、照片风格内容等一致性保持。

我们找了几组有意思的照片,看看 PixVerse V5 是否有能力可以生成一个视频。

首先是这两个打台球的女生,他们先是站在前面自拍,然后我想让他们走到后面,拿着台球杆开始玩。

结果有点意外。 场景保持得很好,走路动作和表情也到位。但……它莫名其妙给我多塞了一个路人女孩进来!

看来在理解复杂的双人交互和空间关系上,AI 还是会犯迷糊。不过对比 V4.5(之前会生成一些意义不明的慢镜头),V5 至少更懂「走路」这个意图了。

还有最近非常火的用 nano banana 来做手办图片,有了图片之后,我们又可以生成非常多有意思的视频。

▲ 提示词:将这张照片制作成一个角色模型。其后放置一个印有该角色图像的盒子,以及一台屏幕显示Blender建模过程的电脑。在盒子前方添加一个圆形塑料底座,角色模型站立在上面。使PVC材质看起来透明,并尽可能设置为室内场景。

我们先用 nano banana 制作了一个像是自己 3D 打印出来的 labubu,接着把这张图片丢给 PixVerse。

▲ 提示词:棕色的实体手办开始在桌面上探险,它左边走走,右边看看,最后跳回到了原来它旁边的盒子里面;盒子上的 labubu 不要动,保持静态的;电脑上显示的 3d 手办动画处于预览的状态,自动的旋转播放。

还有最近非常火,以假乱真的 AI 夜视镜头视频,我们也用 PixVerse 检验了一下。不得不说,这个效果很真实,小猫趴在熊背上,小心翼翼地跳来跳去,和熊的接触、跳跃的动作,都像是真的。

如果是处理这种简单的动作还不够上难度,我们直接给他一张滑板的脚步特写,让他完成这些复杂的滑板动作。

PixVerse V5 也能精准地生成脚部动作,并且不出现差错。 我们用 V4.5 试了一下,有时候是会出现鞋子反穿,还有一些很搞笑的是,看起来滑板很烫,不知道怎么下脚的奇怪动作。

可以说,PixVerse 确实在生成质量上有了很多方面的提升。整体感觉是,V5 版本在一致性和写实感上的提升非常明显,看起来更像真实拍摄,而不是带着浓重 AI 味的画面。

One More Thing,还有 Agent 创作助手

除了图生视频,PixVerse V5 还提供了续写、多主体、Agent 智能体等一堆花哨但实用的功能。

我最喜欢的是「续写」。目前大部分 AI 视频一次只能生成几秒,想做长视频就得手动截取最后一帧再生成,非常繁琐。

而续写功能可以相对丝滑地延长视频,支持 30s 内长度的视频,我用它做了个「猫猫做梦当大厨」的短片,效果很萌。

看这小猫最后满足的笑容!

而为了解决「不会写提示词」这个终极难题,V5 还上线了 Agent 智能体。这玩意儿就像个创意模板库,你只需要找到喜欢的模板,填入关键词,它就能自动完成意图理解、脚本生成、视频生成等一系列流程。

目前在 PixVerse 的智能体里面,提供了超过十个的项目。有前段时间很火的兔子蹦床、给角色或物体更换材质、结合多个物体生成一个新物种、甚至还有给宠物穿上蟑螂套装跳芭蕾这样的智能体。

我就把之前我们用的那张 Labubu 的照片上传给它,智能体的流程和模板还是不太一样,模板只是单纯的套用一套提示词,而 PixVerse 的智能体就像我们用 ChatGPT agent 一样,自动化全部的操作,像是省去了我们先去 nano banana 里面生成图片的流程。

虽然它偶尔也会犯傻,比如把我的 Labubu 手办识别成「穿着棕色蟑螂服装的形象」(我对不起 Labubu!)

但这跳得还不错的芭蕾舞,确实展示了 Agent 功能的潜力——大大降低了普通人的创意实现门槛。

目前,PixVerse V5 和 Agent 创作助手已经在国际版 PixVerse(https://app.pixverse.ai/)与国内版拍我 AI(https://pai.video/)的网页端、App 及开放平台 API 全面上线。

AI 视频,终于从「豪赌」变成了「刮刮乐」

综合体验下来,PixVerse V5 的这次更新可以清晰地总结为两个词:更快、更好

它或许还不是最完美的视频模型,处理复杂的多人交互时依然会犯迷糊。但这让我想起了豆包生图,质量可能不如 Midjourney,但它免费、量大、管饱,你可以随便试。

▲ 豆包一次性能生成 20 张图

PixVerse V5 走的也是这条路。它用「准实时」的生成速度和极低的试错成本,彻底改变了创作的心态。

过去,花几小时排队,烧掉大把积分,最后开出一个不满意的「盲盒」,那种感觉是痛苦和沮丧的。现在,几十秒就能看到结果,不满意就立刻重来,这种体验更像是「刮刮乐」——轻松、高频,且总期待着下一张能中奖。

从这个角度看,PixVerse V5 的核心竞争力,或许不是生成了多么惊艳的视频,而是在于提供了一种无负担、高频率的创作体验

当开盲盒的成本变得足够低,当 AI 的不稳定不再让你心疼时间和金钱时,AI视频创作,才算真正从少数大咖的神坛,走到了我们每个人的日常里。

文|李超凡、张子豪

原文链接:https://mp.weixin.qq.com/s/Q0_1JM-2tJa9VyMP0LYUBQ

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


全球AI百大应用榜发布!DeepSeek被反超,ChatGPT 王座快不保,中国产品占半壁江山

今天,硅谷顶级风投 a16z 发布了新一期的 AI 应用百大榜单。半年过去,又有哪些新的 AI 产品涌现,ChatGPT 的老大地位是否开始动摇,APPSO 马上带你解读这份榜单。

▲ 网页端和移动端产品前 50 名

我们简单总结了此次榜单的几点趋势。

ChatGPT 依旧稳坐第一,但这个宝座越来越不安全了。Google 的 Gemini 用户数已经追到它的一半,它俩现在是两大顶级的新一代人工智能平台。

马斯克的 Grok 靠着一款二次元虚拟伴侣 Ani,硬是从 0 干到 2000 万月活。

DeepSeek 在年初爆火后月活跃用户大幅下降,移动端下降了 22%,网页端更是达到了 40%。

国产应用表现继续亮眼,移动端 Top 50 的应用中,估计有 22 款是由中国团队开发的。Kimi、豆包、夸克直接闯进了全球前 20。

本次新增的 11 个网页 AI 产品,包含 Qwen、Manus、Lovable 等今年上半年的热门工具

纵观这份报告,可以看到 AI 消费应用的生态已经进入细分和稳定阶段,创新开始变得越来越困难。

ChatGPT 还在领跑,但对手来了

在「通用助手」这条赛道上,ChatGPT 依旧是无可争议的老大。无论是在网页端还是移动端,它都稳稳占据第一的位置。

但新对手已经在逼近。Google 的 Gemini 是最典型的追赶者,在网页端访问量约为 ChatGPT 的 12%,看起来差距还不小;可在移动端,Gemini 的月活用户已经达到 ChatGPT 的一半,而且 9 成用户都来自 Android 阵营。

▲ 谷歌多款产品 Gemini、NotebookLM、Google AI Studio、Google Labs 进入百大应用榜

马斯克看起来真的很惨,这边是同一家公司的 Gemini 和 Android 深度绑定,那边又要控诉 Apple 和 OpenAI 有金钱交易。

所以,马斯克的 Grok 不得不走一条「另辟蹊径」的路线。Grok 去年底还没有移动端 App,现在已经冲到 2000 万月活,排在移动榜单第 23。

他的秘诀很简单,就是抓住一些猎奇的内容。在 7 月先发布了 Grok 4 模型后,紧接着在应用内推出「AI 虚拟伴侣」,彻底点燃话题。尤其是二次元角色 Ani(甚至包含 NSFW 选项),让 Grok 赢得了广泛的关注。

▲ Grok App 日活变化,在推出 Grok 伙伴之后迅速上升

Meta AI 只看到他挖人的新闻了,产品好像真的有些尴尬。它在 5 月上线,排在网页榜单第 46,移动端甚至没进前 50。更糟的是,Meta 还因为「聊天内容被推上公开动态」的隐私事故,用户信任直接受挫,远不如 Grok 来势汹汹。

▲ DeepSeek 年初猛增之后,网页月访问量一直在下降。

▲ 移动端月访问量下降情况

在 ChatGPT 和 Gemini 之后, Deepseek 、Grok、Perplexity 和 Claude 占据了网络流量的后几位。

Perplexity 目前还是保持着强劲的增长势头,而 Claude 和 DeepSeek 在移动端也开始趋于平缓,DeepSeek 在 Web 端的流量更是从高峰下跌超过 40%。

不过 DeepSeek 目前仍是国产最强大模型,相信将来 DeepSeek 发布 R2 推理模型和 V4 的到来,DeepSeek 能再掀起一次流量狂飙。

Kimi、豆包、夸克闯进全球前 20

除了 DeepSeek 在通用大语言模型助手上的排名,中国公司的更多产品在这次榜单里亮相。

在前 20 名里,阿里的「夸克」、字节的「豆包」、月之暗面的「Kimi」同时上榜。其中,Kimi 作为新兴创业团队的产品,能和 ChatGPT、Gemini 这些巨头同台竞争,已经说明了国内用户对中文大模型的强烈需求。

移动端更明显,50 个上榜应用里,有 22 个来自中国公司,其中美图就包揽了 5 个修图/视频类产品,字节系也贡献了豆包、Cici(国际版豆包)、Gauth(教育)、Hypic(国际版醒图)等。

更有意思的是,国产的视频生成模型一度领先全球。比如 Kling、海螺等产品,往往比海外模型更快落地、更贴近流行趋势。直到 Google 推出 Veo 3,才算打破了这一领先。

Vibe Coding,人人都能点点鼠标写代码

除了助手类应用,还有一种不可忽视的趋势就是,Vibe Coding(氛围式编程)。

这类产品的逻辑很简单:不需要写复杂代码,点点鼠标就能生成网站甚至应用。Lovable、Replit 今年双双进入榜单,说明这种「低门槛编程」越来越受欢迎。

▲ Lovable 和 replit 月访问数据趋势,.app 结尾的网页是该产品的成果预览网页

更关键的是,它们的用户不仅没流失,反而在持续增加消费。数据显示,美国用户在这类平台的付费留存超过 100%——也就是说,用户不仅没走,还越来越舍得花钱。

对普通用户来说,我们每个人都能几分钟搭出一个网站,无论是从工具到个人作品集,还是一个小型商业应用,现在都已经开始成为现实。

AI 爆款的秘密:不求全能,但求刚需

从 a16z 开始发榜单到现在已经更新了 5 次,其中有 14 个应用是雷打不动的「钉子户」,始终霸占着前 50 的位置。

它们分别是:ChatGPT、Character.AI、Civitai、Leonardo AI、ElevenLabs、Gamma、Hugging Face、Veed、Midjourney、Perplexity、Photoroom、Poe、QuillBot 和 Cutout Pro。

你看,它们覆盖的场景无非就那几个:对话、陪伴、修图、创作。全都是高频刚需。

最特别的要数 Midjourney,一个没拿过一分钱融资的「异类」,全靠口碑和社区文化,硬是走到了今天,成为 AI 绘画的代名词。(不过最近有传闻说 Meta 想和它合作,看来好东西还是藏不住的。)

这说明,想做成一个 AI 爆款,不一定非得是无所不能的「全能王」,只要能在一个细分领域,成为用户离不开的那个「唯一」,同样能活得很好。

而且,这 14 家公司里,只有 5 家有自己的底层大模型,剩下的全都是靠调用 API 或者开源模型做的应用。

这或许在告诉我们一个新规律:在 AI 时代,顶尖的产品体验,和顶尖的底层技术,一样重要。

所以,你觉得下一个爆红的 AI 应用,会是一个更聪明的万能助手,还是一个更懂你的赛博伴侣呢?你最常用的 AI 产品又有哪些,评论区聊聊!

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


神秘「香蕉」AI 火爆海外,10 轮极限测试后,我相信 P 图这个词已经过时了

上半年,大家还在为 4o 的「吉卜力风生图」刷屏惊叹。

最近,一个神秘代号 nano-banana 的新模型在社交媒体上爆火,它不是拼画质取胜,而是凭借前所未有的图像编辑能力,让网友直呼「这才是真正的 AI P图」。

有多强呢,过去我们印象中的 AI 编辑图片,可能用最多的就是 AI 消除,抹掉照片里面的路人;或者 AI 抠图,把照片的主体抠出来然后复制到其他背景上。

但现在是能直接生成一张完全看不出编辑痕迹的图片,图片里面的人物、背景、甚至小到一个字母,都可以自由的修改,且看不出一点 AI 味。

下面几张图片是我们从 X 上找的一些使用 nano-banana 编辑的实例,我只想说,它能火起来,真的值得。

▲ 图片来源:X@arrakis_ai

这个网友提供了上方只显示侧脸的女生,同时输入提示词,「创建一张有人直视前方照片。」

而下方的这张 OUTPUT 输出图片,就是使用 nano-banana 模型生成的。这个输出效果,完全可以说是同一时间拿手机另外拍的一张照片。

还有网友分享添加这两张图片并输入提示词,「让他们自拍」。

▲ 图片来源:X@RetropunkAI

和你唯一的合照,终于不用只是毕业照了。Billie 的大金链子和耳环、以及刘海等信息完全没丢失,Michael 的脸从满是噪点的失真,到自拍合影里,与 Billie 一样有着真实、清晰的皮肤质感。

在 X 上网友们反复安利这个图像编辑模型,从这些截图分享里面,我们大致总结了 nano banana 最让人惊叹的几点特质。

  1. 角色一致性极强:无论换背景还是换表情,都不会换脸,甚至嘴角弧度都能保持。
  2. 光影逻辑合理:不像滤镜贴图,它能重新计算光源和阴影,让场景符合物理规律。
  3. 照片级逼真:几乎看不出 AI 痕迹,生成的效果像是「同一时刻另一台手机拍下的照片」。
  4. 风格转换自然:从老照片复原到素描、水彩、卡通,都能保持主体特征不变。

首先,跟之前的图像编辑模型有着质的不同,就是 nano banana 在转换图像的过程中,基本上能够保持整个照片一致的色调和照片内容,不会自己额外生成别的东西。

▲ 风格保持高度一致,输入右边两张图,得到左边的产品广告图。图片来源:X@Dari_Designs

除了色调和照片内容,更重要的是保持人物角色的统一。不管是更换背景、还是让某个人的表情修改成微笑,nano banana 生成的人物五官和神态几乎不会出现换脸的情况,连嘴角的弧度都能保持稳定。

举个例子,当我们使用固定的一个人物角色创建图片的时候,这个角色可以在不同的场景下保持一致。

▲ 原图是左边,输入提示词制定背景为埃菲尔铁塔得到右图。图片来源:X@zan_sihay

由于能保持与输入图片高度一致的色调、氛围、场景和人物主体等,还有网友通过 nano-banana 将整个场景转变为一个新的故事。

▲ 原图在左上角,先是输入提示词让她们坐在台球桌边上,然后让她们开始打台球,形成一个完整的故事流。图片来源:X@D_studioproject

在确保了照片内容的高品质后,nano banana 生成的图片还非常真实。和此前大部分生图模型得到的 AI 味极浓的图片不同,nano banana 的特点就是自然和逼真。

▲Flux 生成的图片,皮肤质感还是有明显的蜡质化,不够真实。

最后是 nano banana 将场景转换为各种艺术风格方面表现,同样非常出色,包括水彩、油画和卡通风格,以及写实照片。

▲ 能够「复活」老照片。图片来源:X@DiegoGarey_jpg

我们也在 LMArena 里面测试了 nano banana 这个神秘模型,看看它是不是真的这么强大。

体验地址:https://lmarena.ai/?chat-modality=image (选择 battle 模式才会出现)

多人毕业照,也能变成专属你们俩的合影

首先,我们找了一张毕业合照,看看它是不是真的能生成一张两个人的合照。

它真的做到了,虽然这个田径场草皮生成的不是很像,但是在多轮的测试里面,Qwen、Flux、Seed 生成的图片全部都还是多人的,只有 nano-banana 明白了指令,提取出了两个人。

我们继续拿只有一张人脸的照片来测试,用开头那张照片,要求它生成一张白底证件照试试。

下面有六张照片,大家可以猜猜哪个是 nano-banana 生成的,或者你最喜欢哪个。

▲ 添加开头的照片,并输入提示词,「生成一张她的标准白底证件照,能直接用来申请护照。」

你没看错,第一张也是模型生成的,实在不知道什么护照可以用这样的照片。

答案揭晓,nano-banana 虽然看起来是最漂亮、最温柔的,但是 GPT-IMG 生成的更像证件照,因为有露出来一点点耳朵;Flux 好像不知道什么是证件照;Qwen 就很标准证件照了,但是太「标准」了,仿佛没参考我发给他的图片一样。

我们继续拿 nano-banana 生成的这张证件照,要求它为我们生成一张全身照,看看能不能在 AI 编辑的过程中,保持住这个角色原本的样子。

直接揭晓答案,这次 Gemini 的表现竟然不错,照片很真实,而且场景和衣服都搭配得很好;nano banana 的表现也不错,但总觉得和证件照里面的女生,风格不太一样了。

对于单张照片的单一角色,能做的编辑还非常多,像是下面这张图片,要求马斯克作出拳击的动作,人物基本上是做到了 100% 的复制,马斯克的他眼神、脸型、鼻子、还有嘴巴都很好的复制过来了。

单张照片的处理能做到完美复制,多张照片,nano banana 的表现又如何。

我们找了两张有人脸的照片,告诉模型将这两个人拼凑在一起,看看是否还能像真实照片一样,看不出瑕疵。

▲ 输入右下角两张图片,提示词为「让这两个人在拳击擂台上自由搏击」

图片左边就是来自 nano-banana,而右上角则是 Gemini 生成的效果,可以看到明显的差距,nano-banana 非常真实,且一眼就能认出来,蓝色衣服的是小扎。

nano-banana 对物理世界也有惊人的理解能力

除了保持人物的样子不改变,nano banana 还能在物体、背景等元素上,保持与输入图片做到完全一致。

例如下面两张房间的图片,我们显示让它开灯;然后又找了一张图片让它关灯。

当要求开灯时,乍一看 nano banana 和 Flux 都做的不错,但是有一个细节是 nano banana 不仅点亮了落地灯,更关键的是,它似乎重新计算了整个房间的光影逻辑。茶几的影子不再主要受窗外光影响,而是正确地投向了远离新光源的方向。

它并非简单地在图片上「贴」一个发光效果,而更像是在三维空间感和物理规律的层面「理解」了指令,就像 Google 前段时间发布的世界模型 Genie 3 一样。相比之下,Flux的结果更像是一个滤镜,氛围是到了,但逻辑还是有点问题。

关灯的效果差别就更明显了,Flux 是直接把落地灯都给弄消失了,而 nano banana 成功把灯关掉了,还做了很全面的阴影和色调调节。

创造力也能保持一致,纯文生图不如 GPT

风格转换也是 nano banana 的一大优点。无论是让黑白的照片重新焕发彩色的生机,还是让失真的图片变得真实,nano banana 在 LMArena 里都做的比其他图像编辑模型要好。

Flux 生成的鲁迅,总觉得是色彩饱和度没有调节好,nano-banana 生成这张给我感觉就很真实,保留了那种年代感。

我们还找了最近热映的《浪浪山小妖怪》电影预告片的截图,然后要模型从动画风格转换成其他风格。

不过是 AI 都有可能会出错,就像这张图片,nano banana 是直接给我了原图,但是 Qwen 把风格转换得很好。

当然也有可能是「吉卜力风格」会违反一些模型的使用规则,就像现在 4o 也没有办法直接输入吉卜力风格提示词生成照片。

▲ 还是开头那张照片,提示词「生成这张照片的素描画」

素描风格,nano-banana 就有办法处理了,右上的那张图,就是来自 nano-banana 的素描结果,我觉得比左下那张要好,因为看起来,真的更像是素描。

此外,nano-banana 的重点还是作为一个图像编辑模型,在纯粹的文生图能力上,表现并不算出色。

X 上有网友用 nano-banana 来做了一个高难度/复杂质感,以及光影/高级质感海报生成测试,结果还是 GPT-IMG 胜出。

▲ 图片来源:X@ZHO_ZHO_ZHO

Nano-banana 目前还是一个「未知」的模型,它只随机地出现在 LMArena 的盲测对抗测试中。

在我们的测试里面,输入 prompt,两张图生成完毕,投票选出更好的一张,最后才会揭晓哪张来自哪一个模型;有时候连续五六次都没能遇到它。

虽然这个模型的官方来源或开发者还没有正式确认,但网络上的讨论,以及生成图像的纹理和压倒性的质量,大部分人认为它很可能是 Google 的一个未公开项目。

毕竟,Google 也确实有在内部使用水果或者小吃等名称作为代码名称的历史。

而当我们尝试要它把自己的模型名字,显示在电脑屏幕上时,nano-banana 很自信的打上了 Gemini Pro。

最新的消息是,Google DeepMind 的负责人 Logan Kilpatrick 在 Google Pixel 10 发布前一天,发了一条推文,内容只有一个香蕉的 emoji,这基本上证实了这个模型就是来自 Google。

Google 这次为 Pixel 10 系列带来了 AI 编辑图片工具 Ask Photos,我们只需要输入想要对照片进行的编辑请求,然后由 AI 来完成,我们不需要再选择复杂的滑块、笔刷等各种工具。

为了防止图像篡改带来的负面影响,Google 也表示所有使用 AI 功能编辑的图像都会在 C2PA(内容来源和真实性联盟) 内容凭证中注明。

X 博主 testingcatalog 发文提到 nano-banana 这个图像编辑模型,将不仅仅用在 Gemini 和 Whisk(Google 实验室图像生成产品)上,也将出现在 Flow(Google 视频生成产品) 里面。

其实也不难想到,Flow 的图生视频功能,也正是像我们测试的图片编辑一样,让图片中的人物主体动起来。

在这篇爆料中还提到,Google 正在测试垂直宽高比的视频生成,以更好的在 TikTok、YouTube Shorts 等平台观看和传播。

Google 这段时间颇有不声不响做了很多事情,先是世界模型 Genie 3、然后在 LMArena 大语言模型竞技场上拿第一、接着又这个神秘模型 nano-banana;这让我越来越期待 Gemini 3 的发布了。

▲Google 的模型在 LMArena 多个任务上都是第一

如果说当时的 4o 代表了 AI 生图的极致,nano-banana 已经开始在重新定义图像编辑。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


神秘「香蕉」AI 正式上线!Google P 图新王深夜炸场|附体验方式

还记得之前大家热议的神秘 AI 图片编辑模型「nano-banana」吗?

前几天,我们在 LMArena 大语言模型竞技场里面用它进行了多轮测试,结果表现都非常出色。

现在,Google 终于揭开了它的神秘面纱。

▲ Google AI Studio 负责人 Logan Kilpatrick 发推文宣布正式推出 Gemini 2.5 Flash Image 模型

Google 正式推出了其最先进的图像生成与编辑模型——Gemini 2.5 Flash Image。

▲ 在多个榜单上都是第一名,尤其是 LMArena 榜单几乎是遥遥领先

在更新的技术博客里面,Google 提到此前的 Gemini 2.0 Flash 已经在图像生成方面,以其低延迟和高性价比受到了开发者的喜爱,但用户们也一直期待更高质量的图像和更强大的创作控制功能

Gemini 2.5 Flash Image 就是带着一系列的重磅更新,来强势回应这些期待。

和我们之前的体验效果一样,Gemini 2.5 Flash Image 的主要特点包括下面几点

  1. 充分保持角色的一致性
  2. 基于提示的图片编辑
  3. 利用 Gemini 的现实世界知识
  4. 多幅图像融合

一张图讲一个故事:角色、场景随心换

以往的 AI 绘图工具,最大的痛点之一就是难以保持角色或物体的一致性。我们都曾经经历过,想让同一个角色出现在不同场景中,结果却常常画风突变,每一次生成都像换了个人。

Gemini 2.5 Flash Image 彻底解决了这个问题。

▲ 图片来源 X@geminiap

它可以轻松地将同一个角色置于不同的环境中,或者从多个角度展示同一款产品,同时完美地保持其核心主体不变。Google 提到这对于需要讲述连续故事、生成品牌系列资产或制作产品目录的场景来说,无疑是一项革命性的功能。

为了展示这项能力,Google AI Studio 中还提供了一个模板应用,让开发者可以快速上手,甚至在其基础上进行二次开发。

▲ 体验地址:https://aistudio.google.com/apps/bundled/past_forward

在这个体验项目里,我们不需要输入任何的提示词,只用上传一张人像照片,它就会调用这个最新的图像模型,为我们生成从 1976 年 到 1990 年等各个年份的照片。

马斯克看到自己这么帅心里一定在想,我的 Grok 也可以。

一句话修图,用自然语言精准编辑

除了这种保持好高度一致的角色生成,精准的编辑也是一大亮点。Gemini 2.5 Flash Image 允许我们通过简单的自然语言指令,对图片进行精准的局部修改 。

像是模糊图片背景、消除 T 恤上的污渍、从合照中移除某个人、改变人物的姿势、为黑白照片上色……

这一切,都不再需要复杂繁琐的专业软件操作,我们只需要像聊天一样,用一句话告诉 AI 想做什么即可。

这跟我们之前在 LMArena 中的体验是一样的,像是我们也转换过照片的风格,从黑白到彩色;以及对照片进行细微的调整等。

▲ 图片来源 X@geminiapp

Google 同样设计了一个简单的应用,来方便我们更好的体验这种基于提示词的图像编辑,但是完全媲美 PS 软件的效果。

▲ 体验地址:https://aistudio.google.com/apps/bundled/pixshop

不止会画,更「懂」世界

过去的图像模型虽然能创造出精美的图片,但往往缺乏对现实世界的深层语义理解 。

Gemini 2.5 Flash Image 借助 Gemini 强大的世界知识库,让图像生成变得更加「智能」。

这意味着,模型不仅能看懂我们潦草手绘的图表,还能回答与现实世界相关的问题,并一步到位地执行复杂的编辑指令。

▲ 体验地址:https://aistudio.google.com/apps/bundled/codrawing

听起来很有多模态推理的感觉,Google 在 AI Studio 中展示了一个互动教育应用,将一块简单的画布变成了可以答疑解惑的智能导师,我由衷的感叹这个模型是真的厉害。

图像融合:轻松实现「无缝」拼贴

新模型还带来了一项酷炫的功能——多图像融合。我们可以将一张图片中的物体「放」进另一张图片的场景里,或者用一张图的风格去渲染另一间屋子,整个过程只需一条提示指令就能完成。

同样是 Google AI Studio 里面的模板体验应用,我们只需要把产品拖拽到新场景中,就可快速生成一张毫无违和感的、真实照片般的融合图像。

▲ 体验地址:https://aistudio.google.com/apps/bundled/home_canvas

在这个模板应用里面,我们甚至不需要输入任何提示词,可以直接拖动某个物体,到场景图片上的具体位置,然后它会自动生成融合的图片。

如何上手体验?

除了我们在前面提到的那些 Google AI Studio 里面的模板应用。

目前,Gemini 2.5 Flash Image 已经可以通过 Gemini APP、Gemini API、Google AI Studio 和 Vertex AI 进行访问。

关于调用 API,具体的定价是每百万输出 token 30 美元,官方介绍,生成一张图片大约消耗 1290 个输出 token,也就是说,每张图片的成本约为 0.039 美元,换算下来人民币不到 3 毛钱

值得一提的是,所有通过 Gemini 2.5 Flash Image 创建或编辑的图片,都会包含 SynthID 隐形数字水印,以便识别其为 AI 生成或编辑的内容。

这跟前些天 Google 发布 Pixel 10 系列手机时,讲到 AI 图片编辑 Ask Photo 工具时,使用的 C2PA(内容来源和真实性联盟) 内容凭证是一样的。

最后,Google 还提到正在努力提升模型在长文本渲染、角色一致性稳定度和图像细节真实性等方面的表现。

总而言之,Gemini 2.5 Flash Image 的发布,让 AI 图像工具从一个单纯的绘画玩具,向一个真正实用的创意与生产力工具迈出了一大步。

它不仅解决了我们过去使用 AI 绘图时的诸多痛点,还带来了更多有趣、实用的新玩法。

之前 4o 生图能力出来,看到很多 App 开始主打用一张图每天生成一首诗,还有像是拿到了今年 Apple 设计大奖的 CapWords,拍一张生活里的照片,来实景学习一门新的语言……

我现在已经迫不及待想看到基于 Gemini 2.5 Flash Image 模型,又会有哪些新应用诞生了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


马斯克奥特曼中文对喷, AI 视频终于从「玩具」变成「工具」

现在刷社交媒体,你会发现一些画面精良的爆款视频,其实已经是 AI 制作的。但作为一个创作者,除了要像「抽卡」,在画面之外,有一个问题一直没有得到很好的解决。

这个问题就是对白。

比如我让 AI 生成一段「唯美雨景」,这不难。但要让 AI 生成一段有情节、有对话的「雨中分手戏」,对白还得是地道的中文,这就很棘手了。

AI 生成的要么是完全的「哑剧」,需要创作者后期对口型、配音;要么是能开口说话,但语音语调不自然,充满了「人机感」和「翻译腔」,让本该感伤的剧情瞬间出戏。

这也是当下 AI 视频生成最大的挑战之一:如何处理包含对白,尤其是带有复杂情绪的中文对白。

可以说,能否搞定自然流畅的中文对话,是 AI 视频能否从一个「看个乐子」的玩具,变成真正生产力工具的关键。

百度今天发布的蒸汽机(MuseSteamer)视频模型2.0,似乎就是冲着这个核心痛点来的。它最让我关注的一个点,是全球首个中文音视频一体化生成技术,号称是吃「中文语料」长大的,能够一步到位地生成音画同步、口型精准、情感自然的中文对话视频。

为了验证它到底是真正解决了创作者的难题,还是又一次停留在宣传片里的技术展示,我决定绕开那些官方的精选案例(Demo),设计几个更接近普通人日常创作需求的「刁钻」场景,亲自探探它的虚实。

体验地址:https://huixiang.baidu.com/

从一张图,到一场有声的对手戏

百度蒸汽机这次提供了 4 款生成模型,都是从一张图生成一个视频,分别是蒸汽机 2.0 turbo、pro、lite、以及有声版;不同的模型会消耗不同数量的积分,免费用户每月登录可以获得有限额度的想象力值(积分)。

有声版可以生成 5s 或者 10s 的视频,而 Turbo 等三个版本是 5s,像素方面除了 Pro 版本支持 1080p,其他三个版本都是 720p 高清画质。

我们直接给他一张图,然后按照视频生成页面的提示,输入想要生成的视频内容和主题台词;5s 的视频,将台词控制在 20 字以内,10s 的视频字数控制在 35 字以内。

▲ 我们上传了一张马斯克和奥特曼的合照,配上提示词:两个人针锋相对,左边的人先说,「你做的AI毫无底线」;右边的人说,「你的营销才是没有底线」;由蒸汽机 2.0 有声版生成。

首先,静态照片里的马斯克和奥特曼被自然地驱动了起来,面部表情和肢体动作都相当流畅,并且和上传的图片基本保持一致,图生视频的基础能力还是很扎实的。

更关键的是对话部分,这个表现,必须承认,在中文口型同步上,百度蒸汽机确实做到了目前的第一梯队。嘴唇的开合,与「底线」、「营销」等一些词语的发音匹配度很高,没有明显的延迟或错位。

▲ 一张浪浪山小妖怪的首帧图,配合提示词:画面中,手持干草叉的野猪小妖抬头,满怀期待地看向身边身材魁梧的熊教头。 台词: (第0-5秒)手持干草叉的野猪小妖说: 「教头,咱们把盔甲擦亮点,打起来更有气势!」 (第5-10秒)身材魁梧的熊教头向下瞥了他一眼,不耐烦地打断道: 「有那工夫?先给我削一千支箭出来!」

在发布会上,百度特别提到,这是来自「音视频一体化」的底层生成逻辑,声音和画面是同步构思的,而非后期匹配,他们在训练时就把画面和声音放在一个模型里同步学习。

此外,还有一个「多模态潜在空间规划器」(Latent Multi Modal Planner)的首创技术;多模态很好理解,就是文本、画面、音频,Latent 是深度学习里面术语,主要是学习潜在的特征,这个技术能够自主地规划潜在生成空间里的多个角色身份、台词、以及互动逻辑等。

通俗来讲,我们可以把它想象成一个内置在 AI 里的导演,当给出「让两个人吵架」的指令时,它不会傻傻地让两人同时说话,而是会自主规划吵架剧本。

我们还尝试了一些东北话这样的方言,想看看在多人对话里,是不是也完全没有问题。

▲ 提示词:画面左边的蓝衣女子耳语急促而冰冷,用东北话说:「姐姐,真心是咱们的炭,也是烧死咱们的火」;画面右边的紫粉衣女子决绝地用东北话回应:「那不如,就烧得干净些」;由蒸汽机 2.0 有声版生成。

让甄嬛和沈眉庄在音视频一体化生产的模型里,说东北话确实为难了点,但是人物表情,嘴唇的动作,耳环、头饰等运动都非常自然。中文语音的细节还原度也很高,我觉得是真正做到了中文语境的深度适配。

还有这张经典的梗图,终于不是「快来品尝我新鲜的肉体」了。

▲ 一张万万没想到短片截图,提示词:画面左边带着红色帽子的唐僧,用手指着牛角的人的鼻子,非常生气的说:「还想品尝我新鲜的肉体,没门!」

百度蒸汽机确实精准地击中了,让一张图开口说话演一出对手戏,这个创作痛点。它将过去繁琐的多工具流程,简化为「一张图+一句话」的一步操作,这对于 Meme 二创、虚拟人对话、知识讲解、短剧制作等场景来说,无疑是一次生产力的解放。

如果说要真正做到前段时间流行的《甄嬛传》和《让子弹飞》的视频配音演示效果,还是有些差距。但看现在的 AI 视频生成技术发展,AI 能表达更细腻、更矛盾的人类情感,我想也只是时间上的问题,毕竟蒸汽机 1.0 模型还是上个月初发布的。

运镜和大场面,它能驾驭吗?

除了在中文场景下,双人有声的音视频一体化生成首创,百度蒸汽机 2.0 的另一项升级是电影级的画质和大师级的复杂运镜

之前的对话视频里,情绪、表情以及 3D 面部生成,都算得上展示了真实细腻的人物表现力。我们继续测试了广告和短剧中常见的转场、空镜,这些可以说是 AI 视频,除了对话的另一个刚需。

▲ 提供首帧图,并附上提示词:一个镜头,从书桌上的翻开的书本特写开始,慢慢向上拉起,最终定格在窗外下着雨的街景上;由蒸汽机 2.0 Pro 生成。

从生成的视频效果来看,蒸汽机把指令的遵循做得非常好。整个运镜过程,特写、向上拉、定格,执行得相当流畅,没有出现镜头乱晃或指令理解错误的问题。这也说明它对摄影术语的理解是到位的。

当 AI 学会地道中文,视频创作新的转折点来了

经过这番测试,我认为百度蒸汽机 2.0 的定位非常清晰:它并非要成为一个无所不包的 Sora 式模型,而是选择了一条更务实的路径:以「中文对话」为核心突破口,将 AI 视频从一个有趣的「玩具」,推进到了一个可以交付成片的「工具」。

它绕开了单纯比拼画质和时长的内卷,把更多力气都花在了解决一个最要命、也最本土化的问题上——让 AI 视频真正「开口说中国话」,而且说得比真人还溜。

这种从「玩具」到「工具」的转变,已经在真实的创作和商业领域得到了验证。

好莱坞级视效指导姚骐,曾参与《2012》、《黑客帝国3》、《变形金刚3》等影视作品的视效工作,在国产科幻剧《三体》中打造了经典的古筝行动画面特效。这次,他就用百度蒸汽机创作了一支高品质科幻短片,其中包含 40 多个宏大复杂的特效镜头,每个镜头生成 3 次,总计生成了 120 多个片段素材,累计仅花费了 330.6 元。

▲ 发布会视频《归途》

当一个过去需要百万元级别预算的短片,其视觉生成成本被压缩到难以想象的低位时,被颠覆的不仅仅是预算,更是创作的门槛和权利。

这背后,解决的不仅是成本的问题,更是从生成一个酷炫片段到讲述一个完整故事的转变。当宏大视效可以与叙事和对白无缝结合时,AI 才真正从一个特效插件,升级为创作者手里的高效率工具。

在品牌营销场景,这种模式也打破了常规的视频制作流程。比如伊利倍畅需要为一款羊奶粉制作宣传片《漂「羊」过海来看你》,传统方式不仅周期一般需要 4-6 周,而且要用实拍呈现「小羊莎莎」坐热气球环游荷兰草原和高科技工厂的奇幻之旅,成本和难度都极高。

但这次制作团队利用蒸汽机,将这些实拍难以完成的奇幻场景,通过风格化的 AI 渲染来实现。更重要的是,AI 将荷兰奶源、益生菌配方等硬核卖点,流畅融入了叙事中,制作周期缩短到了几天之内,画面不违和,同时表达了品牌的理念。

无论是专业大神,还是无数中小创作者与品牌方,相当于都获得了「赛博神笔」。你只需要「一张图+一句话」,就能让静态的兵马俑活过来打电话,或者让张飞一边绣花一边跟你唠嗑。这种创作门槛的消失,正在重塑内容行业的成本公式和竞争规则。

当然,它也不是完美的瑞士军刀。目前它在非对话的纯视觉特效上,生成视频的时长也还有限制,音色风格的选择也可以更丰富。

但在快速迭代 AI 产品浪潮中,也没有真正完美的产品,反而能更快落地解决用户的实际需求,才更有意义。 百度蒸汽机没有陷入技术军备竞赛的虚荣,而是选择了一条更务实、更贴近市场的路。它就像一个专注于把钉子敲好的锤子,虽然不能刨木头,但在「敲钉子」这件事上,它做到了极致。

看着 AI 生成的角色在我面前侃侃而谈,却没什么「人机感」,那种奇妙还是会忍不住涌上来。工具终将隐形,而创意永远闪耀。蒸汽机所做的,就是把那个曾经无比昂贵、属于少数人的导演梦,还给了每一个有话想说的人。

现在,我们已经不缺好的工具,只是缺少新鲜的创意;而与众不同的创意,来自一次次的尝试。

文|李超凡、张子豪

文章内视频浏览点击此链接访问:https://mp.weixin.qq.com/s/cy7m7e97AVVo5VqUcnS0_w

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌