Normal view

There are new articles available, click to refresh the page.
Yesterday — 20 December 2025Main stream

AI 大神 Karpathy 2025 年度总结刷屏:AI 既是天才也是智障,这 6 个转折最关键

By: 爱范儿
20 December 2025 at 12:46

最近各种年度回顾陆续上线, OpenAI 的前联合创始人 Andrej Karpathy 也交出了自己对大模型的年度总结

就在今年早些时候,他在 YC 的一场演讲刷爆了全网,提出了不少新的观点:

  • 软件 3.0 已来: 从最初的人写代码(1.0),到喂数据训练模型(2.0),现在我们进入了直接对模型「念咒语」(Prompt)的 3.0 时代。
  • LLM 是新操作系统: 它不是像自来水一样的普通商品,而是一个负责调度内存(Context Window)和 CPU(推理算力)的复杂 OS。
  • Agent 的十年: 别指望 AI Agent 一年就成熟,从 99% 到 99.999% 的可靠性,我们需要走上十年。

Karpathy 今天这篇《2025 年度总结》,他再次向我我们剖析了这一年 AI 究竟长出了什么样的「脑子」。

以下是对 Karpathy 年度总结的精译,APPSO 在不改变原意的基础上做了更多通俗解读。

如果想看原文可以点击🔗 https://karpathy.bearblog.dev/year-in-review-2025/

2025 年是 LLM(大语言模型)发展强劲且充满变数的一年。以下是我列出的几点个人认为值得注意且稍感意外的「范式转变」——这些变化不仅重塑了行业版图,更在概念层面上狠狠地冲击了我的认知。

🛑 太长不看版:

2025 年既让人兴奋,又有点让人措手不及。

LLM 正在作为一种新型智能涌现,它同时比我预期的要聪明得多,也比我预期的要笨得多。

无论如何,它们极其有用。我认为即使以目前的能力,行业甚至还没挖掘出其潜力的 10%。同时,还有太多的想法可以尝试,从概念上讲,这个领域感觉依然广阔。正如我今年早些时候提到的,我同时(表面上矛盾地)相信:我们将看到持续快速的进步,但前方仍有大量艰苦的工作要做。

系好安全带,我们要发车了。

1. RLVR:教 AI 像做奥数题一样「思考」

在解释这个复杂的基础概念之前,先看看以前是大模型训练是怎么做的?

在 2025 年初,各大实验室训练 LLM 的「老三样」配方非常稳定:

1. 预训练(Pretraining):像 GPT-3 那样,让 AI 读遍全网文章,学会说话。

2. 监督微调(SFT):找人写好标准答案,教 AI 怎么回答问题。

3. 人类反馈强化学习(RLHF):让 AI 生成几个答案,人来打分,教它讨人喜欢。

现在发生了什么变化?

2025 年,我们在这个配方里加了一味猛药:RLVR(从可验证奖励中进行强化学习)。

这是什么意思?

简单来说,就是不再让人来打分(人太慢且主观),而是让 AI 去做那些「有标准答案」的任务,比如数学题或写代码。对就是对,错就是错,机器能自动验证。

在数百万次的自我博弈和试错中,模型自发地演化出了看似「推理」的策略。它们学会了先把大问题拆解成小步骤,甚至学会了「回过头来检查」这种高级技巧(参考 DeepSeek R1 论文)。

核心对比:

  • 旧范式(RLHF): 像是教小孩写作文。因为没有标准答案,AI 很难知道自己哪一步想错了,只能模仿人类的语气。
  • 新范式(RLVR): 像是把 AI 关进奥数训练营。不用教它具体怎么想,只要给它足够多的题和对错反馈,它自己就能摸索出解题套路。

这一招太好用了,以至于 2025 年大部分算力都被这只「吞金兽」吃掉了。结果就是:模型并没有变大,但训练时间变长了。 我们还获得了一个新旋钮:让 AI 思考得久一点。OpenAI 的 o1 是开端,而 o3 则是真正的拐点。

2. 幽灵 vs 动物:AI 不是「电子宠物」

2025 年,我和整个行业终于从直觉上理解了 LLM 智能的「形状」。

一个惊悚的比喻:我们不是在像养宠物一样「进化/养育动物」,我们是在「召唤幽灵」

为什么这么说?

因为 AI 的一切都和生物不同。人类的大脑是为了在丛林里活下来、为了繁衍后代而优化的;而 LLM 的大脑是为了模仿人类文字、在数学题里拿分、在竞技场里骗赞而优化的。

参差不齐的智能(Jagged Intelligence):

正是因为 RLVR(可验证奖励)的存在,AI 的能力在某些领域(如数学、编程)会突然飙升成刺状。这就导致了一种极其滑稽的现象:

  • 它同时是一个绝世天才(秒解高数题);
  • 又是一个智障小学生(会被简单的逻辑陷阱骗得团团转)。

▲这里 Karpathy 引用了一张梗图:人类智能是圆润的蓝色圆圈,AI 智能是像海胆一样满是尖刺的红色图形。这很形象.

这也解释了为什么我对现在的「跑分榜单」(Benchmarks)失去了信任。

什么是「刷榜」的本质?

既然榜单是可验证的,那就可以用 RLVR 针对性训练。现在的实验室都在搞「应试教育」,把 AI 的能力尖刺专门往考题上长。「在测试集上训练」已经不仅仅是作弊,而成了一门新的艺术形式。

3. Cursor:不仅是编辑器,更是「包工头」

Cursor 今年的爆火,揭示了一个新真相:LLM 应用层比我们想象的要厚。

大家开始谈论「医疗界的 Cursor」、「法律界的 Cursor」。这些应用到底做了什么?

  • 「上下文工程师」: 帮你整理好所有背景资料喂给 AI。
  • 「工头」: 在后台偷偷指挥多个 LLM 干活,把复杂任务拆解,还要帮你省钱。
  • 「遥控器」: 给你一个调节「自主性」的滑块,决定放手让 AI 干多少。

预测:大模型实验室(如 OpenAI)会负责培养「全科大学生」;而应用开发商(如 Cursor)则负责给这些学生提供私有数据和工具,把他们组建成「专业施工队」

4. Claude Code:住在你电脑里的「赛博幽灵」

Claude Code (CC) 的出现让我眼前一亮。它不仅仅是一个能写代码的 Agent(智能体),更重要的是:它活在你的电脑里

对比来看,我认为OpenAI 搞错了方向。

OpenAI 早期的 Agent 都在云端跑(ChatGPT),离你的真实环境太远。虽然云端智能体听起来像是 AGI 的终局,但在当前这个「参差不齐」的过渡阶段,本地才是王道。

为什么本地很重要?

因为你的代码、你的配置、你的密钥、你的混乱环境,都在本地。Anthropic(Claude 的母公司)搞对了优先级,他们把 AI 塞进了一个小小的命令行界面(CLI)里。

它不再是你浏览器里的一个网页(像 Google 那样),它变成了一个寄宿在你电脑里的「赛博幽灵」,随时准备帮你干活。这才是未来 AI 交互的样子。

5. Vibe Coding

什么是 Vibe Coding?

这是我在推特上随口造的一个词(居然火了):意思是写代码不再需要你真的懂语法,你只需要用英语描述你的「意图」和「感觉」,剩下的交给 AI。

这带来了什么改变?

  • 对于普通人: 编程的门槛彻底消失了。
  • 对于专家: 代码变得像纸巾一样「廉价、一次性、用完即弃」。

举个例子,我为了找一个 Bug,可能会让 AI 现场写一个专门的 App 来测试,测完就删。放在以前,为了找个 Bug 专门写个 App?疯了吧!但在 2025 年,代码是免费的。

Vibe Coding 将会彻底重塑软件行业,也会改写程序员的招聘 JD。

6. Nano Banana:AI 终于有了自己的「脸」

为什么现在的 AI 交互很反人类?

不管是 ChatGPT 还是 Claude,我们还在用「打字」跟它们聊天。这就像 80 年代还在用 DOS 命令行的黑底白字。

事实是: 计算机喜欢文本,但人类讨厌读文本。人类是视觉动物,我们喜欢看图、看表、看视频。

Google Gemini Nano banana(这是一个虚构的模型代号,指代某种多模态交互模型)是 2025 年的另一个范式转变。它暗示了未来的 LLM GUI(图形界面) 是什么样子的

未来的 AI 不应该给你吐一堆字,它应该直接给你画一张图、生成一个网页、弹出一个交互面板。 这不仅仅是「画图」,而是将文本生成、逻辑推理和视觉表达纠缠在一起的混合能力。

连接热爱,发现创新价值的科技媒体,传播有价值的发声文本。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Before yesterdayMain stream

刚刚,OpenAI 版 Nano Banana 发布:奥特曼秒变性感男模|附实测

By: 莫崇宇
17 December 2025 at 12:31

GPT-4o 上半年带来的那波热度,不仅让奥特曼感受到了 GPU 融化的气息,也让生图、理解视觉几乎变成了所有大模型的标配卖点。

但到了今年下半年,真正刷足存在感的却是那根「香蕉」:Nano Banana。

为了抢回头把交椅,OpenAI 今天正式推出了最新图像视觉模型 GPT-Image-1.5。这也是继 GPT-5.2 之后,OpenAI 红色警报计划中又一记重拳。

省流版如下:

  • 指令执行更准确
  • 编辑更精确
  • 细节保留更完整
  • 比之前快 4 倍

告别「抽卡」玄学,编辑细节能力拉满

GPT-Image-1.5 最大的升级点在于「精准编辑」。

以前用 AI 改图,简直像碰上了一个听不懂人话的「托尼老师」,你只想修修刘海,它反手就给你剃了个光头。现在,模型终于听懂了人话。你改哪里,它就动哪里。

光线、构图、人物特征,在输入、输出和后续编辑的闭环都能保持一致性。

听起来很抽象?看看官方给出的示例。

  • 将两个男性和一只狗合成到一张 2000 年代胶片风格的儿童生日派对照片中 →
  • 添加背景中吵闹投掷东西的孩子们 →
  • 将左边的男人改为复古手绘风格,把狗变成毛绒玩具风格,右边男子和背景保持不变 →
  • 为所有人换上 OpenAI 毛衣 →
  • 最后只保留狗,把画面放入一场 OpenAI 的直播中……

一套连招下来,画面逻辑居然没崩。这说明 GPT-Image-1.5 不再是靠「蒙」,而是真的理解了画面结构,并完成增删改查。而能改得准、稳得住,才是现在的技术护城河。

再来看几个我实际测试的案例。

你或许看过《千里江山图》这幅传世名作,但你或许还遗漏了亿点点细节。

同理可得,谁说《百骏图》里,不能突然出现一只从现代穿越过来的网红柴犬 Kabosu。

就连马斯克和扎克伯格那场没打成的笼中决斗,在 GPT-Image-1.5 的加持下,一次性就成功把主角换成了奥特曼。脸没崩,违和感也几乎为零。

我们要一张细节丰富、逼真写实的极端仰拍照片,马斯克坐在珠江岸边单手搭着广州塔尖。为了体现巨物感,还得在他的脚边撒上微小的游船和游客。

结果,它也确实懂了什么是「比例感」。

▲提示词:一张细节丰富、逼真写实的极端仰拍照片,画面中的马斯克正在坐在珠江岸边,一只手搭在广州塔的塔尖上,为了体现巨大的体型比例,可在他的脚边加入一些微小的游船、观光游客等,2K,16:9

终于不再画「鬼画符」,但中文表现……

相比初版图像模型,GPT-Image-1.5 更擅长遵循复杂、细致的指令,能保持各元素之间的预设关系。

官方展示了一个 6×6 的网格图案例,每一行都要按指定内容布置,希腊字母、动物、物品、图标、单词,模型排列得井井有条,强迫症看了都得说声舒服。

经过实测,把线稿转成真实图片这种操作,现在也成了基操。

文本渲染能力也进一步提升,能更好地处理密集、小字体内容。比如将一段 Markdown 格式的内容呈现为自然的报纸文章布局,内容包括 GPT-5.2 发布说明、性能基准对比等,格式和数字都能保持完整准确。

这个能力听起来可能不起眼,但对于需要生成海报、宣传图、信息图表的用户来说,简直是刚需。

在 Nano Banana Pro 出现之前,生成式 AI 的文本渲染一直抽象得离谱,现在终于能看了。不过我们得泼盆冷水,GPT-Image-1.5 的英文能力确实能打,但中文表现依然是灾难现场。

我让它画个「擎天柱征服火星」的中文漫画,它能给你自创一门火星文。

亦或者让其生成一张古人在墙壁写水调歌头的图片,不仅文字错漏百出,握笔姿势还居然是拿钢笔的手法。

好在生成速度快了 4 倍,这边还在画着,那边你可以同时开几个新任务,试错成本大大降低。物体知识储备也还算在线,问它往水里加盐鸡蛋会怎样,生成的图片倒是有模有样。

▲左为原图,右为生成的图片。提示词:如果往水中加入大量盐,生成一张图片,展示鸡蛋会发生什么。

博主 @Yuchenj_UW 则认为 GPT Image 1.5 的生成效果大致达到了 Nano Banana Pro 水准,但「智商/推理能力」明显落后于 Nano Banana Pro,尤其在数学题上(以及其他物理/迷宫类问题)表现更差。

你的下一位设计师,何必是人?ChatGPT 申请出战

OpenAI 这次还在 ChatGPT 里专门开辟了一个图像创作入口。

网页和移动端侧边栏都能看到这个新入口,里面塞满了预设滤镜和热门提示词,还会定期更新。上传一次肖像,以后张张都是你,不用反复喂图。

说实话,这功能 Nano Banana 没有,但国内的生图模型早就玩烂了。 某种程度上,GPT-Image-1.5 也算是在摸着国内同行的石头过河。

刚刚,奥特曼也在社交媒体上分享了自己用 GPT-Image-1.5 生成的圣诞性感月历男模照片。

来都来了,我们也顺手给奥特曼换了几套皮肤。贴纸风、摇头娃娃风、素描风,预计今天过后,奥特曼又要成为互联网上最忙的男人。

有个细节很值得点赞,当你要求生成预设方案时,OpenAI 会公开预设的提示词。从这一点来看,OpenAI 确实 open 了。

除此之外,制作贺卡、创建专辑封面,修复老照片,拍摄专业求职照片等也都是非常实用的预设方案。比如,那张经典的鲁迅和泰戈尔的合照,经过修复后,其实效果还是挺不错。

OpenAI 应用 CEO Fidji Simo 在博客中写道:「人类的思维并不只是由文字组成。事实上,我们最有创意的想法,往往起源于脑海中的图像、声音、动作或模式。」

她透露,ChatGPT 正在从一个反应式、以文本为核心的产品,转变为一个更直观、更能贴合你各种任务需求的工具。从纯文字向多媒体和动态界面转变,是这一进化过程中的重要一步。

很多用户第一次接触 ChatGPT,都是通过文字生成图片。这种「把文字变成画面」的过程充满魔力,但 ChatGPT 的聊天界面最初并不是为此设计的。图像创作和编辑是一种完全不同的任务,需要专门的视觉空间来支持。

OpenAI 干脆给它搞了个专属入口,让图像生成有了一个更像创意工作室的环境。

计划还不止于此。

OpenAI 未来还将引入更多视觉元素,优化 ChatGPT 的整体体验。未来在进行搜索查询时,结果将更多地包含图片和清晰来源。在单位换算或查阅体育比分等任务中,你需要的是一目了然的可视化结果,而不是一段文字描述。

甚至写作体验也在改,未来内置的写作模块让你在聊天中就能直接编辑,还能一键导出 PDF 或直接调用邮件应用发送。ChatGPT 早已不是一款单纯的语言模型,它正在变成一个真正的多模态工作台。

当然,除了普通用户,开发者也能通过 API 用上 GPT-Image-1.5。

相比 GPT-Image-1,GPT-Image-1.5 具备更强的品牌元素与关键视觉保持能力,适合电商、品牌营销等需要生成大量变体图片的场景。图像输入输出费用降低 20%,同样预算可生成更多图像。

降价+提效,这套组合拳打得还是挺实在的。

除此之外,迪士尼上周已经宣布向 OpenAI 投资 10 亿美元,并达成了合作协议。根据这项为期三年的授权协议,OpenAI 旗下的 Sora 和图像生成模型都能生成迪士尼、漫威、皮克斯和星球大战旗下角色,并计划在明年初正式上线相关功能。

内容 IP 加 AI 生成,这背后想象空间确实挺大。

更重要的是,GPT-Image-1.5 的发布,标志着图像生成工具正在从「玩具」向「工具」转变。

目前市面上大多数 AI 改图工具,一改就崩,毫无一致性可言。

GPT-Image-1.5 至少在这个方向上迈出了坚实的一步。它开始具备后期编辑能力,能像 Nano Banana Pro 一样控制细节,确保画面连贯。

在模型能力较弱的情况下,GPT-Image-1.5 通过更完善的图片生成预设方案, 以及功能设置来完成对新版 Nano Banana 的反击, 也确实是不错的选择。

专属图像创作入口、预设滤镜库等等,这些看似不起眼的产品设计, 恰恰击中了普通用户的痛点。很多人并不需要最强的模型, 他们需要的是「能快速上手、不用反复调教、生成结果八九不离十」的工具。

模型能力领先只是第一步, 如何把能力转化为好用、易用、爱用的产品,才是真正的护城河。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Nano Banana Pro保姆级指南!全网最火玩法+官方7大技巧+免费渠道,都在这了

By: 张子豪
23 November 2025 at 09:52

The Information 今天独家报道了上个月,奥特曼在 OpenAI 内部发的备忘录,里面提到奥特曼说,Google 在 AI 领域的最新进展,可能会给公司带来一些暂时的经济阻力。

现在看来,不是可能有阻力,是已经感受到了压力了。互联网时代就是老大哥的 Google,很明显要把 OpenAI 拉下来,继续做 AI 时代的 No.1。

Gemini 3.0 Pro 的热度还没散去,宇宙「最强」图像模型 Nano Banana Pro,就水灵灵地端上来了。

距离出场就惊艳到大家的第一代版本,才刚刚过去了三个月不到。

这次的更新,一致性保持更强、世界知识也同步到 Gemini 3.0 Pro,多模态理解和推理能力都得到了大幅度的提升。

之前的桌面手办放到现在都成了「图一乐」,如今的 Nano Banana Pro 升级方向更加明确地,往效率工具上靠近,网友们拿它创建和编辑各种复杂的视觉效果,生成内容准确、布局优雅的信息图表。

我们挖掘了多个网上热门的玩法,和 Google 官方给出的使用指南,来榨干 Nano Banana Pro 的全部能力。

把文章转成风格化的信息图

由于长文本渲染的能力增强,目前网上热门的测试,都是生成各种各样的信息图,有密密麻麻的知识解说类,还有写满一黑板、一墙壁的经典古诗词,或者数学题解答等等。

例如下面这个把我们输入的文字,原封不动的转成一本杂志的内容。

▲图片来源:X@fofrAI|提示词:Put this whole text, verbatim, into a photo of a glossy magazine article on a desk, with photos, beautiful typography design, pull quotes and brave formatting. The text: […the unformatted article]

还有网友直接丢给他一个 Markdown 文档或者 PDF,然后跟 Nano Banana Pro 说,将这个文档转成信息图,就得到了一个设计友好、信息准确的图片。

评论区都在说,插画师的时代,是不是也要结束了。

▲图片来源:X@tobi|提示词:Make this markdown transcript into a infographic

因为 Nano Banana Pro 现在能使用谷歌搜索,并且推理和理解能力都有了大的提升,所以在生成信息图上,如果没有太严格的要求,直接告诉它要做一个什么主体的信息图就能实现,不需要纠结太多提示词的结构。

▲提示词:生成一张 2026 年中国放假安排的信息图,全部使用中文,4K画质,16:9

例如,当我们要他生成明年的节假日信息时,我看到 Gemini 里面给我的回复,有明确的使用 Google 搜索获取的信息结果,即多个官方的公告网页链接。

还有很多好看的信息图测试,网友们的提示词也比较简单,基本上都是「帮我生成一个xx的信息图」。

一张有趣的繁忙城镇信息图,展示动物们在繁忙城镇中上班的情景,并介绍它们从事的不同工作。

▲图片来源:X@unsoldwill|提示词:Make a fun busy town infographic of animals going to work in a busy town showcasing different jobs.

一张 Stephen Biesty 风格的双层神经网络图。

▲ 图片来源:X@jon_barron|提示词:Generate a diagram of a two-layer neural network in the style of Stephen Biesty

这位网友还把这张图片丢给 Google 的 Veo 3.1,让它动了起来。

将内容繁杂的文档,转换成清晰、可扫描的白板式信息图。

▲图片来源:X@denilgabani|Convert the attached research paper into a single whiteboard-style image. Break down all key concepts, diagrams, insights, and relationships in a way that is easy to understand at a glance. Add clear visual notes, arrows, highlights, summaries, and clever student-style annotations so I can quickly grasp the full paper and take notes from it.

生成精彩的连环画

结合长文本渲染和强大的一致性保持,除了渲染文本较多的信息图,Nano Banana Pro 用来制作连环画是再合适不过,并且,它现在支持在一次请求中,生成多张照片。

有网友只是上传了一张图片,然后输入「根据这张图片创作并绘制一个多格漫画」的提示词,就得到了多张自己写好剧情的漫画,并且他还在继续更新后续的情节。

▲ 图片来源:X@DeryaTR_|提示词:Create and draw a multi-panel comic based on this image.

还有只是提示说,生成几页以某个人的生活为主角的漫画。Nano Banana Pro 就能启用网络搜索,检索这个人的信息,还找到了他的 X 账号,根据他的 X 账号发布的内容信息来生成漫画。

▲图片来源:X@skirano(Pietro Schirano)|提示词:Generate a few pages of comic starring the life of Pietro Schirano

如果你也有公开的社交媒体平台,不妨试试让 nano banana 也生成过去一周你的生活漫画。

我们试了试让 Nano Banana Pro 生成马斯克和奥特曼的生活漫画,在 Gemini 网页版里,它一次性给了我们三张图片,漫画的内容可以看出,它确实是有世界知识在的。

▲ 提示词:生成几张以 Elon Musk 和 Sam Altman 的生活为主角的真人漫画图片,全部用中文

至于之前一代的 Nano Banana 玩的那些一致性,现在的 Pro 版本一样表现出色。像是给一个模特穿上不同的衣服,保持模特和衣服不变;还有像是把一些 Logo 放到不同的周边上,或者对现有的产品图,进行一些小元素的替换,Nano Banana Pro 的表现都很好。

在 Google AI Studio 的官方案例中,也给出了多个信息图生成、和漫画制作的实例,它们搭建了多个利用 Nano Banana Pro 模型的项目。

▲体验地址:https://aistudio.google.com/apps?source=showcase&showcaseTag=nano-banana

其中一个是我们只需要上传一个文章链接,他就能生成四种不同风格的信息图,包括趣味型、简洁型、暗黑科技风和现代编辑部风。还有只是丢给它一个模糊的概念,或者一个主题,就能为我们生成一张风格迥异的信息图。

▲项目介绍 Demo

4K 壁纸的生成,街机游戏的真人体验,以及更符合品牌使用的各种 Logo 贴图小工具等,在 Google AI Studio 上都有提供现成的项目。

▲下着雪的金门大桥 4K 壁纸

我们用「无限英雄」这个小项目生成一段马斯克和奥特曼的连环画,在预览连环画的过程中,我们还能选择剧情的走向,来决定接下来的漫画内容。

▲生成的漫画下载后是 PDF 文件

不过目前 Nano Banana Pro 模型 API 并不是免费调用,所以 AI Studio 的这六个项目,都需要绑定支付方式才能使用。

但是,这些项目都提供了源代码,我们可以在他们的基础上进行修改。通过查看背后的代码,也能看到背后的提示词。

我们提取了其中一个项目的提示词,即输入链接生成四种风格的信息图。

首先我们可以使用下面的提示词,来对网页链接的内容进行总结,将其中的 ${url} 替换为实际的,需要分析的文章链接。${language} 则可以直接替换为 Chinese,以中文呈现。

You are an expert Information Designer. Your goal is to extract the essential structure from a web page to create a clear, educational infographic.
Analyze the content at this URL: ${url}
TARGET LANGUAGE: ${language}.
Provide a structured breakdown specifically designed for visual representation in ${language}:
1. INFOGRAPHIC HEADLINE: The core topic in 5 words or less (in ${language}).
2. KEY TAKEAWAYS: The 3 to 5 most important distinct points, steps, or facts (in ${language}). THESE WILL BE THE MAIN SECTIONS OF THE IMAGE.
3. SUPPORTING DATA: Any specific numbers, percentages, or very short quotes that add credibility.
4. VISUAL METAPHOR IDEA: Suggest ONE simple visual concept that best fits this content (e.g., “a roadmap with milestones”, “a funnel”, “three contrasting pillars”, “a circular flowchart”).
Keep the output concise and focused purely on what should be ON the infographic. Ensure all content is in ${language}.

得到这一部分的文章总结后,我们就可以开始图像生成。

Create a professional, high-quality educational infographic based strictly on this structured content plan:
${structuralSummary}
VISUAL DESIGN RULES:
– ${styleGuidelines}
– LANGUAGE: The text within the infographic MUST be written in ${language}.
– LAYOUT: MUST follow the “VISUAL METAPHOR IDEA” from the plan above if one was provided.
– TYPOGRAPHY: Clean, highly readable sans-serif fonts. The “INFOGRAPHIC HEADLINE” must be prominent at the top.
– CONTENT: Use the actual text from “KEY TAKEAWAYS” in the image. Do not use placeholder text like Lorem Ipsum.
– GOAL: The image must be informative and readable as a standalone graphic.

图像生成的提示词比较简单,我们把之前文章链接分析的结果,替换掉其中的 ${structuralSummary} 部分;然后 ${styleGuidelines} 的选择,可以从官方项目中,提到的四种风格里面任选一个。

有趣且充满玩乐的风格 Fun & Playful:styleGuidelines = STYLE: Fun, playful, vibrant 2D vector illustrations. Use bright colors, rounded shapes, and a friendly tone.

简约极简风格 Clean Minimalist:styleGuidelines = STYLE: Ultra-minimalist. Lots of whitespace, thin lines, limited color palette (1-2 accent colors max). Very sophisticated and airy.

深色模式科技风Dark Mode Tech:styleGuidelines = STYLE: Dark mode technical aesthetic. Dark slate/black background with bright, glowing accent colors (cyan, lime green) for data points.

现代编辑风 Modern Editorial:styleGuidelines = STYLE: Modern, flat vector illustration style. Clean, professional, and editorial (like a high-end tech magazine). Cohesive, mature color palette.

照着这种方法,我们把 Nano Banana Pro 发布的那篇文章丢给 Gemini,得到了下面这几张信息图。

官方下场,7 个生图技巧

除了用这种已经写好的提示词,Google 也是煞费苦心给了一份详细的 Nano Banana Pro 使用技巧,一方面是生怕我们不会操作,导致对模型的误会。另一方面,其实 Google 是希望 Nano Banana Pro 不单只是一个用来玩玩的生图模型,他们真的期待能提升我们的生产力。

提示词的重要性,对于要获取精准控制的内容来说,除了模型自身的能力,剩下的决定因素就是它了。Google 再一次提到,一个好的提示词,要明确的包括主题、构图、动作、地点、风格、和编辑说明。

用简短的语言描述画面的主体,例如,具体说明图片中的人或物是什么?在构图上,告诉模型,照片是如何取景的?是特写、广角镜头、低角度镜头、还是人像镜头等。

▲举个例子:一只戴着小巫师帽的毛茸茸的三色猫,在日落时分阳光普照的草地上,施展着它的魔法,低角度镜头,照片写实主义

接下来是描述动作,画面的主体正在发生什么?以及是在哪里发生,描述具体的场景。最后再确定我们想要的照片风格,例如,3D 动画、黑色电影、水彩画、照片写实主义、20 世纪 90 年代产品摄影等,不同的整体美学风格选择。

如果追求更可控的生图效果,Google 还提到了可以进一步完善相机、灯光和格式等细节,精细化提示词的内容。

例如现在的 Nano Banana Pro 支持自定义构图和宽高比,我们可以选择 9:16 竖版海报,21:9 电影宽镜头等画面。

此外,在摄影和灯光细节上,Google 给的参考提示是,像电影摄影师一样指导拍摄,具体的用词可以尽可能专业化,例如,「低角度拍摄,浅景深(f/1.8)、黄金时段逆光,营造长阴影、电影级调色,采用柔和的蓝绿色调」;等提示词用语。

▲举例:一只戴着小巫师帽的毛茸茸的三色猫,在日落时分阳光普照的草地上,施展着它的魔法,低角度镜头,浅景深(f/1.8)、黄金时段逆光营造长阴影、电影级调色,采用柔和的蓝绿色调。照片写实主义。21:9 电影宽镜头。标题「猫猫施法」以可爱的彩虹字体显示在顶部。

在针对文本处理任务时,需要明确说明,某段文本的内容和显示位置,以及这段文本对应的字体。针对图表信息图,要在提示词里面,明确告诉模型对准确性的要求,并且确保自己的输入时正确的。

涉及到多图参考和图像编辑,需要明确告知模型每张图片的作用,以及具体需要编辑的地方。

掌握了提示词公式只是基础,接下来就是一些官方推荐的,Nano Banana Pro 具体的应用场景。

1、让 AI 真的「写字」,而不是画鬼画符。以前 AI 画图最怕出现文字,出来的都是乱码,新模型在文字渲染上有了巨大提升。我们可以直接要求它生成海报标题、复杂的图表、或者详细的模型说明。

▲ 提示词:制作一张信息图,用中文展示如何制作老北京豆汁儿。

2、它是懂物理和历史的。基于 Gemini 3 的推理能力,这个模型拥有更丰富的世界知识,它可以生成逻辑严密的图表,或符合历史事实的场景。

3、最多支持 14 张图!超级融合大法。这大概是新模型最强悍的功能之一。它允许我们输入 6 到 14 张(具体数量可以要看不同的平台)完全不相关的图片,让 AI 将它们融合创造出全新的画面。

利用多图输入功能,我们可以让同一个角色,在不同场景中保持面部和特征的一致性,甚至是在群像中也能保持相似度。这非常适合去做一些连环画或者分镜。

▲提示词:将这些图像组合成一张 16:9 格式的适当排列的电影图像,并将模特身上的裙子换成图像中的裙子。

4、精确调整大小。尝试不同的宽高比,并在各种产品上生成 1K、2K 或 4K 分辨率的清晰视觉效果。

5、「指哪打哪」的精准修图。Google 把这叫做工作室级别的控制编辑,实现更专业的效果。

6、品牌设计神器:自动贴图。对于设计师来说,和初代 nano banana 相比,它的一致性保持能力更强。品牌公司可以让 AI 将对应 Logo、图案或艺术作品印在 3D 物体上,同时贴上去的 Logo,会自动调整到原图自然的光影和纹理。

7、跨语言无缝翻译,它不仅是一个生图工具,还能直接「翻译」图片里的文字。

▲提示词:将三个黄蓝罐头上的所有英文文字翻译成韩语,其他内容保持不变。

虽然 Nano Banana Pro 很强,但在官方文档里,他们也坦诚地列出了一些目前的局限性,大家使用时可以留意一下。主要是一些极小的文字渲染、复杂的拼写有时还是会出错。

另外,如果你用它生成数据图表或信息图,他们也提醒,一定要人工核对数据。AI 虽然有逻辑,但偶尔也会一本正经地胡说八道,毕竟 AI 幻觉有多严重,我们都有目共睹。

最后是在进行一些极其复杂的光照改变,或图像融合时,生成的图片,偶尔会出现不自然的伪影。

目前该模型已在 Gemini App 和 Gemin 网页版上线,而在 AI Studio 和 Vertex 平台则需要使用付费 API 才可以体验。

我们还搜集了一些能点开即用的平台,不需要付费订阅,和复杂的网络设置。

  • 海螺 AI(国内版 hailuoai.com,国际版 hailuoai.video)
  • Flowith(flowith.io、flowtith.net)
  • PixVerse(国内版 pai.video,国际版 pixverse.ai)
  • youmind.com(限时免费一周,注册就可用)
  • lovart.ai
  • banana.listenhub.ai
  • higgsfield.ai/image/nano_banana_2(免费用户每个月有 10 积分,每张 Nano Banana Pro 图片消耗两个积分)

感兴趣的朋友,不妨拿着上面的公式去试一试,新鲜有趣的玩法也欢迎在留言区评论。

最后,小彩蛋一个,The Beatles 这张经典的专辑封面照片,奥特曼、马斯克、老黄和小扎都来我们未来社「拍摄」了同款,这周末的 APPSO AIDONE 活动,你确定不来看看吗?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Nano Banana Pro 深夜炸场,但最大的亮点不是 AI 生图

By: 莫崇宇
21 November 2025 at 02:49

奥特曼,迎来至暗时刻。

Google 的 AI 攻势没有半点减弱的迹象。如果说前几天 Gemini 3 Pro 的镰刀伸向了「前端」领域,今天,被颠覆的行业轮到了设计行业,刚刚发布的 Nano Banana Pro(Gemini 3 Pro Image)再次在图像生成能力上重拳出击。

初级设计师的饭碗,怕是要端不稳了。

核心功能如下:

  • 分辨率支持:可输出 1K、2K、4K 分辨率图像
  • 多轮编辑:支持对话式、多轮次的图像编辑工作流
  • 多图像合成:最多可将 14 张输入图像组合为 1 张输出图像
  • 搜索增强:集成 Google 搜索能力,提供更精确、最新的知识支持

不再「瞎猜」,Nano Banana Pro 终于学会了先思考再画画

Nano Banana 的招牌能力是角色一致性强、对话编辑方式,而 Nano Banana Pro 的核心进化在于它把 Gemini 3 的深度思考能力完整接进了图像生成流程。

它生成一张图之前,会先做一轮物理模拟和逻辑推演,而不只是凭视觉模式「胡猜」。

▲提示词:请绘制一张四宫格图片,四张图依次表现同一位戴着斗笠的年轻男子分别发音「我」「上」「早」「八」,人物外貌保持一致,口型准确对应每个字的发音,整体风格统一,16:9,4K

跨模态理解也在 Nano Banana Pro 身上展现得更为彻底。

凭借 Gemini 3 增强的多语言推理能力,你可以直接生成多种语言的文字,或者一键本地化、翻译你的内容。

朋友丢来一页漫画,让模型给漫画上色并把气泡里的英文翻成中文。Nano Banana Pro 上色干净,光影自然,文字识别准确,英文排版也和气泡形状严丝合缝,整个过程从识别到翻译再到重排一气呵成,表现得就像在真正「理解」这张图。

▲提示词:将图片上的文字翻译为中文,并上色,其他不变

又或者,设计师过去需要反复调整的多语言漫画、国际化海报以及宣传物料,现在可以直接让 AI 一步到位。比如让模型将英文海报中的英文翻译成中文。这种从识别、翻译到设计的连贯处理方式,正是原生多模态架构最具威力的一面。

而在文字生成能力上,Nano Banana Pro 更是表现出色,无论是一句短标语还是一整段文字,都能清晰可读,甚至支持多种纹理、字体与书法风格的精细排版。

▲提示词:仿古籍线描插图风,关羽坐于油灯旁,身披宽袖战袍,神态专注沉稳。桌案上摆着《春秋》竹简、鎏金小刀、毛笔等器物,以纤细线条勾画,保留古印刷风格。背景仅以几笔勾勒墙角、屏风与兵器架,简洁却富古雅气息。色彩以浅赭、灰墨、淡青为主,呈现古书插画的文化韵味与历史感,4:3。

64k 的输入 Token 上限意味着它能理解极长的文本提示词。无论是详细的分镜脚本,还是复杂的多语言排版需求,都能更好理解。

▲提示词:生成一幅 4K 古画,画上写着:明月几时有?把酒问青天。不知天上宫阙,今夕是何年。我欲乘风归去,又恐琼楼玉宇,高处不胜寒。起舞弄清影,何似在人间。转朱阁,低绮户,照无眠。不应有恨,何事长向别时圆?人有悲欢离合,月有阴晴圆缺,此事古难全。但愿人长久,千里共婵娟。

针对前代分辨率偏低的老问题,Nano Banana Pro 把画质一步拉到 4K,还允许自由设定任何长宽比。电影海报、宽屏壁纸、纵向分镜,统统能直接生成。

Nano Banana Pro 还支持最多 14 张输入图像的组合编辑,同时保持最多 5 个角色的外貌一致。

配合多轮对话能力,用户可以不断调整、融合多个素材,直到达到理想效果。不论是把草图变成产品,还是将蓝图转换成逼真的 3D 建筑,都能轻松实现概念到成品的跨越。

▲提示词:哆啦A梦和李白在月下对酌。圆月高悬,古代亭台楼阁,哆啦A梦穿着唐朝服饰,李白持酒壶,石桌上摆着酒具,仙气飘飘,中日混合画风,精致细节

更进阶的是专业级创意控制能力。

你可以选择、微调或变换图像中的任何部分,从调整镜头角度、改变焦点到应用高级调色,甚至改变场景光照——把白天变成夜晚,或创造散景效果,这些过去需要在 Photoshop 里精细操作的工作,现在只需要一句话。

▲提示词:Transform the [camera] from the uploaded photo into a bold, colorful cartoon illustration style, while keeping the rest of the photo realistic and unchanged. Cartoon style details: thick black outlines, vibrant flat colors (such as bright cyan, magenta, yellow, pink), dripping paint and splash effects, playful comic-book energy. most drips flow downwards.The cartoon object should look like it is melting or bursting with colors, blending naturally into the real photo. Keep all other elements (background, other objects, environment) photorealistic with no alterations. High resolution, pop-art aesthetic, surreal contrast between realism and cartoon.

搜索 + 生成 = ?Google 给出了终极答案

如果说搜索是 Gemini 3 的「左脑」,那么图像生成就是其「右脑」。

这也是 Nano Banana Pro(Gemini 3 Pro Image)架构中被低估但最具颠覆性的能力。传统搜索是用户搜索、搜索引擎给链接、用户点进网站、网站提供界面。而 Nano Banana Pro 引入了搜索增强功能(Grounding with Search)。

当用户要求生成一张可视化的图片,展示在广州旅游的 2 天行程」时,Nano Banana Pro 生成的图片,包含了详细的行程地图、中英文注释、以及景点图片等。

再比如 Nano Banana Pro 能根据提示词要求,从搜索中获取最新天气状况,再把温度、风力、湿度、天气趋势等关键数据转化为鲜明、富有设计感的视觉内容。

▲提示词:搜索广州实时天气信息,制作一幅中文波普艺术风格的信息图,4:3

这项能力之所以重要,是因为它让创造过程具备了事实基础、实时性和可验证性。只能说,搜索不愧是 Google 的看家本领,无论是技术积攒的厚度,还是在理解上就已经领先一个身位。

在产品定位上,Google 采用了双模型策略:旧版 Nano Banana 用于快速有趣的日常编辑,而 Nano Banana Pro 则专注于复杂构图与顶级画质的专业需求。用户可以根据场景自由选择。

对于消费者与学生,Nano Banana Pro 已在 Gemini 应用中全球开放,只需选择「生成图像」并启用「Thinking(思考)」模式即可使用。免费用户会获得有限额度,超出后将自动切回原版 Nano Banana。

而 Google AI Plus、Pro 和 Ultra 订阅用户则拥有更高额度。在美国地区,Google 搜索的 AI 模式中,Pro 与 Ultra 用户已经可以体验 Nano Banana Pro。NotebookLM 中的 Nano Banana Pro 也面向全球订阅用户开放。

值得注意的是,Google 在 AI 透明度问题上采取了双重策略。

所有 AI 生成的内容都会嵌入不可见的 SynthID 数字水印,用户现在可以在 Gemini 应用中直接上传图像,询问它是否由 Google AI 生成。这项能力将很快扩展到音频与视频。

既然 Nano Banana Pro 已经强大到这个地步,那么问题来了,普通人该如何最大化发挥它的能力?

Google DeepMind 的产品经理 Bea Alessio 给出了一份详细的使用指南,其中透露出不少关键信息。最基本的使用方式当然是随便说一句话,让模型自己猜你想要什么。但如果你想达到专业水准,就需要像导演一样思考。

一个完整的提示词应该包含六个要素:主体(谁或什么)、构图(如何取景)、动作(正在发生什么)、场景(在哪里)、风格(什么审美)、编辑指令(如何修改)。

而如果你想要更精细的控制,还需要进一步明确:画幅比例(9:16 竖版海报还是 21:9 电影宽屏)、镜头参数(低角度、浅景深 f/1.8)、光线细节(逆光的黄金时刻,拉长阴影)、调色方向(电影级调色,偏青绿色调)、以及具体的文字内容和样式。

附上官方博客地址:https://blog.google/products/gemini/prompting-tips-nano-banana-pro/

这种「摄影指导式」的提示词写法,正是 Nano Banana Pro 和传统图像生成模型的分水岭。因为它真的能理解这些专业术语,并把它们准确地转化为视觉输出。

看到这里,再回过头看 Google 这几天连环发布的产品,就不难明白它想传达什么。

无论是前几天发布的 Gemini 3 Pro 预览版,还是今天亮相的 Nano Banana Pro ,Google 试图向世人证明:通往 AGI(通用人工智能)的道路,必须是多模态原生的。

只有一个能看、能听、能理解结构、能处理逻辑的模型,才可能对世界进行完整地「思考」。

从技术层面看,Nano Banana 系列模型让图像生成正式进入了「先理解再表达」的阶段。

当 AI 开始理解迷宫的路径、物体的结构、文字的含义甚至 UI 的交互逻辑时,它就不再只是一个画图工具,而是一个具备视觉思维能力的智能体。

从商业层面看,极低的推理成本和生成式 UI 的出现,将彻底改变内容生产和信息分发的逻辑。过去的互联网由一个个固定网页构成,而未来的互联网更可能是一块块随着你需求即时生长的界面。

设计将不再只是人的手艺,界面也不再是由团队层层打磨的成果。越来越多的视觉内容,会先交给 AI,再由人去补充或微调。Google 显然已经提前看见了那个新世界,并且开始把入口推到所有人面前。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Gemini 3一句话打造拍立得应用刷屏!全网最火8个玩法都在这,看完秒上手

By: 张子豪
20 November 2025 at 17:51

都在说 Gemini 3 这次炸翻天,年度最强,未来模型,除了拿下榜单第一,Gemini 3 到底能做点什么。

体验了一波之后,我发现最大的好处,是不需要到处去问,「你这个的提示词是什么?」

看到好玩的案例,无论是视频还是截图,统统丢给 Gemini 3,加一句「帮我做一个一模一样的出来」,Gemini 3 立刻就能复刻一个同款。提示词的时代,真的慢慢过去了。

就像这个在 X 很火的拍立得相机,它是用 Gemini 3.0 Pro 生成的一个项目,能调用设备的摄像头,然后生成一张拍立得风格的照片,在相纸上印有文案和拍摄日期。

▲ 体验地址:https://www.bubbbly.com/app/retro-camera.html|图片来源:X@ann_nnng

这种能直接和现实生活交互的效果,确实打破了之前 AI 一味的,只知道做一个单页应用的乏味。

当我们把这个视频直接发给 Gemini 3.0 Pro,它竟然也可以很快,就生成一个同款。并且在 Canvas 里面,还支持添加 Gemini 功能,因此我们这个拍立得,还有了 AI 识别摄像头画面,主动生成文案和选择滤镜的功能。

▲我输入的提示词只有让它增加多几种胶片模拟的风格。直接点击右下角的 Gemini,它会自动寻找,可以使用 Gemini 来完成的内容。

还有网友用 Gemini 3 直接做了一个诗歌探索器,让它每天提供一首诗,鼠标悬停时会解释每一行,并提供一些建议问题来进一步探索诗歌。

▲图片来源:X@raizamrtn

我特别喜欢这个简洁大方的设计,同样地,把这个录屏丢给 Gemini,当看到生成的效果时,我觉得 Gemini 3.0 Pro 太酷了。

▲提示词:上传已有视频,并加上「这是一个诗歌探索器,它每天提供一首诗,鼠标悬停时会解释每一行,并提供一些建议问题来进一步探索主题。然后我需要你根据这个视频,参考它的交互逻辑,UI 设计等等,帮我复刻一个同款诗词探索器,不过我要的是中国的古诗文、诗词歌赋。」

打开代码页,你还会惊喜地发现,Gemini 不仅搞定了前端 UI,甚至连调用 API 的系统提示词(System Prompt)都帮我们写好了。

你是一位博学的中国古文学家和美学鉴赏家。你的任务是为用户推荐一首中国古诗词(范围包括唐诗、宋词、元曲、诗经、楚辞、汉乐府等)。请不仅限于最著名的《静夜思》之类,多推荐一些意境深远、耐人寻味的佳作。

在这个过程中我们还可以同步让它进行修改,Gemini Canvas 有一个强大的功能,除了提到的「Add Gemini Feature(添加 Gemini 功能)」,还有一个是「Select and Ask(选择并提问)」,我们可以直接框选预览页面的某个组件元素,然后提问,Gemini 会自动修复这一部分。

这里我们让它添加一个分享生成照片的功能,以及修复之前点击我的收藏没有反应的问题。

▲使用的生图模型是 Imagen 3/4

这已经不是单纯的单页 HTML 文件,它需要 Gemini API 来同步完成诗歌的选择推荐,以及图片内容的生成。我相信这是目前无论哪个 AI 编程工具、或者 ChatGPT,都无法实现的强大功能。

Gemini 3 能创造的东西真的太多了,优雅的前端完全不必多说,这样的诗歌探索网页,色彩的搭配使用,元素的布局,放在哪里都是一流的设计。后端的能力,Gemini 不需要构建繁琐、有限的诗歌数据库,而是直接利用 AI 来获取不同的诗词。

而且,在对话里,我没有提到要求响应式设计,即手机、平板、和 PC 多种显示比例的同步,Gemini 3 还是帮我做到了,我们也可以在手机里直接看古诗文,同样调用 Gemini API。

▲ 手机上同样能点开网页,AI 发现新的诗歌,和生成图片

我们把同样的视频和提示词交给 ChatGPT,严重怀疑 ChatGPT 5.1 根本就没有看视频,而是完全依靠我输入的提示词来完成。无论是整体 UI 的风格,还有提示词里没有提到要写作者简介,ChatGPT 生成的内容就没有作者简介。

更大的问题,这不是一个能直接使用的产品,它生成的数据库里只有《静夜思》和《登鹳雀楼》两首诗,它也没有办法使用 OpenAI API 来完成诗歌的搜索获取。

当我提到「这个诗不应该是放在数据库里的,而是应该用 ChatGPT 自动搜索,不然我每次打开都是那几首诗诶」,整个项目就报错了,因为它需要我填入真实的 API

总而言之,如果用 ChatGPT,一个好的提示词还是少不了。

网上更火的 Gemini 3.0 Pro 测试,是有一个博主,在 Gemini 里面输入一句「Design a Capcut(设计一个剪映)」,然后只花了 239 秒,就复刻了一个能真实使用的剪映。完全不需要我们再打磨提示词,去详细列出应该做哪些功能,交互逻辑是如何,配色方案等;直接一句话搞定。

▲图片来源:X@lepadphone

还有相当一大部分的案例,是网友们都在谈的前端,即 Gemini 3.0 Pro 生成的网页,不仅摆脱了 AI 编程之前常见的渐变紫,还带来了耳目一新的大胆设计,就像是有个设计师在后台帮用户画初稿一样。

▲诸如此类「前端已死」的说法,在 Gemini 3.0 发布之后,X 上随处可见。

下面这些是网上热度比较高,由 Gemini 3.0 Pro 生成的前端页面例子。

一家人工智能公司的完整落地页。

▲提示词:You are the top 0.1% designer and developer for the world’s cutting-edge innovation on front-end design and development. You are tasked to create a full landing page with {Dither + Shaders} using {WebGL + ThreeJs} in the styling of an uploaded image for the AI company. – Focus mainly on the design part, not the development. Import all necessary files and libraries: Three.js、WebGL、GSAP、Any other animation libraries related to 3D development.|图片来源:X@natatatataat

下一代 AI 公司该有的美学追求和品味。

▲ 图片来源:X@eter_inquirer

一个双栏的响应式布局个人首页。

▲提示词:Create a hero section with a two-column responsive layout: left side has a large bold heading with orange accent highlights and star symbols, a tagline row with uppercase tags, and two CTA buttons (primary black, secondary white with border). Right side features a 3D animated orange star using React Three Fiber with slow rotation and float animations, orbit controls, and a subtle background glow. Include a top navigation bar with logo, menu items, and a “Let’s talk” button. Use Tailwind CSS for styling with a light gray background, generous spacing, and smooth hover transitions.|图片来源:X@karaan_dev

这些案例有的分享了提示词,当我们把这些提示词,通过 ChatGPT、Kimi、MiniMax 这些模型来处理时,得到的效果,都还是停留在我们的想象之中。

也有很多网友,趁着大家都在夸 Gemini 3 的前端,把一些自己设计的网页,包含复杂的动画效果和字体设计,也营销称是 Gemini 3 完成的,获得了一波流量之后,再去评论区留言说「没有提示词,这是我们团队手工做的。」

Gemini 3 + 前端,这一波热度谁都想蹭。在这些 Gemini 3.0 Pro 生成的前端精美、设计高级、交互友好的网页里面,大部分都用到了 3D 的效果,即使用 Three.js 库来完成网页设计。

深度学习经典花书的作者,Ian Goodfellow 在 Gemini 3.0 Pro 发布后,也是直接上传一张图片,生成一个 3D 的体素艺术场景,通过 Three.js 来测试它的多模态推理能力。

▲ 提示词:我提供了一张图片。请根据这张图片编写一个漂亮的体素艺术场景。使用 Three.js 编写单页应用程序。体验地址:https://aistudio.google.com/apps/bundled/image_to_voxel

他提到与 Gemini 2.5 的结果相比,Gemini 3 强大的多模态理解,和 3D 推理能力,大幅提升了生成内容的保真度

得益于内容保真度的提高,很多 3D 项目,现在都可以通过 Gemini 3.0 Pro 来完成。像这个完全交互式的 3D 地球仪,我们可以探索和收听,来自世界各地的广播电台。

▲图片来源:X@sahilypatel

眼尖的网友立刻就发现了,这不就是经典的 Radio.Garden 吗?作者也坦言确实在提示词中,提到了这个网站,要求复刻。但让我们惊讶的是,Gemini 3.0 Pro 只靠简单的几句指令,就完美重现了这个复杂的 3D 交互体验。

还有一些经典的 3D 单页项目,例如这个酷炫的 3D 魔方。

▲提示词:make me a spinning rubiks cube in threejs with a dark background. add exquisite amounts of realism and detail.|图片来源:X@aryanvichare10

以及各种需要 3D 图形和动画引擎的小游戏。

▲图片来源:X@TomLikesRobots

现在再看到这些有意思的项目,也不需要愁找不到提示词了,拿起手机录个屏,或者截几张图片,丢给 Gemini,要求它复刻,成功的几率大大提升。

毫不夸张地说,Gemini 3.0 Pro 展现出的能力,已经把其他模型彻底甩开了一个身位。

做程序员,它懂代码;做设计师,它审美时刻在线;做产品经理,它逻辑缜密。从 2D 到 3D,从模仿到创造,现在的 Gemini 3.0 Pro,已经不再需要我们用复杂、冗长的提示词,去引导它理解了,而是通过强大的多模态理解和推理能力,读懂并实现我们的需求。

这种「所见所想就能有所得」的震撼,确实配得上「年度最强」这个称号。

更让人按耐不住的是,据说今晚 nano banana 2、Gemini 3.0 Flash 也要来了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Google 年度最强 AI 偷跑!一个电风扇动画引发疯传,Gemini 3要给GPT-5.1上强度了

By: 张子豪
17 November 2025 at 14:41

前几天 nano banana 2 的泄漏版本,正在网上被疯狂转载,奥特曼眼看着流量不能被 Google 再抢了去,一点预告都没有,直接就发布了 GPT-5.1。

现在,GPT-5.1 都来了,Gemini 3.0 还会远吗。

Google CEO Sundar 和 Google AI Studio 负责人 Logan,都回复了一则关于 Gemini 3 的帖子,内容显示 Gemini 3 在预测市场的发布时间,有 69% 的用户买入了这个月 22 号的时间。

Google CEO 回了意味深长的思考 emoji,毕竟在预测市场 Polymarket 上,Gemini 3 的发布时间从 8 月 31 号到年底,都有人买入,而现在除了本月 22 号,月底 30 号更是累计有三百多万美元。

▲ 图片来源:https://polymarket.com/event/gemini-3pt0-released-by?tid=1763343187680

种种迹象显示,Gemini 3.0 很有可能就在最近这周发布,并且还有机会和 nano banana 2 一起发布。它们一个是在编程、智能体、写作等通用智能上更上一层楼,另一个是延续图像编辑的强大一致性和长文本渲染。

不敢想象年底的 AI 模型更新会有多激烈。

我们之前也汇总过关于 Gemini 3.0 和 nano banana 2 的爆料,那时的 Gemini 3.0 是出现在 Google AI Studio 的 A/B 测试中,能直接给我们生成一个 macOS 的云电脑,点开 Safari 还可以直接访问网页。

▲瑞典风格的网页设计,图片来源:X@RDeepl

而最近这段时间爆出来 Gemini 3.0 的料,一个比一个厉害。指令的理解能力更强,在编程项目中展示了丰富的世界知识,还有生成的网页,风格更多元也更大胆,更实用。

大模型竞技场上的神秘模型

在大模型竞技场上,又多了一个编号为 riftrunner 的神秘模型,有网友在 battle 对战模式下,刚好测试到了它的效果。用它生成的 SVG 动画,一个比一个厉害。

下面这个能调节风速档位的电风扇,在 X 上被疯狂转载,大家都不相信 AI 有这么聪明,只用一句提示词,就能做出精美的 SVG。

▲图片来源:X@lepadphone

他还用这个编号为 riftrunner 的模型,生成了一个能同步真实时间,切换表盘颜色的手表动画 SVG。

和之前 nano banana 一开始出现在模型竞技场一样,网友们都在怀疑这个 riftRunner 就是 Google 马上要发布的 Gemini 3.0。

要想体验到它,我们不能手动选择,必须在竞技场 battle 模式中随机获得。battle 模式会给我们两个不同的答案,投票后才能知道型号名称。

为了减少反复尝试的痛苦,Flowith 的创始人还发 X,分享了通过设置浏览器 Agent 来自动投票,更快找到 riftrunner 的方法。

我们也在 LMArena 里面测试了多次,都没有碰到过 riftrunner,大概是运气都在我抽 nano banana 那会儿花光了。

继续在网上找了更多网友的分享,有人说 riftrunner 不失所望,是唯一一个解出下面这道数学难题的模型。

▲图片来源:X@Abasiono_Mbat

还有人在竞技场不断测试,做一个狐狸模型,得到了 riftrunner(Gemini 3)、Claude 4.5、以及 GPT-5 的三种对比。

▲图片来源:X@k0tovsk1y

还有应该选 both are bad,两个都很差的蒙娜丽莎 SVG 画像,即便是 riftrunner 看着也很怪,但至少又比 Claude 有更多关于蒙娜丽莎的元素。

▲左图为 riftrunner,右图为 Sonnet 4.5;图片来源:X@petergostev

以及 riftrunner 生成的,一只骑自行车的鹈鹕的 SVG。

▲图片来源:X@synthwavedd

藏在了手机端 Gemini App 的 Canvas 功能里

还有网友说,现在 Gemini App 里面的 Canvas 功能,使用的模型就已经是 Gemini 3.0 了。因为在网页端的 Gemini 和手机端,输入同样的提示词,得到的输出,质量差距很大。

▲图片来源:https://www.reddit.com/r/Bard/comments/1ovvmjo/not_hype_posting_gemini_3_is_rolling_out_to/

于是一大波网页版和手机端的对比,纷纷出现在评论区,大家都认可了,手机上的 Canvas 真的是使用了更先进的 Gemini 3.0。

最直观的例子是这个 3D 宝可梦的动图,在 Web 端生成的 3D 动图背景简单,宝可梦的形象也很抽象;手机端的色彩、背景都做的更好。

▲图片来源:X@AiBattle_

还有网友做的 Gemini 和外星人入侵的对抗的 SVG,网页版继续一如既往的简陋,而在手机上的 Canvas 明显元素更多,更丰富。

▲左图为网页版,右图为手机应用版。图片来源:X@Lentils80

以及拿手机应用中的 Canvas 和 Claude 4.5 Sonnet 来对比,输入的提示词都是,一个 3D 宝可梦精灵球。

▲图片来源:X@ctgptlb

还有人拿 Xbox 手柄 SVG 图来做测试,iOS 手机应用里的 Canvas 和 浏览器里的网页版,是完全不同。

▲左边是手机应用,右边是网页版;图片来源:X@MaximilanS638

不过,也有用户分享自己 Gemini 手机端和网页端,出来的结果是一模一样的。

▲左图为网页版,右图为手机应用版。图片来源:X@Medeenatee

我也尝试输入「生成一个 Xbox 的手柄 SVG 图」来看看两遍的结果,但是都很不理想。要不是根本不像一个手柄的图,要不然就是键位这些全部错乱。

只能说模型会出现幻觉,我们人类也可能有幻觉。大模型竞技场的神秘代号模型,还有这种靠着观察输出差异的怀疑,都不能确定是否来自 Gemini 3.0。

更确定的信息是,有网友发现,Gemini 3.0 Pro 已经出现在 Gemini Enterprise 的 Agent 模型选择器中。

▲图片来源:X@testingcatalog

不过 Gemini Enterprise 也是不对一般的用户开放,但至少可以说 Gemini 3.0 真的距离发布不远了,或者说已经准备好了。

回看过去这一年来,几家大模型公司的发布记录,GPT-5 因为营销太多被诟病,发布后网友们表示熬了这么久,「就这」;还有在社交媒体一直没什么水花,但模型广受好评的 Claude 系列;现在是后发制人,凭着 nano banana 重新回到大家视野的 Gemini。

甚至在想,如果没有 nano banana,会不会还有人只记得它之前的名字,叫 Bard。

SimilarWeb 在前几天了公布了,各个大模型网页流量的统计数据,一年前 OpenAI 的网页访问流量占比是 86.6%,到了今天虽然还稳居首位,但是已经被瓜分走了相当一部分,只剩下 72.3%。

而被分走的流量基本上全去到了 Gemini,Gemini 从一年前只有 5.6%,在 nano banana 发布之后,冲到了现在的 13.7%,直接翻倍。

要是 Gemini 3 和 nano banana 2 能稳住,再接着这波流量,下个季度的柱状图,Gemini 的颜色可能还要占据更多。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


「不存在」的「写真」

By: Steven
7 September 2025 at 21:50

这组照片我发给太太看,问她「像不像我?」
她问「是你自己拍的吗?」

没有,没有一张是实拍的。
全部都是 AI 生成的。

我提供了五张照片给它,然后描述了一些简单的要求,他给我「拍摄」了这些照片。当然,抽卡还是要抽的。但是,主要集中在审美层面的选择上,或者是,有点儿不太像。最后选的这几张,儿子也觉得像,唯一的例外是觉得侧身背影的气质不像我。但哪里不像,他也说不清楚。

语言是关于思维的。写真是把真用光线记录下来,但这些图片都没有真实存在过,还算写真吗?照片是把影像照射在感光底片上的画面,印在纸片上,可没有存在过的光线和场景还算照片吗?这是文字游戏,也是思想实验。

眼见不为实的时代里,什么才是真实?

❌
❌