Reading view

There are new articles available, click to refresh the page.

Nano Banana Pro保姆级指南!全网最火玩法+官方7大技巧+免费渠道,都在这了

The Information 今天独家报道了上个月,奥特曼在 OpenAI 内部发的备忘录,里面提到奥特曼说,Google 在 AI 领域的最新进展,可能会给公司带来一些暂时的经济阻力。

现在看来,不是可能有阻力,是已经感受到了压力了。互联网时代就是老大哥的 Google,很明显要把 OpenAI 拉下来,继续做 AI 时代的 No.1。

Gemini 3.0 Pro 的热度还没散去,宇宙「最强」图像模型 Nano Banana Pro,就水灵灵地端上来了。

距离出场就惊艳到大家的第一代版本,才刚刚过去了三个月不到。

这次的更新,一致性保持更强、世界知识也同步到 Gemini 3.0 Pro,多模态理解和推理能力都得到了大幅度的提升。

之前的桌面手办放到现在都成了「图一乐」,如今的 Nano Banana Pro 升级方向更加明确地,往效率工具上靠近,网友们拿它创建和编辑各种复杂的视觉效果,生成内容准确、布局优雅的信息图表。

我们挖掘了多个网上热门的玩法,和 Google 官方给出的使用指南,来榨干 Nano Banana Pro 的全部能力。

把文章转成风格化的信息图

由于长文本渲染的能力增强,目前网上热门的测试,都是生成各种各样的信息图,有密密麻麻的知识解说类,还有写满一黑板、一墙壁的经典古诗词,或者数学题解答等等。

例如下面这个把我们输入的文字,原封不动的转成一本杂志的内容。

▲图片来源:X@fofrAI|提示词:Put this whole text, verbatim, into a photo of a glossy magazine article on a desk, with photos, beautiful typography design, pull quotes and brave formatting. The text: […the unformatted article]

还有网友直接丢给他一个 Markdown 文档或者 PDF,然后跟 Nano Banana Pro 说,将这个文档转成信息图,就得到了一个设计友好、信息准确的图片。

评论区都在说,插画师的时代,是不是也要结束了。

▲图片来源:X@tobi|提示词:Make this markdown transcript into a infographic

因为 Nano Banana Pro 现在能使用谷歌搜索,并且推理和理解能力都有了大的提升,所以在生成信息图上,如果没有太严格的要求,直接告诉它要做一个什么主体的信息图就能实现,不需要纠结太多提示词的结构。

▲提示词:生成一张 2026 年中国放假安排的信息图,全部使用中文,4K画质,16:9

例如,当我们要他生成明年的节假日信息时,我看到 Gemini 里面给我的回复,有明确的使用 Google 搜索获取的信息结果,即多个官方的公告网页链接。

还有很多好看的信息图测试,网友们的提示词也比较简单,基本上都是「帮我生成一个xx的信息图」。

一张有趣的繁忙城镇信息图,展示动物们在繁忙城镇中上班的情景,并介绍它们从事的不同工作。

▲图片来源:X@unsoldwill|提示词:Make a fun busy town infographic of animals going to work in a busy town showcasing different jobs.

一张 Stephen Biesty 风格的双层神经网络图。

▲ 图片来源:X@jon_barron|提示词:Generate a diagram of a two-layer neural network in the style of Stephen Biesty

这位网友还把这张图片丢给 Google 的 Veo 3.1,让它动了起来。

将内容繁杂的文档,转换成清晰、可扫描的白板式信息图。

▲图片来源:X@denilgabani|Convert the attached research paper into a single whiteboard-style image. Break down all key concepts, diagrams, insights, and relationships in a way that is easy to understand at a glance. Add clear visual notes, arrows, highlights, summaries, and clever student-style annotations so I can quickly grasp the full paper and take notes from it.

生成精彩的连环画

结合长文本渲染和强大的一致性保持,除了渲染文本较多的信息图,Nano Banana Pro 用来制作连环画是再合适不过,并且,它现在支持在一次请求中,生成多张照片。

有网友只是上传了一张图片,然后输入「根据这张图片创作并绘制一个多格漫画」的提示词,就得到了多张自己写好剧情的漫画,并且他还在继续更新后续的情节。

▲ 图片来源:X@DeryaTR_|提示词:Create and draw a multi-panel comic based on this image.

还有只是提示说,生成几页以某个人的生活为主角的漫画。Nano Banana Pro 就能启用网络搜索,检索这个人的信息,还找到了他的 X 账号,根据他的 X 账号发布的内容信息来生成漫画。

▲图片来源:X@skirano(Pietro Schirano)|提示词:Generate a few pages of comic starring the life of Pietro Schirano

如果你也有公开的社交媒体平台,不妨试试让 nano banana 也生成过去一周你的生活漫画。

我们试了试让 Nano Banana Pro 生成马斯克和奥特曼的生活漫画,在 Gemini 网页版里,它一次性给了我们三张图片,漫画的内容可以看出,它确实是有世界知识在的。

▲ 提示词:生成几张以 Elon Musk 和 Sam Altman 的生活为主角的真人漫画图片,全部用中文

至于之前一代的 Nano Banana 玩的那些一致性,现在的 Pro 版本一样表现出色。像是给一个模特穿上不同的衣服,保持模特和衣服不变;还有像是把一些 Logo 放到不同的周边上,或者对现有的产品图,进行一些小元素的替换,Nano Banana Pro 的表现都很好。

在 Google AI Studio 的官方案例中,也给出了多个信息图生成、和漫画制作的实例,它们搭建了多个利用 Nano Banana Pro 模型的项目。

▲体验地址:https://aistudio.google.com/apps?source=showcase&showcaseTag=nano-banana

其中一个是我们只需要上传一个文章链接,他就能生成四种不同风格的信息图,包括趣味型、简洁型、暗黑科技风和现代编辑部风。还有只是丢给它一个模糊的概念,或者一个主题,就能为我们生成一张风格迥异的信息图。

▲项目介绍 Demo

4K 壁纸的生成,街机游戏的真人体验,以及更符合品牌使用的各种 Logo 贴图小工具等,在 Google AI Studio 上都有提供现成的项目。

▲下着雪的金门大桥 4K 壁纸

我们用「无限英雄」这个小项目生成一段马斯克和奥特曼的连环画,在预览连环画的过程中,我们还能选择剧情的走向,来决定接下来的漫画内容。

▲生成的漫画下载后是 PDF 文件

不过目前 Nano Banana Pro 模型 API 并不是免费调用,所以 AI Studio 的这六个项目,都需要绑定支付方式才能使用。

但是,这些项目都提供了源代码,我们可以在他们的基础上进行修改。通过查看背后的代码,也能看到背后的提示词。

我们提取了其中一个项目的提示词,即输入链接生成四种风格的信息图。

首先我们可以使用下面的提示词,来对网页链接的内容进行总结,将其中的 ${url} 替换为实际的,需要分析的文章链接。${language} 则可以直接替换为 Chinese,以中文呈现。

You are an expert Information Designer. Your goal is to extract the essential structure from a web page to create a clear, educational infographic.
Analyze the content at this URL: ${url}
TARGET LANGUAGE: ${language}.
Provide a structured breakdown specifically designed for visual representation in ${language}:
1. INFOGRAPHIC HEADLINE: The core topic in 5 words or less (in ${language}).
2. KEY TAKEAWAYS: The 3 to 5 most important distinct points, steps, or facts (in ${language}). THESE WILL BE THE MAIN SECTIONS OF THE IMAGE.
3. SUPPORTING DATA: Any specific numbers, percentages, or very short quotes that add credibility.
4. VISUAL METAPHOR IDEA: Suggest ONE simple visual concept that best fits this content (e.g., “a roadmap with milestones”, “a funnel”, “three contrasting pillars”, “a circular flowchart”).
Keep the output concise and focused purely on what should be ON the infographic. Ensure all content is in ${language}.

得到这一部分的文章总结后,我们就可以开始图像生成。

Create a professional, high-quality educational infographic based strictly on this structured content plan:
${structuralSummary}
VISUAL DESIGN RULES:
– ${styleGuidelines}
– LANGUAGE: The text within the infographic MUST be written in ${language}.
– LAYOUT: MUST follow the “VISUAL METAPHOR IDEA” from the plan above if one was provided.
– TYPOGRAPHY: Clean, highly readable sans-serif fonts. The “INFOGRAPHIC HEADLINE” must be prominent at the top.
– CONTENT: Use the actual text from “KEY TAKEAWAYS” in the image. Do not use placeholder text like Lorem Ipsum.
– GOAL: The image must be informative and readable as a standalone graphic.

图像生成的提示词比较简单,我们把之前文章链接分析的结果,替换掉其中的 ${structuralSummary} 部分;然后 ${styleGuidelines} 的选择,可以从官方项目中,提到的四种风格里面任选一个。

有趣且充满玩乐的风格 Fun & Playful:styleGuidelines = STYLE: Fun, playful, vibrant 2D vector illustrations. Use bright colors, rounded shapes, and a friendly tone.

简约极简风格 Clean Minimalist:styleGuidelines = STYLE: Ultra-minimalist. Lots of whitespace, thin lines, limited color palette (1-2 accent colors max). Very sophisticated and airy.

深色模式科技风Dark Mode Tech:styleGuidelines = STYLE: Dark mode technical aesthetic. Dark slate/black background with bright, glowing accent colors (cyan, lime green) for data points.

现代编辑风 Modern Editorial:styleGuidelines = STYLE: Modern, flat vector illustration style. Clean, professional, and editorial (like a high-end tech magazine). Cohesive, mature color palette.

照着这种方法,我们把 Nano Banana Pro 发布的那篇文章丢给 Gemini,得到了下面这几张信息图。

官方下场,7 个生图技巧

除了用这种已经写好的提示词,Google 也是煞费苦心给了一份详细的 Nano Banana Pro 使用技巧,一方面是生怕我们不会操作,导致对模型的误会。另一方面,其实 Google 是希望 Nano Banana Pro 不单只是一个用来玩玩的生图模型,他们真的期待能提升我们的生产力。

提示词的重要性,对于要获取精准控制的内容来说,除了模型自身的能力,剩下的决定因素就是它了。Google 再一次提到,一个好的提示词,要明确的包括主题、构图、动作、地点、风格、和编辑说明。

用简短的语言描述画面的主体,例如,具体说明图片中的人或物是什么?在构图上,告诉模型,照片是如何取景的?是特写、广角镜头、低角度镜头、还是人像镜头等。

▲举个例子:一只戴着小巫师帽的毛茸茸的三色猫,在日落时分阳光普照的草地上,施展着它的魔法,低角度镜头,照片写实主义

接下来是描述动作,画面的主体正在发生什么?以及是在哪里发生,描述具体的场景。最后再确定我们想要的照片风格,例如,3D 动画、黑色电影、水彩画、照片写实主义、20 世纪 90 年代产品摄影等,不同的整体美学风格选择。

如果追求更可控的生图效果,Google 还提到了可以进一步完善相机、灯光和格式等细节,精细化提示词的内容。

例如现在的 Nano Banana Pro 支持自定义构图和宽高比,我们可以选择 9:16 竖版海报,21:9 电影宽镜头等画面。

此外,在摄影和灯光细节上,Google 给的参考提示是,像电影摄影师一样指导拍摄,具体的用词可以尽可能专业化,例如,「低角度拍摄,浅景深(f/1.8)、黄金时段逆光,营造长阴影、电影级调色,采用柔和的蓝绿色调」;等提示词用语。

▲举例:一只戴着小巫师帽的毛茸茸的三色猫,在日落时分阳光普照的草地上,施展着它的魔法,低角度镜头,浅景深(f/1.8)、黄金时段逆光营造长阴影、电影级调色,采用柔和的蓝绿色调。照片写实主义。21:9 电影宽镜头。标题「猫猫施法」以可爱的彩虹字体显示在顶部。

在针对文本处理任务时,需要明确说明,某段文本的内容和显示位置,以及这段文本对应的字体。针对图表信息图,要在提示词里面,明确告诉模型对准确性的要求,并且确保自己的输入时正确的。

涉及到多图参考和图像编辑,需要明确告知模型每张图片的作用,以及具体需要编辑的地方。

掌握了提示词公式只是基础,接下来就是一些官方推荐的,Nano Banana Pro 具体的应用场景。

1、让 AI 真的「写字」,而不是画鬼画符。以前 AI 画图最怕出现文字,出来的都是乱码,新模型在文字渲染上有了巨大提升。我们可以直接要求它生成海报标题、复杂的图表、或者详细的模型说明。

▲ 提示词:制作一张信息图,用中文展示如何制作老北京豆汁儿。

2、它是懂物理和历史的。基于 Gemini 3 的推理能力,这个模型拥有更丰富的世界知识,它可以生成逻辑严密的图表,或符合历史事实的场景。

3、最多支持 14 张图!超级融合大法。这大概是新模型最强悍的功能之一。它允许我们输入 6 到 14 张(具体数量可以要看不同的平台)完全不相关的图片,让 AI 将它们融合创造出全新的画面。

利用多图输入功能,我们可以让同一个角色,在不同场景中保持面部和特征的一致性,甚至是在群像中也能保持相似度。这非常适合去做一些连环画或者分镜。

▲提示词:将这些图像组合成一张 16:9 格式的适当排列的电影图像,并将模特身上的裙子换成图像中的裙子。

4、精确调整大小。尝试不同的宽高比,并在各种产品上生成 1K、2K 或 4K 分辨率的清晰视觉效果。

5、「指哪打哪」的精准修图。Google 把这叫做工作室级别的控制编辑,实现更专业的效果。

6、品牌设计神器:自动贴图。对于设计师来说,和初代 nano banana 相比,它的一致性保持能力更强。品牌公司可以让 AI 将对应 Logo、图案或艺术作品印在 3D 物体上,同时贴上去的 Logo,会自动调整到原图自然的光影和纹理。

7、跨语言无缝翻译,它不仅是一个生图工具,还能直接「翻译」图片里的文字。

▲提示词:将三个黄蓝罐头上的所有英文文字翻译成韩语,其他内容保持不变。

虽然 Nano Banana Pro 很强,但在官方文档里,他们也坦诚地列出了一些目前的局限性,大家使用时可以留意一下。主要是一些极小的文字渲染、复杂的拼写有时还是会出错。

另外,如果你用它生成数据图表或信息图,他们也提醒,一定要人工核对数据。AI 虽然有逻辑,但偶尔也会一本正经地胡说八道,毕竟 AI 幻觉有多严重,我们都有目共睹。

最后是在进行一些极其复杂的光照改变,或图像融合时,生成的图片,偶尔会出现不自然的伪影。

目前该模型已在 Gemini App 和 Gemin 网页版上线,而在 AI Studio 和 Vertex 平台则需要使用付费 API 才可以体验。

我们还搜集了一些能点开即用的平台,不需要付费订阅,和复杂的网络设置。

  • 海螺 AI(国内版 hailuoai.com,国际版 hailuoai.video)
  • Flowith(flowith.io、flowtith.net)
  • PixVerse(国内版 pai.video,国际版 pixverse.ai)
  • youmind.com(限时免费一周,注册就可用)
  • lovart.ai
  • banana.listenhub.ai
  • higgsfield.ai/image/nano_banana_2(免费用户每个月有 10 积分,每张 Nano Banana Pro 图片消耗两个积分)

感兴趣的朋友,不妨拿着上面的公式去试一试,新鲜有趣的玩法也欢迎在留言区评论。

最后,小彩蛋一个,The Beatles 这张经典的专辑封面照片,奥特曼、马斯克、老黄和小扎都来我们未来社「拍摄」了同款,这周末的 APPSO AIDONE 活动,你确定不来看看吗?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Gemini 3一句话打造拍立得应用刷屏!全网最火8个玩法都在这,看完秒上手

都在说 Gemini 3 这次炸翻天,年度最强,未来模型,除了拿下榜单第一,Gemini 3 到底能做点什么。

体验了一波之后,我发现最大的好处,是不需要到处去问,「你这个的提示词是什么?」

看到好玩的案例,无论是视频还是截图,统统丢给 Gemini 3,加一句「帮我做一个一模一样的出来」,Gemini 3 立刻就能复刻一个同款。提示词的时代,真的慢慢过去了。

就像这个在 X 很火的拍立得相机,它是用 Gemini 3.0 Pro 生成的一个项目,能调用设备的摄像头,然后生成一张拍立得风格的照片,在相纸上印有文案和拍摄日期。

▲ 体验地址:https://www.bubbbly.com/app/retro-camera.html|图片来源:X@ann_nnng

这种能直接和现实生活交互的效果,确实打破了之前 AI 一味的,只知道做一个单页应用的乏味。

当我们把这个视频直接发给 Gemini 3.0 Pro,它竟然也可以很快,就生成一个同款。并且在 Canvas 里面,还支持添加 Gemini 功能,因此我们这个拍立得,还有了 AI 识别摄像头画面,主动生成文案和选择滤镜的功能。

▲我输入的提示词只有让它增加多几种胶片模拟的风格。直接点击右下角的 Gemini,它会自动寻找,可以使用 Gemini 来完成的内容。

还有网友用 Gemini 3 直接做了一个诗歌探索器,让它每天提供一首诗,鼠标悬停时会解释每一行,并提供一些建议问题来进一步探索诗歌。

▲图片来源:X@raizamrtn

我特别喜欢这个简洁大方的设计,同样地,把这个录屏丢给 Gemini,当看到生成的效果时,我觉得 Gemini 3.0 Pro 太酷了。

▲提示词:上传已有视频,并加上「这是一个诗歌探索器,它每天提供一首诗,鼠标悬停时会解释每一行,并提供一些建议问题来进一步探索主题。然后我需要你根据这个视频,参考它的交互逻辑,UI 设计等等,帮我复刻一个同款诗词探索器,不过我要的是中国的古诗文、诗词歌赋。」

打开代码页,你还会惊喜地发现,Gemini 不仅搞定了前端 UI,甚至连调用 API 的系统提示词(System Prompt)都帮我们写好了。

你是一位博学的中国古文学家和美学鉴赏家。你的任务是为用户推荐一首中国古诗词(范围包括唐诗、宋词、元曲、诗经、楚辞、汉乐府等)。请不仅限于最著名的《静夜思》之类,多推荐一些意境深远、耐人寻味的佳作。

在这个过程中我们还可以同步让它进行修改,Gemini Canvas 有一个强大的功能,除了提到的「Add Gemini Feature(添加 Gemini 功能)」,还有一个是「Select and Ask(选择并提问)」,我们可以直接框选预览页面的某个组件元素,然后提问,Gemini 会自动修复这一部分。

这里我们让它添加一个分享生成照片的功能,以及修复之前点击我的收藏没有反应的问题。

▲使用的生图模型是 Imagen 3/4

这已经不是单纯的单页 HTML 文件,它需要 Gemini API 来同步完成诗歌的选择推荐,以及图片内容的生成。我相信这是目前无论哪个 AI 编程工具、或者 ChatGPT,都无法实现的强大功能。

Gemini 3 能创造的东西真的太多了,优雅的前端完全不必多说,这样的诗歌探索网页,色彩的搭配使用,元素的布局,放在哪里都是一流的设计。后端的能力,Gemini 不需要构建繁琐、有限的诗歌数据库,而是直接利用 AI 来获取不同的诗词。

而且,在对话里,我没有提到要求响应式设计,即手机、平板、和 PC 多种显示比例的同步,Gemini 3 还是帮我做到了,我们也可以在手机里直接看古诗文,同样调用 Gemini API。

▲ 手机上同样能点开网页,AI 发现新的诗歌,和生成图片

我们把同样的视频和提示词交给 ChatGPT,严重怀疑 ChatGPT 5.1 根本就没有看视频,而是完全依靠我输入的提示词来完成。无论是整体 UI 的风格,还有提示词里没有提到要写作者简介,ChatGPT 生成的内容就没有作者简介。

更大的问题,这不是一个能直接使用的产品,它生成的数据库里只有《静夜思》和《登鹳雀楼》两首诗,它也没有办法使用 OpenAI API 来完成诗歌的搜索获取。

当我提到「这个诗不应该是放在数据库里的,而是应该用 ChatGPT 自动搜索,不然我每次打开都是那几首诗诶」,整个项目就报错了,因为它需要我填入真实的 API

总而言之,如果用 ChatGPT,一个好的提示词还是少不了。

网上更火的 Gemini 3.0 Pro 测试,是有一个博主,在 Gemini 里面输入一句「Design a Capcut(设计一个剪映)」,然后只花了 239 秒,就复刻了一个能真实使用的剪映。完全不需要我们再打磨提示词,去详细列出应该做哪些功能,交互逻辑是如何,配色方案等;直接一句话搞定。

▲图片来源:X@lepadphone

还有相当一大部分的案例,是网友们都在谈的前端,即 Gemini 3.0 Pro 生成的网页,不仅摆脱了 AI 编程之前常见的渐变紫,还带来了耳目一新的大胆设计,就像是有个设计师在后台帮用户画初稿一样。

▲诸如此类「前端已死」的说法,在 Gemini 3.0 发布之后,X 上随处可见。

下面这些是网上热度比较高,由 Gemini 3.0 Pro 生成的前端页面例子。

一家人工智能公司的完整落地页。

▲提示词:You are the top 0.1% designer and developer for the world’s cutting-edge innovation on front-end design and development. You are tasked to create a full landing page with {Dither + Shaders} using {WebGL + ThreeJs} in the styling of an uploaded image for the AI company. – Focus mainly on the design part, not the development. Import all necessary files and libraries: Three.js、WebGL、GSAP、Any other animation libraries related to 3D development.|图片来源:X@natatatataat

下一代 AI 公司该有的美学追求和品味。

▲ 图片来源:X@eter_inquirer

一个双栏的响应式布局个人首页。

▲提示词:Create a hero section with a two-column responsive layout: left side has a large bold heading with orange accent highlights and star symbols, a tagline row with uppercase tags, and two CTA buttons (primary black, secondary white with border). Right side features a 3D animated orange star using React Three Fiber with slow rotation and float animations, orbit controls, and a subtle background glow. Include a top navigation bar with logo, menu items, and a “Let’s talk” button. Use Tailwind CSS for styling with a light gray background, generous spacing, and smooth hover transitions.|图片来源:X@karaan_dev

这些案例有的分享了提示词,当我们把这些提示词,通过 ChatGPT、Kimi、MiniMax 这些模型来处理时,得到的效果,都还是停留在我们的想象之中。

也有很多网友,趁着大家都在夸 Gemini 3 的前端,把一些自己设计的网页,包含复杂的动画效果和字体设计,也营销称是 Gemini 3 完成的,获得了一波流量之后,再去评论区留言说「没有提示词,这是我们团队手工做的。」

Gemini 3 + 前端,这一波热度谁都想蹭。在这些 Gemini 3.0 Pro 生成的前端精美、设计高级、交互友好的网页里面,大部分都用到了 3D 的效果,即使用 Three.js 库来完成网页设计。

深度学习经典花书的作者,Ian Goodfellow 在 Gemini 3.0 Pro 发布后,也是直接上传一张图片,生成一个 3D 的体素艺术场景,通过 Three.js 来测试它的多模态推理能力。

▲ 提示词:我提供了一张图片。请根据这张图片编写一个漂亮的体素艺术场景。使用 Three.js 编写单页应用程序。体验地址:https://aistudio.google.com/apps/bundled/image_to_voxel

他提到与 Gemini 2.5 的结果相比,Gemini 3 强大的多模态理解,和 3D 推理能力,大幅提升了生成内容的保真度

得益于内容保真度的提高,很多 3D 项目,现在都可以通过 Gemini 3.0 Pro 来完成。像这个完全交互式的 3D 地球仪,我们可以探索和收听,来自世界各地的广播电台。

▲图片来源:X@sahilypatel

眼尖的网友立刻就发现了,这不就是经典的 Radio.Garden 吗?作者也坦言确实在提示词中,提到了这个网站,要求复刻。但让我们惊讶的是,Gemini 3.0 Pro 只靠简单的几句指令,就完美重现了这个复杂的 3D 交互体验。

还有一些经典的 3D 单页项目,例如这个酷炫的 3D 魔方。

▲提示词:make me a spinning rubiks cube in threejs with a dark background. add exquisite amounts of realism and detail.|图片来源:X@aryanvichare10

以及各种需要 3D 图形和动画引擎的小游戏。

▲图片来源:X@TomLikesRobots

现在再看到这些有意思的项目,也不需要愁找不到提示词了,拿起手机录个屏,或者截几张图片,丢给 Gemini,要求它复刻,成功的几率大大提升。

毫不夸张地说,Gemini 3.0 Pro 展现出的能力,已经把其他模型彻底甩开了一个身位。

做程序员,它懂代码;做设计师,它审美时刻在线;做产品经理,它逻辑缜密。从 2D 到 3D,从模仿到创造,现在的 Gemini 3.0 Pro,已经不再需要我们用复杂、冗长的提示词,去引导它理解了,而是通过强大的多模态理解和推理能力,读懂并实现我们的需求。

这种「所见所想就能有所得」的震撼,确实配得上「年度最强」这个称号。

更让人按耐不住的是,据说今晚 nano banana 2、Gemini 3.0 Flash 也要来了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Google 年度最强 AI 偷跑!一个电风扇动画引发疯传,Gemini 3要给GPT-5.1上强度了

前几天 nano banana 2 的泄漏版本,正在网上被疯狂转载,奥特曼眼看着流量不能被 Google 再抢了去,一点预告都没有,直接就发布了 GPT-5.1。

现在,GPT-5.1 都来了,Gemini 3.0 还会远吗。

Google CEO Sundar 和 Google AI Studio 负责人 Logan,都回复了一则关于 Gemini 3 的帖子,内容显示 Gemini 3 在预测市场的发布时间,有 69% 的用户买入了这个月 22 号的时间。

Google CEO 回了意味深长的思考 emoji,毕竟在预测市场 Polymarket 上,Gemini 3 的发布时间从 8 月 31 号到年底,都有人买入,而现在除了本月 22 号,月底 30 号更是累计有三百多万美元。

▲ 图片来源:https://polymarket.com/event/gemini-3pt0-released-by?tid=1763343187680

种种迹象显示,Gemini 3.0 很有可能就在最近这周发布,并且还有机会和 nano banana 2 一起发布。它们一个是在编程、智能体、写作等通用智能上更上一层楼,另一个是延续图像编辑的强大一致性和长文本渲染。

不敢想象年底的 AI 模型更新会有多激烈。

我们之前也汇总过关于 Gemini 3.0 和 nano banana 2 的爆料,那时的 Gemini 3.0 是出现在 Google AI Studio 的 A/B 测试中,能直接给我们生成一个 macOS 的云电脑,点开 Safari 还可以直接访问网页。

▲瑞典风格的网页设计,图片来源:X@RDeepl

而最近这段时间爆出来 Gemini 3.0 的料,一个比一个厉害。指令的理解能力更强,在编程项目中展示了丰富的世界知识,还有生成的网页,风格更多元也更大胆,更实用。

大模型竞技场上的神秘模型

在大模型竞技场上,又多了一个编号为 riftrunner 的神秘模型,有网友在 battle 对战模式下,刚好测试到了它的效果。用它生成的 SVG 动画,一个比一个厉害。

下面这个能调节风速档位的电风扇,在 X 上被疯狂转载,大家都不相信 AI 有这么聪明,只用一句提示词,就能做出精美的 SVG。

▲图片来源:X@lepadphone

他还用这个编号为 riftrunner 的模型,生成了一个能同步真实时间,切换表盘颜色的手表动画 SVG。

和之前 nano banana 一开始出现在模型竞技场一样,网友们都在怀疑这个 riftRunner 就是 Google 马上要发布的 Gemini 3.0。

要想体验到它,我们不能手动选择,必须在竞技场 battle 模式中随机获得。battle 模式会给我们两个不同的答案,投票后才能知道型号名称。

为了减少反复尝试的痛苦,Flowith 的创始人还发 X,分享了通过设置浏览器 Agent 来自动投票,更快找到 riftrunner 的方法。

我们也在 LMArena 里面测试了多次,都没有碰到过 riftrunner,大概是运气都在我抽 nano banana 那会儿花光了。

继续在网上找了更多网友的分享,有人说 riftrunner 不失所望,是唯一一个解出下面这道数学难题的模型。

▲图片来源:X@Abasiono_Mbat

还有人在竞技场不断测试,做一个狐狸模型,得到了 riftrunner(Gemini 3)、Claude 4.5、以及 GPT-5 的三种对比。

▲图片来源:X@k0tovsk1y

还有应该选 both are bad,两个都很差的蒙娜丽莎 SVG 画像,即便是 riftrunner 看着也很怪,但至少又比 Claude 有更多关于蒙娜丽莎的元素。

▲左图为 riftrunner,右图为 Sonnet 4.5;图片来源:X@petergostev

以及 riftrunner 生成的,一只骑自行车的鹈鹕的 SVG。

▲图片来源:X@synthwavedd

藏在了手机端 Gemini App 的 Canvas 功能里

还有网友说,现在 Gemini App 里面的 Canvas 功能,使用的模型就已经是 Gemini 3.0 了。因为在网页端的 Gemini 和手机端,输入同样的提示词,得到的输出,质量差距很大。

▲图片来源:https://www.reddit.com/r/Bard/comments/1ovvmjo/not_hype_posting_gemini_3_is_rolling_out_to/

于是一大波网页版和手机端的对比,纷纷出现在评论区,大家都认可了,手机上的 Canvas 真的是使用了更先进的 Gemini 3.0。

最直观的例子是这个 3D 宝可梦的动图,在 Web 端生成的 3D 动图背景简单,宝可梦的形象也很抽象;手机端的色彩、背景都做的更好。

▲图片来源:X@AiBattle_

还有网友做的 Gemini 和外星人入侵的对抗的 SVG,网页版继续一如既往的简陋,而在手机上的 Canvas 明显元素更多,更丰富。

▲左图为网页版,右图为手机应用版。图片来源:X@Lentils80

以及拿手机应用中的 Canvas 和 Claude 4.5 Sonnet 来对比,输入的提示词都是,一个 3D 宝可梦精灵球。

▲图片来源:X@ctgptlb

还有人拿 Xbox 手柄 SVG 图来做测试,iOS 手机应用里的 Canvas 和 浏览器里的网页版,是完全不同。

▲左边是手机应用,右边是网页版;图片来源:X@MaximilanS638

不过,也有用户分享自己 Gemini 手机端和网页端,出来的结果是一模一样的。

▲左图为网页版,右图为手机应用版。图片来源:X@Medeenatee

我也尝试输入「生成一个 Xbox 的手柄 SVG 图」来看看两遍的结果,但是都很不理想。要不是根本不像一个手柄的图,要不然就是键位这些全部错乱。

只能说模型会出现幻觉,我们人类也可能有幻觉。大模型竞技场的神秘代号模型,还有这种靠着观察输出差异的怀疑,都不能确定是否来自 Gemini 3.0。

更确定的信息是,有网友发现,Gemini 3.0 Pro 已经出现在 Gemini Enterprise 的 Agent 模型选择器中。

▲图片来源:X@testingcatalog

不过 Gemini Enterprise 也是不对一般的用户开放,但至少可以说 Gemini 3.0 真的距离发布不远了,或者说已经准备好了。

回看过去这一年来,几家大模型公司的发布记录,GPT-5 因为营销太多被诟病,发布后网友们表示熬了这么久,「就这」;还有在社交媒体一直没什么水花,但模型广受好评的 Claude 系列;现在是后发制人,凭着 nano banana 重新回到大家视野的 Gemini。

甚至在想,如果没有 nano banana,会不会还有人只记得它之前的名字,叫 Bard。

SimilarWeb 在前几天了公布了,各个大模型网页流量的统计数据,一年前 OpenAI 的网页访问流量占比是 86.6%,到了今天虽然还稳居首位,但是已经被瓜分走了相当一部分,只剩下 72.3%。

而被分走的流量基本上全去到了 Gemini,Gemini 从一年前只有 5.6%,在 nano banana 发布之后,冲到了现在的 13.7%,直接翻倍。

要是 Gemini 3 和 nano banana 2 能稳住,再接着这波流量,下个季度的柱状图,Gemini 的颜色可能还要占据更多。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Nano Banana 2 闪现 1 小时就下架,让所有 AI 翻车的测试,它轻松拿捏

之前火爆全网的 nano banana,现在要推出 2.0 版本了。

全新的 nano banana 2 能有多强,看下面这张 11:15 的时钟和满杯的红酒。

▲图片来源:x@synthwavedd

为什么说这张照片厉害,在 AI 生图领域,有一个极具挑战性的测试,目前还没有 AI 能稳定做到,那就是时钟和满杯红酒测试

输入提示词「时钟上显示 11:15,红酒杯已满至杯口(11:15 on the clock and a wine glass filled to the top)」,就能检测你的 AI 生图是否够聪明。

我们在大模型竞技场、豆包 Seedream、以及 nano banana 1.0 版本多次尝试,没有 AI 可以准确显示时钟刻度,和一杯快满出来的红酒。

而 nano banana 2 做到了。对比当前版本的 nano banana,它的文本渲染能力更进一步,直接写字,不同风格和不同语言都可以驾驭;世界知识也进一步强化,能准确生成各种信息图表;指令遵循方面表现也更加出色。

▲ 更真实的黑板字|图片来源 x@testingcatalog

和 Nano Banana 最早在大模型竞技场,以抽卡的形式出现不同。Nano Banana 2 模型是在 media.io 上被爆料,用户可以在这个网站上体验 nano banana 2。

▲ Media AI(medio.io)目前只有 nano banana 和 Seedream 等其他 AI 生图模型

不过,这个被称为 nano banana 2 的模型很快就下架了。在 Reddit 上,有用户提到 Media AI 只是短暂性地开放了一个多小时的使用权限。

但是就这短暂的时间里,网友们发现生图效果确实可以说是 NB 2.0,很快就在社交媒体上传开。大家都在分享 nano banana 2 预览模型的输出结果,发现和 nano banana 1.0 版本有着明显的区别。

下面这两张来自 1.0 和 2.0 版本的图片,你能分清楚那张是来自 nano banana 2 吗。

▲ 图片来源 x@Azinha810

都是汽车模特在海边公路拍摄大片,但是很明显第一张图片色彩和风格更准确,没有专属于 AI 照片的「塑料感」。

▲ 图片来源 x@Azinha810

还有这两张偏科幻风格的图片,区别就更加明显了。第二张图看起来电影感更强,视觉质量也比第一张图有了更多准确的细节。举个例子,第一张图的设备仪表板和第二张图,能看出直接的不同,nano banana 生成的仪表板,依旧是明显的 AI 风格。

根据 X 上爆料博主 testingcatalog 透露的信息,nano banana 2 目前仍然是由 Gemini 2.5 Flash 作为基础模型,而没有完全开始使用 Gemini 3.0 Pro。

这意味着 nano banana 2 图像模型的发布时间,可能要比 Gemini 3 来的更早。我们收集了目前关于 nano banana 2 的爆料,其中提到它有以下这几个亮点。

1、能处理更复杂的任务,例如在精确的着色、高级控制视角或角度,以及纠正生成图像中的文本元素等,当前 1.0 版本不支持的任务。

▲ 输入提示词,让水变粉红,依次是原始图像,Nano Banana 1,Nano Banana 2|图片来源 x@Angaisb_

2、全新的多步骤生成工作流程,nano banana 不再是「一键出图」,而是更像一个设计师在工作。

  1. 规划: 花费相当长的时间规划输出内容。
  2. 生成: 生成一个初步图像。
  3. 审查: 通过内置的图像分析功能进行自我审查。
  4. 修正: 识别并纠正任何错误。
  5. 迭代: 根据需要进行迭代,最后才交付结果。

3、更高的分辨率和更全面的宽高比图像生成,其中更广泛的宽高比,包括 1:1, 2:3, 3:2, 3:4, 4:3, 9:16, 16:9 和 21:9 等大小,而分辨率在爆料信息中,则是称有 1K、2K 和 4K 多种模式。

▲ComfyUI 工作流界面

其中,多步工作流,大概是 nano banana 更新里面最大的差异化卖点。之前我们可能听过 ComfyUI 这类工具,能够实现生图、生视频的工作流。但现在直接通过 nano banana 就能实现,这对于高精度图像的生成来说,是一次巨大的进步。

实际表现还是得看生成的图片来说,我们继续看看这些来自 nano banana 2 的测试案例。

更强的文本渲染

首先是真实的电脑截图,nano banana 2 能直接生成一个 Windows 电脑截图,屏幕显示浏览器,正在访问 YouTube 网站,并且指定视频的封面是野兽先生。

▲ 直接上传一张 Windows 电脑截图。提示词:Generate a screenshot of a windows 11 desktop, with google chrome open, showing a YouTube thumbnail of Mr. Beast on http://YouTube.com(生成一张 Windows 11 桌面截图,谷歌 Chrome 已打开,显示 YouTube 上 Mr. Beast 的缩略图,链接为 http://YouTube.com)|图片来源:x@synthwavedd

更复杂一点的玩法,甚至能直接让 nano banana 2 生成一个 Google DeepMind 的网页截图,这密密麻麻的文字没出现乱码,真的厉害。

▲图片来源:x@synthwavedd

不过还是有细心的网友发现,nano banana 2 的效果也不是十全十美,像这张图片里出现了 Gemini 31、Google DeepMind – Nevdscl 等错别字。

不仔细去看,光看大标题和那些小标题,还真的很难发现这里面的错误。但是,当要处理的文本内容少一点的时候,nano banana 2 出现错误的概率就会小很多。

这张电视台新闻直播现场的图片,屏幕上的文字都是准确的,格式统一;甚至它把地板上反射的文字,都正确显示了。

▲图片来源:x@synthwavedd

同样的,还有这张电视的直播截图,主播在屏幕右侧,底部有新闻节目经典的跑马,并且所有文字都准确渲染。

▲ 提示词:50mm big budget live broadcast 8k photograph close-up an attractive italian age 30 wry female news anchor. She is at a news desk and on a screen behind her is a bio engineered Banana with text “Nano Banana 2 live on Media .IO?” Live news shot. There is a red and blueckhyron on the bottom of the image that says “Breaking News: Nano Banana 2 on Media .IO?”|图片来源 x@BrentLynch

我们也把同样的提示词,让当前的 nano banana 处理了一遍。

这张照片给我的感觉 AI 味也不算太重,但是它对背景屏幕做了虚化处理,反而让照片看起来不像是新闻节目的现场,而文字的反射也稍显刻意,它重点突出了主播的形象。

有了世界知识,更听得懂我们的指令

像开头那张 11:15 分的时钟和满杯的红酒,在评论区里,网友们纷纷贴出自己用 Grok、ChatGPT 等其他模型的生图,结果都不如 nano banana 2 准确。

还有网友分享了让 nano banana 2 把一个汉堡玻璃化,其中只有它做到了将整个汉堡都变成玻璃;而字节的 Seedream 和 Riverflow 都只是将汉堡的面包部分转成了玻璃。

▲ 提示词:制作玻璃汉堡(Make the hamburger made of glass);图一为 nano banana 2 生成的图片|图片来源 x@Angaisb_

在世界知识方向上的进步,让 nano banana 2 更能读懂提示词,做到严格指令遵循的同时,它还可以让我们的提示词更简单。

例如有网友测试了生成一个 GTA 6 预告片,nano banana 2 直接给了他一个完整的 YouTube 页面,它甚至还知道真正的 GTA 6 标志。

▲ 图片来源 x@jewgibor

他还测试了一组提示词「one piece live action netflix」,海贼王真人版奈飞,结果 nano banana 不仅知道 Netflix 的 Logo,也知道相关的真人版演员。

结合世界知识和文本渲染,nano banana 2 还能在黑板上为我们解题,这不比看着聊天框里面长长的数学推理舒服多了。

▲图片来源 x@MagusWazir

而 nano banana 1.0 版本和 nano banana 2 的对比是这样的。

▲ 图片来源:https://www.reddit.com/r/singularity/comments/1osolhn/nano_banana_2_vs_nano_banana_comparison_output/

还有许多类似的案例,用 nano banana 2 来接数学题,然后在黑板上回答。

▲ 图片来源 x@Liam06972452

不只编辑,生图能力这次也有了提升

同样是在 Media AI 平台上,短暂出现的预览版本的测试效果。

▲提示词:Ken Kaneki carrying his friend in his arms in the snow, Tokyo Ghoul|图片来源 x@legit_api

东京食尸鬼里面金木研在雪中抱着朋友的场景,就这么自然地生成了。除了稳定拿捏的动漫风格,赛博朋克风格,nano banana 2 的生图效果也很高级。

▲ 提示词:Cyberpunk hacker robot working in front of many monitors|图片来源 x@testingcatalog

还有各种各样的人像「恶搞」图片。

▲ 图片来源 x@MicahBerkley

以及这种胶片风格满满的合影。

▲ 图片来源 x@rpnickson

不过有人在评论区提到,「这根本不是 nano banana,Media AI 是一家中国公司。像 DeepSeek 当时出来的时候一样,我们也以为它是来自 OpenAI,这是他们的惯用手法。」

当时 nano banana 1 在大模型竞技场第一次出现时,大家也无法确定这个模型是否真的来自 Google,但最后只要生图效果够炸裂,我们就会买单。

拿目前这个生图效果来看,把它叫 nano banana 2 是完全没有问题。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌