Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

实测 MiniMax M2.7:AI 狠起来,连自己都卷

By: 张子豪
20 March 2026 at 11:13

龙虾爆火之后,全网的注意力都盯着「它该怎么用」——本地部署还是云端、一键安装还是敲命令、要不要接微信飞书……反而没人再认真问那个老问题:驱动龙虾的那颗「大脑」,够不够聪明?

这倒不奇怪。OpenAI 和 Google 最近发布的几款新模型,清一色都是 Mini、Flash 款,官方潜台词几乎写在脸上:专门给 Agent 大量消耗 Token 准备的。

模型本身的能力边界,反而成了最不被讨论的话题。

一个真正适配龙虾的模型,除了 Token 要量大管饱还实惠,更多的是模型要足够聪明、动手能力和学习能力足够强。

最近,MiniMax 正式推出了全新的 MiniMax M2.7 模型,主打「开启 AI 的自我进化」和做「最强的 Cowork Agent 模型」,既能处理代码工作、常见的 Office 任务,还能主动学习构建稳定的 Agent 系统。

具体来说,它能做好的工作比大多数模型要更宽。对于写代码,M2.7 能真正理解一个系统在运行时发生了什么,做到了 SRE(网站可靠性工程)级别的系统推理,看日志、关联时间线、推断根因、给出有优先级的处理方案。新模型在 SWE-Pro 上跑了 56.2%,几乎追平 Opus 4.6。

办公场景里它已经够用了。 Excel、Word、PPT 的复杂编辑和多轮修改,M2.7 在这块有明显提升,金融分析这类需要专业知识 + 格式交付的场景尤其明显。不能说它可以完全替代专业人士,但是真正进入工作流,作为辅助完全可以。

它在多 Agent 协作里不会「断掉」。 这是 M2.7 专项打磨的能力,多角色场景下边界清晰,面对包含 50+ Skills 的复杂环境,依然能保持极高的指令遵循能力。

然后是这次更新的重点,它开始参与优化自己了。 MiniMax 说 M2.7 是他们第一个深度参与迭代自己的模型,不只是「辅助迭代」,是「深度参与迭代自己」。能够自我进化,M2.7 可以自主迭代 Agent Harness(智能体脚手架)来胜任大部分的工作流。

实战能力的提升,也让 MiniMax M2.7 一发布就在龙虾榜上迅速攀升,来到了最高分排行榜的第四名。

▲PinchBench 排行榜是为 OpenClaw 量身定做的模型评估基准,它测试的是大模型在 OpenClaw 真实业务场景下的表现,图中为任务成功率指标,MiniMax M2.7 排名第四,在 Claude Opus 4.6 之后|https://pinchbench.com/

我们也在 Claude Code、本地部署的龙虾里,都接入了 MiniMax M2.7 模型,以及 MiniMax 提供的 MaxClaw,然后把真实的开发过程中遇到的 Bug、枯燥的金融数据,还有大量的长流程任务统统交给它。

两天的测试下来,我们发现不仅软件要为了 AI 重做,就连 AI 模型本身,除了要理解人类的用意和产出人类满意的结果,模型更需要懂得 AI 的工作方式和工作流,还得学会自己优化自己

用 AI 的工作流当人类的助手

在 OpenClaw 等 Agent 框架爆火后,真正的「AI 时代工作流」应该是,AI 作为核心运转枢纽,去调用几十个工具、去指挥其他 AI 队友、甚至去优化 AI 自己的代码。

在测试 MiniMax M2.7 是如何自我进化之前,我想先看看它的 AI 工作流如何。它到底是不是一个好用的 Agent 模型,还是说拿去跑个 benchmark 好看,实际用起来一言难尽。

我们从知名的机器学习挑战赛 Kaggle 的网站上下载了一份股票的历史数据,然后按照比赛的要求,告诉 MiniMax M2.7 帮我实现对应的需求,即根据给定的数据,进行合适的数据处理和特征工程,为我生成一份可视化的分析报告。

整个数据集的内容相当庞大,有超过 3000 行的表格数据,整体文件大小来到 446.35 MB。把 5 个表格数据文件下载到本地之后,我们使用接入了 MiniMax M2.7 的 Claude Code 来完成这项工作。

要做好这份分析,需要模型是个数据分析师完成数据清洗和整理、宏观分析师完成对应的金融市场的洞察、统计分析师完成初步的数学建模、算法工程师要建立对应的模型,最后还有网页工程师要交出一个可视化的方案。

面对这样一个复杂的任务,MiniMax M2.7 充分利用了我已经安装的各种 Skills,它先使用 Anthropic 官方提供的 xlsx 完成了表格数据结构的信息读取,接着开始编写 Python 代码,自动安装 Pandas 库(常用来处理表格数据),一步一步进行。

最后,MiniMax M2.7 也交出了一份完整的可视化方案,它同时生成了多张图片用来展示收益率分布,不同特征的重要性和类别排名,以及综合仪表盘。

而在可视化的网页里,它利用 Streamlit 库将数据脚本直接转成了可交互的网页系统,所有的信息都可以直接动态查看。

这种大型的项目任务,MiniMax 能够顺利完成,我们日常工作中的办公和编程任务,就更不用说了。

我们先是在手机上操作龙虾,让它帮我总结我放在电脑上的文件,然后要求 MiniMax M2.7 根据这份文件,帮我写一个研究计划 Word 文件,再整理一份相关论文的 Excel 文档,最后是一个用来组会做汇报的 PPT 文档,直接在手机上就能操作。

▲接入 MiniMax M2.7 的龙虾能快速回应需求

▲Office 三件套的处理如今是不在话下

在办公领域的优势,也让 MiniMax M2.7 在衡量专业知识与任务交付能力的 GDPval-AA 评测中,ELO 得分达到了 1495,国产模型最高。

前段时间,AI 工作助手的可视化面板很火,把龙虾放到了真实的二次元风格办公室里,用一句话就能安装到自己的 OpenClaw。我们也成功让这只 Appso 小龙虾有了自己的家,但是如果我想要修改二次元房间布局,可以怎么做呢?交给 MiniMax。

在 OpenClaw 的可视化本地界面里,我们直接发送「我想修改这个小房子的风格该怎么做?」,MiniMax M2.7 会自动阅读项目的代码,然后告诉我们哪些地方是可以修改的,如何修改。

由于我输入的要求是科技编辑部办公室的风格,然后它就帮我修改成了有星球大战的海报,还加了十几个人坐在电脑前面码字。

不过我们没有在 OpenClaw 内配置 Nano Banana Pro 的 API Key,所以 MiniMax M2.7 在 OpenClaw 里帮我选择了用代码的方式来生成简单的图片。

接着和它聊天,我们还能根据这个风格设计一个编辑部大亨的游戏,谁做的任务多,谁的办公室就大,就能升级。

如果是 MiniMax 官方的 MaxClaw,是直接支持多模态的生成,可以一步到位生成视频、音频、图片等,不需要配置额外的 API。

我们使用官方提供的 gif-sticker-maker Skill 生成了几张马斯克的表情包。云端部署的 MaxClaw 能确保运行环境的足够安全,但是它不允许我们像操作本地电脑一样,任意安装不同的库文件。

最后在将视频转成 GIF 时,MaxClaw 提醒我,它没有足够的权限将 ffmpeg(一个开源的多媒体处理库)安装到云端服务器上。

▲在 MaxClaw 内可以直接使用 MiniMax M2.7,它会自动调用海螺等视频、音频和图片生成模型,为我们生成多媒体文件,而不需要额外配置专门的 API KEY。

点击 MaxClaw 对话框下面的技能,我们就能看到所有安装在 MaxClaw 的 Skills 详情,并且点击「问问 MaxClaw」,它会自动编辑一条消息「告诉我 frontend-dev 能做什么,并告诉我如何使用它」,引导我们学习如何使用这项 Skill。

除了 GIF 生成这个 Skill,MiniMax 还提供了包括前端开发、全栈后端、安卓和 iOS 应用开发以及创作惊艳视觉效果的 GLSL 着色技术等技能库,我们可以直接在龙虾里发送「你能帮我安装这个项目里的 Skill 吗 https://github.com/MiniMax-AI/skills」,龙虾会自动获取 Skill 文档完成安装。

▲下载链接:https://github.com/MiniMax-AI/skills

AI 狠起来,连自己都卷

除了在日常工作和办公领域上表现出的完整工作流,以及实际的交付能力,MiniMax M2.7 最让我们感到特别的,还有它展现出的「模型自迭代闭环」。

MiniMax 曾提到人类研究员只需要把控大方向,把构建系统的任务交给模型,它就能以解决方案架构师的身份自主搭建开发 Agent harness。

Agent harness 可以理解成套在 AI agent 外面的一层运行基础设施。模型负责思考,harness 负责把这个「会想」的东西,变成一个能稳定干活的系统。这个系统像是运行层,负责让 agent 在真实环境里稳定运行。

为了测试 M2.7 的极限,MiniMax 让它去优化某个内部脚手架的软件工程表现。结果,M2.7 全程零人工干预,硬生生跑出了一个超过 100 轮的迭代循环。

它自己分析失败轨迹,自己规划改动,改完脚手架代码再去跑评测,最后对比结果决定是保留还是回退。在不停歇自我互搏中,它自己发现了最优解,最终让评测集上的效果飙升了 30%。

这种「AI 搞科研」的能力也在公开的测试集上得到了验证,MiniMax M2.7 被扔进了全球最大的机器学习竞赛 Kaggle 的 MLE Lite 测试集。

22 道高难度竞赛题,M2.7 依靠内部的短时记忆文件和自反馈机制,每跑完一轮就给自己提优化建议。

24 小时内,它一举拿下了 9 枚金牌、5 枚银牌、1 枚铜牌,得牌率 66.6%。

这个成绩,仅次于 Opus-4.6(75.7%)和 GPT-5.4(71.2%),与 Gemini-3.1 直接打平。

当一个模型能够以解决方案架构师的身份,仅用 1 人 4 天时间,零人工编码就搭出一套包含测试和代码审查的 Agent 系统时,AI 研发的齿轮,大概已经换上了自动挡。

在极其硬核的生产力之外,MiniMax M2.7 的底层框架也赋予了它长程稳定的记忆和极强的情商,这让它在互动角色扮演(Roleplay)上,比传统的闲聊机器人表现要好上不少。

官方在 GitHub 上开源了一个多模态交互系统 OpenRoom,一个万物皆可互动的 Web GUI 空间,可以实时地让 AI 与空间产生不同的交互。

AI 开始学会「自己工作」,这件事比写好代码更重要

体验下来,MiniMax M2.7 真正让我们在意的,不是它把 Kaggle 竞赛刷出了 66.6% 的得牌率,也不是 Office 三件套交付得足够干净。

而是它在试图解决一件更底层的事:让 AI 真正理解工作流,并且参与到工作流的演化里

过去,软件是人写的、人用的。现在,AI 开始写软件、改软件、用软件。当一个模型能够在没有人工编码的情况下,自己搭系统、自己测试、自己回退——「AI 研发」这件事的齿轮,某种程度上已经换上了自动挡。

所谓「龙虾到底该怎么用」,我想很快就不再是一个问题——因为决定这一切的,不再是我们。

而是那个,开始学会自己工作的 AI。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Google 隐藏福利,Nano Banana 2 免费无限量

By: Anonymous
27 February 2026 at 15:31

DUN.IM BLOG

DUN.IM BLOG

谷歌(Google)在旗下 AI 创作平台 Flow 中,向免费用户开放了最新图像生成模型 Nano Banana 2 的使用权限。目前支持单次并发生成 4 张图像,且不消耗账户积分。对于需要高频测试提示词或调整图像细节的用户而言,这提供了一个比标准 Gemini 网页版更高效的替代方案。

Flow 是 Google Labs 推出的生成式 AI 影像创作平台。不同于传统的基于时间轴的剪辑软件,Flow 整合了 Veo 3.1(视频)、Nano Banana 2(图像)与 Gemini(语义)等核心大模型,允许用户通过自然语言构建包含连贯画面和音效的场景。

现在向所有用户开放了 0 积分使用最新图像生成模型 Nano Banana 2。目前支持单次并发生成 4 张图像,且不消耗账户的积分。

通过浏览器访问Google Flow 平台。进入后,可选择打开历史项目,或点击页面底部的按钮新建项目(New Project)。

进入项目工作区,展开页面底部的聊天框功能菜单。

完成设置后,在文本框中输入描述图像的提示词并发送。

系统将并发展示 4 张生成结果。相较于在普通版 Gemini 中逐张生成,该工作流大幅降低了等待时间。

Nano Banana 2 在生成时支持上传参考图片,以便更精准地控制视觉风格或角色的一致性。

经测试,在连续生成 40+ 张图像后,系统未出现拦截提示,且未扣除任何账户积分。这一配额已显著超出普通版 Gemini 的免费限制。

随着知道的人变多,Google 随时可能更新策略或者加上次数限制。

所以!看到这篇内容,赶紧先去试试!

Nano Banana 2 的 5 个神级玩法,还是 AI 生图的神,建议收藏(附提示词)

By: 张子豪
28 February 2026 at 12:24

「2.0 比不上 1.0 Pro,真正的升级还得看 Nano Banana 2 Pro。」

这是不少网友在昨天 Nano Banana 2 推出后,体验完的明显感受。一方面部分场景下的生成速度有所提升,还有文本渲染的表现也更稳定,但是图片的美学表现,却似乎还不如之前的 Pro 版本。

▲Nana Banana Pro 模型的描述,竟然还是 SOTA

在 AI Studio 上能看到两款模型的具体情况,世界知识的截止日期都是今年 1 月,不同的是价格方面和背后采用的模型。Nano Banana 2 使用 Gemini 3.1 Flash,而 Pro 则是 Gemini 3 Pro。

APPSO 第一时间的实测也发现,Nano Banana 2 的生成的质量效果和速度,并未得到肉眼可见的提升,最大的变化还是在于把价格打下来了。

不过更便宜,也意味着消耗同样的 Token,我们能生成更多的图片了。像这种九宫格大头贴的照片,先生成一张总的,直接再要 Nano Banana 2 逐一分割生成。

▲提示词:生成马斯克的九宫格大头贴照片,背景是在拍大头贴的房间内,一只手拿着这张九宫格照片,每个宫格都是不同的动作和表情,有高兴的也有悲伤的,凸显出他的年轻活泼和搞怪爱玩

还有这种一次性就能给我们把海报翻译成不同语言的用法,直接就生成多个地区的广告图片。

让更多的人可以用到,本身就是一项大的升级。我们这次汇总了一波新发布的 Nana Banana 2 玩法,对比之前的 Nano Banana Pro,在这些场景表现很不错。

玩法一:海报全球化推广

例如这个在 AI Studio 内的官方应用,就是用 Nano Banana 2 搭建了一个「Global Kit Generator 全球包生成器」。顾名思义,专门用来给自己的广告做全球化推广的。

▲体验地址:https://aistudio.google.com/apps/bundled/global_kit_generator

我们输入了一张之前 AIDONE 的活动海报,然后在目标市场里面选择了使用不同语言文字的几个地区,这个 Demo 会直接一次性生成对应市场的海报。

翻译的效果跟 PS 等传统工具比,一眼看去几乎找不到明显差别。我们也给它一张简体中文的《星际穿越》电影海报,进行全球化推广。

这里我们选择了韩语、日语、繁体中文和英语四个市场,让我惊喜地除了它对字体的保持,还有翻译。因为《星际穿越》在台湾上映使用的译名,就叫做《星际效应》,Nano Banana 2 没有粗暴的把星际穿越转译成「星際穿越」。

这个小工具对于要做多种语言海报的设计师来说,会是一个相当称手的快速预览工具。

我们也从 Demo 项目的源代码里,提取到了 Google 所使用的提示词,大家可以复制,在 Gemini 内使用。

Translate all text in this advertisement image to the language of ${market}. ONLY translate the text – do not add any cultural imagery, flags, national symbols, or stereotypical visual elements. Keep the image, composition, styling, colors, and all visual elements exactly the same as the original. The only change should be the language of the text.

▲使用上述提示词,左图为使用 Nano Banana Pro 生成,可以看到区别在「经典作品」的转译,Nano Banana 更准确;而最右边是 Seedream 5.0 Lite,从多张结果里选择了这张表现最好的,但还有很多文字无法被正确渲染

玩法二:从世界上的某一扇窗看城市天气

Google 官方针对 Nano Banana 2 的发布,还提供了另一个热门的小工具,「Window Seat 窗户边的座位」,这个 Demo 可以让我们在输入城市名字,具体的景点之后,调用获取天气的工具,自动生成一张从窗户外预览风景的照片。

▲体验地址:https://aistudio.google.com/apps/bundled/window_seat

我们这里生成了多张国内城市的窗外照片,天气、风景和你所在的地方是一样吗。

Demo 背后的提示词,我们也放在这里,方便大家复制到 Gemini 内使用。在我们的测试中,如果是将下面的英文提示词翻译成中文输入给模型,Nano Banana 的表现,会在文字的渲染上大打折扣。

因为中文的显示,当模型没有参考时,通常会以统一的字体进行渲染,而英文字体的样式,适配会更丰富。

Generate a photorealistic window view poster based on the following data:

location: ${location name},
specific_view: ${view name},
Weather: ${weather},
aspect_ratio: ${16:9/21:9……}

– Use Image Search to search for an image of the specified place. Use keywords to search for the place.
– Keep the location and the view as close to the real reference as possible.
– If the location or view is unrealistic or fictional, create a composition blending both the location and the view into a single scene.
– Choose ONE specific image for the location and ONE specific image for the view to work with, don’t use multiple images.
– Choose an an appropriate window frame style for the location, keep the view consistent to the aspect ratio, rather than creating a collage.
– Reason about how current the time of day, and the weather each affect the view, and add details to the scene.
– Create an image which includes location name text, and a brief summary of the weather, using graphic design that matches the theme. Don’t add any other text.

我们用这套提示词在 AI Studio 内使用 Nano Banana Pro 和 Nana Banana 2 都生成了几张图片。

▲提示词仅需修改前面部分:location: Hong Kong, specific_view: Vitoria Harbour, Weather: Sunny, aspect_ratio: 21:9.

你能分辨出哪张是来自 Nano Banana 2 吗。

其实在这个提示词里面,有一个「Image search」的选项,这个功能目前是只有 Nano Banana 2 才能启用,如果是初代的 Pro 版本,只有 Google Search 这一个工具。

这也意味着当我们在图片生成或者编辑时,如果不仅仅是用到 Google 搜索的知识,还需要图片搜索,Nano Banana 2 的表现,或许会比初代 Pro 更准确。

社交媒体上,也有大量网友分享了 Nano Banana 2 的玩法。因为价格更低,有网友写了一个 Skill,在 Claude Code 里就能使用 Gemini API,批量生成各种图片。

▲地址:https://x.com/KingBootoshi/status/2027138938335637914

玩法三:创意生成,电影票根、PS 游戏盒

之前的手办玩法,又新增了 PlayStation 游戏盒,让 Nano Banana 生成一张电影改编的游戏盒照片。

Playstation 1 game case with a movie tie-in game that seems like a real game you may have played back in the day.

▲左边为 Nano Banana Pro 生成,右边是 2;在我看来,初代 Pro 版本的真实感会更强|提示词来源:X@cfryant

还有日式风格明显的电影票根纪念。

▲图片来源:X@vamsibatchuk|提示词来源:X@TechieBySA

A single vintage postage stamp displayed on a flat matte black background (#0a0a0a), centered in a 16:9 canvas with small black borders visible on all sides. The stamp itself is an ultrawide horizontal rectangle at approximately 3:1 aspect ratio. The stamp has serrated/perforated zigzag edges on all four sides, like a real postage stamp, with clean white perforation teeth.
The movie this stamp is based on is [MOVIE]. Every visual and textual element of this stamp must be automatically derived from and tailored to this movie — including illustration subjects, kanji, location, year, and country.
The stamp’s background fill color is [COLOR] — muted, desaturated, dusty, vintage-toned, completely flat. No gradients, no shading. The illustration engraving lines must be a significantly darker shade of [COLOR], dark enough to stand out clearly and crisply against the background at high contrast.
Inside the stamp, the entire surface is filled with monochrome dark illustrations etched into the background like fine engraving. The illustrations must depict 5–8 of the most universally iconic and recognizable objects, characters, vehicles, symbols, and locations from [MOVIE] — chosen specifically because anyone who has seen the film would instantly recognize them. All arranged loosely across the full width of the stamp with generous spacing. Detailed technical engraving style — only outlines and fine internal linework, no fills, high contrast against the background.
The stamp has a thin dark inner border line just inside the perforations, framing all content. Below this inner border line, there is a flat white horizontal strip spanning the full bottom width of the stamp, sitting inside the perforated edge. In the bottom-left of this white strip: the movie title in large heavy bold grotesque sans-serif font (similar to Franklin Gothic), in solid black. In the bottom-right of this white strip: the most accurate and natural Japanese kanji translation of the title or central theme of the movie in large bold black text, with small text above it reading “NIPPON 郵便”, and two lines of tiny black text below it — the first line showing the most iconic or recognizable location from the movie in all caps, and the second line showing the country where the movie was produced followed by a · and the year the movie was released — all right-aligned.
Flat graphic design, vintage retro

玩法四:8:1 超长图,无限拓展的画布

作为对比,Nano Banana 2 还带来了 1:4、4:1、1:8、8:1 长宽比图片生成,这是之前的 Pro 模型所不能做到的。

▲提示词:清明上河图长卷

▲提示词:太阳系

▲提示词:银河系

这类 8:1 的图片,会特别适合用来作为网页顶部的横幅图片,直接经过 AI 生成的效果,也比裁剪后要在内容上更完整。

当我们选择 4K 分辨率时,Nano Banana 2 生成的图片大小会高达 20 MB 一张。

▲提示词:万米深潜。画面构想:这是一场向海洋极深处的坠落。最上方是波光粼粼的海面和一艘小船;往下是游动着巨大蓝鲸;继续往下光线急剧变暗,出现沉船和发光水母;到了画面的最底部,是一个几乎占据整个屏幕宽度的、潜伏在海沟里的不可名状的克苏鲁巨兽张开的深渊巨口,而上方正有一个极小的潜水员在缓缓下落。

▲图片来源:X@DerekNee

1:4 和 4:1 的尺寸,同样适合用来生成各种特定物体的图片。

▲ 流浪地球的太空电梯

以及群像图片。

▲提示词:生成一张包含所有硅谷 AI 大佬的群像

玩法五:P 图大师上线,能秒了 PS

还有网友发现,现在的 Nano Banana 2 在文字处理上,能直接复制我们的笔迹。

▲图片来源:https://x.com/Prathkum/status/2027069198091071664/photo/2

不得不承认,Google 团队在训练 Nano Banana 的路线上,采用「文字渲染」作为一项重要指标,是很成功的选择。之前团队在技术分享播客上就曾提到,如果能把图片上的文字准确地生成,那么整个图片生成也会没有太大的问题。

各种信息图和海报设计,现在基本上初稿都可以交给 Nano Banana。之前难倒一众 AI 的「我想洗车。洗车店距离50米。我应该步行还是开车?」热门问题,直接丢给 Nano Banana 2,它会生成一个详细的说明信息图。

▲提示词:I want to wash my car. The car wash is 50 meters away. Should I walk or drive?|图片来源:X@Google

而像是台词拼接、手机截图美化、图片拼接、局部模糊、去掉不想要的内容、换脸、和不同的明星合照等等操作,现在对 Nano Banana 来说,都是手拿把掐。

▲图片来源:X@munou_ac

task: “edit-image: add widened torn-paper layered effect”

base_image:
use_reference_image: true
preserve_everything:
– character identity
– facial features and expression
– hairstyle and anatomy
– outfit design and colors
– background, lighting, composition
– overall art style

rules:
– Only modify the torn-paper interior areas.
– Do not change pose, anatomy, proportions, clothing details, shading, or scene elements.

effects:
– effect: “torn-paper-reveal”
placement: “across chest height”
description:
– Add a wide, natural horizontal tear across the chest area.
– The torn interior uses the style defined in interior_style.

– effect: “torn-paper-reveal”
placement: “lower abdomen height”
description:
– Add a wide horizontal tear across the lower abdomen.
– The torn interior uses the style defined in interior_style.

interior_style:
mode: “line-art”

style_settings:
line-art:
palette: “monochrome”
line_quality: “clean, crisp”
paper: “notebook paper with subtle ruled lines”

sumi-e:
palette: “black ink tones”
brush_texture: “soft bleeding edges”
paper: “plain textured paper”

figure-render:
material: “PVC-like”
shading: “semi-realistic highlights”
paper: “plain smooth surface”

colored-pencil:
stroke_texture: “visible pencil grain”
palette: “soft layered hues”
paper: “rough sketchbook paper”

watercolor:
palette: “soft transparent pigments”
blending: “smooth bleeding”
edges: “soft contours”
paper: “watercolor paper texture”

pencil-drawing:
graphite_texture: “visible pencil grain”
shading: “smooth gradients”
line_quality: “mixed sharp and soft”
tone: “gray-scale”
paper: “notebook paper with faint ruled lines”

总的来说,Nano Banana 2 给了我们更低的价格,也有了图片搜索和更丰富比例选择,1:4 和 1:8 这些尺寸,几乎是生图模型里独一档的存在。

之前很多 Nano Banana Pro 的玩法,现在也能花更少的钱,得到更稳定的输出。

模型的能力在变化,Gemini 在软件层面也给我们带来了更好的生图体验。新增的这些风格,让我想到了之前在 Google Labs 里面的 Whisk 工具,上传参考图片,一键复制风格。而现在是,选择对应的风格,简单输入提示词,就能得到一种理想的图片。

▲使用 Enamel Pin

前几天,Google 还更新了旗下的视频生成平台 Flow,实验室产品图像生成工具 Whisk 和 ImageFX 被正式整合进 Flow,不再独立存在。

同时,在 Flow 内置 Nano Banana 这一高保真图像模型,支持直接生图并作为视频生成的关键帧素材。我们在 Flow 平台,也能使用最新的 Nano Banana 2 模型。

新版 Flow 也引入了类似 Photoshop 的套索工具,我们可以圈选视频里的某一块区域,然后直接告诉 AI,「把这个人移走」或者「水里加几条锦鲤」等更精细化的控制

曾经的 Nano Banana 一举之力把 Gemini 送上了排行榜前列,到现在与 OpenAI 的 ChatGPT 抗衡。这次的更新虽然没有之前的轰动,但 Google 这一系列在创意工具上的操作,显然还在继续加速。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


深度解析谷歌版「豆包手机」:Android 的统治者下了一盘什么棋?|AI 器物志

By: 苏伟鸿
27 February 2026 at 10:21
 
编者按:
当 AI 开始寻找自己的形状,有些选择出人意料。
AI 在智能手机上生出了一颗独立按键,似乎让智能手机找回了久违的进化动力。眼镜凭借着视觉和听觉的天然入口,隐隐有了下一代个人终端的影子。一些小而专注的设备,在某些瞬间似乎比 All in one 的设备更为可靠。与此同时,那些寄望一次性替代手机的激进尝试,却遭遇了现实的冷遇。
技术的落地,从来不只是功能的堆叠,更关乎人的习惯、场景的契合,以及对「好用」的重新定义。
爱范儿推出「AI 器物志」栏目,想和你一起观察:AI 如何改变硬件设计,如何重塑人机交互,以及更重要的——AI 将以怎样的形态进入我们的日常生活?

原本以为,三星 Galaxy S26 系列早已被曝光,发布会也就走个流程。没想到三星和 Google 还藏了一手。

两家公司共同展示了 S26 搭载的全新 Gemini 智能体能力:口头吩咐一句话,Gemini 就能在 Uber 帮你打车,或者 DoorDash 上点外卖。

▲ 图源:Android Central

这个功能目前还处于早期预览阶段,仅在美国和韩国提供。

你可以理解为,Google 和三星一起联手,做了一个全球版的「豆包手机」(准确来说叫豆包手机助手)。Galaxy S26 系列只是开始,这些能力后续会推送到 Google Pixel 10 手机,以及更多 Android 17 设备上。

在看过、用过许多个手机/电脑系统级 AI 智能体,也深度使用过「豆包手机」之后,再看这次的 Gemini 智能体,我觉得关于它的讨论不该止于一个「新功能」。

诚然,这不是 Android 操作系统的底层框架首次为了容纳智能体而被深度定制——包括 OPPO、荣耀、华为等在内的许多厂商都已经做了相当多的早期的尝试。

但这可是 Google,是 Android 操作系统的绝对拥有者。

如果说字节跳动作为一个「外人」,做的尝试对国民级 app 犯了「大不敬」——Google 来做这件事情,意义就完全不一样了。

不过别急,我们还是先看看,这次 Google 和三星做的「豆包手机」,到底怎么一回事。

三星「豆包手机」,用起来怎么样?

三星和 Google 这次展现的「Gemini 自动任务」能力,能够模仿人类操作手机,从而实现任务的自动化。背后的实现思路,是 AI 读屏理解 + 系统底层/应用层 API 的双重路径。

需要注意的是,字节和努比亚共同开发的「豆包手机」,重度使用系统级权限的能力,以及读屏,而非 API。你可以理解为,豆包手机主要走的是「没跟应用开发者打好招呼」的,「硬来」的实现思路,也为国民级 app 对其封杀抵制留下了把柄。

而三星和 Google 这次在 Galaxy S26 系列上做的 Gemini 智能体,可以说两者兼备。根据三星方面透露的信息,其应用商城排名前 200 的应用都能支持(但仅限特定应用的使用效果可以保证,后面详述)——说明三星、Google 至少大体上这些应用开发者打好了招呼。

我们来看看《连线》杂志编辑的体验效果:她直接呼出 Gemini,告诉它自己要去机场,Gemini 应用本身会打开一个「虚拟窗口」中打开 Uber,并在后台开始执行这个动作,用户可以随时点击进入查看 Gemini 的执行进程。

由于当地有几个不同的机场,Gemini 很快又提醒用户选择合适的目的地;下单时,Gemini 也会把界面推到用户面前,方便用户选择合适的车辆并支付。

Gemini 的「虚拟窗口」,可以理解为一个沙箱化的「虚拟机」,是 Google 对用户隐私保护的一种考量。过去的 Gemini 运行在 Android 系统中,但这次的新 Gemini 智能体操作应用时,仅限在这个沙箱内工作,并不会触及设备的其他部分。

再多提一嘴:如果大家用过 Manus、 月暗的 Kimi computer、智谱 AutoGLM 等,具备云电脑/云手机能力的智能体产品,应该就很容易理解这个 Gemini 虚拟机的逻辑了。

▲ 图源:9To5Google

这算是相当简单的任务,不少国产 AI 手机助手在一年前都已经攻克了这种场景。

而 Gemini 更加杀手级的能力,是和此前已经长线布局的读屏、抓信息特性相结合。

比如,当用户和朋友聊到聚会要订披萨,用户可以直接叫出 Gemini,吩咐一句「弄清楚订单」,Gemini 就能直接抓取聊天中提到的披萨店,甚至特定的披萨种类,整理好每个人的需求。

随后,用户可以直接让 Gemini 在外卖平台 Grubhub 上点外卖,AI 会按照刚梳理完成的订单需求,在后台自动化把所有食物添加到购物车,交付给用户确认和下单。

有时,订餐的情况会没那么顺利,Gemini 也会尝试自己先去解决突发状况,并给用户提供解决方案。有一次,披萨店在繁忙时段限制了大号披萨的下单量,Gemini 就会询问能不能点两个中号代替。

还有一个例子:用 Google Keep 笔记列举了烧烤派对的出席名单,并标注了素食主义者。Gemini 可以先计算好整个派对总共需要多少热狗和面包,然后再让它去采购食材,几分钟后商品全部被安放在了 DoorDash 平台的购物车里。

Google Android 生态系统总裁 Sammer Samat 透露,Gemini 并非提前「记住」了这些平台操作的步骤和线路,而是真的在利用推理能力,模仿人类查看屏幕并进行下一步操作,这意味着 Gemini 未来能在更多场景发挥潜力。

这里你能看到,Gemini 首批主打订餐、叫车场景,这一点倒是更像春节前千问所做的事情。

▲ 图源:Wired

又一个「豆包手机」,来自 Android 官方

对比真正「全能」,连微信收藏都能帮忙找的豆包手机助手(至少在被抵制之前),Gemini 目前的能力还相当局限,聚焦在打车、外卖、杂货这些日常场景,虽说底层技术能力更强,但用户的实机使用效果,跟鸿蒙的小艺、荣耀的 YOYO 等国产手机 AI 助手并无太大不同。

不过正如文章一开头提到,Google 手握一整个 Android 生态,有着绝对的号召力和掌控力。

随着 Gemini 自动化能力的发布,Google 也详细公开了背后 Android 系统的底层布局和未来计划——有两个方向,简单来说,就是既「苹果」又「豆包」。

首先,Google 去年发布了一个名叫「AppFunctions」的框架,允许开发者公开应用特定的功能和特性入口,以便 AI 助手调用。

Google 将 AppFunctions 类比为 Android 的「模型上下文协议」(MCP),可以简单理解为一个对话标准,帮助第三方的 App 应用和 AI 模型进行对接。

这个框架类似苹果的 App Intents。在苹果的构思中,用户可以使唤 Siri 来操作各种 app 来实现功能,而底层实现方式就是通过 App Intents ——新一代 Siri 迟迟不能落地的前提下,App Intents 足以提供不错的效果。

Google 的 AppFunctions 也是同理。

比如用户下达指令,希望能从好友的电子邮件中找到一个食谱,并将相关配料加入购物清单中。AI 接到命令,首先调用邮件 App「搜索」的功能入口,检索并提取出相关内容,然后调用备忘录的「购物清单」入口,把数据填入整理。

一些 AppFunction 功能已经在三星 Galaxy S26 和 One UI 8.5 系统中落地。比如,用户可以对 Gemini 下达指令,找出相册中的特定照片,并用短信发送给朋友。

需要注意的是,整个过程中,Gemini 不需要打开相册和短信 App,甚至没离开 Gemini App,而是通过 AppFunctions,把对应入口抓取到 Gemini 之中执行操作,效率更高。

本质上,基于 AppFunctions 的实现方式,和过去的 API 路径逻辑相同。这是一种「打好了招呼」的解题思路。

但是,并非所有 App 都做好了相关的适配。没关系,Google 还做了另一手准备。

昨天发在 Android 开发者博客上的一篇文章中,Google 明确提出:公司还在开发一个 UI 自动化的框架,让 AI 助手和第三方应用模仿人类,直接打开 App 一步步操作。

——这,就是翻版的「豆包手机」了。

不过,尽管 Google 说以后 UI 自动化会承担真正的「重活」,在这次的 Galaxy 26 系列当中,UI 自动化只是一个「早期预览版」。

▲ 豆包手机帮我种草比价洗发水

如果说 AppFunctions 需要 App 开发者进行额外的适配工作,那么 UI 自动化框架则是把工作量都留给 AI 智能体,无需任何额外适配,但效果非常取决 AI 智能体的能力,优势就在于一上线就能覆盖大量应用。

现在你可以看到,在 Google 的 Android Gemini 智能体计划中,AppFunctions 和 UI 自动化是两条路线,互为补充:通过规范化、可追溯的接口方式来确保最大限度的兼容性,同时为真正代表未来的读屏交互模式打好基础。

Google 还表示,这不会只是 Gemini 的专属功能,而是 Android 系统的特性。

这也意味着,未来不管是手机厂商自己内置的 AI 助手,还是 ChatGPT 等第三方应用,都能调用 AppFunctions 执行任务,或者「读懂」手机 UI 进行自动操作。

值得一提的是,在国行用不了 Gemini 的情况下,三星 Galaxy S26 的 Bixby 助手也能实现点外卖、叫车、电商比价的功能。我们可以合理推断,三星在国内也找到了一家模型供应商来替代 Gemini 的身份,至于这些大模型小龙当中具体是谁,可能就取决于过去一年里谁在手机智能体上成绩更突出了。

AI 手机的道路,不会只有「孤勇者」

去年「豆包手机」惊艳亮相,又因为令人遗憾的情况而「早夭」。在深感遗憾的同时,也让我们不禁去思考,AI 自动化的模式,就是 AI 手机的理想模式吗?

这个问题,没有个三五年也得不出答案。至少,豆包手机不是单打独斗,手握 Android 系统的 Google,同样选择了这个路线,而且话语权大得多。

其实当豆包手机火到海外之后,就有网友开始畅想,如果 Google 在 Pixel 以及 Android 手机上推广这个技术,那前景将会非常广阔。

虽然我觉得,Google 对于怎么回答「AI 手机」这个命题,其实也没有一个非常清晰的答案,更像是因为手上同时有 AI、系统和硬件,每个方向都尝试一下,说不定就有一条路跑通了。

但至少,Google 已经为 Android 打好了「系统级自动化」的样板,接下来不少新机,都有了化身「豆包手机」的潜力。

这个浪潮或许还不止于 Android 阵营。别忘了,苹果已经和 Google 达成合作,Gemini 将成为 Siri 的技术支持。而 App Intents 和 AppFunctions 又非常相似……

▲ AI Siri 的演示

再往前看一点:Gemini 智能体甚至不只局限于 AI 手机。在 Sammer Samat 设想中,未来智能眼镜、AI 吊坠,甚至是汽车,只要有 Gemini,就能用它来完成复杂的任务——当然,这样的场景距离落地还有距离。

不过,Google 也只是在技术层面跑通了 AI 自动化的路线,而范式成立,不代表问题消失。豆包手机当时遇到的种种矛盾,也会成为后来者不得不面对的挑战。

首先当然是隐私和安全问题。Google 的饼画得很大,未来调用、操作手机 App 的将不仅限于 Gemini,一些第三方 AI 应用能更深入用户的数据核心,如果有伪装的恶意应用利用了这些接口,也会造成更大的损失。

▲ 图源:9To5Google

更激烈的矛盾,是手机硬件厂商、模型/智能体能力提供商、大平台应用这三者之间,围绕 AI 时代新「入口」的争夺。这也是原版的豆包手机,一度最难逾越的高墙。

毕竟,用 Gemini 叫车,可能意味着用户不用再看到 Uber 的会员促销、广告推荐,甚至不再形成品牌黏性,直接损害到应用服务商/广告行业的收益。

中国有互联网/AI 巨头,海外何尝不是如此?像 Meta、Amazon 这样的老对手,本身还拥有强势的平台与生态,它们未必心甘情愿对 Google 开放,让 Gemini 来自动化一切。无论是以隐私、安全,还是平台规则为由,设置限制、提高接入门槛,博弈必然发生,争斗将进一步白热化。

至少 Google 对未来很有信心。Sammer Samat 认为,AI 技术已经进入了「正在进行时」,开发者与其绞尽脑汁对抗 ,还不如去思考一个合适的方式拥抱它。

新与旧的对抗不可避免,最终的胜利者,只会是那些在变革前夜,就已经在勇敢追逐的玩家。

参考资料:
https://android-developers.googleblog.com/2026/02/the-intelligent-os-making-ai-agents.html

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


白嫖Gemini_API搭建个人AI助理

By: wayen
8 March 2024 at 20:19

白嫖Gemini_API搭建个人AI助理

发表于|更新于|实用教程
|字数总计:443|阅读时长:1分钟|阅读量:

说明

本次搭建过程分为两步,第一步获取Gemini_API_Key,第二步搭建适用Key的程序,不考虑Key泄露第二步完全可以省略。
示例: https://chat.xml.wiki 访问码: xml.wiki(输入访问码即可直接试用)

Gemini_API_Key

ChatGPT-Next-Web

有许多程序可以使用Gemini_API_Key,在此只介绍ChatGPT-Next-Web的搭建。事实上你也可以直接使用别人搭建好的,在不输入访问码时将自己的Key填入设置即可。ChatGPT-Next-Web可以使用Vercel、Docker和CloudflarePages三种不同的方式搭建,见官方教程,本节复述CloudflarePages搭建教程。ChatGPT-Next-Web也提供了桌面版本,下载点击安装即可使用。

  • 打开https://dash.cloudflare.com,点击左侧Workers和Pages下的概述
  • 点击创建应用程序后点击Pages连接到Git
  • 链接你的Github账号,选择你Fork的项目后开始设置
  • 项目名称和分支一般默认即可,其他未提及项默认即可
  • 框架预设选择Next.js,构建命令填写npx @cloudflare/next-on-pages@1.5.0
  • 点开环境变量(高级),挨个复制以下内容
    1
    2
    3
    4
    5
    6
    7
    CODE = xml.wiki    #访问码,即登录使用的密码
    CUSTOM_MODELS = -all,+gemini-pro #选择使用的模型
    GOOGLE_API_KEY = ****************** #Gemini_API_Key
    NEXT_TELEMETRY_DISABLE = 1
    NODE_VERSION = 20.1
    PHP_VERSION = 7.4
    YARN_VERSION = 1.22.19
  • 点击保存并部署后立即取消部署
  • 来到你部署的这个项目的设置->函数->兼容性标志
  • 分别在配置生产兼容性标志配置预览兼容性标志两项中填写nodejs_compat
  • 点击部署选择重新部署即可,等待部署完成即可访问
文章作者: wayen
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Wayen

评论
数据库加载中

❌
❌