Reading view

There are new articles available, click to refresh the page.

Chrome 迎来大更新,刚刚登顶 App Store 的 AI 可以直接用了

你应该也有类似的浏览器使用体验,就是当你曾经打开过一个标签页,但是忘了给它添加书签;下次再想找到它时,只能去历史记录里面翻个半天,还不一定能找到。

前些天,我们介绍 Google AI 全家桶的产品指南,它的浏览器 Chrome 被排除在外。

一方面,这是个传统的老牌浏览器,几乎每个人的电脑都有安装一个;另一方面,浏览器本身好像就是没有任何 AI 功能,找标签页这个场景,除了依赖第三方扩展插件,我们只能去翻历史记录。

但是现在,Chrome 进行了自 2008 年发布以来最大的一次升级,找不到的标签页,点击右上角 Gemini 的小图标,一句话就能解决。不管你喜不喜欢,它也是一个 AI 浏览器了。

▲ Gemini in Chrome

点击右上角的 Gemini 图标,我们可以与 Gemini 进行跨标签页的对话

Chrome 不再是一个被动打开网页的工具,Gemini 的引入,让它变成一个能主动帮我们干活的智能伙伴。Gemini 助理、AI 搜索模式、智能体、以及一系列新的安全和便捷功能都来了。

Chrome 在自己的 YouTube 频道和官方博客,发布多条内容,介绍这个「历史全新」的浏览器。我们第一时间研究了所有新功能,可以负责任地告诉你,这不只是加了个聊天机器人那么简单,我们的上网方式可能真的需要一点时间,来学习和适应这个更聪明的浏览器。

信息过载?AI 帮忙画重点,几十个网页秒变一份精华纪要

这可能是打工人和学生党最狂喜的功能。想象一个场景,老板让你半小时内调研完一个行业,或者你需要为论文快速消化十几篇文献。过去,我们只能一篇篇点开,匆忙地在多个标签页切换。

现在,打开这些网站标签页,然后呼叫 Gemini,它就能像一位专业的助理,跨越多个标签页进行阅读、对比和总结。

▲ Gemini in Chrome 能够获取多个标签页的上下文信息

我们可以直接问它:「这几款相机的优缺点分别是什么?」或者「帮我把这些资料整合成一份旅行计划」。它甚至还能找到 YouTube 视频里的关键信息,我们不需要额外的第三方插件,就能得到一样的 YouTube 视频总结。

从大海捞针到 AI 直接递上答案,这效率提升可不止一点半点。

动口不动手,你的浏览器助理未来什么都能干

如果说「总结资料」只是开胃菜,那接下来的「智能体能力」(Agentic Capabilities)就是 Google 为我们描绘的未来图景。

简单来说,和所有智能体一样,我们负责下命令,浏览器负责跑腿。也和所有关于智能体能力的演示一样,我们只能用智能体来预订餐厅,买生日礼物。

Google 提到在未来几个月,通过结合 Google 强大的应用生态,YouTube 视频、Gmail 邮箱、Calendar 日历、以及办公套件等,我们可以直接对 Chrome 说,「帮我订一份常吃的那家沙拉。」、「预约下周三下午的美发。」、「把这些东西加到我的购物车里。」

▲ 集成在 Chrome 里面的 Gemini,有能力为我们处理一些简单的重复性任务

Chrome 会在我们授权后,自动在网页上进行点击、填写、下单等一系列多步骤操作,而我们全程只需监督,随时可以叫停。

虽然听起来有点像 ChatGPT agent 之前演示的功能,但其实就是这样。我觉得智能体的能力,还没有被真正的挖掘出来,专门开发一个 AI 浏览器用来预订餐厅,听起来怎么都不划算。

Chrome 即将更新的智能体能力,我的期待是,我们生活中真正的琐事,可以从需要 30 分钟的处理,变成 3 次点击。

地址栏,现在是 AI 全能框

Chrome 那个我们每天都要用无数次的网页地址栏,现在也升级成为 Omnibox 全能框。

当我们访问一个网页时,地址栏会根据页面内容,智能地为你推荐一些我们可能想问的问题。

比如正在看一款床垫,它可能会提示你:「这个东西的保修政策是啥?」。

▲ AI 模式在地址栏中直接可用

此外,跟我们之前介绍的 AI Mode(AI 模式)有关,现在我们不需要去专门的 Google 搜索地址,直接在地址栏,就能开启 AI 模式。一些更复杂、更开放、需要深度研究的问题,AI Mode 都能做到。

比如「给我推荐几款适合小户型的复古风咖啡机,预算 1000 元以内」,AI 会直接在侧边栏生成一份详尽的报告,无需跳转。

AI 除了用来提升效率,也让 Chrome 更安全

聊了这么多 AI 的功能,安全也是 Chrome 非常在意的一个因素,Chrome 大概想说,不要觉得只有你 Safari 在保护隐私安全。

这次主要是利用 Gemini Nano 模型,能更主动地识别和拦截,那些诱导我们下载有害软件的诈骗网站。

以及对通知更加智能的管理,AI 会自动识别那些垃圾、诈骗类的网站通知,并帮你「一键退订」。Google 称仅在 Android 端,这项功能,每天就能为用户减少约 30 亿次骚扰。

密码的保护也得到了更新,当密码不幸泄露时,Chrome 未来将能像一个密码特工一样,在支持的网站上,直接帮我们一键完成密码修改。

▲ Chrome 可以通过一次点击,修复泄漏的密码

在 Chrome 中的 Gemini,此前是 Google Labs 的项目,仅针对 AI Pro 和 Ultra 用户。

现在 Chrome 的这些更新,支持在美国且将英语设置为首选语言的全部用户,支持 Mac 和 Windows 版本;而 Android 和 iOS 版本也将很快推出,里面部分功能在持续更新中。

🔗 官方使用指南帮助:
https://support.google.com/gemini/answer/16283624

我们之前也多次讨论过 AI 浏览器的形态,无论是 the browser company 曾经推出的 Arc,还是后面集成了更多新功能的 Dia,现在被卖给 Atlassian。

还有 Perplexity 推出的 Comet,最近应该正式向大部分用户开放了,不需要漫长的 waitlist 等候。

以及前段时间微软称 Edge 也正式升级为 AI 浏览器;和关于 OpenAI 的 AI 浏览器传闻。

和这次的 AI Chrome 类似,它们的模式甚至都可以被总结成一个侧边栏,和一个像 ChatGPT 首页的启动页面。

▲ 根据 statcounter 统计数据,Chrome 市场份额全球领先

但是,Chrome 和它们不一样的是,这是一个在全世界范围都遥遥领先的浏览器。今天的更新,可能标志着「AI 浏览器」这个概念,真的要从一些少数派的探索,走向更大众化的讨论。

呈现 AI 最好的形态不是浏览器,那 AI 浏览器最好的形态又该是什么样。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


击败 ChatGPT 登顶 App Store!Google 这套 AI 全家桶,个个都是王炸 | 附使用指南

还以为 ChatGPT 会一直稳坐第一?这周却来了个反转。

Google Gemini 凭借最近爆火的 Nano Banana 图像编辑,一举登顶 App Store 免费榜,把 ChatGPT 挤到第二。

▲ Gemini 位于 App Store 免费榜所有类别第一,图片来源:https://apps.apple.com/us/charts/iphone/top-free-apps/36;15/09/2025

这意味着,Google 终于迎来了属于自己的「爆款 AI 时刻」。

而且,Gemini 只是冰山一角。Google 手里还有一整套 AI 工具,从写作、画图,到学习笔记、视频生成,应有尽有。今天就带你开箱 Google 的「AI 全家桶」。

省流版:

  1. Gemini,定位和 ChatGPT 一样的通用助手:包含了 nano banana(近期热门生图模型)、Canvas 画布、Veo3 视频生成、Storybook 故事板、以及 Deep Research 等功能,目前提供 Gemini 2.5 Pro 和 Flash 两个模型。体验地址:gemini.google.com
  2. NotebookLM,能深入研究的知识库:最多可上传 300 个文件,能将文档总结为音频、视频、思维导图等六种类型,是学习和研究的最佳利器。体验地址:notebooklm.google
  3. Flow,高质量的视频生成:支持竖屏 9:16、1080p 高清,价格更低,免费用户每月送 100 积分。体验地址:flow.google
  4. AI Mode,搜索也有了推理和思考能力:在 Google 搜索输入框就能直接开启,获取比 AI Summary/Overview(总结)更严谨和翔实的结果;目前支持英文等五种语言(但目前不包含中文)。体验地址:google.com/ai
  5. Gemini CLI:一个万能的本地助手:不只是开发工具,还能下视频、转 GIF、压缩文件。体验地址:github.com/google-gemini/gemini-cli
  6. AI Studio 和 Labs Google:其他有意思的小工具,生成一段音乐,简单学习一门新的语言,体验最新、最全的 Google 大语言模型……体验地址:ai.devlabs.google

Gemini:不只会聊天,更是全能工作台

近期爆火的 nano banana,最主要的官方渠道除了网页版,就是 Gemini App。

▲ Gemini 首页,有常驻提醒推广 nano banana 图像编辑模型

但如果你只拿 Gemini 来 P 图,那就太浪费了。它和 ChatGPT 一样,补齐了跨对话的「记忆」功能,并能与 Google 生态无缝衔接。

▲ Gemini 的「记忆」功能

对我而言,这个关键更新,加上教育邮箱赠送的 Pro 会员,足以让我将大部分日常对话转移过来。

Google 最近更新了 Gemini 免费和付费用户具体的使用限制。免费用户使用 Gemini 2.5 Pro 和 Deep Research 的次数有限,但是 nano banana 的单价非常便宜,所以免费用户也有慷慨的 100 张生成机会。

Gemini 2.5 Pro 最大的优点是,每个回答都会有像 DeepSeek 一样清晰的推理过程,但是速度要快上不少。这在 ChatGPT 更新到 GPT-5 之后,采用全新的路由控制,自动选择模型,优势更为明显。

因为 ChatGPT 有时候判断不了,我到底希望他使用什么模型来回复;而我的表达,也不是每一次都能清晰地,让模型知道我的意图。

不过,更会聊天的代价是更不会干活,和 LMArena 显示的排行榜一样,文本能力第一,但是网页的开发能力不及 GPT 和 Claude。好在这些天,Google 也是狂给 Gemini 打补丁,在软件交互上,用户体验越来越好。

▲Gemini 和 ChatGPT 完成同一个开发任务,你喜欢哪个

例如,在网页开发方面,Gemini Canvas 现已支持直接点选应用中的某个元素,用自然语言即可进行修改。

Canvas 画布和 ChatGPT 的画布预览是一样的功能,都是非常直观地,把我们的创意,变成应用程序、游戏、信息图表等内容。

▲ Gemini 画布新增功能,选择并询问。现在只需点击元素并描述所需更改,即可直观地编辑您的网页应用的任何部分。图片来源:https://x.com/GeminiApp/status/1965475292526551105

其次,Gemini 终于支持上传音频文件。这意味着,会议录音、采访视频等包含丰富上下文的材料,可以直接交给 Gemini 处理,省去了手动整理和编写复杂提示词的麻烦。

▲ ChatGPT 一直回复无法使用工具

最新消息,根据 flowith 创始人 Derek Nee 和 Gemini 3 工程师团队的交流,他发 X 透露,Gemini 3.0 Flash 的能力将会超过 2.5 Pro。

和 ChatGPT 使用的条件类似,Gemini 对谷歌账号的归属地可能有额外的限制。

🔗 体验地址:gemini.google.com

NotebookLM:你的最佳个人知识库

收藏了一堆英文长文、书摘,结果总是「下次再看」?NotebookLM 就是专门拯救这些吃灰资料的。

你只要把几篇文章、报告甚至书摘丢进去,它就能:

  • 自动帮你提炼要点,生成一份条理清晰的学习笔记;
  • 如果你喜欢可视化,还能直接画成思维导图,让你一眼看懂文章框架;
  • 想进一步学习?它还能基于这些资料出小测验,逼你复习巩固。

举个例子,我之前用它来整理过论文,NotebookLM 最多支持上传 300 个文件,支持的文件类型也很丰富,PDF、txt、Markdown、和音视频文件,它都能识别。

▲ 我将 297 篇同一研究领域的论文上传,NotebookLM 能完全基于这些文件,生成多种形式的内容总结。

▲ 文字报告、播客预览、视频介绍、思维导图、闪卡和小测验六种形式

播客和文字报告,是 NotebookLM 里面最早提供的选项,现在它们也得到了优化。

文字报告可以选择,直接生成为博客、说明文档、指南等类型,甚至 NotebookLM 会根据知识库里面的资料,提供动态建议;例如,上传论文可能会建议创建白皮书,而新闻类文章可能会生成解释性内容;自定义的提示现在也被允许。

▲ NotebookLM 生成的博客文章

而音频播客现在更是支持 80 多种语言,播客类型也从概述到深入,进一步扩展到辩论和批判性思考等多种类型。

新增的视频、Quiz 测验和 Flashcard 闪卡,是我非常喜欢的功能,无论是帮助我消化这些知识,还是做进一步的内容传播,NotebookLM 都非常有用。

但论文的研究终究是比较小众的场景,我们只是借着论文来介绍 NotebookLM 的功能。对于学生和研究者来说,这绝对是 Google AI 里最值得安利的工具之一。

在更普遍的应用场景中,它能胜任任何类型的知识库构建。像是 NotebookLM 官方给出的使用案例,上传了多家公司一季度的财报,我们可以透过思维导图,一次性清晰的了解财报的具体内容。

还有 NotebookLM 与 OpenStax(免费教科书提供平台) 合作,将它们受欢迎的内容,转化成交互式笔记本,包括生物学、化学、心理学、以及管理学等主题笔记本。

在这个心理学知识库中,每一章节都配有小测验和记忆卡片,帮助我们巩固所学知识点。

▲ 语言是可以选择中文,知识库链接:https://notebooklm.google.com/notebook/90a2ee5f-cccb-4c28-a356-bb1682cc8aeb

小测验和闪卡的主题、难度都是可自定义的。而且,无论是闪卡还是测验,只需点击解释,就能深入探索当前的话题;NotebookLM 会生成详细的概述,帮助我们理解闪卡定义,或解释为什么答错某道题,并附有引用指向原始资料。

🔗 体验地址:notebooklm.google

Flow 电影级 AI 视频生成

AI 视频热度虽高,但能用它做什么?始终是许多人心中的疑问。我们介绍过多个 AI 视频生成模型,不少读者也曾留言:这种 AI 视频,究竟是给谁看的?

▲ 在 Gemini 里面,直接使用 Veo 3 视频生成,Veo 3 目前仅支持首帧,首尾帧需要 Veo 2。

Google 的更新或许给出了部分答案:支持竖屏(9:16)和 1080p 高清。这无疑是为抖音、YouTube Shorts、Reels 等短视频社交媒体平台量身定做。

▲ Veo 3 近期更新,Veo 3 Fast 从 0.4 美元每秒降价到 0.15 美元每秒,以及支持 9:16、1080p 等。图片来源:https://x.com/GoogleAIStudio/status/1965436154762920074

如今 AI 视频已成为一种新的内容消费品,与其被动观看,不如亲自上手一试。

▲ 提示词:Ultra-realistic cinematic video of Shanghai, famous landmark Tower. Shot in vertical 9:16 format, travel vlog style, smooth camera motion, dynamic lighting, vivid colors, highly detailed, immersive atmosphere, no text, no watermark.

除了 Sora、可灵、海螺这些比较热门的视频生成模型,Google 的 Veo 3 一直在大模型竞技场,文生视频类别下,名列前茅。

前些时间爆火的第一视角穿越、ASMR 切水果,金属、兔子蹦床的夜视监控等视频,都是使用 Veo 3 生成的。

▲ 提示词:50mm camera, close-up angle of a lemon made out of yellow-tinted glass being sliced horizontally on a wooden cutting board. The inside of the fruit is glass as well with a little bit of melting glitter. The entire scene is soft lit from the above.

不过,提示词的优劣,是决定视频质量的关键瓶颈。例如上面这个视频,我们就是直接借鉴了 Google 的官方案例。

他们解释,好的提示词,包括三个部分,首先是「50mm 相机、特写镜头」指定了相机;接着中间一大段用来提示对象和具体的视频内容;最后一句话是进一步明确灯光和纹理。

Flow 对网络要求比较严格,一般在 Gemini 网页或者 App 内使用同样足够。

🔗 体验地址:flow.google

AI Mode 支持除英文外更多语言

搜索是最大的流量入口,因此 AI 浏览器成了大模型厂商的必争之地,尽管这条路并不好走。

Arc 项目宣布停止后,重启的 Dia 浏览器也在前几天,被 Atlassian 以 6.1 亿美元收购。路不好走的原因倒不是因为没有利益,而是太多巨头想要吞下这块香饽饽了。

微软在上个月宣布自己的 Edge 升级为 AI 浏览器,Copilot 无缝接入到浏览器的每个角落,预订餐厅和机票、跨越标签页的整理总结等等。OpenAI 在之前推出 ChatGPT agent 时,也被爆料要做自己的 AI 浏览器。

Google 当然也不会停下脚步,和我们平时用 Google 搜索时看到的 AI Overview 不一样,AI Mode 更像是一份深度研究报告,它会利用 Gemini 2.5 的高级推理和多模态能力,来处理我们的查询输入。

例如当我问他 iPhone Air 的 esim 卡到底是怎么回事时,它会自动根据网页内容进行整理,给出更准确的答案。

▲ 点击上方 All,则可以切换回普通的 Google 搜索

不过 AI Mode 有一个缺点,是目前它还不支持中文。但前几天,Google 已经宣布支持日语、韩语、以及葡萄牙语等五种语言。他们提到构建一个全球化的 AI 搜索不仅仅是翻译,所支持的语言,应该具有本地相关性和实用性。

🔗 体验地址:google.com/ai

Gemini CLI 下载视频,转文件格式,统统交给它

Claude Code 断供完全没关系,Gemini CLI 是真的好用。

之前我们说用这种终端工具来修改文件名,其实是最「弱」的用法了。我最近 X 视频、YouTube 等视频下载;视频转 GIF 以及各种格式转换;图片压缩、视频压缩,全部交给 Gemini CLI。

Gemini CLI 的安装流程相当清晰,即便遇到环境配置问题,如今的 AI 也能提供可靠的解决方案。

前期的麻烦点主要集中在安装 Node.js 上,对 Windows 用户来说,终端使用没有 macOS 和 Linux 友好,所以是需要一点耐心的。

Node.js 安装完成之后,按照 GitHub 上指引,运行 npm/npx 命令就可以安装 Gemini CLI 了。

在终端里面输入 gemini,会提示我们进行验证,一般登录 Google 验证就可以,不需要去额外创建 Gemini API 之类的操作。免费用户每分钟有 60 次请求,每天 1000 次请求,应付日常的简单工作流是足够的。

终端里面有一些非常基础的命令,因为我们打开终端的时候,默认的文件夹是可能是整个电脑的文件,如果直接输入 gemini,它检索文件会比较麻烦。

正确的操作是,一些基础命令输入 ls:会列出当前目录下的所有文件和文件夹;cd xxx:进入某个文件夹;mkdir xxx:创建一个文件夹。

▲ 例如第一步我们打开终端,输入 ls,可以看到当前目录下所有的文件和文件夹;接着我们选择一个文件用来处理,此次需要 Gemini 的项目文件夹。输入 cd Downloads,可以看到 % 前面有当前目录 Downloads 的名字。接下来,我们创建一个文件夹,mkdir testing,然后再进入这个目录,cd testing。当然也可以直接选择一个文件夹,鼠标右键,在终端中打开。输入 gemini,它就正式接管了我们的终端,我们接下来就能用自然语言,处理许多复杂的任务了。

▲ 拿下载一个 X 的视频举例,首先它会搜索,找到一个 yt-dlp 的工具,可以用来下载视频;接着,它会自动检查我的电脑,是否有安装这个工具。检测到有安装之后,视频就开始下载了。

这是调用了 yt-dlp 工具,而在终端环境里面,还有非常多高效的工具,例如 FFmpeg,它是一款处理多媒体内容的强大工具。

▲ 输入指令后,Gemini CLI 会直接说它需要 yt-dlp 和 ffmpeg 这两个工具;然后会自动调整分辨率和帧率,以符合我提出的最终文件大小,最后它会删除过程中的临时文件。

我们继续用 X 视频举例子,这次直接要求他把这个链接的视频下载为一个 GIF 文件,并且确保 GIF 文件的大小在 5-10 MB 之间。

除了从网络上下载文件,Gemini-CLI 也可以直接处理本地文件,例如我有一张图片的大小,不符合平台上传规范,我告诉它文件名,然后要求它压缩,过程中完全不需要去找任何的在线工具。

▲ 可以用模糊语言指定图片位置,顺利定位到图片,它会使用 ffmpeg 工具来进行压缩。不过最后它把我的原文件删掉了,当我告诉他要求找回时,它会修改自己的 gemini.md 配置文件——这相当于它的「记忆」,它会记住这次教训,确保未来不再犯同样错误。

命令行工具的种类丰富,几乎大部分的文件都能处理,甚至有时候遇到一些压缩包不能解压,直接让 Gemini CLI 来处理,而不需要额外去下载对应的解压工具。

再结合 MCP(大模型上下文协议,连接不同数据的万能接口),Gemini CLI 能做的远远不止是编程开发。

🔗 体验地址:https://github.com/google-gemini/gemini-cli

AI Studio 和 Labs Google:谷歌前沿 AI 试验场

Google Labs 汇集了许多尚未正式发布的 AI 黑科技产品,像 AI Mode、NotebookLM 目前都还是实验室产品,不过他们名声比较大。我们也选择了几个有意思的小项目,虽然背后的模型都是同一个 Gemin 2.5 Pro/Flash,但是可以看看模型之上,不同的软件形态。

首先就是 Whisk,这个主打不需要提示词,上传照片尽情玩耍的图片生成工具,现在还新增了 animate 动画的功能,直接将生成的图片转成一段视频。

还有学习一门语言的 Little Language Lessons,它特别的地方,是让我们快速在 Gemini 构建的一系列小实验里面,学习一门新的语言,直接在现实场景中应用,还能学习各种俚语表达。

我拿粤语试了一下,至少不是多邻国里面,来来回回的肠粉和豉汁排骨了。

Google 实验室还有非常多的项目,体验地址:labs.google

讲了通用大模型 Gemini 2.5 Pro、图像编辑 nano banana、视频生成 Veo 3,怎么可以没有 Imagen 4。

Imagen 4 官方渠道目前是只能透过 Gemini API 和 AI Studio 两种方式体验,即便 Google Labs 里面有专门生图的工具,ImageFX,但是使用的模型依旧是 Imagen 3。

AI Studio 能做的,就是体验到 Google 最新最全的各种模型。而且,在 AI Studio 里面的对话,提供了「分支」功能,我们可以保留现有对话的前提下,开启另一个新的话题。

▲ 地址:ai.studio / ai.dev

前段时间,马斯克还在 X 上和奥特曼互撕,直接开骂,Apple 和奥特曼有私下交易,不然他的 Grok 怎么登顶不了排行榜第一,凭什么一直都是 ChatGPT。

这一番开箱下来,似乎能看到一点 Gemini「凭什么」的端倪。Google AI 几乎是用一套完整的工作流,无缝融入我们的学习、工作和创作之中。从整理资料到激发创意,再到解放双手,这套全家桶的核心,是希望实实在在地提升每个人的生产力。

你最常用或最想尝试的是哪一个?有什么问题可以在下面留言。

视频请点击链接,前往微信播放预览 https://mp.weixin.qq.com/s/gdSkrm95Mq1RORe-sIoK4A

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


全球AI百大应用榜发布!DeepSeek被反超,ChatGPT 王座快不保,中国产品占半壁江山

今天,硅谷顶级风投 a16z 发布了新一期的 AI 应用百大榜单。半年过去,又有哪些新的 AI 产品涌现,ChatGPT 的老大地位是否开始动摇,APPSO 马上带你解读这份榜单。

▲ 网页端和移动端产品前 50 名

我们简单总结了此次榜单的几点趋势。

ChatGPT 依旧稳坐第一,但这个宝座越来越不安全了。Google 的 Gemini 用户数已经追到它的一半,它俩现在是两大顶级的新一代人工智能平台。

马斯克的 Grok 靠着一款二次元虚拟伴侣 Ani,硬是从 0 干到 2000 万月活。

DeepSeek 在年初爆火后月活跃用户大幅下降,移动端下降了 22%,网页端更是达到了 40%。

国产应用表现继续亮眼,移动端 Top 50 的应用中,估计有 22 款是由中国团队开发的。Kimi、豆包、夸克直接闯进了全球前 20。

本次新增的 11 个网页 AI 产品,包含 Qwen、Manus、Lovable 等今年上半年的热门工具

纵观这份报告,可以看到 AI 消费应用的生态已经进入细分和稳定阶段,创新开始变得越来越困难。

ChatGPT 还在领跑,但对手来了

在「通用助手」这条赛道上,ChatGPT 依旧是无可争议的老大。无论是在网页端还是移动端,它都稳稳占据第一的位置。

但新对手已经在逼近。Google 的 Gemini 是最典型的追赶者,在网页端访问量约为 ChatGPT 的 12%,看起来差距还不小;可在移动端,Gemini 的月活用户已经达到 ChatGPT 的一半,而且 9 成用户都来自 Android 阵营。

▲ 谷歌多款产品 Gemini、NotebookLM、Google AI Studio、Google Labs 进入百大应用榜

马斯克看起来真的很惨,这边是同一家公司的 Gemini 和 Android 深度绑定,那边又要控诉 Apple 和 OpenAI 有金钱交易。

所以,马斯克的 Grok 不得不走一条「另辟蹊径」的路线。Grok 去年底还没有移动端 App,现在已经冲到 2000 万月活,排在移动榜单第 23。

他的秘诀很简单,就是抓住一些猎奇的内容。在 7 月先发布了 Grok 4 模型后,紧接着在应用内推出「AI 虚拟伴侣」,彻底点燃话题。尤其是二次元角色 Ani(甚至包含 NSFW 选项),让 Grok 赢得了广泛的关注。

▲ Grok App 日活变化,在推出 Grok 伙伴之后迅速上升

Meta AI 只看到他挖人的新闻了,产品好像真的有些尴尬。它在 5 月上线,排在网页榜单第 46,移动端甚至没进前 50。更糟的是,Meta 还因为「聊天内容被推上公开动态」的隐私事故,用户信任直接受挫,远不如 Grok 来势汹汹。

▲ DeepSeek 年初猛增之后,网页月访问量一直在下降。

▲ 移动端月访问量下降情况

在 ChatGPT 和 Gemini 之后, Deepseek 、Grok、Perplexity 和 Claude 占据了网络流量的后几位。

Perplexity 目前还是保持着强劲的增长势头,而 Claude 和 DeepSeek 在移动端也开始趋于平缓,DeepSeek 在 Web 端的流量更是从高峰下跌超过 40%。

不过 DeepSeek 目前仍是国产最强大模型,相信将来 DeepSeek 发布 R2 推理模型和 V4 的到来,DeepSeek 能再掀起一次流量狂飙。

Kimi、豆包、夸克闯进全球前 20

除了 DeepSeek 在通用大语言模型助手上的排名,中国公司的更多产品在这次榜单里亮相。

在前 20 名里,阿里的「夸克」、字节的「豆包」、月之暗面的「Kimi」同时上榜。其中,Kimi 作为新兴创业团队的产品,能和 ChatGPT、Gemini 这些巨头同台竞争,已经说明了国内用户对中文大模型的强烈需求。

移动端更明显,50 个上榜应用里,有 22 个来自中国公司,其中美图就包揽了 5 个修图/视频类产品,字节系也贡献了豆包、Cici(国际版豆包)、Gauth(教育)、Hypic(国际版醒图)等。

更有意思的是,国产的视频生成模型一度领先全球。比如 Kling、海螺等产品,往往比海外模型更快落地、更贴近流行趋势。直到 Google 推出 Veo 3,才算打破了这一领先。

Vibe Coding,人人都能点点鼠标写代码

除了助手类应用,还有一种不可忽视的趋势就是,Vibe Coding(氛围式编程)。

这类产品的逻辑很简单:不需要写复杂代码,点点鼠标就能生成网站甚至应用。Lovable、Replit 今年双双进入榜单,说明这种「低门槛编程」越来越受欢迎。

▲ Lovable 和 replit 月访问数据趋势,.app 结尾的网页是该产品的成果预览网页

更关键的是,它们的用户不仅没流失,反而在持续增加消费。数据显示,美国用户在这类平台的付费留存超过 100%——也就是说,用户不仅没走,还越来越舍得花钱。

对普通用户来说,我们每个人都能几分钟搭出一个网站,无论是从工具到个人作品集,还是一个小型商业应用,现在都已经开始成为现实。

AI 爆款的秘密:不求全能,但求刚需

从 a16z 开始发榜单到现在已经更新了 5 次,其中有 14 个应用是雷打不动的「钉子户」,始终霸占着前 50 的位置。

它们分别是:ChatGPT、Character.AI、Civitai、Leonardo AI、ElevenLabs、Gamma、Hugging Face、Veed、Midjourney、Perplexity、Photoroom、Poe、QuillBot 和 Cutout Pro。

你看,它们覆盖的场景无非就那几个:对话、陪伴、修图、创作。全都是高频刚需。

最特别的要数 Midjourney,一个没拿过一分钱融资的「异类」,全靠口碑和社区文化,硬是走到了今天,成为 AI 绘画的代名词。(不过最近有传闻说 Meta 想和它合作,看来好东西还是藏不住的。)

这说明,想做成一个 AI 爆款,不一定非得是无所不能的「全能王」,只要能在一个细分领域,成为用户离不开的那个「唯一」,同样能活得很好。

而且,这 14 家公司里,只有 5 家有自己的底层大模型,剩下的全都是靠调用 API 或者开源模型做的应用。

这或许在告诉我们一个新规律:在 AI 时代,顶尖的产品体验,和顶尖的底层技术,一样重要。

所以,你觉得下一个爆红的 AI 应用,会是一个更聪明的万能助手,还是一个更懂你的赛博伴侣呢?你最常用的 AI 产品又有哪些,评论区聊聊!

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


神秘「香蕉」AI 正式上线!Google P 图新王深夜炸场|附体验方式

还记得之前大家热议的神秘 AI 图片编辑模型「nano-banana」吗?

前几天,我们在 LMArena 大语言模型竞技场里面用它进行了多轮测试,结果表现都非常出色。

现在,Google 终于揭开了它的神秘面纱。

▲ Google AI Studio 负责人 Logan Kilpatrick 发推文宣布正式推出 Gemini 2.5 Flash Image 模型

Google 正式推出了其最先进的图像生成与编辑模型——Gemini 2.5 Flash Image。

▲ 在多个榜单上都是第一名,尤其是 LMArena 榜单几乎是遥遥领先

在更新的技术博客里面,Google 提到此前的 Gemini 2.0 Flash 已经在图像生成方面,以其低延迟和高性价比受到了开发者的喜爱,但用户们也一直期待更高质量的图像和更强大的创作控制功能

Gemini 2.5 Flash Image 就是带着一系列的重磅更新,来强势回应这些期待。

和我们之前的体验效果一样,Gemini 2.5 Flash Image 的主要特点包括下面几点

  1. 充分保持角色的一致性
  2. 基于提示的图片编辑
  3. 利用 Gemini 的现实世界知识
  4. 多幅图像融合

一张图讲一个故事:角色、场景随心换

以往的 AI 绘图工具,最大的痛点之一就是难以保持角色或物体的一致性。我们都曾经经历过,想让同一个角色出现在不同场景中,结果却常常画风突变,每一次生成都像换了个人。

Gemini 2.5 Flash Image 彻底解决了这个问题。

▲ 图片来源 X@geminiap

它可以轻松地将同一个角色置于不同的环境中,或者从多个角度展示同一款产品,同时完美地保持其核心主体不变。Google 提到这对于需要讲述连续故事、生成品牌系列资产或制作产品目录的场景来说,无疑是一项革命性的功能。

为了展示这项能力,Google AI Studio 中还提供了一个模板应用,让开发者可以快速上手,甚至在其基础上进行二次开发。

▲ 体验地址:https://aistudio.google.com/apps/bundled/past_forward

在这个体验项目里,我们不需要输入任何的提示词,只用上传一张人像照片,它就会调用这个最新的图像模型,为我们生成从 1976 年 到 1990 年等各个年份的照片。

马斯克看到自己这么帅心里一定在想,我的 Grok 也可以。

一句话修图,用自然语言精准编辑

除了这种保持好高度一致的角色生成,精准的编辑也是一大亮点。Gemini 2.5 Flash Image 允许我们通过简单的自然语言指令,对图片进行精准的局部修改 。

像是模糊图片背景、消除 T 恤上的污渍、从合照中移除某个人、改变人物的姿势、为黑白照片上色……

这一切,都不再需要复杂繁琐的专业软件操作,我们只需要像聊天一样,用一句话告诉 AI 想做什么即可。

这跟我们之前在 LMArena 中的体验是一样的,像是我们也转换过照片的风格,从黑白到彩色;以及对照片进行细微的调整等。

▲ 图片来源 X@geminiapp

Google 同样设计了一个简单的应用,来方便我们更好的体验这种基于提示词的图像编辑,但是完全媲美 PS 软件的效果。

▲ 体验地址:https://aistudio.google.com/apps/bundled/pixshop

不止会画,更「懂」世界

过去的图像模型虽然能创造出精美的图片,但往往缺乏对现实世界的深层语义理解 。

Gemini 2.5 Flash Image 借助 Gemini 强大的世界知识库,让图像生成变得更加「智能」。

这意味着,模型不仅能看懂我们潦草手绘的图表,还能回答与现实世界相关的问题,并一步到位地执行复杂的编辑指令。

▲ 体验地址:https://aistudio.google.com/apps/bundled/codrawing

听起来很有多模态推理的感觉,Google 在 AI Studio 中展示了一个互动教育应用,将一块简单的画布变成了可以答疑解惑的智能导师,我由衷的感叹这个模型是真的厉害。

图像融合:轻松实现「无缝」拼贴

新模型还带来了一项酷炫的功能——多图像融合。我们可以将一张图片中的物体「放」进另一张图片的场景里,或者用一张图的风格去渲染另一间屋子,整个过程只需一条提示指令就能完成。

同样是 Google AI Studio 里面的模板体验应用,我们只需要把产品拖拽到新场景中,就可快速生成一张毫无违和感的、真实照片般的融合图像。

▲ 体验地址:https://aistudio.google.com/apps/bundled/home_canvas

在这个模板应用里面,我们甚至不需要输入任何提示词,可以直接拖动某个物体,到场景图片上的具体位置,然后它会自动生成融合的图片。

如何上手体验?

除了我们在前面提到的那些 Google AI Studio 里面的模板应用。

目前,Gemini 2.5 Flash Image 已经可以通过 Gemini APP、Gemini API、Google AI Studio 和 Vertex AI 进行访问。

关于调用 API,具体的定价是每百万输出 token 30 美元,官方介绍,生成一张图片大约消耗 1290 个输出 token,也就是说,每张图片的成本约为 0.039 美元,换算下来人民币不到 3 毛钱

值得一提的是,所有通过 Gemini 2.5 Flash Image 创建或编辑的图片,都会包含 SynthID 隐形数字水印,以便识别其为 AI 生成或编辑的内容。

这跟前些天 Google 发布 Pixel 10 系列手机时,讲到 AI 图片编辑 Ask Photo 工具时,使用的 C2PA(内容来源和真实性联盟) 内容凭证是一样的。

最后,Google 还提到正在努力提升模型在长文本渲染、角色一致性稳定度和图像细节真实性等方面的表现。

总而言之,Gemini 2.5 Flash Image 的发布,让 AI 图像工具从一个单纯的绘画玩具,向一个真正实用的创意与生产力工具迈出了一大步。

它不仅解决了我们过去使用 AI 绘图时的诸多痛点,还带来了更多有趣、实用的新玩法。

之前 4o 生图能力出来,看到很多 App 开始主打用一张图每天生成一首诗,还有像是拿到了今年 Apple 设计大奖的 CapWords,拍一张生活里的照片,来实景学习一门新的语言……

我现在已经迫不及待想看到基于 Gemini 2.5 Flash Image 模型,又会有哪些新应用诞生了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


糟了糟了!我成 agent 了!

作为一个练习时长六年半的 Pixel 手机用户,我皱着眉头看完了昨天凌晨的 Made by Google 发布会。

#DeadInside

作为产品线的第十代产品,Pixel 10 并没有像曾经的 iPhone X 那样,为我们带来一次从产品形态到使用形式的变革,反而在这个连 iPhone 都准备大改设计的时候,玩起了保守主义。

单纯从硬件方面讲,今年的四款 Pixel 新机—— 10、10 Pro、Pro XL、Pro Fold 除了台积电处理器之外没有任何亮点,影像能力更是有进有退。

曾经,我们有一个更贴切的名称来描述这样的升级:Pixel 9s ——

在产品力本身已经普普的前提下,本次 Made by Google 发布会本身则更是一言难尽。

从正常的角度思考,「产品发布会」的目的应该是清晰的展示和介绍产品,尽最大程度体现出产品的优势,然后告诉大家价格——

但谷歌似乎对发布会有不一样的想法。

今年的 Made by Google 与其说是发布会,不如说是一次营业感极强的谷歌年会,哪怕是肥伦(Jimmy Fallon)负责串场也没有办法把各种零碎的场景拼在一起,回答那个最重要的问题:

今年的 Pixel,到底升级了啥?

真正的 AI 硬件,只需要最朴素的形态

不得不承认:谷歌手握着 Gemini,以及 Veo 3、Flow、Genie 3 等等工具,无疑是现在地表功能最强大的 AI 模型之一,甚至不需要之一。

Genie 3 能够以 720P 24 帧实时生成「可交互的模拟环境」,而非视频|Youtube @Fireship

而谷歌自然也清楚艾伦·凯那句「对软件足够认真的人,应该制造自己的硬件」的含金量,十年前放弃厂商合作代工的 Nexus 系列手机、转为开发流程彻底内部化的 Pixel 就可见一斑。

然而问题是,随着时间的推进,这个「软件」的定义是会变的:

  • 2016 年的初代 Pixel,代表一种对于 Android 系统标准化硬件
  • 2017 年的 Pixel 2,代表的是一种对于计算摄影(computational photography)的标准化硬件
  • 2021 年的 Pixel 6,又变回了对于Android 12 主导的 Material You 设计的标准化硬件

至于今年的 Pixel 10,在复盘过整场发布会之后,爱范儿编辑部觉得,谷歌的意图已经昭然若揭:

Pixel 10 系列是一套完全为 Gemini 打造的 AI 硬件,无论 Rabbit R1、Humane AI Pin,还是 OpenAI 拉着 Jony Ive 一起搞的那个 AI 配饰,跟 Pixel 10 一比都得说自己不够纯粹。

如果用艾伦·凯的公式来描述,谷歌其实就是从「对 Android 系统足够认真」逐渐转变成了「对 AI 足够认真」—— Pixel 手机作为硬件形态,反而是不需要什么变化的。

图|PhoneArena

换句话说,今年的 Pixel 10 系列无论对于 Android 16 还是谷歌的计算摄影,其实都不是那么重要了。

恰恰相反,Pixel 10 是 Gemini 在现实世界的延伸,一个 799 美元的 AI 入口——只不过顺便还能接打电话或者拍拍照片而已。

但这不是我们想要的 AI 硬件

当然,谷歌这样将 Pixel 打造成专属于 Gemini 的硬件入口,这个行为本身是无可厚非的,毕竟手机的硬件形态再挤牙膏,也比 Rabbit R1 和 Humane AI Pin 那种故意区隔化的外观要实用许多。

图|CNET

然而现阶段的 Pixel 哪怕可以算作 AI 硬件,也依然没有解决一个非常重要的问题:

它的工作逻辑和我们预想的 AI 硬件不一样。

无论是科幻作品还是概念描绘中,我们大多都会为 AI 赋予一个拥有承载功能的具像化形态,无论是液态金属做的 T-1000 型终结者,还是 HAL 9000 与 MOSS 的红眼睛:

图|流浪地球 Wiki

既然我们能够接受机箱里面装着的 MOSS ,那么 Pixel 手机里面装着的 Gemini 也无可厚非,但问题是,用户使用 Gemini 的方式,与想象中刘培强使用 MOSS 的方式可谓大相径庭。

纵观本场发布会,谷歌主要展示的两项新 AI 功能 Camera Coach 和 Magic Cue,以及相册中的 Gemini 修图,全部都是分散在各项系统功能内部、甚至只有使用过程中才会弹出的

这根本不符合过去几十年里人们对于 AI 的想象——

我不需要 Magic Cue 在我打电话之后才在屏幕上显示对话的相关信息,我想要 AI 自动核对我的行程信息和订票邮件,发现不对之后智能的给航司打退票电话。

我也不需要谷歌相册必须要我点击编辑按钮之后才会弹出 Gemini 对话框,我需要直接唤醒 Gemini:帮我把我刚才拍的两百张酒吧照片里面模糊的删掉,P 一下亮度和颜色,然后选出 9 张不一样的鸡尾酒发朋友圈

在过去十多年的科幻作品与 AI 设想中,AI 的运行逻辑应该是由人类用户下达指令、AI 自动理解指令并主动结合周围的一切资源开始自动执行任务,而不是我用轮椅把 AI 送到桌子前面、给它摆上笔墨纸砚,然后它开始作画。

图|36氪

也就是说,现在 Pixel 的 AI 功能全都散落在系统的各个角落,你必须先开始一项任务,才能得到 AI 相应的帮助——这其中较包括很多原本可以很轻松的被 AI 串联起来、代理我们动手的功能,比如把照片发到某个社交软件。

七年前的 Bixiby 都能用主动适配实现类似的应用功能调用,软硬结合更强的 Pixel 却不行|YouTube @爱否科技

更加令人难绷的则是相机中的构图辅助 Camera Coach ——在刚刚看到演示的时候,我们还以为它可以通过系统的底层接口,实时读取画面内容并生成构图建议。

然而现实却是,你必须手动打开功能,Gemini 才会悄悄拍一张照片、以此为依据推荐不同的构图方式——视角不符的时候甚至会直接调用 AI 帮你粗略的画出来——然后你再根据 AI 的指导一点点调整位置,直到你按下快门:

图|YouTube @9to5Google

且不说特意抬手点一下这种非常打断心流的操作究竟是怎么被想出来的,整个 Camera Coach 功能都像是谷歌为了想办法整合 Gemini 部门和 Pixel 部门的功能 KPI 而硬缝出来的东西。

构图辅助的本意应该是帮助你拍照,但是经过这样一番操作,哪怕有 Tensor G5 的算力加持端侧小模型,目前看到的推理速度和建议结果都不那么尽如人意。

有等待 AI 操作的时间,效率高的朋友早就已经换过好几套姿势,前后左右上下摇摄拍出一连串照片了,还能更好的发挥出 Tensor G5 升级后的 ISP 性能。

这种反客为主的操作方式,和 Android 16 中其他必须要你先操作一点功能、然后才会介入的 Gemini AI 功能一样,完全颠覆了我们曾经对于 AI 的期待——

我怎么变成给 Gemini 搬运资料、提供信息的 agent 了?

虽然很讽刺,但使用 Gemini 生成

换个角度想想,Pixel 10 不像是一个给人用的 AI 手机,反而更像是给 Gemini 用的 AI 手机,所有新功能的使用方式都是由人给 Gemini 提供信息,然后再由 AI 出手整合。

这种散落在功能过程里面的 AI,虽然客观上能够防止 AI 过度介入,但在用户体验上就是会让我们觉得被 AI 反客为主了。Gemini 像是那个陪小孩子堆沙堡的家长,等小孩把沙子拢起来,发出请求之后,才开始在上面塑出城堡的轮廓。

此外,还有一点不得不警惕的是,Pixel 10 很容易变成一个给其他手机厂商开的坏头——一个只靠 AI 有进步就可以放任硬件基础不管的坏头。

图|Android Central

而如果谷歌在未来继续用相同的套路拉扯下去的话,会产生一个非常糟糕的结果:Pixel 用户想要的 Pixel 消失了,AI 用户想要的真正 AI 手机又根本不是这样的

这种形式的未来产品,恐怕是谷歌和消费者都不想见到的。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


白嫖Gemini_API搭建个人AI助理

白嫖Gemini_API搭建个人AI助理

发表于|更新于|实用教程
|字数总计:443|阅读时长:1分钟|阅读量:

说明

本次搭建过程分为两步,第一步获取Gemini_API_Key,第二步搭建适用Key的程序,不考虑Key泄露第二步完全可以省略。
示例: https://chat.xml.wiki 访问码: xml.wiki(输入访问码即可直接试用)

Gemini_API_Key

ChatGPT-Next-Web

有许多程序可以使用Gemini_API_Key,在此只介绍ChatGPT-Next-Web的搭建。事实上你也可以直接使用别人搭建好的,在不输入访问码时将自己的Key填入设置即可。ChatGPT-Next-Web可以使用Vercel、Docker和CloudflarePages三种不同的方式搭建,见官方教程,本节复述CloudflarePages搭建教程。ChatGPT-Next-Web也提供了桌面版本,下载点击安装即可使用。

  • 打开https://dash.cloudflare.com,点击左侧Workers和Pages下的概述
  • 点击创建应用程序后点击Pages连接到Git
  • 链接你的Github账号,选择你Fork的项目后开始设置
  • 项目名称和分支一般默认即可,其他未提及项默认即可
  • 框架预设选择Next.js,构建命令填写npx @cloudflare/next-on-pages@1.5.0
  • 点开环境变量(高级),挨个复制以下内容
    1
    2
    3
    4
    5
    6
    7
    CODE = xml.wiki    #访问码,即登录使用的密码
    CUSTOM_MODELS = -all,+gemini-pro #选择使用的模型
    GOOGLE_API_KEY = ****************** #Gemini_API_Key
    NEXT_TELEMETRY_DISABLE = 1
    NODE_VERSION = 20.1
    PHP_VERSION = 7.4
    YARN_VERSION = 1.22.19
  • 点击保存并部署后立即取消部署
  • 来到你部署的这个项目的设置->函数->兼容性标志
  • 分别在配置生产兼容性标志配置预览兼容性标志两项中填写nodejs_compat
  • 点击部署选择重新部署即可,等待部署完成即可访问
文章作者: wayen
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Wayen

评论
数据库加载中

❌