Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

如何让 Kimi 的新 Agent 给我做国庆攻略,跟着 AI 旅游会踩雷吗?

By: 张子豪
3 October 2025 at 20:22

国庆长假,AI 大模型献礼的方式是一波接一波的更新。

OpenAI 突然发布 Sora2,DeepSeek 更新了 V3.2,智谱更新了 GLM-4.6,Kimi 则是更新了 App,然后默默在自己的版本记录里面,写下了这句话。

Kimi 当然也有「献礼」,上周四,他们开启了Agent 模式的测试,推出了一项名为「OK Computer」的智能体。

和之前我们分享过的深度研究不同,OK Computer 能做的不止是一份可视化报告,而是直接给了我们一台电脑。我们用电脑能完成的事情,OK Computer 智能体都可以做到。

但能做,和做得好,还是有很大的区别。和之前一样,我们用实测带你来看看,Kimi 全新的 OK Computer 到底在 Agent 品类里面,表现如何。

AI 帮你策划一份国庆游玩攻略

首先是看看它的网站部署能力,速度比深度研究快上不少,但这个效果,我觉得还是比较「大众化 Agent」的水平,尤其是,部分页面的背景颜色,依然渐变紫。

▲ 提示词:我想做一个多页面的国庆旅游网站。要求: 1. 首页介绍「国庆去哪里玩」,推荐 3 个适合 3-5 天出行的国内目的地,内容要有趣味性。 2. 第二页是行程规划:每天安排吃、玩、住,输出表格。 3. 第三页是预算计算:帮我把费用拆解成交通、住宿、餐饮、门票四类,给一个大概价格范围,并能让我修改人数后自动更新预算。 4. 风格要 mobile first,适合手机浏览,页面清爽,最好有 emoji 装饰。
https://dpcbcrcmrjbym.ok.kimi.link/

内容上,布局和图片的选择很合理;但是推荐的地点,北京、杭州,而且还是西湖,国庆节去西湖,应该只能看到人吧,所以这个「国庆旅游网站」的开发,我认为是不能算出色。

而如果是让 OK Computer 直接帮我生成一份旅游路线,告诉他要扮演一个顶级的旅行定制师,设计两条彻底避开国庆黄金周的旅游路线。OK Computer 这次交付的成果,看起来很不错。

▲提示词:马上就是国庆黄金周了,我和 3 个朋友(共 4 人)想来一次为期 7 天的自驾游,我们的核心要求是「人少、景美、有深度」,彻底告别排队和人山人海。请你扮演一位顶级的旅行定制师,为我们设计两条风格迥异的「反向旅游」路线,并为每一条路线制作一份精美的、详细的幻灯片,方便我们内部投票决定。
https://3hhjy4acccol4.ok.kimi.link/

审美相当在线,这个字体、背景图片,颜色,都选的非常好,奈何我还是觉得内容稍显空洞,真正能帮到我旅行的内容,不算多。

大多数时候,我可能只是知道了有这些地方,但是我不知道我为什么要去,以及怎么去。而且,总是对这些内容,有一些不信任感,可能把一个 AI 推荐的景点和一张小红书滤镜的景点,同时摆在我眼前,我还是会选择小红书用户发布的帖子。

OK Computer 完成这两个项目都非常快,我们也用 Kimi 的深度研究尝试了一波,结果是,它花了快有一个小时的时间,最后生产了一份超过 50 页的预览报告。

▲ 受限于篇幅限制,全部内容可访问链接。https://www.kimi.com/preview/19984f16-9a42-89a6-8000-05d52a6374b9

由于深度研究和 OK Computer 不同,深度研究只有一个预览报告,且不能对报告再进行修改。

最近千问也更新了一大波新的模型,在他们的官方博客,我看到一个「旅行规划师」的智能助手,同样的需求丢给它,结果会比 Kimi 的 OK Computer 要更好吗?

▲10 页的 PDF,把时间段、活动类型、可能要消耗的油费都清楚地列举出来。https://chat.qwen.ai/s/15769740-974a-4fbb-b0bf-dd835ea999ec

答案是真的更好。Qwen 这个旅行规划师,完全利用了阿里的庞大生态系统,它不是简单的给几个景点,然后连成一条路线,而是会实际地调用高德地图,用明确的经纬度来确定合适的行程。这一点很像前段时间的飞猪 AI 旅行规划,毕竟也是一家公司。

其他 agent 产品的效果,和 Kimi 的 OK Computer 其实差不太多,ChatGPT agent 生成了一个 10 页的 PPT,一如从前的精简;而 Manus 也是一样,好看,但实用价值不多。

▲ ChatGPT agent 生成的内容,基于同样的提示词

不过 Kimi 的好处是,能产出类似结果的同时,不需要额外的网络设置。

此外,他们最近上线了付费会员方案,还可以将之前的打赏金额,全部抵扣为会员费,免费用户也能获得有限次数的 OK Computer 试用机会。

iPhone 和小米的 17 Pro Max 对比

同样基于 Kimi K2 的 Agentic 能力,OK Computer 会自动的浏览网页,进行相关内容的搜索,生成图片,来完成网页的设计。

这次的信息更加全面和准确,OK Computer 在搜索网页内容的时候,我看到基本上都是采用 the Verge 等国际科技媒体的信源,而在使用 Kimi 深度研究的过程中,使用的信息源大部分是简体中文的网页。

▲ 提示词:帮我生成一个动态响应式布局的网站,适合手机和电脑浏览。内容是「iPhone 17 Pro Max 和 Xiaomi 17 Pro Max 对比」。要求: 联网获取这两款手机的最新资料,要有核心卖点对比,做好看的表格,突出相机、芯片、电池、价格等方方面面。 要有这两个产品的横向比较,也要有纵向比较,例如是iPhone 17promax和 16 promax,还有小米 17promax 和 15 promax对比。还要给结论:哪个更加值得买?用简洁的 bullet point,总结优缺点。 每一页都要简洁,不要太多字,但是信息要足够,多用合适的配图。
https://rwsh4gkhckrxy.ok.kimi.link/

此外,OK Computer 也有图片音频生成的功能,像这张手机摄像头的拆解图,我第一眼看到觉得非常惊艳。

Agent 的交付:一个很惊艳的 Demo,但难落地

经过这些测试,倒不是说 Kimi K2 的 Agentic 能力不行,只是觉得 Agent 这类产品,大多数都还停留在「我可以做出来一个东西,但是这个东西不一定有用」的阶段。

做 PPT、商业分析报告、旅游路线规划、网页开发和部署等等,几乎所有的 Agent 都宣传自己能做这些;但是最后的成果,真正可以放心使用的,我想目前是很难找到。

▲ GPDval 是一项新的评估方法,用于衡量模型在上图 44 个职业中,具有经济价值的现实任务上的表现

前几天 OpenAI 新发布了一项基准测试,GDPval。它被称为是 AI Agent 举办的一场「职业技能大赛」。考题不再是学术问答,而是直接选取了,来自对美国 GDP 贡献最大的 9 个行业中的 44 个真实职业。

这些任务由平均拥有 14 年经验的资深专家(如律师、工程师、护士)设计,交付的内容也并不是纯文本,而是包含了幻灯片、电子表格、CAD 设计文件等在内的复杂格式,就像现在 Agent 交付的成品一样。

GDPval 的出现,其实就是要开始去解决,从「我能做」到「我能做好」这个阶段的问题。

▲ 专业评估员将对应模型的交付成果,与人类专家进行了比较。Claude Opus 4.1 在接近一半的任务(47.6%)中生成了被评为与人类同样好或更好的输出。

虽然是 OpenAI 的研究,但第一名还是 Claude Opus 4.1,我想这也是为什么 Claude 模型在编程领域能够广受好评,Claude 能写代码,但是也可以写出好代码。

关于 Agent 不能做好的原因,之前 OpenAI 前高管 Mira Murati 联合创立的 Thinking Machines Lab ,发布了一篇博客文章。在里面提到,大语言模型目前出现的不确定性问题,不是由于 GPU 随机性的计算,而是处理训练数据时,缺少批次不变性。

而另一个原因则是可用训练数据的不足。和训练一个 AI 生成一张图片、一个视频、一段文本不同,Agent 要交付的内容复杂,现实世界中的任务繁多,无法归类到某个单一的媒体类型。

▲ 和人类学习完成一项任务不同,大模型需要可以模拟的强化学习环境

目前我们经常看到的 Agent 任务,也大多数是集中在做一个 PPT、做一个网页、预订餐厅、代替我们刷社交媒体、自动购物等等,这仅仅只是现实世界里非常小的一部分,更不用说这些任务,没有明确的评估标准。

知名科技媒体 TechCrunch 最近报道,整个硅谷正在豪掷千金,为 Agent 构建名为「强化学习环境」(RL Environments)的模拟训练场。这些「环境」被一些 AI 公司创始人形容是非常无聊的电子游戏,一个模拟的浏览器、一个模拟的购物网站、一个模拟的代码编辑器。

▲ 为了验证 Agent 任务完成情况,需要将整体任务分解成更小的步骤,并创建一个评分标准,来检查 AI 模型是否正确执行了每一个步骤。图片来源:https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers

AI Agent 在这样的「环境」里面,像一个新手玩家,通过一次次尝试、失败、获得奖励,来学习如何独立完成购买商品、修复代码等一系列,多步骤的复杂任务 。

当年李飞飞靠着海量标注的数据集 ImageNet,让计算机视觉往前迈了一大步,她也被大家称为「AI 教母」。

现在 Agent 的发展,看起来也是这样,如果没有大量标注的「强化学习环境」任务,Agent 很难成为,像人脸识别这样可靠的深度学习技术;尤其是在「炼丹」这个本质没有改变的情况下。

▲OK Computer 专辑封面,这是英国摇滚乐团电台司令 Radiohead,1997 年发行的第三张录音室专辑,距离现在已经快三十年的时间了,曾获得百大专辑等多个奖项

Kimi一如既往地喜欢摇滚。从公司名 Moonshot(致敬 Pink Floyd)到这次的 OK Computer(致敬 Radiohead)。
在 Apple Music 的专辑介绍语里面,形容 OK Computer 这张专辑,表达了人们在千禧年前夕,对新技术的探索和反思。

尽管弥漫着恐惧忧郁的情绪,《OK Computer》仍保有希望,传达了社会前进之路未必会让我们失去善良的信念。

 

如果你对因科技而加快的生活节奏,感到难以招架的话,其实解法很简单,正如 Yorke 在结尾曲〈The Tourist〉最后所唱的:「傻瓜,放慢脚步吧」(Idiot, slow down)。

今天 Kimi 推出的 OK Computer,似乎也是表达科技正在改变我们的工作习惯、加快我们的生活节奏。但很显然,目前市场上的 Agent 产品,很难真正做到让我们难以招架。

无论是 Kimi 还是 ChatGPT,还有更多的同类 Agent 产品,他们在发布的时候,往往都会说,我们的 Agent 有这些功能,能做什么,却很少说,我们的 Agent 能做成什么。

不用放慢脚步,真正的 OK Computer 还在用力追上我们。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


全球AI百大应用榜发布!DeepSeek被反超,ChatGPT 王座快不保,中国产品占半壁江山

By: 张子豪
28 August 2025 at 14:02

今天,硅谷顶级风投 a16z 发布了新一期的 AI 应用百大榜单。半年过去,又有哪些新的 AI 产品涌现,ChatGPT 的老大地位是否开始动摇,APPSO 马上带你解读这份榜单。

▲ 网页端和移动端产品前 50 名

我们简单总结了此次榜单的几点趋势。

ChatGPT 依旧稳坐第一,但这个宝座越来越不安全了。Google 的 Gemini 用户数已经追到它的一半,它俩现在是两大顶级的新一代人工智能平台。

马斯克的 Grok 靠着一款二次元虚拟伴侣 Ani,硬是从 0 干到 2000 万月活。

DeepSeek 在年初爆火后月活跃用户大幅下降,移动端下降了 22%,网页端更是达到了 40%。

国产应用表现继续亮眼,移动端 Top 50 的应用中,估计有 22 款是由中国团队开发的。Kimi、豆包、夸克直接闯进了全球前 20。

本次新增的 11 个网页 AI 产品,包含 Qwen、Manus、Lovable 等今年上半年的热门工具

纵观这份报告,可以看到 AI 消费应用的生态已经进入细分和稳定阶段,创新开始变得越来越困难。

ChatGPT 还在领跑,但对手来了

在「通用助手」这条赛道上,ChatGPT 依旧是无可争议的老大。无论是在网页端还是移动端,它都稳稳占据第一的位置。

但新对手已经在逼近。Google 的 Gemini 是最典型的追赶者,在网页端访问量约为 ChatGPT 的 12%,看起来差距还不小;可在移动端,Gemini 的月活用户已经达到 ChatGPT 的一半,而且 9 成用户都来自 Android 阵营。

▲ 谷歌多款产品 Gemini、NotebookLM、Google AI Studio、Google Labs 进入百大应用榜

马斯克看起来真的很惨,这边是同一家公司的 Gemini 和 Android 深度绑定,那边又要控诉 Apple 和 OpenAI 有金钱交易。

所以,马斯克的 Grok 不得不走一条「另辟蹊径」的路线。Grok 去年底还没有移动端 App,现在已经冲到 2000 万月活,排在移动榜单第 23。

他的秘诀很简单,就是抓住一些猎奇的内容。在 7 月先发布了 Grok 4 模型后,紧接着在应用内推出「AI 虚拟伴侣」,彻底点燃话题。尤其是二次元角色 Ani(甚至包含 NSFW 选项),让 Grok 赢得了广泛的关注。

▲ Grok App 日活变化,在推出 Grok 伙伴之后迅速上升

Meta AI 只看到他挖人的新闻了,产品好像真的有些尴尬。它在 5 月上线,排在网页榜单第 46,移动端甚至没进前 50。更糟的是,Meta 还因为「聊天内容被推上公开动态」的隐私事故,用户信任直接受挫,远不如 Grok 来势汹汹。

▲ DeepSeek 年初猛增之后,网页月访问量一直在下降。

▲ 移动端月访问量下降情况

在 ChatGPT 和 Gemini 之后, Deepseek 、Grok、Perplexity 和 Claude 占据了网络流量的后几位。

Perplexity 目前还是保持着强劲的增长势头,而 Claude 和 DeepSeek 在移动端也开始趋于平缓,DeepSeek 在 Web 端的流量更是从高峰下跌超过 40%。

不过 DeepSeek 目前仍是国产最强大模型,相信将来 DeepSeek 发布 R2 推理模型和 V4 的到来,DeepSeek 能再掀起一次流量狂飙。

Kimi、豆包、夸克闯进全球前 20

除了 DeepSeek 在通用大语言模型助手上的排名,中国公司的更多产品在这次榜单里亮相。

在前 20 名里,阿里的「夸克」、字节的「豆包」、月之暗面的「Kimi」同时上榜。其中,Kimi 作为新兴创业团队的产品,能和 ChatGPT、Gemini 这些巨头同台竞争,已经说明了国内用户对中文大模型的强烈需求。

移动端更明显,50 个上榜应用里,有 22 个来自中国公司,其中美图就包揽了 5 个修图/视频类产品,字节系也贡献了豆包、Cici(国际版豆包)、Gauth(教育)、Hypic(国际版醒图)等。

更有意思的是,国产的视频生成模型一度领先全球。比如 Kling、海螺等产品,往往比海外模型更快落地、更贴近流行趋势。直到 Google 推出 Veo 3,才算打破了这一领先。

Vibe Coding,人人都能点点鼠标写代码

除了助手类应用,还有一种不可忽视的趋势就是,Vibe Coding(氛围式编程)。

这类产品的逻辑很简单:不需要写复杂代码,点点鼠标就能生成网站甚至应用。Lovable、Replit 今年双双进入榜单,说明这种「低门槛编程」越来越受欢迎。

▲ Lovable 和 replit 月访问数据趋势,.app 结尾的网页是该产品的成果预览网页

更关键的是,它们的用户不仅没流失,反而在持续增加消费。数据显示,美国用户在这类平台的付费留存超过 100%——也就是说,用户不仅没走,还越来越舍得花钱。

对普通用户来说,我们每个人都能几分钟搭出一个网站,无论是从工具到个人作品集,还是一个小型商业应用,现在都已经开始成为现实。

AI 爆款的秘密:不求全能,但求刚需

从 a16z 开始发榜单到现在已经更新了 5 次,其中有 14 个应用是雷打不动的「钉子户」,始终霸占着前 50 的位置。

它们分别是:ChatGPT、Character.AI、Civitai、Leonardo AI、ElevenLabs、Gamma、Hugging Face、Veed、Midjourney、Perplexity、Photoroom、Poe、QuillBot 和 Cutout Pro。

你看,它们覆盖的场景无非就那几个:对话、陪伴、修图、创作。全都是高频刚需。

最特别的要数 Midjourney,一个没拿过一分钱融资的「异类」,全靠口碑和社区文化,硬是走到了今天,成为 AI 绘画的代名词。(不过最近有传闻说 Meta 想和它合作,看来好东西还是藏不住的。)

这说明,想做成一个 AI 爆款,不一定非得是无所不能的「全能王」,只要能在一个细分领域,成为用户离不开的那个「唯一」,同样能活得很好。

而且,这 14 家公司里,只有 5 家有自己的底层大模型,剩下的全都是靠调用 API 或者开源模型做的应用。

这或许在告诉我们一个新规律:在 AI 时代,顶尖的产品体验,和顶尖的底层技术,一样重要。

所以,你觉得下一个爆红的 AI 应用,会是一个更聪明的万能助手,还是一个更懂你的赛博伴侣呢?你最常用的 AI 产品又有哪些,评论区聊聊!

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌