Normal view

There are new articles available, click to refresh the page.
Yesterday — 31 March 2026Main stream

腾讯「八虾夺嫡」内幕:一只龙虾,怎么成了全村的希望

By: 李超凡
30 March 2026 at 09:24

99 年生的张舒昱,是腾讯电脑管家团队入职不久的产品经理,这在腾讯算不上核心业务线。

今年 1 月 OpenClaw 刚在中国爆火,她着了迷,拉上几个人攒了一个产品原型 QClaw:基于 OpenClaw,一键安装,通过微信直接操控智能体。

项目在腾讯体系里几乎没有存在感,没有立项审批,没有总办资源,几个年轻人凑在一起写代码。

3 月 9 日,QClaw 内测上线。一周之内,数百万用户注册。

然后事情开始失控,惊动了腾讯总办。

高层反应极快,随即调拨数十名员工和计算资源到张舒昱的团队。同日,另一支团队推出了 WorkBuddy,同样兼容 OpenClaw。再隔一天,腾讯港股大涨超过 7%,投资者把涨幅直接归因于这两只虾。

3 月 11 日凌晨 2:06,马化腾发了条朋友圈:「自研龙虾、本地虾、云端虾、企业虾、云桌面虾,安全隔离虾房、云保安、知识库……还有一批产品陆续赶来。」

这对腾讯 11 万员工是一个鲜明的信号,无数员工将其解读为:Pony 支持他们 all in 龙虾

据 The Information 独家报道,截至本月,腾讯内部同时有 8 个团队在开发基于 OpenClaw 的产品和服务。加上在研和内测项目,总数已超过 10 个。

15 年前,腾讯内部三个团队赛跑移动 IM,张小龙的广州研发部跑出了微信,是腾讯史上赛马最成功的一次。这次换了个物种,叫赛虾。

一个 99 年产品经理做的边缘项目,两周之内变成一家万亿市值公司的战略支点,似乎有点不可思议。

张舒昱对 The Information 说了一句大实话:「我们都在用 AI Agent 做实验。此刻,没有人能说什么是最佳方法。」

翻译一下就是:我们也不知道答案,但先跑起来总比站着强。

全村的希望:腾讯为什么把命押在一只虾身上

要理解腾讯对龙虾的狂热,先要直面鹅厂当下在 AI 竞争中的处境。

过去两年,中国 AI 大模型军备竞赛打得昏天暗地。

阿里砸钱做千问,字节孵出豆包,在用户规模和模型能力上都拉开了身位。腾讯呢?手握游戏和微信广告的丰厚利润,但在 AI 赛道上远不及这两个对手激进。

自研的混元大模型尚且无法与竞争对手匹敌,又拖累了自家 AI 助手「元宝」的进展。

腾讯不是没努力。去年请来前 OpenAI 研究员姚顺雨执掌混元研究,重建了研发基础设施。 4 月即将发布的混元新一代模型,业内普遍视为腾讯模型能力的一次摸底考试。

▲姚顺雨. 图片来自:智源社区

但远水解不了近渴,在新模型交卷之前,缺乏强大的内部模型,让元宝在与豆包和千问的竞争中暂时落于下风。

所以当 OpenClaw 在中国引爆了 Agent 热潮,腾讯高层几乎是本能地抓住了这根绳子。这只龙虾证明了 AI 的下一个爆发点未必在聊天框里,可能在桌面上,在工具里,在无数个能替你干活的智能体身上。

腾讯高层的判断很清晰: OpenClaw 引发的这一轮 Agent 浪潮,将是 AI 战场重新洗牌的机会

他们逻辑是这样的,如果腾讯能通过将 OpenClaw 类Agent 能力与微信深度整合,提供配套工具和服务,成为中国最好的 Agent 使用平台,那么即便其内部大模型不是最强大的、AI助手也不是最受欢迎的,腾讯依然有可能在 AI 下半场逆风翻盘。

2020 年,马化腾在腾讯内部将视频号称为「全村的希望」,寄望于它在短视频赛道上扳回一城。如今,「全村的希望」换了物种。

区别在于,视频号好歹是亲生的,龙虾来自一个奥地利独立开发者的 GitHub 。

某种意义上,这更像是 2014 年纳德拉接手微软后做做的事,承认在移动互联网上输了,放下「什么都要自己做」的控制欲,押注一条全新赛道。

纳德拉用了十年,腾讯希望快一点。

八虾夺嫡,腾讯赛虾背后

外界把多团队并行理解为经典赛马机制,腾讯内部更愿意说「多样性」。QClaw 和 WorkBuddy 是最先冒头的两只虾,路线截然不同。

QClaw 是张舒昱从电脑管家边缘团队杀出来的,直接拥抱 OpenClaw 开源生态,做微信一键安装,野蛮生长。设计理念就四个字:打开即用。不需要配置环境,不需要懂终端命令,微信扫一下就能让 AI 接管你的电脑。

▲张舒昱. 图片来自:南京审计大学

WorkBuddy 则走了一条完全不同的路。负责人汪晟杰在接受 APPSO 采访时反复强调一件事:百分百自研,没用过一行 OpenClaw 源码

它走半自动化路线,避开了 OpenClaw「透传」模式下信息暴露在公网上的风险,采用 bot 推送通知模型,每一步关键操作都需要用户确认。汪晟杰的定义很明确:龙虾是一个概念,不等于 OpenClaw。WorkBuddy 要做的是安全可控的龙虾,企业能放心用的龙虾。

汪晟杰透露了一个时间细节:WorkBuddy 在 1 月 17 号那个周末就已启动,三四个人通宵做出 MVP(最小化可行产品),原计划 3 月 16 日发布。看到龙虾热潮后提前了一周,撞上了 QClaw 同期发布。

▲ 汪晟杰.

也就是说,腾讯并非在 OpenClaw 火了之后才匆忙跟进。多个团队在不同时间点嗅到了同一个机会,OpenClaw 的爆火更像催化剂,把水面下的项目一夜之间推上了前台。

但赛虾机制的矛盾也摆在桌上。

QClaw 和 WorkBuddy 功能高度重叠,都能通过微信操控 AI 智能体,用户该选哪个?8 支团队同时跑,资源会不会内耗?

答案藏在张舒昱那句话里:「此刻没人知道什么是最佳方法。」8 支团队同时下场,与其说是信心爆棚,不如说谁都没有把握

腾讯选择用数量对冲不确定性,多条路线同时跑,押中一条就够了。

赛马机制的精髓从来都是:靠数量提高命中概率。15 年前微信就是这么跑出来的。

马化腾的养虾哲学

赛虾的前提是有虾可赛,但这只虾不归腾讯管。

3 月 12 日,OpenClaw 创始人 Peter Steinberger 在 X 上公开批评腾讯,矛头直指腾讯的 SkillHub 服务复制了社区 Skills 却没有做出任何贡献。

两天后,腾讯通过 GitHub 捐款,随后被列为特色赞助商,与 OpenAI 并列。在上周英伟达 GTC 大会上,腾讯云 CEO 汤道生当面约见 Steinberger,提出由腾讯云贡献服务器和安全服务,并探讨与 OpenClaw 基金会更深层的合作。

中国市值最高的互联网公司之一的高级副总裁,飞到圣何塞跟一个开源项目创始人坐下来谈合作。在腾讯历史上几乎没有先例。当你需要别人的东西比别人需要你的东西更急迫时,身段自然就放下来了。

同一周的财报发布会上,腾讯总裁刘炽平宣布 2026 年将 AI 新产品的投资至少翻倍,从去年的 180 亿元起步。而在阐述钱花到哪里时,他只点了三个名字:混元、元宝、以及最新的 Claw 产品

一个月前还是边缘项目的龙虾,一跃与腾讯自研大模型和旗舰 AI 应用并列。龙虾从「大家自己玩玩」正式升格为「公司战略」

马化腾最近在财报会议上的发言,进一步回答了一个更本质的问题:腾讯想用龙虾做什么

他的切入角度直接跳过了产品层面,落在生态上。

马化腾认为龙虾类应用有记忆和个性,更像助理,带有「活人感」,能让 AI 落地到办公、终端、小程序等各种场景中,不再全部挤在 chatbot 这条独木桥上。

但真正耐人寻味的是他关于「去中心化」的论述。微信本身是中心化的 App,但微信生态是去中心化的,数十万小程序商家构成了开放平台。马化腾认为 AI Agent 天然具有去中心化特征,可以融入微信生态。有一句话特别关键:

所有服务商的心态都是怕被 AI 智能体「短路化」「渠道化」。

意思是,他不想让 AI Agent 变成一个新的中间商,把微信里的服务商变成纯粹的后端 API。他想让小程序保留独立性,同时具备 AI 能力。「每一个小程序都可以智能化和龙虾化。

这个思考比「我们也做龙虾」高出一个维度。马化腾看到的是一种范式转移的可能:AI 的价值分配方式,从「一个超级 chatbot 统治一切」变成「无数分布式智能体各显神通」。

如果这个判断成立,拥有全球最大通讯生态和最活跃小程序平台的微信,天然就是 Agent 时代最肥沃的土壤

刘炽平在财报会上把这套逻辑做了明确的总结:「Claw 提出了一种去中心化的模型……有段时间,似乎每个人都在争夺成为 AI 智能体唯一的入口和垄断者。但现实并非如此。」

一句话概括腾腾讯的押注逻辑:模型之争输了一局,但生态之争的牌还没摊开

当然,这套叙事也可以被翻译成另一句话:我们模型不够强,所以告诉你们模型没那么重要。

自洽和自欺之间,有时候只隔一层窗户纸。但关键在于,这一次腾讯确实有牌可打。微信不需要成为最强大模型的容器,只需要成为最好用的 Agent 运行环境

这和纳德拉的 Azure 逻辑如出一辙,你不需要自己做出最好的 AI,你只需要让最好的 AI 都跑在你的云上。

养虾产品全景图,腾讯到底下了多少注

腾讯的「养虾」远不止做几个 C 端产品那么简单。腾讯周五公布了「养虾产品全景图」,这套从底层到应用层的完整龙虾矩阵,密度超出外界预期。

消费级产品打头阵。QClaw 主打微信一键安装,面向普通用户;WorkBuddy 走桌面端自研路线,强调安全可控;微信 ClawBot 负责让用户在微信聊天界面直接操控龙虾。

三个产品覆盖了「小白用户一键上手」「桌面深度使用」「微信生态无缝接入」三个核心场景。光是消费级这一层,腾讯就同时铺了三条路。

企业级产品紧随其后。ClawPro 面向企业和政务客户,主打安全隔离和精细权限管控,企业微信独占通道,账号权限分级,内置技能审核机制,代码生成类操作要过审,网页搜索走安全网关。

汤道生在腾讯云峰会上重点推介了 ADP(智能体开发平台),定位是企业构建定制化 Agent 的工具箱。配合 Claw Runtime 提供安全沙箱运行环境,Lighthouse 做安全管理。

整套企业方案的逻辑很清晰:OpenClaw 太野了,我帮你把它关进笼子里。

开发者生态也没落下。CodeBuddy 是去年下半年就上线的 AI 编程助手,现在被纳入龙虾矩阵成为开发者入口;SkillHub 是 AI 技能社区,做了本土化适配,也正是因为这个产品被 Steinberger 点名批评后才有了后面那笔捐款。TokenHub 则是模型服务市场,不光接混元,也接 DeepSeek、MiniMax、Kimi 等第三方模型,统一计费。

腾讯连「卖铲子」的生意都想好了。

从这张全景图可以看出,腾讯不想只在产品上做单点突破,要做一整条龙虾产业链——从安装到运行,从个人到企业,从消费到开发,每个环节都有人盯着。

这正是汤道生反复强调的「Harness 工程」思路:Agent 时代的胜负手不在模型本身,在于脚手架。工具调用、上下文工程、长期记忆管理、工作流设计,这些看起来不性感的苦活,才是决定 Agent 好不好用的关键变量。

汤道生在腾讯云上海峰会上表示:「AI 落地不只是算法题,Harness 工程能力是关键变量。不同的脚手架设计,会显著影响实际使用效果和 token 成本。」

翻译成人话就是:模型是发动机,但没有底盘和方向盘,跑不了多远。腾讯模型暂时跑不过别人,但如果能把底盘和方向盘做到最好,照样能赢。

虾潮退去之后

把所有线索串起来,这个故事可以被浓缩成一句话:腾讯用一家大公司能调动的所有资源,去拥抱了一个自己无法控制的开源项目

这是一个充满张力的姿态。

OpenClaw 的更新节奏是每周两三个版本,API 说改就改,Breaking Changes 说来就来。Peter 点一下 merge,深圳大厦里好几支产品团队可能就要通宵救火。腾讯把战略命脉系于别人的 GitHub 仓库上,这需要的不只是勇气,还有一种前所未有的谦逊。

但换个角度想,腾讯可能也没有更好的选择了。

如果继续只在模型和 chatbot 赛道上硬碰硬,不是陪跑就是陷入同质化厮杀。但 Agent 浪潮撕开了一条新缝隙:谁能把 AI 变成最好用的工具,谁就能重新定义入口

微信有 14 亿月活,有小程序生态,有支付,有社交关系链。这些东西造不出最强模型,但能造出最好的 Agent 使用环境,这是腾讯手里唯一一张别人没有的牌。

问题在于,这张牌的有效期有多长。

OpenClaw 仍在快速迭代,生态远未定型。今天的龙虾热,会不会像去年的 Manus 一样来得快去得也快?8 支团队赛虾,会跑出下一个微信,还是跑出 8 个半成品?马化腾的「去中心化 Agent 生态」蓝图很美,但从蓝图到现实之间,还有需要经历多少次「技术事故」?

不过,有一件事是确定的。

当一家公司的 CEO 凌晨两点发朋友圈,总裁在财报会上把龙虾和自研模型并列,高级副总裁飞到美国去约见开源项目创始人,8 支团队同时下场赛虾,AI 投资直接翻倍,它就已经不是在追热点了,它在押注这家公司的未来。

赌的不是这只虾能活多久。赌的是在 AI 重构一切的十年里,腾讯还能不能坐在牌桌上,以及坐在什么位置

视频号当年也被叫做「全村的希望」。五年过去了,它还没打败抖音,但在微信生态内长出了自己的活法。龙虾能不能也走出第三条路?答案还早。

不过,当一个巨头被逼到墙角,终于想清楚自己要什么,把资源砸向同一个方向的时候,你永远不能低估它。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Floatboat 体验:一个人的公司,只需要一个办公软件

By: 杜晨
31 March 2026 at 10:48

过去两年,我们每天都在做同一件事:学习和进修「提示词工程」这门玄学。

找 AI 干活,总要像个碎碎念的甲方一样,交代八百字背景,像是在哄一个智商奇高、但每天都会间歇性失忆的实习生。

这让我想起在游戏里,施展出必杀技之前,总是会有一个类似「前摇」或者「吟唱」的过程。某种程度上,写提示词,提供上下文,上传各种文件等等……就是使用 AI 的「前摇」。

不是说用户每次都要做到极致,只是如果你能给足这些前置条件的话,AI 会做的更好。

不过,前段时间 APPSO 在中关村的一场线下聚会看到了一个还在测试中的 AI 办公产品——它很大程度上摒弃了对「前摇」的依赖。

产品名字叫 Floatboat。

Floatboat 的联合创始人兼 CEO 少卿走到台上,打开 Floatboat,选中一个文件夹,里有一个 CSV 表格,是一份参加本次活动的嘉宾名单。他在旁边的 AI 对话框里说了一句:生成邀请函。

过了一会,每位嘉宾的邀请函都出现了。

到这里为止都还好,把表格丢给 ChatGPT、Claude、WorkBuddy、悟空………任何一个今天的 AI,写一句指令,大概率也能做到差不多的事情——但接下来发生的,让我愣了一下。

有一位新嘉宾确认出席了,少卿说,「在表里更新一下」。

CSV 更新了;紧接着,一封新的邀请函也自动生成了。

我坐在那里花了两秒钟,试图理解刚刚发生了什么:

Floatboat 它知道这份表格和邀请函之间,知道「更新表格」和「生成邀请函」两个动作之间,是有关系的。所以少卿只说了前半句,后半句没说出来,它自己悟出来了。

AI 不再是等待指令的工具,变得越来越积极、主动,会动脑子,像一个一直给你打下手的小朋友,你说「更新一下」,他知道你的意思。

这个瞬间让我开始认真看这个产品。

简单,但又无法简单定义的产品

Floatboat 是什么?我试着给它一个定义,发现很困难。

它有一个长得像 macOS Finder 的文件管理器,你可以浏览本地文件、打开 iCloud Drive;文件格式支持得很全,Markdown、CSV、Excel、Word、图片、视频,都能直接预览,甚至编辑;

它有一个内置浏览器,可以打开任何网页,甚至可以让 Agent 去操作这些网页;

它有一个 AI 对话界面,底层可以接 Gemini 或其他模型。这么看来它有点像 Claude 的桌面端,但又比 Cowork 多一些更直观的操作逻辑。

这三个东西,文件、浏览器、对话,以面板的形式并排在一起,可以随意拖拽组合,最多四栏并排。

你在浏览器里看到一张有用的图,可以直接拖到本地文件夹里保存;你让 AI 生成了一份报告,报告会直接写入本地文件,以 .md 或 .docx 格式保存,并且你可以直接编辑这些文件,不需要 cmd-c 再 cmd-v 到另一个地方。

信息从各个方向流进这个环境里,加工过的内容也能流出去,不会被锁死在某一个面板里。

所以 Floatboat 到底是什么?是文件管理器?是浏览器?是 AI 聊天工具?是氛围编程环境?

它都是,又不完全是。

在 Floatboat 出现之前,我们其实一直在做不同软件之间的「人肉 API」,每天按几百次复制粘贴,打开不同的软件或浏览器窗口、编辑不同的文件。

在 AI 世代在线办公的我们,成了在窗口与窗口之间疲于奔命的赛博搬运工。

而 Floatboat 打破了软件之间的墙,让所有的窗口都能共享同一份上下文。

开发团队给产品的定义是「工作环境」而非「AI 助手」。助手是你要求它才动的,工作环境是一直在那里的,你在里面做事,它一边帮你做事一边观察和学习。

在沟通会上,有人问少卿:一句话形容你们的产品?

少卿反问:你能一句话形容 ChatGPT 吗?

大家会心一笑。我觉得他说的有道理。有些东西确实不是一句话能装下的,除非你做的是一个非常垂直的工具。Floatboat 显然不打算做垂直。

做科技记者这些年,我经历过好几代这样的产品。最早是电子邮件加 Office 套件的时代,后来是各种 OA 系统,再后来钉钉来了、飞书来了、Slack 来了。

每一代都有一个产品,或者一类产品,它们有着同一句潜台词,对你发出强有力的暗示或者明示:上班,用我就够了。

而在 AI 时代,Floatboat 想要成为这个角色。

这么说不是在拔高它。恰恰相反,这个位置历史上从来没有人真正坐稳过。飞书解决了团队协同,但文档操作仍然需要 Office 套件。钉钉把审批这个工作做到了极致,但打工人私下用微信聊工作的习惯从来没变过。

「一统江湖」这件事,每一代都有产品在尝试,但从来没人真的实现过。

原因是结构性的:这类产品想要成功,需要整个组织一起换过来。而组织的惯性,是所有惯性里面最大的。你一个人觉得飞书好没用,你的团队、你的客户、你的供应商都得觉得好才行。

Floatboat 的策略有一个不同:它不面向组织,它面向个人。

这个产品的目标人群,也正是时下最流行的概念:OPC,全称 One Person Company/一人公司。

过去一年 AI 能力的跃进,让 OPC 这个前两年的口号,逐渐变得越来越现实和可行。一个人,加上三五个 agent, 几乎可以对等一个小的草创阶段的业务和支持团队。无论是自媒体内容创作者,从选题到写稿到排版到分发,还是电商业务,从选品到上架到客服到投流,都已经够用了。

Floatboat 希望能够打动这群人。在 APPSO 的体验中,我们测试了包括内容创作、数据科学等场景,也测试了外部工具接入(例如 Slackbot)等多种场景。对于内容、营销、数据分析、客服等类型的工作,Floatboat 都达到了我们的期待。

现在 AI 产品有两种设计哲学。一种是「你放手,我来」,把用户推到后座上去,Agent 全权接管,跑完了给你看结果。另一种是「你干活,我在旁边」,成为用户的副驾,在适当的时候递工具、提建议。

Floatboat 更接近后者,但又不全是。用 Floatboat 工作,我的体验是:跟 AI 在主驾副驾之间来回切换,畅快自如。

用了一段时间之后,我觉得 Floatboat 的主张是行得通的。至少在现在这个阶段,大多数人对 AI 的信任还没到「你尽管干,我不用看」的程度。你让一个打工人把整份方案交给 AI 自己跑,他会焦虑的睡不着觉……

但如果 AI 是在他的屏幕上、在他的文件夹旁边干活,他看得见过程,能随时纠正,那他会比较安心。

这也是为什么 Floatboat 的界面设计那么像一台传统电脑的桌面,把文件管理器、对话框、浏览器/编辑器都拉出来让你一览无遗:已经认识的东西,能够降低用户对一个新事物的戒备心,提高接受度。

一边工作、一边蒸馏工作

然后再说 Floatboat 做的一个叫 Combo 的功能。

Combo 可以是一个复杂的 skill,也可以是多个 skill 的组合。而在工作的逻辑里,就是把一套工作流打包成一个可复用的操作。

Floatboat 内置了从工作成果中「蒸馏」 combo 的能力——这其实很像 Anthropic 官方的 skill-creator(本身也是一个 skill)。

比如你每周都要做一件事:从网上抓几篇行业报告,提炼摘要,整理成 Markdown 文档,然后推送到 Notion。你第一次在 Floatboat 里手动跟 Agent 对话完成了这套流程之后,对话框下方会出现一个按钮,问你要不要把这轮操作存成一个 Combo。

或者你也可以主动跟 Floatboat 说,「把我们目前的工作里面的方式、思考、逻辑,整理为一个 skill」。

当下次遇到类似任务的时候,Floatboat 会自动把这个 Combo 推荐给你,一键启动。

这里面我觉得最有意思的一点是:你不需要事先「设计」工作流,只需要正常干活就行了。一边干着,一边 Floatboat 就会自己把你的工作习惯、操作方法等「蒸馏」出来,沉淀出一份指导思想。

少卿告诉 APPSO,Combo 能力的设计,是为了实现今天的绝大部分用户对于 agent 产品的那个核心期待:自进化。

「当 agent 能够感知你 80% 的操作的时候,它就有自进化的能力了」,Combo 的自动沉淀机制就是在做这件事的第一步。

兜售「提示词」的时代,快要结束了。你不再需要像个魔法师一样去背诵枯燥的咒语,把提示词保存在一个专门的文件夹或者 AI 工具的后台。通过 Combo,Floatboat 可以让用户把他们每天最经常做的固定动作,提炼成独属于自己的「手艺」和数字资产。

当然,Floatboat 也做了一个 Combo 市场,你做的好用的 Combo 可以上传,别人做的也可以下载。官方也提供了一些现成的。

但这个 Combo 体系仍有不足。

任何一个号称能够一统江湖的办公软件,号称「越用越懂你」的 AI 系统,都仍然存在冷启动的障碍:就好比 Google Docs 的初始简历模板虽然很全很好,但仍然需要每一个求职者去调整修改以适合自己。

Combo 的自动沉淀机制,逻辑上是说得通的:你用得越多,它学得越好,推荐的工作流越贴合你。但这有一个前提:你需要先投入时间从零教它,而大多数人没有这个耐心,他们希望拿来就能用。

作为一位媒体编辑,我的日常工作是阅读大量资料、跟作者沟通选题、改稿子、偶尔自己写长文。这些工作的颗粒度很细,上下文很碎,跟官方预设的那些模板(更偏向标准化的报告生成、数据整理之类)对不上。

在我的具体使用中,我将几种不同的内容生产路径保存成了不同的 Combo:针对外部新闻的快速反应是一种,基于采访 Q&A 提纲的撰写是一种,针对复杂课题的调研、资料的编排、然后进行原创写作,又是另一种。

当然,这不是 Combo 本身的问题。对于绝大多数人,无论他们的工作是文档写作、报表处理、ppt 写作,还是数据整理、行政工作,甚至更加复杂的「一人开发者+marketer+客服」,无论是自己生产 Combo,还是在 Floatboat 的官方 combo 基础上做微调,都足够好用。

AI 工具不是一切工作的万灵药——一个工具把自己宣传得再美好,今天的用户也应该有这样的觉悟。对于 Floatboat,正如前面所说的,它是「工作环境」,它的能力足以强化人,但它的工作效果仍然取决于人。

然后再说说用 Floatboat 和其他「类 Cowork」产品的区别:最大的明显感受,是 Floatboat 的工作流程很快。以文件操作、内容生成为例,在 Gemini 3.1 Pro 模型驱动下的 Floatboat,对文件进行操作(批量重命名/修改格式、填充 markdown 等)的用时,是我平时用 Cowork/Claude Code CLI 的三分之一左右。

Gemini 在「讨好用户」上也是老演员了,所以最近 Floatboat 也加入了 Claude 两个最新版模型,Sonnet 和 Opus 4.6 的支持。

Gemini 对于 Floatboat 主打的大多数办公场景(文案生成、表格处理、信息整理)来说够用,写作效果也还算不错;如果不符合你偏好的话,切到 Claude 模型也没问题。如果你注意到 Floatboat 的迎合意图太强,可以在工作过程中时不时强调一下,不要一味迎合,要对生成的结果,甚至用户的输入做批判性的思考。

以及,你也可以充分利用 Combo 生成的功能,将这些技巧写进 Floatboat 的核心指导思想。

另外一个小设计值得提一句:Floatboat 可以集成到飞书和 Telegram 里,你不打开它的客户端,直接在聊天工具里给它发消息,它就在后台帮你执行任务——这个功能叫 Claw 模式,相信足够你顾名思义了。

 

除了产品本身,Floatboat 团队还在做一件更远的事。

他们开源了一个协议叫 Selfware,核心理念用一句话说就是:A file is an app。

这是什么意思?现在你用 AI 辛辛苦苦做了一份调研报告,发给同事,他收到的是一个 Word 文档或者 .md 文件。文件里有最终结果,但你当时调用了哪些资料、AI 跑了什么逻辑、中间修改了几次、为什么改,这些对于工作最关键的经验,并没有被保存下来。

Selfware 想解决的就是这件事。一个 .self 格式的文件,里面不只有数据,还携带逻辑和结构。你的同事收到之后,可以直接打开、继续编辑、让 Agent 沿着你的思路往下跑。文件自带了工作环境。

这个想法,和目前 AI 开发圈里对 CLAUDE/SKILL.md、cursor rules 这类文件的热情, 属于同一个潮流。大家都在发现,文本文件可以用来「编程」AI 的行为,一个 .md 文件可以定义一个 Agent 的人格、工作方式、输出风格。

但 Selfware 往前又多走了一步:那些 .md 文件是指令,你告诉 Agent 怎么做;Selfware 想做执行单元,文件本身就能运行,而且不依赖于特定平台。

这其实有点像 Jupyter Notebook,把代码、数据、输出打包在一起了;也类似于 Docker,把运行环境做成了可分发的单元——Selfware 把场景换成了 Agent 协作。它不是从零发明的概念,但在 Agent 时代重新提出,确实切中了一个真实的痛点。

不过,协议这种东西,最终看的是采用率。现在 Selfware 主要在 Floatboat 自己的生态里运转。「A file is an app」是个有趣的理念,但从理念到被广泛采用的标准,中间路还很远。

另外值得提一句的是 IACT (Inline Action-Clicked Text),Floatboat 开源的另一个协议。它做的事情更小但很实际:在 Markdown 语法的基础上,直接在 AI 对话生成结果加上可点击的行内 (in-line) 链接/按钮。生成结果中的「可行动内容」将会自动套上这个按钮,用户直接点击就行了。

这个交互改进看着不起眼,用起来确实减少了摩擦。最早做类似体验的应该是 Claude,但 Claude 的很多「好东西」都是闭源的。Floatboat 把 IACT 开源,让其它产品也可以充分利用。

现在一些同类产品比如 WorkBuddy 也在做类似的东西了,但据我了解 Floatboat 是最先提出这个概念并把它协议化的。

工作起来,开心最重要

Floatboat 的名字来自一句英语俗语,whatever floats your boat,大概的意思是「你开心就好」。

少卿说,他们希望产品给人一种在 AI 时代悬浮起来的感觉,不被裹挟着走。

这个愿景挺好的。但 Floatboat 能不能成为这个时代的那个「用我就够了」的产品?老实讲,APPSO 仍然没法给出一个明确的判断。

毕竟大家都看到了:每一代尝试做这件事的办公产品,到了最后,多半成为了工具箱里的工具之一,而非唯一。

但今天下判断,也为时尚早。

一个产品不需要统一所有人的工作方式才算成功。如果它能让一部分人——那些一个人干五个人的活、每天在软件之间当搬运工的「OPC」们,每天省出一个小时来做真正需要动脑子的事,那它就已经值得存在了。

对大多数普通人来说,一家公司的活如果全都一个人干,确实挺累的。

但 Floatboat 让人兴奋的地方在于,它给了一个人也可以是一家公司的从容和底气。

不是所有人都能 OPC,你至少首先需要台好「PC」。而 Floatboat 赌的,就是自己会成为那台 PC。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Before yesterdayMain stream

专访 vivo 总裁胡柏山:AI 已经很聪明了,vivo 要让它真正看懂世界

By: 杜晨
27 March 2026 at 12:00

今年春节,OpenClaw 火了。短短两个月不到,它又冷下去了——又一场 AI 应用层面的热闹。

热闹散了,没人知道下一个 OpenClaw 是谁,也没人知道这些东西究竟在解决什么问题。

用影像旗舰手机拍下一张夜景当中的人脸,细节清晰到能看见眼眶里的水光。但手机可能并不清楚,主角刚才是否哭泣,也就无法理解这张佳作的情绪背景;再用长焦技能把数百米外的一个路人拉到面前,细节纤毫毕现。但你问手机:这个人是着急赶路,还是在找什么东西?手机仍然不知道。

今天的 agent 能写代码、能操控网页、能把一份 PDF 整理成会议纪要。这些它都做得不错。但这些事情有一个共同点:处理的全是人类已经事先转好格式的信息。文件、数据库、网页,都是数字化过的世界。一旦面对物理世界,一扇门、一段动作、一个表情,它们是失明的。

从今天的大模型,到能真正读懂物理世界的所谓「具身智能」,中间有一道鸿沟,现在没有人说得清楚怎么填。

这道鸿沟,是胡柏山在博鳌亚洲论坛上花了最多时间讲的一件事。

胡柏山是 vivo 总裁兼首席运营官。在博鳌亚洲论坛,他告诉爱范儿,自己有一个很直接的判断:「在明确的物理大模型没有出来之前,要有好的体验,就要把物理世界的信息转化到数字世界。」

他相信,这件事,不仅手机可以做,而且应该用手机去做。甚至在未来十年里,其它设备都很难替代。

拼大脑,没有护城河

过去两年,几乎所有手机厂商都在说「AI 手机」。大模型接入、智能助手升级、端侧算力提升,这些能力以肉眼可见的速度在普及。

去年 DeepSeek 横空出世,今年 OpenClaw 引爆讨论,各家都在抢着把最新的模型能力塞进自己的产品。

这场军备竞赛,有一个必然的结局:大模型的高度商品化、同质化、可替代化。

拼模型能力,没有护城河。

你比友商快三个月上线某大模型,以及大模型驱动的 agent 功能;友商六个月后跟上,用的模型和 agent 能力都比你更强。时间上的领先、花费的金钱和精力,卷出的工时和损耗的员工健康,价值又是什么?

于是,真正的差异化只能在别处找。

vivo 给出的答案是「感知」。

感知,是 vivo 刚刚成立的新技术赛道。

中外互联网公司和手机品牌纷纷加速进军「AI 手机」。行业一度以为模型能力会成为手机厂商的护城河。

在胡柏山看来,实际并非如此。「相比模型而言,积累下来的场景数据才最有差异化。」紧接着他补了一句:「当然,该做还是要做,要做就找适合我们的,可以做慢一点,晚一点也 ok。」

当被问及「如果不看好大语言模型,vivo 会否发力世界模型」时,他的回答更加保守却又直接:「世界模型也很大。我们还是找适合我们的技术路径。我们先把手机模型搞好,小模型搞好。」

当今 AI / 互联网科技巨头大打人才争夺战,顶级研究精英如 NBA 巨星般抢手,转会费一再突破新高。但胡柏山并不认为 vivo 应该为这团火再添柴。他告诉爱范儿,先想清楚思路,看清方向,定好技术平台,再发力,完全不迟。

在这个所有人都在比拼模型能力和 AI 人才储备的时间点上,掌门人直接把 vivo 的优劣势与行动纲领展开在媒体面前。这种坦诚令人印象深刻:vivo 的稳健、谨慎, 究竟有何用意?

胡柏山回应称,vivo 从不回避竞争。相比模型、算力,未来最大的差异化是来自于场景数据。

场景数据,是跟着使用行为逐渐积累的,不能批发,不能抄近路——影像数据尤其如此。经过十年光学硬件积累、用真实场景训练出来的感知判断,没有捷径。

而这些积累与判断,构成了 vivo 接下来押注的「感知」的底层。这些东西,其他人(无论友商还是互联网/AI 公司)想要,也只能自己去积累。

这就回到了刚才那道鸿沟。大模型的训练数据是互联网信息,而这些信息已经被数字化。但现实世界里大多数有价值的信息,还没被数字化。那些无法或很难被转化,或者转化起来成本极高的数据,成为了 AI 走向现实世界的障碍。

光线、空间、人脸、动作、情绪,这些东西存在于物理世界,需要被感知、被转化,才能成为模型可以处理的输入。谁的感知做得好,谁就控制了大模型进入现实世界的那扇门。

现在,没有人知道这扇门后面是什么,也没有人知道最后会是谁站在那里。

押注「感知」

感知不只是「更好的相机」,这一点 vivo 很清楚。

胡柏山说,相机是记录工具,它等你按下快门。但感知是另一件事:持续观察、理解正在发生什么,把这些信息转化成设备可以直接使用的输入。7×24 小时,不需要你触发。

从「记录」到「感知」,中间隔着一个系统架构的重建。

胡柏山给这件事起了个名字:「感知一体」。字面意思,是感知到的信息和设备的决策系统要即时打通。这一点,现在还做不到。

难点在于,原始的感知场景数据,比如一段视频、一张图、麦克风收到的声音,体量巨大,格式混乱,里面大部分是噪声。把这些原始信号转化成手机真正「读得懂」的结构化信息,需要一整套专门的处理链路。

「怎么把场景数据转换成手机能够读懂的数据,是最难的。这个领域开源资源少,需要自主探索,」他说。

这也是为什么 vivo 在内部把感知设为一级技术赛道。

「一级」意味着感知不再是影像部门下面的一个子方向,它会统揽包括视、听、嗅、触等多种感官种类,和感知方向。

不过,vivo 的感知研究与研发工作仍处在初期阶段。胡柏山用 vivo 的通信研究院做了一个类比:大约 200 人的团队,从 4G 开始持续投入,走过 5G,现在在做 6G,已经十几年了。

对于感知赛道,他的预期是相似的节奏:小团队作战,先构建认知。认知清晰了,开始加油门;等待软硬件生态成熟了后,油门再往下踩。「有一种渐进式加速、螺旋上升的感觉。我们拒绝一脚油门一脚刹车。」

胡柏山不希望 vivo 做感知计算,以及做任何事情,出现拍脑门、砸大钱的做法。他认为,感知是一个天花板很高,但今天没人能说清楚正确的技术演进路线是什么的东西。「我们准备好用五年、十年的周期来持续投入。但我们对这件事的认知获取,要循序渐进。认知没到,砸钱都是烂尾工程。」

感知赛道是一个判断,但判断要落地,需要现成的积累。

vivo 的底牌是十年影像。具体看,这十年沉淀的东西有两层。 

第一层是硬件。与蔡司的合作,如今已经走到了联合研发的深水阶段,传感器尺寸这一轮 X300 Ultra 的主摄升到了 1/1.12 英寸,和索尼的合作在往提升半导体转化效率的方向走——他提到了感官技术方面的「雪崩效应」,一种可以把感光元件的进光转化率,从 90% 推到 110% 以上甚至更高的新技术路径。

在硬件层面,胡柏山的判断和行业观察者及媒体大致相同,传感器尺寸已经卷到了边际收益递减的阶段,接下来更大的空间在转化效率和外挂形态——在 X300 Ultra 上,vivo 已经做了 200mm、400mm 定焦增距镜,还有更多在路上。

第二层是算法和认知。

vivo 三年前提出长焦大底,两年后全行业跟上。但跟上硬件很容易,「为什么是那个时间点做这件事」,这个判断很难。vivo 为什么选择在那个时间点上做这件事,动机来自于在影像上多年领跑的经验所形成的认知——没有可以搬运和复制的捷径。

「算法跟认知强相关——认知知道要什么方向,算法匹配,这是需求和技术的有机结合,对手很难快速跟上。」

这个逻辑延伸到端侧 AI 上同样成立。在 X300 Ultra 上,vivo 首次提出了一种「多 agent」理念,也即:

你举起手机拍一张照片,有个 agent 在判断你在拍什么、用多远的焦段、在什么光线下——这个判断,以前需要用户自己去做。而另一个 agent 在整理你的相册,根据你过去的修图习惯推荐或自动添加滤镜,又或者它能自动把几段素材剪成一条可以直接发的短视频。

这不是那种统一的「超级 agent」,比如 Gemini 或豆包手机助手那样的,而是每个场景一个专项 agent,既互通有无,又各干各的。

胡柏山的理由很实际:现有的硬件算力撑不起一个什么都管的大 agent,手机AI的发展要结合硬件的能力上限来推进。

这些工作仰仗 vivo 在端侧 AI 推理上的持续投入。据爱范儿了解,vivo 是手机厂商当中目前在算力购买上花钱最多的——不仅是云端算力,接下来的押注方向,是在旗舰机上嵌入专用的算力芯片。

vivo 的节奏是:先把不要求实时响应的 agent 做好,影像和相册是当前优先级;全域感知是五到十年的目标,always-on、全时段在线、所有感官打通,这是最终的方向。

一切交给时间

今后十年的 vivo,会去往什么方向?

胡柏山给了一个大概的路线图:手机是现在用户的核心产品,往后至少 10 年也仍然不变;MR 需要三到四年;机器人是五年以上。

这三个方向不是各自独立的押注,底层是同一套感知能力在不同形态上的延伸。

vivo 去年成立了机器人 Lab,聚焦「大脑和眼睛」。当被问及目前进展如何,胡柏山很直接地摊牌:「2025年把阶段性目标梳理地更加清楚,2026年进入整个路径的清晰规划。」

但这对于 vivo 来说并不是问题。

在一个各家都在发布机器人样机、争相宣称「具身智能元年」的节点,承认自己还没手搓出实物,是一种不多见的坦诚。胡柏山说「手搓一个机器人不是我们要干的。」

vivo 的机器人逻辑,和感知赛道的投入逻辑是一套:先想清楚目标用户是谁,再定义场景,再识别核心技术控制点,再等技术成熟度到位。

胡柏山告诉爱范儿,目前 vivo 还在论证第一步。他们倾向于服务年轻人,这也正是 vivo 从旗舰到年轻系列产品线一直希望抢占心智的群体。vivo 的第一代家庭机器人,可能的起点,是照顾宠物和叠衣服也说不定。

但这个场景,会不会太小?胡柏山认为,不能一上来就做通用机器人,不可能刚一开始就把所有的场景都做好。如果你非要那么做,最终的结果也只能是每个场景都不及格。

诚然,今天的具身智能机器人,可能做预录制的舞蹈能做到一百分,其他场景都没有足够的说服力。特别是在家务场景,「就说打鸡蛋这件事,想要做到百分百成功率,人都不一定,机器人十年内也做不到。」

胡柏山希望,vivo 的机器人能够先把一件具体的事情做到 60-70 分,然后一代一代泛化,优化现有的场景,再获得新的能力。

喂好了宠物,场景数据就来了。场景数据够了,机器人就知道这只狗每天几点饿,进而知道这家人几点起床,进而知道这家人的生活节律。不需要一步到位,因为每一步都在为下一步备料。胡柏山管这叫「沿途下蛋」。

这个逻辑,和在手机端押注感知的逻辑,是统一的:先把影像 agent 做好,场景数据够了,感知能力才往外延伸。

但在机器人的旁边,手机扮演什么角色?「手机是最懂你的随身数字助理。你的行为习惯、偏好、你喜欢养什么宠物,都在手机里。」胡柏山说,机器人早期做不好的事,手机可以遥控介入补足。

就像自动驾驶的早期,人类一直在干预,干预产生数据,数据让系统越来越好。「手机和机器人之间,场景数据是打通的。」

当然,他也没有把话说满。感知这个赛道,其他人也在做。包括苹果、谷歌等在内都有自己的感知计算框架。vivo 在这个方向上的竞争空间,更多在手机端的小模型感知这个细分方向。这是除了苹果以外的大厂,暂时没有重点关注的地方。

今年,胡柏山给机器人 Lab 设的任务,是把路径图画出来:目标用户、核心场景、关键技术节点、以及「技术成熟到可以商业化」的时间预期。

vivo 叫停了 AI 眼镜项目。他算了一笔账:一年几十万台,不符合目标体量;两年内又做不出差异化;技术平台目前也撑不起 80 分以上的体验(超过 30g 戴在鼻子上会很累)——三个条件一个都没过,砍掉没毛病。

「三年后做也不着急,它不是关键品类。」

不过,这个决定放在今天的背景下,还是有点逆势。2025 年 AI 眼镜是行业里最热的新品类之一,这个事实有目共睹。Ray-Ban Meta 卖爆,国内跟进者一茬接一茬。

创始人兼 CEO 沈炜在年会上表示,vivo 今年的策略是「少押注,押重注」。vivo 选择给 AI 眼镜按下暂停键,但将感知赛道的存在地位升级,其实是统一的逻辑和筛选标准的一体两面:一个赛道的天花板够不够高、vivo 自身的差异化属性够不够、技术平台能不能支撑长期投入。

这种思路,与近期 OpenAI 等在内的硅谷巨头,摒弃「支线任务」,聚焦真正长板的思路不谋而合。

2026 年选定的道路,vivo 会走到哪,现在胡柏山也还给不出答案。感知一体化的技术难题还没有解,端侧专用芯片的落地有难度,机器人的路径图今年才刚开始画。

胡柏山知道这些,也没有回避。他说,认知到了加油门,认知没到宁可慢。

手机行业正在经历一个奇怪的时刻:换机周期拉长到四十个月,中国市场年销量从高峰期的五亿多部跌到现在约 2.5 亿部,存量市场的天花板清晰可见;但 AI 带来的能力跃升,又让所有人觉得什么地方似乎还藏着一点增量。

胡柏山的判断是,从 Smartphone(智能手机)到 Agent Phone(智能体手机),才是把存量市场变成增量市场的机会。而感知,是这个机会里他认为最难被复制的护城河。 

接下来交给时间。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

别再捣鼓没用的龙虾了,目前 AI Agent 最好的落地容器,是汽车

By: 芥末
22 March 2026 at 10:09

清晨 6:45。你的日历里标注着 9:00 在会展中心的会议。

你还没起身,Agent 在后台已经完成了几轮判断。

今天气温升高了几度,有点热;当天场馆周边有大型活动,常走路线预计会很堵;车辆电量还剩 62%,足够往返。

于是系统自动将出发提醒从原本的闹钟时间提前至 7:20,同时将车内温度预设为 22 度,打开你惯常收听的晨间播客。

等你下楼、走出电梯、拉开车门,车已经像刚刚被人收拾好一样,温度合适,路线妥当,内容也备好了。

你没有按按钮,也没有说一句话,可它已经知道该做什么。这大概就是今天人们对 AI Agent 最具体、也最迷人的想象。

▲《钢铁侠》中的贾维斯就是这种幻想的终极表达

它不再只是网页上的一个对话框,不再只是你输入一句、它回一句的机器人。

它开始离开屏幕,走进物理世界,替你处理那些原本需要手、眼、耳同时介入的小事。

聪明的 Agent 撞上了「墙」

过去一个多月,这种科幻般的想象突然变得触手可及。即便平时不太关注 AI 的人,大概也刷到过那个频频出圈的「龙虾 OpenClaw」。

与过去那些只会聊天的 AI 不同, OpenClaw 这类工具看起来更符合大众脑海中「真正的 Agent」的形象,它能接管键盘和鼠标,在终端后台运行,直接调用系统 API 干活。

有人让它写代码,有人让它定时整理邮件、规划待办事项,还有人干脆把查航班、选座、值机这一整套杂活全扔给它。它就像一个永不下班的超级实习生,动作快、能力强,理论上什么活儿都能接。

但热潮来得快,退得也快。 算力配置昂贵、调用成本高,加上脆弱的安全默认设置,想要将其转化为稳定的生产力,中间还隔着重重门槛。

因此,舆论在很短时间里完成了一次反转,先是「第一批靠龙虾赚钱的人出现了」,接着就变成「第一批龙虾受害者出现了」,再后来,甚至有人开始花钱请人上门卸载。

手机端的 Agent 们也是类似的情况,能自动比价、下单、甚至发微信的豆包手机,刚一露头,就被各大平台联手设限。

屏幕里的 Agent 明明已经很聪明,却总在最后一步碰壁。这堵「墙」,有时是系统权限,有时是封闭生态,有时则是巨头们的商业利益。

这一困境恰好反衬出另一个硬件终端的巨大潜力——汽车,反而成了 Agent 最有可能率先落地的场景。

这件事颇具历史的讽刺意味。

新能源汽车刚兴起时,业界几乎一致认为,智能汽车会是继智能手机之后的下一个超级硬件入口。

那几年,车企的宣传口吻与手机厂商如出一辙:自研 OS、封闭生态、应用商店、开发者平台、争夺用户停留时长。

大家都把车做成「带轮子的大手机」。奔驰、宝马、大众都在讲自己的车载系统,吉利和沃尔沃成立亿咖通,比亚迪也早早就开放了自己的车载 SDK。

那时的大家都有一种很熟悉的乐观,好像只要把手机那套再复制一遍,中控屏就会成为新的黄金地段,广告、分成、增值服务都会顺着这些流进来。

▲ 各种各样的车载应用

但车终究不是手机。

车企们后来发现,除了导航和在线音乐,大多数车载 App 的活跃数据都惨不忍睹。没人真想在车里打游戏,在车机上购物总觉得别扭,短视频一上线就被安全监管盯上,连看起来极具想象空间的「车载 KTV」,实际使用率也远不如宣传的那般热闹。

毕竟,人开车上路是为了出行,而不是为了操作一块屏幕。

手机是一个能独占注意力的设备。你低头看屏幕、滑动手指,整个人都可以沉浸其中。但汽车不行,尤其是在驾驶过程中,驾驶员的眼睛必须注视路面,双手必须控制方向盘。

在时速 120 公里的高速上,视线只要离开路面 2 秒,车辆就已经向前飞驰了 67 米。在这 67 米的盲区里,足以发生任何意外。

车主们也很快意识到了这一点,为了打开座椅通风,居然要在屏幕里翻找二级菜单。这种看似「先进」的设计,真到了路上只会让人暴躁。

正因如此,智能座舱的发展轨迹并没有沿着「繁荣 App 生态」这条路继续走下去,而是几乎直接跳跃到了另一场革命:由大模型驱动的交互变革。那些曾被寄予厚望的车载 App,还没来得及开花结果就被边缘化了。

▲ 车企们逐渐恢复了物理按键

手机做不到的,汽车天生就会

舞台的新主角换成了 Agent。它不再强调「我能给你提供多少个入口」,而是主打「我能替你把事办完」。

2019 年,小鹏 P7 曾把「全场景语音控制」作为一个极其亮眼的卖点。当时的评测经常演示这样一个场景:车主说一句「我有点冷」,空调温度就会自动调高 2 度。这在当时无疑是巨大的进步,比手动戳屏幕方便得多,也更有未来感。

但在工程逻辑上,它背后依然依赖着一张预设好的「语句—指令」映射表。系统听到「我有点冷」,就在代码表里匹配到对应选项,执行「空调升温 2 度」。这更像是一本厚厚的词典,翻页速度很快,但毫无思考能力。你说对了触发词,它就响应;你稍微换个说法,它就开始「我还不会哦」。

▲ 你好小 P

不过很快,我们将迎来具备主动感知能力的 Agent,它将开始能够理解意图,具备主动感知能力,并能跨系统编排复杂的动作。

它不会傻等着你发号施令,而是像一个资深的管家,平时就在一旁默默观察、聆听和记录。比如你说「今天心情不太好」,旧系统往往会礼貌地失灵,或者只是给你一点心灵鸡汤。

因为这句话不对应哪一个明确按键。可 Agent 可能会联想到情绪、环境、偏好之间的关系,自己把音量调低,把氛围灯收暗一点,切一首没那么躁的歌。它不一定每次都猜得完全准,但它已经不再只是在执行口令了。

腾讯之前展示过一种场景感知型 Agent,可以结合时间、地点、用户习惯主动给建议,也能接入点餐、停车缴费这类服务。

还有一些座舱 Agent 的预研方向,已经能识别后排乘客是否睡着,然后自动降低后排音量,微调温度,甚至改变出风方式。

想象一下,一家人周末出门,车开在高架上,后排的小孩睡着了,传统语音系统需要你说一句「把后排空调调小一点」。

真正的 Agent 却可能自己判断出,这时候要做的不是一个动作,而是一串连贯动作:把后排音响关小,调一下空调风向,稍微降低车窗透光率,让后排光线别那么亮;底盘切到更柔和的模式,把细碎颠簸过滤掉;如果智驾开着,再顺手把跟车策略调保守一点,让加减速更平滑。前排的大人甚至没有意识到自己下达过什么命令,车厢已经默默把环境改好了。

这就不再是一个功能在工作,而是整辆车作为一个整体,完成了一次从感知到响应的闭环。

这种真正让汽车和其他终端拉开差距的,是跨域协同的能力。

过去汽车的电子电气架构,像一座分租出去的大宅子。座舱域管娱乐、空调、座椅;底盘域管悬挂、制动、转向;智驾域管 ADAS 和自动驾驶。每一层都有自己的边界,彼此之间不像一间房那样自然贯通。

旧式语音系统,通常只能在某一个域里做单点操作,说白了就是隔着门传话。而 Agent 不一样。它收到的往往是模糊意图,却能跨过几扇门,把几个系统一起调度起来。

也正因如此,汽车可能是今天所有终端里,最适合 Agent 落地的那个容器。原因就在于它足够统一,足够封闭,也足够可控。

一个典型的反面例子是智能家居。

搞过装修的朋友都知道,家里的电器,空调是一个牌子,灯是一个牌子,窗帘电机又是另一个牌子,音箱和门锁也各玩各的协议。

看上去你买的是一套「智能生活」,实际到手常常是一堆彼此不怎么来往的设备。

Matter 协议 2022 年就出来了,试图给这个行业造一门通用语言,但各家厂商在底层依然固守着私有接口和数据壁垒。

所以现在智能家居最顺的体验,往往还是「全家桶」。

手机端面临的困境也大同小异。你想让手机助手点杯咖啡,再去微信提醒朋友,最后切到高德导航,听起来就 3 步,背后却牵涉到几家超级 App 之间漫长而脆弱的利益博弈。任何一方觉得吃亏,链路就会中断。

相比之下,汽车的情况简单得多。至少在车内这个封闭世界里,规则主要由车企自己说了算。底盘、空调、音响、座椅和灯光,天生就生长在同一张网络里。

当然,汽车座舱也并非乌托邦。它的使用场景更加集中,核心永远围绕出行、驾驶和在途体验,这使得 Agent 在车内比在手机上更容易构建出稳定的上下文逻辑。

但相应的,它的试错成本也高昂得多。智能家居误判最多半夜亮灯;车上的 Agent 一旦触及安全控制权发生误判,后果不堪设想。

从「坐在车里的你」,到「完整的你」

近年来,中国新能源汽车市场的竞争日趋白热化,硬件层面的差距越缩越小。如今真正能拉开代差的,反而是智能化体验。

加上中国用户对新技术的接受度极高,这几股力量汇聚,形成了一个罕见的加速器。这也是为什么近两年来,最激进、最具规模的 Agent 上车实践大多发生在中国。

然而,当车内 Agent 进化到一定阶段后,很快又会面临新的瓶颈,它仅仅认识「坐在车里的你」是远远不够的。

 

它知道你喜欢听什么歌、习惯多少度的空调,这很有用,但还太浅。它还得知道你昨晚几点入睡,明天几点开会,最近常去哪里,何时最不想被打扰。

它需要把你当作一个生活在连续时间轴上的「完整的人」来理解。

这正是华为、小米这类拥有全场景生态体系的玩家最大的优势所在。他们的野心不止于「车里的 Agent」,而是要构建一个跨越不同终端的「个人 Agent」。

上周,小米推出了移动端 AI Agent 测试产品 Xiaomi miclaw,基于自研 MiMo 大模型构建,核心目标是验证大模型在「人车家全生态」中的任务执行能力。

Miclaw 以系统应用身份运行,可深度调用超过50项手机底层能力,涵盖短信、日历、相机乃至米家智能家居设备实现从「对话」到「执行」的跨越。

更值得关注的是它采用「自进化」设计,支持文件级记忆、子智能体创建和 MCP 服务接入,能自主设计记忆系统、创建专业分工的子智能体,用得越多,就越懂用户的偏好与习惯。

虽然 Miclaw 还没有完成人车家全生态的接入,但趋势已经相当明显,你在不同设备上留下的行为数据,将被拼接成一条完整的生活轨迹。

▲小米 Claw 的部分功能

这时,文章开头描绘的那个清晨场景就不再是科幻电影,而是越来越多人的日常。

Agent 掌握了你的日程、习惯和生理状态,于是悄无声息地提前了唤醒时间,重新规划了路线,并为你布置好了舒适的座舱环境。

技术发展的最终形态,经常会出现一种有趣的「反转」,最成熟的技术,往往既不科幻,也不性感。

蒸汽机刚发明时,所有人都盯着那股喷涌的巨大白汽;而当电力真正普及后,人们反而很少低头去留意墙里的线路。

Agent 亦是如此。它真正动人的力量,不在于把人训练成更加熟练的机器操作员,不在于逼迫你熟记更多的唤醒词和口令;而在于它能不动声色地将你从繁琐的操作中彻底解放出来。

未来的汽车依然是那辆汽车,方向盘、座椅、车窗和轮胎都还在。但它已经开始理解你的生活节奏,记住你的个人偏好,默默替你打理好那些原本需要你亲自动手、动脑去安排的每一件小事。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

实测 MiniMax M2.7:AI 狠起来,连自己都卷

By: 张子豪
20 March 2026 at 11:13

龙虾爆火之后,全网的注意力都盯着「它该怎么用」——本地部署还是云端、一键安装还是敲命令、要不要接微信飞书……反而没人再认真问那个老问题:驱动龙虾的那颗「大脑」,够不够聪明?

这倒不奇怪。OpenAI 和 Google 最近发布的几款新模型,清一色都是 Mini、Flash 款,官方潜台词几乎写在脸上:专门给 Agent 大量消耗 Token 准备的。

模型本身的能力边界,反而成了最不被讨论的话题。

一个真正适配龙虾的模型,除了 Token 要量大管饱还实惠,更多的是模型要足够聪明、动手能力和学习能力足够强。

最近,MiniMax 正式推出了全新的 MiniMax M2.7 模型,主打「开启 AI 的自我进化」和做「最强的 Cowork Agent 模型」,既能处理代码工作、常见的 Office 任务,还能主动学习构建稳定的 Agent 系统。

具体来说,它能做好的工作比大多数模型要更宽。对于写代码,M2.7 能真正理解一个系统在运行时发生了什么,做到了 SRE(网站可靠性工程)级别的系统推理,看日志、关联时间线、推断根因、给出有优先级的处理方案。新模型在 SWE-Pro 上跑了 56.2%,几乎追平 Opus 4.6。

办公场景里它已经够用了。 Excel、Word、PPT 的复杂编辑和多轮修改,M2.7 在这块有明显提升,金融分析这类需要专业知识 + 格式交付的场景尤其明显。不能说它可以完全替代专业人士,但是真正进入工作流,作为辅助完全可以。

它在多 Agent 协作里不会「断掉」。 这是 M2.7 专项打磨的能力,多角色场景下边界清晰,面对包含 50+ Skills 的复杂环境,依然能保持极高的指令遵循能力。

然后是这次更新的重点,它开始参与优化自己了。 MiniMax 说 M2.7 是他们第一个深度参与迭代自己的模型,不只是「辅助迭代」,是「深度参与迭代自己」。能够自我进化,M2.7 可以自主迭代 Agent Harness(智能体脚手架)来胜任大部分的工作流。

实战能力的提升,也让 MiniMax M2.7 一发布就在龙虾榜上迅速攀升,来到了最高分排行榜的第四名。

▲PinchBench 排行榜是为 OpenClaw 量身定做的模型评估基准,它测试的是大模型在 OpenClaw 真实业务场景下的表现,图中为任务成功率指标,MiniMax M2.7 排名第四,在 Claude Opus 4.6 之后|https://pinchbench.com/

我们也在 Claude Code、本地部署的龙虾里,都接入了 MiniMax M2.7 模型,以及 MiniMax 提供的 MaxClaw,然后把真实的开发过程中遇到的 Bug、枯燥的金融数据,还有大量的长流程任务统统交给它。

两天的测试下来,我们发现不仅软件要为了 AI 重做,就连 AI 模型本身,除了要理解人类的用意和产出人类满意的结果,模型更需要懂得 AI 的工作方式和工作流,还得学会自己优化自己

用 AI 的工作流当人类的助手

在 OpenClaw 等 Agent 框架爆火后,真正的「AI 时代工作流」应该是,AI 作为核心运转枢纽,去调用几十个工具、去指挥其他 AI 队友、甚至去优化 AI 自己的代码。

在测试 MiniMax M2.7 是如何自我进化之前,我想先看看它的 AI 工作流如何。它到底是不是一个好用的 Agent 模型,还是说拿去跑个 benchmark 好看,实际用起来一言难尽。

我们从知名的机器学习挑战赛 Kaggle 的网站上下载了一份股票的历史数据,然后按照比赛的要求,告诉 MiniMax M2.7 帮我实现对应的需求,即根据给定的数据,进行合适的数据处理和特征工程,为我生成一份可视化的分析报告。

整个数据集的内容相当庞大,有超过 3000 行的表格数据,整体文件大小来到 446.35 MB。把 5 个表格数据文件下载到本地之后,我们使用接入了 MiniMax M2.7 的 Claude Code 来完成这项工作。

要做好这份分析,需要模型是个数据分析师完成数据清洗和整理、宏观分析师完成对应的金融市场的洞察、统计分析师完成初步的数学建模、算法工程师要建立对应的模型,最后还有网页工程师要交出一个可视化的方案。

面对这样一个复杂的任务,MiniMax M2.7 充分利用了我已经安装的各种 Skills,它先使用 Anthropic 官方提供的 xlsx 完成了表格数据结构的信息读取,接着开始编写 Python 代码,自动安装 Pandas 库(常用来处理表格数据),一步一步进行。

最后,MiniMax M2.7 也交出了一份完整的可视化方案,它同时生成了多张图片用来展示收益率分布,不同特征的重要性和类别排名,以及综合仪表盘。

而在可视化的网页里,它利用 Streamlit 库将数据脚本直接转成了可交互的网页系统,所有的信息都可以直接动态查看。

这种大型的项目任务,MiniMax 能够顺利完成,我们日常工作中的办公和编程任务,就更不用说了。

我们先是在手机上操作龙虾,让它帮我总结我放在电脑上的文件,然后要求 MiniMax M2.7 根据这份文件,帮我写一个研究计划 Word 文件,再整理一份相关论文的 Excel 文档,最后是一个用来组会做汇报的 PPT 文档,直接在手机上就能操作。

▲接入 MiniMax M2.7 的龙虾能快速回应需求

▲Office 三件套的处理如今是不在话下

在办公领域的优势,也让 MiniMax M2.7 在衡量专业知识与任务交付能力的 GDPval-AA 评测中,ELO 得分达到了 1495,国产模型最高。

前段时间,AI 工作助手的可视化面板很火,把龙虾放到了真实的二次元风格办公室里,用一句话就能安装到自己的 OpenClaw。我们也成功让这只 Appso 小龙虾有了自己的家,但是如果我想要修改二次元房间布局,可以怎么做呢?交给 MiniMax。

在 OpenClaw 的可视化本地界面里,我们直接发送「我想修改这个小房子的风格该怎么做?」,MiniMax M2.7 会自动阅读项目的代码,然后告诉我们哪些地方是可以修改的,如何修改。

由于我输入的要求是科技编辑部办公室的风格,然后它就帮我修改成了有星球大战的海报,还加了十几个人坐在电脑前面码字。

不过我们没有在 OpenClaw 内配置 Nano Banana Pro 的 API Key,所以 MiniMax M2.7 在 OpenClaw 里帮我选择了用代码的方式来生成简单的图片。

接着和它聊天,我们还能根据这个风格设计一个编辑部大亨的游戏,谁做的任务多,谁的办公室就大,就能升级。

如果是 MiniMax 官方的 MaxClaw,是直接支持多模态的生成,可以一步到位生成视频、音频、图片等,不需要配置额外的 API。

我们使用官方提供的 gif-sticker-maker Skill 生成了几张马斯克的表情包。云端部署的 MaxClaw 能确保运行环境的足够安全,但是它不允许我们像操作本地电脑一样,任意安装不同的库文件。

最后在将视频转成 GIF 时,MaxClaw 提醒我,它没有足够的权限将 ffmpeg(一个开源的多媒体处理库)安装到云端服务器上。

▲在 MaxClaw 内可以直接使用 MiniMax M2.7,它会自动调用海螺等视频、音频和图片生成模型,为我们生成多媒体文件,而不需要额外配置专门的 API KEY。

点击 MaxClaw 对话框下面的技能,我们就能看到所有安装在 MaxClaw 的 Skills 详情,并且点击「问问 MaxClaw」,它会自动编辑一条消息「告诉我 frontend-dev 能做什么,并告诉我如何使用它」,引导我们学习如何使用这项 Skill。

除了 GIF 生成这个 Skill,MiniMax 还提供了包括前端开发、全栈后端、安卓和 iOS 应用开发以及创作惊艳视觉效果的 GLSL 着色技术等技能库,我们可以直接在龙虾里发送「你能帮我安装这个项目里的 Skill 吗 https://github.com/MiniMax-AI/skills」,龙虾会自动获取 Skill 文档完成安装。

▲下载链接:https://github.com/MiniMax-AI/skills

AI 狠起来,连自己都卷

除了在日常工作和办公领域上表现出的完整工作流,以及实际的交付能力,MiniMax M2.7 最让我们感到特别的,还有它展现出的「模型自迭代闭环」。

MiniMax 曾提到人类研究员只需要把控大方向,把构建系统的任务交给模型,它就能以解决方案架构师的身份自主搭建开发 Agent harness。

Agent harness 可以理解成套在 AI agent 外面的一层运行基础设施。模型负责思考,harness 负责把这个「会想」的东西,变成一个能稳定干活的系统。这个系统像是运行层,负责让 agent 在真实环境里稳定运行。

为了测试 M2.7 的极限,MiniMax 让它去优化某个内部脚手架的软件工程表现。结果,M2.7 全程零人工干预,硬生生跑出了一个超过 100 轮的迭代循环。

它自己分析失败轨迹,自己规划改动,改完脚手架代码再去跑评测,最后对比结果决定是保留还是回退。在不停歇自我互搏中,它自己发现了最优解,最终让评测集上的效果飙升了 30%。

这种「AI 搞科研」的能力也在公开的测试集上得到了验证,MiniMax M2.7 被扔进了全球最大的机器学习竞赛 Kaggle 的 MLE Lite 测试集。

22 道高难度竞赛题,M2.7 依靠内部的短时记忆文件和自反馈机制,每跑完一轮就给自己提优化建议。

24 小时内,它一举拿下了 9 枚金牌、5 枚银牌、1 枚铜牌,得牌率 66.6%。

这个成绩,仅次于 Opus-4.6(75.7%)和 GPT-5.4(71.2%),与 Gemini-3.1 直接打平。

当一个模型能够以解决方案架构师的身份,仅用 1 人 4 天时间,零人工编码就搭出一套包含测试和代码审查的 Agent 系统时,AI 研发的齿轮,大概已经换上了自动挡。

在极其硬核的生产力之外,MiniMax M2.7 的底层框架也赋予了它长程稳定的记忆和极强的情商,这让它在互动角色扮演(Roleplay)上,比传统的闲聊机器人表现要好上不少。

官方在 GitHub 上开源了一个多模态交互系统 OpenRoom,一个万物皆可互动的 Web GUI 空间,可以实时地让 AI 与空间产生不同的交互。

AI 开始学会「自己工作」,这件事比写好代码更重要

体验下来,MiniMax M2.7 真正让我们在意的,不是它把 Kaggle 竞赛刷出了 66.6% 的得牌率,也不是 Office 三件套交付得足够干净。

而是它在试图解决一件更底层的事:让 AI 真正理解工作流,并且参与到工作流的演化里

过去,软件是人写的、人用的。现在,AI 开始写软件、改软件、用软件。当一个模型能够在没有人工编码的情况下,自己搭系统、自己测试、自己回退——「AI 研发」这件事的齿轮,某种程度上已经换上了自动挡。

所谓「龙虾到底该怎么用」,我想很快就不再是一个问题——因为决定这一切的,不再是我们。

而是那个,开始学会自己工作的 AI。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

被 OpenClaw 选中的飞书 ,终于给出小白无痛养虾「版本答案」

By: 杜晨
19 March 2026 at 19:28

2026 年 1 月,OpenClaw 席卷中文互联网。仅仅两个月后,龙虾已经进入了「全民卸载」周期。

龙虾的问题不是它不够强,而是它很难服务于每一个普通人。

从安装到卸载,第一批「养虾人」的故事,暴露了 OpenClaw 的尴尬:Agent 怎么能产生真正的生产力价值?

今天,飞书的新品发布会,想给每个人一个答案。

给每个人的智能伙伴

OpenClaw 爆火之后,有着开放、易用的机器人机制的飞书,也跟着走红了。

API 调用额度从 1 万次提到 5 万次,再到目前的 100 万次;3 月 5 日推出官方插件,让 Agent 可以直接读写飞书文档、日历和多维表格,把「养虾」的门槛从「会写代码」降到「会用飞书」。

这些动作,确实让龙虾更好养了。但 OpenClaw 本身的弊端,飞书仍然解决不了:配置复杂、普通用户上手门槛高、原生部署安全隐患大,等等。

结论是:Agent 要真正落地,必须是一个上手即用的智能伙伴。它的安全是基本线,更要能直接与每个人的工作流丝滑融合。

今天正式升级的 飞书 aily,就是飞书给出的答案。

飞书 aily 是什么?官方定位是「每个人的智能伙伴」。形态上,它以 Bot 的方式常驻在飞书联系人列表里,打开飞书就能找到,对话即交互。30 秒激活,零配置。

  • 飞书 aily 有长期记忆,会随着你的使用逐渐记住你负责什么业务、偏好怎么沟通、喜欢什么格式。
  • 它的权限与你的飞书账户完全一致——你能看什么文档,它就能操作什么文档,敏感操作需要你确认,所有动作全程可追溯。
  • 它还有官方认证的技能市场,经过安全扫描,可以按需安装。

可以说,飞书 aily 是 OpenClaw,或者更广泛定义上「龙虾」理念的一种呈现方式。但它又跟开源的原生版 OpenClaw 有着本质的区别:

龙虾是你自己养的宠物,飞书 aily 是公司给你配的同事,入职了,开权限了,准备好和你一起开始工作了。

对于需要处理更复杂工作流的用户,还有独立的飞书 aily 专业版(aily.feishu.cn),有图形界面,可以让有需求的开发者、公司 IT 管理员去构建多步骤的自动化任务。

接下来的实测,我们会聚焦在普通人更好用的 Bot 形态,但两者底层逻辑相同。

龙虾承诺的太多,其实 aily 就够了

把飞书 aily 放进了实际工作流里,我们测了几个最日常的用法。

先来一个极高频的场景:飞书拉会。

在任务过程中,飞书 aily 直接查询了 APPSO 组织架构内的用户 ID——这一步放在别的 AI 工具里根本做不到。它能做这件事,是因为统一的权限机制。你在飞书里能看到的,它就能看到。

确认了人、确认了时间,调用飞书日历技能,一个会议就建好了。

从任务发起,到创建完成,大约半分钟。不敢说比飞书达人手搓更快,至少主打一句话搞定。

让打工人感觉痛苦,但又不得不做的事情,做月报肯定算一个。

我们把自己的社媒平台数据,先上传到了飞书云盘,然后交给飞书 aily。提示词很简单:查找不同媒体平台数据生成多维表格;再跟员工汇报文档结合,生成一份团队月报。

它整理了一共 9 份不同格式的文件,交付了一份月度汇报,以及可以作为附件的多维表格——时间只用了不到 4 分钟。同样的工作,APPSO 去年还在纯手搓,要用至少两个小时。

顺便一提,如果你想从零搭一套数据追踪的业务系统,子产品飞书妙搭也支持用自然语言描述需求,直接生成一套业务系统应用。

不一定每次都用得上,但有飞书 aily 在,你知道自己不用再求人了。

接下来,我们再看一个相对更复杂、偏创作/生成向的任务,看看飞书 aily 作为自媒体搭子好不好用。

作为 APPSO 的深度报道作者,我会写很多晦涩难懂的文章,在社媒平台传播的时候就需要生成有针对性的、更浅显易懂的版本。

我们还是可以直接在飞书 app 里,通过设定好的机器人来发指令。不过,这个任务其实更适合用飞书 aily 的专业版来完成。有图形界面 (GUI) 的辅助,可以精细化输入和调整,还可以更方便地调用原生支持的各种工具、技能和插件。

飞书里直接搜索飞书 aily,或者打开 aily.feishu.cn,就进入到了专业版界面。

它支持用户上传自定义 skill。虽然官方技能库非常丰富,但我还是想上传一个我之前经常用的「content-creator」(内容创作者)技能。

装完 skill 之后,我们只需要在对话框里输入 /content-creator(具体的 skill 命令因人而异),就能唤醒它。再把文件链接给到,它就能开始帮我写稿去了。

这种技能/插件的调用方式,和 Claude Code、Cowork、OpenClaw 等产品相同,熟悉度拉满。

开始工作后,我们能够在后台看到,飞书 aily 先是做了一个 plan,将任务分解成 5 个步骤。

即便是不指名到具体的 skill 上,飞书 aily 仍然可以判断我的意图然后调用对应的技能来完成工作。

APPSO 在这里其实还做了 A/B 测试,激活或不激活技能,任务完成时间分别是一分半和三分钟——都不算特别久,但显然调用 skill 工作更快,而且利用技能写出来的感觉更好。

无论是各种官方还是第三方的 skill,飞书 aily 都能完美适配。不过这里 APPSO 还是建议大家不要在不熟悉的情况下乱装 skill,尽量以官方的技能商城为准。

工作完成后,点击右上角的工作区,能够查看生成的内容了。

三个场景测下来,有一个感受越来越清晰:飞书 aily 跟那些「AI 生成一个文件发给你」的工具,体验差异还是很明显的。它的交付物是文档、表格、任务,可以继续被协作、被引用、被追踪。

龙虾当初让大家兴奋的那个期待,其实一直都很具体:帮我做完一件费时、费力的小事,让我能腾出脑子去处理真正重要的东西,别让心流被一堆琐碎打断。飞书 aily 做到了这一点,龙虾没有。

当然,OpenClaw 有很多「出格」的操作,它还做不到:操控本地文件系统、执行任意命令等。但换一个角度,这种「克制」本身就是企业场景的必要条件。哪怕一个新实习生学历再高、能力再强、多有灵气,公司不会给 ta 配上服务器根权限——这很正常。

飞书本就是个强有力的生产力工具。飞书来做龙虾/agent,当然不是为了实现什么 AGI。在各种宏大的叙事之外,先让普通人的打工人生更轻松,才是更重要的。

飞书 aily 支持定时任务创建,交互比 OpenClaw 更轻松

Agent 落地企业,其实并不难

企业 Agent 的竞争,正在往一个很多人还没意识到的维度转移。

过去两年,行业的注意力主要在两件事上:模型能力(谁的参数更大、基准跑分更高),以及 C 端爆发(谁的 Agent 更酷、更会演示)。

OpenClaw 的火爆是这个逻辑的顶点——一个开源框架,凭借「能干活」的形象引爆全民。

但龙虾从爆火,到卸载,仅用了两个月就快走完了一个周期,里面有一个不能更朴素、更明显的道理:

「能干活」是必要条件,绝非充分条件。

Agent 要在企业环境里真正落地,需要的远不止一个会执行命令的 AI——它需要懂业务,需要匹配组织的权限构架,需要嵌入团队已有的工作流,而不是在旁边开一个新窗口,重新训练一个昂贵且笨的「实习生」。

诚然,中国绝大部分的工作发生在微信上——团队工作的本质是沟通,这个道理上过班的人基本都明白。但飞书、钉钉、企微的流行,从侧面证明了工作绝不仅仅是沟通那么简单。

聪明人在一起工作,沟通早已不是问题。聪明人开始发现,那些聪明人也不得不干的「笨事情」,才是效率提升的真正空间所在。

Agent 的上限,取决于它能「读懂」多少你的工作。但在工作的语境下,「读懂」并不意味着你要把自己的电脑交给它。

而读懂,靠的是上下文——你留下过的笔记,开过的会和会议纪要,跟谁在群里讨论过什么,哪些项目在推进,哪些决策已经做出。

这些东西,叫做企业上下文数据,其实正是一个商业机构运转的引擎。它不存在于模型里,也不能从网上抓取,它在企业内部的协作平台上,以消息、文档、日历、审批的形式慢慢沉淀,日积月累。

飞书沉淀这些东西,已经好几年了。

OpenClaw 爆火后,中文开发者自发聚集到飞书,原因很简单——Bot 创建不需要审批,不需要公网 IP,摩擦最少。社区发起人杨明锋在自己的分支里先实现了飞书扩展,2 月 4 日被官方合并。

把 OpenClaw 的门槛从「会写代码」降到「会用飞书」,是飞书能做的事,也是其他平台很难复制的动作。

飞书目前是 OpenClaw 官方唯一原生支持的中国 IM 软件

飞书大概率没有预料到这一切,但它一直在做的那套东西——足够开放、接口通畅、数据互通——恰好就是龙虾最需要的基础设施。

当在飞书中激活飞书 aily ,它读到的上下文,远比文档里的文字、表格里的数据更多。它知道这份文档是上周评审会讨论的结果,知道那个多维表格由哪个团队维护,知道@你的消息通常意味着什么优先级。

——这些,都是外部的 Agent 产品,难以复制的东西。你可以在后端接入强大的模型,可以用各种服务框架、插件、技能、hook 来强化体验。但你的工作记录,专属于你的公司、属于你的上下文,是不可被替换、很难被简单搬运走的。

竞争对手可以做出一个功能相近的 Agent,但它接入的只是空壳;而飞书 aily 面前的,是一个已经蓄满水的池塘。

这个逻辑延伸出去,还有一个更大的判断:企业 Agent 的竞争格局,最终将由「谁的地盘里的上下文最充裕」,而不是「谁的模型最强」来决定。

模型能力不是不重要,但模型的高度商品化,是既成事实;多年沉淀的上下文生态,才成了真正的护城河。

企业 Agent 时代的入口,应该是上下文最深的平台。飞书已经成为了这个入口。

钉钉有更大的用户基数,腾讯有 QQ 和微信的社交图谱,企业微信有腾讯的 B 端关系链。飞书的优势,在这三者里反而是最「纵深」的:它的用户群以科技、互联网和成长型企业为主,这批人对 AI 的接受度高,工作上下文的数字化程度也最高。

换句话说,飞书的地盘虽然不是最大的,但上下文密度可能是最高的。你在哪个平台留下了最多的工作痕迹,那个平台的 Agent 就最懂你。

究其根本,大多数人们对于龙虾的期待,并不能通过 OpenClaw 来解决。

两年后的办公 AI,会变成什么样子,没人知道。但至少今天的答案,就在工作已经在发生的地方,在飞书 aily 的身上。

飞书一直是对 agent 最友好的工作台,无论 AI 怎么进化,其实万变不离其宗。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,英伟达龙虾登场!黄仁勋暴论频出,「人车家天地芯」冲击万亿收入

By: 莫崇宇
17 March 2026 at 06:42

今年英伟达 GTC 主题演讲,应该是史上悬念最少的一届。

2022 年说元宇宙,2023-2024 年说生成式 AI,2025 年说物理 AI。但今年不一样,即便台上英伟达创始人黄仁勋的演讲还没有开始,但台下所有人已经知道答案了——Agent。

包括英伟达也悄悄在 GTC 园区里开设了「Build-a-Claw」互动专区,让与会者现场搭建自己的AI Agent。 从芯片到模型,从英伟达版龙虾到数据中心,今年主题演讲的潜台词只有一句话:

一切都要为 Agent 让路。

专为 Agentic AI 打造的 Vera Rubin 正式发布

如果说 Hopper 架构开启了生成式 AI(Generative AI)的时代,让机器学会了「说话」;那么 Vera Rubin 的使命,就是开启智能体(Agentic AI)时代,让机器学会「干活」。

  • 英伟达 Vera Rubin 架构包含七款芯片、五套机架系统,以及一台用于 AI Agent 的超级计算机
  • 七款芯片分别是 NVIDIA Vera CPU、NVIDIA Rubin GPU、NVIDIA NVLink™ 6 交换机、NVIDIA ConnectX-9 超级网卡、NVIDIA BlueField-4 DPU 和 NVIDIA Spectrum™-6 以太网交换机,以及新集成的 NVIDIA Groq 3 LPU
  • 五个机架分别是 NVIDIA Vera Rubin NVL72 机架、NVIDIA Vera CPU 机架、NVIDIA Groq 3 LPX 机架、NVIDIA BlueField-4 STX 存储机架,以及 NVIDIA Spectrum-6 SPX 以太网机架。

过去的 AI 像是一个极其聪明的图书馆管理员,我们问一个问题,它慢条斯理地翻书,然后把答案整理出来。我们对这种速度是宽容的,因为我们自己打字看书也慢。

但 Agent 完全不同。它不仅要用大模型思考,还要疯狂地调用工具——比如打开浏览器、控制云端的虚拟 PC、在无数个数据库里来回比对。更要命的是,AI 对工具的容忍度极低,它要求一切操作都在毫秒级完成。

「它会狠狠地捶打内存。」黄仁勋在台上这样形容。

当模型越来越大,上下文长度从十万 Token 飙升到数百万,还要同时处理结构化和非结构化的数据,传统的算力架构开始喘不过气了。为了应对这种「捶打」,英伟达交出了第一份答卷,全新的 Vera CPU。

这颗芯片特立独行,它是世界上首款专为智能体 AI 和强化学习时代打造的处理器,其效率是传统机架式 CPU 的两倍,速度提升 50%,采用 LPDDR5X 内存,能实现极高的单线程性能、大型的数据吞吐量和极致的能效。

黄仁勋甚至毫不掩饰他的骄傲:「我们从没想过会单独卖 CPU,但现在,这绝对是一个价值数十亿美元的业务。」

紧随其后的是 Rubin GPU,单片芯片直接塞进了高达 288 GB 的海量内存。它就像是一个拥有无限脑容量的思考者,专门用来装载那些体积越来越庞大的超大语言模型,以及处理成百上千万的上下文 KV 缓存。

除了堆叠 CPU 和 GPU,英伟达这次发布的 Vera Rubin 架构,直接把 NVLink 的带宽翻了一倍——260 TB/s 的全互联带宽。

十年前,DGX-1 用第一代 NVLink 把 8 张卡连在一起,那是专为 AI 研究员打造的奇迹;到了 Hopper 时代,是 NVLink 4;而前不久的 Blackwell 架构,用 NVLink 72 实现了 72 张 GPU 的全互联,带宽达到 130 TB/s。

为了配合 Vera Rubin,黄仁勋甚至掏出了被称为 Kyber 的全新机架。在这个机架里,计算节点垂直插入,背后是第六代 NVLink 交换机。完全抛弃了传统的以太网或 InfiniBand 限制,在一个 NVLink 域内直接打通 144 张 GPU。

即便强如 Vera Rubin,在面对「无限生成 Token」的极端需求时,也会感到吃力。

在算力世界里,吞吐量(Throughput,同时处理巨量任务的能力)和延迟(Latency,单次任务的极速响应)是一对物理学上的死敌。英伟达是吞吐量的绝对霸主,但在极致低延迟的 Token 生成上,传统 GPU 架构显得过于笨重。

这时候,Groq 出场了。英伟达早在之前就「收购」并授权了 Groq 团队的技术,在今天正式推出了 Groq LPU(语言处理单元)。

黄仁勋用一款名为 Dynamo 的软件,把这两者完美捏合,首创了「解耦推理(Disaggregated Inference)」。

  • AI 推理前半段的 Prefill(预填充)和极其耗费算力的 Attention(注意力机制),全部交给 Vera Rubin 这个性能王者来处理;
  • 后半段的 Decode(解码),也就是生成 Token 的瞬间,直接卸载给 Groq LPU 来降低延迟。

结果显示,在最具商业价值的高端推理层级,这种组合让性能直接飙涨了 35 倍,且每兆瓦的吞吐量同样提升了 35 倍。

一个开源项目,让所有 CEO 都睡不着觉

主题演讲的后半部分,黄仁勋抛出了一个让全场屏息的判断:OpenClaw,将是这个时代的 Linux,是这个时代的 HTML。

OpenClaw 上线仅数周,下载量和影响力已经超过了 Linux 三十年的积累,其本质上是一套智能体操作系统。它能调用大模型、管理文件、拆解任务、协调子智能体,还能发邮件、发短信,以任何模态与人沟通。

在黄仁勋看来,每一家 SaaS 公司,迟早都会变成 AgaaS 公司,也就是「Agent-as-a-Service(智能体即服务)」公司。而每一位 CEO 现在都必须回答同一个问题:你的 OpenClaw 战略是什么?

当然,开源意味着自由,但企业更需要的是安全。这也是 OpenClaw 规模化落地前最大的障碍。

为此,英伟达联合以 OpenClaw 创始人 Peter Steinberger 为代表的团队,召集了一批顶级安全与计算专家,推出 NeMoClaw 参考架构。

它内置 OpenShell 技术、网络防护机制和隐私路由能力,可以让企业可以在自己的私有环境中安全运行智能体系统。

而支撑这套智能体生态的,是英伟达一整条开源模型产品线。

比如 Nemotron 主攻语言推理,Cosmos 聚焦世界建模,Groot 面向通用机器人,Alpha Mayo 服务自动驾驶,BioNeMo 深耕数字生物学,Earth-2 则专注 AI 物理仿真。

黄仁勋特别强调,这些模型不只是排行榜上的名字。英伟达会持续投入推进,Nemotron 3 之后有 Nemotron 4,Cosmos 1 之后有 Cosmos 2,每一代都会更强。

更重要的是,这些模型全部以基础模型形式开放,任何企业都可以在此基础上继续微调和后训练,打造专属于自己业务场景的定制化智能。英伟达还宣布将与各地区合作伙伴协作,帮助不同国家和市场孵化本土化 AI 能力。

在台上,黄仁勋还宣布了一份让人眼前一亮的合作名单。Black Forest Labs、Cursor、LangChain、Mistral、Perplexity、Sarvam,以及 Mira Murati 创立的 Thinking Machines,悉数加入,共同推进 Nemotron 4 的研发。

划重点,英伟达不甘心只做卖铲人,更要亲自下场带头挖金矿,更重要的是,英伟达也是在构建一个生态,一个围绕智能体时代的完整体系。

玩家的显卡钱,是一场长达 25 年的「众筹」

要理解英伟达今天的恐怖统治力,黄仁勋首先把时钟拨回了 25 年前。

那时候没有 ChatGPT,没有大模型,只有一群为了让游戏画面更流畅而疯狂攒机的年轻人。「GeForce 是英伟达有史以来最伟大的营销活动」,黄仁勋在台上笑着说。

黄仁勋非常直白地承认,GeForce 就是用来吸引未来客户的。他们在我们还买不起企业级产品的时候,通过游戏显卡潜伏进我们的电脑。日复一日,年复一年。

也正是依靠一代代游戏玩家的「供养」,英伟达在 20 年前做出了一个当时看来堪称疯狂、甚至差点拖垮公司利润的决定——研发 CUDA,并将它送到了全世界每一个开发者的桌面上。

这可以说是一个在黑暗中蛰伏的故事。连续 13 代架构,长达 20 年的死磕,英伟达彻底把 CUDA 变成了一个装机量过亿的庞然大物。

这也解释了为什么当深度学习的「宇宙大爆炸」来临时,Alex Krizhevsky 和 Ilya Sutskever 们环顾四周,发现除了英伟达的 GPU,他们别无他选。

Nvidia 不是碰巧站在了风口上,而是花了 20 年时间,自己造了一台造风机。

飞轮一旦转动,就再也停不下来了。因为在这个飞轮里,硬件只是载体,真正黏住开发者的是那成千上万个工具、框架和开源项目。

既然当年是 GeForce 游戏显卡把 AI 算力(CUDA)带给了这个世界,那么十年后的今天,是时候让彻底长大的 AI,反哺它最初的「老家」了。

黄仁勋在台上甩出了惊艳全场的 DLSS 5。简单来说,英伟达正在用 AI 重新发明计算机图形学。传统的 3D 渲染是「结构化数据」,它是死板的、百分百可控的;而生成式 AI 是「概率性计算」,它是天马行空、极其逼真的。

以前这两派路线完全不同,但在 DLSS 5 里,英伟达硬是把它们揉在了一起,用可控的 3D 数据打底,用生成式 AI 去脑补和渲染细节。我们看到的画面,既不会出现 AI 经常犯的幻觉错位,又拥有近乎现实的惊人质感。

「生成出来的世界,变得极其美丽,同时又完全受控。」

但这也不只是一帮极客为了高帧率打游戏搞出来的炫技。黄仁勋说,这种将「结构化数据」与「生成式 AI」融合的逻辑,将会在每一个行业里一遍遍重演。

「这是我最喜欢的一页 PPT」

在演讲的高潮,黄仁勋放出了一张极其复杂的架构图,说这是他最喜欢的一页 PPT。接着,他又半开玩笑地说,团队屡次劝他别放这张图,但他偏要放,「反正你们有些人也是免费进来的,这就是门票钱」。

这张「最不听劝的 PPT」,真正揭示了英伟达接下来要吞噬的真正猎物,全球企业的数据中心。

过去,企业的数据分为两类。

一类是结构化数据,也就是常见的数据库 SQL、Pandas 里的那些庞大表格,它们是商业运转的地基。另一类是非结构化数据,比如海量的 PDF、视频、语音,占据了世界 90% 的信息,却因为难以检索而如同废纸。

过去几十年来,处理这些巨型 Excel 表格一直是 CPU 的绝对领地。当人类去查询这些表格时,CPU 的速度勉强够用。但黄仁勋一针见血地指出了未来的趋势,「未来,使用这些结构化数据库的,将是 AI Agents」。

当成千上万个不知疲倦的 AI Agent,以远超人类百万倍的速度同时向数据库发起查询时,传统的 CPU 计算系统连喘息的机会都没有,只会被瞬间压垮。

为了处理这个问题,英伟达掏出了第一把底层杀器:cuDF。它直接越过 CPU,用 GPU 的恐怖并行算力,把这群数据的处理速度拉爆。

而针对非结构化数据,英伟达掏出了第二把杀器,针对向量数据库和非结构化数据的 cuVS。有了这两个底层库,英伟达实际上是捏住了全球数据处理的咽喉,它正在用 AI 的方式,重新定义企业到底该怎么处理数据。

两个工具库的效果也是相当明显。黄仁勋举了非常多合作伙伴的例子,其中提到雀巢公司每天要处理覆盖 185 个国家的庞大供应链数据,在换上英伟达加速的 IBM Watsonx.data 后,速度飙升了 5 倍,成本却骤降了 83%。

这就是「加速计算」的恐怖之处。当速度实现了几个数量级的跃升,成本就会呈断崖式下跌,新的商业模式就会在此刻涌现。

黄仁勋的演讲进行到这里,满嘴都还是「算法」、「库(Libraries)」和「数据帧」,他直言「英伟达是一家算法公司。」

英伟达将自己的算法库深度嵌入每一家云端,客户为了用 Nvidia 的算力和框架,才会去购买云服务。这也是为什么几乎世界上所有的云服务巨头——Google Cloud、AWS、微软 Azure、Oracle,都得排着队,把英伟达的服务请进自己的机房。

曾经呼风唤雨的云厂商,在加速计算时代,似乎都正悄然沦为英伟达庞大生态的「底层基础设施」和「分销渠道」。

英伟达为什么能做到这一切?黄仁勋给出了一个极度反常识的定义,英伟达是世界上第一家「垂直整合,却又水平开放」的公司。

向下,它自己造芯片、造系统;向上,它懂每一个行业的应用场景。

金融界的量化交易员在用它,医疗行业的医药研发在用它,连电信行业那个只会发射信号的基站,在未来也会变成运行 AI 算法的边缘计算节点。

英伟达甚至还推出了机密计算(Confidential Computing),让极其敏感的企业数据和模型可以在完全隔离的环境下运行,连操作员都看不到。这直接打消了巨头们拥抱 AI 的最后一点顾虑。

它把自己封装成一个个底层算法库,然后像水和电一样,悄无声息地接入了所有人的基础设施;看似把所有的利润都分给了生态伙伴,但实际上,英伟达已经牢牢掌握了整个 AI 时代的命脉。

1 万亿美元,而且还会供不应求

根据黄仁勋的判断,到 2027 年,全球 AI 基础设施规模至少达到 1 万亿美元,而且这还是保守估计,实际计算需求会远超这个数字。

这个数字从何而来?答案藏在过去一年英伟达做的那件最重要的事里——AI 推理。

黄仁勋直言,很多人觉得推理很容易,但事实恰恰相反。

高难度推理是 AI 领域最难的事,也是最重要的事,因为它直接带来收入的增长。为此,英伟达在 Hopper 架构巅峰期做出大胆决定,彻底改变架构,打造出 NVLink 72,引入 NVFP4 精度格式,配合 Dynamo、TensorRT-LLM 及全套新算法,还专门建造了超级计算机来优化整套技术栈。

英伟达押注的结果,远超所有人的预期。

黄仁勋曾宣称 Grace Blackwell NVLink 72 每瓦性能提升 35 倍,当时没人相信他。后来 SemiAnalysis 发布评测报告,分析师 Dylan Patel 说黄仁勋说得太保守了,实际提升是 50 倍。

▲黄仁勋打趣道「Monkey King」「Token King」。

按摩尔定律,一代产品通常只能带来约 1.5 倍提升,没人预料到这次会是 50 倍。

性能提升之后,摆在面前的是另一个问题。一座 1 吉瓦数据中心,按 15 年摊销,建造成本就高达 400 亿美元,设备还没放进去。在这样的投入规模下,放进工厂里的计算系统必须是全球最好的,否则每一瓦浪费的电力都是真实流失的收入。

黄仁勋坦言,全球 AI 工厂里正有大量电力被白白浪费。

为此,英伟达发布了 NVIDIA DSX 平台,基于 Omniverse 数字孪生技术,让工程师在真正动工之前,先在虚拟空间里把整座 AI 工厂仿真一遍,从散热到电网,全部模拟清楚。

配合 Max-Q 技术,系统可以在功耗与算力之间实时动态调节。

黄仁勋说,这里面至少还藏着两倍的优化空间。同一套硬件,英伟达更新算法与软件后,Fireworks 等服务商的 token 生成速度从每秒 700 个跃升至接近 5000 个,提升 7 倍。这就是「极致协同设计」的真实含义。

过去数据中心存放文件,现在它生产 token。土地、电力、机房空间决定了工厂上限,而架构优劣决定了产出多少。黄仁勋说,未来每一家公司都会认真思考自己 token 工厂的效率问题,因为算力,就是收入本身。

更重要的是,地球上的 AI 工厂还没建完,英伟达已经把目光投向了太空。

英伟达 Thor 芯片已通过抗辐射认证,率先应用于卫星之上。英伟达正与合作伙伴联合研发名为 NVIDIA Space-1 Vera Rubin 的新型计算机,目标是直接在太空中建设数据中心。

太空没有空气,无法对流散热,散热是一道极其棘手的工程难题。黄仁勋坦承这件事非常复杂,但他相信英伟达有足够优秀的工程师来攻克它。从地面到轨道,英伟达算力扩张的路线,仍在持续。

自动驾驶的 ChatGPT 时刻,已经到来

物理 AI 是未来十年最重要的课题,而黄仁勋用一句话宣告,自动驾驶的 ChatGPT 时刻,已经到来。

英伟达 RoboTaxi Ready 平台此次新增四位重量级伙伴:比亚迪、吉利、五十铃、日产,携手打造 L4 级自动驾驶汽车。

这四家车企每年合计生产约 1800 万辆汽车,体量惊人。加上此前已加入的梅赛德斯、丰田和通用,英伟达的自动驾驶版图已覆盖全球最重要的一批整车制造商。

英伟达还与 Uber 签署合作协议,计划将具备 RoboTaxi Ready(无人出租车就绪)能力的车辆部署至多个城市,并直接接入 Uber 的全球出行网络。

在工业机器人领域,英伟达与 ABB、Universal Robots、库卡等头部企业展开合作,将物理 AI 模型集成至仿真系统,推动机器人大规模进入制造产线。卡特彼勒的加入,意味着重型工程机械也开始走向智能化。

主题演讲的最后,依旧是经典的机器人环节。

近期,《冰雪奇缘》的雪宝机器人已经现身迪士尼海外游乐园,而这一次,它也迈着憨态可掬的步伐登上 GTC 2026 的舞台,和黄仁勋有来有往地对话,动作自然,反应流畅。

它的肚子里装着英伟达 Jetson 计算机,这是整套系统的大脑。它的步态和动作,全部在 Omniverse 虚拟环境中完成训练,靠的是由英伟达、迪士尼和 Google DeepMind 三方联合研发的 Newton 物理引擎,运行于英伟达 Warp 之上。

正是这套物理仿真系统,让雪宝在进入真实世界之前,就已经充分适应了现实物理规律。黄仁勋说,未来的迪士尼乐园所有角色都将拥有真正的智能,在园区里自由走动,与每一位游客展开真实的互动。

演讲开始的时候,黄仁勋说,我要提醒你们,这是一个技术大会。我们将要谈论技术,谈论平台,最重要的是,我们要谈论生态系统。

生态系统?他实在太谦虚了,用生态帝国也不为过,黄仁勋曾经用一块五层蛋糕来描述 AI 产业的结构:最底层是能源和芯片,往上是基础设施、模型,最顶层是应用。

每一层都不可或缺。这个比喻听起来像是在描述一个分工清晰、各司其职的产业格局。但当你把这块蛋糕从底看到顶,会发现每一层里都有英伟达的手笔。

从最早「潜伏」在玩家机箱里的显卡,到主宰全球云厂商的底层框架;从太空里的抗辐射数据中心,到迪士尼乐园里和我们谈笑风生的机器玩偶。

英伟达用 20 年时间造了一台造风机,如今这台机器已经化身为一台永不停歇的 Token 生产厂。在这个工厂里,算力即权力,生态即壁垒。

当所有的企业、用户都在为如何落地 AI 焦虑时,黄仁勋已经悄悄把通往 Agent 时代的门票,塞进了世界上每一台服务器的咽喉。

这场关于未来 AI 的赌局,英伟达不仅既做庄家又做玩家,它甚至要把牌桌都买下来了。

作者:张子豪、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

不用折腾部署 OpenClaw,我用 MiniMax Agent 一键养「龙虾」,还拍了个短剧

By: 张子豪
26 February 2026 at 17:07

春节假期,帮亲戚朋友们部署 OpenClaw 成了我一份额外的工作。虽然不一定能真正用上,但这只龙虾是不得不拥有。

AI 进入我们的工作流,在 OpenClaw 爆火之后,这种感觉变得更加强烈。在「不用 AI 会被淘汰,用了 AI 也像是能被替代」的悖论下,不错过任何一个能放大自身价值的 AI 工具,让人陷入了无止境的 FOMO。

越来越多的「龙虾变体」也涌现出来,但是当被问到打算怎么把这个部署好的 OpenClaw 融入工作流,答案往往又是个未知数。更不用说光是部署好 OpenClaw,就有两道大关,一是要手动部署和配置复杂的模型 API,二是让人心疼的额外 API 费用。

今天,更新后的 MiniMax Agent 推出了两项新功能。

专业度更高,更会干活的 Expert 智能体社区,涵盖从技术开发、创意写作到音视频图片生成等多模态领域,超过 1.6 万个专家,且还在持续增长。大多数场景下,我们几乎都能直接找到现成可用的专家;即便没有完全匹配的,用几句话还能快速创建一个自己的 Expert。

另一项新增的 MaxClaw 模式,能让我们一键打通 OpenClaw 生态,而且完全不需要自己配置 API,以及承担额外的 API 费用,解决了「不知道 OpenClaw 能做什么」和「怎么部署 OpenClaw」这两个问题。

这也就意味着,即便是纯小白,现在也能拥有开箱即用的专属 AI 专家团队了

APPSO 也实测了一波智能体专家和 MaxClaw 这两项新功能,它确实和一般的智能体 Agent 不同,结合了 Skills 的能力和 OpenClaw 的兼容能力,我们直接就能操作飞书、钉钉等即时通讯软件。

而和市面上不同版本的 OpenClaw 对比,MiniMax Agent 的 MaxClaw 又有了预置的专家智能体,整个体验会更加友好。

体验地址:国内版🔗 https://agent.minimaxi.com
海外版🔗 https://agent.minimax.io

超过 1.6 万个 Experts 的大社区

对于 AI 创作来说,无论是文本还是多媒体,大多数时候用大模型,最痛苦的就是「AI 味太重」或者「废话连篇」。究其原因,往往是「提示词不当」、「模型不够强」,总结在普通的聊天形式缺乏深度的垂直领域优化。

MiniMax Agent 这次推出的 Expert(专家智能体) 虽然还是在聊天对话里进行,但底层逻辑做了一些改变。它主打即开即用,提供了针对各种深度垂类场景优化的 Agent

▲MiniMax Agent 内提供了办公效率、商业金融、教育学习、生活娱乐等上万个专家

在处理对应垂直领域的任务上,和非专家的单纯对话形式相比,专家能交付更专业、质量更高的结果。为了验证这一点,我们直接从它目前已经 1.6w+公开的 Expert 库(大部分是用户创作)里,挑了几个热门的场景进行实测。

PPT、网页、行业分析,AI 开始按场景分工干活

从目前 Expert 社区的使用热度来看,用户最先跑起来的,往往还是那些直接指向生产力的刚需场景,比如办公制作、内容搭建,以及金融与行业分析。

在 MiniMax Agent 首页,我们点击左侧边栏的「探索专家」,就能进入已经按场景分好类的专家社区。不同专家不仅标注了能力方向,还能看到背后调用的「子代理」和完整项目指令,相当于把一套成熟工作流直接摆在用户面前。

找到合适的专家后,点击「开始聊天」,输入需求,它就会按既定流程自动推进任务。

▲股票价值分析专家介绍

在办公与内容生产场景中,落地页生成和 PPT 制作依然是浏览量最高的一类专家。

我们先测试了 Landing Page Builder 专家。输入需求:「我要给初中生做一个五代十国历史的网页,得让他们真的能听进去,内容翔实有考据,一节课 45 分钟的内容。要解释清楚、配图到位、动效得当、沉浸感强,举的例子能让他们产生共鸣,再加几道题检验下理解程度。」

整个过程中,专家几乎不需要额外干预,而是按照预设流程自动完成结构设计、内容填充和页面生成。

▲预览链接:https://qvwu1nyvju2u.space.minimax.io/

从最终效果来看,这类 Expert 和传统 Agent 最大的区别在于,它从边聊天边拼凑,转成了沿着一条完整生产流程在推进,结果的稳定性和完成度明显更高。

生成的网页不仅信息完整,画面和动效也有一定沉浸感,相比过去一些 vibe coding 产品常见的模板化和渐变紫风格,要更克制也更可用。

在偏专业的分析类任务上,Expert 的优势会更明显。我们选择了 McKinsey PPT(麦肯锡风格演示文稿生成)专家进行测试。按照介绍,它会自动补充数据、图表以及行业洞察。

实际测试中,我们只输入了一句非常简单的需求,「制作一份关于全球机器人市场的10页幻灯片演示文稿」。但最终生成的 PPT,在信息密度、结构完整度和图表配置上都没有明显缩水,基本具备拿来就能用的初稿质量。

这类场景也很能体现 Expert 的定位,它尝试把一整段专业工作流程产品化,从增强单次问答的模式里彻底跳了出来。

有了多模态能力的专家,一句话拍出顾北辰的短剧宇宙

还没听说过有能生成视频的通用 Agent 产品,但现在结合多个不同的 Skills、Agents 的专家,输入一段剧情,直接就能给我们一部短剧。

▲提示词:霸总重生在电子厂打螺丝,宫崎骏动漫风格,1-3分钟视频长度,台词激烈有冲突,剧情跌宕起伏有反转。

我们使用 AI 短剧导演+摄影+剪辑师专家进行测试,和一般的视频生成模型只能产出 5-10s 左右的视频不同,这个专家能自动生成完整的分镜,并且把视频进行剪辑和拼接。

最后生成的视频,完成度很高,虽然没能对口型把台词一字一句说出来,但是也配了一段应景的 BGM。而且大概率是检测到了提示词里面的「宫崎骏」,整个动画的风格,乃至角色和公司名字,都透露着一股日漫的味道。

简单对话,每个人都能创建一个专家

如果觉得官方或别人做的专家,还不够贴合我们的使用习惯和工作场景,MiniMax Agent 也提供了自定义功能,通过简单的一两句话就能创建一个专家。

我们完全不需思考什么是 Skill 或者专家,也不用遵守标准文件的规则设置等,只需要通过自然语言交互,就能更方便地把个性化的工作流、SOP 等集成,创建专属 Expert。

热点追踪是媒体编辑一项非常重要的工作,我们在 MiniMax Agent 的专家社区里,也使用过多次热点追踪的专家。例如当我们要求它基于输入的「春晚被机器人刷屏」这个主题,去搜索最新消息和近期热门话题时;它最后能给我们一份完整详细的长文,但是不够个性化。

于是,我们开始自己来创建一个 APPSO 的热点追踪。

▲在探索专家页面右上角点击「创建专家」,输入自己的需求,MiniMax Agent 会自动帮我们完成创建

创建专家的过程是可以连续对话,如果对目前专家的输出不满意,我们可以继续在对话框内要求 MiniMax Agent 进行更新。

创建完成之后,我们只需要发送一句「开始,帮我整理今天的科技快讯」,专家就会给我们 24h 内最值得关注的 AI 消息,并且以早报的文风和格式要求写好。此外,这些自己创建的专家,MiniMax 还提供了 15 轮免费,即不消耗积分的优惠,体验门槛更低。

▲APPSO 自定义的专家,现在可以自主完成一份快讯早报

除了大量可以直接使用和自定义的 Experts,更值得关注的是即将上线的 Marketplace。用户创建的 Expert,如果被使用,就能获得相应的积分,可以用来在 MiniMax Agent 里完成更多的任务。

而后续 MiniMax 还将开放专家自行定价,这意味着如果你在某个垂直领域有真正的专业积累,封装成 Expert 除了分享自用,还可能是一种新的变现路径。

说白了,一个 Skills 专家的应用商店雏形,已经摆在我们面前了。

一键接入 OpenClaw 的 MaxClaw

如果说 Expert 是强大的大脑,那么 MaxClaw 就是让大脑连接到现实的双手,这也是 MiniMax Agent 这次升级里,玩法最丰富的一个功能。我把它叫做升级版的 OpenClaw。

根据网络上到处都是的 OpenClaw 指南,想要真正好用的OpenClaw生态,我们要先学会手动部署、配置复杂的模型API,还要时刻盯着后台,生怕一不小心跑出天价的 API 账单。

对于绝大多数不懂代码的普通小白来说,这门槛属实是太高了。我只是想把好用的 AI 接入自己的飞书或钉钉,创建一个机器人,但是第一步就困住了。

MiniMax Agent 新增的 MaxClaw 模式,一键打通了 OpenClaw 生态,不需要繁琐的手动部署和配置模型 API,通过MiniMax Agent 网页端就可以快速上手。

目前,它也兼容手机端多个即时通讯交互工具,我们可以在飞书、钉钉、Telegram、WhatsApp、Discord、Slack 中使用。

拿部署到飞书机器人举例,甚至不用额外的部署指南,我们只需要点开首页左侧边栏的 MaxClaw 按钮,点击「立即开始」,我们可以选择使用默认配置,或者其他专家。

这也是 MaxClaw 对比 OpenClaw 的一大亮点,除了能像 OpenClaw 一样连接到不同的聊天应用,在自己常用的 App 里就能指挥 AI 干活;我们在初始配置时,就可以直接选择那些已经有的预置专家 Agent 配置。

创建之后,在对话框里发送消息,「我想连接到飞书」,按照 MaxClaw 回复的消息,我们点击飞书开放平台的链接,登录之后,按照流程,创建一个企业自建应用,获取 App ID 和 App Secret。接着把复制的信息发送给 MaxClaw,它会提示重启,重启之后在飞书的配置事件订阅里选择添加对应的事件就能启用。

不出所料,整个过程肯定会有一些问题。例如我们在拿公司飞书账号测试时,就被提示相关的授权需要审核才能发布,以及在权限管理和事件配置部分,飞书里面的内容太多太杂乱,根本不知道授予哪些权限。

这个时候,直接回到 MaxClaw,把遇到的问题统统发给它,跟着它的提示走,基本上都能解决。

顺利部署之后,我们在自己的飞书里,就能看到一个对应名字的机器人,然后直接开启对话,所有的对话也会同步在 MiniMax Agent 网页里的 MaxClaw 显示。

▲现在,飞书就能指挥你的 MaxClaw

让 MaxClaw 帮我们干活,都只用在飞书里面指挥它。我们直接把之前创建的「热点追踪」专家的指令发给它,然后在飞书里对话,输入一句简单指令,「帮我整理今天的快讯」。

很快,一份结构完整的 AI 早报就直接回到了飞书对话框里,完全按照要求的格式,摘要、关键信息提炼、标题等全部都有。并且还能设置定时任务,让 MaxClaw 在飞书里主动给我们发送消息。

除了热点追踪,之前的股票价值分析等专家,我们现在也可以直接通过飞书聊天的方式,就让 MaxClaw 为我们总结出一份逻辑清晰的完整报告。同时,继续让它为我们监控英伟达最新的动态。

而如果直接在配置的时候,选择对应的专家,我们可以看到它的 Skills 情况,MaxClaw 会自动添加开箱即用的 Skills 来帮助我们更好的上手。

▲在效率工具里面有「博客监控」和「内容摘要」等 Skills 用于「热点追踪」专家

时间一到,MaxClaw 在飞书里,准时给我们推送了最新的资讯。

「Claw」是 Agent 之后一种新的智能阶段

这次更新,真正值得关注的,其实不是又多了一个 Agent 工具。

OpenClaw 的爆火,让我们看到了一个能真正干活的「Agent」是什么样。它是个性化的,部署在自己的电脑上,告别了过去一个网页解决所有用户问题的统一;它是互联互通的,打穿了终端设备上不同应用的壁垒,在 Telegram 也能指挥 AI 帮助我们回复工作邮件……

▲知名博主 Simon Willison 提到 Claw 似乎正在成为像 Agent 一样的专用术语,用来描述一种新的智能体类别|图片来源:https://simonwillison.net/2026/Feb/21/

这本质上是在提醒我们一件事:AI 正在从「辅助回答问题」,走向「直接进入工作流」。当 AI 开始能够调用工具、跨应用执行任务、甚至在后台持续运转,我们原有的工作组织方式,本身就已经在发生变化。

问题只在于,大多数普通用户其实卡在门外。

▲全球 81 亿人中, 84% 的人从未用过 AI,而只有 0.3% 的用户愿意为 AI 付费|图片来源:https://global-ai-adoption.netlify.app/

一边是大家都知道 Agent 很强、OpenClaw 很火;另一边,是复杂的部署流程、看不懂的 API 配置,以及随时可能失控的调用成本。很多人不是不想用,而是很难真正用起来。

MiniMax Agent 这次做的事情,某种程度上就是在把这道门槛往下搬,让普通打工人也能轻松搭建自己的顶级 AI 工作流。

▲MiniMax Agent 会员定价|对比大部分 AI 动辄 20 美元一个月的订阅费用,MiniMax Agent 39 元的价格,大约一杯咖啡的钱,却已经足够能帮我们把写稿、做 PPT、跑多 Agent 工作流一口气打通,让这只「龙虾」多线程干活

Expert 把过去需要反复调 Prompt、反复试错的专业流程,打包成了即开即用的专家社区;MaxClaw 则把原本偏极客向的 OpenClaw 生态,压缩成了一键可用的连接能力。

对于普通用户来说,这种变化的意义很直接,我们不用懂什么是终端,不用让自己费尽力气做个半吊子「工程师」,也能开始搭建自己的 AI 工作流。

▲METR 此前的研究显示 AI 工具对开发人员生产力的影响,导致生产力下降了 20%;但 METR 表示现在这一发现已经过时,生产力提升似乎更有可能|图片来源:https://x.com/METR_Evals/status/2026355544668385373/

当越来越多「Agent」能够被像软件一样使用,AI 对工作方式的影响,才会真正开始外溢。

从这个角度看,MiniMax 推出这些产品,价值或许不只在于功能多了两个按钮,更在于它正在把一套原本属于少数人的先进工作范式,逐步变成更多人可以上手的日常工具。

对普通用户来说,这或许才是 Agent 真正开始变得有用的时刻。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌