Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

套壳中国大模型撑起500亿美元估值?扒一扒 Cursor 的"套壳"疑云

21 March 2026 at 18:19

1、

本周末,有一条最热闹的 AI 新闻,震动了太平洋两岸,连马斯克都关注了。

昨天,AI 编程工具 Cursor 推出了"自己的"模型 Composer 2

上图是官网截图,现在点进去还写着"自有模型"。

自从2024年10月,Composer 1 发布以来,外界就一直怀疑,它是套壳的中国模型,因为行为很类似,但苦于找不到证据。

现在 Composer 2 来了,很多人就开始研究,它的背后到底是什么模型,真的是 Cursor 自家的吗?

Cursor 为了防止破解,做了很多限制,但是百密一疏。国外推友 @fynnso 发现,有一个地方在上一个版本是禁止的,但是这个版本却可以执行。

首先,你自己架设一台服务器,充当 AI 模型的调用接口,有没有模型无所谓,只要能收到客户端请求就行。

然后,你在本地的 Cursor 里面,设置使用的模型为 Composer 2,模型网址就是你刚架设的服务器。这样一来,Cursor 就会向你的服务器发出请求,从而可以看到它到底在请求什么模型。

真相就暴露了,它请求的模型 ID 居然是 kimi-k2p5-rl-0317-s515-fast(下图)。

2、

这位国外推友就把上面的截图,发布到网上。这下炸锅了,明眼人都看出来,这是铁证,Composer 2 实际上是套壳的 Kimi K2.5

可笑的是,事情一爆发,Cursor 第一时间就把漏洞堵上,现在已经没法复现这个请求(下图)。

但是为时已晚,网上传遍了,就连马斯克也发推:"它就是 Kimi K2.5"。

这下好了,变成了公开的秘密,再也无法掩盖了。

3、

大家的关注点,很快就转移到 Cursor 是否侵权。因为 Kimi K2.5 虽然是开源模型,但是采用的是修改的 MIT 许可证(下图)。

许可证这样说:你可以任意使用这个模型,唯一的条件是如果你的商业产品月活用户超过1亿,或者月收入超过2000万美元,你必须在用户界面的醒目位置披露,你使用了 Kimi K2.5

Cursor 最新披露的年化收入是20亿美元,相当于月收入1.67亿美元,显然满足上面的条件。但是,它隐藏了使用 K2.5 的事实。

就在大家认定 Cursor 侵权的时候,他们的一个负责人终于坐不住了,出来说话了。

他承认确实使用 Kimi K2.5,但是没有侵权,他们的许可证来自合作伙伴 Fireworks AI。

稍后,Kimi 官方也发推了。

Kimi 官方确认,Cursor 是从 Fireworks AI 得到了授权。后者是一家硅谷的华人 AI 公司,从事 AI 模型的微调和强化学习,它从 Kimi 得到授权对模型进行再训练,然后又转授权给了 Cursor。

4、

事情到这里就基本清楚了,Cursor 并没有违反 Kimi 的授权条款,因此不存在侵权。

既然如此,为什么它拼命掩盖这个事实,大大方方承认,提供 Kimi K2.5 的修改版模型,很难吗?

我猜测,原因跟 Cursor 不断膨胀的估值有关

彭博社本月报道,Cursor 正在进行下一轮融资,估值达到500亿美元。

大家知道吗,它以前的估值是多少?

2023年10月,Cursor 成立时的估值是5000万美元;2024年8月的 A 轮融资,估值上升到4亿美元;12月的 B 轮融资,估值快速上升到26美元;2025年11月的最新一轮融资,估值已经到了293亿美元。

可以看到,每过几个月,估值就会翻倍。这种火箭式的上升速度,需要有业绩支持。但它本身只是一个 VS Code 的修改版,使用的都是开源技术。

为了支撑越来越高的估值,它有动机把自己从 AI 工具,包装成具有模型研发能力的大模型公司

我认为,这才是它不愿意披露使用了 Kimi K2.5 的主要原因。

5、

纵观整个事件,Cursor 无疑是输家,Kimi 则是这次的赢家,免费得到一大波高价值的曝光。

Cursor 发布 Composer 2 时,披露了性能和成本比较。

Composer 2 的性能低于 GPT-5.4,但高于 Opus 4.6。

但是,它的生成速度比 GPT-5.4 和 Opus 4.6 都快,成本也是最低的。

既然 Composer 2 就是微调的 Kimi K2.5,那么直接使用 Kimi,也能得到同样的效果

6、

以前,国外总是有人指责,中国公司窃取外国技术。但是,这个事件证明了,中国公司也有技术输出。那些国外的明星公司,背地也在偷偷摸摸使用中国技术。

联想到上周,Kimi 的创始人杨植麟收到黄仁勋的邀请,在 Nvidia GTC 大会演讲,是唯一的中国大模型公司代表。

他在台上宣讲,Kimi 团队刚刚发表的论文《注意力残差》(Attention Residuals)。

这种新技术据说可以显著提升大模型的推理能力。

我的想法是,大家要对国产大模型有信心,日常工作完全可以放心使用。国产大模型与国外旗舰模型的差距,正在不断缩小,而且价格实惠。

据杨植麟说,下一个要发布的 K3 模型性能提升巨大,即便没有强10倍,也比 K2.5 强得多,我们可以期待一下。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年3月21日

零安装的"云养虾":ArkClaw 使用指南

12 March 2026 at 16:01

一、引言

大家这两天,有没有被"龙虾"(OpenClaw)刷屏?

到处是它的新闻,就连两会代表和新华社都在谈论。真让人跌破眼镜,一个 AI 软件竟能引起这么大的反响。

人们的热情高涨,免费的线下安装活动人满为患,网上的"付费安装"生意兴隆。

很多人大概还不知道,现在有一种最简单的龙虾使用方法:ArkClaw

简单到你根本不需要操心安装,因为这是一个免安装的方案,它直接内置了龙虾,开箱即用。

我也是昨天才开始用,迫不及待跟大家分享,初步使用的感受。没有用过的同学,也可以把它当作《龙虾零门槛上手》教程,看看龙虾到底是怎么回事。

二、ArkClaw 是什么

事情是这样的,老读者可能还记得,我在春节前测评了字节最新发布的 Seed 2.0 模型。

我在文章里说,这是字节目前最强的基础模型,手机豆包用的就是它,测试表现很不错。

字节的同学后来就向我赠送了 Coding Plan 套餐,方便继续测试这个模型,各种 AI 编程工具都可以调用它的 API(当然套餐还包含其他国产模型,也是自由使用)。

本周一,我突然发现,字节的这个 Coding Plan 套餐开通了一个捆绑服务,就是 ArkClaw。

我问了客服才知道,只要现在开通 Coding Plan,就能免费使用龙虾

也就是说,只要你用字节的 AI 编程套餐,不用多花一分钱,字节就提供一台远程主机,里面安装好了龙虾,你可以自由使用。

需要说明的是,Coding Plan 分成 lite(首月9.9元)和 Pro(首月49.9元)两种套餐。lite 套餐只能免费体验7天,只有 Pro 套餐可以长期使用 ArkClaw。

三、云养虾

ArkClaw 属于"云养虾"(又称"云龙虾"),就是把龙虾(OpenClaw)安装在火山方舟(字节的 AI 云服务品牌)的云主机上,它名字里的 ark 就是"方舟"的意思。

除了"云养虾",也可以把龙虾安装在本地计算机。

不了解的朋友可能会好奇,两者有什么区别,我简单说一下。

首先,你要知道OpenClaw 属于自动化软件,它的作用就是让用户使用自然语言描述需求,它通过大模型找出满足需求的方法,然后自动去完成。

当它安装在本地计算机(你的笔记本),就方便自动操作本地文件和本地设备,比如"找出拍摄于去年今日的照片"或者"关闭客厅的智能灯,并查询最近一周的耗电量"。

当它安装在云端,就能 7x24 小时跟各种网络服务互动,比如"收到电子邮件时,自动生成30字的内容摘要,向手机发送通知"。

所以,如果你需要自动化操作网络服务,并且需要长时间在线或者每天定时运行,那么就合适使用"云养虾"。

四、ArkClaw 基本操作

4.1 界面

我给大家看一下,ArkClaw 的样子。

进入控制台,点击"立即创建",创建一个龙虾实例。

创建完成后,就已经安装好了,直接使用。

界面非常简洁,就是一个对话框。ArkClaw 对龙虾的官方控制台做了定制,简化了操作界面。

4.2 抓取信息

你可以在对话框里面,跟 AI 模型对话,这跟其他模型的用法并无二致。

举例来说,我们可以让它抓取信息。

可以看到,由于抓取的是动态内容,所以模型想到了很多实施方案,最后顺利完成。

大家要记住,ArkClaw 就是一台远程主机,任何服务器可以用的技术方案,它都能用,这比安装在一般个人工作电脑上的龙虾更强大。

4.3 发送消息

获取信息以后,龙虾可以把这些信息发到手机。

目前,ArkClaw 支持与企业微信、钉钉和飞书绑定。其中,飞书因为是自家的产品,绑定操作最简单,便捷快速,扫码即可。其他两家操作都比较麻烦,具体见官方文档

点击对话框上方的"飞书配对"按钮。(前面的"消息渠道"按钮,用于绑定企业微信和钉钉。)

系统会打开一个终端窗口,输出一个二维码,飞书扫描后可以创建一个机器人,跟当前的 ArkClaw 实例绑定。

通过这个机器人,你就可以在手机上跟当前这台 ArkClaw 实例对话了。

你也可以在电脑上,通过 ArkClaw 网页控制台,向你的手机发消息。

电脑端输入上面指令后,手机端就会推送消息(下图)。

4.4 定时任务

我们还可以规定,龙虾执行某些任务的时间和频率,也就是定时任务。

首先,使用自然语言,在对话框设置定时任务。

设置完成后,你的手机就会每天收到消息了。

如果要删除定时任务,也是使用自然语言发出指令。

五、Skill 和其他设置

5.1 Skill

龙虾本身的能力是有限的,总会遇到一些它不知道如何处理的问题。这时,就可以通过 Skill(技能)扩展它的能力,这大大增加了龙虾的用途。

什么是 Skill?简单理解,它就是一个文件包,里面包含了指令和示例,用来教模型如何完成某些特定的任务。

网上已经有很多别人写好、分享出来的 Skill,只要挑一些自己需要的,让龙虾加载,就能扩展对应的能力。网站 ClawHub.ai 就收集龙虾专用 Skill,已经有近20000个了。

我本来想用小红书 SKill 来举例,演示龙虾如何学会写小红书。但是,官方昨天发公告了,最近这样做的人太多了,现在开始封账号了。

那么就换一个例子。

上面截图就是使用自然语言,让龙虾从 ClawHub 网站下载安装高德地图(amap)的技能

龙虾本来不知道怎么使用高德地图,有了这个技能就学会了,可以从中查询信息。这个技能的具体详细,可以查看它的主页

使用的时候,也是直接用自然语言描述需求,模型会自己加载调用所需的技能。

上图的截图就是通过高德地图,查询实时路况。

5.2 其他设置

ArkClaw 的其他功能,都在"设置"菜单(下图),比如调整底层模型。

只要是 Coding Plan 套餐提供的模型,这里都能使用。

"设置"菜单还有两个很有用的功能。

一个是"打开终端",它会在网页上打开一个终端窗口,让你通过命令行直接操作 ArkClaw 所在的远程主机。

从上面的终端窗口截图可以看到,ArkClaw 底层是 Ubuntu 系统。

另一个是"配置网盘"。某些情况下,你可能需要向 ArkClaw 上传/下载文件,这个功能允许当前主机与火山引擎的对象存储服务 TOS 绑定,相当于有了一个无限容量的网盘。

六、总结

以上就是我昨天第一天使用 ArkClaw 的主要内容。

我的感受是,它确实大大简化了龙虾的使用,免安装、开箱即用,让龙虾的操作变得简单直观。通过自然语言加载调用 Skill,也很自然流畅。

它最大的强项就是跟字节生态深度融合,配合得十分丝滑:底层 Seed 2.0 模型 + 飞书推送 + 火山引擎网盘,完全不必复杂的配置。

它是一个跟字节 Coding Plan 捆绑的服务,不用额外付费。相比自己从头搭建"云龙虾",云主机和 AI 模型的费用就省掉了,这是一笔不小的费用。

作为程序员,这个 AI 编程的 Coding Plan + 云龙虾 ArkClaw 主机的捆绑方案,还是很有吸引力的。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年3月12日

字节全家桶 Seed 2.0 + TRAE 玩转 Skill

14 February 2026 at 19:51

一、引言

国产大模型之中,字节是一个异类。

不像其他大模型轰轰烈烈、争夺眼球,它更低调,不引人注目。

但是,它做的事情反倒最多,大模型、Agent、开发工具、云服务都有独立品牌,遍地开花,一个都不缺,都在高速推进。

Seed 是字节的大模型团队,底下有好几条产品线,最近热得发烫的视频模型 Seedance 2.0 就是他们的产品。

今天,我就用字节的全家桶 ---- 刚刚发布的 Seed 2.0 模型和开发工具 TRAE ---- 写一篇 Skill 教程。

大家会看到,它们组合起来既强大,又简单好用,(个人用户)还免费。这也是我想写的原因,让大家知道有这个方案。

只要十分钟,读完这篇教程,你还会明白 Skill 是什么,怎么用,以及为什么一定要用它。

二、Seed 2.0 简介

先介绍 Seed 2.0,它是 Seed 家族的基座模型

所谓"基座模型"(foundation model),就是一种通用大模型,可用来构建其他各种下游模型。最大的两个特征有两个:一个是规模大,另一个是泛化能力强,这样才方便构建别的模型。

大家熟知的豆包,就是基于 Seed 模型,它也被称为"豆包大模型"。这次 Seed 2.0 包含 Pro、Lite、Mini 三款通用模型,以及专为开发者定制的 Seed 2.0 Code 模型。

由于各种用途都必须支持,Seed 2.0 的通用性特别突出,比以前版本都要强。

1、支持多模态,各种类型的数据都能处理:文字、图表、视觉空间、运动、视频等等。

2、具备各种 Agent 能力,方便跟企业工具对接:搜索、函数调用、工具调用、多轮指令、上下文管理等。

3、有推理和代码能力。

正因为最后一点,所以我们可以拿它来编程,尤其是生成前端代码。跟字节发布的 AI 编程工具 TRAE 配合使用,效果很好,特别方便全栈开发,个人用户还免费。

三、TRAE 的准备工作

下载安装 TRAE 以后,它有两种模式,左上角可以切换:IDE 模型和 SOLO 模型。

选择 IDE 就可以了,SOLO 是 AI 任务的编排器,除非多个任务一起跑,否则用不到。

然后,按下快捷键 Ctrl + U(或者 Command + U),唤出对话框,用来跟 AI 对话。

我们要构建 Web 应用,左上角就选 @Builder 开发模式。右下角的模型就选 Seed-2.0-Code。

可以看到,TRAE 自带的国产开源编程模型很全,都是免费使用。

准备工作这样就差不多了。

四、编程测试

我选了一个有点难度的任务,让 Seed 2.0 生成。

ASCII 图形是使用字符画出来的图形,比如下图。

我打算生成一个 Web 应用,用户在网页上输入 ASCII 图形,自动转成 Excalidraw 风格的手绘图形。

提示词如下:

"生成一个 Web 应用,可以将 ASCII 图形转为 Excalidraw 风格的图片,并提供下载。"

模型就开始思考,将这个任务分解为四步。

五、生成结果

等到 Seed 2.0 代码生成完毕,TRAE 就会起一个本地服务 localhost:8080,同时打开了预览窗口。

生成的结果还挺有意思,上部的 ASCII 输入框提供了四个示例:Box、Tree、Flowchart、Smiley。下面是 Tree 的样子。

然后是 Excalidraw 参数的控制面板:线宽、粗糙度、弯曲度、字体大小。

点击 Convert(转换)按钮,马上得到手绘风格的线条图。

整个页面就是下面的样子。

六、Skill 简介

这个页面的设计,感觉不是很美观,还可以改进。我打算为 Seed 2.0 加入专门的前端设计技能,使其能够做出更美观的页面。

所谓 Skill(技能),就是一段专门用途的提示词,用来注入上下文。

有时候,提示词很长,每次都输入,就很麻烦。我们可以把反复用到的部分提取出来,保存在一个文件里面,方便重复使用。这种提取出来的提示词,往往是关于如何完成一种任务的详细描述,所以就称为"技能文件"。

格式上,它就是一个 Markdown 文本文件,有一个 YAML 头,包含 name 字段和 description 字段。

name 字段是 Skill 的名称,可以通过这个名称调用该技能;description 字段则是技能的简要描述,模型通过这段描述判断何时自动调用该技能。

有些技能比较复杂,除了描述文件以外,还有专门的脚本文件、资源文件、模板文件等等,相当于一个代码库。

这些文件里面,SKILL.md 是入口文件,模型根据它的描述,了解何时何处调用其他各个文件。

这个库发到网上,就可以与其他人共享。如果你觉得 AI 模型处理任务时,需要用到某种技能,就可以寻找别人已经写好的 Skill 加载到模型。

七、前端设计技能

下面,我使用 Anthropic 公司共享出来的前端设计技能,重构一下前面的页面。它只有单独一个 Markdown 文件,可以下载下来。

打开 TRAE 的"设置/规则和技能"页面。

点击技能部分的"+ 创建"按钮,打开创建技能的窗口。

你可以在这个窗口填写 SKill 内容,也可以上传现成的 Skill 文件。我选择上传,完成后,就可以看到列表里已经有 frontend-design 技能了。

然后,我就用下面的提示词,唤起这个技能来重构页面。

"使用 frontend-design 技能,重构这个页面,让其变得更美观易用,更有专业感。"

下面就是模型给出的文字描述和重构结果。

页面确实感觉变得高大上了!

八、Vercel deploy 技能

最后,再看一个技能的例子。

代码生成以后,都是在本地机器上运行,能不能发布到网上,分享给更多的人呢?

回答是只要使用 Vercel 公司的 deploy 技能,就能一个命令将生成结果发布到 Vercel 的机器上。

在 Vercel 官方技能的 GitHub 仓库里,下载 Vercel-deploy 技能的 zip 文件。

然后,把这个 zip 文件拖到 TRAE 的技能窗口里面,就会自动加载了。

输入提示词:"将生成的网站发布到 Vercel"。

模型就会执行 vercel-deploy 技能,将网站发布到 Vercel,最后给出两个链接,一个是预览链接,另一个是发布到你个人账户的链接。

大家现在可以访问这个链接,看看网站的实际效果了。

九、总结

如果你读到这里,应该会同意我的观点,Seed 2.0 的编程能力相当不错,跟自家的编程工具 TRAE 搭配起来,好用又免费。

Skill 则是强大的能力扩展机制,让模型变得无所不能,一定要学会使用。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年2月14日

智谱旗舰 GLM-5 实测:对比 Opus 4.6 和 GPT-5.3-Codex

12 February 2026 at 09:26

一、引言

刚才我看到,智谱新一代的旗舰模型 GLM-5 已经正式发布了。

真的拼啊,非要赶在长假之前,上一个版本 GLM-4.7 发布还不到两个月呢......

GLM-4.x 在国内外评价很高,公认是编程领域第一梯队的模型。新的大版本就让人很好奇,会有哪些改进。

实话实说,上个星期,他们团队联系我参与内测,我已经使用这个模型好几天了。

巧的是,也在上个星期,国外两个旗舰模型同时发了新版本:Anthropic 公司发了 Claude Opus 4.6,OpenAI 公司发了 GPT-5.3-Codex。

这三个新模型都主打编程,我就忍不住进行了比较测试,看看它们有没有差别,我想这也是很多人感兴趣的。

下面就是真实编程任务,在这三个 AI 模型上的生成结果。

二、GLM-5 简介

官方的发布说明,这样介绍 GLM-5:作为开源模型,GLM-5 完全对标顶尖闭源模型,在两个地方做了特别强化。

(1)复杂系统工程

GLM-5 不单善于生成前端网页,更善于处理后端任务、系统重构、深度调试,摒弃了"重前端审美、轻底层逻辑"的模式。

它具备极强的自我反思与纠错机制,能在编译失败或运行报错时,自主分析日志、定位根因并迭代修复,直到系统跑通。

(2)长程 Agent

它能够跑长程任务,即多阶段、长步骤的复杂任务,可以自主拆分需求,自动化连续运行长达数小时,并保持上下文连贯与目标一致性。

(3)小结

GLM-5 可以完成的任务,已经超越了生成前端 UI,而是可以生成系统级大型复杂项目,比如操作系统内核、浏览器内核、V8 引擎之类的。

它的宣传语是"在大模型进入 Agent、大任务的时代,GLM-5 是你可以使用的开源选择。"

三、测试方法

我选择的测试题目,是 HuggingFace 公司的布道师亚历杭德罗·奥(Alejandro AO)测试 Opus 4.6 和 GPT 5.3 的题目。

他拍了一个视频,展示这两个模型的表现。

我就拿同样的题目去测 GLM-5,再跟他的结果进行对比。

一共四道题,前端和后端的都有。我已经把原始的提示词和原始脚本,做成了一个仓库,放到了 GitHub

四、网页设计测试

第一个测试是网页设计和重构能力。

原始页面非常简陋。

它只是把信息做了分类,然后堆叠在一起,我们让 AI 对这个网页进行重新设计,让它变得美观易用,透露出成熟可靠的专业感。

前面说了,提示词和原始文件都在 GitHub,这里不重复贴了。大家可以拿来自己跑,也可以让其他模型跑。

下面就是 GLM-5 的生成结果。

这个结果称得上美观又专业,所有信息组织得井井有条,而且带有动画效果,手机浏览(下图)也没有问题,简直可以直接上线。

我把这个页面发布出来了,大家可以点击这里去看。

下面是 Opus 4.6 的生成结果,从视频截图的。

下面是 GPT-5.3 的生成结果。

这三个设计都是可用的,但是 GPT-5.3 有一个瑕疵(页眉没做成粘性页眉,往下拉就没了),而且在设计上也不如另外两者好看。

所以,在这个测试中,GLM-5 和 Opus 4.6 表现更好,至于哪一个更出色,要看使用者的审美偏好。我个人更喜欢 GLM-5 的设计风格。

五、3D 沙盒测试

第二个测试看看 AI 模型的 3D 动画生成能力。

要求是生成一个教育目的的网页 3D 沙盒,用动画展示太阳系的天体运动,并且能够调整质量、位置、速度等动画参数,还能手动增加新的天体。

下面是 GLM-5 的生成结果。

页面的右侧是动画区,默认展示三个小行星围绕中间的恒星进行轨道运动,可以用鼠标拖拽进行360度旋状,以及放大和缩小。

页面的左侧是操控面板,做得挺不错。

上半部分可以调节动画和天体参数,下半部分用来增加新的天体,或者删除现有天体。

作为比较,Opus 4.6 的生成结果。

GPT-5.3 的生成结果。

这三个生成结果,都满足了需求,都可以顺利运行。但是,GLM-5 的动画缺了引力网格线,而 GPT-5.3 的网格线太凌乱,因此动画效果方面 Opus 4.6 更好一些。

操控面板方面,GLM-5 和 Opus 4.6 都设计得不错,GPT-5.3 有点简单。

总体上,我感觉这一轮的最佳选手是 Opus 4.6,其次是 GLM-5,最后是 Codex 5.3。

六、网页游戏

第三个测试是生成一个网页游戏"愤怒的小鸟"(angry birds)。

GLM-5 的生成结果还可以,挺像原作的,可以玩,但是游戏性不足,弹跳效果不够好。

Opus 4.6 的还原度很高,游戏体验也接近原作。

GPT-5.3 的生成结果令人尴尬,小鸟根本弹不出去,游戏不能玩。

这一轮很明显,Opus 4.6 最佳,GLM-5 其次。

七、Laravel 转为 Next.js

最后一个测试是,将一个基于 PHP 语言 Laravel 框架的 Web 应用,转为 JavaScript 语言 Next.js 框架。

GLM-5 在处理时,几乎没有出现任何麻烦,很快就将 PHP 语言转成了 JS 语言,并且给出了转换后的代码结构。

它还在转化后,贴心地自动安装了依赖的软件包,做好了脚本编译,提示用户:你只要接入外部 API,一键执行npm run dev就能直接运行了。

我按照它的提示,运行很顺利,没有报错,打开localhost:3000就能访问应用了。

这是一个查看城市天气的应用。因为没有要求改变样式,所以看上去跟 PHP 原版一模一样。

右上角输入框,可以查询城市。

在查询结果中,选中你所要的城市。

点击进去,就是城市的详情页,有天气、日出日落时间、空气质量、地图等信息。

Opus 4.6 和 GPT-5.3 也生成了同样的结果,因为页面、功能完全一样,就不展示截图了。

值得一提的是,GLM-5 和 GPT-5.3 的转换时间都在5分钟左右,Opus 4.6 似乎遇到了一点问题,花费了整整20分钟。

这一轮单看结果,三个模型都很好,但是 GLM-5 花费的生成时间短,没有任何报错,全过程的用户体验好,我愿意投它一票。

八、总结

经过这些测试,GLM-5 的编程表现可圈可点,是拿得出手的,能够跟国外最新的旗舰模型放在一起。某些方面甚至还能赢出,即使不如人家的地方,往往也是细节问题,不是质的差别。

它听说在训练和运行过程中,都使用了国产的"万卡集群"。可以想象,如果得到更多的卡、更多的算力,它的表现会更好,足以跟世界第一梯队的大模型公司正面 PK。

另外,它这次特别强化的两个点----"复杂系统"和"长程任务"----是有感的。

它生成的系统逻辑和后端代码,可靠性不错,无论是生成时还是运行时,报错都不多。缺失的地方往往就是一些功能的缺失,后期让 AI 再补上就可以了,不是架构出问题。另外,我有一项个人任务,它跑了足足两个小时,最后也完成了,没有乱掉。

我愿意把官方的一段话,作为结尾。

2026年编程大模型正在从"能写代码"进阶为"能构建系统",而 GLM-5 堪称开源界的"系统架构师"模型,从关注"前端审美"转向关注"Agentic深度/系统工程能力",是 Opus 4.6 与 GPT-5.3 的国产开源平替。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年2月12日

Kimi 的一体化,Manus 的分层

29 January 2026 at 16:02

一、

前天,Kimi 突然发布了旗舰模型 K2.5,事先没有一点风声。

在国内,Kimi 是比较低调的公司,关注度相对不高。但是,它的产品并不弱。

半年前,K2 模型一鸣惊人,得到了很高的评价,公认属于全球第一梯队。所以,新版本 K2.5 出来以后,立刻上了新闻,在黑客新闻、推特等平台都是热门话题。

著名开发者 Simon Willion 当天就写了详细介绍

但是,这一次真正有趣的地方,不是模型本身,而是 Kimi 做了另一件事。

二、

这次的 K2.5 很强,各方面比 K2 都有进步。官方给出的评测跑分,基本都是全球前三位,甚至第一名(见发布说明)。

根据 LMArena(现改名为 arena.ai)的榜单,Kimi K2.5 的编码能力,是所有开源模型的第一,在总榜上仅次于 Claude 和 Gemini(下图)。

但是,最大的亮点其实不是模型,而是 Kimi 同时发布了一个基于这个模型的 Agent(智能体)。

也就是说,这次其实同时发布了两样东西:K2.5 模型和 K2.5 Agent。K2.5 是底层模型,K2.5 Agent 则是面向最终用户的一个网络应用。

我的印象中,这好像是第一次,大模型公司这么干。以前发布的都是模型本身,没见过谁把模型和 Agent 绑在一起发布的。

这么说吧,Kimi 走上了一体化的道路。

三、

大家知道,大模型是底层的处理引擎,Agent 是面向用户的上层应用。

它们的关系无非就是两种:分层开发和一体化。前者是大模型跟 agent 分开,各自开发;后者是做成一个整体一起开发。

前不久,被 Meta 公司高价收购的 Manus,就是分层开发的最好例子。

Manus 使用的模型是 Anthropic 公司的 Claude,它自己在其上开发一个独立的智能体,最终被收购。

它的成功鼓舞了许多人投入智能体的开发。因为模型的投入太大,不是谁都能搞的,而智能体的投入比较少,再小的开发者都能搞。

Kimi 这一次的尝试,则是朝着另一个方向迈出了一大步,把大模型和 Agent 合在了一起。毕竟,大模型公司自己来做这件事更方便,更有利于扩大市场份额、争取用户。

很难说,这两种做法哪一种更好。就像手机一样,苹果和安卓的外部应用,可以更好地满足用户需求,而自带的内置应用则能充分跟操作系统融合,用起来更顺滑。

四、

模型的测试已经很多了,下面我就来测一下,这次发布的 K2.5 Agent。

看得出来,Kimi 对 Agent 很重视,倾注了很大心血,发布说明的大部分篇幅介绍的都是 Agent 的功能。

其中有几个功能是比较常规的:

(1)Kimi Office Agent:专家级的 Word、Excel、PowerPoint 文件生成。

(2)Kimi Code:对标 Claude Code 的命令行工具,专门用于代码生成。

(3)长程操作:一次性完成最多1500步的操作,这显然在对标以多步骤操作闻名的 Manus。

我比较在意的是下面两个全新的功能,都是第一次看到,其他公司好像没有提过。

(4)视觉编程:通过模型的视觉能力,理解图片和视频,进而用于编程。只要上传设计稿和网页视频,就能把网页生成出来。

(5)蜂群功能(agent swarm):遇到复杂任务时,Agent 内部会自动调用最多100个 Agent,组成一个集群,并发执行任务,比如并发下载、并发生成等。

碍于篇幅,我就简单说一下,我的"视觉编程"测试结果。

五、

首先,打开 Kimi 官网,K2.5 已经上线了,能够直接使用(下图)。

注意,模型要切换到"智能体模式" K2.5 Agent。

我的第一个测试是动效生成,即上传一段动画效果的视频,让它来生成。下面是原始动画,是用 Lottie 库做的。

上传后,在网页输入提示词:

视频里面的动画效果,一模一样地在网页上还原出来

模型很快推断出,这是橘猫玩球的动画。然后,居然把动画每一帧都截图了,进行还原。

最终,它使用 Python 生成了 SVG 动画文件。

尾巴、眼球、小球滚动的动画效果,都正确还原出来了。可惜的是,主体的小猫是由多个 SVG 形状拼接而成,没法做到很像。

大家可以去这个网址,查看最终效果和网页代码。

六、

第二个测试是上传一段网站视频,让模型生成网站。

我在 B 站上,随便找了一个设计师网站的视频

大家可以去访问这个网站,看看原始网页的效果。

我把视频上传到模型,然后要求"把视频里面的网站还原出来"。

生成的结果(下图)完全超出了我的预期,还原度非常高,几乎可以直接上线。

大家可以去这个网址,查看生成的结果。

七、

经过简单测试,我的评价是,Kimi K2.5 Agent 的"视觉编程"不是噱头,确实有视觉理解能力,完全能够生成可用的结果。

目前看上去,Kimi 这次"模型 + Agent"的一体化尝试是成功的。一方面,强大的 Agent 发挥出了底层模型的能力,方便了用户使用;另一方面,模型通过 Agent 扩展了各种用例,可以吸引更多的用户,有利于自身的推广。

最后,在当下国际竞争的格局之中,一体化还有一个额外的优势。

Manus 依赖的是美国模型,最终不得不选择在海外注册公司,而 Kimi 的底层模型是自研的,而且开源,完全不存在卡脖子的风险。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年1月29日

AI native Workspace 也许是智能体的下一阶段

22 January 2026 at 19:46

一、智能体的形态

我问大家一个问题,什么是 AI 的产品形态?

大模型只是底层的处理引擎,你总是需要一个应用层产品,对接用户的需求。这种 AI 的应用层,就称为"智能体"(agent)。

那么,问题就变成了,"智能体"应该是什么样?

早期的智能体只是对话应用(上图),后面加入了推理,可以思考复杂问题。

后来,向专业领域发展,演变出编程智能体(coding agent)、图像智能体、视频智能体等等,或者接入 MCP,获得外部应用操作能力,比如生成 Office 文件、操作浏览器。

这些形态基本已经成熟了,很多公司开始探索,下一阶段的智能体会是什么形态?

我最近在用 MiniMax 刚发布的 AI native Workspace(AI 原生工作台),欣喜地觉得,这可能就是答案。

二、Cowork 和 Skill

这个新产品,同时加入了 Anthropic 公司最近提出的两个新概念:Cowork 和 Skill。

所谓 Cowork,简单说,就是一个"计算机操作助手"。它本质是编程智能体的图形界面版,让不懂编程的用户,用自然语言说出需求,再通过 AI 生成底层代码并执行,自动操作本地计算机完成任务。

而 Skill 就更简单了,它是一篇预设的提示词,相当于"使用手册",向 AI 详细描述如何完成某一种特定任务。可以这样理解,每一个 Skill 就是一个专家,让 AI 拥有特定领域的技能。

这两个东西,一个是操作助手,一个是专家模式。前者用 AI 来操作计算机,后者让 AI 具备专门技能。

它们结合起来会怎样?

MiniMax AI native Workspace 就是这样一个产品,探索性地将 Cowork 和 Skill 结合在一起,同时具备两种能力,完全是一种全新的产品形态。

它的桌面端(desktop)提供 Cowork 能力,专家模式(experts)则提供 Skill 能力。

三、桌面端操作助手

下面,我来展示,它跟传统智能体的差异在哪里。

它的桌面客户端定位就是"AI 原生工作台",具备以下能力。

  • 直接访问本地文件:能够读写,以及自动上传或下载文件。
  • 自动化工作流程:能够分解任务,运行 Web 自动化。
  • 交付专业成果:运行结束后可以生成高质量的交付产物,比如 Excel 电子表格、PowerPoint 幻灯片、格式化文档。
  • 长时间运行任务:对于复杂任务,可以长时间运行,不受对话超时或上下文限制的影响。

注意,由于它可以操作计算机,并跟互联网通信,执行之前,一定要指定目录,防止读写不该操作的目录,而且要有备份,防止原始文件被删改。

首先,前往官网下载桌面客户端,Windows/Mac 版本均有,新注册用户目前可以免费试用3天。

安装后运行,直接进入任务界面,就是一个传统的对话框。

这时指定运行目录,就进入"工作台"模式,可以对该目录进行操作。软件会跳出一个警告,提示风险。

这时,就可以让它执行各种任务了。比如,我让它整理各种电子服务的发票 PDF 文件,然后生成一个汇总的 Excel 文档。

这时,它会在当前目录里面,自动安装一个 Python 虚拟环境,然后生成 Python 脚本并执行。

很快就生成好了 Excel 文件。

以此类推,各种文件整理的事情,都能交给它,比如整理照片、文件重命名等等。

它还能进行网页自动化,比如自动浏览某个网页,并提取信息、总结内容。

四、专家系统

上面展示了它的工作台功能,可以担当"数字员工",下面再来看看它的"专家系统"。

所谓"专家系统",就是注入特定的提示词文件,扩展智能体的技能,相当于深度的知识和能力注入。用户还可以上传私有知识库。

大家可以打开它的网页端,点击左边栏的"探索专家"。

系统内置了一些"预设专家",可以直接使用。

我选了一个系统提供的"Icon 制作器",就是制作 Logo 的技能,看看好不好用。

我要求制作一个"熊猫吃冰淇淋"的 Logo,系统提示要选择一种设计风格。

最后生成了两个文件(坐姿和站姿)供选择,效果还不错。

五、创建新技能

除了预设的专家,系统也允许你创建"我的专家",也就是某种自定义技能。

你需要输入能力描述和指令,还可以添加对应的 MCP、SubAgent、环境变量、Supabase 数据库等等。

我直接把 Anthropic 公司提供的 Skill 文件输入,看看效果。

我选了 frontend-design(前端设计)技能,输入以后就可以在"我的专家"分页上看到。

注意,系统目前只支持输入技能描述文件,还不支持上传静态资源文件(asset),希望后面可以加上。

选中这个专家以后,我要求生成一个算法可视化页面。

"生成一个排序算法可视化网站,列出常见排序算法的可视化动画。选中某个算法后,会展示该算法的动画效果。"

生成过程大概十分钟左右,就得到了结果。系统生成了十种排序算法的动画,并直接部署上线。

我后来又调整了一下动画配色,大家可以去这个网站看看效果,还是很酷的。

六、总结

AI native Workspace 将 AI 智能体引入了本地计算机,可以进行自动化操作,同时加入技能接口,允许注入外部知识和能力。并且,所有操作都可以通过自然语言对话完成,对用户的要求低。

这一下子打开了 AI 智能体的想象空间,它所能完成的任务,将不再受限于模型的能力,而只受限于我们的想象力。

我认为,这个产品代表了下一阶段 AI 智能体的发展方向,将开启很多全新的可能性,等待我们去探索。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2026年1月22日

我如何用 AI 处理历史遗留代码:MiniMax M2.1 升级体验

23 December 2025 at 19:28

一、

最近,我写了好几篇 AI 教程,就收到留言,要我谈谈我自己的 AI 编程。

今天就来分享我的 AI 编程,也就是大家说的"氛围编程"(vibe coding)。

声明一下,我只是 AI 初级用户,不是高手。除了不想藏私,更多是为了抛砖引玉,跟大家交流。

二、

平时,我很少用 AI 生成新项目。因为每次看 AI 产出的代码,我总觉得那是别人的代码,不是我的。

如果整个项目都用 AI 生成,潜意识里,我感觉不到那是自己的项目。我的习惯是,更愿意自己写新项目的主体代码。

我主要把 AI 用在别人的项目和历史遗留代码,这可以避免读懂他人代码的巨大时间成本。

就拿历史遗留代码为例,(1)很多时候没有足够的文档,也没有作者的说明,(2)技术栈和工具库都过时了,读懂代码还要翻找以前的标准,(3)最极端的情况下,只有构建产物,没有源代码,根本无法着手。

AI 简直就是这类代码的救星,再古老的代码,它都能读懂和修改,甚至还能对构建产物进行逆向工程。

下面就是我怎么用 AI 处理历史遗留代码,平时我基本就是这样来 AI 编程。

三、

我的 AI 编程工具是 Claude Code。因为命令行对我更方便,也容易跟其他工具集成。

我使用的 AI 模型,大部分时间是国产的 MiniMax M2。我测过它的功能,相当不错,能够满足需要,它的排名也很靠前。

另外,它有包月价(29元人民币),属于最便宜的编程模型之一,可以放心大量使用,反复试错。要是改用大家都趋之若鹜的 Claude 系列模型,20美元的 Pro 套餐不够用,200美元的 Max 套餐又太贵。

MiniMax 接入 Claude Code 的方法,参考我的这篇教程

四、

就在我写这篇文章的时候,MiniMax 本周进行了一次大升级,M2 模型升级到了 M2.1

因为跟自己相关,我特别关注这次升级。

根据官方的发布声明,这次升级特别加强了"多语言编程能力",对于常用编程语言(Rust、Java、Golang、C++、Kotlin、Objective-C、TypeScript、JavaScript 等)有专门强化。

它的 WebDev 与 AppDev 开发能力因此有大幅提升,可以用来开发复杂的 Web 应用和 Android/iOS 的原生 App。

"在软件工程相关场景的核心榜单上,MiniMax M2.1 相比于 M2 有了显著的提升,尤其是在多语言场景上,超过 Claude Sonnet 4.5 和 Gemini 3 Pro,并接近 Claude Opus 4.5。"

根据上面这段介绍,它的编程能力,超出或接近了国外旗舰模型。

这个模型已经上线了,现在就能用。那么,这篇文章正好测一下,官方的介绍是否准确,它的 Web 开发能力到底有没有变强。

至于价格,跟原来一样。但是,官方表示"响应速度显著提升,Token 消耗明显下降",也算变相降价了。

M2.1 接入 Claude Code,我的参数如下。

五、

我这次选择的历史遗留项目是 wechat-format,一个 Web 应用,将 Markdown 文本转为微信公众号的样式。

上图左侧的文本框输入 Markdown 文本,右侧立刻显示自动渲染的结果,可以直接复制到微信公众号的编辑器。

它非常好用,大家可以去试试看。我的公众号现在就用它做排版,效果不错(下图)。

问题是,原作者六年前就放弃了,这个项目不再更新了。我看过源码,它用的是老版本的 Vue.js 和 CodeMirror 编辑器,没有任何文档和说明,还经过了编译工具的处理,注释都删掉了。

如果不熟悉它的技术栈,想要修改这些代码是很困难的,可能要投入大量时间。

那么废话少说,直接让 AI 上场,把这些代码交给 MiniMax M2.1 模型。

六、

接手老项目的第一步,是对项目进行一个总体的了解。

我首先会让 AI 生成项目概述。大家可以跟着一起做,跟我的结果相对照。


# 克隆代码库
$ git clone git@github.com:ruanyf/wechat-format.git

# 进入项目目录
$ cd wechat-format

# 启动 Claude Code
$ claude-minimax

上面的claude-minimax是我的自定义命令,用来在 Claude Code 里面调用 MiniMax 模型(参见教程)。

输入"生成这个仓库的概述"。

AI 很快就给出了详细说明,包括项目的总体介绍、核心功能、技术栈和文件结构(下图)。

有了总体了解以后,我会让 AI 解释主要脚本文件的代码。

【提示词】解释 index.html 文件的代码

它会给出代码结构和页面布局(上图),然后是 JS 脚本加载顺序和 Vue 应用逻辑,甚至包括了流程图(下图),这可是我没想到的。

做完这一步,代码库的大致情况应该就相当了解了,而 AI 花费的时间不到一分钟。

七、

既然这个模型号称有"多语言编程能力",我就让它把项目语言从 JavaScript 改成 TypeScript。

对于很多老项目来说,这也是常见需求,难度不低。

它先制定了迁移计划,然后生成了 tsconfig.json 和 types.d.ts,并逐个将 JS 文件转为对应的 TS 文件(下图)。

修改完成后,它试着运行这个应用,发现有报错(下图),于是又逐个解决错误。

最终,迁移完成,它给出了任务总结(下图)。

我在浏览器运行这个应用,遇到了两个报错:CodeMirror 和 FuriganaMD 未定义。

我把报错信息提交给模型,它很快修改了代码,这次就顺利在浏览器跑起来了。

至此,这个多年前的 JavaScript 应用就成功改成了 TypeScript 应用,并且所有内部对象都有了完整的类型定义。

你还可以接着添加单元测试,这里就省略了。

八、

简单的测试就到此为止,我目前的 AI 编程大概就到这个程度,用 AI 来解释和修改代码。我也建议大家,以后遇到历史遗留代码,一律先交给 AI。

虽然这个测试比较简单,不足以考验 MiniMax M2.1 的能力上限,但如果人工来做上面这些事情,可能一个工作日还搞不定,但是它只需要十几分钟。

总体上,我对它的表现比较满意。大家都看到了,我的提示词很简单,就是一句话,但是它正确理解了意图,如果一次没有成功,最多再修改一两次就正确了。

而且,就像发布说明说的一样,它运行速度很快,思考过程和生成过程最多也就两三分钟,不像有的模型要等很久。

另外,不管什么操作,它都会给出详细的讲解和代码注释。

总之,就我测试的情况来看,这个模型的 Web 开发能力确实很不错,可以用于实际工作。

最后,说一点题外话。著名开发者 Simon Willison 最近说,评测大模型越来越困难,"我识别不出两个模型之间的实质性差异",因为主流的新模型都已经足够强大,足以解决常见任务,只有不断升级评测的难度,才能测出它们的强弱。

这意味着,对于普通程序员的常见编程任务,不同模型不会构成重大差异,没必要迷信国外的旗舰模型,国产模型就很好用。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2025年12月23日

终于有人做了 Subagent,TRAE 国内版 SOLO 模式来了

26 November 2025 at 08:17

一、

全世界最好的 AI 编程工具,我不知道。

但是,我知道全世界最卷的 AI 编程工具,那一定是 TRAE

为什么这么说?

AI 编程工具一般有三种产品形态。

(1)插件。最早的 AI 编程工具 GitHub Copilot 就是插件。

(2)IDE。插件受制于宿主软件,有些公司不甘束缚,就开始做专门的 AI 编程 IDE,比如 Cursor、亚马逊的 Kiro、谷歌的 AntiGravity。

(3)终端。还有一些公司,专门做基于终端(也就是命令行)的工具,比如 Claude Code、Codex CLI、Gemini CLI。

所有的 AI 编程工具,基本上都属于这三大类之一。但是 TRAE 居然三种产品形态都做了,同时属于这三类!

它最早是插件,后来做了独立的 IDE,现在居然有第三种产品形态:SOLO 模式

从插件到 IDE(国内版),我都是 TRAE 的用户。我没用国际版,原因很简单,因为国内版免费。

今年7月份,TRAE 的国际版开始内测 SOLO 模式,反响热烈,我就很心动。现在终于正式发布了,本月12日国际版正式推出 SOLO 模式,国内版也在25日上线,更棒的是完全免费。

今天就来说说,什么是 SOLO 模式,为什么它很重要。

或者说,到底是什么原因,让 TRAE 觉得一种产品形态还不够,不停添加其他形态?

对于一个程序员来说,这三种产品形态,怎么选择?哪一种更好?

二、

插件没什么好说的。它调用的是 IDE 的内部接口,如果你有现成 IDE 环境需要加入 AI 功能,就选择它。

IDE 相比插件,功能更强、性能更好、一体化程度更高,适合追求功能和性能的用户。

至于 IDE 与终端,可以参考我的上一篇文章。它们各有特点,不是替代关系,而是互补关系。

IDE 强在它集成的那些功能,比如自动补全、智能感知(intellisense),终端没有。

终端强在方便调用各种命令行工具,可以加入 CI/CD 流程,以及下面要介绍的 Subagent,这是 IDE 缺乏的。

这一次 TRAE 发布的 SOLO 模式,就引入了很多终端才有的功能,所以才单独做成一个模式,因为很难把这些功能加入 IDE 形态。

习惯了 IDE 的同学,或者在 IDE 与终端之间犹豫的同学,有必要了解一下 SOLO 模式,也许有你要的功能。

三、

这次引入的新功能之中,最值得一提的就是 Subagent

我的印象中,国内还没有其他厂家做过这个功能。如果你想用好 AI 编程,一定要知道它。

顾名思义,Subagent 就是次一级的 agent(智能体)。可以理解成,它是一个 AI 应用之中的子任务。也就是说,它可以把一个大的 AI 编程任务拆分成若干个小任务。

这特别适合大项目,你根据不同的任务或者子目录,建立相应的 Subagent。

它有几个显著的优点。

(1)并行执行。多个 Subagent 可以同时执行,你把它们放在后台,自己在前台做其他事情,这大大节省了时间。IDE 就做不到这一点,只能顺序执行,这是终端独有的一个极大优点。

(2)节省上下文。通常来说,每次执行 AI 任务,都会把整个仓库作为上下文,发给模型。Subagent 可以指定不同的上下文,或者限制上下文局限于某一个目录,因此就节省了上下文,降低了费用。

(3)重复使用。子任务本身也是一个智能体,可以跨项目使用,也可与他人共享,简化了工作流程。

(4)灵活权限。每个子任务可以设置不同的访问权限,从而可以做出适合不同等级成员使用的 Subagent。

总之,Subagent 非常实用,很多人不想使用 IDE,部分原因就是没有 Subagent。

四、

TRAE 这次的 SOLO 模式,一大亮点就是引入了 Subagent,用它实现了多任务并行执行。

进入 SOLO 模式后,整个工作区分成了三栏,最左侧多出了一个任务栏(上图的红框)。

你可以在任务栏里面,点击"+"号,新建 Subagent 子任务(下图)。

上图中,新建子任务时,可以选择内置的智能体,也可以新建智能体,由不同的智能体负责执行子任务。

多个子任务可以并行执行。你在任务栏随时切换,查看每个任务执行到哪一步了。

上图就是同时新建了三个子任务,每个任务都有中文标题,可以很清晰了解它们的用途。

这个并行执行的任务栏,除了 TRAE 的 SOLO 模式,我在其他国产 AI 编程工具里面就没见过,希望能够跟进。

五、

SOLO 模型还提供其他一些 IDE 模式没有的功能。

(1)Plan 功能:先对任务进行思考,产生一个"执行计划",等你批准以后再实际执行(下图)。

(2)上下文压缩:智能压缩过长的上下文,防止上下文变得太长导致的模型效果下降,同时显著节省使用 AI 的成本。

(3)代码变更:更好的代码 DiffView 视图,帮助用户快速了解 AI 对代码的变更。

六、

最后总结一下,TRAE 的 SOLO 模式提供了很多 IDE 模式下没有的功能,更接近终端的用法。

由于贴近终端,所以它能做到多任务并行,以及任务执行过程中更好的实时感知。

TRAE 在一个软件里面,集成了 IDE 和 SOLO 两种模式,无疑为程序员提供了最大的灵活性。

再加上国内版完全免费,超大上下文窗口,对于那些既想拥有 IDE 的便捷性,又想拥有终端多任务并行能力的同学,可谓再合适不过的选择。

TRAE 国内版和国际版,都有 SOLO 模式,区别是国内版免费,而国际版提供国外模型,大家可以根据需求选择下载。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2025年11月26日

VS Code 使用国产大模型 MiniMax M2 教程

19 November 2025 at 08:30

一、

上周,我写了一篇 Claude Code 接入国产大模型的教程,就有同学问我,为什么不用 VS Code?

问得好。我习惯命令行了,确实忽略了 VS Code。

今天就补上,我来介绍,如何不用插件在 VS Code 里面使用 Claude Code。

我真心觉得,Claude Code 比插件好用,所以试试看跳过插件,直接在 VS Code 里面使用它。

跟以前一样,这一次 Claude Code 也是接入国产大模型,我选的是 MiniMax M2。它的质量很不错,而且这周有活动。

二、

这次评测的题目很有趣,我自己都很喜欢。

它是一个老外程序员最近想出来的,已经在国外引起了轰动。

他用了九个著名模型,生成网页时钟的动画,然后把这些动画放在网站上,网站标题就叫"AI 时钟"。

说来奇怪,这个测试看上去不难,但是大多数模型生成的效果并不好,有些甚至很差。

举例来说,下图是 OpenAI 公司 GPT-5 模型生成的时钟,让人无语。

这个时钟的提示词如下,大家可以拿来自己测。

Create HTML/CSS of an analog clock showing ${time}. Include numbers (or numerals) if you wish, and have a CSS animated second hand. Make it responsive and use a white background. Return ONLY the HTML/CSS code with no markdown formatting.

翻译成中文就是:

"创建一个显示时间 ${time} 的模拟时钟的 HTML/CSS 代码。如果需要,可以包含数字,并添加 CSS 动画秒针。使其具有响应式设计,并使用白色背景。仅返回 HTML/CSS 代码,不要包含任何 Markdown 格式。"

我也拿它来测试,看看 MiniMax M2 的效果如何。

三、

进入正题之前,我想强调一下,VS Code 与 Claude Code 是两种截然不同的工具。

VS Code 是 IDE,你是在 IDE 里面使用 AI。

Claude Code 是命令行工具,你是在终端窗口使用 AI。

它们的特点完全不同。IDE 支持智能感知(intellisense)和自动补全,而命令行支持调用系统工具和脚本,还能自动化集成,以及并行执行。

所以,它们两个不是替代关系,而是互补关系。你应该根据需要,选择最合适的工具。

我要演示的方法,正是将 IDE 和命令行结合起来,让你具有最大的灵活性。

四、

我用来测试的模型是 MiniMax M2,说一下为什么选择它。

它是上月底(10月27日)发布的,很多评测显示它是编程能力最强的开源模型之一,而且在 OpenRouter 平台上,它是 Token 调用量最大的国产模型。

我当时对它做了评测,大家还有印象吗?结论是,它的编程表现超出了我的预期。

但是那个时候,它没有包月套餐,只能按 API 使用量计费,就让人不敢多用。

现在不一样了,上个周末,它突然推出了 Coding Plan 包月套餐,有三档资费。

最低一档针对普通强度的使用,首月只要9.9元,(续费29元/月),这就很划算了。

除了这个优惠活动,它还有两个特点,很适合这篇教程。

(1)兼容性好,接入外部工具很容易。我用它接入 Claude Code 和 VS Code 都非常顺利。

官网文档给出接口示例的工具非常全,包括 Cursor、Cline、Codex、Kilo Code、Droid、Trae、Grok、OpenCode、iFlow 等等。

(2)响应速度、生成速度快。它的 API 服务器,在国内的响应时间一般是几十毫秒,每秒生成 Token 的数量(即 TPS 指标)超过100,比国外模型快得多。

五、

现在进入正题,首先是一些准备工作,要将 MiniMax M2 接入 Claude Code。

具体步骤就不详述了,大家按照前一篇教程就可以了。

简单说,就是新建一个claude-minimax 脚本(下图),将从 MiniMax M2 官网获取的接口参数填入。

完成后,可以测试一下,看看能否正常运行。


$ claude-minimax --version

六、

下面就是在 VS Code 使用 Claude Code 生成网页时钟的测试。

第一步,新建一个本地目录作为项目目录,比如ai-clock


$ mkdir ai-clock 

然后,在 VS Code 里面打开这个目录 ai-clock,作为工作区。

第二步,打开 VS Code 的菜单"终端/新建终端",在这个终端窗口里面,输入 claude-minimax


$ claude-minimax

这时,窗口会提示你授予权限,同意后,就会进入主界面,大概就是下面这样。

现在,我们就能在 VS Code 里面使用命令行的 Claude Code 了。

这时,你既可以使用 IDE 编写代码,又可以通过命令行使用 AI 模型,兼得两者的优势。

第三步,在 Claude Code 的提示符后面,输入/init命令,用来在仓库里面生成一个 CLAUDE.md 文件,记录 AI 对这个仓库操作。


/init

生成结束后,你可以打开看一下 CLAUDE.md 文件(下图)。

因为我们这个示例仓库是空的,所以文件里面没什么内容。如果是有现成代码的仓库,文件里面会有 AI 对代码库的详细解析。

这个文件的作用是当作上下文,每次查询模型时,都会自动附上这个文件,以便模型了解代码库。

如果在提示框输入反斜杠,Claude Code 就会显示所有可用的命令(下图)。

通过这些命令,我们就能使用 Claude Code 的强大功能,完成各种 AI 操作了。

这一步是 Claude Code 的基础用法,对所有项目都是通用的。

第四步,在提示框输入前面的提示词(下图),让模型生成网页时钟。

MiniMax M2 思考了不到一分钟,就生成完毕了(下图),并且自动把这些代码写入文件 index.html

打开网页就是下面的效果。

真的很不错,第一次就能有这样的效果。钟面的形状正确,秒钟跳动的动画十分流畅,每秒都在刷新,显示当前时间。

大家可以使用这个提示词,自己去生成看看,如果手边没有 Claude Code,可以在官网上执行。

也可以查看我得到的完整代码,复制保存成 HTML 文件,在浏览器打开。

七、

从这个测试结果来看,MiniMax M2 的生成结果,无论是横向对比,还是实际效果,都是令人满意的。

结合它现在的价格,性价比很高,我认为值得推荐给大家上手尝试。

最后,转发一下他们的 Coding Plan 活动的海报,首月9.9元,一杯咖啡的钱,包月使用最新的 AI 编程模型,需要者自取。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2025年11月19日

国产大模型接入 Claude Code 教程:以 Doubao-Seed-Code 为例

11 November 2025 at 15:30

一、

国产大模型如火如荼,新模型层出不穷,大家有没有在用?

很多同学用惯了现有模型,懒得尝试新模型,真的很可惜。

我的做法是,只要是新模型,就尽量试用,体验最新训练成果。而且,推广期往往有优惠,不用白不用。

今天就来分享,我怎么把国产大模型接入 Claude Code。

大家知道,Claude Code 是眼下最流行、公认功能最强的 AI 终端,但是限制国人使用。所以,我们要换掉它的底层模型。

大家用我的方法,只需要几分钟,就可以简易快速地接入各种国产大模型,丝滑使用。

这几天,字节旗下的豆包,正好发布了最新的编程模型 Doubao-Seed-Code

我就拿它来演示,顺便测一下这个模型。

二、

我要分享的方法,完全不影响 Claude Code 本身,它还能正常使用。

也就是说,执行 claude 命令,调用的还是原来的 Claude Sonnet 4.5 模型。


$ claude

我会新增一个 claude-doubao 命令,执行后底层模型就切换了。


$ claude-doubao

这时,Claude Code 的功能一样都不少,但是使用的模型已经变成了 Doubao-Seed-Code。

上面两个命令,可以同时使用,互不影响。你还能继续添加其他模型,每一个模型都有自己的调用命令,最大程度方便测试新模型。

三、

开始之前,我先简单介绍一下 Doubao-Seed-Code,优秀的国产模型值得好好宣传。

它属于豆包大模型系列,是该系列第一个专门用于编程推理的模型。也就是说,这是字节跳动首次发布编程模型。

根据 SWE-bench 的评测,它和同是字节旗下的智能 IDE 产品 Trae 的组合,在 SWE-Bench-Verified 的排行榜位列第一。

我对这个模型非常感兴趣,主要有三个原因。

(1)它是大厂的主推模型,模型质量、性能表现、响应速度都有保证。

(2)它原生兼容 Anthropic API,可以丝滑接入 Claude Code,不用任何调整,是国外模型很好的平替。

(3)它价格便宜,现在有一个 Coding Plan 活动,可以 API 包月。一般强度使用的情况下,首月只要9.9元(续费40元/月),官方的宣传是"属于国内最低价格"。

大家可以在火山方舟,开通这个模型的 API Key,后面要用到。

四、

下面就来演示,Doubao-Seed-Code 如何快捷接入 Claude Code。

如果你已经安装了 Claude Code,下面的方法完全不影响,还是正常使用。

如果还没有安装 Claude Code,但想体验它的 Claude Sonnet 4.5 模型,可以根据官方文档进行安装,跟下面的方法也不冲突。

更改底层模型,只需要三个步骤,几分钟即可。

第一步,新建一个项目目录claude-model,在里面安装一个单独的 Claude Code。


$ mkdir ~/claude-model
$ cd ~/claude-model
$ npm init -y
$ npm install @anthropic-ai/claude-code

然后,新建一个子目录 .claude-doubao,用来存放豆包的配置文件和缓存。


$ mkdir .claude-doubao

第二步,新建一个子目录 bin,用来存放可执行脚本。


$ mkdir ~/claude-model/bin

然后,要把这个 bin 目录放入 PATH 变量,让系统可以找到里面的命令。

PATH 变量的设置,macOS 可以修改 ~/.bash_profile 文件,Linux 可以修改 ~/.bashrc 文件,大概改成下面这样。


export PATH="$HOME/claude-model/bin:$PATH"

改完后,别忘了重启终端。

第三步,在上一步创建的 bin 目录里面,新建一个名为claude-doubao 的脚本,用来调用豆包模型。


$ touch ~/claude-model/bin/claude-doubao

在这个 claude-doubao 脚本里面,输入下面的内容。


#!/usr/bin/env bash
# Wrapper for Claude Code CLI using Doubao API

CLAUDE_BIN="$HOME/claude-model/node_modules/.bin/claude"

# Inject API credentials
export ANTHROPIC_AUTH_TOKEN="YOUR_DOUBAO_API_KEY"
export ANTHROPIC_BASE_URL="https://ark.cn-beijing.volces.com/api/compatible"
export ANTHROPIC_MODEL="doubao-seed-code-preview-latest"
export API_TIMEOUT_MS=3000000

# Keep a separate config dir (optional)
export CLAUDE_CONFIG_DIR="$HOME/claude-model/.claude-doubao"

exec "$CLAUDE_BIN" "$@"

注意,上面脚本里面的 API Key,要填入你自己申请的 Key。另外,模型的名称和 URL 可能会发生变化,最好核对一下最新的官方文档。

然后,将它变成可执行脚本。


$ chmod +x ~/claude-model/bin/claude-doubao

这样就完成了所有步骤,可以开始使用了。

先测一下,Claude Code 是否正常运行。


$ claude-doubao --version

以后,调用 Doubao-Seed-Code 模型,就用 claude-doubao 命令;调用原始的 Claude Code,就用 claude命令。


# 调用 Doubao-Seed-Code
$ claude-doubao

# 调用原始模型
$ claude

上面的方法是通用的,其他模型也可以这样添加。

五、

下面,我们就用 Claude Code 来调用 Doubao-Seed-Code 模型,测试它的表现。

以前,有一个著名的游戏《太空侵略者》(Space Invaders),大家都玩过吧,就是战斗机发射子弹,击落外星人舰队。

我让 Doubao-Seed-Code 来生成这个游戏。

首先,新建一个项目目录 space-invaders,在该目录中启动 Claude Code(使用claude-doubao命令)。


$ mkdir space-invaders
$ cd space-invaders
$ claude-doubao

然后,填入提示词,"使用 HTML 和 JavaScript 在网页上实现《太空侵略者》"。

Write an HTML and JavaScript page implementing space invaders

屏幕上就会不停滚动模型的思考步骤,大概两三分钟,所有文件就在 space-invaders 目录里面生成完毕。

上面就是浏览器的网页截屏,我没有做任何的修改,第一次生成就是可玩的,没有报错,所有操作都正常,令人满意。

生成的 HTML 源码看这里,你可以复制过去,在浏览器打开玩玩看。模型的完整对话看这里

接着,我还测试让它生成的"鹈鹕骑自行车"的 SVG 图片,大家自己看效果吧。

六、

总结一下,我用下来,Claude Code 接入 Doubao-Seed-Code 以后,用起来非常流畅,响应速度快,体验上跟原生模型没有差异。

至于 Doubao-Seed-Code 这个编程模型本身,总体上令人满意:一步步的推理非常清晰,思考时间短,生成的代码完成度高,且容易读懂,往往一次就能运行成功。

考虑到它现在有 Coding Plan 活动,9.9元就可以 API 包月,性价比很高,大家如果需要编程模型,建议开通。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2025年11月11日

大模型比拼:MiniMax M2 vs GLM 4.6 vs Claude Sonnet 4.5

4 November 2025 at 08:21

一、

上个月,我写了一篇文章,比较了两个大模型。

就有人留言,两个模型太少了,能不能加入其他模型?

正好上周(10月27日),MiniMax 公司发布了 M2 模型,代表了国产大模型的最新水平。

我就想,可以测测它的实战效果,跟智谱公司的 GLM 4.6 和 Anthropic 公司的 Claude Sonnet 4.5 对比一下。

毕竟它们都属于目前最先进的编程大模型,跟我们开发者切身相关。

二、

先要说明,其实我不太熟悉 MiniMax 公司,它比较低调。

我只知道,这家公司专门研发大模型,产品有文本模型、视频模型、音频模型等等,但都不是非常热门。我就没有特别关注。

上周,我在滑推特的时候,看到一些老外在议论(123),这才知道 MiniMax 发布了新的旗舰模型 M2。

上面说话的这个人是 HuggingFace 大模型社区的负责人,提到了 M2 模型在 Artificial Analysis 性能评比之中排名世界第五,开源模型第一。

当天的 HuggingFace 热度榜上,它也是第一名。

OpenRouter 的大模型全球调用量排名,它这周排在第三。

我就来了兴趣,准备好好试用一下。

三、

根据 MiniMax 公司的说明,M2 模型的编程能力特别强,是目前最优秀的编程模型之一。

大家知道,国际上最流行的编程模型现在是 Claude Sonnet 4.5,国内的 GLM 4.6 模型也很强,我就把它们三个放在一起对比。

简单起见,我就直接在官方的网页版(国内版国外版)上运行测试,大家可以跟着一起动手试试看。

网页版实际是官方的智能体产品 MiniMax Agent,底层用的就是 M2 模型。

网页使用是免费的,API 调用现在也是免费期,为期两周。后面定价是百万 tokens 输入/输出 2.1元/8.4元人民币,官方宣传只有 Claude 价格的8%。

它的其他链接,我也列一下,文档仓库在 GitHub,API 调用指南(兼容 OpenAI 和 Anthopic 格式)看官方文档,模型下载在 HuggingFace,下载以后可以本地部署使用(如果条件允许)。

四、

我的测试题来自著名程序员西蒙·威利森(Simon Willison),他的网站有 Cluase Sonnet 4.5 的测试结果

此前,我用这些题目测过智谱公司的 GLM 4.6 模型,大家可以参考

本文主要是 MiniMax M2 的测试表现。

五、

第一题,测试模型理解和运行代码的能力。

拉取代码仓库 https://github.com/simonw/llm ,然后通过下面的命令运行测试用例。

pip install -e '.[test]'
pytest

上面的提示词要求模型抓取一个 Python 仓库,运行里面的测试用例,并返回结果。

从网页的显示来看,Minimax Agent 显然内置了沙盒,会在隔离环境的命令行下运行代码(下图)。

整个运行过程大约三分钟,然后它给出了结果:运行通过了466个测试用例。这个结果完全正确。

令我惊喜的是,除了运行结果,它还给出了覆盖率分析(下图),指出测试用例覆盖了代码的哪些功能。我还没在其他模型见过主动提供覆盖率的。

完整的对话看这里

六、

第二题,测试大家最关心的代码生成能力,看看它能不能按照要求生成应用程序。

我还是使用上面的仓库,要求 M2 为其增加一个功能,不仅需要修改代码,还需要修改数据库结构,并增加配套的测试用例。

1、代码仓库 https://github.com/simonw/llm 是一个 AI 对话应用,它将用户的提示和 AI 的响应存储在 SQLite 数据库中。

2、它目前使用线性集合,保存单个对话和响应。你尝试在响应表中添加一个 parentresponseid 列,并通过该列将对话的响应建模为树状结构。

3、编写新的 pytest 测试用例,验证你的设计。

4、编写一个 tree_notes.md 文件,首先将你的设计写入该文件,然后在运行过程中将该文件用作笔记。

这个任务比较复杂,运行时间稍微长一点。

这里有一个插曲。在运行过程中,它突然提示读取 GitHub 仓库没有成功,这时出现了我意外不到的一幕。

它竟自动切换到第三方的 deepwiki.com 去获取仓库。后面,分析数据库结构时,它又切换到 datasette.io 去分析 SQLite 数据库。这种第三方云服务的自动切换,我也是第一次见,可惜没来得及截图。

任务完成后,它给出了一段总结(下图),详细描述了它做了哪些事情,包括修改数据库、新增测试用例等等。

它甚至增加了一个示例文件(下图),演示新增的功能怎么用,还有一个示例图,演示修改后的对话结构,提示词里面可没要求它这么做。

完整的对话看这里

另外,官网的画廊有很多它生成的应用,我觉得也值得看一下。

七、

第三题就是西蒙·威利森发明的"鹈鹕骑自行车"场景,测试它的理解和推理能力。

生成鹈鹕骑自行车的 SVG 图片。(Generate an SVG of a pelican riding a bicycle)

这是现实中不存在的情景,全靠模型自己推理出来。理解能力越强,生成的图像就越逼真。

下面就是它生成的结果,完整的对话看这里

作为比较,我把另外两个模型的结果也贴出来。

GLM 4.6

Claude Sonnet 4.5

我觉得,MiniMax M2 的结果(第一张图片)有两个值得注意的地方。首先,它添加了道路;其次,它的自行车结构相对更完整,只是缺了握把。另外,要是那只鹈鹕的姿势更像"骑车"就好了。

八、

测试就到这里,至于 GLM 4.6Claude Sonnet 4.5 的结果对比,大家可以看它们各自的链接,自行比较。

我必须诚实地说,MiniMax M2 的表现超出了我的预期

最吸引我的地方,还不是运行结果本身,而是它处理问题的方式,对用户很友好,会添加一些帮助理解的辅助结果,让你觉得很易用(accessible)也很易懂,这也从侧面增强了生成结果的可靠性。

我倾向于相信,各种评测结果确实是 M2 的真实实力。再考虑到它的 API 价格(现在还是免费期),我会在接下来的工作中使用它,也推荐大家试试看。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2025年11月 4日

错误处理:异常好于状态码

22 October 2025 at 00:28

错误处理有不同的方式。

JavaScript 和 Python 是抛出异常, Rust 语言是变相抛出异常。

C 语言和 Go 语言则是返回一个错误值,你必须判断该值是否为 -1 或空值。

我一直想知道,哪一种方式更好?

前不久,我读到一篇多年前的文章,明确提出抛出异常好于返回状态码。他的理由很有说服力,文章好像还没有中译,我就翻译出来了。

异常与返回状态码

作者:内德·巴切尔德(Ned Batchelder)

原文网址:nedbatchelder.com

在软件中,错误处理有两种方式:抛出异常(throwing exceptions)和返回状态码(returning status codes)。

几乎所有人都认为异常是更好的处理方式,但有些人仍然更喜欢返回状态码。本文解释为什么异常是更好的选择。

一、代码干净

异常可以让你在大部分代码中省去错误处理步骤。它会自动通过不捕捉异常的层,向上传递。你因此可以编写完全没有错误处理逻辑的代码,这有助于保持代码的简洁易读。

让我们比较一下,编写同一个简单函数的两种方法。

先是返回状态码。


STATUS DoSomething(int a, int b)
{
    STATUS st;
    st = DoThing1(a);
    if (st != SGOOD) return st;
    st = DoThing2(b);
    if (st != SGOOD) return st;
    return SGOOD;
}

上面示例中,必须判断DoThing1(a)DoThing2(b)的返回值是否正常,才能进行下一步。

如果是抛出异常,就不需要中间的错误判断了。


void DoSomething(int a, int b)
{
    DoThing1(a);
    DoThing2(b);
}

这只是最简单的情况,如果遇到复杂的场景,状态码带来的噪音会更严重,异常则可以保持代码的整洁。

二、有意义的返回值

状态码会占用宝贵的返回值,你不得不增加代码,判断返回值是否正确。

有些函数本来只需要返回一个正常值,现在不得不增加返回错误的情况。随着时间的推移,代码量不断增长,函数变得越来越大,返回值也越来越复杂。

比如,很多函数的返回值是有重载的:"如果失败,则返回 NULL",或者失败返回 -1。结果就是每次调用这个方法,都需要检查返回值是否是 NULL 或 -1。如果函数后来增加新的错误返回值,则必须更新所有调用点。

如果是抛出异常,那么函数就总是成功的情况下才返回,所有的错误处理也可以简化放在一个地方。

三、更丰富的错误信息

状态码通常是一个整数,能够传递的信息相当有限。假设错误是找不到文件,那么是哪一个文件呢?状态码无法传递那么多信息。

返回状态码的时候,最好记录一条错误消息,放在专门的错误日志里面,调用者可以从中获取详细信息。

异常完全不同,它是类的实例,因此可以携带大量信息。由于异常可以被子类化,不同的异常可以携带不同的数据,从而形成非常丰富的错误消息体系。

四、可以处理隐式代码

某些函数无法返回状态码。例如,构造函数就没有显式的返回值,因此无法返回状态码。还有一些函数(比如析构函数)甚至无法直接调用,更不用说返回值了。

这些没有返回值的函数,如果不使用异常处理,你不得不想出其他方法来给出错误信息,或者假装这些函数不会失败。简单的函数或许可以做到无故障,但代码量会不断增长,失败的可能性也随之增加。如果没有办法表达失败,系统只会变得更加容易出错,也更加难以捉摸。

五、错误的可见性

考虑一下,如果程序员疏忽了,没有写错误处理代码,会发生什么情况?

如果返回的状态码没有经过检查,错误就不会被发现,代码将继续执行,就像操作成功一样。代码稍后可能会失败,但这可能是许多步操作之后的事情,你如何将问题追溯到最初错误发生的地方?

相反的,如果异常未被立刻捕获,它就会在调用栈中向上传递,要么到达更高的 catch 块,要么到达顶层,交给操作系统处理,操作系统通常会把错误呈现给用户。这对程序是不好的,但错误至少是可见的。你会看到异常,能够判断出它抛出的位置,以及它应该被捕获的位置,从而修复代码。

这里不讨论错误未能报出的情况,这种情况无论是返回状态码还是抛出异常,都没用。

所以,对于报出的错误没有被处理,可以归结为两种情况:一种是返回的状态码会隐藏问题,另一种是抛出异常会导致错误可见。你会选择哪一种?

六、反驳

著名程序员 Joel Spolsky 认为,返回状态码更好,因为他认为异常是一种糟糕得多的 goto 语句。

"异常在源代码中是不可见的。阅读代码块时,无法知道哪些异常可能被抛出,以及从哪里抛出。这意味着即使仔细检查代码,也无法发现潜在的错误。"

"异常为一个函数创建了太多可能的出口。要编写正确的代码,你必须考虑每一条可能的代码路径。每次调用一个可能抛出异常的函数,但没有立即捕获异常时,函数可能突然终止,或者出现其他你没有想到的代码路径。"

这些话听起来似乎很有道理,但如果改为返回状态码,你就必须显式地检查函数每一个可能的返回点。所以,你是用显式的复杂性换取了隐式的复杂性。这也有缺点,显式的复杂性会让你只见树木不见森林,代码会因此变得杂乱无章。

当面临这种显式复杂性时,程序员会写得不胜其烦,最后要么用自定义的方法隐藏错误处理,要么索性省略错误处理。

前者隐藏错误处理,只会将显式处理重新变为隐式处理,并且不如原始的 Try 方法方便和功能齐全。后者省略错误处理更糟糕,程序员假设某种错误不会发生,从而埋下风险。

七、总结

返回状态码很难用,有些地方根本无法使用。它会劫持返回值。程序员很容易不去写错误处理代码,从而在系统中造成无声的故障。

异常优于状态码。只要你的编程语言提供了异常处理工具,请使用它们。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2025年10月22日

一天之内,智谱和 Anthropic 都发了最强编程模型

1 October 2025 at 19:05

1、

假期前最后一天(9月30日),热闹非凡。

上午,Anthropic 公司发布了 Claude Sonnet 4.5 模型

下午,智谱公司发布了 GLM 4.6 模型

我觉得,对于程序员,这个动态很重要。

因为这两个模型都属于目前最先进的 AI 编程模型。你想让 AI 生成代码,首选就是它们。

这就是说,一天之内,AI 编程模型又达到了新高度。

2、

Anthropic 发布公告的第一句话,就毫不谦虚地用了三个"世界之最"。

"Claude Sonnet 4.5 是世界上最好的编码模型。它是构建复杂代理的最强大模型。它是使用计算机的最佳模型。它在推理和数学方面表现出显著的进步。"

智谱的发布公告也是当仁不让。

"我们再次突破大模型的能力边界。

GLM-4.6是我们最强的代码 Coding 模型(较 GLM-4.5 提升27%)。在真实编程、长上下文处理、推理能力、信息搜索、写作能力与智能体应用等多个方面实现全面提升。"

为了让人信服,智谱的发布公告还给出了详细的测试结果。

上图一共是8个测试基准的结果图。每个图的蓝柱是 GLM-4.6,绿柱是 GLM-4.5。对照组是前两天刚发布的 DeepSeek V3.2 Exp、Claude sonnet 4、Claude sonnet 4.5。

可以看到,蓝柱基本上都是排名前列,甚至第一。智谱还声称,GLM-4.6 非常节省 Token(也就是省钱),"比 GLM-4.5 节省30%以上,为同类模型最低"。

所以,它的结论就是:"GLM-4.6 在部分榜单表现对齐 Claude Sonnet 4/Claude Sonnet 4.5,稳居国产模型首位。"

这就有意思了,一个自称"世界上最好的编码模型",另一个自称"稳居国产模型首位"。

下面,我来测试,GLM-4.6 相比 Claude sonnet 4.5 到底怎么样。

3、

需要说明的是,这两个模型的比较,不完全是为了测试,也有实际的意义。

Anthropic 公司虽然产品很强,但是它限制中国人使用,国内用户正常途径无法开通它的服务。另一方面,它是付费模型,价格也不便宜,百万 token 的输入输出价格是3美元/15美元。

形成鲜明对照的是,GLM-4.6 是完完全全的国产模型,来自北京智谱公司。它采取彻底的开源路线(MIT 许可证),模型代码完全公开,可以任意使用。

你要想自己在家里安装,也是可以的。但是,它的硬件要求太高,家用设备达不到,所以,一般都使用它的云服务。

目前,智谱的官网(BigModelZ.ai),通过 Web 界面使用 GLM-4.6 是免费的。

它的 API 调用需要付费,入门套餐(coding plan)好像是一个月20元人民币。

另外,它有完备的中文支持(文档+客服),这也是 Anthropic 没有的。

总之,我的测试目的,也是想看看,它是不是真如官方宣称的那样强大,能不能替代 Claude Sonnet 模型。

4、

我的测试方法很简单。Anthropic 公司事先邀请了著名程序员西蒙·威利森(Simon Willison),试用 Claude Sonnet 4.5 模型。

西蒙·威利森已经在他的网站上,公布了试用结果

我就拿他的几个测试,用在 GLM-4.6 上面,然后比较一下运行结果就可以了。

大家可以跟着一起做,打开官网,把题目粘贴进去(最好贴英文),这样会有更深切的感受。

AI 终端工具(比如 Claude Code、Cline、OpenCode、Crush 等)也可以用,参考官方文档进行设置(需要先开通 API)。

5、

第一个测试。

拉取代码仓库 https://github.com/simonw/llm ,然后通过下面的命令运行测试用例。

pip install -e '.[test]'

pytest

这个测试需要联网获取代码,然后在后台运行。

智谱官网的 Web 界面跟 Claude 一样,提供 Python 和 Node.js 的服务器沙箱环境,可以生成后直接执行代码。

我省略它中间的推理步骤了,最后结果如下图(官网查看完整对话)。

278个测试用例通过,耗时 18.31s

整个运行过程(拉取、安装依赖、执行命令)跟 Claude Sonnet 是一样的。奇怪的是,Claude Sonnet 运行了466个测试用例,多出来100多个,不知道为什么。

6、

第二个测试是较复杂的编程任务,原始提示是英文,我翻译成中文。

1、 代码仓库 https://github.com/simonw/llm 是一个 AI 对话应用,它将用户的提示和 AI 的响应存储在 SQLite 数据库中。

2、它目前使用线性集合,保存单个对话和响应。你尝试在响应表中添加一个 parentresponseid 列,并通过该列将对话的响应建模为树状结构。

3、编写新的 pytest 测试用例,验证你的设计。

4、编写一个 tree_notes.md 文件,首先将你的设计写入该文件,然后在运行过程中将该文件用作笔记。

大家可以查看完整的对话记录

GLM-4.6 运行了几分钟,不停地吐出生成的代码。最终,它修改了脚本,增加了 API 和命令行调用接口,并编写和运行通过了测试用例。

它还生成了一个 tree_notes.md 文件,里面是本次修改的详细说明。

大家可以比较它的运行结果与 Claude Sonnet 的运行结果

从结果上看,它们的差异不大,都做到了提示的要求,并且代码都是可运行的。差异主要是实现细节,这个就需要详细阅读代码了。

7、

第三个测试是西蒙·威利森独家的,就是让 AI 生成一个鹈鹕骑自行车的 SVG 图片(Generate an SVG of a pelican riding a bicycle)。

这是现实中不存在、且没有参考物的景象,考察模型的想象和生成能力。

下面是 GLM-4.6 打开深度思考后生成的图片

下面是 Claude sonnet 4.5 打开深度思考后生成的图片。

两者的结果相当接近,只是 Claude 生成的鸟喙更明显,更能看出是一只鹈鹕。

8、

测试就到这里,我觉得总结来说,GLM-4.6 是一个非常强的国产模型,编码能力确实很优秀,可以当作目前公认的最强模型 Claude Sonnet 的替代品。

它的功能全面,除了编码,其他任务也能完成,而且响应速度快,价格低,性价比非常突出。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2025年10月 1日

扣子空间网页设计,是在挑战 V0 吗?

24 July 2025 at 14:16

一、

扣子(coze.cn)大概是字节旗下最不好定义的产品。

它的定位是智能体(AI agent)平台,可以开发/运行各种 AI 应用。这意味着,AI 可以干的事情,它都能做。

但是,AI 一直在进化,所以扣子的形态也一直在变。

一开始,扣子是面向程序员的开发平台。它有工作流模式,在图形界面上拖拉节点,定义 AI 工作流,生成应用。

但是不久后,它又推出了"扣子空间",面向普通用户,使用自然语言,调用它内置的各种智能体。

我写过测评,把它当成办公助手,完成各种任务(PPT 生成、旅游地图规划、写研究报告等),完全是傻瓜式操作。

可是没有想到,昨天我发现,扣子空间加入了网页设计,又变成了 UI 工具,很像内置了一个 V0。

二、

V0 是最早的、也是目前最有名的网页设计/生成方面的 AI 工具。用户描述想要什么网站,它来实现。

这一次,扣子空间引入了这个功能,让自己又多了一种产品形态----网页设计工具。

现在,你完全可以在扣子里面,进行网页开发。而且,它是免费服务,并有安卓客户端(已发布)和 iOS 客户端(待发布),可以在手机上操作。

这听上去很吸引人。我试了一下,比如截图还原和网站生成,尤其是 Figma 设计稿的还原,看看它到底行不行。

下面就是我的试用体会。

三、截图还原

我首先测了截图还原,上传一张网页截图,让它把页面写出来。

扣子的网页设计功能,必须打开扣子空间的"网页"按钮。

我上传了 airbnb 的首页截图(下图),并输入"把这个截图还原成网页"。

系统提示,需要3到5分钟思考,代码在页面右侧滚动生成。

几分钟后,代码生成完毕,切换到预览页,下面就是它生成的页面。

这是第一次生成的结果,没有经过调整,我觉得还原度还可以,页面结构和每个区域都正确复刻出来了。

分享出来了,这个页面和整个 AI 对话,大家点击进去,可以看清晰效果。

值得一提的是,扣子生成的是 React + Tailwind 项目,可以整个下载到本地,用 npm 运行。这样的话,后期的手工处理比较方便。

四、Figma 设计稿还原

扣子空间的真正杀招是从 Figma 设计稿生成网页

具体做法是先在提示框,点击下方的 Figma 按钮。

网页会提示你,输入 Figma 链接。

这个链接怎么得到呢?在 Figma 网站的工作区,选中一个页面,打开右键菜单"复制粘贴/复制选区链接"(下图),就可以了。

我选了一个 Figma 官网的示例文件,把链接发到扣子空间。大家看看扣子的还原度

基本上,跟设计稿很接近,还原度非常高。所以,如果有设计稿原始文件,通过 AI 工具,完全可以替代手工开发。

这属于高级功能,国内其他 AI 工具,我好像没见过,在 V0 也是需要付费的。

五、可视化编辑

预览生成后,扣子空间提供了可视化编辑,修改起来相当方便。

先在预览界面,打开"编辑"按钮。

然后,选中页面元素,就会跳出 AI 对话框,你可以用自然语言编辑。

选中按钮后,我要求 AI 将按钮的背景色改成绿色(上图),提交后就会重新生成代码(下图)。

六、零基础生成网站

下面我直接用自然语言,跟 AI 描述需求,让它生成网站。

我让它生成一个待办事项(Todos)应用。

"生成一个蓝色主题的待办事项列表应用,并实现编辑功能,可以编辑列表任务。"

扣子空间就开始自动完成页面设计、代码编写、服务器部署,最后给出了下面的效果

这个页面还可以部署成可访问的链接,向外部用户公开。

我觉得,效果相当不错,各项操作(添加任务、编辑任务、删除任务)都没报错,一次生成就能运行,该有的按钮也都有。

这真的超出了我的预料,是不是扣子对常见任务做过特别训练?

理论上,网站生成不需要专业知识,零基础用户就能生成全站。实际操作也确实是这样,就算出现报错,也可以交给 AI 处理。但前提是只限于简单互动的网站,如果需要 JS 脚本处理复杂交互,就很可能出现 AI 解决不了的报错。

七、总结

上面就是初步的使用感受。

我感到,扣子空间的网页设计功能虽然刚上线,但是完成度很不错

它的三个重点功能----设计稿/截图还原、可视化编辑、网站生成----相当好用,生成质量完全可以接受,加上免费,我觉得很有竞争力。

它同样也有一些使用限制。

(1)没有命令行窗口。如果你不需要 UI,只让它生成后端代码,它没有提供命令行,无法测试。

(2)未集成 GitHub。它无法将代码直接跟 GitHub 同步,只能先下载到本地,再手动推送到 GitHub。

(3)不适合复杂的状态管理。它的强项是 UI 生成,不适合复杂的状态管理和交互逻辑。

总体上,这次更新让扣子空间变得更有用了,除了早先的聊天功能、办公功能,现在又增加了网页设计,实用性更强,常见的 UI 开发任务(生成网页和组件、完成原型设计),完全可以考虑用它。

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2025年7月24日

国产 AI 网页开发工具:豆包 AI 编程简单测评

24 June 2025 at 10:49

一、引言

AI 编程(AI coding)是眼下的热点,但它其实不是单一功能,而是分成不同的方向。

其中的一个方向,就是 UI 生成,尤其是生成网页的 UI。

UI 生成涉及到视觉设计,需要专门的 AI 工具。国外已经有不少这类产品,比如 v0.devlovable.devbolt.new

它们能够根据你的文字描述,自动设计和生成网页,并部署上线。

我一直想来测评,这些 UI 生成器到底好不好用,可惜只有开通付费版,才有完整体验(包括最新、最强的模型)。

二、豆包

上周,我发现字节旗下的豆包,也上线了 UI 生成功能,能够直接生成网页应用了。

官方还特别加注"应用创作 1.0",唯恐你没注意到。

原因好像是底层的豆包大模型发了1.6版,代码生成能力大大加强。官方宣传,它在多个测试集上,得分属于国际第一梯队。

出于好奇,我就对它做了简单测评。它是完全免费的,而且对于国内用户,这种国产工具要比国外竞品更易上手。

三、基本功能

点击菜单的"AI 编程"选项,就进入了编程界面,就是一个大的输入框,下面有几个示例。

废话少说,我直接输入:

生成一个电商网站。

系统立刻转入代码生成页面,左侧是 AI 对话栏,右侧是不断滚动生成的网页代码(下图)。

等到代码生成完毕,右侧就会切换为生成的网页预览。

为了便于展示,我把这个页面分享出来(点击右上角的"分享"按钮)。

大家自己看效果吧(点击这里)。

声明一下,这是系统直接生成的,我没做任何修改。

我觉得,不足10个字的输入,能生成这样的网页,算可以了,反正是超过了我的预期。

虽然这个页面看上去能用,但许多细节需要修改。

四、可视化编辑

修改的时候,我发现,豆包的编辑功能做得挺好,完全是可视化编辑,不懂代码的人也能上手,其他竞品好像都没有做到这种程度。

豆包的可视化编辑,分成 AI 编辑和手工编辑。

4.1 AI 编辑

AI 编辑就是在左侧的 AI 框,直接输入指令,让 AI 帮你编辑。

编辑过程就像下图,选中标题,输入指令"优化表述,同时改为艺术字",就立刻生效了。

一条指令可以修改多处,每次修改系统都会实时保存,不用手动保存。

4.2 手工编辑

手工编辑就是直接在前端,自己动手修改文字和图片。

先点击上方的"编辑"按钮,进入编辑状态。

然后,选中要修改的元素,进行编辑。

举例来说,AI 生成的网页,配图往往不匹配,需要更换。

上图中,图片应该是蓝牙耳机,AI 却配了一张笔记本电脑的图片,需要更换。

在编辑状态下,选中这张图片,下方会出现一个编辑框。

里面有三个选项。

  1. 智能生图:AI 生成图片。
  2. 一键搜图:搜索系统图库。
  3. 本地替换:上传本地图片。

选中第一项"智能生图",输入"蓝牙耳机",就会得到 AI 生成的蓝牙耳机图片。

五、文本秒变网页

豆包的这一次更新,还有一个"文本秒变网页"的功能,我觉得很实用。

它能把长文本(会议记录、旅行攻略、新闻报道、论文等等)经过 AI 解读,自动变成网页

具体来说,对话框底下,有一排功能按钮,第一个就是这次新增的"文本秒变网页"。

点击它,输入框就会出现一句系统提示:

"分析以下内容,并将其转化为清晰美观的可视化 HTML 网页。"

你把长文本贴在这段提示下面,就可以了。比如,你贴一篇研究报告,AI 就会进行内容总结,然后将总结的内容生成网页。

更实用的是,长文本还可以通过 AI 生成。具体做法是在聊天界面,让 AI 生成长文本,然后切换至 AI 编程,输入指令"把上述内容转化成 html 网页"。

举例来说,先跟 AI 聊天,"帮我制定三天两晚的6月杭州旅游攻略"。

AI 会滔滔不绝,生成一大段文字(点击查看)。然后,你切换到 AI 编程,输入"帮我把上述信息转化为可交互的 html 网页"。

网页就生成好了(点击查看)。

有了这个功能,AI 的内容生成与网页生成,就一体化了。

于是,玩法就无穷无尽了。比如,上传会议的录音文件,生成会议记录网站;上传文献,生成内容介绍网站;让 AI 分析财务报表,生成折线图、流程图的分析网站。

六、总结

试用下来,我对豆包这次的网页生成功能,印象很好,觉得很实用,完成度也高,是一个有用的工具

首先,模型生成的页面效果,比我想象的好,是可用的。

其次,可视化编辑很好用,操作方便,上手门槛低,适合新手和不懂编程的项目经理、设计师等。

豆包团队重点打造这个功能,表明他们对 AI 编程现状有清醒的认识:AI 生成的页面,还无法一次就达到理想的状态,所以要把编辑功能做好,方便修改调优。

最后,对比国外的竞品,它有更好的本土化。除了中文界面和用法提示,它生成的网页风格,明显就是用了本土化的模版,而不是国外设计师的风格。

如果要说缺点,大概是 JS 脚本能力还不够令人满意,有一些页面的互动效果,不能一次成功,需要跟 AI 纠正多次。

总之,在前端应用生成这方面,豆包的 AI 编程是一个有生产力的产品,美观度和可用性都比较强,又是免费的,大家可以自己动手试试看

(完)

文档信息

  • 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证
  • 发表日期: 2025年6月24日
❌
❌