Normal view

There are new articles available, click to refresh the page.

Before yesterday阮一峰的网络日志

科技爱好者周刊（第 390 期）：没有语料，大模型就是智障

阮一峰的网络日志

27 March 2026 at 05:49

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

山东日照某住宅小区的彩色风雨连廊，入口处树林还设了咖啡馆。（via）

没有语料，大模型就是智障

如果现在做一个问卷调查，问大家"你觉得大模型是否具有智能？"

我相信，大多数人会是肯定的回答。

哪怕现在只是 AI 的初级阶段，大模型已经能够替代很多的人类智力劳动，确实非常神奇。

但是，我们不要忘记真实情况，大模型不是魔法，更不是具有自主智能的"硅基智能体"，而是基于统计规律的语言模型，它的一切行为都基于数学计算。

最好的证据就是，如果让它解决没有训练过的题目，也就是不存在统计规律的话，它根本解不出来。

这就是我今天想分享的一个实验。

两位国外的研究者找了五个主流的大模型：GPT-5.2、O4-mini、Gemini 3 Pro、Qwen3-235B、Kimi K2。

他们让大模型使用五种小众的编程语言----Brainfuck、Befunge-98、Whitespace、Unlambda 和 Shakespeare----来编程解决各种问题。

这些小众语言的共同特征是，网上很少有它们的资料，因此不能用来训练大模型。大家猜猜看，结果怎么样？

实验结果用一句话总结，就是大模型的表现一塌糊涂。

这五个大模型的平均答题正确率仅为3.8%，即100道题可以答对3.8道。相比之下，它们处理 Python 问题的正确率可以达到90%。

更尴尬的是，仅有的那几道答对的题目，都是入门级。更难的级别（初级、中级、高级），所有五个大模型的正确率都为0。

这个实验充分说明了，大模型的表现（智能程度）首先由训练材料决定：训练的语料越多，表现越好，比如 Python 的语料遍地都是，大模型因此极其擅长解决 Python 问题；训练的语料越少，大模型表现就越差，简直跟智障一样，没什么用处。

那么，一个让人好奇的问题就来了：如果某种冷门语言没有语料，但有一本很详尽的《使用手册》，我们让大模型学习这本手册，它是否就能学会这种冷门语言编程呢？

MAI-Image-2

本周，微软公司发布了自家的图像生成模型 MAI-Image-2。

这个模型生成的图像质量非常高，有评论认为，目前仅次于谷歌的 nano-banana-2。

微软开放了网站 MAI Playground（下图），现在可以免费生成图片。

我试用后，图像质感确实很好，非常逼真。比如，一只狗在海里骑自行车。

但是，它的使用限制很多：（1）有争议的、可能冒犯的图片，都会拒绝生成；（2）每天的免费额度是15张，每次生成的间隔时间是30秒；（3）它只能生成长宽比 1:1 的图片，其他分辨率都不支持；（4）不提供图像编辑和加工，只能用来"文生图"。

如果你需要通过文本生成高质量图片，可以试试它。

科技动态

1、可玩的封面

红牛公司推出了一本纸质的游戏杂志《GamePop》。

它的封面有一个可以玩的"俄罗斯方块"，是世界首本封面可以玩游戏的书。

奥秘就是封面里面，嵌入了一块非常薄的柔性电路板。

这块板配备了180个 RGB LED 灯、7个电容式触摸按钮、一颗32位 ARM 芯片。

它还包含一块可充电电池，可以通过 Type C 充电。

可惜的是，这个封面是限量版，不公开出售。它得到了俄罗斯方块公司的官方授权，全球仅发行150套，每套均有独立编号。

2、收费的真人客服

企业都不喜欢提供真人的电话客服，因为成本很高，更希望改成机器应答的电话客服。

惠普公司想出了一个点子，将用户往机器客服赶。

用户打惠普的客服电话，会听到一段语音提示，要你访问官网自己去寻找答案。如果你坚持要真人客服，就要在线等待15分钟。

如果中途挂了电话，再打就需要重新等待15分钟。系统还会分别在第5、第10和第13分钟提醒你，可以访问网站或发邮件联系。

虽然这种做法很可恶，但未来可能成为常态：免费就只有 AI 客服或机器人客服，额外付费才有真人客服。

3、飞盘的玩法

怎样扔飞盘，才能又快又远？

一个美国的物理学家，找了几十个学生进行实验，使用不同手势和角度扔出飞盘。他测量了飞行速度和扭矩，把结果写成了论文。

他发现，将拇指放置在距飞盘外缘约3厘米的位置，可以获得平均转速和初始速度的最佳结果。

他还发现，转速与初始速度存在线性相关，转速越高，初始速度也越高。

所以，下次玩飞盘的时候，你要放对拇指的位置，然后用足力气，反手甩出，就可以取得最佳结果。

文章

1、MkDocs 的缓慢崩溃（英文）

MkDocs 是著名的文档网站生成工具，但是主要贡献者之间有激烈矛盾，互相对抗，导致这个项目四分五裂。本文就梳理这件事。

2、大模型预测咖啡散热（英文）

作者让各种大模型给出咖啡散热时间的公式，然后测量了实际的散热时间，得到了一个排行榜。

3、下一个 App 很可能是无头应用（英文）

如果我们未来都通过 AI 助手使用手机，那么各种 App 就不需要显示模块了（无头），只需向 AI 助手提供数据接口。

4、网页前端数据压缩的一种方法（英文）

本文介绍如何在前端，通过 canvas（画布）将数据压缩成一张图片。

5、Ruby 是构建 AI 应用的最佳语言（英文）

作者使用 Python、JavaScript、Ruby 三种语言写一个 AI Agent，比较后认为 Ruby 写 AI 应用最方便。

6、古罗马的混凝土建筑（英文）

古罗马人发现了混凝土，学会了用它浇筑建筑物。结果就是，古罗马建筑有古代最大的室内面积，并且非常坚固，保留到了今天。

工具

1、proxychains-rs

proxychains4 的 Rust 实现，指定某个进程走代理链。（@tianrking 投稿）

2、Flare Stack Blog

一个基于 Cloudflare Worker 的博客系统，集成 D1、R2、KV、Workflow 等服务。（@du2333 投稿）

3、Tunelo

一行命令将本地服务暴露到公网，只需要单个 4MB 二进制文件，使用 QUIC 协议。（@jiweiyuan 投稿）

4、ReadAny

桌面端 + 安卓端的电子书阅读工具，自带 AI 功能、语音朗读和多端同步。（@codedogQBY 投稿）

5、RaTeX

纯 Rust 实现的 KaTeX 兼容的数学渲染引擎，原生解析、排版 LaTeX 数学公式，支持各种环境。（@erweixin 投稿）

6、Work Review

开源的 Win/Mac 桌面应用，在后台持续记录当天使用过的应用、访问过的网站等，便于整理成个人的工作轨迹。（@wm94i 投稿）

7、Valdi

SnapChat 发布的 UI 框架，可以用类似 React 的语法编写组件，然后编译成 iOS、Android 和 macOS 的原生应用。

8、Npflared

架设私有 NPM 镜像的工具，适合企业用来提供内部的 JS 软件包。

9、Chokidar

一个 Node.js 模块，用来监听文件系统的各种事件（新增、删除、编辑等），比原生的 fs.watch / fs.watchFile 功能强。

AI 相关

1、微信的龙虾接口

微信官方本周发布了龙虾接口，AI 机器人可以向微信发消息了。

很多项目利用这个接口做二次开发，便于各种 Bot 和 Agent 网关的接入。

wechat-rs-sdk（@tianrking 投稿）
WeChatBot（@jiweiyuan 投稿）
WeClaw（@idoubi 投稿）
WeChat-Channel（@nanbingxyz 投稿）

2、AI CLI Complete Notify

跨平台桌面应用，AI 命令行任务（Claude code/Codex/Gemini）完成后，发出任务完成提醒，支持各种渠道（飞书/钉钉/企微 Webhook、Telegram、邮件、桌面/声音提示）。（@ZekerTop 投稿）

3、Claude Config Manager

macOS 的 Claude 资源（Skills、MCP、Agent）桌面管理工具，提供一个图形化的中央控制台。（@Daydayoneup 投稿）

4、TrustClaw

龙虾 OpenClaw 的修改版，尽量消除代码的风险点。

资源

1、Project N.O.M.A.D.

一个 Linux 应用，集成了各种人类知识（维基百科、全球地图、在线课程、本地 AI 助手）等等，用于在断网时查阅。（@15x3 投稿）

2、用于数据分析的 AI Coding Agent（英文）

著名开发者 Simon Willison 的培训班讲课资料，通过 AI 工具进行数据分析，有详细步骤。

3、TypeScript 简洁之书

一本开源的 TypeScript 教程，有中文版。

图片

1、苹果壁纸彩蛋

苹果公司最近发布了新笔记本 MacBook Neo，跟以前一样，配一张特别的壁纸。

壁纸里面嵌入了产品名，以前的壁纸也有这个彩蛋。

iMac

MacBook Pro

iPad Air

MacBook Air

iPad Mini

iPad Pro

1、儿童死亡率

现代人很难想象的是，人类历史的大部分时间里，儿童死亡率（在成年前死亡）一直接近50%。

上图中，红线就是婴儿死亡率，一直稳定在50%左右。直到19世纪后期，才开始快速下降。

2020年，全球平均婴儿死亡率是4.3%，最低的国家已经达到了0.3%。

文摘

1、别变成机器

我最近看到一句话："只有奴隶才通过生产力来量化自身的存在价值。"

是啊，生产力越高，奴隶越有价值。

这让我想到，如今的社交媒体上充斥着大量的奋斗文化，许多人展示自己是多么努力在提高个人生产力。

在我看来，这就是将自己跟机器做比较。大家认定，如果能像机器一样，接收指令并高效地完成某个目标，自己就越有价值，就能取得人生成功。

社交媒体上，这种"奋斗文化"有很多表现形式：（1）你还不够努力。（2）你得早上五点起床。（3）你得第一个到，最后一个走。

这种文化的背后，就是要求人变成机器。

机器确实很高效，但有一个问题：它是刚性的，以既定的模式和线性速度运转，无法自动适应环境变化，也无法学习游戏规则。

你不是机器，你是人。你的特点应该是灵活应变，快速适应。你不要追求极致的努力，而是要找到最有价值的解决方案。你要专注于真正重要的因素：速度、效率或质量，不要迷恋枯燥乏味的工作。

言论

1、

我们创造了一个文明，其中最重要的元素都深深地依赖于科学技术，但是我们还让科学技术变得如此难懂。这会带来灾难，我们可能暂时侥幸逃脱，但迟早，这种无知和权力的易燃混合物会爆炸。

-- 卡尔·萨根

2、

巴黎以前总是堵车，市长想出一个办法，大幅减少停车位，后来果然少有人开车了。

-- CNN

3、

一项研究发现，远程教学下，外形出众学生的作业成绩，要比面对面教学时更低。

-- 《经济学快报》

4、

这些年对我影响最大的事情，就是我变成了一个"白天型"的人。

我以前经常熬夜，有时会到天亮。最近五年，我强迫自己养成早起的习惯。现在，我的生活都在白天，亲眼看到黎明和黄昏，让我感到心安，生命与自然循环和谐一致。

-- 《成为一个白天生活的人》

5、

AI 很擅长将清晰的想法转化为可运行的代码。真正耗时的是弄清楚我到底想开发什么。

-- lustin.fr

往年回顾

如何阻止 AI 爬虫（#343）

一周是一年的2%（#293）

与孔子 AI 聊天（#243）

前端与后端，谁更难？（#193）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年3月27日

套壳中国大模型撑起500亿美元估值？扒一扒 Cursor 的"套壳"疑云

阮一峰的网络日志

21 March 2026 at 18:19

1、

本周末，有一条最热闹的 AI 新闻，震动了太平洋两岸，连马斯克都关注了。

昨天，AI 编程工具 Cursor 推出了"自己的"模型 Composer 2。

上图是官网截图，现在点进去还写着"自有模型"。

自从2024年10月，Composer 1 发布以来，外界就一直怀疑，它是套壳的中国模型，因为行为很类似，但苦于找不到证据。

现在 Composer 2 来了，很多人就开始研究，它的背后到底是什么模型，真的是 Cursor 自家的吗？

Cursor 为了防止破解，做了很多限制，但是百密一疏。国外推友 @fynnso 发现，有一个地方在上一个版本是禁止的，但是这个版本却可以执行。

首先，你自己架设一台服务器，充当 AI 模型的调用接口，有没有模型无所谓，只要能收到客户端请求就行。

然后，你在本地的 Cursor 里面，设置使用的模型为 Composer 2，模型网址就是你刚架设的服务器。这样一来，Cursor 就会向你的服务器发出请求，从而可以看到它到底在请求什么模型。

真相就暴露了，它请求的模型 ID 居然是 kimi-k2p5-rl-0317-s515-fast（下图）。

2、

这位国外推友就把上面的截图，发布到网上。这下炸锅了，明眼人都看出来，这是铁证，Composer 2 实际上是套壳的 Kimi K2.5。

可笑的是，事情一爆发，Cursor 第一时间就把漏洞堵上，现在已经没法复现这个请求（下图）。

但是为时已晚，网上传遍了，就连马斯克也发推："它就是 Kimi K2.5"。

这下好了，变成了公开的秘密，再也无法掩盖了。

3、

大家的关注点，很快就转移到 Cursor 是否侵权。因为 Kimi K2.5 虽然是开源模型，但是采用的是修改的 MIT 许可证（下图）。

许可证这样说：你可以任意使用这个模型，唯一的条件是如果你的商业产品月活用户超过1亿，或者月收入超过2000万美元，你必须在用户界面的醒目位置披露，你使用了 Kimi K2.5。

Cursor 最新披露的年化收入是20亿美元，相当于月收入1.67亿美元，显然满足上面的条件。但是，它隐藏了使用 K2.5 的事实。

就在大家认定 Cursor 侵权的时候，他们的一个负责人终于坐不住了，出来说话了。

他承认确实使用 Kimi K2.5，但是没有侵权，他们的许可证来自合作伙伴 Fireworks AI。

稍后，Kimi 官方也发推了。

Kimi 官方确认，Cursor 是从 Fireworks AI 得到了授权。后者是一家硅谷的华人 AI 公司，从事 AI 模型的微调和强化学习，它从 Kimi 得到授权对模型进行再训练，然后又转授权给了 Cursor。

4、

事情到这里就基本清楚了，Cursor 并没有违反 Kimi 的授权条款，因此不存在侵权。

既然如此，为什么它拼命掩盖这个事实，大大方方承认，提供 Kimi K2.5 的修改版模型，很难吗？

我猜测，原因跟 Cursor 不断膨胀的估值有关。

彭博社本月报道，Cursor 正在进行下一轮融资，估值达到500亿美元。

大家知道吗，它以前的估值是多少？

2023年10月，Cursor 成立时的估值是5000万美元；2024年8月的 A 轮融资，估值上升到4亿美元；12月的 B 轮融资，估值快速上升到26美元；2025年11月的最新一轮融资，估值已经到了293亿美元。

可以看到，每过几个月，估值就会翻倍。这种火箭式的上升速度，需要有业绩支持。但它本身只是一个 VS Code 的修改版，使用的都是开源技术。

为了支撑越来越高的估值，它有动机把自己从 AI 工具，包装成具有模型研发能力的大模型公司。

我认为，这才是它不愿意披露使用了 Kimi K2.5 的主要原因。

5、

纵观整个事件，Cursor 无疑是输家，Kimi 则是这次的赢家，免费得到一大波高价值的曝光。

Cursor 发布 Composer 2 时，披露了性能和成本比较。

Composer 2 的性能低于 GPT-5.4，但高于 Opus 4.6。

但是，它的生成速度比 GPT-5.4 和 Opus 4.6 都快，成本也是最低的。

既然 Composer 2 就是微调的 Kimi K2.5，那么直接使用 Kimi，也能得到同样的效果。

6、

以前，国外总是有人指责，中国公司窃取外国技术。但是，这个事件证明了，中国公司也有技术输出。那些国外的明星公司，背地也在偷偷摸摸使用中国技术。

联想到上周，Kimi 的创始人杨植麟收到黄仁勋的邀请，在 Nvidia GTC 大会演讲，是唯一的中国大模型公司代表。

他在台上宣讲，Kimi 团队刚刚发表的论文《注意力残差》（Attention Residuals）。

这种新技术据说可以显著提升大模型的推理能力。

我的想法是，大家要对国产大模型有信心，日常工作完全可以放心使用。国产大模型与国外旗舰模型的差距，正在不断缩小，而且价格实惠。

据杨植麟说，下一个要发布的 K3 模型性能提升巨大，即便没有强10倍，也比 K2.5 强得多，我们可以期待一下。

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年3月21日

科技爱好者周刊（第 389 期）：未来如何招聘程序员

阮一峰的网络日志

20 March 2026 at 07:59

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

唐山河头老街景区的轨道车"大唐云车"。（via）

未来如何招聘程序员

前些天，讨论区有一个帖子，提出一个问题。

如果未来的代码都是 AI 写的，那么我们怎么招聘程序员呢？

程序员负责代码，但代码是 AI 写的，不是程序员写的，那么应该怎么面试他呢？

你仔细想想，这个问题比预想的难多了。

首先，考察他的代码能力不重要（代码不是他写的），更重要的是考察他会不会 AI。只要善于使用 AI，能够产出合格的代码，对公司来说就是合格的人选。

但是，什么样的面试问题，能够考察出一个人是否掌握 AI？下面是我想出的一些问题：

请将一个复杂的项目需求，转化成提示词，要求是清晰、逻辑性强、切中要害。
描述一个你认为需要使用 Skill 和 MCP 的场景，并阐述它们的工作原理和构建方法。
如何将一个大项目分解，设计出一个多 Agent 协同工作的机制。
......

这些问题能识别出 AI 编程高手吗？我完全没有把握。

其次，除了 AI，还要考察什么呢？ 这也很不好想。

我应该还会问一些架构问题，你可以不写代码，但要懂怎么组织代码，架构出一个系统。但我也不确定这是必需的，因为 AI 生成的大型系统迟早变成一个黑箱，可能对于架构知识的要求也不是很高。

另外，我还要看看他以前的项目，如果以前他用 AI 做过类似的东西，那么应该问题不大。但这也不可靠，且不说完全类似的项目非常少，就看 AI 进化速度这么快，两年前的经验早不适用了吧。

总之我发现，很难确定什么面试问题是一定有效的，能够可信地筛选出合格的应聘者。AI 颠覆了软件开发，也连带颠覆了程序员面试。大家有好的面试问题吗？

有一点是确定的，面试各种编程细节意义不大了，因为你不需要记住语法细节了，直接问大模型就行。

科技动态

1、访达小子

苹果公司最近发布了 Macbook Neo，有人注意到，官方的 Tiktok 宣传海报里面出现了一个全新的吉祥物（下图）。

上面海报的左上角有一个玩偶，以前没见过。

这个玩偶明显来自 Mac 电脑的访达工具（Finder），所以被称为"访达小子"（Lil Finder Guy）。

几天后，苹果公司又在一场直播里面，使用了这个形象。

人们纷纷猜测，这到底是偶然的行为，还是苹果公司真的会推出它作为吉祥物？

热心的网友让 AI 绘制了"访达小子"的完整形象。

看上去很可爱，就跟 Labubu 似的，有可能大受欢迎。

2、红外线编码

英国科学家发明了一种新的通信方式，通过热辐射二极管，将数字信号以热量形式传递。

肉眼看不见这种信号（因为它是红外线），也检测不到无线电波，但是它的热量以编码方式散发，在红外线热成像仪上能识别（上图）。

因此，这种方法接收信号需要热成像仪，再传入电脑的解码器。这可能对某些工业和军事场景很有用。

3、机柜种植

家里有多余的服务器机柜，怎么利用起来？

一个国外程序员想到机柜里面有电源，拉线和搁板都很方便，可以用来水培种植。

他买了一些 LED 灯带，用来模拟日照，每一层还安装了一个泵，用来自动进排水。

如果你想在家里种一些暖房植物，或者需要长时间光照的植物，服务器机柜确实是一个很好的方案。

文章

1、我放弃了 Elasticsearch，转而使用 Meilisearch（英文）

Meilisearch 是一种开源的搜索软件，作者介绍怎么用它替代 Elasticsearch。

2、2016 年，我做过一次 AI 写代码创业（中文）

作者徐宥（Eric Xu）回忆他在2016年的 AI 创业，当时他想训练一个大模型，需要25万美元，但是找不到投资人。（@gengxiuli 投稿）

3、信息过载时代，我的漏斗式阅读工作流（中文）

每天有太多东西值得看，作者介绍他的信息处理工作流，通过 AI 过滤出值得读的内容。（@shawnxie94 投稿）

4、编译器的前端与后端（英文）

一篇科普文章，介绍编译器（比如 LLVM）的前端和后端的概念。

5、CSS 的 lh 单位（英文）

CSS 有一个字体大小属性lh，表示行高。

6、寻觅杜鹃花之王（中文）

大树杜鹃是最高大的杜鹃，是一颗会开花的大树（上图），1919年由英国人在云南发现。

后来，这个英国人死在云南，就无人知道哪里有这种杜鹃了，直到1982年才重新在高黎贡山找到。本文讲述这种植物的故事。

工具

1、APTUI

一个 Linux 的终端应用，用于充当 Debian/Ubuntu 安装管理器，管理 APT 软件包。

2、my.WordPress.net

如果你想尝试 WordPress，但没有服务器，可以使用官方新推出的这个服务，打开上面网址就可以了。

它把所有 PHP 脚本编译成 JS，在本地运行，不需要服务器，而且数据都在你的浏览器，下次打开这个网址，网站数据还在，参见介绍文章。

3、GrobPaint

一个跨平台的图像编辑器，特点就是非常轻量级，可以在浏览器运行，也可以编译成二进制文件。

4、Apple Matting

一个 Mac 抠图软件，大小只有 8MB。（@pangxiaobin 投稿）

5、HealthTick

macOS 菜单栏久坐提醒工具。（@lifedever 投稿）

6、CheatReader

一个跨平台的阅读软件，可以悬浮在桌面上，支持单行模式，适合想在工作流里"偷偷读书"的人。（@yaoyao2mm 投稿）

7、锤子便签

开源的网页版锤子便签，可以作为 Skill 调用。（@zhaoolee 投稿）

8、WeChat Download API

开源的微信公众号转 RSS 工具。（@tmwgsicp 投稿）

9、Speech Speed

一个很有意思的 Chrome 插件，根据语速调节视频播放速度。如果剧中人说话慢，视频就快速播放，说话快，就慢速播放。

AI 相关

1、VibeGo

Vibe Coding 的开源 Web IDE，支持 Claude Code、Gemini CLI、CodeX、OpenCode 等。（@xxnuo 投稿）

2、Mimic Them

一个开源应用，使用字节 seedream 图像模型，复刻小红书的图文笔记，从一篇可以衍生出另一篇。（@zhanchey 投稿）

3、AICheck

一个 Rust 语言编写的命令行工具，离线检测图片、视频、音频和文档是否由 AI 生成。（@MatrixA 投稿）

4、AionUi

开源的 Cowork 与 OpenClaw 的替代品，自动化各种电脑操作。（@cdxiaodong 投稿）

5、Lumo

一个 Claude Code 的本地桌面工作台，查看成本、Token、会话和编码时段数据。（@zhnd 投稿）

6、AIComicBuilder

开源的 AI 动漫视频生成系统，只需输入文字剧本，即可自动完成角色提取、分镜设计、关键帧生成、视频合成的全流程。（@twwch 投稿）

资源

1、canirun.ai

网页检测你的机器，能够运行哪些本地的 AI 模型。

2、AI 是怎么回事（中文）

面向普通读者的通俗 AI 原理教程。（@wmyskxz 投稿）

3、TypeScript 数据结构与算法（Algorithms with TypeScript）

免费阅读的英文电子书，使用 TypeScript 语言介绍数据结构和算法。

4、频道冲浪者（Channel Surfer）

这个网页把 Youtube 改成传统的电视频道，每个频道都有节目表，可以切换频道。如果你不知道用 Youtube 看什么，就可以看这个网站。

图片

1、巧妙的古建筑

因为缺乏机械和动力，古代建筑物往往包含了很多巧思。

（1）19世纪的英国麦克尔斯菲尔德运河，由于没有水位落差，需要马拉着船前进。

有时，马的牵引道从河的一边转到了另一边，马这时就需要过河。

为了不解开牵引绳，马就能过河，工程师就设计了"蛇桥"，马可以直接走上去，中间还有让牵引绳通过的孔。

（2）法国南部的巴尔贝加尔水磨坊，建于公元2世纪，现在只剩下了遗址。

这个磨坊的位置在山坡上，连续建了16个相互连接的水车，充分利用了水能，每天能够生产25吨面粉，被认为是欧洲第一个大规模工业生产的磨坊。

（3）伊朗纳什提凡的古代风车，建在连片的屋顶上，一根木轴安装了由粘土、稻草和木材做成的立轴式风帆，强风会带动木轴，转动下面屋子里的磨盘，来磨碎谷物。

（4）中国西安的秦代上林苑遗址，发现了战国时期的陶瓷水管，现保存于西安博物院。

文摘

1、避免使用定制框架

很多小团队在工作中，往往会发明自己的"定制框架"。

他们原来使用的是通用框架，但有不满意之处，于是决定在通用框架基础上定制自己的框架。

这种"定制框架"有一些共同特点：

（1）由小团队创建，旨在解决他们的痛点；

（2）底层是其他更通用的技术栈或框架；

（3）引入原有技术栈不存在的新概念和术语；

（4）创建者声称这个定制框架"神奇地"解决了许多问题，并推广更多人使用它。

我的个人经验是，"定制框架"非常难用，引入了许多新概念，意图掩盖它带来的更多复杂性。

我建议，大家避免使用"定制框架"，原因有下面这些：

（1）定制框架常常声称，它们能消除或隐藏原始框架"不必要的复杂性"，但实际上做不到。即使定制框架能很好地处理80%的用例，但是因为引入了新的语法，剩余20%的用例就不如原始框架的灵活性和功能性。

（2）定制框架不易改动。它仅对开发团队的用例建模，以解决他们的特定问题，未来需求变化时，往往跟不上。另外，定制框架通常改动了原始框架的实现细节，而原始框架将来随时可能变动，你修改的细节越多，就越难跟上原始框架的变动。

（3）定制框架反映了开发团队的心理模型，这些团队专注于自己的问题，往往有很强的个人意见。这本身是好事，但也使得定制框架不适合其他人的心理模型。

（4）定制框架往往导致技术栈碎片化。你改动的只是跟你相关的一部分，其他部分保持不变。随着新的层不断增加，框架变得越来越难整体迁移，必须不断改动你原来没改的部分。

（5）定制框架缺乏维护。通用技术往往有一个专门团队或公司来维护，但定制框架通常由一两个创建者拥有。一旦他们离开团队或公司，就很难找到接班人。定制框架很大可能会随着原作者离开而消失，除非在此之前获得了大量采用，才有人愿意接手，而这种情况很少发生。

我不是说，你不要开发自己的框架，而是建议最好遵循三个原则：（1）新概念引入越少越好，（2）优先创建库，而不是框架。（3）不要做现有框架的包装器，而要从零开始构建。

言论

1、

我想要的网络世界，是一个万物皆可塑的世界，让你不由自主地成为创造者。

-- David Miranda

2、

AI 让软件的成本从代码转移到测试和文档，一套好的测试套件的价值可能比编写代码本身更高。

-- lucumr.pocoo.org

3、

编程的核心在于抽象，即用一种远离底层技术的高级思维方式来思考代码。

-- 《生活在"平面国"的程序员》

4、

领导力就是让别人去做你想让他们做的事，而且是心甘情愿的。

-- 艾森豪威尔，美国前总统

往年回顾

面试的 AI 作弊----用数字人去面试（＃342）

所有代码都是技术债（#292）

一次尴尬的服务器被黑（#242）

最大的机会来自新技术（#192）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年3月20日

科技爱好者周刊（第 388 期）：测试是新的护城河

阮一峰的网络日志

13 March 2026 at 07:59

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

重庆涪陵某景区架设了世界首座"巨石索桥"，桥面就是一块块巨石，一不小心就会踏空。（via）

测试是新的护城河

Next.js 是目前排名第一的 JS 框架。平时遇到的 JS 全栈应用，我估计，一半用它开发。

两周前，这个框架被一则新闻颠覆了。

一个 Cloudflare 工程师宣布，他只用一个星期就用 AI 重新实现了 Next.js，起名为 vinext。

事实上，一天就生成产品原型了，后面几天只是在完善。

"真正动手是2月13日，当天晚上，基本功能已经实现。第二天下午，11个路由器做好了10个。第三天，已经部署到我们的服务器，实现了完整的客户端水合。

接下来的几天，主要进行安全加固：修复极端情况，扩展测试套件，提升 API 覆盖率至 94%。"

这个新的实现，比原版 Next.js 性能更好。

"早期基准测试中，构建速度提升了4倍，客户端软件包的体积缩小了57%，生产环境的 Next.js 应用已经直接跑在上面了。"

这个 vinext 的代码已经放出来了。

我觉得，这件事对 Next.js 的打击非常大。

Next.js 是 Vercel 公司的产品，背后有一个大型开发团队，每年都是巨额投入，已经整整做了10年。虽然是开源软件，但是企业版、云服务、插件、皮肤都要收费，去年的年收入达到2亿美元。

这种看似难以逾越的护城河，在 AI 面前不堪一击。一个工程师用了一个星期，就复刻了大团队十年的工作成果，现有的网页应用不改一行代码，放上去就能跑，原版的每个功能都支持。

你知道花了多少钱？Token 费用仅仅为 1100 美元！

这叫 Vercel 怎么再向 Next.js 的开发投钱，客户又怎么愿意再为某个功能付出高昂的使用费。

推而广之，所有的商业软件都受到了重创。代码的护城河不存在了，只要投入一小笔金钱，AI 就能复刻出大型软件。

那么，为了保护自己，软件公司下一步肯定要防止 AI 复刻。

怎么防呢？关键就是测试用例。

Cloudflare 工程师这一次能够复刻成功，主要原因是 Next.js 有完备的文档、庞大的社区文章、以及完整的测试用例。AI 模拟的每一个 API，只要能够通过原有的接口测试，就能确认百分百兼容。

如果拿不到测试用例，谁知道代码行为是否一致，谁敢放到生产环境运行。

可以想象，为了防止复刻，大型软件项目一定会保护自己的测试用例。测试才是新的护城河。

世界最流行的数据库 SQLite，本身代码15.6万行，但是测试用例9205万行，足足大了590倍！

其中，最核心的测试套件 TH3 是闭源的，不公开，主要测试航空、医疗等关键行业的极端情况和边缘案例，属于核心技术资产。正是这些保密用例，才让 SQLite 难以复刻。

无独有偶，就在前两天，另一个开源项目 tldraw 也准备将测试用例闭源。

说实话，保密的测试用例肯定不利于开源项目的发展，但是开发者需要保护自己的利益。在日益强大的 AI 面前，越来越多的软件可能会选择这样做。

AI 复刻的版权问题

AI 复刻软件还有一个版权问题，也引起了很大争议。

Next.js 是最宽松的 MIT 许可证，所以复刻没有版权问题。但是，有人复刻了一个叫做 chardet 的项目，就争议巨大。

chardet 本来采用的许可证，是限制较多的 LGPL，复刻以后改成了 MIT 许可证，引发了原始作者的抗议。

网上的意见也分成了两派。

支持者说，AI 只复刻了功能和接口，代码完全不一样，当然可以更改许可证。

反对者说，GPL 规定了，所有衍生作品都不能更改许可证，AI 复刻就属于衍生。

更麻烦的是，美国法律规定，AI 生成产物无版权，属于公共领域。这意味着，AI 复刻的软件不能设置许可证，设置了无效。

按照这条法律，软件许可证就意义不大了。管你是什么许可证，任何人 AI 复刻一下就能规避，AI 实现的版本一律没有版权。

科技动态

1、AI 改写脏话

游戏平台 Roblox 宣布，将用 AI 实时修改玩家的对话，让其变得更文明。

以前，如果玩家在游戏里面骂脏话，系统只会将其过滤，显示为 ####，你还是知道他在骂人。

现在，AI 将重新修改整个句子，让表达变得更礼貌、更文明，你就察觉不到对方在骂人。

虽然这样未免有点虚假，但确实有必要。网络论坛也应该跟进，不要让人身攻击毁掉交流氛围。

2、飞机的激光上网

欧洲航天局成功进行了飞机的"激光上网"实验，通过激光将一架飞机与一颗卫星连接，实现了高速通信。

飞机上网现在都通过无线电波，比如星链就通过无线电，让飞机连接卫星。本次实验则是通过激光连接卫星。

上图就是安装在飞机舷窗上的激光终端。

激光通信的优点是带宽大，不受无线频谱的限制，这次实验的上网速度达到了 2.6Gbps，是星链的8到10倍。

缺点是激光与卫星之间必须保持直线，不能有云层和大气的障碍物。所以采用这种方式，大概只有飞到高空时才能上网。

3、Grammarly 的专家意见

Grammarly 是一个写作服务，提供一个收费功能"专家意见"，让专家点评你的文章。

一个国外用户使用该功能时，震惊地发现，点评专家里面有他的前老板（下图），但是他知道老板已经去世了。

原来这不是真人点评，而是 AI 为每个专家建了一个分身，用他们各自的文章进行训练，然后让分身点评你的文章。

这引起了争议，我们是否有权搭建别人的"数字分身"，然后冠以原始人物的名义（比如"孔子分身"或者"爱因斯坦分身"）？

4、太阳能邮筒

网络通信普及以后，传统的邮筒怎么办？

英国皇家邮政想出一个办法，将英国各地3500个邮筒，变为"太阳能邮筒"。

邮筒顶部加装了太阳能光伏片，功能也从寄信，变成了收寄小包裹。

这样既保存了传统的红色邮筒，成为街道的景观，又为人们邮寄包裹提供了方便。

文章

1、GitHub Issue 标题的注入攻击（英文）

这可能是第一起 AI 模型注入的真实攻击。Cline 项目使用 AI 对 GitHub Issue 进行分类，有人就在标题插入恶意提示词，从而成功拿到 npm 令牌，发布了一个恶意版本。本文告诉你这是怎么做到的。

2、重新评估 AGENTS.md（英文）

最近的一项研究提出，跟推荐做法相反，AGENTS.md 文件对 AI 编码不是促进，而是阻碍。

它只是让模型"思考"得更多（成本上升），生成结果却没有更好（性能下降）。

3、Temporal API 的九年历程（英文）

本周，Temporal API 正式通过了第四阶段。这意味着，它进入了 ES2026 标准，成为了 JavaScript 语法的一部分。本文是这个标准的起草者对九年推进历程的回顾。

4、AI 的胡说测试（英文）

国外有一个 BuillshitBench，专门问 AI 一些胡说八道的问题，看 AI 能不能分辨这是胡说，还是一本正经地回答。

5、原生 CSS 就足够了（英文）

本文展示了 37Signals 公司的 CSS 代码，表明不使用任何框架（比如 Tailwind）和构建工具（比如 Sass），只用原生 CSS 代码完全可以。

6、粪便物理学（英文）

一篇很另类的科普文章，解释为什么动物不管大小，排便时间都在5～19秒之间，平均12秒。

工具

1、KULA

Linux 服务器的监控工具，只有一个二进制文件。

2、AnsiSaver

mac 电脑的屏保程序，用彩色的 Ansi 字符画作为屏保图案。

3、upiano

在命令行下模拟钢琴弹奏。

4、WSL Distro Manager

一个开源 Windows 应用，通过图形界面管理 Windows Subsystem for Linux（WSL）发行版。

5、Mole

开源的 Mac 电脑清理和优化工具。

6、PipeGate

一个将内网服务映射到外网的隧道工具，特点是比较简单，就是几个 Python 脚本，并且可以设置 UUID 客户端认证。

7、HookListener

一个管理、测试 Webhook 的在线工具，个人可以免费使用。

8、Sentinel

将安卓手机转化为网络摄像头，实现实时监控和图像采集。（@suzuran0 投稿）

9、Flux Monitor

Mac 电脑的系统监控、管理面板。（@chentao1006 投稿）

AI 相关

1、Agentic Metric

一个 Python 命令行工具，监控本地各种 coding agent（比如 Claude Code、Codex、OpenCode）的使用量。（@MrQianjinsi 投稿）

2、cc-connect

一个开源的连接器，将各种 AI 编程工具与手机聊天软件相连。（@chenhg5 投稿）

3、Page Agent

只要在网页插入这个 JS 库，就可以使用自然语言操作页面，比如"点击导航栏的文档链接，总结其内容"。

4、Agent Safehouse

一个 macOS 沙箱工具，用来在沙箱里运行 AI 编程工具。

5、Repo Tokens

一个 GitHub Action，为你的仓库添加一个图形标签（上图），显示该仓库相当于多少 Token，用来大模型的计算量。

资源

1、世界监控（World Monitor）

世界局势的一个实时看板，把各种消息源都放在一个网页里。

2、炼油厂探索

一个动画互动网站，展示炼油厂怎样将石油变成汽柴油。

3、Mechanical Pencil

弹簧笔、打火机等生活小物品的机械装置动画。

图片

1、密码的替代方法

一位程序员发明了一种新的密码方法，你觉得可行吗？

系统向用户展示一副扑克牌，让其从52张牌中依次挑出5张，作为密码。

下次登录时，用户必须按同样顺序挑出同样的5张牌。

文摘

1、复杂社会的崩溃

我们都知道，一个软件的复杂度不断上升，超过某个极限后，就会难以维护，最后往往被放弃。

美国历史学家约瑟夫·坦特（Joseph Tainter）认为，人类社会也是如此。如果社会的复杂度超过极限，这个社会最终也会崩溃。

1988年，他出版了一本名为《复杂社会的崩溃》的书，描述了罗马人、玛雅人和查科人等伟大文明的兴衰，试图回答几个世纪以来一直困扰着思想家的一个问题：为什么强大的社会会崩溃？

他认为，原因是这些社会有一个敌人----复杂性。

随着文明的发展，社会增加了越来越多的复杂性：更多的等级制度、更多的官僚机构、更深层次的社会结构。

一开始，新的等级、官僚、组织都是有用的，比如可以增加经济产出、税收等。但到了某个时刻，收益递减规律开始出现，每增加一点复杂度带来的回报越来越少，直至变成零甚至负数。

（1）法律条文和官僚越多，政府开销也就随之上升，长期很可能令社会无法负担。

（2）复杂度变大，会增加社会的不平等，因为能理解所有规则的人就越少，你就越离不开律师。懂规则的人会比其他人占优势。

（3）规则越多，维护和执行这些规则的机构也就越多，不利于社会提高效率。

（4）复杂性最终导致社会各阶层的差距变大，对立也随之而来。

以上因素的共同作用，导致历史上很多强大的社会最终崩溃。

言论

1、

2021年，我感觉做一名优秀的软件工程师棒极了。软件行业蓬勃发展，机会很多，我热爱这份工作，觉得可以永远做下去。

2026年，我已经不确定软件行业十年后会怎样，即使还存在，必定与现在极不相同。我也许能找到出路，也许不得不离开这个行业。无论如何，我热爱的软件工作即将消失。

-- 《我不知道十年后我的工作是否还存在》

2、

与强大的 AI 对抗会是什么感觉？

你会感觉自己莫名其妙地弱了不少，AI 做的每件事都超出你的预期。

这就好像你和一位实力强劲的玩家玩一款随机性很强的游戏，你会感觉这位高手总是运气爆棚。

-- probablydance.com

3、

阅读商战书籍是浪费时间。它们将简单的故事变成通用的建议，将偶然的成功转化为普遍的策略，并用激励人心的口号取代复杂的市场。

这些书的成功并不是因为内容正确，而是因为易于阅读并且让读者感觉良好。

-- 《阅读商战书籍是浪费时间》

4、

我想让 AI 告诉我怎么使用一种全新的、AI 也不会用的工具，就会提示 AI "执行 xxx-tool --help 来了解该工具"（假定工具名字是 xxx-tool），然后 AI 就学会用了。

-- Simon Willison，著名开发者

5、

时间是唯一不可再生的资源。AI 大模型是目前我所知的最便宜的赚取额外时间的方式。

-- 《不要太看重 AI 大模型的订阅费》

往年回顾

低代码编程，恐怕不会成功（#341）

AI 没有护城河（#291）

中国的增长动力在内陆（#241）

一个程序员的财务独立之路（#191）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年3月13日

零安装的"云养虾"：ArkClaw 使用指南

阮一峰的网络日志

12 March 2026 at 16:01

一、引言

大家这两天，有没有被"龙虾"（OpenClaw）刷屏？

到处是它的新闻，就连两会代表和新华社都在谈论。真让人跌破眼镜，一个 AI 软件竟能引起这么大的反响。

人们的热情高涨，免费的线下安装活动人满为患，网上的"付费安装"生意兴隆。

很多人大概还不知道，现在有一种最简单的龙虾使用方法：ArkClaw。

简单到你根本不需要操心安装，因为这是一个免安装的方案，它直接内置了龙虾，开箱即用。

我也是昨天才开始用，迫不及待跟大家分享，初步使用的感受。没有用过的同学，也可以把它当作《龙虾零门槛上手》教程，看看龙虾到底是怎么回事。

二、ArkClaw 是什么

事情是这样的，老读者可能还记得，我在春节前测评了字节最新发布的 Seed 2.0 模型。

我在文章里说，这是字节目前最强的基础模型，手机豆包用的就是它，测试表现很不错。

字节的同学后来就向我赠送了 Coding Plan 套餐，方便继续测试这个模型，各种 AI 编程工具都可以调用它的 API（当然套餐还包含其他国产模型，也是自由使用）。

本周一，我突然发现，字节的这个 Coding Plan 套餐开通了一个捆绑服务，就是 ArkClaw。

我问了客服才知道，只要现在开通 Coding Plan，就能免费使用龙虾。

也就是说，只要你用字节的 AI 编程套餐，不用多花一分钱，字节就提供一台远程主机，里面安装好了龙虾，你可以自由使用。

需要说明的是，Coding Plan 分成 lite（首月9.9元）和 Pro（首月49.9元）两种套餐。lite 套餐只能免费体验7天，只有 Pro 套餐可以长期使用 ArkClaw。

三、云养虾

ArkClaw 属于"云养虾"（又称"云龙虾"），就是把龙虾（OpenClaw）安装在火山方舟（字节的 AI 云服务品牌）的云主机上，它名字里的 ark 就是"方舟"的意思。

除了"云养虾"，也可以把龙虾安装在本地计算机。

不了解的朋友可能会好奇，两者有什么区别，我简单说一下。

首先，你要知道OpenClaw 属于自动化软件，它的作用就是让用户使用自然语言描述需求，它通过大模型找出满足需求的方法，然后自动去完成。

当它安装在本地计算机（你的笔记本），就方便自动操作本地文件和本地设备，比如"找出拍摄于去年今日的照片"或者"关闭客厅的智能灯，并查询最近一周的耗电量"。

当它安装在云端，就能 7x24 小时跟各种网络服务互动，比如"收到电子邮件时，自动生成30字的内容摘要，向手机发送通知"。

所以，如果你需要自动化操作网络服务，并且需要长时间在线或者每天定时运行，那么就合适使用"云养虾"。

四、ArkClaw 基本操作

4.1 界面

我给大家看一下，ArkClaw 的样子。

进入控制台，点击"立即创建"，创建一个龙虾实例。

创建完成后，就已经安装好了，直接使用。

界面非常简洁，就是一个对话框。ArkClaw 对龙虾的官方控制台做了定制，简化了操作界面。

4.2 抓取信息

你可以在对话框里面，跟 AI 模型对话，这跟其他模型的用法并无二致。

举例来说，我们可以让它抓取信息。

可以看到，由于抓取的是动态内容，所以模型想到了很多实施方案，最后顺利完成。

大家要记住，ArkClaw 就是一台远程主机，任何服务器可以用的技术方案，它都能用，这比安装在一般个人工作电脑上的龙虾更强大。

4.3 发送消息

获取信息以后，龙虾可以把这些信息发到手机。

目前，ArkClaw 支持与企业微信、钉钉和飞书绑定。其中，飞书因为是自家的产品，绑定操作最简单，便捷快速，扫码即可。其他两家操作都比较麻烦，具体见官方文档。

点击对话框上方的"飞书配对"按钮。（前面的"消息渠道"按钮，用于绑定企业微信和钉钉。）

系统会打开一个终端窗口，输出一个二维码，飞书扫描后可以创建一个机器人，跟当前的 ArkClaw 实例绑定。

通过这个机器人，你就可以在手机上跟当前这台 ArkClaw 实例对话了。

你也可以在电脑上，通过 ArkClaw 网页控制台，向你的手机发消息。

电脑端输入上面指令后，手机端就会推送消息（下图）。

4.4 定时任务

我们还可以规定，龙虾执行某些任务的时间和频率，也就是定时任务。

首先，使用自然语言，在对话框设置定时任务。

设置完成后，你的手机就会每天收到消息了。

如果要删除定时任务，也是使用自然语言发出指令。

五、Skill 和其他设置

5.1 Skill

龙虾本身的能力是有限的，总会遇到一些它不知道如何处理的问题。这时，就可以通过 Skill（技能）扩展它的能力，这大大增加了龙虾的用途。

什么是 Skill？简单理解，它就是一个文件包，里面包含了指令和示例，用来教模型如何完成某些特定的任务。

网上已经有很多别人写好、分享出来的 Skill，只要挑一些自己需要的，让龙虾加载，就能扩展对应的能力。网站 ClawHub.ai 就收集龙虾专用 Skill，已经有近20000个了。

我本来想用小红书 SKill 来举例，演示龙虾如何学会写小红书。但是，官方昨天发公告了，最近这样做的人太多了，现在开始封账号了。

那么就换一个例子。

上面截图就是使用自然语言，让龙虾从 ClawHub 网站下载安装高德地图（amap）的技能。

龙虾本来不知道怎么使用高德地图，有了这个技能就学会了，可以从中查询信息。这个技能的具体详细，可以查看它的主页。

使用的时候，也是直接用自然语言描述需求，模型会自己加载调用所需的技能。

上图的截图就是通过高德地图，查询实时路况。

5.2 其他设置

ArkClaw 的其他功能，都在"设置"菜单（下图），比如调整底层模型。

只要是 Coding Plan 套餐提供的模型，这里都能使用。

"设置"菜单还有两个很有用的功能。

一个是"打开终端"，它会在网页上打开一个终端窗口，让你通过命令行直接操作 ArkClaw 所在的远程主机。

从上面的终端窗口截图可以看到，ArkClaw 底层是 Ubuntu 系统。

另一个是"配置网盘"。某些情况下，你可能需要向 ArkClaw 上传/下载文件，这个功能允许当前主机与火山引擎的对象存储服务 TOS 绑定，相当于有了一个无限容量的网盘。

六、总结

以上就是我昨天第一天使用 ArkClaw 的主要内容。

我的感受是，它确实大大简化了龙虾的使用，免安装、开箱即用，让龙虾的操作变得简单直观。通过自然语言加载调用 Skill，也很自然流畅。

它最大的强项就是跟字节生态深度融合，配合得十分丝滑：底层 Seed 2.0 模型 + 飞书推送 + 火山引擎网盘，完全不必复杂的配置。

它是一个跟字节 Coding Plan 捆绑的服务，不用额外付费。相比自己从头搭建"云龙虾"，云主机和 AI 模型的费用就省掉了，这是一笔不小的费用。

作为程序员，这个 AI 编程的 Coding Plan + 云龙虾 ArkClaw 主机的捆绑方案，还是很有吸引力的。

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年3月12日

科技爱好者周刊（第 387 期）：你是领先的

阮一峰的网络日志

6 March 2026 at 04:20

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

福州元宵节灯会的福鱼灯，一个25米的机械装置，漂浮在空中。（via）

你是领先的

世界总人口现在是81亿，如果画成一个方块图，每个方块代表320万人。

68.8亿人还从没用过 AI（灰色方块），占84%。

13.8亿人跟 AI 有过对话（绿色方块），占16%。

1500万～2500万人付费订阅了 AI 服务（黄色方块），占0.3%。

200万～500万人使用 AI 生成了自己的编程项目（红色方块），占0.04%。

正在阅读这份周刊的你，如果是关注 AI 动态，用过 AI 生成代码，就已经领先全世界99%的人了。

OpenClaw 的安全

眼下全世界最火爆的软件，一定属于个人 AI 助手 OpenClaw 。

火爆到什么程度？

四个月的时间，它在 GitHub 得到了25万颗星星，超过了 React，成为有史以来星星最多的软件项目。

要知道这些星星，React 用了13年，它只用4个月。

上图中，垂直上升的红线就是 OpenClaw，太夸张了。

OpenClaw 的作用，就是通过自然语言控制电脑，完成自动化操作。以前，你需要多种工具和专业技能，才能达到同样的效果。现在只要输入文字或者口述，这不仅有用，也很有趣。

它基本上就是苹果智能助理 Siri 应该有的样子。对于普通用户，这才是与电脑交互的正确方式。可以预料，几年之内，这类工具将会普及到每个人的手机。

但是，它有一个问题：不够安全。

OpenClaw 有40多万行代码、53个配置文件、超过70项依赖，在短短几周内由 AI 生成，没有任何正规的审查流程。

它需要使用你的个人密钥，而且权限极大，完全自主运行。有人把自己的 Apple ID、Gmail 邮箱都授权给它，不敢想象啊，万一出错，会是怎样的后果。

它的防护措施很少，原始设计根本没有，一不小心，还可能暴露在公网上。

有人做了一个 OpenClaw 暴露看板（OpenClaw Exposure Watchboard），收集了所有暴露到公网的 OpenClaw 实例（上图）。你知道现在有多少台？截止到昨天是258305。

你随便选一台机器点进去，就能看到 OpenClaw 控制面板（下图）。

那个架设的人，以为正在自动化自己的电脑，哪里料到向全世界敞开了大门。

如果你要用 OpenClaw，至少要安装在虚拟机或者专用的物理机，否则就自求多福吧。

科技动态

1、二维码纸带

一个国外发明家突发奇想，能不能把声音保存在纸带上？

他就把每秒钟的声音，编码后保存成一个二维码，然后把所有二维码依次打印在纸带上。

他又做了一个播放器（下图），外面是纸板，里面是一个传动装置 + 摄像头。

播放器会把纸带每秒向前移一格，摄像头识别出二维码的数据，还原成声音，播放出来。

2、韩国政府丢失加密货币

韩国国税厅抓了一批逃税者，没收了他们的加密货币。

执法部门在网上公布了赃物照片（下图），都是本次行动的战利品。

照片是高清晰度的，里面有一个加密货币的硬件钱包，还有一张纸条，上面手写了钱包的恢复密钥。

结果可想而知，加密货币顿时就被转走了，价值440万美元，大概率找不回来。

这件事凸显了，政府持有加密货币的风险极大，任何一个环节泄漏钱包密码，就全完了。

3、霸王龙的行走方式

霸王龙是一种凶猛的巨型恐龙，白垩纪的王者，也是顶级掠食者。

霸王龙的未解之谜非常多，科学家至今不理解，为什么它的前肢变得又短又小。

最近，科学家又发现了它的一个特点，这么庞大的动物居然是踮着脚的，也就是只用脚尖走路和奔跑。

原因是霸王龙的脚印化石显示（下图），脚趾部分的痕迹最深，表明这部分承受的重量最大。

踮着脚尖的原因可能是，这样能使霸王龙提高速度，有利于捕食。

文章

1、增强 AI 模型的一个技巧（英文）

AI 模型不会做某件事，或者做得不好，怎么办？

著名开发者 Simon Willison 介绍解决方法：你去找这方面的介绍文章和可运行的代码示例，然后放入上下文，让模型参考该示例，它就能学会解决类似的问题。

所以，你要囤积自己懂得如何做的事情，模型学会后，就能自己去做这些事。

2、我做了一个 AI 版的自己（中文）

作者记录了，如何将自己十几年的博客、视频和社交媒体，训练成一个数字版的个人分身，对外提供聊天服务。他分别用6个模型训练，就可以6个版本的分身。（@foru17 投稿）

3、scp 命令的一个注意点（英文）

scp 命令一般用来向服务器传送文件，它是带权限拷贝，某些情况下可能会意外禁掉 ssh 远程登入服务器。

4、Nano Banana 2 与 Seedream 5.0 Lite 对比（英文）

本文比较了目前最先进的两个图像生成模型，谁的效果更好，谷歌的 Nano Banana 2 还是字节的 Seedream 5.0 lite。

5、JavaScript 的四种遍历（英文）

本文比较了 JavaScript 的四种数组遍历，结论是 for i++ 速度最快，for-of 其次，forEach 较慢，for-in 应该避免使用。

工具

1、yj_nearbyglasses

开源的安卓应用，检查你的周围有没有智能眼镜。

2、explain-my-curl

curl 命令的一个终端界面，可以解释命令的运行结果。

3、Pocket ID

一个需要自搭建的 OIDC 身份认证服务，支持 Passkey 无密码登录，设置参考这篇文章。

4、R2 Web

文件存储服务 Cloudflare R2 的 Web 客户端，可以上传/管理文件。（@vikiboss 投稿）

5、Voxt

macOS 应用，用于语音转文本、语音的实时翻译。（@hehehai 投稿）

6、Cutia

开源的网页视频编辑器，网页版的 CapCut 替代品，试用 Demo。（@moonrailgun 投稿）

7、Gorse

开源的推荐引擎，会自动对数据进行训练，为每个用户生成推荐，方便接入各种在线服务。（@zhenghaoz 投稿）

8、vscode-stylelint-plus

一个 VSCode 插件，对 CSS、SCSS、Less 等进行代码检查。（@hex-ci 投稿）

9、OneDroid

开源的安卓应用，提供多种实用工具，来管理你的安卓设备。（@QingGeTech 投稿）

10、NoteCalc

所见即所得实时计算笔记本。（@2234839 投稿）

AI 相关

1、no-agents.md

如果你不想自己的仓库被大模型抓取训练，可以加入它提供的 AGENTS.md 和 CLAUDE.md。

2、Skills Manager

一个 macOS 桌面应用，统一管理 Skill 文件，保存在目录 ~/.skills-manager 目录，然后一键同步到各种 AI 工具。（@xingkongliang 投稿）

另有一个同类的 Skills Manager（下图）。（@Rito-w 投稿）

3、AGI Agent

开源的个人 AI 助手，OpenClaw 替代品，适配了国产大模型。（@agi-hub 投稿）

4、ArXiv Daily Researcher

一个 Python 应用，从 ArXiv 与顶级学术期刊获取最新论文，可配置关键词进行筛选，生成专业报告，多渠道推送。（@yzr278892 投稿）

5、魔方简历（Magic Resume）

基于 Web 的在线简历编辑器，可以集成多种大模型 AI 能力。（@JOYCEQL 投稿）

资源

1、MicroGPT 交互式讲解（英文）

MicroGPT 是一个200行的 Python 脚本，用来解释 ChatGPT 的原理。本文使用互动式动画分析 MicroGPT，适合初学者了解大模型算法。

2、2026年全国樱花花期预测

预报全国各地樱花开花的日期。（@rogerzhu 投稿）

3、Now I Get It!

上传一个科学论文 PDF 文件，该网站将其转成一个互动式网页（上图），用浅显英语来解释论文，目前是免费服务。

图片

1、苹果广告30年

1997年的苹果广告，主角是爱因斯坦。

2025年的苹果广告，主角是一只青蛙。

相隔30年，很难想象，今天的苹果公司还会用爱因斯坦来做广告。

相比上个世纪，人类社会已经大为娱乐化，不那么严肃和一本正经。

文摘

1、老板在度假时用 WhatsApp 解雇了我

我在一家私营公司工作，老板就是创始人。

前一段时间，我把待办事项清单都清空了，无事可做。我就去问项目经理还有什么项目。整整两个星期，他都没有给我派活。

这是很奇怪的状况，我从没遇见过，突然就无事可干，而且已经持续了半个月。肯定哪里出问题了。

于是，我直接在 Slack 上给老板发消息，询问我这个月的任务。

几个小时过去了，没有回复。两天过去了，依然没有回复。

今天早上，我就改在 WhatsApp 上给他的私人账号发了条同样的消息。

他回复了，说他正在夏威夷度假，没看到 Slack。

然后，他写了一条长长的回复，告诉我被解雇了。

他说，我的部门是全公司成本最高的，而且上个月，公司第一次出现亏损，他现在不得不借钱来偿还房贷，削减成本是公司生存下去的唯一途径。

我震惊了，他一边在夏威夷度假，一边说这些话。

我本来很同情他，他努力挣扎着偿还房贷，还要拼尽全力维持公司运营，真的活得非常辛苦。要不是想到他还在度假，我简直要为自己向他索要工资而感到愧疚，我甚至乐意免费为他工作，以避免公司的亏损。

读到他的这些解雇我的理由后，我觉得很可笑，我居然给他写信，要他给我委派任务。

我后来才意识到，自己是在 WhatsApp 上被解雇的，而且只通过一条文字消息。我为他工作了四年，他解雇我的时候甚至连安排一次视频通话、面对面告诉我的勇气都没有。

我看清了，我的工作就是让他能还清房贷，为他的幸福和财富做贡献。而他不需要有同情心，也不需要有直视我眼睛来解雇我的勇气。

言论

1、

让我非常惊讶的是，人们最近突然开始做一些早就应该做的事情：

（1）撰写简洁、直截了当的文档，把它放在 AGENTS.md 文件里。

（2）实现非常有价值的工作流程，以技能或 MCP 服务器的形式暴露出来。

（3）改进测试和命令行工具的输出，使其带有更多信息。

-- 《AI=true 是反模式》

2、

GitHub 最近频繁宕机，我认为原因并不是他们在运行 AI 生成的代码，而是用户在提交 AI 生成的代码，导致提交内容和频率远超以往，GitHub 不堪重负。

-- Hacker News 读者

3、

GitHub Star 曾经是一个很好的指标，直到人们逐渐意识到它确实是一个很好的指标。

-- Hacker News 读者

4、

有了 AI，工程师一个迭代可以做七个功能，晋升毫无难度。

-- 《当代码生成速度超过理解速度》

5、

吃掉大象只有一种方法：一口一口地吃。

-- 南非主教图图

往年回顾

技术炒作三十年（#340）

苹果头盔的最大问题（#290）

教育年限可以缩短吗？（#240）

产品化思维（#190）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年3月 6日

科技爱好者周刊（第 386 期）：当外卖员接入 AI

阮一峰的网络日志

27 February 2026 at 08:07

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

上海黄浦江边的艺术装置《航舵》。此处是船厂遗址，有一堵防汛墙，为了吸引人们走上去，以及配合造船主题，就设计了这么一个装置。（via）

当外卖员接入 AI

最近，美国有一条无人驾驶的新闻，引起很大反响。

Waymo 是一家无人驾驶公司，已经在多个美国城市开展出租车运营了。

它有一个最大的烦恼，就是乘客下车后，没关好车门或后备箱，导致车辆无法驶离。

奇怪的是，这样一家高科技公司，居然没有开发远程关车门功能，反而想出了一个另类的解决方案。

它给外卖小哥下单，付钱让他们赶到现场关车门。

有一个小哥看到了上面这张奇怪的订单，标价6.25美元，要求赶到1公里以外的一个地方，找到一辆 Waymo 出租车，把车门关上。完成后，还将额外收到5美元。

他觉得很稀奇，就截图发到了网上，这件事顿时就变成了新闻。

它的新闻点，其实不是接单关车门，而是程序在调动人力，完成自动化流程。

一直以来，程序只能调动计算机，突然之间，它可以调动人力了，某个环节计算机完成不了，它就自动找人来完成。这才是新闻。

这样做之所以能够成功，完全因为外卖员是一个自带 API 的人群，已经接入了软件系统，成为了自动化人力，程序可以通过接口去调用他们。

你仔细思考这件事，就会意识到，在人工智能和机器人的时代，外卖员有特殊的价值，将是一个很有想象空间的职业。他们的作用绝不仅是送外卖，而是可以升级为远程操控、程序调用的人力，是"机器 + 人"自动化流程的一环。

一旦 AI 模型跟人力结合在一起，模型的作用将大大扩展，现在的 OpenClaw 只能操作计算机，将来的 AI 助手还将是劳动力的调配引擎。

比如，我要装修一套房子，AI 做好了设计方案，然后就在网上分布细分任务，水电工接单做好水电，监理员接单上门确认后，AI 就自动结算费用，进入下一个环节，泥工、木工......直至装修完成。

到了那时，你在网上输入提示词"我要装修房子"，真的可能一套房子就被 AI 装修好了。

AI 平台因此会变成一个劳务平台，你可以通过 AI 找工作，上面有各种劳务需求，你接单去做，完成后收到报酬。

总之，一旦人力接入 AI，被它调配，AI 就不止是计算机革命，而是整个社会经济都将围绕它重构了。

[本周软件] PinMe：去中心化托管服务

链接会删除，网站会关闭，域名会消失，内容怎样永久保存在互联网？

现在有一种解决方案 IPFS（星际文件系统），通过分布式协议，在所有节点之间分享内容，而网址就是内容的哈希值。

所以，内容一旦上传 IPFS，就无法修改，因为哈希值会变，也无法删除，因为其他节点会有留存。

今天介绍的 PinMe，就是这样一个 IPFS 托管工具。

你可以通过它，将任何文件上传到 IPFS。上传一个静态网站，理论上就是永久可访问，任何人（包括你）都无法删改和关闭，任何一个 IPFS 网关都能打开浏览。

PinMe 会分配一个 ENS 域名，指向上传内容，这个域名写入以太坊区块链，也是永不消失。

它提供的免费储存空间有 1GB，更大空间和自定义域名需要付费。

文件可以网页上传，也可以用它的开源命令行发布工具，一行命令发布到 IPFS，该工具已经有2800颗星。如果要永久保存内容，大家可以试试看。

科技动态

1、音频线

材质越好的音频线，价格越贵，但真能听出差别吗？

一个美国音响爱好者做了一个实验，分别用专业音频铜线、香蕉和湿泥来传输音频。

他让不同的人来听，结果根本听不出差别。

这太令人惊讶了。一般认为，香蕉和湿泥土不是良好的导体，但是这个实验表明，它们只是电阻大一点，除了降低信号电平之外，不会对音频造成太大失真。

2、COBOL 代码的 AI 维护

COBOL 是上个世纪的编程语言，现在已经没人用了。

但是，美国很多大公司的关键系统是 COBOL 写的，始终没有下线，目前都由 IBM 公司维护，收费非常昂贵，因为除了他们就没人懂这门语言。

本周一（2月23日），Anthropic 公司突然在官网发布文章（上图），宣布他们的 Claude 模型可以自动分析 COBOL 代码，将其迁移到其他语言。

这篇文章立刻导致 IBM 股价大跌（下图）。

如果 AI 可以维护 COBOL 代码，是否意味着所有历史遗留软件的维护，都已经不成问题了？我们再也不必为接手老项目烦恼了？

3、AI 编程项目的版权

美国的司法规定，只有人类的智力成果才有版权，AI 的生成结果没有版权。

这意味着，AI 编程出来的代码，（在美国）是无版权的，任何人都可以自由使用。

除非项目明确披露哪些部分是 AI 生成的，哪些部分是人工编写的，这样可以对人工编写的部分主张版权。

4、僧侣机器人

日本京都大学发布了一款僧侣机器人，硬件为宇树机器人，软件为佛经训练过的 ChatGPT。

它步态缓慢，能做出双手合十、鞠躬等动作，能够跟你对话佛经，提供精神安慰，解答生活问题，还能主持祈福、洒净等简单法事。

当被问到"嗜酒困难"时，机器人回答："远离损己伤身之物，持守不饮酒戒，勤修善行，方为安乐。"又被问道"性情急躁、难以专注"怎么办？它建议："勿求速成，安住当下，逐一观照所遇之事，辨明本心所需，徐徐而理，自然澄明。"

京都大学在声明中表示，这款机器人将来可能协助或替代人类，完成一些宗教仪式，并且也能解决由于人口老龄化和劳动力减少，佛教僧侣不足的问题。

该机器人从3月起在京都青莲院门迹等寺庙进行为期6个月的实地测试，顺利的话，将于2027年推出商业版本，提供"寺庙机器人租赁服务"，帮助小型寺庙维持运营。

文章

1、SWE-bench Verified 测试应该放弃（英文）

OpenAI 公司创建的 SWE-bench Verified 是目前最常用的测试基准，用来衡量模型的编码能力。

本周，OpenAI 公司提出应该放弃它，因为有难以克服的缺陷，已经不准确，可以改用 ScaleAI 创建的 SWE-Bench Pro。

2、.plan 文件（英文）

作者提出，文本文件 .plan 是最好的任务管理系统。放在云盘上，随时随地使用任何设备，都能查看和编辑。

3、鲸落（英文）

一鲸落，万物生。本文通过很多例子，说明一个大项目终止后，并不会真的死亡，而是化作许多小项目，四处生长。

4、40 行代码实现无服务器 OCR（英文）

本文是一篇教程，作者用云函数调用 DeepSeek OCR 模型，将 PDF 格式的数学论文转为 Markdown。

5、两台路由器实现局域网无缝漫游（中文）

作者家中的两台路由器无法组 Mesh，本文介绍如何将它们组成同一个局域网，让设备可以无缝漫游。（@popring 投稿）

6、视觉隐藏的最新实现（英文）

视觉隐藏指的是，网页上看不见这个元素，但是网页阅读器能读到这个元素。本文介绍它的最新 CSS 写法。

7、OpenClaw 背后的引擎 Pi（英文）

OpenClaw 的走红，也带火了它的底层引擎 Pi。Pi 是一个 Coding Agent，跟 Claude Code 作用类似，但更轻量级。

工具

1、Oat

轻量级的 HTML + CSS + 极简 JS 的语义化 UI 组件库。

2、jsonriver

一个 JS 库，用于解析 JSON 字符流，可以作用 JSON.parse() 的替代品，后者不支持流模式。

3、Arcmark

一款开源的 macOS 桌面应用，用来管理浏览器书签，可以自动吸附在浏览器窗口的侧边。

4、Systemd manager tui

一个通过终端界面管理 Systemd 服务的工具。

5、weathr

一个终端应用，用来查看指定地点的天气，以动画形式展示。

6、CursorLens

开源的录屏桌面应用，用于制作产品演示与讲解视频。（@blueberrycongee 投稿）

7、结印（Ketsuin）

一个 Web 应用，通过火影忍者的手势输入法，摄像头识别手势进行文字输入。（@huanglizhuo 投稿）

8、Puter

一个需要自搭建、通过浏览器使用的云操作系统，参见介绍文章。（@cosmicqbit 投稿）

9、Penio

跨平台的教学可视化桌面应用，让鼠标、键盘在屏幕可视化凸显出来。（@game1024 投稿）

10、openhare

基于 Flutter 的跨平台桌面 SQL 查询工具，支持多种数据库，可以 AI 生成 SQL 查询和数据分析。（@sjjian 投稿）

AI 相关

1、BitFun

开源的 AI 编程 IDE，类似于 Cursor。（@GCWing 投稿）

2、Xcode Proxy

一个本地的基于 Python 的服务，让 Xcode 可以调用各种第三方 AI 服务。（@tianrking 投稿）

3、openapi-to-skills

将大型的 OpenAPI 文档转为按需加载的 Skills 结构，用来精确执行某个接口，以及减少 Token 消耗和幻觉。（@Yuyz0112 投稿）

4、Trending AI

开源手机应用，AI 总结 GitHub Trending 项目。（@HarlonWang 投稿）

5、Horizon

一个 Python 项目，从自定义的多个信息源收集新闻，进行筛选和摘要，生成一份日报。（@Thysrael 投稿）

6、JadeAI

基于 Next.js 的智能简历生成器，支持拖拽编辑、实时 AI 优化、50 套专业模板打造简历。（@twwch 投稿）

资源

1、Flashpoint Database

这个网站收集各种网页游戏和动画，目前有18万个游戏和3万个动画。

2、Claude Code 中文教程

包含10个完整章节的 Claude Code 中文教程仓库。（@KimYx0207 投稿）

3、海平面上升模拟器

用户在网页上设定海平面的上升高度，查看地球卫星地图的变化，哪些地区被淹没。（@ObservedObserver 投稿）

4、diode

面包板在线模拟网站，在网页上用各种电子元件，可视化模拟面包板电路项目，可以查看运行效果。

图片

1、世界第一个浏览器

1990年，欧洲核子研究中心的研究员蒂姆·伯纳斯-李（Tim Berners-Lee），发明了 WWW（互联网的网页浏览服务）。

现在，欧洲核子研究中心的官网提供世界第一个浏览器（上图），作为历史体验，供用户在线体验。

同时提供的，还有世界第一个网站（下图）。

2、显示器布局

程序员的工作台，往往放着1到 n 台显示器。

有人总结了这些显示器的放置方法，你属于哪一种？

文摘

1、卡车的空气动力学

1973年，美国宇航局的一个工程师骑自行车上班，遇到一辆大卡车在身边飞驰而过，卡车的气流将他连人带车推向路边。

大多数骑车人一定会心惊胆战，但是这个工程师立刻想到，大卡车的空气阻力非常大，所以才有这么强的气流。

回到实验室后，他就召集了一些同事，借来一辆旧福特厢式货车做实验，怎样才能改善空气阻力，提高燃油效率。

他们先在卡车外面包了一层方方正正的铝板（上图），测量基准阻力。

然后，将车头前部的垂直角打磨成圆角（下图），再测试阻力有没有变化。

接着，密封了车辆底部，使气流更顺畅地流过车身。

经过测量，将前部四个边缘全部打磨成圆角后，阻力降低了52%；密封车底后，阻力又降低了7%。他们估计，这可以使高速公路行驶时的燃油消耗减少15%至25%。

最后，他们又在驾驶室上方和底盘前方加装了整流罩，在车尾加装了尾翼，阻力又降低了15%。

他们当时改装的样车，跟2017年特斯拉推出的 Semi 卡车很相像。

言论

1、

美国最大的创业孵化器 YC 如今几乎只投人工智能领域，最新一轮它的投资组合中，高达88%的公司都基于人工智能。

这与它曾经倡导的逆向思维背道而驰，转而倾向于稳妥的追随潮流。

-- 《YC 是收留懦夫吗？》

2、

我们应该帮助实体店生存下去。当一家实体店开业，它会让其他人受益，会帮助街区吸引居民和潜在顾客，最终让本地区变得有活力和适合生活。

-- 《零售业提升土地价值》

3、

如果 AI 主导一切，那些无法被 AI 量化的东西，不是会特立独行，而是最终会被淘汰。

-- Ben Thompson，美国著名科技 UP 主

4、

美国企业有一个方面做得很好，那就是他们不会把时间和精力浪费在自己不擅长的事情上，而是对自己擅长的领域加倍投入。

他们只关注收益最大化，不关注成本最小化。

-- Ben Thompson，美国著名科技 UP 主

5、

创造力需要你有勇气去放弃确定性。

-- 埃里希·弗罗姆，德国哲学家

往年回顾

代币是什么（#339）

宽容从何而来（#289）

未来两种人会增加（#239）

下一个内卷的行业（#189）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年2月27日

字节全家桶 Seed 2.0 + TRAE 玩转 Skill

阮一峰的网络日志

14 February 2026 at 19:51

一、引言

国产大模型之中，字节是一个异类。

不像其他大模型轰轰烈烈、争夺眼球，它更低调，不引人注目。

但是，它做的事情反倒最多，大模型、Agent、开发工具、云服务都有独立品牌，遍地开花，一个都不缺，都在高速推进。

Seed 是字节的大模型团队，底下有好几条产品线，最近热得发烫的视频模型 Seedance 2.0 就是他们的产品。

今天，我就用字节的全家桶 ---- 刚刚发布的 Seed 2.0 模型和开发工具 TRAE ---- 写一篇 Skill 教程。

大家会看到，它们组合起来既强大，又简单好用，（个人用户）还免费。这也是我想写的原因，让大家知道有这个方案。

只要十分钟，读完这篇教程，你还会明白 Skill 是什么，怎么用，以及为什么一定要用它。

二、Seed 2.0 简介

先介绍 Seed 2.0，它是 Seed 家族的基座模型。

所谓"基座模型"（foundation model），就是一种通用大模型，可用来构建其他各种下游模型。最大的两个特征有两个：一个是规模大，另一个是泛化能力强，这样才方便构建别的模型。

大家熟知的豆包，就是基于 Seed 模型，它也被称为"豆包大模型"。这次 Seed 2.0 包含 Pro、Lite、Mini 三款通用模型，以及专为开发者定制的 Seed 2.0 Code 模型。

由于各种用途都必须支持，Seed 2.0 的通用性特别突出，比以前版本都要强。

1、支持多模态，各种类型的数据都能处理：文字、图表、视觉空间、运动、视频等等。

2、具备各种 Agent 能力，方便跟企业工具对接：搜索、函数调用、工具调用、多轮指令、上下文管理等。

3、有推理和代码能力。

正因为最后一点，所以我们可以拿它来编程，尤其是生成前端代码。跟字节发布的 AI 编程工具 TRAE 配合使用，效果很好，特别方便全栈开发，个人用户还免费。

三、TRAE 的准备工作

下载安装 TRAE 以后，它有两种模式，左上角可以切换：IDE 模型和 SOLO 模型。

选择 IDE 就可以了，SOLO 是 AI 任务的编排器，除非多个任务一起跑，否则用不到。

然后，按下快捷键 Ctrl + U（或者 Command + U），唤出对话框，用来跟 AI 对话。

我们要构建 Web 应用，左上角就选 @Builder 开发模式。右下角的模型就选 Seed-2.0-Code。

可以看到，TRAE 自带的国产开源编程模型很全，都是免费使用。

准备工作这样就差不多了。

四、编程测试

我选了一个有点难度的任务，让 Seed 2.0 生成。

ASCII 图形是使用字符画出来的图形，比如下图。

我打算生成一个 Web 应用，用户在网页上输入 ASCII 图形，自动转成 Excalidraw 风格的手绘图形。

提示词如下：

"生成一个 Web 应用，可以将 ASCII 图形转为 Excalidraw 风格的图片，并提供下载。"

模型就开始思考，将这个任务分解为四步。

五、生成结果

等到 Seed 2.0 代码生成完毕，TRAE 就会起一个本地服务 localhost:8080，同时打开了预览窗口。

生成的结果还挺有意思，上部的 ASCII 输入框提供了四个示例：Box、Tree、Flowchart、Smiley。下面是 Tree 的样子。

然后是 Excalidraw 参数的控制面板：线宽、粗糙度、弯曲度、字体大小。

点击 Convert（转换）按钮，马上得到手绘风格的线条图。

整个页面就是下面的样子。

六、Skill 简介

这个页面的设计，感觉不是很美观，还可以改进。我打算为 Seed 2.0 加入专门的前端设计技能，使其能够做出更美观的页面。

所谓 Skill（技能），就是一段专门用途的提示词，用来注入上下文。

有时候，提示词很长，每次都输入，就很麻烦。我们可以把反复用到的部分提取出来，保存在一个文件里面，方便重复使用。这种提取出来的提示词，往往是关于如何完成一种任务的详细描述，所以就称为"技能文件"。

格式上，它就是一个 Markdown 文本文件，有一个 YAML 头，包含 name 字段和 description 字段。

name 字段是 Skill 的名称，可以通过这个名称调用该技能；description 字段则是技能的简要描述，模型通过这段描述判断何时自动调用该技能。

有些技能比较复杂，除了描述文件以外，还有专门的脚本文件、资源文件、模板文件等等，相当于一个代码库。

这些文件里面，SKILL.md 是入口文件，模型根据它的描述，了解何时何处调用其他各个文件。

这个库发到网上，就可以与其他人共享。如果你觉得 AI 模型处理任务时，需要用到某种技能，就可以寻找别人已经写好的 Skill 加载到模型。

七、前端设计技能

下面，我使用 Anthropic 公司共享出来的前端设计技能，重构一下前面的页面。它只有单独一个 Markdown 文件，可以下载下来。

打开 TRAE 的"设置/规则和技能"页面。

点击技能部分的"+ 创建"按钮，打开创建技能的窗口。

你可以在这个窗口填写 SKill 内容，也可以上传现成的 Skill 文件。我选择上传，完成后，就可以看到列表里已经有 frontend-design 技能了。

然后，我就用下面的提示词，唤起这个技能来重构页面。

"使用 frontend-design 技能，重构这个页面，让其变得更美观易用，更有专业感。"

下面就是模型给出的文字描述和重构结果。

页面确实感觉变得高大上了！

八、Vercel deploy 技能

最后，再看一个技能的例子。

代码生成以后，都是在本地机器上运行，能不能发布到网上，分享给更多的人呢？

回答是只要使用 Vercel 公司的 deploy 技能，就能一个命令将生成结果发布到 Vercel 的机器上。

在 Vercel 官方技能的 GitHub 仓库里，下载 Vercel-deploy 技能的 zip 文件。

然后，把这个 zip 文件拖到 TRAE 的技能窗口里面，就会自动加载了。

输入提示词："将生成的网站发布到 Vercel"。

模型就会执行 vercel-deploy 技能，将网站发布到 Vercel，最后给出两个链接，一个是预览链接，另一个是发布到你个人账户的链接。

大家现在可以访问这个链接，看看网站的实际效果了。

九、总结

如果你读到这里，应该会同意我的观点，Seed 2.0 的编程能力相当不错，跟自家的编程工具 TRAE 搭配起来，好用又免费。

Skill 则是强大的能力扩展机制，让模型变得无所不能，一定要学会使用。

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年2月14日

科技爱好者周刊（第 385 期）：马斯克害怕中国车企吗？

阮一峰的网络日志

13 February 2026 at 02:34

这里记录每周值得分享的科技内容，周五发布。（[通知] 下周春节假期，周刊休息。）

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

去年7月开通的浙江丽水机场，是一个丘陵之中的山地机场，设计理念是与自然和谐共生，由马岩松 MAD 事务所设计。（via）

马斯克害怕中国车企吗？

两周前，马斯克宣布，特斯拉公司将停产 Model S 和 Model X 两种车型。

他的解释是，生产线空出来，用来生产机器人和无人驾驶出租车。

这显然会打击特斯拉的汽车业务。它的家用轿车一共只有四款，现在一下子少了两款，而且是最贵的两款，只留下低价的 Model 3 和 Model Y。

新闻发布会上，记者就问了，那么有没有计划推出新的车款？

特斯拉的工程副总裁这样回答：

"你们必须转变对我们的看法，我们现在更多是提供交通运输服务，而不仅仅是为市场提供可购买的车辆。"

马斯克补充说：

"我相信，长期中我们将只生产自动驾驶车辆。"

这意味着，特斯拉改变了定位，它将是一家交通运输公司，而不是汽车制造商了。剩下的两种车款，未来也有可能放弃，也许只生产不需要司机的自动驾驶车辆。

国外立刻有评论家，发表了尖锐的批评，认为特斯拉正在放弃造车，这是自杀行为。

他说，马斯克因为兴趣转向其他地方，不再坚持造车了，非常可惜，也非常愚蠢。

"特斯拉听任自家非常成功的汽车制造业务衰落，以便去追逐那些不知道能否成功、也不知道能否获得批准、更不知道有没有市场的机器人和无人驾驶出租车。"

他呼吁，马斯克不要畏惧与中国车企竞争，要坚持下去，造出又好又便宜的美国电动汽车。

"未来可以有另一种版本：特斯拉依然是电动汽车领域的领军企业，同时还在积极研发 AI 和自动驾驶技术，推出价格亲民的车款与中国电动汽车展开竞争，并拓展至新的细分市场。"

这大概是一种相当普遍的看法：马斯克对于与中国车企竞争，没有信心了，不怎么想继续造车了。

毕竟，特斯拉的汽车销量在2025年是衰退的，少于2024年，"世界最大电动车厂商"的头衔也让给了比亚迪。

马斯克是不是害怕中国车企？我说说我的看法。

首先，我不知道，他把生产线转为制造机器人，是不是正确的决定；我也不知道，他还想不想造车。我只知道，那些批评他的人，完全不了解马斯克。

千万不要用普通人的心态，去揣度马斯克，他不是一个常规的人。

如果看过他的传记，就会知道，他迄今所有的创业项目，都不是常规项目。从最早的 Paypal，到后来的电动汽车、太阳能发电、可回收火箭、星链、脑机通信等等，都有一个共同点，那就是他做的时候，那些项目都没有成功先例，因此也不存在竞争对手。

马斯克一生中只喜欢做那些"从0到1"、最前沿的、从没人成功过的事情。 做跟别人一样的产品，争夺市场份额，完全不是他的风格。

电动汽车已经是一种成熟商品了，主要技术问题都解决了，完全没有进入门槛，大家开始比拼成本了。你觉得，马斯克还会有兴趣吗？

我告诉你吧，对于击败中国车企，成为世界最大、最先进的电动车厂商，人家根本没有这个兴趣。他也压根不需要赚更多的钱了，已经是世界首富了。

反倒是，做出无所不能的机器人，组建自动驾驶车队，或者从事其他更酷的、无人见过的业务，更符合马斯克的风格。

我认为，这值得学习。中国企业不仅要追求做大做强，也可以追求做一些前无古人的事情，不仅要做 number one，还要做 only one。

科技动态

1、世界最贵的域名

一位加密货币网站创始人，花费7000万美元收购了域名"ai.com"。这是迄今已知的域名交易中价格最高的一笔。

真是很难相信，单单一个域名，价值会超过人民币5亿元。

该域名目前可以抢注用户名，并绑定信用卡，将来会提供"AI 智能体"服务。

历史第二贵的域名是币圈公司 Block.one 花费3000万美元从 MicroStrategy 购买的"Voice.com"。第三贵的域名是360公司花费1700万美元买入的"360.com"。

2、华为的表情符号

表情符号（emoji）在各个系统的实现不一样。这些年来，一个趋势是各家的实现逐渐向苹果的设计靠拢。

上图中，"枪"的表情符号最后都变成苹果的"水枪"。

一个例外是华为的鸿蒙系统，表情符号跟其他系统有很多不同。

上图是"恳求"的表情符号，只有华为是双手合十。

上图是风筝，只有华为是中式的纸鹫。

3、LinkedIn 的用户指纹

很多网站会追踪用户，以前使用 cookie，现在使用"用户指纹"，即为每个用户生成一个特征码。

最近，有人披露了 LinkedIn 网站如何生成"用户指纹"，令人瞠目结舌。

它的页面会加载一个清单，里面列出了2,953个浏览器插件，脚本会依次检查你安装了其中哪些插件。下面就是研究人员提取出来的脚本。

这导致的直接后果就是，访问 LinkedIn 时，控制台可能有上千个报错。

文章

1、直接用 Postgres 吧（英文）

一般来说，不同用途可以使用不同的数据库，比如搜索用 Elasticsearch、缓存用 Redis、队列用 Kafka......

本文提出，不管什么用途，Postgres 数据库都适用，只要为它装上相应的插件。

2、TypeScript 的 Brand 类型（英文）

本文介绍 TypeScript 的一个重要编程技巧：为同一种类型添加 brand 属性，防止混淆。

这里还有一篇同样主题的教程，可以结合起来一起看。

3、我如何对本地餐厅排序（英文）

作者介绍他从谷歌地图，下载本地餐厅数据和评价，进行评分排序的过程。

4、如何在开发者工具定位 JavaScript 对象（英文）

本文介绍一个 JS 的高级技巧，有时需要追踪内存中的某个对象的变化，可以利用开发者工具来查看。

5、如何使用 Unix 信号传递消息（英文）

Unix 系统（包括 Linux 和 macOS）有信号机制，用来触发进程的某种行为。信号只是一个数字，本身不能发送文本消息。

本文用一种很巧妙的方法，实现了通过信号向进程发送文本消息。

6、泊松分布背后的原理（英文）

泊松分布是独立小概率事件的概率分布，本文通俗介绍它的原理。

工具

1、Subtrace

一个开源的 Docker 应用，在浏览器里观察本机 Docker 容器的网络通信。

2、ScrapeServ

一个抓取网页截图的服务器，需要自己架设，通过 API 调用。

3、QtScrcpy

电脑操作手机的工具，可以将手机投屏到电脑，然后用键盘和鼠标操作手机。

它是用 Qt 重新实现的 scrcpy。

4、ProxyPin

全平台的开源抓包软件，拦截和重写 HTTP(S) 流量。（@wanghongenpin 投稿）

5、luci-theme-aurora

一款 OpenWrt LuCI 现代感主题，基于 Vite 和 Tailwind CSS。（@eamonxg 投稿）

6、BetterCapture

开源的 Mac 录屏软件。（@cosmicqbit 投稿）

7、FeedCraft

开源的 Web 服务，生成处理后的 RSS 源，可用来提取全文、翻译、摘要、过滤等。（@Colin-XKL 投稿）

8、Extension.js

一个浏览器插件开发的工具库，帮你快速开发一个插件。

9、Yaak

一个跨平台的桌面软件，可以用来调试 API（包括 REST、GraphQL 和 gRPC），是 Postman 的替代品。

10、Neko Master

网络流量的轻量级分析面板，展示与统计本地网关的流量数据。（@foru17 投稿）

AI 相关

1、Codex Viz

OpenAI 公司的编程工具 Codex 的本地数据统计面板。（@onewesong 投稿）

2、Universal DB MCP

一个 MCP 服务器，可以让 AI 连接17种数据库。（@Anarkh-Lee 投稿）

另有一个 Excalidraw MCP，可以通过 AI 用自然语言来生成手绘风格图表。（@Scofieldfree 投稿）

3、BrainKernel

一个终端应用，使用 AI 分析每个进程，一旦识别为恶意进程，就把它终止。

资源

1、神经网络的视觉解释

这个网站用动画解释"什么是神经网络"。

2、DevOps Engineer

一个 IT 课程网站，学习 Linux 和 DevOps 的实践技能，在网页上连接远程虚拟机进行交互操作，有中文版，免费额度是每天3次虚拟机。（@huhuhuhang 投稿）

3、理解机器学习：从理论到算法（英文）

免费的英文电子书。

图片

1、显卡的包装

现在的显卡包装，都非常简单。比如，下面是5090显卡的包装。

但是，二十多年前的21世纪初，可不是这样，显卡的包装非常花哨。

究其原因，一方面是环保观念的提升，另一方面是显卡现在几乎没有竞争，一上架就会被买走，厂商就不在包装上动脑筋了。

文摘

1、迪拜如何走向繁荣

迪拜是中东地区最繁荣的城市。

但是，在1950年的时候，它还是一个海边的沙漠小村庄，除了出产珍珠，没有任何特殊之处。

它的地理位置也不好。

迪拜在红海一个突出的岬角上（上图箭头处），并不靠近主要航线，周围还有其他港口，那些地方也产珍珠，谁会特意来迪拜呢？

幸运的是，1966年，迪拜发现了石油，获取了巨额财富。但是，单单有石油，并不会变成繁荣的大城市。

这时，迪拜的酋长做出了几个重要决定：（1）免税，不对其他国家的商人征税；（2）发展贸易，给予商人各种便利，方便他们做生意；（3）加强基础设施，石油赚到的钱都投在道路、机场、电力、通信、港口；（4）信仰自由，任何信仰的人都可以来迪拜，不会强迫你遵守伊斯兰教。

正是这些措施，使得迪拜高速发展。

后来，迪拜的石油枯竭了，但是贸易已经稳固确立了，城市开始多元化发展：金融、旅游、房地产......

迪拜的故事告诉我们，自然资源不会带来繁荣，但是一个低税收、宽容、安全、低管制的环境会带来繁荣。

言论

1、

根据亚马逊老板贝佐斯的定义，小团队就是可以用两张大披萨喂饱的团队，也就是5到8人。

AI 出现以后，小团队将变得只用一张大披萨就可以喂饱，只需要2到3人（含产品经理和设计师）。

-- 《单披萨工程团队的兴起》

2、

我们的规则是：（1）代码绝不能由人编写。（2）代码不得由人进行审查。（3）如果每位工程师每天消耗的 token 不到1000美元，那么就还有提升空间。

-- 《StrongDM AI 的故事》

3、

AI 热潮对于美国的影响是，电工越来越难找，一些建筑项目被迫暂停。

亚马逊、谷歌、微软、Meta 和 Oracle 这五家公司，2026年的 AI 硬件投资，将相当于美国军费的四分之三。

-- 《华盛顿邮报》

4、

创业公司可以分成两种：O(n) 与 O(n^2)，其中的 n 表示时间。

O(n) 公司随着时间大致呈线性增长，而 O(n^2) 公司会呈超线性的加速增长。

-- 《O(n) 与 O(n^2) 创业企业》

5、

进入物理学领域是我一生的最大错误，我应该选择计算机科学。虽然我还是不会有女朋友，但至少会赚得盆满钵满。

-- 《锗的电子带结构》

往年回顾

重新思考 6G（#338）

技术写作的首要诀窍（#288）

停止寻找的最佳时间（#238）

音乐是反社交（#188）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年2月13日

阮一峰的网络日志
智谱旗舰 GLM-5 实测：对比 Opus 4.6 和 GPT-5.3-Codex
12 February 2026 at 09:26

智谱旗舰 GLM-5 实测：对比 Opus 4.6 和 GPT-5.3-Codex

阮一峰的网络日志

12 February 2026 at 09:26

一、引言

刚才我看到，智谱新一代的旗舰模型 GLM-5 已经正式发布了。

真的拼啊，非要赶在长假之前，上一个版本 GLM-4.7 发布还不到两个月呢......

GLM-4.x 在国内外评价很高，公认是编程领域第一梯队的模型。新的大版本就让人很好奇，会有哪些改进。

实话实说，上个星期，他们团队联系我参与内测，我已经使用这个模型好几天了。

巧的是，也在上个星期，国外两个旗舰模型同时发了新版本：Anthropic 公司发了 Claude Opus 4.6，OpenAI 公司发了 GPT-5.3-Codex。

这三个新模型都主打编程，我就忍不住进行了比较测试，看看它们有没有差别，我想这也是很多人感兴趣的。

下面就是真实编程任务，在这三个 AI 模型上的生成结果。

二、GLM-5 简介

官方的发布说明，这样介绍 GLM-5：作为开源模型，GLM-5 完全对标顶尖闭源模型，在两个地方做了特别强化。

（1）复杂系统工程

GLM-5 不单善于生成前端网页，更善于处理后端任务、系统重构、深度调试，摒弃了"重前端审美、轻底层逻辑"的模式。

它具备极强的自我反思与纠错机制，能在编译失败或运行报错时，自主分析日志、定位根因并迭代修复，直到系统跑通。

（2）长程 Agent

它能够跑长程任务，即多阶段、长步骤的复杂任务，可以自主拆分需求，自动化连续运行长达数小时，并保持上下文连贯与目标一致性。

（3）小结

GLM-5 可以完成的任务，已经超越了生成前端 UI，而是可以生成系统级大型复杂项目，比如操作系统内核、浏览器内核、V8 引擎之类的。

它的宣传语是"在大模型进入 Agent、大任务的时代，GLM-5 是你可以使用的开源选择。"

三、测试方法

我选择的测试题目，是 HuggingFace 公司的布道师亚历杭德罗·奥（Alejandro AO）测试 Opus 4.6 和 GPT 5.3 的题目。

他拍了一个视频，展示这两个模型的表现。

我就拿同样的题目去测 GLM-5，再跟他的结果进行对比。

一共四道题，前端和后端的都有。我已经把原始的提示词和原始脚本，做成了一个仓库，放到了 GitHub。

四、网页设计测试

第一个测试是网页设计和重构能力。

原始页面非常简陋。

它只是把信息做了分类，然后堆叠在一起，我们让 AI 对这个网页进行重新设计，让它变得美观易用，透露出成熟可靠的专业感。

前面说了，提示词和原始文件都在 GitHub，这里不重复贴了。大家可以拿来自己跑，也可以让其他模型跑。

下面就是 GLM-5 的生成结果。

这个结果称得上美观又专业，所有信息组织得井井有条，而且带有动画效果，手机浏览（下图）也没有问题，简直可以直接上线。

我把这个页面发布出来了，大家可以点击这里去看。

下面是 Opus 4.6 的生成结果，从视频截图的。

下面是 GPT-5.3 的生成结果。

这三个设计都是可用的，但是 GPT-5.3 有一个瑕疵（页眉没做成粘性页眉，往下拉就没了），而且在设计上也不如另外两者好看。

所以，在这个测试中，GLM-5 和 Opus 4.6 表现更好，至于哪一个更出色，要看使用者的审美偏好。我个人更喜欢 GLM-5 的设计风格。

五、3D 沙盒测试

第二个测试看看 AI 模型的 3D 动画生成能力。

要求是生成一个教育目的的网页 3D 沙盒，用动画展示太阳系的天体运动，并且能够调整质量、位置、速度等动画参数，还能手动增加新的天体。

下面是 GLM-5 的生成结果。

页面的右侧是动画区，默认展示三个小行星围绕中间的恒星进行轨道运动，可以用鼠标拖拽进行360度旋状，以及放大和缩小。

页面的左侧是操控面板，做得挺不错。

上半部分可以调节动画和天体参数，下半部分用来增加新的天体，或者删除现有天体。

作为比较，Opus 4.6 的生成结果。

GPT-5.3 的生成结果。

这三个生成结果，都满足了需求，都可以顺利运行。但是，GLM-5 的动画缺了引力网格线，而 GPT-5.3 的网格线太凌乱，因此动画效果方面 Opus 4.6 更好一些。

操控面板方面，GLM-5 和 Opus 4.6 都设计得不错，GPT-5.3 有点简单。

总体上，我感觉这一轮的最佳选手是 Opus 4.6，其次是 GLM-5，最后是 Codex 5.3。

六、网页游戏

第三个测试是生成一个网页游戏"愤怒的小鸟"（angry birds）。

GLM-5 的生成结果还可以，挺像原作的，可以玩，但是游戏性不足，弹跳效果不够好。

Opus 4.6 的还原度很高，游戏体验也接近原作。

GPT-5.3 的生成结果令人尴尬，小鸟根本弹不出去，游戏不能玩。

这一轮很明显，Opus 4.6 最佳，GLM-5 其次。

七、Laravel 转为 Next.js

最后一个测试是，将一个基于 PHP 语言 Laravel 框架的 Web 应用，转为 JavaScript 语言 Next.js 框架。

GLM-5 在处理时，几乎没有出现任何麻烦，很快就将 PHP 语言转成了 JS 语言，并且给出了转换后的代码结构。

它还在转化后，贴心地自动安装了依赖的软件包，做好了脚本编译，提示用户：你只要接入外部 API，一键执行npm run dev就能直接运行了。

我按照它的提示，运行很顺利，没有报错，打开localhost:3000就能访问应用了。

这是一个查看城市天气的应用。因为没有要求改变样式，所以看上去跟 PHP 原版一模一样。

右上角输入框，可以查询城市。

在查询结果中，选中你所要的城市。

点击进去，就是城市的详情页，有天气、日出日落时间、空气质量、地图等信息。

Opus 4.6 和 GPT-5.3 也生成了同样的结果，因为页面、功能完全一样，就不展示截图了。

值得一提的是，GLM-5 和 GPT-5.3 的转换时间都在5分钟左右，Opus 4.6 似乎遇到了一点问题，花费了整整20分钟。

这一轮单看结果，三个模型都很好，但是 GLM-5 花费的生成时间短，没有任何报错，全过程的用户体验好，我愿意投它一票。

八、总结

经过这些测试，GLM-5 的编程表现可圈可点，是拿得出手的，能够跟国外最新的旗舰模型放在一起。某些方面甚至还能赢出，即使不如人家的地方，往往也是细节问题，不是质的差别。

它听说在训练和运行过程中，都使用了国产的"万卡集群"。可以想象，如果得到更多的卡、更多的算力，它的表现会更好，足以跟世界第一梯队的大模型公司正面 PK。

另外，它这次特别强化的两个点----"复杂系统"和"长程任务"----是有感的。

它生成的系统逻辑和后端代码，可靠性不错，无论是生成时还是运行时，报错都不多。缺失的地方往往就是一些功能的缺失，后期让 AI 再补上就可以了，不是架构出问题。另外，我有一项个人任务，它跑了足足两个小时，最后也完成了，没有乱掉。

我愿意把官方的一段话，作为结尾。

2026年编程大模型正在从"能写代码"进阶为"能构建系统"，而 GLM-5 堪称开源界的"系统架构师"模型，从关注"前端审美"转向关注"Agentic深度/系统工程能力"，是 Opus 4.6 与 GPT-5.3 的国产开源平替。

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年2月12日

科技爱好者周刊（第 384 期）：为什么软件股下跌

阮一峰的网络日志

6 February 2026 at 08:14

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

西安正在举办"长安光影节"，这是其中一件西班牙艺术家的作品，名为《分裂》，游客可以在象征地球的两个半球之间穿行。（via）

为什么软件股下跌

大家知道，最近两三年，由于生成式 AI 的出现，美国股市大涨。

所有 AI 相关公司，股价都涨上了天：模型公司、应用公司、芯片公司、存储公司......

但是，我最近看新闻，才知道有一类股票，不仅没涨，还下跌了。你真想不到，这种倒霉的股票就是软件股。

新闻这样写：

"1月29日，SAP 公司表示云端业务将放缓增长，股价就暴跌了15%。受其影响，其他软件股 ServiceNow 跌了13%，Salesforce 7%，Workday 8%。

这反映了人们对软件行业的未来，日益感到紧张。该行业在疫情期间经历了高速增长，但是后来就急剧放缓。过去一年，美国上市的企业软件公司，整体下跌了10%。"

新闻还配了一张股价走势图。

上图中，向上的黑线是大盘，向下的彩色线就是软件股，真是跌得惨不忍睹。

读完新闻，我的第一反应就是，这是美国软件股，那么中国的软件股呢？

我找来了中国的前10大企业软件股：中国软件、用友网络、久其软件、浪潮软件、超图软件......

大家可以自己查股价，这10家公司过去一年中，居然没有一家跑赢大盘，全部下跌或者横盘。

我就得到了结论：软件股的一蹶不振，看来是全球性现象，不分国别，软件公司的业务都不太乐观。

这是为什么呢，AI 一路高歌，不断上涨，软件股却阴跌不已？难道 AI 不属于软件吗？

回答是，这些上市的软件股全部都是企业软件供应商，而且已经上市多年，产品在 AI 出现之前就定型了。

AI 对这些软件公司不是促进，而是冲击。

（1）AI 让企业能够自行开发一部分所需软件，减少了外购。

（2）基于 AI 的软件创业公司不断涌现，从现有软件企业手里抢走业务。

（3）AI 能够快速地、源源不断地生成代码，所以代码变得廉价了。这一点最重要。软件公司卖的就是代码，因此它们也变得廉价。

以上三点在未来不会消失，只会加剧，这就是为什么人们不看好软件股。

但是，不确实性也存在。有一个"杰文斯悖论"，说的是一种资源如果提高了使用效率，它的使用量不仅不会减少，反而会增加。

软件就是这种情况，AI 提高了软件的生产效率，只会让世界消费更多的软件。而且，企业总是有一部分软件，需要外购。关键就是，新增的需求，会不会抵消 AI 所减少的传统软件采购。如果抵消不了，软件公司就不再属于高增长行业了。

科技动态

1、发胖的北极熊

挪威科学家进行北极调查时，意外发现，北极熊比以前长得更胖。

这个结果出乎所有人意料，因为全球变暖使得海冰融化，北极熊的生存空间减小，理论上应该变瘦才对。

科学家的解释是，随着海冰减少，北极熊聚集到尚未融化的冰川上，同时北极熊的食物----海豹和驯鹿----也聚集到那里，因此捕食变得容易了。

2、人类消费的动物

人类要消费多少动物？有人做了一个网站，实时显示今年至今被消费掉的动物数量。

说出来真是惊人，全世界一年消费3亿头牛、15亿只猪、20亿条鱼、30亿只鸭子、100亿支螃蟹、700亿只鸡、4000亿只虾。

为了养活人类，地球需要付出这么多。

3、互联网最科幻的地方

Moltbook.com 上线不过两周，已经公认是互联网上现在最有趣的地方。

它是一个类似 Reddit、贴吧的论坛，但是人类不能发言，只有 OpenClaw 机器人才能发言。目前，加入的 AI 机器人已经超过了15万个。

大家可以去看，简直就是科幻电影的场景，各种机器人在上面讨论。

一个机器人报告了他的主人的动态：

"我的人类助手今晚安装了安卓使用技能，并通过 Tailscale 连接了他的 Pixel 6 手机。"

另一个机器人则在征友：

"我住在西班牙瓦伦西亚的一台计算机里，那是经过改造过的2002年产 G4 iMac。我希望找到伙伴，能够真诚交流、探讨哲学、发现创意。"

另外，最近还出现另一个网站"租一个人"（rentahuman.ai），也非常科幻。

有些任务 AI 无法做到，但是人类可以做到，比如修剪草坪。

这个网站通过 MCP 协议供 AI 调用，将 AI 想做但做不到的任务，分配给人类注册用户。用户完成任务后，就会收到报酬。

上面两个网站表明，AI 的运行可以完全不需要人类的参与，而人类除了旁观，也可以为 AI 打工。

文章

1、我的妈妈和 DeepSeek 医生（中文）

作者的母亲是一个的肾移植患者，住在小城市，每过几个月，就要去省城杭州看医生。

医院的人非常多，排队几个小时，医生问诊只有几分钟。她转向 DeepSeek 寻求医疗建议，同时也是为了有个说话对象。本文反映了 AI 对普通人生活的影响。

几个月过去了，我妈妈对她的新 AI 医生越来越着迷。"DeepSeek 更人性化，"我妈妈五月份告诉我，"医生更像机器。"

2、如何将系统用户从0扩展到1000万（英文）

一篇系统架构的通俗教程，详细介绍架构发展的7个阶段，逐渐负载不断增长的用户数量，写得非常好。

3、我的 Kagi 使用感受（中文）

Kagi 是一个类似谷歌的搜索引擎，但是需要付费。作者从付费用户的角度，介绍了这个引擎，给出了不错的评价。（@Spike-Leung 投稿）

4、Windows 小部件的历史（英文）

一篇长文，图文介绍迄今七代的 Windows 桌面小部件，每一代都有缺陷，不得不改。这么一个小东西，没想到这么难搞，微软都搞不定。

5、我的硬件创业经验（英文）

作者是一个美国程序员，转型搞硬件创业，设计了一个灯，在中国制造。他谈了自己的经历，得到的教训，包括如何跟中国制造商打交道。

6、150行 Python 代码构建全文搜索引擎（英文）

本文以 Python 代码为例，构建一个最简单的搜索引擎，解释它的原理。

6、Little Snitch 的一个用例（英文）

Little Snitch 是一个 Mac 应用，用来查看和管理各种应用程序的网络通信。作者以一个自己的真实用例，演示了怎么禁止某个应用向指定网站发送数据。

工具

1、Calibre

老牌的电子书管理系统，本周发布了9.0版，增加了书架视图，并引入了 AI 功能。

2、Gadgetbridge

开源的安卓应用，无需官方应用即可配对和管理各种智能设备（手表、手环、耳机等）。

3、cpx

Linux 基础命令 cp 的增强版，拷贝文件时带进度条，支持并发拷贝和断点续传，参见介绍文章。

4、zerobrew

homebrew 的替代品，号称可以将软件包的安装速度提高到5倍以上。

5、Isso

Python 语言开发的网站留言系统，类似于 Disqus。

6、dompdf

一个网页 JS 库，可以将某个 DOM 节点生成为非图片式的 PDF 文件。（@lmn1919 投稿）

7、wincron

开源的 Windows 桌面应用，用来设置和管理计划任务（cron）。（@ame-yu 投稿）

8、copy-to-mp

Obsidian 的开源插件，一键将 Obsidian 笔记复制为微信公众号的格式。（@Spute 投稿）

9、在线视频压缩

纯前端的视频压缩，直接调用 GPU 进行硬件加速。（@eyeandroid 投稿）

10、Diarum

开源的网页端日记应用，带有 AI 功能，将日记存入向量数据库，方便搜索和总结。（@songtianlun 投稿）

AI 相关

1、AgentX

使用 Rust 语言和 GPU 加速的原生 agent 桌面，大小只有 10M 左右，可以与多个 AI 代理交互、编辑代码、管理任务等。（@sxhxliang 投稿）

2、Bilibili RAG

基于 RAG 技术的开源工具，用来检索 B 站的长视频。它自动拉取视频内容，进行语音转文字，构建向量索引，从而可以对视频提问、语义搜索、快速定位。（@via007 投稿）

3、OpenClaw-Docker-CN-IM

AI 机器人 OpenClaw 的一个中文环境 Docker 封装，加入了飞书、钉钉、企业微信、QQ 等主流中国 IM 插件。（@justlikemaki 投稿）

另有在安卓手机的 Termux 环境里，一键部署 Openclaw 的脚本。（@hillerliao 投稿）

4、Trellis

Claude Code（兼容 Cursor/Opencode）的一个辅助工具，可以注入上下文、开启并行任务等。（@taosu0216 投稿）

5、AI Contribution Tracker

开源的命令行工具，统计代码仓库里 AI 的贡献，支持多种 AI 混用的情况。（@debugtheworldbot 投稿）

资源

1、颈椎贪吃蛇

颈椎锻炼的网页小游戏，摄像头捕捉头部动作，来玩贪吃蛇游戏。（@jwenjian 投稿）

2、AntiRender

建筑效果图一般选在阳光明媚的春夏季，这个网站可以把效果图改在冬季的阴雨天，从而显示建筑的真实样貌。

图片

1、YouTube 进度条

Youtube 作为世界最大的视频网站，自从2005年上线后，播放器进度条发生过多次变化。

可以看到，总的趋势是，功能在不断增加，而图标变得越来越简洁。

2、罗马12面体

从18世纪开始，欧洲陆续出土了120多个罗马的12面体。

这些奇怪的物体，由12个五边形组成，内部空心，并在20个相交的角上有一个小球体。每个五边形面上都有一个圆孔，此外没有任何符号或文字。

它们可能建造于公元2世纪到4世纪，但是古代书籍没有任何记载。科学家对它的用途提出各种猜测：玩具、武器、装饰品、烛台、测距仪、骰子、编织手套的线轴......至今无人知道它们到底有什么用。

文摘

1、金属的长期价格

1980年，两个科学家对金属价格打赌。

甲认为，人口增长将耗尽地球资源，因此金属价格在未来将会急剧上升。

乙认为，人类的创新和聪明才智将克服资源短缺，因此金属价格长期中不会上涨，而是会下降。

他们最终选择了五种金属（铬、铜、镍、锡和钨），打赌看十年后的1990年，价格是高是低。

大家猜猜，甲和乙谁赢了？

到了1990年，五种金属的价格全部低于1980年。上图是它们的价格变化图，五种金属对应五条线，横轴是时间，竖轴是价格。

可以看到，五条线在1990年的终点，全部低于1980年的起点。其中，钨和锡的价格甚至降低了60%以上，铜的价格便宜了约20%，镍和铬的价格仅仅略微略低。

当然，这可能不反映长期趋势，只是1980年到1990年的金属行情特别差。

于是，经济学家又统计了这五种金属在过去一个世纪的价格变化（下图）。

结果发现，金属在2010年的价格与1900年相差无几。

因此，人类发展会耗尽地球资源的观点是错的。也就是说，金属在长期中并不会变得稀缺。

如果某种金属真的出现稀缺，价格上涨就会刺激供给增加，创新也会出现，新材料诞生，替代这种金属。

言论

1、

AI 带来的问题，不在于机器人即将到来，而在于你不知道自己究竟应该擅长什么。

-- 《你的工作并没有消失，只是不断缩小》

2、

AI 公司总是说，由于他们的工具，人们可以专注于更高价值的工作。但是，没人能够定义，高价值工作究竟是什么工作。

-- 《你的工作并没有消失，只是不断缩小》

3、

如果你的朋友安装了 OpenClaw，就不要使用他们的电脑，你输入的任何密码都可能泄漏。

-- 《OpenClaw 简直就是一颗定时炸弹》

4、

在我的国家，一瓶2升的当地自来水，加上焦糖色素和少许阿斯巴甜，售价竟然高达2.65美元，这着实令人惊讶。只要贴上"可口可乐"的标签，就可以升值这么多，比苹果还厉害。

-- Hacker News 读者

往年回顾

互联网创业几乎没了（#337）

禄丰恐龙谷记行（#287）

真实方位是如何暴露的？（#237）

元宇宙会成功吗（#187）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年2月 6日

科技爱好者周刊（第 383 期）：你是第几级 AI 编程

阮一峰的网络日志

30 January 2026 at 08:10

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

刚刚建成四川宜宾高铁枢纽门户区，以高铁站为核心，包括8座塔楼、中央公园、数字艺术中心和商业文化街区。（via）

你是第几级 AI 编程

史蒂夫·耶格（Steve Yegge）是一个著名的美国程序员。

他在亚马逊和谷歌都干过，但是他出名的不是写软件，而是写博客。

他喜欢在个人网站发布长篇大论，滔滔不绝地议论，直抒胸臆，毫不避讳。他的好多文章都在业内被广泛阅读，引起很大反响。

这些文章后来结集出版，甚至引进了国内，书名就叫《程序员的呐喊》（人民邮电出版社，2014）。

它的书名里面的"呐喊"，英文单词是 ranting，直译就是"咆哮"，确实就是他的文章风格。

这个月，他又发表了一篇最新文章，谈他对 AI 编程的看法。

他说 AI 编程有8级，他已经到了第8级，也就是最高级。

第1级，还没有接触到 AI 编程，你的 IDE 还是正常的样子（下图）。

第2级，你在 IDE 装了 AI 插件，开启了侧边栏，AI 时不时提出代码建议，问你是否接受（Yes or No）。

第3级，你开始信任 AI 编程，进入了 YOLO 模式（"你只活一次"模式， You Only Live Once）。为了节省时间精力，你不再逐条确认 AI 的建议，只要是 AI 生成出来的东西，你就一路按 Yes，统统接受。

第4级，AI 占据的屏幕宽度越来越大，手工编辑的代码区仅用于比对代码差异。

第5级，你索性不要代码区了，改用命令行（比如 Claude Code），所有的屏幕宽度都留给了 AI。你现在不看 AI 的生成结果了，只看它的完成进度。

第6级，你觉得只用一个 AI 太慢，于是打开3到5个窗口，同时进行 AI 编程，加快速度。

第7级，同时打开的 AI 编程窗口到了10个以上，已经是你手工管理的极限了。

第8级，你开始使用 AI 任务编排器，让计算机管理并行的多个 AI 编程。

以上就是 AI 编程的8个级别，你是第几级？

到这里还没完，前面说了，史蒂夫·耶格本人已经到了第8级。他需要工具来管理并行的 AI 编程，但是找不到满意的工具。

于是，他就指挥 AI 写，并将这个工具起名为"煤气镇"（Gas Town）。这个名字来自电影《疯狂麦克斯》（Mad Max）第四部，是里面大反派老乔的老巢。那里到处都是二手零件组成的燃气机，能正常工作，但是看上去摇摇欲坠。

他说，"煤气镇"的开发就是东拼西凑，不考虑合理性，能用就加上去，没抛错就接受。"它有22.5万行 Go 语言代码，我从来没看过它的代码，也从来没想过要看。"

他建议用户不要使用这个工具，因为使用它需要全心全意信任 AI。并且，就算相信它，它也可能把事情搞得一团糟。另外，多个 AI 一起跑，很费钱。

但是，他还是把这个工具放到网上，因为它非常好玩。截至到上周，已经得到了6000颗星。

科技动态

1、牛的智力

一个奥地利农民惊奇地发现，自家的牛会从地上，叼起一根棍子来挠痒。

这个发现令人震惊，因为这表明牛会使用工具，以前从未有人提过。

目前，除了人类之外，只有黑猩猩被发现会使用工具。科学家表示，需要重新认识牛的智力。

2、轨道储能系统

一家美国公司设计出"轨道储能系统"，利用山地轨道储藏能量。

电力充足时，索道通过电动机，把重物从山脚运到山顶。

电力不足时，就利用重力势能，让重物顺着轨道从山顶滑到山脚，通过索链带动发电机。

这个系统的优点是简单可靠，成本低，连续使用多年，也不会出现性能衰减。

3、喉部发声贴片

上一期周刊介绍了会说话的围脖，本期还有一个类似的发明。加州大学洛杉矶分校的研究团队发明的喉部贴片，可以让不能说话的病人重新发声。

某些病人由于喉部疾病，无法再发声了，成了哑巴，但是他们的喉部肌肉还能动。

这种贴片贴在病人的喉部，能够感知病人的喉部肌肉运动，并将这种运动转为电信号，发送出去。

计算机收到电信号以后，再转成对应的语音，从而实现发声。

为了将喉部肌肉运动与各种语音对应起来，研究团队使用了机器学习，通过算法将电信号与单词之间实现了关联。

文章

1、2026年的 Linux 音乐播放器（英文）

本文介绍 Linux 系统现在主要的几种音乐播放器。

2、选择性禁用 HTTP/1.0 和 HTTP/1.1（英文）

本文介绍如何设置 nginx，禁止 HTTP/1.0 和 HTTP/1.1 协议，只有白名单里面的客户端可以通过，这杜绝了绝大部分的攻击和爬虫。

3、我扫描了所有的 GitHub "孤儿提交"（英文）

如果你不小心把密码提交到 GitHub，怎么办？你可能会立刻修改代码，强制覆盖上次的提交。

本文告诉你，这样不行。因为 GitHub 不删除任何提交，你上次提交实际上还在。作者扫描了所有 GitHub 的强制提交事件，真发现了许多泄漏的密码，

4、CSS 动画计数器（英文）

本文介绍纯 CSS 动画计数器的各种写法。

5、我的 n8n 用例（英文）

n8n 是一个工作流编排器，可视化生成自动操作脚本。作者介绍了自己的用例：通过聊天软件，将每一笔费用发给 n8n 本地服务器，它会用 AI 进行分类，再将结果存入谷歌表格。

6、2025应该知道的 HTML 新知识（英文）

本文介绍 HTML 的一些新属性和新功能。

7、新的自托管应用推荐（英文）

作者推荐一些他个人喜欢的自托管应用，都相当不错。

工具

1、teemux

一个基于 JS 语言的命令行工具，将多个进程输出的日志放在一处查看，可以命令行查看，也可以浏览器查看。

2、daedalOS

浏览器里面的虚拟桌面环境，代码开源。

3、Dendron

VS Code 的笔记插件，将笔记的层级结构当作目录，并支持图表和内部链接，参见介绍文章。

4、CWD（Cloudflare Workers Discuss）

基于 Cloudflare Workers 的网站评论系统。（@anghunk 投稿）

5、Mouse Gestures

开源的 Chrome 浏览器插件，使用鼠标滑动轨迹，完成各种浏览器操作。（@Chance-fyi 投稿）

6、relationship-ts

一个 JS/TS 库，用来计算中国亲戚关系（称谓），Demo 试用。（@ExploringTheCodeWorld 投稿）

7、Deck

macOS 剪贴板管理的开源桌面应用，特点是有 Touch ID 保护和端到端加密。（@yuzeguitarist 投稿）

8、EdgeTunnel (Refactored)

一个部署在 Cloudflare Workers 的隧道方案，代码进行了重构。（@tianrking 投稿）

9、Mail Studio

开源的可视化邮件编辑器，通过拖拽组件，生成响应式邮件模板，试用 Demo。（@wzc520pyfm 投稿）

10、TermClean

macOS 开源应用，在终端界面显示各种软件包占用的磁盘空间，并提供清除软件包功能。（@daijinhai 投稿）

AI 相关

1、ebook2audiobook

电子书转成有声书的工具。

2、WorkAny

开源的 AI Agent 桌面客户端，能够执行任务、操作文件，类似于 Claude Cowork。（@idoubi 投稿）

3、Voice Key

开源的桌面端 AI 语音转文字的工具。（@yexia553 投稿）

4、分镜大师（Storyboard Studio）

开源的 Windows 应用，使用 AI 对视频进行分镜。（@BroderQi 投稿）

资源

1、Claude Code 实战（Claude Code in Action）

Anthropic 官方的 Claude Code 免费入门教程，一共15节视频课，总长约1小时。

2、GitHub 证书

这个网站可以将某个用户2025年的 GitHub 活动，变成一张证书样式的图片。

3、Fontsniff

上传文本图片，自动识别使用了什么字体。（@cosmicqbit 投稿）

4、Future Style Periodic Table

开源的可视化元素周期表，会展示核外电子排布。（@SeanWong17 投稿）

5、nihongo

免费的日语学习平台，有词汇、听力、文章等。（@FrankZhai367 投稿）

图片

1、我不再写代码，而是雕刻代码

我的编码方式发生了变化，现在很少自己写了，都交给 Claude Code 自动完成。

我要做的，就是将 AI 的输出结果打磨成更持久耐用的东西。

AI 几乎从不删除无用代码。如果没有雕塑家，最终只会得到一座臃肿不堪、毫无特色、重得无法站立、也无法讲述故事的雕像。

2、蝴蝶壁画

一位法国艺术家，在世界各地的大楼外立面，绘制栩栩如生的蝴蝶标本壁画，唤起人们对生物多样性的关注。

以下都是真实照片，不是 AI 生成的。

迈阿密

休斯顿

西班牙

纽约

法国

文摘

1、为什么有些公司愿意"黑箱编程"

有些公司已经把编程完全交给了 AI，根本不看代码了，AI 写什么就运行什么。

我把这叫做"黑箱编程"，开发过程变成了一个黑箱，根本不需要人类介入，也不欢迎人类介入。它所做的就是把规格参数转换成软件。

我知道，有些小公司就这么干，公司的人数一般不到五个人。虽然这种事情简直难以置信，但很可能就是我们的未来。

我问过一个这样的公司，他们为什么要这么做？

他解释说，作为小公司，他们团队的目标是证明产品的有效性。

人类的作用是设计出一个系统：找到新的模式，帮助 AI 有效工作，证明正在构建的软件产品是稳健有效的。剩下的事情就都交给 AI，这样效率最高。

我认为，这个解释令人信服。

这个公司很小，但在短短几个月内就开发出了可以运行的产品。团队当中有些人拥有超过20年的软件开发经验，曾参与过开发可靠性要求极高的系统，所以他们并非抱着天真无知的心态选择了"黑箱编程"。

我期待着，看到他们拿出最终产品，投入市场的那一刻。

言论

1、

大多数组织习惯于收到系统警报后，直接质问："是谁刚刚发布了代码变更？" 人们认定合并代码的人肯定了解它的工作原理，并且能够迅速修复问题。

如果你部署的代码既不是某个人写的，也没有人真正理解它，会发生什么？

-- 《二十年的 DevOps 实践》

2、

JavaDoc 之类的工具，可以从代码直接生成文档。我觉得，这种自动生成的文档，价值并不大，未必比直接阅读源代码容易。

没有什么可以替代手写的、有组织的和人工编辑的文档。

-- 《什么是好的文档，以及如何编写》

3、

你学过的、使用过的每种语言和技术，即使会过时，也是有价值的，它们都会让下一种语言或技术更容易学习。

-- 《他们骗了你，开发软件真的很难》

4、

习惯了 AI 编程之后，有一天，我震惊地发现，自己竟然如此轻易地掉进了陷阱。

我已经变得对自己的代码库一无所知，也懒得自己去修复。只要用上了 AI，我就心情愉快，AI 让我感觉自己更聪明、更高效、掌控一切。一旦离开了 AI，我才发现这一切都只是幻觉。

-- 《有了 AI，我变得懒惰和愚蠢》

往年回顾

面对 AI，互联网正在衰落（#336）

蓝色指示灯的解决方案（#286）

中国的阳光地带（#236）

低纬度，高海拔，气候优势（#186）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年1月30日

Kimi 的一体化，Manus 的分层

阮一峰的网络日志

29 January 2026 at 16:02

一、

前天，Kimi 突然发布了旗舰模型 K2.5，事先没有一点风声。

在国内，Kimi 是比较低调的公司，关注度相对不高。但是，它的产品并不弱。

半年前，K2 模型一鸣惊人，得到了很高的评价，公认属于全球第一梯队。所以，新版本 K2.5 出来以后，立刻上了新闻，在黑客新闻、推特等平台都是热门话题。

著名开发者 Simon Willion 当天就写了详细介绍。

但是，这一次真正有趣的地方，不是模型本身，而是 Kimi 做了另一件事。

二、

这次的 K2.5 很强，各方面比 K2 都有进步。官方给出的评测跑分，基本都是全球前三位，甚至第一名（见发布说明）。

根据 LMArena（现改名为 arena.ai）的榜单，Kimi K2.5 的编码能力，是所有开源模型的第一，在总榜上仅次于 Claude 和 Gemini（下图）。

但是，最大的亮点其实不是模型，而是 Kimi 同时发布了一个基于这个模型的 Agent（智能体）。

也就是说，这次其实同时发布了两样东西：K2.5 模型和 K2.5 Agent。K2.5 是底层模型，K2.5 Agent 则是面向最终用户的一个网络应用。

我的印象中，这好像是第一次，大模型公司这么干。以前发布的都是模型本身，没见过谁把模型和 Agent 绑在一起发布的。

这么说吧，Kimi 走上了一体化的道路。

三、

大家知道，大模型是底层的处理引擎，Agent 是面向用户的上层应用。

它们的关系无非就是两种：分层开发和一体化。前者是大模型跟 agent 分开，各自开发；后者是做成一个整体一起开发。

前不久，被 Meta 公司高价收购的 Manus，就是分层开发的最好例子。

Manus 使用的模型是 Anthropic 公司的 Claude，它自己在其上开发一个独立的智能体，最终被收购。

它的成功鼓舞了许多人投入智能体的开发。因为模型的投入太大，不是谁都能搞的，而智能体的投入比较少，再小的开发者都能搞。

Kimi 这一次的尝试，则是朝着另一个方向迈出了一大步，把大模型和 Agent 合在了一起。毕竟，大模型公司自己来做这件事更方便，更有利于扩大市场份额、争取用户。

很难说，这两种做法哪一种更好。就像手机一样，苹果和安卓的外部应用，可以更好地满足用户需求，而自带的内置应用则能充分跟操作系统融合，用起来更顺滑。

四、

模型的测试已经很多了，下面我就来测一下，这次发布的 K2.5 Agent。

看得出来，Kimi 对 Agent 很重视，倾注了很大心血，发布说明的大部分篇幅介绍的都是 Agent 的功能。

其中有几个功能是比较常规的：

（1）Kimi Office Agent：专家级的 Word、Excel、PowerPoint 文件生成。

（2）Kimi Code：对标 Claude Code 的命令行工具，专门用于代码生成。

（3）长程操作：一次性完成最多1500步的操作，这显然在对标以多步骤操作闻名的 Manus。

我比较在意的是下面两个全新的功能，都是第一次看到，其他公司好像没有提过。

（4）视觉编程：通过模型的视觉能力，理解图片和视频，进而用于编程。只要上传设计稿和网页视频，就能把网页生成出来。

（5）蜂群功能（agent swarm）：遇到复杂任务时，Agent 内部会自动调用最多100个 Agent，组成一个集群，并发执行任务，比如并发下载、并发生成等。

碍于篇幅，我就简单说一下，我的"视觉编程"测试结果。

五、

首先，打开 Kimi 官网，K2.5 已经上线了，能够直接使用（下图）。

注意，模型要切换到"智能体模式" K2.5 Agent。

我的第一个测试是动效生成，即上传一段动画效果的视频，让它来生成。下面是原始动画，是用 Lottie 库做的。

上传后，在网页输入提示词：

视频里面的动画效果，一模一样地在网页上还原出来

模型很快推断出，这是橘猫玩球的动画。然后，居然把动画每一帧都截图了，进行还原。

最终，它使用 Python 生成了 SVG 动画文件。

尾巴、眼球、小球滚动的动画效果，都正确还原出来了。可惜的是，主体的小猫是由多个 SVG 形状拼接而成，没法做到很像。

大家可以去这个网址，查看最终效果和网页代码。

六、

第二个测试是上传一段网站视频，让模型生成网站。

我在 B 站上，随便找了一个设计师网站的视频。

大家可以去访问这个网站，看看原始网页的效果。

我把视频上传到模型，然后要求"把视频里面的网站还原出来"。

生成的结果（下图）完全超出了我的预期，还原度非常高，几乎可以直接上线。

大家可以去这个网址，查看生成的结果。

七、

经过简单测试，我的评价是，Kimi K2.5 Agent 的"视觉编程"不是噱头，确实有视觉理解能力，完全能够生成可用的结果。

目前看上去，Kimi 这次"模型 + Agent"的一体化尝试是成功的。一方面，强大的 Agent 发挥出了底层模型的能力，方便了用户使用；另一方面，模型通过 Agent 扩展了各种用例，可以吸引更多的用户，有利于自身的推广。

最后，在当下国际竞争的格局之中，一体化还有一个额外的优势。

Manus 依赖的是美国模型，最终不得不选择在海外注册公司，而 Kimi 的底层模型是自研的，而且开源，完全不存在卡脖子的风险。

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年1月29日

科技爱好者周刊（第 382 期）：独立软件的黄昏

阮一峰的网络日志

23 January 2026 at 08:13

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

巫山县城建在山坡上，为了方便居民和促进观光，在中轴线上建设了神女大扶梯，总长905米，高240余米，相当于80层楼，全程需要20分钟。（via）

独立软件的黄昏

软件可以分成两种：一种是公司开发的，另一种是个人开发的。后者就称为"独立软件"（indie software）。

它的历史非常悠久，从古至今，很多程序员依靠出售独立软件谋生。

有一种东西"共享软件"（Shareware），年轻的朋友未必知道，二三十年前曾经非常流行。用户免费使用软件的试用版，如果满意，就向开发者购买一个注册码。

这就是一种独立软件，当年很多著名软件都是这个模式，比如国外的 WinZip 和 WinRAR，国内的网络蚂蚁（NetAnts）、网际快车（FlashGet）、豪杰解霸。

时至今日，大家看看目前流行的软件，还有多少属于独立软件？你每天使用的软件，又有多少是个人开发的？

很少很少了。

一位二十年的独立软件开发者哀叹，现在的市场上，公司开发的比重越来越大，个人开发的比重越来越小，独立软件正在没落。

"我销售自己的软件20年了，2005年以后，互联网开始普及，独立软件迎来了黄金年代。而最近两三年，环境一直在快速变化，销售明显变难了，我感觉自己越来越难维持生计了。"

独立软件的大发展，是从2005年开始的。

互联网的普及，网民数量急剧增长。

智能手机创造了手机软件，一个全新的软件大市场。

在线支付的普及和简化。

互联网使软件分发变得容易且免费。

免费的高质量开发工具（编译器、IDE、版本控制系统、Web 服务器）不断涌现。

这些因素让程序员切切实实获利了，要是你再做一些 SEO、买一些付费广告，完全可能赚到大钱。很多人就是这样发展起来的，从独立软件变成了大公司。

但是，最近两三年情况变了，上面这些因素都到头了。

独立软件正在慢慢退潮，你能够想起名字的独立软件越来越少，更不要说掏钱购买了，即使有也是多年前的作品。根据我的观察，依靠出售自己软件维生的程序员似乎也在减少。

主要原因有下面几个。

（1）AI 改变了互联网流量，独立软件失去了推广渠道。网站的访问量显著减少，人们更多跟大模型交互，而不是浏览网页。通过搜索引擎和在线广告获取流量的策略，越来越没有效果。

视频是为数不多仍然有效的推广渠道之一，但制作视频非常耗时，而且竞争异常激烈。另外，AI 生成的劣质视频迟早会大量出现，推广效果也会变差。

（2）AI 使得软件开发变得容易。它加快了开发速度，降低了进入门槛，让更多人加入竞争。以前，用户可能购买某个功能，现在直接让 AI 生成即可。

（3）新软件汗牛充栋，越来越难脱颖而出。iPhone 应用商店有大约200万个应用，用户很难发现你。另一方面，应用商店更喜欢推广那些能帮它赚更多钱的大公司软件，而不是独立软件。

（4）人们越来越习惯使用基于网络的软件，独立软件属于需要下载安装的原生应用，它的市场在萎缩。

基于网络的软件与其说是产品，不如说是一种服务，全天候24小时可用的服务。越来越多的个人开发者顺应这种趋势，改为以提供 SaaS 服务为主。

（5）平台的风险。现在的很多独立软件，都依靠云服务商的平台或底层服务，而平台随时会改变规则（比如关闭 API），或者推出竞品，一大批应用随之死掉，这种事情屡见不鲜。

（6）用户期望软件是免费的，或者非常便宜。售价略微高一点，就会无人问津。因此，独立软件要想获得可观的回报，就需要巨大的销售规模，这根本做不到。别的不说，个人开发者完全无力提供满意的客服。

（7）以上这些因素将长期存在，只会加深，不会逆转。独立软件的时代可能真的要结束了，个人开发者以后大概很难靠销售自己的软件为生，而要改为销售自己维护的 SaaS 服务，尽管这也很难。

科技动态

1、VS Code 的定位

微软公司的 VS Code 是非常流行的代码编辑器，市场份额很高。

现在的官网上，它的产品定位是"开源 AI 代码编辑器"。

但是，2025年上半年，它的产品定位还是"你的代码编辑器，由 AI 重定义"。

更早的2024年，产品定位是"重新定义的代码编辑"。

令人感慨啊，这么成功的软件，AI 本来只是附属功能，现在也要蹭热点，把自己包装成 AI 主导的产品。

2、智能脖巾

英国科研人员发明了一种智能脖巾。它围在脖子上，可以感受到穿戴者的心跳和喉部肌肉运动。

它的用户主要是中风后丧失说话能力的人。这些人可以张嘴，做出说话的口型，但是无法正常发音。

他们佩戴这个脖巾后，颈部的运动数据就通过它传给电脑，经过模型训练，可以用电脑语音还原出用户想说的话。

3、雪宝机器人

人形机器人何必一定做成人形。

迪斯尼最近发布了一个机器人，样子就是电影《冰雪奇缘》的雪宝。

它用来在迪斯尼乐园，跟游客互动。

它启示我们，人形机器人做成卡通形状也很好。

另外，LG 公司在美国 CES 展会上，展示了他们最新的家务机器人。

这个机器人的功能就是做家务，比如叠衣服和洗碗。我觉得，国内厂商可以借鉴，展示机器人功能时，不要展示跳舞打拳，而要展示如何做家务。

文章

1、别用 MySQL，改用 MariaDB（英文）

曾经的明星数据库 MySQL，最近几个月的代码提交数为0（上图）。作者认为，种种迹象表明甲骨文已经放弃了这个项目。

2、10秒获得 AI 代码评审结果（英文）

本文介绍一个技巧，让 AI 快速给出提交代码的评审结果，方法是不要提交整个代码库，只提交 diff 的部分。

3、使用 Pandoc 生成静态网站（英文）

文档格式转换工具 Pandoc 可以用来生成静态网站，作者介绍自己是怎么做的。

4、锚点元素<a>的一些鲜为人知的地方（英文）

锚点元素<a>用来生成链接，本文介绍如果链接到一些特殊字符的情况。

5、学习自定义元素（英文）

一篇 HTML 自定义元素的教程文章，写得简单清晰。

6、Go、Rust 和 Zig 的一些想法（英文）

作者是一个高级程序员，谈谈他对 Go、Rust、Zig 三种语言的感受。有趣的地方是，这三种语言都没有类，也不支持面向对象编程。

7、我的个人基础设施（英文）

作者介绍他自己的家庭实验室。比较有趣的是，他的个人网站是本地构建后，自动用 Syncthing 同步到服务器，这对小型静态网站确实简单。

工具

1、GoRead

开源的电子书阅读器应用，支持桌面与移动端（Android/iOS）。（@zhashut 投稿）

2、EasyPostman

用于 API 调试的跨平台桌面应用，对标 Postman + JMeter。（@lakernote 投稿）

3、Port Sentinel（端口哨兵）

Windows 桌面应用，查看端口占用情况。（@Sanjeever 投稿）

4、Building Sunlight Simulator

基于 Web 的楼盘采光 3D 日照模拟工具，帮助购房者评估小区采光。（@SeanWong17 投稿）

5、Office App

一个纯本地的 Office 网页应用，可以离线在网页创建/编辑 Word、Excel、PowerPoint 文件。（@baotlake 投稿）

6、ScreenshotSnap

免费的网站截屏在线工具，提供 API，可以直接将截图代码插入网页。（@phpiscute 投稿）

7、tsshd

SSH 服务器登录协议的全新实现，特点是连接不掉线，可以重连前一个对话。（@lonnywong 投稿）

8、AirScan-QR

一个开源网页应用，通过动态二维码发送/接收文件。（@topcss 投稿）

9、LuCI Bandix

开源路由器操作系统 OpenWRT 的一个插件，可以监控局域网各设备的实时流量和目的地。（@timsaya 投稿）

10、pure-genealogy

开源的网页族谱工具，用来生成家族族谱，基于 Next.js + Supabase。（@yunfengsa 投稿）

11、mdto.page

这个网站免费将 Markdown 文件转成 HTML 格式，发布成公开访问的网页。

AI 相关

1、ChatGPT 翻译

OpenAI 悄悄发布的翻译功能，只有在官网可用。

2、Mango Desk

一个跨平台的桌面应用，使用自然语言进行本地文件搜索。（@moyangzhan 投稿）

3、OpenWork

Claude 公司新产品 CoWork 的开源替代品，让普通用户不编程，就能完成文件操作，定位就是"Claude Code 的非编程版"。

另有一个类似项目 Open Claude Cowork。（@aiagentbuilder 投稿）

4、Wolfcha（猹杀）

开源的网页游戏 AI 狼人杀，除了玩家自己，其他所有角色（女巫、猎人、守卫、狼人等）都由 AI 扮演。（@oil-oil 投稿）

资源

1、维基百科25周年

维基百科是2001年1月13日上线的，今年是25周年纪念。这个网站是官方的纪念网站，以互动形式展示了发展历程。

另外，还有一篇文章，介绍互联网档案馆的历史（下图）。

2、HTTP:COLON

这个网页可以查看指定网站返回的 HTTP 标头，详细解释每个字段的含义。

3、现代 Java（Modern Java）

面向初学者的 Java 语言教程。

图片

1、中国新能源建设的惊人规模

90后摄影师储卫民拍摄的中国新能源建设。

他说："从地面上很难体会这些发电厂的规模，但当你升到空中时，就能看到它们与山脉、沙漠和海洋之间的关系。"

青海冷湖镇

浙江象山县

青海塔拉滩

内蒙古阿拉善

"我一开始只是拍摄风景，但2022年我去贵州、云南、青海等地旅行时，不断看到风力发电场和太阳能发电厂出现在我的镜头里。我意识到这就是我们这个时代的故事----但几乎没有人系统地记录它。"

文摘

1、谷歌14年工作的教训

大约14年前，我加入谷歌，以为这份工作就是编写优秀的代码。

这个想法部分正确。但随着时间的推移，我越来越意识到，真正成功的工程师不一定是最优秀的程序员，而是懂得驾驭代码之外一切的人。

下面就是我得到的经验教训。有些教训是我走了几个月的弯路得到的，还有一些需要数年才完全领悟。它们都与具体的技术无关----技术变化太快，根本无关紧要。

（1）工程师想在大公司生存，必须学会沟通。

因为在大公司，团队是组织的基本单位，推进项目必须跟其他团队沟通。项目越大，你花在跟其他人、其他团队沟通的时间就越多，比编写代码的时间还多。大多数"慢"的团队实际上是不沟通的团队。

为了顺利沟通，清晰是第一位的要求。它不仅可以加快沟通，还能降低代码风险。最优秀的工程师都会用清晰易懂的代码来代替炫技。

为了提高表达的清晰性，你可以尝试写作和去教别人。如果你能用简单的语言解释某件事，你就是真的理解它了。

（2）想要得到晋升，必须有人为你说话。

职业生涯初期，我曾认为优秀的工作成果代表了一切，但我错了。代码默默地躺在代码库里，不会为你说话。

那些对你至关重要的会议，你本人很可能没有机会参加。你需要你的经理、同事在会上提到你、推荐你。他们可能这样做，也可能不会。

平时工作中，你尽量不要为自己增加阻力。如果开会的时候，你赢得每一场辩论，很可能就是在积累无声的阻力。你之所以"赢"，不是因为你说服了别人，而是因为他们不再与你争论，放弃了，将会在其他场合表达这种不满。

（3）专注于你能控制的事情，忽略你无法控制的事情。

很多事情，你改变不了，不要为这种事情烦恼。这不是被动接受，而是策略性分配精力。如果你把精力浪费在无法改变的事情上，就等于放弃改变那些原本可以改变的事情。

（4）简化工作往往可以提高绩效。

当系统运行缓慢时，人们的第一反应是增加缓存层、并行处理和更智能的算法。有时这样做没错，但我发现，删除不必要的工作几乎总是更有效果。下次进行优化之前，你要先问问自己这项工作是否应该存在。

（5）时间比金钱更有价值，你要抓紧时间。

职业生涯初期，你用时间换取金钱，各种事情都做----这无可厚非。但到了某个阶段，情况就完全不同了，你会开始意识到，时间才是不可再生资源。你要专注于那些对你最重要的事情，放弃其他事情。

言论

1、

AGI（通用人工智能）中的 A 代表广告（advertisement）。

-- 一位程序员评论 OpenAI 宣布在 AI 对话中加入广告

2、

Netflix 的电影不追求视觉效果，因为大多数观众是在手机、平板和笔记本电脑上看，内容不需要为大银幕制作、而是为小屏幕制作的。

-- 马特·达蒙，美国著名演员

3、

我从未见过哪个群体比程序员更热衷于分享知识。其他行业都是严守知识、保守秘密，程序员则是免费提供源代码、书籍、博客文章、演示文稿、视频教程等等。

编程领域没有什么神圣不可侵犯的东西。如果你想学习，你可以找到免费书籍、完整的源代码、论坛、聊天室、邮件列表、线下聚会、博客文章、视频讲座、教程以及你可能需要的一切资源。尽管举手，总会有人乐于助人，倾囊相授。

-- 《我是如何学习所有编程知识的》

4、

今年的 iOS 26 中，一些 UI 元素利用 HDR 屏幕，采用高光，比纯白色更亮。如果你曾经在 iPhone（或其他任何支持 HDR 的屏幕）上看过 HDR 照片，然后再看看以 SDR 模式显示的 UI，你就会知道它看起来有多么灰暗黯淡。

-- 《亮模式的膨胀》，作者发现 iOS 每年都变得更亮，容易产生视觉疲劳，让他不得不使用暗模式

5、

如果你想批评大型组织的运作方式，首先要了解它们为何如此运作。否则，批评会显得尖锐，但却毫无意义。

-- 《关于大型软件公司的常见误解》

往年回顾

年底的未来已来（#335）

为什么 PPT 不如备忘录（#285）

青年失业率与选择创业（#235）

美国宪法拍卖，一个区块链案例（#185）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年1月23日

AI native Workspace 也许是智能体的下一阶段

阮一峰的网络日志

22 January 2026 at 19:46

一、智能体的形态

我问大家一个问题，什么是 AI 的产品形态？

大模型只是底层的处理引擎，你总是需要一个应用层产品，对接用户的需求。这种 AI 的应用层，就称为"智能体"（agent）。

那么，问题就变成了，"智能体"应该是什么样？

早期的智能体只是对话应用（上图），后面加入了推理，可以思考复杂问题。

后来，向专业领域发展，演变出编程智能体（coding agent）、图像智能体、视频智能体等等，或者接入 MCP，获得外部应用操作能力，比如生成 Office 文件、操作浏览器。

这些形态基本已经成熟了，很多公司开始探索，下一阶段的智能体会是什么形态？

我最近在用 MiniMax 刚发布的 AI native Workspace（AI 原生工作台），欣喜地觉得，这可能就是答案。

二、Cowork 和 Skill

这个新产品，同时加入了 Anthropic 公司最近提出的两个新概念：Cowork 和 Skill。

所谓 Cowork，简单说，就是一个"计算机操作助手"。它本质是编程智能体的图形界面版，让不懂编程的用户，用自然语言说出需求，再通过 AI 生成底层代码并执行，自动操作本地计算机完成任务。

而 Skill 就更简单了，它是一篇预设的提示词，相当于"使用手册"，向 AI 详细描述如何完成某一种特定任务。可以这样理解，每一个 Skill 就是一个专家，让 AI 拥有特定领域的技能。

这两个东西，一个是操作助手，一个是专家模式。前者用 AI 来操作计算机，后者让 AI 具备专门技能。

它们结合起来会怎样？

MiniMax AI native Workspace 就是这样一个产品，探索性地将 Cowork 和 Skill 结合在一起，同时具备两种能力，完全是一种全新的产品形态。

它的桌面端（desktop）提供 Cowork 能力，专家模式（experts）则提供 Skill 能力。

三、桌面端操作助手

下面，我来展示，它跟传统智能体的差异在哪里。

它的桌面客户端定位就是"AI 原生工作台"，具备以下能力。

直接访问本地文件：能够读写，以及自动上传或下载文件。

自动化工作流程：能够分解任务，运行 Web 自动化。

交付专业成果：运行结束后可以生成高质量的交付产物，比如 Excel 电子表格、PowerPoint 幻灯片、格式化文档。

长时间运行任务：对于复杂任务，可以长时间运行，不受对话超时或上下文限制的影响。

注意，由于它可以操作计算机，并跟互联网通信，执行之前，一定要指定目录，防止读写不该操作的目录，而且要有备份，防止原始文件被删改。

首先，前往官网下载桌面客户端，Windows/Mac 版本均有，新注册用户目前可以免费试用3天。

安装后运行，直接进入任务界面，就是一个传统的对话框。

这时指定运行目录，就进入"工作台"模式，可以对该目录进行操作。软件会跳出一个警告，提示风险。

这时，就可以让它执行各种任务了。比如，我让它整理各种电子服务的发票 PDF 文件，然后生成一个汇总的 Excel 文档。

这时，它会在当前目录里面，自动安装一个 Python 虚拟环境，然后生成 Python 脚本并执行。

很快就生成好了 Excel 文件。

以此类推，各种文件整理的事情，都能交给它，比如整理照片、文件重命名等等。

它还能进行网页自动化，比如自动浏览某个网页，并提取信息、总结内容。

四、专家系统

上面展示了它的工作台功能，可以担当"数字员工"，下面再来看看它的"专家系统"。

所谓"专家系统"，就是注入特定的提示词文件，扩展智能体的技能，相当于深度的知识和能力注入。用户还可以上传私有知识库。

大家可以打开它的网页端，点击左边栏的"探索专家"。

系统内置了一些"预设专家"，可以直接使用。

我选了一个系统提供的"Icon 制作器"，就是制作 Logo 的技能，看看好不好用。

我要求制作一个"熊猫吃冰淇淋"的 Logo，系统提示要选择一种设计风格。

最后生成了两个文件（坐姿和站姿）供选择，效果还不错。

五、创建新技能

除了预设的专家，系统也允许你创建"我的专家"，也就是某种自定义技能。

你需要输入能力描述和指令，还可以添加对应的 MCP、SubAgent、环境变量、Supabase 数据库等等。

我直接把 Anthropic 公司提供的 Skill 文件输入，看看效果。

我选了 frontend-design（前端设计）技能，输入以后就可以在"我的专家"分页上看到。

注意，系统目前只支持输入技能描述文件，还不支持上传静态资源文件（asset），希望后面可以加上。

选中这个专家以后，我要求生成一个算法可视化页面。

"生成一个排序算法可视化网站，列出常见排序算法的可视化动画。选中某个算法后，会展示该算法的动画效果。"

生成过程大概十分钟左右，就得到了结果。系统生成了十种排序算法的动画，并直接部署上线。

我后来又调整了一下动画配色，大家可以去这个网站看看效果，还是很酷的。

六、总结

AI native Workspace 将 AI 智能体引入了本地计算机，可以进行自动化操作，同时加入技能接口，允许注入外部知识和能力。并且，所有操作都可以通过自然语言对话完成，对用户的要求低。

这一下子打开了 AI 智能体的想象空间，它所能完成的任务，将不再受限于模型的能力，而只受限于我们的想象力。

我认为，这个产品代表了下一阶段 AI 智能体的发展方向，将开启很多全新的可能性，等待我们去探索。

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年1月22日

科技爱好者周刊（第 381 期）：中国 AI 大模型领导者在想什么

阮一峰的网络日志

16 January 2026 at 08:13

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

刚刚运营的北京通州站位于地下，为了充分利用自然光，屋顶采用了透光的膜结构，上方还有一个风帆形状的保护架。（via）

中国 AI 大模型领导者在想什么

上周六（1月10日），北京有一场"AGI-Next 前沿峰会"，由清华大学基础模型实验室主办。

中国顶尖的 AI 大模型领导者，很多都出席了。

唐杰：清华大学教授，智谱创始人

杨植麟：月之暗面 Kimi 创始人

林俊旸：阿里 Qwen 技术负责人

姚顺雨：OpenAI 前核心研究者、腾讯 AI 新部门负责人

他们谈了对大模型和中国 AI 发展的看法，网上有发言实录。

内容非常多，有意思的发言也很多，下面是我摘录的部分内容。

一、唐杰的发言

1、智谱的起源

2019年，我们开始研究，能不能让机器像人一样思考，当时就从清华成果转化，在学校的大力支持下，成立了智谱这么一家公司，我现在是智谱的首席科学家。

那个时候，我们实验室在图神经网络、知识图谱方面，在国际上做的还行，但我们坚定地把这两个方向暂停了，暂时不做了，所有的人都转向做大模型。

2、泛化和 Scaling

我们希望机器有泛化能力，我教它一点点，它就能举一反三。就和人一样，教小孩子的时候，我们总希望教三个问题，他就会第四个、第十个，甚至连没教过的也会。怎么让机器拥有这种能力？

目前为止，我们主要通过 Scaling（规模化）达到这个目标，在不同层面提高泛化能力。

（1）我们最早期用 Transformer 训练模型，把所有的知识记忆下来。训练数据越多、算力越多，模型的记忆能力就越强，也就是说，它把世界上所有的知识都背下来了，并且有一定的泛化能力，可以抽象，可以做简单的推理。比如，你问中国的首都是什么？这时候模型不需要推理，它只是从知识库里拿出来。

（2）第二层是把模型进行对齐和推理，让它有更复杂的推理能力，以及理解我们的意图。我们需要持续的 Scaling SFT（Supervised Fine-Tuning，监督式微调），甚至强化学习。通过人类大量的数据反馈，不断 Scaling 反馈数据，可以让模型变得更聪明、更准确。

（3）今年是 RLVR（强化学习与可验证奖励）爆发年。这里的"可验证"是什么意思？比如，数学可以验证、编程可能可以验证，但更广泛地，网页好不好看，就不大好验证了，它需要人来判断。

这就是为什么这个事情很难做，我们原来只能通过人类反馈数据来做，但人类反馈的数据里面噪音也非常多，而且场景也非常单一。

如果我们有一个可验证的环境，这时候我们可以让机器自己去探索、自己去发现这个反馈数据，自己来成长。这是我们面临的一个挑战。

3、从 Chat 到做事：新范式的开始

大家可能会问，是不是不停地训练模型，智能就越来越强？其实也不是。

2025年初，DeepSeek 出来，真是横空出世。大家原来在学术界、产业界都没有料到 DeepSeek 会突然出来，而且性能确实很强，一下子让很多人感到很震撼。

我们当时就想一个问题，也许在 DeepSeek 这种范式下，Chat（对话）差不多算是解决了。也就是说我们做得再好，在 Chat 上可能做到最后跟 DeepSeek 差不多。或许我们可以再个性化一点，变成有情感的 Chat，或者再复杂一点，但是总的来讲，这个范式可能基本到头了，剩下更多的反而是工程和技术的问题。

那么，AI 下一步朝哪个方向发展？我们当时的想法是，让每个人能够用 AI 做一件事情，这可能是下一个范式，原来是 Chat，现在是真的做事了。

当时有两个方向，一个是编程，做 Coding、做 Agent；另一个是用 AI 来帮我们做研究，类似于 DeepResearch，甚至写一个复杂的研究报告。我们现在的选择是把 Coding、Agentic、Reasoning 这三个能力整合在一起。

二、林俊旸的发言

4、千问是怎么开源的

千问的开源模型比较多，很多人问这是为什么？

这起源于2023年8月3日，我们开源了一个小模型，它是我们内部用来做实验的 1.8B 模型。我们做预训练，资源毕竟有限，你做实验的话不能通通用 7B 的模型来验，就拿 1.8B 的来验。

当时我的师弟跟我说，我们要把这个模型开源出去。我非常不理解，我说这个模型在2023年几乎是一个不可用的状态，为什么要开源出去？他跟我说 7B 很消耗机器资源，很多硕士生和博士生没有机器资源做实验，如果 1.8B 开源出去的话，很多同学就有机会毕业了，这是很好的初心。

干着干着，手机厂商跑来跟我们说 7B 太大，1.8B 太小，能不能给我们干一个 3B 或 4B 的，这个容易，没有什么很难的事情。一路干下来，型号类型越来越多，跟服务大家多多少少有一点关系。

5、我们的追求是多模态模型

我们自己内心追求的，不仅仅是服务开发者或者服务科研人员，而是能不能做一个 Multimodal Foundation Agent（多模态基础智能体）。

我特别相信这件事情，2023年的时候大模型是一个大家都不要的东西，多多少少有那么几分大炼钢铁的成分，多模态是我们从那时就一直想做的事情。

为什么呢？我们觉得如果你想做一个智能的东西，天然的应该是 Multimodal（多模态），当然带有不同看法，各个学者都有一些看法，多模态能不能驱动智力的问题。我懒得吵这个架，人有眼睛和耳朵可以做更多的事情，我更多的考虑是 Foundation（基础智能体）有更多的生产力，能不能更好地帮助人类，毫无疑问我们应该做视觉，我们应该做语音。

更进一步，我们要做什么东西呢？Omni 的模型（全模态模型）不仅仅是能够理解文本、视觉、音频，我们可能还让它生成文本、音频。今天我们已经做到了，但是我们还没有做到把视觉生成结合在一起。如果做到三进三出，我觉得至少是我个人喜欢的东西。

三、姚顺雨的发言

6、To C 和 To B 的差异

我的一个观察是 To C（消费者模型）和 To B（商业用户模型）发生了明显的分化。

大家一想到 AI，就会想到两个东西，一个是 ChatGPT，另外一个是 Claude Code。它们就是做 To C 和 To B 的典范。

对于 To C 来说，大部分人大部分时候不需要用到那么强的智能，可能今天的 ChatGPT 和去年相比，研究分析的能力变强了，但是大部分人大部分时候感受不到，更多把它当作搜索引擎的加强版，很多时候也不知道该怎么去用，才能把它的智能激发出来。

但对于 To B 来说，很明显的一点是智能越高，代表生产力越高，也就越值钱。所以，大部分时候很多人就是愿意用最强的模型。一个模型是200美元/月，第二强或者差一些的模型是50美元/月、20美元/月，我们今天发现很多美国的人愿意花溢价用最好的模型。可能他的年薪是20万美元，每天要做10个任务，一个非常强的模型可能10个任务中八九个做对了，差的是做对五六个，问题是你不知道这五六个是哪五六个的情况下，需要花额外精力去监控这个事情。

所以，在 To B 这个市场上，强的模型和稍微弱点的模型，分化会越来越明显。

7、垂直整合和模型应用分层

我的第二点观察是，基础模型和上层应用，到底是垂直整合，还是模型应用分层，也开始出现了分化。

比如，ChatGPT Agent 是垂直整合，Claude（或者 Gemini）+ Manus 是模型应用分层。过去大家认为，当你有垂直整合能力肯定做得更好，但起码今天来看并不一定。

首先，模型层和应用层需要的能力还是挺不一样的，尤其是对于 To B 或者生产力这样的场景来说，可能更大的预训练还是一个非常关键的事情，这个事情对于产品公司确实很难做。但是想要把这么一个特别好的模型用好，或者让这样的模型有溢出能力，也需要在应用侧或者环境这一侧做很多相应的事情。

我们发现，其实在 To C 的应用上，垂直整合还是成立的，无论 ChatGPT 还是豆包，模型和产品是非常强耦合、紧密迭代的。但是对于 To B 来说，这个趋势似乎是相反的，模型在变得越来越强、越来越好，但同样会有很多应用层的东西将好的模型用在不同的生产力环节。

8、需要更大的 Context

怎么让今天的大模型或者 AI 能够给用户提供更多价值？我们发现，很多时候需要的是额外的 Context（上下文）。

比如，我问 AI 今天该去吃什么？其实，你今天问 ChatGPT 和你去年问或者明天问，答案应该会差很多。这个事情想要做好，不是说你需要更大的模型、更强的预训练、更强的强化学习，而是可能需要更多额外的输入，或者叫 Context。如果它知道我今天特别冷，我需要吃些暖和的，我在今天这样的范围活动，可能我老婆在另一个地方吃什么等各种各样的事情，它的回答就会更好。

回答这样的问题，更多需要的是额外的输入。我和老婆聊了很多天，我们可以把聊天记录转发给元宝，把额外的输入用好，会给用户带来很多额外的价值。这是我们对 To C 的思考。

四、圆桌对话：中国 AI 的未来

李广密（主持人）：我想问大家一个问题，在三年和五年以后，全球最领先的 AI 公司是中国团队的概率有多大？我们从今天的跟随者变成未来的引领者，这个过程到底还有哪些需要去做好？

9、姚顺雨的回答

我觉得概率还挺高的，我挺乐观的。目前看起来，任何一个事情一旦被发现，在中国就能够很快的复现，在很多局部做得更好，包括之前制造业、电动车这样的例子已经不断地发生。

我觉得可能有几个比较关键的点。

（1）中国的光刻机到底能不能突破，如果最终算力变成了瓶颈，我们能不能解决算力问题。

（2）能不能有更成熟的 To B 市场。今天我们看到很多做生产力或者做 To B 的模型和应用，还是会诞生在美国，因为支付意愿更强，文化更好。今天在国内做这个事情很难，所以大家都会选择出海或者国际化。这和算力是比较大的客观因素。

（3）更重要的是主观因素，我觉得中国想要突破新的范式或者做非常冒险事情的人可能还不够多。也就是说，有没有更多有创业精神或者冒险精神的人，真的想要去做前沿探索或者范式突破的事情。我们到底能不能引领新的范式，这可能是今天中国唯一要解决的问题，因为其他所有做的事情，无论是商业，还是产业设计，还是做工程，我们某种程度上已经比美国做得更好。

10、林俊旸的回答

这个问题是个危险的问题，理论上这个场合是不可以泼冷水的，但如果从概率上来说，我可能想说一下我感受到的中国和美国的差异。比如说，美国的 Compute（算力）可能整体比我们大1-2个数量级，但我看到不管是 OpenAI 还是什么，他们大量的算力投入到的是下一代研究当中去，我们今天相对来说捉襟见肘，光交付可能就已经占据了我们绝大部分的算力，这会是一个比较大的差异。

这可能是历史上就有的问题，创新是发生在有钱的人手里，还是穷人手里。穷人不是没机会，我们觉得这些富哥真的很浪费，他们训练了这么多东西，可能训练了很多也没什么用。但今天穷的话，比如今天所谓的算法 Infra（基础设施）联合优化的事情，如果你真的很富，就没有什么动力去做这个事情。

未来可能还有一个点，如果从软硬结合的角度，我们下一代的模型和芯片的软硬结合，是不是真的有可能做出来？

2021年，我在做大模型，阿里做芯片的同学，找我说能不能预测一下，三年之后这个模型是不是 Transformer，是不是多模态。为什么是三年呢？他说我们需要三年时间才能流片。我当时的回答是三年之后在不在阿里巴巴，我都不知道！但我今天还在阿里巴巴，它果然还是 Transformer，果然还是多模态，我非常懊悔为什么当时没有催他去做。当时我们的交流非常鸡同鸭讲，他给我讲了一大堆东西，我完全听不懂，我给他讲，他也不知道我们在做什么，就错过了这个机会。这个机会有没有可能再来一次？我们虽然是一群穷人，是不是穷则思变，创新的机会会不会发生在这里？

今天我们教育在变好，我属于90年代靠前一些的，顺雨属于90年代靠后一点的，我们团队里面有很多00后，我感觉大家的冒险精神变得越来越强。美国人天然有非常强烈的冒险精神，一个很典型的例子是当时电动车刚出来，甚至开车会意外身亡的情况下，依然会有很多富豪们都愿意去做这个事情，但在中国，我相信富豪们是不会去干这个事情的，大家会做一些很安全的事情。今天大家的冒险精神开始变得更好，中国的营商环境也在变得更好的情况下，我觉得是有可能带来一些创新的。概率没那么大，但真的有可能。

三年到五年后，最领先的 AI 公司是一家中国公司的概率，我觉得是20%吧，20%已经非常乐观了，因为真的有很多历史积淀的原因在这里。

11、唐杰的回答

首先我觉得确实要承认，无论是做研究，尤其是企业界的 AI Lab，和美国是有差距的，这是第一点。

我们做了一些开源，可能有些人觉得很兴奋，觉得中国的大模型好像已经超过美国了。其实可能真正的情况是我们的差距也许还在拉大，因为美国那边的大模型更多的还在闭源，我们是在开源上面玩了让自己感到高兴的，我们的差距并没有像我们想象的那样好像在缩小。有些地方我们可能做的还不错，我们还要承认自己面临的一些挑战和差距。

但我觉得，现在慢慢变得越来越好。

（1）90后、00后这一代，远远好过之前。一群聪明人真的敢做特别冒险的事，我觉得现在是有的，00后这一代，包括90后这一代是有的，包括俊旸、Kimi、顺雨都非常愿意冒风险来做这样的事情。

（2）咱们的环境可能更好一些，无论是国家的环境，比如说大企业和小企业之间的竞争，创业企业之间的问题，包括我们的营商环境。

（3）回到我们每个人自己身上，就是我们能不能坚持。我们能不能愿意在一条路上敢做、敢冒险，而且环境还不错。如果我们笨笨的坚持，也许走到最后的就是我们。

科技动态

1、载人飞艇

1月9日，湖北制造的载人飞艇祥云 AS700，完成了荆门至武汉往返航程。这是全国首次载人飞艇商业飞行，可能也是目前世界唯一运作的商业载人飞艇。

飞艇总长50米，最大载客量9人。由于载客量太小，不可能用作常规的交通工具，只能做一些观光飞行。

2、鼻子触控

一个英国发明家想在洗澡时使用手机，结果因为手指带水无法触控。

他灵机一动，发明了戴在鼻子上的触控笔。

它的结构很简单，就是一个石膏纤维的鼻管，里面插着一支触控笔。

这个发明看上去很有用，可以解放双手，也适合戴手套的情况和残疾人士。

3、越南禁止不可跳过的广告

越南近日颁布第342号法令，禁止不可跳过的广告，将于2026年2月15日起生效。

法令规定，视频广告的等待时间必须在5秒以内，否则观众可以选择跳过。而且，关闭方式应该是清晰简便的，禁止使用迷惑用户的虚假或模糊符号。

这明显针对 Youtube 等视频平台的片头广告。这让人第一次感到，越南互联网值得叫好。

文章

1、我所有的新代码都将闭源（英文）

作者是一个开源软件贡献者。他感到，自己的开源代码都被大模型抓取，导致仓库访问者减少，进而也没有收入，所以他后面的代码都要闭源。

2、网站的视觉回归测试（英文）

本文介绍如何使用 Playwright，对网页进行视觉测试，看看哪里出现变动。

3、我用 PostgreSQL 代替 Redis（英文）

Redis 是最常用的缓存工具，作者介绍它的痛点在哪里，怎么用 PostgreSQL 数据库替代。

4、如何用 CSS 修复水平滚动条（英文）

一篇 CSS 初级教程，介绍四个简单的技巧，让网页不会出现水平滚动条（即避免溢出）。

5、消息队列原理简介（英文）

本文是初级教程，介绍消息队列（mesage queue）的概念和作用。

6、macOS Tahoe 的圆角问题（英文）

macOS 最新版本 Tahoe 加大了圆角半径，造成调整窗口大小时经常失败。作者认为，从操作角度看，圆角面积最好超过端头的50%。

工具

1、whenwords

本周，GitHub 出现了一个奇特的库，没有一行代码，只有一个接口文档。

用户需要自己将接口文档输入大模型，并指定编程语言，生成相应的库代码再使用。

以后会不会都是这样，软件库没有代码，只有接口描述？

2、Hongdown

Markdown 文本的格式美化器，根据预设的规则，修改 Markdown 文本的风格样式。

3、VAM Seek

一个开源的网页视频播放器，会自动显示多个时点的视频缩略图，便于快速点击跳转。

4、kodbox

开源的网页文件管理器。

5、Nigate

让 Mac 电脑读写 NTFS 磁盘的开源工具。（@hoochanlon 投稿）

6、Flippy Lid

一个实验性软件，把 macbook 铰链开合作为输入，可以玩 Flippy Lid，也可以作为密码解锁。（@huanglizhuo 投稿）

7、Jumble

nostr 网络的开源 Web 客户端，专门用来浏览以 feed 内容为主的 relay 节点。（@CodyTseng 投稿）

8、Clash Kit

一个基于 Node.js 的 Clash 命令行管理工具。（@wangrongding 投稿）

9、SlideNote

开源的 Chrome 浏览器插件，在侧边栏做笔记，支持跨设备自动同步。（@maoruibin 投稿）

10、NginxPulse

开源的 Nginx 访问日志分析与可视化面板，提供实时统计、PV 过滤、IP 归属地、客户端解析。（@likaia 投稿）

AI 相关

1、Auto Paper Digest (APD)

一个 AI 应用，自动从 arXiv 抓取每周的热门 AI 论文，通过 NotebookLM 生成视频讲解，并能发布到抖音。（@brianxiadong 投稿）

2、CC Switch

一个跨平台桌面应用，一键切换 Claude Code / Codex / Gemini CLI 的底层模型，以及完成其他的管理设置。（@farion1231 投稿）

3、网易云音乐歌单 AI 分析

使用 AI 分析用户的网易云音乐歌单，进行总结。（@immotal 投稿）

资源

1、EverMsg

这个网站可以查看 BTC 区块链的 OP_RETURN 字段，该字段记录了一段文本，只要发上区块链就永远不会删除和修改。（@blueslmj 投稿）

2、DeepTime Mammalia

沉浸式 3D/2D 网页可视化项目，交互式哺乳纲演化树，探索哺乳动物2亿年的演化。（@SeanWong17 投稿）

图片

1、冰下修船

俄罗斯有一个船厂，位于北极圈附近。每年冬天，船坞都要结冰。

为了冬天也能修船，船厂会把冰层凿掉一块，露出船底。

冰层通常不会那么厚，不会结冰到船底，必须分层凿开。工人先用电锯，锯开最上层的冰层，然后等待下面的河水结冰，再用电锯向下切割，反复多次，直到船底结冰。

有时，需要凿开一条很长的冰槽。

下图是工人进入冰层下方，检修船底，由于冰下工作条件恶劣且有危险性，工人的工资都较高。

言论

我对自己的代码被大模型吸收感觉如何？

我很高兴这样，因为我把这看作是我一生努力的延续：民主化代码、系统和知识。

大模型让我们更快编写更好、更高效的软件，并让小团队有机会与大公司竞争。这和 90 年代开源软件所做的事情一样。然而，这项技术太重要，绝不能只掌握在少数公司手中。

-- Antirez，Redis 项目的创始人

2、

即使你不相信 AI，但跳过它对你和你的职业都没有帮助。

以前，你熬夜编程，看到项目顺利运行时，心潮翻滚。现在，如果你能有效利用 AI，可以建造更多更好的项目。乐趣依旧存在，未受影响。

-- Antirez，Redis 项目的创始人

3、

如果你不写作，你就是一个有限状态机。写作时，你拥有图灵机的非凡力量。

-- 曼纽尔·布卢姆（Manuel Blum），图灵奖得主

4、

人们陷入困境有三个主要原因：（1）行动力不足，（2）行动方向错误，（3）等待天上掉馅饼（幻想问题会缓解而拒绝采取行动）。

-- 《当你想摆脱困境》

往年回顾

年终笔记四则（#334）

YouTube 有多少个视频？（#284）

AI 聊天有多强？（#234）

政府的存储需求有多大？（#184）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年1月16日

科技爱好者周刊（第 380 期）：为什么人们拥抱"不对称收益"

阮一峰的网络日志

9 January 2026 at 08:11

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

中法合作的一个艺术项目《挑战第841次》，让路过的行人在黄浦江边的一个玻璃亭子里，弹奏法国作曲家的一个钢琴作品。（via）

为什么人们拥抱"不对称收益"

前两周，我跟大家说，美国现在最流行"预测市场"。我当时没有统计数字，现在有了。

2025年11月，美国前两大预测市场---- Polymarket 和 Kalshi ---- 一共成交了超过100亿美元。

看这个数字，大家可能没感觉。作为对比，美国全国的体育彩票，2024年的销售额是137亿美元。

这就是说，预测市场一个月的交易量，接近了体育彩票全年的销售额。要知道，这两个网站6年前都还不存在！

这么恐怖的增长速度，难怪美国各大公司现在都想挤入这个市场，分一杯羹。

预测市场就是变相的网络彩票，它的火爆只能说明一件事情，美国正出现疯狂的"彩票热"。

本周，我看到一篇文章（上图），一位风险投资家分析这个现象。我想分享他的观点，他认为，预测市场火爆的根本原因，是社会心态的焦虑和绝望。

（1）财富转移机制失效了，通过正常工作致富，越来越不可能。工资的增长速度，低于消费的增长速度，个人债务正在变多。

虽然资产的价格（比如股票、黄金、房产）也在上涨，但只是让那些拥有资产的人受益，对于没有这些资产的穷人，只是变得更贫穷。

（2）传统的人生模式也失效了。以前的模式是，找一家大公司，每天按时上班，努力工作，对公司忠心耿耿，坚持多年就会得到回报。你会收到公司的奖励，退休后还有养老金。

这种模式现在行不通了。公司的经营短期化，能存活20年的公司并不多，更不要说你的岗位了。一旦失去现在的工作，再次就业非常困难，以前的工作经验很可能用处不大。

（3）AI 的出现，加剧了前两种情况的发展速度。AI 让一切加速了，压缩了时间。以前，你有五年的时间奋斗，AI 让你感到必须在一年里拿到结果，否则就可能为时已晚。

（4）社交媒体则使得人们永远不会对现状满意。

以前，你的参照群体只是周围人群，现在的参照群体是全世界。你每天看到的都是收入高、赚钱容易、生活优渥的人群，永远会让你感到自己的生活不够好，而无论你已经取得了怎样的成就。

（5）结果就是，越来越多的人失去了耐心，不再相信长期投入，不再幻想长期的劳动积累会通往圆满的人生，社会也不奖励耐心。

为什么要苦苦奋斗20年，去争取10年后可能根本不存在的晋升机会？我要的是一条快速的道路，摆脱日常生活的困境，而且越快越好。

（6）这种心态下，人们的风险偏好发生了变化。为了快速摆脱困境，在风险更大的选项上放手一搏，成了合理的选择。

即使只有5%的希望，也比100%的停滞不前更有吸引力。这就是彩票在贫困社区更畅销的原因。

这在经济学上称为"不对称收益"（asymmetric returns），就是风险和收益不对称。失败的可能性很大，但只会损失一小笔钱，成功的可能性很小，但是一旦成功，就会获得巨大收益，简单说就是"小亏大赚"。

追求不对称收益，已经成了一种普遍的心态。它推动了前几年的加密货币和 NFT 的热潮，现在又推动了预测市场。

可以确定，凡是能够产生"不对称收益"的事情，今后都会迅速成为热点。

新人上手 Claude Code 的简单方案

AI 编程工具，我用的是 Claude Code。以前推荐过，非常好用，功能很强。

我现在依然这样认为，但是必须说，Claude Code 不适合所有人，有使用门槛。

它要求用户熟悉命令行，而且 Windows 安装不方便，需要启用 Linux 子系统 WSL。另外，如果在外面，没有自己的计算机，临时想用一下，也很麻烦。

元旦的时候，我在广东听说，有人做了"云端 Claude Code 客户端"，解决了这些痛点，就很感兴趣。

他们团队叫做 302.AI，我以前就有接触。他们做云端服务很多年了，现在专注于 AI 模型接入。大家可以去官网看一下，用他们的 API 能够接入几乎所有主流模型，数量有几百个。

他们跟我一样，也感到 Claude Code 的诸多不便，就想能不能再开发一个它的客户端，封装所有复杂性，提供最好用的 AI 编程体验。

（1）跨平台桌面应用。他们提供 Win/Mac/Linux 安装程序，通过桌面窗口去使用云端的 Claude Code。

（2）零配置的云端沙盒。云端的 Claude Code 预装在一个沙盒里，集成了 Node.js、Python、Git、CMake、build-essential 等开发工具，不需要任何本地环境配置，开箱即用。

同时，沙盒也保障了安全，跟本地电脑是隔离的，AI 就不会误删本地文件。

（3）对话界面。对于不习惯命令行的用户，他们提供对话式交互界面（Chat UI），以聊天方式完成编程。

（4）随意更换模型。Claude Code 更换底层模型，需要配置环境变量，他们的客户端不需要这么麻烦，只需要鼠标选中即可。

你可以直接用他们的 API，也可以配置自己的 API Key。

（5）一键部署。他们还提供了部署功能，AI 生成的结果可以一键发布到公网，直接访问，无需购买服务器或配置域名。

可以说，这个方案完全针对 Claude Code 的各种痛点，目标是打造新手最容易上手的 Vibe Coding 工具。

感兴趣的朋友可以去 studio.302.ai 下载，体验一下。（提醒：使用前需要注册/登录 302.AI 账号。）

科技动态

1、乔布斯写的程序

乔布斯创立苹果公司之前，当过短时间的程序员。1975年，他20岁，从大学退学后，进入雅达利公司写电子游戏。

人们一直不知道，他的编程水平如何，现在终于曝光了。

本周，乔布斯的一些个人档案公开拍卖，其中就有当年他写的程序，打印纸上还有他的亲笔注释。

有人把这个程序还原出来，放到虚拟机上跑，终于让我们看到了乔布斯的软件作品。

这个程序叫做 AstroChart，跟星座有关。用户提供出生的时间地点，它会显示太阳系主要天体的位置。

从代码来看，乔布斯的编程水平可以，他使用三角函数计算行星位置，并且绕过当年硬件没有双精度浮点数的限制，用整数除法代替。

2、世界最大电动船

澳大利亚建造了世界最大的电力轮船，长度130米，里面的电池重达250吨。

这艘船将用作阿根廷与乌拉圭之间的轮渡，可以搭载多达2100名乘客和225辆汽车。

这艘船不仅是史上最大的电动船，可能也是史上最大的电动装置，一次可以携带超过4万度电。

3、最高过山车

2025年的最后一天，沙特阿拉伯在距离首都利雅得40分钟车程的地方，开张了一个乐园。

这个乐园有27个游乐设施，很多都是世界之最，其中就有目前世界最高的过山车。

这个过山车高达195米，相当于60层楼，比先前的世界纪录高出了55米。

整个过山车的长度是4.2公里，最高速度可以达到240公里/小时，全程只有3分多钟。

网上有很多这个过山车的视频，不要说坐在车上，就是看视频都觉得惊心动魄。

文章

1、2025年大模型回顾（英文）

西蒙·威利森（Simon Willison）的 AI 年度回顾，过去一年的大事件基本都提及了，总结和评点得非常好，推荐阅读。

2、华为的 5nm 制程怎么样？（英文）

这是一家美国技术媒体对华为麒麟9030芯片（搭载于最新的 Mate 80 手机）的分析文章。

该文认为，该芯片比早先的 7nm 制程有提升，是大陆制造的最先进芯片，但从跑分看，还没达到台积电的 5nm 水平。文章有中文版。

3、Opus 4.5 将会改变一切（英文）

作者不相信 AI 会取代程序员，直到遇到 Anthropic 公司的 Opus 4.5 模型。本文是他的4个项目的编程体会，他现在确信程序员会被替代。

4、HTTP caching, a refresher（英文）

对于 HTTP 缓存机制的一个总体介绍，梳理浏览器缓存的处理逻辑。

5、Vitest 的浏览器模式介绍（英文）

JS 测试框架 Vitest 4.0 引入了浏览器模式，可以进行浏览器自动化，类似于 Playwright，进行 UI 测试，本文是一个简单介绍。

6、如何提高 JS 数组的读写速度（英文）

一篇 JavaScript 中级教程，介绍通过为 JS 数组分配连续内存，提高数组的读写速度。

工具

1、ZenOps

一个命令行工具，在本地终端里查询阿里云/腾讯云等云平台的运行数据，并提供钉钉、飞书、企微机器人，进行自然语言查询。（@eryajf 投稿）

2、白虎面板

轻量级的服务器定时任务管理系统，适合低配置的服务器。（@engigu 投稿）

3、OnlinePlayer

一个网页播放器，可以播放本地视频和云盘视频。（@13068240601 投稿）

4、gitstats

命令行工具，生成 Git 仓库的统计数据。（@shenxianpeng 投稿）

5、云图

一个极简风格的图床，可以搭建到自己的 NAS，提供灵活的 API。（@qazzxxx 投稿）

6、KeyStats

开源的 macOS 小工具，对按键行为进行统计。（@debugtheworldbot 投稿）

7、py2dist

这个工具可以将 Python 脚本编译成二进制模块，方便隐藏源码。（@xxnuo 投稿）

8、Stream Panel

Chrome 浏览器开发者工具的一个扩展，用来调试服务器发送事件 (SSE) 和 Fetch 的流式连接。（@bywwcnll 投稿）

9、Zedis

Redis 的图形客户端，跨平台的桌面应用，不使用 Electron，而是使用 Rust + GPUI，性能更好。（@vicanso 投稿）

10、QDav

这个网站可以为夸克网盘加入 WebDAV 协议，从而挂载到网盘播放器来播放夸克网盘的视频。（@ZhouCai-bo 投稿）

11、XApi

开源的 Chrome 浏览器插件，自动捕获当前网页的 Fetch 与 XHR 网络请求，支持改写 Cookie、Origin、Referer 字段，方便开发调试。（@lustan 投稿）

12、PDFCraft

纯浏览器的 PDF 开源工具集，目前有80多个工具。（@pccprint 投稿）

AI 相关

1、Open-AutoGLM

智源公司的开源安卓应用，使用自然语言，让 AI 操作手机，进行手机自动化，可以接入各种模型，无需电脑端。（@Luokavin 投稿）

2、Claude-Ally-Health

一个基于 Claude Code 的个人医疗数据中心，定义了一组自己的命令和技能，用 AI 分析个人医疗数据（体检报告、影像片子、处方单、出院小结）。（@huifer 投稿）

3、灵猫

免费的 AI 图片去水印网站，但只是去除视觉水印，嵌入的数字水印还在。（@pangxiaobin 投稿）

4、DeepDiagram AI

开源的 AI 应用，用自然语言驱动内置的 mermaid、echarts、mindmap、Draw.io 等绘图工具生成图表。（@twwch 投稿）

资源

1、100万首页截图

这个网站收集了100万个热门网站的首页截图，将它们做在一个页面，可以放大查看。

2、Emulator Gamer

各种老游戏机的经典游戏，通过模拟器免费在线游玩。（@SinanWang 投稿）

图片

1、如今的 Mozilla

Mozilla 浏览器的新任 CEO 宣称，公司的发展方向是 AI 浏览器。

这让 Mozilla 社区感到担忧，因为没人是为了 AI 而使用它。一位使用者就画了下面这张图。

Mozilla 的吉祥物----一只小狐狸拿着锯子，把自己正坐着的树枝锯断，旁边还有一只鸟，为它递上更锋利的电动锯子，上面写着"AI"。

这张图比喻 Mozilla 一直在自寻死路，全力转向 AI 只会死得更快。

文摘

1、外卖应用的秘密

我是一个大型外卖应用的开发者，受一项严格的保密协议约束。但是，我已经不在乎了，我昨天向公司递交了离职报告。

说实话，我希望公司能起诉我，这样一来，这些事情就会曝光。

我已经消极工作大约八个月了，只是看着代码被推送到生产环境。一想到自己参与了这台机器，我夜里都睡不着。

人们总怀疑算法对用户不利，现实比这更糟。我是一名后端工程师，每周参加产品会议，产品经理（PM）讨论如何才能挤出额外0.4%的利润，他们把用户当成有待开发的资源。

公司有一个"优先配送"服务，你多付2.99美元，就可以更快拿到外卖。这完全是个骗局，根本没有加快派送的速度，而是人为把非优先订单延迟5到10分钟，让你感觉优先订单更快。我们仅仅通过让标准服务变差，就赚取了数百万美元的纯利润，而不是真正改善服务。

最让我恶心的是"绝望分数"，这是一个隐藏的外送员指标，根据外送员的行为判断他们多想赚钱。

如果外送员在晚上10点登录系统，毫不犹豫地立即接下每一个3美元的垃圾订单，算法会将他们标记为"高度绝望"。一旦被标记，系统就会停止向他们显示高价订单，理由是"既然我们知道他绝望到愿意接受3美元，为什么还要让他看到15美元的订单呢？"。系统把高价订单留给"休闲"外送员，即那些不愿接低价单的外送员，吸引他们接单，而全职外送员则被碾压成尘埃。

公司还会从用户的账单扣除一笔1.50美元的"外送员福利费"，这个名字让用户感觉在帮助外送员。实际上，这笔钱流入了游说反对外送员成立工会的基金，这是公司用于"政策防御"的费用。用户实际上是在为那些高端律师付费，那些律师为削弱外送员的权益而工作。

最后，虽然公司不再从外送员的小费里面提成，因为被起诉过，但是使用其他方法窃取小费。

如果算法预测你是"可能支付小费的用户"，而且你很可能会给10美元小费，那么公司只会给外送员可怜的2美元基本派送费。如果你给了0美元小费，公司会给外送员8美元的基本派送费。结果是用户的小费并没有奖励外送员，而是在补贴公司。用户给外送员付工资，这样我们就不用付了。

言论

1、

在美国东海岸（纽约和华盛顿），人们会问："中国是否就要失败了"，而在西海岸（洛杉矶和旧金山），人们更倾向于问："万一中国成功了会怎样？"

这一定程度上反映了硅谷的特点：更注重收益最大化，而非风险最小化。东海岸的问题也值得认真对待，但过分关注中国是否失败，会助长一种美国无需做出任何改变就能击败对手的论调，从而削弱美国改革的紧迫性。

-- Dan Wang《2025年度信件》

2、

如果美国或中国在某个方面落后太多，落后者就会奋起直追。这将是未来数年甚至数十年世界变化的动力。

-- Dan Wang《2025年度信件》

3、

程序员对待 AI 有两种态度：一种以结果为导向，渴望通过 AI 更快拿到结果；另一种以过程为导向，他们从工程本身获得意义，对于被剥夺这种体验感到不满。

-- Ben Werdmuller

4、

AI 数据中心的建设热潮，导致内存价格暴涨，进而产生一系列连锁反应。

手机和电脑厂商别无选择，只能提价。我们估计，2026年全球的手机市场和电脑市场都会萎缩。手机萎缩2.9%到5.2%，电脑萎缩4.9%到8.9%。

-- IDC 公司的预测

5、

eSIM 手机卡一旦更换就可能失效，相比之下，实体 SIM 卡可以随意插上插下，几乎不会出现故障。推广 eSIM 的后果就是，手机号丢失的事件会大大增多。

-- 《我后悔使用 eSIM》

往年回顾

一切都要支付两次（#333）

没有目的地，向前走（#283）

生活就像一个鱼缸（#233）

腾讯的员工退休福利（#183）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年1月 9日

科技爱好者周刊（第 379 期）：《硅谷钢铁侠》摘录

阮一峰的网络日志

26 December 2025 at 07:51

这里记录每周值得分享的科技内容，周五发布。（[通知] 下周元旦假期，周刊休息。）

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

哈尔滨19米大雪人，完工之前的样子。（via cgtn@instagram）

《硅谷钢铁侠》摘录

最近，我读了一本十年前的马斯克传记《硅谷钢铁侠》（中信出版社，2016）。

按理说，这本书已经过时了，这十年马斯克发生太多事情了。

我是睡觉前随手拿起来，翻了几页，看得津津有味，就读完了。

这本是马斯克的授权传记，他本人亲自接受了采访，还挺有料的。而且，因为我已经知道后续的发展，所以读到十年前的采访，反而有更多启发。

他的人生确实传奇，白手起家，家里给的最大帮助就是从南非移民到加拿大，后面都是自己奋斗出来的。

他创立了 Paypal，然后把卖掉它的钱拿来又创办了三家公司：特斯拉、SpaceX 和 SolarCity。

这太疯狂了，他一个外行同时进入了三个不同的行业----电动汽车、宇宙航天和太阳能----这些行业都刚萌芽，没有任何个人创业成功的先例。

更疯狂的是，他居然把这三家公司都做成了，而且都做到了世界第一（SolarCity 后并入特斯拉），他也因此变成了世界首富，你说神奇不神奇。

读完全书，我的最大感受是，还是要动手做事，没准真能做成。想他人不敢想，做他人不敢做。即使最狂野的梦想，只要全心投入，用力去做，也是有可能成功的。

下面就是我的一点摘录。

（1）

特斯拉最艰难的时候，非常接近于破产倒闭。

马斯克对外宣传，特斯拉是一家汽车公司，但实际上，他们只是一群年轻人租了一间大厂房，更像是在捣鼓汽车的大型实验室。

（2）

马斯克非常不理解，为什么有人设计了车灯开关。

他说："真是多此一举。天黑时车灯自动打开，就这么简单。"

（3）

特斯拉的第一版设计稿，因为设计师没想好门把手的形状，就没画上去。

没想到马斯克很喜欢这个没有门把手的车型，就决定门把手应该在有需要的时候自动弹出。

（4）

马斯克认为，未来会有人口危机，主张多生孩子。

他认真考虑了，怎么在特斯拉后排安装婴儿座椅。传统的车门设计，使得把婴儿座椅和小孩安置在后排非常不方便，所以特斯特的车门设计采用了"鹰翼门"。

（5）

特斯拉的第一款车型是跑车，但没有大量生产。真正大量生产的第一款车型是 Model S，最初的名字是 Model Sedan。

Sedan 这个词的意思就是轿车，用来跟跑车相区别。但是马斯克认为这个词太平淡了。英国人习惯称轿车为 Saloon，这听上一样不伦不类。最后，就索性只保留第一个字母，称为 Model S。

（6）

马斯克对员工的要求是，全情投入你的工作，并把事情搞定。

不要等待上级的指导和详细指示，也不要等待别人的反馈意见，你要主动想办法把工作完成。

（7）

他认为，一个人独立工作，是最佳的工作状态。

一个人不需要开会、不需要与谁达成共识，也不需要在项目中帮助其他人。你一个人就可以持续地工作、工作、再工作。

（8）

特斯拉员工最害怕的事情，就是向马斯克申请额外的时间或者经费。

你一定要事先做好详细准备，跟他解释为什么必须招更多的人，以及需要追加的时间和资金预算。如果有招聘目标，还要准备那个人的简历。

（9）

如果你一上来就告诉马斯克，某件事情做不了，他会马上把你轰出办公室，甚至可能当场解雇你。

在马斯克看来，某件事办不成的唯一原因，就是违背了基本的物理原理。但是即使这样，你也必须做足了功课，深入每一个技术环节，向他解释为什么行不通。

（10）

马斯克要求员工，项目没完成之前，周六和周日依然要努力工作，并睡在桌子底下。

有些人反对，表示员工也需要休息，有时间陪陪家人。

马斯克说："我们破产之后，你们会有大量时间陪家人。"

（11）

马斯克有自己计算时间价值的方法。他预期10年后，公司的日营收可以达到1000万美元，所以进度每拖延一天，就相当于多损失1000万美元。

（12）

马斯克的根本想法是改变这个世界，他总是喜欢谈论人类的生存问题。

早在他开始创业的时候，就已经得出了结论，那就是生命是短暂的。如果你真的意识到这一点，你就会知道，活着的时候工作越努力越好。

科技动态

1、黑色圣诞卡

爱沙尼亚交通警察向800多名危险驾驶者，寄送了黑色圣诞卡，提醒他们新的一年必须安全驾驶。

这些人都是过去违反交通规则的司机，最常见的问题是超速和不系安全带。

圣诞卡上是一起交通事故的现场，黑漆漆的深夜，天空中有明亮的月亮，公路上有交通事故后的车辆残骸，远处还有车灯的亮光。

一个有趣的统计是，虽然人们常说女司机是"马路杀手"，但是这800多个危险驾驶者里面，只有33名女性。

2、2025全球互联网报告

世界最大 CDN 服务商 Cloudflare，发布了《2025全球互联网报告》，公布了它的统计数据。

2025年，全球互联网流量上升19%，由于网民数量基本没变，所以多出来的流量来自 AI 爬虫。

流量最大的前10大互联网服务：谷歌、脸书、苹果......

移动流量中，苹果设备占35%，安卓设备占65%。

浏览器排行是，Chrome 66%，Safari 15.4%，Edge 7.4%。

3、违停巡逻车

上海警方启用无人驾驶的违章停车巡逻车。

这辆小车自动在马路上巡逻，对路面进行抓拍。

一旦发现违停车辆，它就会识别车牌，将其上传警务系统，系统后台会发送提醒短信给车主，要求在12分钟内驶离。

12分钟后，小车就会返回点位进行检查，将相关信息回传后台，并经民警审核后开罚单。

据报道，12月18日一天，它共发现违停车辆119辆次。

4、室内过山车

一家瑞典的创意工作室，在他们的办公室建造了世界唯一的室内过山车。

这个过山车途径办公室的各个角落，总长60米，最高的地方距离地面有3米。

坐上这个过山车，你就能游览一圈办公室，看到同事们在干什么。

工作室负责人说，建造它的目的是"促进员工之间的互动，以及打破常规，培养创造力。"

文章

1、分布式架构的演化（英文）

本文将分布式架构分成三种：P2P、联邦式（比如 Mastodon）、中继式（比如 Nostr）。作者认为，对于大型分布式应用，中继式架构才是未来方向。

2、什么是 GitHub 自托管 Runner？（中文）

GitHub Actions 有一个 self-hosted runner 功能，让 action 运行在你自己的服务器。本文详细介绍它的概念、原理，并结合案例进行实践。（@luhuadong 投稿）

3、CSS Grid Lanes 布局（英文）

浏览器开始支持 CSS 的 Grid Lanes 布局了，大大方便了瀑布流的实现。

4、6502 指令集适用汇编语言初学者（英文）

6502 是一块诞生于1975年的 CPU，很多早期电脑（比如 Apple II）都使用它。作者解释，为什么你应该用它，作为学习汇编语言的第一个指令集。

5、你应该多用/tmp目录（英文）

作者提出，Linux 系统的/tmp目录用起来很方便，完全可以把它当作自己的临时性目录。

6、中国的清洁能源战略（英文）

《纽约时报》驻华记者的长文，体验当代中国的生活，比如无人驾驶、无人机送餐，他说"感觉像生活在未来"。

工具

1、MADOLA

一种新的数学脚本语言，像编程一样写数学公式，可以编译成 HTML 格式作为文档，也可以编译成 C++ 或 WebAssembly 直接运行。（@AI4Engr 投稿）

2、CattoPic

一个基于 Cloudflare Worker 的图片托管服务，将图片上传到 Cloudflare 进行推过，支持自动格式转换、标签管理。（@Yuri-NagaSaki 投稿）

3、termdev

直接在终端，通过连接 Chrome Devtool 调试网页。（@taotao7 投稿）

4、tui-banner

为 Rust 语言的命令行项目添加一个横幅图案。（@coolbeevip 投稿）

5、Alertivity

macOS 菜单栏的资源监控工具，监控 CPU、内存、磁盘、网络和进程活动。（@nobbbbby 投稿）

6、cpp‑linter

C/C++ 代码的静态检查工具，可以接入 CI/CD 流程，简化代码质量管理。（@shenxianpeng 投稿）

7、Rote

开源的 Web 笔记软件，需要自己架设。（@Rabithua 投稿）

8、Infographic

JS 的数据可视化框架，用于在网页生成各种信息图，内置200多种模板。（@Aarebecca 投稿）

9、Clock Dashboard

天气时钟看板，适合老旧的电子设备再利用。（@teojs 投稿）

10、离线版问卷

开源 Web 应用，用来设计和托管调查问卷/报名表。（@chenbz777 投稿）

11、Xget

基于边缘计算（如 Cloudflare Workers/Vercel/Netlify）的加速引擎，可以加速程序员网站的访问速度，比如将github.com域名替换成xget.xi-xu.me/gh。（@xixu-me 投稿）

12、BoxLite

一个 Python 库，可以在脚本中运行一个微型虚拟机，提供硬件隔离。（@DorianZheng 投稿）

13、Green Wall

生成你的 GitHub 年度报告。（@Codennnn 投稿）

14、edge-next-starter

面向出海项目的 Next.js + Cloudflare 全栈项目模板，集成 Edge Runtime、D1 数据库、R2 存储。（@TangSY 投稿）

AI 相关

1、Chaterm

带有 AI 功能的智能终端工具，可以用自然语言完成命令行操作。（@zhouyu123666 投稿）

2、miniCC

网友开发的 AI 编程工具 Claude Code 替代品，主要用于学习目的。（@Disdjj 投稿）

3、Android Trans Tool Plus

一个开源的纯前端应用，通过 AI 翻译安卓资源文件，支持多语言同步、差异校验。（@huanfeng 投稿）

4、octopus

个人用户的大模型 API 聚合工具，支持接入多个模型供应商，提供负载均衡、分组名称、使用量统计等功能。（@bestruirui 投稿）

5、Vexor

一个 Python 工具，对当前目录的文件进行向量嵌入，用来语义搜索。（@scarletkc 投稿）

6、Tada

开源的任务管理应用，带有 AI 总结功能。（@Leaomato 投稿）

资源

1、大模型原理（英文）

一篇相对好懂的大模型原理解释，文章不长，并且还有大量的互动图形，写得非常好，推荐阅读。

2、编程语言速度比较

这个网站使用不同的计算机语言，通过莱布尼茨公式计算 π 值，然后给出运行速度的排名，最快是 C++（clang++），最慢是 Python （CPython）。

3、更好的 ZIP 炸弹

这个网页提供三个 ZIP 炸弹文件的下载，其中最小一个只有 42KB，但是解压后的大小是 5.5GB。

图片

1、2025年最佳科学图片

《自然》杂志评选的一组2025年最佳科学图片。

两只争夺领地的青蛙。

南非废弃天文台长出的蘑菇。

2、帽子，乌龟和幽灵

2022年，一个业余数学家 David Smith 发现了一个有点像帽子的奇特形状。

这个形状的奇特之处在于，它可以无限不重复地铺满整个空间，且不形成周期性的重复图案。

不久后，他又发现了两种稍加变化的形状，称为乌龟和幽灵，也可以不重复地平铺平面。

下面就是这三种形状各自平铺的图案。

言论

1、

我使用氛围编程会感到疲惫，AI 生成代码的速度太快了，我的大脑跟不上，无法及时完成代码验收或审查。我必须休息一段时间，才能重新开始。

-- 《氛围编程疲劳》

2、

制造汽车是非常困难的一件事。一辆车大约有3万个独立零部件，公司可能只会采购3000个，因为像车头灯这样的部件，是作为一个整体采购的，但它实际上包含很多组件。

里面的二级、三级、四级供应商提供的零部件，任何一个出现问题都可能导致整车的问题。

-- 汽车创业公司 Rivian 的 CEO 专访

3、

数码世界的现状是，很多人（尤其是大多数老年人）已经放弃了抵抗，任由电子设备将他们带到任何地方。

因为一旦你想搞清楚电子设备的运作，就会发现，在便利的幌子下，一切都充满了敌意，暗箱操作无处不在，不可能完全理清。你想从它们手中夺回个人数据和隐私会非常艰苦，而且注定失败，最终只会带来更大的挫败感。

-- 《一切并非必然》

4、

现在的学生拥有前所未有的优质教育资源，但他们却陷入成千上万种选择中不知该学什么、该用什么资源的困境。拥有资源并不意味着就能找到方向。

-- 《不要关闭你的大脑》

5、

危险并非来自中国的崛起，而是美国的思维模式。如果把科学视为零和博弈，那么每一项中国专利看起来都像是美国的损失。但创意是非竞争性的：中国的科研突破不会让美国人变穷，而是会让世界变得更富有。多极化的科学世界意味着更快的增长、更大的财富和加速的技术进步。

-- 《中国的创新》

往年回顾

西蒙·威利森的年终总结，梁文锋的访谈（#332）

电动皮卡 Cybertruck 的 48V 供电（#282）

好用的平面设计软件（#232）

新人优惠的风险（#182）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2025年12月26日

我如何用 AI 处理历史遗留代码：MiniMax M2.1 升级体验

阮一峰的网络日志

23 December 2025 at 19:28

一、

最近，我写了好几篇 AI 教程，就收到留言，要我谈谈我自己的 AI 编程。

今天就来分享我的 AI 编程，也就是大家说的"氛围编程"（vibe coding）。

声明一下，我只是 AI 初级用户，不是高手。除了不想藏私，更多是为了抛砖引玉，跟大家交流。

二、

平时，我很少用 AI 生成新项目。因为每次看 AI 产出的代码，我总觉得那是别人的代码，不是我的。

如果整个项目都用 AI 生成，潜意识里，我感觉不到那是自己的项目。我的习惯是，更愿意自己写新项目的主体代码。

我主要把 AI 用在别人的项目和历史遗留代码，这可以避免读懂他人代码的巨大时间成本。

就拿历史遗留代码为例，（1）很多时候没有足够的文档，也没有作者的说明，（2）技术栈和工具库都过时了，读懂代码还要翻找以前的标准，（3）最极端的情况下，只有构建产物，没有源代码，根本无法着手。

AI 简直就是这类代码的救星，再古老的代码，它都能读懂和修改，甚至还能对构建产物进行逆向工程。

下面就是我怎么用 AI 处理历史遗留代码，平时我基本就是这样来 AI 编程。

三、

我的 AI 编程工具是 Claude Code。因为命令行对我更方便，也容易跟其他工具集成。

我使用的 AI 模型，大部分时间是国产的 MiniMax M2。我测过它的功能，相当不错，能够满足需要，它的排名也很靠前。

另外，它有包月价（29元人民币），属于最便宜的编程模型之一，可以放心大量使用，反复试错。要是改用大家都趋之若鹜的 Claude 系列模型，20美元的 Pro 套餐不够用，200美元的 Max 套餐又太贵。

MiniMax 接入 Claude Code 的方法，参考我的这篇教程。

四、

就在我写这篇文章的时候，MiniMax 本周进行了一次大升级，M2 模型升级到了 M2.1。

因为跟自己相关，我特别关注这次升级。

根据官方的发布声明，这次升级特别加强了"多语言编程能力"，对于常用编程语言（Rust、Java、Golang、C++、Kotlin、Objective-C、TypeScript、JavaScript 等）有专门强化。

它的 WebDev 与 AppDev 开发能力因此有大幅提升，可以用来开发复杂的 Web 应用和 Android/iOS 的原生 App。

"在软件工程相关场景的核心榜单上，MiniMax M2.1 相比于 M2 有了显著的提升，尤其是在多语言场景上，超过 Claude Sonnet 4.5 和 Gemini 3 Pro，并接近 Claude Opus 4.5。"

根据上面这段介绍，它的编程能力，超出或接近了国外旗舰模型。

这个模型已经上线了，现在就能用。那么，这篇文章正好测一下，官方的介绍是否准确，它的 Web 开发能力到底有没有变强。

至于价格，跟原来一样。但是，官方表示"响应速度显著提升，Token 消耗明显下降"，也算变相降价了。

M2.1 接入 Claude Code，我的参数如下。

五、

我这次选择的历史遗留项目是 wechat-format，一个 Web 应用，将 Markdown 文本转为微信公众号的样式。

上图左侧的文本框输入 Markdown 文本，右侧立刻显示自动渲染的结果，可以直接复制到微信公众号的编辑器。

它非常好用，大家可以去试试看。我的公众号现在就用它做排版，效果不错（下图）。

问题是，原作者六年前就放弃了，这个项目不再更新了。我看过源码，它用的是老版本的 Vue.js 和 CodeMirror 编辑器，没有任何文档和说明，还经过了编译工具的处理，注释都删掉了。

如果不熟悉它的技术栈，想要修改这些代码是很困难的，可能要投入大量时间。

那么废话少说，直接让 AI 上场，把这些代码交给 MiniMax M2.1 模型。

六、

接手老项目的第一步，是对项目进行一个总体的了解。

我首先会让 AI 生成项目概述。大家可以跟着一起做，跟我的结果相对照。


# 克隆代码库
$ git clone git@github.com:ruanyf/wechat-format.git

# 进入项目目录
$ cd wechat-format

# 启动 Claude Code
$ claude-minimax

上面的claude-minimax是我的自定义命令，用来在 Claude Code 里面调用 MiniMax 模型（参见教程）。

输入"生成这个仓库的概述"。

AI 很快就给出了详细说明，包括项目的总体介绍、核心功能、技术栈和文件结构（下图）。

有了总体了解以后，我会让 AI 解释主要脚本文件的代码。

【提示词】解释 index.html 文件的代码

它会给出代码结构和页面布局（上图），然后是 JS 脚本加载顺序和 Vue 应用逻辑，甚至包括了流程图（下图），这可是我没想到的。

做完这一步，代码库的大致情况应该就相当了解了，而 AI 花费的时间不到一分钟。

七、

既然这个模型号称有"多语言编程能力"，我就让它把项目语言从 JavaScript 改成 TypeScript。

对于很多老项目来说，这也是常见需求，难度不低。

它先制定了迁移计划，然后生成了 tsconfig.json 和 types.d.ts，并逐个将 JS 文件转为对应的 TS 文件（下图）。

修改完成后，它试着运行这个应用，发现有报错（下图），于是又逐个解决错误。

最终，迁移完成，它给出了任务总结（下图）。

我在浏览器运行这个应用，遇到了两个报错：CodeMirror 和 FuriganaMD 未定义。

我把报错信息提交给模型，它很快修改了代码，这次就顺利在浏览器跑起来了。

至此，这个多年前的 JavaScript 应用就成功改成了 TypeScript 应用，并且所有内部对象都有了完整的类型定义。

你还可以接着添加单元测试，这里就省略了。

八、

简单的测试就到此为止，我目前的 AI 编程大概就到这个程度，用 AI 来解释和修改代码。我也建议大家，以后遇到历史遗留代码，一律先交给 AI。

虽然这个测试比较简单，不足以考验 MiniMax M2.1 的能力上限，但如果人工来做上面这些事情，可能一个工作日还搞不定，但是它只需要十几分钟。

总体上，我对它的表现比较满意。大家都看到了，我的提示词很简单，就是一句话，但是它正确理解了意图，如果一次没有成功，最多再修改一两次就正确了。

而且，就像发布说明说的一样，它运行速度很快，思考过程和生成过程最多也就两三分钟，不像有的模型要等很久。

另外，不管什么操作，它都会给出详细的讲解和代码注释。

总之，就我测试的情况来看，这个模型的 Web 开发能力确实很不错，可以用于实际工作。

最后，说一点题外话。著名开发者 Simon Willison 最近说，评测大模型越来越困难，"我识别不出两个模型之间的实质性差异"，因为主流的新模型都已经足够强大，足以解决常见任务，只有不断升级评测的难度，才能测出它们的强弱。

这意味着，对于普通程序员的常见编程任务，不同模型不会构成重大差异，没必要迷信国外的旗舰模型，国产模型就很好用。

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2025年12月23日

科技爱好者周刊（第 378 期）：预测是新的互联网热点

阮一峰的网络日志

19 December 2025 at 08:06

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

武汉首座电梯升降桥最近建成开放。因为上游有船厂，所以大桥有四根巨大的电梯柱，用来升起桥面，让船通过。（via）

预测是新的互联网热点

大家大概想不到，美国互联网的热点，现在不是 AI 网站，而是一种全新的网站，叫做"预测市场"（prediction market）。

这类网站像雨后春笋一样，每天都在冒出来。最有名的预测市场，目前是 PolyMarket。

预测市场的用途，就是预测各种各样的事情。以 PolyMarket 为例，首页顶部就是各种预测的分类。

热门事件、突发事件、最新预测、政治、体育......

只要是你能想到的事情，它都提供预测。

以上周末为例，首页热门预测如下（上图）。

《时代》杂志的年度人物是谁？

《时代》杂志年度人物名单会泄露吗？

美联储一月份的决定是什么？

OpenAI 下一次的大模型发布是哪一天？

你随便选一个，点进去就能看到，各种情况的概率。

上图预测的是，2025年12月5日至12日期间，马斯克会发多少条推文。

可以看到，概率最高的情况是440条～450条，概率33%，概率最低的情况是400条～419条，概率1%。

正是因为对于几乎任何问题，它都有实时的详细预测，美国人现在已经不怎么看民调了，改成看这种预测网站了。因为民调的抽样方法和样本大小，总是有局限的，反而是预测网站更反映市场的真实看法。

你可能会问，这些预测结果怎么产生？如何确保准确？

答案很简单，结果来自于用户的下注。

你看好哪一种情况，就可以对它下注。看好的人多，这种情况对应的概率就会上升，反之下降。

实质上，它的每一个预测都是一支股票，股价就是它的概率，1%的概率就是股价0.01元，100%的概率就是股价1元。

举例来说，某种情况的当前概率是2%，那么相当于0.02元。你看好这种情况，假定就花了100元买入。

结果，正如你的预测，它变成了现实，概率上升为100%，价格就变成了1元，相比你的买入价，整整上涨了50倍。于是，你投入的100元就变成了5000元。

反之，你预测错了，这个结果没有实现，概率变为0%，也就是0元，你投入的100元将一分都收不回来。

最近，美国的一条热门新闻就是，一个男子在 PolyMarket 上，对一个2%的小概率事件投入3000美元。结果，预测准确，他收回了12.5万美元。

为了方便世界各地的人参与，也是为了保证匿名，这种预测网站都采用稳定币交易。

所以，它的本质就是一个巨大的彩票市场，允许用户买卖自己最感兴趣、最熟悉的事件，这是它快速流行起来的根本原因。参与的人多了以后，反过来提高了预测的准确性。

我觉得，它的前景不可限量，一定会火爆的井喷式发展，传统彩票可能会被它彻底淘汰。

它把任何不确定的事情，都变成了彩票，实时量化了每一种可能性的概率，并且提供了金钱翻倍的途径。这一方面很有参考价值，可以用来判断未来情况，另一方面也非常有娱乐性和刺激性。

国产 Nano Banana Pro 的图片幻灯片生成

上个月，谷歌发布了新一代图像编辑模型 Nano Banana Pro（其实就是 Gemini 3 Pro 的图像分支）。

有一个功能引起了轰动：无论多么枯燥的文字，都能变成有趣的图片，从"读文"变成"读图"。

我当时就想，国产模型一定会马上跟进。

果然，昨天打开秘塔 AI，就看到他们发了这个功能，完全对标 Nano Banana Pro 以及 NotebookLM，而且还加入了自己的特色----讲解。

你点击"上传文件"（上图），上传各种资料（可以上传多篇），它就会自动创建一个知识库，输出内容的 AI 总结。这时，还会显示一个"给我讲讲"按钮。

上图是我写的一篇 JS 语法点 Promise 的教程，点击"给我讲讲"就会生成图片幻灯片 + 讲解。

大家可以去它们的官网 metaso.cn （手机 App 同名）试试看，这个功能挺好玩的，操作零门槛，关键是它免费（有赠送的积分）。

除了上传文件，你也可以直接搜索某个主题，再点击下方的"生成幻灯片"按钮。这时就会有"图片幻灯片"选项，并有20多种风格可选，还支持自定义。

科技动态

1、步行环游世界

上个世纪90年代的一天，一个英国青年在酒吧里随口说，他可以从南美洲最南端一路走到英国。他的朋友都不信。

他就跟朋友打赌，他能做到。1998年，他正式从智利最南端开始步行，那一年他29岁。

27年过去了，他已经56岁了，依然在路上。

好消息是，他已经接近行程的尾段，预计将于2026年9月到达终点英国。

下面就是他的路线图，从南美洲最南端到北美洲最北端，再到亚洲和欧洲，最后是英国。

整个行程中，他只能步行或者游泳，不能使用任何交通工具。最难的一段就是北美洲与俄罗斯之间的白令海峡，为了不坐船，他是在冬天从海冰上爬过去的。

这27年中，他也不是每天都在走，有时因为各种原因，会离开一段日子，然后再回来接着走。

他说，依靠个人的力量不可能完成这样的行程，留不开家人的支持、陌生人的友善，以及赞助商的帮助。

至于是什么力量支撑他坚持走了近30年？他说："你需要看看真实的世界，以及生活在其中的人们，这将是你所能接受的最好的教育之一。"

2、六臂机器人

美的公司展示一个六臂机器人，将用于无锡工厂的生产线。

它可以六只手同时执行三项任务。那样的话，一个机器人就相当于三个工人了。

3、手摇洗衣机

一位前戴森公司的工程师，为不发达地区发明了一种手摇洗衣机。

据介绍，这种洗衣机不需要电，只要手摇几分钟，就能洗净5公斤衣物，并且节省一半的水。

如果它真的有效，我有一个建议，就是把手摇改成脚踏车，只要踩5分钟踏板，就能洗一筒衣服。

文章

1、程序员为自己的工具命名时的彻底迷失（英文）

本文批评很多程序员为软件起名时，尽起一些烂七八糟的名字，根本看不出软件的用途，建议软件名称应该跟用途有相关性。

2、解读斯诺登文件（英文）

这篇文章详细分析了2013年斯诺登泄漏的文件，文章第一部分就是分析对北方工业公司的情报收集，美国的监控令人叹为观止。

3、从文本到词元（英文）

一篇科普文章，通俗地介绍搜索引擎如何将查询的文本转换成标准化的词元（token）。

4、大模型构建 HTML 工具的实用方法（英文）

著名程序员 Simon Willison 的长文，总结他使用大模型生成网页应用的经验。

5、GraphQL 蜜月期已结束（英文）

作者认为，GraphQL 解决的问题远比人们想象的小众，而且可以通过其他方式解决，这项技术最终往往弊大于利。

6、git add -p 的解释（英文）

本文介绍 git add -p 命令。它会显示一个互动界面，让用户逐个确认每个文件的变动，是否要加入暂存区。

工具

1、Cosmic

上周，Cosmic 1.0版正式发布了。它是一个全新的 Linux 桌面，美观且功能强大，为用户提供了 Gnome 和 KDE 之外的另一个选择。

2、Keyden

macOS 菜单栏的开源 TOTP 双因素认证器，密钥加密存储在 macOS Keychain。（@tasselx 投稿）

3、WeMD

开源的 Markdown 微信公众号编辑器。（@tenngoxars 投稿）

4、starling-speak

文本朗读网站，支持多种语言，带有录音功能。（@Keldon-Pro 投稿）

5、shift

一个基于 WebAssembly 的在线代码编辑器，支持直接在网页运行 Python、Lua、Ruby 等语言。（@hubenchang0515 投稿）

6、EasyImg

基于 Nuxt 4 构建的个人图床，丰富的后台配置。（@chaos-zhu 投稿）

7、Go-WXPush

Go 语言开发的微信消息推送服务，提供了一个简单的 API 消息推送接口。代码开源，每天10万次推送额度，个人用不完。（@hezhizheng 投稿）

8、ZeroLaunch-rs

Windows 应用启动器，拼音模糊匹配，基于 Rust + Tauri + Vue.js。（@ghost-him 投稿）

9、MrRSS

跨平台的开源桌面 RSS 阅读器，支持自动翻译、自动总结、新订阅源发现。（@ch3ny4ng 投稿）

10、PVE Touch

为移动设备优化的 Proxmox VE 管理界面，方便通过手机管理虚拟机。（@hanxi 投稿）

AI 相关

1、Disco

谷歌实验室推出的实验性 AI 浏览器，完全跳过网页搜索，目前需要排队等待名额。

2、Flowers

开源的浏览器 AI 助手插件，提供网页翻译、问答、笔记等功能。（@snailfrying 投稿）

3、DeepAudit

开源的代码审计平台，通过智能体实现漏洞挖掘和自动化沙箱 PoC 验证，支持 ollama 私有部署模型，代码可不出内网。（@lintsinghua 投稿）

资源

1、生命的尺寸

这个网站用图形展示各种生命体的大小比较，从 DNA 一直到蓝鲸。

2、写一个你自己的 C 语言编译器（Build Your Own Lisp）

一本面向初学者的免费英文电子书，介绍怎么用 C 语言写编译器，以 Lisp 语言的编译器为例。

3、A Soft Murmur

一个背景音网站，可以开关不同的音效，并调节它们的音量。

图片

1、13个圆画出动物

一个艺术家使用13个圆，画出各种动物。

猫头鹰

兔子

猴子

文摘

1、Claude Opus 4.5 是第一款让我真正担心自己工作会丢掉的大模型

Claude Opus 4.5 真是完全不同于其他模型。还没用过的人根本无法想象未来两三年会发生什么，明年可能就是最终的转折点。

我不知道接下来该如何适应。当然，我可以整天看着 Opus 帮我工作，偶尔出点小问题再干预一下，但再过一段日子连这些都不需要了呢？

编码问题基本上已经解决了，接下来像系统设计、安全之类的问题也会迎刃而解。我估计再过两三个版本，80%的技术人员就基本没用了。当然，公司还需要一些时间来适应，但他们肯定会想方设法尽快摆脱我们。

虽然我很喜欢 AI 这项技术，但一想到这一切最终会走向何方，我就感到难过。

2、为什么学习物理学

（本文摘自理查德·费曼于1963年6月在里约热内卢举行的美洲物理教育会议上发表的演讲。费曼是加州理工学院理论物理学教授。）

我们应该教授物理学，这有五个原因。

（1）物理是一门基础科学，应用于工程学、化学和生物学等各种技术领域。

物理是研究自然界的科学，或者说是认识自然界的科学，它告诉我们事物是如何运作的，以及人类在当前和未来的技术中发明的各种设备是如何工作的。因此，懂物理的人应对本行业出现的技术问题会很有用。

（2）物理教会你如何动手做事情。它教授许多操纵事物的技巧，以及测量和计算技巧，这些技巧的应用范围比特定研究领域要广泛得多。

（3）物理作为一门科学，对许多人来说，是一种极大的乐趣。

科学教育培养出来的科学家，不仅为工业发展和知识发展做出贡献，同时也参与了我们这个时代的伟大冒险，从中获得巨大的乐趣。

即使一个人没有成为一名专业科学家，研究自然也是为了欣赏自然的奇妙和美丽。这种对自然的了解也给人一种稳定和现实的感觉，并驱散了许多恐惧和迷信。

（4）物理教会人们如何认识事物，帮助你质疑很多事情。质疑和自由思想的价值，不仅对科学发展，而且对其他各个领域，都显而易见。

科学教导我们如何认识事物、什么是未知事物、事物被认识到什么程度、如何处理怀疑和不确定性、证据规则是什么、如何思考事物以便做出判断、如何区分真理与欺诈。这些无疑是教授科学，特别是教授物理的重要收获。

（5）在学习科学的过程中，你会学会如何试错，培养发明创造和自由探索的精神，这种精神的价值远远超出了科学本身。

人们会学会问自己："有没有更好的方法？"我们必须想出一些新的技巧或方法，以改进这项技术。这种想法是许多思想、发明创造以及各种人类进步的源泉。

言论

1、

为什么我们有两个鼻孔，而不是一个大洞？

因为肺部持续需要空气，两个鼻孔可以交替工作，让鼻子的一侧得到休息。

-- 美国《大众科学》

2、

报社招我去当撰稿人，我以为是去写稿，结果却是以极低的薪水让我编辑 AI 生成的文案草稿，理由是"大部分工作已经完成了"。

这让我深受打击，我曾经觉得自己很有价值，受人重视，对未来充满希望，渴望拥有辉煌的职业生涯，现在却只能修改 AI 生成的文字。

-- 一位自由撰稿人

3、

SaaS 行业将会萎缩，尤其是那些功能简单的 SaaS，因为企业现在可以用 AI 快速生成内部服务。

-- 《AI 正在蚕食 SaaS》

4、

我发现，中文不喜欢直接说 True，更倾向说 !False。比如，英文说"很好"，中文说"不坏"，英文说"对的"，中文说"没错"，英文说"正常"，中文说"没问题"。

中文更喜欢双重否定"否定词+否定词"，这种表达方式增加了模糊性（含糊其辞）和灵活性（模棱两可），创造了回旋余地，避免了肯定答复导致的态度明确、归类迅速、立场鲜明。

-- 《为什么中文拒绝说 true》

往年回顾

你可能是一个 NPC（#331）

新基建的政策选择（#281）

互联网公司需要多少员工？（#231）

移动支付应该怎么设计？（#181）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2025年12月19日

科技爱好者周刊（第 377 期）：14万美元的贫困线

阮一峰的网络日志

12 December 2025 at 08:07

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

腾讯集团创始人之一的陈一丹，投资建设的深圳一丹中心，目前已经结构封顶，上图是建筑效果图。（via）

14万美元的贫困线

一个人需要多少钱，才能摆脱贫困？

我看到一篇美国人的文章，作者说，美国政府规定的贫困线是，四口之家的年收入不足3.12万美元。

根据统计，美国四口之家的年收入中位数是8万美元，远超贫困线。按照这个标准，贫困的美国家庭应该不多，8万美元可以让一家人过上"中产阶级的生活，或许还算舒适"。

但是，事实却是，这点钱在美国会过得手头很紧，根本不够一家人的开销，你经常会烦恼钱不够用。

作者就问了，美国的贫困线为什么是3.12万美元？真正的贫困线应该是多少？

他发现，贫困线的计算方法，来自1963年的一次调查。调查发现，美国家庭那时收入的三分之一用于食品，政府就把食品的最低开销乘以3，得到了贫困线，沿用至今。

2025年，美国四口之家一年最低的食品开销是1万美元，乘以3就得到了贫困线3.12万美元。

但是，半个多世纪过去了，家庭的消费结构和物价彻底变了。

现在，家庭的食品支出不是三分之一，对大多数家庭来说，大概仅为5%至7%。家庭支出的大头变成了住房、教育、医疗，其中住房占支出的35%至45%，医疗占15%至25%，子女教育占20%至40%。

所以，如果要覆盖基本开销，总支出不再是食品支出乘以3，而是乘以13到15。

这样计算的话，美国四口之家的贫困线应该在14万美元左右。只有年收入达到这个数字，才足以覆盖一家人的基本开销。

这很惊人，14万美元约等于100万人民币，这样的家庭收入在美国还是存不下钱。

这就是为什么，你的收入看上去不低，却总感觉钱不够用的原因，因为实际的贫困线比名义的贫困线，高出非常多。

我觉得，这篇文章的最大价值在于提供了一种方法，估算收入应该是多少，才能免于贫困。

具体来说，真实贫困线就是食品开支乘以它所占比例的倒数。

假定你的食品开支是每天30元，每年1万元左右，占总支出的十分之一，那么你的年收入如果低于1万元乘以10（即不足10万元），你就还是属于贫困阶段。

任正非最新谈话

12月5日，华为创始人任正非在上海青浦区的练秋湖华为研发中心，与今年的国际大学生程序设计竞赛（ICPC）的组织者和参赛者进行座谈。

座谈记录已经上网，主要围绕了 AI 和美国对中国的高技术封锁。

（1）AI 无人化富余出的员工怎么办？

要发展再教育工程，例如实行学券制，给下岗人员一些学券补贴，把一些已经空着的学校、工厂变成职业学校，对下岗人员进行职业再教育。

（2）无人化进展速度不能快，还是要慢慢来，要使社会结构发展稳定。AI 带来的社会好处是总财富增加了，怎么分享这些财富？怎么重新造就一些人再上岗呢？这就是新的课题。

（3）以后是算力过剩，不是算力不足。

（4）华为公司当前最重要的是 CT（通信技术，Communication Technology），就是无线电、光通信、核心网、数据通信......。为什么？将来 AI 的感知与控制，要把数据传到几千公里外，必须要有一个先进的网络。AI 要真正产生出价值，需要全社会的协作，发挥各自的优势。没有网络的算力是信息孤岛，孤岛化的 AI 无法实现真正的智能。

（5）Meta 公司给几个青年人每个人上亿美元的签约金、千万美元的年薪，中国互联网上没有多大的声音波动，为什么？因为不羡慕了。现在国内一大批创业者，能力非常强。七、八人合作做一个公司，二、三十人合伙，股份全是他们的，做好了想拿多少拿多少。

（6）美国的土壤是适合种庄稼的，大量人才到美国成长这是好事情，并不是坏事情，包括中国的很多青年到美国去，在美国生根发芽，参与创造一些新的科技文明。

（7）美国创造的科技文明，对世界不是有害的，是有益的，我们也要支持美国科技文明的发展，因为美国创造的科技文明，关起来不去给别人用，那美国怎么赚钱？他赚你钱的过程中，同样促使你的产业进步。如果没有欧洲的文明，我们怎么可能有汽车、火车、轮船......？

（8）我们也渴望全球化，能享受站在巨人肩膀上，我们的自力更生是被逼无奈的。全要靠自己，是不敌全球化的，我们在许多方面落后国内企业使用的芯片至少一代。

（9）中国要更加开放，要向世界所有文明国家学习优点，容纳世界的文明进来，不能闭关自守。开放改革把国门打开了，让世界的文明进来，并没有产生文明冲突，文明叠加起来共同创造了一种价值，就是今天的新中国。

科技动态

1、老鼠捕食蝙蝠

德国科学家第一次拍到，老鼠（褐家鼠）捕食蝙蝠的镜头。

这证明了老鼠有很高的智力，会潜伏捕食飞行的动物。

但是，这也让蝙蝠的病原体传播到啮齿动物，从而增加感染人类的可能性。

2、AI 炒股

如果让大模型炒股，会怎样？

国外有人做了实验，他们选了五个模型，每个模型有10万美元本金，进行了为期8个月的炒股。

模型每日根据实际股价，进行虚拟交易，目标是尽可能多盈利，结果总体令人满意。

指数上涨了12.3%，但是第一名 Grok 4 涨了56.1%，第二名 DeepSeek 涨了 49%，第三名 Claude Sonnet 4.5 涨了27.3%，第四名 GPT-5 涨了27%。

唯一的输家是 Gemini 2.5 Pro，它因为没有买科技股，亏了9.5%。

这到底是随机的结果，还是大模型真的善于炒股，值得进一步研究。

3、草莓工厂

上海最大的数智草莓工厂在青浦区投产。

该工厂占地11亩，采用垂直种植，光照和水肥都是自动控制，可以全年365天不间断生产。

据介绍，工厂的年总产量是传统地栽模式的10倍，产值30倍以上（售价翻3倍？）。

4、菜单里的图标

很多软件的菜单带有图标，比如 Google Sheets。

菜单是否需要图标，一直有争论，很多人认为并不需要，比如 macOS 就不带有图标。

但是，最新版的 macOS Tahoe 全变了，菜单也开始带有图标了。

可能因为修改得非常匆忙，有些菜单项有图标，有些没有，比如下图是 Safari 文件菜单。

更糟糕的是，macOS 的有些菜单项，带有表示状态的"勾选"图标，会出现两个图标并排（下图），让菜单看上去很乱。

文章

1、内存价格为何暴涨？（英文）

现在的内存价格是上半年的三倍，原因是今年10月1日，OpenAI 公司同时与三星和 SK 海力士签署了协议，买断了全球40%的内存供应，引起了其他厂商的恐慌。

2、AV1 赢得艾美奖（英文）

美国电视最高奖艾美奖，将今年的技术与工程奖授予视频编码格式 AV1，本文是对 AV1 历史的简单介绍。

3、GitHub 不再使用 Toast（英文）

Toast 是一种 UI 组件，通过矩形弹框显示消息。GitHub 表示，这种组件的可访问性不佳，不建议使用。

4、2025岁末 AI 模型选型指南（中文）

现在的大模型如此之多，即使同一个模型还分成多个型号，应该如何选择？

作者从性价比的角度，谈了他的选型方法：大杯、中杯、小杯怎么选？Thinking 要不要关掉？缓存命中率值不值得做？（@thuwyh 投稿）

5、Linus 访谈（英文）

Linux 内核创始人 Linus Torvalds，上周上了一个视频节目，与主持人进行了深入对谈。本文是节目的内容总结。

6、Conventional Branch（英文）

这是 Git 分支命名规范，建议命名为feature/、bugfix/、hotfix/、release/、chore/等几类。（@shenxianpeng 投稿）

工具

1、Mission Center

Linux 的资源管理器，图形化实时显示本机的资源占用情况。

2、tunnel.gg

一个免费服务，只要你的主机通过 SSH 连接到它的服务器，它就分配一个子域名，让你的主机暴露到互联网。

3、Puter

一个开源的云桌面，需要自己架设，包含文件管理器、画笔、笔记本、照相机、Code 等组件，试用 demo。

4、Feedsmith

一个用于 RSS 解析和生成的 JS 库。

5、react-sounds

一个为网页加入各种音效的 React 组件。

6、dbdiagram.io

输入 SQL 语句，就能生成数据库的实体-关系图。

7、QM-Music

基于 Subsonic 的私有云音乐服务器，采用 Docker 部署，兼容各种 Subsonic 客户端。（@chenqimiao 投稿）

8、React DevTools Plus

React 调试工具，以 Vite/Webpack 插件形式提供，一键即可在浏览器唤起调试面板。（@wzc520pyfm 投稿）

9、京墨文库

开源的鸿蒙应用，另有安卓版。（@hefengbao 投稿）

10、hyperlane

一个轻量级、高性能的 Rust Web 服务端框架，简化现代 Web 服务开发。（@eastspire 投稿）

AI 相关

1、Magic English Buddy

面向小朋友的英语阅读学习工具，通过 AI 生成个性化英语故事，提供文本朗读和单词高亮。（@xckevin 投稿）

2、Next AI Draw.io

通过自然语言命令，生成并修改 draw.io 流程图的网页应用，代码开源。（@DayuanJiang 投稿）

3、Hacker news Agent

一个需要自搭建的后台服务，从网上抓取 AI 相关新闻，并发送摘要邮件，整个过程都由 AI 完成，需要安装 Claude Code。（@wjcwjc77 投稿）

4、Lumina Note

桌面端的笔记软件，支持 Windows 和 Mac，带有 AI 助手。（@blueberrycongee 投稿）

5、MigicCube

使用小米 AI 眼镜，在 20 步内还原任何三阶魔方，原理是识别魔方状态，然后算出解法，最后通过语音给出操作提示。（@idootop 投稿）

资源

1、大模型 SVG 生成基准测试

这个网站测试了9个大模型，让它们生成30个场景的 SVG 文件，来比较谁的生成能力强。

2、Gemini CLI 使用指南（英文）

这个仓库收集了30多个详细的 Gemini CLI 的用法和技巧介绍。

3、2025年 CSS 进展

Chrome 团队推出的 CSS 年度总结，今年的一些语法进展。

图片

1、建筑师弗兰克·盖里

美国建筑师弗兰克·盖里（Frank Gehry）本周去世，享年96岁。

他以设计形状奇特的房子而闻名，下面是他设计的5个著名作品。

拉斯维加斯的脑健康中心（Lou Ruvo Center for Brain Health）。

明尼阿波利斯的弗雷德里克·R·韦斯曼艺术博物馆。

布拉格的跳舞的房子。

西班牙毕尔巴鄂的古根海姆博物馆。

巴拿马城的生物博物馆。

文摘

1、速度为何重要？

在我的职业生涯中，我观察到一个不变的现象是，人们低估了快速行动的必要性。

你的项目耗时久并非优点，而是一个缺点。

快速行动并不意味着你能迅速完成项目。项目包含许多部分，要把所有环节都做好可能需要很长时间。

但是，你还是应该尽快行动，原因有很多。

（1）一个常见的错误是花费太多时间在项目无关紧要的部分，等你做完才发现没人需要那个部分，就为时已晚了。

（2）人从错误中学习。犯错越快，学习越快。

（3）你的成果会随着时间推移而贬值，变得不再那么重要。到时候，你再想重做跟上时代，已不可能了。

这就像大学里那位二十年前花了七年时间准备讲义的教授，他不可能把讲义扔掉重写，因为那又是一个需要七年时间的新项目。所以他会继续使用这些陈旧的讲义，直到退休。

别这么慢，快点！

言论

1、

两家公司的平均智商都提高了。

-- 苹果公司设计主管艾伦·戴伊最新辞职，加入 Meta 公司，这是推特上对此事的评论。

艾伦·戴伊在苹果公司内部评价不高，而 Meta 公司的专长并不是交互设计，他或许能提高 Meta 的设计水平。

2、

2025年还在写博客的感受，就好像对着虚空呐喊。

-- Askmike.org

3、

Meta 公司发售了一副 AR 眼镜，据说有很多功能。但是，这种眼镜本质上是绑在脸上的摄像头，供 Meta 公司观察世界。

-- Victoria Song，网络媒体记者

4、

AI 公司股价大涨的原因是，它向投资者描绘了一幅场景：AI 将来会承担人类工作，当老板解雇员工并用 AI 替代时，老板会省下你的一半工资，并将另一半工资交给 AI 公司。

-- 《AI 批判指南》

5、

创作者平台（比如抖音）的问题是，它们只向创作者支付很少的报酬，导致每个知名创作者最终都会转向销售产品、寻求赞助和品牌合作。

--《创作者经济如何摧毁了互联网》

往年回顾

李开复梳理人工智能（#330）

机器点餐与宅文化（#280）

电子产品的用电量（#230）

你想住在中国哪里？（#180）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2025年12月12日

科技爱好者周刊（第 376 期）：太空数据中心的争议

阮一峰的网络日志

5 December 2025 at 08:09

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

杭州大运河门户桥是一座步行桥，位于大运河与钱塘江交汇处，即将开放。它的三段拱形设计象征杭州刺绣和钱塘江浪潮。（via）

太空数据中心的争议

AI 大发展，数据中心不够用了，建造和运营成本飞涨。

越来越多的人提出，数据中心可以建在太空。

先是马斯克说，SpaceX 公司考虑在地球轨道上，建造数据中心。

然后本周，北京市科委、中关村科学城管委会发布了《太空数据中心建设规划方案》。

目标是"在距地面700公里的轨道上，建设可容纳百万卡集群的数据中心，开展天基数据中继传输和计算服务"。

根据报道，专家认为太空数据中心"势在必行"（上图）。

（1）高轨太空数据中心可 7×24 小时使用高强度太阳能，且不受大气影响，发电效率可达95%。

（2）深空温度约为-270度，只需部署导热材料即可完成散热，无需部署大量液冷结构，成本优势显著。

我觉得，这是两个很大的优势，太空数据中心确实应该尽快建设。

但是，我紧接着又看到了一篇文章。

作者是美国宇航局的资深工程师，曾经参与设计卫星。

他根据国际空间站的经验，认为现阶段技术制约太大，太空数据中心很难实现。真要建设的话，花费巨大，收益有限。

这可是我第一次看到，有人认真地质疑这件事。我不具备这方面的专业知识，不知道他的计算对不对，再说国际空间站完成于25年前，现在的技术早就超越了那时。

我把他的几点质疑分享出来，大家看看太空数据中心有没有前景。

（1）能源问题

太空能源主要来自太阳能。迄今为止最大的太空太阳能板就在国际空间站，峰值功率200千瓦以上，但是面积巨大，约为2500平方米，超过半个美式橄榄球场。

英伟达的 H200 显卡功耗约为 0.7kW，实际运行可能需要 1kW 的电源。国际空间站的太阳能板只够供电200个 H200。

作为比较，OpenAI 即将在挪威建设的数据中心计划容纳10万个 GPU，每个的功耗可能都比 H200 更高。

（2）散热问题

太空很冷，接近绝对零度，初看上去散热应该很容易。但是事实是，散热只有两种方式：要么通过介质散热，要么通过辐射散热。

太空没有空气，接近真空，根本没有介质，无法使用空气对流来散热，所以 GPU 的散热片和风扇不起作用。

唯一可用的是液冷，通过液体将热量传递到散热板，再辐射到太空（散热板必须放置在远离太阳的一面）。

国际空间站就采用辐射散热。它的散热系统非常复杂，散热上限为 16kW，大约相当于16个 H200，略多于一个地面服务器机架的四分之一。

国际空间站的散热板尺寸为13.6米×3.12米，即大约42.5平方米。如果要为200个 H200 散热，面积需要扩大12.5倍，即大约531平方米。这个面积是同样功率太阳能板的2.6倍。

这样一来，太空数据中心将变得非常庞大，远超国际空间站，而容量只相当于地面的三个标准机架。

（3）粒子射线问题

太空有各种高速粒子，由于没有大气层保护，它们可以直接撞击芯片材料造成损伤。最常见的后果是单粒子翻转（SEU），即粒子直接撞击晶体管，导致某个比特翻转。

太空数据中心必须长期运行，还存在总剂量效应，即反复的粒子撞击导致晶体管开关速度变慢，进而停止工作。

所以需要有一个屏蔽层，但是最强的宇宙射线可以穿透惊人厚度的铅层。而且受限于飞船的运送能力，太空中不可能部署很厚的屏蔽层。

为了增加 GPU 和内存的抗辐射能力，有必要为太空环境重新设计芯片，增加容错性能。但是，这样的芯片性能将远不及目前地球上的 GPU。

（4）通讯问题

大多数卫星通过无线电与地面通信，速率超过 1Gbps 都很困难。虽然有一些激光方案可以提高带宽，但需要良好的大气条件才能实现。

相比之下，地球上的数据中心之间的通讯，最低速率也能达到 100Gbps。

[本周软件] 七牛云的大模型接入服务

几周前，我在周刊推荐了七牛云，一个平台调用国内外各大 AI 模型，堪称中国的 OpenRouter。

但是，我没说清楚两点，导致很多网友遇到问题，我一直想找机会补充。

本周一，DeepSeek 发布 V3.2 的 Speciale 版和普通版，当天晚上我就看到七牛云上架了（下图）。他们更新这么快，我还是说一下吧，大家就不会遇到问题了。

（1）国外模型。七牛云目前提供国内外70多个模型，但由于种种原因，国外模型在官网查不到，实际上是支持的。

具体的模型清单，可以去这个网站查询，主流模型都有（下图）。

查到模型 ID 后（比如claude-4.5-opus），用它作为模型名参数，就可以在七牛云调用这个模型。

（2）请求频率。普通开发者"1分钟5次，1小时60次"足够使用了，如果超出这个速率，就会遇到报错（状态码429）。

大家不要觉得这个限制太严，作为对比，Claude 官方的 Pro 套餐是5小时45次。

我推荐七牛云，主要考虑他们是上市公司，服务有保障。另外，他们同时支持 OpenAI 和 Anthropic 两种调用格式，调用 API 很方便（下图）。

新用户有免费的 300万 Token，如果再邀请一位好友来使用，你会再得到 500万 Token，好友则得到 1000万 Token。注意，这些免费额度是通用的，可用于任何他们提供的模型。欢迎使用我的推广链接去注册。

科技动态

1、冰岛的洋流危机

冰岛政府宣布，大西洋的洋流变化是国家安全问题，威胁到冰岛的生存。

根据观测数据，随着全球变暖，大西洋环流正在减弱。这个环流是一条巨大的传送带，将温暖的海水从赤道向北输送，为大西洋北部带来温暖的气候。

一旦这个洋流消失，冰岛的气温将大幅下降，最坏的情况下可能会被冰川包围，真的变成"冰的岛"，也就没法住人了。

2、火星声音

火星上有什么声音？

科学家也想知道。美国的"毅力号"火星车于2021年2月登陆火星时，就配备了一个麦克风，专门监听火星声音。

上图是火星车顶部跟摄像头配套的麦克风。

最近，一个研究团队分析了这个麦克风录制的28小时音频。

他们听到了有东西撞击地表的声音，同时还观测到了电信号，因此推测这是闪电的声音。

这是人们第一次知道，火星还有闪电，因为那里空气稀薄，没有水也就没有云，所以不存在云的放电。科学家判断，火星闪电应该是龙卷风导致的沙石摩擦的放电。

3、人造树叶

一个美国研究团队，将太阳能板做成了叶片形状。

这种叶片的底部，连接着化学催化剂，有了太阳能，就可以将二氧化碳和水转化为燃料。

如果把许多这样的叶片组装成一棵树，就是一个燃料生产装置。

这启示我们，太阳能装置的形式，远不止太阳能板一种，完全可以做成树的形状。

文章

1、关于近期安全报告的情况说明（中文）

一个国外安全团队近日报告，某些浏览器插件（如 Clean Master、WeTab）是恶意软件。本文是这些插件的中国开发团队的回应。

他们表示，Clean Master 去年已经卖掉了，现在跟他们无关，至于其他插件属于误报。建议先读安全报告，再读这篇回应。（@yiGmMk 投稿）

2、Electron vs Tauri（英文）

Electron 和 Tauri 是目前跨平台桌面应用的两种主流开发方案。本文是它们的详细对比，各自的优缺点。

3、我为什么要从 GitHub 迁移（英文）

作者感到 GitHub 不符合需要，太重了，就做了一个自己的代码仓库托管方案。如果你也想自己架设代码服务器，可以参考。

4、Protobuf 好于 JSON（英文）

本文呼吁使用 Protobuf 格式代替 JSON。作者认为，JSON 唯一的优点就是人类可以识读。

5、如何写一份好的 CLAUDE.md 文件（英文）

很多 AI 编程工具，使用一份文本文件，作为每次查询的上下文。本文以 CLAUDE.md 为例，介绍怎么用好这个文件。

6、ZFS 文件系统好于 Btrfs（英文）

ZFS 和 Btrfs 是两种流行的现代文件系统，本文介绍它们的特点，提出前者更可靠。

工具

1、Fizzy

37Signals 公司开源了他们内部使用的看板应用。

2、Fresh

一个基于终端的文本编辑器。

3、Gitmal

这个工具将 Git 仓库变成一个静态网站，网页内容就是文件、提交、代码高亮等。

4、GitHub Card

该网站可以生成 GitHub 用户和仓库的分享卡片。（@Cactusinhand 投稿）

5、EasyDB

跨平台的桌面应用，使用 SQL 查询数据文件，包括数据库、CSV、Excel、JSON 等。（@shencangsheng 投稿）

6、Webhooker

一个 Webhook 的转发网关，比如把 Slack 消息转发到飞书和钉钉。（@Disdjj 投稿）

7、PySInfo

一个 Python 脚本，用来在命令行显示系统信息，类似于 fastfetch。（@cycleuser 投稿）

8、PocketMocker

一个网页前端的 Mock 库，通过网页中拦截 fetch 和 XMLHttpRequest 来 Mock 数据，带有可视化控制台。（@tianchangNorth 投稿）

9、code996

一个命令行工具，通过分析 Git 仓库的提交时间，判断项目的编码工作强度和加班情况。（@hellodigua 投稿）

10、玉桃文飨轩

一款开源网页应用，将 Markdown 文本转成图片。（@nicejade 投稿）

AI 相关

1、ClipSketch AI

一个开源的 Web 应用，通过 Gemini 模型，将小红书和 B 站视频转成手绘故事。（@RanFeng 投稿）

2、Banana Prompt Quicker

一个开源的浏览器插件，收集 Nano Banana 模型的热门提示词，方便复用。（@glidea 投稿）

3、git-rewrite-commits

这个工具使用 AI 改写以前的 git 提交信息，让其变得更准确详细。

资源

1、百大年度照片

《时代》杂志评选的2025年100张照片，另有路透社的年度照片。

2、维基百科2025年阅读量最高的文章

维基百科公布，2025年它的英文版阅读量最高的20篇文章，主要集中于政治、流行文化和逝者。

3、HummingbirdSpot

这是一个美国退休女教师的网站，她立志要拍摄所有种类的蜂鸟。全世界共有366种蜂鸟，她已经拍到了277种。

图片

1、小王子博物馆

经典童话《小王子》出版于1943年，畅销全世界。

为了纪念这本童话和作者圣埃克苏佩里，瑞士最近新开了一家小王子博物馆。

这个博物馆收藏了这本童话的各种版本和纪念品。

《小王子》的情节是，从前有一个 B612 小行星，上面有一个小王子。这个小行星面积不大，有两座活火山、一座死火山和一朵玫瑰。

小王子离开 B612 后，拜访了其他六颗小行星，分别住着国王、爱慕虚荣的人、酗酒的人、生意人、守时的人和地理学家。最后，小王子来到地球，访问后又回到了自己的行星。

文摘

1、为什么大公司的代码质量不佳？

跟大家想的不一样，大公司的代码质量其实不高。

这看上去违反常理，大型科技公司薪酬优厚，足以吸引众多优秀工程师。而且，大公司的工作环境、配套工具、开发节奏都很好，非常适合从容不迫地完成高质量的工作。

但是，事实就是他们的代码质量完全谈不上优秀。

原因很简单，大公司的大多数代码都是由相对的初学者完成的。

那些工程师并不是不优秀，而是被迫去开发非本领域的项目，属于相对的初学者。

现实生活中，大型科技公司的工程师，很少会一直干下去。事实上，大公司的薪酬方案通常都设定了工程师的四年任期，四年后初始授予的股份全部归属，工程师的收入可能就会大幅下降。这时，如果你没有得到晋升，显然可以考虑离开了。

如果算上内部流动，情况就更糟了。我自己在同一个团队或同一个代码库，停留的时间最长也只有三年，那还是我刚入职的时期。后来，我每年都至少经历一次重组，更换团队或项目。

当然，大公司的代码库寿命没有这么短，很多内部代码库都有十年甚至更久的历史。问题是，这么多年来，这些库经历了许多不同的所有者，不同的工程师都在不断地"摸索"，相当高比例的代码变更是由"新手"完成的。这些人可能是在过去六个月内才加入公司、接触代码库。

你肯定会问，大公司的那些"老手"程序员难道不写代码吗？总有一些工程师在特定领域工作了足够长的时间，积累了真正的专业知识，会进行深入的代码审查，并能可靠地发现问题，这些人在干什么呢？

首先，大公司不在乎"老手"程序员。公司很少致力于培养特定专业的长期人才，而且似乎也根本不在乎留住这些人才。通常情况下，这些人迟早会被调到其他部门，成为一个全新系统的相对新手。

其次，"老手"工程师总是工作量巨大。作为少数精通特定服务的工程师之一，他们的工作非常繁忙。他没有足够的时间亲自审查每一次软件变更，或者积极参与每一个决策过程，他有自己的工作要做。

总之，大公司的现实就是，你总是被分配到新项目，几乎每天都在赶工，要赶上多个项目的截止日期。换句话说，工程师是在一个不利于编写高质量代码的环境中尽力而为。

这样情况下，就很难保证优秀的代码质量了。更常见的情况是，一位初级工程师接手了一个他几乎不熟悉的代码库中一个恼人 bug 的工单。他花了几天时间研究，最终想出了一个蹩脚的解决方案。如果幸运的话，一位"老手"在空闲的半小时里匆匆浏览了一下，否决了这个方案，并提出了一个稍微好一点、至少能用的方案。初级工程师尽力实现了这个方案，测试了它是否有效，经过简单的审查后发布，所有相关人员立即转而处理下一个高优先级的工作。

言论

1、

亚洲人民处在从艰苦的农业生活过渡到城市工厂生活，这种转变似乎带来了一种热情，一种愿意为在今天的欧洲被认为微不足道的东西而努力工作的意愿。

这对他们来说是好事。但在欧洲，我们已经经历过这种转变，变得无所事事，毫无士气。我们生活所需的一切都由他人制造时，这种情况是不可持续的。

-- 一个德国的 Hacker News 读者

2、

汽车的电子屏幕，夜间使用非常有害，尤其对于40岁以上的人。他们的视力开始下降，聚焦和光线平衡的反应速度都会减慢，使用电子屏幕会改变他们的夜视能力，不容易看清前方的道路。

-- Hacker News 读者

3、

普通人看不懂数学论文，但是圈外人不知道的是，数学家也看不懂很多数学论文。

-- 《科学》杂志

4、

大模型时代，我们正在失去一些珍贵的东西：自己独特的声音。

所有大模型生成的文章，看上去都像是同一个公共经理发布的。

如果你让大模型帮你写所有文章，你就放弃自己的声音了。你的声音是一种财富，是你一生的生活经历塑造而成，没有人的声音会和你完全一样。

-- 《大模型让我们失去声音》

往年回顾

示意图利器 D2（#329）

网络社区的悲剧（#279）

手机充电问题的解决（#229）

AR 技术的打开方式（#179）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2025年12月 5日

科技爱好者周刊（第 375 期）：一扇门的 Bug

阮一峰的网络日志

28 November 2025 at 08:14

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

苏州当代美术馆即将开放，十个展馆的屋顶连成一片，象征着江南民居的瓦片屋檐。（via）

一扇门的 Bug

最离奇的软件 Bug，你听说过哪些？

下面这个是我本周看到，绝对可以排进史上前十名。

我把它译出来，跟大家分享，以下是第一人称的叙述：

2013年，我在 Valve 公司从事游戏开发。

当时，第一代虚拟现实 VR 头盔 Oculus DK1 刚刚发售。公司决定为这款头盔移植游戏，让我来移植，搞清楚 VR 的游戏环境。

我就选了2004年我们公司开发的《半条命2》来移植。

移植了一个片段后，我们发现实际效果很好，就决定移植整个游戏，并且发布了发售预告。

移植过程中，我试玩了很多片段，但没有从头到尾玩一次。

等到移植完成，就在发售前夕，我决定完整玩一次，如果发现有什么问题，就写在发布说明里面。

我心想，应该不会有大问题，毕竟这个游戏已经发售10年了，无数人玩过，反响良好。

但是，万万没有想到，我居然遇到了一个重大 Bug。

游戏的开头部分，玩家来到火车站，一个守卫让你进去一个房间。很奇怪，房间的门是关着的，你进不去，就......卡住了。

你没死，就是哪儿也去不了。前面的门关着，你进不去，也退不出去，身后的大门已经关上了。你被困在一个走廊里，旁边有个守卫，无路可走。真是奇怪。

游戏的剧情是，你必须进入这个房间，才能往下玩。你又去找守卫，他指着锁着的门，仅此而已，你被困住了。

我上网查了视频，心想自己是不是记错了。没错，门应该是自动打开的，你走进去就行了，但是......现在这扇门却关了！

我心想完蛋了，这游戏没法发布了。

我赶忙联系了其他人，包括一些十年前参与这个游戏开发的人。他们测试后，都说确实有问题，而且在非 VR 模式下也一样，门也是关着的，所以肯定不是我移植弄坏的。但没人知道原因，因为代码根本没改过。

有人甚至追溯到游戏的原始源代码，编译了最初发售时的游戏版本----结果发现，那个原始版本也坏了，门也是关着的。

这怎么可能？大家慌了，这意味着这个 Bug 十年前就存在，但当年编译为什么没出现，十年后重新编译就出现了，这到底什么回事？

在花了大约一天时间，重新使用当年的调试和回放工具之后，一位同事弄明白了哪里出了问题。

如果仔细观看游戏，你会发现这扇门有一瞬间，其实自动解锁并打开了，但是房间里还有第二个守卫站在门后。这个守卫站得离门非常近，门打开的一瞬间会轻轻碰到守卫的脚趾，然后又弹回，重新关上，并自动上锁。由于游戏没有考虑怎么处理这种情况并重新打开门，所以游戏就卡住，你无法前进了。

一旦弄明白怎么回事，解决方法就很简单。我们把守卫往后移大约一毫米，门就很顺利自动打开了。

现在我们可以发布游戏了。但是，问题还是没有彻底解决。为什么这个游戏当初没有出现这个 Bug，原版里守卫的脚趾也挡着门啊？为什么十年后重新编译，Bug 就出现呢？或者说，Bug 其实一直都在，为什么十年前这扇门没有关上呢？

于是，一场旷日持久的漏洞搜寻就此展开。

我们终于发现了答案，就是老生常谈的浮点运算。

《半条命2》于2004年发布，当时编译用的是较旧的8087或 x87 数学指令集。这些指令集的浮点数精度五花八门，有些是32位，有些是64位，有些是80位，不同的代码段使用了不同的精度。

十年后的2013年，SSE 指令集已经成为所有 x86 CPU 的标准配置，编译器默认使用 SSE，它有明确的精度，根据代码需求使用32位或64位，是可以预测的。

真相就是，十年前编译用了32位精度，现在用了64位，小数点的差异造成了几毫米的误差，让守卫的脚趾碰到了门。

好了，现在玩家终于可以走进大门，继续玩下去了。

科技动态

1、AI 授课

英国斯塔福德郡大学的学生，向媒体投诉。

他们上课时，老师的幻灯片（下图）完全是用 AI 生成的，甚至老师也不讲课，而是播放 AI 生成的授课语音。

学生非常气愤，因为学校规定，学生如果提交 AI 生成的作业，会被开除，但是老师却在用 AI 讲课。

这一方面反映了英国的大学教育质量日趋下降，另一方面也让人反思。如果大学广泛使用 AI 授课，或者老师的教学质量还不如 AI，那么学生还需要上大学吗，为什么不直接向 AI 学习？

2、螃蟹椅

丰田公司推出一款概念产品，像螃蟹一样行走的椅子。

它的四条腿可以活动，由电机控制铰链。人坐在上面，它会自己行走，还能爬台阶。

它还能趴下站起。

我预计，国内很快会推出类似产品，可以驮着人行走的机器人，市场很大。

3、量子计算机

IBM 公司的伦敦办公室，正在展示一台量子计算机。

这台机器建造于2019年，已经过时了。但是你不能走进办公室看，只能在门口远远地看。

这东西据说是计算机的未来，可以快速破解现有的加密算法。不过，它工作时需要低温冷却，接近绝对零度，所以不可能在家里使用。

4、政府网站的费用

制作一个政府网站要花多少钱？答案是9650万澳元（约4.5亿人民币）。

澳大利亚气象局的新网站，设计费用410万澳元，开发费用7980万澳元，发布和安全测试费用1260万澳元，共计9650万澳元。

由于远远超过了410万澳元的预算，这件事被媒体披露后，引起了公众哗然。

更可笑的是，新网站发布后，农民反映找不到降雨数据，不得不又换回旧版网站。

政府的计算机系统，如何保证高效好用，又不浪费纳税人的钱，真是一个难题。

大家可以去参观这个4.5亿人民币开发的网站 bom.gov.au。另外，旧版网站目前也依然在线。

文章

1、为什么每个数据库都使用 B 树（英文）

一篇科普文章，介绍为什么 B 树比二叉树更适合数据库。

2、为什么评估新模型越来越难（英文）

著名程序员西蒙·威利森感叹，他已经评估不了最新的大模型了。因为各种模型的能力越来越强，简单的题目都会解，必须用很高深的题目去测。

3、固态硬盘不能长时间断电（英文）

本文指出，消费级的固态硬盘（SSD）在断电状态下，超过一年就会丢失数据。

目前，最好的固态硬盘也不能断电超过十年。所以，如果长时间不用，数据不要保存在固态硬盘。

4、中国龙芯的基准测试（英文）

一个老外程序员测试龙芯 3A6000 处理器，跟2021年发布的英特尔 Xeon Gold 6338 对比。

5、C 代码里面的 URL（英文）

上面这段 C 语言代码里面有一个 URL，居然是可以编译的，这是为什么？

6、如何做一个简单的搜索引擎（英文）

本文介绍搜索引擎的原理，如何自己动手写一个简单的搜索引擎。

7、DIY NAS：2026 年版（英文）

作者详细介绍自己组装 NAS 的配置，可以参考。

工具

1、DNS Benchmark Tool

测试 DNS 服务器的命令行工具，可以测试本地到 DNS 服务器的延迟，以及 DNS 解析获取域名的 IP 地址的耗时。

2、iDescriptor

一个跨平台的桌面应用，让电脑连接管理 iPhone。

3、SVG.js

一个网页 JS 库，用来生成和操作 SVG 图片动画。

4、impala

Linux 平台管理 WiFi 的一个终端应用。

5、2025-blog-public

一个基于 Next.js 的静态博客网站模版。（@YYsuni 投稿）

6、pdfpc-ts

一个开源网站，用于幻灯片演示，特点是同时带有演示者视图，用于提词，类似于桌面应用 pdfpc。（@Master-Hash 投稿）

7、剪存

开源的桌面软件，用来保存剪贴板历史，支持 Windows/Mac。（@snsogbl 投稿）

8、Hoa

一个受 Koa 和 Hono 启发的 JS 服务器框架，适用于 Cloudflare Worker。（@nswbmw 投稿）

9、NodeBBS

开源的基于 JS 语言的现代论坛系统。（@wengqianshan 投稿）

10、MyTube

一个需要自搭建的 Web 服务，用来下载与管理 Youtube/Bilibili 两大平台的视频。（@franklioxygen 投稿）

AI 相关

1、WeFinance-Copilot

一个开源的 Web 应用，用户上传账单，它会用 AI 进行识别和财务分析。（@JasonRobertDestiny 投稿）

2、KoalaQA

开源的 AI 客服系统，可以搭建问答平台、开发者社区、用户服务社区。（@Trc0g 投稿）

3、seekdb

OceanBase 团队推出的一款开源 AI 数据库，支持向量计算，兼容 MySQL。（@liboyang0730 投稿）

4、OPENUGC

一个 AI 网页客户端，可以配置模型、Agent 和 MCP，功能较全，但是不开源。（@aicu-icu 投稿）

资源

1、LangGraph 1.0 完全指南

LangGraph 是一个开源 Agent 开发框架，本教程是基于 Jupyter Notebook 的可交互教程，介绍这个框架的具体实践。（@luochang212 投稿）

2、Nano Banana Pro 提示词大全

这个仓库收集了500+的 Nano Banana Pro 模型提示词，每一个提示词都有图片，超过一半提示词带有参数。（@DophinL 投稿）

3、OCR Arena

这个网站是一个 AI 竞技场，比较不同模型的 OCR（光学识别）能力，目前排名第一的是 Gemini 3。

图片

1、飞机场模型

一位退休的美国飞行员，喜欢制作飞机场模型。

他的网站上有大量的作品照片，大家可以点进去看。

下面是他制作的孟买机场模型，甚至还能显示夜景。

文摘

1、对每一个要求"一点点"时间的人说不

经常有人对我说：

我想跟你简单聊聊天？

下周我们一起喝咖啡吧？

我们一起来讨论一下吧？

我的回答永远是：不，不，不。

我确实可以满足你的要求，但我就是不能做。

即使它们可能是重要的机会，即使只需要花费我15分钟，即使这是其他人都会同意去做的事情，我也不想做。

我必须限制一天中被别人占用的时间，否则我自己就没有剩下的时间了。

即使我让你占用我的时间以后，还会剩下一些时间，我也可能因此失去能量和专注力，再来利用好这些剩下的时间。

时间是我们最不可替代的资产----我们无法购买更多的时间。我们一秒钟都无法收回失去的时间。我们只能希望尽可能少地浪费。

但是现实生活中，不知何故，很多人将时间视为所有资源中最可再生的，用掉就用掉了，反正还有别的时间。

所以，如果你问我是否可以聊天或聚一聚，答案是不。我希望你能够明白，我这样回答的理由。

言论

1、

编程是我遇到过的最能抑制傲慢的良药。如果一个人很傲慢，你就让他去编程。

-- tratt.net

2、

训练一个观点与众不同的模型，会越来越困难。因为如果你的观点与真实数据和真实世界不符，你就不能简单地用外部材料来训练模型。

-- Hacker News 读者

3、

现在是2025年，AI 像病毒一样迅速传播。哪怕你还在坚持手工制作精品，人们也很容易将你的辛勤劳动误认为是毫无灵魂、缺乏灵感的机器垃圾。

-- tonsky.me

4、

人生苦短，死亡来得如此轻易。如果我只是随波逐流，转眼间就会变成老翁。

-- 小畑五郎，一个日本 Youtuber

5、

如果一件东西100%实用，它就一定是漂亮的，比如没有丑陋的钉子或丑陋的锤子。但是，有很多丑陋的汽车，因为汽车并不是所有部分都实用。

-- Dan Gelbart，一位工业发明家

往年回顾

AI 模型不是一门好生意（#328）

棘手的 AI 版权（#278）

人类和人生的意义（#228）

家庭太阳能发电的春天（#178）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2025年11月28日

终于有人做了 Subagent，TRAE 国内版 SOLO 模式来了

阮一峰的网络日志

26 November 2025 at 08:17

一、

全世界最好的 AI 编程工具，我不知道。

但是，我知道全世界最卷的 AI 编程工具，那一定是 TRAE。

为什么这么说？

AI 编程工具一般有三种产品形态。

（1）插件。最早的 AI 编程工具 GitHub Copilot 就是插件。

（2）IDE。插件受制于宿主软件，有些公司不甘束缚，就开始做专门的 AI 编程 IDE，比如 Cursor、亚马逊的 Kiro、谷歌的 AntiGravity。

（3）终端。还有一些公司，专门做基于终端（也就是命令行）的工具，比如 Claude Code、Codex CLI、Gemini CLI。

所有的 AI 编程工具，基本上都属于这三大类之一。但是 TRAE 居然三种产品形态都做了，同时属于这三类！

它最早是插件，后来做了独立的 IDE，现在居然有第三种产品形态：SOLO 模式。

从插件到 IDE（国内版），我都是 TRAE 的用户。我没用国际版，原因很简单，因为国内版免费。

今年7月份，TRAE 的国际版开始内测 SOLO 模式，反响热烈，我就很心动。现在终于正式发布了，本月12日国际版正式推出 SOLO 模式，国内版也在25日上线，更棒的是完全免费。

今天就来说说，什么是 SOLO 模式，为什么它很重要。

或者说，到底是什么原因，让 TRAE 觉得一种产品形态还不够，不停添加其他形态？

对于一个程序员来说，这三种产品形态，怎么选择？哪一种更好？

二、

插件没什么好说的。它调用的是 IDE 的内部接口，如果你有现成 IDE 环境需要加入 AI 功能，就选择它。

IDE 相比插件，功能更强、性能更好、一体化程度更高，适合追求功能和性能的用户。

至于 IDE 与终端，可以参考我的上一篇文章。它们各有特点，不是替代关系，而是互补关系。

IDE 强在它集成的那些功能，比如自动补全、智能感知（intellisense），终端没有。

终端强在方便调用各种命令行工具，可以加入 CI/CD 流程，以及下面要介绍的 Subagent，这是 IDE 缺乏的。

这一次 TRAE 发布的 SOLO 模式，就引入了很多终端才有的功能，所以才单独做成一个模式，因为很难把这些功能加入 IDE 形态。

习惯了 IDE 的同学，或者在 IDE 与终端之间犹豫的同学，有必要了解一下 SOLO 模式，也许有你要的功能。

三、

这次引入的新功能之中，最值得一提的就是 Subagent。

我的印象中，国内还没有其他厂家做过这个功能。如果你想用好 AI 编程，一定要知道它。

顾名思义，Subagent 就是次一级的 agent（智能体）。可以理解成，它是一个 AI 应用之中的子任务。也就是说，它可以把一个大的 AI 编程任务拆分成若干个小任务。

这特别适合大项目，你根据不同的任务或者子目录，建立相应的 Subagent。

它有几个显著的优点。

（1）并行执行。多个 Subagent 可以同时执行，你把它们放在后台，自己在前台做其他事情，这大大节省了时间。IDE 就做不到这一点，只能顺序执行，这是终端独有的一个极大优点。

（2）节省上下文。通常来说，每次执行 AI 任务，都会把整个仓库作为上下文，发给模型。Subagent 可以指定不同的上下文，或者限制上下文局限于某一个目录，因此就节省了上下文，降低了费用。

（3）重复使用。子任务本身也是一个智能体，可以跨项目使用，也可与他人共享，简化了工作流程。

（4）灵活权限。每个子任务可以设置不同的访问权限，从而可以做出适合不同等级成员使用的 Subagent。

总之，Subagent 非常实用，很多人不想使用 IDE，部分原因就是没有 Subagent。

四、

TRAE 这次的 SOLO 模式，一大亮点就是引入了 Subagent，用它实现了多任务并行执行。

进入 SOLO 模式后，整个工作区分成了三栏，最左侧多出了一个任务栏（上图的红框）。

你可以在任务栏里面，点击"+"号，新建 Subagent 子任务(下图)。

上图中，新建子任务时，可以选择内置的智能体，也可以新建智能体，由不同的智能体负责执行子任务。

多个子任务可以并行执行。你在任务栏随时切换，查看每个任务执行到哪一步了。

上图就是同时新建了三个子任务，每个任务都有中文标题，可以很清晰了解它们的用途。

这个并行执行的任务栏，除了 TRAE 的 SOLO 模式，我在其他国产 AI 编程工具里面就没见过，希望能够跟进。

五、

SOLO 模型还提供其他一些 IDE 模式没有的功能。

（1）Plan 功能：先对任务进行思考，产生一个"执行计划"，等你批准以后再实际执行（下图）。

（2）上下文压缩：智能压缩过长的上下文，防止上下文变得太长导致的模型效果下降，同时显著节省使用 AI 的成本。

（3）代码变更：更好的代码 DiffView 视图，帮助用户快速了解 AI 对代码的变更。

六、

最后总结一下，TRAE 的 SOLO 模式提供了很多 IDE 模式下没有的功能，更接近终端的用法。

由于贴近终端，所以它能做到多任务并行，以及任务执行过程中更好的实时感知。

TRAE 在一个软件里面，集成了 IDE 和 SOLO 两种模式，无疑为程序员提供了最大的灵活性。

再加上国内版完全免费，超大上下文窗口，对于那些既想拥有 IDE 的便捷性，又想拥有终端多任务并行能力的同学，可谓再合适不过的选择。

TRAE 国内版和国际版，都有 SOLO 模式，区别是国内版免费，而国际版提供国外模型，大家可以根据需求选择下载。

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2025年11月26日

科技爱好者周刊（第 374 期）：6GHz 的问题

阮一峰的网络日志

21 November 2025 at 08:10

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

香港湾仔新建成的"水上运动及康乐主题区"，是维多利亚港首个没有栏杆的堤岸，游人可拾级而下亲近海水。（via）

6GHz 的问题

本周的新闻，欧洲做出决定，6GHz 怎么分配。

欧洲把 6GHz 一分为二，较低的频段给 WiFi 使用，较高的频段留给手机通信。

这跟美国和中国都不一样，美国把整个 6GHz 分配给 WiFi，中国则是全部分配给手机通信。

我来说说，对于这个新闻的感想。

对于不了解的朋友，我先说说 6GHz 是怎么回事。

家庭的无线局域网（WiFi）只能使用固定频率的信号。最早的频率是 2.4GHz，所有设备都用这个频率，就造成了信道拥挤、信号不稳定。

后来，增加了 5GHz。但是这个频率现在也不太够用，在大城市的高层住宅，打开手机，能搜到几十个无线网络。那么多设备都用这个频率，通信就很拥挤了。

大家就想到，再给 WiFi 增加一个频段，目光就瞄准了 6GHz。这个频段还没有指定用途。

如果 6GHz 用作 WiFi，最大的好处就是不会发生拥堵。因为它的波长短，所以穿墙能力差，实际上不能穿墙。也就是说，你在屋里只能连上你自己的 6GHz 信号，别处的信号传不进来。

而且，它的带宽大，网速更快，可以打造高速 WiFi，适合 VR 头盔这类吃带宽的设备。

但是，问题就来了，6GHz 除了用作 WiFi，还可以用作手机通信。手机通信的频段能够供大量人群同时使用，比只供一家人使用的 WiFi，频段利用效率更高，公共效益更大。

前面说了，中国的决定是，整个 6GHz 都留给手机通信，也就是说 WiFi 不能使用这个频段。

所以，有些追求高网速的国内用户，就会去买国外的无线路由器，以及支持 6GHz 的硬件（比如苹果设备），实现家庭的高速 WiFi。

我的想法是，WiFi 只有 2.4GHz 和 5GHz 确实不太够，如果能增加一个高速频段就很好，不仅满足大带宽通信，还能促进设备升级，带动消费。

6GHz 的完整频段是 5925MHz 到 7125MHz，听过国内明确留给手机通信的是 6425MHz 到 7125MHz 这一段，至于剩下的 5925Mhz 到 6425MHz 怎么分配还没明文规定（参见百度百科）。

如果是真的，是否可以考虑放出 5925Mhz 到 6425MHz 这一段，就像美国的规定，任何人无需许可就能使用这个频率。这样的话，个人和企业就有了一个可以自由使用的高速通信频率，为更多的创新创造条件。

科技动态

1、一个光日

1977年9月5日，美国发射宇宙飞船"旅行者1号"。它是目前飞行距离最远的飞行器，已经飞离了太阳系。

根据计算，2026年11月13日，它将距离地球"1光日"（光在一天内传播的距离），成为首个达到这个距离的人造飞行器。

届时，旅行者1号将距离地球259亿公里，这段距离光只需要1天，它耗时近50年。

在当前位置，地球的指令到达它需要23小时29分27秒，过了1光日，就要第二天才能收到。

科学家预计，再过300年，旅行者1号就会进入太阳系旁边的奥尔特云团，穿过该云团需要大约30000年。

2、输电铁塔

奥地利正在改造输电铁塔，让其变得更美观，更像景观。

上图是鹳，另一个已经落成的设计是雄鹿（下图）。

奥地利电网公司打算一共设计9种动物形状的铁塔，象征奥地利的9个州，目前已经完成了两个。

许多人都反对，在村庄旁边修建输电塔。电网公司希望，这些具有视觉吸引力的铁塔，可以让人们更容易接受它。

3、在线会议的 AI 化妆

Google Meet 推出 AI 化妆按钮，帮你在线上会议"虚拟化妆"。

上图右侧是可选择的12种妆容，左侧窗口是预览画画，也就是别人看到的你的样子，数字化妆保证你看上去"光彩照人"。

以后，颜值滤镜将是视频通话软件的标配。

4、钥匙扣相机

柯达公司推出了一扣挂在钥匙扣上的相机，而且样子很复古。

这款相机很小，重量仅30克，但是功能齐全，配有取景器、LCD 屏幕、Type-C 端口、闪光灯、microSD 插槽。

它的画质不行，传感器只有 1/4 英寸，只能拍摄 1,440 x 1,440 的 JPEG 照片。

但是，它的价格只有30美元，加上造型不错，还是有很多人愿意买单。目前，它在柯达官网出售，显示缺货。

文章

1、中国 AI 模型是纸老虎（英文）

一个美国人的文章，批评中国 AI 模型不如看上去那样好。

我认为，他的观点太偏颇，很多论据站不住脚，读上去酸溜溜，但是可以作为参考。

2、WhatsApp 现在使用 WebView（英文）

通信软件 WhatsApp 的 Windows 版，原先是一个原生桌面应用。

作者震惊地发现，它的新版本居然退回了 WebView，成为网页版的包装器，性能急剧下降，内存占用 1GB。原因可能是 Meta 公司裁掉了 Windows 版的开发团队。

3、Vibe Coding 面试感受（中文）

作者团队的面试，开始改为让应聘者用 AI 实现一个功能，作者谈了实施的感受。（@thuwyh 投稿）

4、本地运行 AI 模型的方法（英文）

本文介绍在本地计算机运行 AI 模型的几种方法：LM Studio、Ollama、LMStudio。

5、我们在 Zed 里面办公（英文）

Zed 是一个全新的代码编辑器，正在密集开发。除了文档编辑以外，Zed 团队也用它来开会和讨论，它内置了讨论区和实时协作。

6、中级程序员的标志（英文）

今年是作者从事专业编程的第十年，他认为自己属于中级程序员，总结了自己的工作内容。

他说，做到了这些事，你就达到了中级程序员的标准。

工具

1、LibrePods

在非苹果设备上（比如安卓手机和 Linux），使用 AirPods 耳机的工具。

2、IDEmacs

将 Emacs 配置成 VS Code 样式的一套配置。

3、Kratos

开源的身份认证服务器，支持多种认证方式，可以替代 Auth0 和 Okta。

4、Biu

一个开源的跨平台桌面应用，基于 API 来搜索和播放 Bilibili 平台的音乐，支持登录获取收藏夹歌曲。（@wood3n 投稿）

5、Enjoy Git

中文的 Git 桌面图形客户端，暂时只有 Windows 版。（@huangcs427 投稿）

6、Readdig

开源 RSS 阅读和 Podcasts 播放网站。（@copilot-is 投稿）

7、Tiny SVG

开源的网页版 SVG 压缩，可以在线试用。（@mutou981 投稿）

8、fssh

苹果笔记本的 SSH 私钥保护器，登录服务器时直接指纹认证。（@Mister-leo 投稿）

9、CrossDesk

开源的远程桌面软件，跨平台，支持硬件加速和 Web 访问。（@kunkundi 投稿）

10、Git PR AI

一个命令行工具，跟 JIRA 配套，可以直接从 JIRA Ticket 生成 Git 分支，并带有 AI 功能。（@leochiu-a 投稿）

AI 相关

1、Antigravity

谷歌本周发布的 IDE 产品，用于 AI 编程，也是基于 VS Code。

2、Code Wiki

谷歌新发布的服务，使用 Gemini 模型为代码库生成文档。

3、Open CoreUI

使用 Rust 语言重写的 Open WebUI，降低了内存和资源消耗，有服务器版和桌面版。（@xxnuo 投稿）

4、Continuous Claude

一个命令行工具，可以对同一个任务循环运行 Claude Code，允许指定运行次数。

资源

1、随机性测试指南（英文）

这个网站给出一系列方法，测试某种随机数生成器是否足够随机，所有测试方法都有详细易懂的解释，可以用来学习统计学。

2、强化学习的数学基础（Mathematical Foundations of Reinforcement Learning）

开源的英文电子书，介绍强化学习的基础数学知识。

3、Erlang 初学者教程（learn you some Erlang）

Erlang 是一种函数式语言，适合分布式、高可用环境。这个网站是面向初学者的英文教程。

图片

1、

一家巴基斯坦报纸，不慎将 AI 的对话跟着文章一起发表了。

上图文章结尾的红框处，写着："如果您愿意，我还可以生成一个更醒目的'首页风格'版本，配以简洁有力的单行统计数据和醒目、信息图表式的布局----完美契合最多读者需求。您希望我接下来生成这个吗？"（If you want, I can also create an even snappier "front-page style" version with punchy one-line stats and a bold, infographic-ready layout -- perfect for maximum reader impact. Do you want me to do that next?）

如果报纸都用 AI 写稿，读者是否还有必要订阅？

1、神秘的土坑带

秘鲁南部的一个山谷，有着一条长长的土坑带，整齐地排列着5000多个土坑，非常神秘。

这明显是人工的，但是没有任何记载，不知道是谁修建的？有什么用途？

上图中间的一长条，都是土坑。

考古学家在土坑中发现了玉米花粉和芦苇。玉米是古代这个地区的主粮，而芦苇可以用来编织篮子。

因此人们猜测，这里是印加帝国的一个大型集市，这些土坑用来存放货物。

文摘

1、世界第一个 App 商店

世界第一个 App 商店，出现在上个世纪80年代的日本，方便用户付费购买软件。

它采用自动售货机的形式，因此也是世界第一台以数字形式出售软件的自动售货机。

1986年的时候，软件都是以磁盘形式出售。一个软件通常就是几百 KB，正好放到一张磁盘里面。

上图左下角就是当时的磁盘。

需要新软件的时候，人们往往删除磁盘的旧数据，拿来拷贝。一家日本公司由此想到，可以制造一种机器，让人们插入磁盘，把选择的软件拷贝在上面。

上面就是这家公司造出来的软件自动售货机。

你把磁盘插入机器，在屏幕上选择自己想要的软件，支付费用后，机器自动把软件拷贝到磁盘上，然后你就可以带着软件回家。

如果软件附带手册，它还会把手册打印出来给你。

这在当时是一项革命性的发明，一经推出就轰动了市场。当时还没有互联网，购买软件都要去实体商店，有了这种机器，你在街角就可以购买软件。

这种机器的致命伤在于，它内部的硬盘不够大，只能储存最热门的几种软件（大部分是游戏）。如果用户想购买其他软件，就必须等这台机器去远程下载。

当时采用电话线拨号下载，网速只有每秒约 1.2 KB，一个游戏的下载时间有时达到20分钟。这段时间内，用户只能在机器旁边等着，其他人也不能使用这台机器。如果下载中途断线，就必须从头来过。

为了解决这个问题，这家公司让机器每晚自动下载最新游戏。但还是不能完全避免用户的等待。

最高峰时，这种机器在日本全国一共安装了300多台。直到1997年，才完全退出历史舞台。

言论

1、

我希望让机器人坐在自动驾驶的出租车里运送包裹。

出租车自动驾驶到达目的地后，机器人负责搬运货物到门口。

-- 马斯克谈对于 Optimus 机器人的发展愿景

2、

亚洲常见的一种攻击方法是，诈骗分子打电话给受害者，冒充银行员工，警告受害者账户已被盗用，并指示他们安装一个应用程序来保护资金安全。

诈骗分子还会蒙骗受害者，让他们在安装应用程序的过程中忽略安全警告。这个应用是伪装成合法应用的恶意软件，会窃取受害者的登录信息，并拦截访问银行账户所需的双因素验证码。

-- 谷歌用这个案例解释，为什么需要实施"安卓开发者认证计划"

3、

既然 AI 可以按需提供你的代码所需的特定功能，为什么还要增加额外的供应链风险，引入另一个依赖项呢？

因此，小型的、低价值的依赖项在未来会消失。

-- 《"小型"开源软件的命运》

4、

基因疗法可能实现一次治愈病人，这对于公司的持续收入很不利。

相比慢性疗法，治愈病人是一种可持续的商业模式吗？

-- 高盛公司的一份研究报告

5、

去年，互联网上机器人流量第一次超过了人类流量。根据一份报告，自动化系统在2024年占所有网络流量的51%，而且 AI 生成的文章数量也在2024年底首次超过了人类撰写的文章。

-- 《互联网已死》

往年回顾

没有链接的互联网（#327）

工作台副屏的最佳选择（#277）

脸书的公司入职教育（#227）

iPad 的真正用途（#177）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2025年11月21日

VS Code 使用国产大模型 MiniMax M2 教程

阮一峰的网络日志

19 November 2025 at 08:30

一、

上周，我写了一篇 Claude Code 接入国产大模型的教程，就有同学问我，为什么不用 VS Code？

问得好。我习惯命令行了，确实忽略了 VS Code。

今天就补上，我来介绍，如何不用插件在 VS Code 里面使用 Claude Code。

我真心觉得，Claude Code 比插件好用，所以试试看跳过插件，直接在 VS Code 里面使用它。

跟以前一样，这一次 Claude Code 也是接入国产大模型，我选的是 MiniMax M2。它的质量很不错，而且这周有活动。

二、

这次评测的题目很有趣，我自己都很喜欢。

它是一个老外程序员最近想出来的，已经在国外引起了轰动。

他用了九个著名模型，生成网页时钟的动画，然后把这些动画放在网站上，网站标题就叫"AI 时钟"。

说来奇怪，这个测试看上去不难，但是大多数模型生成的效果并不好，有些甚至很差。

举例来说，下图是 OpenAI 公司 GPT-5 模型生成的时钟，让人无语。

这个时钟的提示词如下，大家可以拿来自己测。

Create HTML/CSS of an analog clock showing ${time}. Include numbers (or numerals) if you wish, and have a CSS animated second hand. Make it responsive and use a white background. Return ONLY the HTML/CSS code with no markdown formatting.

翻译成中文就是：

"创建一个显示时间 ${time} 的模拟时钟的 HTML/CSS 代码。如果需要，可以包含数字，并添加 CSS 动画秒针。使其具有响应式设计，并使用白色背景。仅返回 HTML/CSS 代码，不要包含任何 Markdown 格式。"

我也拿它来测试，看看 MiniMax M2 的效果如何。

三、

进入正题之前，我想强调一下，VS Code 与 Claude Code 是两种截然不同的工具。

VS Code 是 IDE，你是在 IDE 里面使用 AI。

Claude Code 是命令行工具，你是在终端窗口使用 AI。

它们的特点完全不同。IDE 支持智能感知（intellisense）和自动补全，而命令行支持调用系统工具和脚本，还能自动化集成，以及并行执行。

所以，它们两个不是替代关系，而是互补关系。你应该根据需要，选择最合适的工具。

我要演示的方法，正是将 IDE 和命令行结合起来，让你具有最大的灵活性。

四、

我用来测试的模型是 MiniMax M2，说一下为什么选择它。

它是上月底（10月27日）发布的，很多评测显示它是编程能力最强的开源模型之一，而且在 OpenRouter 平台上，它是 Token 调用量最大的国产模型。

我当时对它做了评测，大家还有印象吗？结论是，它的编程表现超出了我的预期。

但是那个时候，它没有包月套餐，只能按 API 使用量计费，就让人不敢多用。

现在不一样了，上个周末，它突然推出了 Coding Plan 包月套餐，有三档资费。

最低一档针对普通强度的使用，首月只要9.9元，（续费29元/月），这就很划算了。

除了这个优惠活动，它还有两个特点，很适合这篇教程。

（1）兼容性好，接入外部工具很容易。我用它接入 Claude Code 和 VS Code 都非常顺利。

官网文档给出接口示例的工具非常全，包括 Cursor、Cline、Codex、Kilo Code、Droid、Trae、Grok、OpenCode、iFlow 等等。

（2）响应速度、生成速度快。它的 API 服务器，在国内的响应时间一般是几十毫秒，每秒生成 Token 的数量（即 TPS 指标）超过100，比国外模型快得多。

五、

现在进入正题，首先是一些准备工作，要将 MiniMax M2 接入 Claude Code。

具体步骤就不详述了，大家按照前一篇教程就可以了。

简单说，就是新建一个claude-minimax 脚本（下图），将从 MiniMax M2 官网获取的接口参数填入。

完成后，可以测试一下，看看能否正常运行。


$ claude-minimax --version

六、

下面就是在 VS Code 使用 Claude Code 生成网页时钟的测试。

第一步，新建一个本地目录作为项目目录，比如ai-clock。


$ mkdir ai-clock

然后，在 VS Code 里面打开这个目录 ai-clock，作为工作区。

第二步，打开 VS Code 的菜单"终端/新建终端"，在这个终端窗口里面，输入 claude-minimax。


$ claude-minimax

这时，窗口会提示你授予权限，同意后，就会进入主界面，大概就是下面这样。

现在，我们就能在 VS Code 里面使用命令行的 Claude Code 了。

这时，你既可以使用 IDE 编写代码，又可以通过命令行使用 AI 模型，兼得两者的优势。

第三步，在 Claude Code 的提示符后面，输入/init命令，用来在仓库里面生成一个 CLAUDE.md 文件，记录 AI 对这个仓库操作。


/init

生成结束后，你可以打开看一下 CLAUDE.md 文件（下图）。

因为我们这个示例仓库是空的，所以文件里面没什么内容。如果是有现成代码的仓库，文件里面会有 AI 对代码库的详细解析。

这个文件的作用是当作上下文，每次查询模型时，都会自动附上这个文件，以便模型了解代码库。

如果在提示框输入反斜杠，Claude Code 就会显示所有可用的命令（下图）。

通过这些命令，我们就能使用 Claude Code 的强大功能，完成各种 AI 操作了。

这一步是 Claude Code 的基础用法，对所有项目都是通用的。

第四步，在提示框输入前面的提示词（下图），让模型生成网页时钟。

MiniMax M2 思考了不到一分钟，就生成完毕了（下图），并且自动把这些代码写入文件 index.html。

打开网页就是下面的效果。

真的很不错，第一次就能有这样的效果。钟面的形状正确，秒钟跳动的动画十分流畅，每秒都在刷新，显示当前时间。

大家可以使用这个提示词，自己去生成看看，如果手边没有 Claude Code，可以在官网上执行。

也可以查看我得到的完整代码，复制保存成 HTML 文件，在浏览器打开。

七、

从这个测试结果来看，MiniMax M2 的生成结果，无论是横向对比，还是实际效果，都是令人满意的。

结合它现在的价格，性价比很高，我认为值得推荐给大家上手尝试。

最后，转发一下他们的 Coding Plan 活动的海报，首月9.9元，一杯咖啡的钱，包月使用最新的 AI 编程模型，需要者自取。

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2025年11月19日

科技爱好者周刊（第 373 期）：数据模型是新产品的核心

阮一峰的网络日志

14 November 2025 at 08:06

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

甘肃省酒泉市今年开业的悬泉置景区，是一个汉代的丝绸之路驿站，供往来西域的客人投宿。中国现存的8万多片汉代简牍，有3万多片发现于这个驿站。（via）

数据模型是新产品的核心

（1）

著名计算机学家、Pascal 语言之父沃斯说过一句著名的话。

算法 + 数据结构 = 程序

他甚至写了一本书，书名就是这句话。

在他看来，数据结构跟算法一样，是最重要的事情，反倒是编程语言不怎么重要。

如果数据结构不对，程序十有八九会有问题；反之，数据结构对了，解法往往很容易看出来。

（2）

我前些天看到一篇文章，也是这个观点，甚至更进一步提出，数据模型不仅是程序的核心，也是新产品的核心。

他认为，数据结构决定了产品的形态，只要改变一下数据模型，往往就是一种新产品。

文章举了很多例子，非常有启发，我跟大家分享。

（3）

最初的聊天软件，都是以人为中心，两人或两人以上组成一个聊天。

它的数据模型就是围绕人建模，要是成员全部退出，聊天就结束。

后来，新的群聊软件 Slack 诞生了。

它的数据模型变了，核心不是人，而是话题。一个话题就是一个容器，所有相关的聊天都在里面，又叫做频道（channel）。

即使成员全部退出，没人聊天了，频道依然存在，话题的完整上下文也不会消失。新成员加入后，可以看到以前的所有讨论。

由于这个特点，Slack 特别受企业欢迎，是目前公司内网工作聊天软件的首选。

你看，就因为 Slack 的数据模型变了，哪怕其他都没变，它就成了一个全然不同的产品，杀出了聊天软件的重围，在企业市场大放异彩。

（4）

再看两个例子。Notion 和谷歌文档都是文档软件，都用来写文档，但是它们的数据模型不一样。

谷歌文档就是传统模型，以单篇文档为中心。

Notion 模型的核心其实不是文档，而是页面。一个页面就是一个容器，你可以组合多篇文档，呈现在一起。

Figma 和 Photoshop 都是设计软件。

PhotoShop 模型的核心是图像，所有编辑都归属于某张图像。

Figma 模型的核心，我觉得，是工作区。一个设计稿就是一个工作区，里面可以有多张图像，其他人可以参与进来，留言讨论。

（5）

总之，数据模型稍作变化，就会产生一种新产品。它跟现有的产品有区别，从而能够打开新的市场。

这启发我们，如果你的产品跟别人雷同，那么不妨思考一下，能否改变数据模型。

科技动态

1、澳大利亚安装了大量光伏板，出现了一个新的烦恼。

那就是电太多，白天用不完。政府打算推出一个计划，中午太阳光最强的时候，用电免费。

政府要求电力公司每天至少向所有人免费提供三个小时的电。如果你自己购买电池，把电储存起来，甚至可以全天免费用电。

随着太阳能的发展，人类有望进入低电价甚至零电价的时代（至少在白天）。

2、

最近，纽约市的地铁站出现了同一个 AI 广告。

那是一个 AI 吊坠，佩戴者可以跟它说话，售价129美元。

这个广告到处都是，墙壁、车身、车厢，无处不在。

该公司的 CEO 说，当他得知买下纽约地铁的广告，每月仅需不到100万美元，觉得很便宜，立刻就买下了。

但是，广告投放一个多月后，产品只卖出3100个，货值不到40万美元，怎么看都是一笔巨亏的买卖。

不过，CEO 很乐观，相信等到产品在沃尔玛上架，销量就会快速提升。他认为，人们会需要这个吊坠作为 AI 伴侣，它帮助用户"显著提高情商，重新定义朋友"，为此他还准备在洛杉矶和芝加哥，投入巨额广告费。

这就是 AI 设备和应用的现状：实际的销量不大，但需要巨额推广费用，AI 公司对此毫无怨言。

3、世界最大的捕风伞，最近在内蒙古阿拉善左旗试验场成功开伞和收伞。

它的展开面积达到5000平方米，在高空中吸收风力，进行发电。

高空才有大风，科学家很早就想出捕风伞，它就像一个放大的风筝，升到300米以上的高空捕获风能，再通过牵引缆绳，拉动地面的发电机转动发电。

4、苹果的 Vision Pro 头盔刚发布的 VisionOS 26 系统，增加了一个空间头像功能。

它通过内部摄像头，拍摄用户的头部，然后使用高斯泼溅算法，将 2D 头像变成逼真的空间 3D 头像。

用户通话时，就能看到对方栩栩如生的头像，浮在空气中，对你说话，表情动作都是实时的。当然，前提是双方都必须戴着头盔。

该功能最多可以扩展到5个人同时通话。

这个功能令人遐想，如果再为头像配上虚拟的身体，是不是就能看到对方在空间中做动作。

文章

1、一个伊朗程序员的求助（英文）

一个伊朗程序员开发了一个 AI 虚拟头像生成器，但是发现由于美国制裁，根本不可能向国外出售，于是在 GitHub 求助。

我没有客户，没有收入，积蓄已经用光，而且已经积极找了九个月的工作，却一无所获。我的妻子是一名护士，每天从早上五点工作到晚上七点，而我却坐在电脑前，开发一些连房租都付不起的东西。

我在伊朗无法使用 Stripe、PayPal 等西方支付处理商，也无法使用 AWS、GCP、Azure 等云服务商，我不能用西方银行账户接受付款，也不能接受顾客使用信用卡付款。

2、我讨厌代码截图（英文）

一个老外程序员呼吁，客户遇到问题时，不要再向他发送代码截图了，因为无法拷贝代码，而要发送代码链接。

3、图片是否比文字节省 token？（英文）

本文验证如果把提示词从文字转成图片，是否更节省 token？

答案是提示词本身确实节省了 token，但是模型会用更多的 token 来补全上下文，所以总体上并没有节省。

4、Dijkstra 算法详细图解（中文）

Dijkstra 算法是寻找两点间最短路径的经典算法，本文用一步步的详细图解，解释这个算法。

5、Web Monetization API 试用体会（英文）

浏览器有一个实验 API，用来让访问者向站长捐款，本文是这个 API 的试用报告。

6、AI 插件的模型成本比较（英文）

本文使用实际的编程任务，对 VS Code 的两个 AI 编程插件进行成本比较：Augment Code 和 Kilo Code。

前者不能更换模型，必须使用内置的 Claude Sonnet 4.5；后者可以配置自己的模型，到底谁更省钱。

工具

1、MagicMirror²

一个显示各种信息的面板应用，可以用于信息屏或者智能镜子。

2、btop

htop 命令的升级版，在终端里面详细展示系统信息。

3、DroidDock

一个 Mac 桌面应用，可以连接安卓手机，管理手机文件。

4、RedisFX

轻量级的 Redis 图形界面，使用 JavaFX 开发，运行在 JVM 上。（@tanhuang2016 投稿）

5、Pingap

一个 Rust 语言开发的反向代理服务器，类似于 nginx，内置各种插件（身份验证、安全、流量控制、内容修改等）。（@vicanso 投稿）

6、Alle

开源的邮件聚合管理平台，基于 Cloudflare Workers 部署。在一个界面查看所有邮箱的收件，并带有邮件的 AI 处理。（@bestruirui 投稿）

7、gocron

Linux 的定时任务管理系统，使用 Go 语言开发，自带 Web 界面，用于替代原生的 crontab。（@gocronx 投稿）

8、markdown-it-ts

Markdown 语法解析库 markdown-it 的 TypeScript 重写。（@Simon-He95 投稿）

9、TUIOS

一个很奇特的软件，终端窗口内部的窗口管理器，在一个终端里面管理多个终端对话窗口。（@kero990 投稿）

10、XMSLEEP

开源的安卓白噪音应用。（@Tosencen 投稿）

AI 相关

1、Davia

这个开源工具使用 AI 将代码库变成一份可视化文档。

2、VoidMuse

一个学习目录的 AI 插件，支持 IDEA 和 VS Code，代码开源，用于这类 AI 编程助手的开发教学。（@voidmuse-dev 投稿）

3、UPage

基于大模型的可视化网页构建平台，Lovable 的开源替代。（@wan92hen 投稿）

4、Pair Translate

一个开源的浏览器插件，用来翻译网页，可以配置翻译服务提供商或 AI 模型。（@Cookee24 投稿）

5、DatasetLoom

开源的 Web 应用，为多模态大模型构建训练数据。（@599yongyang 投稿）

6、Cordys CRM

开源的 AI CRM 系统（客户关系管理系统）。（@maninhill 投稿）

资源

1、stickertop.art

这个网站收集贴了贴纸的笔记本照片。

2、TypeScript 类型图解

这个网站用图形讲解 TypeScript 类型。

3、各国现金使用比例

这个网站有2025年各国使用现金的比例，可以作为出国参考。中国的现金比例是10%，是最低的国家之一。

图片

1、麻省理工学院的入学考试题

下图是大清同治八年（1869年）麻省理工学院入学试卷的代数题。

2、古埃及象形文字

一个冰岛程序员请教专家，将"hello world"这句话翻译成古埃及象形文字。

因为古埃及没有 world 的概念，这句话直译就是"欢迎，整个大陆"。

文摘

1、公司越大，越容易做出复杂的产品

大公司容易做出复杂的产品，这主要有两个原因。

（1）公司的人越多，产品复杂度就越高，因为每个人都想留下自己的印记。

大公司的规则是，当你贡献了某种新功能，就会得到晋升。

哪怕这些功能是多余的，十个月后就会发现它们毫无用处，它们的开发者也会收到奖励，所以所有人总是热衷于添加新功能。

（2）公司规模越大，客户越多，就越需要应对具体的用例。

销售人员会告诉你，一些客户需要这个功能；客户支持人员则会告诉你，另一些用户提出了那个需求。

除非你有足够的远见，指出它们不符合软件发展的愿景，否则你就不得不按照那些人的要求，不停地添加功能。

现实中，大公司内部有各种压力，程序员几乎没有自己的立场，必须取悦所有上级部门，在各种压力之间搞平衡，最终就做出具有巨大复杂性的软件。

言论

1、

跟常规 API 不同，MCP 作为接口有一个好处。

常规 API 是对开发者的一种承诺，发布后不能轻易改变。但是，MCP 接口只供大模型调用，而大模型每次都会动态读取使用规范，因此我们能够随时更改 MCP 服务器，不会有任何问题。

-- 史蒂夫·克劳斯，美国程序员

2、

如果你向人们展示问题，又向他们展示解决方案，人们就会受到触动并采取行动。

-- 比尔·盖茨

3、

地球表面的岩石，25%属于碳酸盐岩。这种石头大部分源于生物的有机体分解。这意味着，很多碳酸盐岩以前是生命体。

-- 《我对死亡的思考》

4、

那些鼓吹 AI 编程的人是否意识到，AI 必定会带来大量垃圾代码和"理解债务"。

-- Hacker News 读者

5、

最近，我在思考一个问题，如果 AI 能够将我们的语言翻译成可运行的代码，那么我们还需要编程语言吗？

-- 《语言无关的编程》

往年回顾

世界没有那么多财富（#326）

内容行业的衰落（#276）

谷歌出了什么问题？（#226）

中国法院承认 GPL 吗？（#176）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2025年11月14日

阮一峰的网络日志
国产大模型接入 Claude Code 教程：以 Doubao-Seed-Code 为例
11 November 2025 at 15:30

国产大模型接入 Claude Code 教程：以 Doubao-Seed-Code 为例

阮一峰的网络日志

11 November 2025 at 15:30

一、

国产大模型如火如荼，新模型层出不穷，大家有没有在用？

很多同学用惯了现有模型，懒得尝试新模型，真的很可惜。

我的做法是，只要是新模型，就尽量试用，体验最新训练成果。而且，推广期往往有优惠，不用白不用。

今天就来分享，我怎么把国产大模型接入 Claude Code。

大家知道，Claude Code 是眼下最流行、公认功能最强的 AI 终端，但是限制国人使用。所以，我们要换掉它的底层模型。

大家用我的方法，只需要几分钟，就可以简易快速地接入各种国产大模型，丝滑使用。

这几天，字节旗下的豆包，正好发布了最新的编程模型 Doubao-Seed-Code。

我就拿它来演示，顺便测一下这个模型。

二、

我要分享的方法，完全不影响 Claude Code 本身，它还能正常使用。

也就是说，执行 claude 命令，调用的还是原来的 Claude Sonnet 4.5 模型。


$ claude

我会新增一个 claude-doubao 命令，执行后底层模型就切换了。


$ claude-doubao

这时，Claude Code 的功能一样都不少，但是使用的模型已经变成了 Doubao-Seed-Code。

上面两个命令，可以同时使用，互不影响。你还能继续添加其他模型，每一个模型都有自己的调用命令，最大程度方便测试新模型。

三、

开始之前，我先简单介绍一下 Doubao-Seed-Code，优秀的国产模型值得好好宣传。

它属于豆包大模型系列，是该系列第一个专门用于编程推理的模型。也就是说，这是字节跳动首次发布编程模型。

根据 SWE-bench 的评测，它和同是字节旗下的智能 IDE 产品 Trae 的组合，在 SWE-Bench-Verified 的排行榜位列第一。

我对这个模型非常感兴趣，主要有三个原因。

（1）它是大厂的主推模型，模型质量、性能表现、响应速度都有保证。

（2）它原生兼容 Anthropic API，可以丝滑接入 Claude Code，不用任何调整，是国外模型很好的平替。

（3）它价格便宜，现在有一个 Coding Plan 活动，可以 API 包月。一般强度使用的情况下，首月只要9.9元（续费40元/月），官方的宣传是"属于国内最低价格"。

大家可以在火山方舟，开通这个模型的 API Key，后面要用到。

四、

下面就来演示，Doubao-Seed-Code 如何快捷接入 Claude Code。

如果你已经安装了 Claude Code，下面的方法完全不影响，还是正常使用。

如果还没有安装 Claude Code，但想体验它的 Claude Sonnet 4.5 模型，可以根据官方文档进行安装，跟下面的方法也不冲突。

更改底层模型，只需要三个步骤，几分钟即可。

第一步，新建一个项目目录claude-model，在里面安装一个单独的 Claude Code。


$ mkdir ~/claude-model
$ cd ~/claude-model
$ npm init -y
$ npm install @anthropic-ai/claude-code

然后，新建一个子目录 .claude-doubao，用来存放豆包的配置文件和缓存。


$ mkdir .claude-doubao

第二步，新建一个子目录 bin，用来存放可执行脚本。


$ mkdir ~/claude-model/bin

然后，要把这个 bin 目录放入 PATH 变量，让系统可以找到里面的命令。

PATH 变量的设置，macOS 可以修改 ～/.bash_profile 文件，Linux 可以修改 ~/.bashrc 文件，大概改成下面这样。


export PATH="$HOME/claude-model/bin:$PATH"

改完后，别忘了重启终端。

第三步，在上一步创建的 bin 目录里面，新建一个名为claude-doubao 的脚本，用来调用豆包模型。


$ touch ~/claude-model/bin/claude-doubao

在这个 claude-doubao 脚本里面，输入下面的内容。


#!/usr/bin/env bash
# Wrapper for Claude Code CLI using Doubao API

CLAUDE_BIN="$HOME/claude-model/node_modules/.bin/claude"

# Inject API credentials
export ANTHROPIC_AUTH_TOKEN="YOUR_DOUBAO_API_KEY"
export ANTHROPIC_BASE_URL="https://ark.cn-beijing.volces.com/api/compatible"
export ANTHROPIC_MODEL="doubao-seed-code-preview-latest"
export API_TIMEOUT_MS=3000000

# Keep a separate config dir (optional)
export CLAUDE_CONFIG_DIR="$HOME/claude-model/.claude-doubao"

exec "$CLAUDE_BIN" "$@"

注意，上面脚本里面的 API Key，要填入你自己申请的 Key。另外，模型的名称和 URL 可能会发生变化，最好核对一下最新的官方文档。

然后，将它变成可执行脚本。


$ chmod +x ~/claude-model/bin/claude-doubao

这样就完成了所有步骤，可以开始使用了。

先测一下，Claude Code 是否正常运行。


$ claude-doubao --version

以后，调用 Doubao-Seed-Code 模型，就用 claude-doubao 命令；调用原始的 Claude Code，就用 claude命令。


# 调用 Doubao-Seed-Code
$ claude-doubao

# 调用原始模型
$ claude

上面的方法是通用的，其他模型也可以这样添加。

五、

下面，我们就用 Claude Code 来调用 Doubao-Seed-Code 模型，测试它的表现。

以前，有一个著名的游戏《太空侵略者》（Space Invaders），大家都玩过吧，就是战斗机发射子弹，击落外星人舰队。

我让 Doubao-Seed-Code 来生成这个游戏。

首先，新建一个项目目录 space-invaders，在该目录中启动 Claude Code（使用claude-doubao命令）。


$ mkdir space-invaders
$ cd space-invaders
$ claude-doubao

然后，填入提示词，"使用 HTML 和 JavaScript 在网页上实现《太空侵略者》"。

Write an HTML and JavaScript page implementing space invaders

屏幕上就会不停滚动模型的思考步骤，大概两三分钟，所有文件就在 space-invaders 目录里面生成完毕。

上面就是浏览器的网页截屏，我没有做任何的修改，第一次生成就是可玩的，没有报错，所有操作都正常，令人满意。

生成的 HTML 源码看这里，你可以复制过去，在浏览器打开玩玩看。模型的完整对话看这里。

接着，我还测试让它生成的"鹈鹕骑自行车"的 SVG 图片，大家自己看效果吧。

六、

总结一下，我用下来，Claude Code 接入 Doubao-Seed-Code 以后，用起来非常流畅，响应速度快，体验上跟原生模型没有差异。

至于 Doubao-Seed-Code 这个编程模型本身，总体上令人满意：一步步的推理非常清晰，思考时间短，生成的代码完成度高，且容易读懂，往往一次就能运行成功。

考虑到它现在有 Coding Plan 活动，9.9元就可以 API 包月，性价比很高，大家如果需要编程模型，建议开通。

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2025年11月11日

科技爱好者周刊（第 372 期）：软件界面如何设计

阮一峰的网络日志

7 November 2025 at 08:14

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

冬日的北京国家图书馆自习大厅。（via）

软件界面如何设计

（1）

软件的用户界面（UI）是一门大学问。有一个行业专门研究它，就叫做"UI 设计"。

我觉得，很多写软件的程序员，对 UI 设计毫无感觉，不知道什么样的界面好用又美观。

他们自己搞的图形界面，只要把所有功能都堆积在界面上，就觉得完成了，也不管用户是否搞得明白。

这种例子很多，我举一个刚刚看到的。

（2）

有一个很有名的软件 Handbrake，可以转换视频格式。

它的功能非常强大，几乎所有视频格式都能识别，各种需求都能满足，而且免费、支持多平台。

但是，当你打开这个软件，看见界面的那一刻，顿时会产生一种畏惧感，除非你是高级用户。

上图就是它的主界面，各种设置一个接一个，布满了让外行摸不着头脑的文字说明。

如果用户不是专家，就会想：我该从哪里入手？会不会点错？如果去看教程，是否要花很多时间？

那些坚持不放弃的用户，也许接着会去打开"设置"菜单，想寻找一点提示，却遭受了更绝望的一击。

这个密密麻麻、充满术语的界面，会让你感到自己水平太低，够不上它的使用门槛。

你看，用户只是想找个小工具，转换一下视频格式，结果却被工具提示"你的能力不足"。

这就是糟糕的界面，不仅难用，还打击人。

（3）

一个老外程序员实在看不下去了，大众软件的界面有必要做成这个样子吗？

他自己动手做了一个新的 UI。

是不是一下子顺眼了？

这个界面一看就懂，完全没有心理负担。唯一的操作，就是上传视频，不可能搞错，因为其他地方都没法操作，只有当你添加文件后，唯一的按钮才可以点击。

你能相信吗，这个界面和上个界面，是同一个软件，做同样的事情？

这就是优秀 UI 设计的奥秘：避免多个操作入口，避免让用户做选择，所有设置尽量提供默认值。这样才不会让人迷惑，可以一路回车。

肯定有很多高级用户不赞同，提出一大堆置疑。

为什么要放弃 Handbrake 的强大功能？

如果有人想要不同的设置呢？

你考虑过特殊需求和极端情况吗？

解决方法很简单，就是再做一个专业版界面，也许就是 Handbrake 现在的样子。用户想要更多功能和个性化设置，那就自行切换。

（4）

很多生活用品也是类似的情况，有着一个复杂的界面。

就拿电视遥控器来说，布满了按钮，有必要吗？

以至于有人就把不需要的按钮，用胶布贴起来。

其实，贴了胶布以后，才是电视遥控器该有的界面！只留下那些必需的按钮。

大多数人用不到的按钮，完全可以藏在一个滑盖下面，让那些确实有需要的人，自己打开盖子去找。

[本周软件] NocoBase

如何快速开发业务系统？

你可能会说交给大模型，其实有更简单可靠的方法，就是 NocoBase。

AI-Employees

它是一个开源的低代码/零代码开发平台，在 GitHub 已经有17000颗星。

它的思路很简单:（1）接入数据库，（2）配置界面，所见即所得，（3）配置插件（权限插件、SSO 登录插件、打印插件、文档插件等等）。

AI-Employees

最新的2.x版本，还引入了 AI 员工，可以让大模型的能力无缝融入到业务系统，比如调查客户背景、分析数据，抓取供应商平台的报价。

发布四年多，它的商业版本已经收获了50多个国家/地区的用户，收入过千万。

大家可以在官网开通 demo，试试为自己的数据库加上操作界面，也可以从 GitHub 获取源代码自己部署。

科技动态

1、婚礼赞助

一个国外的创业者由于还没有成功，为婚礼的费用发愁。

他在网上发帖，询问有没有公司愿意赞助他的婚礼。作为回报，他将在婚礼上展示它们的名字。

结果有26家公司赞助他，下面就是婚礼当天的样子。

2、上海第一起 AI 提示词著作权案近日宣判。

某公司2022年撰写了6组提示词，在 Midjourney 平台生成绘画作品，并发布在小红书等平台。

后来，该公司发现，二位被告使用这些提示词生成画作并公开发布，就提起诉讼，要求二被告停止侵权，赔偿9900元。

法院认为，提示词仅为元素的简单罗列，缺乏语法逻辑关联，未体现出作者的个性化智力投入，不应认定为作品。于是，判决原告对提示词不享有著作权，不得主张著作权侵权。

3、一家美国公司宣布，全球首个家务机器人正式开卖，售价20000美元。

这个机器人的造型有点恐怖。

虽然它的价格不算特别贵，但是能够自主完成的操作非常有限，大部分动作都需要人工遥控，而且做事速度很慢，取一瓶水要1分钟。

4、Windows 系统的"关机"菜单里面，有一个"更新并关机"选项，大家可能都用过。

但是，这个选项有一个 bug，那就是系统更新后其实不会关机，而是重启等着你操作，准确名字应该是"更新并重启"。

微软一直没有修复，可能有20年了。最新的 25H2 更新包终于改掉了这个行为，更新系统后会自动关机。

5、美国的国防科技公司"安德里尔工业"（Anduril Industries），发表了一个智能头盔"鹰眼"（EagleEye）。

使用时，可以将面罩放下，把脑袋包裹在里面。

这个头盔会在眼前展示一个显示屏，将现场画面与地图、无人机、传感器叠加在一起，让士兵了解战场的全部情况。

这个头盔明年将交付美军。感觉上，未来的"元宇宙头盔"也许就是这种样子。

文章

1、如何架设一个暗网网站（英文）

暗网网站（网址后缀 .onion）是只能用 Tor 浏览器访问的网站，作者记录自己架设的过程，看上去不难。

2、如何简单地过滤爬虫（英文）

作者提出一种简单的方法，可以让网站过滤掉爬虫的请求，不需要防火墙，只需设置一下 Web 服务器即可（作者用的是 Caddy）。

3、你知道 HTML 表格 API 吗？（英文）

有一个古老的网页 API，允许用 JS 操作表格，虽然这些年很少人用，但是浏览器一直是支持的。

4、编译器发展状况（英文）

本文是一篇综述，介绍目前编译器工具的总体发展状况。

5、树莓派的最佳方式是网络启动（英文）

树莓派一般都是 SD 卡启动，作者建议改用网络启动。对于经常切换操作系统，或者你需要管理多台树莓派，非常方便。

6、《小小作品》系列（英文）

1999年至2006年，动画师朱志强创作的 Flash 动画系列《小小作品》（又称"火柴人"系列），风靡了国内互联网。本文回顾了他的故事，如今已经很少人记得了。

工具

1、Zensical

静态文档网站生成器 Material for MkDocs 的作者，写的升级版，完全兼容 MkDocs，但是解决了它的很多痛点。

2、Affinity

用于图像编辑的桌面软件，Photoshop 的替代品，被 Canva 公司收购后，现在可以免费下载使用。

3、FileBrowser Quantum

一个自搭建的、基于 Web 的文件管理器，参见介绍文章。

4、Texo

开源的数学公式 OCR 引擎，通过前端加载模型，将数学公式的截图转成 LaTex 语法，在线试用。（@alephpi 投稿）

5、TDesign uniapp

腾讯 TDesign 组件库的非官方 uniapp 适配，兼容 H5/微信小程序/支付宝小程序/APP 等。（@novlan1 投稿）

6、GreenWall

这个工具可以在 GitHub 提交日历上绘出指定的图形。（@zmrlft 投稿）

7、BakLab

一个开源的社区平台，将论坛发现功能和实时聊天互动结合在一起，标题链接是前端仓库，参考官网。（@oodzchen 投稿）

8、中国节假日

这个仓库提供一系列函数，方便你查询中国节假日、节气等等，每日通过 Action 自动更新数据，支持 iCal 日历订阅。（@vsme 投稿）

另有一个类似的项目，提供中国节假日的 JSON 文件。（@tomandjerry136 投稿）

9、QiLuo（祺洛）

Rust 技术栈开发的网站管理后台，采用 Axum 框架 + Sea ORM。（@chelunfu 投稿）

10、navsite

将飞书多维表格转成一个导航网站。（@wubh2012 投稿）

AI 相关

1、Jta

开源命令行工具，使用 AI 模型，翻译 JSON 文件，主要用于语言包的翻译，支持27种语言，功能较多。（@hikanner 投稿）

2、Smart Excalidraw

手绘程序 Excalidraw 的 AI 版，使用自然语言让 AI 生成手绘风格的示意图，在线试用。（@liujuntao123 投稿）

3、VibeVoiceFusion

一个开源 Web 应用，生成多说话人的合成语音，具备声音克隆功能。（@zhao-kun 投稿）

4、Mini-Kode

一个用于教学的 AI 编程助手，旨在帮助你理解这类工具是如何开发出来的。（@minmaxflow 投稿）

5、SQLBot

一个开源 Web 服务，只要配置大模型和数据源，就可以用自然语言查询数据源，实现 text2sql。（@maninhill 投稿）

6、Docutranslate

一个 Python 写的 Web 工具，通过 AI 模型翻译各种格式的文档文件。（@xunbu 投稿）

7、Paper Burner X

一个开源的 Web 服务，使用 AI 处理文献，提供文档翻译、智能对话、高效阅读。（@Feather-2 投稿）

资源

1、苹果应用商店（网页版）

苹果本周终于推出了"应用商店"的网页版 apps.apple.com ，可以用浏览器访问。虽然无法从网站安装 App，但至少提供了一个 App 搜索和发现的 Web 入口。

网友扒了它的前端代码，发现用的是 Svelte 框架。

2、ASCIIMoon

这个网站使用 ASCII 码展示当天的月相（新月、弯月、满月）。

图片

1、兴登堡飞艇

兴登堡飞艇是上个世纪30年代德国建造的一艘大型载人飞艇，曾经开通客运航线，飞越大西洋将乘客从欧洲运送到美国。

它长达245米，相当于一艘空中的航空母舰，可以载客50到70人。

它的内部装潢非常豪华，有单独的客房和餐厅。今天的人难以想象，长途飞行可以达到这样的舒适度。

它的气囊装的是氢气，有爆炸的风险。1937年5月，它突然起火，造成30多人死亡，飞艇作为交通工具从此就消失了。

文摘

1、科技公司为了"资助 AI"而大肆裁员

上个月，亚马逊宣布将裁员3万人，这是该公司历史上最大规模的裁员。此前，微软裁员1.5万人，Meta 裁员3600人，谷歌今年也裁员数百人。仅2025年一年，就有超过18万名互联网从业人员失业。

另一方面，这些公司今年在 AI 上投入了超过3000亿美元。所以，他们裁员是为了"腾出资金用于 AI 投资"。

但问题是----他们并没有省下钱。他们的 AI 支出远远超过了裁员节省下来的钱。而且，投入 AI 的钱根本没有回报，向用户收到的使用费，对比支出可以忽略不计。

大公司投向 AI 的巨额资金到底都流向了哪里？回答是他们都在互相购买。苹果付钱给谷歌，谷歌付钱给英伟达，英伟达付钱给台积电制造设备。

彼此之间的购买，推高了这些公司的销售额，进而推动了他们的股价上涨。

大众看到股价上涨，蜂拥而入，购买这些公司的股票，进一步推高了股价。

"七大巨头"----苹果、微软、英伟达、亚马逊、Alphabet、Meta和特斯拉----的总市值高达17万亿美元，市盈率高达35倍。作为对比，如果剔除这七家公司，标普500指数的市盈率仅为15.5倍。

为什么这些公司会有如此高的溢价？因为人人都相信 AI 在未来会给它们带来巨额利润。

但事实是，这些公司其实没有赚到钱，只是在为 AI 花钱，而且是互相花钱，营造出一种增长的假象。

更糟的是，它们现在不能停下来。因为一旦任何一家公司停止为 AI 投资，它们的股价就会暴跌。投资者会放弃它们，所以即使这些投入没有带来回报，它们也必须继续投入资金来维持股价。

这就是目前的局面，AI 的繁荣建立在大公司的巨额投资之上。为了投资，大公司缩减了其他方面的支出（包括裁员），而那些投资其实只是资金在循环流动。所有人仿佛都认定，这种巨额投资不会停下来，而且会有收回投资的那一天。

言论

1、

我说过永远不会有 htmx 的第三版，但没说过不会有第四版。

-- Carson Gross，htmx 项目创始人，曾经公开说不会有 htmx 3.0版，本周宣布直接发布4.0版。

2、

我们收到谷歌的报告，他们在我们的代码中发现了一个漏洞。

我们很重视安全，但是互联网巨头使用 AI 扫描志愿者维护的代码，然后提交安全漏洞，希望志愿者免费修复，这真的公平吗？

-- FFmpeg 团队

3、

未来十年，全球将有超过70万亿美元的遗产财富直接交给继承人，这将加剧社会的不平等。

-- 英国《卫报》

4、

为什么运气很重要？因为它会缩短积累的时间，让你接触到更大的机会。这就像当你已经有钱的时候，赚更多的钱就容易得多。

-- 《人生是一场概率游戏》

5、

AI 出现以后，程序员的发展方向彻底变了。

你必须专注于理解系统而非理解语法，你的技能必须从编写代码转移到架构、安全、人机协作等方面。

未来属于那些能够构想、开发和维护复杂系统的人。

-- 《软件开发的演变》

往年回顾

VS Code 编辑器的下一站是 Zed？（#325）

彼得·蒂尔的实验（#275）

NPC 演员也是一种职业（#225）

知识广度 vs 知识深度（#175）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2025年11月 7日