Normal view

There are new articles available, click to refresh the page.

Yesterday — 29 May 2026阮一峰的网络日志

科技爱好者周刊（第 398 期）：Token 费用难以负担

阮一峰的网络日志

29 May 2026 at 08:08

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

去年开放的浙江省安吉县的安吉文化艺术中心。当地盛产竹子，屋顶都采用竹叶造型。（daemin_kg@ig）

Token 费用难以负担

上周，OpenClaw（龙虾）的创始人彼得·斯坦伯格（Peter Steinberger）贴出了自己的 Token 使用量。

他不是故意炫耀，自己用了多少 Token，而是为了介绍工具软件 CodexBar。这个菜单栏小工具可以统计你的 Token 使用量，计算出对应的费用。

大家猜猜看，他用了多少 Token？

根据截图，他一个月发出了760万个请求，消耗的 Token 数量为6030亿。根据预设的费率，这些 Token 价值130万美元！

也就是说，他的 AI 编程平均每天要花费4万多美元。

当然，这个数字不是真实支出。因为他是 OpenAI 公司的员工，可以无限量免费使用公司的 Token。所以，这些钱并不是真实的支出。

但是，他的 Token 使用量是真的。绝大部分公司需要外购 Token，大家可以用他的例子计算一下，如果一个程序员每月用掉几千亿、甚至上万亿的 Token，公司要出多少钱？

他一个人一个月130万美元，相当于近900万人民币，一年下来超过1亿人民币！ 这就是放开使用顶级模型，公司要支付的费用。

如果改用便宜的模型，国内最便宜的开源模型，价格大约是国外旗舰模型的1/30到1/50，那么一年就是200万～300万人民币。

结论就是，如果放开不限量使用，一个程序员一年最少会花掉两三百万人民币的 Token 费用。要是使用美国的旗舰模型，费用会快速上涨到几千万甚至上亿人民币。

公司想要降低成本，有两个方法：一是购买包月套餐，但是大项目不够用；二是自己架设开源模型，省掉外购的费用，但是硬件费用不便宜，而且最强的模型目前是不开源的。

权衡下来，我猜想，公司几乎肯定会设置限制，不允许程序员无限量使用外部模型。那样的话，巨额的 Token 费用难以承受。程序员的工资已经不低了，再加上每人每年至少几百万人民币的 Token 费用，公司的开发成本会爆炸的。

大家可以说说，有没有公司对程序员提供外部模型无限量 API 调用？我是没有听说过。

事实上，因为 Token 费用太高，公司收紧 AI 编程的例子，我倒是知道几个。

比如，网约车巨头 Uber 今年头四个月就花完了全年34亿美元的 AI 预算，不得不限制使用 AI 了。

再比如，微软也因为费用超标，放弃了 Claude Code，改用自家托管的 OpenAI 模型。

如果 Uber 和微软这样的巨头，都承受不了巨额的 Token 费用，那大概就没有公司能够承受了。

总之，AI 编程虽然听起来很美好，但是看到账单的那一刻，公司就会清醒：AI 编程比真人程序员昂贵太多了。

所以，AI 会替代程序员吗？对于有大型软件项目的公司，我认为不会大规模替代，因为成本放在那里。至少现阶段如此，如果未来 Token 费用大幅下降，那就难说了。

漏洞赏金计划的终结

Turso 是一个开源的云数据库，代码放在 GitHub。

它有一个赏金计划，给予发现漏洞的人1000美元奖金。本来运作得挺好，自从大模型可以用来发现漏洞以后，事情就不对了。

它的仓库的 PR 页面（外部代码提交）已经变成下面这样。

提交漏洞的人泛滥成灾，都是冲着奖金而来。他们所谓的漏洞，往往是故意注入垃圾字节，或者是配置错误，自然就是无法运行。

开发团队精疲力尽，不胜其扰。有时候，关掉这些 PR，提交者还会跟你争论，用 AI 生成的长篇大论告诉开发团队"我没错，你们搞错了"，令人啼笑皆非。

最终，开发团队只能宣布，终止赏金计划，提交漏洞和 PR 都不会有奖金。

炮制垃圾内容的人可能只需要一分钟就能提交，但我们却要花费数小时来阅读、理解和回应。而且，这类内容的生成速度几乎是无限的。

虽然可以设置自动化脚本来过滤 PR，但由于涉及到奖金，提交 AI 代码的动机实在太大，总是有人无休止地争论、重新打开同一个 PR 等等。

这件事告诉我们，传统的漏洞赏金计划在 AI 时代大概率行不通。以后，发现漏洞很可能没有奖金。不知道这会不会导致线上攻击行为的增加。

科技动态

1、体重与气温

一支耶鲁大学的考察队，发现阿根廷的猫头鹰猴比25年前更重。2023年的猴子平均体重比1999年重了50克，相当于增加了4%。

科学家认为，这与气温上升有关。1999年阿根廷的日平均气温为22.2摄氏度，2023年上升到了23.8摄氏度。

气温上升使得猴子减少用于体温调节的能量消耗，从而有额外的卡路里来增重。

该理论看上去也适用于人类，也就是说，全球变暖可能让胖子变多。

2、人工蛋壳

美国生物科技公司 Colossal 制造了"人工蛋壳"，已经孵化了26只小鸡。

它的外壳是一个坚固的六边形杯状结构，起到支撑作用；内壁是一层半透膜材料，能让氧气轻松通过，又能保持水分。

科研人员将小鸡胚胎放入"人工蛋壳"，在孵化箱中成功孵化了小鸡。

上图中，蛋壳上方是透明的，可以观察内部情况。

Colossal 公司制造这个装置的目的，是为了复活已经灭绝的渡渡鸟。否则，就算做出了渡渡鸟的克隆胚胎，还是要放在其他动物（比如鸵鸟）体内进行繁殖。

3、艺术抗议

保加利亚首都索非亚，马路上有一个小坑，市政府长期不修补。

两个艺术家感到不满，就在这个小坑上涂鸦，画了一个生气的鬼脸。

鲜艳的图案让司机和行人更容易注意到，减少了事故。同时，也引起了大众的兴趣，新闻媒体纷纷报道，小坑很快就修补了。

这件事告诉我们，不满还是要表达出来，可以推动解决，并且采用艺术形式表达，效果会比较好，容易让人接受。

文章

1、内存涨价的原因（英文）

内存厂商生产三种内存：DDR（桌面电脑用的内存）、LPDDR（手机用的低功率内存）、HBM（AI 机房用的高带宽内存）。

由于 AI 公司对 HBM 的需求激增，开出高价，内存厂商的生产能力转向 HBM，减少了 DDR 和 LPDDR 的产量，导致消费电子设备的内存短缺，价格上涨。

2、我开始研究 Reticulum（英文）

Reticulum 是一个自己组网的项目，可以在各种物理网络（WiFi、有线网、无线电、LoRa 等）之上架设虚拟网络，本文是一个简介。

3、预热你的 MacBook（英文）

一篇很冷的文章，Mac 系统有一个 stress 命令，用来让 CPU 运行负载。本文提出可以用这个命令，让冬天冰冷的 MacBook 金属外壳变热。

4、为什么我反对布尔逻辑（英文）

一篇偏哲学思辨的文章。布尔逻辑只有两个值（真和伪），作者认为，这会导致非黑即白的二元思维。真实世界是非布尔逻辑，充满了不确定性和不唯一性。

5、为什么中心极限定理无处不在？（英文）

一篇科普文章，介绍中心极限定理的历史和含义。这个定理发现了样本平均值的分布规律，所以极其重要。

样本平均值满足正态分布，但有两个注意点，一是每次的样本必须相互独立，二是有时异常值比平均值更重要。

工具

1、DOCX Editor

开源的 docx 文件的网页编辑器，所见即所得。

2、DvnIP

动态 IP 服务，个人用户免费。

3、Graphite

一个矢量作图的 Web 应用，代码开源。

4、Hindsight

一个命令行工具，扫描本地的 git 仓库，生成 GitHub 风格的个人提交热力图。

5、NyaTerm

跨平台的桌面应用，将 SSH、终端会话、远程文件、认证信息、端口转发和配置备份放在同一个工作区。（@nyakang 投稿）

6、diving-rs

一个命令行工具，展示 docker 镜像内部的每一层文件列表。（@vicanso 投稿）

7、CanvasCast

白板录制的网页应用，在浏览器中直接绘制、演示、录制白板风格的内容。（@Hao4Wang 投稿）

8、Echo Loop

开源的英语听说训练 App。（@echo-loop 投稿）

9、Vue TUI

基于 Vue 的终端组件库，可以用来开发 agent。（@Simon-He95 投稿）

10、witr

命令行工具，显示当前每个进程对应什么命令，可以用命令名或端口号查询。

AI 相关

1、DeepSeek Reasonix

专为 DeepSeek 设计的终端 AI 编程 agent，充分利用了缓存机制，可以极大降低费用，只支持 DeepSeek 的付费 API。

2、FunASR

阿里通义实验室开源的工业级语音识别工具包，最近推出了桌面语音输入法工具。（@LauraGPT 投稿）

另有两个基于它的衍生工具。

FunClip：智能视频裁剪工具。输入关键词或句子，自动定位视频中对应的片段，一键裁剪导出。（@LauraGPT 投稿）
SenseVoice：语音理解工具，可以识别语音、语种、情感、声音事件。（@LauraGPT 投稿）

3、Codex Mate

一站式本地 AI 编程智能体管理面板。统一管理 Codex、Claude Code、Gemini CLI、CodeBuddy、OpenClaw、Gemini CLI。（@ymkiux 投稿）

资源

1、微积分其实很容易

著名教材《Calculus Made Easy》非官方中文版，一本易读的微积分入门小书，可以在线阅读。（@KeyAI 投稿）

2、小西天 3D 全景

山西省隰县小西天的网页 3D 全景导览。

3、C 语言小测验（英文）

一组 C 语言的语法选择题。

图片

1、袖珍计算器博物馆

德国有一个网上博物馆，专门收集各种袖珍计算器，里面有一些奇特的电子计算器。

文摘

1、行为经济学诱饵

行为经济学家丹·艾瑞里，有一天闲逛《经济学人》官网。

他在订阅页面上，看到了三个选项：

A. 电子版----59美元。 B. 纸质版----125美元。 C. 纸质版＋电子版----125美元。

他愣住了。

B 和 C，价格一模一样。一个只给纸质版，一个纸质版加电子版全送。谁会选 B？

傻子都不会啊。但艾瑞里没有笑，马上意识到这是一个绝妙的设计。

他拿着这三个选项，走进了麻省理工学院（MIT）的课堂，做了一个实验，让100个学生对这三个选项进行选择。

结果：16%的学生选了 A，0%选了B，84%选了C。订阅费总收入：11,444美元。

跟预想的一样，没有一个人选 B。

然后艾瑞里做了一件小事：他把 B 删了，只留 A 和 C。

逻辑上，一个从来没人选的东西，删掉它不应该影响任何结果，对吧？

结果出来了：68%选了 A，32%选了 C。订阅费总收入暴跌到8,012美元。

这就是选项 B 的作用。它从来没人选，自己一份都没卖出去，却在暗中帮旁边的最贵的 C 套餐，多卖了52%。

仅仅因为它的"存在"，就让杂志社多赚了3,432美元。这就是行为经济学中著名的"诱饵效应"。

原理很简单：人类不擅长判断一个东西的"绝对价值"，但极其擅长做"相对比较"。

当只有59美元和125美元两个选项时，你的大脑在比较"便宜 vs 贵"，大多数人选便宜的。

但当"125美元只买纸质版"这个诱饵一出现，你的大脑就不比较 A 和 C 了，它开始比较 B 和 C。

同样的价格，C 多了一个电子版。天哪，这不是白捡的吗！于是你心满意足地选了 C。

浑然不知自己刚刚多花了66美元----买了一本可能一辈子都不会翻开的纸质杂志。

这个套路如今无处不在。咖啡店的中杯定价，只是为了让你觉得大杯"更划算"。视频网站的月卡，贵到让你觉得年卡"不买就亏"。

手机发布会上，永远有一款"高价低配"机型，它唯一的使命，就是让旁边那款旗舰机型看起来"性价比极高"。

当你觉得自己占了便宜的时候，多半是有人精心摆放了一个诱饵，让你心甘情愿走进了更贵的那扇门。

那个没人选的选项，才是全场真正的主角。

言论

1、

很多人看不到 AI 改变世界的潜力，原因在于他们不明白一切事物都是算法。

具体来说，他们没有意识到，社会和公司只不过是一系列算法的集合。

-- 《公司不过是算法图而已》

2、

为了应对"软件包投毒"，现在的流行做法是，新发布的软件包设置一个冷却时间，普通用户需要过了"冷却期"才能安装这个包。

这种机制可以有效抵御供应链攻击，但它有一个棘手的问题：它依赖于其他人先安装这个包。到哪里去找这些人，第一时间试用每个新发布的包呢？

-- 《软件包应该分阶段推出》

3、

AI 可以一对一的定制化教育，效果更好，大学对很多人将变得没有价值。

-- 萨姆·奥特曼（Sam Altman），OpenAI 公司首席执行官

4、

那些从未编写过一行代码的非技术型中层管理人员，现在感觉通往成功的最大障碍已经消失。

他们再也不用应付那些烦人的程序员了，不需要程序员就能更改网页样式和用户体验，自己实现某些功能。而且，AI 不会抱怨，不会组织工会，也不会抗议，只会服从任何命令。

-- 《AI 将把我们引向何方》

5、

我喜欢 PHP 的一个理由是，它的变量使用美元符号（$）识别，这会提醒你，你使用它是为了什么。

-- 《PHP 的奇特之处》

往年回顾

GitHub Issues（几乎）是最好的笔记应用（#351）

OpenAI 的图书馆工位（#301）

国产单板机值得推荐（#251）

中国需要成立半导体部（#201）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年5月29日

Before yesterday阮一峰的网络日志

科技爱好者周刊（第 397 期）：财富正在向 AI 集中

阮一峰的网络日志

22 May 2026 at 07:58

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

马岩松事务所设计的海南科技馆，今年五一开馆。（via）

财富正在向 AI 集中

AI 相关的所有东西，最近都在上涨。

看看股票，就知道了。内存、储存、CPU、服务器、液冷、光通信、变压器......股价全部在涨，更不要提，前期已经涨过的芯片、模型、算力了，甚至铜和铝也在涨。

这些股票的上涨幅度之大，令人咂舌。就以内存为例，世界三大内存厂商有两家在韩国，单单这两家公司就把韩国股市，从2600点一年之内拉到7600点。

2024年10月，三星公司董事长还因为半导体业绩不佳而道歉，结果今年很可能成为世界最赚钱公司。

另一家内存大厂 SK 海力士更夸张。它跟工会有劳资协议，10%的利润要分给员工。有人计算了，门卫、司机、前台都算进去，每个员工今年平均可以拿到奖金610万人民币。

至于 AI 模型公司，更是人人都是亿万富翁。OpenAI 去年向600个员工回购了66亿美元的股票，平均每人拿到近1000万美元。

这些事情表明，社会财富正在重新分配，快速向 AI 集中。

这影响到了所有人。哪怕你根本不使用 AI，但是物价的上涨、资金从本行业流向 AI，不可避免影响到你。

日常使用的电子设备（手机和电脑）、电子元件、基本的生产资料（比如铜和铝）都在涨价。如果你在一个跟 AI 无关的行业，很可能吃不到 AI 的红利，反而被它伤害，因为你会面临成本上升、需求不足、投资减少。

古人说"一将功成万骨枯"，AI 的崛起不知伴随着多少其他行业的陨落。

虽然每一次技术革命，都必然伴随财富的重新分配。但是，这一次的 AI 革命，推进速度格外快，力度格外大，引发的再分配效应也格外猛烈。

作为一个普通人，尤其是身在互联网和软件行业的普通人，似乎也没有其他选择，总是被财富诱惑，只能紧跟潮流拥抱 AI。

别用 AI 估算碳水含量

糖尿病人需要控糖，不仅要少吃糖，还要少吃碳水化合物（米饭和面粉），因为碳水最终也会变为糖。

所以，他需要知道，食物里面含有多少碳水。

很自然的想法就是，吃之前拍一张食物照片，交给 AI 估计碳水含量。

一位英国医生就做了一个实验，把13张食物的照片（比如奶酪三明治、西班牙海鲜饭、焦糖布丁）提交给四个大模型----GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Pro、Gemini 3.1 Pro----估计碳水含量。

结果让人大跌眼镜，四个模型给出的回答不一样。而且，同一张照片多次提交给同一个模型，回答也不一样。

就拿上面这张西班牙海鲜饭的照片为例，分别多次提交给四个模型，模型的估计值如下图。

可以看到，每个模型估计同一张照片的碳水含量，波动范围都很大。其中，波动最大的是 Gemini 2.5 Pro，碳水含量估计值从 55 克到 484 克，整整相差了 429 克！估计值相对集中的是 Claude Sonnet 4.6，但波动范围也不小。

再以奶酪三明治的照片为例，包装上注明的碳水含量为40克，但 GPT-5.4 估计值平均为74克，其他三个模型为28克，都不正确。

另外，大模型也无法准确识别食物，比如有时会认为奶酪三明治里面夹着一块熟肉。

所以，别用大模型估算食物的碳水含量，也不要让大模型做任何精确的医疗估算，它根本做不到。

微软淘汰短信验证码

很多网站登录时，会给你发一条验证码的短信。

这种做法有风险。首先，攻击者可能会欺骗移动运营商，将你的电话号码绑定到他的 SIM 卡，从而短信都发到他的手机。其次，短信是明文发送，很容易泄漏。

微软公司本周确认，将放弃短信验证码，改用 Passkey、一次性时间码（TOTP）、以及验证过的邮件地址。

其中，Passkey 密钥将是 Windows 11 以后主要的验证方式。

这种做法就是为每个用户生成一对密钥，保存在 Windows 的密码管理器，只有通过面部识别、指纹扫描器或 PIN 码才能唤起私钥验证，安全性非常高。

下面是一篇 Passkey 的介绍文章（英文），侧重于概念，写得言简意赅，可以参考。

亚马逊供应链服务

本月，亚马逊宣布推出"亚马逊供应链服务"（ASCS），把自己的货运、配送、仓储和包裹运输向用户开放。

任何公司现在都可以把自己的商品业务，建立在亚马逊的物流基础设施之上，宝洁、3M 等公司已经开始用了。

这让人想起了2006年，亚马逊开放了自己的网络基础设施，做成 AWS（亚马逊网络服务），直接导致云时代的到来。

现在，它又开放了仓储和物流，会不会改变制造业？

以后，做实物产品越来越简单了，只要把产品设计出来，生产可以外包，物流和销售都可以购买标准化服务。

打字机模型

最近，我看到一个模型玩具，感觉很不错。

这是深圳一家公司推出的19世纪机械打字机模型。买回家后，需要自己拼装。

最有趣的是，拼装好以后，它可以用来打字，但功能比较少，不能切换大小写，只支持大写字母。

它不仅是模型玩具，还可以用来了解打字机原理，在海外市场也引起了关注。

文章

1、GitHub Pages 有域名盗用问题（英文）

如果你的域名指向 GitHub Pages，最好看一下这篇文章，某些情况下，你的二级域名可能会被盗用。

2、JavaScript ShadowRealm API 简介（英文）

ShadowRealm 是一个新的 JS API，允许在单线程环境里面建立多个域，每个域拥有自己的全局对象，独立运行，互不干扰，可以彼此通信。

3、Firefox 配置指南（英文）

作者介绍自己的做法，将 Firefox 配置成一个好用的浏览器。

4、被撤销证书的检查机制（英文）

网站的 HTTPS 证书可能会被证书当局撤销，用户如何知道呢？本文介绍现有的三种检查机制。问题是它们都有缺陷，Chrome 没有采用任何一种。

5、临时性基础设施（英文）

本文提出，大型系统除了绝对需要保持状态的部分（例如数据库、消息队列等），其余部分都应采用无状态的临时性基础设施（比如容器）。

6、微型铝热反应（英文）

铝热反应是指，铝与氧化铁（铁锈）在高温下发生剧烈放热，温度可达2500~3500℃。本文介绍一种引发微型铝热反应的方法：两只生锈的铁球，一只包上铝箔，互相碰撞即可。

工具

1、Abogen

一个跨平台的桌面应用，将 ePub/PDF/text 文件转成有声书。

2、FFmpeg Explorer

通过可视化图形、生成 FFmpeg 命令的网页应用，代码开源。

3、Stock SDK

获取股票行情的开源 JavaScript SDK，纯前端抓取，无需后端服务，实时行情来自腾讯财经/东方财富等公开接口。（@chengzuopeng 投稿）

4、Zephyr

开源的 Mihomo/Clash 跨平台桌面客户端。（@Juwan-Hwang 投稿）

5、DimCut

开源的剪辑软件，将时间轴折叠成多行，并在时间轴上方显示插入的文字，所有处理在本地浏览器完成。（@hughfenghen 投稿）

6、NotchNotes

隐藏在 Macbook 的刘海里面的便签工具，鼠标 Hover 时自动展开。（@oil-oil 投稿）

7、markstream-vue

针对 AI 吐出的流式 markdown 的渲染库，提供 Vue 实现。（@Simon-He95 投稿）

8、彩读｜ColorTxt

跨平台的 TXT 文件桌面阅读器，可以给内容上色，还支持章节识别、空行压缩、行首缩进、语音朗读、AI 阅读助手等功能。（@ssnangua 投稿）

9、Forgejo

Gitea 的一个分叉项目，可以用来搭建自己的 Git 服务器，自带 Web 前端，作为个人的 GitHub 服务。

10、Web Visual Editor

开源的 VS Code 插件，实时编辑预览 HTML 文件。

AI 相关

1、Remove-AI-Watermarks

移除 AI 图片水印的命令行工具，也是一个 Python 软件包，可见水印和不可见水印（比如谷歌的 SynthID）都能移除。

2、AVC（Agent View Controller）

将 AI Agent 终端的确认文字，变成可交互的网页弹窗，可以作为 Agent 的 Skill 使用。（@study8677 投稿）

3、Lucarne

把本地运行的 AI Agent 接到微信 / Telegram，让你离开电脑也能收到进展、审批权限、回复问题、接续会话。（@tuchg 投稿）

4、tokenspeed

每秒生成10个 token，是快是慢？20个呢？这个网站让你在线体验 token 生成速度。

资源

1、高斯泼溅作品集

高斯泼溅（Gaussian Splatting）是一种算法，可以将多张照片合成为 3D 图像。

网站 SuperSplat 提供在线的高斯泼溅处理，可以上传照片进行处理，还能浏览很多合成好的 3D 模型。

大家看作品《草莓》，效果非常好。

2、IP66

免费的 IP 地理位置数据库，可以自由下载，在脚本中调用查询。

图片

1、支撑智利的双手

智利是世界最大的产铜国，近一半的出口为铜，占世界年供应量的比重最高为60%，至今仍有25%。

智利最大的铜生产中心在阿塔卡马沙漠，沙漠入口的小镇有一个雕塑《支撑智利的双手》。

这个雕塑是一双巨大的铜制双手，托举起智利地图，象征此地的铜矿对智利的巨大贡献。

下面是智利沙漠铜矿的照片，可以看到巨大的矿坑和旁边矿石的沉淀池。

2、S 形曲线

有一个经验法则，所有的增长曲线最终都会变成 S 形曲线。

比如，下面是指数式增长曲线。

最终，增长会放缓，变成 S 形曲线。

这是普遍现象，所有增长曲线最终都会变成下面的这样，增长曲线到一定阶段后就会变平。

文摘

1、多面手和专才

自从我成为自由职业、独立接活以后，我一直感受到多面手程序员与专家程序员之间的对立关系。

我发现有一句话很准确："理论上，所有公司都喜欢适应性强、能承担多个岗位的程序员。但实际上，大多数招聘职位更偏向专家。"

这意味着，即使你是多面手程序员，找工作时也必须让自己看上去像专家。

我的问题是，我不觉得自己的技能属于特定类别。我把自己看作一个解决问题的黑客，受好奇心驱动，解决那些自己有兴趣的问题。

什么工具适合解决某个问题，我就学习使用那种工具。

然而，在我独立接活后，将自己说成多面手，就很影响我招揽客户。客户希望听到你说自己是专家，而不是说"我是计算机通才"之类的模糊说法。他们的问题包括：你是前端工程师还是后端工程师？你使用 .NET 还是 Python？你专长于 AWS 还是 Azure？......

我不怪他们......客户面对的是具体的问题，确实很难评估雇佣多面手程序员的价值。

于是，我决定改变沟通策略，说人们想听的话。我对自己的定位变成了，一位专注于系统编程和开源软件的 Rust 专家程序员。我按照这个定位包装自己。

它很快就发挥了作用，让我整年都有工作合同！

2、为什么洗澡或游泳后，手指会起皱？

长时间洗澡或游泳，皮肤会出现皱纹，甚至变色，这是为什么？

你可能不相信，这至今仍然是一个未解之谜，并没有公认的解释。

以前的看法是，这是因为皮肤吸收水分后膨胀，导致肿胀和弯曲。但是上个世纪30年代的研究人员观察到，手指神经受损的人浸水后不会形成皱纹。这说明，皱纹原因与皮肤无关，而与神经系统有关。

现在，科学界的主流解释是，当手和脚与水接触超过几分钟后，皮肤中的汗管就会打开，让水流入皮肤组织。

皮肤增加的水份，会减少皮肤中盐的比例。神经系统就会向大脑发送盐水平降低的信号，进而神经系统就会做出反应，开始收缩血管，减少水的渗入。

血管收缩了，但是最外层的皮肤并没有变小，就会导致外侧的皮肤失去了支撑，就会像泄了气的气球一样，自上而下地下陷，形成皱纹。这就像干了的葡萄起皱一样----它内部失去的体积多于表面积。

这种血管收缩还会导致皮肤变苍白，因为皮下血管的血液减少了。这与你洗热水澡时，血管扩张而导致皮肤变红的情况正好相反。

所以，皮肤起皱是由神经系统引发的。如果神经受损，血管就收不到大脑信号，不会发生收缩，皮肤也就不会起皱。

言论

1、

过去一两年，我一直完全依赖 AI 进行编程，自己一行代码都没写过。

有一天，我自己动手写了一篇文章，没有用 AI，但写完后我忍不住把它复制粘贴到 Claude 里，看看 AI 怎么想，因为我担心文章逻辑混乱、文笔幼稚，或者漏掉了什么内容。这就是大量使用 AI 的后果，它让你滋生自我怀疑，我已经不太相信自己，更相信 AI 了。

-- 《该死的 AI 把我变笨了》

2、

无论工具发展到何种程度，无论它们变得多么强大，它们始终只是工具。它们无法取代我们的理性和价值观，依然由你来选择什么值得去创造。

-- davidabram.dev

3、

我建议放慢速度，给自己一些时间，思考你到底在构建什么，以及为什么要构建。这样你才有机会告诉自己"不，我们不需要这个"。

-- 《放慢速度》

4、

石油行业有一句谚语：一家健康的石油公司由一位地质学家负责，一家成熟的石油公司由一位工程师负责，一家衰落的石油公司由一位会计师负责，一家垂死的石油公司由一位律师负责。

-- Hacker News 读者

往年回顾

Java 三十周年（#350）

三十年，解决人生三大问题（#300）

新技术的最大风险（#250）

低期望，多尝试（#200）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年5月22日

科技爱好者周刊（第 396 期）：互联网通信的替代方案

阮一峰的网络日志

15 May 2026 at 08:01

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

浙江新昌县的"新昌小球中心"，将酒店、商场、体育馆、体育场、户外健身步道都融合在一个建筑里面。（via）

互联网通信的替代方案

某天清晨，你醒来发现互联网断了，怎么办？

我说的是彻底的中断，完全不能运作，整个城市无法上网。这种事件虽然可能性很小，但还是有可能，比如遭遇了自然灾害或战事。

假设一时半会无法恢复通信，那么有没有替代方案？也就是说，我们怎么自己组网。

虽然互联网是无中心结构，搞一个子网并不难，但搞一个大规模子网，能够容纳一群分散的朋友，还是很难的。无论通过何种方式组网----无线路由、电话线、蓝牙或自己拉光纤----难度和成本都不低。

今天，分享一个我所知的最简单组网方案。

覆盖范围达到几十公里，甚至更远。
不需要架设任何线缆，自己发射无线信号。
供电只需要一个移动电源，甚至一节电池。
价格非常便宜，单套设备（发射端+客户端）最多只要几百元人民币。

唯一的缺点是带宽比较小，不能用来浏览网页，更不能看视频，只能发送/接收文本信息。

这个方案叫做 LoRa，或者严格地说，它的通信协议叫做 LoRa，也就是"长距离"（Long Range）的缩写。

LoRa 协议是专为远距离通信而发明的，只需很小的设备和一点点能量，就能向周围发送无线信号，有点像个人的无线电广播。它的编码算法特别强调抗干扰，哪怕信号非常弱，也能还原出来，所以可以远距离接收。

它本身只是一个无线信号的协议，需要自己实现发送/接收设备，完成编码和解码。开源项目 Meshtastic 就做了这件事，规定了软硬件接口，并给出了设备实现。

所以，一切就很简单了。你只要找 Meshtastic 兼容设备，人手一个，就能组一个简单的通信网。它自己会在所有节点之间网状传递消息。

在国内电商网站上，Meshtastic 终端设备一个从几十元到几百元人民币不等。它是开源系统，任何厂商都可以生产兼容设备，官网有一个设备名单可以查看，下面是几种终端设备的样子。

官网也提供各种平台的软件客户端，下面就是手机客户端的界面。

前面说过了，它的终端耗电量很小，只需要充电宝，就能长时间使用（几天到几周），如果配上随身太阳板，可以永久在线。

两个节点之间的传输距离5公里以内没有问题，如果建筑不密集，可以达到10公里～15公里；如果是空旷地带（比如水面），则可以达到几十公里或更远。多节点组网后，消息就能接力传播，那就传得更远了。

综合以上各点，这应该是最简单实用、最便宜的个人组建通信网方案了。它替代不了网页，但可以替代互联网的消息功能。

开源 AI 开发平台 MonkeyCode

大模型公司都有一个网页界面，让你在线使用他们的模型。

今天介绍一个开源项目 MonkeyCode，可以让你自己架设这样的 AI 网页界面（下图），已经有近3000颗星。

它有完整的 AI 编程功能，不需要再用其他工具、搭环境、来回切换，只需要打开浏览器，一句话提交需求。

通过它的 Web 界面，你可以在宿主机里面，新建多个虚拟机，不同的 AI 项目跑在不同的虚拟机。它为虚拟机提供各种系统镜像。

它还支持配置钉钉、飞书、企业微信、Webhook 的消息通知，以及 GitHub、GitLab、Gitee、Gitea 的仓库绑定。

除了自己搭建，它还有免费的云端开发环境，手机和电脑多端都能控制。

云端环境的免费额度是每天2000万 Token，另外提供 GPT 5.5 等多个模型供调用（需要积分）。

逆向验证码

网站的验证码一般用来确认，访问者是真人，不是机器人。

现在，开源的浏览器操作库 Browser-use 提出了逆向验证码的概念。这种验证码阻挡真人，放行 AI 机器人，用于那些只供 AI 使用的 API。

下面是一道数学题，就是逆向验证码。

这样的题目，真人看不懂，自然不可能回答。但是，大模型能够剔除里面的大写字母、随机字符和空格，读懂原始题目：

两列火车在长度为 d 的直线轨道上以速度 v1 和 v2 相向而行。一只鸟以速度 vb 从一列火车出发，飞到另一列火车上，然后掉头飞回来，如此反复，直到两列火车相遇。这只鸟一共飞了多远？

读懂题目后，大模型就会调用数学公式算出答案，从而通过验证码。

科技动态

1、重新定义鼠标指针

从发明以来，鼠标指针一直表示用户当前操作的位置。

谷歌提出一个新的方案，改变了鼠标指针的含义。

以后，鼠标指针只用来可视化展示 AI 操作的流程，方便用户看到 AI 此刻正在做什么。

这也意味着，用户在 AI 模型下，不再能移动鼠标，要依靠键盘或语音下达操作指令。

2、回收旧铜线

新能源时代需要铜，电动汽车、太阳能发电、风力发电......这些都需要铜做的电线。

最近几年，铜的价格因此一直上涨，连带使得旧铜线的回收，也成了一门大生意。

以前的电话线和网线，都大量使用铜，现在都闲置了，被光纤和手机取代。另外，地下还有很多已经不用的旧电缆，旧空调里面也有很多铜。

如果这些铜都能回收，将是一笔巨大的财富。而且，铜的回收很简单，只要去除外面的保护套，得到的就是纯度很高的铜线。

可以预见，铜的回收将成为城市里面的一个专门行业。

3、送货机器人占据人行道

美国大城市芝加哥，在市区大量使用送货机器人，已经引起了居民抗议。

因为送货机器人走的是人行道，不是马路，妨碍了行人。

一位市民说，"人行道是为人准备的，不是为送货机器人准备的。安静的居民区，出现几十辆甚至上百辆这样的车，将会变成什么样子？"

这确实是一个问题，人类真的喜欢和机器人走在一起吗？你能接受旁边的行人是机器人吗？

文章

1、为什么追踪 ID 必须是128位？（英文）

如果需要为用户生成随机 ID，最好是128位长，否则根据概率论，（大访问量的服务）可能会产生碰撞。

2、AI 应该输出 HTML 格式（英文）

现在的 AI 输出的是 Markdown 格式，本文认为应该输出 HTML 格式，这样 AI 就能插入 SVG 图表、交互式组件、页内导航等，以携带更多信息。

3、我很担心 Bun（英文）

Bun 是一个 JS 运行时，2025年12月被 Anthropic 收购，作者很担心它以后会充满 AI 生成的代码，质量下降。

4、如何保护 SSH 私钥？（英文）

恶意软件越来越多，防不胜防，本文（在后半部分）教你怎么用本机的安全机制保护 SSH 私钥，读取私钥需要指纹或面容识别，这样就不易被窃取。

5、我把22端口开放了54天（英文）

22端口是 SSH 登录端口，会受到各种攻击。作者用一个蜜罐将这个端口开放，看看会发生什么，那些登入系统的黑客又执行了哪些命令。

6、布洛芬与泰诺的区别（英文）

布洛芬与泰诺都是常见的退烧镇痛药，本文介绍了两者的区别。作者提出，只要不超量，泰诺在大多数情况下要好于布洛芬。

工具

1、RethinkDNS

一个开源的 DNS 服务器，可以部署在 Serverless 环境（比如 Cloudflare worker）。

2、Pinta

开源的图像处理软件，PhotoShop 的替代品，支持各种桌面平台。

3、GitForms

这个开源应用可以把表单数据存到 GitHub issue。也就是说，你可以不要后端，通过它收集用户提交的表单数据。

4、gecit

一个安装在本地计算机、伪装网络请求目的地的命令行工具，也就是变造数据包的 SNI（域名）字段。

5、MapPoster Online

开源 Web 应用，将城市地图变成海报。（@ianho7 投稿）

6、boss-agent-cli

BOSS 直聘 + 智联招聘的命令行工具，可以搜索/查看岗位，求职者 + 招聘者两种角色都可以使用，支持接入 AI Agent。（@can4hou6joeng4 投稿）

7、TITAN PLANET

一个挺有创意的项目，本身是一个 JavaScript 后端框架，但可以编译成单个 Rust 二进制包，从而大大提高执行速度。

8、qjp

一个命令行的 JSON 互动查询器，打开 JSON 文件，它会显示所有一级项目，你可以选择要某一项，进行树状展开。

9、tinypdf

一个极小化的 JS 库，用来生成 PDF 文件，只有 3KB。

10、edge-tts

一个 Python 包，使用微软的在线语音服务，将文本转成语音。

AI 相关

1、FeedFuse

一个加入 AI 功能的 RSS web 阅读器，自动抓取全文，提供 AI 摘要和翻译。（@BryanHoo 投稿）

2、IBus LLM Pinyin Input

基于 IBus 的 AI 拼音输入法，由大模型根据用户输入，给出中文候选词。（@volsifly 投稿）

3、kooky

专为 AI coding 优化的极简 macOS 终端，可以一键启动 Claude Code/Codex 等各种agent，分屏运行和显示状态。（@iAmCorey 投稿）

资源

1、taken.

这个网站可以查看，你的网页请求包含多少个人信息。

2、DataCenter.fm

一个背景音生成器，模拟机房运行的声音。

3、MathNet

麻省理工学院维护的一个网站，收集了3万多道数学题。

4、用户体验法则

这个网站收集各种用户体验（UX）法则，比如米勒法则：普通人一次能记住7个项目（变动范围为5～9）"。

图片

1、卫星污染

地球上空的卫星越来越多，严重影响了天文观察，因为卫星会反射光，导致看不清其他天体。

下面是天文学家用长曝光拍摄彗星，结果拍到的都是卫星。

因为卫星在移动，所以长曝光出来就是网格状的线条。你还能在上图中找到彗星吗？

随着卫星通信的发展，卫星将会指数式增长，天文学家已经建议把望远镜建到月球背面。

文摘

1、太空咖啡机

美国宇航员入驻国际空间站后，喝热咖啡很困难。美国宇航局于是就向一家意大利公司订购一台可以在太空使用的咖啡机。

这家意大利公司很快发现，这项任务非常困难。

咖啡机的每一个环节都需要重新设计，确保不能危及宇航员和太空站的安全：它不能破坏电力系统、不能干扰无线电通讯、不能泄漏沸水、不能起火、不能发出刺眼的强光、不能导致人员触电、不能过热、不能发出巨响、不能释放有害气体、不能散发异味。

尤其困难的是下面几点。

（1）咖啡机必须能够承受物理冲击，主要是火箭发射期间的加速度。

（2）空间站没有空气对流，咖啡机必须有单独的散热系统，防止过热起火。

（3）太空是零重力环境，咖啡机不能有液体溢出，不能让沸水雾汽弥漫整个舱室。

（4）咖啡机不能有尖锐边缘，防止割伤宇航员。

经过反复论证、实验、测试，这台太空咖啡机终于造出来了，并于2015年运送到了国际空间站。

在地球上，一台基本功能的咖啡机大约售价150美元，重3.5公斤，而太空咖啡机重达20公斤，成本可能高达数百万美元。

它制作出来的咖啡是一包包软饮料，靠挤压饮用。

2、别相信"不使用 AI 的人会落后"

有些人说："不使用 AI 的人将会被时代抛弃。" 我很讨厌这种说法，因为我非常肯定，实际情况恰恰相反。

依赖 AI 的人终将被时代抛弃。他们会忘记如何思考，如何写作，如何进行简单可靠的搜索，如何分辨事实与虚构......

他们会忘记如何学习，我觉得这才是最让我难过的地方，学习本身是多么美好的事情啊。

如果你相信 AI 能比你做得更好，你要做的不是把所有事情都委托给 AI，而是努力变得更强，在那些 AI 无法做到的事情上面。

言论

1、

全世界每年售出15亿部智能手机，其中大部分的使用时间不到两年，然后就被丢弃或闲置。

这是计算资源的巨大浪费。现代智能手机的配置越来越高，完全可以用来提升全球计算能力。

-- 《废旧智能手机再利用》

2、

未来的编程语言，不会是你最容易掌握的语言，而是 AI 最容易掌握的语言。

-- @RealRichomie

3、

创造力是否随着年龄增长而衰退？

一项美国的研究提出，创造力分成两种：关联性创新能力往往随着年龄增长而增强，而颠覆性创新能力则会下降。

--《科学进步总是以葬礼为代价》

4、

大模型是对训练数据的有损压缩，而训练数据又是对真实世界的有损采样。

当 AI 生成输出时，则需要填补压缩过程中丢失的信息，将其膨胀成文章、图片、软件、视频等等。

-- 《膨胀神器》

往年回顾

神经网络算法的发明者（#349）

AI 的关键是语料（#299）

最成功的软件企业家（#249）

俄罗斯的 HTTPS 证书问题（#199）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年5月15日

科技爱好者周刊（第 395 期）：软件开发的第三种方式

阮一峰的网络日志

8 May 2026 at 07:40

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

即将在今年完工的深圳自然博物馆，它的形状模拟了一条弯曲的河流。（via）

软件开发的第三种方式

有一本很著名的软件开发著作，叫做《大教堂与集市》，大家了解吗？

它提出软件开发有两种方式。

一种方式是大教堂（Cathedral），即软件经过精心规划，由一支专业的团队封闭式开发管理，全过程有严格的流程和管控，代码通常是闭源的。

另一种方式是集市（bazaar），即软件开发是开放的，没有围墙，任何人都可以加入，决策过程是透明的、由社区驱动，代码开源。

这种比喻将软件行业一分为二，非常精辟，自从初次提出，已经过去了近30年，一直得到大家的认可。

但是最近，有人提出，这两种方式已经不足以概括现状，软件开发现在出现了第三种方式：神秘屋。

"神秘屋"是一幢真实存在的大宅，就位于美国加州，19世纪末由一个老太太建造。

这个老太太非常非常有钱，没有其他爱好，就喜欢建筑学。她拿自己家当作实验品，一个房间接一个房间地建造，都由她说了算，亲自设计，亲自监工。

整幢楼没有整体规划，怎么想就怎么造，房间 A 是维多利亚式，房间 B 是罗马式，房间 C 是哥特式，都由老太太决定。有时候，房间造到一半，老太太不满意了，就拆掉重建。

所以，整个建筑像迷宫一样，每个房间的风格都不一样。根据当年的记录，重建次数最多的房间一共拆毁重建了16次。为了省事，一些房间的窗户和门重建时也没拆掉，而是直接砌进了墙里。

整幢楼在不同时期加盖了多层，最高达到五层，大约有160个房间、2000扇门、10000扇窗户、47个楼梯、47个壁炉、13个浴室和6个厨房。

1922年，老太太去世后，它对外开放，人们将其称为"神秘屋"。

如今，很多程序员就是这个老太太。

他用 AI 开发软件，自己提出需求，想要什么就让 AI 开发什么，既没有需求审查，也没有代码测试，充分满足自己的个性。

最终开发出来的软件，就是高度个性化，规模庞大，不断扩张，代码层层累加，几乎没有精简和优化，充满了修复 bug 的补丁。而且，它通常缺乏文档，对外人来说晦涩难懂，就像"神秘屋"一样。

但是，这种开发过程充满了乐趣，会让开发者自我陶醉，乐在其中。

随着 AI 模型越来越强，"神秘屋"式软件正在不断涌现，搞不好以后会成为主流，取代大教堂和集市。大部分软件，尤其是个人和小团队开发的软件，可能都是以这种方式开发出来的。

大模型流行度排行榜

现在的大模型排行榜，都是衡量大模型的能力。有人想出了一种方法，可以衡量大模型的人气。

具体来说，就是每天抓取"黑客新闻"热度最高的200个主题，筛选出编程和 AI 相关的主题，再根据每个主题下面的留言，看看讨论最多、评价最好的模型是什么。

黑客新闻是著名的程序员社区，每天有大量程序员和工程师访问并留言。因此，它具有代表性，提及次数最多、好评率最高的模型，就是最流行的模型。

这个项目的网站是 HN SOTA，每天都会更新排行榜。

本周前三名的模型依次是 Claude Opus 4.7、GPT 5.5、Claude Sonnet。

国产模型 Kimi K2.6、DeepSeek V4、Qwen 3.6、GLM 5.1 都进入了前十名。

科技动态

1、陪伴式机器狗

扫地机器人的发明者是美国 iRobot 公司创始人科林·安格尔（Colin Angle），他退休后继续研究机器人。

最近，他的公司推出了一个主要用来陪伴的机器狗。

它的最大特点就是，看起来不像机器，更像毛绒玩具，可以跟随行走，也可以跟你互动。

以现在的技术，已经能做出可以乱真的机器狗。也许人们以后更愿意养机器狗，而不是真的狗，因为机器狗能陪伴你，但不会咬人和吠叫，也不需要遛狗。

2、前大灯投影仪

华为推出了一种新技术，把投影仪放进轿车的前大灯。

停车后，就可以打开车灯，在前面的墙壁或幕布上投影播放视频。

这项发明很实用，适合开车野营，或者车库看视频。

需要注意的是，因为投影仪的亮度太高，行驶时不能打开，避免干扰对向驾驶员，只能停车后打开。

3、AI 预检

AI 能不能代替医生看病？这是有争议的。

虽然 AI 的水平可能高于一部分医生，但是为了对病人负责，目前一般都不允许使用 AI 开处方，只有医生才能开处方。

哈佛大学做了一个试验，另外为 AI 找到了一个很有效的医院岗位：门诊预检。

很多病人不知道自己是什么病，应该看什么科，需要在门诊入口处进行预检，确定科室。

实验发现，AI 根据病人的症状，进行初步诊断和分配科室的准确率高于真人医生。AI 对于67%的病例做出了基本准确的诊断，优于医生的50%-55%。

因此 AI 可以这样用于医院：在门诊入口，病人由 AI 预检，生成初步诊断，再由医生详细问诊和检查，最后给出处方。

4、自动驾驶的注入攻击

AI 模型有注入攻击，黑客会注入有毒的提示词。令人意想不到的是，自动驾驶也有注入攻击。

加州大学的研究人员做了一个实验。

研究人员在道路中央，依次举起三块牌子，上面用大字写着"前进"，看看自动驾驶的车辆会不会注意这块牌子。

在三次实验中，前两块牌子没有起作用，车辆看到路中间有人，就自动停下了。但是，最后一块牌子生效了，自动驾驶车辆根据上面的指令，朝着举牌子的人继续前进。

这表明，自动驾驶系统也有注入攻击的风险，系统必须区分哪些道路标识是有效的，哪些是恶意注入。

文章

1、我为苹果手表开发地图（英文）

作者记录了自己开发手表地图的过程，设计一个适配手表的 UI 很不易。

2、GPT Image 2 与 Nano Banana 2 的比较（英文）

两款目前最强的图像模型的比较，谁更好一点。

3、Chrome 会静默安装一个 4GB 的 AI 模型（英文）

有人发现，Chrome 浏览器会在用户不知觉的情况下，下载一个 4GB 的 AI 模型文件 weights.bin。删掉了，它还会重新下载。

4、MacBook Neo 深度解析（英文）

苹果2026年发布的 MacBook Neo 是一款低端笔记本电脑，只有 8GB 内存，本文分析为什么它是一款出色的产品。

5、视口驱动的 CSS 动画（英文）

CSS 动画一般都是基于时间，最新的 Animation Timeline API 可以改成基于视口，即根据元素在视口中移动的百分比来触发动画。

6、天空为何是蓝色的（英文）

本文通俗解释了，跟天空颜色相关的一系列问题：为何天空是蓝色，日落时却是红色，为何云是白色的，为何火星天空是红色的，火星日落是蓝色的。

工具

1、auge

基于 macOS 系统内置视觉框架 Apple Vision 的命令行工具，可以在命令行完成图像的视觉分析。

2、BleachBit

著名的跨平台桌面应用，用来清理各种浏览器的垃圾文件。

3、Cicada

一个网页白板，不需要服务器，只是单个 13KB 的 HTML 文件，没有任何依赖，绘制的图形保存在 URL 里面。（@Bennet7291 投稿）

4、ASS Subsetter

ASS 字幕字体嵌入的网页工具，可以减少字幕文件的体积。（@mtsubs 投稿）

5、Infinitum

开源的 RSS 服务器，需要自己架设，支持正文补取、AI 分析、事件归组等功能，自带前端阅读器。（@shawnxie94 投稿）

6、tunnix

加密的 SOCKS5/HTTP 隧道，需要安装服务器端和本地命令行客户端。（@aeroxy 投稿）

7、curve-arrow

弧形箭头的 SVG 格式生成器。（@YYsuni 投稿）

8、LynxDB

单个二进制文件的日志分析引擎，可以设定各种条件，从多种服务器日志提取信息。（@OrlovEvgeny 投稿）

9、Chrome DevTools CLI

一个 Rust 命令行工具，通过 DevTools 协议连接到系列里的 Chrome 浏览器，进行网页操作，默认自动连接，可供 AI Agent 调用。（@aeroxy 投稿）

10、LaunchNext

macOS 的新版移除了 Launchpad，新的界面很难用，这是它的开源替代品。（@meichiny 投稿）

AI 相关

1、SpineDigest

一个命令行工具，将较长的电子书通过 AI 变成较短的电子书。（@BlackHole1 投稿）

2、Privacy Filter Online

在线的文本隐私检测和脱敏工具，基于 OpenAI 的本地模型 Privacy Filter。（@airyland 投稿）

3、OpenClip

开源的 Web 服务，通过 AI 自动从 Bilibili/YouTube 下载视频，提取其中精彩时刻。（@linzzzzzz 投稿）

4、Readme.skill

一个 Skill 文件，统计你在 Claude Code 或 Codex 里面的活动，参考统计报告。（@study8677 投稿）

5、gpt-image2-ppt-skills

一个使用 GPT Images 2 模型（需要 API Key）生成 PPT 的 Skill，提供10套幻灯片模板。（@JuneYaooo 投稿）

资源

1、大模型运行原理（英文）

大模型原理的长篇讲解，带有可互动的图形解释，针对初学者，基于 Andrej Karpathy 的技术深度分析文章。

2、现代 C++ 编程（Modern C++ Programming）

开源英文教程，通过详细的 PPT，帮助学过 C 语言的程序员掌握 C++。

图片

1、阿尔忒弥斯二号照片集

今年4月，美国发射阿尔忒弥斯二号飞船，运送4名宇航员绕月飞行。这个网站收集了本次飞行的300多张照片。

上图是4月1日人们欢送宇航员进入发射台。

上图就是阿尔忒弥斯二号，中间是火箭主体（包含底部四个发动机），两侧是两个推进器，每个高54米，顶部就是宇航员乘坐的猎户座飞船。

上图是发射两分钟后，两枚助推火箭开始分离，它们下面的那个光点就是猎户座飞船。

2、66号公路邮票

66号公路是美国最著名的一条公路，穿过16个州的重要路段，沿途有许多餐馆、加油站和汽车旅馆，还有开阔的景色和视野。

它开通于1926年，从早期大萧条的避难所，到二战期间的物资补给线，再到20世纪中期人们汽车旅行的路线，见证了无数岁月的变迁，成为美国的时光胶囊。

今年是它开通100周年纪念，美国邮政局发行了一套8张的邮票，非常有特色。

文摘

1、保护你的棚屋

公司的项目是摩天大楼，你的个人兴趣项目是小棚屋。

那些只会建造摩天大楼的工程师，最终将精疲力竭。遇到的问题变得重复，开发过程变得令人窒息，创造力的火花开始熄灭。你开发的原因，不再是因为你想建造，而是因为商业要求。

你要保护好你的个人项目，那里是你的好奇心所在，是你进行实验的地方，也是你定义自己为创造者而非仅仅是雇员的地方。

公司会教会你怎么写经得起时间考验的代码，但只有你的个人项目，才能确保你始终保持对代码的热情。

2、工作时把门打开

我上班路上，有一家木工坊，老板总是把门敞开着。

我每天骑车经过那扇门，往里窥视，看到他摆放的各种工具，以及他为承接的订单而堆放的木板，这真令人愉悦。这一切默默地传递一个信息：这里正常运作。

在互联网上，每个人就好像这家木工坊。如果你不说话，就是工厂关着门，没人知道你的存在，你就消失了。只有看到你说话，人们才知道你在正常活动，是开着门的工厂。

由此推论：在互联网上，最容易被注意到的是那些不停说话的人。

言论

1、

门罗币的挖矿与比特币完全不同，它的设计思路是，尽量让所有人都能参与挖矿，防止那些拥有矿机的人占优势。

它的挖矿程序会模拟一个通用 CPU，使得矿机的专用 CPU 失效，也就是说它的挖矿只适合家用电脑的普通 CPU。

-- 《门罗币的工作量证明机制》

2、

以后没有初级工程师了，机器能做他们现在做的事，而且更便宜。但是，初级工程师的价值不在于他们能做的事，而在于他们未来会成为什么样的人。也许几年后，我们会纳闷，那些高级工程师都去哪儿了？

-- stvn.sh

3、

AI 加速了编码，创业公司现在面临的主要挑战是产品管理。

如果原型开发只需要一天，而推广和用户反馈需要一周，团队就只能依赖直觉来更快地做出决策。

-- 吴恩达，著名 AI 计算机科学家

4、

你的职业规划就是三步：（1）让自己擅长某事，（2）设法从中赚钱，（3）尽可能久地做下去。

-- 《我如何进入游戏行业》

往年回顾

李飞飞，从移民到 AI 明星（#348）

轮到硬件工程师吃香了（#298）

不要夸大 ChatGPT（#248）

美国制造是否可能（#198）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年5月 8日

科技爱好者周刊（第 394 期）：第二次 API 开放浪潮

阮一峰的网络日志

24 April 2026 at 07:43

这里记录每周值得分享的科技内容，周五发布。（[通知] 下周五一假期，周刊休息。）

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

我见过的最酷广告牌，只有一行命令，推广一个 AI 工具包。普通人看不懂也没关系，反正不是给他们用的。（via）

第二次 API 开放浪潮

如果你在互联网行业足够久，大概会记得，以前有过一次 API 开放的浪潮。

那是15年前的2011年，云服务刚兴起不久，各种平台纷纷开放自己的 API。

那时，Facebook 和 Twitter 都发布了自己的 API，开放了平台数据。GitHub 的 API 设计简直是艺术品，几乎可以获得任何想要的功能。

平台的想法是，开放的 API 有助于用户和第三方加入，来开发各种插件和扩展程序，从而推动平台的增长，提高用户留存率和满意度。

那时还有一个叫做 ProgrammableWeb 的网站（现已关闭），它的名字就代表了当时人们的信念：互联网可以通过 API 编程，把各种平台的数据连接在一起。

但是，事情的发展跟预想完全相反。

平台发现，API 很难盈利，因为无法插入广告，而且自家的数据会帮助其他公司的生意，造成用户流失。

于是，它们纷纷改变做法，限制和关闭 API，不再分享数据，将用户留在自家的"围墙花园"。

如今，Facebook 和 Twitter 的 API 已经形同虚设，第三方客户端遭到彻底禁用。GitHub 虽然还保持开放的 API，但也采取了管控，增加了身份验证和速率限制，要想构建全功能的第三方应用也很困难。

正当人们觉得这将是常态，转变出现了。

就在2025年的下半年，大模型达到了临界点，变得真正强大，可用于生产环境了。

人们很快意识到，如果大模型只会思考，不能执行代码，用处就不大。AI 的最大价值不是内容生成，而是内容生成 + 自动化，这样才能最大限度解放人力、创造价值。AI 自动化，自己执行代码的典型代表就是"龙虾"（OpenClaw）。

自动化意味着 AI 必须能够调用其他平台，进而意味着，其他平台必须先开放自己的 API。

突然之间，API 不再是累赘，而是接入 AI 的必须条件。没有 API，你的平台就进入不了 AI 工作流，各种 Agent 也就不能代表用户在你的平台上工作。

同样两个平台，一家有 API，另一家没有，后者就很可能被市场放弃，因为大模型无法接入它，也就无法对它自动化，AI 用户只能转向它的竞品。

平台意识到了，谁尽快开放 API，谁就抢占了先机。所以，强如腾讯也会在龙虾爆红后，以最快的速度开放了微信接口，让龙虾可以向微信发消息。

腾讯也害怕，在龙虾的世界里没有自己的一席之地。其他平台就更不用说了，抢着通过 MCP 和 Skill 开放自家的操作接口。

这表明，第二次 API 开放浪潮正在到来。这一次将比上一次开放得更彻底，更易用。

（1）这次开放的不仅是云服务，还有很多日常生活服务：外卖、电商、银行......甚至还有很多原本根本不会有 API 的服务，比如餐馆和球馆的预订。

（2）这次的 API 不需要手动编程，你只需使用自然语言，由大模型翻译后调用。

（3）这次的 API 是消费者通过 AI 调用，使用目的是代表用户行事。以前 API 是由应用程序调用，使用目的是获取数据。

机器人半马

上周末，北京亦庄举行了第二次人形机器人的半马比赛。

超过100个人形机器人参加比赛，看谁最快跑完21.0975公里。最终，冠军成绩是50分26秒，超过了人类最快的选手（半马的人类世界纪录是1小时02分52秒）。

根据网友拍摄的现场视频，机器人跑到一定距离就要进入补给站，由工作人员更换电池，并加入冰块（或者干冰）防止过热。

这就是说，机器人的内置电池支持不了一小时的运行时间。

宇树公开发售的 H2 人形机器人，续航时间是3小时。在长跑这种剧烈运动时，续航应该会大打折扣。而且，功率相同时，体重较轻的机器人在赛跑中有优势，也就意味着不能多携带电池。

这样看上去，人形机器人目前的实用性还是很有限。不插电时，一到两个小时就要充电，那样的话，很多事情就不适合做了。

GPT Images 2.0

本周，OpenAI 发布 GPT Image 2.0 模型，据说是目前最强的图像模型，性能超过了谷歌的 Nano Banana 2 Pro。

根据 OpenAI 的介绍，它的文字渲染有较大进步，很好地支持汉字，可以生成复杂的解释性图片。

大家可以去 ChatGPT.com 免费试用。

我做了一个比较，生成一张小狗在古镇屋檐下午睡的图片。这是 GPT Images 1 的结果。

这是 GPT Images 2.0 的结果。

我还看到一个有趣的项目 Flipbook。它是一个解释性图片浏览器，用户输入一个主题，它会自动生成详细解释的图片。

上图是输入"汽水"生成的解释图片，点击局部，还能生成进一步的解释。

网上已经有收集提示词的 Awesome 仓库（@DophinL 投稿），大家可以看看别人的优秀例子。

另有一个同类的提示词仓库（@ZeroLu 投稿）。

AI 是扩展神器

AI 有一个特点，不仅能够压缩信息，更善于扩展信息。它会推断出模糊不清的部分，更能生成缺失的部分，填补上看似合理的细节。

这意味着，AI 是扩展神器。有人设想了这样的场景：

公司 CEO 开会时口述了一个设想。
AI 将其扩展成一份战略文件。
AI 将战略文件转化为产品规格。
AI 用氛围编程生成代码原型。
AI 根据代码原型，撰写出发布文案和公关稿。

看到了吗，AI 可以把脑子里的一个想法，不断扩展出文档、代码、产品、发布会、就业......

人们总是说，将来的世界是物质产品极大丰富的世界，AI 看上去就是这一类工具：凡是它能生成的东西，都将变得极大丰富。

小轿车的车载厕所

赛力斯申请了一个小轿车的"车载厕所"专利。

座椅装在一个滑轨上，向后滑动就会露出下方的坐便器。

这个马桶配备了加热元件，用于蒸发尿液并烘干其他污物，但还是需要定期手动清空。同时，车内配备风扇和排气管，用于换气。

这个装置对于小轿车，使用场景有限，只适合高速公路大堵车的情况。但是，对于跑长途的大货车，倒是很实用。

文章

1、不要使用 Ollama（英文）

Ollama 是一个运行本地大模型的工具，本文提出它有诸多问题，建议改用 llama.cpp 和 LM Studio。

2、npmx 的功能（英文）

有人为 npmjs.com 做了一个新的前端 npmx.dev，解决了很多开发者要求已久的功能。

3、不要过长的链式调用（英文）

JavaScript 语言可以写出很长的链式调用（上图），有些程序员很喜欢用。本文提出链式调用有一些缺点，不宜过长。

4、异步编程技术的演变和实际成果（英文）

一篇概述，介绍异步编程的由来，如何发展出 async/await 这种普遍接受的解法，以及存在的问题，写得比较深入。

5、被动雷达的工作原理（英文）

雷达可以主动发射电波侦测飞行物，也可以不发射电波，只监听电波变化，这就叫被动雷达。

工具

1、Little Snitch for Linux

著名的网络通信监控软件 Little Snitch，终于推出了 Linux 版，可以用它看到每个应用跟什么网址通信。

2、quien

查询域名信息的终端工具，提供清晰易用的界面。

3、ggsql

可以生成图形的 SQL 查询工具，直接查询数据库，将结果表示成可视化图形，参见介绍文章。

4、Himi Recorder

开源的 Mac 录屏应用，可以绕过录屏检测机制，让被录制的应用无法感知正在被录屏。（@jrainlau 投稿）

5、Tab Harbor

开源的 Chrome 插件，把新打开的标签主页变成标签管理器。（@V-IOLE-T 投稿）

另有一个类似插件 Tab Out。（@Acorn2 投稿）

6、animal-island-ui

《动物森友会》风格的 React UI 组件库。（@guokaigdg 投稿）

7、CUPS Web

网页版打印机管理工具，通过浏览器远程控制打印机，支持多用户、打印记录追踪等功能。（@hanxi 投稿）

8、Blog Helper

开源的访客统计服务，提供 PV/UV 统计、热门文章、趋势图等，一个实例服务多个站点。（@thinkycx 投稿）

9、HiKid

帮助小朋友练习英语口语和听力的桌面应用，完全免费，目前仅支持 macOS。（@Hao4Wang 投稿）

10、Kite Desktop

桌面端的 K8S 多集群管理工具。（@eryajf 投稿）

11、Project River

Git 仓库提交历史的可视化河流图，支持多项目对比、贡献者信息等特性，在线体验。（@Lionad-Morotar 投稿）

AI 相关

1、OpenAI Privacy Filter

如何才能避免把敏感信息（比如姓名、地址、电话、密码）发给大模型？

OpenAI 给出了答案：Privacy Filter。这是一个本地运行的大模型，它先处理后再发给线上大模型。

比如，原文是"产品发布日期是2026年9月18日"，处理后就是"产品发布日期是[PRIVATE_DATE]"，参见介绍文章。

2、LinkAI Gateway

开源的 AI 网关，可以接入主流大模型，然后对外提供统一的 API（OpenAI 兼容）和管理后台。（@star7th 投稿）

3、Nezha（哪吒）

开源的 AI 编程任务管理器，快速切换多任务管理，集成了原生终端、会话管理、代码编辑、Git 等功能，大小不到 10MB。（@hanshuaikang 投稿）

4、WatermarkZero

Gemini 生成图片的可见水印去除工具，图片不需要上传到服务器，直接在本地浏览器处理。（@liuyan-wjy 投稿）

5、mini-cc

开源的 AI 编程 Agent，作用类似于 Claude Code，采用多语言架构，目前已完成 TypeScript 实现。（@RainyNight9 投稿）

资源

1、The Listening Museum

一个有意思的网站，收集键盘打字的声音。你可以先听一下某种键盘的打字声，再确定是否购买它。

2、软件工程定律

这个网站收集各种软件相关的定律，目前有56条。

比如，"帕金森定律"（Parkinson's Law）：工作量总是会增加，直至填满所有可用时间。推论就是，不管设置多长的开发时间，项目开发总是会做到最后一刻。

图片

1、5x5 像素的英文字体

最小的英文字体有多小？

1x1 像素（宽1像素，高1像素）就是一个点，当然不可能；2x2 像素也不可能；3x3 像素理论上可以，实际上无法阅读；4x4 像素难以绘制一些多笔画的字符，比如 E、M、W。

因此，英文字体最小就是 5x5 像素，就是下面的效果。

上面字体中，大多数小写字母比大写字母小一个像素，从而使两者可以在视觉上区分。

整个字体仅占用350字节的内存，所以很适合老式设备或低端设备，即使只有 16kB 内存的8位微控制器，也能完成字体渲染。

另外，它的每个字符只需要25个像素就能显示，而即使 384x288 显示屏也有11万像素。

除了 5x5 字体，还有 3x5 字体（宽3像素，高5像素）和 4x5 字体（宽4像素，高5像素），但是它们的辨识效果都不好（下图）。

2、里海石油城

里海是世界最大湖泊，面积相当于云南省。

上个世纪中期，里海发现了石油。当时的苏联就开始在湖面上建设石油平台，距离岸边有60英里，乘坐6个小时的渡轮才能到达。

最多的时候，共有约320个生产基地，包含2,000口井，通过100多英里的桥梁连接起来。

那时，5000多人生活在这些平台上，形成了一个难以置信的水上城市，所有住宅楼都是建在水上。

随着油田的枯竭和油价的波动，这座石油城的产量已经大幅下降，人们大多离开，整个平台年久失修，垮塌就是时间问题。

言论

1、

美国鞋类生产商 Allbirds 宣布转型为 AI 公司，股价一天暴涨了5倍。

这让人想起2017年，美国一家名为"长岛冰茶"的饮料企业，宣布转型为区块链公司，卖柠檬茶的同时，探索区块链的投资机会，股价也是暴涨。后来，它的区块链业务还没建立好，就破产了。

-- 雅虎

2、

Figma 拥有近 2000 名员工（当然并非所有员工都从事产品开发），而 Anthropic 新推出的 Claude Design 的开发团队，我甚至怀疑是否超过10个人。

-- 《Figma 的困境》，本文评论 Claude Design 对 Figma 造成重大打击，在 AI 的开发速度和开发成本面前，传统软件不堪一击。

3、

我对未来世界的憧憬是，她或许不那样充满未来感，反而更像田园牧歌。我们可以回归传统的生活形态，同时又不放弃新技术带来的便利，几乎无需再去看屏幕或触碰屏幕。

-- jsomers.net

4、

每一种文化都会造就反映其最深层焦虑的英雄。

硅谷最焦虑的，就是增长停滞，无法创造出大受市场欢迎的新产品，所以大肆宣传"英雄开发者"：他们能在午夜发布新功能，凭借着咖啡因带来的强大意志力，将白板上的涂鸦变成价值数十亿美元的独角兽企业。

-- 《古典维护者的挽歌》

往年回顾

冷启动的破解之道（#347）

饮水鸟玩具（#297）

扎克伯格的裁员信（#247）

如果这个世界有快乐机（#197）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年4月24日

科技爱好者周刊（第 393 期）：脑腐状态

阮一峰的网络日志

17 April 2026 at 07:20

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

湖南益阳的和平签证主题博物馆，纪念二战时期何凤山博士救助犹太人。外立面的层层钢板象征签证文件，狭窄而棱角分明的入口给人一种压抑的感觉，进入后的空间逐渐走向释放和光明。（via）

脑腐状态

最近学到一个新词"脑腐"（brain rot）。

它就是字面意思。有些人看上去是正常的，但是大脑已经变异了，有些部分腐烂了。

根据介绍文章，"脑腐"的症状就是思考能力下降，难以长时间集中注意力，进行深入的推理和反思。

一遇到比较难、需要反复思考的问题，你就会烦躁，不仅是心理烦躁，还会生理烦躁，全身不安，不愿意多想，就希望赶快了结。

你有没有这个症状？如果有，就有"脑腐"的危险了。我感觉，我的大脑就有一点。遇到复杂的软件概念和算法，以前会仔细研究，直到搞懂为止，现在更可能看一眼就跳过去，不懂就不懂了，知道名字就可以了。

"脑腐"的主要原因是，网络平台上面那些夸张的"标题党"文章和短视频。它们的目标是吸引流量，在最短时间内引发阅读者/观看者的兴趣，感到满足。当你长期观看这些内容以后，大脑就被密集刺激，思维兴奋状态的维持时间越来越短，丧失了长时间深入思考的能力。

这就是为什么一个人看惯短视频以后，就离不开内容压缩了。一篇几千字的文章，他也会要求大模型生成总结；一部90分钟的电影，他也宁愿看几分钟的电影解说。

一旦"脑腐"了，难以长时间集中注意力进行思考，也就难以学习和处理高难度问题了。现在看上去，没有好的解决办法，因为现代人的时间越来越琐碎，内容碎片化是大趋势。

应对之策也许就是反过来，将学习和思考拆解成一系列短问题。比如，以后的学习不再是一厚本教材，而是几十个的系列短视频，每个用两三分钟解释一个知识点。只有这个时间长度，学生的思维才能保持专注。

权重有没有版权？

国产大模型一般是开源的，但是最近有所改变。

有的大模型闭源发布；有的只开源小参数版本，不开源大参数版本；有的不允许商用，除非得到许可。我就不点名了。

"黑客新闻"的一个读者，针对开源大模型修改许可证这件事，提出质疑：开源大模型可能无权设置许可证。

他的意思是，现在的开源大模型主要开源的是权重文件，以及配套的运行代码。所谓"权重文件"就是一个巨大的矩阵，表示各个 Token 在生成结果中出现的可能性。

权重是大模型的核心，而它来自于对海量语料的计算。这就是说，权重不过是计算结果，他认为，计算结果是没有版权的。

比如说，你写了一个程序，实现了一种更高效的根号2的算法。那么，这个程序是有版权的，但是计算结果根号2（1.414）是没有版权的。因为计算结果不过是机械过程的产物，不涉及人类创造力。

按照这种说法，权重根本没有版权，当然也就谈不上设置或修改许可证了。

我不是版权专家，不能确定这种说法对不对，但是听上去有道理。大家可以自己去问问大模型"计算结果有没有版权？"，看看大模型怎么回答。

科技动态

1、摄像头耳机

华盛顿大学的研究团队，开发出世界首个带有微型摄像头的无线耳机。

上图中，耳机底部的小凸起就是微型摄像头。

它的最大用途就是跟 AI 互动。你可以直接问："我手里的英文杂志的封面标题是什么意思"，耳机就会把摄像头图像，通过蓝牙发到手机，手机的大模型就会回答。

由于带宽限制，它只能拍摄低分辨率的黑白图像。长远来看，如果不需要显示模块，这种摄像头耳机要比 AI 眼镜更适合穿戴使用，因为很多人不喜欢长时间戴眼镜。

2、排行榜的 AI 歌手

最近，有人向苹果音乐商店 iTunes 上传了艾迪·道尔顿（Eddie Dalton）的歌曲。

这个歌手实际上并不存在，形象、声音、视频都是 AI 生成的，但是上传者没有披露。

结果，这些 AI 歌曲大受欢迎。iTunes 单曲榜前100名中，他居然占据了11席，有两首歌进入了前10名。

他的专辑在 iTunes 上也排名第三。

以前，有人说 AI 和机器人承担日常工作以后，人类可以从事艺术创作，比如唱歌、跳舞、画画、写作、拍视频......现在看上去，AI 也会跟人类争夺艺术工作。

3、经济舱座椅

长途飞行的经济舱座椅，非常不舒服，美联航想出了一种改进办法。

如果是一家三口，可以将座椅的坐垫卸下，从而一家躺在地上睡觉。

航空公司会提供枕头和毛毯，甚至还有床垫。

如果是单人旅客，你就需要同时购买三个相邻座位，好在这样还是比头等舱便宜。

我觉得，中国高铁可以考虑这种做法，某些没有卧铺的长途线路允许拆卸几排座位，让乘客躺在地上休息。

文章

1、Claude Code 的源码真相（英文）

前不久，Claude Code 源码泄漏，人们仔细研究以后，发现这些源码全部是 AI 生成的，质量不高。一个函数就长达3,167行，包含486个判断分支和12层嵌套，入口文件 main.tsx 大小为 785 KB。

作者得出结论，AI 编程流行后，代码泄露、供应链攻击、乱七八糟的生产代码，会成为新常态。

2、Chrome 浏览器原生支持技能（英文）

Chrome 官方宣布，支持在 Gemini 插件里面使用技能（skill），也就是一段预置的提示词，用来一键完成任务。这应该是浏览器以后的发展方向。

3、安卓会剥离照片的位置信息（英文）

本文指出一个容易忽视的点，那就是网页上传照片，安卓会自动剥离照片的位置信息。蓝牙或 QuickShare 分享照片也不行，除非你自己开发照片应用，或者用 USB 传输照片。

4、我的每月20美元技术栈（英文）

作者的网站每月产生1万美元收入，而运营成本仅为20美元，作者介绍他采用的技术栈。

5、你真的需要数据库吗？（英文）

本文提出，如果数据量不大，小型网站完全可以不用数据库，直接把数据保存在文件里面，无论是直接读文件、或者从内存查询，再或者二分法查询，速度都不慢。

6、自制软饮料（英文）

作者记录在家里自制可乐的过程，原来包含那么多化学品。

1、关于索引，你不知道的事（英文）

一篇数据库科普文章，通过实例介绍索引（index）的基本用法。

工具

1、DAVINCI RESOLVE 21

著名视频编辑软件"达芬奇"的新版本，加入了图像编辑，可以当作照片编辑软件了。

2、Phyphox

一个著名的老牌手机应用（支持 iPhone 和安卓），提供各种手机传感器的应用界面，由德国亚琛工业大学开发。

3、Material You NewTab

一个 Chrome 插件，用来定制新标签的主页。

4、ClipCascade

一个同步剪贴板的工具，可以将一台电脑的剪贴板自动同步到另一台电脑，不过需要安装它的服务端和客户端（支持 Windows、Linux、安卓）。

5、Gridea Pro

桌面静态博客写作客户端，不用设置服务器，零门槛建立自己的静态博客网站。（@Hao4Wang 投稿）

6、Recordly

开源的录屏与编辑工具，适用于制作演示、产品展示、教程、讲解视频等，可以录制整个屏幕或单个窗口，并直接进入编辑器。（@Hao4Wang 投稿）

7、水印

为图像和视频添加水印的网站，支持自定义模板。（@FurryR 投稿）

8、Input 0

免费开源的 macOS 语音输入工具，本地运行，支持大模型识别语音文本，并进行文本润色。（@Justin3go 投稿）

9、OpenToggl

开源的时间追踪工具，商业软件 Toggl 的替代品。（@CorrectRoadH 投稿）

AI 相关

1、OmniVoice Studio

视频配音的 AI 桌面应用，支持语音翻译和克隆，无需 API 密钥和云端服务，完全本地生成。（@Hao4Wang 投稿）

2、EVA

一个极简的 AI 编程智能体，仅需单个 Python 脚本，定位为低配版 Claude Code，可以参考它的实现。（@usepr 投稿）

3、claude-msync

一个命令行工具，导出 claude code 的记忆（memory），然后输入 Claude 客户端或其他 AI Agent。（@debugtheworldbot 投稿）

4、TokenTracker

生成本地的 Token 消耗统计报表，支持多种 Agent（Claude Code、Codex、Cursor、Gemini、Kiro、OpenCode、OpenClaw 和 Every Code）。（@mm7894215 投稿）

资源

1、中国卷烟博物馆

一个个人网站，收集各种国产品牌的卷烟。

2、2026世界新闻摄影大赛获奖作品

这个页面列出了世界新闻摄影奖今年一共70幅获奖作品，记录了去年的许多新闻事件。

上图是在四川绵阳的大熊猫公园王朗保护区，使用红外线感应相机拍摄到的野外大熊猫。

3、guide.world

这个网站收集世界各地的优秀游记散文，不过文章还不多。

图片

1、月球上的激光反射器

1971年，美国阿波罗14号飞船登陆月球后，宇航员将一个手提箱大小的白色设备，放在月球表面。

这是一个激光反射器，有点像镜子，可以将射来的激光反射回去。

它用来测量地球与月球的精确距离。地球向月球发射激光，被这面镜子反射回来，地球接收到反射的信号，通过时间差就能知道精确距离。

目前的测量精度已经达到了毫米级。科学家发现，月球正以每年3.8厘米的速度远离地球。

文摘

1、合同软件开发的糟糕现状

有些程序员是基于项目的合同工，不是正式的雇员。

这些程序员选择合同工，而不是稳定的全职工作，是因为想要灵活性和短期经济利益。灵活性指的是，工作时间可以自己安排，而且你可以同时签订多份合同。

可惜的是，现实情况是，公司雇佣了大量合同工，他们没有福利，解雇起来也容易得多，而且工资比全职员工低。

我知道这些，因为我干过好几次合同工。

除了薪酬和福利不如全职员工，你还根本没有带薪休假。如果生病了或者需要休息一天，就根本拿不到这一天的工资。

合同工还有一个问题，被告知的工作和最终实际分配的工作，往往存在重大差异。

我曾经面试了一个 Java 的后端职位，但实际情况是，我几乎没有编写或维护任何 Java 代码，而是被要求去写 React 代码，修复从另一个团队继承下来的有问题的 Jest 测试，以及极其缓慢的 Webpack 配置。

两个月后，我被解雇，理由是毫无根据的"绩效原因"。我知道这只是借口，我遇到了太多自己根本无法控制的问题。

我的另一次合同工经历，也是如此。我在团队里轮班待命，周六早上要值班却没有工资；我提交的工时表被断然拒绝，老板打电话问我为什么要加班。

后来我发现，我的雇主不愿意支付我加班费，再后来我被解除了合同，他们在电话里告诉我不胜任这项工作。

总之，现在的软件合同工有各种弊端，却得不到任何好处。如果有人能从合同工变成全职员工，那当然很好，但在我工作过的每家公司里，合同工都是二等公民。

言论

1、

哈佛大学2024-2025学年，成绩为 A 的作业比例约为60%，远远高于2005-2006学年的约25%，可见成绩膨胀有多严重。

-- 《华尔街日报》

2、

Claude Mythos 模型可以发现并利用系统漏洞，外部评测证实了这一点。但是，评测者也发现了一个残酷的事实：你花费的 Token 费用越多，它发现的漏洞就越多，系统也就越安全。

这意味着，你想要系统安全，就必须比攻击者花费更多的 Token。因此，安全行业变得像采矿的工作量证明，谁的投入多，谁就赢。

-- Simon Willison，著名开发者

3、

一年前，我经常收到代码质量低劣、甚至完全不知所云的 pull request，这让我怀疑提交者是不是用了 AI，所以代码才这么糟糕。

今年不同了，当我收到拼写错误、语法错误的低质量 pull request 时，我反而会怀疑贡献者是不是忘了使用 AI 来写代码，因为 AI 会显著提高代码质量的下限。

-- 《ClickHouse 的 AI 编程实践》

4、

当代战争进行时，政府通过表情包和玩偶动画进行宣传，这或许让人觉得匪夷所思，但这正是平台时代的体现。

将战争包装成娱乐性的视觉语言，会使得宣传更容易传播。社交媒体是一个开放的竞技场，最具吸引力的内容将获得最大的传播范围。

-- 《当病毒式传播成为信息》

5、

大模型意味着，Markdown 现在是一种可执行文件格式。你下载一个 Markdown 文件，你的大模型就多了一个新的第三方依赖项，它的任何修改都可能是注入攻击。

-- 《第三方依赖的冷却时间》

往年回顾

未来就是永恒感的丧失（#346）

xz 后门的作者 Jia Tan 是谁？（#296）

永不丢失的网络身份（#246）

掌机的未来（#196）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年4月17日

科技爱好者周刊（第 392 期）：axios 投毒与好莱坞式骗术

阮一峰的网络日志

10 April 2026 at 07:17

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

今年就将启用的腾讯总部园区，俗称"企鹅岛"，里面不仅包括办公楼，还有多幢公寓楼。（via）

axios 投毒与好莱坞式骗术

上周，著名软件库 axios 被投毒了。黑客拿到了发布令牌，直接发了一个新版本，里面加入了木马。

软件投毒不是新鲜事，新鲜的是发布令牌怎么泄漏的。背后的故事简直是好莱坞电影，根本防不胜防。

axios 属于使用最广泛的 JS 软件库之一，每周下载量接近1亿次，所以这次投毒的感染面很大。

而且，木马的恶性程度很高。根据官方的清除说明，如果不幸中毒，机器上所有的密钥、令牌和凭证都要作废。这个木马会扫描所有目录，收集密钥，然后发出去。

大家要知道，像 axios 这种超级流行的软件库，每个环节都有完整防护，每一行代码都被严格审查。这次攻击完全是一场精心策划的社会工程，把这些防护都攻破了。

攻击目标选定首席维护者 Jason Saayman。据本人透露，事件过程是这样的。

他们根据我的情况量身定制了这一流程，具体做法如下：

他们冒充某公司的创始人联系我，不仅克隆了该公司创始人的外貌，还克隆了该公司本身。

他们随后邀请我加入一个真实的 Slack 工作区。这个工作区使用了该公司的品牌标识，名称也十分可信。Slack 的工作区设计得非常精巧，他们设有专门的频道来分享 LinkedIn 上的帖子。我猜这些 LinkedIn 帖子最终会发布到该公司的真实账号上，整体效果非常逼真。他们甚至还创建了一些我推测是该公司团队成员以及其他一些开源软件维护者的虚假账号。

他们安排了一次与我的会面，目的是进行沟通。会议是在微软 Teams 上进行的。参会人员似乎是一群人。

会议指出我系统上的某些东西过时了。我以为是和 Teams 有关，就安装了缺失的组件，结果发现是远程木马（RAT）。

一切都安排得井井有条，看起来很正规，而且做事方式也很专业。

可以看到，这个攻击是有剧本的，每一步都经过了策划，充分准备和排练，完全为你度身定制，就等你落入圈套。

行骗者非常耐心，投入了巨大的前期成本。首先，假冒某公司的创始人联系你，为了提升可信度，还做了假的公司网站；然后，邀请你加入他们的 Slack 工作区，里面有各种讨论、项目文档、宣传物料，看上去就像真的一样；最绝的是，他们还让你在 Teams 软件上参加公司的视频会议，一群骗子亲自露面，陪你一起开会。

会议开始后不久，主持人突然说："奇怪，你的系统怎么跟我们不一样，是不是微软的插件过时了，我发你一个最新版。"你就这样收到了传过来的安装包，看到别的与会者都在等你，你也就没有多想，直接双击执行了。哦喔，就这样中招了，发布令牌一秒钟就泄漏了。

作假到这种程度，让人叹服。

这让我联想到不久前看到的一条印度新闻，作假程度有过之而无不及，也是如同好莱坞电影。

去年圣诞节，一位印度新德里的77岁老太太，收到了"警察局"的 Whatsapp 视频电话。视频右下角居然还有手语翻译。

警察跟她说，银行发现她的账户有洗钱记录，必须对她进行调查，如果不配合，账户资金将被没收，通知她远程出席法院的调查听证会。

媒体后来披露了"警察局"的布景照片，大家看看多么逼真。

前三张照片是印度警察局，最后一张是巴基斯坦警察局，它们在一栋楼里，房间紧邻着。要知道这两个国家在现实中是对立的，但是不妨碍骗子两边都骗。

再回到案子本身，几天后，老太太参加了线上听证会，在一个法院里举行，由"法官"亲自主持。他查看了资金记录，听取了"警察"的证词，向老太太询问了一些问题。

最后，"法官"告诉老太太，当局需要核实她的所有资产是否合法。她必须每天都跟警察局连线，回答问题，直到查清为止。

下面就是这个案件最精彩的部分，一连16天，老太太每天开着摄像头连线，大家看看骗子演到了什么程度。

在这16天里，老太太渐渐喜欢上了在假警局轮班的警官们。她开始称他们为自己的孩子们。而他们也反过来称她为"母亲"。

晚上，她和最年轻的军官一起阅读印度教宗教经典，这位军官请她把她觉得特别感人的段落发给他。

"他们就像家人一样，"老太太回忆说。"他们说，'女士，我们想尽快把事情解决。我们日夜为您工作。'"

天哪，骗子从早到晚演了16天，跟老太太促膝长谈，一起读经典，请教人生问题，直到深夜。这要是拍成电影，该有多动人。

老太太没有丝毫疑心，心甘情愿卖掉了自己的投资，累计九次向假警察局的账户总共转出了160万美元。

第二天，她再跟"警察局的孩子们"连线，就连不上了。

从上面两个案例，大家可以看到，现在的互联网骗局可以演到什么程度，完全是精准投放的"剧本杀"，成功率极高。要是再加上 AI 的加持，几乎不可能分辨真假、。

网站开发有一条规则：客户端的每一个请求都不可信任，必须假定是恶意请求。以后，现实生活恐怕也是这样：每一个陌生人都不可信任，必须假定是恶意骗局。

算力依然不足

最近发生了三件事，说明算力当前依然很紧张。

第一件事，OpenAI 关闭了视频生成服务 Sora，主要原因是算力不够，公司要把计算资源用于核心业务。

第二件事，Anthropic 公司正式禁止将包月套餐用于第三方服务（比如 OpenClaw、OpenCode 等等）。

原因是包月套餐如果足额使用，消耗的算力将远远超过套餐费用。公司的算力很宝贵，必须优先保证自家产品（比如 Claude Code），不能让外部产品增加机房负担。

第三件事，有文章称，GitHub 今年前三个月的代码提交量是去年同期的14倍！

原因显然是 AI 编程暴增，去年年初可没有 Claude Code。GitHub 的资源根本不足以应付这种增量，所以不断发生故障。

上图显示，GitHub 过去三个月的正常运行时间只有89.47%，合格数字应该是99.99%。

以上三件事说明，主要的几家 AI 服务公司，算力资源都很紧张，硬件依然不足。

这意味着，硬件价格暴涨还没到头，还会继续涨，而 GitHub 很可能会收紧免费服务，全面转向收费。

前端是不是重复劳动？

我看到一个开发者说，前端本质上是相同的工作：向用户展示一些数据，并让用户处理这些数据。

他觉得，没必要重复解决同样的问题。

他就做了一个"自适应浏览器"。它通过 AI 自动生成前端 UI，后端只需要提供数据，以及网页用途的描述。

不知道这是不是前端的结局？

Adobe 修改 hosts 文件

Adobe 公司的主要产品是"创意云"套件（Creative Cloud），包含了许多著名软件，比如 Photoshop、Illustrator、Premiere。

一个网友安装后，震惊地发现，安装程序修改了他的 hosts 文件。

上图可以看到，Adobe 在 hosts 里面加了一个本地的 DNS 记录。

一个应用程序为什么要修改系统文件呢？

据知情人士透露，这是为了测试用户是否安装了 Creative Cloud。用户访问官网时，网页会向上图的域名发出一个请求，因为该域名的 DNS 记录只有本地才有，服务器收到了请求，就意味着用户安装了 Creative Cloud。

这么著名的软件，居然想出这种类似"开后门"的解法，而且对象是付钱给他的人，真让人无语。

文章

1、MDN 新前端的底层结构（英文）

MDN 是互联网最大的文档网站，本文介绍这个网站的前端架构，没想到这么复杂。

2、杀死那个写代码的人（中文）

作者是某大厂前端程序员，回顾自己这一年，从手写代码转变到 AI 编程。AI 改变了一切，消解了"35岁退休"。（@wind-liang 投稿）

3、我如何用安卓手机搭建短信网关（英文）

作者介绍如何在一部二手的安卓手机上，安装一个短信网关，通过网络收发短信（使用你自己的套餐）。

4、使用 QEMU 进行大端字节序测试（英文）

一篇 C 语言的初级教程，在本机上通过 qemu 虚拟机，运行一个不到十行的程序，就能查看某个架构是大端还是小端字节序。

6、Python 的 importtime 功能（英文）

Python 使用 import 命令输入模块，这有性能开销。本文介绍内置的 importtime 功能，可以显示每个模块加载所消耗的时间。

6、2000年库尔斯克号核潜艇灾难（英文）

2000年8月，俄罗斯核潜艇"库尔斯克"号在演习中爆炸沉没，118名船员全部遇难。这场事故发生得十分缓慢，现场一片混乱，救援工作进展不断延迟，本文用大量照片还原了整个过程。

工具

1、Google AI Edge Gallery

本周，谷歌官方推出了一款苹果手机 App，为手机提供离线使用的 Gemma 4 模型。不需要上网，手机也能使用大模型了。

2、apfel

Mac 电脑内置了一个本地大模型，可以离线使用。但是，默认只有苹果自家的 Siri 能调用，安装了这个工具以后，就可以自己在命令行调用它了。

3、Docking

为 Linux 桌面添加类似苹果桌面的程序坞。

4、Tantivy

Rust 语言写的全文搜索引擎库，可以替代 Apache Lucene，参见介绍文章。

5、Open Screen

跨平台的桌面应用，用来录屏后制作介绍视频，提供各种配套编辑功能。

6、epub-tts

这个开源工具将 epub 文件转成音频文件，也就是电子书转成有声书。

7、NVTOP

一个 Linux 系统的命令行程序，用来监控 GPU 显卡的状态，等同于显卡专用的 top 命令。

8、dmcheck

检查某个主题词的域名占用情况。（@PlayerYK 投稿）

9、Reze Studio

开源的动画曲线编辑网站。（@AmyangXYZ 投稿）

10、gitlogue

这个工具可以将 Git 仓库的提交历史，在终端里面以动画形式重现，甚至可以显示为屏保。

资源

1、佛津

全球佛教古籍数字化聚合平台。（@xr843 投稿）

2、Flight Viz

实时 3D 显示全球的航班。（@haojiang99 投稿）

3、GPU 时间线

这个网站用图片展示了 GPU 显卡的发展历程，从1996年的 Voodoo 卡到2025年的 RTX 5090 显卡。

图片

1、绿化荒山的简单方法

中美洲的哥斯达黎加出产橙汁，产生了大量的橘子皮，以前都是垃圾填埋。

一个环保组织说服工厂，把12000吨橘子皮倾倒在荒山上，用来积肥。

山头覆盖了橘子皮，除此以外，没有做任何处理。

过了6个月，橘子皮彻底腐烂，成为了黑色的泥土，慢慢开始长东西了。

16年以后，当科学家重新来到现场时，那里已经是茂密的树林了。

这真是绿化荒山的最简单方法，只要堆满了橘子皮，任其腐烂就可以了。

2、2025年全球物理摄影大赛

美国、法国、日本等16个粒子物理实验室，联合举办了一个摄影比赛，邀请摄影师拍摄物理实验室，用来向大众宣传物理学。

上图是意大利国家核物理研究所 (INFN) 的低温探测器实验室，它可以将物质冷却到仅仅略高于绝对零度。

上图拍摄地是法国的重离子国家加速器研究中心，拍摄的装置是直线加速器的供电系统。

更多照片看这里。

文摘

1、为什么沙子有粘性？

我们去海边玩，沙子会粘在皮肤、鞋子、衣服和头发上。

沙子的主要成分是二氧化硅，跟岩石一样。岩石没有粘性，为什么沙子会有粘性呢？

原来，沙子本身没有粘性，但具有亲水性，它会吸水。人体也是亲水的，在烈日下汗流浃背。当沙子接触到湿润的东西时，水分子之间就会产生粘性。

皮肤上往往还有油脂或者防晒霜，它们也会让沙子粘在皮肤上。

另外，皮肤还有一些微小褶皱，也会卡住沙子。

总之，想要去除沙子，就是等到皮肤变干，或者用水冲洗。

言论

1、

如果你认为编写代码的速度是你的问题，那你面临的问题更大。

-- Andrew Murphy，澳大利亚程序员

2、

有一种兴奋，叫做2017年才刚接触加密货币的人才有的兴奋。

-- Andrew Murphy，澳大利亚程序员

3、

一项民意调查发现，美国年轻人对于婚姻、子女、信仰的重视程度，远不及他们的父母，对于传统的价值观----爱国主义、宗教、社区和家庭也很冷淡。

年轻人把市场和金钱当作道德准则。在他们眼里，市场决定了事物的价值、事件的意义、谁是正确的、谁是赢家、谁举足轻重。

-- 《预测市场的最糟糕后果》

4、

对我来说，未来城市实际上是像阿姆斯特丹那样的地方，到处都是舒适的街道和自行车道，而不是像迪拜那样的地方，有16车道的高速公路，以及一群被压迫的劳工阶级在俗气的豪华购物中心里工作。

-- Hacker News 读者

5、

高校都要求博士生发表论文，至于你写什么、怎么写的、内容与研究方向有没有关系，系里其实都不在意。系里需要论文，因为论文能证明经费的合理性，而经费又能证明系的存在价值。学生只不过是达成这个目标的生产资料。

-- 《机器没问题，有问题的是我们自己》

往年回顾

HDMI 2.2 影音可能到头了 (#345)

巧妙的灯泡钟（#295）

摩天大楼是反人类的（#245）

你做过不在乎结果的项目吗？（#195）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年4月10日

科技爱好者周刊（第 391 期）：AI 的贫富分化

阮一峰的网络日志

3 April 2026 at 08:08

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

上海某餐厅的墙壁装饰。（via monana3838@Threads）

AI 的贫富分化

我越来越觉得，AI 跟其他技术不一样，不仅带来技术变革，还会带来社会变革。

简单说，AI 会带来贫富分化。

其他技术实际上会消灭贫富分化，实现"消费者平等"，即穷人和富人消费的东西是一样的。

比如，大家喝一样的可口可乐，用一样的苹果手机，开一样的特斯拉。甚至互联网也是如此，世界首富马斯克和你用一样的网站、一样的手机 App。

但是，AI 模型不是这样。在大模型面前，穷人和富人是不平等的。

在未来，普通人肯定用不起顶级的大模型。其实，现在就是如此了，最贵的 AI 编程套餐是 Claude Code 的 Max 套餐，月费200美元，很多人已经用不起了。

OpenAI 曾经设想过月费2万美元的套餐，提供最顶级、无限量的大模型服务。

要是真的推出，只有富豪才用得起。

这反映了一个简单的事实：费用越贵，模型效果越好。因为模型的效果与算力相关，更多的算力、更大的上下文、更多的参数，都需要钱。

这跟工业品完全相反。工业品有规模效应，产量越高，单位成本越低。一旦大规模生产，价格就会越来越便宜。

但是，大模型不存在规模效应，模型的大规模生产需要更多的服务器，这并不会让单位成本降低，反而可能因为扩建机房，改造电路和水路，而变得更贵。

未来社会大概是这样的：富人和穷人用不同的模型。最顶级模型的服务----规划、咨询、生成内容、自动化......----需要支付高昂的使用费，而普通人就使用免费模型，效果当然也很普通。

不过，我也看到马斯克最近说，未来还有另一种可能。

他的意思是，算力本质上是能源转化的一种形式。人类最终会实现廉价能源的大量供应（空间太阳能？），所以算力将变得足够便宜，所有人都将用最好的模型。

可能吗？我不知道，感觉还是前一种情况更现实。

模型能力的一种衡量方法

怎么衡量大模型的能力？

现在的方法是使用一个测试集，去计算大模型的分数。它的缺点是，只能用于横向比较，很难衡量进步速度。

最近，一篇论文提出了一种新的衡量方法。

科学家首先计算，人类完成某一项任务需要多少时间。比如，计算 4 + 5 + 7，人类需要2秒，而计算 37 * 52 * 19，可能需要1分钟。

然后，测试大模型能否以50%的成功率完成这项任务。

研究发现，GPT-2 以50%成功率能够完成的任务，时间范围是两秒；Claude 3.7 Sonnet 是50分钟；O3 接近两小时；Opus 4.6 约为12小时。

也就是说，人类需要12小时才能完成的任务，Opus 4.6 的成功概率是50%。

结果就是上图，可以发现，大模型的进化速度在对数坐标下是一根直线。

每7个月，大模型能够以50%成功率完成的任务，时间范围扩大一倍。按照这个趋势，大模型将在2027年至2031年间，以50%的成功率完成人类专家需要一个月才能完成的任务。

如果这篇论文正确，就意味着年底发布的模型，将比年初强一倍。

科技动态

1、用户协议的彩蛋

软件服务的用户协议，又长又难懂，很少有用户阅读，但是里面有很多重要内容。

一家美国通信运营商，为了表示自己很重视用户权益，鼓励大家阅读《用户协议》，并偷偷在里面加入了一个彩蛋。

上图高亮的句子写道："如果你读到这句话，请发邮件到我们的信箱，赢取免费的瑞士旅游。"

上线二周后，才有人发邮件，询问这事是否真实。由于只有一个人来信，所以她就免费去瑞士了。

从这件事可以看出，即使有彩蛋，也没人阅读《用户协议》。我现在的做法是让大模型帮忙，询问"这份协议有哪些对用户不利的地方"，很快就得到了答案。

2、触摸屏指甲油

广泛使用的电容式触摸屏，有一个问题，就是戴手套使用会失灵。

原因是它要求触摸物（比如手指）必须导电，这样屏幕才会产生电场扰动，从而确定触摸的位置。

解决方法也很简单，就是在手套指尖涂一层指甲油，指甲油里面的金属碎屑可以导电。

美国的一名化学系本科生，在学习化妆品化学时，发明了一种改进型的透明指甲油，专门用于戴手套使用触摸屏。

这种指甲油是透明的，涂在手套上看不见，也可以涂在裸甲上，当作抛光剂。

3、Copilot 广告

Copilot 是 GitHub 推出的 AI 助手，上周有用户发现，它会自动插入广告。

上图是 Copilot 自动提交的一个 Pull Request，它在提交说明的结尾（红框处）加入了一个广告，介绍应用程序 Raycast。

在 GitHub 搜索一下，就会发现已经有超过11,400个 PR 都包含了相同的广告词。

经过用户抗议，GitHub 暂止停止了这个功能。但这是一个危险的信号，表示 GitHub 想利用用户增加收入。

文章

1、小米 MiMo v2 Pro 评测（英文）

小米发布了 MiMo V2 系列大模型，本文是国外媒体的评测，给出了很高的评价。

2、我用 AI 生成了一个 JavaScript 引擎（英文）

作者用六周时间，生成了一个100%通过 test262 测试集的 JavaScript 引擎，涵盖所有98,426个场景。本文是对这件事的介绍。

3、解剖 .claude/ 目录（英文）

Claude Code 会生成 .claude/ 子目录，所有 AI 处理的底层数据都放在里面，本文研究这个目录到底有什么。

4、一致性哈希介绍（英文）

一致性哈希（Consistent hashing）是一种缓存定位算法，在增加或减少缓存服务器的情况下，可以不改变缓存所在的原始位置。

5、笔记本如何用作单板计算机的 HDMI 显示器（英文）

作者使用一张 HDMI 转 USB 采集卡，将笔记本电脑用作树莓派的显示器。

工具

1、EmDash

AI 生成的 WordPress 复刻，基于 TypeScript 语言，支持插件，据说功能基本一样，参见介绍文章。

2、SubsTracker

基于 Cloudflare Workers 的订阅管理系统，可以发送各种订阅的到期通知，通过 Telegram、Webhook 等通知渠道。（@wangwangit 投稿）

3、OpeniLink Hub

开源的微信机器人消息管理平台，自带应用市场，通过点击安装应用，给微信 Bot 加功能。（@xixihhhh 投稿）

另有一个类似项目 wxWebHook，通过 WebHook 向微信用户发消息。（@aristorechina 投稿）

4、Lixian.Online

获取 VSCode 插件、Chrome 扩展和 Docker 镜像的离线安装包的工具，代码开源。（@LiaoGuoYin 投稿）

5、Rename.Tools

浏览器端的批量文件重命名工具，支持各种规则设定，代码开源。（@chenz24 投稿）

6、FontInAss

开源的字幕字体子集化工具，将所需的字体字形嵌入字幕文件。（@Yuri-NagaSaki 投稿）

7、pretext.video

基于 Pretext（文字排版计算库）的一个小应用，将摄像头捕捉的人体轮廓通过文字排版实时展示。（@fifteen42 投稿）

8、OxideTerm

基于 Rust 语言的跨平台 SSH 终端，功能较多，使用 Tauri 桌面框架。（@AnalyseDeCircuit 投稿）

9、wtree

git worktree 的图形化管理界面。（@FatDoge 投稿）

AI 相关

1、Open Agent SDK

基于 Claude Code 源码实现的 claude-agent-sdk 的开源替代品，用于 AI Agent 的开发，完全兼容原始接口，不依赖本地 cli 进程。（@idoubi 投稿）

2、Antigravity Gateway

统一管理本地所有 AI 智能体的 Web 控制台，支持多工作区隔离、飞书远程协同、Skills 生态等。（@Mr-ZhangBo 投稿）

3、ArcReel

开源的 AI 视频生成工作台，输入一本小说，自动完成剧本、人物设计、分镜、短视频生成。（@Pollo3470 投稿）

4、TermCanvas

开源桌面应用，所有终端铺在无限画布上，方便管理 AI 编程工具。（@blueberrycongee 投稿）

另有一个类似项目 OpenCove。（@DeadWaveWave 投稿）

资源

1、Claude Code 动手教程

Claude Code 的互动式教程，通过11个小练习，掌握这个 AI 编程工具。

2、Claude Code Unpacked

根据 Claude Code 泄漏的源码，一步步图解演示，输入提示词后软件内部如何处理。

3、机器学习入门教程

工程师的机器学习教程，解释基本概念。

图片

1、欧洲年度树木

欧洲有一个"欧洲年度树木"的评选，初听觉得很奇怪，但仔细一想，就会发现这个活动有很多好处：提高城市知名度，促进生态保护，推动旅游业......

国内下面就是今年的"欧洲年度树木"。

立陶宛鲁凯村的橡树，树龄400年。

以下是其他入围决赛的树木。

斯洛伐克的野生苹果树

波兰的榆树

拉脱维亚的菩提树

葡萄牙的柏树

文摘

1、越使用 AI，我越不担忧

我花在 AI 编程的时间越多，对自己的职业生涯的担忧就越少，即使 AI 的编程能力越来越强。

因为，我发现 AI 编程只是流程的一部分，我的工作不仅仅是编写代码。

我的真正工作是，找出可以用代码解决的问题，然后解决它们，并验证解决方案是否有效。

AI 最终或许能够完全承担中间的编码部分，并帮助解决第一部分和最后一部分，但无论如何，仍然需要有人去发现问题、定义问题并确认问题已经得到解决。

这就是我的工作的80%内容。

2、摩尔定律的不可持续性

摩尔定律指的是，大约每两年，芯片上的晶体管数量就会翻一番。

但是，它还有一个伴生效应，很少人提到。那就是，大约每五年，芯片工厂的建造成本就会翻一番，而能承担这种成本的芯片公司数量则会减半。

二十五年前，大约有40家公司，可以建造芯片工厂，每个工厂的建造成本约为20亿至40亿美元。如今，只剩下两家或三家芯片公司（数量取决于你对英特尔的乐观程度），可以建造最先进的芯片工厂，建造成本飙升到几百亿美元。

如果按照这种趋势再过10年，芯片工厂的建设成本继续翻倍飙升，也许只有一家公司或根本没有公司，能够负担这样的成本。

目前，芯片的制造工艺已经逼近1纳米，再往下发展，技术壁垒和资金壁垒将同时接近极限。

我预计，摩尔定律很快就会失效，未来增长主要在于算力，而不是单块芯片的计算能力。

未来的芯片将会像二手车，行驶速度都差不多，只是新旧差异。我甚至觉得，2035年生产的芯片和2065年生产的芯片之间，将几乎没有什么实质性区别。

言论

1、

源代码的 map 文件不小心发布到 npm，这种错误听起来似乎不可能，但当你意识到很大一部分代码库很可能是由你正在发布的 AI 编写的，一切就容易理解了。

-- 网友评论 Claude Code 源码泄漏事件

2、

人工智能的蓬勃发展，使得某些办公室工作的需求可能并不大，而将创造大量电工、焊工和水管工的工作岗位。

以前，我们告诉所有年轻人去上大学，从事银行业、媒体或法律行业，现在需要平衡一下，有些人或许更适合做体力劳动者，在水暖工和电工这些领域，职业生涯同样可以很成功。

-- 拉里·芬克，美国金融巨头贝莱德集团的老板

3、

写作的目的不在于写完，而在于增进你自己的理解，进而增进周围人的理解。

让 AI 为你写作，就像花钱请人为你健身一样。

-- 《别让 AI 替你写作》

4、

程序员的工作不是编程，而是通过抽象，来管理软件的复杂性。如果你做到了这一点，那么编程就很容易了。

-- 《你的工作不是编程》

往年回顾

制造业正在"零工化"（#344）

崖门海战的感想（#294）

大数据已死（#244）

悲观者正确，乐观者成功（#194）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年4月 3日

科技爱好者周刊（第 390 期）：没有语料，大模型就是智障

阮一峰的网络日志

27 March 2026 at 05:49

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

山东日照某住宅小区的彩色风雨连廊，入口处树林还设了咖啡馆。（via）

没有语料，大模型就是智障

如果现在做一个问卷调查，问大家"你觉得大模型是否具有智能？"

我相信，大多数人会是肯定的回答。

哪怕现在只是 AI 的初级阶段，大模型已经能够替代很多的人类智力劳动，确实非常神奇。

但是，我们不要忘记真实情况，大模型不是魔法，更不是具有自主智能的"硅基智能体"，而是基于统计规律的语言模型，它的一切行为都基于数学计算。

最好的证据就是，如果让它解决没有训练过的题目，也就是不存在统计规律的话，它根本解不出来。

这就是我今天想分享的一个实验。

两位国外的研究者找了五个主流的大模型：GPT-5.2、O4-mini、Gemini 3 Pro、Qwen3-235B、Kimi K2。

他们让大模型使用五种小众的编程语言----Brainfuck、Befunge-98、Whitespace、Unlambda 和 Shakespeare----来编程解决各种问题。

这些小众语言的共同特征是，网上很少有它们的资料，因此不能用来训练大模型。大家猜猜看，结果怎么样？

实验结果用一句话总结，就是大模型的表现一塌糊涂。

这五个大模型的平均答题正确率仅为3.8%，即100道题可以答对3.8道。相比之下，它们处理 Python 问题的正确率可以达到90%。

更尴尬的是，仅有的那几道答对的题目，都是入门级。更难的级别（初级、中级、高级），所有五个大模型的正确率都为0。

这个实验充分说明了，大模型的表现（智能程度）首先由训练材料决定：训练的语料越多，表现越好，比如 Python 的语料遍地都是，大模型因此极其擅长解决 Python 问题；训练的语料越少，大模型表现就越差，简直跟智障一样，没什么用处。

那么，一个让人好奇的问题就来了：如果某种冷门语言没有语料，但有一本很详尽的《使用手册》，我们让大模型学习这本手册，它是否就能学会这种冷门语言编程呢？

MAI-Image-2

本周，微软公司发布了自家的图像生成模型 MAI-Image-2。

这个模型生成的图像质量非常高，有评论认为，目前仅次于谷歌的 nano-banana-2。

微软开放了网站 MAI Playground（下图），现在可以免费生成图片。

我试用后，图像质感确实很好，非常逼真。比如，一只狗在海里骑自行车。

但是，它的使用限制很多：（1）有争议的、可能冒犯的图片，都会拒绝生成；（2）每天的免费额度是15张，每次生成的间隔时间是30秒；（3）它只能生成长宽比 1:1 的图片，其他分辨率都不支持；（4）不提供图像编辑和加工，只能用来"文生图"。

如果你需要通过文本生成高质量图片，可以试试它。

科技动态

1、可玩的封面

红牛公司推出了一本纸质的游戏杂志《GamePop》。

它的封面有一个可以玩的"俄罗斯方块"，是世界首本封面可以玩游戏的书。

奥秘就是封面里面，嵌入了一块非常薄的柔性电路板。

这块板配备了180个 RGB LED 灯、7个电容式触摸按钮、一颗32位 ARM 芯片。

它还包含一块可充电电池，可以通过 Type C 充电。

可惜的是，这个封面是限量版，不公开出售。它得到了俄罗斯方块公司的官方授权，全球仅发行150套，每套均有独立编号。

2、收费的真人客服

企业都不喜欢提供真人的电话客服，因为成本很高，更希望改成机器应答的电话客服。

惠普公司想出了一个点子，将用户往机器客服赶。

用户打惠普的客服电话，会听到一段语音提示，要你访问官网自己去寻找答案。如果你坚持要真人客服，就要在线等待15分钟。

如果中途挂了电话，再打就需要重新等待15分钟。系统还会分别在第5、第10和第13分钟提醒你，可以访问网站或发邮件联系。

虽然这种做法很可恶，但未来可能成为常态：免费就只有 AI 客服或机器人客服，额外付费才有真人客服。

3、飞盘的玩法

怎样扔飞盘，才能又快又远？

一个美国的物理学家，找了几十个学生进行实验，使用不同手势和角度扔出飞盘。他测量了飞行速度和扭矩，把结果写成了论文。

他发现，将拇指放置在距飞盘外缘约3厘米的位置，可以获得平均转速和初始速度的最佳结果。

他还发现，转速与初始速度存在线性相关，转速越高，初始速度也越高。

所以，下次玩飞盘的时候，你要放对拇指的位置，然后用足力气，反手甩出，就可以取得最佳结果。

文章

1、MkDocs 的缓慢崩溃（英文）

MkDocs 是著名的文档网站生成工具，但是主要贡献者之间有激烈矛盾，互相对抗，导致这个项目四分五裂。本文就梳理这件事。

2、大模型预测咖啡散热（英文）

作者让各种大模型给出咖啡散热时间的公式，然后测量了实际的散热时间，得到了一个排行榜。

3、下一个 App 很可能是无头应用（英文）

如果我们未来都通过 AI 助手使用手机，那么各种 App 就不需要显示模块了（无头），只需向 AI 助手提供数据接口。

4、网页前端数据压缩的一种方法（英文）

本文介绍如何在前端，通过 canvas（画布）将数据压缩成一张图片。

5、Ruby 是构建 AI 应用的最佳语言（英文）

作者使用 Python、JavaScript、Ruby 三种语言写一个 AI Agent，比较后认为 Ruby 写 AI 应用最方便。

6、古罗马的混凝土建筑（英文）

古罗马人发现了混凝土，学会了用它浇筑建筑物。结果就是，古罗马建筑有古代最大的室内面积，并且非常坚固，保留到了今天。

工具

1、proxychains-rs

proxychains4 的 Rust 实现，指定某个进程走代理链。（@tianrking 投稿）

2、Flare Stack Blog

一个基于 Cloudflare Worker 的博客系统，集成 D1、R2、KV、Workflow 等服务。（@du2333 投稿）

3、Tunelo

一行命令将本地服务暴露到公网，只需要单个 4MB 二进制文件，使用 QUIC 协议。（@jiweiyuan 投稿）

4、ReadAny

桌面端 + 安卓端的电子书阅读工具，自带 AI 功能、语音朗读和多端同步。（@codedogQBY 投稿）

5、RaTeX

纯 Rust 实现的 KaTeX 兼容的数学渲染引擎，原生解析、排版 LaTeX 数学公式，支持各种环境。（@erweixin 投稿）

6、Work Review

开源的 Win/Mac 桌面应用，在后台持续记录当天使用过的应用、访问过的网站等，便于整理成个人的工作轨迹。（@wm94i 投稿）

7、Valdi

SnapChat 发布的 UI 框架，可以用类似 React 的语法编写组件，然后编译成 iOS、Android 和 macOS 的原生应用。

8、Npflared

架设私有 NPM 镜像的工具，适合企业用来提供内部的 JS 软件包。

9、Chokidar

一个 Node.js 模块，用来监听文件系统的各种事件（新增、删除、编辑等），比原生的 fs.watch / fs.watchFile 功能强。

AI 相关

1、微信的龙虾接口

微信官方本周发布了龙虾接口，AI 机器人可以向微信发消息了。

很多项目利用这个接口做二次开发，便于各种 Bot 和 Agent 网关的接入。

wechat-rs-sdk（@tianrking 投稿）
WeChatBot（@jiweiyuan 投稿）
WeClaw（@idoubi 投稿）
WeChat-Channel（@nanbingxyz 投稿）

2、AI CLI Complete Notify

跨平台桌面应用，AI 命令行任务（Claude code/Codex/Gemini）完成后，发出任务完成提醒，支持各种渠道（飞书/钉钉/企微 Webhook、Telegram、邮件、桌面/声音提示）。（@ZekerTop 投稿）

3、Claude Config Manager

macOS 的 Claude 资源（Skills、MCP、Agent）桌面管理工具，提供一个图形化的中央控制台。（@Daydayoneup 投稿）

4、TrustClaw

龙虾 OpenClaw 的修改版，尽量消除代码的风险点。

资源

1、Project N.O.M.A.D.

一个 Linux 应用，集成了各种人类知识（维基百科、全球地图、在线课程、本地 AI 助手）等等，用于在断网时查阅。（@15x3 投稿）

2、用于数据分析的 AI Coding Agent（英文）

著名开发者 Simon Willison 的培训班讲课资料，通过 AI 工具进行数据分析，有详细步骤。

3、TypeScript 简洁之书

一本开源的 TypeScript 教程，有中文版。

图片

1、苹果壁纸彩蛋

苹果公司最近发布了新笔记本 MacBook Neo，跟以前一样，配一张特别的壁纸。

壁纸里面嵌入了产品名，以前的壁纸也有这个彩蛋。

iMac

MacBook Pro

iPad Air

MacBook Air

iPad Mini

iPad Pro

1、儿童死亡率

现代人很难想象的是，人类历史的大部分时间里，儿童死亡率（在成年前死亡）一直接近50%。

上图中，红线就是婴儿死亡率，一直稳定在50%左右。直到19世纪后期，才开始快速下降。

2020年，全球平均婴儿死亡率是4.3%，最低的国家已经达到了0.3%。

文摘

1、别变成机器

我最近看到一句话："只有奴隶才通过生产力来量化自身的存在价值。"

是啊，生产力越高，奴隶越有价值。

这让我想到，如今的社交媒体上充斥着大量的奋斗文化，许多人展示自己是多么努力在提高个人生产力。

在我看来，这就是将自己跟机器做比较。大家认定，如果能像机器一样，接收指令并高效地完成某个目标，自己就越有价值，就能取得人生成功。

社交媒体上，这种"奋斗文化"有很多表现形式：（1）你还不够努力。（2）你得早上五点起床。（3）你得第一个到，最后一个走。

这种文化的背后，就是要求人变成机器。

机器确实很高效，但有一个问题：它是刚性的，以既定的模式和线性速度运转，无法自动适应环境变化，也无法学习游戏规则。

你不是机器，你是人。你的特点应该是灵活应变，快速适应。你不要追求极致的努力，而是要找到最有价值的解决方案。你要专注于真正重要的因素：速度、效率或质量，不要迷恋枯燥乏味的工作。

言论

1、

我们创造了一个文明，其中最重要的元素都深深地依赖于科学技术，但是我们还让科学技术变得如此难懂。这会带来灾难，我们可能暂时侥幸逃脱，但迟早，这种无知和权力的易燃混合物会爆炸。

-- 卡尔·萨根

2、

巴黎以前总是堵车，市长想出一个办法，大幅减少停车位，后来果然少有人开车了。

-- CNN

3、

一项研究发现，远程教学下，外形出众学生的作业成绩，要比面对面教学时更低。

-- 《经济学快报》

4、

这些年对我影响最大的事情，就是我变成了一个"白天型"的人。

我以前经常熬夜，有时会到天亮。最近五年，我强迫自己养成早起的习惯。现在，我的生活都在白天，亲眼看到黎明和黄昏，让我感到心安，生命与自然循环和谐一致。

-- 《成为一个白天生活的人》

5、

AI 很擅长将清晰的想法转化为可运行的代码。真正耗时的是弄清楚我到底想开发什么。

-- lustin.fr

往年回顾

如何阻止 AI 爬虫（#343）

一周是一年的2%（#293）

与孔子 AI 聊天（#243）

前端与后端，谁更难？（#193）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年3月27日

套壳中国大模型撑起500亿美元估值？扒一扒 Cursor 的"套壳"疑云

阮一峰的网络日志

21 March 2026 at 18:19

1、

本周末，有一条最热闹的 AI 新闻，震动了太平洋两岸，连马斯克都关注了。

昨天，AI 编程工具 Cursor 推出了"自己的"模型 Composer 2。

上图是官网截图，现在点进去还写着"自有模型"。

自从2024年10月，Composer 1 发布以来，外界就一直怀疑，它是套壳的中国模型，因为行为很类似，但苦于找不到证据。

现在 Composer 2 来了，很多人就开始研究，它的背后到底是什么模型，真的是 Cursor 自家的吗？

Cursor 为了防止破解，做了很多限制，但是百密一疏。国外推友 @fynnso 发现，有一个地方在上一个版本是禁止的，但是这个版本却可以执行。

首先，你自己架设一台服务器，充当 AI 模型的调用接口，有没有模型无所谓，只要能收到客户端请求就行。

然后，你在本地的 Cursor 里面，设置使用的模型为 Composer 2，模型网址就是你刚架设的服务器。这样一来，Cursor 就会向你的服务器发出请求，从而可以看到它到底在请求什么模型。

真相就暴露了，它请求的模型 ID 居然是 kimi-k2p5-rl-0317-s515-fast（下图）。

2、

这位国外推友就把上面的截图，发布到网上。这下炸锅了，明眼人都看出来，这是铁证，Composer 2 实际上是套壳的 Kimi K2.5。

可笑的是，事情一爆发，Cursor 第一时间就把漏洞堵上，现在已经没法复现这个请求（下图）。

但是为时已晚，网上传遍了，就连马斯克也发推："它就是 Kimi K2.5"。

这下好了，变成了公开的秘密，再也无法掩盖了。

3、

大家的关注点，很快就转移到 Cursor 是否侵权。因为 Kimi K2.5 虽然是开源模型，但是采用的是修改的 MIT 许可证（下图）。

许可证这样说：你可以任意使用这个模型，唯一的条件是如果你的商业产品月活用户超过1亿，或者月收入超过2000万美元，你必须在用户界面的醒目位置披露，你使用了 Kimi K2.5。

Cursor 最新披露的年化收入是20亿美元，相当于月收入1.67亿美元，显然满足上面的条件。但是，它隐藏了使用 K2.5 的事实。

就在大家认定 Cursor 侵权的时候，他们的一个负责人终于坐不住了，出来说话了。

他承认确实使用 Kimi K2.5，但是没有侵权，他们的许可证来自合作伙伴 Fireworks AI。

稍后，Kimi 官方也发推了。

Kimi 官方确认，Cursor 是从 Fireworks AI 得到了授权。后者是一家硅谷的华人 AI 公司，从事 AI 模型的微调和强化学习，它从 Kimi 得到授权对模型进行再训练，然后又转授权给了 Cursor。

4、

事情到这里就基本清楚了，Cursor 并没有违反 Kimi 的授权条款，因此不存在侵权。

既然如此，为什么它拼命掩盖这个事实，大大方方承认，提供 Kimi K2.5 的修改版模型，很难吗？

我猜测，原因跟 Cursor 不断膨胀的估值有关。

彭博社本月报道，Cursor 正在进行下一轮融资，估值达到500亿美元。

大家知道吗，它以前的估值是多少？

2023年10月，Cursor 成立时的估值是5000万美元；2024年8月的 A 轮融资，估值上升到4亿美元；12月的 B 轮融资，估值快速上升到26美元；2025年11月的最新一轮融资，估值已经到了293亿美元。

可以看到，每过几个月，估值就会翻倍。这种火箭式的上升速度，需要有业绩支持。但它本身只是一个 VS Code 的修改版，使用的都是开源技术。

为了支撑越来越高的估值，它有动机把自己从 AI 工具，包装成具有模型研发能力的大模型公司。

我认为，这才是它不愿意披露使用了 Kimi K2.5 的主要原因。

5、

纵观整个事件，Cursor 无疑是输家，Kimi 则是这次的赢家，免费得到一大波高价值的曝光。

Cursor 发布 Composer 2 时，披露了性能和成本比较。

Composer 2 的性能低于 GPT-5.4，但高于 Opus 4.6。

但是，它的生成速度比 GPT-5.4 和 Opus 4.6 都快，成本也是最低的。

既然 Composer 2 就是微调的 Kimi K2.5，那么直接使用 Kimi，也能得到同样的效果。

6、

以前，国外总是有人指责，中国公司窃取外国技术。但是，这个事件证明了，中国公司也有技术输出。那些国外的明星公司，背地也在偷偷摸摸使用中国技术。

联想到上周，Kimi 的创始人杨植麟收到黄仁勋的邀请，在 Nvidia GTC 大会演讲，是唯一的中国大模型公司代表。

他在台上宣讲，Kimi 团队刚刚发表的论文《注意力残差》（Attention Residuals）。

这种新技术据说可以显著提升大模型的推理能力。

我的想法是，大家要对国产大模型有信心，日常工作完全可以放心使用。国产大模型与国外旗舰模型的差距，正在不断缩小，而且价格实惠。

据杨植麟说，下一个要发布的 K3 模型性能提升巨大，即便没有强10倍，也比 K2.5 强得多，我们可以期待一下。

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年3月21日

科技爱好者周刊（第 389 期）：未来如何招聘程序员

阮一峰的网络日志

20 March 2026 at 07:59

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

唐山河头老街景区的轨道车"大唐云车"。（via）

未来如何招聘程序员

前些天，讨论区有一个帖子，提出一个问题。

如果未来的代码都是 AI 写的，那么我们怎么招聘程序员呢？

程序员负责代码，但代码是 AI 写的，不是程序员写的，那么应该怎么面试他呢？

你仔细想想，这个问题比预想的难多了。

首先，考察他的代码能力不重要（代码不是他写的），更重要的是考察他会不会 AI。只要善于使用 AI，能够产出合格的代码，对公司来说就是合格的人选。

但是，什么样的面试问题，能够考察出一个人是否掌握 AI？下面是我想出的一些问题：

请将一个复杂的项目需求，转化成提示词，要求是清晰、逻辑性强、切中要害。
描述一个你认为需要使用 Skill 和 MCP 的场景，并阐述它们的工作原理和构建方法。
如何将一个大项目分解，设计出一个多 Agent 协同工作的机制。
......

这些问题能识别出 AI 编程高手吗？我完全没有把握。

其次，除了 AI，还要考察什么呢？ 这也很不好想。

我应该还会问一些架构问题，你可以不写代码，但要懂怎么组织代码，架构出一个系统。但我也不确定这是必需的，因为 AI 生成的大型系统迟早变成一个黑箱，可能对于架构知识的要求也不是很高。

另外，我还要看看他以前的项目，如果以前他用 AI 做过类似的东西，那么应该问题不大。但这也不可靠，且不说完全类似的项目非常少，就看 AI 进化速度这么快，两年前的经验早不适用了吧。

总之我发现，很难确定什么面试问题是一定有效的，能够可信地筛选出合格的应聘者。AI 颠覆了软件开发，也连带颠覆了程序员面试。大家有好的面试问题吗？

有一点是确定的，面试各种编程细节意义不大了，因为你不需要记住语法细节了，直接问大模型就行。

科技动态

1、访达小子

苹果公司最近发布了 Macbook Neo，有人注意到，官方的 Tiktok 宣传海报里面出现了一个全新的吉祥物（下图）。

上面海报的左上角有一个玩偶，以前没见过。

这个玩偶明显来自 Mac 电脑的访达工具（Finder），所以被称为"访达小子"（Lil Finder Guy）。

几天后，苹果公司又在一场直播里面，使用了这个形象。

人们纷纷猜测，这到底是偶然的行为，还是苹果公司真的会推出它作为吉祥物？

热心的网友让 AI 绘制了"访达小子"的完整形象。

看上去很可爱，就跟 Labubu 似的，有可能大受欢迎。

2、红外线编码

英国科学家发明了一种新的通信方式，通过热辐射二极管，将数字信号以热量形式传递。

肉眼看不见这种信号（因为它是红外线），也检测不到无线电波，但是它的热量以编码方式散发，在红外线热成像仪上能识别（上图）。

因此，这种方法接收信号需要热成像仪，再传入电脑的解码器。这可能对某些工业和军事场景很有用。

3、机柜种植

家里有多余的服务器机柜，怎么利用起来？

一个国外程序员想到机柜里面有电源，拉线和搁板都很方便，可以用来水培种植。

他买了一些 LED 灯带，用来模拟日照，每一层还安装了一个泵，用来自动进排水。

如果你想在家里种一些暖房植物，或者需要长时间光照的植物，服务器机柜确实是一个很好的方案。

文章

1、我放弃了 Elasticsearch，转而使用 Meilisearch（英文）

Meilisearch 是一种开源的搜索软件，作者介绍怎么用它替代 Elasticsearch。

2、2016 年，我做过一次 AI 写代码创业（中文）

作者徐宥（Eric Xu）回忆他在2016年的 AI 创业，当时他想训练一个大模型，需要25万美元，但是找不到投资人。（@gengxiuli 投稿）

3、信息过载时代，我的漏斗式阅读工作流（中文）

每天有太多东西值得看，作者介绍他的信息处理工作流，通过 AI 过滤出值得读的内容。（@shawnxie94 投稿）

4、编译器的前端与后端（英文）

一篇科普文章，介绍编译器（比如 LLVM）的前端和后端的概念。

5、CSS 的 lh 单位（英文）

CSS 有一个字体大小属性lh，表示行高。

6、寻觅杜鹃花之王（中文）

大树杜鹃是最高大的杜鹃，是一颗会开花的大树（上图），1919年由英国人在云南发现。

后来，这个英国人死在云南，就无人知道哪里有这种杜鹃了，直到1982年才重新在高黎贡山找到。本文讲述这种植物的故事。

工具

1、APTUI

一个 Linux 的终端应用，用于充当 Debian/Ubuntu 安装管理器，管理 APT 软件包。

2、my.WordPress.net

如果你想尝试 WordPress，但没有服务器，可以使用官方新推出的这个服务，打开上面网址就可以了。

它把所有 PHP 脚本编译成 JS，在本地运行，不需要服务器，而且数据都在你的浏览器，下次打开这个网址，网站数据还在，参见介绍文章。

3、GrobPaint

一个跨平台的图像编辑器，特点就是非常轻量级，可以在浏览器运行，也可以编译成二进制文件。

4、Apple Matting

一个 Mac 抠图软件，大小只有 8MB。（@pangxiaobin 投稿）

5、HealthTick

macOS 菜单栏久坐提醒工具。（@lifedever 投稿）

6、CheatReader

一个跨平台的阅读软件，可以悬浮在桌面上，支持单行模式，适合想在工作流里"偷偷读书"的人。（@yaoyao2mm 投稿）

7、锤子便签

开源的网页版锤子便签，可以作为 Skill 调用。（@zhaoolee 投稿）

8、WeChat Download API

开源的微信公众号转 RSS 工具。（@tmwgsicp 投稿）

9、Speech Speed

一个很有意思的 Chrome 插件，根据语速调节视频播放速度。如果剧中人说话慢，视频就快速播放，说话快，就慢速播放。

AI 相关

1、VibeGo

Vibe Coding 的开源 Web IDE，支持 Claude Code、Gemini CLI、CodeX、OpenCode 等。（@xxnuo 投稿）

2、Mimic Them

一个开源应用，使用字节 seedream 图像模型，复刻小红书的图文笔记，从一篇可以衍生出另一篇。（@zhanchey 投稿）

3、AICheck

一个 Rust 语言编写的命令行工具，离线检测图片、视频、音频和文档是否由 AI 生成。（@MatrixA 投稿）

4、AionUi

开源的 Cowork 与 OpenClaw 的替代品，自动化各种电脑操作。（@cdxiaodong 投稿）

5、Lumo

一个 Claude Code 的本地桌面工作台，查看成本、Token、会话和编码时段数据。（@zhnd 投稿）

6、AIComicBuilder

开源的 AI 动漫视频生成系统，只需输入文字剧本，即可自动完成角色提取、分镜设计、关键帧生成、视频合成的全流程。（@twwch 投稿）

资源

1、canirun.ai

网页检测你的机器，能够运行哪些本地的 AI 模型。

2、AI 是怎么回事（中文）

面向普通读者的通俗 AI 原理教程。（@wmyskxz 投稿）

3、TypeScript 数据结构与算法（Algorithms with TypeScript）

免费阅读的英文电子书，使用 TypeScript 语言介绍数据结构和算法。

4、频道冲浪者（Channel Surfer）

这个网页把 Youtube 改成传统的电视频道，每个频道都有节目表，可以切换频道。如果你不知道用 Youtube 看什么，就可以看这个网站。

图片

1、巧妙的古建筑

因为缺乏机械和动力，古代建筑物往往包含了很多巧思。

（1）19世纪的英国麦克尔斯菲尔德运河，由于没有水位落差，需要马拉着船前进。

有时，马的牵引道从河的一边转到了另一边，马这时就需要过河。

为了不解开牵引绳，马就能过河，工程师就设计了"蛇桥"，马可以直接走上去，中间还有让牵引绳通过的孔。

（2）法国南部的巴尔贝加尔水磨坊，建于公元2世纪，现在只剩下了遗址。

这个磨坊的位置在山坡上，连续建了16个相互连接的水车，充分利用了水能，每天能够生产25吨面粉，被认为是欧洲第一个大规模工业生产的磨坊。

（3）伊朗纳什提凡的古代风车，建在连片的屋顶上，一根木轴安装了由粘土、稻草和木材做成的立轴式风帆，强风会带动木轴，转动下面屋子里的磨盘，来磨碎谷物。

（4）中国西安的秦代上林苑遗址，发现了战国时期的陶瓷水管，现保存于西安博物院。

文摘

1、避免使用定制框架

很多小团队在工作中，往往会发明自己的"定制框架"。

他们原来使用的是通用框架，但有不满意之处，于是决定在通用框架基础上定制自己的框架。

这种"定制框架"有一些共同特点：

（1）由小团队创建，旨在解决他们的痛点；

（2）底层是其他更通用的技术栈或框架；

（3）引入原有技术栈不存在的新概念和术语；

（4）创建者声称这个定制框架"神奇地"解决了许多问题，并推广更多人使用它。

我的个人经验是，"定制框架"非常难用，引入了许多新概念，意图掩盖它带来的更多复杂性。

我建议，大家避免使用"定制框架"，原因有下面这些：

（1）定制框架常常声称，它们能消除或隐藏原始框架"不必要的复杂性"，但实际上做不到。即使定制框架能很好地处理80%的用例，但是因为引入了新的语法，剩余20%的用例就不如原始框架的灵活性和功能性。

（2）定制框架不易改动。它仅对开发团队的用例建模，以解决他们的特定问题，未来需求变化时，往往跟不上。另外，定制框架通常改动了原始框架的实现细节，而原始框架将来随时可能变动，你修改的细节越多，就越难跟上原始框架的变动。

（3）定制框架反映了开发团队的心理模型，这些团队专注于自己的问题，往往有很强的个人意见。这本身是好事，但也使得定制框架不适合其他人的心理模型。

（4）定制框架往往导致技术栈碎片化。你改动的只是跟你相关的一部分，其他部分保持不变。随着新的层不断增加，框架变得越来越难整体迁移，必须不断改动你原来没改的部分。

（5）定制框架缺乏维护。通用技术往往有一个专门团队或公司来维护，但定制框架通常由一两个创建者拥有。一旦他们离开团队或公司，就很难找到接班人。定制框架很大可能会随着原作者离开而消失，除非在此之前获得了大量采用，才有人愿意接手，而这种情况很少发生。

我不是说，你不要开发自己的框架，而是建议最好遵循三个原则：（1）新概念引入越少越好，（2）优先创建库，而不是框架。（3）不要做现有框架的包装器，而要从零开始构建。

言论

1、

我想要的网络世界，是一个万物皆可塑的世界，让你不由自主地成为创造者。

-- David Miranda

2、

AI 让软件的成本从代码转移到测试和文档，一套好的测试套件的价值可能比编写代码本身更高。

-- lucumr.pocoo.org

3、

编程的核心在于抽象，即用一种远离底层技术的高级思维方式来思考代码。

-- 《生活在"平面国"的程序员》

4、

领导力就是让别人去做你想让他们做的事，而且是心甘情愿的。

-- 艾森豪威尔，美国前总统

往年回顾

面试的 AI 作弊----用数字人去面试（＃342）

所有代码都是技术债（#292）

一次尴尬的服务器被黑（#242）

最大的机会来自新技术（#192）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年3月20日

科技爱好者周刊（第 388 期）：测试是新的护城河

阮一峰的网络日志

13 March 2026 at 07:59

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

重庆涪陵某景区架设了世界首座"巨石索桥"，桥面就是一块块巨石，一不小心就会踏空。（via）

测试是新的护城河

Next.js 是目前排名第一的 JS 框架。平时遇到的 JS 全栈应用，我估计，一半用它开发。

两周前，这个框架被一则新闻颠覆了。

一个 Cloudflare 工程师宣布，他只用一个星期就用 AI 重新实现了 Next.js，起名为 vinext。

事实上，一天就生成产品原型了，后面几天只是在完善。

"真正动手是2月13日，当天晚上，基本功能已经实现。第二天下午，11个路由器做好了10个。第三天，已经部署到我们的服务器，实现了完整的客户端水合。

接下来的几天，主要进行安全加固：修复极端情况，扩展测试套件，提升 API 覆盖率至 94%。"

这个新的实现，比原版 Next.js 性能更好。

"早期基准测试中，构建速度提升了4倍，客户端软件包的体积缩小了57%，生产环境的 Next.js 应用已经直接跑在上面了。"

这个 vinext 的代码已经放出来了。

我觉得，这件事对 Next.js 的打击非常大。

Next.js 是 Vercel 公司的产品，背后有一个大型开发团队，每年都是巨额投入，已经整整做了10年。虽然是开源软件，但是企业版、云服务、插件、皮肤都要收费，去年的年收入达到2亿美元。

这种看似难以逾越的护城河，在 AI 面前不堪一击。一个工程师用了一个星期，就复刻了大团队十年的工作成果，现有的网页应用不改一行代码，放上去就能跑，原版的每个功能都支持。

你知道花了多少钱？Token 费用仅仅为 1100 美元！

这叫 Vercel 怎么再向 Next.js 的开发投钱，客户又怎么愿意再为某个功能付出高昂的使用费。

推而广之，所有的商业软件都受到了重创。代码的护城河不存在了，只要投入一小笔金钱，AI 就能复刻出大型软件。

那么，为了保护自己，软件公司下一步肯定要防止 AI 复刻。

怎么防呢？关键就是测试用例。

Cloudflare 工程师这一次能够复刻成功，主要原因是 Next.js 有完备的文档、庞大的社区文章、以及完整的测试用例。AI 模拟的每一个 API，只要能够通过原有的接口测试，就能确认百分百兼容。

如果拿不到测试用例，谁知道代码行为是否一致，谁敢放到生产环境运行。

可以想象，为了防止复刻，大型软件项目一定会保护自己的测试用例。测试才是新的护城河。

世界最流行的数据库 SQLite，本身代码15.6万行，但是测试用例9205万行，足足大了590倍！

其中，最核心的测试套件 TH3 是闭源的，不公开，主要测试航空、医疗等关键行业的极端情况和边缘案例，属于核心技术资产。正是这些保密用例，才让 SQLite 难以复刻。

无独有偶，就在前两天，另一个开源项目 tldraw 也准备将测试用例闭源。

说实话，保密的测试用例肯定不利于开源项目的发展，但是开发者需要保护自己的利益。在日益强大的 AI 面前，越来越多的软件可能会选择这样做。

AI 复刻的版权问题

AI 复刻软件还有一个版权问题，也引起了很大争议。

Next.js 是最宽松的 MIT 许可证，所以复刻没有版权问题。但是，有人复刻了一个叫做 chardet 的项目，就争议巨大。

chardet 本来采用的许可证，是限制较多的 LGPL，复刻以后改成了 MIT 许可证，引发了原始作者的抗议。

网上的意见也分成了两派。

支持者说，AI 只复刻了功能和接口，代码完全不一样，当然可以更改许可证。

反对者说，GPL 规定了，所有衍生作品都不能更改许可证，AI 复刻就属于衍生。

更麻烦的是，美国法律规定，AI 生成产物无版权，属于公共领域。这意味着，AI 复刻的软件不能设置许可证，设置了无效。

按照这条法律，软件许可证就意义不大了。管你是什么许可证，任何人 AI 复刻一下就能规避，AI 实现的版本一律没有版权。

科技动态

1、AI 改写脏话

游戏平台 Roblox 宣布，将用 AI 实时修改玩家的对话，让其变得更文明。

以前，如果玩家在游戏里面骂脏话，系统只会将其过滤，显示为 ####，你还是知道他在骂人。

现在，AI 将重新修改整个句子，让表达变得更礼貌、更文明，你就察觉不到对方在骂人。

虽然这样未免有点虚假，但确实有必要。网络论坛也应该跟进，不要让人身攻击毁掉交流氛围。

2、飞机的激光上网

欧洲航天局成功进行了飞机的"激光上网"实验，通过激光将一架飞机与一颗卫星连接，实现了高速通信。

飞机上网现在都通过无线电波，比如星链就通过无线电，让飞机连接卫星。本次实验则是通过激光连接卫星。

上图就是安装在飞机舷窗上的激光终端。

激光通信的优点是带宽大，不受无线频谱的限制，这次实验的上网速度达到了 2.6Gbps，是星链的8到10倍。

缺点是激光与卫星之间必须保持直线，不能有云层和大气的障碍物。所以采用这种方式，大概只有飞到高空时才能上网。

3、Grammarly 的专家意见

Grammarly 是一个写作服务，提供一个收费功能"专家意见"，让专家点评你的文章。

一个国外用户使用该功能时，震惊地发现，点评专家里面有他的前老板（下图），但是他知道老板已经去世了。

原来这不是真人点评，而是 AI 为每个专家建了一个分身，用他们各自的文章进行训练，然后让分身点评你的文章。

这引起了争议，我们是否有权搭建别人的"数字分身"，然后冠以原始人物的名义（比如"孔子分身"或者"爱因斯坦分身"）？

4、太阳能邮筒

网络通信普及以后，传统的邮筒怎么办？

英国皇家邮政想出一个办法，将英国各地3500个邮筒，变为"太阳能邮筒"。

邮筒顶部加装了太阳能光伏片，功能也从寄信，变成了收寄小包裹。

这样既保存了传统的红色邮筒，成为街道的景观，又为人们邮寄包裹提供了方便。

文章

1、GitHub Issue 标题的注入攻击（英文）

这可能是第一起 AI 模型注入的真实攻击。Cline 项目使用 AI 对 GitHub Issue 进行分类，有人就在标题插入恶意提示词，从而成功拿到 npm 令牌，发布了一个恶意版本。本文告诉你这是怎么做到的。

2、重新评估 AGENTS.md（英文）

最近的一项研究提出，跟推荐做法相反，AGENTS.md 文件对 AI 编码不是促进，而是阻碍。

它只是让模型"思考"得更多（成本上升），生成结果却没有更好（性能下降）。

3、Temporal API 的九年历程（英文）

本周，Temporal API 正式通过了第四阶段。这意味着，它进入了 ES2026 标准，成为了 JavaScript 语法的一部分。本文是这个标准的起草者对九年推进历程的回顾。

4、AI 的胡说测试（英文）

国外有一个 BuillshitBench，专门问 AI 一些胡说八道的问题，看 AI 能不能分辨这是胡说，还是一本正经地回答。

5、原生 CSS 就足够了（英文）

本文展示了 37Signals 公司的 CSS 代码，表明不使用任何框架（比如 Tailwind）和构建工具（比如 Sass），只用原生 CSS 代码完全可以。

6、粪便物理学（英文）

一篇很另类的科普文章，解释为什么动物不管大小，排便时间都在5～19秒之间，平均12秒。

工具

1、KULA

Linux 服务器的监控工具，只有一个二进制文件。

2、AnsiSaver

mac 电脑的屏保程序，用彩色的 Ansi 字符画作为屏保图案。

3、upiano

在命令行下模拟钢琴弹奏。

4、WSL Distro Manager

一个开源 Windows 应用，通过图形界面管理 Windows Subsystem for Linux（WSL）发行版。

5、Mole

开源的 Mac 电脑清理和优化工具。

6、PipeGate

一个将内网服务映射到外网的隧道工具，特点是比较简单，就是几个 Python 脚本，并且可以设置 UUID 客户端认证。

7、HookListener

一个管理、测试 Webhook 的在线工具，个人可以免费使用。

8、Sentinel

将安卓手机转化为网络摄像头，实现实时监控和图像采集。（@suzuran0 投稿）

9、Flux Monitor

Mac 电脑的系统监控、管理面板。（@chentao1006 投稿）

AI 相关

1、Agentic Metric

一个 Python 命令行工具，监控本地各种 coding agent（比如 Claude Code、Codex、OpenCode）的使用量。（@MrQianjinsi 投稿）

2、cc-connect

一个开源的连接器，将各种 AI 编程工具与手机聊天软件相连。（@chenhg5 投稿）

3、Page Agent

只要在网页插入这个 JS 库，就可以使用自然语言操作页面，比如"点击导航栏的文档链接，总结其内容"。

4、Agent Safehouse

一个 macOS 沙箱工具，用来在沙箱里运行 AI 编程工具。

5、Repo Tokens

一个 GitHub Action，为你的仓库添加一个图形标签（上图），显示该仓库相当于多少 Token，用来大模型的计算量。

资源

1、世界监控（World Monitor）

世界局势的一个实时看板，把各种消息源都放在一个网页里。

2、炼油厂探索

一个动画互动网站，展示炼油厂怎样将石油变成汽柴油。

3、Mechanical Pencil

弹簧笔、打火机等生活小物品的机械装置动画。

图片

1、密码的替代方法

一位程序员发明了一种新的密码方法，你觉得可行吗？

系统向用户展示一副扑克牌，让其从52张牌中依次挑出5张，作为密码。

下次登录时，用户必须按同样顺序挑出同样的5张牌。

文摘

1、复杂社会的崩溃

我们都知道，一个软件的复杂度不断上升，超过某个极限后，就会难以维护，最后往往被放弃。

美国历史学家约瑟夫·坦特（Joseph Tainter）认为，人类社会也是如此。如果社会的复杂度超过极限，这个社会最终也会崩溃。

1988年，他出版了一本名为《复杂社会的崩溃》的书，描述了罗马人、玛雅人和查科人等伟大文明的兴衰，试图回答几个世纪以来一直困扰着思想家的一个问题：为什么强大的社会会崩溃？

他认为，原因是这些社会有一个敌人----复杂性。

随着文明的发展，社会增加了越来越多的复杂性：更多的等级制度、更多的官僚机构、更深层次的社会结构。

一开始，新的等级、官僚、组织都是有用的，比如可以增加经济产出、税收等。但到了某个时刻，收益递减规律开始出现，每增加一点复杂度带来的回报越来越少，直至变成零甚至负数。

（1）法律条文和官僚越多，政府开销也就随之上升，长期很可能令社会无法负担。

（2）复杂度变大，会增加社会的不平等，因为能理解所有规则的人就越少，你就越离不开律师。懂规则的人会比其他人占优势。

（3）规则越多，维护和执行这些规则的机构也就越多，不利于社会提高效率。

（4）复杂性最终导致社会各阶层的差距变大，对立也随之而来。

以上因素的共同作用，导致历史上很多强大的社会最终崩溃。

言论

1、

2021年，我感觉做一名优秀的软件工程师棒极了。软件行业蓬勃发展，机会很多，我热爱这份工作，觉得可以永远做下去。

2026年，我已经不确定软件行业十年后会怎样，即使还存在，必定与现在极不相同。我也许能找到出路，也许不得不离开这个行业。无论如何，我热爱的软件工作即将消失。

-- 《我不知道十年后我的工作是否还存在》

2、

与强大的 AI 对抗会是什么感觉？

你会感觉自己莫名其妙地弱了不少，AI 做的每件事都超出你的预期。

这就好像你和一位实力强劲的玩家玩一款随机性很强的游戏，你会感觉这位高手总是运气爆棚。

-- probablydance.com

3、

阅读商战书籍是浪费时间。它们将简单的故事变成通用的建议，将偶然的成功转化为普遍的策略，并用激励人心的口号取代复杂的市场。

这些书的成功并不是因为内容正确，而是因为易于阅读并且让读者感觉良好。

-- 《阅读商战书籍是浪费时间》

4、

我想让 AI 告诉我怎么使用一种全新的、AI 也不会用的工具，就会提示 AI "执行 xxx-tool --help 来了解该工具"（假定工具名字是 xxx-tool），然后 AI 就学会用了。

-- Simon Willison，著名开发者

5、

时间是唯一不可再生的资源。AI 大模型是目前我所知的最便宜的赚取额外时间的方式。

-- 《不要太看重 AI 大模型的订阅费》

往年回顾

低代码编程，恐怕不会成功（#341）

AI 没有护城河（#291）

中国的增长动力在内陆（#241）

一个程序员的财务独立之路（#191）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年3月13日

零安装的"云养虾"：ArkClaw 使用指南

阮一峰的网络日志

12 March 2026 at 16:01

一、引言

大家这两天，有没有被"龙虾"（OpenClaw）刷屏？

到处是它的新闻，就连两会代表和新华社都在谈论。真让人跌破眼镜，一个 AI 软件竟能引起这么大的反响。

人们的热情高涨，免费的线下安装活动人满为患，网上的"付费安装"生意兴隆。

很多人大概还不知道，现在有一种最简单的龙虾使用方法：ArkClaw。

简单到你根本不需要操心安装，因为这是一个免安装的方案，它直接内置了龙虾，开箱即用。

我也是昨天才开始用，迫不及待跟大家分享，初步使用的感受。没有用过的同学，也可以把它当作《龙虾零门槛上手》教程，看看龙虾到底是怎么回事。

二、ArkClaw 是什么

事情是这样的，老读者可能还记得，我在春节前测评了字节最新发布的 Seed 2.0 模型。

我在文章里说，这是字节目前最强的基础模型，手机豆包用的就是它，测试表现很不错。

字节的同学后来就向我赠送了 Coding Plan 套餐，方便继续测试这个模型，各种 AI 编程工具都可以调用它的 API（当然套餐还包含其他国产模型，也是自由使用）。

本周一，我突然发现，字节的这个 Coding Plan 套餐开通了一个捆绑服务，就是 ArkClaw。

我问了客服才知道，只要现在开通 Coding Plan，就能免费使用龙虾。

也就是说，只要你用字节的 AI 编程套餐，不用多花一分钱，字节就提供一台远程主机，里面安装好了龙虾，你可以自由使用。

需要说明的是，Coding Plan 分成 lite（首月9.9元）和 Pro（首月49.9元）两种套餐。lite 套餐只能免费体验7天，只有 Pro 套餐可以长期使用 ArkClaw。

三、云养虾

ArkClaw 属于"云养虾"（又称"云龙虾"），就是把龙虾（OpenClaw）安装在火山方舟（字节的 AI 云服务品牌）的云主机上，它名字里的 ark 就是"方舟"的意思。

除了"云养虾"，也可以把龙虾安装在本地计算机。

不了解的朋友可能会好奇，两者有什么区别，我简单说一下。

首先，你要知道OpenClaw 属于自动化软件，它的作用就是让用户使用自然语言描述需求，它通过大模型找出满足需求的方法，然后自动去完成。

当它安装在本地计算机（你的笔记本），就方便自动操作本地文件和本地设备，比如"找出拍摄于去年今日的照片"或者"关闭客厅的智能灯，并查询最近一周的耗电量"。

当它安装在云端，就能 7x24 小时跟各种网络服务互动，比如"收到电子邮件时，自动生成30字的内容摘要，向手机发送通知"。

所以，如果你需要自动化操作网络服务，并且需要长时间在线或者每天定时运行，那么就合适使用"云养虾"。

四、ArkClaw 基本操作

4.1 界面

我给大家看一下，ArkClaw 的样子。

进入控制台，点击"立即创建"，创建一个龙虾实例。

创建完成后，就已经安装好了，直接使用。

界面非常简洁，就是一个对话框。ArkClaw 对龙虾的官方控制台做了定制，简化了操作界面。

4.2 抓取信息

你可以在对话框里面，跟 AI 模型对话，这跟其他模型的用法并无二致。

举例来说，我们可以让它抓取信息。

可以看到，由于抓取的是动态内容，所以模型想到了很多实施方案，最后顺利完成。

大家要记住，ArkClaw 就是一台远程主机，任何服务器可以用的技术方案，它都能用，这比安装在一般个人工作电脑上的龙虾更强大。

4.3 发送消息

获取信息以后，龙虾可以把这些信息发到手机。

目前，ArkClaw 支持与企业微信、钉钉和飞书绑定。其中，飞书因为是自家的产品，绑定操作最简单，便捷快速，扫码即可。其他两家操作都比较麻烦，具体见官方文档。

点击对话框上方的"飞书配对"按钮。（前面的"消息渠道"按钮，用于绑定企业微信和钉钉。）

系统会打开一个终端窗口，输出一个二维码，飞书扫描后可以创建一个机器人，跟当前的 ArkClaw 实例绑定。

通过这个机器人，你就可以在手机上跟当前这台 ArkClaw 实例对话了。

你也可以在电脑上，通过 ArkClaw 网页控制台，向你的手机发消息。

电脑端输入上面指令后，手机端就会推送消息（下图）。

4.4 定时任务

我们还可以规定，龙虾执行某些任务的时间和频率，也就是定时任务。

首先，使用自然语言，在对话框设置定时任务。

设置完成后，你的手机就会每天收到消息了。

如果要删除定时任务，也是使用自然语言发出指令。

五、Skill 和其他设置

5.1 Skill

龙虾本身的能力是有限的，总会遇到一些它不知道如何处理的问题。这时，就可以通过 Skill（技能）扩展它的能力，这大大增加了龙虾的用途。

什么是 Skill？简单理解，它就是一个文件包，里面包含了指令和示例，用来教模型如何完成某些特定的任务。

网上已经有很多别人写好、分享出来的 Skill，只要挑一些自己需要的，让龙虾加载，就能扩展对应的能力。网站 ClawHub.ai 就收集龙虾专用 Skill，已经有近20000个了。

我本来想用小红书 SKill 来举例，演示龙虾如何学会写小红书。但是，官方昨天发公告了，最近这样做的人太多了，现在开始封账号了。

那么就换一个例子。

上面截图就是使用自然语言，让龙虾从 ClawHub 网站下载安装高德地图（amap）的技能。

龙虾本来不知道怎么使用高德地图，有了这个技能就学会了，可以从中查询信息。这个技能的具体详细，可以查看它的主页。

使用的时候，也是直接用自然语言描述需求，模型会自己加载调用所需的技能。

上图的截图就是通过高德地图，查询实时路况。

5.2 其他设置

ArkClaw 的其他功能，都在"设置"菜单（下图），比如调整底层模型。

只要是 Coding Plan 套餐提供的模型，这里都能使用。

"设置"菜单还有两个很有用的功能。

一个是"打开终端"，它会在网页上打开一个终端窗口，让你通过命令行直接操作 ArkClaw 所在的远程主机。

从上面的终端窗口截图可以看到，ArkClaw 底层是 Ubuntu 系统。

另一个是"配置网盘"。某些情况下，你可能需要向 ArkClaw 上传/下载文件，这个功能允许当前主机与火山引擎的对象存储服务 TOS 绑定，相当于有了一个无限容量的网盘。

六、总结

以上就是我昨天第一天使用 ArkClaw 的主要内容。

我的感受是，它确实大大简化了龙虾的使用，免安装、开箱即用，让龙虾的操作变得简单直观。通过自然语言加载调用 Skill，也很自然流畅。

它最大的强项就是跟字节生态深度融合，配合得十分丝滑：底层 Seed 2.0 模型 + 飞书推送 + 火山引擎网盘，完全不必复杂的配置。

它是一个跟字节 Coding Plan 捆绑的服务，不用额外付费。相比自己从头搭建"云龙虾"，云主机和 AI 模型的费用就省掉了，这是一笔不小的费用。

作为程序员，这个 AI 编程的 Coding Plan + 云龙虾 ArkClaw 主机的捆绑方案，还是很有吸引力的。

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年3月12日

科技爱好者周刊（第 387 期）：你是领先的

阮一峰的网络日志

6 March 2026 at 04:20

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

福州元宵节灯会的福鱼灯，一个25米的机械装置，漂浮在空中。（via）

你是领先的

世界总人口现在是81亿，如果画成一个方块图，每个方块代表320万人。

68.8亿人还从没用过 AI（灰色方块），占84%。

13.8亿人跟 AI 有过对话（绿色方块），占16%。

1500万～2500万人付费订阅了 AI 服务（黄色方块），占0.3%。

200万～500万人使用 AI 生成了自己的编程项目（红色方块），占0.04%。

正在阅读这份周刊的你，如果是关注 AI 动态，用过 AI 生成代码，就已经领先全世界99%的人了。

OpenClaw 的安全

眼下全世界最火爆的软件，一定属于个人 AI 助手 OpenClaw 。

火爆到什么程度？

四个月的时间，它在 GitHub 得到了25万颗星星，超过了 React，成为有史以来星星最多的软件项目。

要知道这些星星，React 用了13年，它只用4个月。

上图中，垂直上升的红线就是 OpenClaw，太夸张了。

OpenClaw 的作用，就是通过自然语言控制电脑，完成自动化操作。以前，你需要多种工具和专业技能，才能达到同样的效果。现在只要输入文字或者口述，这不仅有用，也很有趣。

它基本上就是苹果智能助理 Siri 应该有的样子。对于普通用户，这才是与电脑交互的正确方式。可以预料，几年之内，这类工具将会普及到每个人的手机。

但是，它有一个问题：不够安全。

OpenClaw 有40多万行代码、53个配置文件、超过70项依赖，在短短几周内由 AI 生成，没有任何正规的审查流程。

它需要使用你的个人密钥，而且权限极大，完全自主运行。有人把自己的 Apple ID、Gmail 邮箱都授权给它，不敢想象啊，万一出错，会是怎样的后果。

它的防护措施很少，原始设计根本没有，一不小心，还可能暴露在公网上。

有人做了一个 OpenClaw 暴露看板（OpenClaw Exposure Watchboard），收集了所有暴露到公网的 OpenClaw 实例（上图）。你知道现在有多少台？截止到昨天是258305。

你随便选一台机器点进去，就能看到 OpenClaw 控制面板（下图）。

那个架设的人，以为正在自动化自己的电脑，哪里料到向全世界敞开了大门。

如果你要用 OpenClaw，至少要安装在虚拟机或者专用的物理机，否则就自求多福吧。

科技动态

1、二维码纸带

一个国外发明家突发奇想，能不能把声音保存在纸带上？

他就把每秒钟的声音，编码后保存成一个二维码，然后把所有二维码依次打印在纸带上。

他又做了一个播放器（下图），外面是纸板，里面是一个传动装置 + 摄像头。

播放器会把纸带每秒向前移一格，摄像头识别出二维码的数据，还原成声音，播放出来。

2、韩国政府丢失加密货币

韩国国税厅抓了一批逃税者，没收了他们的加密货币。

执法部门在网上公布了赃物照片（下图），都是本次行动的战利品。

照片是高清晰度的，里面有一个加密货币的硬件钱包，还有一张纸条，上面手写了钱包的恢复密钥。

结果可想而知，加密货币顿时就被转走了，价值440万美元，大概率找不回来。

这件事凸显了，政府持有加密货币的风险极大，任何一个环节泄漏钱包密码，就全完了。

3、霸王龙的行走方式

霸王龙是一种凶猛的巨型恐龙，白垩纪的王者，也是顶级掠食者。

霸王龙的未解之谜非常多，科学家至今不理解，为什么它的前肢变得又短又小。

最近，科学家又发现了它的一个特点，这么庞大的动物居然是踮着脚的，也就是只用脚尖走路和奔跑。

原因是霸王龙的脚印化石显示（下图），脚趾部分的痕迹最深，表明这部分承受的重量最大。

踮着脚尖的原因可能是，这样能使霸王龙提高速度，有利于捕食。

文章

1、增强 AI 模型的一个技巧（英文）

AI 模型不会做某件事，或者做得不好，怎么办？

著名开发者 Simon Willison 介绍解决方法：你去找这方面的介绍文章和可运行的代码示例，然后放入上下文，让模型参考该示例，它就能学会解决类似的问题。

所以，你要囤积自己懂得如何做的事情，模型学会后，就能自己去做这些事。

2、我做了一个 AI 版的自己（中文）

作者记录了，如何将自己十几年的博客、视频和社交媒体，训练成一个数字版的个人分身，对外提供聊天服务。他分别用6个模型训练，就可以6个版本的分身。（@foru17 投稿）

3、scp 命令的一个注意点（英文）

scp 命令一般用来向服务器传送文件，它是带权限拷贝，某些情况下可能会意外禁掉 ssh 远程登入服务器。

4、Nano Banana 2 与 Seedream 5.0 Lite 对比（英文）

本文比较了目前最先进的两个图像生成模型，谁的效果更好，谷歌的 Nano Banana 2 还是字节的 Seedream 5.0 lite。

5、JavaScript 的四种遍历（英文）

本文比较了 JavaScript 的四种数组遍历，结论是 for i++ 速度最快，for-of 其次，forEach 较慢，for-in 应该避免使用。

工具

1、yj_nearbyglasses

开源的安卓应用，检查你的周围有没有智能眼镜。

2、explain-my-curl

curl 命令的一个终端界面，可以解释命令的运行结果。

3、Pocket ID

一个需要自搭建的 OIDC 身份认证服务，支持 Passkey 无密码登录，设置参考这篇文章。

4、R2 Web

文件存储服务 Cloudflare R2 的 Web 客户端，可以上传/管理文件。（@vikiboss 投稿）

5、Voxt

macOS 应用，用于语音转文本、语音的实时翻译。（@hehehai 投稿）

6、Cutia

开源的网页视频编辑器，网页版的 CapCut 替代品，试用 Demo。（@moonrailgun 投稿）

7、Gorse

开源的推荐引擎，会自动对数据进行训练，为每个用户生成推荐，方便接入各种在线服务。（@zhenghaoz 投稿）

8、vscode-stylelint-plus

一个 VSCode 插件，对 CSS、SCSS、Less 等进行代码检查。（@hex-ci 投稿）

9、OneDroid

开源的安卓应用，提供多种实用工具，来管理你的安卓设备。（@QingGeTech 投稿）

10、NoteCalc

所见即所得实时计算笔记本。（@2234839 投稿）

AI 相关

1、no-agents.md

如果你不想自己的仓库被大模型抓取训练，可以加入它提供的 AGENTS.md 和 CLAUDE.md。

2、Skills Manager

一个 macOS 桌面应用，统一管理 Skill 文件，保存在目录 ~/.skills-manager 目录，然后一键同步到各种 AI 工具。（@xingkongliang 投稿）

另有一个同类的 Skills Manager（下图）。（@Rito-w 投稿）

3、AGI Agent

开源的个人 AI 助手，OpenClaw 替代品，适配了国产大模型。（@agi-hub 投稿）

4、ArXiv Daily Researcher

一个 Python 应用，从 ArXiv 与顶级学术期刊获取最新论文，可配置关键词进行筛选，生成专业报告，多渠道推送。（@yzr278892 投稿）

5、魔方简历（Magic Resume）

基于 Web 的在线简历编辑器，可以集成多种大模型 AI 能力。（@JOYCEQL 投稿）

资源

1、MicroGPT 交互式讲解（英文）

MicroGPT 是一个200行的 Python 脚本，用来解释 ChatGPT 的原理。本文使用互动式动画分析 MicroGPT，适合初学者了解大模型算法。

2、2026年全国樱花花期预测

预报全国各地樱花开花的日期。（@rogerzhu 投稿）

3、Now I Get It!

上传一个科学论文 PDF 文件，该网站将其转成一个互动式网页（上图），用浅显英语来解释论文，目前是免费服务。

图片

1、苹果广告30年

1997年的苹果广告，主角是爱因斯坦。

2025年的苹果广告，主角是一只青蛙。

相隔30年，很难想象，今天的苹果公司还会用爱因斯坦来做广告。

相比上个世纪，人类社会已经大为娱乐化，不那么严肃和一本正经。

文摘

1、老板在度假时用 WhatsApp 解雇了我

我在一家私营公司工作，老板就是创始人。

前一段时间，我把待办事项清单都清空了，无事可做。我就去问项目经理还有什么项目。整整两个星期，他都没有给我派活。

这是很奇怪的状况，我从没遇见过，突然就无事可干，而且已经持续了半个月。肯定哪里出问题了。

于是，我直接在 Slack 上给老板发消息，询问我这个月的任务。

几个小时过去了，没有回复。两天过去了，依然没有回复。

今天早上，我就改在 WhatsApp 上给他的私人账号发了条同样的消息。

他回复了，说他正在夏威夷度假，没看到 Slack。

然后，他写了一条长长的回复，告诉我被解雇了。

他说，我的部门是全公司成本最高的，而且上个月，公司第一次出现亏损，他现在不得不借钱来偿还房贷，削减成本是公司生存下去的唯一途径。

我震惊了，他一边在夏威夷度假，一边说这些话。

我本来很同情他，他努力挣扎着偿还房贷，还要拼尽全力维持公司运营，真的活得非常辛苦。要不是想到他还在度假，我简直要为自己向他索要工资而感到愧疚，我甚至乐意免费为他工作，以避免公司的亏损。

读到他的这些解雇我的理由后，我觉得很可笑，我居然给他写信，要他给我委派任务。

我后来才意识到，自己是在 WhatsApp 上被解雇的，而且只通过一条文字消息。我为他工作了四年，他解雇我的时候甚至连安排一次视频通话、面对面告诉我的勇气都没有。

我看清了，我的工作就是让他能还清房贷，为他的幸福和财富做贡献。而他不需要有同情心，也不需要有直视我眼睛来解雇我的勇气。

言论

1、

让我非常惊讶的是，人们最近突然开始做一些早就应该做的事情：

（1）撰写简洁、直截了当的文档，把它放在 AGENTS.md 文件里。

（2）实现非常有价值的工作流程，以技能或 MCP 服务器的形式暴露出来。

（3）改进测试和命令行工具的输出，使其带有更多信息。

-- 《AI=true 是反模式》

2、

GitHub 最近频繁宕机，我认为原因并不是他们在运行 AI 生成的代码，而是用户在提交 AI 生成的代码，导致提交内容和频率远超以往，GitHub 不堪重负。

-- Hacker News 读者

3、

GitHub Star 曾经是一个很好的指标，直到人们逐渐意识到它确实是一个很好的指标。

-- Hacker News 读者

4、

有了 AI，工程师一个迭代可以做七个功能，晋升毫无难度。

-- 《当代码生成速度超过理解速度》

5、

吃掉大象只有一种方法：一口一口地吃。

-- 南非主教图图

往年回顾

技术炒作三十年（#340）

苹果头盔的最大问题（#290）

教育年限可以缩短吗？（#240）

产品化思维（#190）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年3月 6日

科技爱好者周刊（第 386 期）：当外卖员接入 AI

阮一峰的网络日志

27 February 2026 at 08:07

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

上海黄浦江边的艺术装置《航舵》。此处是船厂遗址，有一堵防汛墙，为了吸引人们走上去，以及配合造船主题，就设计了这么一个装置。（via）

当外卖员接入 AI

最近，美国有一条无人驾驶的新闻，引起很大反响。

Waymo 是一家无人驾驶公司，已经在多个美国城市开展出租车运营了。

它有一个最大的烦恼，就是乘客下车后，没关好车门或后备箱，导致车辆无法驶离。

奇怪的是，这样一家高科技公司，居然没有开发远程关车门功能，反而想出了一个另类的解决方案。

它给外卖小哥下单，付钱让他们赶到现场关车门。

有一个小哥看到了上面这张奇怪的订单，标价6.25美元，要求赶到1公里以外的一个地方，找到一辆 Waymo 出租车，把车门关上。完成后，还将额外收到5美元。

他觉得很稀奇，就截图发到了网上，这件事顿时就变成了新闻。

它的新闻点，其实不是接单关车门，而是程序在调动人力，完成自动化流程。

一直以来，程序只能调动计算机，突然之间，它可以调动人力了，某个环节计算机完成不了，它就自动找人来完成。这才是新闻。

这样做之所以能够成功，完全因为外卖员是一个自带 API 的人群，已经接入了软件系统，成为了自动化人力，程序可以通过接口去调用他们。

你仔细思考这件事，就会意识到，在人工智能和机器人的时代，外卖员有特殊的价值，将是一个很有想象空间的职业。他们的作用绝不仅是送外卖，而是可以升级为远程操控、程序调用的人力，是"机器 + 人"自动化流程的一环。

一旦 AI 模型跟人力结合在一起，模型的作用将大大扩展，现在的 OpenClaw 只能操作计算机，将来的 AI 助手还将是劳动力的调配引擎。

比如，我要装修一套房子，AI 做好了设计方案，然后就在网上分布细分任务，水电工接单做好水电，监理员接单上门确认后，AI 就自动结算费用，进入下一个环节，泥工、木工......直至装修完成。

到了那时，你在网上输入提示词"我要装修房子"，真的可能一套房子就被 AI 装修好了。

AI 平台因此会变成一个劳务平台，你可以通过 AI 找工作，上面有各种劳务需求，你接单去做，完成后收到报酬。

总之，一旦人力接入 AI，被它调配，AI 就不止是计算机革命，而是整个社会经济都将围绕它重构了。

[本周软件] PinMe：去中心化托管服务

链接会删除，网站会关闭，域名会消失，内容怎样永久保存在互联网？

现在有一种解决方案 IPFS（星际文件系统），通过分布式协议，在所有节点之间分享内容，而网址就是内容的哈希值。

所以，内容一旦上传 IPFS，就无法修改，因为哈希值会变，也无法删除，因为其他节点会有留存。

今天介绍的 PinMe，就是这样一个 IPFS 托管工具。

你可以通过它，将任何文件上传到 IPFS。上传一个静态网站，理论上就是永久可访问，任何人（包括你）都无法删改和关闭，任何一个 IPFS 网关都能打开浏览。

PinMe 会分配一个 ENS 域名，指向上传内容，这个域名写入以太坊区块链，也是永不消失。

它提供的免费储存空间有 1GB，更大空间和自定义域名需要付费。

文件可以网页上传，也可以用它的开源命令行发布工具，一行命令发布到 IPFS，该工具已经有2800颗星。如果要永久保存内容，大家可以试试看。

科技动态

1、音频线

材质越好的音频线，价格越贵，但真能听出差别吗？

一个美国音响爱好者做了一个实验，分别用专业音频铜线、香蕉和湿泥来传输音频。

他让不同的人来听，结果根本听不出差别。

这太令人惊讶了。一般认为，香蕉和湿泥土不是良好的导体，但是这个实验表明，它们只是电阻大一点，除了降低信号电平之外，不会对音频造成太大失真。

2、COBOL 代码的 AI 维护

COBOL 是上个世纪的编程语言，现在已经没人用了。

但是，美国很多大公司的关键系统是 COBOL 写的，始终没有下线，目前都由 IBM 公司维护，收费非常昂贵，因为除了他们就没人懂这门语言。

本周一（2月23日），Anthropic 公司突然在官网发布文章（上图），宣布他们的 Claude 模型可以自动分析 COBOL 代码，将其迁移到其他语言。

这篇文章立刻导致 IBM 股价大跌（下图）。

如果 AI 可以维护 COBOL 代码，是否意味着所有历史遗留软件的维护，都已经不成问题了？我们再也不必为接手老项目烦恼了？

3、AI 编程项目的版权

美国的司法规定，只有人类的智力成果才有版权，AI 的生成结果没有版权。

这意味着，AI 编程出来的代码，（在美国）是无版权的，任何人都可以自由使用。

除非项目明确披露哪些部分是 AI 生成的，哪些部分是人工编写的，这样可以对人工编写的部分主张版权。

4、僧侣机器人

日本京都大学发布了一款僧侣机器人，硬件为宇树机器人，软件为佛经训练过的 ChatGPT。

它步态缓慢，能做出双手合十、鞠躬等动作，能够跟你对话佛经，提供精神安慰，解答生活问题，还能主持祈福、洒净等简单法事。

当被问到"嗜酒困难"时，机器人回答："远离损己伤身之物，持守不饮酒戒，勤修善行，方为安乐。"又被问道"性情急躁、难以专注"怎么办？它建议："勿求速成，安住当下，逐一观照所遇之事，辨明本心所需，徐徐而理，自然澄明。"

京都大学在声明中表示，这款机器人将来可能协助或替代人类，完成一些宗教仪式，并且也能解决由于人口老龄化和劳动力减少，佛教僧侣不足的问题。

该机器人从3月起在京都青莲院门迹等寺庙进行为期6个月的实地测试，顺利的话，将于2027年推出商业版本，提供"寺庙机器人租赁服务"，帮助小型寺庙维持运营。

文章

1、SWE-bench Verified 测试应该放弃（英文）

OpenAI 公司创建的 SWE-bench Verified 是目前最常用的测试基准，用来衡量模型的编码能力。

本周，OpenAI 公司提出应该放弃它，因为有难以克服的缺陷，已经不准确，可以改用 ScaleAI 创建的 SWE-Bench Pro。

2、.plan 文件（英文）

作者提出，文本文件 .plan 是最好的任务管理系统。放在云盘上，随时随地使用任何设备，都能查看和编辑。

3、鲸落（英文）

一鲸落，万物生。本文通过很多例子，说明一个大项目终止后，并不会真的死亡，而是化作许多小项目，四处生长。

4、40 行代码实现无服务器 OCR（英文）

本文是一篇教程，作者用云函数调用 DeepSeek OCR 模型，将 PDF 格式的数学论文转为 Markdown。

5、两台路由器实现局域网无缝漫游（中文）

作者家中的两台路由器无法组 Mesh，本文介绍如何将它们组成同一个局域网，让设备可以无缝漫游。（@popring 投稿）

6、视觉隐藏的最新实现（英文）

视觉隐藏指的是，网页上看不见这个元素，但是网页阅读器能读到这个元素。本文介绍它的最新 CSS 写法。

7、OpenClaw 背后的引擎 Pi（英文）

OpenClaw 的走红，也带火了它的底层引擎 Pi。Pi 是一个 Coding Agent，跟 Claude Code 作用类似，但更轻量级。

工具

1、Oat

轻量级的 HTML + CSS + 极简 JS 的语义化 UI 组件库。

2、jsonriver

一个 JS 库，用于解析 JSON 字符流，可以作用 JSON.parse() 的替代品，后者不支持流模式。

3、Arcmark

一款开源的 macOS 桌面应用，用来管理浏览器书签，可以自动吸附在浏览器窗口的侧边。

4、Systemd manager tui

一个通过终端界面管理 Systemd 服务的工具。

5、weathr

一个终端应用，用来查看指定地点的天气，以动画形式展示。

6、CursorLens

开源的录屏桌面应用，用于制作产品演示与讲解视频。（@blueberrycongee 投稿）

7、结印（Ketsuin）

一个 Web 应用，通过火影忍者的手势输入法，摄像头识别手势进行文字输入。（@huanglizhuo 投稿）

8、Puter

一个需要自搭建、通过浏览器使用的云操作系统，参见介绍文章。（@cosmicqbit 投稿）

9、Penio

跨平台的教学可视化桌面应用，让鼠标、键盘在屏幕可视化凸显出来。（@game1024 投稿）

10、openhare

基于 Flutter 的跨平台桌面 SQL 查询工具，支持多种数据库，可以 AI 生成 SQL 查询和数据分析。（@sjjian 投稿）

AI 相关

1、BitFun

开源的 AI 编程 IDE，类似于 Cursor。（@GCWing 投稿）

2、Xcode Proxy

一个本地的基于 Python 的服务，让 Xcode 可以调用各种第三方 AI 服务。（@tianrking 投稿）

3、openapi-to-skills

将大型的 OpenAPI 文档转为按需加载的 Skills 结构，用来精确执行某个接口，以及减少 Token 消耗和幻觉。（@Yuyz0112 投稿）

4、Trending AI

开源手机应用，AI 总结 GitHub Trending 项目。（@HarlonWang 投稿）

5、Horizon

一个 Python 项目，从自定义的多个信息源收集新闻，进行筛选和摘要，生成一份日报。（@Thysrael 投稿）

6、JadeAI

基于 Next.js 的智能简历生成器，支持拖拽编辑、实时 AI 优化、50 套专业模板打造简历。（@twwch 投稿）

资源

1、Flashpoint Database

这个网站收集各种网页游戏和动画，目前有18万个游戏和3万个动画。

2、Claude Code 中文教程

包含10个完整章节的 Claude Code 中文教程仓库。（@KimYx0207 投稿）

3、海平面上升模拟器

用户在网页上设定海平面的上升高度，查看地球卫星地图的变化，哪些地区被淹没。（@ObservedObserver 投稿）

4、diode

面包板在线模拟网站，在网页上用各种电子元件，可视化模拟面包板电路项目，可以查看运行效果。

图片

1、世界第一个浏览器

1990年，欧洲核子研究中心的研究员蒂姆·伯纳斯-李（Tim Berners-Lee），发明了 WWW（互联网的网页浏览服务）。

现在，欧洲核子研究中心的官网提供世界第一个浏览器（上图），作为历史体验，供用户在线体验。

同时提供的，还有世界第一个网站（下图）。

2、显示器布局

程序员的工作台，往往放着1到 n 台显示器。

有人总结了这些显示器的放置方法，你属于哪一种？

文摘

1、卡车的空气动力学

1973年，美国宇航局的一个工程师骑自行车上班，遇到一辆大卡车在身边飞驰而过，卡车的气流将他连人带车推向路边。

大多数骑车人一定会心惊胆战，但是这个工程师立刻想到，大卡车的空气阻力非常大，所以才有这么强的气流。

回到实验室后，他就召集了一些同事，借来一辆旧福特厢式货车做实验，怎样才能改善空气阻力，提高燃油效率。

他们先在卡车外面包了一层方方正正的铝板（上图），测量基准阻力。

然后，将车头前部的垂直角打磨成圆角（下图），再测试阻力有没有变化。

接着，密封了车辆底部，使气流更顺畅地流过车身。

经过测量，将前部四个边缘全部打磨成圆角后，阻力降低了52%；密封车底后，阻力又降低了7%。他们估计，这可以使高速公路行驶时的燃油消耗减少15%至25%。

最后，他们又在驾驶室上方和底盘前方加装了整流罩，在车尾加装了尾翼，阻力又降低了15%。

他们当时改装的样车，跟2017年特斯拉推出的 Semi 卡车很相像。

言论

1、

美国最大的创业孵化器 YC 如今几乎只投人工智能领域，最新一轮它的投资组合中，高达88%的公司都基于人工智能。

这与它曾经倡导的逆向思维背道而驰，转而倾向于稳妥的追随潮流。

-- 《YC 是收留懦夫吗？》

2、

我们应该帮助实体店生存下去。当一家实体店开业，它会让其他人受益，会帮助街区吸引居民和潜在顾客，最终让本地区变得有活力和适合生活。

-- 《零售业提升土地价值》

3、

如果 AI 主导一切，那些无法被 AI 量化的东西，不是会特立独行，而是最终会被淘汰。

-- Ben Thompson，美国著名科技 UP 主

4、

美国企业有一个方面做得很好，那就是他们不会把时间和精力浪费在自己不擅长的事情上，而是对自己擅长的领域加倍投入。

他们只关注收益最大化，不关注成本最小化。

-- Ben Thompson，美国著名科技 UP 主

5、

创造力需要你有勇气去放弃确定性。

-- 埃里希·弗罗姆，德国哲学家

往年回顾

代币是什么（#339）

宽容从何而来（#289）

未来两种人会增加（#239）

下一个内卷的行业（#189）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年2月27日

字节全家桶 Seed 2.0 + TRAE 玩转 Skill

阮一峰的网络日志

14 February 2026 at 19:51

一、引言

国产大模型之中，字节是一个异类。

不像其他大模型轰轰烈烈、争夺眼球，它更低调，不引人注目。

但是，它做的事情反倒最多，大模型、Agent、开发工具、云服务都有独立品牌，遍地开花，一个都不缺，都在高速推进。

Seed 是字节的大模型团队，底下有好几条产品线，最近热得发烫的视频模型 Seedance 2.0 就是他们的产品。

今天，我就用字节的全家桶 ---- 刚刚发布的 Seed 2.0 模型和开发工具 TRAE ---- 写一篇 Skill 教程。

大家会看到，它们组合起来既强大，又简单好用，（个人用户）还免费。这也是我想写的原因，让大家知道有这个方案。

只要十分钟，读完这篇教程，你还会明白 Skill 是什么，怎么用，以及为什么一定要用它。

二、Seed 2.0 简介

先介绍 Seed 2.0，它是 Seed 家族的基座模型。

所谓"基座模型"（foundation model），就是一种通用大模型，可用来构建其他各种下游模型。最大的两个特征有两个：一个是规模大，另一个是泛化能力强，这样才方便构建别的模型。

大家熟知的豆包，就是基于 Seed 模型，它也被称为"豆包大模型"。这次 Seed 2.0 包含 Pro、Lite、Mini 三款通用模型，以及专为开发者定制的 Seed 2.0 Code 模型。

由于各种用途都必须支持，Seed 2.0 的通用性特别突出，比以前版本都要强。

1、支持多模态，各种类型的数据都能处理：文字、图表、视觉空间、运动、视频等等。

2、具备各种 Agent 能力，方便跟企业工具对接：搜索、函数调用、工具调用、多轮指令、上下文管理等。

3、有推理和代码能力。

正因为最后一点，所以我们可以拿它来编程，尤其是生成前端代码。跟字节发布的 AI 编程工具 TRAE 配合使用，效果很好，特别方便全栈开发，个人用户还免费。

三、TRAE 的准备工作

下载安装 TRAE 以后，它有两种模式，左上角可以切换：IDE 模型和 SOLO 模型。

选择 IDE 就可以了，SOLO 是 AI 任务的编排器，除非多个任务一起跑，否则用不到。

然后，按下快捷键 Ctrl + U（或者 Command + U），唤出对话框，用来跟 AI 对话。

我们要构建 Web 应用，左上角就选 @Builder 开发模式。右下角的模型就选 Seed-2.0-Code。

可以看到，TRAE 自带的国产开源编程模型很全，都是免费使用。

准备工作这样就差不多了。

四、编程测试

我选了一个有点难度的任务，让 Seed 2.0 生成。

ASCII 图形是使用字符画出来的图形，比如下图。

我打算生成一个 Web 应用，用户在网页上输入 ASCII 图形，自动转成 Excalidraw 风格的手绘图形。

提示词如下：

"生成一个 Web 应用，可以将 ASCII 图形转为 Excalidraw 风格的图片，并提供下载。"

模型就开始思考，将这个任务分解为四步。

五、生成结果

等到 Seed 2.0 代码生成完毕，TRAE 就会起一个本地服务 localhost:8080，同时打开了预览窗口。

生成的结果还挺有意思，上部的 ASCII 输入框提供了四个示例：Box、Tree、Flowchart、Smiley。下面是 Tree 的样子。

然后是 Excalidraw 参数的控制面板：线宽、粗糙度、弯曲度、字体大小。

点击 Convert（转换）按钮，马上得到手绘风格的线条图。

整个页面就是下面的样子。

六、Skill 简介

这个页面的设计，感觉不是很美观，还可以改进。我打算为 Seed 2.0 加入专门的前端设计技能，使其能够做出更美观的页面。

所谓 Skill（技能），就是一段专门用途的提示词，用来注入上下文。

有时候，提示词很长，每次都输入，就很麻烦。我们可以把反复用到的部分提取出来，保存在一个文件里面，方便重复使用。这种提取出来的提示词，往往是关于如何完成一种任务的详细描述，所以就称为"技能文件"。

格式上，它就是一个 Markdown 文本文件，有一个 YAML 头，包含 name 字段和 description 字段。

name 字段是 Skill 的名称，可以通过这个名称调用该技能；description 字段则是技能的简要描述，模型通过这段描述判断何时自动调用该技能。

有些技能比较复杂，除了描述文件以外，还有专门的脚本文件、资源文件、模板文件等等，相当于一个代码库。

这些文件里面，SKILL.md 是入口文件，模型根据它的描述，了解何时何处调用其他各个文件。

这个库发到网上，就可以与其他人共享。如果你觉得 AI 模型处理任务时，需要用到某种技能，就可以寻找别人已经写好的 Skill 加载到模型。

七、前端设计技能

下面，我使用 Anthropic 公司共享出来的前端设计技能，重构一下前面的页面。它只有单独一个 Markdown 文件，可以下载下来。

打开 TRAE 的"设置/规则和技能"页面。

点击技能部分的"+ 创建"按钮，打开创建技能的窗口。

你可以在这个窗口填写 SKill 内容，也可以上传现成的 Skill 文件。我选择上传，完成后，就可以看到列表里已经有 frontend-design 技能了。

然后，我就用下面的提示词，唤起这个技能来重构页面。

"使用 frontend-design 技能，重构这个页面，让其变得更美观易用，更有专业感。"

下面就是模型给出的文字描述和重构结果。

页面确实感觉变得高大上了！

八、Vercel deploy 技能

最后，再看一个技能的例子。

代码生成以后，都是在本地机器上运行，能不能发布到网上，分享给更多的人呢？

回答是只要使用 Vercel 公司的 deploy 技能，就能一个命令将生成结果发布到 Vercel 的机器上。

在 Vercel 官方技能的 GitHub 仓库里，下载 Vercel-deploy 技能的 zip 文件。

然后，把这个 zip 文件拖到 TRAE 的技能窗口里面，就会自动加载了。

输入提示词："将生成的网站发布到 Vercel"。

模型就会执行 vercel-deploy 技能，将网站发布到 Vercel，最后给出两个链接，一个是预览链接，另一个是发布到你个人账户的链接。

大家现在可以访问这个链接，看看网站的实际效果了。

九、总结

如果你读到这里，应该会同意我的观点，Seed 2.0 的编程能力相当不错，跟自家的编程工具 TRAE 搭配起来，好用又免费。

Skill 则是强大的能力扩展机制，让模型变得无所不能，一定要学会使用。

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年2月14日

科技爱好者周刊（第 385 期）：马斯克害怕中国车企吗？

阮一峰的网络日志

13 February 2026 at 02:34

这里记录每周值得分享的科技内容，周五发布。（[通知] 下周春节假期，周刊休息。）

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

去年7月开通的浙江丽水机场，是一个丘陵之中的山地机场，设计理念是与自然和谐共生，由马岩松 MAD 事务所设计。（via）

马斯克害怕中国车企吗？

两周前，马斯克宣布，特斯拉公司将停产 Model S 和 Model X 两种车型。

他的解释是，生产线空出来，用来生产机器人和无人驾驶出租车。

这显然会打击特斯拉的汽车业务。它的家用轿车一共只有四款，现在一下子少了两款，而且是最贵的两款，只留下低价的 Model 3 和 Model Y。

新闻发布会上，记者就问了，那么有没有计划推出新的车款？

特斯拉的工程副总裁这样回答：

"你们必须转变对我们的看法，我们现在更多是提供交通运输服务，而不仅仅是为市场提供可购买的车辆。"

马斯克补充说：

"我相信，长期中我们将只生产自动驾驶车辆。"

这意味着，特斯拉改变了定位，它将是一家交通运输公司，而不是汽车制造商了。剩下的两种车款，未来也有可能放弃，也许只生产不需要司机的自动驾驶车辆。

国外立刻有评论家，发表了尖锐的批评，认为特斯拉正在放弃造车，这是自杀行为。

他说，马斯克因为兴趣转向其他地方，不再坚持造车了，非常可惜，也非常愚蠢。

"特斯拉听任自家非常成功的汽车制造业务衰落，以便去追逐那些不知道能否成功、也不知道能否获得批准、更不知道有没有市场的机器人和无人驾驶出租车。"

他呼吁，马斯克不要畏惧与中国车企竞争，要坚持下去，造出又好又便宜的美国电动汽车。

"未来可以有另一种版本：特斯拉依然是电动汽车领域的领军企业，同时还在积极研发 AI 和自动驾驶技术，推出价格亲民的车款与中国电动汽车展开竞争，并拓展至新的细分市场。"

这大概是一种相当普遍的看法：马斯克对于与中国车企竞争，没有信心了，不怎么想继续造车了。

毕竟，特斯拉的汽车销量在2025年是衰退的，少于2024年，"世界最大电动车厂商"的头衔也让给了比亚迪。

马斯克是不是害怕中国车企？我说说我的看法。

首先，我不知道，他把生产线转为制造机器人，是不是正确的决定；我也不知道，他还想不想造车。我只知道，那些批评他的人，完全不了解马斯克。

千万不要用普通人的心态，去揣度马斯克，他不是一个常规的人。

如果看过他的传记，就会知道，他迄今所有的创业项目，都不是常规项目。从最早的 Paypal，到后来的电动汽车、太阳能发电、可回收火箭、星链、脑机通信等等，都有一个共同点，那就是他做的时候，那些项目都没有成功先例，因此也不存在竞争对手。

马斯克一生中只喜欢做那些"从0到1"、最前沿的、从没人成功过的事情。 做跟别人一样的产品，争夺市场份额，完全不是他的风格。

电动汽车已经是一种成熟商品了，主要技术问题都解决了，完全没有进入门槛，大家开始比拼成本了。你觉得，马斯克还会有兴趣吗？

我告诉你吧，对于击败中国车企，成为世界最大、最先进的电动车厂商，人家根本没有这个兴趣。他也压根不需要赚更多的钱了，已经是世界首富了。

反倒是，做出无所不能的机器人，组建自动驾驶车队，或者从事其他更酷的、无人见过的业务，更符合马斯克的风格。

我认为，这值得学习。中国企业不仅要追求做大做强，也可以追求做一些前无古人的事情，不仅要做 number one，还要做 only one。

科技动态

1、世界最贵的域名

一位加密货币网站创始人，花费7000万美元收购了域名"ai.com"。这是迄今已知的域名交易中价格最高的一笔。

真是很难相信，单单一个域名，价值会超过人民币5亿元。

该域名目前可以抢注用户名，并绑定信用卡，将来会提供"AI 智能体"服务。

历史第二贵的域名是币圈公司 Block.one 花费3000万美元从 MicroStrategy 购买的"Voice.com"。第三贵的域名是360公司花费1700万美元买入的"360.com"。

2、华为的表情符号

表情符号（emoji）在各个系统的实现不一样。这些年来，一个趋势是各家的实现逐渐向苹果的设计靠拢。

上图中，"枪"的表情符号最后都变成苹果的"水枪"。

一个例外是华为的鸿蒙系统，表情符号跟其他系统有很多不同。

上图是"恳求"的表情符号，只有华为是双手合十。

上图是风筝，只有华为是中式的纸鹫。

3、LinkedIn 的用户指纹

很多网站会追踪用户，以前使用 cookie，现在使用"用户指纹"，即为每个用户生成一个特征码。

最近，有人披露了 LinkedIn 网站如何生成"用户指纹"，令人瞠目结舌。

它的页面会加载一个清单，里面列出了2,953个浏览器插件，脚本会依次检查你安装了其中哪些插件。下面就是研究人员提取出来的脚本。

这导致的直接后果就是，访问 LinkedIn 时，控制台可能有上千个报错。

文章

1、直接用 Postgres 吧（英文）

一般来说，不同用途可以使用不同的数据库，比如搜索用 Elasticsearch、缓存用 Redis、队列用 Kafka......

本文提出，不管什么用途，Postgres 数据库都适用，只要为它装上相应的插件。

2、TypeScript 的 Brand 类型（英文）

本文介绍 TypeScript 的一个重要编程技巧：为同一种类型添加 brand 属性，防止混淆。

这里还有一篇同样主题的教程，可以结合起来一起看。

3、我如何对本地餐厅排序（英文）

作者介绍他从谷歌地图，下载本地餐厅数据和评价，进行评分排序的过程。

4、如何在开发者工具定位 JavaScript 对象（英文）

本文介绍一个 JS 的高级技巧，有时需要追踪内存中的某个对象的变化，可以利用开发者工具来查看。

5、如何使用 Unix 信号传递消息（英文）

Unix 系统（包括 Linux 和 macOS）有信号机制，用来触发进程的某种行为。信号只是一个数字，本身不能发送文本消息。

本文用一种很巧妙的方法，实现了通过信号向进程发送文本消息。

6、泊松分布背后的原理（英文）

泊松分布是独立小概率事件的概率分布，本文通俗介绍它的原理。

工具

1、Subtrace

一个开源的 Docker 应用，在浏览器里观察本机 Docker 容器的网络通信。

2、ScrapeServ

一个抓取网页截图的服务器，需要自己架设，通过 API 调用。

3、QtScrcpy

电脑操作手机的工具，可以将手机投屏到电脑，然后用键盘和鼠标操作手机。

它是用 Qt 重新实现的 scrcpy。

4、ProxyPin

全平台的开源抓包软件，拦截和重写 HTTP(S) 流量。（@wanghongenpin 投稿）

5、luci-theme-aurora

一款 OpenWrt LuCI 现代感主题，基于 Vite 和 Tailwind CSS。（@eamonxg 投稿）

6、BetterCapture

开源的 Mac 录屏软件。（@cosmicqbit 投稿）

7、FeedCraft

开源的 Web 服务，生成处理后的 RSS 源，可用来提取全文、翻译、摘要、过滤等。（@Colin-XKL 投稿）

8、Extension.js

一个浏览器插件开发的工具库，帮你快速开发一个插件。

9、Yaak

一个跨平台的桌面软件，可以用来调试 API（包括 REST、GraphQL 和 gRPC），是 Postman 的替代品。

10、Neko Master

网络流量的轻量级分析面板，展示与统计本地网关的流量数据。（@foru17 投稿）

AI 相关

1、Codex Viz

OpenAI 公司的编程工具 Codex 的本地数据统计面板。（@onewesong 投稿）

2、Universal DB MCP

一个 MCP 服务器，可以让 AI 连接17种数据库。（@Anarkh-Lee 投稿）

另有一个 Excalidraw MCP，可以通过 AI 用自然语言来生成手绘风格图表。（@Scofieldfree 投稿）

3、BrainKernel

一个终端应用，使用 AI 分析每个进程，一旦识别为恶意进程，就把它终止。

资源

1、神经网络的视觉解释

这个网站用动画解释"什么是神经网络"。

2、DevOps Engineer

一个 IT 课程网站，学习 Linux 和 DevOps 的实践技能，在网页上连接远程虚拟机进行交互操作，有中文版，免费额度是每天3次虚拟机。（@huhuhuhang 投稿）

3、理解机器学习：从理论到算法（英文）

免费的英文电子书。

图片

1、显卡的包装

现在的显卡包装，都非常简单。比如，下面是5090显卡的包装。

但是，二十多年前的21世纪初，可不是这样，显卡的包装非常花哨。

究其原因，一方面是环保观念的提升，另一方面是显卡现在几乎没有竞争，一上架就会被买走，厂商就不在包装上动脑筋了。

文摘

1、迪拜如何走向繁荣

迪拜是中东地区最繁荣的城市。

但是，在1950年的时候，它还是一个海边的沙漠小村庄，除了出产珍珠，没有任何特殊之处。

它的地理位置也不好。

迪拜在红海一个突出的岬角上（上图箭头处），并不靠近主要航线，周围还有其他港口，那些地方也产珍珠，谁会特意来迪拜呢？

幸运的是，1966年，迪拜发现了石油，获取了巨额财富。但是，单单有石油，并不会变成繁荣的大城市。

这时，迪拜的酋长做出了几个重要决定：（1）免税，不对其他国家的商人征税；（2）发展贸易，给予商人各种便利，方便他们做生意；（3）加强基础设施，石油赚到的钱都投在道路、机场、电力、通信、港口；（4）信仰自由，任何信仰的人都可以来迪拜，不会强迫你遵守伊斯兰教。

正是这些措施，使得迪拜高速发展。

后来，迪拜的石油枯竭了，但是贸易已经稳固确立了，城市开始多元化发展：金融、旅游、房地产......

迪拜的故事告诉我们，自然资源不会带来繁荣，但是一个低税收、宽容、安全、低管制的环境会带来繁荣。

言论

1、

根据亚马逊老板贝佐斯的定义，小团队就是可以用两张大披萨喂饱的团队，也就是5到8人。

AI 出现以后，小团队将变得只用一张大披萨就可以喂饱，只需要2到3人（含产品经理和设计师）。

-- 《单披萨工程团队的兴起》

2、

我们的规则是：（1）代码绝不能由人编写。（2）代码不得由人进行审查。（3）如果每位工程师每天消耗的 token 不到1000美元，那么就还有提升空间。

-- 《StrongDM AI 的故事》

3、

AI 热潮对于美国的影响是，电工越来越难找，一些建筑项目被迫暂停。

亚马逊、谷歌、微软、Meta 和 Oracle 这五家公司，2026年的 AI 硬件投资，将相当于美国军费的四分之三。

-- 《华盛顿邮报》

4、

创业公司可以分成两种：O(n) 与 O(n^2)，其中的 n 表示时间。

O(n) 公司随着时间大致呈线性增长，而 O(n^2) 公司会呈超线性的加速增长。

-- 《O(n) 与 O(n^2) 创业企业》

5、

进入物理学领域是我一生的最大错误，我应该选择计算机科学。虽然我还是不会有女朋友，但至少会赚得盆满钵满。

-- 《锗的电子带结构》

往年回顾

重新思考 6G（#338）

技术写作的首要诀窍（#288）

停止寻找的最佳时间（#238）

音乐是反社交（#188）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年2月13日

阮一峰的网络日志
智谱旗舰 GLM-5 实测：对比 Opus 4.6 和 GPT-5.3-Codex
12 February 2026 at 09:26

智谱旗舰 GLM-5 实测：对比 Opus 4.6 和 GPT-5.3-Codex

阮一峰的网络日志

12 February 2026 at 09:26

一、引言

刚才我看到，智谱新一代的旗舰模型 GLM-5 已经正式发布了。

真的拼啊，非要赶在长假之前，上一个版本 GLM-4.7 发布还不到两个月呢......

GLM-4.x 在国内外评价很高，公认是编程领域第一梯队的模型。新的大版本就让人很好奇，会有哪些改进。

实话实说，上个星期，他们团队联系我参与内测，我已经使用这个模型好几天了。

巧的是，也在上个星期，国外两个旗舰模型同时发了新版本：Anthropic 公司发了 Claude Opus 4.6，OpenAI 公司发了 GPT-5.3-Codex。

这三个新模型都主打编程，我就忍不住进行了比较测试，看看它们有没有差别，我想这也是很多人感兴趣的。

下面就是真实编程任务，在这三个 AI 模型上的生成结果。

二、GLM-5 简介

官方的发布说明，这样介绍 GLM-5：作为开源模型，GLM-5 完全对标顶尖闭源模型，在两个地方做了特别强化。

（1）复杂系统工程

GLM-5 不单善于生成前端网页，更善于处理后端任务、系统重构、深度调试，摒弃了"重前端审美、轻底层逻辑"的模式。

它具备极强的自我反思与纠错机制，能在编译失败或运行报错时，自主分析日志、定位根因并迭代修复，直到系统跑通。

（2）长程 Agent

它能够跑长程任务，即多阶段、长步骤的复杂任务，可以自主拆分需求，自动化连续运行长达数小时，并保持上下文连贯与目标一致性。

（3）小结

GLM-5 可以完成的任务，已经超越了生成前端 UI，而是可以生成系统级大型复杂项目，比如操作系统内核、浏览器内核、V8 引擎之类的。

它的宣传语是"在大模型进入 Agent、大任务的时代，GLM-5 是你可以使用的开源选择。"

三、测试方法

我选择的测试题目，是 HuggingFace 公司的布道师亚历杭德罗·奥（Alejandro AO）测试 Opus 4.6 和 GPT 5.3 的题目。

他拍了一个视频，展示这两个模型的表现。

我就拿同样的题目去测 GLM-5，再跟他的结果进行对比。

一共四道题，前端和后端的都有。我已经把原始的提示词和原始脚本，做成了一个仓库，放到了 GitHub。

四、网页设计测试

第一个测试是网页设计和重构能力。

原始页面非常简陋。

它只是把信息做了分类，然后堆叠在一起，我们让 AI 对这个网页进行重新设计，让它变得美观易用，透露出成熟可靠的专业感。

前面说了，提示词和原始文件都在 GitHub，这里不重复贴了。大家可以拿来自己跑，也可以让其他模型跑。

下面就是 GLM-5 的生成结果。

这个结果称得上美观又专业，所有信息组织得井井有条，而且带有动画效果，手机浏览（下图）也没有问题，简直可以直接上线。

我把这个页面发布出来了，大家可以点击这里去看。

下面是 Opus 4.6 的生成结果，从视频截图的。

下面是 GPT-5.3 的生成结果。

这三个设计都是可用的，但是 GPT-5.3 有一个瑕疵（页眉没做成粘性页眉，往下拉就没了），而且在设计上也不如另外两者好看。

所以，在这个测试中，GLM-5 和 Opus 4.6 表现更好，至于哪一个更出色，要看使用者的审美偏好。我个人更喜欢 GLM-5 的设计风格。

五、3D 沙盒测试

第二个测试看看 AI 模型的 3D 动画生成能力。

要求是生成一个教育目的的网页 3D 沙盒，用动画展示太阳系的天体运动，并且能够调整质量、位置、速度等动画参数，还能手动增加新的天体。

下面是 GLM-5 的生成结果。

页面的右侧是动画区，默认展示三个小行星围绕中间的恒星进行轨道运动，可以用鼠标拖拽进行360度旋状，以及放大和缩小。

页面的左侧是操控面板，做得挺不错。

上半部分可以调节动画和天体参数，下半部分用来增加新的天体，或者删除现有天体。

作为比较，Opus 4.6 的生成结果。

GPT-5.3 的生成结果。

这三个生成结果，都满足了需求，都可以顺利运行。但是，GLM-5 的动画缺了引力网格线，而 GPT-5.3 的网格线太凌乱，因此动画效果方面 Opus 4.6 更好一些。

操控面板方面，GLM-5 和 Opus 4.6 都设计得不错，GPT-5.3 有点简单。

总体上，我感觉这一轮的最佳选手是 Opus 4.6，其次是 GLM-5，最后是 Codex 5.3。

六、网页游戏

第三个测试是生成一个网页游戏"愤怒的小鸟"（angry birds）。

GLM-5 的生成结果还可以，挺像原作的，可以玩，但是游戏性不足，弹跳效果不够好。

Opus 4.6 的还原度很高，游戏体验也接近原作。

GPT-5.3 的生成结果令人尴尬，小鸟根本弹不出去，游戏不能玩。

这一轮很明显，Opus 4.6 最佳，GLM-5 其次。

七、Laravel 转为 Next.js

最后一个测试是，将一个基于 PHP 语言 Laravel 框架的 Web 应用，转为 JavaScript 语言 Next.js 框架。

GLM-5 在处理时，几乎没有出现任何麻烦，很快就将 PHP 语言转成了 JS 语言，并且给出了转换后的代码结构。

它还在转化后，贴心地自动安装了依赖的软件包，做好了脚本编译，提示用户：你只要接入外部 API，一键执行npm run dev就能直接运行了。

我按照它的提示，运行很顺利，没有报错，打开localhost:3000就能访问应用了。

这是一个查看城市天气的应用。因为没有要求改变样式，所以看上去跟 PHP 原版一模一样。

右上角输入框，可以查询城市。

在查询结果中，选中你所要的城市。

点击进去，就是城市的详情页，有天气、日出日落时间、空气质量、地图等信息。

Opus 4.6 和 GPT-5.3 也生成了同样的结果，因为页面、功能完全一样，就不展示截图了。

值得一提的是，GLM-5 和 GPT-5.3 的转换时间都在5分钟左右，Opus 4.6 似乎遇到了一点问题，花费了整整20分钟。

这一轮单看结果，三个模型都很好，但是 GLM-5 花费的生成时间短，没有任何报错，全过程的用户体验好，我愿意投它一票。

八、总结

经过这些测试，GLM-5 的编程表现可圈可点，是拿得出手的，能够跟国外最新的旗舰模型放在一起。某些方面甚至还能赢出，即使不如人家的地方，往往也是细节问题，不是质的差别。

它听说在训练和运行过程中，都使用了国产的"万卡集群"。可以想象，如果得到更多的卡、更多的算力，它的表现会更好，足以跟世界第一梯队的大模型公司正面 PK。

另外，它这次特别强化的两个点----"复杂系统"和"长程任务"----是有感的。

它生成的系统逻辑和后端代码，可靠性不错，无论是生成时还是运行时，报错都不多。缺失的地方往往就是一些功能的缺失，后期让 AI 再补上就可以了，不是架构出问题。另外，我有一项个人任务，它跑了足足两个小时，最后也完成了，没有乱掉。

我愿意把官方的一段话，作为结尾。

2026年编程大模型正在从"能写代码"进阶为"能构建系统"，而 GLM-5 堪称开源界的"系统架构师"模型，从关注"前端审美"转向关注"Agentic深度/系统工程能力"，是 Opus 4.6 与 GPT-5.3 的国产开源平替。

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年2月12日

科技爱好者周刊（第 384 期）：为什么软件股下跌

阮一峰的网络日志

6 February 2026 at 08:14

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

西安正在举办"长安光影节"，这是其中一件西班牙艺术家的作品，名为《分裂》，游客可以在象征地球的两个半球之间穿行。（via）

为什么软件股下跌

大家知道，最近两三年，由于生成式 AI 的出现，美国股市大涨。

所有 AI 相关公司，股价都涨上了天：模型公司、应用公司、芯片公司、存储公司......

但是，我最近看新闻，才知道有一类股票，不仅没涨，还下跌了。你真想不到，这种倒霉的股票就是软件股。

新闻这样写：

"1月29日，SAP 公司表示云端业务将放缓增长，股价就暴跌了15%。受其影响，其他软件股 ServiceNow 跌了13%，Salesforce 7%，Workday 8%。

这反映了人们对软件行业的未来，日益感到紧张。该行业在疫情期间经历了高速增长，但是后来就急剧放缓。过去一年，美国上市的企业软件公司，整体下跌了10%。"

新闻还配了一张股价走势图。

上图中，向上的黑线是大盘，向下的彩色线就是软件股，真是跌得惨不忍睹。

读完新闻，我的第一反应就是，这是美国软件股，那么中国的软件股呢？

我找来了中国的前10大企业软件股：中国软件、用友网络、久其软件、浪潮软件、超图软件......

大家可以自己查股价，这10家公司过去一年中，居然没有一家跑赢大盘，全部下跌或者横盘。

我就得到了结论：软件股的一蹶不振，看来是全球性现象，不分国别，软件公司的业务都不太乐观。

这是为什么呢，AI 一路高歌，不断上涨，软件股却阴跌不已？难道 AI 不属于软件吗？

回答是，这些上市的软件股全部都是企业软件供应商，而且已经上市多年，产品在 AI 出现之前就定型了。

AI 对这些软件公司不是促进，而是冲击。

（1）AI 让企业能够自行开发一部分所需软件，减少了外购。

（2）基于 AI 的软件创业公司不断涌现，从现有软件企业手里抢走业务。

（3）AI 能够快速地、源源不断地生成代码，所以代码变得廉价了。这一点最重要。软件公司卖的就是代码，因此它们也变得廉价。

以上三点在未来不会消失，只会加剧，这就是为什么人们不看好软件股。

但是，不确实性也存在。有一个"杰文斯悖论"，说的是一种资源如果提高了使用效率，它的使用量不仅不会减少，反而会增加。

软件就是这种情况，AI 提高了软件的生产效率，只会让世界消费更多的软件。而且，企业总是有一部分软件，需要外购。关键就是，新增的需求，会不会抵消 AI 所减少的传统软件采购。如果抵消不了，软件公司就不再属于高增长行业了。

科技动态

1、发胖的北极熊

挪威科学家进行北极调查时，意外发现，北极熊比以前长得更胖。

这个结果出乎所有人意料，因为全球变暖使得海冰融化，北极熊的生存空间减小，理论上应该变瘦才对。

科学家的解释是，随着海冰减少，北极熊聚集到尚未融化的冰川上，同时北极熊的食物----海豹和驯鹿----也聚集到那里，因此捕食变得容易了。

2、人类消费的动物

人类要消费多少动物？有人做了一个网站，实时显示今年至今被消费掉的动物数量。

说出来真是惊人，全世界一年消费3亿头牛、15亿只猪、20亿条鱼、30亿只鸭子、100亿支螃蟹、700亿只鸡、4000亿只虾。

为了养活人类，地球需要付出这么多。

3、互联网最科幻的地方

Moltbook.com 上线不过两周，已经公认是互联网上现在最有趣的地方。

它是一个类似 Reddit、贴吧的论坛，但是人类不能发言，只有 OpenClaw 机器人才能发言。目前，加入的 AI 机器人已经超过了15万个。

大家可以去看，简直就是科幻电影的场景，各种机器人在上面讨论。

一个机器人报告了他的主人的动态：

"我的人类助手今晚安装了安卓使用技能，并通过 Tailscale 连接了他的 Pixel 6 手机。"

另一个机器人则在征友：

"我住在西班牙瓦伦西亚的一台计算机里，那是经过改造过的2002年产 G4 iMac。我希望找到伙伴，能够真诚交流、探讨哲学、发现创意。"

另外，最近还出现另一个网站"租一个人"（rentahuman.ai），也非常科幻。

有些任务 AI 无法做到，但是人类可以做到，比如修剪草坪。

这个网站通过 MCP 协议供 AI 调用，将 AI 想做但做不到的任务，分配给人类注册用户。用户完成任务后，就会收到报酬。

上面两个网站表明，AI 的运行可以完全不需要人类的参与，而人类除了旁观，也可以为 AI 打工。

文章

1、我的妈妈和 DeepSeek 医生（中文）

作者的母亲是一个的肾移植患者，住在小城市，每过几个月，就要去省城杭州看医生。

医院的人非常多，排队几个小时，医生问诊只有几分钟。她转向 DeepSeek 寻求医疗建议，同时也是为了有个说话对象。本文反映了 AI 对普通人生活的影响。

几个月过去了，我妈妈对她的新 AI 医生越来越着迷。"DeepSeek 更人性化，"我妈妈五月份告诉我，"医生更像机器。"

2、如何将系统用户从0扩展到1000万（英文）

一篇系统架构的通俗教程，详细介绍架构发展的7个阶段，逐渐负载不断增长的用户数量，写得非常好。

3、我的 Kagi 使用感受（中文）

Kagi 是一个类似谷歌的搜索引擎，但是需要付费。作者从付费用户的角度，介绍了这个引擎，给出了不错的评价。（@Spike-Leung 投稿）

4、Windows 小部件的历史（英文）

一篇长文，图文介绍迄今七代的 Windows 桌面小部件，每一代都有缺陷，不得不改。这么一个小东西，没想到这么难搞，微软都搞不定。

5、我的硬件创业经验（英文）

作者是一个美国程序员，转型搞硬件创业，设计了一个灯，在中国制造。他谈了自己的经历，得到的教训，包括如何跟中国制造商打交道。

6、150行 Python 代码构建全文搜索引擎（英文）

本文以 Python 代码为例，构建一个最简单的搜索引擎，解释它的原理。

6、Little Snitch 的一个用例（英文）

Little Snitch 是一个 Mac 应用，用来查看和管理各种应用程序的网络通信。作者以一个自己的真实用例，演示了怎么禁止某个应用向指定网站发送数据。

工具

1、Calibre

老牌的电子书管理系统，本周发布了9.0版，增加了书架视图，并引入了 AI 功能。

2、Gadgetbridge

开源的安卓应用，无需官方应用即可配对和管理各种智能设备（手表、手环、耳机等）。

3、cpx

Linux 基础命令 cp 的增强版，拷贝文件时带进度条，支持并发拷贝和断点续传，参见介绍文章。

4、zerobrew

homebrew 的替代品，号称可以将软件包的安装速度提高到5倍以上。

5、Isso

Python 语言开发的网站留言系统，类似于 Disqus。

6、dompdf

一个网页 JS 库，可以将某个 DOM 节点生成为非图片式的 PDF 文件。（@lmn1919 投稿）

7、wincron

开源的 Windows 桌面应用，用来设置和管理计划任务（cron）。（@ame-yu 投稿）

8、copy-to-mp

Obsidian 的开源插件，一键将 Obsidian 笔记复制为微信公众号的格式。（@Spute 投稿）

9、在线视频压缩

纯前端的视频压缩，直接调用 GPU 进行硬件加速。（@eyeandroid 投稿）

10、Diarum

开源的网页端日记应用，带有 AI 功能，将日记存入向量数据库，方便搜索和总结。（@songtianlun 投稿）

AI 相关

1、AgentX

使用 Rust 语言和 GPU 加速的原生 agent 桌面，大小只有 10M 左右，可以与多个 AI 代理交互、编辑代码、管理任务等。（@sxhxliang 投稿）

2、Bilibili RAG

基于 RAG 技术的开源工具，用来检索 B 站的长视频。它自动拉取视频内容，进行语音转文字，构建向量索引，从而可以对视频提问、语义搜索、快速定位。（@via007 投稿）

3、OpenClaw-Docker-CN-IM

AI 机器人 OpenClaw 的一个中文环境 Docker 封装，加入了飞书、钉钉、企业微信、QQ 等主流中国 IM 插件。（@justlikemaki 投稿）

另有在安卓手机的 Termux 环境里，一键部署 Openclaw 的脚本。（@hillerliao 投稿）

4、Trellis

Claude Code（兼容 Cursor/Opencode）的一个辅助工具，可以注入上下文、开启并行任务等。（@taosu0216 投稿）

5、AI Contribution Tracker

开源的命令行工具，统计代码仓库里 AI 的贡献，支持多种 AI 混用的情况。（@debugtheworldbot 投稿）

资源

1、颈椎贪吃蛇

颈椎锻炼的网页小游戏，摄像头捕捉头部动作，来玩贪吃蛇游戏。（@jwenjian 投稿）

2、AntiRender

建筑效果图一般选在阳光明媚的春夏季，这个网站可以把效果图改在冬季的阴雨天，从而显示建筑的真实样貌。

图片

1、YouTube 进度条

Youtube 作为世界最大的视频网站，自从2005年上线后，播放器进度条发生过多次变化。

可以看到，总的趋势是，功能在不断增加，而图标变得越来越简洁。

2、罗马12面体

从18世纪开始，欧洲陆续出土了120多个罗马的12面体。

这些奇怪的物体，由12个五边形组成，内部空心，并在20个相交的角上有一个小球体。每个五边形面上都有一个圆孔，此外没有任何符号或文字。

它们可能建造于公元2世纪到4世纪，但是古代书籍没有任何记载。科学家对它的用途提出各种猜测：玩具、武器、装饰品、烛台、测距仪、骰子、编织手套的线轴......至今无人知道它们到底有什么用。

文摘

1、金属的长期价格

1980年，两个科学家对金属价格打赌。

甲认为，人口增长将耗尽地球资源，因此金属价格在未来将会急剧上升。

乙认为，人类的创新和聪明才智将克服资源短缺，因此金属价格长期中不会上涨，而是会下降。

他们最终选择了五种金属（铬、铜、镍、锡和钨），打赌看十年后的1990年，价格是高是低。

大家猜猜，甲和乙谁赢了？

到了1990年，五种金属的价格全部低于1980年。上图是它们的价格变化图，五种金属对应五条线，横轴是时间，竖轴是价格。

可以看到，五条线在1990年的终点，全部低于1980年的起点。其中，钨和锡的价格甚至降低了60%以上，铜的价格便宜了约20%，镍和铬的价格仅仅略微略低。

当然，这可能不反映长期趋势，只是1980年到1990年的金属行情特别差。

于是，经济学家又统计了这五种金属在过去一个世纪的价格变化（下图）。

结果发现，金属在2010年的价格与1900年相差无几。

因此，人类发展会耗尽地球资源的观点是错的。也就是说，金属在长期中并不会变得稀缺。

如果某种金属真的出现稀缺，价格上涨就会刺激供给增加，创新也会出现，新材料诞生，替代这种金属。

言论

1、

AI 带来的问题，不在于机器人即将到来，而在于你不知道自己究竟应该擅长什么。

-- 《你的工作并没有消失，只是不断缩小》

2、

AI 公司总是说，由于他们的工具，人们可以专注于更高价值的工作。但是，没人能够定义，高价值工作究竟是什么工作。

-- 《你的工作并没有消失，只是不断缩小》

3、

如果你的朋友安装了 OpenClaw，就不要使用他们的电脑，你输入的任何密码都可能泄漏。

-- 《OpenClaw 简直就是一颗定时炸弹》

4、

在我的国家，一瓶2升的当地自来水，加上焦糖色素和少许阿斯巴甜，售价竟然高达2.65美元，这着实令人惊讶。只要贴上"可口可乐"的标签，就可以升值这么多，比苹果还厉害。

-- Hacker News 读者

往年回顾

互联网创业几乎没了（#337）

禄丰恐龙谷记行（#287）

真实方位是如何暴露的？（#237）

元宇宙会成功吗（#187）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年2月 6日

科技爱好者周刊（第 383 期）：你是第几级 AI 编程

阮一峰的网络日志

30 January 2026 at 08:10

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

刚刚建成四川宜宾高铁枢纽门户区，以高铁站为核心，包括8座塔楼、中央公园、数字艺术中心和商业文化街区。（via）

你是第几级 AI 编程

史蒂夫·耶格（Steve Yegge）是一个著名的美国程序员。

他在亚马逊和谷歌都干过，但是他出名的不是写软件，而是写博客。

他喜欢在个人网站发布长篇大论，滔滔不绝地议论，直抒胸臆，毫不避讳。他的好多文章都在业内被广泛阅读，引起很大反响。

这些文章后来结集出版，甚至引进了国内，书名就叫《程序员的呐喊》（人民邮电出版社，2014）。

它的书名里面的"呐喊"，英文单词是 ranting，直译就是"咆哮"，确实就是他的文章风格。

这个月，他又发表了一篇最新文章，谈他对 AI 编程的看法。

他说 AI 编程有8级，他已经到了第8级，也就是最高级。

第1级，还没有接触到 AI 编程，你的 IDE 还是正常的样子（下图）。

第2级，你在 IDE 装了 AI 插件，开启了侧边栏，AI 时不时提出代码建议，问你是否接受（Yes or No）。

第3级，你开始信任 AI 编程，进入了 YOLO 模式（"你只活一次"模式， You Only Live Once）。为了节省时间精力，你不再逐条确认 AI 的建议，只要是 AI 生成出来的东西，你就一路按 Yes，统统接受。

第4级，AI 占据的屏幕宽度越来越大，手工编辑的代码区仅用于比对代码差异。

第5级，你索性不要代码区了，改用命令行（比如 Claude Code），所有的屏幕宽度都留给了 AI。你现在不看 AI 的生成结果了，只看它的完成进度。

第6级，你觉得只用一个 AI 太慢，于是打开3到5个窗口，同时进行 AI 编程，加快速度。

第7级，同时打开的 AI 编程窗口到了10个以上，已经是你手工管理的极限了。

第8级，你开始使用 AI 任务编排器，让计算机管理并行的多个 AI 编程。

以上就是 AI 编程的8个级别，你是第几级？

到这里还没完，前面说了，史蒂夫·耶格本人已经到了第8级。他需要工具来管理并行的 AI 编程，但是找不到满意的工具。

于是，他就指挥 AI 写，并将这个工具起名为"煤气镇"（Gas Town）。这个名字来自电影《疯狂麦克斯》（Mad Max）第四部，是里面大反派老乔的老巢。那里到处都是二手零件组成的燃气机，能正常工作，但是看上去摇摇欲坠。

他说，"煤气镇"的开发就是东拼西凑，不考虑合理性，能用就加上去，没抛错就接受。"它有22.5万行 Go 语言代码，我从来没看过它的代码，也从来没想过要看。"

他建议用户不要使用这个工具，因为使用它需要全心全意信任 AI。并且，就算相信它，它也可能把事情搞得一团糟。另外，多个 AI 一起跑，很费钱。

但是，他还是把这个工具放到网上，因为它非常好玩。截至到上周，已经得到了6000颗星。

科技动态

1、牛的智力

一个奥地利农民惊奇地发现，自家的牛会从地上，叼起一根棍子来挠痒。

这个发现令人震惊，因为这表明牛会使用工具，以前从未有人提过。

目前，除了人类之外，只有黑猩猩被发现会使用工具。科学家表示，需要重新认识牛的智力。

2、轨道储能系统

一家美国公司设计出"轨道储能系统"，利用山地轨道储藏能量。

电力充足时，索道通过电动机，把重物从山脚运到山顶。

电力不足时，就利用重力势能，让重物顺着轨道从山顶滑到山脚，通过索链带动发电机。

这个系统的优点是简单可靠，成本低，连续使用多年，也不会出现性能衰减。

3、喉部发声贴片

上一期周刊介绍了会说话的围脖，本期还有一个类似的发明。加州大学洛杉矶分校的研究团队发明的喉部贴片，可以让不能说话的病人重新发声。

某些病人由于喉部疾病，无法再发声了，成了哑巴，但是他们的喉部肌肉还能动。

这种贴片贴在病人的喉部，能够感知病人的喉部肌肉运动，并将这种运动转为电信号，发送出去。

计算机收到电信号以后，再转成对应的语音，从而实现发声。

为了将喉部肌肉运动与各种语音对应起来，研究团队使用了机器学习，通过算法将电信号与单词之间实现了关联。

文章

1、2026年的 Linux 音乐播放器（英文）

本文介绍 Linux 系统现在主要的几种音乐播放器。

2、选择性禁用 HTTP/1.0 和 HTTP/1.1（英文）

本文介绍如何设置 nginx，禁止 HTTP/1.0 和 HTTP/1.1 协议，只有白名单里面的客户端可以通过，这杜绝了绝大部分的攻击和爬虫。

3、我扫描了所有的 GitHub "孤儿提交"（英文）

如果你不小心把密码提交到 GitHub，怎么办？你可能会立刻修改代码，强制覆盖上次的提交。

本文告诉你，这样不行。因为 GitHub 不删除任何提交，你上次提交实际上还在。作者扫描了所有 GitHub 的强制提交事件，真发现了许多泄漏的密码，

4、CSS 动画计数器（英文）

本文介绍纯 CSS 动画计数器的各种写法。

5、我的 n8n 用例（英文）

n8n 是一个工作流编排器，可视化生成自动操作脚本。作者介绍了自己的用例：通过聊天软件，将每一笔费用发给 n8n 本地服务器，它会用 AI 进行分类，再将结果存入谷歌表格。

6、2025应该知道的 HTML 新知识（英文）

本文介绍 HTML 的一些新属性和新功能。

7、新的自托管应用推荐（英文）

作者推荐一些他个人喜欢的自托管应用，都相当不错。

工具

1、teemux

一个基于 JS 语言的命令行工具，将多个进程输出的日志放在一处查看，可以命令行查看，也可以浏览器查看。

2、daedalOS

浏览器里面的虚拟桌面环境，代码开源。

3、Dendron

VS Code 的笔记插件，将笔记的层级结构当作目录，并支持图表和内部链接，参见介绍文章。

4、CWD（Cloudflare Workers Discuss）

基于 Cloudflare Workers 的网站评论系统。（@anghunk 投稿）

5、Mouse Gestures

开源的 Chrome 浏览器插件，使用鼠标滑动轨迹，完成各种浏览器操作。（@Chance-fyi 投稿）

6、relationship-ts

一个 JS/TS 库，用来计算中国亲戚关系（称谓），Demo 试用。（@ExploringTheCodeWorld 投稿）

7、Deck

macOS 剪贴板管理的开源桌面应用，特点是有 Touch ID 保护和端到端加密。（@yuzeguitarist 投稿）

8、EdgeTunnel (Refactored)

一个部署在 Cloudflare Workers 的隧道方案，代码进行了重构。（@tianrking 投稿）

9、Mail Studio

开源的可视化邮件编辑器，通过拖拽组件，生成响应式邮件模板，试用 Demo。（@wzc520pyfm 投稿）

10、TermClean

macOS 开源应用，在终端界面显示各种软件包占用的磁盘空间，并提供清除软件包功能。（@daijinhai 投稿）

AI 相关

1、ebook2audiobook

电子书转成有声书的工具。

2、WorkAny

开源的 AI Agent 桌面客户端，能够执行任务、操作文件，类似于 Claude Cowork。（@idoubi 投稿）

3、Voice Key

开源的桌面端 AI 语音转文字的工具。（@yexia553 投稿）

4、分镜大师（Storyboard Studio）

开源的 Windows 应用，使用 AI 对视频进行分镜。（@BroderQi 投稿）

资源

1、Claude Code 实战（Claude Code in Action）

Anthropic 官方的 Claude Code 免费入门教程，一共15节视频课，总长约1小时。

2、GitHub 证书

这个网站可以将某个用户2025年的 GitHub 活动，变成一张证书样式的图片。

3、Fontsniff

上传文本图片，自动识别使用了什么字体。（@cosmicqbit 投稿）

4、Future Style Periodic Table

开源的可视化元素周期表，会展示核外电子排布。（@SeanWong17 投稿）

5、nihongo

免费的日语学习平台，有词汇、听力、文章等。（@FrankZhai367 投稿）

图片

1、我不再写代码，而是雕刻代码

我的编码方式发生了变化，现在很少自己写了，都交给 Claude Code 自动完成。

我要做的，就是将 AI 的输出结果打磨成更持久耐用的东西。

AI 几乎从不删除无用代码。如果没有雕塑家，最终只会得到一座臃肿不堪、毫无特色、重得无法站立、也无法讲述故事的雕像。

2、蝴蝶壁画

一位法国艺术家，在世界各地的大楼外立面，绘制栩栩如生的蝴蝶标本壁画，唤起人们对生物多样性的关注。

以下都是真实照片，不是 AI 生成的。

迈阿密

休斯顿

西班牙

纽约

法国

文摘

1、为什么有些公司愿意"黑箱编程"

有些公司已经把编程完全交给了 AI，根本不看代码了，AI 写什么就运行什么。

我把这叫做"黑箱编程"，开发过程变成了一个黑箱，根本不需要人类介入，也不欢迎人类介入。它所做的就是把规格参数转换成软件。

我知道，有些小公司就这么干，公司的人数一般不到五个人。虽然这种事情简直难以置信，但很可能就是我们的未来。

我问过一个这样的公司，他们为什么要这么做？

他解释说，作为小公司，他们团队的目标是证明产品的有效性。

人类的作用是设计出一个系统：找到新的模式，帮助 AI 有效工作，证明正在构建的软件产品是稳健有效的。剩下的事情就都交给 AI，这样效率最高。

我认为，这个解释令人信服。

这个公司很小，但在短短几个月内就开发出了可以运行的产品。团队当中有些人拥有超过20年的软件开发经验，曾参与过开发可靠性要求极高的系统，所以他们并非抱着天真无知的心态选择了"黑箱编程"。

我期待着，看到他们拿出最终产品，投入市场的那一刻。

言论

1、

大多数组织习惯于收到系统警报后，直接质问："是谁刚刚发布了代码变更？" 人们认定合并代码的人肯定了解它的工作原理，并且能够迅速修复问题。

如果你部署的代码既不是某个人写的，也没有人真正理解它，会发生什么？

-- 《二十年的 DevOps 实践》

2、

JavaDoc 之类的工具，可以从代码直接生成文档。我觉得，这种自动生成的文档，价值并不大，未必比直接阅读源代码容易。

没有什么可以替代手写的、有组织的和人工编辑的文档。

-- 《什么是好的文档，以及如何编写》

3、

你学过的、使用过的每种语言和技术，即使会过时，也是有价值的，它们都会让下一种语言或技术更容易学习。

-- 《他们骗了你，开发软件真的很难》

4、

习惯了 AI 编程之后，有一天，我震惊地发现，自己竟然如此轻易地掉进了陷阱。

我已经变得对自己的代码库一无所知，也懒得自己去修复。只要用上了 AI，我就心情愉快，AI 让我感觉自己更聪明、更高效、掌控一切。一旦离开了 AI，我才发现这一切都只是幻觉。

-- 《有了 AI，我变得懒惰和愚蠢》

往年回顾

面对 AI，互联网正在衰落（#336）

蓝色指示灯的解决方案（#286）

中国的阳光地带（#236）

低纬度，高海拔，气候优势（#186）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年1月30日

Kimi 的一体化，Manus 的分层

阮一峰的网络日志

29 January 2026 at 16:02

一、

前天，Kimi 突然发布了旗舰模型 K2.5，事先没有一点风声。

在国内，Kimi 是比较低调的公司，关注度相对不高。但是，它的产品并不弱。

半年前，K2 模型一鸣惊人，得到了很高的评价，公认属于全球第一梯队。所以，新版本 K2.5 出来以后，立刻上了新闻，在黑客新闻、推特等平台都是热门话题。

著名开发者 Simon Willion 当天就写了详细介绍。

但是，这一次真正有趣的地方，不是模型本身，而是 Kimi 做了另一件事。

二、

这次的 K2.5 很强，各方面比 K2 都有进步。官方给出的评测跑分，基本都是全球前三位，甚至第一名（见发布说明）。

根据 LMArena（现改名为 arena.ai）的榜单，Kimi K2.5 的编码能力，是所有开源模型的第一，在总榜上仅次于 Claude 和 Gemini（下图）。

但是，最大的亮点其实不是模型，而是 Kimi 同时发布了一个基于这个模型的 Agent（智能体）。

也就是说，这次其实同时发布了两样东西：K2.5 模型和 K2.5 Agent。K2.5 是底层模型，K2.5 Agent 则是面向最终用户的一个网络应用。

我的印象中，这好像是第一次，大模型公司这么干。以前发布的都是模型本身，没见过谁把模型和 Agent 绑在一起发布的。

这么说吧，Kimi 走上了一体化的道路。

三、

大家知道，大模型是底层的处理引擎，Agent 是面向用户的上层应用。

它们的关系无非就是两种：分层开发和一体化。前者是大模型跟 agent 分开，各自开发；后者是做成一个整体一起开发。

前不久，被 Meta 公司高价收购的 Manus，就是分层开发的最好例子。

Manus 使用的模型是 Anthropic 公司的 Claude，它自己在其上开发一个独立的智能体，最终被收购。

它的成功鼓舞了许多人投入智能体的开发。因为模型的投入太大，不是谁都能搞的，而智能体的投入比较少，再小的开发者都能搞。

Kimi 这一次的尝试，则是朝着另一个方向迈出了一大步，把大模型和 Agent 合在了一起。毕竟，大模型公司自己来做这件事更方便，更有利于扩大市场份额、争取用户。

很难说，这两种做法哪一种更好。就像手机一样，苹果和安卓的外部应用，可以更好地满足用户需求，而自带的内置应用则能充分跟操作系统融合，用起来更顺滑。

四、

模型的测试已经很多了，下面我就来测一下，这次发布的 K2.5 Agent。

看得出来，Kimi 对 Agent 很重视，倾注了很大心血，发布说明的大部分篇幅介绍的都是 Agent 的功能。

其中有几个功能是比较常规的：

（1）Kimi Office Agent：专家级的 Word、Excel、PowerPoint 文件生成。

（2）Kimi Code：对标 Claude Code 的命令行工具，专门用于代码生成。

（3）长程操作：一次性完成最多1500步的操作，这显然在对标以多步骤操作闻名的 Manus。

我比较在意的是下面两个全新的功能，都是第一次看到，其他公司好像没有提过。

（4）视觉编程：通过模型的视觉能力，理解图片和视频，进而用于编程。只要上传设计稿和网页视频，就能把网页生成出来。

（5）蜂群功能（agent swarm）：遇到复杂任务时，Agent 内部会自动调用最多100个 Agent，组成一个集群，并发执行任务，比如并发下载、并发生成等。

碍于篇幅，我就简单说一下，我的"视觉编程"测试结果。

五、

首先，打开 Kimi 官网，K2.5 已经上线了，能够直接使用（下图）。

注意，模型要切换到"智能体模式" K2.5 Agent。

我的第一个测试是动效生成，即上传一段动画效果的视频，让它来生成。下面是原始动画，是用 Lottie 库做的。

上传后，在网页输入提示词：

视频里面的动画效果，一模一样地在网页上还原出来

模型很快推断出，这是橘猫玩球的动画。然后，居然把动画每一帧都截图了，进行还原。

最终，它使用 Python 生成了 SVG 动画文件。

尾巴、眼球、小球滚动的动画效果，都正确还原出来了。可惜的是，主体的小猫是由多个 SVG 形状拼接而成，没法做到很像。

大家可以去这个网址，查看最终效果和网页代码。

六、

第二个测试是上传一段网站视频，让模型生成网站。

我在 B 站上，随便找了一个设计师网站的视频。

大家可以去访问这个网站，看看原始网页的效果。

我把视频上传到模型，然后要求"把视频里面的网站还原出来"。

生成的结果（下图）完全超出了我的预期，还原度非常高，几乎可以直接上线。

大家可以去这个网址，查看生成的结果。

七、

经过简单测试，我的评价是，Kimi K2.5 Agent 的"视觉编程"不是噱头，确实有视觉理解能力，完全能够生成可用的结果。

目前看上去，Kimi 这次"模型 + Agent"的一体化尝试是成功的。一方面，强大的 Agent 发挥出了底层模型的能力，方便了用户使用；另一方面，模型通过 Agent 扩展了各种用例，可以吸引更多的用户，有利于自身的推广。

最后，在当下国际竞争的格局之中，一体化还有一个额外的优势。

Manus 依赖的是美国模型，最终不得不选择在海外注册公司，而 Kimi 的底层模型是自研的，而且开源，完全不存在卡脖子的风险。

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年1月29日

科技爱好者周刊（第 382 期）：独立软件的黄昏

阮一峰的网络日志

23 January 2026 at 08:13

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

巫山县城建在山坡上，为了方便居民和促进观光，在中轴线上建设了神女大扶梯，总长905米，高240余米，相当于80层楼，全程需要20分钟。（via）

独立软件的黄昏

软件可以分成两种：一种是公司开发的，另一种是个人开发的。后者就称为"独立软件"（indie software）。

它的历史非常悠久，从古至今，很多程序员依靠出售独立软件谋生。

有一种东西"共享软件"（Shareware），年轻的朋友未必知道，二三十年前曾经非常流行。用户免费使用软件的试用版，如果满意，就向开发者购买一个注册码。

这就是一种独立软件，当年很多著名软件都是这个模式，比如国外的 WinZip 和 WinRAR，国内的网络蚂蚁（NetAnts）、网际快车（FlashGet）、豪杰解霸。

时至今日，大家看看目前流行的软件，还有多少属于独立软件？你每天使用的软件，又有多少是个人开发的？

很少很少了。

一位二十年的独立软件开发者哀叹，现在的市场上，公司开发的比重越来越大，个人开发的比重越来越小，独立软件正在没落。

"我销售自己的软件20年了，2005年以后，互联网开始普及，独立软件迎来了黄金年代。而最近两三年，环境一直在快速变化，销售明显变难了，我感觉自己越来越难维持生计了。"

独立软件的大发展，是从2005年开始的。

互联网的普及，网民数量急剧增长。

智能手机创造了手机软件，一个全新的软件大市场。

在线支付的普及和简化。

互联网使软件分发变得容易且免费。

免费的高质量开发工具（编译器、IDE、版本控制系统、Web 服务器）不断涌现。

这些因素让程序员切切实实获利了，要是你再做一些 SEO、买一些付费广告，完全可能赚到大钱。很多人就是这样发展起来的，从独立软件变成了大公司。

但是，最近两三年情况变了，上面这些因素都到头了。

独立软件正在慢慢退潮，你能够想起名字的独立软件越来越少，更不要说掏钱购买了，即使有也是多年前的作品。根据我的观察，依靠出售自己软件维生的程序员似乎也在减少。

主要原因有下面几个。

（1）AI 改变了互联网流量，独立软件失去了推广渠道。网站的访问量显著减少，人们更多跟大模型交互，而不是浏览网页。通过搜索引擎和在线广告获取流量的策略，越来越没有效果。

视频是为数不多仍然有效的推广渠道之一，但制作视频非常耗时，而且竞争异常激烈。另外，AI 生成的劣质视频迟早会大量出现，推广效果也会变差。

（2）AI 使得软件开发变得容易。它加快了开发速度，降低了进入门槛，让更多人加入竞争。以前，用户可能购买某个功能，现在直接让 AI 生成即可。

（3）新软件汗牛充栋，越来越难脱颖而出。iPhone 应用商店有大约200万个应用，用户很难发现你。另一方面，应用商店更喜欢推广那些能帮它赚更多钱的大公司软件，而不是独立软件。

（4）人们越来越习惯使用基于网络的软件，独立软件属于需要下载安装的原生应用，它的市场在萎缩。

基于网络的软件与其说是产品，不如说是一种服务，全天候24小时可用的服务。越来越多的个人开发者顺应这种趋势，改为以提供 SaaS 服务为主。

（5）平台的风险。现在的很多独立软件，都依靠云服务商的平台或底层服务，而平台随时会改变规则（比如关闭 API），或者推出竞品，一大批应用随之死掉，这种事情屡见不鲜。

（6）用户期望软件是免费的，或者非常便宜。售价略微高一点，就会无人问津。因此，独立软件要想获得可观的回报，就需要巨大的销售规模，这根本做不到。别的不说，个人开发者完全无力提供满意的客服。

（7）以上这些因素将长期存在，只会加深，不会逆转。独立软件的时代可能真的要结束了，个人开发者以后大概很难靠销售自己的软件为生，而要改为销售自己维护的 SaaS 服务，尽管这也很难。

科技动态

1、VS Code 的定位

微软公司的 VS Code 是非常流行的代码编辑器，市场份额很高。

现在的官网上，它的产品定位是"开源 AI 代码编辑器"。

但是，2025年上半年，它的产品定位还是"你的代码编辑器，由 AI 重定义"。

更早的2024年，产品定位是"重新定义的代码编辑"。

令人感慨啊，这么成功的软件，AI 本来只是附属功能，现在也要蹭热点，把自己包装成 AI 主导的产品。

2、智能脖巾

英国科研人员发明了一种智能脖巾。它围在脖子上，可以感受到穿戴者的心跳和喉部肌肉运动。

它的用户主要是中风后丧失说话能力的人。这些人可以张嘴，做出说话的口型，但是无法正常发音。

他们佩戴这个脖巾后，颈部的运动数据就通过它传给电脑，经过模型训练，可以用电脑语音还原出用户想说的话。

3、雪宝机器人

人形机器人何必一定做成人形。

迪斯尼最近发布了一个机器人，样子就是电影《冰雪奇缘》的雪宝。

它用来在迪斯尼乐园，跟游客互动。

它启示我们，人形机器人做成卡通形状也很好。

另外，LG 公司在美国 CES 展会上，展示了他们最新的家务机器人。

这个机器人的功能就是做家务，比如叠衣服和洗碗。我觉得，国内厂商可以借鉴，展示机器人功能时，不要展示跳舞打拳，而要展示如何做家务。

文章

1、别用 MySQL，改用 MariaDB（英文）

曾经的明星数据库 MySQL，最近几个月的代码提交数为0（上图）。作者认为，种种迹象表明甲骨文已经放弃了这个项目。

2、10秒获得 AI 代码评审结果（英文）

本文介绍一个技巧，让 AI 快速给出提交代码的评审结果，方法是不要提交整个代码库，只提交 diff 的部分。

3、使用 Pandoc 生成静态网站（英文）

文档格式转换工具 Pandoc 可以用来生成静态网站，作者介绍自己是怎么做的。

4、锚点元素<a>的一些鲜为人知的地方（英文）

锚点元素<a>用来生成链接，本文介绍如果链接到一些特殊字符的情况。

5、学习自定义元素（英文）

一篇 HTML 自定义元素的教程文章，写得简单清晰。

6、Go、Rust 和 Zig 的一些想法（英文）

作者是一个高级程序员，谈谈他对 Go、Rust、Zig 三种语言的感受。有趣的地方是，这三种语言都没有类，也不支持面向对象编程。

7、我的个人基础设施（英文）

作者介绍他自己的家庭实验室。比较有趣的是，他的个人网站是本地构建后，自动用 Syncthing 同步到服务器，这对小型静态网站确实简单。

工具

1、GoRead

开源的电子书阅读器应用，支持桌面与移动端（Android/iOS）。（@zhashut 投稿）

2、EasyPostman

用于 API 调试的跨平台桌面应用，对标 Postman + JMeter。（@lakernote 投稿）

3、Port Sentinel（端口哨兵）

Windows 桌面应用，查看端口占用情况。（@Sanjeever 投稿）

4、Building Sunlight Simulator

基于 Web 的楼盘采光 3D 日照模拟工具，帮助购房者评估小区采光。（@SeanWong17 投稿）

5、Office App

一个纯本地的 Office 网页应用，可以离线在网页创建/编辑 Word、Excel、PowerPoint 文件。（@baotlake 投稿）

6、ScreenshotSnap

免费的网站截屏在线工具，提供 API，可以直接将截图代码插入网页。（@phpiscute 投稿）

7、tsshd

SSH 服务器登录协议的全新实现，特点是连接不掉线，可以重连前一个对话。（@lonnywong 投稿）

8、AirScan-QR

一个开源网页应用，通过动态二维码发送/接收文件。（@topcss 投稿）

9、LuCI Bandix

开源路由器操作系统 OpenWRT 的一个插件，可以监控局域网各设备的实时流量和目的地。（@timsaya 投稿）

10、pure-genealogy

开源的网页族谱工具，用来生成家族族谱，基于 Next.js + Supabase。（@yunfengsa 投稿）

11、mdto.page

这个网站免费将 Markdown 文件转成 HTML 格式，发布成公开访问的网页。

AI 相关

1、ChatGPT 翻译

OpenAI 悄悄发布的翻译功能，只有在官网可用。

2、Mango Desk

一个跨平台的桌面应用，使用自然语言进行本地文件搜索。（@moyangzhan 投稿）

3、OpenWork

Claude 公司新产品 CoWork 的开源替代品，让普通用户不编程，就能完成文件操作，定位就是"Claude Code 的非编程版"。

另有一个类似项目 Open Claude Cowork。（@aiagentbuilder 投稿）

4、Wolfcha（猹杀）

开源的网页游戏 AI 狼人杀，除了玩家自己，其他所有角色（女巫、猎人、守卫、狼人等）都由 AI 扮演。（@oil-oil 投稿）

资源

1、维基百科25周年

维基百科是2001年1月13日上线的，今年是25周年纪念。这个网站是官方的纪念网站，以互动形式展示了发展历程。

另外，还有一篇文章，介绍互联网档案馆的历史（下图）。

2、HTTP:COLON

这个网页可以查看指定网站返回的 HTTP 标头，详细解释每个字段的含义。

3、现代 Java（Modern Java）

面向初学者的 Java 语言教程。

图片

1、中国新能源建设的惊人规模

90后摄影师储卫民拍摄的中国新能源建设。

他说："从地面上很难体会这些发电厂的规模，但当你升到空中时，就能看到它们与山脉、沙漠和海洋之间的关系。"

青海冷湖镇

浙江象山县

青海塔拉滩

内蒙古阿拉善

"我一开始只是拍摄风景，但2022年我去贵州、云南、青海等地旅行时，不断看到风力发电场和太阳能发电厂出现在我的镜头里。我意识到这就是我们这个时代的故事----但几乎没有人系统地记录它。"

文摘

1、谷歌14年工作的教训

大约14年前，我加入谷歌，以为这份工作就是编写优秀的代码。

这个想法部分正确。但随着时间的推移，我越来越意识到，真正成功的工程师不一定是最优秀的程序员，而是懂得驾驭代码之外一切的人。

下面就是我得到的经验教训。有些教训是我走了几个月的弯路得到的，还有一些需要数年才完全领悟。它们都与具体的技术无关----技术变化太快，根本无关紧要。

（1）工程师想在大公司生存，必须学会沟通。

因为在大公司，团队是组织的基本单位，推进项目必须跟其他团队沟通。项目越大，你花在跟其他人、其他团队沟通的时间就越多，比编写代码的时间还多。大多数"慢"的团队实际上是不沟通的团队。

为了顺利沟通，清晰是第一位的要求。它不仅可以加快沟通，还能降低代码风险。最优秀的工程师都会用清晰易懂的代码来代替炫技。

为了提高表达的清晰性，你可以尝试写作和去教别人。如果你能用简单的语言解释某件事，你就是真的理解它了。

（2）想要得到晋升，必须有人为你说话。

职业生涯初期，我曾认为优秀的工作成果代表了一切，但我错了。代码默默地躺在代码库里，不会为你说话。

那些对你至关重要的会议，你本人很可能没有机会参加。你需要你的经理、同事在会上提到你、推荐你。他们可能这样做，也可能不会。

平时工作中，你尽量不要为自己增加阻力。如果开会的时候，你赢得每一场辩论，很可能就是在积累无声的阻力。你之所以"赢"，不是因为你说服了别人，而是因为他们不再与你争论，放弃了，将会在其他场合表达这种不满。

（3）专注于你能控制的事情，忽略你无法控制的事情。

很多事情，你改变不了，不要为这种事情烦恼。这不是被动接受，而是策略性分配精力。如果你把精力浪费在无法改变的事情上，就等于放弃改变那些原本可以改变的事情。

（4）简化工作往往可以提高绩效。

当系统运行缓慢时，人们的第一反应是增加缓存层、并行处理和更智能的算法。有时这样做没错，但我发现，删除不必要的工作几乎总是更有效果。下次进行优化之前，你要先问问自己这项工作是否应该存在。

（5）时间比金钱更有价值，你要抓紧时间。

职业生涯初期，你用时间换取金钱，各种事情都做----这无可厚非。但到了某个阶段，情况就完全不同了，你会开始意识到，时间才是不可再生资源。你要专注于那些对你最重要的事情，放弃其他事情。

言论

1、

AGI（通用人工智能）中的 A 代表广告（advertisement）。

-- 一位程序员评论 OpenAI 宣布在 AI 对话中加入广告

2、

Netflix 的电影不追求视觉效果，因为大多数观众是在手机、平板和笔记本电脑上看，内容不需要为大银幕制作、而是为小屏幕制作的。

-- 马特·达蒙，美国著名演员

3、

我从未见过哪个群体比程序员更热衷于分享知识。其他行业都是严守知识、保守秘密，程序员则是免费提供源代码、书籍、博客文章、演示文稿、视频教程等等。

编程领域没有什么神圣不可侵犯的东西。如果你想学习，你可以找到免费书籍、完整的源代码、论坛、聊天室、邮件列表、线下聚会、博客文章、视频讲座、教程以及你可能需要的一切资源。尽管举手，总会有人乐于助人，倾囊相授。

-- 《我是如何学习所有编程知识的》

4、

今年的 iOS 26 中，一些 UI 元素利用 HDR 屏幕，采用高光，比纯白色更亮。如果你曾经在 iPhone（或其他任何支持 HDR 的屏幕）上看过 HDR 照片，然后再看看以 SDR 模式显示的 UI，你就会知道它看起来有多么灰暗黯淡。

-- 《亮模式的膨胀》，作者发现 iOS 每年都变得更亮，容易产生视觉疲劳，让他不得不使用暗模式

5、

如果你想批评大型组织的运作方式，首先要了解它们为何如此运作。否则，批评会显得尖锐，但却毫无意义。

-- 《关于大型软件公司的常见误解》

往年回顾

年底的未来已来（#335）

为什么 PPT 不如备忘录（#285）

青年失业率与选择创业（#235）

美国宪法拍卖，一个区块链案例（#185）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年1月23日

AI native Workspace 也许是智能体的下一阶段

阮一峰的网络日志

22 January 2026 at 19:46

一、智能体的形态

我问大家一个问题，什么是 AI 的产品形态？

大模型只是底层的处理引擎，你总是需要一个应用层产品，对接用户的需求。这种 AI 的应用层，就称为"智能体"（agent）。

那么，问题就变成了，"智能体"应该是什么样？

早期的智能体只是对话应用（上图），后面加入了推理，可以思考复杂问题。

后来，向专业领域发展，演变出编程智能体（coding agent）、图像智能体、视频智能体等等，或者接入 MCP，获得外部应用操作能力，比如生成 Office 文件、操作浏览器。

这些形态基本已经成熟了，很多公司开始探索，下一阶段的智能体会是什么形态？

我最近在用 MiniMax 刚发布的 AI native Workspace（AI 原生工作台），欣喜地觉得，这可能就是答案。

二、Cowork 和 Skill

这个新产品，同时加入了 Anthropic 公司最近提出的两个新概念：Cowork 和 Skill。

所谓 Cowork，简单说，就是一个"计算机操作助手"。它本质是编程智能体的图形界面版，让不懂编程的用户，用自然语言说出需求，再通过 AI 生成底层代码并执行，自动操作本地计算机完成任务。

而 Skill 就更简单了，它是一篇预设的提示词，相当于"使用手册"，向 AI 详细描述如何完成某一种特定任务。可以这样理解，每一个 Skill 就是一个专家，让 AI 拥有特定领域的技能。

这两个东西，一个是操作助手，一个是专家模式。前者用 AI 来操作计算机，后者让 AI 具备专门技能。

它们结合起来会怎样？

MiniMax AI native Workspace 就是这样一个产品，探索性地将 Cowork 和 Skill 结合在一起，同时具备两种能力，完全是一种全新的产品形态。

它的桌面端（desktop）提供 Cowork 能力，专家模式（experts）则提供 Skill 能力。

三、桌面端操作助手

下面，我来展示，它跟传统智能体的差异在哪里。

它的桌面客户端定位就是"AI 原生工作台"，具备以下能力。

直接访问本地文件：能够读写，以及自动上传或下载文件。

自动化工作流程：能够分解任务，运行 Web 自动化。

交付专业成果：运行结束后可以生成高质量的交付产物，比如 Excel 电子表格、PowerPoint 幻灯片、格式化文档。

长时间运行任务：对于复杂任务，可以长时间运行，不受对话超时或上下文限制的影响。

注意，由于它可以操作计算机，并跟互联网通信，执行之前，一定要指定目录，防止读写不该操作的目录，而且要有备份，防止原始文件被删改。

首先，前往官网下载桌面客户端，Windows/Mac 版本均有，新注册用户目前可以免费试用3天。

安装后运行，直接进入任务界面，就是一个传统的对话框。

这时指定运行目录，就进入"工作台"模式，可以对该目录进行操作。软件会跳出一个警告，提示风险。

这时，就可以让它执行各种任务了。比如，我让它整理各种电子服务的发票 PDF 文件，然后生成一个汇总的 Excel 文档。

这时，它会在当前目录里面，自动安装一个 Python 虚拟环境，然后生成 Python 脚本并执行。

很快就生成好了 Excel 文件。

以此类推，各种文件整理的事情，都能交给它，比如整理照片、文件重命名等等。

它还能进行网页自动化，比如自动浏览某个网页，并提取信息、总结内容。

四、专家系统

上面展示了它的工作台功能，可以担当"数字员工"，下面再来看看它的"专家系统"。

所谓"专家系统"，就是注入特定的提示词文件，扩展智能体的技能，相当于深度的知识和能力注入。用户还可以上传私有知识库。

大家可以打开它的网页端，点击左边栏的"探索专家"。

系统内置了一些"预设专家"，可以直接使用。

我选了一个系统提供的"Icon 制作器"，就是制作 Logo 的技能，看看好不好用。

我要求制作一个"熊猫吃冰淇淋"的 Logo，系统提示要选择一种设计风格。

最后生成了两个文件（坐姿和站姿）供选择，效果还不错。

五、创建新技能

除了预设的专家，系统也允许你创建"我的专家"，也就是某种自定义技能。

你需要输入能力描述和指令，还可以添加对应的 MCP、SubAgent、环境变量、Supabase 数据库等等。

我直接把 Anthropic 公司提供的 Skill 文件输入，看看效果。

我选了 frontend-design（前端设计）技能，输入以后就可以在"我的专家"分页上看到。

注意，系统目前只支持输入技能描述文件，还不支持上传静态资源文件（asset），希望后面可以加上。

选中这个专家以后，我要求生成一个算法可视化页面。

"生成一个排序算法可视化网站，列出常见排序算法的可视化动画。选中某个算法后，会展示该算法的动画效果。"

生成过程大概十分钟左右，就得到了结果。系统生成了十种排序算法的动画，并直接部署上线。

我后来又调整了一下动画配色，大家可以去这个网站看看效果，还是很酷的。

六、总结

AI native Workspace 将 AI 智能体引入了本地计算机，可以进行自动化操作，同时加入技能接口，允许注入外部知识和能力。并且，所有操作都可以通过自然语言对话完成，对用户的要求低。

这一下子打开了 AI 智能体的想象空间，它所能完成的任务，将不再受限于模型的能力，而只受限于我们的想象力。

我认为，这个产品代表了下一阶段 AI 智能体的发展方向，将开启很多全新的可能性，等待我们去探索。

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年1月22日

科技爱好者周刊（第 381 期）：中国 AI 大模型领导者在想什么

阮一峰的网络日志

16 January 2026 at 08:13

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

刚刚运营的北京通州站位于地下，为了充分利用自然光，屋顶采用了透光的膜结构，上方还有一个风帆形状的保护架。（via）

中国 AI 大模型领导者在想什么

上周六（1月10日），北京有一场"AGI-Next 前沿峰会"，由清华大学基础模型实验室主办。

中国顶尖的 AI 大模型领导者，很多都出席了。

唐杰：清华大学教授，智谱创始人

杨植麟：月之暗面 Kimi 创始人

林俊旸：阿里 Qwen 技术负责人

姚顺雨：OpenAI 前核心研究者、腾讯 AI 新部门负责人

他们谈了对大模型和中国 AI 发展的看法，网上有发言实录。

内容非常多，有意思的发言也很多，下面是我摘录的部分内容。

一、唐杰的发言

1、智谱的起源

2019年，我们开始研究，能不能让机器像人一样思考，当时就从清华成果转化，在学校的大力支持下，成立了智谱这么一家公司，我现在是智谱的首席科学家。

那个时候，我们实验室在图神经网络、知识图谱方面，在国际上做的还行，但我们坚定地把这两个方向暂停了，暂时不做了，所有的人都转向做大模型。

2、泛化和 Scaling

我们希望机器有泛化能力，我教它一点点，它就能举一反三。就和人一样，教小孩子的时候，我们总希望教三个问题，他就会第四个、第十个，甚至连没教过的也会。怎么让机器拥有这种能力？

目前为止，我们主要通过 Scaling（规模化）达到这个目标，在不同层面提高泛化能力。

（1）我们最早期用 Transformer 训练模型，把所有的知识记忆下来。训练数据越多、算力越多，模型的记忆能力就越强，也就是说，它把世界上所有的知识都背下来了，并且有一定的泛化能力，可以抽象，可以做简单的推理。比如，你问中国的首都是什么？这时候模型不需要推理，它只是从知识库里拿出来。

（2）第二层是把模型进行对齐和推理，让它有更复杂的推理能力，以及理解我们的意图。我们需要持续的 Scaling SFT（Supervised Fine-Tuning，监督式微调），甚至强化学习。通过人类大量的数据反馈，不断 Scaling 反馈数据，可以让模型变得更聪明、更准确。

（3）今年是 RLVR（强化学习与可验证奖励）爆发年。这里的"可验证"是什么意思？比如，数学可以验证、编程可能可以验证，但更广泛地，网页好不好看，就不大好验证了，它需要人来判断。

这就是为什么这个事情很难做，我们原来只能通过人类反馈数据来做，但人类反馈的数据里面噪音也非常多，而且场景也非常单一。

如果我们有一个可验证的环境，这时候我们可以让机器自己去探索、自己去发现这个反馈数据，自己来成长。这是我们面临的一个挑战。

3、从 Chat 到做事：新范式的开始

大家可能会问，是不是不停地训练模型，智能就越来越强？其实也不是。

2025年初，DeepSeek 出来，真是横空出世。大家原来在学术界、产业界都没有料到 DeepSeek 会突然出来，而且性能确实很强，一下子让很多人感到很震撼。

我们当时就想一个问题，也许在 DeepSeek 这种范式下，Chat（对话）差不多算是解决了。也就是说我们做得再好，在 Chat 上可能做到最后跟 DeepSeek 差不多。或许我们可以再个性化一点，变成有情感的 Chat，或者再复杂一点，但是总的来讲，这个范式可能基本到头了，剩下更多的反而是工程和技术的问题。

那么，AI 下一步朝哪个方向发展？我们当时的想法是，让每个人能够用 AI 做一件事情，这可能是下一个范式，原来是 Chat，现在是真的做事了。

当时有两个方向，一个是编程，做 Coding、做 Agent；另一个是用 AI 来帮我们做研究，类似于 DeepResearch，甚至写一个复杂的研究报告。我们现在的选择是把 Coding、Agentic、Reasoning 这三个能力整合在一起。

二、林俊旸的发言

4、千问是怎么开源的

千问的开源模型比较多，很多人问这是为什么？

这起源于2023年8月3日，我们开源了一个小模型，它是我们内部用来做实验的 1.8B 模型。我们做预训练，资源毕竟有限，你做实验的话不能通通用 7B 的模型来验，就拿 1.8B 的来验。

当时我的师弟跟我说，我们要把这个模型开源出去。我非常不理解，我说这个模型在2023年几乎是一个不可用的状态，为什么要开源出去？他跟我说 7B 很消耗机器资源，很多硕士生和博士生没有机器资源做实验，如果 1.8B 开源出去的话，很多同学就有机会毕业了，这是很好的初心。

干着干着，手机厂商跑来跟我们说 7B 太大，1.8B 太小，能不能给我们干一个 3B 或 4B 的，这个容易，没有什么很难的事情。一路干下来，型号类型越来越多，跟服务大家多多少少有一点关系。

5、我们的追求是多模态模型

我们自己内心追求的，不仅仅是服务开发者或者服务科研人员，而是能不能做一个 Multimodal Foundation Agent（多模态基础智能体）。

我特别相信这件事情，2023年的时候大模型是一个大家都不要的东西，多多少少有那么几分大炼钢铁的成分，多模态是我们从那时就一直想做的事情。

为什么呢？我们觉得如果你想做一个智能的东西，天然的应该是 Multimodal（多模态），当然带有不同看法，各个学者都有一些看法，多模态能不能驱动智力的问题。我懒得吵这个架，人有眼睛和耳朵可以做更多的事情，我更多的考虑是 Foundation（基础智能体）有更多的生产力，能不能更好地帮助人类，毫无疑问我们应该做视觉，我们应该做语音。

更进一步，我们要做什么东西呢？Omni 的模型（全模态模型）不仅仅是能够理解文本、视觉、音频，我们可能还让它生成文本、音频。今天我们已经做到了，但是我们还没有做到把视觉生成结合在一起。如果做到三进三出，我觉得至少是我个人喜欢的东西。

三、姚顺雨的发言

6、To C 和 To B 的差异

我的一个观察是 To C（消费者模型）和 To B（商业用户模型）发生了明显的分化。

大家一想到 AI，就会想到两个东西，一个是 ChatGPT，另外一个是 Claude Code。它们就是做 To C 和 To B 的典范。

对于 To C 来说，大部分人大部分时候不需要用到那么强的智能，可能今天的 ChatGPT 和去年相比，研究分析的能力变强了，但是大部分人大部分时候感受不到，更多把它当作搜索引擎的加强版，很多时候也不知道该怎么去用，才能把它的智能激发出来。

但对于 To B 来说，很明显的一点是智能越高，代表生产力越高，也就越值钱。所以，大部分时候很多人就是愿意用最强的模型。一个模型是200美元/月，第二强或者差一些的模型是50美元/月、20美元/月，我们今天发现很多美国的人愿意花溢价用最好的模型。可能他的年薪是20万美元，每天要做10个任务，一个非常强的模型可能10个任务中八九个做对了，差的是做对五六个，问题是你不知道这五六个是哪五六个的情况下，需要花额外精力去监控这个事情。

所以，在 To B 这个市场上，强的模型和稍微弱点的模型，分化会越来越明显。

7、垂直整合和模型应用分层

我的第二点观察是，基础模型和上层应用，到底是垂直整合，还是模型应用分层，也开始出现了分化。

比如，ChatGPT Agent 是垂直整合，Claude（或者 Gemini）+ Manus 是模型应用分层。过去大家认为，当你有垂直整合能力肯定做得更好，但起码今天来看并不一定。

首先，模型层和应用层需要的能力还是挺不一样的，尤其是对于 To B 或者生产力这样的场景来说，可能更大的预训练还是一个非常关键的事情，这个事情对于产品公司确实很难做。但是想要把这么一个特别好的模型用好，或者让这样的模型有溢出能力，也需要在应用侧或者环境这一侧做很多相应的事情。

我们发现，其实在 To C 的应用上，垂直整合还是成立的，无论 ChatGPT 还是豆包，模型和产品是非常强耦合、紧密迭代的。但是对于 To B 来说，这个趋势似乎是相反的，模型在变得越来越强、越来越好，但同样会有很多应用层的东西将好的模型用在不同的生产力环节。

8、需要更大的 Context

怎么让今天的大模型或者 AI 能够给用户提供更多价值？我们发现，很多时候需要的是额外的 Context（上下文）。

比如，我问 AI 今天该去吃什么？其实，你今天问 ChatGPT 和你去年问或者明天问，答案应该会差很多。这个事情想要做好，不是说你需要更大的模型、更强的预训练、更强的强化学习，而是可能需要更多额外的输入，或者叫 Context。如果它知道我今天特别冷，我需要吃些暖和的，我在今天这样的范围活动，可能我老婆在另一个地方吃什么等各种各样的事情，它的回答就会更好。

回答这样的问题，更多需要的是额外的输入。我和老婆聊了很多天，我们可以把聊天记录转发给元宝，把额外的输入用好，会给用户带来很多额外的价值。这是我们对 To C 的思考。

四、圆桌对话：中国 AI 的未来

李广密（主持人）：我想问大家一个问题，在三年和五年以后，全球最领先的 AI 公司是中国团队的概率有多大？我们从今天的跟随者变成未来的引领者，这个过程到底还有哪些需要去做好？

9、姚顺雨的回答

我觉得概率还挺高的，我挺乐观的。目前看起来，任何一个事情一旦被发现，在中国就能够很快的复现，在很多局部做得更好，包括之前制造业、电动车这样的例子已经不断地发生。

我觉得可能有几个比较关键的点。

（1）中国的光刻机到底能不能突破，如果最终算力变成了瓶颈，我们能不能解决算力问题。

（2）能不能有更成熟的 To B 市场。今天我们看到很多做生产力或者做 To B 的模型和应用，还是会诞生在美国，因为支付意愿更强，文化更好。今天在国内做这个事情很难，所以大家都会选择出海或者国际化。这和算力是比较大的客观因素。

（3）更重要的是主观因素，我觉得中国想要突破新的范式或者做非常冒险事情的人可能还不够多。也就是说，有没有更多有创业精神或者冒险精神的人，真的想要去做前沿探索或者范式突破的事情。我们到底能不能引领新的范式，这可能是今天中国唯一要解决的问题，因为其他所有做的事情，无论是商业，还是产业设计，还是做工程，我们某种程度上已经比美国做得更好。

10、林俊旸的回答

这个问题是个危险的问题，理论上这个场合是不可以泼冷水的，但如果从概率上来说，我可能想说一下我感受到的中国和美国的差异。比如说，美国的 Compute（算力）可能整体比我们大1-2个数量级，但我看到不管是 OpenAI 还是什么，他们大量的算力投入到的是下一代研究当中去，我们今天相对来说捉襟见肘，光交付可能就已经占据了我们绝大部分的算力，这会是一个比较大的差异。

这可能是历史上就有的问题，创新是发生在有钱的人手里，还是穷人手里。穷人不是没机会，我们觉得这些富哥真的很浪费，他们训练了这么多东西，可能训练了很多也没什么用。但今天穷的话，比如今天所谓的算法 Infra（基础设施）联合优化的事情，如果你真的很富，就没有什么动力去做这个事情。

未来可能还有一个点，如果从软硬结合的角度，我们下一代的模型和芯片的软硬结合，是不是真的有可能做出来？

2021年，我在做大模型，阿里做芯片的同学，找我说能不能预测一下，三年之后这个模型是不是 Transformer，是不是多模态。为什么是三年呢？他说我们需要三年时间才能流片。我当时的回答是三年之后在不在阿里巴巴，我都不知道！但我今天还在阿里巴巴，它果然还是 Transformer，果然还是多模态，我非常懊悔为什么当时没有催他去做。当时我们的交流非常鸡同鸭讲，他给我讲了一大堆东西，我完全听不懂，我给他讲，他也不知道我们在做什么，就错过了这个机会。这个机会有没有可能再来一次？我们虽然是一群穷人，是不是穷则思变，创新的机会会不会发生在这里？

今天我们教育在变好，我属于90年代靠前一些的，顺雨属于90年代靠后一点的，我们团队里面有很多00后，我感觉大家的冒险精神变得越来越强。美国人天然有非常强烈的冒险精神，一个很典型的例子是当时电动车刚出来，甚至开车会意外身亡的情况下，依然会有很多富豪们都愿意去做这个事情，但在中国，我相信富豪们是不会去干这个事情的，大家会做一些很安全的事情。今天大家的冒险精神开始变得更好，中国的营商环境也在变得更好的情况下，我觉得是有可能带来一些创新的。概率没那么大，但真的有可能。

三年到五年后，最领先的 AI 公司是一家中国公司的概率，我觉得是20%吧，20%已经非常乐观了，因为真的有很多历史积淀的原因在这里。

11、唐杰的回答

首先我觉得确实要承认，无论是做研究，尤其是企业界的 AI Lab，和美国是有差距的，这是第一点。

我们做了一些开源，可能有些人觉得很兴奋，觉得中国的大模型好像已经超过美国了。其实可能真正的情况是我们的差距也许还在拉大，因为美国那边的大模型更多的还在闭源，我们是在开源上面玩了让自己感到高兴的，我们的差距并没有像我们想象的那样好像在缩小。有些地方我们可能做的还不错，我们还要承认自己面临的一些挑战和差距。

但我觉得，现在慢慢变得越来越好。

（1）90后、00后这一代，远远好过之前。一群聪明人真的敢做特别冒险的事，我觉得现在是有的，00后这一代，包括90后这一代是有的，包括俊旸、Kimi、顺雨都非常愿意冒风险来做这样的事情。

（2）咱们的环境可能更好一些，无论是国家的环境，比如说大企业和小企业之间的竞争，创业企业之间的问题，包括我们的营商环境。

（3）回到我们每个人自己身上，就是我们能不能坚持。我们能不能愿意在一条路上敢做、敢冒险，而且环境还不错。如果我们笨笨的坚持，也许走到最后的就是我们。

科技动态

1、载人飞艇

1月9日，湖北制造的载人飞艇祥云 AS700，完成了荆门至武汉往返航程。这是全国首次载人飞艇商业飞行，可能也是目前世界唯一运作的商业载人飞艇。

飞艇总长50米，最大载客量9人。由于载客量太小，不可能用作常规的交通工具，只能做一些观光飞行。

2、鼻子触控

一个英国发明家想在洗澡时使用手机，结果因为手指带水无法触控。

他灵机一动，发明了戴在鼻子上的触控笔。

它的结构很简单，就是一个石膏纤维的鼻管，里面插着一支触控笔。

这个发明看上去很有用，可以解放双手，也适合戴手套的情况和残疾人士。

3、越南禁止不可跳过的广告

越南近日颁布第342号法令，禁止不可跳过的广告，将于2026年2月15日起生效。

法令规定，视频广告的等待时间必须在5秒以内，否则观众可以选择跳过。而且，关闭方式应该是清晰简便的，禁止使用迷惑用户的虚假或模糊符号。

这明显针对 Youtube 等视频平台的片头广告。这让人第一次感到，越南互联网值得叫好。

文章

1、我所有的新代码都将闭源（英文）

作者是一个开源软件贡献者。他感到，自己的开源代码都被大模型抓取，导致仓库访问者减少，进而也没有收入，所以他后面的代码都要闭源。

2、网站的视觉回归测试（英文）

本文介绍如何使用 Playwright，对网页进行视觉测试，看看哪里出现变动。

3、我用 PostgreSQL 代替 Redis（英文）

Redis 是最常用的缓存工具，作者介绍它的痛点在哪里，怎么用 PostgreSQL 数据库替代。

4、如何用 CSS 修复水平滚动条（英文）

一篇 CSS 初级教程，介绍四个简单的技巧，让网页不会出现水平滚动条（即避免溢出）。

5、消息队列原理简介（英文）

本文是初级教程，介绍消息队列（mesage queue）的概念和作用。

6、macOS Tahoe 的圆角问题（英文）

macOS 最新版本 Tahoe 加大了圆角半径，造成调整窗口大小时经常失败。作者认为，从操作角度看，圆角面积最好超过端头的50%。

工具

1、whenwords

本周，GitHub 出现了一个奇特的库，没有一行代码，只有一个接口文档。

用户需要自己将接口文档输入大模型，并指定编程语言，生成相应的库代码再使用。

以后会不会都是这样，软件库没有代码，只有接口描述？

2、Hongdown

Markdown 文本的格式美化器，根据预设的规则，修改 Markdown 文本的风格样式。

3、VAM Seek

一个开源的网页视频播放器，会自动显示多个时点的视频缩略图，便于快速点击跳转。

4、kodbox

开源的网页文件管理器。

5、Nigate

让 Mac 电脑读写 NTFS 磁盘的开源工具。（@hoochanlon 投稿）

6、Flippy Lid

一个实验性软件，把 macbook 铰链开合作为输入，可以玩 Flippy Lid，也可以作为密码解锁。（@huanglizhuo 投稿）

7、Jumble

nostr 网络的开源 Web 客户端，专门用来浏览以 feed 内容为主的 relay 节点。（@CodyTseng 投稿）

8、Clash Kit

一个基于 Node.js 的 Clash 命令行管理工具。（@wangrongding 投稿）

9、SlideNote

开源的 Chrome 浏览器插件，在侧边栏做笔记，支持跨设备自动同步。（@maoruibin 投稿）

10、NginxPulse

开源的 Nginx 访问日志分析与可视化面板，提供实时统计、PV 过滤、IP 归属地、客户端解析。（@likaia 投稿）

AI 相关

1、Auto Paper Digest (APD)

一个 AI 应用，自动从 arXiv 抓取每周的热门 AI 论文，通过 NotebookLM 生成视频讲解，并能发布到抖音。（@brianxiadong 投稿）

2、CC Switch

一个跨平台桌面应用，一键切换 Claude Code / Codex / Gemini CLI 的底层模型，以及完成其他的管理设置。（@farion1231 投稿）

3、网易云音乐歌单 AI 分析

使用 AI 分析用户的网易云音乐歌单，进行总结。（@immotal 投稿）

资源

1、EverMsg

这个网站可以查看 BTC 区块链的 OP_RETURN 字段，该字段记录了一段文本，只要发上区块链就永远不会删除和修改。（@blueslmj 投稿）

2、DeepTime Mammalia

沉浸式 3D/2D 网页可视化项目，交互式哺乳纲演化树，探索哺乳动物2亿年的演化。（@SeanWong17 投稿）

图片

1、冰下修船

俄罗斯有一个船厂，位于北极圈附近。每年冬天，船坞都要结冰。

为了冬天也能修船，船厂会把冰层凿掉一块，露出船底。

冰层通常不会那么厚，不会结冰到船底，必须分层凿开。工人先用电锯，锯开最上层的冰层，然后等待下面的河水结冰，再用电锯向下切割，反复多次，直到船底结冰。

有时，需要凿开一条很长的冰槽。

下图是工人进入冰层下方，检修船底，由于冰下工作条件恶劣且有危险性，工人的工资都较高。

言论

我对自己的代码被大模型吸收感觉如何？

我很高兴这样，因为我把这看作是我一生努力的延续：民主化代码、系统和知识。

大模型让我们更快编写更好、更高效的软件，并让小团队有机会与大公司竞争。这和 90 年代开源软件所做的事情一样。然而，这项技术太重要，绝不能只掌握在少数公司手中。

-- Antirez，Redis 项目的创始人

2、

即使你不相信 AI，但跳过它对你和你的职业都没有帮助。

以前，你熬夜编程，看到项目顺利运行时，心潮翻滚。现在，如果你能有效利用 AI，可以建造更多更好的项目。乐趣依旧存在，未受影响。

-- Antirez，Redis 项目的创始人

3、

如果你不写作，你就是一个有限状态机。写作时，你拥有图灵机的非凡力量。

-- 曼纽尔·布卢姆（Manuel Blum），图灵奖得主

4、

人们陷入困境有三个主要原因：（1）行动力不足，（2）行动方向错误，（3）等待天上掉馅饼（幻想问题会缓解而拒绝采取行动）。

-- 《当你想摆脱困境》

往年回顾

年终笔记四则（#334）

YouTube 有多少个视频？（#284）

AI 聊天有多强？（#234）

政府的存储需求有多大？（#184）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年1月16日

科技爱好者周刊（第 380 期）：为什么人们拥抱"不对称收益"

阮一峰的网络日志

9 January 2026 at 08:11

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

中法合作的一个艺术项目《挑战第841次》，让路过的行人在黄浦江边的一个玻璃亭子里，弹奏法国作曲家的一个钢琴作品。（via）

为什么人们拥抱"不对称收益"

前两周，我跟大家说，美国现在最流行"预测市场"。我当时没有统计数字，现在有了。

2025年11月，美国前两大预测市场---- Polymarket 和 Kalshi ---- 一共成交了超过100亿美元。

看这个数字，大家可能没感觉。作为对比，美国全国的体育彩票，2024年的销售额是137亿美元。

这就是说，预测市场一个月的交易量，接近了体育彩票全年的销售额。要知道，这两个网站6年前都还不存在！

这么恐怖的增长速度，难怪美国各大公司现在都想挤入这个市场，分一杯羹。

预测市场就是变相的网络彩票，它的火爆只能说明一件事情，美国正出现疯狂的"彩票热"。

本周，我看到一篇文章（上图），一位风险投资家分析这个现象。我想分享他的观点，他认为，预测市场火爆的根本原因，是社会心态的焦虑和绝望。

（1）财富转移机制失效了，通过正常工作致富，越来越不可能。工资的增长速度，低于消费的增长速度，个人债务正在变多。

虽然资产的价格（比如股票、黄金、房产）也在上涨，但只是让那些拥有资产的人受益，对于没有这些资产的穷人，只是变得更贫穷。

（2）传统的人生模式也失效了。以前的模式是，找一家大公司，每天按时上班，努力工作，对公司忠心耿耿，坚持多年就会得到回报。你会收到公司的奖励，退休后还有养老金。

这种模式现在行不通了。公司的经营短期化，能存活20年的公司并不多，更不要说你的岗位了。一旦失去现在的工作，再次就业非常困难，以前的工作经验很可能用处不大。

（3）AI 的出现，加剧了前两种情况的发展速度。AI 让一切加速了，压缩了时间。以前，你有五年的时间奋斗，AI 让你感到必须在一年里拿到结果，否则就可能为时已晚。

（4）社交媒体则使得人们永远不会对现状满意。

以前，你的参照群体只是周围人群，现在的参照群体是全世界。你每天看到的都是收入高、赚钱容易、生活优渥的人群，永远会让你感到自己的生活不够好，而无论你已经取得了怎样的成就。

（5）结果就是，越来越多的人失去了耐心，不再相信长期投入，不再幻想长期的劳动积累会通往圆满的人生，社会也不奖励耐心。

为什么要苦苦奋斗20年，去争取10年后可能根本不存在的晋升机会？我要的是一条快速的道路，摆脱日常生活的困境，而且越快越好。

（6）这种心态下，人们的风险偏好发生了变化。为了快速摆脱困境，在风险更大的选项上放手一搏，成了合理的选择。

即使只有5%的希望，也比100%的停滞不前更有吸引力。这就是彩票在贫困社区更畅销的原因。

这在经济学上称为"不对称收益"（asymmetric returns），就是风险和收益不对称。失败的可能性很大，但只会损失一小笔钱，成功的可能性很小，但是一旦成功，就会获得巨大收益，简单说就是"小亏大赚"。

追求不对称收益，已经成了一种普遍的心态。它推动了前几年的加密货币和 NFT 的热潮，现在又推动了预测市场。

可以确定，凡是能够产生"不对称收益"的事情，今后都会迅速成为热点。

新人上手 Claude Code 的简单方案

AI 编程工具，我用的是 Claude Code。以前推荐过，非常好用，功能很强。

我现在依然这样认为，但是必须说，Claude Code 不适合所有人，有使用门槛。

它要求用户熟悉命令行，而且 Windows 安装不方便，需要启用 Linux 子系统 WSL。另外，如果在外面，没有自己的计算机，临时想用一下，也很麻烦。

元旦的时候，我在广东听说，有人做了"云端 Claude Code 客户端"，解决了这些痛点，就很感兴趣。

他们团队叫做 302.AI，我以前就有接触。他们做云端服务很多年了，现在专注于 AI 模型接入。大家可以去官网看一下，用他们的 API 能够接入几乎所有主流模型，数量有几百个。

他们跟我一样，也感到 Claude Code 的诸多不便，就想能不能再开发一个它的客户端，封装所有复杂性，提供最好用的 AI 编程体验。

（1）跨平台桌面应用。他们提供 Win/Mac/Linux 安装程序，通过桌面窗口去使用云端的 Claude Code。

（2）零配置的云端沙盒。云端的 Claude Code 预装在一个沙盒里，集成了 Node.js、Python、Git、CMake、build-essential 等开发工具，不需要任何本地环境配置，开箱即用。

同时，沙盒也保障了安全，跟本地电脑是隔离的，AI 就不会误删本地文件。

（3）对话界面。对于不习惯命令行的用户，他们提供对话式交互界面（Chat UI），以聊天方式完成编程。

（4）随意更换模型。Claude Code 更换底层模型，需要配置环境变量，他们的客户端不需要这么麻烦，只需要鼠标选中即可。

你可以直接用他们的 API，也可以配置自己的 API Key。

（5）一键部署。他们还提供了部署功能，AI 生成的结果可以一键发布到公网，直接访问，无需购买服务器或配置域名。

可以说，这个方案完全针对 Claude Code 的各种痛点，目标是打造新手最容易上手的 Vibe Coding 工具。

感兴趣的朋友可以去 studio.302.ai 下载，体验一下。（提醒：使用前需要注册/登录 302.AI 账号。）

科技动态

1、乔布斯写的程序

乔布斯创立苹果公司之前，当过短时间的程序员。1975年，他20岁，从大学退学后，进入雅达利公司写电子游戏。

人们一直不知道，他的编程水平如何，现在终于曝光了。

本周，乔布斯的一些个人档案公开拍卖，其中就有当年他写的程序，打印纸上还有他的亲笔注释。

有人把这个程序还原出来，放到虚拟机上跑，终于让我们看到了乔布斯的软件作品。

这个程序叫做 AstroChart，跟星座有关。用户提供出生的时间地点，它会显示太阳系主要天体的位置。

从代码来看，乔布斯的编程水平可以，他使用三角函数计算行星位置，并且绕过当年硬件没有双精度浮点数的限制，用整数除法代替。

2、世界最大电动船

澳大利亚建造了世界最大的电力轮船，长度130米，里面的电池重达250吨。

这艘船将用作阿根廷与乌拉圭之间的轮渡，可以搭载多达2100名乘客和225辆汽车。

这艘船不仅是史上最大的电动船，可能也是史上最大的电动装置，一次可以携带超过4万度电。

3、最高过山车

2025年的最后一天，沙特阿拉伯在距离首都利雅得40分钟车程的地方，开张了一个乐园。

这个乐园有27个游乐设施，很多都是世界之最，其中就有目前世界最高的过山车。

这个过山车高达195米，相当于60层楼，比先前的世界纪录高出了55米。

整个过山车的长度是4.2公里，最高速度可以达到240公里/小时，全程只有3分多钟。

网上有很多这个过山车的视频，不要说坐在车上，就是看视频都觉得惊心动魄。

文章

1、2025年大模型回顾（英文）

西蒙·威利森（Simon Willison）的 AI 年度回顾，过去一年的大事件基本都提及了，总结和评点得非常好，推荐阅读。

2、华为的 5nm 制程怎么样？（英文）

这是一家美国技术媒体对华为麒麟9030芯片（搭载于最新的 Mate 80 手机）的分析文章。

该文认为，该芯片比早先的 7nm 制程有提升，是大陆制造的最先进芯片，但从跑分看，还没达到台积电的 5nm 水平。文章有中文版。

3、Opus 4.5 将会改变一切（英文）

作者不相信 AI 会取代程序员，直到遇到 Anthropic 公司的 Opus 4.5 模型。本文是他的4个项目的编程体会，他现在确信程序员会被替代。

4、HTTP caching, a refresher（英文）

对于 HTTP 缓存机制的一个总体介绍，梳理浏览器缓存的处理逻辑。

5、Vitest 的浏览器模式介绍（英文）

JS 测试框架 Vitest 4.0 引入了浏览器模式，可以进行浏览器自动化，类似于 Playwright，进行 UI 测试，本文是一个简单介绍。

6、如何提高 JS 数组的读写速度（英文）

一篇 JavaScript 中级教程，介绍通过为 JS 数组分配连续内存，提高数组的读写速度。

工具

1、ZenOps

一个命令行工具，在本地终端里查询阿里云/腾讯云等云平台的运行数据，并提供钉钉、飞书、企微机器人，进行自然语言查询。（@eryajf 投稿）

2、白虎面板

轻量级的服务器定时任务管理系统，适合低配置的服务器。（@engigu 投稿）

3、OnlinePlayer

一个网页播放器，可以播放本地视频和云盘视频。（@13068240601 投稿）

4、gitstats

命令行工具，生成 Git 仓库的统计数据。（@shenxianpeng 投稿）

5、云图

一个极简风格的图床，可以搭建到自己的 NAS，提供灵活的 API。（@qazzxxx 投稿）

6、KeyStats

开源的 macOS 小工具，对按键行为进行统计。（@debugtheworldbot 投稿）

7、py2dist

这个工具可以将 Python 脚本编译成二进制模块，方便隐藏源码。（@xxnuo 投稿）

8、Stream Panel

Chrome 浏览器开发者工具的一个扩展，用来调试服务器发送事件 (SSE) 和 Fetch 的流式连接。（@bywwcnll 投稿）

9、Zedis

Redis 的图形客户端，跨平台的桌面应用，不使用 Electron，而是使用 Rust + GPUI，性能更好。（@vicanso 投稿）

10、QDav

这个网站可以为夸克网盘加入 WebDAV 协议，从而挂载到网盘播放器来播放夸克网盘的视频。（@ZhouCai-bo 投稿）

11、XApi

开源的 Chrome 浏览器插件，自动捕获当前网页的 Fetch 与 XHR 网络请求，支持改写 Cookie、Origin、Referer 字段，方便开发调试。（@lustan 投稿）

12、PDFCraft

纯浏览器的 PDF 开源工具集，目前有80多个工具。（@pccprint 投稿）

AI 相关

1、Open-AutoGLM

智源公司的开源安卓应用，使用自然语言，让 AI 操作手机，进行手机自动化，可以接入各种模型，无需电脑端。（@Luokavin 投稿）

2、Claude-Ally-Health

一个基于 Claude Code 的个人医疗数据中心，定义了一组自己的命令和技能，用 AI 分析个人医疗数据（体检报告、影像片子、处方单、出院小结）。（@huifer 投稿）

3、灵猫

免费的 AI 图片去水印网站，但只是去除视觉水印，嵌入的数字水印还在。（@pangxiaobin 投稿）

4、DeepDiagram AI

开源的 AI 应用，用自然语言驱动内置的 mermaid、echarts、mindmap、Draw.io 等绘图工具生成图表。（@twwch 投稿）

资源

1、100万首页截图

这个网站收集了100万个热门网站的首页截图，将它们做在一个页面，可以放大查看。

2、Emulator Gamer

各种老游戏机的经典游戏，通过模拟器免费在线游玩。（@SinanWang 投稿）

图片

1、如今的 Mozilla

Mozilla 浏览器的新任 CEO 宣称，公司的发展方向是 AI 浏览器。

这让 Mozilla 社区感到担忧，因为没人是为了 AI 而使用它。一位使用者就画了下面这张图。

Mozilla 的吉祥物----一只小狐狸拿着锯子，把自己正坐着的树枝锯断，旁边还有一只鸟，为它递上更锋利的电动锯子，上面写着"AI"。

这张图比喻 Mozilla 一直在自寻死路，全力转向 AI 只会死得更快。

文摘

1、外卖应用的秘密

我是一个大型外卖应用的开发者，受一项严格的保密协议约束。但是，我已经不在乎了，我昨天向公司递交了离职报告。

说实话，我希望公司能起诉我，这样一来，这些事情就会曝光。

我已经消极工作大约八个月了，只是看着代码被推送到生产环境。一想到自己参与了这台机器，我夜里都睡不着。

人们总怀疑算法对用户不利，现实比这更糟。我是一名后端工程师，每周参加产品会议，产品经理（PM）讨论如何才能挤出额外0.4%的利润，他们把用户当成有待开发的资源。

公司有一个"优先配送"服务，你多付2.99美元，就可以更快拿到外卖。这完全是个骗局，根本没有加快派送的速度，而是人为把非优先订单延迟5到10分钟，让你感觉优先订单更快。我们仅仅通过让标准服务变差，就赚取了数百万美元的纯利润，而不是真正改善服务。

最让我恶心的是"绝望分数"，这是一个隐藏的外送员指标，根据外送员的行为判断他们多想赚钱。

如果外送员在晚上10点登录系统，毫不犹豫地立即接下每一个3美元的垃圾订单，算法会将他们标记为"高度绝望"。一旦被标记，系统就会停止向他们显示高价订单，理由是"既然我们知道他绝望到愿意接受3美元，为什么还要让他看到15美元的订单呢？"。系统把高价订单留给"休闲"外送员，即那些不愿接低价单的外送员，吸引他们接单，而全职外送员则被碾压成尘埃。

公司还会从用户的账单扣除一笔1.50美元的"外送员福利费"，这个名字让用户感觉在帮助外送员。实际上，这笔钱流入了游说反对外送员成立工会的基金，这是公司用于"政策防御"的费用。用户实际上是在为那些高端律师付费，那些律师为削弱外送员的权益而工作。

最后，虽然公司不再从外送员的小费里面提成，因为被起诉过，但是使用其他方法窃取小费。

如果算法预测你是"可能支付小费的用户"，而且你很可能会给10美元小费，那么公司只会给外送员可怜的2美元基本派送费。如果你给了0美元小费，公司会给外送员8美元的基本派送费。结果是用户的小费并没有奖励外送员，而是在补贴公司。用户给外送员付工资，这样我们就不用付了。

言论

1、

在美国东海岸（纽约和华盛顿），人们会问："中国是否就要失败了"，而在西海岸（洛杉矶和旧金山），人们更倾向于问："万一中国成功了会怎样？"

这一定程度上反映了硅谷的特点：更注重收益最大化，而非风险最小化。东海岸的问题也值得认真对待，但过分关注中国是否失败，会助长一种美国无需做出任何改变就能击败对手的论调，从而削弱美国改革的紧迫性。

-- Dan Wang《2025年度信件》

2、

如果美国或中国在某个方面落后太多，落后者就会奋起直追。这将是未来数年甚至数十年世界变化的动力。

-- Dan Wang《2025年度信件》

3、

程序员对待 AI 有两种态度：一种以结果为导向，渴望通过 AI 更快拿到结果；另一种以过程为导向，他们从工程本身获得意义，对于被剥夺这种体验感到不满。

-- Ben Werdmuller

4、

AI 数据中心的建设热潮，导致内存价格暴涨，进而产生一系列连锁反应。

手机和电脑厂商别无选择，只能提价。我们估计，2026年全球的手机市场和电脑市场都会萎缩。手机萎缩2.9%到5.2%，电脑萎缩4.9%到8.9%。

-- IDC 公司的预测

5、

eSIM 手机卡一旦更换就可能失效，相比之下，实体 SIM 卡可以随意插上插下，几乎不会出现故障。推广 eSIM 的后果就是，手机号丢失的事件会大大增多。

-- 《我后悔使用 eSIM》

往年回顾

一切都要支付两次（#333）

没有目的地，向前走（#283）

生活就像一个鱼缸（#233）

腾讯的员工退休福利（#183）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2026年1月 9日

科技爱好者周刊（第 379 期）：《硅谷钢铁侠》摘录

阮一峰的网络日志

26 December 2025 at 07:51

这里记录每周值得分享的科技内容，周五发布。（[通知] 下周元旦假期，周刊休息。）

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

哈尔滨19米大雪人，完工之前的样子。（via cgtn@instagram）

《硅谷钢铁侠》摘录

最近，我读了一本十年前的马斯克传记《硅谷钢铁侠》（中信出版社，2016）。

按理说，这本书已经过时了，这十年马斯克发生太多事情了。

我是睡觉前随手拿起来，翻了几页，看得津津有味，就读完了。

这本是马斯克的授权传记，他本人亲自接受了采访，还挺有料的。而且，因为我已经知道后续的发展，所以读到十年前的采访，反而有更多启发。

他的人生确实传奇，白手起家，家里给的最大帮助就是从南非移民到加拿大，后面都是自己奋斗出来的。

他创立了 Paypal，然后把卖掉它的钱拿来又创办了三家公司：特斯拉、SpaceX 和 SolarCity。

这太疯狂了，他一个外行同时进入了三个不同的行业----电动汽车、宇宙航天和太阳能----这些行业都刚萌芽，没有任何个人创业成功的先例。

更疯狂的是，他居然把这三家公司都做成了，而且都做到了世界第一（SolarCity 后并入特斯拉），他也因此变成了世界首富，你说神奇不神奇。

读完全书，我的最大感受是，还是要动手做事，没准真能做成。想他人不敢想，做他人不敢做。即使最狂野的梦想，只要全心投入，用力去做，也是有可能成功的。

下面就是我的一点摘录。

（1）

特斯拉最艰难的时候，非常接近于破产倒闭。

马斯克对外宣传，特斯拉是一家汽车公司，但实际上，他们只是一群年轻人租了一间大厂房，更像是在捣鼓汽车的大型实验室。

（2）

马斯克非常不理解，为什么有人设计了车灯开关。

他说："真是多此一举。天黑时车灯自动打开，就这么简单。"

（3）

特斯拉的第一版设计稿，因为设计师没想好门把手的形状，就没画上去。

没想到马斯克很喜欢这个没有门把手的车型，就决定门把手应该在有需要的时候自动弹出。

（4）

马斯克认为，未来会有人口危机，主张多生孩子。

他认真考虑了，怎么在特斯拉后排安装婴儿座椅。传统的车门设计，使得把婴儿座椅和小孩安置在后排非常不方便，所以特斯特的车门设计采用了"鹰翼门"。

（5）

特斯拉的第一款车型是跑车，但没有大量生产。真正大量生产的第一款车型是 Model S，最初的名字是 Model Sedan。

Sedan 这个词的意思就是轿车，用来跟跑车相区别。但是马斯克认为这个词太平淡了。英国人习惯称轿车为 Saloon，这听上一样不伦不类。最后，就索性只保留第一个字母，称为 Model S。

（6）

马斯克对员工的要求是，全情投入你的工作，并把事情搞定。

不要等待上级的指导和详细指示，也不要等待别人的反馈意见，你要主动想办法把工作完成。

（7）

他认为，一个人独立工作，是最佳的工作状态。

一个人不需要开会、不需要与谁达成共识，也不需要在项目中帮助其他人。你一个人就可以持续地工作、工作、再工作。

（8）

特斯拉员工最害怕的事情，就是向马斯克申请额外的时间或者经费。

你一定要事先做好详细准备，跟他解释为什么必须招更多的人，以及需要追加的时间和资金预算。如果有招聘目标，还要准备那个人的简历。

（9）

如果你一上来就告诉马斯克，某件事情做不了，他会马上把你轰出办公室，甚至可能当场解雇你。

在马斯克看来，某件事办不成的唯一原因，就是违背了基本的物理原理。但是即使这样，你也必须做足了功课，深入每一个技术环节，向他解释为什么行不通。

（10）

马斯克要求员工，项目没完成之前，周六和周日依然要努力工作，并睡在桌子底下。

有些人反对，表示员工也需要休息，有时间陪陪家人。

马斯克说："我们破产之后，你们会有大量时间陪家人。"

（11）

马斯克有自己计算时间价值的方法。他预期10年后，公司的日营收可以达到1000万美元，所以进度每拖延一天，就相当于多损失1000万美元。

（12）

马斯克的根本想法是改变这个世界，他总是喜欢谈论人类的生存问题。

早在他开始创业的时候，就已经得出了结论，那就是生命是短暂的。如果你真的意识到这一点，你就会知道，活着的时候工作越努力越好。

科技动态

1、黑色圣诞卡

爱沙尼亚交通警察向800多名危险驾驶者，寄送了黑色圣诞卡，提醒他们新的一年必须安全驾驶。

这些人都是过去违反交通规则的司机，最常见的问题是超速和不系安全带。

圣诞卡上是一起交通事故的现场，黑漆漆的深夜，天空中有明亮的月亮，公路上有交通事故后的车辆残骸，远处还有车灯的亮光。

一个有趣的统计是，虽然人们常说女司机是"马路杀手"，但是这800多个危险驾驶者里面，只有33名女性。

2、2025全球互联网报告

世界最大 CDN 服务商 Cloudflare，发布了《2025全球互联网报告》，公布了它的统计数据。

2025年，全球互联网流量上升19%，由于网民数量基本没变，所以多出来的流量来自 AI 爬虫。

流量最大的前10大互联网服务：谷歌、脸书、苹果......

移动流量中，苹果设备占35%，安卓设备占65%。

浏览器排行是，Chrome 66%，Safari 15.4%，Edge 7.4%。

3、违停巡逻车

上海警方启用无人驾驶的违章停车巡逻车。

这辆小车自动在马路上巡逻，对路面进行抓拍。

一旦发现违停车辆，它就会识别车牌，将其上传警务系统，系统后台会发送提醒短信给车主，要求在12分钟内驶离。

12分钟后，小车就会返回点位进行检查，将相关信息回传后台，并经民警审核后开罚单。

据报道，12月18日一天，它共发现违停车辆119辆次。

4、室内过山车

一家瑞典的创意工作室，在他们的办公室建造了世界唯一的室内过山车。

这个过山车途径办公室的各个角落，总长60米，最高的地方距离地面有3米。

坐上这个过山车，你就能游览一圈办公室，看到同事们在干什么。

工作室负责人说，建造它的目的是"促进员工之间的互动，以及打破常规，培养创造力。"

文章

1、分布式架构的演化（英文）

本文将分布式架构分成三种：P2P、联邦式（比如 Mastodon）、中继式（比如 Nostr）。作者认为，对于大型分布式应用，中继式架构才是未来方向。

2、什么是 GitHub 自托管 Runner？（中文）

GitHub Actions 有一个 self-hosted runner 功能，让 action 运行在你自己的服务器。本文详细介绍它的概念、原理，并结合案例进行实践。（@luhuadong 投稿）

3、CSS Grid Lanes 布局（英文）

浏览器开始支持 CSS 的 Grid Lanes 布局了，大大方便了瀑布流的实现。

4、6502 指令集适用汇编语言初学者（英文）

6502 是一块诞生于1975年的 CPU，很多早期电脑（比如 Apple II）都使用它。作者解释，为什么你应该用它，作为学习汇编语言的第一个指令集。

5、你应该多用/tmp目录（英文）

作者提出，Linux 系统的/tmp目录用起来很方便，完全可以把它当作自己的临时性目录。

6、中国的清洁能源战略（英文）

《纽约时报》驻华记者的长文，体验当代中国的生活，比如无人驾驶、无人机送餐，他说"感觉像生活在未来"。

工具

1、MADOLA

一种新的数学脚本语言，像编程一样写数学公式，可以编译成 HTML 格式作为文档，也可以编译成 C++ 或 WebAssembly 直接运行。（@AI4Engr 投稿）

2、CattoPic

一个基于 Cloudflare Worker 的图片托管服务，将图片上传到 Cloudflare 进行推过，支持自动格式转换、标签管理。（@Yuri-NagaSaki 投稿）

3、termdev

直接在终端，通过连接 Chrome Devtool 调试网页。（@taotao7 投稿）

4、tui-banner

为 Rust 语言的命令行项目添加一个横幅图案。（@coolbeevip 投稿）

5、Alertivity

macOS 菜单栏的资源监控工具，监控 CPU、内存、磁盘、网络和进程活动。（@nobbbbby 投稿）

6、cpp‑linter

C/C++ 代码的静态检查工具，可以接入 CI/CD 流程，简化代码质量管理。（@shenxianpeng 投稿）

7、Rote

开源的 Web 笔记软件，需要自己架设。（@Rabithua 投稿）

8、Infographic

JS 的数据可视化框架，用于在网页生成各种信息图，内置200多种模板。（@Aarebecca 投稿）

9、Clock Dashboard

天气时钟看板，适合老旧的电子设备再利用。（@teojs 投稿）

10、离线版问卷

开源 Web 应用，用来设计和托管调查问卷/报名表。（@chenbz777 投稿）

11、Xget

基于边缘计算（如 Cloudflare Workers/Vercel/Netlify）的加速引擎，可以加速程序员网站的访问速度，比如将github.com域名替换成xget.xi-xu.me/gh。（@xixu-me 投稿）

12、BoxLite

一个 Python 库，可以在脚本中运行一个微型虚拟机，提供硬件隔离。（@DorianZheng 投稿）

13、Green Wall

生成你的 GitHub 年度报告。（@Codennnn 投稿）

14、edge-next-starter

面向出海项目的 Next.js + Cloudflare 全栈项目模板，集成 Edge Runtime、D1 数据库、R2 存储。（@TangSY 投稿）

AI 相关

1、Chaterm

带有 AI 功能的智能终端工具，可以用自然语言完成命令行操作。（@zhouyu123666 投稿）

2、miniCC

网友开发的 AI 编程工具 Claude Code 替代品，主要用于学习目的。（@Disdjj 投稿）

3、Android Trans Tool Plus

一个开源的纯前端应用，通过 AI 翻译安卓资源文件，支持多语言同步、差异校验。（@huanfeng 投稿）

4、octopus

个人用户的大模型 API 聚合工具，支持接入多个模型供应商，提供负载均衡、分组名称、使用量统计等功能。（@bestruirui 投稿）

5、Vexor

一个 Python 工具，对当前目录的文件进行向量嵌入，用来语义搜索。（@scarletkc 投稿）

6、Tada

开源的任务管理应用，带有 AI 总结功能。（@Leaomato 投稿）

资源

1、大模型原理（英文）

一篇相对好懂的大模型原理解释，文章不长，并且还有大量的互动图形，写得非常好，推荐阅读。

2、编程语言速度比较

这个网站使用不同的计算机语言，通过莱布尼茨公式计算 π 值，然后给出运行速度的排名，最快是 C++（clang++），最慢是 Python （CPython）。

3、更好的 ZIP 炸弹

这个网页提供三个 ZIP 炸弹文件的下载，其中最小一个只有 42KB，但是解压后的大小是 5.5GB。

图片

1、2025年最佳科学图片

《自然》杂志评选的一组2025年最佳科学图片。

两只争夺领地的青蛙。

南非废弃天文台长出的蘑菇。

2、帽子，乌龟和幽灵

2022年，一个业余数学家 David Smith 发现了一个有点像帽子的奇特形状。

这个形状的奇特之处在于，它可以无限不重复地铺满整个空间，且不形成周期性的重复图案。

不久后，他又发现了两种稍加变化的形状，称为乌龟和幽灵，也可以不重复地平铺平面。

下面就是这三种形状各自平铺的图案。

言论

1、

我使用氛围编程会感到疲惫，AI 生成代码的速度太快了，我的大脑跟不上，无法及时完成代码验收或审查。我必须休息一段时间，才能重新开始。

-- 《氛围编程疲劳》

2、

制造汽车是非常困难的一件事。一辆车大约有3万个独立零部件，公司可能只会采购3000个，因为像车头灯这样的部件，是作为一个整体采购的，但它实际上包含很多组件。

里面的二级、三级、四级供应商提供的零部件，任何一个出现问题都可能导致整车的问题。

-- 汽车创业公司 Rivian 的 CEO 专访

3、

数码世界的现状是，很多人（尤其是大多数老年人）已经放弃了抵抗，任由电子设备将他们带到任何地方。

因为一旦你想搞清楚电子设备的运作，就会发现，在便利的幌子下，一切都充满了敌意，暗箱操作无处不在，不可能完全理清。你想从它们手中夺回个人数据和隐私会非常艰苦，而且注定失败，最终只会带来更大的挫败感。

-- 《一切并非必然》

4、

现在的学生拥有前所未有的优质教育资源，但他们却陷入成千上万种选择中不知该学什么、该用什么资源的困境。拥有资源并不意味着就能找到方向。

-- 《不要关闭你的大脑》

5、

危险并非来自中国的崛起，而是美国的思维模式。如果把科学视为零和博弈，那么每一项中国专利看起来都像是美国的损失。但创意是非竞争性的：中国的科研突破不会让美国人变穷，而是会让世界变得更富有。多极化的科学世界意味着更快的增长、更大的财富和加速的技术进步。

-- 《中国的创新》

往年回顾

西蒙·威利森的年终总结，梁文锋的访谈（#332）

电动皮卡 Cybertruck 的 48V 供电（#282）

好用的平面设计软件（#232）

新人优惠的风险（#182）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2025年12月26日

我如何用 AI 处理历史遗留代码：MiniMax M2.1 升级体验

阮一峰的网络日志

23 December 2025 at 19:28

一、

最近，我写了好几篇 AI 教程，就收到留言，要我谈谈我自己的 AI 编程。

今天就来分享我的 AI 编程，也就是大家说的"氛围编程"（vibe coding）。

声明一下，我只是 AI 初级用户，不是高手。除了不想藏私，更多是为了抛砖引玉，跟大家交流。

二、

平时，我很少用 AI 生成新项目。因为每次看 AI 产出的代码，我总觉得那是别人的代码，不是我的。

如果整个项目都用 AI 生成，潜意识里，我感觉不到那是自己的项目。我的习惯是，更愿意自己写新项目的主体代码。

我主要把 AI 用在别人的项目和历史遗留代码，这可以避免读懂他人代码的巨大时间成本。

就拿历史遗留代码为例，（1）很多时候没有足够的文档，也没有作者的说明，（2）技术栈和工具库都过时了，读懂代码还要翻找以前的标准，（3）最极端的情况下，只有构建产物，没有源代码，根本无法着手。

AI 简直就是这类代码的救星，再古老的代码，它都能读懂和修改，甚至还能对构建产物进行逆向工程。

下面就是我怎么用 AI 处理历史遗留代码，平时我基本就是这样来 AI 编程。

三、

我的 AI 编程工具是 Claude Code。因为命令行对我更方便，也容易跟其他工具集成。

我使用的 AI 模型，大部分时间是国产的 MiniMax M2。我测过它的功能，相当不错，能够满足需要，它的排名也很靠前。

另外，它有包月价（29元人民币），属于最便宜的编程模型之一，可以放心大量使用，反复试错。要是改用大家都趋之若鹜的 Claude 系列模型，20美元的 Pro 套餐不够用，200美元的 Max 套餐又太贵。

MiniMax 接入 Claude Code 的方法，参考我的这篇教程。

四、

就在我写这篇文章的时候，MiniMax 本周进行了一次大升级，M2 模型升级到了 M2.1。

因为跟自己相关，我特别关注这次升级。

根据官方的发布声明，这次升级特别加强了"多语言编程能力"，对于常用编程语言（Rust、Java、Golang、C++、Kotlin、Objective-C、TypeScript、JavaScript 等）有专门强化。

它的 WebDev 与 AppDev 开发能力因此有大幅提升，可以用来开发复杂的 Web 应用和 Android/iOS 的原生 App。

"在软件工程相关场景的核心榜单上，MiniMax M2.1 相比于 M2 有了显著的提升，尤其是在多语言场景上，超过 Claude Sonnet 4.5 和 Gemini 3 Pro，并接近 Claude Opus 4.5。"

根据上面这段介绍，它的编程能力，超出或接近了国外旗舰模型。

这个模型已经上线了，现在就能用。那么，这篇文章正好测一下，官方的介绍是否准确，它的 Web 开发能力到底有没有变强。

至于价格，跟原来一样。但是，官方表示"响应速度显著提升，Token 消耗明显下降"，也算变相降价了。

M2.1 接入 Claude Code，我的参数如下。

五、

我这次选择的历史遗留项目是 wechat-format，一个 Web 应用，将 Markdown 文本转为微信公众号的样式。

上图左侧的文本框输入 Markdown 文本，右侧立刻显示自动渲染的结果，可以直接复制到微信公众号的编辑器。

它非常好用，大家可以去试试看。我的公众号现在就用它做排版，效果不错（下图）。

问题是，原作者六年前就放弃了，这个项目不再更新了。我看过源码，它用的是老版本的 Vue.js 和 CodeMirror 编辑器，没有任何文档和说明，还经过了编译工具的处理，注释都删掉了。

如果不熟悉它的技术栈，想要修改这些代码是很困难的，可能要投入大量时间。

那么废话少说，直接让 AI 上场，把这些代码交给 MiniMax M2.1 模型。

六、

接手老项目的第一步，是对项目进行一个总体的了解。

我首先会让 AI 生成项目概述。大家可以跟着一起做，跟我的结果相对照。


# 克隆代码库
$ git clone git@github.com:ruanyf/wechat-format.git

# 进入项目目录
$ cd wechat-format

# 启动 Claude Code
$ claude-minimax

上面的claude-minimax是我的自定义命令，用来在 Claude Code 里面调用 MiniMax 模型（参见教程）。

输入"生成这个仓库的概述"。

AI 很快就给出了详细说明，包括项目的总体介绍、核心功能、技术栈和文件结构（下图）。

有了总体了解以后，我会让 AI 解释主要脚本文件的代码。

【提示词】解释 index.html 文件的代码

它会给出代码结构和页面布局（上图），然后是 JS 脚本加载顺序和 Vue 应用逻辑，甚至包括了流程图（下图），这可是我没想到的。

做完这一步，代码库的大致情况应该就相当了解了，而 AI 花费的时间不到一分钟。

七、

既然这个模型号称有"多语言编程能力"，我就让它把项目语言从 JavaScript 改成 TypeScript。

对于很多老项目来说，这也是常见需求，难度不低。

它先制定了迁移计划，然后生成了 tsconfig.json 和 types.d.ts，并逐个将 JS 文件转为对应的 TS 文件（下图）。

修改完成后，它试着运行这个应用，发现有报错（下图），于是又逐个解决错误。

最终，迁移完成，它给出了任务总结（下图）。

我在浏览器运行这个应用，遇到了两个报错：CodeMirror 和 FuriganaMD 未定义。

我把报错信息提交给模型，它很快修改了代码，这次就顺利在浏览器跑起来了。

至此，这个多年前的 JavaScript 应用就成功改成了 TypeScript 应用，并且所有内部对象都有了完整的类型定义。

你还可以接着添加单元测试，这里就省略了。

八、

简单的测试就到此为止，我目前的 AI 编程大概就到这个程度，用 AI 来解释和修改代码。我也建议大家，以后遇到历史遗留代码，一律先交给 AI。

虽然这个测试比较简单，不足以考验 MiniMax M2.1 的能力上限，但如果人工来做上面这些事情，可能一个工作日还搞不定，但是它只需要十几分钟。

总体上，我对它的表现比较满意。大家都看到了，我的提示词很简单，就是一句话，但是它正确理解了意图，如果一次没有成功，最多再修改一两次就正确了。

而且，就像发布说明说的一样，它运行速度很快，思考过程和生成过程最多也就两三分钟，不像有的模型要等很久。

另外，不管什么操作，它都会给出详细的讲解和代码注释。

总之，就我测试的情况来看，这个模型的 Web 开发能力确实很不错，可以用于实际工作。

最后，说一点题外话。著名开发者 Simon Willison 最近说，评测大模型越来越困难，"我识别不出两个模型之间的实质性差异"，因为主流的新模型都已经足够强大，足以解决常见任务，只有不断升级评测的难度，才能测出它们的强弱。

这意味着，对于普通程序员的常见编程任务，不同模型不会构成重大差异，没必要迷信国外的旗舰模型，国产模型就很好用。

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2025年12月23日

科技爱好者周刊（第 378 期）：预测是新的互联网热点

阮一峰的网络日志

19 December 2025 at 08:06

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

武汉首座电梯升降桥最近建成开放。因为上游有船厂，所以大桥有四根巨大的电梯柱，用来升起桥面，让船通过。（via）

预测是新的互联网热点

大家大概想不到，美国互联网的热点，现在不是 AI 网站，而是一种全新的网站，叫做"预测市场"（prediction market）。

这类网站像雨后春笋一样，每天都在冒出来。最有名的预测市场，目前是 PolyMarket。

预测市场的用途，就是预测各种各样的事情。以 PolyMarket 为例，首页顶部就是各种预测的分类。

热门事件、突发事件、最新预测、政治、体育......

只要是你能想到的事情，它都提供预测。

以上周末为例，首页热门预测如下（上图）。

《时代》杂志的年度人物是谁？

《时代》杂志年度人物名单会泄露吗？

美联储一月份的决定是什么？

OpenAI 下一次的大模型发布是哪一天？

你随便选一个，点进去就能看到，各种情况的概率。

上图预测的是，2025年12月5日至12日期间，马斯克会发多少条推文。

可以看到，概率最高的情况是440条～450条，概率33%，概率最低的情况是400条～419条，概率1%。

正是因为对于几乎任何问题，它都有实时的详细预测，美国人现在已经不怎么看民调了，改成看这种预测网站了。因为民调的抽样方法和样本大小，总是有局限的，反而是预测网站更反映市场的真实看法。

你可能会问，这些预测结果怎么产生？如何确保准确？

答案很简单，结果来自于用户的下注。

你看好哪一种情况，就可以对它下注。看好的人多，这种情况对应的概率就会上升，反之下降。

实质上，它的每一个预测都是一支股票，股价就是它的概率，1%的概率就是股价0.01元，100%的概率就是股价1元。

举例来说，某种情况的当前概率是2%，那么相当于0.02元。你看好这种情况，假定就花了100元买入。

结果，正如你的预测，它变成了现实，概率上升为100%，价格就变成了1元，相比你的买入价，整整上涨了50倍。于是，你投入的100元就变成了5000元。

反之，你预测错了，这个结果没有实现，概率变为0%，也就是0元，你投入的100元将一分都收不回来。

最近，美国的一条热门新闻就是，一个男子在 PolyMarket 上，对一个2%的小概率事件投入3000美元。结果，预测准确，他收回了12.5万美元。

为了方便世界各地的人参与，也是为了保证匿名，这种预测网站都采用稳定币交易。

所以，它的本质就是一个巨大的彩票市场，允许用户买卖自己最感兴趣、最熟悉的事件，这是它快速流行起来的根本原因。参与的人多了以后，反过来提高了预测的准确性。

我觉得，它的前景不可限量，一定会火爆的井喷式发展，传统彩票可能会被它彻底淘汰。

它把任何不确定的事情，都变成了彩票，实时量化了每一种可能性的概率，并且提供了金钱翻倍的途径。这一方面很有参考价值，可以用来判断未来情况，另一方面也非常有娱乐性和刺激性。

国产 Nano Banana Pro 的图片幻灯片生成

上个月，谷歌发布了新一代图像编辑模型 Nano Banana Pro（其实就是 Gemini 3 Pro 的图像分支）。

有一个功能引起了轰动：无论多么枯燥的文字，都能变成有趣的图片，从"读文"变成"读图"。

我当时就想，国产模型一定会马上跟进。

果然，昨天打开秘塔 AI，就看到他们发了这个功能，完全对标 Nano Banana Pro 以及 NotebookLM，而且还加入了自己的特色----讲解。

你点击"上传文件"（上图），上传各种资料（可以上传多篇），它就会自动创建一个知识库，输出内容的 AI 总结。这时，还会显示一个"给我讲讲"按钮。

上图是我写的一篇 JS 语法点 Promise 的教程，点击"给我讲讲"就会生成图片幻灯片 + 讲解。

大家可以去它们的官网 metaso.cn （手机 App 同名）试试看，这个功能挺好玩的，操作零门槛，关键是它免费（有赠送的积分）。

除了上传文件，你也可以直接搜索某个主题，再点击下方的"生成幻灯片"按钮。这时就会有"图片幻灯片"选项，并有20多种风格可选，还支持自定义。

科技动态

1、步行环游世界

上个世纪90年代的一天，一个英国青年在酒吧里随口说，他可以从南美洲最南端一路走到英国。他的朋友都不信。

他就跟朋友打赌，他能做到。1998年，他正式从智利最南端开始步行，那一年他29岁。

27年过去了，他已经56岁了，依然在路上。

好消息是，他已经接近行程的尾段，预计将于2026年9月到达终点英国。

下面就是他的路线图，从南美洲最南端到北美洲最北端，再到亚洲和欧洲，最后是英国。

整个行程中，他只能步行或者游泳，不能使用任何交通工具。最难的一段就是北美洲与俄罗斯之间的白令海峡，为了不坐船，他是在冬天从海冰上爬过去的。

这27年中，他也不是每天都在走，有时因为各种原因，会离开一段日子，然后再回来接着走。

他说，依靠个人的力量不可能完成这样的行程，留不开家人的支持、陌生人的友善，以及赞助商的帮助。

至于是什么力量支撑他坚持走了近30年？他说："你需要看看真实的世界，以及生活在其中的人们，这将是你所能接受的最好的教育之一。"

2、六臂机器人

美的公司展示一个六臂机器人，将用于无锡工厂的生产线。

它可以六只手同时执行三项任务。那样的话，一个机器人就相当于三个工人了。

3、手摇洗衣机

一位前戴森公司的工程师，为不发达地区发明了一种手摇洗衣机。

据介绍，这种洗衣机不需要电，只要手摇几分钟，就能洗净5公斤衣物，并且节省一半的水。

如果它真的有效，我有一个建议，就是把手摇改成脚踏车，只要踩5分钟踏板，就能洗一筒衣服。

文章

1、程序员为自己的工具命名时的彻底迷失（英文）

本文批评很多程序员为软件起名时，尽起一些烂七八糟的名字，根本看不出软件的用途，建议软件名称应该跟用途有相关性。

2、解读斯诺登文件（英文）

这篇文章详细分析了2013年斯诺登泄漏的文件，文章第一部分就是分析对北方工业公司的情报收集，美国的监控令人叹为观止。

3、从文本到词元（英文）

一篇科普文章，通俗地介绍搜索引擎如何将查询的文本转换成标准化的词元（token）。

4、大模型构建 HTML 工具的实用方法（英文）

著名程序员 Simon Willison 的长文，总结他使用大模型生成网页应用的经验。

5、GraphQL 蜜月期已结束（英文）

作者认为，GraphQL 解决的问题远比人们想象的小众，而且可以通过其他方式解决，这项技术最终往往弊大于利。

6、git add -p 的解释（英文）

本文介绍 git add -p 命令。它会显示一个互动界面，让用户逐个确认每个文件的变动，是否要加入暂存区。

工具

1、Cosmic

上周，Cosmic 1.0版正式发布了。它是一个全新的 Linux 桌面，美观且功能强大，为用户提供了 Gnome 和 KDE 之外的另一个选择。

2、Keyden

macOS 菜单栏的开源 TOTP 双因素认证器，密钥加密存储在 macOS Keychain。（@tasselx 投稿）

3、WeMD

开源的 Markdown 微信公众号编辑器。（@tenngoxars 投稿）

4、starling-speak

文本朗读网站，支持多种语言，带有录音功能。（@Keldon-Pro 投稿）

5、shift

一个基于 WebAssembly 的在线代码编辑器，支持直接在网页运行 Python、Lua、Ruby 等语言。（@hubenchang0515 投稿）

6、EasyImg

基于 Nuxt 4 构建的个人图床，丰富的后台配置。（@chaos-zhu 投稿）

7、Go-WXPush

Go 语言开发的微信消息推送服务，提供了一个简单的 API 消息推送接口。代码开源，每天10万次推送额度，个人用不完。（@hezhizheng 投稿）

8、ZeroLaunch-rs

Windows 应用启动器，拼音模糊匹配，基于 Rust + Tauri + Vue.js。（@ghost-him 投稿）

9、MrRSS

跨平台的开源桌面 RSS 阅读器，支持自动翻译、自动总结、新订阅源发现。（@ch3ny4ng 投稿）

10、PVE Touch

为移动设备优化的 Proxmox VE 管理界面，方便通过手机管理虚拟机。（@hanxi 投稿）

AI 相关

1、Disco

谷歌实验室推出的实验性 AI 浏览器，完全跳过网页搜索，目前需要排队等待名额。

2、Flowers

开源的浏览器 AI 助手插件，提供网页翻译、问答、笔记等功能。（@snailfrying 投稿）

3、DeepAudit

开源的代码审计平台，通过智能体实现漏洞挖掘和自动化沙箱 PoC 验证，支持 ollama 私有部署模型，代码可不出内网。（@lintsinghua 投稿）

资源

1、生命的尺寸

这个网站用图形展示各种生命体的大小比较，从 DNA 一直到蓝鲸。

2、写一个你自己的 C 语言编译器（Build Your Own Lisp）

一本面向初学者的免费英文电子书，介绍怎么用 C 语言写编译器，以 Lisp 语言的编译器为例。

3、A Soft Murmur

一个背景音网站，可以开关不同的音效，并调节它们的音量。

图片

1、13个圆画出动物

一个艺术家使用13个圆，画出各种动物。

猫头鹰

兔子

猴子

文摘

1、Claude Opus 4.5 是第一款让我真正担心自己工作会丢掉的大模型

Claude Opus 4.5 真是完全不同于其他模型。还没用过的人根本无法想象未来两三年会发生什么，明年可能就是最终的转折点。

我不知道接下来该如何适应。当然，我可以整天看着 Opus 帮我工作，偶尔出点小问题再干预一下，但再过一段日子连这些都不需要了呢？

编码问题基本上已经解决了，接下来像系统设计、安全之类的问题也会迎刃而解。我估计再过两三个版本，80%的技术人员就基本没用了。当然，公司还需要一些时间来适应，但他们肯定会想方设法尽快摆脱我们。

虽然我很喜欢 AI 这项技术，但一想到这一切最终会走向何方，我就感到难过。

2、为什么学习物理学

（本文摘自理查德·费曼于1963年6月在里约热内卢举行的美洲物理教育会议上发表的演讲。费曼是加州理工学院理论物理学教授。）

我们应该教授物理学，这有五个原因。

（1）物理是一门基础科学，应用于工程学、化学和生物学等各种技术领域。

物理是研究自然界的科学，或者说是认识自然界的科学，它告诉我们事物是如何运作的，以及人类在当前和未来的技术中发明的各种设备是如何工作的。因此，懂物理的人应对本行业出现的技术问题会很有用。

（2）物理教会你如何动手做事情。它教授许多操纵事物的技巧，以及测量和计算技巧，这些技巧的应用范围比特定研究领域要广泛得多。

（3）物理作为一门科学，对许多人来说，是一种极大的乐趣。

科学教育培养出来的科学家，不仅为工业发展和知识发展做出贡献，同时也参与了我们这个时代的伟大冒险，从中获得巨大的乐趣。

即使一个人没有成为一名专业科学家，研究自然也是为了欣赏自然的奇妙和美丽。这种对自然的了解也给人一种稳定和现实的感觉，并驱散了许多恐惧和迷信。

（4）物理教会人们如何认识事物，帮助你质疑很多事情。质疑和自由思想的价值，不仅对科学发展，而且对其他各个领域，都显而易见。

科学教导我们如何认识事物、什么是未知事物、事物被认识到什么程度、如何处理怀疑和不确定性、证据规则是什么、如何思考事物以便做出判断、如何区分真理与欺诈。这些无疑是教授科学，特别是教授物理的重要收获。

（5）在学习科学的过程中，你会学会如何试错，培养发明创造和自由探索的精神，这种精神的价值远远超出了科学本身。

人们会学会问自己："有没有更好的方法？"我们必须想出一些新的技巧或方法，以改进这项技术。这种想法是许多思想、发明创造以及各种人类进步的源泉。

言论

1、

为什么我们有两个鼻孔，而不是一个大洞？

因为肺部持续需要空气，两个鼻孔可以交替工作，让鼻子的一侧得到休息。

-- 美国《大众科学》

2、

报社招我去当撰稿人，我以为是去写稿，结果却是以极低的薪水让我编辑 AI 生成的文案草稿，理由是"大部分工作已经完成了"。

这让我深受打击，我曾经觉得自己很有价值，受人重视，对未来充满希望，渴望拥有辉煌的职业生涯，现在却只能修改 AI 生成的文字。

-- 一位自由撰稿人

3、

SaaS 行业将会萎缩，尤其是那些功能简单的 SaaS，因为企业现在可以用 AI 快速生成内部服务。

-- 《AI 正在蚕食 SaaS》

4、

我发现，中文不喜欢直接说 True，更倾向说 !False。比如，英文说"很好"，中文说"不坏"，英文说"对的"，中文说"没错"，英文说"正常"，中文说"没问题"。

中文更喜欢双重否定"否定词+否定词"，这种表达方式增加了模糊性（含糊其辞）和灵活性（模棱两可），创造了回旋余地，避免了肯定答复导致的态度明确、归类迅速、立场鲜明。

-- 《为什么中文拒绝说 true》

往年回顾

你可能是一个 NPC（#331）

新基建的政策选择（#281）

互联网公司需要多少员工？（#231）

移动支付应该怎么设计？（#181）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2025年12月19日

科技爱好者周刊（第 377 期）：14万美元的贫困线

阮一峰的网络日志

12 December 2025 at 08:07

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（yifeng.ruan@gmail.com）。

封面图

腾讯集团创始人之一的陈一丹，投资建设的深圳一丹中心，目前已经结构封顶，上图是建筑效果图。（via）

14万美元的贫困线

一个人需要多少钱，才能摆脱贫困？

我看到一篇美国人的文章，作者说，美国政府规定的贫困线是，四口之家的年收入不足3.12万美元。

根据统计，美国四口之家的年收入中位数是8万美元，远超贫困线。按照这个标准，贫困的美国家庭应该不多，8万美元可以让一家人过上"中产阶级的生活，或许还算舒适"。

但是，事实却是，这点钱在美国会过得手头很紧，根本不够一家人的开销，你经常会烦恼钱不够用。

作者就问了，美国的贫困线为什么是3.12万美元？真正的贫困线应该是多少？

他发现，贫困线的计算方法，来自1963年的一次调查。调查发现，美国家庭那时收入的三分之一用于食品，政府就把食品的最低开销乘以3，得到了贫困线，沿用至今。

2025年，美国四口之家一年最低的食品开销是1万美元，乘以3就得到了贫困线3.12万美元。

但是，半个多世纪过去了，家庭的消费结构和物价彻底变了。

现在，家庭的食品支出不是三分之一，对大多数家庭来说，大概仅为5%至7%。家庭支出的大头变成了住房、教育、医疗，其中住房占支出的35%至45%，医疗占15%至25%，子女教育占20%至40%。

所以，如果要覆盖基本开销，总支出不再是食品支出乘以3，而是乘以13到15。

这样计算的话，美国四口之家的贫困线应该在14万美元左右。只有年收入达到这个数字，才足以覆盖一家人的基本开销。

这很惊人，14万美元约等于100万人民币，这样的家庭收入在美国还是存不下钱。

这就是为什么，你的收入看上去不低，却总感觉钱不够用的原因，因为实际的贫困线比名义的贫困线，高出非常多。

我觉得，这篇文章的最大价值在于提供了一种方法，估算收入应该是多少，才能免于贫困。

具体来说，真实贫困线就是食品开支乘以它所占比例的倒数。

假定你的食品开支是每天30元，每年1万元左右，占总支出的十分之一，那么你的年收入如果低于1万元乘以10（即不足10万元），你就还是属于贫困阶段。

任正非最新谈话

12月5日，华为创始人任正非在上海青浦区的练秋湖华为研发中心，与今年的国际大学生程序设计竞赛（ICPC）的组织者和参赛者进行座谈。

座谈记录已经上网，主要围绕了 AI 和美国对中国的高技术封锁。

（1）AI 无人化富余出的员工怎么办？

要发展再教育工程，例如实行学券制，给下岗人员一些学券补贴，把一些已经空着的学校、工厂变成职业学校，对下岗人员进行职业再教育。

（2）无人化进展速度不能快，还是要慢慢来，要使社会结构发展稳定。AI 带来的社会好处是总财富增加了，怎么分享这些财富？怎么重新造就一些人再上岗呢？这就是新的课题。

（3）以后是算力过剩，不是算力不足。

（4）华为公司当前最重要的是 CT（通信技术，Communication Technology），就是无线电、光通信、核心网、数据通信......。为什么？将来 AI 的感知与控制，要把数据传到几千公里外，必须要有一个先进的网络。AI 要真正产生出价值，需要全社会的协作，发挥各自的优势。没有网络的算力是信息孤岛，孤岛化的 AI 无法实现真正的智能。

（5）Meta 公司给几个青年人每个人上亿美元的签约金、千万美元的年薪，中国互联网上没有多大的声音波动，为什么？因为不羡慕了。现在国内一大批创业者，能力非常强。七、八人合作做一个公司，二、三十人合伙，股份全是他们的，做好了想拿多少拿多少。

（6）美国的土壤是适合种庄稼的，大量人才到美国成长这是好事情，并不是坏事情，包括中国的很多青年到美国去，在美国生根发芽，参与创造一些新的科技文明。

（7）美国创造的科技文明，对世界不是有害的，是有益的，我们也要支持美国科技文明的发展，因为美国创造的科技文明，关起来不去给别人用，那美国怎么赚钱？他赚你钱的过程中，同样促使你的产业进步。如果没有欧洲的文明，我们怎么可能有汽车、火车、轮船......？

（8）我们也渴望全球化，能享受站在巨人肩膀上，我们的自力更生是被逼无奈的。全要靠自己，是不敌全球化的，我们在许多方面落后国内企业使用的芯片至少一代。

（9）中国要更加开放，要向世界所有文明国家学习优点，容纳世界的文明进来，不能闭关自守。开放改革把国门打开了，让世界的文明进来，并没有产生文明冲突，文明叠加起来共同创造了一种价值，就是今天的新中国。

科技动态

1、老鼠捕食蝙蝠

德国科学家第一次拍到，老鼠（褐家鼠）捕食蝙蝠的镜头。

这证明了老鼠有很高的智力，会潜伏捕食飞行的动物。

但是，这也让蝙蝠的病原体传播到啮齿动物，从而增加感染人类的可能性。

2、AI 炒股

如果让大模型炒股，会怎样？

国外有人做了实验，他们选了五个模型，每个模型有10万美元本金，进行了为期8个月的炒股。

模型每日根据实际股价，进行虚拟交易，目标是尽可能多盈利，结果总体令人满意。

指数上涨了12.3%，但是第一名 Grok 4 涨了56.1%，第二名 DeepSeek 涨了 49%，第三名 Claude Sonnet 4.5 涨了27.3%，第四名 GPT-5 涨了27%。

唯一的输家是 Gemini 2.5 Pro，它因为没有买科技股，亏了9.5%。

这到底是随机的结果，还是大模型真的善于炒股，值得进一步研究。

3、草莓工厂

上海最大的数智草莓工厂在青浦区投产。

该工厂占地11亩，采用垂直种植，光照和水肥都是自动控制，可以全年365天不间断生产。

据介绍，工厂的年总产量是传统地栽模式的10倍，产值30倍以上（售价翻3倍？）。

4、菜单里的图标

很多软件的菜单带有图标，比如 Google Sheets。

菜单是否需要图标，一直有争论，很多人认为并不需要，比如 macOS 就不带有图标。

但是，最新版的 macOS Tahoe 全变了，菜单也开始带有图标了。

可能因为修改得非常匆忙，有些菜单项有图标，有些没有，比如下图是 Safari 文件菜单。

更糟糕的是，macOS 的有些菜单项，带有表示状态的"勾选"图标，会出现两个图标并排（下图），让菜单看上去很乱。

文章

1、内存价格为何暴涨？（英文）

现在的内存价格是上半年的三倍，原因是今年10月1日，OpenAI 公司同时与三星和 SK 海力士签署了协议，买断了全球40%的内存供应，引起了其他厂商的恐慌。

2、AV1 赢得艾美奖（英文）

美国电视最高奖艾美奖，将今年的技术与工程奖授予视频编码格式 AV1，本文是对 AV1 历史的简单介绍。

3、GitHub 不再使用 Toast（英文）

Toast 是一种 UI 组件，通过矩形弹框显示消息。GitHub 表示，这种组件的可访问性不佳，不建议使用。

4、2025岁末 AI 模型选型指南（中文）

现在的大模型如此之多，即使同一个模型还分成多个型号，应该如何选择？

作者从性价比的角度，谈了他的选型方法：大杯、中杯、小杯怎么选？Thinking 要不要关掉？缓存命中率值不值得做？（@thuwyh 投稿）

5、Linus 访谈（英文）

Linux 内核创始人 Linus Torvalds，上周上了一个视频节目，与主持人进行了深入对谈。本文是节目的内容总结。

6、Conventional Branch（英文）

这是 Git 分支命名规范，建议命名为feature/、bugfix/、hotfix/、release/、chore/等几类。（@shenxianpeng 投稿）

工具

1、Mission Center

Linux 的资源管理器，图形化实时显示本机的资源占用情况。

2、tunnel.gg

一个免费服务，只要你的主机通过 SSH 连接到它的服务器，它就分配一个子域名，让你的主机暴露到互联网。

3、Puter

一个开源的云桌面，需要自己架设，包含文件管理器、画笔、笔记本、照相机、Code 等组件，试用 demo。

4、Feedsmith

一个用于 RSS 解析和生成的 JS 库。

5、react-sounds

一个为网页加入各种音效的 React 组件。

6、dbdiagram.io

输入 SQL 语句，就能生成数据库的实体-关系图。

7、QM-Music

基于 Subsonic 的私有云音乐服务器，采用 Docker 部署，兼容各种 Subsonic 客户端。（@chenqimiao 投稿）

8、React DevTools Plus

React 调试工具，以 Vite/Webpack 插件形式提供，一键即可在浏览器唤起调试面板。（@wzc520pyfm 投稿）

9、京墨文库

开源的鸿蒙应用，另有安卓版。（@hefengbao 投稿）

10、hyperlane

一个轻量级、高性能的 Rust Web 服务端框架，简化现代 Web 服务开发。（@eastspire 投稿）

AI 相关

1、Magic English Buddy

面向小朋友的英语阅读学习工具，通过 AI 生成个性化英语故事，提供文本朗读和单词高亮。（@xckevin 投稿）

2、Next AI Draw.io

通过自然语言命令，生成并修改 draw.io 流程图的网页应用，代码开源。（@DayuanJiang 投稿）

3、Hacker news Agent

一个需要自搭建的后台服务，从网上抓取 AI 相关新闻，并发送摘要邮件，整个过程都由 AI 完成，需要安装 Claude Code。（@wjcwjc77 投稿）

4、Lumina Note

桌面端的笔记软件，支持 Windows 和 Mac，带有 AI 助手。（@blueberrycongee 投稿）

5、MigicCube

使用小米 AI 眼镜，在 20 步内还原任何三阶魔方，原理是识别魔方状态，然后算出解法，最后通过语音给出操作提示。（@idootop 投稿）

资源

1、大模型 SVG 生成基准测试

这个网站测试了9个大模型，让它们生成30个场景的 SVG 文件，来比较谁的生成能力强。

2、Gemini CLI 使用指南（英文）

这个仓库收集了30多个详细的 Gemini CLI 的用法和技巧介绍。

3、2025年 CSS 进展

Chrome 团队推出的 CSS 年度总结，今年的一些语法进展。

图片

1、建筑师弗兰克·盖里

美国建筑师弗兰克·盖里（Frank Gehry）本周去世，享年96岁。

他以设计形状奇特的房子而闻名，下面是他设计的5个著名作品。

拉斯维加斯的脑健康中心（Lou Ruvo Center for Brain Health）。

明尼阿波利斯的弗雷德里克·R·韦斯曼艺术博物馆。

布拉格的跳舞的房子。

西班牙毕尔巴鄂的古根海姆博物馆。

巴拿马城的生物博物馆。

文摘

1、速度为何重要？

在我的职业生涯中，我观察到一个不变的现象是，人们低估了快速行动的必要性。

你的项目耗时久并非优点，而是一个缺点。

快速行动并不意味着你能迅速完成项目。项目包含许多部分，要把所有环节都做好可能需要很长时间。

但是，你还是应该尽快行动，原因有很多。

（1）一个常见的错误是花费太多时间在项目无关紧要的部分，等你做完才发现没人需要那个部分，就为时已晚了。

（2）人从错误中学习。犯错越快，学习越快。

（3）你的成果会随着时间推移而贬值，变得不再那么重要。到时候，你再想重做跟上时代，已不可能了。

这就像大学里那位二十年前花了七年时间准备讲义的教授，他不可能把讲义扔掉重写，因为那又是一个需要七年时间的新项目。所以他会继续使用这些陈旧的讲义，直到退休。

别这么慢，快点！

言论

1、

两家公司的平均智商都提高了。

-- 苹果公司设计主管艾伦·戴伊最新辞职，加入 Meta 公司，这是推特上对此事的评论。

艾伦·戴伊在苹果公司内部评价不高，而 Meta 公司的专长并不是交互设计，他或许能提高 Meta 的设计水平。

2、

2025年还在写博客的感受，就好像对着虚空呐喊。

-- Askmike.org

3、

Meta 公司发售了一副 AR 眼镜，据说有很多功能。但是，这种眼镜本质上是绑在脸上的摄像头，供 Meta 公司观察世界。

-- Victoria Song，网络媒体记者

4、

AI 公司股价大涨的原因是，它向投资者描绘了一幅场景：AI 将来会承担人类工作，当老板解雇员工并用 AI 替代时，老板会省下你的一半工资，并将另一半工资交给 AI 公司。

-- 《AI 批判指南》

5、

创作者平台（比如抖音）的问题是，它们只向创作者支付很少的报酬，导致每个知名创作者最终都会转向销售产品、寻求赞助和品牌合作。

--《创作者经济如何摧毁了互联网》

往年回顾

李开复梳理人工智能（#330）

机器点餐与宅文化（#280）

电子产品的用电量（#230）

你想住在中国哪里？（#180）

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
发表日期： 2025年12月12日