Normal view

There are new articles available, click to refresh the page.
Yesterday — 31 March 2026Main stream

凌晨三点,我在排队等一个 AI

By: 莫崇宇
31 March 2026 at 17:11

「你见过凌晨四点的洛杉矶吗?」

这本是一句用来兜售自律的鸡汤文,可在 AI 浪潮漫过各行各业的今天,深夜走进一家 AI 漫剧制作公司,你可能会看到一群眼圈发黑的打工人在工位上使用 AI 来处理他们本该在白天完成的工作。

AI 能提升效率、解放劳动力的故事,我们听了太多年,不能说全是谎言。

但当算力变成紧俏的稀缺资源,「错峰使用」也成了全球 AI 公司心照不宣的统一话术时,打工人非但没有从冗余的工作里解脱,反而被塞进了另一套更拧巴的工作时间表里。

AI 算力不够,打工人的睡眠来凑

今年年初,字节跳动的 AI 视频生成模型 Seedance 2.0 爆火,火到无需多言。

宇树科技创始人王兴兴称它是「全球遥遥领先」。冯骥体验过后,给出「AIGC 的童年时代结束了」的评价,春节返工后的高峰时段,排队使用的人数一度冲到十万,足以见得市场对它的狂热。

行业大佬的背书、市场的狂热,直接推高了 Seedance 2.0 的旺盛需求,而这份需求,最终也传导到了下游的 AI 相关企业。

据 36 氪未来消费报道,AI 漫剧制作公司鹤芽漫剧,早早就把上班时间调到了中午,一干就到凌晨 1 点,目的只有一个:避开白天的算力高峰。

更戏剧性的情节是,凌晨 1 点的排队人数仍以万计,无奈之下,上班时间只能再往后提,最终定格在凌晨三点。

 

据此前 The Information 报道,想获得 Seedance 的企业授权,先要通过资质审核,想拿到谈判席位,企业需要先承诺至少 1000 万元人民币的使用预算,这还只是排队的起步价。

值得注意的是,这些报道的细节未必完全准确,但有一点大概率成立:能坐上谈判桌的,本来就是少数。

对大多数中小型公司来说,错峰上班,用人熬夜换机器运转,反倒成了最务实的办法。

究其原因,AI 工具的能力已经强到足以重组一家公司的工作方式,可支撑它的基础设施,却还没跟上这份能力的步伐。AI 的每一次推理、每一段文本生成、每一帧视频渲染,都在真实消耗着昂贵的 GPU 计算周期和电能。

没有免费的智能,每一次调用都是真金白银的损耗。这直接倒逼 AI SaaS 平台的定价模型,从过去的席位制,转向基于 Token、基于操作、基于消耗量的计费方式,一分一毫都算得清清楚楚。

在这样的 Token 经济学逻辑下,边际成本高企,平台方根本无法容忍用户在算力紧张时无节制消耗。因此,限制配额、排队等待、建议错峰使用成了必然选择。

另一个方面就是 Sora,据《华尔街日报》报道,OpenAI 之所以选择关闭 Sora,原因之一就是它每天要烧掉约 100 万美元,可用户数量却从上线时的 100 万,暴跌到不足 50 万。

当留存数据难看,商业化路径又模糊不清,这笔烧钱的买卖,自然没有继续下去的理由。

包括同一时期,Anthropic 宣布调整 Claude 的使用规则,将太平洋时间早 5 时至 11 时定为高峰时段,这个窗口内,用户的会话额度消耗会明显加快。换算成北京时间,恰好是晚 8 点到凌晨 2 点,也让不少网友自嘲,难得享受到了时差的红利。

去年 DeepSeek 爆火时,也因为服务器资源紧张做过类似的尝试,一度暂停了 API 充值。重新开放后推出了夜间优惠,表面上是给用户让利,本质上,就是用价格杠杆,把流量强行分散到夜间,缓解白天的算力压力。

只是,我们发明 AI 是为了像人一样思考,结果却要求人像机器一样「错峰运行」。

当然,这或许只是一个过渡阶段。当年宽带刚普及的时候,也有人半夜爬起来下载一部电影,谁也没想到后来流媒体会变得如此理所当然。

尽管我们还没有到完全被 AI 支配日程的地步。但这个苗头依旧值得留意——当越来越多的工作流开始依赖 AI,当 AI 的响应速度和可用性直接影响到一家公司的产出效率,人对它的依赖,也就在不知不觉中加深了。

用了 AI,为什么越来越累?

如果说第一部分的「错峰上班」还只是为了解决能不能用的问题,那么更深层的痛苦则来自于:即便算力充足,AI 也没有让工作变少。

在铺天盖地的宣传里,AI 是那个无所不能的超级助理,是解放双手的灵丹妙药。可一旦这些工具真正落到具体的工位上,打工人们发现,预想中的「一键下班」并没有发生。

Upwork 在 2024 年对 2500 名职场人士的调查发现,96% 的管理层坚信 AI 会提升员工效率,可实际上,77% 的员工反映,AI 的引入,反而让他们的工作量增加了。

领导们觉得 AI 在帮你减负,于是理所当然地给你加派任务;而你却像个被抽得越来越快的陀螺,忙得脚不沾地,连喘息的时间都没有。

EY 2025 年覆盖 29 个国家、1.5 万名员工的调查,给出了类似的结论:64% 的受访员工认为过去一年工作量有所增加,而真正能把 AI 用到改变工作方式、提高效率的,只有 5%。

换句话说,大多数人用 AI,还停留在搜索、总结这种浅层层面。并且根据《哈佛商业评论》今年 2 月份的研究,AI 非但没有减少工作,它让工作强度变高了。

研究发现,AI 引入后,员工的工作节奏被强行加快,承担的任务范围变宽,工作时间延伸到了更多碎片化的小时里,而且很多时候,并没有人明确要求他们这样做。

这背后,藏着一个容易被忽视的经济学逻辑——「杰文斯悖论」:

技术让某件事变得更高效,往往反而会增加对这件事的总需求。AI 在职场中的处境,完美契合了这个悖论:单项任务的效率提高了,但任务总量也跟着水涨船高,最终,打工人的总工作量,非但没有减少,反而越来越多。

尤其是当 AI 生成的内容如海啸般涌现,可事实核查、逻辑梳理、细节修改这些需要人类判断力的工作,仍然只能由人来完成。于是,打工人的工作,从具有成就感的创造,悄然变成了枯燥又疲惫的打扫和校对。

期间工作量并没有凭空消失,它只是换了一种更隐蔽、更折磨人的形式。

除此之外,人不光要把自己的本职工作做好,还得自己去琢磨那些不好懂的提示词,在各个 AI 模型之间来回切换、反复尝试,才能找到能用的工具。

伊万·伊利奇 1981 年提出的「影子劳动」,指的是为了维持正式工作运转而不得不做的无偿准备性劳动。学会用 AI、管理 AI 工具链、校验 AI 输出,这些也正在成为职场隐性的准入门槛,既不算工作时间,又不计入薪酬,却真实地消耗着人的时间和精力。

比如有的人为了不被时代落下,也为了完成公司要求的 AI 使用指标,只能自己花钱,每个月掏几百上千块,去订阅各种 AI 工具的高级账号。

凌晨三点上班,看上去是在抢算力红利,本质上,是个人在用自己的生物钟,替一个还未成熟的行业,扛下它转嫁出来的不稳定性和成本。这笔账,怎么算都不划算。

只是目前在时代浪潮面前,个体的反抗,大多显得苍白无力。

工业革命以前,人跟着太阳走,天亮干活,天黑睡觉,时间是自己的。后来有了电,夜班出现了,工作时间开始突破昼夜的界限。再后来有了互联网,下班的边界开始模糊,工作可以随时随地找上门。

再后来有了手机,随时在线变成了默认状态,工作彻底入侵了生活的每一个角落。

每一次技术迭代,都有人说,这是自愿的,是进步,是效率的提升。

每一次,也都有人发现,最后承担代价的人,从来都不是最先喊着技术革命的那个人。

我们最初希望 AI 能替人省力,让时间变得宽裕一些。可眼下的现实是,它在某些地方确实提升了效率,却也在另一些地方制造了新的紧迫感:因为它能做到,所以你必须用;因为人人都在用,所以你不能慢。

内卷的逻辑没有消失,只是换汤不换药。我不确定这算不算一种必然的规律。但我知道,AI 本该是给你一把伞,帮你遮风挡雨,而不是顺理成章地把你赶进一场更大的暴雨里。

*封面、正文图片源自互联网

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Before yesterdayMain stream

「日本最强AI」塌房了!扒开代码全是DeepSeek,日本网友集体破防

By: 张子豪
18 March 2026 at 12:33

「终于到日本用中国 AI 来冒充日本产 AI 的时代了」

最近这件事在日本的 X 讨论炸了,起因是昨天日本一家科技公司乐天集团(Rakuten)在日本经济产业省(METI)的 GENIAC 项目(日本 AI 政府资助项目)支持下,高调发布了号称「日本最大、性能最强」的 7000 亿参数大模型 Rakuten AI 3.0。

但发布后不久,开源社区就迅速扒出,该模型的底层架构实际上是来自我们的 DeepSeek-V3,乐天仅仅是做了日文数据的微调。

在知名的 AI 开源库 Hugging Face 上,Rukuten AI 3.0 赫然在自己的配置文件里面写着架构来自 DeepSeek V3。

而在 Rakuten AI 3.0 模型的发布新闻稿里,丝毫没有提到任何关于 DeepSeek 的信息,只是含糊的说「它融合了开源社区的精华」,让一众网友以为这款模型就是日本自主研发的。

更致命的是,乐天为了掩盖这一事实,在开源时偷偷删除了 DeepSeek 的 MIT 开源协议文件。在被社区实锤后,才灰溜溜地以「NOTICE」文件名重新补上。

▲在 Hugging Face 上能看到项目文件的提交历史,显示修改

日本网友纷纷表示,「这让人无法接受」,拿着日本政府补贴,竟然只是微调了一波中国的 DeepSeek,还有人说,用 DeepSeek 就算了,还要偷偷藏藏真的很逊。

掩耳盗铃的「日本最强」

单看 Rakuten 公司发布的公关稿,这个模型确实算得上是日本在 LLMs 领域的一次比较有实力的发布。

这是一款拥有约 7000 亿参数的混合专家(MoE)模型,经开源社区确认,是和 DeepSeek V3 一样的671B 总参数,激活 37B。乐天首席 AI 官 Ting Cai 将其形容为「数据、工程和创新架构在规模上的杰出结合」。

Ting Cai 这名字一听就不像是日本当地人,有日本网友在评论区说,用 DeepSeek 很过分,更过分的是,主导这个模型的大老板,是个彻头彻尾的移民强硬派。

我们发现 Ting Cai 曾在美国 Google、苹果公司工作过,并在微软待了超过 15 年,本科在美国石溪大学,计算机科学就读。他曾在采访中表示,十八岁他第一次出国,去的就是日本,确实是个「移民强硬派」。

关于 Rakuten AI 3.0 的模型表现,在官方公布的各项基准测试中,它在日语文化知识、历史、研究生水平推理、甚至竞技数学和指令遵循等维度上,得分表现都极其优异,大有横扫日本本土大模型圈的架势。

不过,用来对比的模型,是已经被下架了的 GPT 4o、只有 1200 亿参数的 GPT OSS,还有日本的新兴另一个 AI 开发企业 ABEJA 基于千问推出的 ABEJA QwQ 32b 模型。

7000 亿和最多 1200 亿比,Rakuten AI 3.0 确实是赢了不少。同时作为经产省 GENIAC 项目的重点扶持对象,乐天获得了大量的算力资源支持。GENIAC 这个项目设立的初衷,正是为了建立日本本土的生成式 AI 生态,缓解对海外巨头技术依赖的焦虑。

日本最大的参数规模,再加上这层「国家队」的滤镜,让 Rakuten AI 3.0 一出场就戴上了「全村希望」的光环。

还得是 DeepSeek

但光环褪去得比想象中更快。

先不说 7000 亿参数、MoE 架构,这几个关键词组合在一起,在当今的开源大模型圈子里,指向性实在太强了。等到开源社区的开发者们,到 Hugging Face 上一看详细的代码配置文件,竟然直接就写着 DeepSeek V3。

从底层逻辑来看,这就是「中国架构 + 日本微调」。DeepSeek 提供了那套被全球验证过、极其高效的底层架构和推理能力,而乐天则利用其本土优势,用高质量的日文语料对其进行了微调,让它变得更懂日本文化。

客观来说,拿开源模型做本土化微调,在技术圈是一件极其正常且合理的事情。就像他们拿来作为对比的 ABEJA QwQ 32b 模型一样,连代号都不改,直接用 Qwen 的 QwQ。

▲日经新闻曾报道,日本公司开发的前十大模型里,有 6 个都是基于 DeepSeek 或 Qwen 进行二次开发

如果乐天这次也坦坦荡荡地承认使用了 DeepSeek 的底座,顶多是一次缺乏新意的「套壳」发布,兴许还能蹭一波 DeepSeek 的热度。

但他们偏偏选择了掩藏。

之前我们分享美团浏览器使用开源项目时,曾提到不同的开源协议,其中 DeepSeek 采用的 MIT 协议,堪称开源界「最卑微、最宽容」的协议。它允许用户免费拿去商用、修改、甚至闭源赚钱。它唯一的请求只有一个:在项目里,保留原作者的版权声明和许可声明。

▲Rakuten 模型发布新闻稿|
https://global.rakuten.com/corp/news/press/2026/0317_01.html

而乐天不仅在模型发布博客中对 DeepSeek 绝口不提,更是直接在代码库里抹除了这份协议文件,还高调宣布自己采用的是 Apache 2.0 协议开源。虽然 Apache 2.0 同样是对商业极度友好的开源协议,但它更正式,常被大厂用来建立自己的开源生态和专利护城河。

▲不同开源协议对比,MIT 协议比 Apache 协议更宽松、更简短,Apache 2.0 在赋予自由的同时,明确包含了专利授权保护和更严谨的责任免除条款,适合更大型、法律风险规避更严格的商业项目|图片来自互联网

乐天的算盘打得很精,抹掉 DeepSeek 的名字,套上自己的 Apache 2.0 协议,再把自己包装成「慷慨开源 7000 亿参数大模型」的日本 AI 救世主。

喊了一年多的欧洲版 DeepSeek、美国版 DeepSeek,最后好像都没有做出来。

乐天也想做日本版 DeepSeek,但在算力和训练成本的压力下,在当前全球大模型飞速发展的局面下,既想要中国技术的极致性价比,又放不下打造「本土巨头」的身段,显然是难上加难。

不如和我们一起等等 DeepSeek V4 吧。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

【CDT报告汇】中国AI模型国际扩张之际,三份研究显示中国AI嵌入审查机制与官方叙事(外二篇)

15 March 2026 at 21:17
CDT 档案卡
标题:【CDT报告汇】中国AI模型国际扩张之际,三份研究显示中国AI嵌入审查机制与官方叙事(外二篇)
作者:中国数字时代
发表日期:2026.3.15
主题归类:CDT报告汇
主题归类:中国数字极权
主题归类:智慧城市
主题归类:西藏
CDS收藏:公民馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

编者按:《CDT报告汇》栏目收录和中国言论自由及其他人权问题相关的报告资讯。这些报告的来源多种多样,包括机构调查、学术研究、媒体报道和网民汇集等等。也欢迎读者向我们推荐值得关注的报告。

中国数字时代本周推荐媒体:

CHINA Books Review(中国书评):是一份在线出版物,将提供与中国图书相关的信息、见解和智慧的评论。该书评网站由中国连线 (The Wire China)亚洲协会美中关系研究中心 (Asia Society’s Center on U.S.-China Relations) 共同发起。该网站将免费提供由知名作家撰写的书评、作者访谈、编辑节选,以及更多类似《纽约书评》的一般性文章,并且将重点关注有关中国和来自中国的书籍以及更广阔的汉语世界。

一、中国AI模型国际扩张之际,审查机制与官方叙事一同向世界输出

人工智能 (AI) 正在迅速成为全球信息传播的重要渠道。在这个过程之中,中国的AI模型也逐渐走向世界,被一些西方国家的用户所接受。

然而,中国问题研究者莎拉·库克 (Sarah Cook) 近日发表了一篇文章,引用了至少三份研究报告指出,中国开发的大语言模型在输出信息时,往往同时嵌入政治宣传与内容审查机制,这种影响正随着中国AI产品的全球扩散而扩大。

img

莎拉·库克专栏UnderReported China截图

文章指出,研究者在测试中发现,这些模型在涉及政治、安全或国际议题时,经常提供带有明显倾向的回答。库克写道,这些模型“嵌入了中共的内容控制机制”,其影响范围已经超出中国国内政治议题,延伸到欧洲与美国的安全问题。比如,在爱沙尼亚外国情报局2026年发布的国际安全报告中,研究人员发现:“在讨论与爱沙尼亚安全相关的问题时,DeepSeek 会隐瞒关键信息,并在其回答中插入中国宣传内容。”

其他两份报告分别是:非营利组织“政策基因组” (Policy Genome) 对俄罗斯入侵乌克兰事件描述所做的简要审计,以及由瑞典心理防御局发布、由中国媒体项目 (CMP) 研究人员撰写的更为详细的研究报告。

作者在仔细阅读了近日发表的这三份报告后,总结了“与中国来源的大型模型相关的四个关键动态”。

首先,这些模型经常融入中国官方宣传,有时甚至是无缘无故的。例如,在涉及乌克兰战争的问题时,一些中国AI模型会重复中国政府的外交立场,对俄罗斯的责任描述含糊,甚至将部分西方国家描绘为冲突升级的主要原因。库克指出,这类回答模式并非偶然,而是源于训练数据和模型设计中的政治限制。

其次,内容控制涉及国家安全和公共安全的重要话题。“除了与乌克兰战争相关的扭曲事实外,中国的人工智能模型还会加剧网络安全风险和其他漏洞。当被问及中国技术的安全性时,DeepSeek 给出了听起来很官方、很专业的可靠性保证,却只字未提任何已记录在案的黑客攻击、网络间谍活动或跨国镇压案例。”

此外,这些影响不仅限于最初的模型,还扩展到基于这些模型构建的更广泛的应用之中。

由于中国开发的模型是开源的,而且比 OpenAI 或 Anthropic 等公司的专有模型便宜得多,因此世界各地的开发者都将其作为新工具的基础层。CMP 的研究人员报告称,在撰写本文时,13 个功能最强大的开源模型中,有 7 个来自中国公司。

最后一点,作者指出,AI 模型的回答“因语言、版本和时间范围而异”。与大多数人工智能测试一样,结果并不一致。爱沙尼亚的报告指出,随着问题越来越接近当下,关于爱沙尼亚相关话题的回答变得“越来越意识形态化、含糊其辞且晦涩难懂”。Policy Genome 的审计针对来自不同国家的六个模型(包括 DeepSeek)就乌克兰战争提出的七个问题进行了分析,发现英语和乌克兰语的回答大多准确,但 DeepSeek 的一些俄语回答却支持克里姆林宫的论调或引入了误导性细节。其结论揭示了其中的细微差别:

作者称,这种审查机制并非单纯的技术问题,而是中国信息治理体系在人工智能时代的延伸。长期以来,中国官方强调“舆论引导”,要求媒体与信息平台传播与政府政策一致的叙事,而 AI 系统正在成为新的执行工具。

库克认为,随着中国 AI 产品在全球市场的扩张,这些嵌入式的宣传和审查机制可能对国际信息环境产生更广泛的影响。她写道:“这些模型可能成为一种新的信息漏洞”,因为许多用户会把 AI 回答视为客观知识来源。

文章最后指出,这一问题对民主社会提出新的挑战。一方面,中国 AI 模型因成本低、性能强而迅速获得国际用户;另一方面,如果这些系统持续输出经过政治过滤的信息,可能在无形中塑造全球舆论环境。库克呼吁研究人员、政府和科技公司加强对 AI 模型的审计与透明度要求,以避免“审查与宣传被嵌入下一代信息基础设施”。

二、英国发展研究所:非洲“智慧城市”监控迅速扩张,中国AI监控技术成主要来源

英国发展研究所 (Institute of Development Studies,IDS) 3 月 12 日发布了一份研究报告。该报告对非洲 11 个国家的智慧城市监控系统进行了系统梳理,结果发现非洲正经历一场快速扩张的数字监控浪潮,而中国企业与金融机构在这一体系中扮演了核心角色。

img

报告封面截图

报告警告,大规模公共空间监控正在改变非洲的政治与社会环境。研究指出:“非洲大陆正在经历数字监控的大规模扩张,这种趋势正在侵犯公民的隐私权。”研究团队在阿尔及利亚、埃及、肯尼亚、卢旺达、乌干达、赞比亚等 11 个国家展开调查,发现各国政府在“智慧城市”或“安全城市”项目中投入巨大资金。仅在这 11 个国家,政府在面部识别与车牌识别技术上的支出就已超过 20 亿美元,而真实规模可能更高。

报告指出,中国正是这些监控系统的最大供应方。“中国向研究涉及的所有 11 个国家提供了智慧城市监控技术。”典型项目模式通常由中国政策性金融支持,例如中国进出口银行提供约 2.5 亿美元贷款,同时要求采购中国企业设备。监控系统通常包括成千上万台摄像头以及数据中心,由华为或中兴建设指挥控制中心,而海康威视提供摄像设备。

比如,肯尼亚是非洲最早采用中国“安全城市”系统的国家之一。2014 年,该国政府、当地电信公司萨法利通信公司 (Safaricom) 和华为合作推出了全国公共安全通信与监控系统。该系统原本旨在打击犯罪,然而许多批评人士称该系统也被用于监控示威组织者和政治反对派。

此外,尼日利亚则是非洲最大的监控技术买家之一。报告指出,该国在面部识别和自动车牌识别系统上的支出超过 4.7 亿美元。乌干达的系统规模也迅速扩大。该国在 2018 年部署华为摄像网络后,监控系统已覆盖全国主要城市,并具备面部识别、车辆追踪以及自动交通执法功能。

然而,英国发展研究所发现,这些系统并未明显降低犯罪率。报告直言:“我们没有发现任何令人信服的证据表明智慧监控减少了恐怖主义或严重犯罪。”相反,研究团队引用人权组织的话表示,这些技术很可能被用于政治控制。例如,“监控反对派领袖、和平异议人士和边缘群体,以加强执政者的权力”。

研究还发现,多数国家缺乏监管框架。许多国家虽有数据保护法,但几乎没有专门针对公共空间视频监控、面部识别或人工智能系统的法律。更严重的是,几乎所有国家在部署监控系统前都未进行正式的人权风险评估。

最后,报告表示,公共安全监控并非完全不可接受,但必须受到严格限制。研究团队建议,政府应在部署监控系统前进行人权影响评估,建立明确法律规范,并设立独立监督机构,以确保监控“合法、必要且相称”。他们警告:“如果缺乏透明度与监督,智慧城市技术可能延续殖民时期以来的监控传统——只是从人工监视升级为人工智能驱动的全天候数字监控体系。”

三、西藏之声:《民族团结进步促进法》,旨在加速同化与镇压非汉族群

3 月 12 日,中国人大通过了一项备受争议的法律——“民族团结进步促进法”。该法律一经推出就引发了国际舆论哗然,批评人士普遍认为该法律“将进一步侵蚀非汉族群体的身份认同,并可能将任何质疑这种‘统一’的人定性为可受法律惩处的分裂分子”。

img

声明封面截图

西藏之声在法律发布前夕就表示,该议案要求“少数民族”儿童从学前教育起学习普通话,并赋予政府跨境追责权,“旨在加速同化与镇压非汉族群”。

《民族团结进步促进法(草案)》共计 62 条,于 2025 年 9 月 8 日提交全国人民代表大会。国际人权团体人权观察指出,议案如获通过,藏语等非汉语言的使用空间将进一步缩小,境内外异议人士将受到更严重的打压与报复。

该法案要求少数民族儿童从学前教育起必须学习普通话,并在 15 岁前“基本掌握”。法案第 61 条赋予政府跨境打击的法律依据,要求追究境外个人或组织“破坏民族团结、煽动民族分裂”的法律责任。

人权观察表示,新法草案企图取消现行《民族区域自治法》(1984 年通过)明文保障的少数民族“使用和发展自己的语言文字”的权利,转而强调汉语普通话的主导地位。

该团体表示,这部新法将建立广泛法律框架,为中国当前从境内到境外对少数民族的镇压和强迫同化提供正当理由。一旦通过,这部法律可用来加强意识形态管控,以取消少数民族语言权利等手段打压少数民族和宗教少数群体,并促进对中国境外的控制。

类似表态还有,维吾尔人权项目在接受采访时表示,这些做法“违反了国际人权标准,并加剧了新疆正在发生的种族灭绝和反人类罪行”。

南蒙古人权信息中心主任恩格巴图·托戈乔格在一份声明中表示,要求在公共生活中掌握普通话也可能限制蒙语使用者就业的机会。他解释说:“从经济角度来看,这将使蒙人边缘化,因为汉语水平成为获得就业和晋升的门槛”。

让 Anthropic 破防的「蒸馏」风波,美国 AI 大牛泼冷水:中国 AI 成功不靠走捷径

By: 杜晨
25 February 2026 at 20:27

Anthropic 昨天点名 DeepSeek、月之暗面、MiniMax 三家中国 AI 实验室「蒸馏」Claude 模型,全网炸锅。

对于此事件,RLHF (基于人类反馈的强化学习)领域最知名的研究者之一,《RLHF》一书的作者 Nathan Lambert 指出,这件事没有人们想象的那么严重,但也没有那么简单。

他认为,中国 AI 公司的基础设施非常好,取得了很多创新,也在攻克各种技术难题,但它们取得这样的结果,靠的并不是「走捷径」。

在讨论蒸馏这件事之前,先看看 Lambert 的话为什么值得听。

Nathan Lambert 是 Allen AI 研究所的科学家,博士毕业于加州大学伯克利分校,师从机器人领域的著名学者 Pieter Abbeel。他并非 RLHF 技术的发明者,但他写的《RLHF》这本开源书籍,如今是 AI 从业者理解大模型训练流程的标准参考材料之一。

和到处都是的 AI 网红不一样,他是真正上手训练过大模型的人。

在 Anthropic 博客发出的当天,Lambert 就发布了一篇详细分析文章《蒸馏对于中国大模型到底有多重要?》。他的核心论点,和主流媒体的解读方向截然不同,也比一般网友更加深入和全面。

蒸馏是什么,Anthropic 又说了什么?

首先我们来看 Anthropic 指控的核心:「蒸馏」(distillation)。

它指的是让弱模型学习强模型的输出,从而快速获得相似能力。

Anthropic 指控三家公司通过约 2.4 万个虚假账号,在违反服务条款和地区访问限制的情况下,用 Claude 生成了超过 1600 万次对话,用于训练各自的模型。

博客还附上了安全警告:非法蒸馏出来的模型可能缺失原模型的安全护栏,一旦被用于网络攻击、生物武器研发或大规模监控,后果难以预测。

Anthropic 把这套基础设施叫做「九头蛇集群」(hydra cluster)——多达数万个账号的分布式网络,流量同时分散在 Anthropic 自己的 API 和多个第三方 API 聚合平台上。

在最极端的案例里,一个代理网络同时管理超过 2 万个虚假账号,还把蒸馏流量混入普通用户请求流里,用来规避检测算法。这种网络没有单点故障,封掉一个账号,马上换一个。

海外媒体随即跟进,复述了 Anthropic 的话术。然而这套叙事逻辑很快就翻车了:毕竟「蒸馏」这件事美国 AI 公司训练的时候也会做,更何况 Anthropic 自己也有类似行为:

以及:Anthropic「蒸馏」了人类最大的知识库

但 Lambert 更加冷静,他认为要先把这三家中国 AI 实验室分开来看

Lambert 指出,Anthropic 把三家公司并排列在同一篇博客里,掩盖了一个关键差异:它们做的根本不是同一件事,量级天差地别,动机也各有侧重。

按照 Anthropic 的指控,DeepSeek 的蒸馏数量最少,只有 15 万次,但手法更精准。与其直接收集答案,Anthropic 指控 DeepSeek 在做的是批量生产思维链 (chain-of-thought)训练数据。

要的不是「你得出了什么结论」,而是得到结论的过程。

但 15 万次是个什么体量?Lambert 认为,这点数据对 DeepSeek 传闻中的 V4 模型或任何模型整体训练的影响可以忽略不计,「更像是某个小团队在内部做实验,大概率连训练负责人都不知道。」

月暗的规模就不是「可以忽略」了:340 万次交互,目标集中在智能体推理、、工具调用、代码与数据分析、computer-use 开发、计算机视觉等方向——这些方向当中,大部分都是 Claude 近期最受企业客户欢迎的能力组合。

Anthropic 指出三家里流量最大的是 MiniMax,约 1300 万次,目标是代理编码、工具调用和复杂任务编排。

月暗和 MiniMax 相加约 1650 万次,按对话平均 token 量估算,总量大约在 1500 亿到 4000 亿 token 之间,折合数百到上千万美元的 token 成本。

但问题是,只盯着蒸馏看,其实有很大问题。

蒸馏的天花板在哪里?

这才是 Lambert 真正想说的部分,也是整件事里最被忽视的地方。

把强模型的输出喂给弱模型,弱模型能快速获得类似能力——这个逻辑本身成立,Lambert 没有否认。但他指出了一个没人说清楚的问题:蒸馏的天花板到底在哪里,取决于你想要的是什么类型的能力。

作为 RLHF 方面的专家,Lambert 认为,当前最顶尖的模型训练,已经高度依赖强化学习(RL)。而 RL 和蒸馏在本质上是两种不同的事情:

蒸馏是模仿,学强模型的输出,把它的「答案形状」复制过来;RL 是探索,模型必须大量自己推理、自己生成、在错误里反复迭代,从试错中提炼能力。

换言之,真正强大的模型,需要的从来不只是正确答案,而往往要靠模型自己摸索出来的解题路径,这是依靠蒸馏别人 API 的输出,得不到的东西。

以 DeepSeek 自己做的蒸馏尝试为例:基于隔壁千问蒸馏自家的 R1 模型后得到的 DeepSeek-R1-Distill-Qwen 1.5B 这个小模型,仅靠 7000 条样本和极低的计算成本,就在 AIME24 数学竞赛基准上超越了 OpenAI 的 o1-preview。

但关键在于:这个提升等多仰仗强化学习的结果,而非来自蒸馏这个行为本身。

换句话说,蒸馏能帮你更快「热身」,要真正到达顶级水平,还是得靠自己跑 RL。

不同模型之间的数据分布差异

Lambert 还指出了一个技术层面很少被外界提及的问题:不同模型之间存在微妙的数据分布差异。

把 Claude 的输出直接喂给另一个架构的模型,不一定有效,有时甚至会产生干扰。两个模型内部表征空间的差异,会让「老师」的回答在「学生」那里引发意想不到的偏差。

这意味着蒸馏从来不是「拿来用就行」的事,而是需要大量工程工作才能真正发挥效果。这本身就是一个研究课题。

这也是为什么 Lambert 将 Anthropic 所指控的「蒸馏」行为,看作是一种创新的做法,可以理解为试图攻克这一研究课题的努力。

Anthropic 的杀手锏,恰恰最难蒸馏

Anthropic 点名的三家公司,抓取的重心都落在代理行为 (agentic behavior) 这同一个方向上,包括 AI 自主规划、工具调用、分解复杂任务并逐步执行的能力等。

这是 Claude 目前最突出的方向,也是 Anthropic 最不想被复制的能力。

但 Lambert 的判断是,这些能力恰恰也是最难通过蒸馏获得的。

正如前面提到,一个强大的 AI agent,强大之处从来不在于知道或者训练过正确答案,而是「在面对没见过的情况时能自主探索出解决路径」,可以理解为一种 0-shot 或 few-shot 实现 SOTA 效果的能力。

这个过程中产生的价值,体现在推理轨迹,而推理轨迹是很难通过蒸馏习得的——至少现在是这样。

DeepSeek-R1-Distill(蒸馏模型)和 DeepSeek-R1(蒸馏对象)之间的差距,是 Lambert 论点最直接的例证。

在格式化的数学推理任务上,前者表现不错;但在需要自主探索、动态规划的复杂代理任务上,两者的差距是真实存在的。

为什么 Anthropic 现在公开说?

Lambert 有一个判断,很多人可能都有同感:这次 Anthropic 公开点名中国 AI 公司,「技术防御」压根不是首要动机。

在 Anthropic 这篇博客发出的几天前,美国国防部刚刚威胁 Anthropic 配合提供「不受限制的使用权限」,否则就将做出对后者不利的安排,比如将其标记为「供应链危险」,也即无法进入国防/政府供应商名单。

Anthropic 现在处于一个「既要又要」的两难境地:既想维持安全、不反人性的模型定位和公司形象,又不愿意错过美国政府的大单。

Lambert 指出了一个根本矛盾:美国的学术界和开源模型开发者也在做蒸馏行为,但包括 Anthropic 在内的大厂并没有对它们做出实质性的打击。如果仅因为对方是中国公司,未免地缘的意味太重了。

结果就是,Anthropic 这篇博客与其说是报告一个重大技术风险事件……其实更像是一封「投名状」。

双标

关于 Anthropic 在这件事上的立场,有一个绕不开的背景。

APPSO 在昨天的文章里也有提到:Anthropic「蒸馏」了人类最大的知识库

2024 年年初,美国某仓库里,工人们把一本本新书送进机器,切掉书脊,扫描,然后把纸送去回收。下令做这件事的是 Anthropic,项目内部代号「巴拿马」,目标是以破坏性方式扫描全球所有书籍——Anthropic不希望外界知道他们做了这件事。

2021 年,Anthropic 联合创始人 Ben Mann 在 11 天里从盗版网站 LibGen 下载了大量侵权书籍;次年,另一个公开宣称「在大多数国家故意违反版权法」的网站 Pirate Library Mirror 上线,Mann 把链接发给同事,留言:「来得正是时候!!!」

在后来的书籍版权诉讼中,Anthropic 被迫支付 15 亿美元和解金,折算下来每本书约赔 3000 美元。

斯坦福和耶鲁的研究者发现,Claude 3.7 Sonnet 在特定条件下会以 95.8% 的准确率「近乎逐字逐句」地输出《哈利波特》等受版权保护的作品——这不仅与 Anthropic 长期以来关于「模型只是学习了语言规律」的说法背道而驰,更让该公司对任何人的「蒸馏」指控显得缺乏底气。

Futurism 的标题写得很直接:「Anthropic 对 DeepSeek 未经授权复制 AI 大发雷霆——考虑到它是怎么构建 Claude 的,这相当讽刺。」

Musk 在 X 上也补了一刀:「Anthropic 大规模窃取训练数据,还为此支付了数十亿美元的和解金。这是事实。」

反驳者还有一个更尖锐的逻辑:Anthropic 当年从那些书里拿走的,不仅没付过任何使用费,回头还用于商业行为(Claude 和 Anthropic API 都是付费服务);而从商业角度来看,蒸馏 Claude 的公司至少付了钱……

当然,从法律层面来看,这两件事的性质完全不同。但不论怎样,Anthropic 看起来还是很像个伪善的双标者。

「后蒸馏时代」

最后再强调一遍:蒸馏有用,但没有你们想象的那么有用。

DeepSeek 的 15 万次,按任何合理标准来看都是可以忽略的数字。Moonshot 和 MiniMax 合计 1650 万次,量级是另一回事——但能转化成多少真实能力,取决于他们能不能解决「如何用好这些数据」的技术问题。

考虑到数据分布差异、模型架构差异,以及代理能力的获得本身对于强化学习的重度依赖,蒸馏从来不是「拿来就用」那么简单。

Lambert 还是给了 Anthropic 面子:「快速迭代加上高质量数据可以走很远,让学生模型超越老师也并非不可能。」

但他也明确指出,真正的创新靠的是强化学习,不是蒸馏。从 DeepSeek、月暗、MiniMax 公开的论文来看,它们都用有相当完善的基础设施和优秀的人才,远非只靠小聪明小伎俩企图弯道超车的「小作坊」。

蒸馏能帮你更快入场,但真要打到顶级水平,从来没有捷径。

某种意义上,Anthropic 提出的「蒸馏」争议,本身就是这个 AI 时代缩影。

整个行业打一开始就建立在暧昧不清的规则上:用人类写的东西训练,用别人的开源成果迭代,在法律没有明确禁止的地方快速行动。

现在,规则开始慢慢收紧——先是版权,再是芯片,现在又是 API……谁在制定规则?谁受益于规则?谁一边打着人类的旗号,却滥用规则谋求私利?

这些问题的答案,都越来越清晰。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌