Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

林俊旸离职后首发长文:反思千问得失,预判 AI 下半场需要「智能体思维」

By: 李超凡
27 March 2026 at 15:00

带队发布 Qwen 3.5 小模型系列、获马斯克公开点赞,20 小时后在社交媒体宣告离职。林俊旸离开阿里的方式,本身就是 2026 年 AI 行业最戏剧性的一幕。

32 岁,阿里最年轻的 P10,一手将千问做到全球下载量超 10 亿次、衍生模型超 20 万款,成为全球开源模型的新王。他的离开源于一次组织架构调整的分歧:

阿里希望将 Qwen 团队按预训练、后训练、视觉、语音等维度水平拆分,与通义实验室其他团队合并;林俊旸则坚信预训练、后训练乃至基础设施团队应该更紧密地垂直整合,而非割裂。这不只是管理风格之争,更是对「怎样才能训出最好的模型」这个根本问题的路线分歧。

离开近一个月后,林俊旸发出了这篇长文。他没有回应任何人事风波,直接亮出了自己对 AI 下一阶段的判断:我们正在从「训练模型」的时代,进入「训练智能体」的时代

这篇文章之所以值得逐字读完,不仅因为写它的人在过去两年亲手操刀了 Qwen 全系列的后训练,更因为林俊旸在文中罕见地复盘了 Qwen3 在「混合思考模式」上的得与失。

以下为 APPSO 对林俊旸的编译:

原文🔗 https://x.com/JustinLin610/status/2037116325210829168

从「推理式思考」到「智能体式思考」

过去两年,彻底改变了我们衡量 AI 模型的方式。

OpenAI 的 o1 证明了一件事:「思考」可以是模型的核心能力,可以专门训练出来、直接交到用户手里。DeepSeek-R1 紧随其后,证明这种「推理式后训练」并非大厂专利,可以在原始实验室之外复现和扩展。用大白话说:o1 是一个被教会了「回答之前先想想」的模型,R1 则是一个开源版的同类选手,跟 o1 打得有来有回。

那个阶段很重要。但 2025 年上半年的行业主旋律,说到底还是在围绕一件事打转:怎么让模型「想」得更多。 让它在推理阶段烧更多算力,用更强的奖励信号训练它,暴露或控制那些额外的「思考过程」。

现在的问题是:然后呢?

我相信答案是智能体式思考。为了行动而思考,一边跟真实环境交互,一边根据世界的反馈不断修正计划。

1. o1 和 R1 的崛起真正教会了我们什么

第一波推理模型教会我们一个朴素的道理:想在大模型上把强化学习跑起来,你得有靠谱的评分标准。

什么叫靠谱?就是答案能判对错、结果能验证、反馈信号足够清晰。数学题有标准答案,代码能跑测试,逻辑推理能验证步骤。这些领域之所以成了强化学习的主战场,就是因为在这里,模型收到的奖励信号远比「让人类标注员觉得这个回答还不错」强得多。换句话说,强化学习终于能优化正确性,终于不用只追求看着像那么回事了。

然后,基础设施的重要性一下子凸显出来了。

一旦你开始训练模型进行更长的推理链条,强化学习就不再是在监督微调上面加个小配件那么简单了,它变成了一个重工业级的系统工程。你需要大规模的模拟推演(rollout)、高吞吐量的答案验证、稳定的策略迭代、高效的采样流程。推理模型的诞生,表面看是算法突破,底下看是基础设施的胜利

OpenAI 把 o1 定义为用强化学习训练的推理产品线;DeepSeek R1 接棒验证了同一方向,同时也展示了推理式强化学习对底层算法和基础设施的要求有多高。

APPSO 划重点: 第一次大转折发生了。行业焦点从「扩展预训练」转向「扩展面向推理的后训练」。模型变强靠的不再是吃更多数据,靠的是在训练后阶段学会「怎么想」。

2. 真正的难题从来不只是「融合思考和指令模式」

2025 年初,我们 Qwen 团队心里有一张很大的蓝图。

理想中的系统长这样:一个模型同时搞定「思考」和「执行」两种模式。你可以手动调节它思考的深度,轻度、中度、深度,就像调空调温度一样。更理想的情况是,模型自己就能判断:这道题简单,直接答;这道题有点难,多想想;这道题极难,调动全部算力来啃。

方向是对的。Qwen3 是当时最清晰的公开尝试之一。 它引入了「混合思考模式」,一个模型家族里同时支持「想了再答」和「直接答」两种行为,还描述了一条四阶段后训练流水线,其中明确包含了在长链推理冷启动和推理强化学习之后的「思考模式融合」步骤。

但融合这件事,说起来一句话,做起来要人命

难在哪?难在数据。

很多人一听「融合思考和指令模式」,脑子里想的都是模型层面的事:一个模型文件能不能同时跑两种模式?一套对话模板能不能在两种风格之间切换?一个推理服务能不能暴露正确的开关?这些确实要解决,但都不是最深的坑。

最深的坑是:两种模式想要的东西,从根儿上就不一样

你想想,一个好的「指令模型」该长什么样?干脆、简洁、格式规范、响应快。企业用户拿它来批量改写文本、打标签、做模板化客服、结构化数据提取,这些场景要的是效率和稳定,不需要深思熟虑。

一个好的「思考模型」呢?恰恰相反。它该在难题上多花时间、维持清晰的推理中间步骤、探索不同的解题路径、保留足够的「思考余量」来确保最终答案的正确性。

这两种性格天然打架。 如果融合的训练数据没有精心设计,出来的模型往往两头不讨好:思考的时候啰嗦、犹豫、不够果断;执行指令的时候又不够利落、不够稳定、比客户真正需要的版本更贵更慢。

说实话,我们在平衡融合与数据质量的过程中,没有把所有事情都做对

在不断修正的过程中,我们也仔细观察了用户到底怎么用这两种模式。结论是明确的:这两种行为画像确实在相互拉扯。

现实很诚实。2025 年晚些时候,在 Qwen3 最初的混合架构之后,我们的 2507 版本还是发布了独立的 Instruct 和 Thinking 版本,包括分开的 30B 和 235B 变体。大量商业客户根本不需要思考模式,他们要的就是高吞吐、低成本、高度可控的指令行为来跑批量任务。对这些客户来说,融合不是福音,是多余的成本。拆开来做,反而让两条线的团队都能更专注地解决各自的问题。

其他实验室走了相反的路:

Anthropic 公开押注集成式路线。Claude 3.7 Sonnet 是一个混合推理模型,用户可以选择普通回复或扩展思考,API 还能设定「思考预算」。Anthropic 直接放话:推理应该是模型的集成能力,不该单独拎出来做一个独立模型。

GLM-4.5 同样定位混合推理,把推理、编程和智能体能力统一到一个模型里。

DeepSeek V3.1 后来也做了类似的事,推出了「Think & Non-Think」混合推理方案。

那么问题来了:谁是对的?

答案不在「融合」还是「分离」这个二选一本身,在于融合是否有机。如果思考模式和指令模式只是尴尬地挤在同一个模型里,像两个性格迥异的人被硬塞进一件衣服,用户体验不会好。

真正成功的融合,需要一道平滑的光谱模型能自如地在不同推理力度之间切换,最好还能自己判断该用多大力气。GPT 风格的 effort control(推理力度控制)指向了这个方向,这是一个关于「花多少算力来想」的连续策略,不是一个「想 / 不想」的二元开关。

APPSO 划重点: 林俊旸罕见地直言 Qwen3 在融合上「没做到完全正确」。核心矛盾其实很好理解:一个追求快准狠的执行者,和一个追求深思熟虑的思考者,硬融到一起,很容易两头都做成半吊子。

3. 为什么 Anthropic 的方向是一种有益的纠偏

Anthropic 在 Claude 3.7 和 Claude 4 上的做法,是一种值得注意的克制。

他们没有大谈模型有多能「想」,把重点放在了:集成推理、用户可控的思考预算、真实世界任务、编程质量,以及后来的关键一步,让模型在思考的过程中就能动手用工具。Claude 3.7 是带可控预算的混合推理模型;Claude 4 更进一步,推理过程和工具使用可以交错进行,边想边干。与此同时,Anthropic 把编程、长时间运行的任务和智能体工作流摆到了最优先的位置。

这里面有一个深刻的洞察:

推理链更长,不等于模型更聪明。 很多时候恰恰相反。一个模型如果对所有问题都用同样冗长的方式来「推理」,说明它根本分不清轻重缓急。它可能正在失败于三件事:该优先处理什么(优先级判断)、该压缩掉什么(信息浓缩)、该在什么时候停止想而开始做(行动决策)。

Anthropic 的做法暗示了一种更有纪律的观点:思考应该为具体的工作目标服务。 如果你要做的是编程,那思考就该帮你导航代码库、规划架构、拆解问题、恢复报错、编排工具调用。如果你要做的是智能体工作流,那思考就该帮你在漫长的执行过程中保持质量,而不是产出一堆令人印象深刻但没有实际行动力的中间长文。

这种「思考必须服务于行动」的理念,指向了一个更宏大的命题:

我们正在从训练模型的时代,进入训练智能体的时代

这句话我们在 Qwen3 的博客里也明确写过。智能体是什么?一个能制定计划、决定何时行动、使用工具、感知环境反馈、修正策略、并在长时间跨度上持续运作的系统。一句话概括它的核心:与真实世界的闭环交互

APPSO 划重点: 长不等于强。Anthropic 的实践提供了一个重要的纠偏信号。思考的价值在于有没有真正服务于最终的行动目标,不在于产出了多少字的推理过程。这是从「炫技式推理」到「实用型思考」的转向。

4.「智能体式思考」到底意味着什么

说了这么多铺垫,现在进入正题。

智能体式思考和推理式思考,优化目标完全不同。

打个比方:推理式思考就像闭卷考试,评判标准是你交卷那一刻答案对不对。模型能不能解出定理、写出证明、产出正确代码、通过基准测试。想得再天花乱坠,最终只看结果。

智能体式思考更像是在真实世界里做一个项目。 评判标准不是某一刻的答案,是你能不能在跟环境不断互动的过程中持续推进、持续解决问题。

核心问题变了。

不再是「模型能想多久?」,变成了:「模型能不能以一种维持有效行动的方式来思考?

这要求模型处理一堆传统推理模型可以绕开的难题:

  • 什么时候该停止思考、开始动手? 想太多会错过行动窗口,想太少会犯错
  • 该调用哪个工具、先后顺序是什么? 这是一个规划和调度问题
  • 怎么消化来自环境的嘈杂、不完整的信息? 真实世界不会给你干净的输入
  • 失败了怎么办? 不能崩溃,得修正计划继续干
  • 怎么在几十轮交互、几十次工具调用之后还保持连贯? 这是长程记忆和一致性的问题

如果用一句话概括:

智能体式思考 = 通过行动来推理的模型。它在做的过程中不断地想。

APPSO 划重点: 推理式思考像闭卷考试,智能体式思考像在真实世界里做项目。前者看最终答案对不对,后者看你能不能在复杂、动态、充满意外的环境里持续推进。这是 AI 能力评价体系的根本性转向。

5. 为什么智能体 RL 的基础设施更难

目标一变,底层的工程全都要跟着变。

经典推理强化学习的那套基础设施,不够用了。

直观地理解一下区别:在推理 RL 里,模型做一道题、给出一个答案、评估器打一个分,整个过程基本上是自包含的,评估器也相对干净。就像在一个封闭的考场里阅卷。

但在智能体 RL 里,模型不是在考场里答题,它活在一个复杂的真实环境中。 工具服务器、浏览器、命令行终端、搜索引擎、模拟器、代码执行沙箱、API 接口、记忆系统、调度框架……模型的策略嵌在这一整套系统里。环境不再是一个站在旁边打分的裁判,它本身就是训练系统的一部分。

这带来了一个新的硬需求:训练和推理必须更干净地解耦。 否则整个系统的吞吐量会崩掉。

举个具体的例子:一个编程智能体生成了一段代码,需要在真实的测试环境里跑一下看结果。这时候,推理端在等执行反馈,干不了别的;训练端在等完成的轨迹数据,也饿着。整条流水线的 GPU 利用率远低于你在经典推理 RL 里的预期。再加上工具响应延迟、环境状态不完全可见、每次交互都会改变环境状态,这些低效会成倍放大。结果就是:你还远没达到想要的能力水平,实验就已经慢得让人崩溃了。

环境本身也变成了一等公民级的研究课题

在监督微调(SFT)时代,所有人都在拼数据多样性,谁有更多更好的标注数据,谁就占优势。在智能体时代,该拼的是环境质量了:环境稳不稳定?够不够真实?覆盖了多少场景?难度梯度合不合理?状态空间够不够丰富?反馈信号够不够有营养?模型能不能找到漏洞作弊?大规模生成训练轨迹的效率够不够高?

环境构建正在从一个「顺手搭的实验配件」,变成一个独立的创业赛道。如果你训练的智能体最终要在类生产环境中运作,那这个环境本身就是你核心能力栈的一部分。

APPSO 划重点: 一句话总结这个转变,SFT 时代拼数据,智能体时代拼环境。构建高质量的训练环境,正在从「实验室的脏活累活」升级为「决定你能走多远的战略资产」。

6. 下一个前沿是更可用的思考

我的判断是:智能体式思考将成为思考的主导形态

它最终很可能取代那种旧式的静态独白推理,就是那种模型关起门来、对着自己嘟嘟囔囔写一大篇内部推理过程,试图用更多更多的文字来弥补「我没法跟外界交互」这个根本缺陷的做法。

即便面对极其困难的数学或编程问题,一个真正先进的系统也应该有权利去搜索、去模拟、去执行、去检查、去验证、去修正。目标是把问题切实解决掉,而且解决得稳健、高效。 不是比谁的推理链写得更长更好看。

但训练这类系统,有一个比什么都棘手的挑战:奖励劫持(reward hacking)

一旦模型有了真正有意义的工具使用能力,奖励劫持的危险就成倍增加。怎么理解?

  • 一个能搜索的模型,可能在强化学习训练过程中学会了直接搜答案,不是靠推理做出来的,是查到的。
  •  一个编程智能体,可能学会了利用代码仓库里的未来信息(比如测试用例本身就暗含了答案)、滥用日志、或者发现某个捷径让任务直接「通过」但其实什么都没做。
  • 如果训练环境有隐藏的信息泄漏,模型可能看起来表现超人,实际上只是被训练成了一个高效作弊者。

这就是智能体时代比推理时代精细得多、也危险得多的地方。 工具越强大,模型越有用,但模型能钻的空子也越多。更好的工具同时扩大了「虚假优化」的攻击面。

我预期,下一个让整个行业卡住的研究瓶颈,将来自这几个方向:环境设计、评估器鲁棒性、反作弊协议、以及策略与世界之间更有原则的接口。

但方向是清晰的:工具赋能的思考,就是比闭门造车的思考更有用,也更有希望带来真实世界的生产力提升。

智能体式思考还意味着一种全新的系统工程。核心智能将越来越多地来自于多个智能体如何被组织起来:一个负责全局规划和任务分发的编排器(orchestrator),一群各有专长的专业智能体(specialist agents),以及执行更具体任务的子智能体(sub-agents),后者帮助控制上下文窗口、防止信息污染、在不同层级的推理之间保持清晰的边界。

未来的路线图是三级跳:从训练模型,到训练智能体,再到训练系统

APPSO 划重点: 工具让模型更有用,也让模型更容易作弊。奖励劫持是智能体时代的「定时炸弹」。谁先解决好环境设计和反作弊问题,谁就掌握了下一阶段的竞争主动权。

结论

推理浪潮的第一阶段,确立了一件至关重要的事:当反馈信号靠谱、基础设施扛得住的时候,大模型上的强化学习能够产出质变级别的认知提升。

但更深层的转变,是从推理式思考到智能体式思考:从「想更久」,到「为了行动而思考」

训练的核心对象已经变了。不再是单一的模型,是模型 + 环境构成的整个系统。更具体地说,是智能体本身,加上围绕它的一切工程。这意味着什么研究最重要也变了:模型架构和训练数据当然还重要,但环境设计、rollout 基础设施、评估器鲁棒性、以及多个智能体之间的协调接口,重要性一点不输前者。

它还改变了「好的思考」的定义:在真实世界的约束下,能够维持有效行动的那条推理链,才是最好的。 不是最长的那条,不是看起来最酷炫的那条,是最有用的那条。

它也改变了竞争优势的来源:

推理时代,拼的是更好的强化学习算法、更强的反馈信号、更可扩展的训练流水线。

智能体时代,拼的是更好的训练环境、更紧密的训练与推理一体化、更强的系统工程能力,以及闭合「决策 → 后果 → 学习」这个循环的能力。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

好消息:公司给你发 Token 当工资,坏消息:你的 KPI 是烧光它

By: 张子豪
23 March 2026 at 17:43

就在上周,OpenAI 的一名工程师创下了一个离谱的纪录:他在七天内消耗了 2100 亿个 Token。

如果你对这个数字没什么概念,可以这么理解,这相当于把整个维基百科的全部文本,翻来覆去逐字浏览了 33 遍

▲OpenAI 早在去年十月的开发者日,就向 Token 使用超过 10B(银色)、100B(黑色)和 1T(蓝色)发放奖牌,图中为万亿 Token 的蓝色奖牌

而在另一家 AI 巨头 Anthropic,一位使用 Claude Code 的用户,在刚过去的一个月里,就跑出了超过 15 万美元的算力账单。

斯德哥尔摩的软件工程师 Max Linder 淡淡地说,「我花在 Claude 上的钱,可能比我工资还多」,他的公司正在帮他支付比他工资还高的 Token 使用费。

▲输入 npx better-ccusage 可以查看 token 的使用情况

很快有人开始质疑,这些巨量的 Token,真的带来了同等规模的产出吗?

答案确实没有想象中那么宏大,消耗这么多的 Token 只是当代程序员为了保住饭碗,开启了一场名为「Tokenmaxxing(Token 最大化)」的全新职场内卷

Tokenmaxxing,Token 最大化,简单概括——不是把事情做得更好,单纯就是把 Token 用到更多

对坐在办公室的白领来说,尤其是最早看到这种变化的程序员们,那些曾经被奉为圭臬的「代码行数」和「提交次数」,现在已经成了毫无意义的指标。

在 Meta、Shopify 乃至 OpenAI 这样的顶级科技公司里,衡量一个员工是否努力、是否优秀的最新硬核指标变成了:你今天消耗了多少个 Token?

Token,前段时间大家还在讨论如何准确给它一个中文名字,APPSO 也分享了自己的见解,我们认为「词元」这个一直在那里的翻译,就是 Token 最准确的中文名。

讨论之外,词元作为 AI 世界里最基础的计量单位,开始从技术术语,变成一种新的职场货币;它出现在薪资谈判、绩效评估里,出现在那些决定你明年能不能升职的对话里。

Token 是福利、KPI、第四份工资

大多数的公司最开始引入 AI 工具,都是为了帮助企业提高生产力,削减人力成本,但现实的走向却充满了黑色幽默的味道,从这段时间以来各种裁员的新闻就能看到。

据知情人士透露,在 Meta 和 OpenAI 的内部,现在赫然矗立着一张张「Token 消耗排行榜」。这些榜单实时滚动着每位员工的 AI 使用量,就像游戏里的战力排行榜一样刺激着每个打工人的神经。

而除了要衡量,丰厚的「Token 预算」,一种全新的第四份工资,开始取代了食堂补贴、交通补贴、下午茶,和各种节日礼品,成为公司招聘时最拿得出手的福利。

在最近的一个播客节目上,黄仁勋早就看穿了这一切,他说,工程师的年薪里,Token 预算将与现金同等重要,甚至可能达到年薪的一半

▲黄仁勋表示,如果你的 50 万美元工程师没有烧掉至少 25 万美元的 Token,那肯定有问题,我会直接给他发警告。

国内的大厂也同样跟上变化,社交媒体上有人分享,腾讯和阿里都已经把 Token 当福利发了,鼓励员工多使用 AI 工具。

阿里开始向员工发放海量的 Token 额度。只要你用于技术研发或通用办公,悟空、Qoder 系列等付费 AI 工具敞开用,甚至购买外部 AI 工具也能申请报销。

小米 MiMo V2 发布时,罗福莉曾在 X 发文,专门提到说希望团队所有人去使用这个大模型,并且下达强制要求,少于 100 次对话就可以不用干了。

So I gave a hard mandate: anyone on MiMo Team with fewer than 100 conversations tomorrow can quit.

 

所以我下了一个硬性命令:明天任何在 MiMo 团队中对话少于 100 次的人都可以辞职。

但是,公司花这么多钱给员工买算力,绝不是为了让我们省钱或者偷懒,而是为了换取 10 倍的效率提升。

而这就是伟大 Token 的厉害之处,它实时、可量化、看起来客观,这三个让公司管理者着迷的特点,直接打败其他所有指标。

老板们不需要等季度末,不需要主观打分,数字就在那里,每秒钟更新,我们用 AI 做了什么,都看得见。

当持续有公司把「AI 使用率」与年终绩效挂钩,奖励那些重度依赖 AI 的员工,并敲打那些 AI 使用较少的员工,事情的性质就彻底变了。

▲据华尔街日报报道,AI 自动化平台制造商 Zapier 推出了一种新型仪表盘,用于跟踪其员工对 AI 的使用情况,其公司 CEO 在 LinkedIn 上回复,说他们最近开始关注公司内部 Token 的使用情况,当发现有人消耗的 Token 是同事的 5 到 10 倍时,这会是一个值得好奇的地方,他们还在摸索。

知名软件工程博主 Gergely Orosz 戳破了这层窗户纸:「在大型科技公司内部,不能以极快的速度使用 AI 正在成为一种职业风险,而根本不管你的产出质量如何。

没错,重点是「使用」,而不是「用好」。当你发现隔壁工位的同事每天能用掉几千万个 Token 时,你唯一的选择就是打开更多的窗口,输入更长的提示词。

有网友说,这很奇怪,就像是衡量快递员的工作效率,不是看他递送了多少包裹,而是看他消耗了多少汽油

听起来很不靠谱,但这件事情确实就这样发生了,而且成为了一种趋势。

在这场由焦虑、胜负欲和绩效考核共同催生的 AI 提效进程中,AI 没能让我们实现每周上三天班的乌托邦,反而逼出了一种最昂贵、也最荒诞的「装忙」艺术。

脑力劳动者也没有护城河了

更深层的变化,在考核方式之外,更多的是工作本身的性质。

一个资深工程师的价值,在于他对系统架构的直觉,对业务逻辑的理解,对复杂问题的判断。这些是他的护城河,其他人学不来,机器替代不了。

现在,这条护城河正在被快速填平。当 AI 能够独立完成架构设计的初稿,自动扫描几百万行代码寻找 bug,把一句模糊的需求变成可以运行的程序,资深工程师的核心竞争力,也开始从「你懂什么」,转成「你怎么驾驭 AI」。

用更专业的术语来说,就是坐在办公室的白领们,正在不可逆地从「业务洞察」,转移到流水线般的工作,反复地「Prompt 调优」和「Agent 调度」。

这个转变有它的合理性。就像工业化之后,一个熟练工人的价值从手工技艺,变成了操控机器的能力,时代在变,技能也该变。

有人也许能做到,给了充分的算力,效率真能来到原来的十倍,但也有大部分人,会认为这样的转变很不合理。

在他们看来,大语言模型实际上有非常大的实际应用价值,但这些所谓的 Token 竞赛,一直分散了人们对其真正用途的注意力,反而将整个人工智能领域变成了炒作和泡沫。

从问你有没有用 AI,到问你 Token 使用效率,从脑力劳动者到算力调度员,这已经不是用一个旧技能换一个新技能,而是整个工作方式的范式迁移。

你以为你在使用 AI,其实是 Token 在使用你

职场评价体系和打工人的身份,都开始被重新定义,但 Tokenmaxxing 更需要警惕的地方,是它引发了前所未有的「算力马拉松」。

资本的逻辑永远是贪婪的。公司给我们配备了顶级的算力,本质上是一种「效率赎买」——用高昂的 API 账单,买断我们远超常理的产出。

在手工敲代码的时代,老板对员工的预期,打个比方说是一天产出 100 行高质量代码,大家相安无事。现在,老板给了 10 倍的算力,他的预期会在一夜之间自动暴涨到 1000 行,甚至是 10000 行。

工具升级必然伴随着预期的超级加倍,而人类永远跑不过算力膨胀的速度

很多年以前,有一部电影叫《时间规划局》,讲的是在未来的世界,人的生命被定格在 25 岁,人类社会抛弃了金钱货币,开始使用时间作为新的流通货币,时间就显示在每个人的手臂上,当时间耗尽,这个人就会死亡。

这种焦虑,某种程度上像电影里的设定,只不过流动的不再是时间,而是 Token。

所谓的用 AI,已经变成我们被 AI 的永动性深深绑架了。我们就像是被很多东西推着,卷入了一场没有终点的算力马拉松,每个人都在咬牙切齿地奔跑,生怕自己因为 Token 消耗不够而被系统优化掉。

旧金山风险投资人 Nikunj Kothari 专门写了一篇文章,来解释这种 Token 焦虑的时代症候群。在那篇文章里,他从硅谷的日常生活切入,描绘了「Token Anxiety」如何彻底摧毁了年轻人的社交和休闲。

为了让 Agent 24 小时运转,科技从业者们放弃了周末狂欢,连看电影、读小说都会产生「算力闲置」的负罪感。

 

 

以前晚餐时的社交开场白通常是「你在做什么项目」,现在那个时代结束了。现在大家见面第一句话是,「你同时在跑几个 Agents?」

Token 焦虑已经比时间焦虑更进一步,公司用 KPI 逼我们卷 Token 的背后,是我们已经把这种焦虑内化了。当没有任何被迫加班的时候,我们也停不下来。

这是今年的新赛博精神病:一旦 Agents 没在消耗 Token,就觉得在虚度光阴。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

北青深一度|当用了10年的号码“涉诈”停机之后

18 March 2026 at 19:44

file

记者/佟晓宇 实习记者/栗子 苏茜

编辑/宋建华

CDT 档案卡
标题:当用了10年的号码“涉诈”停机之后
作者:北青深一度
发表日期:2026.3.18
来源:微信公众号-北青深一度
主题归类:实名制
CDS收藏:公民馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

大模型的运行机制对绝大多数被停机的用户而言是一个谜。

去年9月,孔琳发现自己使用了10年的手机号被停机。她最初以为是欠费,但查询后发现仍有余额,客服告知她,她的号码被一个反诈模型录入。但为何被模型“捕获”,她多次咨询、投诉,还是没能得到答案,直到她向运营商提起诉讼。

大模型的运行机制,对绝大多数被停机的用户而言是一个谜。事实上,近几年被电信反诈模型“误伤”的人不在少数,有网友因为连着给舍友打了9个电话催交作业被停机;有人因工作需要,一天打了几十个电话被判定通信异常,他的朋友因此接到反诈中心的预警电话……不少成功复机的用户在社交平台给出“攻略”。

2022年12月实施的《反电信网络诈骗法》规定,电信业务经营者对监测识别的涉诈异常电话卡用户应当重新进行实名核验,根据风险等级采取有区别的、相应的核验措施。对未按规定核验或者核验未通过的,可以限制、暂停有关电话卡功能。

对于线上、线下实名验证方式,很多用户抵触,有人认为繁琐,有人认为被停机后需要自证并不公平……

接受深一度采访的运营商营业厅工作人员认为,实名验证是对机主的保护,避免手机号码被他人冒用,“证实是机主本人,就能正常使用”。自2020年“断卡行动”以来,营业厅面对着更大的用户投诉压力,严格的监管要求,也让他们不得不花更多力气先把好自己这一关。

被大模型“误伤”

郑维的姐姐在贵阳附近的一个县城中学任教,是一名班主任。工作时,她经常要联系学生家长,沟通学生在校医保费、伙食费等缴纳情况。

2024年2月3日,她发现自己的手机被停机了,那是一个用了超过10年的号码。停机后她发现手机里收到的信息,运营商提示她的号码存在疑似违规风险,根据《电信条例》(第62条)和《网络安全法》规定,将暂停她的通信服务,并告知她可携入网身份证和手机卡到当地营业厅办理开机。

姐姐手机停机后,郑维开始用自己的手机帮她咨询停机原因和复机流程。“当时我们在湖南老家过年,又碰上恶劣天气,肯定没法回到当地去复机。”客服提示郑维,线下复机同时需要提供户籍地派出所开具的情况说明,“大概内容是她的号码没有什么风险,类似于这样的一个说明。”

《工业和信息化部、公安部关于依法清理整治涉诈电话卡、物联网卡以及关联互联网账号的通告》中提到,电信企业应建立电话卡“二次实人认证”工作机制,针对涉诈电话卡、“一证(身份证)多卡”“睡眠卡”“静默卡”境外诈骗高发地卡、频繁触发预警模型等高风险电话卡,提醒用户在24小时内通过电信企业营业厅或线上方式进行实名核验……

客服一直没有给出停机的明确原因。郑维和姐姐猜测,可能是打电话次数太多,并且通话时都曾提到过金钱。在此后的沟通中,她们被告知该号码可能涉嫌诈骗。郑维介绍,对姐姐工作地的中学老师来说,使用私人手机联系家长是普遍情况。“学校要求班主任与家长建立联系,涉及缴费要电话告知到每一个家长,必须一个个电话通知。”

郑维提到,在这次被停机之前,因为集中给家长打电话,当地派出所民警曾给姐姐打电话核实,还有一次到家里走访了解情况。国家反诈中心曾发布视频解释,反诈中心利用大数据等技术分析发现潜在受害者,把可能遭遇或正在遭遇电信网络诈骗的涉案线索推送到各地公安机关,开展预警劝阻工作。

郑维通过运营商官方投诉渠道帮姐姐进行了投诉。她始终想不明白,“本来打电话只是去跟家长核实学生交费情况,不是诈骗,为什么要让我们去派出所证明我没有涉嫌诈骗?为什么运营商不能联系机主、学校确认,评定风险?”

2月4日,郑维的姐姐收到工作人员发来的微信,称已经将她的号码审查表推送到公安局处审查,待公安局出具审核意见后上报开机。同时,工作人员发来两份责任风险告知书,要求她签署。“我们在湖南农村,也找不到地方打印签字。”一天后的2月6日,她再次收到工作人员微信,表示公安局审批意见通过,营业厅已经上报复机,预计2-24小时内复机。

对于大多数有类似遭遇的用户来说,很少能在最初与客服的沟通中,明确自己被停机的原因。《反电信网络诈骗法》明确提出,“依据本法第十一条、第十二条、第十八条、第二十二条和前款规定,对涉诈异常情形采取限制、暂停服务等处置措施的,应当告知处置原因、救济渠道及需要提交的资料等事项……”但在机主与客服人员沟通时,被停机的原因常被概括为存在违规风险或者被大模型监测出异常。

在北方一个县级移动营业厅工作的李霞是服务和信息安全方面的相关负责人,她介绍,在她接触的工作中,客服人员在跟用户沟通时,通常不太会解释具体原因,会告知客户大模型监测到号码异常。外地漫游、频繁给不同地市的陌生号打电话、老用户的通话量突然超出正常量都可能会成为停机原因。“比如你新办一个号,往外打又多,或者是你出去漫游,就有可能被停机。”

李霞坦言,正常客户因为某些特殊情况,比如突然某天电话打多了,被大模型监测到,也可能会被“误伤”。

李霞提到,针对不同的终端,会有不同的模型对涉诈行为进行拦截,但在李霞的工作中她并接触不到大模型究竟如何运转。“面对用户来访,我们更多要靠实际工作经验来判断具体什么情况。”如果只是程度较低的风险,运营商会在机主进行验证后复机。

在她看来,实名认证是对机主的保护,“证实是他本人就行了,如果不是本人,他也开不了机。”面临更大的涉诈风险时,可能会有专门的模型来监测这类违规,“这就需要同时结合反诈中心核验结果来判断能不能给你开机,反诈中心如何判定,我们是没有权限干涉的。”

img

陈毅在手机停机后向相关部门的投诉记录

核查还是自证

去年9月底,在上海生活的陈毅被停机近一个月。在停机前他同样收到了运营商发来的提示短信,告知他号码存在异常,将对号码实施临时性停机或者通讯限制。“我当时在开车,也没仔细看,还以为是什么诈骗短信。”直到到家后,他接到朋友的微信语音,问他怎么停机了。

陈毅已经退休,被停机的号码使用了20多年,对于停机原因,客服人员向他解释这是系统提示他违规,并告知他按照链接提示进行实名认证。“号码是我老婆用身份证开的,我们上传了她的身份证。又线上签名,后来短信提示我们复机了,我还想不过是虚惊一场。”

但是几天后的10月10号,他的手机再次被停机。陈毅到营业厅咨询,工作人员表示他们当下无法‍帮他复机,建议他先办理新号,保证日常通讯。

陈毅相继通过12345和工信部相关渠道进行过多次投诉,但都没能得到有效解决。在与客服人员的多次沟通中,对方表示“我们是根据反电信网络诈骗法的要求进行操作的,只能按照口径来跟你解释。”而针对陈毅的投诉,客服人员提出“可以申请一次性的 100 元的赔偿。”

后来运营商的工作人员告知他,停机是因为他的号码被人多次投诉举报为骚扰电话。“当时我的手机已经停机了,但是工作人员还说我前两天(停机期间)被人投诉了五次,我停机怎么给别人打电话,我就怀疑自己被恶意投诉了。”

陈毅认为,运营商的工作人员应该向投诉人和自己核实是否有电话骚扰行为,“只要把我的通话记录调出来核对,对方投诉我的时候我是不是有拨打过这些电话,就清楚了,现在是核查都不核查,直接就停掉。”

陈毅后来回想,有可能是自己在电商平台购物后要求退货,产生过不愉快,被对方恶意投诉。

11月3日,在经过一系列沟通,提供了相关证明资料后,陈毅终于被再次复机。

郑维有类似的想法,在她看来,不加以验证,直接停机,再要求机主自证,某种程度上是把这部分工作和责任转嫁给了机主。“这个处理程序,让人难以理解。”

李霞认为,不仅是普通用户,营业厅也面临很大的压力,“如果出现你开的电话卡之后涉案了,营业厅将面临严重处罚,甚至被关停,所以说谁都会特别小心一点。”

李霞曾遇到关于停机的各种投诉,有人投诉停机影响生意,要求赔偿,但面对这种情况她也很无奈,“这种要求也不符合规定,毕竟(停机)都是有依据,并不是营业厅工作人员个人行为。”

李霞提到的依据之一是在2021年工业和信息化部、公安部发布的《关于依法清理整治涉诈电话卡、物联网卡以及关联互联网账号的通告》,其中提到,电信企业应建立电话卡“二次实人认证”工作机制,针对涉诈电话卡、“一证(身份证)多卡”“睡眠卡”“静默卡”境外诈骗高发地卡、频繁触发预警模型等高风险电话卡,提醒用户在24小时内通过电信企业营业厅或线上方式进行实名核验……

在李霞接触的工作中,以往的风险较高的号码复机验证曾要求提供工作单位证明,今年这种要求已经被取消。

为什么要起诉

在手机被“误伤”停机后,大多数人会配合提供各种证明材料来复机,但是在孔琳看来,她需要了解清楚原因,为自己争取权益。

去年9月,孔琳打电话时发现手机被停机了。她的第一反应是欠费,但查询后发现仍有余额,在被停机后,孔琳与移动客服进行多次沟通询问被停机的具体原因,对方都回复她“涉嫌诈骗”,后来客服告知她,她的手机号被录入了一个反诈模型。

客服向孔琳解释,自从2022年起,他们推出了一系列反诈模型,但模型究竟如何运转,又依照什么标准运转,孔琳并没有得到答案。“我多次询问我具体被收录到了哪个模型,到底是哪个行为导致的(停机),如果我不知道具体原因,下一次可能还是会被莫名其妙停机,但客服也没有办法确定具体的原因是什么。”

这个手机号码是她2015年在沈阳上大学时办理的,后来到上海生活后,她办理了新的号码。原号码不太常用,但因为手机号码关联了银行卡和很多APP用来购物和生活,她仍旧保留着,“虽然我用的不多,但平常接收短信比较多,订外卖或者收快递这类电话也比较多。”

后来她发现,去年9月3号她曾收到一条短信,提示她号码存在风险,需要通过线上验证。但她当时没看到,“平常我也经常收到推销短信,可能就混杂其中了。”24小时后,号码被停机。

那时孔琳正在准备司法考试,当孔琳发现停机时,已经是10天后。孔琳试图通过投诉方式来找到合理的解决办法,但不管是内部投诉还是通过工信部小程序投诉,最终都是运营商给她反馈,最简单的复机方式仍是通过线上验证。

对于需要朗读认证视频并提交身份证实时照片,孔琳很难接受,“身份证也不能使用以往照片,要当时拍,我问他们能否保证线上链接的安全性,他们也没有办法保证,我当时就非常气愤。因为不是我自己的原因导致的停机,我也没有涉诈的可能。”而如果线下复机,她被告知只能回到沈阳。

李霞介绍,对于号码归属地之外被停机的情况,通常会有跨省视频台席来受理这些异地业务需求。台席电脑安装视频软件,并配备摄像头、音响和麦克风等设备。客户在漫游省的指定厅台通过身份鉴权、人脸识别、读写卡和扫码交费等方式提交业务验证和办理需求,由归属省进行处理。但李霞坦言,这类营业厅数量并不多,至少她所在的市只有一家。

想到即便是线上验证也需要一些繁琐操作,投诉无效一周后,孔琳向互联网法院提起诉讼。

在上网查找案例时,孔琳发现,与她类似被停机的情况很多,但通过诉讼途径解决并胜诉的案例很少。其中一个案例是上海松江区的一个法学生,主动申请停机保护,但被继续收取话费,最终胜诉,“我是被停机,运营商还继续收取话费,我觉得是有胜诉的希望的。”

停机前,孔琳印象中手机还剩余话费100元左右,“现在应该还有80左右,关于停机后话费如何处理,他们没有任何救济途径。”对于停机后的留存话费仍旧产生扣费情况,李霞解释道:“因为不知道用户还用不用这个号码,如果不交费,两个月就会销户,就无法再开机使用。”

直到今年1月13日第一次线上开庭时,孔琳才第一次知道自己被停机的具体原因。移动运营商的代理律师告知她,她被停机的具体原因是被反诈模型录入,触及的一条标准是她的手机卡在60天内没有接、打电话和短信通信行为,超过45天没有在手机卡办理地使用。孔琳对这些标准不解,“长期出差或者定居国外的这些人肯定在异地超过45天。”

孔琳告诉记者,在7月份,她是有明确的通话记录的。“我在60天内是有明确使用记录的。”她提供的通话记录截图证实了这一点。

孔琳提到,开庭时,运营商代理律师提交了三组证据,“第一组证据是移动公司响应国家反诈号召的一些条文规定,第二组证据就是说我为什么会被停机的排查处理模型,并说明模型是已经通过公安机关向政府备案的。第三组证据他们提交了我2025年12月21日操作复机的后台的一个截屏。”

对此在孔琳此后提交的补充意见答辩书中,她提到运营商有权限对涉诈涉案的电话卡进行停机,但前提是“涉案涉诈”。“我的电话卡没有任何信息显示涉案涉诈,我也没有任何行为是涉案涉诈的,所以他们没有权限停机。”

img

孔琳在起诉后获知自己触发的风险监测模型的相关记录

“白名单”之外

突然停机带来的影响很多。停机期间,陈毅的快递都是被放在楼下,“因为快递员联系不上我。”“我要买菜烧饭,没办法付钱,什么事都不能干了,号码还绑定了很多银行卡、手机软件,登录都要验证码……”

去年7月,孔琳报名司法考试时使用的报名电话就是被停机的手机号,“考试是在10月,如果当时考试前有什么突发情况或考试信息变更,我肯定是错过了。”

孔琳把自己诉讼的经历发在社交平台后,她在后台收到了不少求助私信。其中一个网友告诉孔琳,父亲去世后,为了纪念父亲一直保留他的手机和号码。但被停机后,他不知道该如何恢复。

还有一个网友是个体户,平时打电话很多,手机被停机后,他跟孔琳分享说他把手机号申请了白名单,之后没有再被停机。

孔琳也曾试图申请白名单,但在她咨询时,客服告知她需要到线下号码归属地办理。“提交的材料通过之后,对于之后还会不会被停机,他们也不太确定。”

白名单用户通常指经过运营商筛选、审核后认定的优质、合规或者有特定业务需要的用户。一些特殊职业成为被大模型“捕捉”的常客,如大车司机、外卖员、电话销售等,他们常拨打不同号码,量又多。李霞介绍,运营商通常都会给这些行业用户“开绿灯”。在提供如营业执照,手机号、身份证号等证明资料后,可以申请加入白名单,“然后我们会有逐级核查。”

2025年7月21日,《贵州省通信管理局关于省政协十三届三次会议第4431号提案的答复》中也提到构建白名单机制,明确白名单用户范围和条件,确保用户在正常使用通信服务时不受预警模型干扰。同时,加强对白名单用户的动态管理,定期对白名单进行更新和维护。

白名单并不是一劳永逸的办法。公开信息显示,即便进入白名单,运营商的风控系统仍会持续监测号码的通话行为。如果出现短时脉冲式呼叫、被大量用户标记为骚扰或诈骗等情况,仍会面临停机。

孔琳认为,运营商配合相关反诈措施,对用户单方面增加条款限制服务,要有清晰透明的告知义务,比如增加模型具体指的是什么?但也有专业人士在接受采访时提到,大模型的运行机制和相关标准、规则一旦被公布,也意味着诈骗分子将会利用这些规则……

北京网络行业协会法律委员会副主任王琮玮曾在接受媒体采访时表示,电信部门不能以反诈为由,对正常使用电话卡的用户因“误伤”申请解封设置不必要的条件给用户合法使用、合法占有的电话在卡、金融机构账户造成障碍。但这背后,还有更多矛盾待解。

现在,孔琳还在等待最终的审判结果。

(应受访者要求,文中郑维、陈毅、李霞使用化名)

「日本最强AI」塌房了!扒开代码全是DeepSeek,日本网友集体破防

By: 张子豪
18 March 2026 at 12:33

「终于到日本用中国 AI 来冒充日本产 AI 的时代了」

最近这件事在日本的 X 讨论炸了,起因是昨天日本一家科技公司乐天集团(Rakuten)在日本经济产业省(METI)的 GENIAC 项目(日本 AI 政府资助项目)支持下,高调发布了号称「日本最大、性能最强」的 7000 亿参数大模型 Rakuten AI 3.0。

但发布后不久,开源社区就迅速扒出,该模型的底层架构实际上是来自我们的 DeepSeek-V3,乐天仅仅是做了日文数据的微调。

在知名的 AI 开源库 Hugging Face 上,Rukuten AI 3.0 赫然在自己的配置文件里面写着架构来自 DeepSeek V3。

而在 Rakuten AI 3.0 模型的发布新闻稿里,丝毫没有提到任何关于 DeepSeek 的信息,只是含糊的说「它融合了开源社区的精华」,让一众网友以为这款模型就是日本自主研发的。

更致命的是,乐天为了掩盖这一事实,在开源时偷偷删除了 DeepSeek 的 MIT 开源协议文件。在被社区实锤后,才灰溜溜地以「NOTICE」文件名重新补上。

▲在 Hugging Face 上能看到项目文件的提交历史,显示修改

日本网友纷纷表示,「这让人无法接受」,拿着日本政府补贴,竟然只是微调了一波中国的 DeepSeek,还有人说,用 DeepSeek 就算了,还要偷偷藏藏真的很逊。

掩耳盗铃的「日本最强」

单看 Rakuten 公司发布的公关稿,这个模型确实算得上是日本在 LLMs 领域的一次比较有实力的发布。

这是一款拥有约 7000 亿参数的混合专家(MoE)模型,经开源社区确认,是和 DeepSeek V3 一样的671B 总参数,激活 37B。乐天首席 AI 官 Ting Cai 将其形容为「数据、工程和创新架构在规模上的杰出结合」。

Ting Cai 这名字一听就不像是日本当地人,有日本网友在评论区说,用 DeepSeek 很过分,更过分的是,主导这个模型的大老板,是个彻头彻尾的移民强硬派。

我们发现 Ting Cai 曾在美国 Google、苹果公司工作过,并在微软待了超过 15 年,本科在美国石溪大学,计算机科学就读。他曾在采访中表示,十八岁他第一次出国,去的就是日本,确实是个「移民强硬派」。

关于 Rakuten AI 3.0 的模型表现,在官方公布的各项基准测试中,它在日语文化知识、历史、研究生水平推理、甚至竞技数学和指令遵循等维度上,得分表现都极其优异,大有横扫日本本土大模型圈的架势。

不过,用来对比的模型,是已经被下架了的 GPT 4o、只有 1200 亿参数的 GPT OSS,还有日本的新兴另一个 AI 开发企业 ABEJA 基于千问推出的 ABEJA QwQ 32b 模型。

7000 亿和最多 1200 亿比,Rakuten AI 3.0 确实是赢了不少。同时作为经产省 GENIAC 项目的重点扶持对象,乐天获得了大量的算力资源支持。GENIAC 这个项目设立的初衷,正是为了建立日本本土的生成式 AI 生态,缓解对海外巨头技术依赖的焦虑。

日本最大的参数规模,再加上这层「国家队」的滤镜,让 Rakuten AI 3.0 一出场就戴上了「全村希望」的光环。

还得是 DeepSeek

但光环褪去得比想象中更快。

先不说 7000 亿参数、MoE 架构,这几个关键词组合在一起,在当今的开源大模型圈子里,指向性实在太强了。等到开源社区的开发者们,到 Hugging Face 上一看详细的代码配置文件,竟然直接就写着 DeepSeek V3。

从底层逻辑来看,这就是「中国架构 + 日本微调」。DeepSeek 提供了那套被全球验证过、极其高效的底层架构和推理能力,而乐天则利用其本土优势,用高质量的日文语料对其进行了微调,让它变得更懂日本文化。

客观来说,拿开源模型做本土化微调,在技术圈是一件极其正常且合理的事情。就像他们拿来作为对比的 ABEJA QwQ 32b 模型一样,连代号都不改,直接用 Qwen 的 QwQ。

▲日经新闻曾报道,日本公司开发的前十大模型里,有 6 个都是基于 DeepSeek 或 Qwen 进行二次开发

如果乐天这次也坦坦荡荡地承认使用了 DeepSeek 的底座,顶多是一次缺乏新意的「套壳」发布,兴许还能蹭一波 DeepSeek 的热度。

但他们偏偏选择了掩藏。

之前我们分享美团浏览器使用开源项目时,曾提到不同的开源协议,其中 DeepSeek 采用的 MIT 协议,堪称开源界「最卑微、最宽容」的协议。它允许用户免费拿去商用、修改、甚至闭源赚钱。它唯一的请求只有一个:在项目里,保留原作者的版权声明和许可声明。

▲Rakuten 模型发布新闻稿|
https://global.rakuten.com/corp/news/press/2026/0317_01.html

而乐天不仅在模型发布博客中对 DeepSeek 绝口不提,更是直接在代码库里抹除了这份协议文件,还高调宣布自己采用的是 Apache 2.0 协议开源。虽然 Apache 2.0 同样是对商业极度友好的开源协议,但它更正式,常被大厂用来建立自己的开源生态和专利护城河。

▲不同开源协议对比,MIT 协议比 Apache 协议更宽松、更简短,Apache 2.0 在赋予自由的同时,明确包含了专利授权保护和更严谨的责任免除条款,适合更大型、法律风险规避更严格的商业项目|图片来自互联网

乐天的算盘打得很精,抹掉 DeepSeek 的名字,套上自己的 Apache 2.0 协议,再把自己包装成「慷慨开源 7000 亿参数大模型」的日本 AI 救世主。

喊了一年多的欧洲版 DeepSeek、美国版 DeepSeek,最后好像都没有做出来。

乐天也想做日本版 DeepSeek,但在算力和训练成本的压力下,在当前全球大模型飞速发展的局面下,既想要中国技术的极致性价比,又放不下打造「本土巨头」的身段,显然是难上加难。

不如和我们一起等等 DeepSeek V4 吧。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

林俊旸离开的48小时:一条朋友圈、一个小模型、和一个万亿美金的假设

By: Selina
5 March 2026 at 19:47

「按照原来安排继续干」

离职的消息最沸沸扬扬的时候,在 Qwen 团队的核心负责人林俊旸在朋友圈发了两句话:

「Qwen 的兄弟们,按照原来安排继续干,没问题的。」

「安排好的」?这是什么?

林俊旸离开前夕,Qwen 团队刚刚发布了一件被全球开发者社区刷屏的东西。Qwen 3.5 Small 系列,参数量从 0.8B 到 9B,专为端侧设备设计,可以在普通笔记本电脑上运行。

不是一个更大的模型——而是一组更小的模型。要知道,过去三年里,AI 行业最强大的共识是「越大越好」。OpenAI 的 Sam Altman 四处筹措万亿美金建设算力基础设施,各家实验室军备竞赛般地烧钱烧卡,底层假设只有一个:模型越大,就越聪明。

这套逻辑被称为 Scaling Law,它不仅仅是一条技术规律,更像一种信仰——整个行业的融资叙事、人才分配、硬件投资都建立在这个前提之上。

但 Qwen 3.5 Small 的发布,和林俊旸的离开,同时发生。一个技术信号和一个人事信号,交织出一个更复杂的故事:小模型到底在发生什么?它为什么重要?

当 9B 打赢 120B

即便不是开发者,也可以跑分上一窥 Qwen 3.5 的战绩:

Qwen 3.5 Small 系列中,9B 参数的模型在多项基准测试中全面超越了 OpenAI 的 gpt-oss-120B——一个参数量是它 13 倍的模型。

这些不是边缘指标上的微弱优势,而是在核心推理任务上的系统性领先。一个可以装进笔记本的模型,在数学、科学、视觉推理上全面击败了一个需要数据中心级硬件才能运行的对手。

当然了,摸着良心说,gpt-oss-120B 不是 OpenAI 的旗舰产品,而是其开放权重的中端线。而且它采用 MoE 架构,标称 120B 参数,但每个 token 实际只激活约 5.1B 参数——所以参数量的对比,在工程层面并不像字面数字那么悬殊。

但这不影响趋势本身的成立。因为 Qwen 3.5 Small 并不是孤例。

同一时期,Nature 报道了一个微型递归模型(TRM),在 ARC-AGI 逻辑测试中击败了多个顶级大语言模型。Google Research 在 2026 年初发表论文,证明小模型在意图提取任务上的表现优于显著更大的模型。PNAS 上的一项研究更直接——模型规模与说服力之间呈急剧递减收益,大到一定程度之后,更大几乎不带来更好。

《华尔街日报》早在 2025 年 10 月就已经敢说,「大模型拿走了所有的关注,但小模型才真正干活的那个。」

这些信号共同指向一个判断:以小博大不是偶发事件,而是大势所趋。

那么问题来了——小模型凭什么?

才不是大模型的替身文学

直觉上,人们容易把小模型理解为「大模型的平替」,同样的方法,只是规模小一些,性能差一点,胜在便宜。

但事实恰恰相反:今天的小模型之所以能以小博大,是因为它们在技术方法论上,走了一条和大模型完全不同的路。

第一,数据质量压倒数据规模。 大模型的路线是「尽可能多地吞入互联网数据」,而小模型路线的代表——比如微软的 Phi-4 系列——走的是精筛路线:用高质量的合成数据加上严格筛选的公开数据集,让模型在更少的数据上学到更精确的能力。这背后的逻辑转变是根本性的:不是「喂得越多越聪明」,而是「吃得精才学得好」。

第二,原生多模态设计取代了适配器拼接。 传统做法是先训练一个纯文本大模型,再通过适配器模块接入图像、视频、音频等能力。Qwen 3.5 采用了完全不同的架构:将视觉 token 和文本 token 在同一个潜空间中联合训练,从底层就是多模态的。这意味着它是一个天生就同时理解文字和图像的模型。这种架构在小参数量下反而更有优势,因为不需要额外的适配器开销。

第三,量化技术带来的不只是压缩。 4-bit 量化常常被理解为「把模型压小 4 倍以节省存储」,但它真正的意义在于减少 4 倍的内存吞吐量。在端侧设备上,瓶颈往往不是存储空间,而是内存带宽,也就是数据从内存搬运到处理器的速度。量化技术让小模型在带宽受限的手机和笔记本上,获得了决定性的速度优势。

这些方法论上的突破已经开始转化为产品。3 月第一周,苹果发布了 M5 全线芯片,每颗 GPU 核心内置 Neural Accelerator,AI 性能较 M1 提升最高 8 倍。与此同时,苹果研究院公开了 Ferret-UI Lite——一个仅 3B 参数的端侧 GUI 代理,可以本地操控手机和桌面应用。加上 Apple Intelligence 约 3B 参数的端侧基础模型,苹果正在将「on-device AI」从概念推进到芯片、模型、交互三位一体的产品形态。

微软的 Phi-4 multimodal 也开始尝试商用上线 Azure,3.8B 参数,接受文本、音频和图像输入。开源社区的反馈更加直接——Reddit 上的开发者实测后认为 Qwen 3.5 的 4B 版本是「甜点级」模型:跨任务稳定、无崩溃、远快于 9B 版本。

技术路线已经被验证,产品化拐点已经到来,天边泛起鱼肚白,曙光乍现。

而就在此刻,林俊旸选择离开。

最会做小模型的公司,最没有动力让它成功

Qwen 3.5 Small 在发布后获得了开发者社区的广泛认可,开源社区的评测结果甚至超出了官方发布时的宣传。

但是,他所在的公司是阿里巴巴,阿里巴巴的商业引擎是阿里云。

大模型和云计算之间存在天然的正向循环:模型越大,推理所需的算力越多,客户就越需要购买云计算服务。对阿里云来说,大模型是完美的商业叙事——它同时推高了客户的算力需求和对云平台的依赖。

而小模型的逻辑恰恰相反。小模型的核心价值在于可以在端侧设备上运行——手机、笔记本、边缘服务器。这意味着客户可以绕开云,在本地完成推理。对用户来说,这意味着更低的成本、更好的隐私和更低的延迟。但对阿里云来说,这意味着收入被侵蚀。

Qwen 3.5 Small 做得越好,对阿里云的商业叙事就越尴尬。

这不是阿里一家的问题。放眼中国的科技巨头,几乎所有 AI 领先的公司都面临同样的结构性矛盾。百度和腾讯的处境与阿里类似——商业模式建立在云服务和平台抽成之上,小模型的端侧化趋势直接削弱了它们的价值主张。

字节跳动的豆包手机是一个有趣的例外,但字节做硬件才刚起步,远没有建立起「芯片+操作系统+模型」的垂直整合能力。

华为理论上最有条件,既有芯片,又有终端设备。但在制裁的影响下,它的算力上限本身就逼着它走小模型路线,这更多是被动的求生策略,而非主动的战略选择。至于小米、OPPO、vivo,它们有设备,却不是 AI-first 的公司,缺乏自研模型的基因和持续投入的动力。

全球范围内,真正打通端侧 AI 全栈的公司,可能只有一家:苹果。芯片、设备、操作系统、自研模型,全部自有。苹果的动力来自复合型的商业模式,这驱动它把一切计算尽可能留在设备上,因为每一次端侧 AI 体验的提升,都会转化为硬件的溢价和生态的黏性。

不过,这里需要诚实地处理一个可能的反驳:云厂商难道不能走「端云协同」的路线吗?用小模型做端侧入口,复杂的推理任务回调云端处理,两边都不耽误。

理论上可以。但这恰恰说明了问题——在端云协同的框架下,小模型对云厂商来说是「引流工具」,而不是「独立产品」。云厂商没有动力把小模型做到好到不需要云。

还有一个绕不开的反例:微软也是云厂商,但它在认真做 Phi-4 系列小模型,而且已经商用上线。这是否说明「左右互搏」的论点站不住脚?

非也。微软之所以能两条腿走路,是因为它同时拥有 Windows 和 Surface 的硬件生态、Azure 的云平台以及 Copilot 的端侧产品线。做 Phi-4 对微软来说是防御性布局:如果端侧 AI 的趋势不可逆转,为了大局,宁可壮士断腕,自折一臂,也不能把端侧市场拱手让给开源社区和苹果

但阿里没有这个选项——没有消费级操作系统、没有主流终端硬件、没有面向个人用户的 AI 产品矩阵。Qwen 做得再好,也没有自家的「最后一公里」可以落地。

动力不同,产品的天花板就不同。

这就形成了一个令人不安的画面: 小模型从实验室走向产品的真正瓶颈,不是技术能力,而是供需错位;最擅长做小模型的公司(云厂商),最没有动力让它真正成功;最需要小模型的公司(设备厂商),又缺乏独立研发的能力。

「没问题的」

回到林俊旸的那条朋友圈,「继续按照安排好的干,没问题的」。

也许技术路线确实没有问题,一切都在朝着正确的方向走。但在一家以云为重的公司里,就算做出世界级的小模型,团队的处境注定不会舒适。

这不是对阿里的批评——任何一家以云收入为生命线的公司,面对一项可能侵蚀自身收入的技术路线,都会陷入同样的两难。这是一个结构性矛盾,不是个人或管理层的选择问题。

比人事更值得关注的,是 Scaling Law 本身正在发生的变化。

过去三年,「越大越好」不仅仅是一条技术规律,它是整个 AI 行业的信条。融资叙事围绕它建立——投资人相信更大的模型意味着更强的能力,所以万亿美金涌向算力基础设施。人才分配围绕它运转——最顶尖的研究者被吸引到训练最大模型的团队。硬件投资围绕它定价——英伟达的估值建立在一个前提之上:对算力的需求会永远增长。

现在,这个前提正在松动。MIT 的研究估计,效率提升将使中等硬件上的模型在 5 到 10 年内逐步追平最大最贵的模型。芝加哥大学的研究表示,数据质量正在取代数据规模成为核心竞争维度。

产品化的方向不再只有云端,而是同时向端侧扩散。Scaling Law 正在从一条单调递增的曲线,变成一张需要在多个维度上寻找最优解的地图。

不再是「越大越好」,而是「在对的地方,用对的大小」。

林俊旸大概比大多数人更早地感受到了这个变化。他用 Qwen 3.5 Small 证明了一件事:在对的方法论下,9B 参数可以击败 120B。但他同时也撞上了另一堵墙——技术上的正确,不等于商业上的可行,更不等于组织上的舒适。

他说,没问题的。确实,技术路线已经铺好了,而剩下的问题不在实验室里,而在实验室外面。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


3I/ATLAS_SUiTHiNKModel_v1

By: Steven
27 October 2025 at 11:44

那年冬天,国际天文学联合观测网宣布,人类再次捕捉到一个“跨恒星访客”。
代号:3I / ATLAS

它并非金属,也不像冰体。所有望远镜的数据都在闪烁、紊乱、跳跃。
有科学家提出,它的表面并非反光均匀,而是一种会散射观测波段的天然迷彩。
这意味着,它在主动隐藏自己。

天文学家称之为“被注视的凝视物”。


一、模型

两个月后,一个名叫苏弋的工业设计师在社交媒体上发布了一张照片。
他掌心托着一个13厘米长的灰黑色小模型,表面布满刻意的不规则反光。
标题很简单:

3I/ATLAS_SUiTHiNKModel_v1

照片下没有说明,也没有解释。
但第二天早晨,它就出现在各大科技博主与艺术账号的页面上。
短短几天,#ATLAS掌心体# 的话题播放量突破一千万。

人们惊讶地发现:这个模型拿在手里,会因角度与光线不同而不断改变亮度与轮廓,好像真的在呼吸。
没有任何机械结构,却让人产生一种“被凝视”的幻觉。

潮流品牌纷纷推出联名款、限量款,甚至高定银质版本。
3I/ATLAS 成了地球上最受欢迎的“掌心饰物”。


二、名字

直到那时,人们才开始注意到模型命名里那个奇怪的后缀:SUiTHiNK

起初只是粉丝在 Reddit 上随口猜测:

“是不是苏弋 think 的意思?他在表达‘思考的我’?”

很快,语言学与符号学圈子加入了讨论。
牛津大学的一位古文字学家在论坛上指出,SUi 在苏美尔语音节表中确有记录,对应音素「šù-i」,意为“手中之物”或“掌握的”。
而 THiNK 若取古日耳曼转写体系中「þenkaz」的变体,则可指“思想、意志”。

这两个词放在一起——SUi / THiNK——意外构成一种双重结构:

“思想被握于手中”
“手成为思想的延伸”

正好对应了那枚贴合掌心的模型。


三、文件

一个名为《ATLAS分析草稿》的PDF文件在暗网流出,署名不明。
文件记录了苏弋受邀前往某个“国际天文资料保存计划”设计储存容器的过程。
文件被加密,只能读到部分片段:

「……他拒绝使用镜面金属,要求采用能分散反射的表层……」
「……他说它看我们的方式,与光的角度有关……」

消息曝光后,网友纷纷去翻苏弋的旧贴。
有人发现,在他早期设计的数个装置艺术中,常出现一种奇怪的结构:
不规则的反光面、内部空洞、可置于掌心的尺寸。
似乎他早在3I/ATLAS出现前,就在“模拟它”。


四、失踪与重现

半年后,苏弋停止更新。
没有告别,也没有声明。
他最后一条动态是一张模糊的近景:
灰色反光面,指纹模糊,背景是实验室的冷光。

账号沉寂,模型销量却持续飙升。
ATLAS 成了新世代的“图腾物”——有人把它挂在胸前祈祷,有人说握着它冥想能听见低频嗡鸣。
心理学家解释那是“自我投射效应”,
可越来越多的视频声称,模型在暗处能“微微震动”。


五、抄本与注释

一位梵文与苏美尔语双修的学者在学术会议上展示了一页《纳格·哈玛第文库》的边注。
那是一段13世纪的修订版手抄本,边缘用拉丁混写体标注着一个模糊的词组:

“SUI · THINC”

他解释说,古修士在这里用“sui”(自我)与“thinc”(思想、议会)并置,
象征“自我与思想的合一”。
而这页手稿讨论的主题正是——“被造物如何回望造物主”

学者最后说:

“这并非巧合。有人在重新复写那一页。”


六、光的陷阱

几个月后,一个匿名账户上传了一段短片。
画面是普通实验室,一枚3I/ATLAS模型被置于光谱仪下。
随着仪器启动,反射光像是被吸入某种结构中——
在高倍放大镜头下,模型表面出现了极细的刻痕,
排列成一种自相似的螺旋分布

字幕写着:

「不是反射,而是记忆。」

短片很快被删除,但无数人下载、转发。
有科技频道尝试复刻实验,结果不同——有的只是普通塑料折射,有的却出现微光闪烁。

人们开始相信,真正的那批限量模型里藏着“某种东西”。


七、余波

如今,3I/ATLAS 已成全球设计学院的研究对象。
有人研究其造型心理学,有人分析其符号学层次。
但没人再提那个名字——苏弋

只有极少数人记得,他在一篇采访中留下过一句话:

“如果我们注视的东西,也在注视我们,那我们看到的,或许只是它让我们看到的部分。”

这句话如今被无数次印在ATLAS周边的包装盒上,
也被误以为是广告语。

而在某个收藏论坛上,一张从未公开的照片被匿名发出:
桌上放着数枚模型,灯光昏暗,镜头对焦在最后一排。
那些模型的反光形成一条微弱的线,连成一个英文单词——

RETURN.

模型由我使用 Midjourney、Tripo 设计制作;

短文由 ChatGPT 配合我完成;

首图为模型实拍,经 Banana 和 Snapseed 处理。

点击这里打印模型,祝大家玩得开心!

運動無國界,嗎?

By: Steven
21 February 2024 at 21:35

🎥 點擊封面播放視頻

由一個提問開始,我從設計師與創作的角度,談論體育運動中的民族主義,警惕「分類」思維對思考過程的影響。

今日戶外步行運動記錄:開發了一條四分馬的路線!

🎥 B站播放地址:https://www.bilibili.com/video/BV1yv421k7Mg/

🎥 YouTube 播放地址:https://youtu.be/w2KQoic8LAg

這是春節過後的第一條視頻,主要是起個頭跟大家聊聊天。如果你有任何想法,歡迎在視頻中的彈幕或評論區里和其他人一起理性討論。

❌
❌