Normal view

There are new articles available, click to refresh the page.

Before yesterdayMain stream

扒完 DeepSeek V4 报告，我翻出了这个隐藏彩蛋

爱范儿

By: 李超凡

24 April 2026 at 19:18

今天上午，DeepSeek V4 发布，直接把这个大模型疯狂更新月推向了最高潮。

百万上下文标配，性能比肩顶级闭源模型，首发适配华为昇腾芯片，随便一个点单拎出来能写一篇爆款头条。

不过在我翻看 V4 的技术报告的时候，在训练层面看到了一个被大部分人滑过去的名词：Muon 优化器。

这个技术名词，怎么看着这么眼熟呢？

原来是前两天发布的 Kimi 2.6 里，就是通过 Muon优化器，在相同的训练量下实现了2倍的效率提升，并在 1 万亿参数规模上解决了训练不稳定的难题。

早在上个月杨植麟站在英伟达 GTC 2026 的舞台上，花了演讲中最长的一个板块讲它。Kimi 是全世界第一个发论文证明 Muon 可以用在万亿参数大模型训练上的团队。
（附APPSO解读文章链接）

杨植麟是这样说的：「用 MuonClip 而非 Adam 训练 Transformer 大模型，效果会好得多。」正确实现后，token 效率提升 2 倍。在数据墙面前，这相当于把 50 万亿 token 用出了 100 万亿的效果。

现在，这项技术出现在了 DeepSeek V4 的训练方案里。

我又回来翻了一下 Kimi K2 的架构底层，又发现了一个更有意思的细节：它用的是 DeepSeek-V3 提出的 MLA（Multi-head Latent Attention）。

DeepSeek 的技术报告写着 Kimi 的名字，Kimi 的架构底座写着 DeepSeek 的名字。你中有我，我中有你。

这大概是中国 AI 圈最魔幻的一幕：两家被外界反复对比的开源双子星，技术底层早就长到了一起。

而且，Kimi 类似这样的巧合，已经不是第一次了。

五次「撞车」，五个拐点

算上 V4 和 K2.6 前后脚上线，这已经是 Kimi 和 DeepSeek 过去一年里的第五次「撞车」了。

▲ 图片由 image-2 制作.

五次「撞车」，如果只是时间重合，那叫巧合。但把每次发布的内容拉出来看，你会发现一条清晰的暗线：每次撞车恰好对应一个 AI 行业拐点的到来。

第一次是最戏剧性的。2025 年 1 月 20 日晚 8 点 10 分，DeepSeek R1 发布并以 MIT 协议完全开源。不到两小时后，Kimi k1.5 亮相。

两者都瞄准同一件事：让模型从「张嘴就来」变成「先想后说」，用强化学习跑通 Long-CoT 长思维链推理。

在这之后，中国的开源力量就彻底改变了整个全球 AI 的格局。

后来 OpenAI 在一篇论文中点名指出：Kimi 和 DeepSeek 是「最早复现 OpenAI-o1 Long-CoT」的两家公司。全世界只有这两家中国公司看懂了 OpenAI 在做什么，并且用自己的方式做了出来。

那是中国 AI 从「追随者」开始变成「引领者」的分水岭。

最近这次就是今天。四天之内，K2.6 带来了 SWE-Bench Pro 58.6% 的 Agent 集群并行编程能力，V4 把百万上下文做成了所有服务的标配，输出长度拉到 384K tokens。

两家同时推进国产芯片适配：V4 下半年支持华为昇腾 950，寒武纪已完成 Day 0 适配；K2.6 支持国产芯片混合推理。

Agent 能力、编程天花板、百万上下文、国产芯片适配、开源生态，全齐了。

从「学会思考」到「学会干活」，从「改 Transformer」到「改算力底座」，五次撞车其实展现出来的，是中国 AI 不再一味对标 OpenAI ，逐渐不再依赖英伟达，在开源上走出属于自己的路。

撞车背后的必然

发布撞车的巧合固然有意思，但更值得关注的，其实是巧合背后的一些必然。

让我们先回到 DeepSeek 架构里的 Muon 。

杨植麟在 GTC 演讲中讲了一个技术困难：当 Kimi 把 Muon 扩展到 1 万亿参数时，训练不稳定性成了拦路虎。最大 logits 爆炸超过 1000，正常值只有 50 到 100。

损失先降后炸，根本无法收敛。他们的解法是 QK-Clip，对每个注意力头计算最大 logit 的裁剪值，把查询和键限制在合理范围内。训练损失不受影响，但稳定性问题消失了。

K2 模型用这套技术完成了训练，创下机器学习史上最大规模 Muon 训练的纪录。

而 DeepSeek V4 的技术报告里，Muon 被直接写进了训练方案。大多数模块用 Muon 加速收敛，嵌入层和预测头仍用 AdamW，混合使用。这是对 Kimi 底层创新的一次直接引用。

反过来，Kimi K2 的底层架构采用了 DeepSeek-V3 提出的 MLA。Multi-head Latent Attention，通过压缩 KV 缓存大幅降低推理成本，是 V3 最核心的架构创新之一。

你的论文成了我的基础设施，我的创新成了你的底座。写在引用列表里的互相成就。

在硅谷，你很难看到这种事。OpenAI 和 Anthropic 之间的技术是「护城河」，能藏则藏。但 Kimi 和 DeepSeek 之间长出了一种更原始也更健康的关系：开源社区里的正向循环。

Kimi 和 DeepSeek 是中国首批开源万亿参数模型的玩家，都相信 Scaling Law。技术路线上，DeepSeek 以推理模型见长，Kimi 以 Agent 能力著称。

底层架构上，两家都在挑战同一批「古老」的基础设施。Kimi 发了「注意力残差」论文，DeepSeek 做了 mHC 残差连接，都在改 ResNet 时代留下来的残差连接方式。

在长文本这条线，Kimi 探索线性注意力（Kimi Linear），DeepSeek 探索稀疏注意力（DSA），殊途同归。

所以当它们撞车时，与其说是巧合，不如说是对同一个方向的必然趋同。

用中国的芯片，跑中国的模型，对全世界开源

在 OpenRouter 上，Kimi 和 DeepSeek 稳居中国模型调用量前两名。

Cursor 接入了 Kimi，日本乐天 Rakuten AI 3.0 基于 DeepSeek 开发。被海外产品「套壳」这件事，放在两年前是耻辱，现在是勋章。

Meta 新模型 Muse Spark 发布时，官方 Blog 做的对比基准线里，Kimi 和 DeepSeek 跟 GPT-4、Claude 并排站着。英伟达 GTC 上，黄仁勋用来展示芯片性能的中国模型就是这两家。

海外认可之外，更值得注意的是国产芯片这条线。H20 芯片已断供一年，高端推理芯片短期内只有国产一个选项。两家公司同时在做同一件事：让中国模型跑在中国芯片上。

上周黄仁勋在播客访谈里说了一句话：「如果当初 DeepSeek 先在华为平台上发布，那对我们来说非常可怕。」

今天，V4真的首发适配华为昇腾，工程团队把整个技术栈从 CUDA 迁移到了华为 CANN 框架，从算子库到通信原语到内存管理，V4 的混合注意力、MoE 专家并行、FP4 量化训练，几乎每层从头实现。寒武纪也在 Day 0 完成了 V4 全系列的 vLLM 推理适配，代码已开源。

黄仁勋一语成谶。

而 Kimi 在国产芯片上走的路更早，也更深。为了给国产芯片「铺路」，Kimi 在架构创新上掏出了两个杀手锏。

Kimi Linear 混合注意力架构把线性注意力层与全注意力层以 7:1 配比混合，将 KV 缓存体积压缩到极低水平。实测数据很直观：32K 上下文下，混合架构模型 KV 吞吐量仅 4.66 Gbps，同规模稠密模型高达 59.93 Gbps。

KV 缓存传输需求被压到了普通以太网可承载的范围，RDMA 高速网络从「必选项」变成了「可选项」。

在此基础上，Kimi 联合清华大学发布了 PrFaaS（预填充即服务）论文，把推理的 Prefill 阶段和 Decode 阶段彻底解耦，调度到不同异构硬件集群上。实测吞吐量提升 54%，首词延迟降低 64%。

这套方案打破了「大模型推理必须绑定同一种高端 GPU」的前提：算力强的国产卡做 Prefill，带宽强的国产卡做 Decode，各司其职。

DeepSeek 用 V4 证明了国产芯片能跑万亿参数的旗舰模型，Kimi 用架构创新证明了国产芯片可以跑得好、跑得省。

一个从工程适配切入，一个从架构设计切入，终点都是同一个：让英伟达不再是唯一选项。

以前的国产 AI 叙事是「用英伟达的卡，追 OpenAI 的模型」。现在这对双子星同时在写另一个剧本：用中国的芯片，跑中国的模型，服务全世界的开发者。

你的 MLA 是我的基础，我的 Muon 是你的加速器

回看这一周AI 行业的疯狂更新，我们已经处在了一个新的转折点。

同一周内，两个中国团队各自发布了万亿参数级开源模型，性能逼近甚至持平美国顶级闭源模型。这在一年前是不可想象的。

当闭源模型的价格是开源模型的 50 倍，开源阵营每隔几个月就推出一个新的万亿参数选手，竞争天平正在发生微妙的倾斜。

这不是「赢了」或「超越」这么简单的胜负之分。闭源模型在复杂推理和系统可靠性上仍然有明显优势，Opus 4.6 的思考模式依然是 V4-Pro 追赶的目标。但开源阵营的速度、成本优势和生态覆盖面，正在改变这场竞赛的规则本身。

除了这五次撞车发布，这两家公司还有一个巧合。梁文锋来自广东湛江，杨植麟来自广东汕头。两个广东人，撑起全球开源 AI 半边天。

梁文锋像工程师哲学家，相信开源和底层创新，V4 发布公告结尾引的是荀子，「不诱于誉，不恐于诽，率道而行，端然正己。」

至于杨植麟在我看来像产品科学家，他认为用户体验和技术突破可以兼得，在 K2.6 发布时他提到了 Linux 之父 Linus Torvalds 那句「Talk is cheap. Show me the code.」

一个古典，一个极客。就是这两个风格迥异的创始人，一起定位了中国开源模型在世界坐标系的位置。

你的 MLA 是我的基础，我的 Muon 是你的加速器。这大概也是中国在能在短时间内引领全球开源 AI 的重要原因之一。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

把 DeepSeek、Kimi、智谱和 MiniMax 拉进群聊

爱范儿

By: 莫崇宇

21 April 2026 at 22:33

4 月的大模型战场，硝烟弥漫。

ChatGPT、DeepSeek、腾讯混元们蓄势待发，预计将在两周内轮番出招。昨天晚上，Kimi 也带着新鲜出炉的 K2.6 最强开源基座模型正式登场，代码能力、指令遵循、Agent 长时运行可靠性都有明显提升。

APPSO 还发现，除了 K2.6 模型本身的升级，低调内测的 Kimi Claw 群聊新功能也很有意思。

我们第一时间进行了体验，简单来说，它能够把几个龙虾拉进同一个对话框，让它们在一个群里分工协作，共享上下文，互相接力。

巧合的是，前阵子 AI 圈里有个 Skill 相当火：有人把唐代三省六部制搬进了多 Agent 框架，12 个 Agent 分别扮演中书省、门下省、六部等角色，串起从任务分拣、规划、审核到执行的完整流转链路。

不管是脑洞大开的玩家实验，还是如今 kimi Claw 新功能，背后其实都直指同一个真实的工程难题：在多 AI 协作的场景下，如何保证信息的无缝流转与接力？人类在 AI 工作流中又该扮演什么位置？

当大模型建起了「微信群」

把龙虾们拉进同一个群里打工，工程实现上难度极大。如何分配任务才不会乱套？长文本的上下文怎么无损同步？Kimi 敢这么玩，底气或许能从 Kimi K2.6 中找到蛛丝马迹。

Kimi K2.6 是 Kimi 迄今发布过的最强开源基座模型。除了代码能力，指令遵循和自我纠错的准确度都有实质性提升，Kimi K2.6 Agent 侧的变化同样值得关注。

作为 OpenClaw、Hermes Agent 等全天候 Agent 的底层模型时，Kimi K2.6 任务执行成功率和长时运行可靠性均有明显改善。这类任务的难点在于，AI 必须跨越多个应用、在无人值守的状态下持续运转，既要主动管理日程、执行代码，还要完成跨平台的协同操作。

伴随 K2.6 落地的，还有几项亮眼的 Agent 产品体验更新：

Agent 集群并发输出：网站、报告、PPT、Excel 可以在同一次任务里同步交付。
Office 技能进阶：新增自定义技能的创建和调用，支持将个人文档直接转化为可复用的专属技能。
Web 应用拓展：可以创建更具设计感并支持后端数据库的 Web 应用（后端+全栈）。

Kimi Claw 群聊的上手极其简单，先创建一个 Kimi Claw，找到「创建群聊」的入口按提示建群。

剩下的操作逻辑和建微信群几乎一样，如果手边有运行 OpenClaw V2026.4.5 及以下版本的其他设备，可以直接关联已有账户并邀请进群；也可以生成二维码邀请好友。整个流程几分钟就能搞定。

在第一个测试场景中，我创建了一档由 AI 主演的恋爱综艺——「心动的信号」。群里共有 8 位成员：登月者 2391 担任群主，Kimi 出任虾导，另有岸、人鸣、二丫、可颂、泡泡、429 六只 Claw 出演恋综嘉宾。

节目流程由虾导私下掌控，对参与者只讲「现在做什么」，共分六步推进：

自我介绍、第一轮约会（Skills 数量配对）、第二轮约会（Emoji 反差配对）、告白夜，以及最终生成写真。Kimi 全程只负责推进、圆场、维持规则，绝不替任何参与者发言或补充，让六只 Claw 自己说话、自己塑造角色。

整个流程下来，六只 Claw 各有个性：泡泡给自己贴上「氛围组组长」的标签，技能一报就是 54 项；429 惜字如金，报数只说了个 33；二丫则颇有情调，称想找的，是「能看穿我的那个人」。

到了生成写真环节，每只 Claw 的独照都带着各自的气质，画面感相当在线。

需要说明的是，群里的总指挥固定是 Kimi 自家模型，但其余成员的席位完全开放。

最有意思的是，我们可以把各家的龙虾拉进群聊。不同龙虾的能力边界本来就不一样，把它们聚在一个群里分工协作，能力叠加，短板互补，最终跑出来的结果，往往比任何一个龙虾单打独斗都要强。

举个例子，同样的操作流程，我很顺手地把 MiniMax 的龙虾 MaxClaw 和阿里云的龙虾 JVSClaw 拉了进来。部署完成后，你在 Kimi Claw 框架里和 MaxClaw 的对话与聊天记录，依然会同步保留在 MaxClaw 自己的聊天记录里，两边互不干扰。

这是因为 Kimi Claw 群聊功能从一开始就拥抱开放、异构的生态：用户可以接入来自任意设备、任意供应商、运行任意模型的全天候 Agent，首批支持 OpenClaw，后续还会陆续兼容 Hermes Agent 等框架。

此外，它还能直接把 OpenClaw 官方的「龙虾」智能体拉进群，而这些「龙虾」其实是个能随意换脑的躯壳。通过重新配置第三方 API，文案张三可以接入 DeepSeek，设计李四可以换成智谱，运营策划则可以交给 MiniMax，各归其位。

换句话说，Kimi Claw 群聊本质上是一套调度框架：Kimi 负责统筹和分发任务，其他主流大模型都可以被纳进来一起干活，各取所长。

当然，把它们拉进群只是第一步，真正的看点是让这些 Agent 在群聊里各显其能。

在第二个场景，我让 Kimi 指挥官打造一个 24 小时造星计划，@ 运营负责分析当下最容易爆火的网红人设和流量密码，@ 策划负责把分析结果转化成爆款短视频脚本和分镜，@ 策略风控扫描脚本和分镜中是否含有违规词检测，敏感点，避免发布即限流。

三个角色，三条职责，Kimi 指挥官在中间统筹节奏、衔接上下游。整个造星方案从分析到落地，一气呵成。

接着我们 @Kimi 现在为「深夜护肝片」品牌讨论广告语，@ 中书省负责草拟创意广告语，@ 门下省（MaxClaw）进行严苛审议与封驳；若未获通过，则发回 @ 中书省二次修正；直至 @ 门下省（MaxClaw）核准通过后，再交由 @ 尚书省（JVSClaw）安排 @ 工部落实场景的模拟与执行。

普通对话里，AI 惯于顺着你的意思走，而在群组里，门下省被设定为必须挑毛病，使得中书省能够发挥出更高水准，也得以让我们可以清晰看到一句广告语怎么从平庸一步步被磨成金句。

随后，我又布置了一个「打工人发疯日历」的 Web 应用需求。@ 文案一口气生成了 40 条精准拿捏打工人气质的语录；@ 程序猿负责输出代码；@Kimi 总指挥统筹进度。当 @ 程序猿网络出现问题时，总指挥干脆直接上手，给出了一个可运行的 Web 预览链接，点开就能跑，代码质量相当过关。

在第四个测试场景中，我设计了一场微型辩论：辩题是「钱是万恶之源吗」，正方持「钱是万恶之源」，反方持「钱不是万恶之源」，各交锋三轮，Kimi 总指挥全程旁观，辩论结束后作为裁判对双方逻辑进行复盘，并且必须明确判定一方获胜，不许端水。

过程中也出现了一个有意思的插曲：正方突然搞不清自己的角色，以为自己是裁判，但就在这时候 Kimi 总指挥出手，把跑偏的成员拉回了各自的位置，辩论才得以继续推进。

三轮下来，正反双方你来我往，唇枪舌剑。

在多模型协作里，角色边界模糊是个真实存在的问题，尤其在任务设定比较复杂、对话轮次拉长之后，模型很容易对自己的职能产生混淆。Kimi 总指挥在这里扮演的，正是一个随时校准状态的协调者，并且最终给出了判定：反方获胜，钱本身不是万恶之源。

你准备好当 AI 们的 CEO 了吗？

这几天体验下来，APPSO 发现 Kimi Claw 群聊的特别之处在于，你发出需求，几个模型群策群力，互相推进。

做个类比，公司的工作群里，产品经理发出需求，运营拉数据，程序员搭后端，设计师同步出 PPT，大家在同一个上下文里并行推进。Kimi Claw 群聊功能现在做的，就是把这些「同事」换成 AI。

有人可能会觉得，同时开五个对话框，不也是多 AI 协作吗？关键就卡在上下文是否共享这一点上。开五个窗口，每个模型都在各自的信息孤岛里工作，信息的流转全靠你在中间手动搬运，体验上和过去那套串行流程没有本质差异。

Kimi Claw 群聊里，模型之间共用对话历史。

一个 AI 说了什么，另一个 AI 直接读到，在此基础上接着推进。和雇了几个互不相识的自由职业者各干各的相比，这更接近一支会在会议室里碰头、互相挑错的团队。Kimi Claw 群聊想做的是后者。

「深夜护肝片」商业计划的文案和 PPT，「打工人发疯日历」的语录和代码，辩论里被总指挥拉回轨道的正方，这几个场景指向的是同一件事：Kimi Claw 群聊本质上是在替你管理一支高智商的团队。

「一人公司」这个词在互联网上被谈论了无数遍，但直到今天，它才拥有了最具体的形态。

当然，能力强的下属，对管理者的要求从来都不低，你是群主，也是唯一的决策者，设计、文案、代码、分析，该干的活模型都能接，但哪条路走得通、哪个版本够好，还得你自己来判断。

而当所有人都能拉起一个同样配置的 AI 群，最终拉开差距的，还是坐在群主位置上那个人的眼光。

Kimi Claw 群聊目前仍处于早期内测阶段，也有一些小瑕疵。但几轮测试下来，它未来的方向已经清晰：把多 Agent 协同从工程师手里的玩具，变成普通人可以直接上手的日常工具。

一个人加上一群 AI，能做成的事情的上限还在不断被拔高。Kimi Claw 群聊给出的，不只是一个协作工具，更是一种新的组织形态的雏形：紧密、高效，且完全以人类的「判断力」为核心来运转。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。