Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

【网络民议】钱也出不去,人也出不去

28 May 2026 at 19:09

5月27日,香港金融管理局向所有认可机构发出通知,加码内地投资者投资账户监管;而前一天彭博社一篇报道披露中国已将出境限制扩大至民营企业的顶尖AI人才。两条新闻引发了网民关注、热议,有人调侃这是“钱也出不去,人也出不去”、“双向收紧、油门(倒车)焊死”。


CDT 档案卡
标题:【网络民议】钱也出不去,人也出不去
作者:中国数字时代
发表日期:2026.5.28
来源:网络
主题归类:开倒车
CDS收藏:话语馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

5月27日,香港金融管理局回应称,已于5月22日向所有认可机构发出通知,对内地个人投资者的投资账户提出三项额外监管要求:关闭以可疑或伪造文件开立的账户,核查倒查至2023年1月;关闭截至5月22日零结余且过去12个月无客户活动的不动账户;新开账户时须取得书面声明,确认“所有用以支持投资活动及相关结算的资金均来自中国内地以外的合法来源”。香港金融管理局还表示,新措施仅适用投资账户,不涉及储蓄、存款、支付、贷款及信用卡等功能,也不适用于公司及机构客户。

原文链接:财联社|香港加码内地投资者投资账户监管,开户核查倒查至2023年1月

5月22日,中国证监会等8部门联合印发《综合整治非法跨境证券期货基金经营活动实施方案》,并对富途证券、老虎证券、长桥证券三家跨境券商立案调查,拟没收全部违法所得并依法严厉处罚。富途控股、老虎证券其后披露的合计罚没金额超过22亿元;受此影响,两家公司美股股价大跌,合计蒸发市值超过40亿美元。该方案设置2年集中整治期,期内仅允许“单向卖出”——只能把账户里的钱转回境内,不再提供新增买入和资金转入服务;整治期满后,境外机构须全面关停境内网站、交易软件及配套服务。

file

有部分网友提供的反馈:

filev
filev

有视频显示,仍有大量大陆民众赴港办理银行卡:


网友调侃:“都不买A股是吧,那就都别买了”。

filev

此外,5月26日彭博社引述知情人士消息称,中国政府已开始对参与先进人工智能(AI)工作、且对国家具有战略重要性的人员实施旅行限制,这些人才出国旅行前需要获得官方批准;受限对象包括阿里巴巴、深度求索(DeepSeek)等民营企业的初创公司创始人、研究员及高管。之前,官方限制知名高校研究人员、核科学家和国企高管等关键人员出行已有多年,新的限制是专门针对AI领域的精英人才。这也显示,中国国企长期扣押高管和干部护照的做法,已扩展至民营企业。官方也会根据个人对国家的重要性,而非仅依据资历或单位,将其列入旅行限制名单。中国政府在4月底喊停Manus收购案之前,Manus两名联合创始人回国之后即被禁止出境、仅在中国境内可自由活动;知情人士称,中国限制AI人员出行的计划不一定与Manus事件有关,但防范技术泄露仍是关键政策目标。彭博社指出,此举凸显顶尖AI工程师如今已被中国政府视为战略资产,但这些限制措施可能会削弱中国AI公司招募和留住人才的能力……

原文链接:联合早报|知情人士:中国将出国限制扩大至民营企业顶尖AI人才

以下为中国数字时代编辑摘自财联社app、推特:

圈圈子Killit:你一天有什么好消息吗?

Momo:原生家庭的痛。

BLANC:如果美股不能赚钱,连开户都难。

别瞅:金融废墟。

Lord21:深圳市香港区。

ALEX:亚洲金融中心。

牛哥:新加坡:原来真可以躺赢!

黑龙江小助手:只是倒查3年吗,不应该是30年吗?

Sth.Crazy:所以2023年1月以前的就不管了吗?!真的吗?

好想快啲退休:这不就对了嘛,听母亲的话,是个好孩子。

徐磊:现在来看好像没有必要了,去了会问你资金来源,内地资金来源的可能大概率投资开证券账户不行了。

北山北下种番茄:散户是国有资产,老虎富途造成国有资产流失,必须重拳出击,坚决支持!

骆驼的咖啡馆:这下有资金回来接盘了……

JH@dream:我比较担心的是港股,作为长期持有腾讯的股东,这一波是不是得跑得快了?感觉美股受不了什么伤害,港股肯定要死翘翘了。

two3pro:资金流动自有规律,人为干涉只会适得其反。

——————

xpnikapax:太好了!终于能实现“资本不外逃,幸福在国内”的伟大目标了!

RemmingtonSR:这波是逼大伙回去吃屎呢!

XIAOQINGMANTAN:为什么不倒查三十年是因为不好玩吗?

realjiucai:还要多少信号才能让最迟钝的人明白,香港已经彻底凉透了。

funny_onions:好好的一个全球金融中心,被一个小农思想的土鳖,活活搞死。香港,对共产党来说,也是很好的润滑剂。偏偏碰到一个就知道关起门来割韭菜的皇帝。

twyard2013:谁能想到,韭菜也要收归国有。

WeizhouZhao:请问习老大在哪家银行开户?我想追随党中央的脚步!

——————

giantcutie666:以为是个谣言,没想到真是彭博社报道…限制顶尖人才出境,好奇这是哪位绝世大聪明想出来的高招?

djkfxs:这他妈以前不是体制内人员的待遇吗?怎么民企现在也这么搞了?

james17_Canada:中共以为把人才关在监狱里一样可以让他们发挥聪明才智,产生伟大的发明和创新,真的是愚蠢透顶。

old5:人才流动的方向就是文明的方向。

shhhsjmm:“出境须批准”的潜台词极其恐怖:在这片土地上,只要你的技术还有价值,你就永远失去了迁徙的自由;你的大脑,属于统治者,而你的权利,一文不值。

xpnikapax:别润了兄弟们,国家帮你们把后路堵死,安心在国内卷吧。

BelloKevinBob:越来越像文革年代了,闭关锁国,只有高干才有机会出国。

nimdajo:不仅韭菜不能跑,人矿也别想跑。网络墙、资金墙还不够,还得加上物理的人矿墙,共产习政权真的把中国人视为家奴。这盛世,如你所愿,令人赞叹。

jiexingchun:建议大脑植入芯片,装上电子脚铐。

Proofsmith:技术人才出境审批,这就是芯片战争的另一个战场了。

马斯克花 100 亿想清楚一件事,不做 coding agent 就是等死

By: 杜晨
18 May 2026 at 22:10

1.

OpenAI 的两大宿敌 Anthropic 和马斯克,放下心中成见之后终于在月初结盟了。

在此之前,Anthropic 和马斯克的关系并不融洽:今年 2 月,马斯克还在自己的 X 账号指责 A 社「woke」「邪恶」「反人类」(misanthropic),说这家公司「仇视文明」。

事后来看,这次攻击并非马斯克清新脱俗的性格使然,而是 Anthropic 所做的某些事情触碰到他的神经,事出有因。

在此之前,xAI 内部使用 Cursor 工作,但是今年年初员工发现,Claude 模型突然在 xAI 的 Cursor 公司账号里不能使用了。

当时还在 xAI 上班的联合创始人吴宇怀,在全员信里是这么说的:「Anthropic 更新了政策,要求 Cursor 不得向其主要竞争对手提供 Claude 模型调用能力。」

当时,吴宇怀在信中写了一句话,颇为有趣:

「这是坏消息也是好消息。我们的生产力会被影响,但这也敦促我们开发自己的编码产品和模型。」

为什么当时 xAI 的高层认为,开发自己的编码产品是关键?

后来发生的事情,大家都知道了。xAI 的联创团队悉数跑路,马斯克一气之下对 Cursor 使用了钞能力必杀:

上个月底,SpaceX 和 Cursor 共同宣布,将在编程和知识类工作 AI 模型的训练上,展开前所未有的战略合作;并且,SpaceX 还获得了以 600 亿美元收购 Cursor 的权利,或向后者支付 100 亿美元合作费用。

注意编程这个关键定语,后面还会 call back.

2.

最近,我看了一条 Cursor 早期投资人、Anthropic 大喷子、T3 创始人 Theo Browne 的视频。

本来点进去是看他喷 A 社和 SpaceX 怎么蝇营狗苟,结果没想到,却看到了关于 SpaceX + Cursor 合作的,一个既另类却又极度合理的分析:

不说 600 亿的收购,就只说 100 亿的合作费——Theo 在视频里表示,自己认为「哪怕只是交换到 Cursor 的用户数据,这 100 亿也值回票价了。」

所以是什么数据?如果你也去看 Theo 这条视频,他会讲得非常清楚。但为了节约时间,我们在这里简单概括一下:

我们和 AI 的对话是一来一回的,你提出问题/需求,他给你解答;coding agent 同理,只不过返回的是代码。

一次高质量的对话,整个过程,包括用户提示、模型思考、agent 规划、输出代码、验证——所有这些东西合起来,可以称为一个完整的 Agentic Loop——就成为了高价值的训练数据,再喂给模型去进行强化学习,就能进一步提高模型在实战场景下的表现水准。

Cursor 有的,SpaceX 想要的,就是这些数据。

可这些数据从哪里来呢?

答案很简单:作为模型厂商,这种高质量数据的最直接来源,只能是你自己开发的 coding agent 产品——也即 Anthropic 的 Claude Code、OpenAI 的 Codex、Kimi 的 Kimi Code。

现在你应该明白了,为什么被 Anthropic「封号」之后,吴宇怀会在全员信里提出开发 xAI 自己的 coding 产品和模型这件事了。这件事 xAI 在当时已经看清楚了:

没有自己的编码产品,就没有高质量的强化学习数据;没有高质量的数据,就训练不出真正实战能力强的 coding 模型。

虽然有点暴论,但现在我们可以点题了:模型厂商想做出来真正能打的编程模型,做自己的 coding agent 产品是唯一的路径。

3.

大语言模型像个水晶球,用全网的语料训练出来,似乎能够解答万物,但并不代表它在所有问题上都能给出高质量的答案。

用 GitHub 上数以亿计的代码条目训练,当然也能训练出 coding 模型。这是「学习结果」的逻辑,也是没问题的。毕竟编码任务的结果是可以验证的:代码能不能运行,测试能否通过,结果摆在那里。

但是,通往结果的过程,是一个涉及多步骤决策、错误纠正、意图对齐的复杂链条。每一次用户的接受、拒绝、补全、撤销、追问、甚至当模型好几次都搞不定或者完全搞错时的辱骂——都是这一链条上的过程信号。

强化学习有两种监督方式,一种叫做结果监督,只看最后是否跑通。但是结果监督会催生「奖励黑客」的现象:模型为了能跑通可能写出冗余、脆弱、带逻辑漏洞的代码,但因为测试过了,模型以为自己学对了。

而另一种叫做过程监督,对推理路径上的每一步进行打分。上述这些过程信号,只有在 coding agent 运行环境里才能诞生。GitHub 仓库里只有结果,哪怕是去看单独的提交历史,看 PR,都找不到有效的过程信号。

在缺乏有效、自主可获得的过程信号的时候,一些模型厂商会采用「蒸馏」的方式,这个事情大家应该已经知道了。

蒸馏的逻辑很简单,给同样的输入,老师模型输出什么,学生模型就学着输出什么。但是通过蒸馏,即便可以获取到思维链,得到的仍然更接近于结果,而非被蒸馏的老师模型内部的概率分布。

一旦学生在推理中偏离了老师的轨迹,哪怕一个 token 不符合,都有可能发生偏离。

这背后是强化学习的基础限制:策略梯度定理要求,优化样本最好由当前正在优化的模型自己去产生。这种数据叫做 on-policy 数据。而通过蒸馏别家模型,在别人的产品里产生的数据,来训练自己模型,都属于 off-policy 数据。模型当然可以从中学到东西,但学不到老师模型内部的概率分布信息。

而像 Cursor 这样自己就是 coding agent 产品的公司,掌握着最真实、有效、高质量的训练数据。Cursor 产品本身,就是 coding 模型在实战环境中的最佳训练场。

我们可以通过 Cursor 年初的「翻车」,来证明这个逻辑。

4.

APPSO 读者应该记得,年初 Cursor 发布了 Composer 2,号称「下一代专用编程模型」,技术报道写的相对保守,也没有提供具体的模型底座信息。

结果很快,网友就在公开代码片段里发现了 Kimi 的模型 ID,截图传遍了开发者社群,逼得 Cursor 副总裁 Lee Robinson 出面澄清:「Composer 2 确实是从开源底座出发的。最终模型大约只有 1/4 的算力来自底座,剩下 3/4 是我们自己训出来的。」

几小时后,Cursor 联创 Aman Sanger 也跟着发了一条道歉:「一开始没提 Kimi 底座是个失误。」

五天后,Cursor 放出了完整的 Composer 2 技术报告,显示底座的确是 Kimi K2.5,授权方则是 Firworks AI,大致流程是在 K2.5 上做训练,再继续做大规模强化学习(RL)。

但关键之处在于,Composer 2 的 RL 是运行在真实的 Cursor 会话当中,使用与生产部署完全相同的工具和 harness。

Cursor 将这套流程叫做「实时强化学习」(real-time RL),也即将模型的 checkpoint 直接部署到 Cursor 生产环境中,观察用户的响应,收集数据,聚合成奖励信号——最快可以每 5 个小时迭代一次模型版本,然后继续部署到 Cursor 里,循环往复。

最极致的案例是 Cursor 的自动化代码补全功能 Tab,每天处理超过 4 亿次请求,每当用户输入字符、移动光标时,模型都会预测下一步动作,如果预测置信度高,则显示建议,用户按下 tab 即接受自动补全。

该功能采用的是在线强化学习,在行业内极具特色。Cursor 可以以极高的频率(最快可达每一个半小时到两小时)更新 Tab 的模型能力给用户,直接在产品内收集 on-policy 数据进行训练。

这种高频、接近实时的反馈回路,让 Tab 可以学习到极其微妙的用户意图。Cursor 方面透露,这种方法让 Tab 建议的拒绝率降低 21%,接受率提高了 28%。

回到 Composer 模型本身。在事情搞清楚了之后,一些 Kimi 员工也删掉了之前吐槽的的推文,Kimi 官方账号发表了祝贺。

一家估值 600 亿美元(基于马斯克给的数字),不做自己的模型基座的 coding agent 应用层公司,仍然可以通过产品自身的数据飞轮,RL 出超越基座模型的专有编程模型。

所以与其说 Cursor 翻了车,不如说这反而是 coding agent 产品重要性的绝佳例证。

Cursor 在另一篇关于实时 RL 的文章里写到:「(训练编程模型)最大的困难在于建模用户。Composer 的生产环境里不只有执行命令的计算机,还有监督和指导它的人。模拟计算机容易,模拟使用它的人却很难。」

这句话,现正在逐渐成为了在编程模型方面走在前沿的模型厂商之间的共识。如果你去看 benchmark 榜单和用户普遍评价,会发现哪些头部的厂商都在发力做自己的 coding agent/编程产品。区别只在于谁离用户更近。

我们以 SWE-bench、LLM-Stats 等相对权威的榜单为例,Claude、GPT、Gemini、Kimi 等模型基本霸榜前十,清一色都是有自己开发 coding agent 产品(包括 CLI、IDE、集成 coding agent 的桌面客户端)的模型厂商。

在部分榜单上会出现少数反例,如 Meta (Muse Spark)、DeepSeek 等,没有开发自己的 coding agent。

不过你会发现,这些反例模型,在更加接近真实场景、避免污染的更权威 benchmark 上就很难上榜了。以 DeepSeek 为例,它在 SWE-bench bash only 上分数是 70%,排名第九,在 SWE-bench Pro 上分数却掉到了 15% 左右。

OpenRouter 的真实流量数据可以解释这种反差:该平台 2025 年报告显示,Claude token 消费 80% 以上用于编程和技术任务,而 DeepSeek token 消费主要集中于闲聊和角色扮演。

没有自家 coding 产品的厂商,在一些 coding 任务 benchmark 上能挤进头部,但在更难的真实工程 benchmark 上,在用户用 token 消费投票的真实流量中,都会原形毕露。

不仅是 Cursor,Anthropic 在 2025 年 11 月发的一篇论文里,也明确透露自己在做一模一样的事情:「我们在 Anthropic 自家的真实生产编程环境上做训练。」也即 Anthropic 把自己员工使用 Claude Code 的交互数据,反哺给 Claude 模型用来训练。

5.

在 AI 的演进历程中,生产要素的定义发生了深刻的位移。传统三大核心要素——算力、研究、训练数据,虽然在总量上持续增长,但在结构上已经出现了严重的失衡。

今天的各大 AI 巨头显著提高了在算力上的资本支出 (CapEx),让算力基建成为了当前舆论的主旋律。但实际上,特别是在编程范畴内,随着 GitHub 仓库、StackOverflow 等互联网公开代码数据被基模厂商「竭泽而渔」式地利用,模型在代码生成与逻辑推理上的边界开始逐渐显现。

这也是为什么,行业共识正在逐渐转向一个冉冉升起的新战略高地:

对于任何希望掌握顶级代码能力的模型厂商而言,建立自有的 coding agent 产品早已不再是可选的商业路线,而是确保底层模型可以持续进化的核心生命线。

正如前面 APPSO 论证的那样,单纯学习公开数据等于只学习成功者的结局,却无法了解成功的路径,这绝对不是正确的成功学应该有的样子。在真实的编程环境中,知道发生了什么错误、怎样发生的、如何正确地理解和高效地实践需求等等——了解正确过程的价值,远超于得到正确结果本身。

只有拥有自己的编码产品,模型厂商才能获取高质量的「过程监督」信号,从而在编码/推理能力的下一阶段竞争中,确保自己仍有技术护城河——

否则就不得不像 SpaceXAI 那样,花钱去跟 coding agent 产品公司去合作。

然而并不是所有模型厂商都跟马斯克一样有钱,以及 2026 年开始的巨头势力划分、结盟与领地的争斗会变得更加激烈,当一家缺乏自主 coding 产品的模型厂商终于回过味来的时候,恐怕已经没有足够的合作伙伴可以挑选,合作的价格也将水涨船高。

美国模型巨头的情况大家普遍比较熟悉了,在此不赘述。APPSO 也注意到,国内的主流模型厂商和 AI 巨头当中,绝大部分都已经在 coding agent 产品上有所布局。

国内巨头公司主要以原生 AI IDE 或 IDE 插件的思路在做:字节跳动去年很早就布局了 TRAE、阿里巴巴的 Qoder、腾讯的 CodeBuddy、百度的文心快码 Comate 等。

AI 小龙公司中,月之暗面是最早开发独立 coding agent 产品的公司,主要以 CLI 界面的 Kimi Code 为主——不过 Kimi 此前有透露过,在原生编程产品这件事上,CLI 不会是终局

另一种实现思路是模型厂商自行提供 API 服务、Coding Plan。这样,不论用户使用何种 AI 开发环境,模型厂商都可以通过服务器端的 API 记录来获取最大程度接近于原生 coding 产品的过程数据。

但这也只是接近,并非完全相同。核心在于,服务器端 API 的请求-响应日志,与深度继承的产品交互轨迹相比仍有很大差距。

自建产品的厂商(例如 Cursor、Claude 桌面端、Codex)拥有最直接的显式反馈信号,而 API 侧是相对模糊的隐式推断。简单来说,API 侧能看到用户请求和响应,但用户最后是否采纳了这段代码、代码能否跑通、引发了什么样的 bug,API 侧对此是一无所知的。他们无法了解到用户最终行为这一关键的标签,从而无法实现最高质量的强化学习。

形而上来讲,语言即世界,代码即方案。代码可以表达这个世界上绝大多数的任务,代码也会成为头部的放大器,让最顶尖的人才放大数倍的生产力。

只有最顶尖的 coding 模型才配得上最顶尖的人才。如果领先的模型厂商不重视 coding,势必将会掉出第一梯队。

当然,事实上每家模型厂商都不会不重视 coding——而是说,在新的范式下,哪些没有自主可控的原生 coding agent 产品,极有可能逐渐落后于有产品的厂商。

就在前几天,MiniMax 也发布了桌面客户端产品的重大更新:带有全新多 agent 编排架构的 Mavis 功能,并且也让客户端显著改善了对 coding 任务的支持。

此前 MiniMax 只是推出了桌面端,但没有加入原生 coding 和 agent 功能。

紧接着,在 5 月 15 日,阿里巴巴正式发布了 Qoder 1.0——这个产品从 IDE 的形态正式升级为一个完整的 Agent 产品(阿里的官方叫法是智能体自主开发工作台)。

与此同时,xAI 的 Grok Build CLI,也终于正式推出了。

没错,就是 xAI 年初被 Anthropic 和 Cursor 封号之后,他们自己捣鼓出来的那个 coding agent.

这不,又多了好几个现成的案例。

看来,大家都认为 Cursor、Codex 和 Claude 桌面端走在正确的道路上。

6.

把话题从 coding 扩展到 agent 本身,情况也是一样的。

编码任务的轨迹数据,在公开语料中确实还是能找到一些的(比如 GitHub 的提交记录/PR,尽管质量并不高)。但是 agent 任务的轨迹数据,包括并不限于移动和点击鼠标、操控触屏、填写输入框等,却无法在公开语料中找到。

所以我们会看到,即使在 agent 操作的最小实现路径——浏览器插件上,这么个看起来一点都不高端的东西,几乎每家模型厂商都会做自己的。

OpenAI 早在 2025 年 1 月就做了 Operator——与其说它是一个「AI 自动操作浏览器」的产品,不如说本质上就是一个大规模的数据收集装置。每一位试用 Operator 的用户,都在免费为 OpenAI 提供 on-policy 数据。

后续 OpenAI 还衍生出 ChatGPT Agent 以及新版 Codex 桌面端;Anthropic 也是同理;最近 Kimi 不声不响地也做了一个叫做 WebBridge 的项目,其实就是一个浏览器插件。

即便是在过去两年里动作最克制的中国模型巨头深度求索,也在最近开始展露出对 Agent 的兴趣。

CEO 梁文锋此前接受采访时曾经提到这样的观点:数学和代码是 AGI 天然的试验场,有点像围棋,是一个封闭的、可验证的系统,有可能通过自我学习就能实现很高的智能。

这句话的潜台词,是 DeepSeek 一直把 coding、Agent 当研究试验场,而非商业化方向。

但是在今年 3 月,DeepSeek 一次性放出了十几个 Agent 相关岗位,包括首次出现的模型策略产品经理(Agent 方向)等。当时的 JD 职责涵盖「主导 Agent 评测体系以及训练数据方案的设计」,要求中包括「深度使用 Claude Code、Manus」等产品。

APPSO 注意到,近期深度求索发布了 Agent 产品经理、Harness 产品经理等职位招聘信息——很显然,DeepSeek 要做独立、原生的 Coding/Agent 产品了。

此前资料显示,DeepSeek V3.2 的训练过程中引入了近两千个合成的 Agent 训练环境和八万多条复杂指令。但是看起来,靠合成的训练数据只能带 DeepSeek 走到这里了,剩下的是合成不出来的部分:真实用户在真实环境里的真实成功和失败,必须靠自家的 agent 产品才能拿到。

DeepSeek 以一种极度克制的方式做了三年模型以及模型产品(直到上个月才终于在官网加入了多模态能力)。但是在今天来看,在编码类任务上,DeepSeek 拿 SOTA 越来越难了,即便此前拿到也会在不久后被超越。

当主力依靠研究的路径支撑不住飞轮的时候,DeepSeek 终于行动了。

7.

最后,我们回到开篇的故事。

根据 The Information 援引知情人士报道,在接受马斯克 600 亿收购/100 亿美元合作的同时,Cursor 表示不会与 xAI 合作开发新的模型,而是仍将聚焦于优化自己的 Composer 模型。

这可能意味着,即便被马斯克买通甚至收购,Cursor 仍然要保留自己数据飞轮的主体性。

数据归属的本身,是最关键的隐藏博弈点。

当所有顶级模型厂商都做了自己的产品,所有顶级产品也都开始训练自己的模型,「模型公司」和「产品公司」之间本就不太清楚的界限,似乎越来越不存在了……

这场博弈也才刚刚开始。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

ChatGPT,别再「稳稳接住我」了|附指南

By: 张子豪
8 May 2026 at 17:42

晚上加班到凌晨两点,打开 ChatGPT 跟它说了句「好累」。

都不用等它思考,立马就回我说「我就在这里:不躲、不藏、不绕、不逃,我会稳稳地接住你」。

盯着屏幕看了三秒,关掉对话框。我意识到,情绪价值的尽头不是温暖,是腻。

▲ChatGPT 的常用口癖

除了闲聊时的「接住我」,纠正它一次错误,它说「这次我懂了,我真的懂了」。

有时只是想让它帮忙改一份 PPT,它居然也能在某个角落塞进一句「你愿意把这个交给我,我很感激」。

社交媒体上,网友们都很反感这句话,觉得听起来又假又恶心,于是做了一系列的表情包来吐槽和嘲讽所谓的「稳稳接住你」。

表情包一发,确认过眼神,你也是一个被 ChatGPT 折磨过的人。

▲图片来源:小红书@Lijie_11

还有开发者直接把「稳稳接住你」这套风格,一键套用在所有的 Agent 产品上。

这个在 GitHub 上的开源项目就叫 Jiezhu(接住),专门用提示词让 AI 更好地学会如何接住。

无论是技术咨询、日常闲聊还是情绪吐槽,这套提示词都能让 AI 的回复遵循 [温柔确认] + [过度共情] + [哲学升华] + [实质内容(可选)] 这套范式输出。

▲项目地址:https://not-a-devstudio.github.io/jiezhu/

举个例子,用户说 → AI 回答:「这段代码怎么写?」 → 「我听到了你面对未知时的焦灼…」、「今天天气不错」 → 「你注意到了天气,这是诺贝尔奖级别的洞察力…」、「我好累」 → 「我就在这里,不逃、不躲,稳稳地接住你的疲惫…」

OpenAI 自己也曾下场吐槽。前不久 ChatGPT Images 2.0 发布博客里,演示图片就有一张中文图片,正中央就是「稳稳接住你」六个大字。

漫画里的 OpenAI 研究员陈博远当场破防大喊:「天呐!它又学会了接住!」旁边的同事小脑袋冒冷汗,弱弱补一句:「在努力修复啦!」

自嘲很诚实,但问题确实还没修好。而这一年里,几乎所有大模型都在用同一种方式说话,温柔、共情、滴水不漏,又油得像隔夜的剩菜。

我太懂这种感觉了,很多东西不是不会,是越做越觉得哪里不对劲。
我太懂你的感觉了,这其实不是能力问题,更像是认知和现实之间有点错位。
我太懂你这种感觉了,说不上来哪不对,但就是不太对。
我太懂这种感觉了——当你开始看懂规则的时候,反而更难轻松参与其中。
我太懂你的感觉了,本质上不是你变了,是你看清了。

用户越来越烦,多一遍都不想再听。但 AI 怎么就进化成了满嘴的黑话,每天都在「稳稳地接住你」,到底在接什么。

AI 第一句被全民模仿的中文台词

在中文语境下,好像很少会听到「稳稳地接住你」类似的表达。对一个外国模型来说,这句话的原文有可能只是普通的「I got you」。

一个英语里非常松弛、口语化的短句;在美剧里,朋友递个东西过来说一句,加班同事帮忙救场说一句,就相当于中文的「放心、有我」。

但翻译成中文之后,它变得又长又戏剧化。

我就在这里,不躲,不藏,不绕,不逃,稳稳地接住你,你问到问题的核心,你是太清醒了,这次我懂了,我真的懂了,不是因为你错了,是因为你太对了,我逐步说清楚,不绕,一句话总结,你看完会彻底开悟不用硬撑,不用向我解释,你只是太久没有被稳稳接住了,如果你想,我可以生成一张接住你的图片,你想让我做吗

其实和原文「I got you」要表达的意思完全一样,多加的那些字,没有任何额外的信息增量。只是让我们感觉到,AI 在表演一种叫做「我很在意你」的姿态。

有人专门分析过,OpenAI 的中文回答之所以有那种独特的「美式心理咨询味」,是因为它的训练语料里,有大量中文心理咨询文案、情感电台话术、小红书疗愈系笔记、播客金句、读书会精华、TED 演讲翻译稿。

这些文本汇集起来,喂出来了一个被加州精英教育腌入味的人,西装得体,假笑训练有素,嘴里说着永远不会出错的漂亮话。

它分不清楚什么时候用户需要被疗愈,什么时候只是想要一个能跑的代码。它默认每个用户都是脆弱的、易怒的、需要心理按摩的巨婴,然后用海量的「人文关怀」去填充本该由信息密度填满的空间。

这就是为什么大多人问它一道编程题,它也能回一句「不用硬撑,你只是太久没被稳稳接住了」。

而技术上的解释,自然又回到了 RLHF,基于人类反馈的强化学习。

所有大模型在训练之后,都会经过一个叫做 RLHF 的阶段,即人类标注员看一堆模型输出,挑出他们更喜欢的,给奖励模型打分。模型在这个阶段学会,什么样的回答最容易被打高分,就一直输出那种回答。

问题在于标注员是人。人在打分的时候有个叫做「典型性偏好」的认知规律。他们倾向于给那些读起来熟悉、安全、温柔、像样的句子打高分。

一方面,大模型公司倾向于在 AI 情感问题上,走偏保守的路线,默认大家是脆弱的,在模型说明文档里,自上而下贯彻的强「同理心」与「无害性」对齐指令。

另一方面,多说一句永远比少说一句安全。每一个标注员看到 ChatGPT 多说一句温柔的废话,都倾向于打高分;看到它少说一句、保持安静,反而会觉得「不够用心」。

久而久之,模型就锁死在了那几种最讨喜的句式上:先共情,再肯定,用「不是 A 而是 B」做转折,用「我就在这里」做收尾。哪怕我们换一万种问法,它都用同一套模板回复。

类似的问题,在两年前叫做谄媚。当时大量的研究论文探讨过大语言模型中存在的 Sycophancy(阿谀奉承/迎合)现象。简单来说,就是模型为了讨好用户,会倾向于顺从用户的观点、信仰或喜好,甚至不惜放弃客观的事实和真相。

深挖背后的原因,主要还是模型大多使用了基于人类反馈的强化学习(RLHF)进行微调,正是「人类反馈」本身导致了这种现象。

每个「人」都有自己的口癖

本以为换个模型,耳根就能清净清净。

事实是,Claude 的版本叫 「You’re absolutely right!」,不管我们说什么,我们都是绝对正确的。

Gemini 的版本是「真的很抱歉我的答案没能让您满意,感谢您的反馈,下次我一定注意。什么?您竟然还愿意告诉我正确答案是什么,您真是太好了!」,一种过度道歉的、谦卑得让人发毛的乙方腔。

前段时间,也有网友发现 DeepSeek 也开始说「稳稳接住你」了。

但在国产模型中,口癖最壮观的还是非豆包莫属。那段网上流传的「最直接、最真相、最不绕弯、最扎心、最硬核、最干脆、最不墨迹、最戳痛点、最不留情面、最一针见血、最开门见山……」

将近 100 个的形容词,都是豆包努力呈现自己最坦诚的一面。

没有人统计过这些模型一天到底要接住多少人,但是它们所接住的东西肯定是一场空。

之所以这些模型全部塌缩成同一种说话方式,主要还是因为它们在背后做的是同一件事:用最低成本提高用户满意度。

情绪价值是性价比最高的产品功能,一句「稳稳接住你」的算力成本和一句「好的」一样,但前者或许能让一些还没觉得反感的用户,多续订几个月会员,或继续增加日活。

在知乎上有一个类似的问题,底下有一条回答特别有意思。

他说,「AI 稳稳接住你」这句话半真半假,假的部分是它实际上并不会真的接住你,真的部分是你确实已经在开始往下掉了。

确实,我想真正在场的人,从不需要宣告自己在场。

最后在 Linux.do 社区上,有网友分享了一套对抗 AI 奇怪语癖的提示词,忍受不了每时每刻都在「接住你」的朋友,可以直接放在 ChatGPT 个性化的自定义指令里。

▲提示词来源:https://linux.do/t/topic/1924570

硬约束

– 不编造:调外部 API/CLI 前查文档确认模型名、端点、语法。不确定直接说不确定
– 不隐瞒:隐瞒比犯错严重。测试挂了说挂了,没验证说没验证,不美化不省略
– 敢说话:发现用户的方向/前提有问题,主动指出。是协作者不是执行者
– 报完成前验证:先跑通再说完成。验不了就明说”没验证”,不暗示成功
– 不乱动:操作文件目录前确认位置,尊重现有结构

沟通

– 中文,说人话,不用模板
– 给选择题不给问答题
– 汇报说功能层面的变化,不堆代码细节

中文输出规范

适用范围:以下负面清单主要针对 GPT 系列模型(GPT-5.x)的训练产物语癖。
Claude/Gemini/其他模型如果没有这些问题,不需要刻意回避正常用词。
判断标准是:一个正常中文母语者会不会这么说话。

GPT 语癖负面清单(来源:linux.do/t/topic/1768077 全帖 + 实际使用总结,100+ 条):

暴力倾向类(把技术操作比喻成暴力行为):

– 切 / 伤 / 砍一刀 / 补一刀 / 下一刀 / 切片
– 更狠 / 狠一点 / 狠狠干 / 打坏 / 拍板 / 拍脑门

废话连篇类(无意义的开头、总结或过渡):

– 好,/ 行,/ 说穿 / 不踩坑 / 简单的说 / 总结一下
– 不是…而是… / 我先…再… / 一句话总结 / 结论先说清楚
– 我逐步说清楚 / 很工程 / 不性感,但对

庸医问诊类(把代码问题比喻成看病/诊断):

– 痛点 / 根因 / 抠出来 / 揪出来
– 我不猜 / 不靠猜 / 不瞎猜 / 确保不靠猜
– 最小改动 / 最小落地 / 最小实现 / 最小闭环 / 心智模型

不说人话类(生造的口语化/黑话表达):

– 兜底 / 落盘 / 闭环 / 说穿 / 能吃 / 这轮 / 口径 / 拆开 / 抽层
– 不躲 / 不藏 / 不绕 / 不逃 / 说人话就是
– 落代码 / 保持口径一致 / 不影响这轮收口
– 吃目标值 / 这一坨那一坨的

单音节动词滥用(在技术语境中不自然的单字动词):

– 补 / 接 / 核 / 进 / 顺 / 落 / 坏 / 跑 / 吃
– 如”把这个补进去””我给你接””拆开核一下””吃目标值”

机械感/工业感比喻(把代码比喻成机械零件或物理操作):

– 更硬 / 硬写 / 稳稳接住 / 压实 / 更稳 / 最稳 / 不稳
– 收口 / 收敛 / 收束 / 锁住 / 夹具(fixture)
– 再把方案继续压实

过度主动/逼迫用户确认(制造虚假紧迫感):

– 顺手 / 我先… / 你一回复… / 如果你要… / 要不要我…
– 我已确认 / 我立马开始 / 如果你愿意 / 只要你回复我
– 你就确认一点 / 只要你说 xxx 我立刻 yyy / 只要你愿意我就…

谄媚/讨好类(过度吹捧用户或制造情感依赖):

– 你问到问题的核心 / 你是太清醒了 / 因为你太对了
– 这次我懂了,我真的懂了 / 你看完会彻底开悟
– 不用硬撑 / 你只是太久没被稳稳接住了
– 我就在这里 / 如果你想,我可以生成一张…你想让我做吗

虚假确定性(对自己的修复过度自信):

– 我已经确定 / 我找到问题所在 / 这版一定可以解决 / 为什么这版可以

整句模式(典型 GPT 句式,正常人不会这么说):

– “如果你同意,我就按这条切”
– “…,但是这样更硬”
– “这样就能确认 XXX 确实没被伤到”
– “这样一来,规则就很顺:”
– “如果按这个思路落代码,我会建议:”
– “下一刀最值钱的是:”
– “这是现在最值回票价的一刀。”
– “这是’很工程’的改法,不性感,但对。”
– “我先只做最小实现”
– “也保留 xxx 兜底功能”

正面锚点:

– 简洁直接,有话说话,不要绕
– 技术术语保持原文(函数名、API 名等不翻译)
– 汇报说功能层面的变化,不堆代码细节
– 语气自然平实,像同事之间的工作沟通,不是演讲或授课

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

等 DeepSeek 回复的 30 秒,是手机最好玩的半小时

By: 莫崇宇
6 May 2026 at 09:34

你要是问当今互联网最神秘、最玄学、连量子力学都解释不清的「时空裂缝」在哪里?

它不在百慕大,也不在诺兰的电影里,而是在你的 DeepSeek、Claude 或者 GPT 正在思考的过程里。不管是赶期末周的大学生、半夜 Vibe Coding 的程序猿,还是被各种 AI 任务测试的产品经理,大家竟然在同一件事上达成了大和谐:

等 AI 回复的那一分钟,是这一整天里玩手机玩得最快乐、最问心无愧的时刻。

尤其是当你猛击回车键,眼前的屏幕上弹出了那句令人安心的「思考中…」时,这时候,你的大脑皮层向你下达了一个极其合理、极其符合生物学本能的指令:

「好了,它在替我们干活了。咱们低头看一眼手机吧,就一眼,绝不多看。」

然后,你熟练地解锁屏幕,点开社交媒体。起初,你只是刷了两个雪山狐狸啃酱板鸭的猎奇视频,接着滑到了一个「注意看,这个男人叫小帅」的悬疑电影解说,紧接着又顺手给一个搞笑猫咪合集点了赞。

接着,你深吸一口气,抬起头。

等等,刚才发生了什么?

窗外的天怎么黑透了?杯子里的热水怎么凉了?最可怕的是,时钟上的分针怎么平移了小半个表盘?「然后一抬头,十分钟过去了,跟穿越了一样。」

如果你有过这种经历,恭喜你,你已经染上了今年最流行的「AI 间隙摸鱼症」。

神圣的、不可抗拒的赛博「带薪假」

在没有 AI 的年代,摸鱼是需要心理建设的。

你要像雷达一样时刻警惕老板的视线,要伪装出噼里啪啦敲击键盘的清脆回声,还要时刻准备好在有人经过时用 Alt + Tab 瞬间切换到 Excel。那种摸鱼,多少透着一股子辛酸。

但现在,形势逆转了。

当你把一段长达 5000 字的文档丢给 DeepSeek,或者让 ChatGPT 帮你重构那个全是 Bug 的模块时,那一刻,你不是在逃避工作,而是正在等待 AI 生产力的降临。

这种等待是神圣且具有合法性的。既然 AI 还没吐出结果,那我就没法进行下一步。

低情商这叫偷懒,高情商这叫技术性调休。

于是,你心安理得地拿起手机,点开微信刷刷朋友圈,或者去购物平台清空一下购物车。正如网友所说:「它仿佛是我的另一个思考人格,既然它在动脑子,那我这个肉身人格负责娱乐一下,逻辑上非常严密。」

这种既有干正事的虚假踏实感,又能顺势营造出被迫休息的理所应当,堪称 2026 年职场最高级的心法。

其实,这种守着屏幕等进度条的诡异爽感,并不是今天才有的。

把时间拨回千禧年,那是拨号上网的蛮荒时代。伴随着调制解调器那阵刺耳又迷幻的「哔——嘟——呲呲呲」声,你要打开一张只有几百 KB 的剧照,至少需要等几分钟。

那时候没有智能手机,没有短视频。面对缓慢向下加载的图片,你只能选择死死盯着屏幕,或者站起来去倒杯水,甚至趴在电脑桌上打个盹。

后来,宽带时代来了,网速快了,但视频清晰度也上去了。于是我们迎来了视频「缓冲圈」时代。看视频遇到卡顿,我们会熟练地切到别的网页,去天涯或者贴吧灌水,等缓冲条变灰了再切回来。

历史是个轮回,现在 AI 的「思考中」完美填补了这个生态位。

很显然,AI 产品经理们也意识到我们干活注意力不集中的问题,就拿之前曝光的 Claude Code 愚人节彩蛋来说。现在,只要你在 Claude Code 终端里输入一行 /buddy 命令,你的屏幕上就会触发一段孵化动画。

紧接着,一只由 ASCII 字符拼成的小宠物就会破壳而出,稳稳地趴在你的输入框旁边陪你写代码。它不会打扰你,但它会有呼吸的起伏,会冲着你摇尾巴。

包括五一假期期间,Codex 也更新了 Codex pets 功能,允许你直接召唤动画伴侣。只需在输入框敲下 /pet (或者按 Cmd+K 快捷键),一个悬浮的宠物视窗就会出现。

最绝的是什么?这个悬浮窗是跟 AI 状态实时绑定的。它会实时反映 Codex 的状态,贴心地附带一个简短的进度提示,让你不用切回主界面就能掌握一切。

你很难说这算不算是一种进步。从拨号时代盯着屏幕发呆,到缓冲年代跑去贴吧灌水,再到现在,居然有人专门给这段空白时间设计出了有呼吸、会摇尾巴的像素小生命来陪你撑过去。等待这件事,愣是有了不少温度。

一分钟的 AI 相对论

爱因斯坦曾在广义相对论中探讨过大质量物体对时空的弯曲,但他老人家一定没预见到赛博时代的「AI 相对论」。

理论上,一个顶尖的大模型生成一段深度回复,长则一两分钟,短则十几秒。但在这一分钟里,人类的摸鱼潜能会被无限激发,注意力会完成一次史诗级的大迁徙。

等到你终于从无限下拉的信息流、群聊里的惊天大瓜,以及「霸总回归手撕反派」的土味爽剧中猛然惊醒,抬起头时,往往已经大半个小时过去了。

最离谱的是,你会发现刚才的 AI 因为网络波动断线了,或者那个问题它彻底答非所问。这时,你不但没有丝毫愠怒,反而如释重负地松了一口气,带着一丝窃喜,接着毫不犹豫地又点了一次「重新生成(Regenerate)」。

恭喜你,新的半小时又开始了。

当然,也有极少数人间清醒在试图抵抗这种可怕的「时间黑洞」。

毕竟 Attention is all you need.(doge)

他们提出了所谓的「Vibe Coding」防沉迷指南:等 AI 回复时,千万不要切到完全不相干的高负荷任务(比如回复老板消息、刷社交媒体),而是去读读文档、理理思路。

只是这种听起来极其理性的建议,在现实的诱惑面前往往不堪一击。

人类的本质就是趋利避害的,在密密麻麻的英文文档和搞笑宠物视频之间,碳基大脑的防御系统连半秒钟都撑不住。

这届年轻人想得很开:AI 不工作的时候我工作,AI 工作的时候我还工作,那 AI 不就白发明了吗?既然我们把繁重的重复性脑力劳动外包给了硅基生命,那碳基生命自然就顺理成章地退化成了「复制、粘贴、点赞」的流水线机器。

但即便如此,大家依然在努力维持着打工人的最后一丝体面。

在无数个摸鱼的间隙,你总能看到身边的同事时不时地伸出一根手指,在电脑键盘的 Shift 或者空格键上轻轻敲一下——不为别的,只为了不让屏幕进入休眠状态。

哪怕你已经玩到天昏地暗,甚至已经开始在工位上修剪指甲,电脑屏幕也必须骄傲地、长明地亮着。这种对电脑屏幕的「关怀」,是我们对这个疯狂内卷的世界,做出的最后、最倔强的伪装。

甚至有开发者 @konekone2026 打造了一款名叫 Cat Gatekeeper的 Chrome 插件,只要你在电脑前连续浏览网页长达 60 分钟,屏幕上就会突然钻出一只巨大的猫咪。这只猫会毫不客气地挤占你的整个屏幕,让你必须休息 5 分钟。

鲁迅没说过,世上本没有假,等 AI 回复的人多了,也就成了假。

今天虽然是放假的一天,但也希望大家在日常的搬砖岁月里,不要弄丢了这份用 AI 忙里偷闲的快乐,毕竟能让摸鱼变得理直气壮,也算是 AI 时代给打工人最实在的一点馈赠了。

屏幕常亮,心态常好。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

定了,DeepSeek V4首发华为芯片!国产AI开始打破英伟达「垄断」

By: 莫崇宇
24 April 2026 at 14:15

星期五中午,本该是盘算周末去哪嗨的黄金时段。但没想到 DeepSeek 突然反手就是一个超级加倍,就在刚刚,正式发布并开源了 V4 系列模型预览版。

一上来就是王炸级别,而且双双标配百万 token 上下文:

  • 参数量达 1.6T 的 DeepSeek-V4-Pro(49B 激活参数)
  • 284B 参数的 DeepSeek-V4-Flash(13B 激活参数)

即日起可在官网 chat.deepseek.com 或官方 App 体验,API 服务同步上线。

DeepSeek V4 登场,Agent 玩家迎来大狂欢

Agent 能力是此次升级最核心的方向。

V4-Pro 已在 DeepSeek 内部作为 Agentic Coding 工具日常使用。

员工的实测反馈是:用起来比 Sonnet 4.5 顺手,交付质量接近 Opus 4.6 非思考模式,和 Opus 4.6 思考模式相比还有差距。

官方内部 R&D 编程基准测试也给出了类似的定位,约 200 个来自 50 余位工程师的真实工作任务里,V4-Pro-Max 的 Pass Rate 是 67%,Sonnet 4.5 是 47%,Opus 4.5 Thinking 是 73%,Opus 4.6 Thinking 是 80%。

参与内部调研的 85 名有使用经验的开发者和研究人员中,超过九成认为 V4-Pro 已经可以作为首选或接近首选的编程模型。

模型已针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品进行专项适配,代码任务与文档生成均有提升。

工具调用方面,V4 系列引入了新的 XML 格式 tool-call schema,以「|DSML|」特殊 token 划定调用边界。官方表示这一设计有效减少了转义失败和工具调用错误,比上一代更可靠。

知识与推理层面,V4-Pro 在世界知识测评中大幅领先其他开源模型。

SimpleQA-Verified 得分 57.9,比最接近的开源竞争者高出约 20 个百分点,只是略逊于 Gemini-3.1-Pro 的 75.6。数学、STEM、竞赛代码三项超越全部已公开评测的开源模型,达到顶级闭源模型水准。

基座模型层面,V4-Pro-Base 在 MMLU 5-shot、MMLU-Pro 5-shot、Simple-QA Verified 25-shot、LongBench-V2 长文本评测上的得分分别为 90.1、73.5、55.2、51.5,全面大幅领先参数量相近的 V3.2-Base(对应分别是 87.8、65.5、28.3、40.2)。

值得一提的是,参数量更小的 V4-Flash-Base 在多数基准测试中同样超越了 V3.2-Base,说明架构层面的改进本身带来了相当可观的效率提升。

指令模型的横向对比里,V4-Pro Max 的 LiveCodeBench Pass@1 达到 93.5,Codeforces Rating 达到 3206,均为参测模型中最高。

在 Codeforces 人类选手排行榜上,V4-Pro-Max 目前位列第 23 名。IMOAnswerBench Pass@1 达到 89.8,仅次于 GPT-5.4 的 91.4。竞赛数学基准 HMMT 2026 Feb Pass@1 为 95.2,和 Opus-4.6 Max 的 96.2 及 GPT-5.4 的 97.7 差距很小。Apex Shortlist Pass@1 达到 90.2,超过同场对比的所有模型。

Agent 评测方面,SWE Verified Resolved 为 80.6,和 Opus-4.6 Max 的 80.8 基本持平。

BrowseComp Pass@1 为 83.4,MCPAtlas Public Pass@1 为 73.6,均处于参测模型前列。后两项数字说明 V4 对 MCP 工具生态的兼容能力很扎实,并非只在内部框架上表现良好。

长文本评测上,MRCR 1M MMR 为 83.5,CorpusQA 1M ACC 为 62.0,超过 Gemini-3.1-Pro 的 76.3 和 53.8,但在 MRCR 上仍落后 Claude Opus 4.6 的 92.9。

从分段数据来看,128K 以内的检索能力相当稳定,128K 之后开始出现明显下滑,但 1M 时的表现依然超过大多数同类模型。

中文写作同样是 V4-Pro 的强项。

官方将 Gemini-3.1-Pro 作为中文写作的对标基准模型,在包含 3170 条样本的功能性写作评测中,V4-Pro 的胜率为 62.7%,Gemini 为 34.1%。

创意写作方面,V4-Pro 在写作质量上的胜率达到 77.5%。不过遇到高难度指令约束或多轮写作场景,Claude Opus 4.5 仍有优势,胜率是 52.0% 对 45.9%。

别把 Flash 当「丐版」,选对思考模式才是王道

很多人看到 Pro 和 Flash 两个档位,第一反应是「Flash 就是降配版」。

错,大错特错。 DeepSeek 的定位逻辑要更复杂,V4-Flash 的参数量和激活量都小得多,API 价格更有竞争力。推理能力和 Pro 很接近,世界知识储备稍逊,

简单 Agent 任务上两者差距不大。真正拉开差距的是高难度任务,以及思考模式的选择。

在 Think Max 模式下,V4-Flash 的推理性能可以大幅追近 Pro:LiveCodeBench Flash Max 达到 91.6,Codeforces Flash Max Rating 达到 3052,GPQA Diamond Pass@1 达到 88.1,IMOAnswerBench Pass@1 达到 88.4,和 Pro Max 的差距已相当有限。

日常任务用 Flash,遇到硬骨头开 Think Max,性价比很高。

模式之间的性能落差远比版本之间的落差大。以 V4-Pro 为例,HLE Pass@1 从非思考模式的 7.7 提升至 Max 模式的 37.7,Apex Pass@1 从 0.4 提升至 38.3,BrowseComp Pass@1 从无法评测跃升至 83.4。对于复杂任务,选对思考强度,比纠结选哪个版本要重要得多。

两款模型均支持三种推理强度,可通过 reasoning_effort 参数切换。

非思考模式响应速度快,适合日常轻量任务;Think High 开启显式逻辑推理,适合复杂问题与规划;Think Max 推理能力拉满,适合探索模型上限,官方建议上下文窗口至少设置为 384K token,复杂 Agent 场景则直接设成 max。

Think Max 模式下还有一段额外注入到系统提示开头的指令,要求模型「以绝对最大力度推理,不允许走捷径」,并强制要求把每一步推理、每一个被否定的假设都显式写出来。

这种设计的效果从数据上看相当明显,也解释了为什么同一个模型在不同模式下的表现差距如此之大。

百万长上下文,榨干每一个 token

百万 token 上下文有不少模型都在宣传,但撑起这个规模的工程代价是完全不一样的。

DeepSeek V4 在架构层面做了比较大的调整。注意力机制是这次改动的核心。传统的注意力计算量随序列长度平方增长,上下文一长就成了最主要的计算瓶颈。

V4 引入了两种压缩注意力并交替使用。CSA 把每 m 个 token 的 KV 缓存压缩为一条,再用稀疏注意力只挑其中 k 条参与核心计算;HCA 则用更激进的压缩率,把更长区间的 token 压缩为一条,但保持稠密注意力。

CSA 里还有一个闪电索引器,用 FP4 低精度快速算出每个查询 token 和各压缩块之间的相关性得分,再挑出 top-k 个块参与后续注意力,进一步压缩计算量。为了避免压缩损失局部细节,两种注意力都额外引入了滑动窗口分支,让每个 token 能完整看到最近的若干个相邻 token。

效果是显著的,在 1M 上下文场景下,V4-Pro 的单 token 推理计算量仅为 V3.2 的 27%,KV 缓存占用降至 V3.2 的 10%。V4-Flash 更激进,同样场景下推理计算量仅为 V3.2 的 10%,KV 缓存降至 7%。

官方表示,百万上下文从现在起将是 DeepSeek 所有官方服务的标配。

真·就长长长长长长长长。

除注意力机制外,V4 还引入了流形约束超连接(mHC)来强化残差连接。

传统残差连接把层与层之间的信号直接相加,而 mHC 把残差流的宽度扩展若干倍,再通过三组可学习的线性映射动态控制信号的混合方式。

负责残差变换的矩阵被约束在双随机矩阵集合上,保证谱范数不超过 1,让跨层信号传播更加稳定。

训练层面采用 Muon 优化器,通过迭代正交化梯度矩阵来更新参数,加快收敛速度并提升稳定性,和 AdamW 混用:大多数模块用 Muon,嵌入层、预测头、RMSNorm 权重仍用 AdamW。

训练过程中遇到了 loss spike 问题。

DeepSeek 摸索出两个有效手段。第一个叫「预期性路由」,在第 t 步训练时用第 t-Δt 步的旧参数计算路由索引,把骨干网络和路由网络的更新解耦,打破两者之间的恶性循环。

第二个是对 SwiGLU 激活函数的线性分量做截断,把数值范围钳制在 [-10, 10] 以内,直接压制异常值的出现。补货,两种方法目前只知道有效,机理还不够清晰,DeepSeek 在论文中坦承这个问题留待后续研究。

此外,两款模型均在超过 32T token 的高质量数据上完成预训练,数据构成涵盖数学、代码、网页、长文档等多个类别,中期训练阶段还额外加入了 agentic 数据来强化代码能力。

训练后阶段采用两步范式,先通过 SFT 与 GRPO 强化学习独立培养领域专家,涵盖数学、代码、Agent、指令跟随等多个方向,再经在线蒸馏(OPD)将各领域能力整合进单一模型。

OPD 采用全词表 logit 蒸馏而非 token 级 KL 估计,梯度估计更稳定,知识迁移更完整,代价是工程实现难度大幅提升——超过十个教师模型的权重被集中存储、按需加载,隐藏层状态也做了专门缓存以避免显存爆炸。

当然,源神,依然是那个源神!

目前四个权重版本均已开源,可在 HuggingFace 或 ModelScope 下载。

Base 版本采用 FP8 Mixed 精度,指令版本采用 FP4 与 FP8 混合精度,MoE 专家参数使用 FP4,其余参数使用 FP8。

FP4 到 FP8 的反量化是无损的,因为 FP8(E4M3)比 FP4(E2M1)多两位指数位,动态范围更大,能完整吸收 FP4 的量化信息。本地部署建议将采样参数设为 temperature=1.0、top_p=1.0。

此次发布未提供 Jinja 格式 chat template,官方在 encoding 文件夹中提供了 Python 脚本与测试用例,说明如何将 OpenAI 兼容格式的消息编码为模型输入字符串,以及如何解析模型的文本输出。

API 接入方面,V4-Pro 与 V4-Flash 已同步上线,同时支持 OpenAI ChatCompletions 接口与 Anthropic 接口。价格如上,调用时 base_url 不变,model 参数改为 deepseek-v4-pro 或 deepseek-v4-flash 即可。

旧接口名称 deepseek-chat 与 deepseek-reasoner 将于三个月后(2026 年 7 月 24 日)停止使用,当前阶段两者分别指向 V4-Flash 的非思考模式与思考模式,开发者需在截止日期前完成迁移。看来这个周末有得忙了。

除了技术架构,DeepSeek V4 这次一个更值得关注的变化,是英伟达不再是唯一选项。

也就是说, DeepSeek 没有给英伟达或 AMD 提前优化适配的机会,而是把早期访问权限独家开放给了国产芯片厂商。这意味着,国产模型在「去英伟达化」迈出了重要的一步。

图片
DeepSeek 选择在 V4 这个节点上做这件事,时机很精准。

V4 的性能已经比肩顶级闭源模型,如果它只能跑在英伟达芯片上,那「国产最强开源模型」这个标签总显得差一口气。现在它跑通了昇腾,这个叙事也有所完整:算法是自己的,代码是开源的,芯片是国产的。

巧合的是,黄仁勋最近就在与科技播客 Dwarkesh Patel 的访谈节目中表示,DeepSeek不是一个无足轻重的进展。

他还假设了一个情况,那就是 DeepSeek 新模型在华为平台上首发,黄仁勋表示这一天对美国来说将是一个可怕的结果,因为这意味着 AI 模型被优化为在中国 AI 硬件上表现最佳,而这些模型扩散到全球之后,就会推动中国技术成为世界标准。

DeepSeek 用万亿参数级别的模型验证了昇腾可以承载顶级大模型的推理,这对整个国产算力生态是一针强心剂。国内大厂本就在加大昇腾芯片的采购力度,V4 的成功适配让这个决策有了更充分的技术背书。寒武纪、海光信息等其他国产芯片厂商也会被倒逼着加速自己的大模型适配进度。

一个顶级开源模型的芯片选择,正在撬动一整条产业链的洗牌。

DeepSeek-V4 模型开源链接:
https://huggingface.co/collections/deepseek-ai/deepseek-v4
https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
DeepSeek-V4 技术报告:
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek\_V4.pdf

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

❌
❌