Normal view

There are new articles available, click to refresh the page.
Yesterday — 11 December 2025Main stream

MiniMax 闫俊杰和罗永浩四小时访谈:走出中国 AI 的第三条路,大山并非不可翻越

By: 李超凡
11 December 2025 at 12:00

当整个 AI 圈都在为 DAU(日活跃用户数)和融资额焦虑时,MiniMax 创始人闫俊杰却表现出一种近乎冷酷的淡漠。

坐在罗永浩对面的闫俊杰,并不像一位掌管着 AI 独角兽企业的技术新贵。

他拒绝谈论改变世界,反而坦承恐惧。那种恐惧不是来自商业竞争,而是来自技术本身——当模型的能力开始超越人类时,创造者反而成了最先感到不安的人。

只要是一个东西能被量化,模型就一定会强于人,或者一定是能到最好的人类的那一档水平。所有做得比较成功的模型,在做出来之前都会有点害怕。

据晚点采访,在 MiniMax 内部,互联网行业奉为圭臬的 DAU ,被闫俊杰直接定义为「虚荣指标」。

在巨头环伺、算力短缺、热钱褪去的 2025 年,MiniMax 正在进行一场关于认知的修正:不再沿用移动互联网的逻辑,即通过大规模投放换取增长、通过堆砌功能留住用户,而是回归本质:把模型当作最重要的产品

在大模型时代,真正的产品其实是模型本身,传统意义上的产品更像是一个渠道。如果模型不够聪明,产品做得再好也没有用。

在罗永浩和闫俊杰这期对谈里,我发现 MiniMax 这家 AI 公司从创业第一天就选择了注定与主流背道而驰的技术路径。

当所有人都试图寻找中国的 OpenAI 和 Sam Altman 时,闫俊杰却在试图证明「非天才」的价值。MiniMax 的故事不是关于天才的灵光乍现,而是一场关于如何在资源受限的缝隙中,通过极度理性地计算与修正,撕开一道通往 AGI 窄门的精密实验。

用 1/50 的筹码通往 AGI

MiniMax 过去三年的技术路线,表面看是一连串孤立的赌注,实则暗藏着一条统一的逻辑线索:在资源受限的前提下,如何用更聪明的方式优化,而非更多的算力堆砌,逼近 AGI 的上限

当行业还在卷文本时,MiniMax 做了一个在当时看来极度冒险的决定:创业第一天就押注全模态。闫俊杰后来解释说,他们一开始就想得很清楚,真正的 AGI 一定是多模态的输入、多模态的输出。

三年多前创业时完全没有现成的技术路线,他们的策略就是每个模态至少先走通,等时机成熟再融合。这种坚持在当时备受质疑——业界主流认为应该先聚焦单一模态做到极致。

但闫俊杰的逻辑是,AGI 的本质是多模态融合,如果现在不同步推进,等到需要融合时技术债会成为致命伤。这种非共识的坚持,让 MiniMax 在 2025 年拥有了全球音频第一、视频第二、文本稳坐第一梯队的全模态能力。

前不久 OpenAI 的 Sora 2 通过多模态融合取得了显著成果,这在一定程度上也印证了 MiniMax 早在创业初期就选择这一技术路径的前瞻性。

但更激进的是,闫俊杰在创业初期就打破了 AI 研究的传统模式。

这是公司刚组建时打破的第一个认知——把大模型做好这件事一定不能迷信之前的经验,得用第一性原理拆开来看。大概在四五年前,人工智能领域大家追求的是写很多数学公式,把理论搞得很好、很花哨。

但这代人工智能最核心的其实就是 Scaling(缩放定律),就是让它能够用最简单的方法把效果做得更好,并且随着数据跟算力变多,效果就能够持续往上涨。

闫俊杰的技术直觉源自 2014 年在百度的实习经历。那时 Anthropic 的 CEO Dario Amodei 也在百度实习,正是在那里他发现了 Scaling Law 的雏形。

闫俊杰说,Scaling Law 其实在 2014 年做语音识别时就已经被发现了,但真正被广泛认知是大概 2020 年左右。「六年前就有了,并且那件事发生在中国公司,所以后面的事就有点遗憾。」

这段往事让闫俊杰意识到,中国并非没有机会,而是错失了把技术洞察转化为产业优势的时机

现实是残酷的。闫俊杰很清楚中美之间的差距。他算过一笔账:美国最好的公司的估值是中国创业公司的 100 倍,收入基本上也是 100 倍,但技术可能就领先 5%,花的钱大概是 50 到 100 倍之间。

那为什么中国的公司可以花他们 1/50 的钱就做出来效果,差距可能只差 5%?核心原因是中国的人才还是非常好的。而更关键的是,中国的算力比美国有很大差距,因此必须得用更加创新的方式,才有可能做到同样的效果。

原则可能是一样,但方法上,在每个模块上其实都有很多创新。

算力限制不一定是诅咒,反而能成为倒逼创新的鞭子

这就解释了为什么 MiniMax 从 2023 年起就率先探索 MoE 架构,为什么在 2025 年敢于押注线性注意力机制,又为什么在 M2 模型中回归全注意力机制。

每一次技术选择,都是在有限资源下寻找质量、速度、价格的三角平衡

如果说 DeepSeek的逻辑是「用极致的工程优化榨干每一分算力」,那么MiniMax 就是在通过算法突破和机制创新在有限资源中撬动更大可能。

一个稳扎稳打,一个剑走偏锋。

其中一个出奇的创新, 是 MiniMax 在模型推理机制提出的「交错思维(Interleaved Thinking)」,让模型在「动手做事—停下来思考—再动手」的循环里推进任务。

这一新的机制很快推动了 OpenRouter、Ollama 等国外主流推理框架的适配支持,也带动 Kimi 和 DeepSeek 等国内模型陆续补齐类似能力。

但这些成果背后,更值得追问的是:一支没有硅谷海归坐镇、被外界视作「草根」的团队,如何做出全球领先的模型?

闫俊杰的回答出人意料。

AI 不是玄学,而是可以被第一性原理拆解的工程问题,比如算法该怎么设计,数据的链路该怎么搭建,训练效率该怎么优化,每个东西都有非常明确的目标。

正是基于这一判断,让闫俊杰放弃了寻找「天才」,转而相信科学方法论可以让普通人发挥非凡价值。 他还提到,公司的海归是不少的,但真正能起到关键作用的同学,很多人基本上都是第一份工作。

在 MiniMax 会议室墙上有一行字——Intelligence with Everyone,这是闫俊杰创业的初衷,也是不少人选择加入 MiniMax 的理由。

这行字今天也正在成为现实,全球超过两百个国家和地区的用户正在使用 MiniMax 的多模态模型,其中既有 2.12亿用户,也有 10 多万企业和开发者来创造更多产品和服务。

非天才主义的 AI 掌舵人

如果说技术路线的非共识是显性的,那么闫俊杰本人的成长轨迹,则是一场关于「反脆弱性」的修行。

闫俊杰出身河南小县城,在资源极度匮乏的环境下培养了极强的自学能力。

上小学的时候自己会看很多书,而且这些书有可能不应该是那个时间点的人来看的。比如很多高中甚至大学的书,上小学的时候提前就看。我爸爸是教初中的,就开始看初中的东西,上初中的时候就开始看高中的东西,高中的时候又开始学微积分,那些东西其实也没有人教,就是自己看。

小学自学初中,高中自学微积分——这种不受环境限制、超前学习的特质,贯穿了闫俊杰的整个创业生涯。当别人在等待导师指点时,他已经通过第一性原理自我拆解问题;当别人在抱怨资源不足时,他已经通过极致的自学能力补上了差距。

但自学能力并不意味着一帆风顺。这和闫俊杰在商汤受到的「残酷训练」不无关系。那时候他开始意识到要真正做一个最好的东西,就做了人脸识别,从倒数到第一大概花了一年半。

这一年半是非常痛苦的,每次技术测试都是倒数第几名,这种煎熬足以击垮大多数人。 但闫俊杰没有放弃,反而从这段经历中提炼出了核心方法论:一定要做取舍,一定要选一些更加长期、能够根本性发生变化的东西,而不是去做一些修补的东西

经历这事之后,最核心的还是对自己这些最底层的判断有信心。

这段磨炼锻造了闫俊杰两个关键特质:一是极致的取舍能力,愿意放弃短期修补,聚焦长期突破;二是极高的心理韧性,能够承受长周期的失败和质疑。

这两个特质,恰恰是 MiniMax 能够在技术路线上坚持非共识这种近乎「佛系」的定力,让闫俊杰在硅谷银行危机、模型训练失败等困境中都能保持冷静。

中国 AI 的第三条路

MiniMax 的故事讲到这里,一个更大的问题自然浮出水面:当人才培养需要时间,技术追赶需要周期,中国 AI 公司靠什么在当下就建立自己的生存空间?

MiniMax 不一定是标准答案,但闫俊杰倒是有三个创业至今一直坚持的原则:

第一,不做项目,只做用户;第二,国内海外同时做。

2022 年,国内大厂还在观望 AI 是否值得投入,创业公司普遍选择 ToB 路径(做项目、卖解决方案)以求快速变现。但闫俊杰选择了最难的一条路:ToC,并且从第一天就瞄准全球市场。

因此,闫俊杰选择在海外更激烈的竞争中打磨技术,而非卷入国内与巨头的流量争夺。事实证明,这是正确的——MiniMax 在海外市场的 DAU 和付费率都维持在健康区间,而这正在成为它的护城河。

但最难的,是第三个原则:技术驱动 vs 用户增长。

这是对所有 AI 创业公司的终极拷问。闫俊杰坦白也纠结过,最终选择了前者,哪怕这意味着短期数据的牺牲、中层的流失和外界的质疑。

通过模型能力推动产品和业务发展,或者通过移动互联网时代的增长方式来发展,两者有可能都是对的,但它们是没法共存的。最后我们发现技术驱动的这种方式才适合我们。

在技术驱动的战略下,闫俊杰做出另外一个关键选择:开源。

年初 DeepSeek R1 横空出世后不久,闫俊杰曾表示,如果可以重新选,应该第一天就开源。在和罗永浩的对谈里他再次谈到开源。

实际上开源这件事,在手机操作系统上其实都发生过。苹果是闭源的,安卓是开源的,第二名后面的人必须得开源才有自己的独特定位,才能发出新的生态。

为了让我们能够进展,需要别人有选择我们的理由,模型的开放性恰好是一个非常重要的理由,因为它可以让你有足够强的技术信任,知道你的研发能力,也愿意更加深度来合作。

而 MiniMax 也延续着 DeepSeek 掀起的开源浪潮, MiniMax M2 发布后,大模型分析平台 Artificial Analysis 是这样介绍的:

中国 AI 实验室在开源领域持续保持领先地位。

MiniMax 的发布延续了中国 AI 在开源领域的领先地位,这一地位由 DeepSeek 在 2024 年底开启,并由 DeepSeek 的后续发布、阿里巴巴、智谱、和 Kimi 等公司持续保持。


最近全球模型聚合平台 OpenRouter 联合a16z 发布了一份报告 State of AI 的100 Trillion Tokens ,可以看到 M2 开源之后,快速受到了全球开发者欢迎和采纳。

中国开源模型在全球使用量占比从 2024 年初的 1.2%,现在这个数字已经飙升至 30%,全球开源生态的重心已经向中国倾斜。

但这场竞赛远未结束。闫俊杰的判断是,算力和芯片的物理限制,决定了模型参数量和成本是有天花板的。在一个有限的参数量的情况下,不同的人来做不同的取舍,就一定会有些不一样的成果。

AI 不会一家独大,但也不会百家争鸣,最终会收敛到少数几家基于不同取舍的共存格局。

罗永浩关于「中国错失 GPT-3.5」的追问,闫俊杰展现出了一种务实的乐观。他表示把技术做好最重要的东西,说到底其实是两个词,一个是想象力,一个是自信

美国那些企业很多浪潮是他们引领的,所以有自信在,要引领这个行业。在中国有些产业里面其实也是这样的,比如通讯、还有其他领域。

至少人工智能这个行业目前还没有到引领这个地步,但这个事情已经越来越具备了。

这或许就是中国 AI 公司需要走出的第三条路:

用更聪明的架构设计,对抗算力差距;

通过科学的组织进化,培养 AI 原生人才 ;

在夹缝中长出自己的形状,而非附庸于巨头。

MiniMax 的故事还在继续,中国 AI 的篇章墨迹尚未干。胜负不由起跑线决定,而由你选择在哪条路上、用什么样的节奏、坚持多久来定义。

闫俊杰在访谈中说道:

再往后三年看,即使不是我们,也会有中国其他的人能够做到这件事。

三年后,会是谁?又会用怎样的方式?

没有一部续集如此令人期待,因为我们都会是其中的角色。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Before yesterdayMain stream

100 万亿 Token 揭秘全球用户怎么用 AI:一半算力用在「不可描述」的地方

By: 姚桐
9 December 2025 at 10:41

AI 领域迄今最大规模的用户行为实录,刚刚发布了。

这是全球模型聚合平台 OpenRouter 联合硅谷顶级风投 a16z 发布的一份报告,基于全球 100 万亿次真实 API 调用、覆盖 300+款 AI 模型、60+家供应商、超过 50% 非美国用户

我们能从里面看到人类真的在怎么用 AI,尤其是那些不会出现在官方案例、不会被写进白皮书的对话。

APPSO 从里面的发现了三个最反直觉的结论:

1. 人类最真实的刚需不是生产力,是「荷尔蒙」和「过家家」。超过50%的开源模型算力,被用来搞角色扮演、虚拟恋人和 NSFW 内容。写代码?那只是第二位。

2. 真正的高端用户根本不看价格标签,而便宜到几乎免费的模型,死得反而更快。早期抓住用户痛点的模型,会更容易锁住用户。

3. 中国模型只用一年就撕开了防线。 从 1.2% 到 30%,DeepSeek 和 Qwen 为代表的的国产模型一跃成为开源的王。

必须要注意的是:这份报告不可避免地带有「偏见」。

OpenRouter 的用户主要是个人开发者、中小企业、开源爱好者,而非 500 强企业。那些每月在 Azure、AWS 上烧掉数百万美元的大厂 AI 预算,并不在这份数据里。所以:

  • 中国模型的占比会被放大(中小开发者更愿意尝试开源和低价方案)
  • 开源模型的份额会被高估(企业级用户更倾向闭源 API 的稳定性)
  • Roleplay 等「娱乐向」场景会显著偏高(大厂不会用公开 API 搞这些)
  • 企业级混合部署的真实用量看不到(那些都走私有化和 Azure OpenAI Service)

但回头想想,这恰恰是这份报告的价值所在。

当所有人在发布会上鼓吹 AI 如何改变生产力时,我们可以清楚看到:谁在裸泳,谁在通吃,谁在悄悄统治那些不可描述的领域。

从 1% 到 30%,中国模型撕开 OpenAI 帝国的口子

如果把 AI 市场看作一张世界地图,2024 年之前,它是属于 OpenAI 和 Anthropic 的闭源帝国。他们筑起 API 的高墙,收着过路费,定义着规则。

但墙塌了。

看这张使用量分布图,开源模型(OSS)的 token 使用量已经飙升至总量的三分之一,而且这个数字还在以惊人的速度攀升。

2024 年夏天是一个分水岭时刻。

在此之前,市场是死水一潭。OpenAI 的 GPT 系列和 Anthropic 的 Claude 分食大部分蛋糕,开源模型只是点缀。

在此之后,随着 Llama 3.3 70B、DeepSeek V3、Qwen 3 Coder 的密集发布,格局瞬间攻守易形。那些曾经高高在上的 API 调用量,开始遭遇断崖式的分流。

这里必须专门谈谈中国模型的崛起,因为这是过去一年最具侵略性的叙事。

数据显示:

  • 2024 年初: 中国开源模型在全球使用量中的占比仅为 1.2%,几乎可以忽略不计
  • 2025 年末: 这个数字飙升至 30%,在某些周份甚至触及峰值

从 1.2% 到 30%,这是一场自下而上的包围战。

DeepSeek 以总计 14.37 万亿 token 的使用量稳居开源榜首,虽然其霸主地位正在被稀释,但体量依然惊人。Qwen 紧随其后,以 5.59 万亿 token 占据第二,而且在编程领域的表现极为凶猛,可以直接与 Claude 掰手腕。

更关键的是节奏。中国模型的发布周期极其密集。DeepSeek 几乎每个季度都有重大更新,Qwen 的迭代速度甚至更快。这种「高频打法」让硅谷的巨头们疲于应对:自己刚发布一个新模型,对手已经连发三个变种。

戳破 AI 泡沫,三个被忽略的真相

现在,让我们戳破那些想当然的泡沫,看看 AI 在真实世界里到底被用来干什么。

真相一:「小模型已死,中型崛起」

市场正在用脚投票,抛弃那些「又快又傻」的极小模型。

数据显示,参数量小于 15B 的模型份额正在暴跌。用户发现,速度再快也没用,如果 AI 傻得像个复读机,那还不如不用。

中型模型(15B-70B 参数)成为新宠。 这个市场甚至是被 Qwen2.5 Coder 32B 在 2024 年 11 月一手创造出来的。此前,这个参数区间几乎是空白;此后,Mistral Small 3、GPT-OSS 20B 等模型迅速跟进,形成了一个新的战场。

既不便宜又不够强的模型正在失去市场。你要么做到极致的强,要么做到极致的性价比。

真相二:不是 programming,更多是 playing

虽然我们在新闻里总看到 AI 如何提高生产力,但在开源模型的使用中,超过 50% 的流量流向了「角色扮演」(Roleplay)

更直白一点说:

超过一半的开源 AI 算力,被用来做这些事:

  • 虚拟恋人对话(「陪我聊天,记住我的喜好」)
  • 角色扮演游戏(「你现在是个精灵公主……」)
  • 互动小说生成(「继续这个故事,加入更多细节」)
  • 成人向内容创作(报告中标记为「Adult」类别,占比 15.4%)

这是基于 Google Cloud Natural Language 分类 API 对数亿条真实 prompt 的分析结果。当 AI 检测到一个请求属于 /Adult 或 /Arts & Entertainment/Roleplaying Games 时,这条请求就会被打上标签。

这意味着,对于海量 C 端用户而言,AI 首先是一个「情感投射对象」,其次才是一个工具

同时流媒体和硅谷巨头出于品牌形象(Brand Safety)考量,刻意回避甚至打压这一需求。但这恰恰造就了巨大的「供需真空」。用户对情感交互、沉浸式剧情、甚至 NSFW(少儿不宜上班别看)内容的渴求,被压抑在主流视线之外,最终在开源社区报复性爆发。

编程是第二大使用场景,占比 15-20%。 没错,写代码这件被媒体吹上天的事,在真实世界里只排第二。

所以真相是什么?

别装了。人类最真实的两大刚需,一个是荷尔蒙,一个是代码。 前者让人类感到陪伴和刺激,后者让人类赚到钱。其他那些「知识问答」「文档总结」「教育辅导」,加起来都不到这两者的零头。

这也解释了为什么开源模型能快速崛起,因为开源模型通常审查较少,允许用户更自由地定制性格和剧情,非常适合情感细腻的互动。

真相三:娱乐至死的 DeepSeek 用户

如果我们单独拉出 DeepSeek 的数据,会发现一个更极端的分布:

– Roleplay + Casual Chat(闲聊):约 67%
– Programming:仅占小部分

在这份报告里,DeepSeek 几乎是一个 C 端娱乐工具,而非生产力工具。它的用户不是在写代码,而是在和 AI「谈恋爱」。

这和 Claude 形成了鲜明对比。

机会只有一次,赢家通吃

为什么有的模型昙花一现,有的却像胶水一样粘住用户?

报告提出了一个概念:Cinderella 「Glass Slipper」Effect(灰姑娘的水晶鞋效应)

定义: 当一个新模型发布时,如果它恰好完美解决了用户长期未被满足的某个痛点(就像水晶鞋完美契合灰姑娘的脚),这批用户就会成为该模型的「死忠粉」(基础留存用户),无论后续有多少新模型发布,他们都很难迁移。

值得注意的是,机会只有一次。如果在发布初期(Frontier window)没能通过技术突破锁定这批核心用户,后续再怎么努力,留存率都会极低。

为什么?

因为用户已经围绕这个模型建立了整套工作流:

– 开发者把 Claude 集成进了 CI/CD 流程
– 内容创作者把 DeepSeek 的角色设定保存了几十个版本
– 切换成本不仅是技术上的,更是认知和习惯上的

赢家画像:DeepSeek 的「回旋镖效应」

DeepSeek 的留存曲线非常诡异:

用户试用 → 流失(去试别的模型)→ 过了一段时间骂骂咧咧地又回来了

这就是所谓的「回旋镖效应」(Boomerang Effect)。数据显示,DeepSeek R1 的 2025 年 4 月用户组,在第 3 个月出现了明显的留存率上升。

为什么他们回来了?

因为「真香」。在试遍了市面上所有模型后,发现还是 DeepSeek 性价比最高:

  • 免费或极低价
  • 角色扮演能力足够好
  • 没有恼人的内容审查

输家画像:Llama 4 Maverick 们的悲剧

相比之下,像 Llama 4 Maverick 和 Gemini 2.0 Flash 这样的模型,它们的留存曲线让人心疼:

从第一周开始就一路向下,永不回头。

为什么?因为它们来得太晚,也没啥绝活。当它们发布时,用户已经找到了自己的「水晶鞋」,新模型只能沦为「备胎」。

在 AI 模型市场,迟到的代价是永久性的边缘化。

各个 AI 的人设

在这场战争中,没有谁能通吃,大家都在自己的 BGM 里痛苦或狂欢。让我们给每个玩家贴上最准确的标签:

Claude (Anthropic):直男工程师的「神」

人设:偏科的理工男,只懂代码,不懂风情

数据不会撒谎,Claude 长期吃掉了 编程(Programming)领域 60% 以上 的份额。虽然最近略有下滑,但在写代码这件事上,它依然是那座不可逾越的高墙。

用户画像:
– 超过 80% 的 Claude 流量都跟技术和代码有关
– 几乎没人拿它来闲聊或角色扮演

Claude 就像那个班里的学霸——只有在考试时你才会找他,平时根本不会一起玩。

OpenAI:从「唯一的神」到「平庸的旧王」

人设:曾经的霸主,如今的工具箱

OpenAI 的份额变化极具戏剧性:
– 2024 年初: 科学类查询占比超过 50%
– 2025 年末: 科学类占比跌至不足 15%

它正在从「唯一的神」变成一个「什么都能干但什么都不精」的工具箱。虽然 GPT-4o Mini 的留存率依然能打,但在垂直领域,它已经不再是唯一的选择。

核心问题在于: 被自己的成功困住了。ChatGPT 让它成为大众品牌,但也让它失去了专业领域的锋芒。

Google (Gemini):通才的焦虑

人设:什么都想要,什么都不精

谷歌像个茫然的通才。法律、科学、翻译、通识问答都有它的身影,但:
– 在编程领域份额仅 15%
– 在角色扮演领域几乎不存在

但在一个越来越垂直化的市场里,通才意味着平庸。

DeepSeek:野蛮人的胜利

人设:不按常理出牌的颠覆者,C 端娱乐之王

DeepSeek 用极致的性价比撕开了口子,证明了即使不依靠最强的逻辑推理,靠「好玩」+「免费」也能打下江山。

核心数据:
– 总使用量 14.37 万亿 token(开源第一)
– 67% 的流量是娱乐和角色扮演
– 回旋镖效应明显,用户试完别的还是会回来

它的成功证明了一件事:在消费级市场,「足够好」+「足够便宜」+「没有限制」 就能通吃。

xAI (Grok):马斯克的「乱拳」打法

人设:半路杀出的程咬金,靠免费抢市场

Grok 的数据非常有趣:
– 早期 80% 都是程序员在用(Grok Code Fast 针对编程优化)
– 免费推广后,突然涌入大量普通用户,用户画像瞬间变杂

免费能拉来流量,但流量 ≠ 忠诚度。一旦收费,这批用户会立刻流失。

最后,让我们用一张图看懂这个江湖。

当前大模型市场已形成清晰的四大阵营格局:

首先是 「效率巨头」 阵营,以 DeepSeek、Gemini Flash 为代表,核心优势在于 「便宜大碗」 的高性价比,专为跑量场景设计,尤其适用于无需复杂逻辑推理的重复性 「脏活累活」,成为追求效率与成本平衡的首选。

其次是 「高端专家」 阵营,Claude 3.7 与 GPT-4 是该领域的标杆,尽管定价偏高,但凭借顶尖的准确率和复杂任务处理能力,赢得了企业用户的青睐。

与此同时,「长尾」 阵营的生存空间正持续收缩,数量众多的小模型因缺乏差异化优势和技术壁垒,正逐渐被市场淘汰。

此外,以中国模型为核心的 「颠覆者」 阵营正快速崛起,凭借高频迭代的技术更新、高性价比的定价策略以及深度本土化的适配能力,市场份额仍在持续扩张,成为搅动行业格局的关键力量。

藏在 100 万亿个 Token 背后的趋势

作为观察者,APPSO 从这份报告中观察到的一些趋势变化,或许将定义 AI 未来的竞争格局:

1. 多模型生态是常态,单模型崇拜是病态
开发者会像搭积木一样,用 Claude 写代码,用 DeepSeek 润色文档,用 Llama 做本地部署。忠诚度?不存在的。

2. Agent(智能体)已经吃掉了一半江山
推理模型(Reasoning Models)的份额已经超过 50%。我们不再只想要 AI 给个答案,我们想要 AI 给个「思考过程」。多步推理、工具调用、长上下文是新的战场。

3. 留存 > 增长
除了早期用户留存率,其他的增长数据都是虚荣指标。

4. 垂直领域的「偏科」比全能更有价值
Claude 靠编程通吃,DeepSeek 靠娱乐称王。想要什么都做的模型,最后什么都做不好。

5. 价格不是唯一变量,但「好用」是永远的硬通货
数据显示,价格和使用量之间相关性极弱。真正的高端用户对价格不敏感,而低端用户只认那几个「性价比神机」。夹在中间的平庸模型,死得最快。

6. 中国模型的进攻才刚刚开始
从 1.2% 到 30% 只用了一年。站稳脚跟后,下一步是什么?是定义规则,还是被规则驯化?这将是 2026 年最值得关注的故事。

AI 的世界不是由发布会上的愿景定义的,而是由用户每天真实发送的那万亿个 Token 定义的。

那些 Token 里,有人在写代码改变世界,也有人在和虚拟女友说晚安,理性的代码与感性的对话并行不悖。

或许不得不承认,AI的发展,也是人类欲望的延伸。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


「欧洲版 DeepSeek」发布新模型,盯着中国 AI 打

By: 姚桐
4 December 2025 at 17:55

被称为「欧洲版 DeepSeek」的 Mistral AI 在被 OpenAI、Google 和中国开源模型 DeepSeek、Qwen 夹击大半年后,终于坐不住了,正式发布了新一代 Mistral 3 系列模型。

Mistral AI 是一家总部位于法国的大模型公司。据报道,今年 9 月,英伟达第三次出手投资这家初创企业。经此,Mistral 的估值达到约 135 亿美元,成为欧洲 AI 领域最受瞩目的独角兽之一。

这一次,Mistral 居然只盯着中国模型打

Mistral 3 这次带来了旗舰模型 Mistral Large 3,以及三款高性价比的小模型 Ministral (3B、8B、14B)。

其中 Mistral Large 3 是绝对的主角,总参数量为 675B,其中活跃参数为 41B,这是自 2023 年底至 2024 年初的 Mixtral 8x7B 和 8x22B 以来,Mistral 首个开放权重的混合专家模型。

但最让我感到「不对劲」的是官方的对比策略。

在官方的跑分图里,Mistral 竟然完全无视了 GPT-5.1 或 Gemini 3,而是直接把枪口对准了中国的 DeepSeek-V3.1 和 Kimi-K2。

Mistral 的逻辑很直接:我的参数量只有 Kimi 的一半左右,但我的性能跟你五五开,甚至更强。

官方晒出的成绩单如下:

  • 赢面: 在 MMMLU 和 AMC 上,Mistral Large 3 分别拿到了 85.5 和 52.0 的高分,略微领先 DeepSeek-V3.1。
  • 输面: 在程序员最关心的 LiveCodeBench 和 SimpleQA 上,Mistral Large 3 还是输给了 Kimi-K2。


比 DeepSeek 笨,还贵 3 倍?

虽然 Mistral 试图证明自己是「效率之王」,但在 X 上,科技博主直接泼了一盆冷水,甚至用了「Mistral 正在缓慢死亡 (slow death)」这样严重的词。

他的评价简单粗暴,列出了 Mistral 新模型的三大罪状:

1. 更笨: 脑子不如 DeepSeek 好使。
2. 更贵: 价格却是 DeepSeek 的 3 倍。
3. 更慢: 推理速度甚至比 GPT-5 还慢。

这确实戳到了痛点。在 Artificial Analysis 的最新综合 AI 指数榜单上,Mistral Large 3 的得分只有 38 分。

看看排在前面的是谁?Gemini 3 Pro(73分)、Claude Opus 4.5(70分)、GPT-5.1(70分)。Mistral 距离第一梯队的差距,已经不是「追赶」,而是断层了。

在 LMArena 排行榜中,它在开源非推理模型中排第二,总榜第六。成绩尚可,但绝对称不上「屠榜」。

有测试者发现 Mistral Large 3 各个方面都表现不佳:

  • 该模型难以正确执行工具调用,常会输出格式错误或无效的工具调用指令。
  • 在基于图像的基准测试中表现平平。

真正值得冲的,其实是小模型

Ministral 3 是所有开源模型中性价比最高的产品。每种参数规模均提供基础版、指令版和推理版,且均具备图像理解能力,全部基于 Apache 2.0 许可证开源。

这意味着什么?你可以免费商用,随便魔改。

  • 全能: 所有尺寸都支持图像理解,不再是「瞎子」 。
  • 能打: 14B 的推理版在 AIME’25 测试中准确率达到了 85%。

Mistral 3 确实进步了,就像网友说的那样:欧洲仍有一家前沿模型制造商能基本跟上中国开源模型的步伐,尽管 Mistral 尚未推出推理器,其实际性能仍落后于时代。

但在 DeepSeek 把大模型价格打下来的今天,仅仅做到「性能不错」已经不够了。用户要的是极致的聪明,或者极致的便宜。

目前的 Mistral ,似乎卡在了一个尴尬的中间位置。能不能成为「欧洲之光」,可能真得看后续的迭代了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


经视直播|多地学生称收到学校语音采集任务,有学校称与专业课成绩挂钩

30 November 2025 at 02:06

公众号:经视直播

img

11月25日,一名IP属地为湖北的网友在社交媒体上反映,其所在学校强制要求学生录制语音,供安徽某科技企业用于语音大模型产品训练,并将此任务与专业课成绩挂钩——未完成者将被要求重修。湖北炽升律师事务所吴兴剑律师对此指出,校方无权强制采集学生的生物特征信息,此举涉嫌侵犯个人隐私。

11月26日,经视直播记者联系到发帖者。发帖者拒绝透露学校名称,但出示了一份学校通知。通知中写明:“本次录音正常完成的同学,可获得以下课程平时分满分奖励,未完成同学,该门专业课平时成绩不合格,且此门专业课期末考试不能及格,必须重修。”

img

img

img

根据发帖者提供的信息,记者联系到涉事的安徽某科技企业。企业工作人员回应称,公司确实与部分学校存在付费语音采集合作,但强调数据采集严格遵循自愿原则。该工作人员还透露,公司在外省的语音采集业务大多由供应商负责,但对于供应商与学校之间的具体协商内容,以及校方是否向学生支付报酬,其表示并不清楚。

发帖者向记者表示,完成该任务仅能获得平时分奖励,并无金钱报酬。

img

记者在招聘平台上发现,类似的声音采集任务报酬约为每小时20至30元。另外,此类情况并非孤例。有网友反映,相关录音任务与学校日常教学内容无关,且对话题、时长及环境均有较高要求,非常麻烦。一名IP属地为吉林的网友称,自己甚至在发烧期间仍被辅导员要求与同学调换时间后录制。这名网友向记者透露,自己学校并未强制要求录音,自己没有参与录音,后续不了了之了。不过自始至终,学校未曾提及向参与学生支付报酬一事。

CDT 档案卡
标题:多地学生称收到学校语音采集任务,有学校称与专业课成绩挂钩
作者:经视直播
发表日期:2025.11.29
来源:微信公众号-经视直播
主题归类:人工智能
CDS收藏:公民馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

img

img

这些情况引发了公众对学校与相关AI企业、中间商之间是否存在利益关联、语音真实用途及数据安全性的质疑。有业内人士向经视直播记者表示,通过第三方采购用户语音已成为AI行业收集大模型训练样本的常见方式之一,但必须确保参与者知情并自愿,同时符合数据采集与使用的相关法规要求。

湖北炽升律师事务所吴兴剑律师进一步指出,声音属于公民生物特征信息,除国家法定部门外,任何组织或个人均无权强制采集。若学校利用学生生物特征信息谋取利益,不仅违背教育本质,更可能构成对个人隐私的侵犯。他提醒公众应重视对个人生物特征与隐私信息的保护,谨防信息泄露。

来源:经视直播

记者:承畴

编辑:谢斯

责编:王紫嫣、朱迪蓓、李家新

编审:田程

一张草图变网页,实测字节 TRAE SOLO,这些功能甚至比 Cursor 还好用

By: 张子豪
14 November 2025 at 14:18

AI 编程火了这么久,无论是开发者还是我们普通人,都能让 AI 来帮忙做个小游戏、捣鼓点小工具。

有时候还真别说,那些 AI 做的小玩意,的确能起到点作用。很多读者也经常在留言区评论,现在最好的编程模型是什么?

Claude 4.5 + Cursor 自一直是很多开发者的首选,但它们由于种种原因对中国用户都不太友好,结果是花同样的钱开会员,有可能很多模型都用不了。

好消息,这次我们不会被「卡脖子」了。

昨天,字节发布了他们的编程工具,TRAE 3.0,我们体验了一下,在某种程度上,TRAE 可以说就是一个国产版 Cursor,甚至部分功能做得比 Cursor 还要好。

其中,最核心的功能 SOLO 模式,是之前所有同类产品,没有探索过的 AI 编程工具形态。它提供了 SOLO Coder 和 SOLO Builder 两个智能体,一个针对专业的开发者用户,处理复杂的项目开发问题;一个针对个人和小团队,真正做到一句话做个产品,能上线发布的产品。

这两个 SOLO 智能体,把过去传统软件开发,涉及到的全部工作基本都包揽了。目前 SOLO 模式正在限免期,前往 trae.ai 下载安装,登录之后就能免费体验到 15 号。

限免期之后,TRAE 的会员计划也比 Cursor 更良心,首月是 3 美元,次月开始 10 美元。和免费用户的区别就是在模型调用、快速响应上的额度分配不同。

SOLO 模式,让编程更加 Vibe

SOLO 模式其实最早是在 TRAE 2.0 的时候推出的,当时只是用来快速生成一个应用。而更新的 TRAE 3.0 版本中,是把快速生成的应用,能做得更复杂,还给专业开发者带来了更高效的功能。

之前,我们使用大多数的编程产品,或者就是要 ChatGPT、Gemini 这些通用助手,来进行 vibe coding。

本质上还是,我们单纯地跟模型进行对话,解决某一个具体的问题,最后的产出也比较有限,一般就是一个我们看都看不懂的代码文件,点个预览就够了。

但现在,TRAE SOLO 模式改变了过去传统的开发工具、或者 AI 聊天编程产品的形态。它整体的布局更像一个大模型助手的智能体界面,没有了中间的代码编辑器,最左边也不是文件管理器,而变成了任务列表。

SOLO Coder:面向复杂项目开发

TRAE 提供了 Coder 和 Builder 两个选项,SOLO Coder 主要是针对复杂的项目开发,更专业的应用场景。一般是我们有现成的项目,可以通过 Coder 来完成一些项目迭代、Bug 修复和架构重构等。

我们选择了一个 GitHub 上的开源项目,动辄上千上万行的代码,根本看不懂。然后直接问他有没有什么更好的网络结构等组件,可以让这个方法的效果更好。

▲ 指令下达后,直接开始执行,帮我完成各种包的安装,实时跟随会自动切换不同的工具面板。

前几天我刷社交媒体,看到有人在问,大家在 vibe coding 等结果的过程中一般做什么。

有人说真正的 Vibe 是应该打开手机开始刷视频,也有人说会盯着 AI 的每一步操作,防止它莫名其妙删库跑路,还有说再开一个 Agent 来执行其他任务。

SOLO 模式似乎也考虑到了这一点,在任务处理过程中,是可以多任务并行的,意思是我们可以同时执行多个项目。同时,SOLO 智能体在调用不同的工具过程中,会可视化全部的工具调用流程、自动切换不同的工具面板,TRAE 把这一点叫做「实时跟随」

和 TRAE 2.0 会显示当前使用的模型不同,在 Claude 彻底断供之后,TRAE 3.0 在 SOLO 模式下,只会显示 Max 模型,且不能自定义选择模型

SOLO Builder:从零构建一个应用

SOLO Coder 还是有点太专业了。另一个智能体,SOLO Builder 在某种程度上,则是一款很典型的 vibe coding 产品,和我们之前分享过的 Lovable 一样,它主打的是从零开始,一句话构建一个产品。

但不同的是,SOLO Builder 能凭借 TRAE 自身强大的开发环境,真正做出一个大规模可用的产品,不会停留在做一个小玩意路线上。

一款应用从构思到最后真正上架到 App Store,中间要完成的需求分析、UI 设计、系统环境等等,都可以在 SOLO Builder 中,通过 AI 来完成。TRAE 提供了包括编辑器、文档、终端、浏览器、Figma、智能体、MCP在内的多个工具。

▲ 开始写项目需求文档和技术架构文档

通过调用不同的工具,仿佛真的有一个助手在操作我们的电脑:在写清楚产品需求文档后,默默地又开始写代码来实现,最后再自己测试代码、部署整个项目;把产品经理、程序员、测试、运维的活全干了。

我们输入了一个需求,是让它做一个摸鱼 APP。得到了对应的文档之后,SOLO Builder 不会立刻执行,而是让我们先确认这个计划是否可行。此刻我们就是项目经理,告诉 AI 来 Align(对齐)一下颗粒度,不行就要 AI 再回去修改文档。

在 SOLO Coder 智能体,同样有「Plan 计划」的开关,先让模型规划怎么做,我们再确认。

一切顺利,我们得到了最后的摸鱼 App,TRAE 还贴心的提供了一个推荐操作,让我们把项目部署到 Vercel(托管网站的平台)上,而不仅仅是本地访问。

不过,SOLO 模式目前还只在国际版推出,国内版本可以通过加入候补名单,等待上线。

▲候补链接:https://www.trae.cn/solo

豆包编程模型,TRAE 的国产版核心

虽然国内版本还没有 SOLO 模式,但是字节最新的豆包编程模型,已经在 TRAE 国内版上线了。

▲Doubao-Seed-Code 生成的技能五子棋页面截图

Doubao-Seed-Code 是字节这周二发布的一款全新模型,它专门在 Agentic 智能方面,进行了深度优化;在多个编程相关的基准测试中,表现结果全面领先国产的同类模型;此外,它的输入输出还做到了国产模型的最低价。

用直观的例子说明,在相同 Tokens 数量的任务下(0-32k 输入区间),Claude Sonnet 4.5 完成需要约 4.05 元,GLM-4.6 要 0.77 元,而 Doubao-Seed-Code 的成本是 0.34 元。

▲配合字节的 TRAE 编程产品,在 SWE-Bench 上的得分更高;以及使用成本更低

Doubao-Seed-Code 的亮点还包括,它支持最高 256K 的上下文长度,能应付一般的长代码文件。它也是国内第一个支持视觉理解能力的编程模型;通俗点讲,就是不用自己口头描述做什么,一张设计稿、截图,就能自动生成对应的内容。

模型提供的 API 调用,支持在 Claude Code 中使用,也对字节跳动自家的编程开发工具 TRAE,Cursor、Codex CLI、Cline 等主流的开发生态,实现了全面的兼容。

目前,Doubao-Seed-Code 可以在火山方舟大模型体验中心、TRAE 中国版直接使用,也可以透过平台的 API 调用。

▲ https://www.volcengine.com/experience/ark?model=doubao-seed-code-preview-251028

在 TRAE 中国版,还提供了 Kimi K2,GLM 4.6,以及 DeepSeek、Qwen 等常见国产编程模型。

▲ https://www.trae.cn/

我们也在火山引擎官网、TRAE 、以及 API 调用几种方式里,体验了这款全新的编程模型,不能说吊打 Claude,但是配合自身的编程开发环境、和超低的费用,很难不让人心动。

模型能力实测,一张草图生成一个项目

视觉理解是 Doubao-Seed-Code 的一大亮点,但其实从图片复制网页,甚至是在 AI 大语言模型流行之前,就已经有类似的应用。而多模态的能力,现在也基本上成为了每个模型的标配。

我们从网上找了一张手绘的网页布局图片,直接让它根据这张草图,生成对应的前端页面。

还原度还是很高的,复制代码拿过来直接用作自己的项目,或者再要它添加一些处理的逻辑,神笔马良的即视感。

除了这种照搬图片的内容,我们还找了一张大家熟知的游戏截图,Flappy Bird,但是截图里面就是几根柱子。上传截图并提问,你认识这个游戏吗?用一个单页的 HTML 实现它。

虽然简陋了一点,但是 Douban-Seed-Code 在深度思考的过程,一眼就看出来这是 Flappy Bird 的游戏。最后的实现,把小鸟直接换成了一个原点,但确实是一张图就能生成游戏。

火山方舟的模型体验中心更多是一种 Playground 的存在;Doubao-Seed-Code 的发布,直指当下火热的 AI 编程赛道。

字节也专门为 Doubao-Seed-Code 在 TRAE 中的表现进行过优化,与 TRAE 深度结合的豆包编程模型,在对应的编程基准测试中,甚至拿到了超过 Claude 4.5 Sonnet 的成绩。

和网页版处理不同,在本地使用,意味着我们的主动权更大。我们直接把过去几篇 APPSO 的文章放到项目文件夹,然后在 TRAE 里和模型对话,要它根据这些文件,帮我制作个人作品集。

在豆包编程模型的介绍资料里,我们看到字节用了一套大规模的 AI 强化学习系统,来完成智能体的学习训练。

  • 覆盖十万个不同环境的数据集,让 AI 见识各种复杂任务。
  • 不需要老师手把手的教,而是完全依靠端到端的强化学习,模型自己总结经验。

在 TRAE 中运行了一会儿了,就得到了最后的个人作品集网页,说实话总结得很不错,在精选文章那一部分,都是 AI 自动帮我配的图片。

除了直接使用,豆包编程模型还提供了 API 的方式,能够配置到 Claude Code 之类的工具中。

我们之前在介绍 Google 全家桶时,分享过 Gemini CLI(和 Claude Code 类似的命令行终端工具)的使用体验,基本上能减去我们找各种第三方工具的繁琐。

在火山引擎的官网,字节更是直接给出了完整的将 Doubao-Seed-Code 配置到 Claude Code 的详细步骤,我们只需要照着教程走,就能得到一个不会被断供的 Claude Code。

▲ https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-seed-code

简单配置之后,我们就可以进入到 Claude Code 的页面,并且显示当前的模型时 doubao-sseed-code-preview-251028。

字节这波发 Cursor 平替 SOLO 模式,又发 Claude 4.5 平替 Doubao-Seed-Code,能看出来是真的很想把 AI 编程做到极致,毕竟这是现在的大热门。

有多热,代表性产品 Cursor 在最新一轮融资后,估值来到了 300 亿美元,并且它几乎可以确认,将是历史上最快达到 10 亿美元 ARR 的公司。

▲图表由 GPT-5.1 生成,显示这些公司从成立到实现 10 亿美元的 ARR,需要多长时间。图片来源:X@Yuchenj_UW

而前些天,柯林斯词典也宣布,把 Vibe Coding 作为 2025 年度词汇;这一年来,无论是不是学计算机专业的,多多少少都已经接触到了 AI 编程。

简单的「帮我生成一个贪吃蛇的游戏」、到复杂的大型项目管理,代码完全变成了向 AI,而更少面向开发者的语言。

这种趋势也在大多数的基础模型,把编程能力作为主要卖点的背景下,变得越来越流行。如果在去年问一个 AI 编程的用户,他会选择什么模型,毫不犹豫地说,一定是 Claude 3.5。

到了今年这个时候,Claude 断供看起来反而是倒逼了我们一把。国产的编程模型有了智谱的 GLM 4.6、阿里的 Qwen Coder、Minimax M2、月之暗面的 Kimi K2 Thinking,个个都榜上有名;今天又多了一个选择,Doubao-Seed-Code。

模型之外,工具的演变也没停下来,从只是生成代码然后预览,到现在 TRAE 要把软件开发一条龙全面服务到位。即便现在说 AI 编程,要全面取代程序员还不太可能,但让 AI 手搓一个微信,未来三五年说不定真的能做到。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,GPT-5.1 正式发布,OpenAI 这次有点「不对劲」

By: 张子豪
13 November 2025 at 07:15

刚刚,OpenAI 正式发布了 GPT-5.1,但这次有点不一样。

翻完整篇官方博客,我发现了一个特别有意思的细节:一张跑分对比图都没有。没有 benchmark 数据,没有「性能提升 XX%」,甚至连「更快更强」这种常规话术都少得可怜。

这不太像 OpenAI 了,直到我看到这句话:

「我们从用户那里清楚听到,优秀的 AI 不仅要聪明,还要让人跟它聊天很愉快。」

新版 GPT-5.1 为了让我们聊天更愉快,提供了八种风格预设 

新版本确实更聪明了——推理更严谨,代码写得更漂亮,但最值得一提的是,它终于像个人了,并且首次允许我们细致地「调教」它的聊天风格。

和 AI 聊天不再是那种一问一答的工具感,而是变得有梗、懂氛围、会接话茬,甚至能陪你有的没的扯上半天。

看来上次 GPT-5 口碑崩塌后,OpenAI 终于听劝,也第一次捅破了窗户纸,承认光刷榜没用,用户要的是能好好说话的 AI,实用和情绪价值全都要。

直接放上具体的使用时间和方式:更新到 GPT-5.1 后,我们的 ChatGPT 会默认切换到最新模型,而不需要专门选择。

  • 付费用户 (Pro, Plus, Go, Business): 从今天(11月12日)开始逐步推送。
  • 免费和未登录用户: 将在付费用户推送完毕后跟进。
  • 企业和教育版: 拥有 7 天的早鸟期切换开关(默认关闭),之后将统一升级。
  • API 开发者: GPT-5.1 Instant 和 GPT-5.1 Thinking 将在本周晚些时候上线 API。

更强大的 AI 内核

这次更新的核心,是 GPT-5.1 Instant 和 GPT-5.1 Thinking 两大模型的全线升级。

GPT-5.1 Instant:最常用的模型,变「暖」了

GPT-5.1 Instant 是 ChatGPT 中最常被调用的模型。这次,它变得更「温暖」、更健谈了。根据 OpenAI 的早期测试,它甚至会不时展现出一些顽皮,同时保持回答的清晰和实用。

而更关键的升级来自底层:

  1. 更听话: 它现在能更可靠地遵循我们的指令,准确回答我们真正想问的那个问题。
  2. 自适应推理 (Adaptive Reasoning): 这是 Instant 模型第一次引入该功能。这意味着它在遇到难题时,会智能地决定先思考一下,从而给出更彻底、更准确的答案;而面对简单问题时,它依然保持极速响应。

OpenAI 提到,这种进化在数学(AIME 2025)和编程(Codeforces)等专业评估测试集上,也有了明显的提高。

GPT-5.1 Thinking:更强的大脑,也更易懂了

作为更高级的推理模型,GPT-5.1 Thinking 也迎来了关键优化,变得更高效、更易用。

▲ GPT-5.1 思考在简单任务上花费的时间更少,在困难任务上花费的时间更多

  1. 效率提升: 它现在能更精准地分配思考时间,在复杂问题上花费更多时间(答案更透彻),在简单问题上响应更快(等待时间更短)。
  2. 更易懂(用户福音!): 它的回答现在更清晰,使用了更少的行业术语和未定义的词汇。这让我们在用它处理复杂工作或解释技术概念时,能毫不费力地看懂。
  3. 同样温暖:Thinking 模型的默认基调也变得更温暖、更富同理心。

用 OpenAI 应用 CEO Fidji Simo 的话来说,这次升级的核心是将 IQ(智商)和 EQ(情商)更好地结合起来。

模型在保持高智商的同时,即继续使用与推理模型相同的技术栈;还大幅提升了情商,ChatGPT 有了更自然的对话和同理心。

 

这能满足用户在不同场景下,都能得到相对应的个性化需求,像是谈论健康时需要同理心,写文案时需要直接。

此外,对大多数用户来说,我们也不需要在 Instant 和 Thinking 之间纠结。因为还有 GPT-5.1-Auto 会自动为我们分配到最合适的模型,这也是 GPT-5 发布时的一大亮点,即智能路由。

总之,最直观的感受就是,答案更智能,语气更自然。

打造专属于你的 ChatGPT

如果说模型升级是硬实力,那个性化体验的飞跃就是软实力,而这正是本次更新的另一大亮点。

OpenAI 的目标是,是让我们毫不费力地将 ChatGPT 的语气和风格,调整到最舒服的状态。

在原有的默认、友好、高效基础上,新增了三种官方风格。

  • Professional (专业): 适用于工作、写作等正式场合。
  • Candid (坦诚): 更直接,不拐弯抹角。
  • Quirky (古灵精怪): 顾名思义,它会变得更有趣、更跳脱。

之前测试版中的「书呆子」和「愤世嫉俗」选项也依然保留在个性化设置中。

除了这种直接选择,更丰富的基本风格和语调,OpenAI 正在实验一项新功能,允许用户直接从设置中微调 ChatGPT 的特征

我们可以精确控制回答的简洁度、热情度(多热情)、回答是否易于浏览 (Scannable)、甚至是使用 emoji 的频率。

如果不想麻烦的手动设置,当我们试图在对话中引导某种特定语气时,ChatGPT 可能还会主动领悟到,然后询问我们,是否希望将这种偏好保存到永久设置中,省去了手动调整的麻烦。

▲ 这也是奥特曼喜欢的功能

在 Fidji Simo 分享的博客里,她提到过去的自定义指令,并不总尽如人意。比如我们可以在自定义设置里,让 ChatGPT 不要用某个词,但它还是会用。

GPT-5.1 在风格化的另一大改进是,自定义指令现在能更可靠地,在多轮对话中坚持住,ChatGPT 可以更稳定地,按照我们定义的个性来完成各项任务。

有网友直接一句话总结,GPT-5.1 这次的更新,就是更创造性地忽略我们的提示词。

当然,AI 的风格化、拟人化,也有它的代价。一个更温暖、情商更高的 AI,也必须更安全,这也是 OpenAI 在最近被卷入 16 岁少年自杀案,必须回应的事情。

在 GPT-5.1 的模型介绍 System Card 里,介绍了 OpenAI 在这方面的深入考量。OpenAI 首次在模型的安全评估中加入了两个全新的、更人性化的维度。

  1. 心理健康(Mental Health): 评估 AI 如何应对用户可能表现出的孤立、妄想或躁狂等迹象。
  2. 情感依赖(Emotional Reliance): 评估 AI 的回应是否会助长用户对 ChatGPT 产生不健康的依赖或情感依恋。

在传统的安全评估上,GPT-5.1 Instant 表现出色,在抵御越狱(Jailbreaks)方面,比其前代 gpt-5-instant-oct3 更强。

但 OpenAI 也坦诚地指出,GPT-5.1 Thinking 在处理骚扰、仇恨言论等内容的基准测试中,相比前代略有回退;Instant 模型在情感依赖的某些评估中,也显示了轻微的倒退。

OpenAI 当然是说正致力于改进这些方面,然后提到了,他们选择透明的公开这种回退的现象,在 AI 快速迭代的当下,比单纯的零失误宣传,更值得大家关注。

也有网友分享很乐意看到,OpenAI 愿意在让我们与模型的对话更愉快这方面,去做出一些努力。

如果你今天打开 ChatGPT 没看到更新,别急,未来几天内就会轮到你,OpenAI 正在逐步推送到所有用户。

此外,为了避免像之前 GPT-5 发布,网友们都在呼吁 GPT-4o 的回归,这种尴尬再次出现。

OpenAI 这次提供了后悔药,付费用户在 3 个月内,也就是 GPT-5 的淘汰期,依然可以在设置的下拉菜单中,选择使用旧的 GPT-5 模型,以便能从从容容地过渡到 GPT-5.1。

▲ 现在还能使用 4o 等模型

GPT-5.1 是一次能力与体验齐头并进的重大更新。OpenAI 显然在告诉我们,AI 的未来不仅是更强的参数,和更高的跑分,更是更懂你的体验,和更贴心的交互。

但一个完美的助手,又应该是什么样的?

OpenAI 应用 CEO Fidji Simo 在她的文章中,有一个挺有意思的比喻,她说「如果我能完全控制我丈夫的特质,我可能会让他永远同意我,但很明显,这不是个好主意。」

最好的 AI 应该像我们生活中最优秀的人一样,他们倾听、适应,但也在必要时挑战我们,帮助我们成长

从一个无所不知的万能工具,到一个能懂你聊天脾气,甚至能帮你成长的专属伙伴,这也许就是 GPT-5.1 真正想开启的未来。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


3I/ATLAS_SUiTHiNKModel_v1

By: Steven
27 October 2025 at 11:44

那年冬天,国际天文学联合观测网宣布,人类再次捕捉到一个“跨恒星访客”。
代号:3I / ATLAS

它并非金属,也不像冰体。所有望远镜的数据都在闪烁、紊乱、跳跃。
有科学家提出,它的表面并非反光均匀,而是一种会散射观测波段的天然迷彩。
这意味着,它在主动隐藏自己。

天文学家称之为“被注视的凝视物”。


一、模型

两个月后,一个名叫苏弋的工业设计师在社交媒体上发布了一张照片。
他掌心托着一个13厘米长的灰黑色小模型,表面布满刻意的不规则反光。
标题很简单:

3I/ATLAS_SUiTHiNKModel_v1

照片下没有说明,也没有解释。
但第二天早晨,它就出现在各大科技博主与艺术账号的页面上。
短短几天,#ATLAS掌心体# 的话题播放量突破一千万。

人们惊讶地发现:这个模型拿在手里,会因角度与光线不同而不断改变亮度与轮廓,好像真的在呼吸。
没有任何机械结构,却让人产生一种“被凝视”的幻觉。

潮流品牌纷纷推出联名款、限量款,甚至高定银质版本。
3I/ATLAS 成了地球上最受欢迎的“掌心饰物”。


二、名字

直到那时,人们才开始注意到模型命名里那个奇怪的后缀:SUiTHiNK

起初只是粉丝在 Reddit 上随口猜测:

“是不是苏弋 think 的意思?他在表达‘思考的我’?”

很快,语言学与符号学圈子加入了讨论。
牛津大学的一位古文字学家在论坛上指出,SUi 在苏美尔语音节表中确有记录,对应音素「šù-i」,意为“手中之物”或“掌握的”。
而 THiNK 若取古日耳曼转写体系中「þenkaz」的变体,则可指“思想、意志”。

这两个词放在一起——SUi / THiNK——意外构成一种双重结构:

“思想被握于手中”
“手成为思想的延伸”

正好对应了那枚贴合掌心的模型。


三、文件

一个名为《ATLAS分析草稿》的PDF文件在暗网流出,署名不明。
文件记录了苏弋受邀前往某个“国际天文资料保存计划”设计储存容器的过程。
文件被加密,只能读到部分片段:

「……他拒绝使用镜面金属,要求采用能分散反射的表层……」
「……他说它看我们的方式,与光的角度有关……」

消息曝光后,网友纷纷去翻苏弋的旧贴。
有人发现,在他早期设计的数个装置艺术中,常出现一种奇怪的结构:
不规则的反光面、内部空洞、可置于掌心的尺寸。
似乎他早在3I/ATLAS出现前,就在“模拟它”。


四、失踪与重现

半年后,苏弋停止更新。
没有告别,也没有声明。
他最后一条动态是一张模糊的近景:
灰色反光面,指纹模糊,背景是实验室的冷光。

账号沉寂,模型销量却持续飙升。
ATLAS 成了新世代的“图腾物”——有人把它挂在胸前祈祷,有人说握着它冥想能听见低频嗡鸣。
心理学家解释那是“自我投射效应”,
可越来越多的视频声称,模型在暗处能“微微震动”。


五、抄本与注释

一位梵文与苏美尔语双修的学者在学术会议上展示了一页《纳格·哈玛第文库》的边注。
那是一段13世纪的修订版手抄本,边缘用拉丁混写体标注着一个模糊的词组:

“SUI · THINC”

他解释说,古修士在这里用“sui”(自我)与“thinc”(思想、议会)并置,
象征“自我与思想的合一”。
而这页手稿讨论的主题正是——“被造物如何回望造物主”

学者最后说:

“这并非巧合。有人在重新复写那一页。”


六、光的陷阱

几个月后,一个匿名账户上传了一段短片。
画面是普通实验室,一枚3I/ATLAS模型被置于光谱仪下。
随着仪器启动,反射光像是被吸入某种结构中——
在高倍放大镜头下,模型表面出现了极细的刻痕,
排列成一种自相似的螺旋分布

字幕写着:

「不是反射,而是记忆。」

短片很快被删除,但无数人下载、转发。
有科技频道尝试复刻实验,结果不同——有的只是普通塑料折射,有的却出现微光闪烁。

人们开始相信,真正的那批限量模型里藏着“某种东西”。


七、余波

如今,3I/ATLAS 已成全球设计学院的研究对象。
有人研究其造型心理学,有人分析其符号学层次。
但没人再提那个名字——苏弋

只有极少数人记得,他在一篇采访中留下过一句话:

“如果我们注视的东西,也在注视我们,那我们看到的,或许只是它让我们看到的部分。”

这句话如今被无数次印在ATLAS周边的包装盒上,
也被误以为是广告语。

而在某个收藏论坛上,一张从未公开的照片被匿名发出:
桌上放着数枚模型,灯光昏暗,镜头对焦在最后一排。
那些模型的反光形成一条微弱的线,连成一个英文单词——

RETURN.

模型由我使用 Midjourney、Tripo 设计制作;

短文由 ChatGPT 配合我完成;

首图为模型实拍,经 Banana 和 Snapseed 处理。

点击这里打印模型,祝大家玩得开心!

運動無國界,嗎?

By: Steven
21 February 2024 at 21:35

🎥 點擊封面播放視頻

由一個提問開始,我從設計師與創作的角度,談論體育運動中的民族主義,警惕「分類」思維對思考過程的影響。

今日戶外步行運動記錄:開發了一條四分馬的路線!

🎥 B站播放地址:https://www.bilibili.com/video/BV1yv421k7Mg/

🎥 YouTube 播放地址:https://youtu.be/w2KQoic8LAg

這是春節過後的第一條視頻,主要是起個頭跟大家聊聊天。如果你有任何想法,歡迎在視頻中的彈幕或評論區里和其他人一起理性討論。

❌
❌