Reading view

There are new articles available, click to refresh the page.

刚刚,GPT-5.1 正式发布,OpenAI 这次有点「不对劲」

刚刚,OpenAI 正式发布了 GPT-5.1,但这次有点不一样。

翻完整篇官方博客,我发现了一个特别有意思的细节:一张跑分对比图都没有。没有 benchmark 数据,没有「性能提升 XX%」,甚至连「更快更强」这种常规话术都少得可怜。

这不太像 OpenAI 了,直到我看到这句话:

「我们从用户那里清楚听到,优秀的 AI 不仅要聪明,还要让人跟它聊天很愉快。」

新版 GPT-5.1 为了让我们聊天更愉快,提供了八种风格预设 

新版本确实更聪明了——推理更严谨,代码写得更漂亮,但最值得一提的是,它终于像个人了,并且首次允许我们细致地「调教」它的聊天风格。

和 AI 聊天不再是那种一问一答的工具感,而是变得有梗、懂氛围、会接话茬,甚至能陪你有的没的扯上半天。

看来上次 GPT-5 口碑崩塌后,OpenAI 终于听劝,也第一次捅破了窗户纸,承认光刷榜没用,用户要的是能好好说话的 AI,实用和情绪价值全都要。

直接放上具体的使用时间和方式:更新到 GPT-5.1 后,我们的 ChatGPT 会默认切换到最新模型,而不需要专门选择。

  • 付费用户 (Pro, Plus, Go, Business): 从今天(11月12日)开始逐步推送。
  • 免费和未登录用户: 将在付费用户推送完毕后跟进。
  • 企业和教育版: 拥有 7 天的早鸟期切换开关(默认关闭),之后将统一升级。
  • API 开发者: GPT-5.1 Instant 和 GPT-5.1 Thinking 将在本周晚些时候上线 API。

更强大的 AI 内核

这次更新的核心,是 GPT-5.1 Instant 和 GPT-5.1 Thinking 两大模型的全线升级。

GPT-5.1 Instant:最常用的模型,变「暖」了

GPT-5.1 Instant 是 ChatGPT 中最常被调用的模型。这次,它变得更「温暖」、更健谈了。根据 OpenAI 的早期测试,它甚至会不时展现出一些顽皮,同时保持回答的清晰和实用。

而更关键的升级来自底层:

  1. 更听话: 它现在能更可靠地遵循我们的指令,准确回答我们真正想问的那个问题。
  2. 自适应推理 (Adaptive Reasoning): 这是 Instant 模型第一次引入该功能。这意味着它在遇到难题时,会智能地决定先思考一下,从而给出更彻底、更准确的答案;而面对简单问题时,它依然保持极速响应。

OpenAI 提到,这种进化在数学(AIME 2025)和编程(Codeforces)等专业评估测试集上,也有了明显的提高。

GPT-5.1 Thinking:更强的大脑,也更易懂了

作为更高级的推理模型,GPT-5.1 Thinking 也迎来了关键优化,变得更高效、更易用。

▲ GPT-5.1 思考在简单任务上花费的时间更少,在困难任务上花费的时间更多

  1. 效率提升: 它现在能更精准地分配思考时间,在复杂问题上花费更多时间(答案更透彻),在简单问题上响应更快(等待时间更短)。
  2. 更易懂(用户福音!): 它的回答现在更清晰,使用了更少的行业术语和未定义的词汇。这让我们在用它处理复杂工作或解释技术概念时,能毫不费力地看懂。
  3. 同样温暖:Thinking 模型的默认基调也变得更温暖、更富同理心。

用 OpenAI 应用 CEO Fidji Simo 的话来说,这次升级的核心是将 IQ(智商)和 EQ(情商)更好地结合起来。

模型在保持高智商的同时,即继续使用与推理模型相同的技术栈;还大幅提升了情商,ChatGPT 有了更自然的对话和同理心。

 

这能满足用户在不同场景下,都能得到相对应的个性化需求,像是谈论健康时需要同理心,写文案时需要直接。

此外,对大多数用户来说,我们也不需要在 Instant 和 Thinking 之间纠结。因为还有 GPT-5.1-Auto 会自动为我们分配到最合适的模型,这也是 GPT-5 发布时的一大亮点,即智能路由。

总之,最直观的感受就是,答案更智能,语气更自然。

打造专属于你的 ChatGPT

如果说模型升级是硬实力,那个性化体验的飞跃就是软实力,而这正是本次更新的另一大亮点。

OpenAI 的目标是,是让我们毫不费力地将 ChatGPT 的语气和风格,调整到最舒服的状态。

在原有的默认、友好、高效基础上,新增了三种官方风格。

  • Professional (专业): 适用于工作、写作等正式场合。
  • Candid (坦诚): 更直接,不拐弯抹角。
  • Quirky (古灵精怪): 顾名思义,它会变得更有趣、更跳脱。

之前测试版中的「书呆子」和「愤世嫉俗」选项也依然保留在个性化设置中。

除了这种直接选择,更丰富的基本风格和语调,OpenAI 正在实验一项新功能,允许用户直接从设置中微调 ChatGPT 的特征

我们可以精确控制回答的简洁度、热情度(多热情)、回答是否易于浏览 (Scannable)、甚至是使用 emoji 的频率。

如果不想麻烦的手动设置,当我们试图在对话中引导某种特定语气时,ChatGPT 可能还会主动领悟到,然后询问我们,是否希望将这种偏好保存到永久设置中,省去了手动调整的麻烦。

▲ 这也是奥特曼喜欢的功能

在 Fidji Simo 分享的博客里,她提到过去的自定义指令,并不总尽如人意。比如我们可以在自定义设置里,让 ChatGPT 不要用某个词,但它还是会用。

GPT-5.1 在风格化的另一大改进是,自定义指令现在能更可靠地,在多轮对话中坚持住,ChatGPT 可以更稳定地,按照我们定义的个性来完成各项任务。

有网友直接一句话总结,GPT-5.1 这次的更新,就是更创造性地忽略我们的提示词。

当然,AI 的风格化、拟人化,也有它的代价。一个更温暖、情商更高的 AI,也必须更安全,这也是 OpenAI 在最近被卷入 16 岁少年自杀案,必须回应的事情。

在 GPT-5.1 的模型介绍 System Card 里,介绍了 OpenAI 在这方面的深入考量。OpenAI 首次在模型的安全评估中加入了两个全新的、更人性化的维度。

  1. 心理健康(Mental Health): 评估 AI 如何应对用户可能表现出的孤立、妄想或躁狂等迹象。
  2. 情感依赖(Emotional Reliance): 评估 AI 的回应是否会助长用户对 ChatGPT 产生不健康的依赖或情感依恋。

在传统的安全评估上,GPT-5.1 Instant 表现出色,在抵御越狱(Jailbreaks)方面,比其前代 gpt-5-instant-oct3 更强。

但 OpenAI 也坦诚地指出,GPT-5.1 Thinking 在处理骚扰、仇恨言论等内容的基准测试中,相比前代略有回退;Instant 模型在情感依赖的某些评估中,也显示了轻微的倒退。

OpenAI 当然是说正致力于改进这些方面,然后提到了,他们选择透明的公开这种回退的现象,在 AI 快速迭代的当下,比单纯的零失误宣传,更值得大家关注。

也有网友分享很乐意看到,OpenAI 愿意在让我们与模型的对话更愉快这方面,去做出一些努力。

如果你今天打开 ChatGPT 没看到更新,别急,未来几天内就会轮到你,OpenAI 正在逐步推送到所有用户。

此外,为了避免像之前 GPT-5 发布,网友们都在呼吁 GPT-4o 的回归,这种尴尬再次出现。

OpenAI 这次提供了后悔药,付费用户在 3 个月内,也就是 GPT-5 的淘汰期,依然可以在设置的下拉菜单中,选择使用旧的 GPT-5 模型,以便能从从容容地过渡到 GPT-5.1。

▲ 现在还能使用 4o 等模型

GPT-5.1 是一次能力与体验齐头并进的重大更新。OpenAI 显然在告诉我们,AI 的未来不仅是更强的参数,和更高的跑分,更是更懂你的体验,和更贴心的交互。

但一个完美的助手,又应该是什么样的?

OpenAI 应用 CEO Fidji Simo 在她的文章中,有一个挺有意思的比喻,她说「如果我能完全控制我丈夫的特质,我可能会让他永远同意我,但很明显,这不是个好主意。」

最好的 AI 应该像我们生活中最优秀的人一样,他们倾听、适应,但也在必要时挑战我们,帮助我们成长

从一个无所不知的万能工具,到一个能懂你聊天脾气,甚至能帮你成长的专属伙伴,这也许就是 GPT-5.1 真正想开启的未来。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


用 460 万美元追上 GPT-5?Kimi 团队首次回应一切,杨植麟也来了

上周 Kimi K2 Thinking 发布,开源模型打败 OpenAI 和 Anthropic,让它社交媒体卷起不小的声浪,网友们都在说它厉害,我们也实测了一波,在智能体、代码和写作能力上确实进步明显。

刚刚 Kimi 团队,甚至创始人杨植麟也来了,他们在 Reddit 上举办了一场信息量爆炸的 AMA(有问必答)活动。

▲ Kimi 团队三位联创,杨植麟、周昕宇、吴育昕参与回答

面对社区的犀利提问,Kimi 不仅透露了下一代模型 K3 的线索、核心技术 KDA 的细节,还毫不避讳地谈论了 460 万的成本,以及与 OpenAI 在训练成本、产品哲学上的巨大差异。

  • 460 万美元这个数字不是官方的数字,具体的训练成本很难量化到多少钱
  • K3 什么时候来,是看奥特曼的万亿美元数据中心什么时候建成
  • K3 的技术将会继续沿用,当前效果显著的 KDA 注意力机制
  • 视觉模型还需要我们去采集更多的数据,但目前已经在做了……

我们为你整理了这场 AMA 中最值得关注的几个核心焦点,来看看这家现在算是国产开源老大的 AI 实验室,是如何看待他们的模型,和未来 AI 的发展。

叫板 OpenAI,「我们有自己的节奏」

在这场 AMA 中,火药味最足的部分,大概就是 Kimi 团队对 OpenAI 的隔空回应。

最大的噱头之一:K3 什么时候来?Kimi 团队的回答非常巧妙:「在奥特曼的万亿美元数据中心建成之前。

很明显这一方面是幽默,因为没有人知道 OpenAI 到底什么时候才能建成那个数据中心,另一方面似乎也在回应外界对于 Kimi 能用更少资源追赶 GPT-5 的赞叹。

当有网友贴脸开大,直接问 Kimi 怎么看 OpenAI 要花这么多钱在训练上时,Kimi 坦言:「我们也不知道,只有奥特曼自己才知道」,并强硬地补充道,「我们有自己的方式和节奏。

这种自己的节奏,首先体现在产品哲学上。当被问到是否会像 OpenAI 一样发布 AI 浏览器时,团队直言 No:

我们不需要创建另一个 chromium 包装器(浏览器套壳),来构建更好的模型。

他们强调,目前的工作还是专注于模型训练,能力的体现会通过大模型助手来完成。

在训练成本和硬件上,Kimi 也展现了精打细算的一面。社区好奇 K2 的训练成本是否真的是传闻中的 460 万美元,Kimi 澄清了这个数字并不正确,但表示大部分的钱都是花在研究和实验上,很难具体量化。

至于硬件,Kimi 承认他们使用的是 H800 GPU 和 Infiniband,虽然「不如美国的顶级 GPU 好,而且数量上也不占优势」,但他们充分利用了每一张卡。

模型的个性与 AI 的垃圾味

一个好的模型,不仅要有智商,还要有个性。

很多用户喜欢 Kimi K2 Instruct 的风格,认为它「比较少的谄媚,同时又像散文一样,有洞察力且独特」。

Kimi 解释说,这是「预训练(提供知识)+ 后训练(增添风味)」共同作用的结果。不同的强化学习配方(即奖励模型的不同选择)会得到不同的风格,而他们也会有意的把模型设计为更不谄媚

▲大语言模型情商评估排名,图片来源:https://eqbench.com/creative_writing.html

但与此同时,也有用户直言 Kimi K2 Thinking 的写作风格太「AI Slop 垃圾」,无论写什么话题,风格都太过于积极和正面,导致读起来 AI 味就是很重。他还举例子说,要 Kimi 写一些很暴力很对抗的内容,它还是把整体的风格往积极正面那边去靠近。

Kimi 团队的回答非常坦诚,他们承认这是大语言模型的常见问题,也提到现阶段的强化学习,就是会刻意地放大这种风格。

这种用户体感与测试数据的矛盾,也体现在对 Benchmark(跑分)的质疑上。有网友尖锐地提问,Kimi K2 Thinking 是不是专门针对 HLE 等跑分进行了训练,才会取得如此高分?毕竟这么高的分数,好像和他实际使用中的智能不太匹配。

对此,Kimi 团队解释说,他们在改进自主推理方面取得了一些微小的进展,这刚好让 K2 Thinking 在 HLE 上得分很高。但他们也坦诚了努力的方向,要进一步提升通用能力,以便在更多实际应用场景中和跑分一样聪明。

网友还说,你看马斯克的 Grok 因为做了很多 NSFW (非工作安全) 的工作,生成图片和视频;Kimi 完全可以利用自己的写作优势,让它完成一些 NSFW 的写作,一定能为 Kimi 带来很多用户的。

Kimi 只能笑而不语,说这是一个很好的建议。未来是否会支持 NSFW 内容,可能还需要找到一些年龄验证的方法,也需要进一步做好模型的对齐工作。

很明显,现阶段 Kimi 是不可能支持 NSFW。

核心技术揭秘:KDA、长推理与多模态

作为一家被称为「开源先锋实验室」的公司,而 Reddit 本身就是也是一个非常庞大和活跃的技术社区,Kimi 也在这次的 AMA 中,分享了大量的技术细节。

10 月底,Kimi 在《Kimi Linear: An Expressive, Efficient Attention Architecture》的论文,详细介绍了一种新型混合线性注意力架构 Kimi Linear,其核心正是 Kimi Delta Attention (KDA)。

▲KDA 算法实现,论文链接:https://arxiv.org/pdf/2510.26692

通俗来说,注意力(Attention)就是 AI 在思考时,决定应该重点关注上下文哪些词语的机制。和常见的完全注意力和线性注意力不同,KDA (Kimi Delta Attention),是一种更智能、更高效的注意力机制

在这次 AMA 活动中,Kimi 也多次提到,KDA 在长序列强化学习场景中展现了性能提升,并且 KDA 相关的想法很可能在 K3 中应用。

但 Kimi 也坦言,技术是有取舍的。目前混合注意力的主要目的是节省计算成本,并不是为了更好的推理,在长输入和长输出任务上,完全注意力的表现依然是更好的。

那么,Kimi K2 Thinking 是如何做到超长推理链的呢,最多 300 个工具的思考和调用,还有网友认为甚至比 GPT-5 Pro 还要好?

▲ Kimi Linear 模型结构

Kimi 认为这取决于训练方式,他们倾向于使用相对更多的思考 token 以获得最佳结果。此外,K2 Thinking 也原生支持 INT4,这也进一步加速了推理过程。

我们在之前的 Kimi K2 Thinking 文章中也分享了 INT4 的量化训练技术,这是一种高效的量化技术(INT4 QAT),Kimi 没有训练完再压缩,而是在训练过程中,就保持了低精度运算模型。

这能带来两个巨大的优势,一个是推理速度的提升,一个是长链条的推理,不会因为训练完再进行的压缩量化,而造成逻辑崩溃。

最后,关于外界期待的视觉语言能力,Kimi 明确表示:目前正在完成这项工作。

之所以先发布纯文本模型,是因为视觉语言模型的数据获取,还有训练,都需要非常多的时间,团队的资源有限,只能优先选择一个方向。

生态、成本与开放的未来

对于开发者和普通用户关心的问题,Kimi 团队也一一作答。

为什么之前能处理 1M 上下文的模型消失了?Kimi 的回答言简意赅:「成本太高了。」而对于 256K 上下文在处理大型代码库时依然不够用的问题,团队表示未来会计划增加上下文长度。

在 API 定价上,有开发者质疑为何按「调用次数」而非 token 收费。对使用 Claude Code 等其他智能体工具进行编程的用户来说,基于 API 请求次数的计费方式,是最不可控且最不透明的。

在发送提示之前,用户根本无法明确工具将发起多少次 API 调用,或者任务将持续多长时间。

▲Kimi 会员计划

Kimi 解释说,我们用 API 调用,是为了让用户更清楚的知道费用是怎么消耗的,同时符合他们团队的成本规划,但他们也松口表示会看看是否有更好的计算方法。

当有网友提到自己公司不允许使用其他聊天助手时,Kimi 借机表达了他们的核心理念:

我们拥抱开源,因为我们相信通用人工智能应该是一个带来团结而不是分裂的追求。

而对于那个终极问题——AGI 什么时候到来?Kimi 认为 AGI 很难定义,但人们已经开始感受到这种 AGI 的氛围,更强大的模型也即将到来。

和去年疯狂打广告营销的 Kimi 不同,在这场 AMA 力,杨植麟和团队成员的回答;确实能让人感受到在国产开源,逐渐占据全球大语言模型开源市场的背景下,Kimi 也更加有底气,更明确了自己的节奏。

而这个节奏很明显,就是在这场烧钱、甚至卷太空的 AI 竞赛中,继续走开源的路,才能推动技术往前走。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


开源新王!首次干翻 GPT-5,实测 Kimi K2 Thinking,中国 AI 杀疯了

迄今为止最大最好的开源模型,总参数达 1 万亿,屠榜多个基准测试,Kimi K2 Thinking 来了。

▲ Kimi K2 Thinking 在 TAU 榜单(智能体工具调用能力测试)上排名第一,超过 OpenAI 和 Anthropic 的旗舰模型

一登场就是斩获多个测试榜单的第一名,Kimi 也不玩开源只和开源比那一套,而是直接把 GPT-5、Claude 4.5 Sonnet 这样的闭源模型放一起,非常自信。

▲ 智谱、MiniMax 自然语言处理部门负责人、以及 HuggingFace 联合创始人纷纷在评论区留言祝贺

除了在工具使用的榜单上拿第一,人类最后考试(HLE)、BrowseComp、还有其他基准测试,Kimi K2 Thinking 基本上都占据了先进模型的前排位置。

▲ 在跨学科专家级问题的 HLE 榜单、以及自主搜索的三个榜单上,排名第一;编程能力的三个榜单,得分也接近最好的 Claude 或 GPT 模型

无论是对智能体能力要求极高的编程任务、还是通用的推理写作、深度搜索等方面,Kimi K2 Thinking 的性能表现可以说是,目前最接近封闭模型的开源模型

延续了 7 月份,发布 K2 时,将其定位为自主智能路线图的一部分,Kimi K2 Thinking 也是主打 Agentic Intelligence(智能体智能)。它是一个推理的混合专家(MoE)模型,总参数量 1T,激活参数 32B,上下文长度 256K。

K2 Thinking 能在智能体工具调用中交错思考,同时在保持任务目标的同时,持续进行 200 到 300 次顺序工具调用。尽管工具调用在类似的闭源模型上,已经成为某种程度上的标准,但 K2 Thinking 可能是第一个,具有如此多工具调用能力的开源模型。

对比 K2 0905,K2 Thinking 在具体的任务上的提升,我们总结了 Kimi 的技术博客,有这些亮点。

  • 解决需要百步推理的复杂难题:它能将一个庞大的目标分解为数百个子任务,然后像一个项目经理一样逐一执行。官方举例称,它曾通过 23 个交错的推理和工具调用,成功解决了一个博士级的数学难题。
  • 更准确的找到详细的信息:通过执行动态的思考 → 搜索 → 浏览器使用 → 思考 → 代码循环,K2 Thinkging 在面对模糊或冷门的搜索需求,能自己上网反复搜索、浏览网页、验证证据,直到找到精准答案。
  • 直接把想法变成可用的产品:K2 Thinking 特别擅长前端代码(如 HTML、React),和其他 Vibe Coding 产品一样,能直接把我们的想法写成一个功能完善、响应迅速的网页或软件产品。
  • 写出更有人味的文章:逻辑严谨的专业长文,想象力丰富的创意故事,甚至是需要同理心的情感建议,K2 Thinking 在聊天问答这些通用能力上,能做到更扎实、更细腻的推理写作。

目前,Kimi K2 Thinking 已经在 Kimi 官网的聊天模式上线。

但需要注意的是,Kimi 解释说为了保证用户能获得快速、轻量级的体验,当前的网页聊天版本有选择性地减少了部分工具的使用和调用次数。因此,直接在 kimi.com 上聊天,可能暂时无法完全复现上述基准测试中的极限分数。

▲测试中提醒「高峰算力不足,请耐心等待」

此外,能充分发挥 Kimi K2 Thinking 能力的完整智能体模式(Full Agentic Mode)将很快更新。开发者也可以通过 Kimi k2 thinking API 来体验。

我们也快速上手,实测了几个常见的项目,一起来看看实际的体验如何。

首先是编程任务,我们先让他做了一个技能五子棋的小游戏,要求是在普通的五子棋规则上,玩家可以使用技能。

速度很快,出乎我的意料,一两分钟的时间,它就实现了全部的代码,并且真的可以使用这些技能。

然后是骑自行车的鹈鹕,这个经典的测试大模型编程能力的项目,检验它的 SVG 代码生成。

虽然 K2 Thinking 写着推理模型,但是它的推理速度非常快,这段动态的 SVG 代码生成也只花了 1 分钟不到。虽然这个鹈鹕好像有点不太对劲。

开启长思考,即 K2 Thinking 的同时,能启用网络搜索,当我们要它完成一个天气卡片时,能看到 Kimi 会一边自动检索网络上的公开资料,一边完成代码的实现。

▲确实能调用浏览器的获取位置接口,但是在最后 Kimi 也提到,需要输入对应的地图 API 和 天气信息 API 等数据

现在已经是全民 vibe coding 的时代了,普通用户还是程序员,都能从 K2 Thinking 的编程能力里,更快速地实现自己的想法。

在智能体搜索这个任务上,我们问了他一些专业领域的问题,测试它如何分解复杂问题、主动搜索、并整合难找的网络信息的能力。

可以看到,Kimi 搜索的信息是比较全面的,当我规定了 2025 年以后,它网页搜索的资料,也大多集中在最近这段时间以来的报道。

最后它给出的报告,也详细的提到了三种 2025 的算法,以及主要的公司等内容。

其实工具调用,应该是 Kimi K2 Thinking 非常重要的能力,但是在我们的体验中,发现大多数时候,他只是调用网络搜索工具,而没有看到 200 多个工具流。

我们在输入一个物流逻辑问题时,很明显是可以调用 Python 等代码解释器来辅助计算,但是 Kimi 只是和其他深度思考的模型一样,一步步地推理。

关于 K2 Thinking 的写作能力,我们找了一个表面上看起来是两难的问题给它。

这个回答有够人性化吗。很明显不是空洞的套话,还提供了周到且具体的思考,也帮助我们平衡了原则和现实两个方面,还有可操作的后续步骤。

在 AI 模型军备竞赛的今天,单纯的问答,很明显已经无法满足,我们复杂的专业需求。像人类专家一样,通过一步一步的推理思考,主动使用各种工具,来解决极其复杂的难题,成了所有大模型的标配。

根据 Kimi 官方文档和技术分析的介绍,这次的思考能力突破关键在训练方式,即高效的量化技术(INT4 QAT),这也是一个值得关注的行业亮点。

K2 Thinking 在后训练阶段采用了量化感知训练 (QAT),让模型能以 INT4 精度本地运行,推理速度提升约 2 倍,同时保持最佳性能。

也就是说,它不是训练完再压缩,而是在训练过程中就贯穿低精度运算模型。这带来了两个巨大优势,一个是推理速度的提升,一个是长链条推理,不会因为量化而造成逻辑崩溃。

▲使用正确的量化技术,能节省 GPU 显存并加快推理速度

此外,它的所有基准测试成绩都是在 INT4 精度下报告的。说白了,这是一种「所见即所得」的性能,而不是实验室精心调制的数据,K2 Thinking 生来就能跑得动

我们的实测也能看到,Kimi K2 Thinking 确实不仅仅是一个营销噱头,工具调用、量化技术、以及超长规划,让它在智能体方向上,推理速度上,都有不错的表现。

虽然在某些方面,例如稳定的结果输出、以及对提示词更宽松的要求,还是比不上闭源模型。但是开源能做到这样,我的心里只有两个字,佩服。

过去两年,国产模型的竞争大概是从 Qwen、百度这些模型,对 ChatGPT 的疯狂追赶;到横空出世的 DeepSeek 把推理成本降低的同时,还做到了和 o3 等推理模型,相媲美的表现。

让国产 AI 开始走上了,完全不同于国外闭源模型的路线。OpenAI 发布一个 GPT-5 预热了大半年,Anthropic 的 Claude 系列模型发布周期也在长达几个月。

而 Kimi 在今年七月发布了 K2,九月发布了 K2 Instruct,十一月就迎来了 K2 Thinking;更不用说还有智谱、MiniMax、以及前段时间模型七连发的 Qwen。就连还在期待中的 DeepSeek R2,也更新 V3.2、OCR 等广受好评的模型。

并且,这些模型全部开源。在海外社交媒体平台上,一年前大家可能只知道中国有 DeepSeek,而现在,Qwen 已经是 Hugging Face 上模型下载榜单的 Top 10,Kimi 和智谱(Z.ai)的 GLM 系列模型、以及 MiniMax 都成了大多数用户青睐的模型。

K2 Thinking 的发布,我想是一个新的转折点,就是当我们的开源模型,也能拿到和闭源模型一样的基准分数时,闭源模型还可以讲什么样的故事来营销自己呢。

Gemini 3 据说在今年年底前将发布,而 OpenAI 似乎也害怕再像当时的 nano banana 一样,抢走他的市场,计划推出 GPT-5.1。

军备竞赛还在继续,而国产开源的力量,开始让我们看到,一个好用的 AI,不是屠榜多少测试,是在具有真实用户需求的领域,能真正地提供某些东西,并且惠及所有人。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


感觉的代价?

看到网友的一篇帖子:

在我二十歲以前,我是一個可以穿牛仔褲睡覺的人。我可以在,今日看起來實在不太舒適的環境下睡覺,不會特別覺得怎麼樣;舉例來說,那時我的床板上鋪的是幾張囤起來準備做模型用的紙板,冬天時實在被床板沁上來的寒意冷得受不了,才去買薄床墊。

那時的我是非常荒廢「感覺」的,我不僅和內在的感覺疏離,也很鈍於外在的感覺,我認為那是我可以穿著牛仔褲睡覺的原因。現在的我,即使穿著柔軟的睡褲,有時候還嫌壓到衣褶子不舒服,差不多是個豌豆公主。

就算現在的我想越過時空去對過去的我表達憐惜,那時的我也一定感覺不到吧。

回頭一看,真是跋涉了好長的路,來到這裡。#

这样的视角,我还是第一次见,于是感到很惊讶。以往看到过很多描述,和年轻时可以随意风餐露宿的状态的对比,最终都是自嘲几句如今娇气了。而这一篇,则认为从前的状态,是一种「不重视感觉」?与之相对的,如今的豌豆公主,是一种重视感觉后的进步?or 至少是进步的代价?

我提出这样的疑问。对方也是日常在 follow 的,多数三观比较一致的网友,于是回复的氛围也很融洽。对方的回复:

的確也有想過自己是不是變得嬌貴了,不過畢竟自己的事情自己最清楚;那時發生了一些大大小小的事,年輕時的我很自己為可以用理智壓制自己的一切,卻在重要關頭發現身體與意志不統合,情緒會逃出來控制身體。

至於豌豆公主是好是壞,我倒沒有想評價,而是接受。頂多就是,感謝現在的我有一些外在條件讓我可以是豌豆公主吧。

其它有着共鸣的人也来讨论:

這樣的狀態是一種進步嗎?我覺得我不會用進步形容它。比較像是在爬一座山,一開始在山腳時,我的身心靈狀態,和登上山後,身心靈狀態已經皆然不同了。

以前的我因為一些事情,常常是伴著淚水入睡的,或是餓著肚子入睡的。從現在往回看,那時候我的身心靈是身.心.靈,三者分開,處於一種先各自顧好自己,無暇顧及其他的狀態。

后面更多地在交流,重视感觉的重要性,和渐渐懂得要重视感觉的心路历程……


我当然赞同重视感觉的重要性;但我大概明白,这个思路的 bug 在哪里。把风餐露宿的青春,和不重视感觉的青春,过度地绑定在一起,以致于前者连带着一同被否定。以及,在发言者之后的人生历程中,那些风餐露宿,并不是什么需要被重视、发展的能力,所以也就无妨被顺带抛弃。抛弃时甚至不会想着,要不要捡回来珍念一下。

发言的人,日常的生活方式、和在其它维度的一些倾向,也符合我的预期。所以也只是大家对不同东西的权重不同吧。并没有否定对方的意思;只是这样的思路我第一次见,记录一下。

我喜欢

大概我们每个人,哪怕三观再正的人,应该都经历过:一些自己真的有在喜欢的东西,可能是「不正确」的,由此产生的内心冲突和纠结。

  • 喜欢的文学作品、武侠小说、网文……里面,充满了腐臭的男性气概;
  • 各种爱豆或综艺秀,有多少是女性凝视?
  • 喜欢看的马戏表演、宠物店、或者一些消费品,在虐待动物;
  • 喜欢吃的冰淇淋,厂商卖过毒奶粉;
  • 自己的一些性癖,或者心动的对象,是不是在「慕强」?

这个内心冲突的过程,可能会很难受,而且很可能没有确定的答案。——很多时候,是选择继续喜欢下去的,因为从「喜欢」变得「让自己不喜欢」,其实是个很玄学,很难做到的事情。于是只能喜欢且痛苦着,或者让自己把那些痛苦的思考,渐渐无视遗忘。

也可能,通过反思,真的能让自己对以前喜欢的东西祛魅,从此对它没啥感觉。——(其实很多时候,是被「反思成功」的成就感所掩盖……)。但失去了一个兴趣,也是很难受的事,尤其是周围还有很多人,仍然把这个当作兴趣,甚至是日常交流沟通的话题的时候。

也有很多时候,是脱离了二分法,就这么在二者之间悬浮着。因为那个「不正确」的事情,是否 100% 不正确,有没有好的一面,通常也是可以辩论的……以及,这个发现「不正确」的过程,可能是自己渐渐觉悟到,也可能是别人硬戳过来,说你喜欢这个不对。于是又涉及维护面子;或者先声讨对方的态度……

这些都是可以理解,可以接受的反应。——甚至连艰难地无视,也可以说是合理的。因为,如果避开那些「不正确」背后的,错综复杂到无法撼动的因素和体系,而单纯要求你拿出一个面面俱到的态度,这本身也是一种不公。


但至少不要——

因为「我真的喜欢」,所以理直气壮地认为这东西没有问题。

「我喜欢」,从来都不是「这个东西是正确的」的理由。一方面,你之所以喜欢它,可能已经是某种糟粕文化的后果。另一方面,同样的事物或行为,不同环境下人们对它的感受是不同的。就像跳脱衣舞或者买芭比娃娃,可能在你的环境下,它真的意味着个性、张扬、多样性;而对其它很多人而言,也确实是剥削、是凝视、是痛苦的印象。那么,这东西的合理性,是否因此对你就没那么理直气壮?

如今的很多争吵,大概都源于某种「我的个性自由不应被阻挡」的态度。但很多事情,是需要在微妙地平衡中,甚至是在让自我痛苦的过程中,才能更好形成的。


就像恋爱脑爱上了渣男。尽管会为此而痛苦、犹豫,最终可能选择爱或不爱,但毕竟是清楚他是个渣男的;而不是拼命要去说服他并不渣呀。

❌