Reading view

There are new articles available, click to refresh the page.

刚刚,GPT-5.1 正式发布,OpenAI 这次有点「不对劲」

刚刚,OpenAI 正式发布了 GPT-5.1,但这次有点不一样。

翻完整篇官方博客,我发现了一个特别有意思的细节:一张跑分对比图都没有。没有 benchmark 数据,没有「性能提升 XX%」,甚至连「更快更强」这种常规话术都少得可怜。

这不太像 OpenAI 了,直到我看到这句话:

「我们从用户那里清楚听到,优秀的 AI 不仅要聪明,还要让人跟它聊天很愉快。」

新版 GPT-5.1 为了让我们聊天更愉快,提供了八种风格预设 

新版本确实更聪明了——推理更严谨,代码写得更漂亮,但最值得一提的是,它终于像个人了,并且首次允许我们细致地「调教」它的聊天风格。

和 AI 聊天不再是那种一问一答的工具感,而是变得有梗、懂氛围、会接话茬,甚至能陪你有的没的扯上半天。

看来上次 GPT-5 口碑崩塌后,OpenAI 终于听劝,也第一次捅破了窗户纸,承认光刷榜没用,用户要的是能好好说话的 AI,实用和情绪价值全都要。

直接放上具体的使用时间和方式:更新到 GPT-5.1 后,我们的 ChatGPT 会默认切换到最新模型,而不需要专门选择。

  • 付费用户 (Pro, Plus, Go, Business): 从今天(11月12日)开始逐步推送。
  • 免费和未登录用户: 将在付费用户推送完毕后跟进。
  • 企业和教育版: 拥有 7 天的早鸟期切换开关(默认关闭),之后将统一升级。
  • API 开发者: GPT-5.1 Instant 和 GPT-5.1 Thinking 将在本周晚些时候上线 API。

更强大的 AI 内核

这次更新的核心,是 GPT-5.1 Instant 和 GPT-5.1 Thinking 两大模型的全线升级。

GPT-5.1 Instant:最常用的模型,变「暖」了

GPT-5.1 Instant 是 ChatGPT 中最常被调用的模型。这次,它变得更「温暖」、更健谈了。根据 OpenAI 的早期测试,它甚至会不时展现出一些顽皮,同时保持回答的清晰和实用。

而更关键的升级来自底层:

  1. 更听话: 它现在能更可靠地遵循我们的指令,准确回答我们真正想问的那个问题。
  2. 自适应推理 (Adaptive Reasoning): 这是 Instant 模型第一次引入该功能。这意味着它在遇到难题时,会智能地决定先思考一下,从而给出更彻底、更准确的答案;而面对简单问题时,它依然保持极速响应。

OpenAI 提到,这种进化在数学(AIME 2025)和编程(Codeforces)等专业评估测试集上,也有了明显的提高。

GPT-5.1 Thinking:更强的大脑,也更易懂了

作为更高级的推理模型,GPT-5.1 Thinking 也迎来了关键优化,变得更高效、更易用。

▲ GPT-5.1 思考在简单任务上花费的时间更少,在困难任务上花费的时间更多

  1. 效率提升: 它现在能更精准地分配思考时间,在复杂问题上花费更多时间(答案更透彻),在简单问题上响应更快(等待时间更短)。
  2. 更易懂(用户福音!): 它的回答现在更清晰,使用了更少的行业术语和未定义的词汇。这让我们在用它处理复杂工作或解释技术概念时,能毫不费力地看懂。
  3. 同样温暖:Thinking 模型的默认基调也变得更温暖、更富同理心。

用 OpenAI 应用 CEO Fidji Simo 的话来说,这次升级的核心是将 IQ(智商)和 EQ(情商)更好地结合起来。

模型在保持高智商的同时,即继续使用与推理模型相同的技术栈;还大幅提升了情商,ChatGPT 有了更自然的对话和同理心。

 

这能满足用户在不同场景下,都能得到相对应的个性化需求,像是谈论健康时需要同理心,写文案时需要直接。

此外,对大多数用户来说,我们也不需要在 Instant 和 Thinking 之间纠结。因为还有 GPT-5.1-Auto 会自动为我们分配到最合适的模型,这也是 GPT-5 发布时的一大亮点,即智能路由。

总之,最直观的感受就是,答案更智能,语气更自然。

打造专属于你的 ChatGPT

如果说模型升级是硬实力,那个性化体验的飞跃就是软实力,而这正是本次更新的另一大亮点。

OpenAI 的目标是,是让我们毫不费力地将 ChatGPT 的语气和风格,调整到最舒服的状态。

在原有的默认、友好、高效基础上,新增了三种官方风格。

  • Professional (专业): 适用于工作、写作等正式场合。
  • Candid (坦诚): 更直接,不拐弯抹角。
  • Quirky (古灵精怪): 顾名思义,它会变得更有趣、更跳脱。

之前测试版中的「书呆子」和「愤世嫉俗」选项也依然保留在个性化设置中。

除了这种直接选择,更丰富的基本风格和语调,OpenAI 正在实验一项新功能,允许用户直接从设置中微调 ChatGPT 的特征

我们可以精确控制回答的简洁度、热情度(多热情)、回答是否易于浏览 (Scannable)、甚至是使用 emoji 的频率。

如果不想麻烦的手动设置,当我们试图在对话中引导某种特定语气时,ChatGPT 可能还会主动领悟到,然后询问我们,是否希望将这种偏好保存到永久设置中,省去了手动调整的麻烦。

▲ 这也是奥特曼喜欢的功能

在 Fidji Simo 分享的博客里,她提到过去的自定义指令,并不总尽如人意。比如我们可以在自定义设置里,让 ChatGPT 不要用某个词,但它还是会用。

GPT-5.1 在风格化的另一大改进是,自定义指令现在能更可靠地,在多轮对话中坚持住,ChatGPT 可以更稳定地,按照我们定义的个性来完成各项任务。

有网友直接一句话总结,GPT-5.1 这次的更新,就是更创造性地忽略我们的提示词。

当然,AI 的风格化、拟人化,也有它的代价。一个更温暖、情商更高的 AI,也必须更安全,这也是 OpenAI 在最近被卷入 16 岁少年自杀案,必须回应的事情。

在 GPT-5.1 的模型介绍 System Card 里,介绍了 OpenAI 在这方面的深入考量。OpenAI 首次在模型的安全评估中加入了两个全新的、更人性化的维度。

  1. 心理健康(Mental Health): 评估 AI 如何应对用户可能表现出的孤立、妄想或躁狂等迹象。
  2. 情感依赖(Emotional Reliance): 评估 AI 的回应是否会助长用户对 ChatGPT 产生不健康的依赖或情感依恋。

在传统的安全评估上,GPT-5.1 Instant 表现出色,在抵御越狱(Jailbreaks)方面,比其前代 gpt-5-instant-oct3 更强。

但 OpenAI 也坦诚地指出,GPT-5.1 Thinking 在处理骚扰、仇恨言论等内容的基准测试中,相比前代略有回退;Instant 模型在情感依赖的某些评估中,也显示了轻微的倒退。

OpenAI 当然是说正致力于改进这些方面,然后提到了,他们选择透明的公开这种回退的现象,在 AI 快速迭代的当下,比单纯的零失误宣传,更值得大家关注。

也有网友分享很乐意看到,OpenAI 愿意在让我们与模型的对话更愉快这方面,去做出一些努力。

如果你今天打开 ChatGPT 没看到更新,别急,未来几天内就会轮到你,OpenAI 正在逐步推送到所有用户。

此外,为了避免像之前 GPT-5 发布,网友们都在呼吁 GPT-4o 的回归,这种尴尬再次出现。

OpenAI 这次提供了后悔药,付费用户在 3 个月内,也就是 GPT-5 的淘汰期,依然可以在设置的下拉菜单中,选择使用旧的 GPT-5 模型,以便能从从容容地过渡到 GPT-5.1。

▲ 现在还能使用 4o 等模型

GPT-5.1 是一次能力与体验齐头并进的重大更新。OpenAI 显然在告诉我们,AI 的未来不仅是更强的参数,和更高的跑分,更是更懂你的体验,和更贴心的交互。

但一个完美的助手,又应该是什么样的?

OpenAI 应用 CEO Fidji Simo 在她的文章中,有一个挺有意思的比喻,她说「如果我能完全控制我丈夫的特质,我可能会让他永远同意我,但很明显,这不是个好主意。」

最好的 AI 应该像我们生活中最优秀的人一样,他们倾听、适应,但也在必要时挑战我们,帮助我们成长

从一个无所不知的万能工具,到一个能懂你聊天脾气,甚至能帮你成长的专属伙伴,这也许就是 GPT-5.1 真正想开启的未来。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


GPT 5.1 披「马甲」公测,免费可用,杀入年底大更新战场

Gemini 3 还没影子,GPT 5.1 已经在路上。7 号深夜,OpenRouter 平台上线了一个全新的隐名模型。已经有眼尖动作快的网友尝鲜体验,并且认为这就是披着马甲的 GPT 5.1,暂名:Polaris Alpha。

目前提供 API 调用(包括 OpenRouter),知识库截止时间为 2024 年 10 月,不支持推理模式。最大 context 容量 256K,单次最大输出 128K。

开发商信息保密,但是在网友的不懈努力下,成功「越狱」,让 Polaris Alpha 自曝了家门。

▲ 图片来自 X 用户 @LarryAtherton1

这倒也算不上实锤,可能只是训练数据的问题——很多模型都会输出来自专有供应商的数据。除非系统提示中明确说明,或者通过指令调优反复灌输,否则这些模型实际上并不「知道」自己是什么。

无论如何,目前暂时没有官宣,暂且就还是叫它 Polaris 吧。APPSO 也第一时间简单试用了一下。由于是通过 API,部分功能比如处理语音素材暂时受限,除此之外,Polaris 的表现,让人相当期待 GPT 5.1。

案头工作:流畅,一如既往

首先是一些比较基础的简单任务:根据要求写邮件。这是一封道歉邮件,跟嘉宾通报活动改期。我特地强调了口吻要既饱含歉意,又表示亲近,让 Polaris 感受一下。

算是中规中矩吧,信息齐全,行文逻辑清楚,语气不会有强烈的「人机感」。比较神奇的是,在打开 Search 模式的前提下,Polaris 会去检索一些道歉信的写法,而它的引用信息里,居然有淘宝百科…… 看上去 Polaris 覆盖的信息源越来越多,也越来越冷门了。

然后是需要创意想法的文案写作任务,prompt 我都给得很模糊,只要求有网感,适合在小红书上传播。

Polaris 给出了三种不同的风格,给出的文案非常完整。后面还给出了活动具体执行的方案。从这里已经可以看出来,措辞上颇有 GPT 系会有的文字风格。也有网友专门做了相似性统计——马甲快要披不住了。

文字风格仍然是每一个大语言模型的立身之本,毕竟现在最主流的应用场景就是案头工作。2026 年都快要来了,还给出「人机味」的文字,是不能被原谅的。目前 Polaris 的文风,有相当典型的「GPT」风味,很多网友都有同样的感受。

同时,对于 chatbot、聊天、陪伴等应用场景里,文风能否快速适应用户节奏,并且灵活「习得」个性化的口吻,也将是 GPT5.1 面临的挑战——全球用户要求 4o 回来的盛况,OpenAI 应该不想再经历一次了吧。

由于不能直接处理音频文件,我上传了转录后的播客文字稿,让 Polaris 整理提炼信息点,适当调整口语化的地方,重点是:根据不同的主题维度,拉出一个层次明确的提纲,同时保留时间戳。

输入目前看来可以超过 1w 字(单条发送),受限于 OpenRouter 每个窗口只能保存八条记忆的限制,超长输入会一定程度的影响输出稳定性。不过自我纠正能力不错,第一次跑的时候生造了并不存在的时间戳,重抽一次之后自行纠正了。

自从 GPT 5 之后,ChatGPT 的单个窗口容量明显增大,从社交媒体上的反馈来看,最高的 token 总数可以去到 60 万-80 万才达到上限。这对于个性化用户信息而言是个非常好的信号,但不可避免的是,超长上下文额之后,会出现记忆调度的失序,以及输出稳定性的下降。

这留给了 GPT 5.1 全新的挑战,如何在进一步扩大窗口容量之后,依然保持灵活准确的记忆调度。对于用户而言,几乎是第一秒就能感受到的决定性体验。

编程:超简单,超顺滑

OpenRouter 提供几种基础的编程工作实现和预览。我快速用它测了一下 Polaris 写小游戏的本事。

最直观的感觉是时间稍微有点久,差不多要个五分钟了。不过倒是不需要我提供复杂的 prompt,「设计一个贪吃蛇游戏代码」,就足够生成一个可以上手的小游戏。

甚至还提供不同的模式、设置,在 preview 里的试玩都很顺畅。另外又让它跑了一个打地鼠游戏,也是顺利完成。

网页设计也很 OK,我把上面生成出来的咖啡馆文案,丢回给 Polaris,让它设计一个活动的落地页。

Polaris 研究了整个文案,并且加入了一些补充,最后出来的视觉效果也不错,我挺喜欢它给按钮设计的发光效果,这似乎是它的一个「独家特色」,在其他网友的测试中也出现了:

▲ 图片来自 X 用户

从网上的其它测试是来看,它的美学表现值得期待。

▲ 图片来自 X 用户 @HarshithLucky3

这些基础工作都没有太大的问题,但老实说,现在 AI 编程的赛道堪称白热化,而 GPT 系产品在编程上,竞争力一直不算很强。GPT 5.1 实装后,在编程上的表现能不能有大突破,只有继续等待才能知道。

前阵子 Sam Altman 明确发话表示,年底时 ChatGPT 将推行 NSFW 模式(成人模式),在目前的 Polaris 上,似乎已经看得到苗头了。

如果是这样,那 Polaris 是 GPT 5.1 的证据又多一条,尤其是考虑到最近 OpenAI 已经在小范围内做年龄验证,这并非全量行动,而是针对不确定实际年龄的用户做定向推送。

成人模式的争议很大,实际执行也并不如想象中简单,除了验证,还有隐私信息识别、储存等一系列麻烦。到底能不能有一个平衡多方诉求的解决方案,还得看真正的 GPT 5.1 如何应对。

眼瞧着年底又是一场血战,Gemini 3 早就放出风声(虽然一直跳票),Nano Banana 2 也突然冒头。更别提前阵子 Kimi K2 Thinking 的发布,收获了海内外一大波关注,训练成本仅为 460 万美元。

OpenAI 仍然有着惊人的支出,虽然也有着惊人的活跃用户群,但盈利还看不到苗头。在一系列又强又便宜的中国模型的狙击下,GPT 5.1 能达到期望吗?

快知道了,网传 11 月中就将发布,到时或许会有答案。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌