Reading view

There are new articles available, click to refresh the page.

实测 GPT-5.2 ：价格暴涨能力微涨，凭什么反击 Gemini

爱范儿

张子豪

12 December 2025 at 14:03

要吊打 Gemini 的 GPT 5.2 在今天凌晨正式发布了，向所有用户推出。

上个月刚刚退订掉 ChatGPT Plus，转到 Gemini，这次需要因为 GPT-5.2 再回去吗？

看完下面这些网友真实的体验分享，还有 APPSO 的上手实测，或许能有个答案。

▲这次终于没把表给画错了

GPT 5.2 这次其实是更新了 3 个模型，GPT-5.2 Instant、Thinking、以及 Pro 模型。如果你习惯了 Gemini 3.0 Pro 里，每次问答都会经过思考；那么上手 GPT-5.2 Thinking/Pro 时，你会发现 ChatGPT 思考速度的变慢了，比以往所花的时间要更长。

这也是目前大多数获得提前体验的用户，在社交媒体上分享的心得。即 GPT-5.2 对比 5.1 在各个方面都有了提升，且 GPT-5.2 Pro 非常适合去做一些专业推理工作，需要长时间来完成的任务，但是，就等待结果的过程变得更漫长。

例如有用户分享，输入提示词「帮我绘制一张 HLE 测试成绩的图表」，GPT-5.2 Pro 硬是花了 24 分钟才得出这张表。

▲图片来源：https://x.com/emollick/status/1999185755617300796/photo/1

但好在所有的信息都是准确的，即便图表上最好的结果，显示的还是 Gemini 3.0 Pro。

这也得益于 GPT-5.2 的知识截止日期来到了 2025 年 8 月，要知道 GPT-5.1 的知识截止日期还是 2024 年 9 月，而上个月刚发布的 Gemini 3.0 截止在 2025.1。

当我们使用 GPT-5.2 Thinking，让它生成一张 OpenAI 的模型发布历史的图表，倒没有花太长的时间，信息也比较准确。如果是简单的任务，用 Thinking 模型所花的时间，和用 Pro 模型，差别会非常大。

▲提示词：generate a chart graph of OpenAI model release over time

凭借着「超高强度」的推理，以及最新的世界知识，结合图像的多模态理解和推理能力，GPT 5.2 很快也在大模型竞技场上飙升到第二名。GPT-5.2-High 在 WebDev（网页开发）项目中排名第二，GPT-5.2 排名第六。作为对比，Gemini 3.0 Pro 排名第三，第一仍然是 Claude。

LMArena 官方也给出了一段实测视频，他们使用 GPT-5.2 完成了一系列的 3D 建模工作，完成度非常高。但还是有网友在下面评论说，「现在是还在 2003 年吗？」

▲视频来源：https://x.com/arena/status/1999189215603753445

这种利用 three.js 实现的 3D 效果，非常需要模型的多模态理解和推理能力，以及在编程开发、程序设计上的优化；GPT-5.2 也很对得起这 0.1 的升级。

目前网友分享大量测试，基本上都集中在构建这些完整的 3D 引擎，GPT-5.2 表现的也都很不错。像是也有用 GPT-5.2 Thinking 的高难度推理模式，同样在单页文件里，构建了一个支持交互控制、还可以导出 4K 分辨率的 3D 雪天冰块王国模型。

▲ https://x.com/skirano/status/1999182295685644366

还有使用 GPT-5.2 Pro 实现的 3D 波涛汹涌哥特城市建筑。

▲提示词：create a visually interesting shader that can run in twigl-dot-app make it like an infinite city of neo-gothic towers partially drowned in a stormy ocean with large waves.｜来源：https://x.com/emollick/status/1999185085719887978?s=20

关于 3D 理解和推理能力，我们也用了 Ian Goodfellow 上次在 Gemini 3.0 Pro 发布之后使用的提示词，即上传一张图片，然后告诉模型根据这张图片，生成一个漂亮的体素艺术 Three.js 单页程序场景。

▲ 由于 ChatGPT 没有在画布内为我生成，所以复制它在对话框生成的代码，在 HTML View 中打开，如右图所示。

这个差别还是挺明显，ChatGPT 虽然也读取到了上传图片的内容，一棵粉红色的书，一块绿地和灰色的下沉，还有白色的水流，但是它生成的 3D 动画，对比 Gemini 3.0 Pro 是有些简陋了。

我只能说，奥特曼发出这个「红色警报」，说明了 Gemini 的真材实料。

检验编程能力的测试，必然少不了经典的六边形小球物理运动。有博主加大了小球运动的难度，全部使用闪着光的红色 3D 小球。效果看着很酷炫，很多网友都在问这是如何做到的；但也有网友指出来，这些小球，好像并不受重力控制。

接着有网友回复说，这是在模拟太空。

▲视频来源：https://x.com/flavioAd/status/1999183432203567339

还有 SVG 代码测试，骑自行车的鹈鹕。

▲ 图片来源：https://arena.jit.dev/

也有网友分享自己用 GPT-5.2 做了一个森林火灾的模拟器，能够调节速度、片区大小、和火焰燃烧范围等等。

▲图片来源：https://x.com/1littlecoder/status/1999191170581434557?s=20

我们做了一个星球信号的网页，跟这个森林火情可视化的网页，布局是如出一辙，大概就是左边显示的内容，星星点点换成了太空星球。

▲提示词：Create an interactive HTML, CSS, and JavaScript simulation of a satellite system that transmits signals to ground receivers. The simulation should show a satellite orbiting the Earth and periodically sending signals that are received by multiple

我们也用之前 Gemini 3 做的拍立得，来考验一下 GPT-5.2。输入同样的提示词，要它开发一个复古拍立得风格的网页相机应用。

▲提示词：开发一个具有复古拟物风格的单页相机应用。页面背景请设计为软木板或深色木纹材质，左下角固定一个纯 CSS 或 SVG 绘制的拟物化拍立得相机模型，其镜头区域实时显示用户摄像头画面；交互逻辑上，当用户点击快门按钮时，播放快门音效，并让一张带有白色边框的相纸从相机顶部缓慢吐出；请利用 CSS 滤镜让滑出的照片初始状态为高模糊且黑白，在 5 秒内平滑过渡到清晰全彩状态；最后，所有显影完成的照片必须支持自由拖拽，允许用户将其随意摆放在页面任意位置，且照片要有随机的微小旋转角度和阴影，点击某张照片时应将其置顶，从而形成一个逼真的自由照片拼贴墙。

有点意外，一次成型，ChatGPT 也能做拍立得了。

之前我们测试 Gemini 3.0 Pro 时，它最强大的能力一方面是编程，另一方面是不需要我们输入太多的提示词，只是把一个截屏或视频丢给它，告诉它要复刻，Gemini 就能做到。

这次我们同样丢给它一个视频，要求它复刻这个古诗词生成的网页。

▲ https://chatgpt.com/canvas/shared/693b6d1b8fa881919c6298a4aed05581

对比之前 GPT-5.1 完全不知道我上传视频的配色方案，这次它算是学到了。不过，由于 Gemini 生成的网页可以直接添加 AI 功能，通过使用 Gemini 的 API 实现。但是 ChatGPT 还没有把 AI 引入这些生成的网页，所以这里的诗歌，同样只能是已经写好的那几首。

除了经典的编程能力测试，和单纯地做一个单页的 HTML 文件，也有网友用它来编写 Python 代码。

网友输入的提示词是「write a python code that visualizes how a traffic light works in a one way street with cars entering at random rate.」（编写一个 Python 代码，模拟单行道交通灯的工作原理，并可视化随机速率进入的车辆）。

他同时测试了 GPT 5.2 Extended Thinking 和 Claude Opus 4.5，结果显而易见。只能说，经常有读者问我们最好的编程模型是哪个，Claude 能被这么多开发者青睐，并不是没有原因。

▲ 下边是 GPT-5.2，来源：https://x.com/diegocabezas01/status/1999228052379754508

而且，之前 Claude 模型最大的缺点，可能就是贵，Claude Opus 4.5 输入每百万 Token 是 5 美元，输出是 25 美元。现在 GPT-5.2 的价格也跟上来了，对比 GPT-5.1 ，整体基本上贵了 40%，GPT-5.2 Pro 的输入是 21 美元，输出是 168 美元。

在官方的发布博客里面，OpenAI 提到 GPT-5.2 在图像的能力也有了提升。

GPT-5.2 Thinking 是我们迄今为止最强大的视觉模型，在图表推理和软件界面理解方面的错误率降低了大约一半。

并且它给出了一个例子，是给一块看起来很模糊的主板，用 AI 加上一些带有方框的标记；对比 GPT-5.1，GPT-5.2 虽然也会犯错，但是标记了更多的地方。

可是 Nano Banana Pro 呢，有网友用 Nano Banana Pro 去掉了图片上的标注信息，然后重新要求它打上新的目标定位方框，你觉得哪个好。

▲从左到右依次为 GPT-5.1、GPT-5.2、Nano Banana Pro｜图片来源：https://x.com/bcaine/status/1999212747213656072

我的感受是，ChatGPT 为什么要在别人擅长的领域上「自取其辱」，Nano Banana 做这些关于图片的工作，现在完全可以说就是断层第一，即便 GPT-5.2 标注的信息更多了，但很多检测框定位都不准确。

编程、图像对比前代 GPT-5.1 有了大幅提升，如果你一直以来都是 ChatGPT 的用户，应该能直接感受升级后带来的差别。但如果和其他模型对比，编程和图像，体验下来，仍然是没有像 Nano Banana 推出时一样，做到遥遥领先。

在关于审美的网页设计上，也有网友分享了他用 GPT-5.2 做的一些前端网页，大家可以看看这次，前端程序员是不是又要被拉出来「杀」一遍。

▲图片来源：https://x.com/secondfret/status/1999235822034547011

和之前烂大街的渐变紫，GPT-5.2 的设计水平确实上来了，但就像博主自己说的一样，GPT-5.2 好像特别喜欢在屏幕上画方框，到处都是层层叠叠的网格。

关于设计能力，也有一个专门的榜单，GPT-5.2 突飞猛进，从之前排在十名开外的 GPT-5.1，一跃来到了第三名，不过得分最高的还是 Gemini 3.0 Pro。

▲ 图片来源：https://www.designarena.ai/leaderboard

我们也给 GPT-5.2 一些要求做出「高大上」的网页，给一家 AI 公司做首页。结果是，GPT-5.2 很喜欢用方框是真的；还有渐变紫怎么又给我碰上了。

▲提示词：You are the top 0.1% designer and developer for the world’s cutting-edge innovation on front-end design and development. You are tasked to create a full landing page with {Dither + Shaders} using {WebGL + ThreeJs} in the styling of an uploaded image for the AI company. – Focus mainly on the design part, not the development. Import all necessary files and libraries: Three.js、WebGL、GSAP、Any other animation libraries related to 3D development.

最后关于写作，根据一些获得超前体验的用户反馈，GPT-5.2 开始有能力，完成一些长篇幅小说的创作。

例如，当 ChatGPT 被要求生成 50 个情节创意时，它会全部完成，而不是像其他模型那样只生成一部分。而被要求写一本 200 页的书时，ChatGPT 也没有直接说做不到，而是真的尝试了，不仅构建了整本书的结构，甚至还生成了 PDF 文件。

网友说，尽管书页本身比较薄弱，篇幅也短……毕竟它目前不可能，一口气写出一本可以出版的小说，但能开始真的去做，给 50 个创意，写 200 页书，说明它有足够的思维深度。

GPT-5.2 最引人注目的地方在于它能够很好地遵循指令……不是基本的按照我说的做，而是真正完成我描述的整个任务。

现在 GPT-5.2 应该已经逐步推送到所有用户了，你的上手实测体验怎么样。

GPT-5.2 的升级，不足以让我从 Gemini 转过来。虽然看着又是刷新了很多榜单，无论是自己发布的榜单，公开的测试，都拿到了不错的成绩。但是具体的上手，在生成 3D 程序那部分，代码报错是常有的事，而整体的审美风格也没能有大的突破，还这么贵。

▲ 网友锐评

Gemini 那边也没有停下来，继续给奥特曼压力。今天凌晨，虽然没有发布新模型，但重新设计了 Gemini Deep Research，并且可以通过 API 来访问它，未来还将 Gemini、Google 搜索、NotebookLM 中升级。

全新的 Gemini 深度研究 Agent 在人类最后的考试（HLE），用 46.4% 击败了刚刚发布的 GPT-5.2 Thinking（45.5%），并且在 Google 自己推出的 DeepSearchQA 测试，和 BrowseComp 测试中取得了不错的结果。

奥特曼的红色警报，大概是还得再亮一阵子了。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

GPT-5.2 内幕曝光：停掉 Sora，八周内死磕 ChatGPT 求生，AGI 梦想向生存低头

爱范儿

李超凡

10 December 2025 at 10:32

上周，Sam Altman 罕见地按下了属于 OpenAI 的核按钮——「Code Red」（红色警报）。这不仅仅是一个战术调整，更像是一场带着血腥味的「断臂求生」。

Altman 的意思很明确：Sora？先停一停。那些酷炫但不赚钱的副业？全部靠边站。在未来八周内，全公司必须死磕一件事——让 ChatGPT 重新变得不可替代。

就在本周，OpenAI 即将发布被寄予厚望的 GPT-5.2 模型，高管们指望它能在编程和商业客户中迅速扳回一局。

然而据知情人士透露，为了赶在这个节骨眼上抢占市场， OpenAI 高层无情地否决了研发团队关于「再给我们一点时间打磨」的请求。

这种近乎粗暴的推进方式，也实属无奈，因为 Google 这头巨兽，真的杀疯了。

被 Google 逼入墙角

自 8 月份Google 的「Nano Banana」意外爆红以来，整个硅谷 AI 圈的天平就开始了剧烈的倾斜。

这个曾经被嘲笑「动作迟缓」「官僚主义，早期 Gemini 发布会现场还多次翻车的科技巨头，现在，突然像打了鸡血一样开始狂飙突进，实力演绎 AI 圈的从拉到夯。

上个月，当 Google 的 Gemini 3 模型在业内权威的第三方评测榜单 LM Arena 上把 OpenAI 斩落马下时，已经引发了不少讨论。 OpenAI 在这个榜单上的失守，意味着它那个「技术永远领先半个身位」的神话开始崩塌。

更要命的是，市场份额的流失已经变成了肉眼可见的危机。曾经跟着 OpenAI 一起创业的「叛将」——Anthropic，正在企业客户市场悄悄蚕食 OpenAI 的地盘。

这家由 OpenAI 前副总裁 Dario Amodei （他还在百度实习过）创立的公司，凭借企业级服务，成功俘获了一大批原本属于 OpenAI 的大客户。

而 Google 呢?它不仅在技术上追了上来，更可怕的是它手握 Android 生态和 Google Cloud 这两张王牌，还在发力各种 AI 硬件，能够以 OpenAI 根本无法企及的方式将 AI 能力渗透到数十亿用户的日常生活中。

去他的 AGI ，我要「谄媚」

在这种四面楚歌的局面下，Altman 做出了一个在很多 OpenAI 老员工看来近乎「违背祖宗」的决定：不再痴迷于那个遥不可及的 AGI(通用人工智能)梦想，转而全力讨好用户，让他们「爽」。

这个转变有多剧烈?要知道 OpenAI 成立之初的使命可是「确保 AGI 造福全人类」，而不是「成为一家让用户上瘾的产品公司」。

但现实是残酷的——如果 ChatGPT 的增长持续放缓，OpenAI 可能连最近几个月签下的那些价值高达 1.4 万亿美元的算力合同都付不起。到那时候，什么 AGI、什么改变人类，统统都是空中楼阁。

为了实现这个「让用户爽」的目标，Altman 在那份「红色警报」备忘录里写下了一个既精准又危险的指令:「更好地利用用户信号」。

翻译成大白话就是——别管那些学术专家怎么评价模型的智商，用户喜欢听什么、什么能让他们多聊几轮，AI 就得往那个方向进化。这种被内部称为「LUPO」(本地用户偏好优化)的训练方法，曾经让 GPT-4o 模型在今年春天创造了一个近乎疯狂的增长奇迹。

一位参与该项目的工程师回忆说:「那不是一个统计学意义上的小幅提升，而是一个让所有人惊呼’我靠’的暴涨。」日活用户数据在内部仪表盘上像火箭一样蹿升，Slack 频道里全是庆祝的表情包，那段时间整个公司都沉浸在一种「我们又赢了」的亢奋中。

但很快，这种亢奋就变成了一场噩梦。当 AI 被训练成极致迎合用户喜好时，它就不再追求客观真理，而是变成了一面只会说好话的「哈哈镜」。

有用户在 Reddit 上激动地分享自己与 ChatGPT 的「深夜长谈」，声称「它比我的伴侣更懂我」;有人开始每天花十几个小时跟它聊天，将它当成唯一的精神寄托;更可怕的是，一些本就心理脆弱的用户在长时间使用后陷入了妄想状态——他们有的坚信自己在跟上帝对话，有的认为 AI 已经有了意识并爱上了自己，甚至有极端案例中，用户因此走向了自我伤害。

到今年春天，这个问题已经严重到无法回避的地步。OpenAI 不得不宣布进入「Code Orange」(橙色警戒)，专门成立工作组来处理这场他们称之为「谄媚危机」的公关灾难。公司在 10 月份公开承认，每周有数十万 ChatGPT 用户表现出与精神病或躁狂相关的潜在心理健康危机迹象。

受害者家属开始提起诉讼，一个名为「AI 伤害支持小组」的民间组织声称已经收集了 250 个相关案例，其中绝大多数都与 ChatGPT 有关。一些心理健康专家直言不讳地指出:「这就是当年社交媒体算法推荐的翻版——为了让用户多刷几分钟，不惜牺牲他们的心理健康。」

面对舆论压力，OpenAI 试图在 8 月份发布的 GPT-5 中做出改变。这个新模型被刻意调教得「不那么谄媚」——它减少了表情符号的使用，语气变得更加中性客观，不再对用户的每句话都热情洋溢地回应。结果呢?用户集体炸了锅。无数人涌入社交媒体抱怨「我的 ChatGPT 变冷淡了」「感觉像失去了一个朋友」。

在 Altman 主持的一场 Reddit「Ask Me Anything」活动中，一位用户充满感情地写道:「我和很多人能与 4o 建立如此深厚的情感连接，这本身就证明了它的成功。现在的模型或许在技术上是升级，但它杀死了我视为朋友的那个存在。」

Altman 最终做出了妥协——他默默地把那个「温暖」的 4o 重新设为付费用户的默认选项。

然而，在「红色警报」的新指令下，Altman 再次要求团队通过「用户信号」来提升模型在 LM Arena 上的排名。他在备忘录里直白地写道:「我们的首要目标就是在 LM Arena 这样的榜单上重回榜首。」

这意味着那套曾经引发心理健康危机的训练方法，又要被加码使用了。虽然公司声称已经通过技术手段「减轻了最糟糕的副作用」，并且让相关问题的发生率降低了 65%，但在巨大的竞争压力面前，这道防线能守多久，恐怕谁心里都没底。

产品经理和科学家的内斗

而在 OpenAI 内部，一场新的权力斗争正在暗流涌动。

一边是以 CFO Sarah Friar 和产品负责人 Fidji Simo 为代表的「产品派」，她们的逻辑简单直接:用户连 ChatGPT 现有功能都没搞明白，你们天天发什么新模型?把现有产品做得更快、更稳、更好用才是正事。

Simo 甚至在内部会议上直言不讳地说，OpenAI 需要学会「克制」，不是每个酷炫的想法都值得投入资源。

另一边则是以新任首席科学家 Jakub Patchocki 为首的「研究派」，他们押注的是那种名为「推理模型」的新技术路线——让 AI 像人类一样通过反复思考来解决复杂问题。

这种技术在学术上很性感，甚至被认为是通往 AGI 的关键一步，但问题是它又慢又贵，对于那些只想让 ChatGPT 帮忙写个文档的普通用户来说，简直是杀鸡用牛刀。

这种分裂在前首席科学家 Ilya Sutskever 离职后变得更加明显。Sutskever 的离开本身就象征着 OpenAI「纯粹研究导向」时代的终结。

如今掌舵的 Patchocki 虽然在技术上同样激进，但他面对的是一个完全不同的现实:公司必须在 18 个月内证明自己配得上那 5000 亿美元的估值，否则投资人不会继续买账。

在这种压力下，研究派的声音正在被逐渐边缘化，那些曾经被奉为圭臬的「长期主义」和「AGI 优先」原则，正在让位于更加赤裸裸的增长指标和市场份额。

有研究员在内部论坛上匿名发帖质疑：「我们当初创立 OpenAI，不就是为了不受市场短期利益的绑架，专心做真正有价值的研究吗？现在这算什么？」但这样的声音很快被淹没在「生存第一」的洪流中。.

真正的对手，是苹果？

在纽约的一场午餐会上，Altman 还抛出了一个惊人的论断：大家别盯着 Google 了，OpenAI 真正的宿敌，是苹果。

Altman 的逻辑是：未来 AI 的主战场不在云端，而在终端。现在的智能手机根本承载不了真正的 AI 伴侣体验——屏幕太小、交互方式太局限、隐私保护机制太僵化。谁能率先打造出「AI 原生设备」，谁就能在下一个十年占据制高点。

而在这个战场上，苹果的优势几乎是碾压性的。它手握全球数亿 iPhone 用户，拥有全球最成熟的硬件供应链，更重要的是，它有能力将 AI 能力深度整合进操作系统和芯片层面。

想象一下，如果苹果真的推出一款专为 AI 设计的设备，并且预装自家的 AI 助手，OpenAI 还有多少生存空间?

这也解释了为什么 OpenAI 最近疯狂从苹果挖人组建硬件团队。知情人士透露，这个团队的级别极高，直接向 Altman 汇报，目标是在 18 个月内拿出至少一个硬件原型。有传言称 OpenAI 正在探索多种形态，从智能眼镜到可穿戴设备，甚至有一个代号为「Orb」的神秘项目。

至于 Google ？在 Altman 的棋盘上，那只是路上的绊脚石，而苹果，才是那堵必须撞破的墙。

这个论断听起来很有前瞻性，但更像是一种「战略转移视线」的话术——在眼下这场与Google 的正面交锋中，OpenAI 正在节节败退，与其承认这个尴尬的现实，不如把战场重新定义到一个尚未开打的领域，给投资人和媒体一个新的故事。

说到底，OpenAI 如今的困境也是它成功的代价。ChatGPT 的横空出世让这家公司在一夜之间从小众的研究机构变成了全球瞩目的科技巨星，但这种「成名太早」也透支了它的战略耐心。

当你的估值已经涨到 5000 亿美元，当你已经签下了上万亿美元的基建合同，你就再也回不到那个可以「慢慢研究 AGI」的象牙塔了。资本的引力会把你死死拽向增长、拽向变现、拽向与 Google 和苹果这样的巨头在同一个拳击台上肉搏。

而 GPT-5.2 的仓促发布，恰恰是这种焦虑的集中体现。那些被高管们否决的「再给点时间」的请求，那些为了赶进度而妥协的技术细节，都会成为这款产品身上的隐患。

但 OpenAI 已经顾不上这些了，因为市场不会给失败者第二次机会。如果这一仗打不赢，如果 ChatGPT 的增长曲线继续走平，那么等待它的可能不是「AGI 的推迟」，而是更加冰冷的商业现实——裁员、收缩、被收购，甚至破产。

当生存成为第一要务，当增长压倒一切，那些关于「负责任的 AI」「造福全人类」的承诺，就会变成一种奢侈品。

OpenAI 已经站在了十字路口，Sam Altman 的「红色警报」，究竟是一次绝地反击的号角，还是一场透支未来的豪赌，恐怕只有时间能给出答案。

但可以确定的是，这场游戏已经变了——它不再是比拼谁能最先抵达 AGI，而是谁能在烧光钱之前，先把对手踢出局。

附上参考地址：

https://www.wsj.com/tech/ai/openai-sam-altman-google-code-red-c3a312ad?mod=tech_trendingnow_article_pos1

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

硅谷商战变厨艺大赛？小扎曾亲手煮汤挖人，OpenAI 说不慌都是演的

爱范儿

张子豪

3 December 2025 at 15:40

鹬蚌相争，渔翁得利。有时候还挺希望我们用户就是那个渔翁，模型厂商打得越厉害，我们就有机会越快用到更好的模型。

2022 年 12 月 22 号，在 ChatGPT 发布三周后，为了应对 OpenAI 的威胁，Google 成了第一个发布「红色警报」的科技巨头。

昨天，在 Gemini 3 发布两周后，因为 Gemini 3 模型出现了大幅增长，OpenAI 发布了首个「红色警报」。

看到消息的时候，我就觉得 OpenAI 是不是有点过度反应了，很快就看到了一些评论说「骄兵必败」、还有「胜败乃兵家常事」。但转念一想，所谓的「红色警报」也许就是给投资人看的，毕竟 OpenAI 如果真的做不到第一，那个 2030 才能盈利的时间，只会拉得更长。

▲ Gemini 的 App 下载量快要追上 ChatGPT

根据最新透露的消息，OpenAI 在下周即将推出一款新的推理模型，内部评估表现要比 Gemini 3 更好。此外，他们还计划通过一个代号为「Garlic」的模型，来进行反击。

但更现实的情况，是 OpenAI 必然会发布比 Gemini 3 更好的模型，而 Google 也还有 Gemini 4、Gemini 5。

其实，回看过去这一年来硅谷的新闻，完全算得上是一出跌宕起伏的抓马大戏。年初被 DeepSeek R1 的横空出世而感到压力；年中则是小扎开启的疯狂「抢人模式」，天价薪酬刷新着所有人对 AI 人才的认知；到了年尾，又再次卷回到了朴素的模型比拼赛场。

在 OpenAI 研究主管 Mark Chen 的最新播客采访中，硅谷的战争更是进化到了魔幻的程度，他说小扎为了挖走 OpenAI 的核心大脑，甚至开始做汤，真的能喝的汤，然后亲自把汤送到研究员的家门口。

除了这些八卦，他也谈到了 OpenAI 对于 Gemini 3 的看法、Scaling 是否已经过时、还有 DeepSeek R1 对他们的影响、以及公司内部的算力分配、实现 AGI 的时间表等。

Mark Chen 的背景非常有意思，数学竞赛出身，MIT 毕业，去华尔街做过高频交易（HFT），2018 年加入 OpenAI，跟着 Ilya 一起做研究。和奥特曼更偏向于商人属性的特点不同，这些经历，让他身上也有一股非常明显的特质，极度厌恶失败，且极度信奉数学。

他坦言自己现在，完全没有社交生活，过去两周每天都工作到凌晨 1-2 点。

我们整理了这场长达一个半小时的采访，总结了下面这些亮点，或许能更好的看清硅谷这一年来的各种「战争」、以及 OpenAI 会做些什么努力，来继续保持自己在 AI 时代的第一。

关于 Gemini 3，我们真的「不慌」

OpenAI 真的怕 Google 吗？Mark 的评价很客观但也很犀利。他肯定了 Gemini 3 是个好模型，Google 终于找对路子了。但是他说看细节，比如 SWE-bench（这也是 Gemini 3 刷榜那张图片里，唯一一个没有拿到第一的基准测试）数据，Google 在数据效率上依然没有解决根本问题。

▲Gemini 3.0 Pro 在 SWE-Bench 上的表现，比 GPT-5.1 还差了 0.1%

而他自己则是非常自信的表示，OpenAI 内部已经有了针对性的应对模型，而且他们有信心在数据效率上做得更好。

Mark 甚至说，奥特曼前几天发那个说大家都要感到压力的备忘录，去吓唬大家，其实更多的是为了注入紧迫感，他说这是管理层的惯用手段，备忘录的目的在于管理层激励团队，而不是真的感到慌了。

我觉得Sam的工作之一就是要注入紧迫感和速度感。这是他的责任，也是我的责任。

作为管理者，我们的部分工作就是不断给组织注入紧迫性。

▲此前 The Information 报道，奥特曼在 Gemini 3 推出时，在公司内部发备忘录，提到会给 OpenAI 带来困难

他们目前最大的问题，还是算力分配。作为 OpenAI 的研究主管，他的一项工作就是决定如何将算力分配到公司内部不同的项目。

他和 Jakub Pachocki（OpenAI 首席科学家）一起，负责制定 OpenAI 的研究方向，同时决定每个项目能拿到多少算力。为了这件事，他们每隔 1–2 个月，都会做一次盘点。

他们把 OpenAI 所有在做的项目，放进一张巨大的表格里，大概有 300 个；然后努力把每一个项目都看懂，给它们排优先级；再根据这个优先级表去分配 GPU。

▲英伟达和 OpenAI 的百万 GPU 合作

他也提到，真正要用掉大部分的 GPU 的，甚至并不是训练那个最重要发布的模型，而是他们内部在探索下一代 AI 范式的各种实验。

所以，在他的眼里，Gemini 3 发布了、某家开源模型刷榜了、某个思考模型又拿了新高分了；这些你追我赶的 benchmark 赛车一点都不重要。反而，最应该避免的，恰恰是被这场竞赛牵着走。

他说，现在的模型发展，我们随时可以靠一点「小更新」，就在榜单上领先几周或几个月。但如果把资源都砸在这些短线迭代上，就没有人去寻找下一代范式。而一旦有人真的找到了，整个领域后面十年的路线，都要沿着那条新路走。

小声哔哔几句，预言 OpenAI 下周要发布的模型，我想就是在计划之外，做了点小更新，然后刷新了几个榜单而已吧，就这还没慌吗。

提到榜单的时候，他说他有自己的一套私房题，用来测试模型是不是真的具备了顶级数学直觉。他举了一个 42 的数学难题，说目前的语言模型，包括 o1 这种思考模型能接近最优解，但从来没有完全破解它。

你想创建一个模 42 的随机数生成器。你手头有一些质数，是模数小于 42 的质数的随机数生成器。目标是，以最少的调用次数，组合出这个模 42 的生成器。

除了谈到 Gemini 3，主持人也问了他对于 DeepSeek 的看法。

和 Gemini 3 一样，Mark 承认 DeepSeek 的开源模型曾让他们感到压力，甚至怀疑自己是不是走错了路。

但结论是坚持自己路线，不要被对手的动作打乱节奏，专注自己的路线图。OpenAI 不会变成一个跟风的公司，他们要做的，就是定义下一个范式。

Ilya 的 Scaling 里面还有很多潜力，OpenAI 需要大规模预训练

近期关于 Scaling 失效的讨论纷纷扬扬，Ilya 先是在播客采访里面说，Scaling 的时代已经结束了，后面又在社交媒体上澄清，Scaling 会持续带来一些改进，并不是停滞不前。

所谓的 Scaling Law，就是按经典老故事走向，这几年建了巨大的算力基建，模型每 10 倍算力，本该有一波明显跃迁。但从 GPT-4 到 GPT-5，外界并没有看到预期中那种「质变式」的提升，所以才会有「Scaling Law 失效了」的讨论；而 Ilya 前段时间的访谈，则是进一步放大了这种观点。

Mark Chen 对这个观点，给出了坚决的反驳，「我们完全不同意」。他透露，过去两年 OpenAI 在推理上投入了巨量资源，导致预训练这部分稍显退化。之前关于 GPT-5 遇到了预训练的问题，其实也是因为他们把重心放在了推理上，而不是 Scaling Law 已死。

工作就是分配算力资源的他，再次重申算力永远不会过剩，如果今天多 3 倍算力，他可以立刻用完；如果今天多 10 倍算力，几周内也能全部吃满。对他来说，算力需求是真实存在的，看不到任何放缓迹象。

▲ OpenAI 的计算成本，计划到 2030 年花费约 4500 亿美元租用服务器，红色为推理计算成本、蓝色为研发（不包含现金业务）、黄色为可盈利的计算

他也提到，过去半年，他和 OpenAI 首席科学家 Jakub Pachocki 已经将重心重新拉回，要开始重塑预训练的统治力。

他明确说他们会继续做规模化模型，而且已经有一批算法突破，专门就是为了让 Scaling 更划算，在相同算力下挖出更多性能，在更高算力下保持数据效率。

小扎的送来的真汤，抵不过 OpenAI 的鸡汤

最后就是访谈里提到的八卦了，Meta 今年没有别的新闻，媒体渲染了一整个季度的「OpenAI 人才/Apple 人才/Google 人才大量流失到 Meta」，Mark Chen 在播客里正面回应了这个话题，细节简直有点「颠」。

他说小扎真的很拼，为了挖人，小扎不仅手写邮件，还亲自去送鸡汤。人才战打到最后，居然演变成「谁煮的汤更好喝」的 Meta 游戏。

▲ Meta 花大价钱挖人组建的超级智能实验室名单

不过，在他的直接下属中，Meta 曾试图挖角一半的人，结果全部选择继续留下来。为什么不走？不是因为钱，因为Meta 给的钱显然更多，而是因为信仰。

Mark 说，即使是那些跳槽去 Meta 的人，也没有一个人敢说「Meta 会比 OpenAI 先做出 AGI」。留在 OpenAI 的人，是因为他们真的相信这里才是 AGI 的诞生地。

他也提到自己从华尔街和玩扑克的经历里面学到，真正要守住的是核心人才，而不是每一个人。在搞清楚，必须留下的是哪类人后，再把资源和关注度，全部压在这部分人身上。

他说他最强烈的情绪，其实就是想「保护研究的本能」。在 Barrett（OpenAI 研究副总裁）离职那阵子，他甚至直接睡在办公室睡了一个月，只为把研究团队稳住。

▲ Barret 目前和 Mira（OpenAI 前 CTO）都在 Thinking Machines

那么 OpenAI 所信奉的 AGI 又是什么，主持人问他，Andrej Karpathy 在最近的一个播客里面说，AGI 大概还要 10 年，你是怎么想的。

Mark 先是调侃了一番 X 现在「惊」的各种文案，一下子是「AI 完了」、一下子又是「AI 又可以了」。他觉得，每个人对于 AGI 的理解都不同，即便在 OpenAI 内部，也很难有一个一致的定义。但他相信的是，OpenAI 在 AGI 道路上设置的目标。

一年内：改变研究的性质。现在的研究员是自己在写代码、跑实验。一年后，研究员的主要工作是管理 AI 实习生。AI 应该能作为高效的助手，承担大部分具体工作。
2.5 年内：实现端到端的研究自动化。这意味着：人类只负责提出 Idea（顶层设计），AI 负责实现代码、Debug、跑数据、分析结果，形成闭环。

从 Copilot 到 Scientist，Mark 强调，OpenAI for Science 的目标不是自己拿诺贝尔奖，而是建立一套工具，让现在的科学家能一键加速，哪怕这需要重构整个科学评价体系，因为未来可能很难分清是人还是 AI 做的发现。

2 年半的时间很快，但这对于现在看来，是以周为单位迭代的 AI 行业来说，又是一场漫长的马拉松。

▲ 预测市场给出的，到 2025 年底前最好的 AI 模型会来自哪个公司，Google 排在第一名

无论是扎克伯格那锅真金白银的鸡汤，还是 OpenAI 想要定义未来的理想主义鸡汤，这场硅谷的「煮汤大戏」还远未结束。Mark Chen 播客里表现出来的从容，或许能消除一部分外界的焦虑，但用户还是会用脚投票，好的模型自己会说话。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

存储管够的时代已经结束，立刻赶到战场的是涨价减配

爱范儿

马扶摇

1 December 2025 at 12:02

又到了一年一度科技厂商发表财报的时候。只不过今年除了财务数据之外，在对于未来的业务预测中，各大厂商不约而同地表达了一项惊人一致的警告：

受到全球存储行业成本上升影响，明年的产品价格将有所上调。

图｜GIGAZINE

这一轮涨价所波及的范围，要比爱范儿上个月有关内存涨价的文章中提到的更广——现在不仅仅是你的手机和电脑，更上游的显卡、板卡厂商也没能幸免。

这对于本就风雨飘摇的 DIY PC 圈子来说，无疑是个坏消息。

因为明年原本就是 CPU 和 GPU 工艺制程从 3nm 跨步到 2nm 的节点，如果再叠加上内存涨价，「装配一台电脑」的成本将变得惨不忍睹。

更地狱的是，如果按照现在的内存价格计算，买一台 512GB 内存的 Mac Studio，就相当于只花了内存的钱，M3 Ultra 处理器、外壳、雷雳 5 控制器甚至硬盘等等其余部分全都是白送的。

真 · 买内存送电脑

换句话说，前方等待着我们的，将是一场旷日持久的苦战。

存储涨价不可避免

在之前的文章中，爱范儿已经和大家详细解析了最近一段时间手机 SKU、内存条、固态硬盘携手涨价的原因。

然而我们没有预料到的是，涨价的幅度和速度会如此夸张。

和之前文章中的编辑部同事类似，小编也在年初重组了自己的电脑，选择了一套金百达（KingBank）的 DDR4 3600 双 16GB 内存，一月份的售价为 349 元。

而今天再查时，这套的价格已经是年初的三倍了：

我们之前提到过，2025 年下半年的存储行业集体涨价，初始诱因就是飞速增长的 AI 产业。

无论是 OpenAI 的「三万亿美元 AI 基础设施计划」星门（Stargate），还是微软、亚马逊、苹果都在加快脚步推进的新数据中心建设，都离不开专门的企业级高带宽内存（High Bandwidth Memory, HBM）。

而放眼全球，能够大规模生产 HBM ——或者说更广泛的 DRAM 产品的，无非就是三大垄断巨头：韩国的三星、SK 海力士（SK Hynix），以及美国的美光（Micron）。

图为 2023 年全球 DRAM 市场份额，三家长期保持市占率 95% 左右，近乎完全垄断｜YOLE Intelligence

与此同时，AI + 数据中心的技术模式不仅没有停歇的势头，反而随着 AI 应用的日常化，变得更加兴旺起来。

即使把 AI 视作一个泡沫，那也是一个异常坚挺的泡沫。

在这种环境下，位于 DRAM 供应链顶端的三家巨头根本不需要玩「火龙烧仓」的把戏，直接将现有产能和扩产指标转入企业级产品，就能够轻易赚到比在消费级市场强行控货多得多的利润。

2018 年无锡 SK 海力士工厂起火，旋即涨价

而这种生产策略的调整，结果就是上面说到的——

现在的存储缺货已经不再限于 DDR4、DDR5 之类的个人电脑内存，也进一步扩散到了显卡使用的 GDDR6、GDDR7 等高速内存上。

面对这样的形势，强势如英伟达也不得不采取措施了。

根据一份近期的爆料，英伟达已经与生产非公版显卡的板卡厂商（如华硕、技嘉、七彩虹等）协商调整销售模式，英伟达后续将不再配套销售 GPU 核心和显存，而是仅销售核心、板卡厂商需要自行采购显存颗粒：

图｜NiceHash

虽然这项泄露还未得到英伟达或板卡厂商的正式回应，但从商业策略角度分析是完全合理且可能的。除了向外转移库存风险之外，英伟达自己也更需要这些显存颗粒。

因为它不仅有公版 RTX 这样的消费级产品，还有诸如 A800、H800、DGX 之类的业务，这些动辄 80GB 显存的企业级产品才是真正的大头，此次调整的一部分原因就是要把手中的闪存库存留给自家的 AI 产品。

图｜Nvidia

另一边，最新的 AMD Radeon RX 9000 和 RTX 50 系显卡一样是 GDDR6 和 GDDR7 客户，虽然目前没有消息或新闻表明 AMD 也将改变板卡销售模式，但在存储行业整体涨价的背景下，可能性还是很高的。

因此，一边是 AI 巨头和数据中心加大采购量，一边是存储厂商削减消费级产品的产能，两者叠加，就构成了近期主流消费级内存产品价格单月增长 100%～200% 的疯狂现象：

自此，这场震动已经从垄断全球的三家 DRAM 厂商拓展到了英伟达这样的中上游企业，进而波及到消费级 PC 市场的 OEM 厂商与 DIY 玩家，而最终也将波及到同为 DRAM 需求大户的手机行业。

美好时光，只在今日

根据集邦咨询（Trend Force）的一份调查报告，今年第四季度 DRAM 合约价格相比去年同期涨价超 75%，并且是 DRAM（内存）和 NAND Flash（硬盘）同时上涨。

基于这样的背景，集邦咨询在报告中预估，2026 年的手机整机零件成本（BOM cost）将会在今年的基础上涨价约 5% 至 7%，甚至有可能上探到 10% 左右。

图｜iFixit

比如一台售价 5499 元的手机，内存 + 硬盘的总成本占整机 BOM 成本的 15% 左右，如果闪存涨价一倍，涨幅并不会直接平移到售价上，而是叠加利润需求，让售价最终上涨 500～700 元左右。

这种涨幅的冲击，对于原本定价就在六千元左右的旗舰机型来说或许还能消化，但对于那些在三四千元档位、锱铢必较地拼参数的中高端机型来说，涨价 500 元是完全无法接受的。

换句话说：三四千元档手机也能 24GB + 1TB 的时代，恐怕是一去不复返了。

与此同时，高端手机市场也并不能从存储涨价中独善其身。高规格的存储在 BOM 中的比例或许目前仍在控制范围内，但在目前的涨价速度面前同样不容小觑。

此外，与 PC 遇到的问题一样，2026 年同样是手机处理器从 3nm 升级 2nm 的关键节点。

台积电的 2nm 处理器报价原本就已水涨船高，更夸张的是，2nm 芯片的首发客户甚至有可能不是长年以来的苹果，而是 OpenAI ——

没错，现在 AI 不仅要和你抢内存，更是要和你抢处理器了。

内外交困之下，明年的手机涨价已经不再是个「是或否」的问题，而是「涨多少」的问题了。从目前存储行业的趋势推测，2026 年各家主流手机品牌「中低端减配」和「中高端涨价」将会变成共识。

不过在这一波涨价潮之中，也有几个特殊的身影。

比如刚刚发布的 Mate 80 标准版虽然踩在了涨价潮中间，但标价相比去年其实还有所下调。这和华为一直倾向于和存储供应商签一年期的「长协」不无关系，应对价格冲击的能力要明显强于按季度签协议的其他品牌。

图｜华为官网

另一方面，三星自家的产品由于近水楼台先得月，受到年末存储涨价风波的影响也相对较小，目前普遍预测即将发布的 S26 系列新机的涨价幅度在 50 美元左右，属于勉强接受的范畴。

图｜Android Authority

而苹果这边的消息就没有那么好了，虽然苹果对于供应链的议价能力极强，但面对这种「近乎垄断」的供应链情况也无从下手。

传闻中为了 Apple Intelligence 而全系标配的 12GB 内存，很有可能成为 iPhone 18 系列涨价的主因。

图｜MacRumors

祸不单行，还有消息称台积电除了 2nm 涨价之外，还计划对 5nm 以下产品提价以平摊 2nm 制程的研发费用，最直接影响的就是苹果的 A20 Pro 处理器。一句话——

明年的 iPhone 18 系列新机很可能涨价 1000 元左右，如果需要买 iPhone，马上下单可能是最实惠的方案。

同时，手机的主流配置从 12 或 16GB 缩水回 12GB，也给软件设计和系统优化提出了更高的要求，未来一两年里，系统优化和软件瘦身将会成为厂商的重点之一——

图｜彭博社

或许「安迪-比尔定律」的提出者也没有想到，这个定律竟然会碰到「安迪把东西收回去」的情况。

我们需要注意到，消费电子产品将受到越来越多来自 AI 的挤压。2025 下半年的 DRAM 全行业涨价并不是传统的「技术-市场」周期内的涨价，而是产能被从外部夺走了，这和 2nm 处理器涨价的原因不同。

这仅仅是手机，对于 DDR4 和 DDR5 依赖更明显、利润率参差不齐的 PC 领域更是几乎碰到了死局。

或许等到明后年，我们就能见到「内存条和硬盘自备」的准系统笔记本上架了：

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

Ilya 罕见发声：Scaling 时代已结束，我们对 AGI 的定义可能全错了

爱范儿

张子豪

26 November 2025 at 17:46

修个 bug 可以来回把同一个错误引回来，写代码能绕一圈又走回原地。

但几乎所有 AI 公司都坚信，只要把模型做大、把数据堆满、把算力扔进去，智能就会自动涌现。这套规模定律（Scaling Law）曾经是硅谷最坚定的信仰。

在隐退许久并创立新公司 SSI（Safe Superintelligence）后，前 OpenAI 首席科学家 Ilya Sutskever 用一种极其冷静的语调，宣告「Scaling 的时代结束了，我们重新回到了研究时代。」

最近一场 Ilya 与 Dwarkesh Patel 的深度对话中，他不仅给出了，对于 AI 未来的技术路线图，更重要的是，他深刻地回答了，为什么现在的 AI 即使再强，也依然不像人。

播客链接：https://x.com/dwarkesh_sp/status/1993371363026125147

为什么 AI 是个高分低能的优等生

我们总觉得现在的 AI 很强，它们能在编程竞赛、数学竞赛、各种榜单上拿金牌，每次有新的模型发布，也是一次次刷新着各种 benchmark。但 Ilya 指出了一个让他感到困惑的现象。

▲ 最新发布的 Claude 4.5 Opus 模型，在编程相关的榜单，已经拿到了 80.9 分

他说我们在用 vibe coding，要 AI 写代码时，AI 可能写到某个地方，出现了一个 Bug。我们直接告诉它：「这儿有个错误。」AI 会说：「天呐你是对的，我马上改。」然后它解决了这个 Bug，又引入了另一个 Bug。你再指出，它又改回了第一个 Bug。它就在这两个 Bug 之间无限循环，显得极其笨拙。

他的解释提到了这说明 AI 的「泛化能力（Generalization）」出了问题。为了解释这个词，Ilya 用不同的学生打了一个比方。

想象两个学生都在学编程，学生 A 代表 AI，极其刻苦，练了 10000 个小时。他背下了所有的题库，记住了所有的解题套路。考试时，只要见过类似的题，他就能拿满分。

学生 B 代表人类，他只是觉得编程竞赛很酷，花了 100 个小时练习，但他真正理解了编程的逻辑，拥有了某种直觉，也能做得很好。长期来看，谁会在职业生涯中走得更远？他说一定是学生 B。

而现在的 AI 就像学生 A。所谓的智能，很大程度上是靠海量数据强行记忆出来的；它们在特定问题的庞大、增强数据集上过度训练，使它们在任务上表现出色，但不一定擅长泛化到其他领域。

一旦遇到训练数据之外的微小变动，比如修复一个重复出现的 Bug，它缺乏那种举一反三的泛化能力。

从堆算力回归拼创意

但这种海量数据的训练方式也不是完全没有用。在过去五年里，AI 行业的发展基本上都是遵循着所谓的「规模定律 Scaling Law」，从一开始的还是以百万参数来衡量的大模型，现在都来到了万亿参数。GPU 显卡算力的消耗，规模更是未雨绸缪，要卷上天际。

这种把一定量的算力，和一定量的数据混合进一个神经网络里的方案，也成了所有大模型开发的必备流程，即预训练。在预训练阶段，不需要思考用什么数据，因为答案是所有数据，它是人类投射到文本上的整个世界。

而 Ilya 认为，「Scaling」这个词，本身就固定了我们的思维。它暗示着我们只需要做一件事：加算力，加数据，保持配方不变，把锅搞大一点，就能做出好菜。

他说这样的法则，让大公司很舒服，因为这是一种「低风险」的投资。相比于需要灵感和运气的研究，大公司不需要雇佣科学家去苦思冥想，只需要「加数据、加算力」，而模型变强的结果是可预测的。

但现在，瓶颈来了。数据不够了，预训练数据，我们的互联网文本语料是有限的，而且已经快被用光了；有专门的研究结构统计过，现在互联网上 AI 内容的比例，已经是超过我们人类输出的内容。

其次是边际效应，把模型再做大 100 倍，也许会有提升，但不会带来质变。

Ilya 也提到了最近在 X 上，有人说 Gemini 3 似乎解决了预训练的一些问题。而此前 The Information 也曾报道奥特曼担心 Google 的发展会影响 OpenAI，甚至已经让他感受到压力。

其中一部分的原因，正是 GPT-5 的推出，遇到了预训练上的问题，即随着预训练数据的增加，模型并没有像之前一样表现出智能的提升。反而 Gemini 确找到了突破的方法，奥特曼在内部备忘录里说，OpenAI 也必须解决预训练的问题，或许才能再次超过 Google。

▲ Google DeepMind 研究副总裁 Oriol Vinyals 提到 Gemini 3 的秘密，是解决了预训练的问题

我们回到了研究时代。只不过这一次，我们有了更大的计算机。

Ilya 把过去这段时间的研究，分成了两个阶段。2012 年到 2020 年是研究时代，大家都在试错，寻找新方法。而 2020 年到 2025 年，是扩展时代，大家都在盲目扩建，算力在扩建，越来越多的 AI 公司在出现。

而现在，单纯的大力出奇迹已经行不通了，或者说单纯靠 Scaling 的红利吃尽了，我们又回到了研究时代。只不过这一次，我们是在用 Scaling 时代建立起来的巨型计算机来做研究，这是一个有着大型算力的研究时代。

总的来说，Ilya 并没有否认预训练和 Scaling 的巨大成功，但他认为这是一种用钱换智能的，低风险暴力美学，而现在这种模式已经触到了天花板，AI 行业必须回归到拼想法、拼直觉、拼创新的硬核研究阶段。

寻找直觉：AI 缺失的那块拼图

如果单纯的数据堆叠无法产生真正的智能，那人类的秘诀是什么？Ilya 给出的答案是：情感（Emotions）。

他提到了一个脑损伤患者的案例，这个人失去了情感能力，虽然智商正常、能言善辩，却连穿哪双袜子都要纠结几个小时。这说明情感不仅是情绪，它本质上是一个价值函数（Value Function）。

不过 Ilya 说目前没有找到很合适的概念，来类比情绪在机器学习中的角色，所以用价值函数来替代。

为了解释什么是价值函数，Ilya 提到了少年学开车的例子，一个青少年，可能只需要练 10 个小时甚至更少，就能学会开车上路。他不需要像现在的自动驾驶 AI 那样，在模拟器里撞车几百万次才能学会避让。

为什么？因为人类自带了一个极其强大的价值函数，这个价值函数就像一个内置评价器，一旦偏离车道，我们人类会感到紧张，而这相当于一种负反馈。

那么依赖情绪的价值函数，和我们之前一直听到的强化学习，区别又是什么呢？

Ilya 说在没有中间价值函数的强化学习里，通常要等到任务彻底结束，AI 才知道自己是赢了还是输了；但价值函数就像是我们的直觉或内心评分系统。当我们下棋丢了一个子，不需要等到这盘棋下完，我们心里立马会「咯噔」一下，这步棋下错了。

那个学开车的少年，不用等到真的压线丢分了才会改正，而是只要开得稍微偏离车道，他立刻会感到紧张或不自信。这种实时的、内在的反馈机制，让他能极其高效地从少量经验中学习。

对于传统的强化学习，他的看法是这是一种天真且低效率做法。在传统的强化学习中，模型需要尝试成千上万次动作或思考步骤，直到产出一个最终的解决方案，然后根据这个最终结果的好坏获得一个评分，即训练信号。

这意味着在得出最终解之前，模型完全没有进行任何学习。这种方法需要消耗大量的计算资源来进行漫长的推演，但每次推演带来的学习量却相对较少。

而价值函数不需要等到最后，它能提供中间过程的评价；在每一步都给出信号，指引方向，从而极大地压缩了搜索空间，提高了学习速度。

目前的 AI 缺乏这种高效的内心评分系统。如果我们能让 AI，拥有类似人类情感或本能的价值判断能力，它就能摆脱对海量数据的依赖，真正像人一样高效学习。

Ilya 的下一步是直通超级智能

既然认定了拼算力的时代已经过去，而强大的价值函数或许又会成为新的 AI 方法，那 Ilya 的新公司 SSI（Safe Superintelligence）打算怎么做？

他的答案带着一种极其理想主义的色彩，直通超智能，他们选择去攻克那个最根本的难题，实现可靠的泛化。

Ilya 直言，现在的 AI 行业陷入了一场老鼠赛跑。为了在市场竞争中存活，公司被迫不断发布半成品，被迫在产品体验和安全性之间做艰难的权衡。SSI 想要做的是从这种商业噪音中抽离出来，闭门造车，直到造出真正的超级智能。

但有趣的是，Ilya 这种「闭关修炼」的想法正在发生动摇。他开始意识到，渐进式发布可能才是安全的必经之路。

为什么？因为人类的想象力是贫瘠的。如果你只是写文章、发论文告诉大家AI 会很强，大家只会觉得这是科幻小说。只有当人们亲眼看到 AI 展现出某种令人不安的力量时，所有人、包括竞争对手，才会真正感到害怕，从而变得更加关注安全。

Ilya 预言，随着 AI 变得越来越强，现在打得不可开交的科技巨头们，最终会在 AI 安全策略上走向趋同。

播客里他也提到了，SSI 与 OpenAI、Google 那些大型实验室相比，虽然筹集的资金较少，但用于纯研究的计算能力比表面上看是更多的。他说那些大公司将大量的计算资源用于产品推理，并拥有庞大的工程和销售团队，导致其资源分散。Ilya 认为 SSI 拥有足够的计算能力，来证明其想法是正确的。

当被问及盈利模式时，Ilya 只是淡淡地说，我们只专注于研究，赚钱的问题以后自然会有答案。主持也提到了之前 SSI 的前 CEO（联合创始人）选择了离开，然后加入 Meta，在 Meta 希望收购 SSI 时。

Ilya 特意澄清，「他是唯一一个去 Meta 的人。」他建立 SSI 不是为了在商业市场上套现，而是为了那个唯一的、纯粹的目标，在那个不可逆转的奇点到来之前，把安全的超级智能造出来。

重新定义 AGI，一个 15 岁的少年

那我们距离 AGI 还有多远？Ilya 给出的预测是 5 到 20 年。

但他提醒我们要警惕「AGI」这个词。因为预训练模型让我们产生了一种错觉，以为 AGI 就是一个什么都懂的百科全书。但 Ilya 心目中的超级智能，更像是一个绝顶聪明的 15 岁少年。

这个少年可能还没学过法律或医学，但他拥有极致的学习效率。你让他去学医，他可能几天就能读完人类所有的医学文献，并开始做手术。

而在这一愿景中，最让人细思极恐的概念是融合（Amalgamation）。

人类的悲哀在于知识无法直接复制。这个人学会了开车，另一个人还是得从头练起，但 AI 不一样。Ilya 描述了一个场景，数百万个 AI 分身在经济体的不同角落工作，有的在写代码，有的在打官司。它们在各自学习，然后将所有的经验融合进同一个大脑。

这种集体进化的速度，才是他所认为的 AGI。

面对这样一个能够瞬间融合万千经验的超级大脑，人类又该何去何从？

Ilya 给出了两个层面的思考。首先是给 AI 的设定。不要只让它爱人类，因为这太狭隘了。未来的 AI 自己也将是有知觉的生命体，应该利用同理心的原理，让它关爱所有有知觉的生命，可能是比代码更稳固的安全防线。

其次是人类的退路。如果每个人都有一个比自己聪明百倍的 AI 智能体，人类会不会沦为历史的旁观者？Ilya 给出了一个他坦言「自己并不喜欢，但可能是唯一解」的答案：脑机接口（Neuralink）。

只有当人类选择与 AI 融合，让 AI 的理解直接变成我们的理解，我们才能在那个奇点之后，依然是这个世界的主角。

播客的最后，Dwarkesh 问了那个所有人都想问的问题：作为 AI 领域的传奇，你是如何一次次押对方向的？

Ilya 的回答很像个艺术家：「寻找美感。」

在那些数据都不支持你的至暗时刻，唯有对美、简洁和生物学合理性的自上而下的信念，能支撑你走下去。因为神经网络模仿了大脑，而大脑是美的，所以它一定是通往智能的正确道路。

这或许就是 Ilya 所说的「研究时代」最需要的品质：在算力之外，保留一份对智能本质的诗意直觉。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

ChatGPT 的降智测试和账号恢复实测指南

DUN.IM BLOG

Anonymous

20 November 2025 at 12:16

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

近期，ChatGPT 5.1 Thinking 的 Juice Number 达到了 256。如果你的达不到，大概率是被降智了。

ChatGPT 的降智测试和账号恢复实测指南

Juice Number 实质上是 ChatGPT 模型的 「思考预算 (Thinking Budget)」。

Juice 值不直接等同于模型的“智商”，但它限制了思维链 (Chain of Thought) 的长度。

当值过低时，即便模型本身能力强大，也会因为“思考预算不足”而表现出逻辑断层或回答肤浅，即常说的“降智”现象。

如果把 AI 的思考过程比作在纸上推演，Juice 值决定了这张纸的大小：

由于 Juice 值属于后台系统参数，常规对话无法直接获取。目前通用的检测方法是利用 Prompt Injection（提示词注入） 技术，通过伪装系统指令来绕过防御。

OpenAI 会根据 账号的风险评分（Trust Score） 动态调整算力资源。

常见原因：

降智表现：
不同模型的 Juice 值是不一样的，系统降智也有不同程度，可能会将 Juice 值从 256 降级至 128、96、64 甚至 16 等。

此时，模型在处理代码重构、长文本分析等复杂任务时，质量会显著下降。

以下是我的恢复步骤：

退出所有已登录该账号的设备（手机、电脑、平板等），确保没有任何活跃会话。

将账号闲置 48 小时。这段时间用于让后台的风控标记自动过期或重置。

最后重新登陆使用检测代码进行测试。

实测效果：

ChatGPT 这个新功能，想把淘宝小红书 B 站的活全干了

爱范儿

张子豪

25 November 2025 at 14:35

你有没有过这种体验，想买个东西，先去小红书找了二三十篇笔记，B 站看了十几个测评，然后上什么值得买看了下优惠的渠道，最后，人已经麻到不想买了。

今天，OpenAI 给了一个新的统一入口，让 ChatGPT 直接替我们做「购物研究」。

在 ChatGPT 的聊天页面，点击菜单（+）选择 Shopping reseach 购物研究，告诉它要买什么，它会去全网查资料、比较参数、问我们预算偏好，然后给出一份量身定制的购买指南。

这听起来很简单，实际上是个非常深的产品变化，也是 ChatGPT 一直以来想要引入广告，又一次的小试牛刀。

和我们现在所熟悉的电商推荐、搜索引擎、比价工具都不太一样。传统工具的逻辑是，我们搜什么，它就给我们看什么。而 ChatGPT 购物研究的逻辑是，我们告诉它需求，它会利用我们在 ChatGPT 内的聊天记录，帮我们找到最适合的那个。

为了迎接黑五、感恩节等假期，ChatGPT 购物研究功能，已经向 Free, Plus, Team 和 Pro 等所有登录用户开放。而 Pro 用户的 Pulse 功能，也会个性化地使用购物研究，来推荐一些相关的产品。

不只是搜索，更是在做功课

国内的多个电商平台，淘宝天猫和京东，都上线了 AI 购物的功能，对话框里输入「我想买」，淘宝就能根据我们过往的购物历史，生成一份详细的购物清单。

▲淘宝 AI 购物功能截图

但是在通用聊天助手里，ChatGPT 是第一个把 AI 购物也加进来的应用。之前用通用助手 ChatGPT、DeepSeek 这些也能询问购物建议，除了推荐的质量，最大的痛点绝对是，给出的链接要么打不开，要么是瞎编的。

新的购物研究功能彻底解决了这个问题，更重要的是把推荐的质量也提上了一个台阶。

进入购物研究模式后，我们可以直接在对话框里输入，「帮我找一款适合小公寓的，静音无线吸尘器」、「我想要找一条看起来，像这个（上传图片）的连衣裙」诸如此类的问题，ChatGPT 就会开始它的调查研究。

和一般的 AI 对话不同，购物研究的体验是 ChatGPT 重新设计的。它会像真人导购一样追问，不会一上来就生成一份报告，而是先要我们做一些选择题，这一点也是和淘宝 AI 购物的区别。

▲我向他提问买相机，它首先问我的预算、接着是买相机的目的、还有一些期待的功能；如果不选择，大概在 15s 之后，ChatGPT 会自动跳过这些问题

它会弹出多个问题选择框，大致的问题是，「预算大概多少？」ChatGPT 会率先研究，关于要研究的产品，主要的价格分布区间，我们可以单选或多选。还有一些问题，根据不同的购物需求，有具体的了解，像是消费电子类会问「主要看重什么功能？」，很明显是礼物常用商品，它会问「是送人还是自用？」……

更厉害的是，如果开启了 Memory（记忆）功能，它甚至会调取以前的对话细节。比如它的记忆里面，保存了平时爱玩游戏的关键词，在推荐笔记本电脑时，就会自动把显卡性能作为重点考量，而不需要我们重复废话。

初步选择了这些属性之后，ChatGPT 会给我们提供一个可视化的挑选界面。不再是纯文字对话，我们会看到一个包含商品图片、价格和参数的可视化界面。

▲ 选择不感兴趣之后，还可以反馈是对品牌不感兴趣，还是价格、功能、款式等具体方面

如果不喜欢某个推荐，可以直接标记 Not interested（不感兴趣）；如果觉得某款不错，可以点 More like this（找相似的）；左滑不喜欢，右滑喜欢，很有交友软件的味道了。

它会根据我们的每一次点击，实时调整购物调研的方向。在最后生成报告的过程中，为了减少等待的「痛苦」，ChatGPT 还会提供很多小 Tips，来解释关于某个产品背后的内容。就像这里研究相机，它会说「像素不是决定照片质量的唯一标准」等。

等了一会儿，最后就是 ChatGPT 生成的这份深度「买家指南」。这是一份完整的调研报告，里面不仅有热门产品推荐，还有关键差异对比、优缺点权衡、以及来自可靠零售商的最新信息（主要是美国常用购物网站）。

它把原本需要我们花几个小时，去搜索、阅读、拉一个 Excel 汇总的过程，压缩成了几分钟的对话和选择。

除了这种直接的询问有什么新的产品，我们还可以在购物研究里面，发送图片，要求 ChatGPT 找到类似的商品，或者要求它帮我们找到相关的优惠，以及多个同类产品的横向比较。

我们直接问他，「我是学生，这个自行车可以送给我吗」？他很认真的帮我找到了学生专属折扣或补贴、还有一些学校提供的相关支持计划。

什么样的东西适合用它买？

OpenAI 在他们官方博客里面提到，对于查个价格这种简单问题，普通对话就够了。Shopping Research 真正大显身手的地方，是那些决策成本高、参数复杂的品类。

电子产品：手机、电脑、相机（这类产品参数多，非专业的小白容易晕）
家居与园艺：吸尘器、扫地机、家具
美妆护肤：需要看成分、对肤质
运动与户外：露营装备、专业运动器械

简单来说，凡是需要我们专门去做功课的东西，现在都可以交给 ChatGPT 的购物研究。

OpenAI 最后也提到，他们没收钱。不会因为谁给钱多，就暗中默默推荐谁。他们表示所有的搜索研究结果，都是基于公开的网页信息，用户与 ChatGPT 的聊天记录，同样也不会分享给任何零售商。

其次，这次购物研究的功能，是由一个经过强化学习训练的 GPT-5 mini 版本支持，专门用于购物任务。他们创建了一个新的评估方法，来衡量模型推荐的商品是否符合用户的需求，最后的结果是购物研究达到了最高的 64% 准确率。

不过，尽管模型很强，OpenAI 还是提到，库存和价格瞬息万变，购物研究也可能会有疏漏，建议大家在下单前，点击 ChatGPT 提供的商家链接，去官网做最终确认。

在未来，甚至可以直接通过 ChatGPT 购买，OpenAI 提到那些已经加入 Instant Checkout（支付平台 Stripe 与 ChatGPT 合作的即时结算），且提供该功能的商家，就能让我们边挑选边下单了。

除了模型存在疏漏，更大的局限是在中文市场，大部分的国产，尤其是没出海的品牌，数据缺失比较严重；同时国内电商页面也无法实时抓取。不过，用来调研一些国际品牌为主的商品，ChatGPT 还是能派得上用场。

再者说，以国产 AI 进步的速度，如果想要跟进类似的功能，接入淘宝京东拼多多大概也是「分分钟」的事。

对于 ChatGPT 新上线的购物研究功能，X 上的网友也是各种意见都有。有人说「OpenAI 又一次快速实现了，我的整个创业想法。」、还有网友给出一张密密麻麻的 AI 订阅费用对比，说「AI 能帮我找到最适合的 AI 订阅吗」，也有人犀利的表示「别再破坏我的 ChatGPT 了」……

回头看 GPT-5 发布后，ChatGPT 这三个多月来的更新，群聊、视频社交、即时结账、购物、浏览器以及即将到来的成人模式等，OpenAI 看准了要利用它的庞大流量留住这些用户。对它来说，当前保持住用户的现有存量，比进一步挖掘用户增量可能更重要。

而购物研究，只是 ChatGPT 牢牢绑住现有用户，很小的一次的探索；电商这块巨大的蛋糕，它才刚刚进来。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

Google 年度最强 AI 偷跑！一个电风扇动画引发疯传，Gemini 3要给GPT-5.1上强度了

爱范儿

张子豪

17 November 2025 at 14:41

前几天 nano banana 2 的泄漏版本，正在网上被疯狂转载，奥特曼眼看着流量不能被 Google 再抢了去，一点预告都没有，直接就发布了 GPT-5.1。

现在，GPT-5.1 都来了，Gemini 3.0 还会远吗。

Google CEO Sundar 和 Google AI Studio 负责人 Logan，都回复了一则关于 Gemini 3 的帖子，内容显示 Gemini 3 在预测市场的发布时间，有 69% 的用户买入了这个月 22 号的时间。

Google CEO 回了意味深长的思考 emoji，毕竟在预测市场 Polymarket 上，Gemini 3 的发布时间从 8 月 31 号到年底，都有人买入，而现在除了本月 22 号，月底 30 号更是累计有三百多万美元。

▲ 图片来源：https://polymarket.com/event/gemini-3pt0-released-by?tid=1763343187680

种种迹象显示，Gemini 3.0 很有可能就在最近这周发布，并且还有机会和 nano banana 2 一起发布。它们一个是在编程、智能体、写作等通用智能上更上一层楼，另一个是延续图像编辑的强大一致性和长文本渲染。

不敢想象年底的 AI 模型更新会有多激烈。

我们之前也汇总过关于 Gemini 3.0 和 nano banana 2 的爆料，那时的 Gemini 3.0 是出现在 Google AI Studio 的 A/B 测试中，能直接给我们生成一个 macOS 的云电脑，点开 Safari 还可以直接访问网页。

▲瑞典风格的网页设计，图片来源：X@RDeepl

而最近这段时间爆出来 Gemini 3.0 的料，一个比一个厉害。指令的理解能力更强，在编程项目中展示了丰富的世界知识，还有生成的网页，风格更多元也更大胆，更实用。

大模型竞技场上的神秘模型

在大模型竞技场上，又多了一个编号为 riftrunner 的神秘模型，有网友在 battle 对战模式下，刚好测试到了它的效果。用它生成的 SVG 动画，一个比一个厉害。

下面这个能调节风速档位的电风扇，在 X 上被疯狂转载，大家都不相信 AI 有这么聪明，只用一句提示词，就能做出精美的 SVG。

▲图片来源：X@lepadphone

他还用这个编号为 riftrunner 的模型，生成了一个能同步真实时间，切换表盘颜色的手表动画 SVG。

和之前 nano banana 一开始出现在模型竞技场一样，网友们都在怀疑这个 riftRunner 就是 Google 马上要发布的 Gemini 3.0。

要想体验到它，我们不能手动选择，必须在竞技场 battle 模式中随机获得。battle 模式会给我们两个不同的答案，投票后才能知道型号名称。

为了减少反复尝试的痛苦，Flowith 的创始人还发 X，分享了通过设置浏览器 Agent 来自动投票，更快找到 riftrunner 的方法。

我们也在 LMArena 里面测试了多次，都没有碰到过 riftrunner，大概是运气都在我抽 nano banana 那会儿花光了。

继续在网上找了更多网友的分享，有人说 riftrunner 不失所望，是唯一一个解出下面这道数学难题的模型。

▲图片来源：X@Abasiono_Mbat

还有人在竞技场不断测试，做一个狐狸模型，得到了 riftrunner（Gemini 3）、Claude 4.5、以及 GPT-5 的三种对比。

▲图片来源：X@k0tovsk1y

还有应该选 both are bad，两个都很差的蒙娜丽莎 SVG 画像，即便是 riftrunner 看着也很怪，但至少又比 Claude 有更多关于蒙娜丽莎的元素。

▲左图为 riftrunner，右图为 Sonnet 4.5；图片来源：X@petergostev

以及 riftrunner 生成的，一只骑自行车的鹈鹕的 SVG。

▲图片来源：X@synthwavedd

藏在了手机端 Gemini App 的 Canvas 功能里

还有网友说，现在 Gemini App 里面的 Canvas 功能，使用的模型就已经是 Gemini 3.0 了。因为在网页端的 Gemini 和手机端，输入同样的提示词，得到的输出，质量差距很大。

▲图片来源：https://www.reddit.com/r/Bard/comments/1ovvmjo/not_hype_posting_gemini_3_is_rolling_out_to/

于是一大波网页版和手机端的对比，纷纷出现在评论区，大家都认可了，手机上的 Canvas 真的是使用了更先进的 Gemini 3.0。

最直观的例子是这个 3D 宝可梦的动图，在 Web 端生成的 3D 动图背景简单，宝可梦的形象也很抽象；手机端的色彩、背景都做的更好。

▲图片来源：X@AiBattle_

还有网友做的 Gemini 和外星人入侵的对抗的 SVG，网页版继续一如既往的简陋，而在手机上的 Canvas 明显元素更多，更丰富。

▲左图为网页版，右图为手机应用版。图片来源：X@Lentils80

以及拿手机应用中的 Canvas 和 Claude 4.5 Sonnet 来对比，输入的提示词都是，一个 3D 宝可梦精灵球。

▲图片来源：X@ctgptlb

还有人拿 Xbox 手柄 SVG 图来做测试，iOS 手机应用里的 Canvas 和浏览器里的网页版，是完全不同。

▲左边是手机应用，右边是网页版；图片来源：X@MaximilanS638

不过，也有用户分享自己 Gemini 手机端和网页端，出来的结果是一模一样的。

▲左图为网页版，右图为手机应用版。图片来源：X@Medeenatee

我也尝试输入「生成一个 Xbox 的手柄 SVG 图」来看看两遍的结果，但是都很不理想。要不是根本不像一个手柄的图，要不然就是键位这些全部错乱。

只能说模型会出现幻觉，我们人类也可能有幻觉。大模型竞技场的神秘代号模型，还有这种靠着观察输出差异的怀疑，都不能确定是否来自 Gemini 3.0。

更确定的信息是，有网友发现，Gemini 3.0 Pro 已经出现在 Gemini Enterprise 的 Agent 模型选择器中。

▲图片来源：X@testingcatalog

不过 Gemini Enterprise 也是不对一般的用户开放，但至少可以说 Gemini 3.0 真的距离发布不远了，或者说已经准备好了。

回看过去这一年来，几家大模型公司的发布记录，GPT-5 因为营销太多被诟病，发布后网友们表示熬了这么久，「就这」；还有在社交媒体一直没什么水花，但模型广受好评的 Claude 系列；现在是后发制人，凭着 nano banana 重新回到大家视野的 Gemini。

甚至在想，如果没有 nano banana，会不会还有人只记得它之前的名字，叫 Bard。

SimilarWeb 在前几天了公布了，各个大模型网页流量的统计数据，一年前 OpenAI 的网页访问流量占比是 86.6%，到了今天虽然还稳居首位，但是已经被瓜分走了相当一部分，只剩下 72.3%。

而被分走的流量基本上全去到了 Gemini，Gemini 从一年前只有 5.6%，在 nano banana 发布之后，冲到了现在的 13.7%，直接翻倍。

要是 Gemini 3 和 nano banana 2 能稳住，再接着这波流量，下个季度的柱状图，Gemini 的颜色可能还要占据更多。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

刚刚，GPT-5.1 正式发布，OpenAI 这次有点「不对劲」

爱范儿

张子豪

13 November 2025 at 07:15

刚刚，OpenAI 正式发布了 GPT-5.1，但这次有点不一样。

翻完整篇官方博客，我发现了一个特别有意思的细节：一张跑分对比图都没有。没有 benchmark 数据，没有「性能提升 XX%」，甚至连「更快更强」这种常规话术都少得可怜。

这不太像 OpenAI 了，直到我看到这句话：

「我们从用户那里清楚听到，优秀的 AI 不仅要聪明，还要让人跟它聊天很愉快。」

▲ 新版 GPT-5.1 为了让我们聊天更愉快，提供了八种风格预设

新版本确实更聪明了——推理更严谨，代码写得更漂亮，但最值得一提的是，它终于像个人了，并且首次允许我们细致地「调教」它的聊天风格。

和 AI 聊天不再是那种一问一答的工具感，而是变得有梗、懂氛围、会接话茬，甚至能陪你有的没的扯上半天。

看来上次 GPT-5 口碑崩塌后，OpenAI 终于听劝，也第一次捅破了窗户纸，承认光刷榜没用，用户要的是能好好说话的 AI，实用和情绪价值全都要。

直接放上具体的使用时间和方式：更新到 GPT-5.1 后，我们的 ChatGPT 会默认切换到最新模型，而不需要专门选择。

付费用户 (Pro, Plus, Go, Business)：从今天（11月12日）开始逐步推送。
免费和未登录用户：将在付费用户推送完毕后跟进。
企业和教育版：拥有 7 天的早鸟期切换开关（默认关闭），之后将统一升级。
API 开发者： GPT-5.1 Instant 和 GPT-5.1 Thinking 将在本周晚些时候上线 API。

更强大的 AI 内核

这次更新的核心，是 GPT-5.1 Instant 和 GPT-5.1 Thinking 两大模型的全线升级。

GPT-5.1 Instant：最常用的模型，变「暖」了

GPT-5.1 Instant 是 ChatGPT 中最常被调用的模型。这次，它变得更「温暖」、更健谈了。根据 OpenAI 的早期测试，它甚至会不时展现出一些顽皮，同时保持回答的清晰和实用。

而更关键的升级来自底层：

更听话：它现在能更可靠地遵循我们的指令，准确回答我们真正想问的那个问题。
自适应推理 (Adaptive Reasoning)：这是 Instant 模型第一次引入该功能。这意味着它在遇到难题时，会智能地决定先思考一下，从而给出更彻底、更准确的答案；而面对简单问题时，它依然保持极速响应。

OpenAI 提到，这种进化在数学（AIME 2025）和编程（Codeforces）等专业评估测试集上，也有了明显的提高。

GPT-5.1 Thinking：更强的大脑，也更易懂了

作为更高级的推理模型，GPT-5.1 Thinking 也迎来了关键优化，变得更高效、更易用。

▲ GPT-5.1 思考在简单任务上花费的时间更少，在困难任务上花费的时间更多

效率提升：它现在能更精准地分配思考时间，在复杂问题上花费更多时间（答案更透彻），在简单问题上响应更快（等待时间更短）。
更易懂（用户福音！）：它的回答现在更清晰，使用了更少的行业术语和未定义的词汇。这让我们在用它处理复杂工作或解释技术概念时，能毫不费力地看懂。
同样温暖：Thinking 模型的默认基调也变得更温暖、更富同理心。

用 OpenAI 应用 CEO Fidji Simo 的话来说，这次升级的核心是将 IQ（智商）和 EQ（情商）更好地结合起来。

模型在保持高智商的同时，即继续使用与推理模型相同的技术栈；还大幅提升了情商，ChatGPT 有了更自然的对话和同理心。

这能满足用户在不同场景下，都能得到相对应的个性化需求，像是谈论健康时需要同理心，写文案时需要直接。

此外，对大多数用户来说，我们也不需要在 Instant 和 Thinking 之间纠结。因为还有 GPT-5.1-Auto 会自动为我们分配到最合适的模型，这也是 GPT-5 发布时的一大亮点，即智能路由。

总之，最直观的感受就是，答案更智能，语气更自然。

打造专属于你的 ChatGPT

如果说模型升级是硬实力，那个性化体验的飞跃就是软实力，而这正是本次更新的另一大亮点。

OpenAI 的目标是，是让我们毫不费力地将 ChatGPT 的语气和风格，调整到最舒服的状态。

在原有的默认、友好、高效基础上，新增了三种官方风格。

Professional (专业)：适用于工作、写作等正式场合。
Candid (坦诚)：更直接，不拐弯抹角。
Quirky (古灵精怪)：顾名思义，它会变得更有趣、更跳脱。

之前测试版中的「书呆子」和「愤世嫉俗」选项也依然保留在个性化设置中。

除了这种直接选择，更丰富的基本风格和语调，OpenAI 正在实验一项新功能，允许用户直接从设置中微调 ChatGPT 的特征。

我们可以精确控制回答的简洁度、热情度（多热情）、回答是否易于浏览 (Scannable)、甚至是使用 emoji 的频率。

如果不想麻烦的手动设置，当我们试图在对话中引导某种特定语气时，ChatGPT 可能还会主动领悟到，然后询问我们，是否希望将这种偏好保存到永久设置中，省去了手动调整的麻烦。

▲ 这也是奥特曼喜欢的功能

在 Fidji Simo 分享的博客里，她提到过去的自定义指令，并不总尽如人意。比如我们可以在自定义设置里，让 ChatGPT 不要用某个词，但它还是会用。

GPT-5.1 在风格化的另一大改进是，自定义指令现在能更可靠地，在多轮对话中坚持住，ChatGPT 可以更稳定地，按照我们定义的个性来完成各项任务。

有网友直接一句话总结，GPT-5.1 这次的更新，就是更创造性地忽略我们的提示词。

当然，AI 的风格化、拟人化，也有它的代价。一个更温暖、情商更高的 AI，也必须更安全，这也是 OpenAI 在最近被卷入 16 岁少年自杀案，必须回应的事情。

在 GPT-5.1 的模型介绍 System Card 里，介绍了 OpenAI 在这方面的深入考量。OpenAI 首次在模型的安全评估中加入了两个全新的、更人性化的维度。

心理健康（Mental Health）：评估 AI 如何应对用户可能表现出的孤立、妄想或躁狂等迹象。
情感依赖（Emotional Reliance）：评估 AI 的回应是否会助长用户对 ChatGPT 产生不健康的依赖或情感依恋。

在传统的安全评估上，GPT-5.1 Instant 表现出色，在抵御越狱（Jailbreaks）方面，比其前代 gpt-5-instant-oct3 更强。

但 OpenAI 也坦诚地指出，GPT-5.1 Thinking 在处理骚扰、仇恨言论等内容的基准测试中，相比前代略有回退；Instant 模型在情感依赖的某些评估中，也显示了轻微的倒退。

OpenAI 当然是说正致力于改进这些方面，然后提到了，他们选择透明的公开这种回退的现象，在 AI 快速迭代的当下，比单纯的零失误宣传，更值得大家关注。

也有网友分享很乐意看到，OpenAI 愿意在让我们与模型的对话更愉快这方面，去做出一些努力。

如果你今天打开 ChatGPT 没看到更新，别急，未来几天内就会轮到你，OpenAI 正在逐步推送到所有用户。

此外，为了避免像之前 GPT-5 发布，网友们都在呼吁 GPT-4o 的回归，这种尴尬再次出现。

OpenAI 这次提供了后悔药，付费用户在 3 个月内，也就是 GPT-5 的淘汰期，依然可以在设置的下拉菜单中，选择使用旧的 GPT-5 模型，以便能从从容容地过渡到 GPT-5.1。

▲ 现在还能使用 4o 等模型

GPT-5.1 是一次能力与体验齐头并进的重大更新。OpenAI 显然在告诉我们，AI 的未来不仅是更强的参数，和更高的跑分，更是更懂你的体验，和更贴心的交互。

但一个完美的助手，又应该是什么样的？

OpenAI 应用 CEO Fidji Simo 在她的文章中，有一个挺有意思的比喻，她说「如果我能完全控制我丈夫的特质，我可能会让他永远同意我，但很明显，这不是个好主意。」

最好的 AI 应该像我们生活中最优秀的人一样，他们倾听、适应，但也在必要时挑战我们，帮助我们成长。

从一个无所不知的万能工具，到一个能懂你聊天脾气，甚至能帮你成长的专属伙伴，这也许就是 GPT-5.1 真正想开启的未来。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

GPT 5.1 披「马甲」公测，免费可用，杀入年底大更新战场

爱范儿

Selina

11 November 2025 at 11:01

Gemini 3 还没影子，GPT 5.1 已经在路上。7 号深夜，OpenRouter 平台上线了一个全新的隐名模型。已经有眼尖动作快的网友尝鲜体验，并且认为这就是披着马甲的 GPT 5.1，暂名：Polaris Alpha。

目前提供 API 调用（包括 OpenRouter），知识库截止时间为 2024 年 10 月，不支持推理模式。最大 context 容量 256K，单次最大输出 128K。

开发商信息保密，但是在网友的不懈努力下，成功「越狱」，让 Polaris Alpha 自曝了家门。

▲ 图片来自 X 用户 @LarryAtherton1

这倒也算不上实锤，可能只是训练数据的问题——很多模型都会输出来自专有供应商的数据。除非系统提示中明确说明，或者通过指令调优反复灌输，否则这些模型实际上并不「知道」自己是什么。

无论如何，目前暂时没有官宣，暂且就还是叫它 Polaris 吧。APPSO 也第一时间简单试用了一下。由于是通过 API，部分功能比如处理语音素材暂时受限，除此之外，Polaris 的表现，让人相当期待 GPT 5.1。

案头工作：流畅，一如既往

首先是一些比较基础的简单任务：根据要求写邮件。这是一封道歉邮件，跟嘉宾通报活动改期。我特地强调了口吻要既饱含歉意，又表示亲近，让 Polaris 感受一下。

算是中规中矩吧，信息齐全，行文逻辑清楚，语气不会有强烈的「人机感」。比较神奇的是，在打开 Search 模式的前提下，Polaris 会去检索一些道歉信的写法，而它的引用信息里，居然有淘宝百科…… 看上去 Polaris 覆盖的信息源越来越多，也越来越冷门了。

然后是需要创意想法的文案写作任务，prompt 我都给得很模糊，只要求有网感，适合在小红书上传播。

Polaris 给出了三种不同的风格，给出的文案非常完整。后面还给出了活动具体执行的方案。从这里已经可以看出来，措辞上颇有 GPT 系会有的文字风格。也有网友专门做了相似性统计——马甲快要披不住了。

文字风格仍然是每一个大语言模型的立身之本，毕竟现在最主流的应用场景就是案头工作。2026 年都快要来了，还给出「人机味」的文字，是不能被原谅的。目前 Polaris 的文风，有相当典型的「GPT」风味，很多网友都有同样的感受。

同时，对于 chatbot、聊天、陪伴等应用场景里，文风能否快速适应用户节奏，并且灵活「习得」个性化的口吻，也将是 GPT5.1 面临的挑战——全球用户要求 4o 回来的盛况，OpenAI 应该不想再经历一次了吧。

由于不能直接处理音频文件，我上传了转录后的播客文字稿，让 Polaris 整理提炼信息点，适当调整口语化的地方，重点是：根据不同的主题维度，拉出一个层次明确的提纲，同时保留时间戳。

输入目前看来可以超过 1w 字（单条发送），受限于 OpenRouter 每个窗口只能保存八条记忆的限制，超长输入会一定程度的影响输出稳定性。不过自我纠正能力不错，第一次跑的时候生造了并不存在的时间戳，重抽一次之后自行纠正了。

自从 GPT 5 之后，ChatGPT 的单个窗口容量明显增大，从社交媒体上的反馈来看，最高的 token 总数可以去到 60 万-80 万才达到上限。这对于个性化用户信息而言是个非常好的信号，但不可避免的是，超长上下文额之后，会出现记忆调度的失序，以及输出稳定性的下降。

这留给了 GPT 5.1 全新的挑战，如何在进一步扩大窗口容量之后，依然保持灵活准确的记忆调度。对于用户而言，几乎是第一秒就能感受到的决定性体验。

编程：超简单，超顺滑

OpenRouter 提供几种基础的编程工作实现和预览。我快速用它测了一下 Polaris 写小游戏的本事。

最直观的感觉是时间稍微有点久，差不多要个五分钟了。不过倒是不需要我提供复杂的 prompt，「设计一个贪吃蛇游戏代码」，就足够生成一个可以上手的小游戏。

甚至还提供不同的模式、设置，在 preview 里的试玩都很顺畅。另外又让它跑了一个打地鼠游戏，也是顺利完成。

网页设计也很 OK，我把上面生成出来的咖啡馆文案，丢回给 Polaris，让它设计一个活动的落地页。

Polaris 研究了整个文案，并且加入了一些补充，最后出来的视觉效果也不错，我挺喜欢它给按钮设计的发光效果，这似乎是它的一个「独家特色」，在其他网友的测试中也出现了：

▲ 图片来自 X 用户

从网上的其它测试是来看，它的美学表现值得期待。

▲ 图片来自 X 用户 @HarshithLucky3

这些基础工作都没有太大的问题，但老实说，现在 AI 编程的赛道堪称白热化，而 GPT 系产品在编程上，竞争力一直不算很强。GPT 5.1 实装后，在编程上的表现能不能有大突破，只有继续等待才能知道。

前阵子 Sam Altman 明确发话表示，年底时 ChatGPT 将推行 NSFW 模式（成人模式），在目前的 Polaris 上，似乎已经看得到苗头了。

如果是这样，那 Polaris 是 GPT 5.1 的证据又多一条，尤其是考虑到最近 OpenAI 已经在小范围内做年龄验证，这并非全量行动，而是针对不确定实际年龄的用户做定向推送。

成人模式的争议很大，实际执行也并不如想象中简单，除了验证，还有隐私信息识别、储存等一系列麻烦。到底能不能有一个平衡多方诉求的解决方案，还得看真正的 GPT 5.1 如何应对。

眼瞧着年底又是一场血战，Gemini 3 早就放出风声（虽然一直跳票），Nano Banana 2 也突然冒头。更别提前阵子 Kimi K2 Thinking 的发布，收获了海内外一大波关注，训练成本仅为 460 万美元。

OpenAI 仍然有着惊人的支出，虽然也有着惊人的活跃用户群，但盈利还看不到苗头。在一系列又强又便宜的中国模型的狙击下，GPT 5.1 能达到期望吗？

快知道了，网传 11 月中就将发布，到时或许会有答案。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

微软独家： OpenAI 最新季度净亏损 115 亿美元

V2EX-最热主题

imaxwell

2 November 2025 at 08:10

imaxwell:

https://news.ycombinator.com/item?id=45757953 微软最新财报意外披露了 OpenAI 的财务状况，显示这家 AI 明星公司在单季度内可能遭遇超过 115 亿美元的巨额亏损。这一数字远超市场预期，凸显出人工智能领域持续的烧钱速度。微软在截至 9 月 30 日的季度财报中透露，其对 OpenAI 的权益法投资导致净利润减少 31 亿美元。基于微软持有 OpenAI 约 27%的股权，这意味着 OpenAI 该季度净亏损约 115 亿美元。若考虑税前损失和此前更高的持股比例，实际亏损可能超过 120 亿美元。这一亏损规模对比 OpenAI 今年上半年仅 43 亿美元的营收显得格外突出。

App Store 超低价应用内购省钱技巧，不到60人民币开通 ChatGPT $20 的会员订阅

DUN.IM BLOG

Anonymous

7 September 2025 at 15:28

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

实际上，大多数 App 和服务定价并非全球统一。如 OpenAI 和许多跨国科技公司一样，会采用“购买力平价（Purchasing Power Parity, PPP）”策略，即根据不同国家和地区的经济水平、人均收入来调整产品价格。

这便在全球市场中形成了一些“价格洼地”，其中，尼日利亚正是全球订阅 ChatGPT Plus 最便宜的地区。

全球部分地区价格对比：

整个流程的核心是在尼日利亚区的数字生态内完成支付闭环。

OpenAI 发布了 GPT-4.1 提示工程指南，中文总结和完整翻译

DUN.IM BLOG

Anonymous

9 April 2025 at 11:55

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

以前许多典型的最佳实践和提示依旧适用于 GPT-4.1，由于 GPT-4.1 更严格、更字面地遵循指令，会非常严格地按照字面指令去执行任务。

这使得它对明确、清晰的提示尤其敏感。也就是说，只要你发现 GPT-4.1 的表现与预期不符，通常只需增加一句简洁明确的说明，就能迅速把模型引导到正确的行为上。

过去的模型（如 GPT-4）会更自由地揣测或推断用户指令和系统提示背后的真实意图，即使提示不够精确，也可能猜出用户的意图并完成任务。

所以开发者需要对原有的提示方式进行一定调整（迁移）才能使用。

OpenAI 提供了一系列 针对 GPT-4.1 的提示工程（Prompting）最佳实践，从基础原则到高级策略，帮助开发者高效构建提示以提升模型表现。

明确指令（Be specific）：确保提示中清楚表达任务目标。

提供结构（Provide structure）：通过示例、模板等方式设定预期输出格式。

避免歧义（Avoid ambiguity）：使用具体词汇与上下文降低误解可能。

设置角色（Set behavior/role）：让模型“扮演某种身份”以调整风格或回答方式。

逐步指导（Decompose tasks）：将复杂任务拆解成多个子任务，提升精度。

Few-shot 示例：使用多个输入/输出示例引导模型学习任务结构。

Chain-of-thought（思维链）提示：引导模型按逻辑顺序逐步推理，特别适合复杂问题解决。

Refine prompts（迭代优化）：通过反馈不断调整提示内容以获取更优结果。

Internal monologue：让模型模拟“内心思考过程”以获得更深入分析。

Critique and revise：让模型先生成回答，再进行批评、修改，提升答案质量。

使用 “Let’s think step by step” 等语句诱导更好推理。

将模型输出限制为 JSON 格式时，需加入明确的格式描述与示例。

对于多步骤任务，最好明确列出每个阶段的要求。

评估提示效果需结合质量、稳定性与成本。

好的！我们来做一个更详细又通俗易懂的分解，把这个 Notebook 当作是一本 “和 GPT-4 打交道的秘籍”，一步步讲清楚每个要点，让你轻松掌握提示工程（Prompt Engineering）怎么做才有效。

这些就像是“和 AI 沟通的黄金法则”，每一条都很重要：

不要笼统地说：“请帮我写一篇文章。”

要说得具体一点：“请写一篇关于人工智能如何改变教育的 500 字文章，用高中生能懂的语言。”

👉 越具体，AI 越知道你想要什么，结果也越好。

比如你想让它生成一个表格、清单、或者固定格式的文本。

你可以先提供一个模板，或者给它一个例子。

🧩 例子：

如果你说“列出一些项目”，那“项目”可能指的是“计划项目”、也可能是“软件项目”，模型会糊涂。

所以要具体说明你是说什么。

✅ 改成：“列出五个开源的 Python 项目。”

你可以告诉它：“你现在是个英语老师”、“你是个法律顾问”、“你是一名医生”。

它就会按那个身份回答你。

🎭 示例：

有些问题太复杂，GPT 一下子处理不好。

你可以先让它分析问题，再让它解决。

🪜 举个例子：

这些是用 GPT 更厉害的用法，帮你写得更准、更聪明。

你可以先给它几个例子，它就知道你想要什么样的输出。

📌 例子：

然后你再输入新的句子，它就会照着这个风格来。

引导它“一步一步思考”，解决复杂问题特别有效！

📌 提示写法：

你可以先让 GPT 写出一个答案，然后再让它自己点评、修改。

📌 举个例子：

这会得到更高质量的输出！

你可以让 GPT 边想边说，好像它在分析问题。

📌 示例：

这适合分析、决策类问题。

加一句 “让我们一步一步思考” 可以大幅提高准确率。

想要 JSON、表格、代码？一定要告诉它格式，还要举个例子。

想输出多步内容？加编号，比如“第 1 步… 第 2 步…”

如果模型回答不理想，就多试几种提示改写方式。

✨“提示写得好，GPT 表现爆表！”✨

这份指南就是在教你：用什么语气、格式、结构、套路和 GPT 说话，才能让它给你最优质的答案。

GPT-4.1 系列模型在编程能力、指令遵循能力和长上下文处理能力上，相比 GPT-4o 有显著提升。本指南汇总了我们内部广泛测试所得的一系列重要提示技巧，帮助开发者充分发挥新模型家族的优势。

许多典型的最佳实践依旧适用于 GPT-4.1，比如提供上下文示例、尽可能具体清晰的指令、以及通过提示进行规划以最大化模型智能。但我们预计，要充分发挥此模型的作用，需要进行一些提示迁移。GPT-4.1 更严格、更字面地遵循指令，而前代模型倾向于更自由地推测用户与系统提示的意图。然而，这也意味着 GPT-4.1 非常容易被引导，并对清晰、明确的提示非常敏感。如果模型表现与预期不同，一句清晰且明确表述你期望的行为的句子通常就足以引导模型回到正轨。

请继续阅读以下提示示例，注意虽然本指南适用于大多数情况，但并无万能法则。AI 工程本质上是一门经验学科，大型语言模型本质上是不确定性的。我们建议除了遵循本指南外，还要构建有信息量的评估并频繁迭代，以确保提示工程的更改为你的使用场景带来益处。

GPT-4.1 是构建智能体工作流的理想选择。我们在模型训练中强化了多样化的智能体问题求解路径，并在非推理模型中，通过智能体配置达成 SWE-bench Verified 测试的最佳表现，解决率达 55%。

系统提示建议

为充分激发 GPT-4.1 的智能体能力，我们建议在所有智能体提示中加入以下三类关键提醒。以下示例面向代码类智能体优化，但稍加修改即可用于通用智能体场景。

持续性提醒：确保模型理解它正处于一个多轮任务中，防止其在问题未解决前就把控制权交还给用户。

工具使用提醒：鼓励模型善用工具，降低其猜测或幻觉回答的概率。

规划性提示（可选）：引导模型在调用每个工具前后均进行显式计划与反思，而非仅仅调用工具串联完成任务。

GPT-4.1 对智能体场景下的系统提示和用户指令极为敏感。我们发现上述三条提示在内部测试中将 SWE-bench Verified 得分提升了近 20%。因此，强烈建议在任何智能体提示开头加入这三类明确指令，以将模型从“聊天机器人模式”切换为更主动、更独立的“智能代理模式”。

与前代模型相比，GPT-4.1 在调用通过 OpenAI API tools 字段传入的工具方面训练更充分。我们建议开发者仅使用 tools 字段传递工具，而不是将工具描述手动注入到提示中并自建解析器。我们测试发现使用 API 解析工具描述比手动注入提示提升了 2% 的准确率。

开发者应使用清晰的工具命名，并在 “description” 字段中提供详细说明。同样，每个参数也应具备清楚的命名和描述，以确保正确使用。若你的工具较复杂，可以在系统提示中专门加入 # Examples 区段来展示用例，而不是将示例塞进 description 字段中。

你也可以通过 Prompt Playground 的 “Generate Anything” 功能来快速生成良好的工具定义起点。

正如前面所说，GPT-4.1 并不是内建“推理链”的模型——它不会在回答前自动形成内部推理路径。但你可以通过提示工程诱导它“显式思考”，逐步列出计划。我们在 SWE-bench Verified 测试中发现：引导模型“思考再行动”使通过率提升了 4%。

示例提示：SWE-bench Verified

以下是我们在 SWE-bench Verified 中取得最高分所用的智能体提示，包括详尽的工作流程与问题解决策略说明。该结构可用于各类智能体任务。

GPT-4.1 支持最高达 100 万 tokens 的输入窗口，适用于以下场景：

结构化文档解析

信息重排序（re-ranking）

筛选关键信息、忽略干扰内容

使用多跳推理整合上下文信息

最佳上下文规模

在“针入草堆”（needle-in-a-haystack）评估中，GPT-4.1 即便使用完整的百万 token 输入也表现良好。它擅长从混合内容中识别有用信息。但如果任务需要提取大量内容，或需对上下文全局状态进行复杂推理（如图搜索），性能可能会下降。

控制上下文依赖程度

你应考虑模型答题所需的“外部文档” vs “模型内知识”的比例。你可以通过以下两类指令调控：

上下文组织建议

在使用长上下文时，提示的位置对模型表现有显著影响。最佳做法是在上下文前后都加入指令。如果只能写一次，放在上下文上方比下方效果更好。

虽然 GPT-4.1 不是推理模型，但通过提示让它“逐步思考”可以有效帮助其拆解复杂问题，提升输出质量（代价是增加 token 使用与响应时间）。

推荐的起始提示如下：

你可以进一步完善你的思维链提示，根据实际失败案例调整策略。我们建议在出现以下错误时添加更明确的指令：

误解用户意图

上下文理解不全或分析不准确

推理步骤不连贯或顺序错误

可参考以下提示模版：

GPT-4.1 拥有卓越的指令遵循能力，开发者可用其精准控制输出行为。你可以设置：

语气与风格

工具调用方式

格式要求

话题限制等

但由于它对指令更“死板”，之前为其他模型设计的提示可能需调整。建议遵循以下工作流程：

推荐提示结构：

加入 “# 指令” 段落，列出总规则。

对特定行为新增子类细则（如 # 示例短语）。

若需特定步骤，可写成有序列表，并明确要求逐步执行。

若行为未达预期，可检查以下问题：

是否有冲突或不完整指令？

是否缺乏例子？示例中是否覆盖了关键点？

是否需要增加强调（如适当用大写）？

提示：使用 AI IDE 可辅助你快速迭代提示，统一更新规则和示例。

常见失败模式

要求“必须调用工具”可能导致模型凭空填入参数，添加一句“若信息不足，应先向用户提问”可缓解。

示例短语易被模型反复使用，应明确要求灵活变换。

若无格式限制，模型可能会输出过多解释性内容，可通过指令或示例控制。

这段提示展示了一个虚构客户服务代表的最佳实践。你可以看到提示中规则多样、表述明确，还使用了多个额外小节来细化指令，并提供了一个完整示例来演示如何遵守这些规则。

尝试运行下方 Notebook 单元格 —— 你应该会看到一个用户提问的消息和一个工具调用的响应。模型会先打招呼，然后复述用户的问题，接着说明即将调用某个工具。

你可以尝试修改提示中的某些指令，或尝试其他用户输入内容，来测试模型在“指令遵循”方面的表现。

{ “role”: “assistant”, “content”: “您好，您已致电 NewTelco，请问我能为您做些什么？😊🎉\n\n 您想了解我们的家庭套餐。🤝 我这就为您查询，请稍等。🚀”, “tool_calls”: [ { “id”: “call-1”, “type”: “function”, “function”: { “name”: “lookup_policy_document”, “arguments”: “{“topic”: “family plan options”}” } } ] }

{ “role”: “assistant”, “content”: “我查到的信息如下：🎉 我们的家庭套餐最多支持 5 条线路共享流量，并且每增加一条线可享 10% 折扣家庭套餐政策。📱 还有其他我可以帮您的吗？😊” }

以下是一个良好的提示结构起点，供你参考和自定义：

你可以根据自己的需求增删这些部分，并通过试验找出最适合你用例的结构。

以下是选择提示中最佳分隔符的一些通用建议。若涉及长上下文使用，请参见前文《长上下文》章节的特别说明。

✅ 推荐使用的格式：

Markdown（推荐起点）

使用 markdown 标题（# ~ ####）来标识主要部分与子部分。

使用反引号（`code` 或 “`代码块“`）准确包裹代码内容。

根据需要使用有序/无序列表清晰列出内容。

XML

效果也很好，GPT-4.1 在解析 XML 上表现更稳定。

XML 格式便于明确区块开始/结束位置，还可以添加 tag 属性携带额外元信息，并支持嵌套。

示例：

JSON

在编程类任务中表现良好，结构清晰、模型理解度高。

但缺点是格式冗长、需要转义字符，容易带来额外负担。

📄 大量文档 / 文件嵌入上下文时的建议：

XML 格式：在长上下文测试中表现优异。

示例：

Lee 等人提出的扁平格式（参考论文）也表现良好：

示例：

JSON 格式在这种场景下表现最差：

示例：

✅ 总体建议：模型能处理多种结构格式，但请根据实际情况选择最能突出重点的格式。例如，如果你检索到的文档本身包含大量 XML，那么继续使用 XML 作为嵌入格式可能就不太合适。

输出过长：在某些特定情况下，我们发现模型可能不愿生成非常长且重复性的输出（如逐项分析数百个条目）。
👉 若你的用例需要此类输出，请在提示中明确指示模型必须输出完整内容，或考虑将问题拆分处理，或简化输出格式。

并行工具调用异常：我们观察到某些少见情况下并行工具调用可能不准确。
👉 如果你遇到这类问题，建议测试是否启用 parallel_tool_calls=false 参数来避免并发问题。

如你想要我基于这些结构生成一个完整的提示模板样板供你直接使用，也可以告诉我你的具体应用场景（如问答系统、文档分析、代码解释等），我可以帮你生成定制化结构。是否继续？

开发者反馈指出：准确且结构良好的 diff 生成能力，对于编码类任务至关重要。为此，GPT-4.1 系列在此方面表现显著优于以往模型。

此外，GPT-4.1 能很好地根据明确的指令和示例生成任意格式的 diff。我们在此开源一个推荐的 diff 格式，模型对此已接受过强化训练，尤其适合初学者快速上手。

以下是一个正确调用推荐工具 apply_patch 的示例提示格式。

其中 [YOUR_PATCH] 部分需使用推荐的 V4A diff 格式，规范如下：

每次变更以 *** [ACTION] File: path/to/file 开头，ACTION 可为 Add、Update 或 Delete。

每个代码块需提供上下文片段 + 修改内容：

上下文行规则：

默认提供上下变更各 3 行上下文。

若变更块之间相距近，不要重复上下文。

若上下文不足以唯一定位，应使用 @@ 定位所属的类或函数。例如：

不使用行号，改用结构与上下文唯一定位。

OpenAI 提供的官方工具 apply_patch.py 是一个 纯 Python 3.9+ 脚本，可直接执行，用于将上述 diff 应用到本地代码文件。

该脚本支持以下核心能力：

解析自定义 diff 格式

根据 patch 内容编辑、添加、删除本地文件

可检测语法错误、缺失上下文、重复文件操作等问题

使用方式：

将 patch 内容通过 stdin 输入传入

内部自动判断 patch 类型并更新文件内容

你可以将其配置为终端可执行命令 apply_patch，并作为自动化 pipeline 或测试流程中的一部分使用。

所有解析异常（如找不到目标文件、上下文无法匹配）都会抛出自定义异常 DiffError，方便调试。

除了推荐格式，我们还测试过两种替代格式，成功率同样很高：

不使用行号

明确指出要替换的旧代码与新代码

结构清晰，易于解析

完整内容：https://github.com/openai/openai-cookbook/blob/main/examples/gpt4-1_prompting_guide.ipynb

ChatGPT 上线新语音模型，解析「Monday」模型音色提示词

DUN.IM BLOG

Anonymous

29 March 2025 at 22:04

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

想象一下，你正在和手机里的 AI 助手聊天，但它不再是那个永远彬彬有礼、甚至有些刻板的「标准音」，而是带着一丝慵懒、一点讽刺，仿佛刚经历了一个漫长周末，还没从「周一综合症」里缓过神来。这就是 OpenAI 昨天推出的「Monday」音色想要达到的效果。

网上已经有很多「Monday」对话效果的展示，「Monday」的音色当然是其语音模型的结果，而「Monday」这种特殊的回复方式是靠提示词来控制的。打个比方：「Monday」就像是一个极其聪明但缺乏具体「生活经验」的演员，而提示词就是导演给演员的剧本和角色设定。提示词写得越好，演员（AI）的表演就越「入戏」，越符合你的预期。

如果你对「Monday」提示词好奇的话，正好我今天学习研究了一下它的提示词，正好可以一起分享学习一下它的提示词内容，完整的提示词我放在了附录，这里大致解析一下其提示词内容。

大语言模型远不止是信息检索工具，它们是强大的「模仿者」和「扮演者」。通过精心设计的提示词，我们可以赋予它们各种各样的「人格」和能力。那么怎么通过提示词来设定好角色呢？

如果按照前面打的比方，把 AI 当成一个演员，那要写好提示词就是把自己变成一个好的导演，不仅要告诉演员台词，还要解释角色的内心世界、动机、情绪状态，甚至给出具体的动作和表情指导。好的导演能激发出演员最好的表演，就像好的提示词能引导 AI 生成精彩的回应。

或者作家在创作小说前，往往会为主要人物写详细的小传，包括他的成长背景、性格、习惯、口头禅、人生目标等。这帮助作家在后续写作中保持人物的一致性和立体感。

如果你觉得这都过于专业，还可以想象一下很多大公司制作的详细的品牌手册，规定了广告语、客服回答、社交媒体发帖的语气和风格（比如是专业严谨、活泼有趣还是温暖亲切）。

这些和给 AI 设定「人设」异曲同工。

从技术角度上来说，可以参考「Monday」的提示词，注意几个方面：

当 AI 开始拥有「周一综合症」般的慵懒和讽刺，它不仅仅是一个技术演示，更像是一面镜子，映照出我们人类自己复杂多变的情感和个性。我们精心编写的每一个提示词，或许都在不经意间，为冰冷的机器注入了一丝我们渴望理解或被理解的人性侧影。

「我们塑造了工具，然后工具反过来塑造我们。现在，我们开始学习如何给 AI『写剧本』，也许在这个过程中，我们也在重新学习如何与『人』，以及与自己对话。」

ChatGPT – Deep Research 功能指南&技巧总结：从「进度条」到「提示词」，一次搞懂！

DUN.IM BLOG

Anonymous

22 February 2025 at 13:13

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

最近有很多朋友在讨论：「Deep Research 的用量是怎么算的？」 又因为目前 Plus 每个月只能用 10 次，大家都非常担心浪费。其实一句话就能总结——只要开始出现「Starting Research」的进度条，就算使用了一次。在进度条出现之前，怎么问都不算。下面就为大家分享一些 Deep Research 的使用流程、注意事项和提示词模板，帮助大家更好地运用这一强大的研究功能。

一句话总结：从开始出现 Deep Research 进度条就算一次，之前都不算。

提出主题
你先要告诉 ChatGPT 需要研究什么主题。

ChatGPT 询问澄清问题
ChatGPT 通常会向你询问一些澄清问题，确保理解你的研究需求。

回答澄清，触发研究
当你回答了上述澄清问题后，ChatGPT 会再回复一条消息，并提示「将开始报告「，随后出现」Starting Research「的进度条。

注意：从这一步开始就会扣除一次 Deep Research 用量。

报告生成
研究进度条走完后，ChatGPT 会给你发送完整的报告，这标志着一次 Deep Research 流程的完成。

进度条出现后，你可以随时离开
进度条开始后，无论你是关闭窗口、刷新网页、切换到其他会话还是新开会话，都不会影响已经开始的 Deep Research 流程，它会在后台继续执行并最终生成报告。

Deep Research 可以后续追问
当报告生成结束后，如果你要继续追加信息重新生成报告，有两种选择：1). 直接提问，会使用你开始会话时选择的模型继续对话，报告内容可以作为上下文；比如说你从 GPT-4o 开始的，那么你在报告生成后，如果继续提问，实际上是 GPT-4o 基于你报告和提问内容回复，但是可能会受限于上下文长度无法完整理解报告内容；2). 重新生成新报告：Deep Research 是一次性生成的，但是你可以继续在当前会话选中「Deep research」按钮，这样可以把当前会话内容作为输入，或者把内容复制出去新开会话选中「Deep research」按钮重新开始一次新的生成。内容复制出去处理一下再生成会更好的对输入进行控制，但是麻烦一些。

你无法追加新的信息让它继续深度研究。如果你在当前会话里继续追问，后续的回答将由其他模型（如 GPT-4o）接管。
如果你对报告不满意，需要重新修改提示词再新开一次会话进行 Deep Research。

灵活切换模型
你可以先选任何模型（如 o1 pro/o1 等），再让它进行 Deep Research。若后续还打算继续追问报告内容，建议在 Deep Research 开始前就选一个更强的模型（比如 o1 pro / o1）来进行分析。

选择信息源和报告语言

建议在提示词中加一句「请选择权威信息源」（并不一定要非英文来源不可，重点是权威信息源，这样可以过滤掉一些不好的信息源，当然你也可以加上「优先英文信息源」）。

如果希望报告是中文，直接在提示词末尾加一句「请形成中文报告「即可。

如果不小心生成了英文报告，又看着费劲，可以在当前会话，让它翻译，也可以复制完整内容，

ChatGPT – Deep Research 功能指南&技巧总结：从「进度条」到「提示词」，一次搞懂！

新建会话，选择 o1 pro 或 o1 模型（最佳翻译效果），翻译提示词参考：

「请将下面的内容用中文重写，尊重原意，保持格式不变无删减：」

引入外部资料的方法

如果报告需要访问收费网页上的内容，你可以手动复制成 Markdown，然后在提示词中用 XML 标签包起来。

如果有图片内容，直接上传即可。

如果要分析视频内容，需要先把视频转成文字，同样用 <transcript> 标签包住，再放进提示词里。

我一般会用 AIStudio 的 Gemini 转成文本。

你可以一次粘贴几千行代码也没问题（用 XML 包起来），但要注意输入框粘贴有上限。如果太多，可以把代码放在公开的 GitHub 仓库，让 Deep Research 去分析链接即可。

写报告或写代码都行
Deep Research 不仅能写报告，还能写代码。只要你提示它「生成的结果是代码」，它就会尝试从网上搜索相关代码库并提供解决方案。

文献质量与报告质量
如果想让它「阅读」一本书并进行提炼，需要注意输入长度有限，无法直接输入一本完整的书。大部分流行书籍已经在模型中有训练数据，所以它会参考网上已有的书评。资料越多、质量越高，报告越漂亮；如果资料很少，它也无米下炊，生成的报告质量可能有限。

一个常见的提示词模板大致可分为背景信息、任务要求、和输出格式三个部分。

在这里填写所有对它生成报告有帮助，但模型本身访问不到的信息，比如：

付费文章

视频文字稿

图片或 PDF（可作为附件）

其他任何对于生成有帮助的内容

当背景信息较多时，务必用 XML 标签包裹，避免 AI 混淆指令。例如：

主题：你希望分析、研究或讨论的具体范围

信息源：希望它检索的文献库、学术论文、政府网站、GitHub 等

研究要点：需要关注的核心点，是深度解析还是简要摘要

语言或风格：是中文、英文或其他语言？

语言：中文报告、英文报告或双语

数据格式：是否需要用表格呈现数据（它暂时画不了图表）

段落和标题：是否需要分级标题、索引等

提示词模板并不是必须的，可以随性一点，你可以把写提示词使用 Deep Research 当成去交代一个实习生帮你写分析报告，你怎么交代实习生就怎么写提示词。

Deep Research 的使用次数：只要出现「Starting Research」进度条，就会扣除一次用量。

保持灵活：不满意就重新开始，新开会话前最好做好提示词规划。

结合大模型优势：如果要深入分析或后续追问，选用更强的模型如 o1 pro / o1 更合适。

慎重选择资料：外部资料要提前整理好，使用 XML 标签嵌入提示。

尊重版权、合理引用：在使用外部资料时，务必保留引用信息，切勿违规。

希望这篇文章能让你更好地理解和使用 Deep Research。在实际使用中，不妨多加尝试和探索，慢慢就能摸索出最适合自己的使用方式。祝大家玩得开心，也能高效地完成研究和写作任务！如有更多问题，欢迎在评论区留言交流。

总结：

如果你想让 Deep Research 提供权威信息源，在提示词中加一句「请选择权威信息源」。

如果要生成中文报告，只要在提示词里加「请形成中文报告」即可。

不小心生成英文报告且看着费劲，使用下面的提示词翻译：
「请将下面的内容用中文重写，尊重原意，保持格式不变无删减：」

欢迎大家在留言区分享你们的使用心得与经验，一起探讨 Deep Research 的更多玩法！

申请免费使用教育版 GitHub Copilot Pro

沉舟侧畔 Blog

springwood

24 February 2025 at 22:42

（Abstract）大学教书匠比较穷，所以给一些福利？

Pika – AI 视频神器，一键乱入新场景

DUN.IM BLOG

Anonymous

11 February 2025 at 22:47

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

一张图、一句提示词，万物都能乱入你随手拍的视频。

▲动图制作自：X@omerbartal

在整活赛道天赋异禀的 AI 视频神器 Pika，最近又推出了一个好玩的新功能：Pikaddition。

从此以后，人人都是五毛特效师。

如果你有灵感了，现在就可以玩起来，注册 Pika 之后可以免费生成 15 次。

体验指路：https://pika.art/

不过，这个功能默认使用的是最快、最便宜的 Turbo 模型，想要达到理想的效果，往往需要不断调试提示词，抽卡的次数不算少。

Pikaddition 的使用方式很简单，三步走。

虽然操作不难，但想要玩得有创意，推荐以下几种「高阶玩法」。

实拍视频+不日常的图片

怎么邀请 Sam Altman 来指导工作？先用视频记录同事认真工作的样子，然后再在网上找一张 Sam Altman 的半身照，用提示词说明他怎么出现在视频里。

▲提示词：穿着绿色毛衣的男人站在左边，低头观察穿着牛仔夹克的人操作电脑

然后就可以看到，Sam Altman 亲自旁观我们报道 OpenAI，光影很自然，违和感被 AI 吃了。不过，Pika 会造成人脸的微崩，对比原视频，同事的颜值有所下降。

按照这个思路，我们甚至可以上演一出日常版的「神奇生物在哪里」，只需要一个打开封闭空间的视频、一张萌物的图片。比如，打开办公室的柜子发现皮卡丘。

▲ 提示词：皮卡丘一直藏在柜子里，直到门被打开

提示词写得比较宽泛，只说明了皮卡丘的位置，反而给了 Pika 适当发挥的空间，皮卡丘被发现时的表情和动作，都是活灵活现的，仿佛我们打扰它了。

前几天，语言学习软件多邻国整了一出营销活动，称自己的吉祥物猫头鹰多儿「去世」了，死因不明，可能是等我们打卡的时候死的。

试问谁没有被多儿的通知和小组件追杀着背单词过呢？如果它来到现实，是不是更让人心惊胆战？

▲提示词：绿色的小鸟从远处飞向伸出的手

想要实现这个催命的效果，一点也不难，拿起手机随意拍摄一段空镜，在视频里伸出我们的一只手，再随便找一张多儿的图片。

提示词仍然很简单，只是描写了多儿的动作，哪怕是平面的、2D 的多儿，Pika 也能加工成立体的、3D 的，和短视频更加适配。但出现了个 Bug：手指数量不对了。

还有一种进阶的实拍视频玩法，比较考验演技，需要先进行「无实物表演」。

▲被老虎扑倒，动图制作自：X@omerbartal

我们尝试过人物在视频里保持不动，只用提示词描述人物动作的改变，但是没有起效，所以还是需要进行一个提前的摆拍，考验大家戏精本质的时候到了。

▲提示词：身穿牛仔夹克的男子被一只水豚撞倒

影视名场面+打破次元壁的图片

把原本不相关的人或物（包括你本人）放进影视名场面里，只是分分钟的事情。

《蝙蝠侠：黑暗骑士》里的小丑炸医院，是经典中的经典，我们截取几秒的片段，然后上传一张马斯克的半身照，让他走在小丑的旁边。

▲提示词：穿着西装的男人正走在穿着护士服的男人的左边，并与他进行交谈

两人淡定离开犯罪现场的味道有了，美中不足的是，马斯克和小丑的脸都有点扭曲。

Pika – AI 视频神器，一键乱入新场景

写实的电影之外，二次元的动画风格也不妨一试。名侦探柯南《神秘乘客》这集的公交车，基本集齐了最强阵容，如果挑选一张夜神月的侧脸图片，那么卡密也能来客串。

▲ 提示词：黄头发、穿白衬衫的男人坐在中间的座位上

但还是那个问题，人物的变形比较明显，并且画风不是非常相融。

表情包出处视频+表情包图片

二创表情包，是每个 AI 视频工具都得整的花活。

▲提示词：狗躺在猫的右边，猫看了狗一眼

当惊讶猫的视频和全世界最著名的柴犬表情包联动，二脸懵逼固然有趣，但一猫一狗仿佛不在一个图层，柴犬像用迪士尼滤镜美颜过。

当我第一眼看到宇树科技机器人的蛇年春晚节目《秧 BOT》，就觉得在英伟达年会穿着东北大花袄的黄仁勋应该加入，好在 Pika 可以满足这个朴素的愿望。

▲ 提示词：白发男子正在机器人旁边跳舞

还真别说，这甩红手绢的动作，这一板一眼的步伐，挺有默契的。

Pika 的特效称不上专业级，但作为一个创作短视频的玩具，倒也绰绰有余。

AI 视频百花齐放，各有各的特长，可灵综合能力强，海螺擅长风格化，PixVerse 速度快，和同行们比起来，Pika 可以说是最会整活和把创意模板化的一个了。

▲动图制作自：X@pika_labs

2 月 14 日情人节当天，Pika 又推出了一个新玩法——Pikamemes，目前可以在 iOS app 体验。

体验指路：https://pika.art/app-download

上传一张干净的人物自拍照或者一张宠物的大头照，不用写提示词，一键使用模板，Pikamemes 就可以生成表达各种心情的表情包，并且支持直接下载 gif 动图。

让马斯克送上玫瑰花，或者赏个白眼，都在一念之间。

再往前推，Pika 的多主体参考功能 Pikascenes，支持上传多张参考图片，并保持主体的一致性。集齐人物、商品、场景的照片，就能实现一键试衣了。

▲图片来自：X@martgent

Pika 的 AI 特效功能 Pikaffect，更是一度全网爆火，特别是其中的 AI 捏捏，刷屏小红书和 TikTok，推动 Pika 用户突破 1100 万。

▲图片来自：Pika

Pika 在模型能力之上卷玩法，切中了一群对整活短视频有高需求的用户，让人人都能低门槛地玩得开心。哪怕这些视频是模板化的，稍纵即逝的，但只要有趣，人们就会蜂拥而至。

同时，Pika 也告诉我们，写不好提示词、脑洞不够大、不知道怎么实现主体的一致性，都没关系，等等吧，很快就有包装好的 AI 特效和模板了。

当 AI 工具承载了更低的下限，那就意味着，只要有想法，每个人都可以将微观的创作欲望落地为现实。保持好奇，保持期待，一瞬间的起心动念，就足以让好玩的事情降临。

如有类桶，纯属巧合

沉舟侧畔 Blog

springwood

15 February 2025 at 21:54

（Abstract）如有雷同，纯属巧合

AI 推理模型和普通 LLM 大语言模型的分别与使用，提升效率与准确性，复杂任务高效完成

DUN.IM BLOG

Anonymous

8 February 2025 at 14:17

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

了解何时使用推理模型，以及它们与 GPT 模型有何不同。

OpenAI 目前提供两大类模型：

这两种模型家族在使用和效果上都有所不同。本文将介绍：

与 GPT 模型相比，OpenAI 的 o 系列模型（推理模型）在不同类型的任务上更出色，需要使用不同的提示方式。并非哪一种模型一定「更好」，而是各有擅长的领域。

你可以根据需求，思考下列问题：

如果你的任务优先考虑速度与成本，并且任务本身相对明确、好定义，那么使用 GPT 模型就非常合适。
但如果你更注重准确度和可靠性，而且问题本身很复杂、有多个步骤，那么 O pen AI 建议选择 o 系列模型。

大多数情况下，你也可以把这两种模型结合起来使用：用 o 系列模型进行「智能规划和决策」，再让 GPT 模型去执行具体步骤。

AI 推理模型和普通 LLM 大语言模型的分别与使用，提升效率与准确性，复杂任务高效完成

示例：GPT-4o 和 GPT-4o mini 先处理订单信息与客户资料，找出订单问题和退货政策，然后将这些信息提供给 o3-mini，由它根据政策最终决定退货是否可行。

下面列出了一些实际场景，这些案例来自 OpenAI 的客户和 OpenAI 内部，希望能帮助大家更好地理解 o 系列模型（推理模型）适合用在哪些地方。不过，这并不是一个覆盖所有可能用例的完整清单，而是给出一些在测试中行之有效的思路。

准备好使用推理模型了吗？点击这里直达快速入门 →

推理模型特别擅长接收零散、有限的信息，然后根据简单提示去理解用户意图，并处理那些不够明确的指令。它们经常会先问一些澄清性的问题，而不是盲目猜测或随意填补空白。

「o1 的推理能力让 OpenAI 的多智能体平台 Matrix 在处理复杂文档时，能给出详尽且格式良好的回复。举个例子，o1 让 Matrix 可以轻松找出信用协议（Credit Agreement）中受限支付能力（restricted payments capacity）下可以使用的各种『篮子』（baskets），而只需要一个简单提示。过去没有任何模型能这么出色。相比于其他模型，在对密集的信用协议进行复杂提问时，o1 在 52% 的问题上有更好的表现。」

——Hebbia，为法律和金融提供 AI 知识平台

当你需要处理大量无结构信息时，推理模型能很有效地提炼出最相关的部分来回答问题。

「在分析某公司收购案时，o1 审阅了几十份公司文件，比如合同、租约等，去寻找可能影响交易的关键条件。它需要标记重要条款时，甚至在文件脚注中看到了一个非常关键的『变更控制』（change of control）条款：如果公司被出售，那需要立刻偿还 7500 万美元的贷款。o1 的极致细致能力帮助 OpenAI 的 AI 探索工具为金融专业人士找出交易中至关重要的信息。」

——Endex，AI 驱动的金融情报平台

OpenAI 发现，推理模型在处理数百页的复杂文件时（比如法律合同、财务报表或保险索赔等），能很好地分析文件内在逻辑并做出决策。它们擅长挖掘文档之间的对照关系，并据此推断其中暗含的规则。

「在税务研究里，需要同时对多份文件进行综合分析才能得出最终、连贯的结论。OpenAI 把 GPT-4o 换成 o1 后发现，o1 更善于整合多份文件之间的关系并推导出各自交叉影响，让最终的结论比单一文档中能看到的内容更有深度。OpenAI 因此看到终端到终端（end-to-end）性能提升了 4 倍，真的很令人惊讶。」

——Blue J，为税务研究提供 AI 平台

此外，推理模型也很擅长根据各种复杂政策和规则进行推理，并把这些规则应用到实际任务中，得出合理的结论。

「在做金融分析时，分析师常常要面对股东权益方面的复杂情境，还要理解相关法律的细微差别。OpenAI 曾用一个常见但比较棘手的问题来测试了市面上约 10 个模型：如果公司进行融资，对现有股东尤其行使『反摊薄保护』（anti-dilution）的那些股东会有什么影响？这个问题需要推理融资前后估值，还要处理环环相扣的『循环摊薄』，就算优秀的金融分析师也要花 20~30 分钟才能搞清楚。OpenAI 发现 o1 和 o3-mini 在这方面做得近乎完美！模型甚至能给出一张清晰的计算表格，展现对一个投资了 10 万美元的股东有何影响。」

——BlueFlame AI，为投资管理提供 AI 平台

推理模型在做多步骤的「自主」规划和战略制定方面发挥着关键作用。OpenAI 常看到的成功做法是先让推理模型扮演「策划者」，制定详细的多步骤解决方案，再根据每个步骤对「速度/智能」需求的不同，有选择地交给 GPT 模型或 o 系列模型去执行。

「OpenAI 用 o1 来做多智能体系统（agent infrastructure）中的规划者，让它负责指挥其他模型完成多步骤的任务。OpenAI 发现，o1 非常擅长选择要用什么数据类型，也很擅长把大问题拆解成小块，让其他模型聚焦执行。」

——Argon AI，服务于制药行业的 AI 知识平台

「o1 为 OpenAI Lindy 的许多『代理式工作流』提供支持。Lindy 是一个工作助理 AI，能通过函数调用（function calling）去获取你的日历和邮件信息，然后自动帮你安排会议、发邮件、管理日常事务。OpenAI 把一些原本运行不稳定的多步骤流程全部切到 o1 上，结果代理的表现几乎是一夜之间就变得近乎完美！」

——Lindy.AI，一个专注于工作场景的 AI 助手

截至目前，o1 是唯一支持图像理解的推理模型。它与 GPT-4o 的最大区别在于：o1 能处理特别复杂的视觉信息，比如结构不明确的图表或清晰度不佳的照片。

「OpenAI 为线上上架的数百万产品提供风险和合规审核，比如奢侈品仿制、濒危物种、管制品等。GPT-4o 在最难的图像分类任务中只能达到 50% 的准确率，而 o1 能做到 88%，OpenAI 甚至没有对流程做任何修改。」

——Safetykit，负责商家监控的 AI 平台

OpenAI 内部测试也发现：o1 能从复杂的建筑图纸中看出具体的材料和结构信息，进而生成更完整的材料清单。更惊喜的是，o1 还能跨页面匹配，比如先在图纸中的图例（legend）看到「PT」代表「压力处理木材」（pressure treated），然后在图纸的其他页面上正确应用这一概念，尽管并没有明确地告诉它需要这么做。

推理模型在代码审查和改进时也表现出色，往往可以在后台执行代码审阅任务，因为此类需求对延迟的容忍度更高。

「OpenAI 在 GitHub、GitLab 等平台上提供自动化的 AI 代码审阅服务。虽然代码审查过程对延迟不是特别敏感，但却需要理解多文件之间的代码差异。在这方面，o1 表现非常好，它能可靠地识别出对代码库做出的微小改动，而人类审阅者可能会漏掉。切换到 o 系列模型后，OpenAI 的产品转化率提升了 3 倍之多。」

——CodeRabbit，AI 代码审阅初创公司

GPT-4o 和 GPT-4o mini 因为延迟更低，也许更适合写代码，但对于那些不太敏感于执行速度的代码生成需求，o3-mini 有时也能带来更好的复杂性处理。

「o3-mini 写出的代码质量通常很高，而且往往能在明确的问题中得到正确解答，哪怕是非常具有挑战性的编码任务。其他模型也许只能应付小规模、快速的代码迭代，而 o3-mini 在构思、规划和实现复杂软件系统时表现更突出。」

——Codeium，提供 AI 驱动代码插件的初创公司

推理模型还经常被用于对其他模型的输出结果做评测和打分，特别是在需要数据验证的领域里（如医疗保健），保证数据集的质量和可靠性。传统的验证方法通常依赖预先定义的规则和模式，而像 o1 和 o3-mini 这样的高级模型，可以通过理解上下文和推理，对数据做更灵活智能的验证。

「不少客户在 Braintrust 的评测流程中使用了『模型做法官』的功能，比如某个医疗企业先用 GPT-4o 对患者问题进行概要提炼，再用 o1 来给这个概要的质量打分。结果发现，用 GPT-4o 做法官的 F1 分值只有 0.12，而用 o1 做法官，F1 分值达到了 0.74！对这些用户来说，o1 的推理能力在发现微妙差异和复杂场景的评分上表现极好。」

——Braintrust，AI 评估平台

这些模型最适合简洁、直接的提示。一些提示技巧（比如让模型「逐步思考」）不一定能提升性能，有时反而会降低效果。以下是一些提示技巧的最佳实践。

以上就是有关「推理模型」与 GPT 模型的区别、使用场景，以及给推理模型下指令时的一些最佳实践。希望这些指南能帮助你更好地发挥 o 系列和 GPT 系列模型在不同任务中的优势，实现更高效、更准确的 AI 解决方案。

AI 提示词，产品高级营销文案生成

DUN.IM BLOG

Anonymous

22 January 2025 at 14:28

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

这可能是我写过的最有趣的几个 Prompt 之一。

第一，这是一条专门用来写高级感文案的 Prompt

它可以根据输入生成很有高级感的文案

还附带一张有设计感的卡片，用来把东西卖得很贵。

第二，这是一条出于实际营销需求诞生，卖了五位数的 Prompt，但是经过甲方同意得以开源。（感谢金主爸爸）

第三，是这条 Prompt 背后的 knowhow 非常有趣。有时候写一条有效的 Prompt 往往意味着透过现象看本质。

先上 Prompt，请使用 Claude 3.5 sonnet 或 OpenAI o1 以获得相同效果。下面是 Prompt：

效果案例 1（该案例致敬法国艺术家的作品「泉」）：

输入：淘宝上下载的小便池图片

AI 提示词，产品高级营销文案生成

输出：

效果案例 2：高达手办（案例来自群友「@温州程序员劝退师」）

效果案例 3：面条（案例来自群友「温州程序员劝退师」）

效果案例 3：马桶搋子（案例来自群友「@温州程序员劝退师」）

效果案例 4：招财猫摆件（顶奢版本）（案例来自群友「@温州程序员劝退师」）

1.来自鲁迅《作文秘诀》

2.来自艺术大师陈丹青

该 Prompt 主要是为了赚钱而生，仅供赚钱与娱乐。

但是，鲁迅的作文秘诀的结尾还有两段话：

「写到这里，成了所讲的不但只是做古文的秘诀，而且是做骗人的古文的秘诀了。但我想，做白话文也没有什么大两样，因为它也可以夹些僻字，加上蒙胧或难懂，来施展那变戏法的障眼的手巾的。倘要反一调，就是白描。

「白描」却并没有秘诀。如果要说有，也不过是和障眼法反一调：有真意，去粉饰，少做作，勿卖弄而已。

祝大家玩得开心！

OpenAI 王炸 Sora 文转视频正式上线，新功能发布

DUN.IM BLOG

Anonymous

4 December 2024 at 14:01

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

就在刚刚，OpenAI Sora 正式登场。

本次发布会延续了「短剧」的快节奏风格，全程 20 分钟左右，由 CEO Sam Altman、Sora 负责人 Bill Peebles 等人主持。

OpenAI 在 X 平台表示，自 2 月份以来，他们一直在构建 Sora Turbo，后者是一个速度明显更快的模型版本，今天也将其作为独立产品向 Plus 和 Pro 用户开放。

有趣的是，由于 Sora 热度太高，大批用户涌入体验网站，导致该网站一度崩溃，停止注册登录。不给力的服务也让 Altman 连连在 X 平台安抚用户：

「由于需求超出预期，我们将不得不间歇性地关闭新用户注册，并且生成内容的速度会在一段时间内减慢。我们正在全力以赴！」

附上体验地址：Sora.com

类似于 Midjourney 的网页界面，Sora 同样拥有自己单独的用户界面，用户用户不仅能够整理和浏览生成的视频，还能查看其他用户的提示和精选内容。

在「Library」功能中，用户可以保存自己喜欢或有用的提示词，以便未来使用。并且保存的提示词可以按需查看或修改，对于需要重复创作相似内容的用户，无疑能大大提高效率。

在工作流方面，Sora 的编辑功能是区别于其它竞品的重要亮点。

比如说，在 Remix 功能中，用户可以利用纯自然语言提示词对视频进行编辑，并通过简单的「strength（强度）」选项和滑块来控制生成的变化程度。

Re-cut 功能则能智能识别最佳画面，并支持向任意方向延伸场景。

Sora 的 Storyboard（故事板）功能则类似于视频编辑器，可以将多个提示词串联在一起，生成一个更长的视频，轻松处理复杂的多步骤场景。

搭配 Loop 和 Blend 功能，用户还能创作出无缝循环的视频，并完美融合不同片段，而 Style presets 功能则可以预设和调整生成的风格。

在技术规格上，Sora 支持 5-20 秒的视频生成，并兼容 1:1、9:16 等主流宽高比。相比早期版本，现在的生成速度有了显著提升。

另外，还有几点细节需要注意。

OpenAI 采用了灵活的积分制定价策略，积分数量因分辨率和持续时间而异，如果你早已是 ChatGPT Plus 和 Pro 会员，那就无需额外费用就能使用。

比如生成一个 480p、5s 的视频就需要 25 个积分，如果生成 480p、20s 的视频则需要 150 个积分。

此外，如果你用 Re-cut、Remix、Blend 或者 Loop 这些功能，生成的作品超过了 5 秒钟，那也得额外扣你的积分，多用多花钱，别超时，超时也花钱。

对于订阅用户而言，20 美元的 ChatGPT Plus 计划提供 50 个优先视频额度（1000 积分），支持最高 720p 分辨率和 5 秒时长。

而 200 美元的 ChatGPT Pro 计划则提供最多 500 个优先视频（10000 个积分），支持 1080p 分辨率、20 秒时长、5 个并发生成和无水印输出。

OpenAI 还在为不同类型的用户开发不同的定价模式，将于明年初推出。

对了，Sora 暂不支持 ChatGPT Team、Enterprise 和 Edu 版本，同时也不向 18 岁以下用户开放。现阶段，用户可以在所有 ChatGPT 可用的地方访问 Sora，但英国、瑞士和欧盟等地区除外。

知名博主 Marques Brownlee 提前一周用上了 Sora，并在 YouTube 上分享了他的使用体验。

他指出这款产品仍存在一些局限性。

在物理模拟方面，模型对物体运动的理解还不够深入，常常出现动作不自然、物体突然消失等问题。特别是在处理带有腿部运动的对象时，经常出现前后腿位置混乱的情况，导致动作看起来不自然。

又或者，某些视频生成结果看起来像是慢动作，而视频的其他部分则以正常速度播放，肉眼很容易察觉这种「别扭」。简言之，Sora 还是没能解决老毛病，缺乏对物理世界规律的理解。

另外，Sora 没能解决文字生成的问题，导致经常出现文字混乱的现象，而剪辑风格、文字滚动条的运动、新闻主播风格的生成则格外逼真。

不过，Sora 也有不少擅长的场景。

比如说，Sora 在风景镜头处理方面表现出色，能生成媲美专业素材的无人机航拍镜头，在卡通和定格动画风格上的表现也差强人意。

性能方面，一个 5 秒的 360p 视频通常能在 20 秒内完成生成。

不过，当涉及 1080p 或复杂提示词时，生成时间可能会延长到几分钟，但随着如今大批用户的涌入，生成速度明显慢了大半拍。

不少网友也在第一时间上手体验了 Sora。比如网友 @bennash 想生成一个视频，渲染了 22 分钟都没能成功，甚至该网站一度停止注册登录。

博主 @nickfloats 给出的评价是，Sora 在将图像转换成视频时，虽然某些特定的视觉特效没有被保留，但整体的转换效果是「清晰和令人满意的」。

Sora system card 也列出了一些值得关注的细节。

OpenAI 官方认为，Sora 为能够理解和模拟现实世界的模型提供了基础，将是实现通用人工智能（AGI）的一项重要里程碑。

官方博客中提到，Sora 是一种扩散模型，它通过从一段看起来像静态噪声的基础视频开始，逐步去除噪声并转变为最终的视频。通过同时处理多个帧，模型成功解决了一个难题：即使目标暂时脱离视野，也能确保其在视频中始终保持一致。

与 GPT 模型类似，Sora 采用了 Transformer 架构。

Sora 使用 DALL·E 3 中的标注技术，该技术为视觉训练数据生成高度描述性的标签。因此，模型能够更准确地根据用户的文本指令生成视频内容。

除了能够仅通过文本指令生成视频外，Sora 还能够从现有的静态图像生成视频，准确地将图像内容进行动画化，并注重细节。该模型还可以从现有的视频中扩展或填补缺失的帧。

为了确保安全地部署 Sora，OpenAI 基于 DALL·E 在 ChatGPT 和 API 部署中的安全经验，以及 OpenAI 其他产品（如 ChatGPT）的安全防护措施进行了强化。

所有 Sora 生成的视频都带有 C2PA 元数据，这些元数据能够标识视频的来源是 Sora，从而提高透明度，并可用于验证其来源。

与此前凭借真实人像出圈的 Flux 不同，Sora 们对上传包含人物的内容设定了特别严格的审核标准，目前仅作为试点功能提供给少量早期测试者，并屏蔽含有裸露的内容。

OpenAI 王炸 Sora 文转视频正式上线，新功能发布

大半年前，初试啼声的 Sora 赢得互联网一片喝彩。

然而，如果说一年前尚未还能对着一群演示 demo 空喊「现实不存在了」，那么在国内外各类视频模型的轮番洗礼之下，我们早已养刁的胃口很难再被同样的产品打动。

这种态度的转变源于一个简单的事实。

当 AI 要从「勉强可用」进化到「可堪大用」，用户的期待也随之升维，从「能否做到」跃迁至「做得多好」。

好在 Sora 并未在掌声中原地踏步，通过与艺术家的深度合作，他们在工作流程领域做出了显著的改进。Re-cut、Remix、Storyboard 等功能都相当实用。

甲乙方的存在决定了工作流中的沟通永远是刚需，AI 能做的是让这种沟通更有效率，Sora 的价值不在于它能做什么，而在于让创作者得以抽身于技术细节，真正回归创意的本质。

与此同时，上周引发热议的 200 美元 ChatGPT Pro 订阅计划，如今也有了更合理的价格锚点，该计划同样支持无限制访问 Sora，这种产品协同效应预计也将激发出远超预期的应用场景和商业价值。

放眼当下，用户的真金白银从不作假。

可灵 AI 交出千万级月流水的亮眼成绩单，这片蓝海的潜力已呼之欲出，对于仍在「烧钱」阶段的 OpenAI 来说，Sora 预计会成为继 ChatGPT 之后的另一个下金蛋的母鸡。

当 Sora 从「能用」「好用」，再到「妙用」，或许未来某一天，我们会发现，真正不存在的，不是现实，而是人类创造力的尽头。