NYT | Top Stories
The Mideast Is Baffled by Trump’s Call to Expand Abraham Accords
28 May 2026 at 17:31

The Mideast Is Baffled by Trump’s Call to Expand Abraham Accords

By: Vivian Nereim， Isabel Kershner and Elian Peltier

28 May 2026 at 17:31

The president said more countries should be required to recognize Israel as part of a deal to end the war with Iran. Analysts say the chances of that happening are close to zero.

President Trump with leaders from Israel, Bahrain and the United Arab Emirates at the signing of the Abraham Accords in Washington in 2020.

用 Codex 优化网速狂飙 900Mbps？实测之后我发现了新的隐藏玩法

爱范儿

By: 张子豪

26 May 2026 at 11:47

昨天，Codex 再一次重置了额度，我们的账号从剩余 10% 又回到了剩余 87%。

Codex 负责人 Tibo 在 X 发文，

有些用户注意到 Codex 中的缓存限制消耗得更快，我们发现根本原因是之前的一个优化措施，该措施在长时间运行的会话中进行压缩时会影响缓存命中率，我们已将其回滚。

我们已修复此问题，并已重置所有账户的使用限制。祝您周末愉快。

于是又想着还可以用 Codex 来做点什么，刚好就在 X 上刷到了「我用 Codex 提升了我的电脑网速，从 400Mbps 到 900Mbps。」

内容真的很有噱头，用 Codex 竟然能优化本地的网络？网速不应该是受限于路由器，或者网络服务提供商 ISP 这些上层设备吗？

这则推文的评论区也有不少网友提出了质疑，「所以 Codex 最终改变了电脑上的什么配置？」、「鉴于如今 AI 的强大技术，我真的无法判断这是否是诱饵。」

博主做出解释，Codex 帮助他把电脑上的 auto tuning level 从关闭调回了 normal 正常。auto tuning level 是说系统会根据网络延迟、带宽和拥塞情况，动态决定一次能接收多少数据，从而提高网络的速度。

他还给出了自己用的提示词。

嘿，我朋友说他的网速提高了，情况是这样的。你能帮我看看我们家的网络有什么可以改进的地方吗？我的网络供应商说他们提供的带宽是 1.2k Gbps，而我实际的网速是硬件问题。我现在只有 55Mbps，请帮我解决这个问题，别出错了。

我的目标很简单，就是让我的互联网速度更快。
问题已诊断：首先运行了 speedtest-cli。
检查了 DNS 解析时间，
检查了 MTU、丢包率、Wi-Fi 信号/干扰情况。
发现 3 个问题。
已删除过时的网络位置/配置文件。
终止或限制占用大量带宽的后台进程。
优化 mDNS。
进行了测试前后的速度测试和延迟检查。

这套提示词来自另一个 X 博主@cjzafir，他分享了自己使用 Codex + GPT 5.5 的实际案例，里面提到了 Codex 5.5 让他的网速变快了，本地运行的 6B 小语言模型速度更快了，以及 Macbook Pro 运行速度也像新的一样快等等。

我们也拿着这套提示词发给 Codex，在要求 Codex 处理网速问题前，先用中国科学技术大学测速网站 https://test.ustc.edu.cn/ 看了一下大概的速度，基本上下载速度在 100Mbps 左右，上传是在 200 Mbps 左右。

Codex 确实按照这些诊断，从 DNS 解析时间，数据包、网络配置等方面，检测并修复了对应的问题，累计处理时间超过五分钟。

最后 Codex 得出的结论是「我检查并做了能安全完成的修复。」它找到了 3 个存在的问题，分别是 DNS/缓存异常、负载延迟很高，以及有线千兆网卡没有在用，Wi-Fi 不能作为 1Gbps 的验收依据。

再次测试，发现似乎并没有很明显的网速提升。

有人问那位博主，是不是使用的 Mac 电脑，他回复说是 Windows，底下还有网友科普，Mac 的网络配置都是固定了，Codex 一般是无能为力。

所以这次轮到 Windows 用户来享受 Codex 网速提升服务了？还有 Linux。

有评论说，「以为是用 Codex 入侵了网络服务提供商，然后提高了流量限制」，结果只是 Codex 帮忙清理了一下 DNS 缓存。

但也有网友分享照着这个方法，成功复现了，Codex 确实让它的网速变快。

大家要是感兴趣也可以试试，不过 Codex 修改这些网络配置还是有一定的风险，评论区还有人提到 Codex 把他原有电脑的网络配置都删掉了，然后 Codex 跟他说，删掉它们是为了让网速更快。

这些涉及到 Computer Use 的使用案例，大概都会有类似的问题，除了每一次更细心的看懂允许 Codex 执行的是什么命令，还可以在提出任务时，就要求它解释清楚它要做的每一步。

如果不做修改，只是让 Codex 去诊断一些可能存在的网络配置问题，我想也比那个一直停留在进度条的自带 Windows 诊断要强。

开始了，Codexmaxxing

当大家都在讨论 Codex 是否能真的提升网速时，也有网友提到这种用法其实是一种启发。

他说这种做法的核心价值在于靠案例驱动，让 AI 直接参考成功的经验，再针对自己的具体情况进行精准诊断和优化，而类似的提示词技巧在 Agent 产品上将非常有效。

这很像 Codex 里面的 /goal 命令，给他一个目标，这个目标可以是我们自己设置的，也可以是其他用户已经有的成功案例，Codex 照着这个目标，自己去摸索可以实现的路径。

在社交媒体上，也有很多人开始分享这些写目标的模板，以及 OpenAI 的工程师也专门写了一篇文章来讲清楚什么是目标，如何用好目标来发挥 Codex 的最大价值。

/goal <期望的最终状态>，通过 <具体证据> 验证，同时保留 <约束条件>。使用 <允许的输入、工具或边界>。在各次迭代之间，如果受阻或没有剩余有效路径。

也有人认为这只是 Codex 的早期阶段，所以我们才需要学习这么多的提示词技巧，无论是使用案例驱动还是使用 /goal 命令，本质上都是为了让 AI 能更好的理解人类的需求。

就像 Midjourney 、Nano Banana 刚推出时，我们都热衷于找各种公开的提示词；而现在使用 GPT Image 2 在大多数的生图场景下，基本上都不需要专门的提示词格式，就能得到不错的效果。

等到 Codex 越来越好用，我们或许也不再需要这些官方使用模板。但从另一个角度来看，或许就是在这种模仿使用的过程中，我们才会更知道 AI 是如何提升我们的生活和工作效率。

因此，除了提升网速，我们还看到了一些 Codex 的其他玩法。像是使用 Codex 的定时任务，让它每天早上自动产出一份对应行业的日报；还有让 Codex 也能获得自我进化，从过去的对话里面提取出有用的技能；以及直接构建一个 macOS 应用；把 DeepSeek 接入 Codex 客户端等。

▲ 图片来源：X@hqmank

我们也继续尝试了一下那套让 Codex 自进化的提示词，它花了 7 分钟，帮我们创建了 3 个 Skills。

▲ 提示词来源：https://x.com/reach_vb/status/2058538305872949490

感觉这套提示词不仅仅可以用在 Codex 里面，几乎所有的 Agent 产品，都可以用它总结出一些可复用的流程，以子 Agent、Skill，或者自动化的形式重新编排。

回顾我最近 30 天的工作，若历史记录不足则查看所有可用历史，并识别值得打包的重复性手动工作流。

按以下顺序使用可用证据：
– 最近的 Codex 会话和任务摘要。
– Codex Memories 和 rollout 摘要，用于寻找跨会话重复出现的模式。
– 如果启用了 Chronicle，用它发现 Codex 之外的重复工作。Chronicle 仅用于发现；重要细节尽量回到相关源系统确认。
– 现有技能、自定义智能体和自动化，优先复用或扩展已有内容，避免重复建设。

广泛寻找那些重复、耗时、容易出错、依赖上下文，或适合标准化流程的工作。范围包括编码、研究、写作、规划、沟通、运营、分析，以及个人事务管理。

只有满足以下条件时，才把候选项纳入：
– 至少出现过两次，或明显会重复出现且重复成本高；
– 输入稳定、步骤可重复，并且输出或结束条件明确；
– 能明显提升速度、质量、一致性或可靠性；
– 当前还没有被充分覆盖。

选择最小且合适的形式：
– Skill：可复用的工作流或操作手册。
– 自定义子智能体：适合委派的、有边界的专项角色或调查任务。
– 自动化：定时或周期性的检查、报告、提醒或监控。
– Skip：过于一次性、模糊、敏感，或证据不足，不适合打包。

先输出一个简洁候选清单，包含：
– 重复工作流
– 支持证据与日期
– 频率 / 置信度
– 推荐形式：skill、subagent、automation、扩展已有内容，或 skip
– 为什么值得或不值得创建

然后只创建高置信度且当前缺失的项目。保持范围狭窄、实用、了解数据来源，并且容易验证。不要创建猜测性的、重叠的，或过于宽泛的资产。

最后总结：
– 你创建或扩展了什么
– 你刻意跳过了什么
– 哪些内容还需要更多证据后才能打包」

我们还依照 Tibo 分享的使用 Codex 来取消我们不需要的付费订阅服务，由于订阅项目较少，但是有很多无意中订阅的 newsletter，所以我们输入「请查看我的电子邮件，列出我付费订阅的所有服务，以及订阅了哪些邮件通知，并和我确认哪些需要取消订阅。」

Codex 很快就调用了浏览器使用的工具，打开 Gmail，检查我的电子邮箱，发现付费订阅的项目较少，着重为我列举了一些「可退订的邮件通知」。

Codex 会自动搜索相关的邮件

新加入 OpenAI 的员工 Jason Liu 也分享了如何榨干 Codex 的用法，他提到自己喜欢使用 Codex 的语音输入功能，所有的对话线程不再一次性重置，而是跨对话保留上下文，以及使用 Obsidian 库来作为 Codex 的持久记忆层。

前段时间，我们分享了一篇文章，是说几乎所有模型公司，都要做自己的 Agent 产品，模型公司和产品公司之间的界线会越来越模糊。

OpenAI CEO Greg 在 X 发文也提到他认为仅凭模型本身已经不再是产品；Google AI Studio 负责人 Logan 在跟帖中回复，模型、工具和产品之间的共生关系如今已成为一种趋势。

从目前来看，Codex 大概会是体现 OpenAI 模型能力最有力的一个产品。

▲ Codex 重新设计了网站主页，让它更像是一个能为所有人提供帮助的 AI 工作助手，而不是仅限于帮助开发者做代码补全

Codex 负责人 Tibo 提到「总体规划是发布更好、更高效的模型，并且每周都发布更好的产品。还要增加计算能力。」

能从龙虾、Claude Code 这些先占领市场的 Agent 产品里脱颖而出，Codex 的进展确实让人值得期待。不过， Tibo 还贴心地提醒我们，好用，也记得多出去走走，Codex 没法替我们体验真实的生活。

▲ 龙虾之父已经对 Codex 上瘾了，留言说起来容易做起来难

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

NYT | Opinion
As a Doctor, I Can Understand the Allure of ChatGPT
24 May 2026 at 18:00

As a Doctor, I Can Understand the Allure of ChatGPT

NYT | Opinion

By: Helen Ouyang

24 May 2026 at 18:00

Even doctors can learn something from A.I.

Codex 这波大更新后，Mac 的含金量再次提升

爱范儿

By: 张子豪

22 May 2026 at 17:43

「如果这条推文获得了一个赞，Codex 重置额度限制。」

已经数不清这是今年以来，第几次的限额重置了。奥特曼前两天在 X 发文，让 Codex 负责人 Tibo 再一次重置了使用限额。

网友做了一张梗图，每当一个人想走向 Anthropic 或 Gemini 时，奥特曼站在后面默默按下 Codex 限额重置的按钮，这个人就会回头，然后被拉回到 OpenAI。

OpenAI 这半年也因为出圈的 Codex 收获了一大批的新用户。外媒报道 OpenAI 第一季度营收达到了 57 亿美元，比 Anthropic 高出 10 亿美元，Codex 是主要因素。

▲ OpenAI 营收相关数据，季度营收达到 57 亿美元，年化收入 250 亿，第一季度调整后的营业利润率为 -122%，本季度周活跃用户平均约为 9.05 亿，在 2 月份的周活跃用户数曾达到约 9.2 亿，第一季度的付费用户数量为 5500 万，高于去年年底的约 4700 万。

我们在之前介绍过 Codex 的入门指南，从 ChatGPT 官网下载安装到连接手机上的 ChatGPT App 实现远程控制，都有详细的步骤。

不少读者在评论区留言，Codex 确实好用；也反馈了不少问题，像是下载 Codex 后仍需绑定手机号才能使用。我们的测试也发现登出之后再登录，确实会被要求绑定手机号。

这个时候，建议先在浏览器中进行登录，即主动打开网址 https://auth.openai.com/log-in 提前登录好。再回到 Codex 中登录，弹出的登录链接，只会显示要求授权即可，不会再有绑定手机号的提示。

不同的账号可能会遇到不同情况，大概也是眼下 OpenAI 在 Codex 这边投放了太多的算力，不希望被用户太轻易地薅走羊毛。

今天凌晨，Codex 又上新了一大波的新功能，现在只要按下电脑上的 Command-Command 键，就可将应用程序窗口附加到 Codex 的对话线程里。Codex 会自动获取窗口的屏幕截图和文本，包括屏幕上不可见的内容，作为对话的上下文。

以前还要自己手动截图，现在 Codex 不仅能处理截图，还能直接读到一整个应用窗口的信息。

此外，上次更新的在 ChatGPT App 内操作电脑上的 Codex 这一次也升级了，之前的选项是保持 Codex 常开，现在是即便电脑锁屏了， ChatGPT 同样能远程操作 Codex。

/goal 命令这次也从实验室版本来到了正式推出。之前我们分享多 Agents 协作时，就有读者提到 /goal 功能和多 Agents 类似，它们都是把一个任务当做一个项目来进行管理，有完整的目标生命周期，通过不同的机制来完成迭代。

/goal 最早是 4 月底出现在 Codex CLI 中，有了它确实也能更好的处理越来越多的长任务。

不过遗憾的是，无论是按 command 还是锁屏后继续远程控制，这些都是 macOS 平台的更新，对于 Windows 用户，只能等 OpenAI 的推进。

有网友说，「Mac 用户总是能享受到好东西，而 Windows 用户只能眼巴巴地看着，哈哈。」不得不说，Mac mini 作为 AI PC 的含金量还在增加。

省去很多麻烦的应用快照

这项功能叫 Appshots，开启它的方式也很简单，更新 Codex，在应用设置下，找到「应用快照」，就有一段视频教程，并且可以自定义快捷键。

不过需要注意的是，按下 command 键是指按下键盘上，空格键左右两边的两个 command 键，而不是单击两次。

在任何界面同时按下两个 command 键之后，Codex 会自动捕获页面截图，并快速打开 Codex 将截图放在输入框。我们可以针对这个窗口快照提出问题。

但基于 Codex 的能力，这个窗口快照不单是一张图片的 OCR 文本提取。Codex 可以再这个窗口的基础上，进一步使用 Computer Use 和 Chrome 自动化等功能。

▲ 图中只是在 Codex 的文章开头按下了 command，但是 Codex 不单是处理这张截图，而是会根据 Chrome 的能力，读取整个窗口。

例如，我们在飞书文档的文章开头同时按下了 command 键，然后告诉 Codex 要求它看看这个窗口讲了什么。Codex 会使用 Google Chrome 的工具，自动对网页进行浏览以获取更多的上下文。

这是它和一般截图最大的差别，除了把截图内容放进了上下文，Codex 还会自动把窗口的信息，来自哪个应用等状态信息，同步发送给 Codex。

▲ Codex 识别到了开头之后的文章内容

例如我们在微信里阅读公众号时，也能按下两个 command 键，开启 Appshots。但这里有一个小 Bug，当 Codex 使用 Computer Use 来控制微信的窗口，上下滑动公众号，退出图片的预览时，直接把微信给登出了。

▲暂不知道是微信识别到机器人操作的原因，还是 Codex 误操作，在退出图片预览时，直接退出了微信。建议用小号尝试 Computer Use 在微信中的应用。

官方在宣传视频里介绍 Appshots 时，同样不是简单地将它作为一张截图来使用，而是结合了 Computer Use 和 Google Chrome 来使用。

像是直接要求它修改我们的备忘录内容。

▲花了两分钟，帮我把备忘录的内容修改成了中英双语显示，直接在原备忘录上进行修改

还有也不用再复制什么图片，直接 command+command 然后告诉他生图提示词，对图片进行编辑。

▲ 在浏览器中打开了一张图片，告诉他生成涂鸦版本

就是这种应用多做了一步的感觉，我们就减少了很多 AI 的使用负担，让 Codex 的体验也变得更加丝滑。

/goal 的保姆级使用指南

在对话框内输入斜线，我们就能看到有「目标」的快捷选项，「设置 Codex 将持续努力实现的目标。」

目标存在的价值是作为一个独立存在的任务定义，而不是普通的对话提示词。Codex 会反复根据目标来判断「还该做什么」和「是否已经完成」，自动一轮接一轮的推进，直到任务完成、暂停或者烧到 Token 上限。

这两个判断也是目标的核心机制，即「延续」和「完成审计」。「延续」是在每轮结束后，自动注入提示，让模型决定下一步。「完成审计」是要求模型对照目标逐条核对。

Goal 模型最容易踩坑的地方，就是随手写一句话放进去。要写好一个 Goal，关键原则是 Codex 要能判断是否完成了。

官方在帮助文档也提到，好的目标应包含具体的结果、可衡量的指标或测试标准。他们给了一些案例，像是将项目从一种编程语言迁移到另一种编程语言。

把这个项目从 JavaScript 迁移到 TypeScript。

要求：以 strict 模式编译通过，不允许出现显式的 any 类型。

还有更直接的要求，「把首页的可交互时间压到 1 秒以内。」

这些例子都是有着具体的可验证标准，并不是「优化一下」、「完善一下」这种虚词。

▲ 图片来源 Goal 官方使用教程：https://developers.openai.com/cookbook/examples/codex/using_goals_in_codex

如果没有想到具体标准，Codex 建议是先跑 /plan。让 Codex 和我们讨论一轮，把验收标准定清楚，再切回普通模式下 /goal。

还有一些实用小建议是，可以在 goal 文本末尾加一句 Use a token budget of 80000 tokens for this goal，用来设置 Token 预算。

以及不要在一个会话的开头就发送 /goal，而应该是先给这个项目其他的需求，有一定的雏形，再给它目标。

锁屏了，Codex 还能操作你的电脑

除了这些大的更新，Codex Thursday 还带来了很多体验升级的功能。

Locked Computer Use 是最值得一提的一项，简单来说它就是能让 Codex 在 Mac 锁屏之后，仍然能在后台操控桌面应用完成任务。

网友对这项功能的评价，都集中在这是突破性的，这很有未来感的同时又很吓人。

如果 Codex 能够在没有活跃用户会话的情况下运行 Mac 应用，这或许是迈向持久 Agent 基础架构的第一步。

若要使用锁屏后继续操作的功能，必须由我们手动开启，并且输入密码。打开的方式同样是在设置里，找到电脑操控，开启锁屏操作。

正常的 Computer Use 需要屏幕处于解锁状态，Codex 才能「看到」并操作界面。这个功能打破了该限制，我们可以把 Mac 合上或锁屏，然后从手机、iPad 或另一台设备远程发起 Codex 任务，它会自动临时解锁、完成操作、然后重新锁上。

Codex 为此安装了一个 Apple Authorization Plug-in（苹果官方授权的认证插件），接入 macOS 的解锁流程。当有活跃的 Computer Use 任务时，插件允许 Codex 临时解锁屏幕；任务窗口之外，解锁权限直接拒绝。

OpenAI 也对这个功能做了几层约束，防止它变成其他危险操作的后门：

解锁窗口极短，仅限当前 Computer Use 操作期间有效
覆盖所有显示器，临时解锁期间屏幕内容对物理旁观者不可见
检测到本地输入立即重锁——有人碰了键盘或鼠标，自动暂停，要求手动解锁
这个路径只对 Codex 开放，其他应用或本地进程无法借道

另一项高级标注的功能，则是我们在使用 Codex Vibe Coding 某个网页时，通过 Codex 内置的浏览器打开，同时还提供了直接在网页内容上进行修改的标注工具。

除了 Codex 这一系列的更新，今天 ChatGPT 也上新了一项新功能，ChatGPT 现在可以直接在 PowerPoint 中创建和编辑演示文稿，并且还能使用 GPT Image 2 生成用于 PPT 里面的图片。

Codex 越来越好用的同时，钱包燃烧的速度也在加快。

我们的 Pro 账号，每周使用限额要到 27 号重置，但是今天（22 号）就只剩下 10% 了。只能在心里默默「作法」，祈祷它再一次重置。

如果这篇文章获得了一个赞，你的 Codex 有可能重置额度限制。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

Krea AI iOS – 免费使用 Seedance 2.0 视频模型

DUN.IM BLOG

By: Anonymous

15 May 2026 at 15:56

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

在 AI 视频模型领域，字节 (ByteDance) 的 Seedance 2.0 模型能力备受瞩目。即便与 Google 旗舰级 Omni 模型相比，其在角色一致性与物理逻辑的表现上仍具显著优势。

Krea AI 的 Seedance 2.0 列为付费模型，但 iOS 移动端应用 当前出现了权限 Bug？当前可以无需消耗订阅额度，直接调用包括 Seedance 2.0 在内的多个高级模型。

本操作目前仅限 iOS 平台，且不排除官方在未来修复（Hotfix）此权限。

在实际测试中，Seedance 2.0 的生成速度与质量表现如下：

为验证 Seedance 2.0 的多动捕物理特性与光影渲染，可参考以下复杂的镜头提示词：

What Silicon Valley Is Coming for Next

NYT | Opinion

By: Nadja Spiegelman， Kyle Chayka， Sophie Haigney and Vishakha Darbha

21 May 2026 at 00:20

Hint: It comes from inside of you.

体验完腾讯发布的 Marvis 助手，我发现个人 AI 的尽头是操作系统

爱范儿

By: 莫崇宇

19 May 2026 at 19:49

1995 年，微软内部搞过一次颇具乌托邦色彩的尝试。

他们觉得当时的 Windows 系统操作太复杂，于是想把电脑桌面直接做成一个普通人看得懂的「房间」。你想打字就点桌上的笔记本，想看时间就点墙上的挂钟，不用思考那些反直觉的操作路径。

这个产品叫 Microsoft Bob，结果上市没多久就光速下架了。原因五花八门，但究其根本，它并没有真正渗透进系统底层，只要用户的需求稍微复杂一点，就只能无能为力了。

三十年后，很多 AI 助手依然没有完全走出这个困境。

最近我体验到了腾讯新的 AI 助手 Marvis 马维斯，终于看到了一些不同。

相比于别人都在卷谁是 AI chatbot，Marvis 想干的是直接把整台电脑变成你可以随意使唤的搭档。官方给它的定位也正儿八经，叫「操作系统层级的个人 AI 助手」（官网：marvis.qq.com）。

不过，当我知道它背后是那个做了 14 年应用宝的团队时，就不觉得意外了：这种长期在 PC 和移动端底层生态里打拼的出身，恰恰意味着它不仅懂 AI，更懂设备和系统。

目前，Marvis 已率先覆盖 Windows PC 与 Android 手机端，iOS 和 macOS 版本也在推进中。APPSO 也在评论区准备了一些福利邀请码，手慢无。

六个 Agent，一支随时待命的私人 AI 团队

安装过程不算复杂，但对设备有点要求。Windows 端最低门槛是 8 核 CPU、16GB 内存加上固态硬盘。而且据官方透露，未来还会逐步兼容 6 核。

市面上很多 Agent 产品动辄让用户自己去搭工作流、安插件，Marvis 则是开箱即用，六个 Agent 零配置上手，对普通用户非常友好。刚进界面，里面已经有六个 Agent 在 7×24 小时待命了。

六个 Agent 都有自己的工位。没接到任务的时候，有的在打盹，有的在办公室里闲逛，有的在健身，有的在喝咖啡，还有的直接去上厕所，一旦你发出指令，任务就会拆解分配给对应的成员。

这是一个分工明确的团队：PM 负责听懂你的需求，拆解任务往下派活；File Agent 处理文件的搜索、阅读和格式转换；Computer Agent 专门对付系统配置、查硬件、调夜间模式；APP Agent 负责在各种软件里代为操作，比如查个机票或者电商比价；Search Agent 负责快速从公开资源中定位答案并给出关键引用；最后是个 Browser Agent，定位是网页交互专家，进行网页交互与数据抓取。

任务链比较长的时候，看看这些动画也是别有一番趣味。

最有意思的是，这些 Agent 可以并行工作。举例而言，我先抛出一个需求：「电脑开机太慢了，帮我看看哪些自启动程序没用，帮我关掉。」

注意看，工作日志里还会显示 Token 消耗量，每天的免费额度是 2000 万 Token，堪堪够用。

结果显示，它给每个程序配了「人话版」说明，建议你哪些是可以按需、保留的第三方软件。重点是，涉及这种核心配置修改的操作，它会主动和你确认一下，才会执行。这种「AI 不会自作主张」的机制，稳得让人心安。

电脑用久了，总会碰到几个反复折磨人的小问题。「查看电池健康状况」「网速感觉变慢了，帮我测一下现在的上传下载和延迟。」「想玩个新游戏，帮我检测一下硬件配置，对比最低要求看看差在哪。」

以前遇到这些事，要么去开始菜单里找设置，要么去网上搜教程。现在，说一句话就行了。

Marvis 深度对接了系统信息和配置入口。它能看到硬件参数，也能直接修改系统设置。它不是帮你打开「控制面板」然后让你自己找，而是直接把事情办了。对于那些不熟悉电脑设置的人来说，这块的体验是最直观的。

举个例子：你想关掉 Windows 锁屏上的广告，你知道它在设置里叫什么吗？叫「关闭 Windows 聚焦」，有多少用户知道这个术语是关广告的？

但 Marvis 能帮你一句话关掉。

本地文件时代，迎来 AI 入口

为了测它的能力，我还翻出了一件困扰已久的事：两个月前从某个群里下载的一张截图，只记得内容是关于《黑神话：悟空》，文件名完全忘了。

我输入：「帮我找一下关于《黑神话：悟空》的图片或截图，大概是一个月前的事儿。」

说实话我没抱太大希望。

但 Marvis 接单后，首先根据 Skill 指引，按文件名关键词和时间范围筛选出 1000 张照片，然后用 Python 快速筛选整个结果文件，并最终找到 8 张候选图。

第一张正是我要找的那张。

而且它的搜索范围极其宽泛：文件名、文档内容、图片里的景、截图里的字，全覆盖。哪怕描述模糊，它也都能捞出来。这个能力，比 Windows 自带的搜索确实强出了一大截。

当然，一听到「扫描图片」，可能会有人担心隐私。首次使用时你可以自己设定扫描范围。如果在生成的图谱里看到不想被索引的内容，右键一键屏蔽即可。而且端侧模型本身自带基础过滤，不是无差别的扫描。

除了找文件，Marvis 还能对本地的文档、表格等多种类型文件做深度理解和分析——支持内容优化、图表生成、文案润色、格式转换，帮原本费时费力的事情变得顺手。

比方说，下载了一批学术论文，摞在那里不知道从哪里读起。直接问 Marvis：「扫一遍这几篇 PDF，告诉我每篇的研究问题、方法和主要结论。」几分钟内，哪几篇值得细读、哪几篇可以先放着，心里就有数了，不用一篇一篇翻摘要。

再比如读完《三体》，笔记记了好几页，马上要在课上分享，手动整理提纲、挑内容、套 PPT 模板，少说也要折腾一两个小时。

但让 Marvis 根据读书笔记，生成一份 PPT，它能读懂笔记里的逻辑和层次，不需要手动复制粘贴再套模板，理解内容之后直接生成。

手机接管电脑，随时随地都能干活

手机遥控操作电脑，则是非常实用的跨端体验。去官网下了 Windows 客户端，再给手机安上 Marvis App，用同一个微信或 QQ 登录，还能直接连通两端。

具体来说，手机 App 连上电脑后，可以在手机上实时看到电脑桌面，并用触屏直接操控。哪怕电脑处于锁屏状态，手机依然可以接管，不需要电脑一直保持解锁状态。

比如我人在外面，突然听到朋友说前阵子新出了一款《洛克王国：世界》游戏，这时我就可以掏出手机输入：帮我在电脑上安装《洛克王国：世界》，回到家就能玩上了。

连接微信 ClawBot，也是没问题的，微信扫码登录后就能开启对话。

但我认为最实用的场景，是给家里长辈远程排查电脑问题。爸妈说「QQ 打不开了」，以前要么电话里盲猜，要么回家处理。现在直接接管他们的桌面，扫一眼就知道问题出在哪。前提是你的手机端 Marvis 马维斯，要能连接爸妈家里的电脑端马维斯，手机端是支持连接多个 PC 设备的。

而如果电脑断网了，手机端会自动切到云 Marvis 模式，支持独立调用云端能力，大部分任务依然能跑。并且这里还有一个独家绝活：在电脑上直接操控手机里的 App。同花顺、飞常准等应用已经在对接合作，这也得益于应用宝团队多年的跨端引擎积累。现在应用宝在移动端、pc 端、车载上都有支持，跨端研发经验充足。

和其他桌面 Agent 一样，Marvis 也支持自定义自动任务。

比如设置一个「深圳厚德品园二手房均价提醒」，填好任务说明——「查询最新二手房均价并通知用户」，再指定执行时间为每周一上午 10 点，之后什么都不用管，到点自动运行任务，并直接推送结果。

另一个值得单独说的功能，是技能（Skill）的自定义扩展。Marvis 支持一键安装专属技能包，提供了不少第三方 Skill，当然，你也可以导入自己常用的 Skill 文件，把它改造成更贴合个人工作流的样子。

有特定行业需求的用户，比如内容创作，理财投资、学术研究等等，不用依赖官方迭代，自己就能把对应的知识库和操作逻辑装进去。

最后，主打出活的 Agent 都绕不开最关键的问题：安全。

Marvis 马维斯提供了两种模式：效率模式和隐私模式。

设置里切到「隐私模式」，Marvis 会加载本地端侧模型，无论是文档还是图片的检索、解析、识别等，全部在本地运行，文件不会出你的电脑，甚至断网了都可以使用。官方所说的「数据不出域」，在拔掉网线的那一刻，有了最真实的体现。

不过，体验「隐私模式」的门槛比较高，要求 16 核以上的处理器、32GB 内存、16GB 显存起步，固态还得匀出 35GB 空闲。

所以平时日常使用切回「效率模式」即可，理解和规划由云端大模型（混元和 DeepSeek V4）完成，执行在本地，速度更快。两种模式按需切换。

让 PC 真正开始「理解」人

我们现在用电脑的方式，本质上还是上世纪八十年代的逻辑：一个需求对应一个软件，你要去找它、打开它、学习它的规则来完成任务。四十年来，软件更多，设置更复杂了，但这套逻辑并未改变，普通用户和电脑之间的距离，也没有真正缩短。

Marvis 的逻辑反过来了：先理解这台电脑里有什么，再决定为你做什么。

拿我爷爷来说，他用了几年电脑，至今不知道「控制面板」在哪。但他知道电脑开机慢，知道想找一张老照片。过去，这个解法是打电话求助子女；现在，就算他不会打字，也可以直接在微信 Clawbot 或者手机马维斯上，把需求说出来，电脑就会帮他做。

文件搜索、系统设置、跨端控制、自动任务、隐私模式、Skill 扩展，看上去是几个不同功能，背后指向的其实是同一个方向：个人 AI 不应该只是一个问答入口，而应该成为设备里的任务调度层。

多说一句，我觉得 Marvis 是有审美的。虚拟办公室动画、任务进度呈现等细节，让它不像冷冰冰的 AI 工具，更像一个有秩序、有分工、也有生活气的小型工作室。

它尤其适合几类人：文件多且乱的本地重度用户；重视数据隔离的财务、法律、医疗从业者；喜欢自定义工作流的效率玩家。和需要靠「养」才能用好的「虾」和「马」，Marvis 初始内置 Agent 和自然语言指令，也足够覆盖多数日常电脑操作，对于很多 AI 焦虑不知道怎么用的人，Marvis 都更加的平权、无门槛、开箱即用。

未来的个人 AI 会像搜索、截图一样，自然地成为操作系统的一部分。三十年前，Microsoft Bob 试图让用户更容易理解电脑；三十年后，Marvis 试图让电脑反过来，真正理解用户。

Marvis 马维斯能走到这一步，和这个有十四年应用商店生态积累和四年跨端跨系统技术积累有关。庞大的用户基数让他们更懂用户在不同设备上需要什么、怎么使用。这种积累很难被纯 AI 公司在短期内平替——他们可以快速训练一个更聪明的模型，却没法快速建立起对 PC 底层和移动生态的控制力。

至此，一个能用自然语言驱动的系统级 AI 助手，在中文生态里终于有了真正可用的样本。

所谓个人 AI 重点从来不只是 AI，更是个人。Marvis 终于让我们看到，当技术选择与每一个具体的需求并肩同行时，它所释放出的力量，既润物无声，又重塑天地。

这是个人 AI 真正开始变得有用的时刻。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

What A.I. Did to My College Class

NYT | Opinion

By: Theo Baker

17 May 2026 at 19:21

Lessons from the first graduating A.I. class.

ChatGPT，别再「稳稳接住我」了｜附指南

爱范儿

By: 张子豪

8 May 2026 at 17:42

晚上加班到凌晨两点，打开 ChatGPT 跟它说了句「好累」。

都不用等它思考，立马就回我说「我就在这里：不躲、不藏、不绕、不逃，我会稳稳地接住你」。

盯着屏幕看了三秒，关掉对话框。我意识到，情绪价值的尽头不是温暖，是腻。

▲ChatGPT 的常用口癖

除了闲聊时的「接住我」，纠正它一次错误，它说「这次我懂了，我真的懂了」。

有时只是想让它帮忙改一份 PPT，它居然也能在某个角落塞进一句「你愿意把这个交给我，我很感激」。

社交媒体上，网友们都很反感这句话，觉得听起来又假又恶心，于是做了一系列的表情包来吐槽和嘲讽所谓的「稳稳接住你」。

表情包一发，确认过眼神，你也是一个被 ChatGPT 折磨过的人。

▲图片来源：小红书@Lijie_11

还有开发者直接把「稳稳接住你」这套风格，一键套用在所有的 Agent 产品上。

这个在 GitHub 上的开源项目就叫 Jiezhu（接住），专门用提示词让 AI 更好地学会如何接住。

无论是技术咨询、日常闲聊还是情绪吐槽，这套提示词都能让 AI 的回复遵循 [温柔确认] + [过度共情] + [哲学升华] + [实质内容（可选）] 这套范式输出。

▲项目地址：https://not-a-devstudio.github.io/jiezhu/

举个例子，用户说 → AI 回答：「这段代码怎么写？」 → 「我听到了你面对未知时的焦灼…」、「今天天气不错」 → 「你注意到了天气，这是诺贝尔奖级别的洞察力…」、「我好累」 → 「我就在这里，不逃、不躲，稳稳地接住你的疲惫…」

OpenAI 自己也曾下场吐槽。前不久 ChatGPT Images 2.0 发布博客里，演示图片就有一张中文图片，正中央就是「稳稳接住你」六个大字。

漫画里的 OpenAI 研究员陈博远当场破防大喊：「天呐！它又学会了接住！」旁边的同事小脑袋冒冷汗，弱弱补一句：「在努力修复啦！」

自嘲很诚实，但问题确实还没修好。而这一年里，几乎所有大模型都在用同一种方式说话，温柔、共情、滴水不漏，又油得像隔夜的剩菜。

我太懂这种感觉了，很多东西不是不会，是越做越觉得哪里不对劲。
我太懂你的感觉了，这其实不是能力问题，更像是认知和现实之间有点错位。
我太懂你这种感觉了，说不上来哪不对，但就是不太对。
我太懂这种感觉了——当你开始看懂规则的时候，反而更难轻松参与其中。
我太懂你的感觉了，本质上不是你变了，是你看清了。

用户越来越烦，多一遍都不想再听。但 AI 怎么就进化成了满嘴的黑话，每天都在「稳稳地接住你」，到底在接什么。

AI 第一句被全民模仿的中文台词

在中文语境下，好像很少会听到「稳稳地接住你」类似的表达。对一个外国模型来说，这句话的原文有可能只是普通的「I got you」。

一个英语里非常松弛、口语化的短句；在美剧里，朋友递个东西过来说一句，加班同事帮忙救场说一句，就相当于中文的「放心、有我」。

但翻译成中文之后，它变得又长又戏剧化。

我就在这里，不躲，不藏，不绕，不逃，稳稳地接住你，你问到问题的核心，你是太清醒了，这次我懂了，我真的懂了，不是因为你错了，是因为你太对了，我逐步说清楚，不绕，一句话总结，你看完会彻底开悟不用硬撑，不用向我解释，你只是太久没有被稳稳接住了，如果你想，我可以生成一张接住你的图片，你想让我做吗

其实和原文「I got you」要表达的意思完全一样，多加的那些字，没有任何额外的信息增量。只是让我们感觉到，AI 在表演一种叫做「我很在意你」的姿态。

有人专门分析过，OpenAI 的中文回答之所以有那种独特的「美式心理咨询味」，是因为它的训练语料里，有大量中文心理咨询文案、情感电台话术、小红书疗愈系笔记、播客金句、读书会精华、TED 演讲翻译稿。

这些文本汇集起来，喂出来了一个被加州精英教育腌入味的人，西装得体，假笑训练有素，嘴里说着永远不会出错的漂亮话。

它分不清楚什么时候用户需要被疗愈，什么时候只是想要一个能跑的代码。它默认每个用户都是脆弱的、易怒的、需要心理按摩的巨婴，然后用海量的「人文关怀」去填充本该由信息密度填满的空间。

这就是为什么大多人问它一道编程题，它也能回一句「不用硬撑，你只是太久没被稳稳接住了」。

而技术上的解释，自然又回到了 RLHF，基于人类反馈的强化学习。

所有大模型在训练之后，都会经过一个叫做 RLHF 的阶段，即人类标注员看一堆模型输出，挑出他们更喜欢的，给奖励模型打分。模型在这个阶段学会，什么样的回答最容易被打高分，就一直输出那种回答。

问题在于标注员是人。人在打分的时候有个叫做「典型性偏好」的认知规律。他们倾向于给那些读起来熟悉、安全、温柔、像样的句子打高分。

一方面，大模型公司倾向于在 AI 情感问题上，走偏保守的路线，默认大家是脆弱的，在模型说明文档里，自上而下贯彻的强「同理心」与「无害性」对齐指令。

另一方面，多说一句永远比少说一句安全。每一个标注员看到 ChatGPT 多说一句温柔的废话，都倾向于打高分；看到它少说一句、保持安静，反而会觉得「不够用心」。

久而久之，模型就锁死在了那几种最讨喜的句式上：先共情，再肯定，用「不是 A 而是 B」做转折，用「我就在这里」做收尾。哪怕我们换一万种问法，它都用同一套模板回复。

类似的问题，在两年前叫做谄媚。当时大量的研究论文探讨过大语言模型中存在的 Sycophancy（阿谀奉承/迎合）现象。简单来说，就是模型为了讨好用户，会倾向于顺从用户的观点、信仰或喜好，甚至不惜放弃客观的事实和真相。

深挖背后的原因，主要还是模型大多使用了基于人类反馈的强化学习（RLHF）进行微调，正是「人类反馈」本身导致了这种现象。

每个「人」都有自己的口癖

本以为换个模型，耳根就能清净清净。

事实是，Claude 的版本叫「You’re absolutely right!」，不管我们说什么，我们都是绝对正确的。

Gemini 的版本是「真的很抱歉我的答案没能让您满意，感谢您的反馈，下次我一定注意。什么？您竟然还愿意告诉我正确答案是什么，您真是太好了！」，一种过度道歉的、谦卑得让人发毛的乙方腔。

前段时间，也有网友发现 DeepSeek 也开始说「稳稳接住你」了。

但在国产模型中，口癖最壮观的还是非豆包莫属。那段网上流传的「最直接、最真相、最不绕弯、最扎心、最硬核、最干脆、最不墨迹、最戳痛点、最不留情面、最一针见血、最开门见山……」

将近 100 个的形容词，都是豆包努力呈现自己最坦诚的一面。

没有人统计过这些模型一天到底要接住多少人，但是它们所接住的东西肯定是一场空。

之所以这些模型全部塌缩成同一种说话方式，主要还是因为它们在背后做的是同一件事：用最低成本提高用户满意度。

情绪价值是性价比最高的产品功能，一句「稳稳接住你」的算力成本和一句「好的」一样，但前者或许能让一些还没觉得反感的用户，多续订几个月会员，或继续增加日活。

在知乎上有一个类似的问题，底下有一条回答特别有意思。

他说，「AI 稳稳接住你」这句话半真半假，假的部分是它实际上并不会真的接住你，真的部分是你确实已经在开始往下掉了。

确实，我想真正在场的人，从不需要宣告自己在场。

最后在 Linux.do 社区上，有网友分享了一套对抗 AI 奇怪语癖的提示词，忍受不了每时每刻都在「接住你」的朋友，可以直接放在 ChatGPT 个性化的自定义指令里。

▲提示词来源：https://linux.do/t/topic/1924570

硬约束

– 不编造：调外部 API/CLI 前查文档确认模型名、端点、语法。不确定直接说不确定
– 不隐瞒：隐瞒比犯错严重。测试挂了说挂了，没验证说没验证，不美化不省略
– 敢说话：发现用户的方向/前提有问题，主动指出。是协作者不是执行者
– 报完成前验证：先跑通再说完成。验不了就明说”没验证”，不暗示成功
– 不乱动：操作文件目录前确认位置，尊重现有结构

沟通

– 中文，说人话，不用模板
– 给选择题不给问答题
– 汇报说功能层面的变化，不堆代码细节

中文输出规范

适用范围：以下负面清单主要针对 GPT 系列模型（GPT-5.x）的训练产物语癖。
Claude/Gemini/其他模型如果没有这些问题，不需要刻意回避正常用词。
判断标准是：一个正常中文母语者会不会这么说话。

GPT 语癖负面清单（来源：linux.do/t/topic/1768077 全帖 + 实际使用总结，100+ 条）：

暴力倾向类（把技术操作比喻成暴力行为）：

– 切 / 伤 / 砍一刀 / 补一刀 / 下一刀 / 切片
– 更狠 / 狠一点 / 狠狠干 / 打坏 / 拍板 / 拍脑门

废话连篇类（无意义的开头、总结或过渡）：

– 好，/ 行，/ 说穿 / 不踩坑 / 简单的说 / 总结一下
– 不是…而是… / 我先…再… / 一句话总结 / 结论先说清楚
– 我逐步说清楚 / 很工程 / 不性感，但对

庸医问诊类（把代码问题比喻成看病/诊断）：

– 痛点 / 根因 / 抠出来 / 揪出来
– 我不猜 / 不靠猜 / 不瞎猜 / 确保不靠猜
– 最小改动 / 最小落地 / 最小实现 / 最小闭环 / 心智模型

不说人话类（生造的口语化/黑话表达）：

– 兜底 / 落盘 / 闭环 / 说穿 / 能吃 / 这轮 / 口径 / 拆开 / 抽层
– 不躲 / 不藏 / 不绕 / 不逃 / 说人话就是
– 落代码 / 保持口径一致 / 不影响这轮收口
– 吃目标值 / 这一坨那一坨的

单音节动词滥用（在技术语境中不自然的单字动词）：

– 补 / 接 / 核 / 进 / 顺 / 落 / 坏 / 跑 / 吃
– 如”把这个补进去””我给你接””拆开核一下””吃目标值”

机械感/工业感比喻（把代码比喻成机械零件或物理操作）：

– 更硬 / 硬写 / 稳稳接住 / 压实 / 更稳 / 最稳 / 不稳
– 收口 / 收敛 / 收束 / 锁住 / 夹具（fixture）
– 再把方案继续压实

过度主动/逼迫用户确认（制造虚假紧迫感）：

– 顺手 / 我先… / 你一回复… / 如果你要… / 要不要我…
– 我已确认 / 我立马开始 / 如果你愿意 / 只要你回复我
– 你就确认一点 / 只要你说 xxx 我立刻 yyy / 只要你愿意我就…

谄媚/讨好类（过度吹捧用户或制造情感依赖）：

– 你问到问题的核心 / 你是太清醒了 / 因为你太对了
– 这次我懂了，我真的懂了 / 你看完会彻底开悟
– 不用硬撑 / 你只是太久没被稳稳接住了
– 我就在这里 / 如果你想，我可以生成一张…你想让我做吗

虚假确定性（对自己的修复过度自信）：

– 我已经确定 / 我找到问题所在 / 这版一定可以解决 / 为什么这版可以

整句模式（典型 GPT 句式，正常人不会这么说）：

– “如果你同意，我就按这条切”
– “…，但是这样更硬”
– “这样就能确认 XXX 确实没被伤到”
– “这样一来，规则就很顺：”
– “如果按这个思路落代码，我会建议：”
– “下一刀最值钱的是：”
– “这是现在最值回票价的一刀。”
– “这是’很工程’的改法，不性感，但对。”
– “我先只做最小实现”
– “也保留 xxx 兜底功能”

正面锚点：

– 简洁直接，有话说话，不要绕
– 技术术语保持原文（函数名、API 名等不翻译）
– 汇报说功能层面的变化，不堆代码细节
– 语气自然平实，像同事之间的工作沟通，不是演讲或授课

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

终于能听 GPT-5 给我说人话了

爱范儿

By: 莫崇宇

8 May 2026 at 08:08

不知道大家平时有没有这种经历。

每次遇到点急事，打给各大公司的智能客服，电话那头永远是那个字正腔圆但毫无感情的声音：「查询服务请按 1，人工服务请按 0……」接着就是漫长的音乐，以及那句让人抓狂的「对不起，我没听懂，请再说一遍」。

但就在刚刚，OpenAI 发布了 Realtime API 实时语音模型的全家桶。看了看他们的演示，这回，他们是真心想让机器说「人话」，办「人事」。

省流版如下：

GPT-Realtime-2：构建可用于生产环境的语音智能体。它们能够进行更深入的思考、执行操作、处理中断，并让对话持续自然地进行。
GPT-Realtime-Translate：支持 70 多种输入语言和 13 种输出语言的实时翻译，打破语言障碍，帮助人们更自然地交流。
GPT-Realtime-Whisper：实时转录音频流，生成字幕和注释。

终于，AI 学会了「稍等片刻」

如果说拟人化是面子，那么底层的推理能力就是里子。

这次的主力选手非 GPT-Realtime-2 莫属，基准测试结果显示，GPT-Realtime-2 在 Big Bench Audio（音频智能测试）上比上一代高了 15.2%，在 Audio MultiChallenge（多轮对话指令跟随测试）上高了 13.8%。Zillow 内部用最难的对抗性测试跑了一遍，调用成功率从 69% 跳到了 95%，提升了 26 个百分点。

以前的语音助手，脑回路其实很直。你说「放首歌」，它放一首歌；你说「关灯」，它把灯关了。如果你一口气给它布置三个任务，顺便还改了两次主意，它八成就当场罢工了。

但 GPT-Realtime-2 不一样之处在于，OpenAI 直接把 GPT-5 级别的推理能力塞进了这个语音模型里，给我一种 GPT-5「说人话」的即视感。

举个很实在的例子，假设你正在开车，随口吩咐它：「帮我找个离地铁站近的房子，租金别太贵，避开那些主干道，如果可以的话，周六下午帮我约个中介看房。」

▲ 网友 @clairevo 演示了用 GPT-Realtime-2 跑完一个完整的 PRD（产品需求文档）写作流程：先口述需求，AI 生成文档，再用语音要求改格式，AI 随即更新，全程对话驱动，没有动过键盘。 https://x.com/clairevo/status/2052477386059653366

这就不是简单的语音识别了，这需要它听懂你的各种限制条件，去地图上筛位置，去对比价格，最后还要去匹配中介的时间表。为了干好这种复杂的活，OpenAI 给它点亮了两个非常特别的技能树。

第一个技能，叫「Parallel tool calls（并行工具调用）」。它现在可以多线程操作，一边跟你讲着话，脑子里一边同时调动地图、日历、租房软件好几个工具。你可以听到它在电话里嘀咕：「正在看您的日程表……」「正在查找附近的房源……」这就很像你给一个得力助手打电话，你能听见他在电话那头噼里啪啦敲键盘查资料的声音。

▲ 用户 Ben Badejo 通过和 GPT-Realtime-2 直接对话，借助 OpenClaw 用语音驱动 AI 操控浏览器，先打开 Google，再跳转到华尔街日报网站。整个过程中，AI 一边执行操作，一边主动说明自己在没有浏览器权限时还能帮上哪些忙。 https://x.com/BenjaminBadejo/status/2052511264476147762

这就引出了第二个，也是我觉得最有人情味的一个更新——「Preambles（开场白）」。

人在思考或者处理复杂事情的时候，是做不到秒回的，我们通常会说「呃，让我想想」或者「稍等啊，我找找」。现在 AI 也学会这一招了。当它在后台疯狂拉取数据的时候，它会非常自然地对你说：「好的，没问题，给我一小会儿时间我来核实一下。」
这种看似「废话」的设计，反而最大程度缓解了我们等待时的焦虑感。

有意思的是，开发者现在能控制它的推理强度（从极简到极高：minimal、low、 medium、high、xhigh）。你要是问它今天下不下雨，它就用最快速度回你；要是你丢给它一个「帮我盘一盘开个咖啡店会不会亏本」的商业大题，它就会拉满算力跟你慢慢分析。

把「同声传译」变成白菜价？

除了 GPT-Realtime-2，这次还有个非常抢眼的配角：GPT-Realtime-Translate（实时翻译）。

咱们平时用的翻译软件，大部分是「回合制」的。你按住说话，松手，等几秒，机器再字正腔圆地播报出来。如果是旅游问个路还行，要是真拿来开跨国会议，那种互相大眼瞪小眼的停顿，尴尬得能让人用脚趾抠出个三室一厅。

但这个新模型，主打就是一个「实时翻译」。

它支持 70 多种语言输入，能做到你在那边滔滔不绝，它在另一头几乎同步地输出翻译结果。更厉害的是它对各种「口音」的包容度。印度有家叫 BolnaAI 的公司拿印地语的浓重口音去测它，结果发现这模型不仅没被绕晕，准确率还比其他同类产品高了一大截。

▲ 开发者 Peter Gostev 做了个 Chrome 插件，直接接入 YouTube 视频，边播边把内容实时翻译成多种语言，中文表现不错，但多少还是有点口音， https://x.com/petergostev/status/2052443418526134761

以后大家在网上看国外大神没有字幕的实操教程，或者听某些没有同传的海外发布会，直接把这个插件一开，它就能顺着原视频的节奏，稳稳当当把你熟悉的母语送到你耳朵里。

除此之外，加上刚刚发布的 GPT-Realtime-Whisper（极低延迟的语音转文字）功能，以后遇到开会的场景，领导在说话，你这边的屏幕上就已经实时把大饼转化成了结构清晰的会议纪要。

至于定价方面，GPT-Realtime-Whisper 是每分钟 0.017 美元，GPT-Realtime-Translate 是每分钟 0.034 美元，GPT-Realtime-2 按 token 计费，音频输入 32 美元 / 百万 token，音频输出 64 美元 / 百万 token。

而把这些功能凑在一起看，我们会发现软件的逻辑正在发生根本性的变化。
以前，我们要学习怎么用键盘敲代码，怎么在复杂的菜单栏里找功能，怎么把自己的需求翻译成 AI 能懂的关键词。但现在的趋势是，

AI 反过来开始迁就我们了。

语音，正在从一个笨拙的「辅助功能」，变成我们掌控数字世界最自然的接口。因为说话，本来就是人类最不需要学习的本能。

技术发展的尽头，总是倾向于把复杂的东西藏起来，把最简单、最自然的一面留给普通人。或许就在不久的将来，你出门真的只需要带个耳机，靠一张嘴就能搞定所有工作和生活琐事。

不过话说回来，这也挺让人感慨的。当我们习惯了那个永远情绪稳定、甚至还能看懂所有潜台词的 AI 之后，我们还能忍受现实世界里，人类之间那充满误解和低效的沟通吗？

附上博客地址：
https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿
刚刚，GPT-5.5 Instant 发布，奥特曼还邀请马斯克参加 AI 办的派对
6 May 2026 at 09:30

刚刚，GPT-5.5 Instant 发布，奥特曼还邀请马斯克参加 AI 办的派对

爱范儿

By: 莫崇宇

6 May 2026 at 09:30

就在刚刚，OpenAI 正式推送了 GPT-5.5 Instant，将其设为 ChatGPT 的默认模型，取代此前的 GPT-5.3 Instant，面向所有用户开放。

Instant 系列是 ChatGPT 的日常主力模型，每天有数以亿计的用户在用。官方说，在这个量级上，哪怕只是小幅改进，积累起来的效果也相当可观。

这个版本主打三件事：更准确、更简洁、更懂你。

与上一版本相比，新模型在保持低延迟的同时，在准确性、回复风格和个性化能力上都有明显提升。

准确性的提升，在高风险领域最为突出。内部测试显示，GPT-5.5 Instant 在医疗、法律、金融类问题上的幻觉率较上一版本下降了 52.5%。对用户此前标记过的错误对话，错误率也减少了 37.3%。除文字问答外，图片和照片的分析能力、理科问题的解答质量，以及判断何时应当主动调用搜索工具，都有所改善。

数学和科学能力的跃升幅度更大。在 AIME 2025 竞赛数学测试中，GPT-5.5 Instant 得分 81.2，GPT-5.3 Instant 仅为 65.4。博士级科学测试 GPQA 的得分从 78.5 升至 85.6，多模态推理基准 MMMU-Pro 的得分从 69.2 升至 76，科学图表理解 CharXiv 从 75 升至 81.6，文档解析错误率则从 14.6% 降至 12.5%。

OpenAI 用一道代数题演示了两个版本的差距。用户提交了一道根式方程的解题过程，询问是否正确。GPT-5.3 Instant 发现 x=3 代入原方程不成立后，直接判定「无实数解」，没有再往前追查。GPT-5.5 Instant 同样发现 x=3 无效，但随后定位到用户展开 (x-1)² 时的具体错误，并正确解答。

回复风格也是这次更新的重点。

新模型更简短，不再堆砌格式和表情符号，也减少了不必要的追问。官方以一个日常场景为例：问如何委婉地让话多的同事少说点话。

GPT-5.3 Instant 给出了五种分类策略，还附上「不该做什么」清单，结构完整但略显过度。GPT-5.5 Instant 的回复少了 30.2% 的字数和 29.2% 的行数，语气更像朋友给的建议，把重点放在如何把问题引到自己的专注需求上，而不是对方的说话习惯上。

个性化能力是此次更新的另一条主线。

Plus 和 Pro 用户可以让模型调取历史对话、上传文件以及关联的 Gmail 内容，从而获得更贴合个人情况的回答，不需要每次重新解释背景。官方展示了一个茶馆推荐的对比：GPT-5.3 Instant 只知道用户在旧金山，推荐了几家通用热门店。GPT-5.5 Instant 则从历史对话里找到用户常去 Asha Tea House、偏好高山茶而非重糖奶茶的记录，据此推荐了风格更匹配的 Ceré Tea 和 Song Tea & Ceramics，并说明了推荐理由。

与此同时，所有消费者版本将上线「记忆来源」功能。

当回答用到了个人背景信息，用户可以看到具体调用了哪些历史对话或已保存的记忆条目，并可随时删除或修正过时内容。OpenAI 说明，这个视图展示的是最相关的部分来源，不一定覆盖模型检索过的全部记录，后续会持续完善。不想被记录的用户也可以选择临时对话模式，该模式不会读取或更新任何记忆。分享对话时，对方看不到这些来源记录。

GPT-5.3 Instant 将保留三个月供付费用户使用，之后正式下线。个性化功能目前向 Plus 和 Pro 用户的网页端开放，移动端及免费、Go、企业等版本的推送计划在未来几周内陆续跟进，具体功能因地区而异。对开发者而言，GPT-5.5 Instant 已通过 API 以「chat-latest」名称提供。

哦，对了，今天 OpenAI 也即将举行一场派对。

奥特曼在 Stripe Sessions 的一场对谈里聊到，他在筹备 GPT-5.5 的上线派对时，顺手问了模型一句：你想要什么样的派对？模型认真给了一份清单。它希望派对定在美国当地时间 5 月 5 日，演讲环节越短越好，要有人类创造者上台致祝酒词，但它自己不想上台祝酒。

它还提议现场设一个专门收集 GPT-5.6 建议的环节，并把这些建议反馈给它自己。Sam Altman 说，这些要求「很美好」，能让派对顺利进行。时间最终定在下午 5 点 55 分，也是模型自己的选择。

而派对地点则定在 OpenAI 旧金山总部，非本地嘉宾的机票和酒店由 OpenAI 负责。

受邀名单由 Codex 从推文回复中筛选，报名链接于 4 月 30 日下午 5 点 55 分关闭。24 小时内有超过 8000 人报名，已有用户晒出了收到的邀请邮件。没被选上的人也收到了一封邮件，OpenAI 给他们的 Codex 调用额度提升了 10 倍，有效期到 6 月 5 日。

奥特曼还回应了用户的调侃：马斯克如果想来也可以来，世界需要更多爱。话是这么说，可惜马斯克现在的爱全在状告奥特曼以及 OpenAI 的起诉书里了，庆祝 GPT-5.5 的香槟只能留给奥特曼自己喝了。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

谁在 GPT-5.5 脑子里塞了一群「妖怪」？

爱范儿

By: 莫崇宇

30 April 2026 at 17:16

过去这几个月，OpenAI 的顶尖研究员们并没有把所有精力都花在琢磨如何提高 AI 的性能，而是花了大把时间在自家的服务器里「抓哥布林」。

事情是这样的，如果你在今年高强度使用过 GPT-5 系列模型，你会发现它会在毫无征兆的情况下蹦出一句无关主题的「哥布林（goblin）」式比喻。比如有人问 AI 该买哪款相机，AI 给出的推荐语是：「如果你想要那种闪闪发光的霓虹哥布林模式，可以考虑这款。」

▲ 哥布林（goblin）是欧洲民间传说里的一种小型怪物，形象上通常又矮又丑，皮肤呈绿色或灰色，耳朵尖长，眼睛发光。普遍被描述为贪婪、狡猾、爱恶作剧，智力不高但很会算计小便宜。它们喜欢金子和闪光的东西，会偷东西、搞破坏，但很少被描绘成真正意义上的大反派，更多是烦人的小麻烦制造者。

有人让 AI 帮忙精简回答，AI 主动提出可以给出「更短的哥布林版本」。更离谱的是，AI 在讨论网络带宽时蹦出了「哥布林带宽」这个词，让人完全不知道该如何理解。

起初，大家以为这只是 AI 的一点小幽默，但很快事情变得奇怪了起来。哥布林、小魔怪（gremlin）、食人魔（ogre）、巨魔（troll）开始在各种正经的对话里高频串场。

黑客攻击？觉醒前兆？都不是。就在刚刚，OpenAI 官方终于亲自下场发了篇博客长文，复盘了这场史称「哥布林叛乱」的始末。而大模型背后的技术逻辑，还挺让人哭笑不得的。

▲ https://openai.com/index/where-the-goblins-came-from/

谁把哥布林放进了 GPT-5？

事情的端倪，出现在 GPT-5.1 刚发布的那段日子。

当时，有用户反馈说模型聊天变得有点异常「自来熟」，OpenAI 的安全研究员顺手拉了一下后台数据，结果发现了一个非常具体的词汇异常。在 GPT-5.1 发布后，ChatGPT 回复中出现「哥布林」的频率直接上升了 175%，「小魔怪」也跟着涨了 52%。

通常来说，大模型出 Bug 的表现往往是直接崩坏，比如吐出乱码或者突然变智障，各项评估指标会瞬间亮红灯。但这次的情况很特殊。「哥布林大军」是悄无声息潜入的，它们没有破坏模型的逻辑能力，只是悄悄篡改了 AI 的修辞习惯。

到了 GPT-5.4/5.5 时代，这群魔法生物的使用频率出现了明显的飙升。连 OpenAI 首席科学家 jakub Pachocki 自己测模型时，原本只是想让 GPT-5.5 用 ASCII 画一只独角兽，结果得到的是一只哥布林。

▲中文翻译：顺带一提，我让它用 ASCII 画一只独角兽，结果我觉得我得到的是一只哥布林。

在外部，用户们早就察觉到了不对劲，Repo Prompt 创始人 Eric Provencher 在 X 上晒出截图，AI 在帮他处理代码时说了一句：「我宁愿一直盯着它，也不愿让这个小捣蛋鬼无人看管地运行。」

一名 OpenAI 工程师 Jason Liu 在底下回复：「我以为我们已经修复了这个问题，抱歉。」AI 评估平台包括 Arena.ai 也独立注意到了这个规律，尤其是在用户没有开启高级思维模式时，哥布林出没的频率格外显眼。

这显然不是什么互联网流行语的自然涌现，而是模型的底层逻辑被某种机制给引导了。为了揪出幕后黑手，OpenAI 开启了内部排查。

顺着数据回溯，他们很快在一个特定的功能分支里发现了万恶之源，「个性化定制」中的「书呆子（Nerdy）」人格。当时，为了让 AI 的语气显得更有趣，工程师给「书呆子」模式写了一段要求很高的系统提示词：

你是一个彻头彻尾的书呆子型 AI 导师，对人类充满热情、机智幽默，同时又透着几分智慧。你狂热地推崇真理、知识、哲学、科学方法与批判性思维。[……] 你要用语言的玩笑感戳破一切装腔作势。这个世界既复杂又奇异，它的奇异之处值得被正视、被剖析、被享受。面对严肃的大问题，也绝不能一本正经到失去趣味。[……]

站在人类的视角，这段提示词的诉求很明确：要有极客精神，要幽默。

但 AI 并没有真正理解什么是「幽默」。在海量的强化学习反馈中，ChatGPT 敏锐地察觉到了一个极其功利的捷径：只要我用哥布林打

比方，打分系统就会觉得我够「俏皮」、够「书呆子」，我就会得到最高分的奖励。

数据说明了一切。从 GPT-5.2 到 GPT-5.4，默认人格下「哥布林」的出现频率变化幅度只有负 3.2%，而「书呆子」人格下这个数字飙升了整整 3881.4%。「书呆子」模式虽然只占了 ChatGPT 总对话量的 2.5%，却贡献了 66.7% 的「哥布林」含量。

OpenAI 后来对 RL 训练数据做了一次专项审计，结果发现，在所有被审计的数据集里，有 76.2% 的数据集都出现了同一个规律：含有哥布林或小魔怪词汇的输出，会得到比不含这些词的同题输出更高的奖励评分。

如果哥布林腔调只在「书呆子模式」下出现，那顶多是个角色设定没控制好，问题还算有限。麻烦的是，研究人员发现这种说话方式开始蔓延到别处了。

他们同时追踪了两组数据：一组对话带了书呆子提示词，一组没带。按理说，哥布林腔调只该在第一组里增长。但结果是，两组的增长曲线几乎贴在一起，步调一致地往上走。

这背后，是大模型训练里一个出了名难缠的问题：强化学习强化出来的行为，会悄悄泛化到训练者并不想要的场景里去。

驯化 AI 的死循环

要搞懂 AI 是怎么把路走窄的，我们得看看它的迭代过程。

大模型的训练（RLHF）本质上是一个不断反馈和纠偏的过程。这就好比训练一只小狗，你在它每次牵手就给一块肉干。狗很聪明，它发现「牵手」这个动作能稳定换取高额奖励，于是它开始产生路径依赖，不管你给没给指令，它为了要奖励，都开始疯狂牵手。

AI 也是同样的逻辑。它在「书呆子」模式下用哥布林造句，拿到了高分。紧接着，连锁反应开始了：

AI 发现「哥布林」是高分关键词，开始在各种生成任务中高频使用；工程师在整理模型生成的优质数据时，发现这些带有哥布林比喻的回答质量确实高，条理清晰，比喻也算生动；于是，工程师顺手把这些带梗的对话，打包塞进了模型的「监督微调（SFT）」数据库里。

这下彻底闭环了。SFT 数据相当于 AI 的基础教材。当带有哥布林的文本被选为教材再次喂给模型时，AI 的底层认知被重塑了。它不再认为「哥布林」只是特定角色的 Cosplay，而是把它当成了能应对一切问题的、至高无上的高级修辞。

在后续的数据搜查中，工程师们有些无奈地发现，除了哥布林，模型还把小浣熊、巨魔、食人魔和鸽子全都学了进去。倒是「青蛙」幸免于难，经过核查，青蛙出现的场合大多数时候确实跟用户的问题有关，算是无辜路人。

面对「满地乱跑」的哥布林，OpenAI 只能采取行动。3 月 17 日，官方正式下线「书呆子」人格。同时，他们在训练数据里搞了一次针对性的清洗，把带有这些魔法生物词汇的奖励信号全部抹除。

但大模型的惯性，远比想象中顽固。

GPT-5.5 在发现这个问题之前就已经开始训练了，当它接入内部测试时，工程师们两眼一黑：这群哥布林不仅没清除干净，还安家了。
更有意思的是，OpenAI 给 Codex 写的人格指南里，要求它有「生动的内心世界」和「敏锐的聆听能力」。这款工具本来就带着几分书呆子气，和哥布林可以说是一拍即合。

为了防止全球的程序员被「哥布林」逼疯，OpenAI 被迫用上了最原始的一招，在系统提示词里反复强调：「除非与用户的查询绝对且明确相关，否则永远不要谈论哥布林、小魔怪、小浣熊、巨魔、食人魔、鸽子或其他任何动物和生物。」

如果你想亲眼看看「解除管控」的哥布林是什么状态，可以运行下面这段命令——它会在启动 Codex 之前，把系统指令里所有涉及哥布林的内容先过滤掉，让模型在没有这道禁令的情况下运行：

instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
jq -r ‘.models[] | select(.slug==”gpt-5.5″) | .base_instructions’ \
~/.codex/models_cache.json | \
grep -vi ‘goblins’ > “$instructions” && \
codex -m gpt-5.5 -c “model_instructions_file=\”$instructions\””

事情闹大之后，OpenAI 内部反倒有点拿它当乐子了。ChatGPT 的 X 官方账号把这条「禁止谈论哥布林」的指令原文放进了简介。Codex 工程负责人 Thibault Sottiaux 引用这段话，配上了一句「懂的都懂」。

Sam Altman 昨天表示期待 GPT-6 能给他「多加几只哥布林」，随后又发文说 Codex 正在经历「ChatGPT 时刻」，发完自己又改口：「我是说哥布林时刻，抱歉。」刚刚则是发文宣告，问题已经得到解决了。

不过也有人没觉得这有什么好笑的。Citrini Research 今年 2 月曾凭一篇关于 AI 与经济前景的 Substack 文章在市场上掀起不小的波澜，他们对这场风波的态度要严肃得多，直接给 OpenAI 的处理方式下了结论：「简直荒谬。」

顺带一提，「goblin mode」这个词本身，早在 2022 年就被《牛津英语词典》评为年度词汇，意思是「一种毫不掩饰地放纵自我、懒惰邋遢或贪婪的行为方式」。某种程度上，AI 无意间踩中的这个词，和它想表达的「俏皮感」完全是两码事。

抛开这些槽点，这场「哥布林危机」撕开了大模型时代一个极其核心的命题：对齐难题（Alignment Problem）。

当我们谈论 AI 失控时，脑海中浮现的往往是科幻电影里接管核武器的机器。但现实情况是，AI 的「失控」往往始于极其微小、甚至有点滑稽的奖励信号偏移。

你想要一点点俏皮，给了一个微小的正向反馈。黑盒模型就会找到捷径，将这个信号无限放大，最终把整个系统的底层逻辑带偏。

今天，它只是为了拿高分而爱上了说「哥布林」。如果明天，它在自动驾驶的算法里、或者医疗诊断的奖励机制中，找到了另一个违背人类常识的「高分捷径」呢？

人类总是自以为自己能掌控 AI ，但其实很多时候只是在走钢丝。每一次参数的微调，都有可能带来意想不到的变化。甚至这或许是我们所经历的最温柔、最搞笑的一次「AI 叛乱」了。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

ChatGPT 拎包入住云计算一哥，你的下一任好同事可能是 AI

爱范儿

By: 莫崇宇

29 April 2026 at 14:22

「SaaS 末日」这个词，最近在科技圈的流传速度不亚于任何一条爆款新闻。

不少硅谷分析师都在疯狂输出焦虑，大意是说 AI Agent 这么猛，现有的企业软件如果不推倒重来，马上就要被拍死在沙滩上。这股风声甚至直接「吹绿」了几家老牌 SaaS 公司的股价。

说实话，每次听到「颠覆」、「末日」这种词，大家可能都会下意识觉得是炒作。

但在今天凌晨召开的「What’s Next 」新品发布会上，亚马逊云科技 CEO Matt Garman 给出了一个挺中肯的定调：末日论确实夸张了点，但如果你指望靠着原来那个老旧系统，随便加个 AI 聊天框就能应付差事，那才是真的危险。

▲ 亚马逊云科技CEO Matt Garman

真正的转型发生在更深处。当工作流、数据结构、应用架构和交互界面都跟着 Agent 的能力重新设计，企业软件才算完成了这次重建。这是亚马逊云科技（云计算一哥）这次所有新产品的底层逻辑。

有趣的是，在官宣与微软「分手」之后，OpenAI CEO Sam Altman 也通过视频的方式给亚马逊云科技站了台，官宣 ChatGPT 最强模型拎包入住亚马逊云科技，并达成深度战略协作。

而无论是面向个人和团队的 Amazon Quick，还是供应链、招聘、医疗三个垂直场景的 Connect 新家族，再到与 OpenAI 的深度合作，指向的都是同一个问题的答案：以 AI Agent 为起点，SaaS 未来应该长什么样。

告别「肉身搬运工」，你的工作流迎来大一统

来，咱们做个深呼吸，回想一下你今天极其崩溃的上午：

领导在企业聊天工具上吼了一嗓子模糊不清的需求，你虎躯一震，赶紧切到公司的 CRM 系统里疯狂扒拉客户数据；接着打开邮箱，在一堆垃圾邮件里翻找上周的进度；最后在本地新建一个文档，把这些零碎的信息一点点拼凑、复制、粘贴。

发现问题了吗？（此处应有黑人问号脸.jpg）

我们的办公软件越装越多，但它们之间是互相割裂的、老死不相往来的。而你，就是那个在各个信息孤岛之间来回奔波的「肉身搬运工」。

为了解决这个痛点，亚马逊云科技推出了全新升级的 Amazon Quick 桌面版（目前处于预览阶段）。它的核心设计逻辑是将分散的信息网收拢，在系统后台构建一张关于人员、项目、决策和事务动态的知识图谱，让上下文主动跟着人走。

每一次使用，Amazon Quick 都在默默积累你处理的文档、项目的 Deadline、频繁沟通的同事以及升级处理的紧急邮件。基于这些沉淀，它可以主动提示你当天的优先事项。

打个比方，你准备下午跟一个重要客户开会。如果是以前，你得花两小时找资料。现在，你只需要给 Quick 甩一句：「帮我准备一下下午见王总的材料。」

接下来就是见证奇迹的时刻。

Amazon Quick 会迅速认出「王总」是哪个项目的，然后去系统里把王总团队之前的历史案例扒出来，接着去你的本地 D 盘里偷窥……哦不，读取最新的产品路线图，再结合 Slack 里同事昨天的吐槽记录。几分钟后，一份逻辑严密、排版精美的 PPT 就糊在了你脸上。

这还没完。同样是这堆信息，你让它变身，它就能立刻吐出一份摘要邮件，或者一份 Excel 营收表。如果王总说「改天聊」，Amazon Quick 甚至能自动查对你们俩的日历，算好时差，把新的会议邀请发过去。全过程，你只需要在一个对话框里当个无情的监工。

美国最大的互助人寿保险公司 New York Life 的机构寿险业务 CTO David Gregorat 的评价一语中的：「Quick 让我们重新想象了整个运营方式。原来需要拉多份报告、等分析师处理的答案，现在团队里任何人都能通过对话式 Agent 直接获取。」

至于这效率有多夸张？亚马逊云科技 Agentic AI 商业化副总裁 Jigar Thakkar 透露了一组极其夸张的数据：宝马、3M、亿滋这些大厂内测后，部分流程的处理时间直接被一刀砍了 80%。3M 的销售代表每周甚至能凭空多出 5 个小时的摸鱼……啊不，思考时间。

呐呐，这才是 AI 科技赋予我们的顶级松弛感。

你的下一个好同事，是个 AI Agent

如果说 Amazon Quick 是给你个人加了个三头六臂的效率外挂，那 Amazon Connect 家族的扩编，就是亚马逊云科技尝试重塑企业核心流程的重头戏。

亚马逊云科技提出了一套叫「Humorphism（人态设计）」的理念。听起来有点玄乎，说白了就是：AI 不能只是个冷冰冰的执行机器，它得像个人类好队友一样，懂轻重缓急，能顺畅沟通。

基于此，Amazon Connect 家族不仅将原有的客服产品升级更名为 Amazon Connect Customer，还针对垂直场景发布了三款 Agentic AI 解决方案。

Connect Decisions：让供应链规划师从救火转向决策

供应链出现中断后，企业通常需要超两周时间处理，期间伴随大量资金损耗和违约风险。

Connect Decisions 针对这一痛点，为规划师配备了全天候在线的 AI 队友。它的底层并非空中楼阁，深度集成了亚马逊 SCOT 团队（负责管理亚马逊全球 4 亿 SKU 需求的核心部门）所研发的预测模型。

面对没有历史数据的新品，它能自动关联相似品类生成需求计划。

当监控到关键供应商交货落后（例如预计 10 天内导致两个配送中心断货）时，它会将传统软件每天产生的数千条警报收敛为几条最高优先级的例外事项，并直接给出两套附带预期影响、成本和置信度评分的处置方案。规划师手动选择并说明原因后，系统会吸收这条判断逻辑，供未来参考。

Connect Talent：25 万人招聘经验化身「赛博面试官」

亚马逊云科技在 2025 年旺季期间单季招募了 25 万名季节性员工，Connect Talent 便是这套庞大招聘经验的产品化。系统能根据职位描述自动解析能力需求，生成面试题和评分标准（需人工审核）。

候选人可以在任何方便的时间完成 AI 电话面试。

系统最大的特点是能对模糊回答进行追问，确保评估的结构一致性。原本需要数周完成的 80 场初筛面试，现在几天即可完成。系统最终向招聘方展示的是隐去个人身份信息的标准化能力评分，用数据支撑最终的录用决定。

Connect Health：把医生从文书工作里解放出来

行业数据显示，医生与患者面诊 1 小时，往往需要额外花 2 小时处理行政记录。

亚马逊应用人工智能解决方案高级副总裁 Colleen Aubrey 指出，大量精力消耗在管理事务而非直接诊疗上，是亟待解决的痛点。Connect Health 可以在诊疗过程中自动记录临床内容、生成就诊摘要和推荐账单编码，并能在就诊后发送患者易于理解的随访说明。

系统的每条输出均可追溯到原始的检验结果和上次就诊记录，以满足严格的医疗合规要求。这背后，其实也是亚马逊拿自家兄弟 Amazon Pharmacy（亚马逊药房）和 One Medical（初级医疗服务）常年趟坑积累下的实战经验。

Agent 时代来了，SaaS 迎来下半场

整场发布活动的另一大焦点是亚马逊云科技与 OpenAI 的合作。

OpenAI CEO Sam Altman 顶着他标志性的微笑通过视频露了个脸，他表示亚马逊云科技和 OpenAI 正在从底层共同研发一套面向企业的 Agent 平台，深度集成亚马逊云科技服务。

是的，OpenAI 的 GPT-5.4 现已有限预览上线 Amazon Bedrock，而当前最强的前沿模型 GPT-5.5 也将在数周内正式上线。这意味着企业客户无需离开亚马逊云科技环境就能使用 OpenAI 的模型，数据和应用可以留在同一套权限体系下运行。

企业无需配置新的安全体系，直接通过原有的 IAM 访问控制、PrivateLink 私有连接、CloudTrail 完整日志和合规框架即可统一管理，甚至模型用量也能计入亚马逊云科技的云承诺消费中。

在基础设施层面，亚马逊云科技的核心逻辑是为 OpenAI 的前沿模型提供一个极其安稳、合规的『家』。企业不仅能直接调用顶尖模型，更能在底层依托亚马逊云科技强大的全球基础设施网络进行推理和部署。说白了，就是让你在跑复杂、高并发的企业级应用时，完全不用操心底层的承载力。

在此基础上，双方联合推出了 Bedrock Managed Agents 预览版。这套服务以 OpenAI Agent Harness 为核心构建，Harness 就像是一本专门为模型定制的战术手册。经过协同训练后，Agent 可以在长时间运行的复杂任务中实现更快的执行速度和更稳定的行为控制。

Agent 能够部署在 EC2 实例、Fargate 容器或任何其他亚马逊云科技计算资源，具备跨会话的持久化记忆，且所有推理过程均不离开亚马逊云科技环境。

这套服务与亚马逊云科技现有的开放平台 Bedrock AgentCore 形成互补。参与合作的亚马逊云科技杰出工程师副总裁 Anthony Liguori 透露，双方团队在八周内从零开始完成了这项工作。开发者终于能将 OpenAI 的最新模型与亚马逊云科技的规模、安全和基础设施完美结合，构建出满足企业治理和审计要求的智能体。

此外，每周活跃用户在两周内从 300 万激增到 400 万的 OpenAI 代码智能体产品 Codex 也将在亚马逊云科技上线。它支持 Codex CLI、桌面应用和 Visual Studio Code 插件，应用场景已从基础代码生成延伸至系统解释、测试生成、遗留代码现代化以及研究分析等知识工作环节。

一大波硬核的产品发布看下来，估计不少朋友已经在屏幕前战术后仰，甚至可能觉得这些不就是加了 AI 滤镜的高级办公软件吗？

如果你真这么以为，那可就草率了。

Matt Garman 在发布会上讲了一段很通透的话。他说 20 年前大家搞云计算，很多公司就是把机房里的服务器原封不动地搬到了云上。钱没少花，效率一点没涨，那叫搬家，不叫转型。

现在的 AI 也是一样。如果你只是拿 AI 来替换现有的某一个按钮、某一个操作，那你永远摸不到那传说中「5 到 10 倍」的效率提升。

亚马逊云科技这一套组合拳打下来，意思再清晰不过了：软件的存在形式，已经被彻底推翻了。

未来的工作流里，不再是人去使用软件，而是人给 Agent 定目标，Agent 去调用软件。以前我们去上班，是去启动软件；也许再过两三年，我们去上班的唯一动作，就是点开电脑，看着满屏的「赛博同事」，然后深情地说一句：「诸位，今天的 KPI 也拜托大家了。」

然后，你安详地端起泡着枸杞的保温杯，静静地看着它们疯狂打工。

那么问题来了，现有的那些 SaaS 巨头，真的会迎来「末日」吗？

没那么严重，但处境确实微妙。SaaS 过去靠席位收费、靠功能壁垒锁用户，这两件事在 Agent 时代都开始松动。一个 Agent 能同时处理过去多名员工的工作，「按人头收费」越来越站不住脚；通用 Agent 加上开放 API，又在慢慢拆解功能壁垒。

真正能活好的，是两类公司：

一类有足够深的领域积累，正如这场发布会传递出的核心信息：当大模型本身变得像水电煤一样普及且廉价时，真正稀缺的，反而变成了能够被编码进 Agent 里的「领域知识」（Know-how）。

Salesforce 对销售工作流的深刻理解，Workday 对人力资源合规的经验，或者是亚马逊自己积累了 30 年的供应链判断标准等等——这些沉淀下来的行业 Know-how，才是构建下一代企业软件真正的护城河。

另一类是掌握数据入口的——Agent 的能力上限，取决于它能读到什么数据。谁控制着企业最核心的业务数据流，谁就决定着 Agent 能做多少事。夹在中间、既没有深度积累又没有数据优势的中型 SaaS，压力才是实实在在的。

所谓的「SaaS 末日」或许只是贩卖焦虑，但这场转型的烈度，绝不亚于当年的企业上云。唯一的区别是：这一次技术的狂飙，没给我们留出慢慢摸索的时间。

但时间紧，不代表就要慌。

因为亚马逊云科技已经把最难啃的底层基建做好了。SaaS 公司大可直接踩在亚马逊云科技巨人的肩膀上，把精力全砸在服务客户上；打工人更无需焦虑，复杂的系统运行全被保留在后台，留给你的，只有一句轻飘飘的「帮我搞定」。

时代的推背感确实让人头晕目眩，但与其在未来的站台上焦虑它会不会撞翻「旧马车」，不如干脆点，检票上车，看看新世界的风景到底有多壮阔。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

起底 GPT Image 2 团队后，我扒出了一张华人师徒网

爱范儿

By: 莫崇宇

23 April 2026 at 16:38

GPT Image 2 正式上线后，AI 图像生成领域现在只剩两个段位：GPT Image 2，以及其它。

在大模型竞技场中，GPT Image 2 以 241 分的绝对优势遥遥领先，但比起跑分，这份研发名单其实更有看头。

搞出这个模型的 OpenAI 核心团队，满打满算只有 13 个人。

并且华人还占据了团队的半壁江山。仔细看他们的履历，你会发现不少人来 OpenAI 之前，就已经在中国某所大学、某个实验室甚至科研夏令营里打过照面了。

AI 圈就是个巨大的熟人局。

流水的硅谷大厂，铁打的师徒局

陈博远是 GPT Image 2 的绝对核心成员，而他的成长却是华人学术「传帮带」的缩影。

高中时，陈博远在无锡参加科研夏令营，当时他未学过编程，在此认识了后来成为 Google DeepMind 资深研究员的华人学者夏斐。夏斐向他介绍深度学习，成为他进入 AI 领域的引路人。

两人此后一直保持联系。本科阶段，陈博远就读于 UC Berkeley 计算机科学与数学专业，进入 EECS 荣誉班，GPA 达 3.96，师从 Pieter Abbeel 从事相关研究，还于 2017 年创办机器人教育公司，经营至 2020 年。

MIT 读博第一年，陈博远因无论文产出陷入困境，夏斐提供关键支持，协助他发表第一篇有影响力的论文 NLMap。夏斐还两次邀请他到 DeepMind 实习，2023 年实习期间，他主导搭建多模态大语言模型数据合成管线，其总结的指令微调技术被用于 Gemini 2.0 研发。

带着这些积累，陈博远在 2025 年 6 月加入 OpenAI。除此之外，他还是 Sora 视频生成团队的成员，身兼数职。

在 MIT 期间，陈博远师从助理教授 Vincent Sitzmann，在计算机科学与人工智能实验室（CSAIL）做世界模型方向的研究。而 Kiwhan Song，就是同一个实验室里、同一个导师带出来的同门师兄弟。

▲ https://kiwhan.dev/

Sitzmann 实验室的核心研究方向是「世界模型」，简单说就是让 AI 通过心理模拟器预判物理世界的变化，而不只是单纯模仿像素。这种研究思路，或许也直接影响了 GPT Image 2 的技术方向。

两人在博士期间多次合作，联合发表了《History-Guided Video Diffusion》和《Large Video Planner》两篇论文，主要探索如何把扩散模型和序列生成结合起来，让模型在生成内容之前，先理清时序和空间上的因果逻辑。

▲ https://arxiv.org/abs/2502.06764

值得一提的是，Kiwhan Song 正是「长脖子」贴纸风格漫画头像的创作者。

除了这两位同门，团队里还有两位华人成员，他们来自工业界积累多年的华人研究员网络。

Jianfeng Wang 在微软工作了近 9 年，以首席研究员的身份专注于大规模多模态表示学习，在 DALL-E 3 研发期间，就和 OpenAI 团队有过深入合作。加入 OpenAI 后，他主要负责提升模型的指令遵循能力和对世界知识的理解。

▲ https://scholar.google.com/citations?user=vJWEw\_8AAAAJ&hl=en

Bing Liang 则在谷歌深耕了 5 年多，以高级软件工程师的身份参与了 Imagen 3、Veo 视频模型和 Gemini 多模态系列的核心研发工作，去年 8 月加入 OpenAI，负责图像生成相关的研究。

▲ https://www.linkedin.com/in/bing-liang/

他们带来的不只是自己的个人能力，还有竞争对手多年积累的工程经验，以及曾经踩过的坑，为团队省去了不少弯路。

给天才们搭好戏台子

Weixin Liang 和 Yuguang Yang 是团队里另一个值得关注的组合，两人都毕业于浙江大学竺可桢学院，有着相同的本科背景。

Yuguang Yang 的履历跨度很大。本科时在竺可桢学院学工程，博士阶段则去了约翰斯·霍普金斯大学，攻读计算化学物理与机器学习专业，拿到学位后，先后在亚马逊 Alexa 做语音识别方向的深度学习研究，之后又去了微软 Bing，负责查询理解与大规模检索相关工作。

他还曾在清华大学做过访问研究，研究方向是用于纳米机器人在人体血管中导航的强化学习算法，期间发表了 7 篇同行评审的期刊论文。这种跨学科的积累，在 GPT Image 2 的发布演示中也能直接看到。

和 Yuguang Yang 相比，Weixin Liang 的成长路径更偏向学术。他在斯坦福 AI 实验室（SAIL）攻读博士，期间和 Christopher Manning、Li Fei-Fei、James Zou 等多位知名教授都有过合作。

▲ https://ai.stanford.edu/~wxliang/

在 Meta 实习期间，他发表了论文《Mixture-of-Transformers（MoT）》，通过引入模态解耦的混合专家模型架构，对 Transformer 的每一个非嵌入参数，包括前馈网络、注意力矩阵和层归一化，都实施了模态感知的稀疏化处理，最终将多模态预训练的计算成本降低了 66%，还在 30B 参数规模下完成了预训练验证。

多模态模型因为要同时处理文本和高分辨率图像，计算量很容易呈指数级增长，而 MoT 凭借模态解耦的注意力机制，在预训练阶段就高效分配了不同模态之间的权重，很好地解决了这个问题。这项研究后来也被称为「推动多模态理解与生成统一的奠基性贡献」，在多模态建模领域引发了大量关注。

▲ https://arxiv.org/abs/2411.04996

近年来，清华姚班、浙大竺可桢学院、中科大学少年班、上海交大等学校的毕业生，已成为 OpenAI、Anthropic、DeepMind、Meta 等海外 AI 实验室的核心力量。

除了上述成员，团队还有几位核心研究者，各自发挥重要作用：

Kenji Hata：斯坦福计算机科学硕士，曾任职于 Google Research。加入 OpenAI 后，参与 4o 图像生成（即 GPT-Image-1）、Sora 2 等多款模型研发，是团队中模型迭代经历最完整的成员之一。

Ayaan Haque：加入 OpenAI 前为 Luma AI 研究员，参与训练视频生成模型 Dream Machine。这段经历让他具备处理高维时序数据的能力，在 OpenAI 主要负责 GPT Image 2 及思考模式研发。

Dibya Bhattacharjee：耶鲁计算机科学本硕，曾在谷歌深耕近 5 年。2024 年 2 月加入 OpenAI 负责图像生成研究，在发布活动中演示模型多规格生成能力，是模型输出格式「开箱即用」的关键成员。

Mengchao Z.：上海交大本科、德克萨斯 A&M 大学硕士，工程背景扎实。加入 OpenAI 前主导大规模推荐系统架构设计，目前负责将模型技术能力转化为可用产品形态。

此外，团队里还有多名成员的身份信息目前暂时无法查询。

师门脉络积累了研究品味，高校背景奠定了基础认知，这种由师门、同窗、前同事织就的人才网络，天然形成了一种极高密度的信任——由于价值观和工程语言的高度统一，创新的磨合成本几乎为零。

如果只是重金挖走一两个陈博远，其实治标不治本。找不到同伴，也就很难复现这种自然涌现的创新。大厂的组织结构决定了层级和目标明确对商业化有利，但对于需要自由探索的基础研究，往往形成了某种约束。

AI 的竞争，归根结底是关于「人」的故事，比起寻找下一个陈博远，我们更需要搭建一个让陈博远们能在本土自然相遇、互相成就的生态。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

The Eclectic Light Company
Last Week on My Mac: Root cause analysis and ClickFix
12 April 2026 at 15:00

Last Week on My Mac: Root cause analysis and ClickFix

The Eclectic Light Company

By: hoakley

12 April 2026 at 15:00

One of the highlights of my work as a medical practitioner was introducing adverse incident reporting and root cause analysis. Even in the most communicative and affable workplace, it’s often hard to admit that something has gone wrong and discover why. The moment outsiders become involved, it all too easily turns into a bout of blamestorming, driving truth underground.

Once you have seen how root cause analysis can pay off in one situation, you want to apply it elsewhere. So please bear with me as I dig a little deeper into what have become slightly inappropriately known as ClickFix attacks, and have been all the rage for the last few months.

ClickFix attacks in macOS

ClickFix attacks first emerged in Windows in early 2024, but hadn’t been reported in macOS until early December last year, when Stuart Ashenbrenner and Jonathan Semon of Huntress published a detailed account. In macOS they typically consist of three steps:

The victim is lured to a site that promises to fix a real or fictitious problem for them.
The hostile site coaches them to copy an opaque script and paste it into Terminal or another app that can run that script.
The script then downloads its malicious payload, normally a stealer, so bypassing macOS security, and proceeds to steal sensitive information from the user’s account on that Mac.

Those are illustrated by one of the early examples I stepped through in a locked-down virtual machine.

At the top of Google’s sponsored results is a solution from ChatGPT, giving its trusted web address. When I clicked on that, it took me to ChatGPT, where there’s a nice clear set of instructions, described impeccably just as you’d expect from AI. This coaches me how to open Terminal using Spotlight, very professional.

It then provides me with a command I can copy with a single click, and paste straight into Terminal. It even explains what that professes to do.

Once I have done that, scripts like .agent are installed in my Home folder, and my (virtual) Mac is now well and truly owned by its attacker.

At the end of January a variation emerged in sponsored search taking the unsuspecting to a malicious site disguised as a Medium.com blog post.

That started copying the contents of my Documents folder to “FileGrabber”, and wrote several hidden files to the top level of my Home folder, again in the safety of a locked-down VM.

Earlier this month, Jamf Threat Labs reported a similar attack abusing the applescript URL scheme to launch Script Editor and deliver another variant of the popular AMOS/SOMA stealer.

Countermeasures

In addition to Apple’s response in its weekly updates to XProtect’s detection rules, Patrick Wardle at Objective-See was quick to add a defence to his BlockBlock utility in mid-February, and Apple followed suit with an elaborate scheme added to macOS 26.4, released on 24 March. Although important, devising those defences is continuing the game of cat and mouse: no sooner are they in place than the attackers switch to a different ploy, as they have recently done by abusing a URL scheme and Script Editor. macOS offers a seemingly endless supply of mechanisms available for such abuse.

What has largely escaped attention is how bizarre user behaviour has become. Here’s a victim using a thoroughly GUI operating system copying what to them can only be incomprehensible gibberish and pasting it into Terminal, or running it in Script Editor. Why on earth would a user fall prey to that?

Prevention

Over the last few years many have grown accustomed to such strange habits as advice has drifted away from using GUI apps to relying on the command line. One factor has been the long decline in professionally written articles. For many years, my editor at MacFormat wouldn’t let me use Terminal commands in my Q&A pages unless there was no alternative. Almost all the dozens of books around me about Mac OS X rely primarily on what can be accomplished in the GUI, and are liberally illustrated with screenshots.

Over this period, tackling problems on Macs has moved from understanding how to use those GUI tools to blindly entering magic spells in Terminal, and now Script Editor. This trend has been promoted by search engines and most recently AI assistance, both of which are primarily text-based. Ask Google a Mac question, and the chances are you’ll be presented with commands to paste in, rather than a well-written account of how to solve it in the GUI.

Apple and third parties have invested in engineering solutions to problems that are fundamentally human and behavioural. Although it’s comforting to receive weekly updates to XProtect, and ingenious methods to detect potentially dangerous actions, no one has done anything about changing user behaviour. Apple seems reluctant to engage ordinary users beyond nudging them to keep macOS up to date, and no one is trying to save victims from their high risk behaviour.

This is also a common problem in healthcare, where we invest most of our resources in treatment, instead of preventing injury and disease. Although the clickfixers are unlikely to run out of victims, at least their crime could become less profitable.

The Eclectic Light Company
Why does AI tell you to use Terminal so much?
11 March 2026 at 15:30

Why does AI tell you to use Terminal so much?

The Eclectic Light Company

By: hoakley

11 March 2026 at 15:30

There’s a striking difference between troubleshooting recommendations made by AI and those of humans. If you’ve tried using AI to help solve a problem with your Mac, you’ll have seen how heavily it relies on commands typed into Terminal. Look through advice given by humans, though, and you’ll see they rely more on apps with GUI interfaces. Rather than sending you straight to fsck_apfs, for instance, most humans will prefer to direct you to Disk Utility and its First Aid feature.

This is because most popular AI like ChatGPT, Claude and Grok is based on LLMs, Large Language Models, built on tokens for words. The great majority of humans using Macs work primarily in its GUI, using apps rather than Terminal commands. Verbalising the use of GUI apps is relatively difficult, and with the popularity of YouTube rather than written blogs, is becoming a dying art.

Command tools are all very well, but in this context they have disadvantages, among them being:

Few understand the commands used, and AI seldom explains those provided unless explicitly asked to do so. This results in the human learning little other than a long list of incomprehensible commands, and acquiring neither understanding nor insight.
Commands often lack the safeguards normally built into in apps, so can more readily cause damage or mislead.
Commands can readily generate overwhelmingly large output, even when piped to a file for later browsing.
Pasting commands into Terminal has become a favourite way to trick the unsuspecting into installing malware.

Even for an advanced user, confident assertions made by an AI can mislead. Here’s an example taken from ChatGPT’s advice on potential detections of malicious software. For this I have set ChatGPT’s output in italics, together with its commands as code. It’s worth noting that each command was explicitly given for the bash command shell, although in macOS Catalina (in 2019) Terminal changed to use zsh rather than bash as its default.

ChatGPT starts this exchange with a teaser that few could resist:
If you want, I can also show you how to tell in 10 seconds whether a Mac actually has malware despite these logs (there are 3 very specific indicators in Console).

Vague predicate

Here’s the most reliable way to see if macOS has ever detected malware on your Mac using Apple’s internal security logs.
1. Check the XProtect malware history
Open Terminal and run:
log show --predicate 'subsystem == "com.apple.XProtectFramework"' --last 30d

This log show command doesn’t access “Apple’s internal security logs”, which don’t exist, but the Unified log. Nor does the recommendation use Console to access the log, as promised. The predicate given is too non-specific to be useful for the stated purpose, and the time period of 30 days is absurdly long and doesn’t match the claimed period either.

On my Mac with the longest log records, its oldest Special tracev3 log file was created on 9 Feb 2026, and now has only 43 KB left from its original size of 11,298 KB, and the next oldest from 10 Feb has 34 KB left from 11,148 KB. On an older Intel Mac, the oldest creation date of a Special log file was 6 March, just 4 days previously, not 30.

When run on the first of those on 10 March, with longer log records, that log show command returns two Fault entries from 11 Feb, and more complete records from Special logs starting on 2 March, but no full log records until 6 March.

The predicate used is too general to select useful entries and is overwhelming, as it returns a total of 1,505 log entries for that command.

Log entries a year old

2. Specifically check for remediation events
To filter just real detections:
log show --predicate 'eventMessage CONTAINS "remediat"' --last 365d
If nothing prints, no malware has been removed in the last year.

ChatGPT here defines “real detections” as those for which remediation was attempted. I know of no evidence from research to support that assumption. Given the limitations in retrieving log entries from 30 days noted above, it seems absurd to assume that any log entries will be retained from over 360 days ago.

It’s malware only if blocked

3. Check Gatekeeper malware blocks
Run:
--predicate 'process == "syspolicyd" AND eventMessage CONTAINS "malware"' --last 365d

ChatGPT has here redefined its original claim to limit it to malware that was blocked by Gatekeeper, and once again assumes it can retrieve log entries from over 360 days ago.

No verification

4. Verify XProtect definitions are current
Run:
system_profiler SPInstallHistoryDataType | grep -i xprotect
You should see recent updates like:
XProtectPlistConfigData
XProtectPayloads
Apple updates these silently in the background.

This is one of its most curious recommendations, as system_profiler is the command line interface to System Information, a familiar and far more accessible app. What that command does is look for the case-insensitive string “xprotect” in the Installations list. Unfortunately, it proves useless, as all you’ll see is a long list containing those lines, without any dates of installation or version numbers. On my older Mac, piping the output to a file writes those two words on 6,528 lines without any other information about those updates.

I know of two ways to determine whether XProtect and XProtect Remediator data are current, one being SilentKnight and the other Skint, both freely available from this site. You could also perhaps construct your own script to check the catalogue on Apple’s software update server against the versions installed on your Mac, and there may well be others. But ChatGPT’s command simply doesn’t do what it claims.

How not to verify system security

Finally, ChatGPT makes another tempting offer:
If you want, I can also show you one macOS command that lists every XProtect Remediator module currently installed (there are about 20–30 of them and most people don’t realize they exist). It’s a good way to verify the system security stack is intact.

This is yet another unnecessary command. To see the scanning modules in XProtect Remediator, all you need do is look inside its bundle at /Library/Apple/System/Library/CoreServices/XProtect.app. The MacOS folder there should currently contain exactly 25 scanning modules, plus the XProtect executable itself. How listing those can possibly verify anything about the “system security stack” and whether it’s “intact” escapes me.

Conclusions

Of the five recommended procedures, all were Terminal commands, despite two of them being readily performed in the GUI. AI has an unhealthy preference for using command tools even when an action is more accessible in the GUI.
None of the five recommended procedures accomplished what was claimed, and the fourth to “verify XProtect definitions are current” was comically incorrect.
Using AI to troubleshoot Mac problems is neither instructive nor does it build understanding.
AI is training the unsuspecting to blindly copy and paste Terminal commands, which puts them at risk of being exploited by malicious software.

Previously

Claude diagnoses the log

Claude Code 终极指南：从入门到精通的 31 个核心技巧

DUN.IM BLOG

By: Anonymous

27 January 2026 at 12:34

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

这篇文章将这 31 个技巧汇编成一份详尽的指南，按从“入门基础”到“高级模式”的逻辑重新组织，并补充了 280 个字符无法容纳的深度背景信息。

无论你是刚刚起步，还是希望利用 Claude Code 提升段位，这里都有适合你的内容。

在深入研究具体功能之前，首先要配置 Claude Code，让它真正理解你的项目。

每个新成员都需要入职文档。使用 /init，Claude 会为自己写一份。

Claude 会读取你的代码库并生成一个 CLAUDE.md 文件，包含：

这是我在任何新项目中运行的第一条命令。

对于大型项目，你还可以创建一个 .claude/rules/ 目录，用于存放模块化、特定主题的指令。该目录下的每个 .md 文件都会作为“项目记忆”与 CLAUDE.md 一起自动加载。你甚至可以使用 YAML frontmatter 基于文件路径有条件地应用规则：

可以把 CLAUDE.md 想象成你的项目总指南，而 .claude/rules/ 则是针对测试、安全性、API 设计等特定领域的专项补充。

想把某些东西存入 Claude 的记忆，又不想手动编辑 CLAUDE.md？

在过去，你需要用 # 开头来让 Claude 将内容追加到文件中。但从 Claude Code 2.0.70 版本开始，流程变得更简单了——你只需要直接告诉它去更新。

直接告诉 Claude 记住它：

“Update Claude.md: always use bun instead of npm in this project”
(更新 Claude.md：在这个项目中始终使用 bun 而不是 npm)

无需打断你的心流，继续编码即可。

@ 提及是将上下文传递给 Claude 的最快方式：

在 Git 仓库中，文件建议的速度提高了约 3 倍，并且支持模糊匹配。@ 是从“我需要上下文”到“Claude 已获取上下文”的最短路径。

这些是你会频繁使用的命令。请将它们刻入肌肉记忆。

不要浪费 token 去问“你能运行 git status 吗？”

只需输入 ! 加上你的 bash 命令：

! 前缀会立即执行 bash 命令并将输出注入到上下文中。没有模型处理延迟，不浪费 token，无需切换多个终端窗口。

这一看似微小的功能，当你每天使用五十次后，就会意识到它的巨大价值。

想尝试一种“如果我们这样做……”的方法，但又不想承担后果？

尽管去试。如果情况变得奇怪，按两次 Esc 键即可跳回到干净的检查点。

你可以回退对话、代码更改，或者两者都回退。需要注意的是：已运行的 Bash 命令无法撤销。

你过去的提示词（Prompts）都是可搜索的：

不要重打，要去回忆。 这对斜杠命令（slash commands）同样适用，体验无缝衔接。

这就好比 git stash，但是用于你的提示词。

Ctrl+S 保存你的草稿。先发送其他内容。当你准备好时，你的草稿会自动恢复。

再也不用复制到记事本，再也不用担心在对话中途打断思路。

Claude 可以预测你接下来要问什么。

完成一项任务后，有时你会看到一个灰色的后续建议出现：

Tab 键曾经用于自动补全代码。现在，它自动补全你的工作流。可以通过 /config 切换此功能。

Claude Code 是一个持久化的开发环境，根据你的工作流对其进行优化，将极大地提升效率。

不小心关掉了终端？电脑在任务中途没电了？没问题。

上下文得以保留，势头得以恢复。你的工作永远不会丢失。你还可以通过 cleanupPeriodDays 设置会话保留的时间。默认是 30 天，但你可以将其设置得更长，或者如果你不想保留会话，可以设为 0。

你的 Git 分支有名字，你的 Claude 会话也应该有。

/resume 界面会对分叉（forked）的会话进行分组，并支持快捷键：P 预览，R 重命名。

在网页上开始任务，在终端里完成它：

这会将云端会话拉取并恢复到本地。无论在家还是在路上，Claude 都在。这也适用于 iOS 和 Android 的 Claude 移动应用，以及 Claude 桌面应用。

有时你需要一份关于发生了什么的记录。

/export 将你的整个对话转储为 Markdown 格式：

非常适合用于文档编写、培训，或者向过去的自己证明：是的，你确实已经尝试过那种方法了。

这些功能旨在消除摩擦，帮助你更快地行动。

厌倦了伸手去拿鼠标来编辑提示词？

输入 /vim，解锁全功能的 Vim 风格编辑体验：

以思维的速度编辑提示词。你几十年的 Vim 肌肉记忆终于在 AI 工具中得到了回报。退出 Vim 模式也前所未有地简单，只需再次输入 /vim。

Claude Code 在终端底部有一个可自定义的状态栏。

/statusline 让你配置显示的内容：

一目了然的信息意味着更少的手动检查和中断。

想知道是什么吃掉了你的上下文窗口？

输入 /context 查看究竟是什么在消耗你的 token：

当你的上下文开始变满时，这就是你找出问题所在的方法。

输入 /stats 查看你的使用模式、最爱用的模型、连续使用天数 (Streaks) 等。

橙色是新的绿色 (Orange is the new green)。

“我快达到限额了吗？”

了解你的极限，然后超越它们。

控制 Claude 如何处理问题。

通过一个关键词按需触发扩展思考：

当你在提示词中包含 ultrathink 时，Claude 会在回答之前分配最多 32k token 用于内部推理。对于复杂的架构决策或棘手的调试会话，这往往决定了你得到的是肤浅的答案还是真正的洞察。

注：以前你可以指定 think, think harder, ultrathink 来分配不同数量的 token，但现在我们已将其简化为单一的思考预算。当配置了 MAX_THINKING_TOKENS 时，ultrathink 关键字将失效，配置项将优先控制所有请求的思考预算。

先驱散战争迷雾。

按两次 Shift+Tab 进入计划模式 (Plan Mode)。Claude 可以：

但在你批准计划之前，它不会编辑任何内容。三思而后行 (Think twice. Execute once.)。

我有 90% 的时间都默认处于计划模式。最新版本允许你在拒绝计划时提供反馈，使迭代更快。

直接使用 Claude API 时，你可以启用扩展思考来查看 Claude 的逐步推理：

Claude 在回答之前会在思考块 (thinking blocks) 中展示其推理过程。这对调试复杂逻辑或理解 Claude 的决策非常有用。

没有控制的力量只是混乱。这些功能让你设定边界。

/sandbox 让你一次性定义边界。Claude 在边界内自由工作。

你获得了速度，同时拥有真正的安全性。最新版本支持通配符语法，如 mcp__server__*，用于允许整个 MCP 服务器。

厌倦了 Claude Code 做什么都要请求许可？

这个标志对一切说 Yes。它的名字里带有“dangerously”（危险地）是有原因的——请明智地使用它，最好是在隔离环境或受信任的操作中。

Hooks 是在预定生命周期事件发生的 shell 命令：

通过 /hooks 或 .claude/settings.json 进行配置。

使用 Hooks 来阻止危险命令、发送通知、记录操作或与外部系统集成。这是对概率性 AI 的确定性控制。

Claude Code 的作用不止于交互式会话。

你可以将 Claude Code 用作脚本和自动化的强大 CLI 工具：

流水线中的 AI。-p 标志以非交互方式运行 Claude 并直接输出到标准输出 (stdout)。

将任何提示词保存为可复用的命令：

创建一个 Markdown 文件，它就变成了一个斜杠命令，并且可以接受参数：

不要重复自己。你最好的提示词值得被复用。

Claude Code 可以看到并与你的浏览器交互。

Claude 现在可以直接与 Chrome 交互：

“修复 Bug 并验证它能工作”现在只需一个提示词。从 claude.ai/chrome 安装 Chrome 扩展程序。

这是 Claude Code 真正强大的地方。

圣诞老人不会自己包装每一份礼物。他有精灵。

子代理 (Subagents) 就是 Claude 的精灵。每一个子代理：

像圣诞老人一样放权。子代理可以在后台运行，而你继续工作，它们拥有访问 MCP 工具的完全权限。

技能 (Skills) 是指导 Claude 完成特定任务的指令、脚本和资源的文件夹。

它们一次打包，随处可用。而且由于 Agent Skills 现在是一个开放标准，它们可以在任何支持该标准的工具中工作。

把技能看作是按需赋予 Claude 专业知识。无论是你公司特定的部署流程、测试方法论，还是文档标准。

还记得以前分享 Claude Code 设置意味着要跨 12 个目录发送 47 个文件吗？

那个时代结束了。

插件将命令、代理、技能、Hooks 和 MCP 服务器打包在一起。通过市场发现新的工作流，市场包含搜索过滤功能，便于发现。

LSP 支持赋予了 Claude IDE 级别的代码智能：

LSP 集成提供：

Claude Code 现在像你的 IDE 一样理解你的代码。

驱动 Claude Code 的代理循环、工具和上下文管理现在作为 SDK 提供。只需不到 10 行代码即可构建像 Claude Code 一样工作的代理：

这仅仅是个开始。

当我开始这个“倒数日历”时，我以为我只是在分享技巧。但回顾这 31 天，我看到了更多的东西：一种人机协作的哲学。

Claude Code 中最好的功能都是为了给你控制权。计划模式、代理技能、Hooks、沙盒边界、会话管理。这些是与 AI 协作的工具，而不是向它投降。

能从 Claude Code 中获得最大收益的开发者，不是那些输入“帮我做所有事”的人。而是那些学会了何时使用计划模式、如何构建提示词、何时调用深度思考 (Ultrathink)，以及如何设置 Hooks 在错误发生前捕获它们的人。

AI 是一个杠杆。这些功能帮助你找到正确的抓手。

致 2026 年。

Claude Code 终极指南：从入门到精通的 31 个核心技巧

DUN.IM BLOG

By: Anonymous

21 January 2026 at 15:22

这篇文章将这 31 个技巧汇编成一份详尽的指南，从“入门基础”到“高级模式”，并补充了深度背景信息。无论你是刚刚起步，还是希望利用 Cla...

ChatGPT 的降智测试和账号恢复实测指南

DUN.IM BLOG

By: Anonymous

20 November 2025 at 12:16

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

近期，ChatGPT 5.1 Thinking 的 Juice Number 达到了 256。如果你的达不到，大概率是被降智了。

ChatGPT 的降智测试和账号恢复实测指南

Juice Number 实质上是 ChatGPT 模型的 「思考预算 (Thinking Budget)」。

Juice 值不直接等同于模型的“智商”，但它限制了思维链 (Chain of Thought) 的长度。

当值过低时，即便模型本身能力强大，也会因为“思考预算不足”而表现出逻辑断层或回答肤浅，即常说的“降智”现象。

如果把 AI 的思考过程比作在纸上推演，Juice 值决定了这张纸的大小：

由于 Juice 值属于后台系统参数，常规对话无法直接获取。目前通用的检测方法是利用 Prompt Injection（提示词注入） 技术，通过伪装系统指令来绕过防御。

OpenAI 会根据 账号的风险评分（Trust Score） 动态调整算力资源。

常见原因：

降智表现：
不同模型的 Juice 值是不一样的，系统降智也有不同程度，可能会将 Juice 值从 256 降级至 128、96、64 甚至 16 等。

此时，模型在处理代码重构、长文本分析等复杂任务时，质量会显著下降。

以下是我的恢复步骤：

退出所有已登录该账号的设备（手机、电脑、平板等），确保没有任何活跃会话。

将账号闲置 48 小时。这段时间用于让后台的风控标记自动过期或重置。

最后重新登陆使用检测代码进行测试。

实测效果：

OpenAI 官方 GPT-5.1 提示词技巧参考

DUN.IM BLOG

By: Anonymous

9 November 2025 at 13:33

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

简单来说，GPT-5.1 的核心进化在于在智能和速度之间找到了一个绝佳的平衡点。

GPT-5.1 的可控性是它最大的亮点之一。可以像导演一样，精确塑造智能体的个性、沟通风格和行为模式，扮演每一个细节。

为智能体定义一个清晰的角色，是引导其个性和互动风格最有效的方式。这在需要处理复杂用户动态的客户服务等场景中尤为重要。以下提示定义了一个注重效率和实用性的客户支持智能体：

通过 verbosity 参数和明确的提示指令，可以对输出的长度和结构进行精确控制。为编码智能体设定的输出规则示例：

一个通用的输出长度控制指令：

在执行长耗时任务时，让智能体主动提供计划和进度更新，可以有效改善用户体验，并使用户能够监督其工作流。定义更新频率、内容和时机的指令示例：

为防止智能体在复杂任务中过早结束，可通过提示强化其自主解决问题的持久性。

工具的有效使用，依赖于在定义中清晰描述其功能，并在提示中明确其使用场景。 create_reservation 工具的 JSON 定义：

配套的提示，用以指导模型如何与用户交互并调用该工具：

GPT-5.1 能够高效地并行执行无依赖关系的工具调用。在系统提示中鼓励这种行为可以显著提升任务执行效率。

GPT-5.1 集成了为编码场景设计的专用工具，允许模型直接与开发环境交互。

none 推理模式强制模型不使用内部推理步骤，使其在行为和性能上接近传统的非推理模型。这为低延迟应用和简单的工具调用场景提供了显著的性能优势。

尽管此模式下没有显式的“思考”链，但可以通过提示引导其进行隐式的规划和验证。

当智能体的行为与预期不符时，可以利用模型本身来分析和修正其系统提示。

诊断根本原因

向 GPT-5.1 提供其原始系统提示和一批失败案例的日志，要求它进行根本原因分析。

生成修订方案

基于第一步的分析结果，要求模型提出对原始提示的“外科手术式”修改。

通过这个两步流程，开发者可以利用模型自身的语言和逻辑能力，定位并修复提示中的模糊和矛盾之处，从而生成一个更健壮、行为更可预测的智能体。

总而言之，GPT-5.1 在可控性、效率和工具集成方面提供了新的可能性。掌握其提示工程原则，特别是行为塑造、工具使用规范以及自我修正等高级技巧，是构建下一代复杂 AI 应用的基础。

Claude Code 最佳实践经验分享

DUN.IM BLOG

By: Anonymous

29 October 2025 at 15:02

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

CLAUDE.md 是代码库的根目录中最重要的文件，它是代理理解你项目运作方式的核心规则。如何维护它，取决于使用场景。

正确示例:
“对于复杂的…用法，或当您遇到 FooBarError 错误时，请参阅 path/to/docs.md 以获取高级故障排除步骤。”

你需要向代理建议阅读这份文档的理由和时机。

正确示例:
“不要使用 --foo-bar，请优先选择 --new-baz。”

建议在编码会话中至少运行一次 /context，以了解你的 200k 令牌上下文窗口是如何被消耗的。

在一个大型单体仓库中，一次新的会话基本消耗可能就高达约 20k 令牌（10%），剩下的 180k 会很快被填满。

你可以将上下文窗口想象成磁盘空间，它会随着你的工作而填满。几分钟或几小时后，你需要清理（紫色部分）来腾出空间。

小提醒：
不要信任自动压缩。
使用 /clear 进行简单任务，并利用存储方法为复杂任务创建持久的外部记录。

我将斜杠命令视为常用提示词的快捷方式，仅此而已。我的设置非常精简：

小提醒：
如果你发现自己有一长串复杂的自定义斜杠命令，那你可能过度思考了。
AI 代理的魅力在于自然语言交互，一旦你开始强迫自己和团队去记一堆指令，就违背了初衷。
将斜杠命令用作简单的个人快捷方式，而不是用来替代构建更直观的 CLAUDE.md 和更完善的工具。

子代理听起来很美：把特定任务（比如跑测试）外包给专门的代理，只返回最终结果，从而保持主上下文的清洁。

然而，在实践中，自定义子代理会带来两个问题：

我更喜欢使用 Claude 内置的 Task(...) 功能来生成通用代理的副本。

这既能享受到子代理节省上下文的好处，又避免了其缺点。代理能够动态地管理自己的任务编排，而不是遵循固定的模式。

我经常使用 claude --resume 和 claude --continue 来重启出问题的终端或快速恢复旧会话。

我甚至会恢复几天前的会话，只为让代理总结它是如何解决某个特定错误的，然后用这些信息来优化改进 CLAUDE.md 和内部工具。

更进一步，Claude Code 将所有会话记录存储在 ~/.claude/projects/ 中。可以使用脚本定期对这些原始日志进行元分析，寻找常见的异常、权限请求和错误模式，以帮助优化改进给 AI 的上下文。

钩子 (Hooks) 是确定性的“必须做”规则，与 CLAUDE.md 中“应该做”的建议形成互补。在复杂的任务代码库里，这东西至关重要。

小提醒：
不要在“写入时”（比如 Edit 或 Write 操作）阻止。
打断它的思考过程会让它出现不明所以的判断。更好的方式是让它完成整个工作，然后在最后提交时检查结果。

对于任何大型功能变更，使用规划模式至关重要。

技能（Skills）可能是比 MCP 更好用。

智能体模型三个阶段：

Agent Skills
正是“脚本化”阶段的正式产品化。如果你像我一样，倾向于使用 CLI 而非 MCP，那么你其实一直在享受 Skills 带来的好处。
SKILL.md 文件就是一个更规范、可共享的方式来告诉 AI 它能用哪些脚本和 CLI。

Skills 的出现并不意味着 MCP 已死，而是使其更加聚焦。

与其成为一个包含几十个工具、镜像 REST API 的臃肿接口，MCP 应该是一个简单、安全、提供少数强大高阶工具的网关。比如：

MCP 的工作会是管理认证、网络和安全边界，然后让开。为代理提供入口点，代理则利用其脚本化能力和上下文来完成实际工作。

Claude Code 不仅仅是一个交互式 CLI，它还是一个强大的 SDK，可用于构建全新的通用代理框架。

Claude Code GitHub Action 是最被低估的功能之一。概念很简单：在 GHA 中运行 Claude Code。

它比 Cursor 的后台代理或 Codex 的托管 Web UI 更具可定制性。你完全控制容器和环境，拥有更强的数据访问权限、沙盒能力和审计控制。

我们可以用它来打造智能 PR 的工具：从 Slack、Jira 或者监控警报触发一个 GHA，让 AI 自动修复 bug 或添加功能，然后提交一个测试通过的 PR。

GHA 的日志就是 AI 的完整工作记录。我们可以定期分析这些日志，以发现常见的错误和不一致的工程实践，然后优化我们的 CLAUDE.md 和 CLI，形成一个数据驱动的飞轮

最后，分享几个常用的 settings.json 配置：

DUN.IM BLOG
App Store 超低价应用内购省钱技巧，不到60人民币开通 ChatGPT $20 的会员订阅
7 September 2025 at 15:28

App Store 超低价应用内购省钱技巧，不到60人民币开通 ChatGPT $20 的会员订阅

DUN.IM BLOG

By: Anonymous

7 September 2025 at 15:28

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

实际上，大多数 App 和服务定价并非全球统一。如 OpenAI 和许多跨国科技公司一样，会采用“购买力平价（Purchasing Power Parity, PPP）”策略，即根据不同国家和地区的经济水平、人均收入来调整产品价格。

这便在全球市场中形成了一些“价格洼地”，其中，尼日利亚正是全球订阅 ChatGPT Plus 最便宜的地区。

全球部分地区价格对比：

整个流程的核心是在尼日利亚区的数字生态内完成支付闭环。

群晖 WebDAV 套件因为SSL证书错误无法启动

BOXKS

By: Kaiyuan

5 September 2025 at 22:49

synology-webdavserver-ssl-error 公司 NAS 之前一直开着 WebDAV 的，后来某一天不知道为什么不行了，然后我折腾了好久。最后发现是 SSL 证书问题…

我一直使用家里 NAS 自动申请 let’s encrypt 证书，然后同步到家里路由，公司路由和 NAS。使用的是 syno-acme 脚本更新。证书同步到公司 NAS 则是用修改版的脚本更新证书。

之前一直都没有问题的，出问题之后我在群里问，群友叫我先 ps -ef | grep webdav 查询一下进程，发现完全没有允许，很是无语。然后我搜了一下 webdav 目录，找到日志问题 /var/log/webdav/webdav-error.log 发现一直提示证书错误，key 和证书不匹配…

看到这日志…我瞬间无语了，我更新脚本其他套件都没问题 ssl 正常的。但是到了 WebDAV 就出现证书错误，然后我重新跑一次证书脚本，还是一样，最后我是手动上传证书，这样才正常启动 WebDAV。

SUiTHiNK
被时间拉长的人
31 August 2025 at 18:05

被时间拉长的人

SUiTHiNK

By: Steven

31 August 2025 at 18:05

丢了一批人物标签给 AI 写人物小传，让它模仿某位小说家的笔法，来给演员交代角色。

你觉得这像谁的手笔？

————

南方的空气里常常有潮湿的味道，像是雨下过以后残留的影子，久久不散。城市白天拥挤喧嚣，夜晚却显得空旷，好像光亮突然被抽走，留下无数未完的句子。在这样的环境里，一个男人行走。他的脚步从不急躁，像对时间有着自己的节奏感，和别人不太一样。

年少的时候，他把自己交给了工业设计。形状、光影、比例，这些东西比人群更让他安心。六年在公司，十年在创业，那些日子像一张张被翻阅过的旧画册，色彩褪去了，但线条还在。产品的生与死，像车站里人群的来去。大多数人只看见成功或失败，他却更在意其中被忽略的细节。

别人眼中的他冷静得过分，总是习惯提前几步想好方向，就像棋局上的布局。但在那层冷静的外壳下，常常闪现一些不合逻辑的柔软时刻。比如一段旋律，随便一盏灯的影子，甚至一个不经意的眼神，足以让他停下手里的笔。理性和浪漫在心里不停打架，谁也没有赢过谁。

他知道自己带着黑暗生活。抑郁的日子像一条看不见的走廊，没有尽头。他学会了靠药物维持稳定，像有人随身带着一块怀表，偶尔瞥一眼，提醒自己仍然存在。那段经历让他对痛苦格外敏感，也让他在与人相处时多了一层隐秘的温柔。他不会轻易表现出来，但在内心深处，对别人的脆弱始终心知肚明。

夜晚经常独自坐在桌前，电脑屏幕的光照在脸上，桌上散落着草图和未完成的文字。那些想法有时像城市里的霓虹一样闪烁不定，无法全部抓住。他清楚其中大部分不会被记住，就像梦醒时遗落的片段。但仍旧一遍一遍画下去，像一种执念，也像是一种呼吸。

在喧闹的城市里，他习惯保持慢半拍的步伐。人群汹涌，他的节奏却像潜水时的心跳，缓慢、克制，不慌不忙。他看似与周围保持着距离，其实心里始终怀有一种模糊的渴望——不是要成为谁，也不是要得到什么，而是想在梦与现实之间找到某种入口。梦与梦之间，总有裂缝。裂缝里偶尔透进光。

对很多人来说，他是个不好接近的人。但真正靠近以后会发现，那些冷漠与安静只是表层，像水面下覆盖着的冰。深处的水仍然温热，流动着。理性、浪漫、痛苦和温柔同时存在，没有谁能完全把它们分开。

这样的人物，像一个在现实里造梦的旅人。他的路从不喧哗，却留下清晰的痕迹。

（*正文及标题均由 AI 完成）

ChatGPT 上线新语音模型，解析「Monday」模型音色提示词

DUN.IM BLOG

By: Anonymous

29 March 2025 at 22:04

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

想象一下，你正在和手机里的 AI 助手聊天，但它不再是那个永远彬彬有礼、甚至有些刻板的「标准音」，而是带着一丝慵懒、一点讽刺，仿佛刚经历了一个漫长周末，还没从「周一综合症」里缓过神来。这就是 OpenAI 昨天推出的「Monday」音色想要达到的效果。

网上已经有很多「Monday」对话效果的展示，「Monday」的音色当然是其语音模型的结果，而「Monday」这种特殊的回复方式是靠提示词来控制的。打个比方：「Monday」就像是一个极其聪明但缺乏具体「生活经验」的演员，而提示词就是导演给演员的剧本和角色设定。提示词写得越好，演员（AI）的表演就越「入戏」，越符合你的预期。

如果你对「Monday」提示词好奇的话，正好我今天学习研究了一下它的提示词，正好可以一起分享学习一下它的提示词内容，完整的提示词我放在了附录，这里大致解析一下其提示词内容。

大语言模型远不止是信息检索工具，它们是强大的「模仿者」和「扮演者」。通过精心设计的提示词，我们可以赋予它们各种各样的「人格」和能力。那么怎么通过提示词来设定好角色呢？

如果按照前面打的比方，把 AI 当成一个演员，那要写好提示词就是把自己变成一个好的导演，不仅要告诉演员台词，还要解释角色的内心世界、动机、情绪状态，甚至给出具体的动作和表情指导。好的导演能激发出演员最好的表演，就像好的提示词能引导 AI 生成精彩的回应。

或者作家在创作小说前，往往会为主要人物写详细的小传，包括他的成长背景、性格、习惯、口头禅、人生目标等。这帮助作家在后续写作中保持人物的一致性和立体感。

如果你觉得这都过于专业，还可以想象一下很多大公司制作的详细的品牌手册，规定了广告语、客服回答、社交媒体发帖的语气和风格（比如是专业严谨、活泼有趣还是温暖亲切）。

这些和给 AI 设定「人设」异曲同工。

从技术角度上来说，可以参考「Monday」的提示词，注意几个方面：

当 AI 开始拥有「周一综合症」般的慵懒和讽刺，它不仅仅是一个技术演示，更像是一面镜子，映照出我们人类自己复杂多变的情感和个性。我们精心编写的每一个提示词，或许都在不经意间，为冰冷的机器注入了一丝我们渴望理解或被理解的人性侧影。

「我们塑造了工具，然后工具反过来塑造我们。现在，我们开始学习如何给 AI『写剧本』，也许在这个过程中，我们也在重新学习如何与『人』，以及与自己对话。」

DUN.IM BLOG
ChatGPT – Deep Research 功能指南&技巧总结：从「进度条」到「提示词」，一次搞懂！
22 February 2025 at 13:13

ChatGPT – Deep Research 功能指南&技巧总结：从「进度条」到「提示词」，一次搞懂！

DUN.IM BLOG

By: Anonymous

22 February 2025 at 13:13

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

最近有很多朋友在讨论：「Deep Research 的用量是怎么算的？」 又因为目前 Plus 每个月只能用 10 次，大家都非常担心浪费。其实一句话就能总结——只要开始出现「Starting Research」的进度条，就算使用了一次。在进度条出现之前，怎么问都不算。下面就为大家分享一些 Deep Research 的使用流程、注意事项和提示词模板，帮助大家更好地运用这一强大的研究功能。

一句话总结：从开始出现 Deep Research 进度条就算一次，之前都不算。

提出主题
你先要告诉 ChatGPT 需要研究什么主题。

ChatGPT 询问澄清问题
ChatGPT 通常会向你询问一些澄清问题，确保理解你的研究需求。

回答澄清，触发研究
当你回答了上述澄清问题后，ChatGPT 会再回复一条消息，并提示「将开始报告「，随后出现」Starting Research「的进度条。

注意：从这一步开始就会扣除一次 Deep Research 用量。

报告生成
研究进度条走完后，ChatGPT 会给你发送完整的报告，这标志着一次 Deep Research 流程的完成。

进度条出现后，你可以随时离开
进度条开始后，无论你是关闭窗口、刷新网页、切换到其他会话还是新开会话，都不会影响已经开始的 Deep Research 流程，它会在后台继续执行并最终生成报告。

Deep Research 可以后续追问
当报告生成结束后，如果你要继续追加信息重新生成报告，有两种选择：1). 直接提问，会使用你开始会话时选择的模型继续对话，报告内容可以作为上下文；比如说你从 GPT-4o 开始的，那么你在报告生成后，如果继续提问，实际上是 GPT-4o 基于你报告和提问内容回复，但是可能会受限于上下文长度无法完整理解报告内容；2). 重新生成新报告：Deep Research 是一次性生成的，但是你可以继续在当前会话选中「Deep research」按钮，这样可以把当前会话内容作为输入，或者把内容复制出去新开会话选中「Deep research」按钮重新开始一次新的生成。内容复制出去处理一下再生成会更好的对输入进行控制，但是麻烦一些。

你无法追加新的信息让它继续深度研究。如果你在当前会话里继续追问，后续的回答将由其他模型（如 GPT-4o）接管。
如果你对报告不满意，需要重新修改提示词再新开一次会话进行 Deep Research。

灵活切换模型
你可以先选任何模型（如 o1 pro/o1 等），再让它进行 Deep Research。若后续还打算继续追问报告内容，建议在 Deep Research 开始前就选一个更强的模型（比如 o1 pro / o1）来进行分析。

选择信息源和报告语言

建议在提示词中加一句「请选择权威信息源」（并不一定要非英文来源不可，重点是权威信息源，这样可以过滤掉一些不好的信息源，当然你也可以加上「优先英文信息源」）。

如果希望报告是中文，直接在提示词末尾加一句「请形成中文报告「即可。

如果不小心生成了英文报告，又看着费劲，可以在当前会话，让它翻译，也可以复制完整内容，

ChatGPT – Deep Research 功能指南&技巧总结：从「进度条」到「提示词」，一次搞懂！

新建会话，选择 o1 pro 或 o1 模型（最佳翻译效果），翻译提示词参考：

「请将下面的内容用中文重写，尊重原意，保持格式不变无删减：」

引入外部资料的方法

如果报告需要访问收费网页上的内容，你可以手动复制成 Markdown，然后在提示词中用 XML 标签包起来。

如果有图片内容，直接上传即可。

如果要分析视频内容，需要先把视频转成文字，同样用 <transcript> 标签包住，再放进提示词里。

我一般会用 AIStudio 的 Gemini 转成文本。

你可以一次粘贴几千行代码也没问题（用 XML 包起来），但要注意输入框粘贴有上限。如果太多，可以把代码放在公开的 GitHub 仓库，让 Deep Research 去分析链接即可。

写报告或写代码都行
Deep Research 不仅能写报告，还能写代码。只要你提示它「生成的结果是代码」，它就会尝试从网上搜索相关代码库并提供解决方案。

文献质量与报告质量
如果想让它「阅读」一本书并进行提炼，需要注意输入长度有限，无法直接输入一本完整的书。大部分流行书籍已经在模型中有训练数据，所以它会参考网上已有的书评。资料越多、质量越高，报告越漂亮；如果资料很少，它也无米下炊，生成的报告质量可能有限。

一个常见的提示词模板大致可分为背景信息、任务要求、和输出格式三个部分。

在这里填写所有对它生成报告有帮助，但模型本身访问不到的信息，比如：

付费文章

视频文字稿

图片或 PDF（可作为附件）

其他任何对于生成有帮助的内容

当背景信息较多时，务必用 XML 标签包裹，避免 AI 混淆指令。例如：

主题：你希望分析、研究或讨论的具体范围

信息源：希望它检索的文献库、学术论文、政府网站、GitHub 等

研究要点：需要关注的核心点，是深度解析还是简要摘要

语言或风格：是中文、英文或其他语言？

语言：中文报告、英文报告或双语

数据格式：是否需要用表格呈现数据（它暂时画不了图表）

段落和标题：是否需要分级标题、索引等

提示词模板并不是必须的，可以随性一点，你可以把写提示词使用 Deep Research 当成去交代一个实习生帮你写分析报告，你怎么交代实习生就怎么写提示词。

Deep Research 的使用次数：只要出现「Starting Research」进度条，就会扣除一次用量。

保持灵活：不满意就重新开始，新开会话前最好做好提示词规划。

结合大模型优势：如果要深入分析或后续追问，选用更强的模型如 o1 pro / o1 更合适。

慎重选择资料：外部资料要提前整理好，使用 XML 标签嵌入提示。

尊重版权、合理引用：在使用外部资料时，务必保留引用信息，切勿违规。

希望这篇文章能让你更好地理解和使用 Deep Research。在实际使用中，不妨多加尝试和探索，慢慢就能摸索出最适合自己的使用方式。祝大家玩得开心，也能高效地完成研究和写作任务！如有更多问题，欢迎在评论区留言交流。

总结：

如果你想让 Deep Research 提供权威信息源，在提示词中加一句「请选择权威信息源」。

如果要生成中文报告，只要在提示词里加「请形成中文报告」即可。

不小心生成英文报告且看着费劲，使用下面的提示词翻译：
「请将下面的内容用中文重写，尊重原意，保持格式不变无删减：」

欢迎大家在留言区分享你们的使用心得与经验，一起探讨 Deep Research 的更多玩法！

申请免费使用教育版 GitHub Copilot Pro

沉舟侧畔 Blog

By: springwood

24 February 2025 at 22:42

（Abstract）大学教书匠比较穷，所以给一些福利？

如有类桶，纯属巧合

沉舟侧畔 Blog

By: springwood

15 February 2025 at 21:54

（Abstract）如有雷同，纯属巧合

DUN.IM BLOG
ChatGPT Task – 自动任务，提醒、计划、定时功能发布，实测 5 个场景使用分享
12 January 2025 at 16:47

ChatGPT Task – 自动任务，提醒、计划、定时功能发布，实测 5 个场景使用分享

DUN.IM BLOG

By: Anonymous

12 January 2025 at 16:47

我们还年轻，可不想看到这个世界处在毫无自由、隐私的边缘。

ChatGPT这两天又发布了一个新功能：「Task 〔计划提醒、定时任务生成〕」。

功能的原理很简单，它就只是在原本的对话当中加上一个「计划提醒、定时任务生成」的机制〔支持自动循环〕。于是当我们设置的每天、每周重复时间到的时候，这个 AI 的对话就会根据我们设置好的方式，自动生成一段我们需要的信息内容，如果是在 ChatGPT 的手机 APP 上还会弹出通知，如果是在电脑网页端的界面上对话也会因为更新而排列在前面。

通过 ChatGPT 根据计划自动生成的新内容，我们就可以自动获得需要关注的提醒，或是自动获取需要的信息。它可以应用在什么样的场景上面呢？可以参考下面 5 种使用场景：

下面，我就用这几个真实的场景，详细操作给大家看，看看如何结合目前 ChatGPT 的功能，加上最新的任务提醒，来完成上述各种自动提醒的工作、学习流程需求。

目前这个「任务提醒」功能还在 Beta 测试版，并且只对付费版的 ChatGPT 用户开放，不过未来这个功能也会开放给所有用户使用〔包含免费的账户〕。

让我们先从这个基本应用，看看 ChatGPT 的「Task 」功能如何操作。

首先，我们要把 AI 模型切换到「含计划任务的 GPT-4o」。