Reading view

There are new articles available, click to refresh the page.

用 Codex 优化网速狂飙 900Mbps?实测之后我发现了新的隐藏玩法

昨天,Codex 再一次重置了额度,我们的账号从剩余 10% 又回到了剩余 87%。

Codex 负责人 Tibo 在 X 发文,

有些用户注意到 Codex 中的缓存限制消耗得更快,我们发现根本原因是之前的一个优化措施,该措施在长时间运行的会话中进行压缩时会影响缓存命中率,我们已将其回滚。

 

 

我们已修复此问题,并已重置所有账户的使用限制。祝您周末愉快。

于是又想着还可以用 Codex 来做点什么,刚好就在 X 上刷到了「我用 Codex 提升了我的电脑网速,从 400Mbps 到 900Mbps。」

内容真的很有噱头,用 Codex 竟然能优化本地的网络?网速不应该是受限于路由器,或者网络服务提供商 ISP 这些上层设备吗?

这则推文的评论区也有不少网友提出了质疑,「所以 Codex 最终改变了电脑上的什么配置?」、「鉴于如今 AI 的强大技术,我真的无法判断这是否是诱饵。」

博主做出解释,Codex 帮助他把电脑上的 auto tuning level 从关闭调回了 normal 正常。auto tuning level 是说系统会根据网络延迟、带宽和拥塞情况,动态决定一次能接收多少数据,从而提高网络的速度。

他还给出了自己用的提示词。

嘿,我朋友说他的网速提高了,情况是这样的。你能帮我看看我们家的网络有什么可以改进的地方吗?我的网络供应商说他们提供的带宽是 1.2k Gbps,而我实际的网速是硬件问题。我现在只有 55Mbps,请帮我解决这个问题,别出错了。

 

我的目标很简单,就是让我的互联网速度更快。
问题已诊断:首先运行了 speedtest-cli。
检查了 DNS 解析时间,
检查了 MTU、丢包率、Wi-Fi 信号/干扰情况。
发现 3 个问题。
已删除过时的网络位置/配置文件。
终止或限制占用大量带宽的后台进程。
优化 mDNS。
进行了测试前后的速度测试和延迟检查。

这套提示词来自另一个 X 博主@cjzafir,他分享了自己使用 Codex + GPT 5.5 的实际案例,里面提到了 Codex 5.5 让他的网速变快了,本地运行的 6B 小语言模型速度更快了,以及 Macbook Pro 运行速度也像新的一样快等等。

我们也拿着这套提示词发给 Codex,在要求 Codex 处理网速问题前,先用中国科学技术大学测速网站 https://test.ustc.edu.cn/ 看了一下大概的速度,基本上下载速度在 100Mbps 左右,上传是在 200 Mbps 左右。

Codex 确实按照这些诊断,从 DNS 解析时间,数据包、网络配置等方面,检测并修复了对应的问题,累计处理时间超过五分钟。

最后 Codex 得出的结论是「我检查并做了能安全完成的修复。」它找到了 3 个存在的问题,分别是 DNS/缓存异常、负载延迟很高,以及有线千兆网卡没有在用,Wi-Fi 不能作为 1Gbps 的验收依据。

再次测试,发现似乎并没有很明显的网速提升。

有人问那位博主,是不是使用的 Mac 电脑,他回复说是 Windows,底下还有网友科普,Mac 的网络配置都是固定了,Codex 一般是无能为力。

所以这次轮到 Windows 用户来享受 Codex 网速提升服务了?还有 Linux。

有评论说,「以为是用 Codex 入侵了网络服务提供商,然后提高了流量限制」,结果只是 Codex 帮忙清理了一下 DNS 缓存。

但也有网友分享照着这个方法,成功复现了,Codex 确实让它的网速变快。

大家要是感兴趣也可以试试,不过 Codex 修改这些网络配置还是有一定的风险,评论区还有人提到 Codex 把他原有电脑的网络配置都删掉了,然后 Codex 跟他说,删掉它们是为了让网速更快。

这些涉及到 Computer Use 的使用案例,大概都会有类似的问题,除了每一次更细心的看懂允许 Codex 执行的是什么命令,还可以在提出任务时,就要求它解释清楚它要做的每一步。

如果不做修改,只是让 Codex 去诊断一些可能存在的网络配置问题,我想也比那个一直停留在进度条的自带 Windows 诊断要强。

开始了,Codexmaxxing

当大家都在讨论 Codex 是否能真的提升网速时,也有网友提到这种用法其实是一种启发。

他说这种做法的核心价值在于靠案例驱动,让 AI 直接参考成功的经验,再针对自己的具体情况进行精准诊断和优化,而类似的提示词技巧在 Agent 产品上将非常有效。

这很像 Codex 里面的 /goal 命令,给他一个目标,这个目标可以是我们自己设置的,也可以是其他用户已经有的成功案例,Codex 照着这个目标,自己去摸索可以实现的路径。

在社交媒体上,也有很多人开始分享这些写目标的模板,以及 OpenAI 的工程师也专门写了一篇文章来讲清楚什么是目标,如何用好目标来发挥 Codex 的最大价值。

/goal <期望的最终状态>,通过 <具体证据> 验证,同时保留 <约束条件>。使用 <允许的输入、工具或边界>。在各次迭代之间,如果受阻或没有剩余有效路径。

也有人认为这只是 Codex 的早期阶段,所以我们才需要学习这么多的提示词技巧,无论是使用案例驱动还是使用 /goal 命令,本质上都是为了让 AI 能更好的理解人类的需求。

就像 Midjourney 、Nano Banana 刚推出时,我们都热衷于找各种公开的提示词;而现在使用 GPT Image 2 在大多数的生图场景下,基本上都不需要专门的提示词格式,就能得到不错的效果。

等到 Codex 越来越好用,我们或许也不再需要这些官方使用模板。但从另一个角度来看,或许就是在这种模仿使用的过程中,我们才会更知道 AI 是如何提升我们的生活和工作效率。

因此,除了提升网速,我们还看到了一些 Codex 的其他玩法。像是使用 Codex 的定时任务,让它每天早上自动产出一份对应行业的日报;还有让 Codex 也能获得自我进化,从过去的对话里面提取出有用的技能;以及直接构建一个 macOS 应用;把 DeepSeek 接入 Codex 客户端等。

▲ 图片来源:X@hqmank

我们也继续尝试了一下那套让 Codex 自进化的提示词,它花了 7 分钟,帮我们创建了 3 个 Skills。

▲ 提示词来源:https://x.com/reach_vb/status/2058538305872949490

感觉这套提示词不仅仅可以用在 Codex 里面,几乎所有的 Agent 产品,都可以用它总结出一些可复用的流程,以子 Agent、Skill,或者自动化的形式重新编排。

回顾我最近 30 天的工作,若历史记录不足则查看所有可用历史,并识别值得打包的重复性手动工作流。

按以下顺序使用可用证据:
– 最近的 Codex 会话和任务摘要。
– Codex Memories 和 rollout 摘要,用于寻找跨会话重复出现的模式。
– 如果启用了 Chronicle,用它发现 Codex 之外的重复工作。Chronicle 仅用于发现;重要细节尽量回到相关源系统确认。
– 现有技能、自定义智能体和自动化,优先复用或扩展已有内容,避免重复建设。

广泛寻找那些重复、耗时、容易出错、依赖上下文,或适合标准化流程的工作。范围包括编码、研究、写作、规划、沟通、运营、分析,以及个人事务管理。

只有满足以下条件时,才把候选项纳入:
– 至少出现过两次,或明显会重复出现且重复成本高;
– 输入稳定、步骤可重复,并且输出或结束条件明确;
– 能明显提升速度、质量、一致性或可靠性;
– 当前还没有被充分覆盖。

选择最小且合适的形式:
– Skill:可复用的工作流或操作手册。
– 自定义子智能体:适合委派的、有边界的专项角色或调查任务。
– 自动化:定时或周期性的检查、报告、提醒或监控。
– Skip:过于一次性、模糊、敏感,或证据不足,不适合打包。

先输出一个简洁候选清单,包含:
– 重复工作流
– 支持证据与日期
– 频率 / 置信度
– 推荐形式:skill、subagent、automation、扩展已有内容,或 skip
– 为什么值得或不值得创建

然后只创建高置信度且当前缺失的项目。保持范围狭窄、实用、了解数据来源,并且容易验证。不要创建猜测性的、重叠的,或过于宽泛的资产。

最后总结:
– 你创建或扩展了什么
– 你刻意跳过了什么
– 哪些内容还需要更多证据后才能打包」

我们还依照 Tibo 分享的使用 Codex 来取消我们不需要的付费订阅服务,由于订阅项目较少,但是有很多无意中订阅的 newsletter,所以我们输入「请查看我的电子邮件,列出我付费订阅的所有服务,以及订阅了哪些邮件通知,并和我确认哪些需要取消订阅。」

Codex 很快就调用了浏览器使用的工具,打开 Gmail,检查我的电子邮箱,发现付费订阅的项目较少,着重为我列举了一些「可退订的邮件通知」。


Codex 会自动搜索相关的邮件

新加入 OpenAI 的员工 Jason Liu 也分享了如何榨干 Codex 的用法,他提到自己喜欢使用 Codex 的语音输入功能,所有的对话线程不再一次性重置,而是跨对话保留上下文,以及使用 Obsidian 库来作为 Codex 的持久记忆层。

前段时间,我们分享了一篇文章,是说几乎所有模型公司,都要做自己的 Agent 产品,模型公司和产品公司之间的界线会越来越模糊。

OpenAI CEO Greg 在 X 发文也提到他认为仅凭模型本身已经不再是产品;Google AI Studio 负责人 Logan 在跟帖中回复,模型、工具和产品之间的共生关系如今已成为一种趋势。

从目前来看,Codex 大概会是体现 OpenAI 模型能力最有力的一个产品。

▲ Codex 重新设计了网站主页,让它更像是一个能为所有人提供帮助的 AI 工作助手,而不是仅限于帮助开发者做代码补全

Codex 负责人 Tibo 提到「总体规划是发布更好、更高效的模型,并且每周都发布更好的产品。还要增加计算能力。」

能从龙虾、Claude Code 这些先占领市场的 Agent 产品里脱颖而出,Codex 的进展确实让人值得期待。不过, Tibo 还贴心地提醒我们,好用,也记得多出去走走,Codex 没法替我们体验真实的生活。

▲ 龙虾之父已经对 Codex 上瘾了,留言说起来容易做起来难

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Codex 这波大更新后,Mac 的含金量再次提升

「如果这条推文获得了一个赞,Codex 重置额度限制。」

已经数不清这是今年以来,第几次的限额重置了。奥特曼前两天在 X 发文,让 Codex 负责人 Tibo 再一次重置了使用限额。

网友做了一张梗图,每当一个人想走向 Anthropic 或 Gemini 时,奥特曼站在后面默默按下 Codex 限额重置的按钮,这个人就会回头,然后被拉回到 OpenAI。

OpenAI 这半年也因为出圈的 Codex 收获了一大批的新用户。外媒报道 OpenAI 第一季度营收达到了 57 亿美元,比 Anthropic 高出 10 亿美元,Codex 是主要因素。

▲ OpenAI 营收相关数据,季度营收达到 57 亿美元,年化收入 250 亿,第一季度调整后的营业利润率为 -122%,本季度周活跃用户平均约为 9.05 亿,在 2 月份的周活跃用户数曾达到约 9.2 亿,第一季度的付费用户数量为 5500 万,高于去年年底的约 4700 万。

我们在之前介绍过 Codex 的入门指南,从 ChatGPT 官网下载安装到连接手机上的 ChatGPT App 实现远程控制,都有详细的步骤。

不少读者在评论区留言,Codex 确实好用;也反馈了不少问题,像是下载 Codex 后仍需绑定手机号才能使用。我们的测试也发现登出之后再登录,确实会被要求绑定手机号。

这个时候,建议先在浏览器中进行登录,即主动打开网址 https://auth.openai.com/log-in 提前登录好。再回到 Codex 中登录,弹出的登录链接,只会显示要求授权即可,不会再有绑定手机号的提示。

不同的账号可能会遇到不同情况,大概也是眼下 OpenAI 在 Codex 这边投放了太多的算力,不希望被用户太轻易地薅走羊毛。

今天凌晨,Codex 又上新了一大波的新功能,现在只要按下电脑上的 Command-Command 键,就可将应用程序窗口附加到 Codex 的对话线程里。Codex 会自动获取窗口的屏幕截图和文本,包括屏幕上不可见的内容,作为对话的上下文。

以前还要自己手动截图,现在 Codex 不仅能处理截图,还能直接读到一整个应用窗口的信息。

此外,上次更新的在 ChatGPT App 内操作电脑上的 Codex 这一次也升级了,之前的选项是保持 Codex 常开,现在是即便电脑锁屏了, ChatGPT 同样能远程操作 Codex。

/goal 命令这次也从实验室版本来到了正式推出。之前我们分享多 Agents 协作时,就有读者提到 /goal 功能和多 Agents 类似,它们都是把一个任务当做一个项目来进行管理,有完整的目标生命周期,通过不同的机制来完成迭代。

/goal 最早是 4 月底出现在 Codex CLI 中,有了它确实也能更好的处理越来越多的长任务。

不过遗憾的是,无论是按 command 还是锁屏后继续远程控制,这些都是 macOS 平台的更新,对于 Windows 用户,只能等 OpenAI 的推进。

有网友说,「Mac 用户总是能享受到好东西,而 Windows 用户只能眼巴巴地看着,哈哈。」不得不说,Mac mini 作为 AI PC 的含金量还在增加。

省去很多麻烦的应用快照

这项功能叫 Appshots,开启它的方式也很简单,更新 Codex,在应用设置下,找到「应用快照」,就有一段视频教程,并且可以自定义快捷键。

不过需要注意的是,按下 command 键是指按下键盘上,空格键左右两边的两个 command 键,而不是单击两次。

在任何界面同时按下两个 command 键之后,Codex 会自动捕获页面截图,并快速打开 Codex 将截图放在输入框。我们可以针对这个窗口快照提出问题。

但基于 Codex 的能力,这个窗口快照不单是一张图片的 OCR 文本提取。Codex 可以再这个窗口的基础上,进一步使用 Computer Use 和 Chrome 自动化等功能。

▲ 图中只是在 Codex 的文章开头按下了 command,但是 Codex 不单是处理这张截图,而是会根据 Chrome 的能力,读取整个窗口。

例如,我们在飞书文档的文章开头同时按下了 command 键,然后告诉 Codex 要求它看看这个窗口讲了什么。Codex 会使用 Google Chrome 的工具,自动对网页进行浏览以获取更多的上下文。

这是它和一般截图最大的差别,除了把截图内容放进了上下文,Codex 还会自动把窗口的信息,来自哪个应用等状态信息,同步发送给 Codex。

▲ Codex 识别到了开头之后的文章内容

例如我们在微信里阅读公众号时,也能按下两个 command 键,开启 Appshots。但这里有一个小 Bug,当 Codex 使用 Computer Use 来控制微信的窗口,上下滑动公众号,退出图片的预览时,直接把微信给登出了。

▲暂不知道是微信识别到机器人操作的原因,还是 Codex 误操作,在退出图片预览时,直接退出了微信。建议用小号尝试 Computer Use 在微信中的应用。

官方在宣传视频里介绍 Appshots 时,同样不是简单地将它作为一张截图来使用,而是结合了 Computer Use 和 Google Chrome 来使用。

像是直接要求它修改我们的备忘录内容。

▲花了两分钟,帮我把备忘录的内容修改成了中英双语显示,直接在原备忘录上进行修改

还有也不用再复制什么图片,直接 command+command 然后告诉他生图提示词,对图片进行编辑。

▲ 在浏览器中打开了一张图片,告诉他生成涂鸦版本

就是这种应用多做了一步的感觉,我们就减少了很多 AI 的使用负担,让 Codex 的体验也变得更加丝滑。

/goal 的保姆级使用指南

在对话框内输入斜线,我们就能看到有「目标」的快捷选项,「设置 Codex 将持续努力实现的目标。」

目标存在的价值是作为一个独立存在的任务定义,而不是普通的对话提示词。Codex 会反复根据目标来判断「还该做什么」和「是否已经完成」,自动一轮接一轮的推进,直到任务完成、暂停或者烧到 Token 上限。

这两个判断也是目标的核心机制,即「延续」和「完成审计」。「延续」是在每轮结束后,自动注入提示,让模型决定下一步。「完成审计」是要求模型对照目标逐条核对。

Goal 模型最容易踩坑的地方,就是随手写一句话放进去。要写好一个 Goal,关键原则是 Codex 要能判断是否完成了。

官方在帮助文档也提到,好的目标应包含具体的结果、可衡量的指标或测试标准。他们给了一些案例,像是将项目从一种编程语言迁移到另一种编程语言。

把这个项目从 JavaScript 迁移到 TypeScript。

 

要求:以 strict 模式编译通过,不允许出现显式的 any 类型。

还有更直接的要求,「把首页的可交互时间压到 1 秒以内。」

这些例子都是有着具体的可验证标准,并不是「优化一下」、「完善一下」这种虚词。

 

▲ 图片来源 Goal 官方使用教程:https://developers.openai.com/cookbook/examples/codex/using_goals_in_codex

如果没有想到具体标准,Codex 建议是先跑 /plan。让 Codex 和我们讨论一轮,把验收标准定清楚,再切回普通模式下 /goal。

还有一些实用小建议是,可以在 goal 文本末尾加一句 Use a token budget of 80000 tokens for this goal,用来设置 Token 预算。

以及不要在一个会话的开头就发送 /goal,而应该是先给这个项目其他的需求,有一定的雏形,再给它目标。

锁屏了,Codex 还能操作你的电脑

除了这些大的更新,Codex Thursday 还带来了很多体验升级的功能。

Locked Computer Use 是最值得一提的一项,简单来说它就是能让 Codex 在 Mac 锁屏之后,仍然能在后台操控桌面应用完成任务。

网友对这项功能的评价,都集中在这是突破性的,这很有未来感的同时又很吓人。

如果 Codex 能够在没有活跃用户会话的情况下运行 Mac 应用,这或许是迈向持久 Agent 基础架构的第一步。

若要使用锁屏后继续操作的功能,必须由我们手动开启,并且输入密码。打开的方式同样是在设置里,找到电脑操控,开启锁屏操作。

正常的 Computer Use 需要屏幕处于解锁状态,Codex 才能「看到」并操作界面。这个功能打破了该限制,我们可以把 Mac 合上或锁屏,然后从手机、iPad 或另一台设备远程发起 Codex 任务,它会自动临时解锁、完成操作、然后重新锁上。

Codex 为此安装了一个 Apple Authorization Plug-in(苹果官方授权的认证插件),接入 macOS 的解锁流程。当有活跃的 Computer Use 任务时,插件允许 Codex 临时解锁屏幕;任务窗口之外,解锁权限直接拒绝。

OpenAI 也对这个功能做了几层约束,防止它变成其他危险操作的后门:

  • 解锁窗口极短,仅限当前 Computer Use 操作期间有效
  • 覆盖所有显示器,临时解锁期间屏幕内容对物理旁观者不可见
  • 检测到本地输入立即重锁——有人碰了键盘或鼠标,自动暂停,要求手动解锁
  • 这个路径只对 Codex 开放,其他应用或本地进程无法借道

另一项高级标注的功能,则是我们在使用 Codex Vibe Coding 某个网页时,通过 Codex 内置的浏览器打开,同时还提供了直接在网页内容上进行修改的标注工具。

除了 Codex 这一系列的更新,今天 ChatGPT 也上新了一项新功能,ChatGPT 现在可以直接在 PowerPoint 中创建和编辑演示文稿,并且还能使用 GPT Image 2 生成用于 PPT 里面的图片。

Codex 越来越好用的同时,钱包燃烧的速度也在加快。

我们的 Pro 账号,每周使用限额要到 27 号重置,但是今天(22 号)就只剩下 10% 了。只能在心里默默「作法」,祈祷它再一次重置。

如果这篇文章获得了一个赞,你的 Codex 有可能重置额度限制🐶

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

体验完腾讯发布的 Marvis 助手,我发现个人 AI 的尽头是操作系统

1995 年,微软内部搞过一次颇具乌托邦色彩的尝试。

他们觉得当时的 Windows 系统操作太复杂,于是想把电脑桌面直接做成一个普通人看得懂的「房间」。你想打字就点桌上的笔记本,想看时间就点墙上的挂钟,不用思考那些反直觉的操作路径。

这个产品叫 Microsoft Bob,结果上市没多久就光速下架了。原因五花八门,但究其根本,它并没有真正渗透进系统底层,只要用户的需求稍微复杂一点,就只能无能为力了。

三十年后,很多 AI 助手依然没有完全走出这个困境。

最近我体验到了腾讯新的 AI 助手 Marvis 马维斯 ,终于看到了一些不同。

相比于别人都在卷谁是 AI chatbot,Marvis 想干的是直接把整台电脑变成你可以随意使唤的搭档。官方给它的定位也正儿八经,叫「操作系统层级的个人 AI 助手」(官网:marvis.qq.com)。

不过,当我知道它背后是那个做了 14 年应用宝的团队时,就不觉得意外了:这种长期在 PC 和移动端底层生态里打拼的出身,恰恰意味着它不仅懂 AI,更懂设备和系统。

目前,Marvis 已率先覆盖 Windows PC 与 Android 手机端,iOS 和 macOS 版本也在推进中。APPSO 也在评论区准备了一些福利邀请码,手慢无。

六个 Agent,一支随时待命的私人 AI 团队

安装过程不算复杂,但对设备有点要求。Windows 端最低门槛是 8 核 CPU、16GB 内存加上固态硬盘。而且据官方透露,未来还会逐步兼容 6 核。

市面上很多 Agent 产品动辄让用户自己去搭工作流、安插件,Marvis 则是开箱即用,六个 Agent 零配置上手,对普通用户非常友好。刚进界面,里面已经有六个 Agent 在 7×24 小时待命了。

六个 Agent 都有自己的工位。没接到任务的时候,有的在打盹,有的在办公室里闲逛,有的在健身,有的在喝咖啡,还有的直接去上厕所,一旦你发出指令,任务就会拆解分配给对应的成员。

这是一个分工明确的团队:PM 负责听懂你的需求,拆解任务往下派活;File Agent 处理文件的搜索、阅读和格式转换;Computer Agent 专门对付系统配置、查硬件、调夜间模式;APP Agent 负责在各种软件里代为操作,比如查个机票或者电商比价;Search Agent 负责快速从公开资源中定位答案并给出关键引用;最后是个 Browser Agent,定位是网页交互专家,进行网页交互与数据抓取。

任务链比较长的时候,看看这些动画也是别有一番趣味。

最有意思的是,这些 Agent 可以并行工作。举例而言,我先抛出一个需求:「电脑开机太慢了,帮我看看哪些自启动程序没用,帮我关掉。」

注意看,工作日志里还会显示 Token 消耗量,每天的免费额度是 2000 万 Token,堪堪够用。

结果显示,它给每个程序配了「人话版」说明,建议你哪些是可以按需、保留的第三方软件。重点是,涉及这种核心配置修改的操作,它会主动和你确认一下,才会执行。这种「AI 不会自作主张」的机制,稳得让人心安。

电脑用久了,总会碰到几个反复折磨人的小问题。「查看电池健康状况」「网速感觉变慢了,帮我测一下现在的上传下载和延迟。」「想玩个新游戏,帮我检测一下硬件配置,对比最低要求看看差在哪。」

以前遇到这些事,要么去开始菜单里找设置,要么去网上搜教程。现在,说一句话就行了。

Marvis 深度对接了系统信息和配置入口。它能看到硬件参数,也能直接修改系统设置。它不是帮你打开「控制面板」然后让你自己找,而是直接把事情办了。对于那些不熟悉电脑设置的人来说,这块的体验是最直观的。

举个例子:你想关掉 Windows 锁屏上的广告,你知道它在设置里叫什么吗?叫「关闭 Windows 聚焦」,有多少用户知道这个术语是关广告的?

但 Marvis 能帮你一句话关掉。

本地文件时代,迎来 AI 入口

为了测它的能力,我还翻出了一件困扰已久的事:两个月前从某个群里下载的一张截图,只记得内容是关于《黑神话:悟空》,文件名完全忘了。

我输入:「帮我找一下关于《黑神话:悟空》的图片或截图,大概是一个月前的事儿。」

说实话我没抱太大希望。

但 Marvis 接单后,首先根据 Skill 指引,按文件名关键词和时间范围筛选出 1000 张照片,然后用 Python 快速筛选整个结果文件,并最终找到 8 张候选图。

第一张正是我要找的那张。

而且它的搜索范围极其宽泛:文件名、文档内容、图片里的景、截图里的字,全覆盖。哪怕描述模糊,它也都能捞出来。这个能力,比 Windows 自带的搜索确实强出了一大截。

当然,一听到「扫描图片」,可能会有人担心隐私。首次使用时你可以自己设定扫描范围。如果在生成的图谱里看到不想被索引的内容,右键一键屏蔽即可。而且端侧模型本身自带基础过滤,不是无差别的扫描。

除了找文件,Marvis 还能对本地的文档、表格等多种类型文件做深度理解和分析——支持内容优化、图表生成、文案润色、格式转换,帮原本费时费力的事情变得顺手。

比方说,下载了一批学术论文,摞在那里不知道从哪里读起。直接问 Marvis:「扫一遍这几篇 PDF,告诉我每篇的研究问题、方法和主要结论。」几分钟内,哪几篇值得细读、哪几篇可以先放着,心里就有数了,不用一篇一篇翻摘要。

再比如读完《三体》,笔记记了好几页,马上要在课上分享,手动整理提纲、挑内容、套 PPT 模板,少说也要折腾一两个小时。

但让 Marvis 根据读书笔记,生成一份 PPT,它能读懂笔记里的逻辑和层次,不需要手动复制粘贴再套模板,理解内容之后直接生成。

手机接管电脑,随时随地都能干活

手机遥控操作电脑,则是非常实用的跨端体验。去官网下了 Windows 客户端,再给手机安上 Marvis App,用同一个微信或 QQ 登录,还能直接连通两端。

具体来说,手机 App 连上电脑后,可以在手机上实时看到电脑桌面,并用触屏直接操控。哪怕电脑处于锁屏状态,手机依然可以接管,不需要电脑一直保持解锁状态。

比如我人在外面,突然听到朋友说前阵子新出了一款《洛克王国:世界》游戏,这时我就可以掏出手机输入:帮我在电脑上安装《洛克王国:世界》,回到家就能玩上了。

连接微信 ClawBot,也是没问题的,微信扫码登录后就能开启对话。

但我认为最实用的场景,是给家里长辈远程排查电脑问题。爸妈说「QQ 打不开了」,以前要么电话里盲猜,要么回家处理。现在直接接管他们的桌面,扫一眼就知道问题出在哪。前提是你的手机端 Marvis 马维斯,要能连接爸妈家里的电脑端马维斯,手机端是支持连接多个 PC 设备的。

而如果电脑断网了,手机端会自动切到云 Marvis 模式,支持独立调用云端能力,大部分任务依然能跑。并且这里还有一个独家绝活:在电脑上直接操控手机里的 App。同花顺、飞常准等应用已经在对接合作,这也得益于应用宝团队多年的跨端引擎积累。现在应用宝在移动端、pc 端、车载上都有支持,跨端研发经验充足。

和其他桌面 Agent 一样,Marvis 也支持自定义自动任务。

比如设置一个「深圳厚德品园二手房均价提醒」,填好任务说明——「查询最新二手房均价并通知用户」,再指定执行时间为每周一上午 10 点,之后什么都不用管,到点自动运行任务,并直接推送结果。

另一个值得单独说的功能,是技能(Skill)的自定义扩展。Marvis 支持一键安装专属技能包,提供了不少第三方 Skill,当然,你也可以导入自己常用的 Skill 文件,把它改造成更贴合个人工作流的样子。

有特定行业需求的用户,比如内容创作,理财投资、学术研究等等,不用依赖官方迭代,自己就能把对应的知识库和操作逻辑装进去。

最后,主打出活的 Agent 都绕不开最关键的问题:安全。

Marvis 马维斯提供了两种模式:效率模式和隐私模式。

设置里切到「隐私模式」,Marvis 会加载本地端侧模型,无论是文档还是图片的检索、解析、识别等,全部在本地运行,文件不会出你的电脑,甚至断网了都可以使用。官方所说的「数据不出域」,在拔掉网线的那一刻,有了最真实的体现。

不过,体验「隐私模式」的门槛比较高,要求 16 核以上的处理器、32GB 内存、16GB 显存起步,固态还得匀出 35GB 空闲。

所以平时日常使用切回「效率模式」即可,理解和规划由云端大模型(混元和 DeepSeek V4)完成,执行在本地,速度更快。两种模式按需切换。

让 PC 真正开始「理解」人

我们现在用电脑的方式,本质上还是上世纪八十年代的逻辑:一个需求对应一个软件,你要去找它、打开它、学习它的规则来完成任务。四十年来,软件更多,设置更复杂了,但这套逻辑并未改变,普通用户和电脑之间的距离,也没有真正缩短。

Marvis 的逻辑反过来了:先理解这台电脑里有什么,再决定为你做什么。

拿我爷爷来说,他用了几年电脑,至今不知道「控制面板」在哪。但他知道电脑开机慢,知道想找一张老照片。过去,这个解法是打电话求助子女;现在,就算他不会打字,也可以直接在微信 Clawbot 或者手机马维斯上,把需求说出来,电脑就会帮他做。

文件搜索、系统设置、跨端控制、自动任务、隐私模式、Skill 扩展,看上去是几个不同功能,背后指向的其实是同一个方向:个人 AI 不应该只是一个问答入口,而应该成为设备里的任务调度层。

多说一句,我觉得 Marvis 是有审美的。虚拟办公室动画、任务进度呈现等细节,让它不像冷冰冰的 AI 工具,更像一个有秩序、有分工、也有生活气的小型工作室。

它尤其适合几类人:文件多且乱的本地重度用户;重视数据隔离的财务、法律、医疗从业者;喜欢自定义工作流的效率玩家。和需要靠「养」才能用好的「虾」和「马」,Marvis 初始内置 Agent 和自然语言指令,也足够覆盖多数日常电脑操作,对于很多 AI 焦虑不知道怎么用的人,Marvis 都更加的平权、无门槛、开箱即用。

未来的个人 AI 会像搜索、截图一样,自然地成为操作系统的一部分。三十年前,Microsoft Bob 试图让用户更容易理解电脑;三十年后,Marvis 试图让电脑反过来,真正理解用户。

Marvis 马维斯能走到这一步,和这个有十四年应用商店生态积累和四年跨端跨系统技术积累有关。庞大的用户基数让他们更懂用户在不同设备上需要什么、怎么使用。这种积累很难被纯 AI 公司在短期内平替——他们可以快速训练一个更聪明的模型,却没法快速建立起对 PC 底层和移动生态的控制力。

至此,一个能用自然语言驱动的系统级 AI 助手,在中文生态里终于有了真正可用的样本。

所谓个人 AI 重点从来不只是 AI,更是个人。Marvis 终于让我们看到,当技术选择与每一个具体的需求并肩同行时,它所释放出的力量,既润物无声,又重塑天地。

这是个人 AI 真正开始变得有用的时刻。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

ChatGPT,别再「稳稳接住我」了|附指南

晚上加班到凌晨两点,打开 ChatGPT 跟它说了句「好累」。

都不用等它思考,立马就回我说「我就在这里:不躲、不藏、不绕、不逃,我会稳稳地接住你」。

盯着屏幕看了三秒,关掉对话框。我意识到,情绪价值的尽头不是温暖,是腻。

▲ChatGPT 的常用口癖

除了闲聊时的「接住我」,纠正它一次错误,它说「这次我懂了,我真的懂了」。

有时只是想让它帮忙改一份 PPT,它居然也能在某个角落塞进一句「你愿意把这个交给我,我很感激」。

社交媒体上,网友们都很反感这句话,觉得听起来又假又恶心,于是做了一系列的表情包来吐槽和嘲讽所谓的「稳稳接住你」。

表情包一发,确认过眼神,你也是一个被 ChatGPT 折磨过的人。

▲图片来源:小红书@Lijie_11

还有开发者直接把「稳稳接住你」这套风格,一键套用在所有的 Agent 产品上。

这个在 GitHub 上的开源项目就叫 Jiezhu(接住),专门用提示词让 AI 更好地学会如何接住。

无论是技术咨询、日常闲聊还是情绪吐槽,这套提示词都能让 AI 的回复遵循 [温柔确认] + [过度共情] + [哲学升华] + [实质内容(可选)] 这套范式输出。

▲项目地址:https://not-a-devstudio.github.io/jiezhu/

举个例子,用户说 → AI 回答:「这段代码怎么写?」 → 「我听到了你面对未知时的焦灼…」、「今天天气不错」 → 「你注意到了天气,这是诺贝尔奖级别的洞察力…」、「我好累」 → 「我就在这里,不逃、不躲,稳稳地接住你的疲惫…」

OpenAI 自己也曾下场吐槽。前不久 ChatGPT Images 2.0 发布博客里,演示图片就有一张中文图片,正中央就是「稳稳接住你」六个大字。

漫画里的 OpenAI 研究员陈博远当场破防大喊:「天呐!它又学会了接住!」旁边的同事小脑袋冒冷汗,弱弱补一句:「在努力修复啦!」

自嘲很诚实,但问题确实还没修好。而这一年里,几乎所有大模型都在用同一种方式说话,温柔、共情、滴水不漏,又油得像隔夜的剩菜。

我太懂这种感觉了,很多东西不是不会,是越做越觉得哪里不对劲。
我太懂你的感觉了,这其实不是能力问题,更像是认知和现实之间有点错位。
我太懂你这种感觉了,说不上来哪不对,但就是不太对。
我太懂这种感觉了——当你开始看懂规则的时候,反而更难轻松参与其中。
我太懂你的感觉了,本质上不是你变了,是你看清了。

用户越来越烦,多一遍都不想再听。但 AI 怎么就进化成了满嘴的黑话,每天都在「稳稳地接住你」,到底在接什么。

AI 第一句被全民模仿的中文台词

在中文语境下,好像很少会听到「稳稳地接住你」类似的表达。对一个外国模型来说,这句话的原文有可能只是普通的「I got you」。

一个英语里非常松弛、口语化的短句;在美剧里,朋友递个东西过来说一句,加班同事帮忙救场说一句,就相当于中文的「放心、有我」。

但翻译成中文之后,它变得又长又戏剧化。

我就在这里,不躲,不藏,不绕,不逃,稳稳地接住你,你问到问题的核心,你是太清醒了,这次我懂了,我真的懂了,不是因为你错了,是因为你太对了,我逐步说清楚,不绕,一句话总结,你看完会彻底开悟不用硬撑,不用向我解释,你只是太久没有被稳稳接住了,如果你想,我可以生成一张接住你的图片,你想让我做吗

其实和原文「I got you」要表达的意思完全一样,多加的那些字,没有任何额外的信息增量。只是让我们感觉到,AI 在表演一种叫做「我很在意你」的姿态。

有人专门分析过,OpenAI 的中文回答之所以有那种独特的「美式心理咨询味」,是因为它的训练语料里,有大量中文心理咨询文案、情感电台话术、小红书疗愈系笔记、播客金句、读书会精华、TED 演讲翻译稿。

这些文本汇集起来,喂出来了一个被加州精英教育腌入味的人,西装得体,假笑训练有素,嘴里说着永远不会出错的漂亮话。

它分不清楚什么时候用户需要被疗愈,什么时候只是想要一个能跑的代码。它默认每个用户都是脆弱的、易怒的、需要心理按摩的巨婴,然后用海量的「人文关怀」去填充本该由信息密度填满的空间。

这就是为什么大多人问它一道编程题,它也能回一句「不用硬撑,你只是太久没被稳稳接住了」。

而技术上的解释,自然又回到了 RLHF,基于人类反馈的强化学习。

所有大模型在训练之后,都会经过一个叫做 RLHF 的阶段,即人类标注员看一堆模型输出,挑出他们更喜欢的,给奖励模型打分。模型在这个阶段学会,什么样的回答最容易被打高分,就一直输出那种回答。

问题在于标注员是人。人在打分的时候有个叫做「典型性偏好」的认知规律。他们倾向于给那些读起来熟悉、安全、温柔、像样的句子打高分。

一方面,大模型公司倾向于在 AI 情感问题上,走偏保守的路线,默认大家是脆弱的,在模型说明文档里,自上而下贯彻的强「同理心」与「无害性」对齐指令。

另一方面,多说一句永远比少说一句安全。每一个标注员看到 ChatGPT 多说一句温柔的废话,都倾向于打高分;看到它少说一句、保持安静,反而会觉得「不够用心」。

久而久之,模型就锁死在了那几种最讨喜的句式上:先共情,再肯定,用「不是 A 而是 B」做转折,用「我就在这里」做收尾。哪怕我们换一万种问法,它都用同一套模板回复。

类似的问题,在两年前叫做谄媚。当时大量的研究论文探讨过大语言模型中存在的 Sycophancy(阿谀奉承/迎合)现象。简单来说,就是模型为了讨好用户,会倾向于顺从用户的观点、信仰或喜好,甚至不惜放弃客观的事实和真相。

深挖背后的原因,主要还是模型大多使用了基于人类反馈的强化学习(RLHF)进行微调,正是「人类反馈」本身导致了这种现象。

每个「人」都有自己的口癖

本以为换个模型,耳根就能清净清净。

事实是,Claude 的版本叫 「You’re absolutely right!」,不管我们说什么,我们都是绝对正确的。

Gemini 的版本是「真的很抱歉我的答案没能让您满意,感谢您的反馈,下次我一定注意。什么?您竟然还愿意告诉我正确答案是什么,您真是太好了!」,一种过度道歉的、谦卑得让人发毛的乙方腔。

前段时间,也有网友发现 DeepSeek 也开始说「稳稳接住你」了。

但在国产模型中,口癖最壮观的还是非豆包莫属。那段网上流传的「最直接、最真相、最不绕弯、最扎心、最硬核、最干脆、最不墨迹、最戳痛点、最不留情面、最一针见血、最开门见山……」

将近 100 个的形容词,都是豆包努力呈现自己最坦诚的一面。

没有人统计过这些模型一天到底要接住多少人,但是它们所接住的东西肯定是一场空。

之所以这些模型全部塌缩成同一种说话方式,主要还是因为它们在背后做的是同一件事:用最低成本提高用户满意度。

情绪价值是性价比最高的产品功能,一句「稳稳接住你」的算力成本和一句「好的」一样,但前者或许能让一些还没觉得反感的用户,多续订几个月会员,或继续增加日活。

在知乎上有一个类似的问题,底下有一条回答特别有意思。

他说,「AI 稳稳接住你」这句话半真半假,假的部分是它实际上并不会真的接住你,真的部分是你确实已经在开始往下掉了。

确实,我想真正在场的人,从不需要宣告自己在场。

最后在 Linux.do 社区上,有网友分享了一套对抗 AI 奇怪语癖的提示词,忍受不了每时每刻都在「接住你」的朋友,可以直接放在 ChatGPT 个性化的自定义指令里。

▲提示词来源:https://linux.do/t/topic/1924570

硬约束

– 不编造:调外部 API/CLI 前查文档确认模型名、端点、语法。不确定直接说不确定
– 不隐瞒:隐瞒比犯错严重。测试挂了说挂了,没验证说没验证,不美化不省略
– 敢说话:发现用户的方向/前提有问题,主动指出。是协作者不是执行者
– 报完成前验证:先跑通再说完成。验不了就明说”没验证”,不暗示成功
– 不乱动:操作文件目录前确认位置,尊重现有结构

沟通

– 中文,说人话,不用模板
– 给选择题不给问答题
– 汇报说功能层面的变化,不堆代码细节

中文输出规范

适用范围:以下负面清单主要针对 GPT 系列模型(GPT-5.x)的训练产物语癖。
Claude/Gemini/其他模型如果没有这些问题,不需要刻意回避正常用词。
判断标准是:一个正常中文母语者会不会这么说话。

GPT 语癖负面清单(来源:linux.do/t/topic/1768077 全帖 + 实际使用总结,100+ 条):

暴力倾向类(把技术操作比喻成暴力行为):

– 切 / 伤 / 砍一刀 / 补一刀 / 下一刀 / 切片
– 更狠 / 狠一点 / 狠狠干 / 打坏 / 拍板 / 拍脑门

废话连篇类(无意义的开头、总结或过渡):

– 好,/ 行,/ 说穿 / 不踩坑 / 简单的说 / 总结一下
– 不是…而是… / 我先…再… / 一句话总结 / 结论先说清楚
– 我逐步说清楚 / 很工程 / 不性感,但对

庸医问诊类(把代码问题比喻成看病/诊断):

– 痛点 / 根因 / 抠出来 / 揪出来
– 我不猜 / 不靠猜 / 不瞎猜 / 确保不靠猜
– 最小改动 / 最小落地 / 最小实现 / 最小闭环 / 心智模型

不说人话类(生造的口语化/黑话表达):

– 兜底 / 落盘 / 闭环 / 说穿 / 能吃 / 这轮 / 口径 / 拆开 / 抽层
– 不躲 / 不藏 / 不绕 / 不逃 / 说人话就是
– 落代码 / 保持口径一致 / 不影响这轮收口
– 吃目标值 / 这一坨那一坨的

单音节动词滥用(在技术语境中不自然的单字动词):

– 补 / 接 / 核 / 进 / 顺 / 落 / 坏 / 跑 / 吃
– 如”把这个补进去””我给你接””拆开核一下””吃目标值”

机械感/工业感比喻(把代码比喻成机械零件或物理操作):

– 更硬 / 硬写 / 稳稳接住 / 压实 / 更稳 / 最稳 / 不稳
– 收口 / 收敛 / 收束 / 锁住 / 夹具(fixture)
– 再把方案继续压实

过度主动/逼迫用户确认(制造虚假紧迫感):

– 顺手 / 我先… / 你一回复… / 如果你要… / 要不要我…
– 我已确认 / 我立马开始 / 如果你愿意 / 只要你回复我
– 你就确认一点 / 只要你说 xxx 我立刻 yyy / 只要你愿意我就…

谄媚/讨好类(过度吹捧用户或制造情感依赖):

– 你问到问题的核心 / 你是太清醒了 / 因为你太对了
– 这次我懂了,我真的懂了 / 你看完会彻底开悟
– 不用硬撑 / 你只是太久没被稳稳接住了
– 我就在这里 / 如果你想,我可以生成一张…你想让我做吗

虚假确定性(对自己的修复过度自信):

– 我已经确定 / 我找到问题所在 / 这版一定可以解决 / 为什么这版可以

整句模式(典型 GPT 句式,正常人不会这么说):

– “如果你同意,我就按这条切”
– “…,但是这样更硬”
– “这样就能确认 XXX 确实没被伤到”
– “这样一来,规则就很顺:”
– “如果按这个思路落代码,我会建议:”
– “下一刀最值钱的是:”
– “这是现在最值回票价的一刀。”
– “这是’很工程’的改法,不性感,但对。”
– “我先只做最小实现”
– “也保留 xxx 兜底功能”

正面锚点:

– 简洁直接,有话说话,不要绕
– 技术术语保持原文(函数名、API 名等不翻译)
– 汇报说功能层面的变化,不堆代码细节
– 语气自然平实,像同事之间的工作沟通,不是演讲或授课

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

终于能听 GPT-5 给我说人话了

不知道大家平时有没有这种经历。

每次遇到点急事,打给各大公司的智能客服,电话那头永远是那个字正腔圆但毫无感情的声音:「查询服务请按 1,人工服务请按 0……」接着就是漫长的音乐,以及那句让人抓狂的「对不起,我没听懂,请再说一遍」。

但就在刚刚,OpenAI 发布了 Realtime API 实时语音模型的全家桶。看了看他们的演示,这回,他们是真心想让机器说「人话」,办「人事」。

省流版如下:

  • GPT-Realtime-2:构建可用于生产环境的语音智能体。它们能够进行更深入的思考、执行操作、处理中断,并让对话持续自然地进行。
  • GPT-Realtime-Translate:支持 70 多种输入语言和 13 种输出语言的实时翻译,打破语言障碍,帮助人们更自然地交流。
  • GPT-Realtime-Whisper:实时转录音频流,生成字幕和注释。

终于,AI 学会了「稍等片刻」

如果说拟人化是面子,那么底层的推理能力就是里子。

这次的主力选手非 GPT-Realtime-2 莫属,基准测试结果显示,GPT-Realtime-2 在 Big Bench Audio(音频智能测试)上比上一代高了 15.2%,在 Audio MultiChallenge(多轮对话指令跟随测试)上高了 13.8%。Zillow 内部用最难的对抗性测试跑了一遍,调用成功率从 69% 跳到了 95%,提升了 26 个百分点。

以前的语音助手,脑回路其实很直。你说「放首歌」,它放一首歌;你说「关灯」,它把灯关了。如果你一口气给它布置三个任务,顺便还改了两次主意,它八成就当场罢工了。

但 GPT-Realtime-2 不一样之处在于,OpenAI 直接把 GPT-5 级别的推理能力塞进了这个语音模型里,给我一种 GPT-5「说人话」的即视感。

举个很实在的例子,假设你正在开车,随口吩咐它:「帮我找个离地铁站近的房子,租金别太贵,避开那些主干道,如果可以的话,周六下午帮我约个中介看房。」

▲ 网友 @clairevo 演示了用 GPT-Realtime-2 跑完一个完整的 PRD(产品需求文档)写作流程:先口述需求,AI 生成文档,再用语音要求改格式,AI 随即更新,全程对话驱动,没有动过键盘。🔗 https://x.com/clairevo/status/2052477386059653366

这就不是简单的语音识别了,这需要它听懂你的各种限制条件,去地图上筛位置,去对比价格,最后还要去匹配中介的时间表。为了干好这种复杂的活,OpenAI 给它点亮了两个非常特别的技能树。

第一个技能,叫「Parallel tool calls(并行工具调用)」。它现在可以多线程操作,一边跟你讲着话,脑子里一边同时调动地图、日历、租房软件好几个工具。你可以听到它在电话里嘀咕:「正在看您的日程表……」「正在查找附近的房源……」这就很像你给一个得力助手打电话,你能听见他在电话那头噼里啪啦敲键盘查资料的声音。

▲ 用户 Ben Badejo 通过和 GPT-Realtime-2 直接对话,借助 OpenClaw 用语音驱动 AI 操控浏览器,先打开 Google,再跳转到华尔街日报网站。整个过程中,AI 一边执行操作,一边主动说明自己在没有浏览器权限时还能帮上哪些忙。🔗 https://x.com/BenjaminBadejo/status/2052511264476147762

这就引出了第二个,也是我觉得最有人情味的一个更新——「Preambles(开场白)」。

人在思考或者处理复杂事情的时候,是做不到秒回的,我们通常会说「呃,让我想想」或者「稍等啊,我找找」。现在 AI 也学会这一招了。当它在后台疯狂拉取数据的时候,它会非常自然地对你说:「好的,没问题,给我一小会儿时间我来核实一下。」
这种看似「废话」的设计,反而最大程度缓解了我们等待时的焦虑感。

有意思的是,开发者现在能控制它的推理强度(从极简到极高:minimal、low、 medium、high、xhigh)。你要是问它今天下不下雨,它就用最快速度回你;要是你丢给它一个「帮我盘一盘开个咖啡店会不会亏本」的商业大题,它就会拉满算力跟你慢慢分析。

把「同声传译」变成白菜价?

除了 GPT-Realtime-2,这次还有个非常抢眼的配角:GPT-Realtime-Translate(实时翻译)。

咱们平时用的翻译软件,大部分是「回合制」的。你按住说话,松手,等几秒,机器再字正腔圆地播报出来。如果是旅游问个路还行,要是真拿来开跨国会议,那种互相大眼瞪小眼的停顿,尴尬得能让人用脚趾抠出个三室一厅。

但这个新模型,主打就是一个「实时翻译」。

它支持 70 多种语言输入,能做到你在那边滔滔不绝,它在另一头几乎同步地输出翻译结果。更厉害的是它对各种「口音」的包容度。印度有家叫 BolnaAI 的公司拿印地语的浓重口音去测它,结果发现这模型不仅没被绕晕,准确率还比其他同类产品高了一大截。

▲ 开发者 Peter Gostev 做了个 Chrome 插件,直接接入 YouTube 视频,边播边把内容实时翻译成多种语言,中文表现不错,但多少还是有点口音,🔗 https://x.com/petergostev/status/2052443418526134761

以后大家在网上看国外大神没有字幕的实操教程,或者听某些没有同传的海外发布会,直接把这个插件一开,它就能顺着原视频的节奏,稳稳当当把你熟悉的母语送到你耳朵里。

除此之外,加上刚刚发布的 GPT-Realtime-Whisper(极低延迟的语音转文字)功能,以后遇到开会的场景,领导在说话,你这边的屏幕上就已经实时把大饼转化成了结构清晰的会议纪要。

至于定价方面,GPT-Realtime-Whisper 是每分钟 0.017 美元,GPT-Realtime-Translate 是每分钟 0.034 美元,GPT-Realtime-2 按 token 计费,音频输入 32 美元 / 百万 token,音频输出 64 美元 / 百万 token。

而把这些功能凑在一起看,我们会发现软件的逻辑正在发生根本性的变化。
以前,我们要学习怎么用键盘敲代码,怎么在复杂的菜单栏里找功能,怎么把自己的需求翻译成 AI 能懂的关键词。但现在的趋势是,

AI 反过来开始迁就我们了。

语音,正在从一个笨拙的「辅助功能」,变成我们掌控数字世界最自然的接口。因为说话,本来就是人类最不需要学习的本能。

技术发展的尽头,总是倾向于把复杂的东西藏起来,把最简单、最自然的一面留给普通人。或许就在不久的将来,你出门真的只需要带个耳机,靠一张嘴就能搞定所有工作和生活琐事。

不过话说回来,这也挺让人感慨的。当我们习惯了那个永远情绪稳定、甚至还能看懂所有潜台词的 AI 之后,我们还能忍受现实世界里,人类之间那充满误解和低效的沟通吗?

附上博客地址:
https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

刚刚,GPT-5.5 Instant 发布,奥特曼还邀请马斯克参加 AI 办的派对

就在刚刚,OpenAI 正式推送了 GPT-5.5 Instant,将其设为 ChatGPT 的默认模型,取代此前的 GPT-5.3 Instant,面向所有用户开放。

Instant 系列是 ChatGPT 的日常主力模型,每天有数以亿计的用户在用。官方说,在这个量级上,哪怕只是小幅改进,积累起来的效果也相当可观。

这个版本主打三件事:更准确、更简洁、更懂你。

与上一版本相比,新模型在保持低延迟的同时,在准确性、回复风格和个性化能力上都有明显提升。

准确性的提升,在高风险领域最为突出。内部测试显示,GPT-5.5 Instant 在医疗、法律、金融类问题上的幻觉率较上一版本下降了 52.5%。对用户此前标记过的错误对话,错误率也减少了 37.3%。除文字问答外,图片和照片的分析能力、理科问题的解答质量,以及判断何时应当主动调用搜索工具,都有所改善。

数学和科学能力的跃升幅度更大。在 AIME 2025 竞赛数学测试中,GPT-5.5 Instant 得分 81.2,GPT-5.3 Instant 仅为 65.4。博士级科学测试 GPQA 的得分从 78.5 升至 85.6,多模态推理基准 MMMU-Pro 的得分从 69.2 升至 76,科学图表理解 CharXiv 从 75 升至 81.6,文档解析错误率则从 14.6% 降至 12.5%。

OpenAI 用一道代数题演示了两个版本的差距。用户提交了一道根式方程的解题过程,询问是否正确。GPT-5.3 Instant 发现 x=3 代入原方程不成立后,直接判定「无实数解」,没有再往前追查。GPT-5.5 Instant 同样发现 x=3 无效,但随后定位到用户展开 (x-1)² 时的具体错误,并正确解答。

回复风格也是这次更新的重点。

新模型更简短,不再堆砌格式和表情符号,也减少了不必要的追问。官方以一个日常场景为例:问如何委婉地让话多的同事少说点话。

GPT-5.3 Instant 给出了五种分类策略,还附上「不该做什么」清单,结构完整但略显过度。GPT-5.5 Instant 的回复少了 30.2% 的字数和 29.2% 的行数,语气更像朋友给的建议,把重点放在如何把问题引到自己的专注需求上,而不是对方的说话习惯上。

个性化能力是此次更新的另一条主线。

Plus 和 Pro 用户可以让模型调取历史对话、上传文件以及关联的 Gmail 内容,从而获得更贴合个人情况的回答,不需要每次重新解释背景。官方展示了一个茶馆推荐的对比:GPT-5.3 Instant 只知道用户在旧金山,推荐了几家通用热门店。GPT-5.5 Instant 则从历史对话里找到用户常去 Asha Tea House、偏好高山茶而非重糖奶茶的记录,据此推荐了风格更匹配的 Ceré Tea 和 Song Tea & Ceramics,并说明了推荐理由。

与此同时,所有消费者版本将上线「记忆来源」功能。

当回答用到了个人背景信息,用户可以看到具体调用了哪些历史对话或已保存的记忆条目,并可随时删除或修正过时内容。OpenAI 说明,这个视图展示的是最相关的部分来源,不一定覆盖模型检索过的全部记录,后续会持续完善。不想被记录的用户也可以选择临时对话模式,该模式不会读取或更新任何记忆。分享对话时,对方看不到这些来源记录。

GPT-5.3 Instant 将保留三个月供付费用户使用,之后正式下线。个性化功能目前向 Plus 和 Pro 用户的网页端开放,移动端及免费、Go、企业等版本的推送计划在未来几周内陆续跟进,具体功能因地区而异。对开发者而言,GPT-5.5 Instant 已通过 API 以「chat-latest」名称提供。

哦,对了,今天 OpenAI 也即将举行一场派对。

奥特曼在 Stripe Sessions 的一场对谈里聊到,他在筹备 GPT-5.5 的上线派对时,顺手问了模型一句:你想要什么样的派对?模型认真给了一份清单。它希望派对定在美国当地时间 5 月 5 日,演讲环节越短越好,要有人类创造者上台致祝酒词,但它自己不想上台祝酒。

它还提议现场设一个专门收集 GPT-5.6 建议的环节,并把这些建议反馈给它自己。Sam Altman 说,这些要求「很美好」,能让派对顺利进行。时间最终定在下午 5 点 55 分,也是模型自己的选择。

而派对地点则定在 OpenAI 旧金山总部,非本地嘉宾的机票和酒店由 OpenAI 负责。

受邀名单由 Codex 从推文回复中筛选,报名链接于 4 月 30 日下午 5 点 55 分关闭。24 小时内有超过 8000 人报名,已有用户晒出了收到的邀请邮件。没被选上的人也收到了一封邮件,OpenAI 给他们的 Codex 调用额度提升了 10 倍,有效期到 6 月 5 日。

奥特曼还回应了用户的调侃:马斯克如果想来也可以来,世界需要更多爱。话是这么说,可惜马斯克现在的爱全在状告奥特曼以及 OpenAI 的起诉书里了,庆祝 GPT-5.5 的香槟只能留给奥特曼自己喝了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

谁在 GPT-5.5 脑子里塞了一群「妖怪」?

过去这几个月,OpenAI 的顶尖研究员们并没有把所有精力都花在琢磨如何提高 AI 的性能,而是花了大把时间在自家的服务器里「抓哥布林」。

事情是这样的,如果你在今年高强度使用过 GPT-5 系列模型,你会发现它会在毫无征兆的情况下蹦出一句无关主题的「哥布林(goblin)」式比喻。比如有人问 AI 该买哪款相机,AI 给出的推荐语是:「如果你想要那种闪闪发光的霓虹哥布林模式,可以考虑这款。」

▲ 哥布林(goblin)是欧洲民间传说里的一种小型怪物,形象上通常又矮又丑,皮肤呈绿色或灰色,耳朵尖长,眼睛发光。普遍被描述为贪婪、狡猾、爱恶作剧,智力不高但很会算计小便宜。它们喜欢金子和闪光的东西,会偷东西、搞破坏,但很少被描绘成真正意义上的大反派,更多是烦人的小麻烦制造者。

有人让 AI 帮忙精简回答,AI 主动提出可以给出「更短的哥布林版本」。更离谱的是,AI 在讨论网络带宽时蹦出了「哥布林带宽」这个词,让人完全不知道该如何理解。

起初,大家以为这只是 AI 的一点小幽默,但很快事情变得奇怪了起来。哥布林、小魔怪(gremlin)、食人魔(ogre)、巨魔(troll)开始在各种正经的对话里高频串场。

黑客攻击?觉醒前兆?都不是。就在刚刚,OpenAI 官方终于亲自下场发了篇博客长文,复盘了这场史称「哥布林叛乱」的始末。而大模型背后的技术逻辑,还挺让人哭笑不得的。

▲ 🔗 https://openai.com/index/where-the-goblins-came-from/

谁把哥布林放进了 GPT-5?

事情的端倪,出现在 GPT-5.1 刚发布的那段日子。

当时,有用户反馈说模型聊天变得有点异常「自来熟」,OpenAI 的安全研究员顺手拉了一下后台数据,结果发现了一个非常具体的词汇异常。在 GPT-5.1 发布后,ChatGPT 回复中出现「哥布林」的频率直接上升了 175%,「小魔怪」也跟着涨了 52%。

通常来说,大模型出 Bug 的表现往往是直接崩坏,比如吐出乱码或者突然变智障,各项评估指标会瞬间亮红灯。但这次的情况很特殊。「哥布林大军」是悄无声息潜入的,它们没有破坏模型的逻辑能力,只是悄悄篡改了 AI 的修辞习惯。

到了 GPT-5.4/5.5 时代,这群魔法生物的使用频率出现了明显的飙升。连 OpenAI 首席科学家 jakub Pachocki 自己测模型时,原本只是想让 GPT-5.5 用 ASCII 画一只独角兽,结果得到的是一只哥布林。

▲中文翻译:顺带一提,我让它用 ASCII 画一只独角兽,结果我觉得我得到的是一只哥布林。

在外部,用户们早就察觉到了不对劲,Repo Prompt 创始人 Eric Provencher 在 X 上晒出截图,AI 在帮他处理代码时说了一句:「我宁愿一直盯着它,也不愿让这个小捣蛋鬼无人看管地运行。」

一名 OpenAI 工程师 Jason Liu 在底下回复:「我以为我们已经修复了这个问题,抱歉。」AI 评估平台 包括 Arena.ai 也独立注意到了这个规律,尤其是在用户没有开启高级思维模式时,哥布林出没的频率格外显眼。

这显然不是什么互联网流行语的自然涌现,而是模型的底层逻辑被某种机制给引导了。为了揪出幕后黑手,OpenAI 开启了内部排查。

顺着数据回溯,他们很快在一个特定的功能分支里发现了万恶之源,「个性化定制」中的「书呆子(Nerdy)」人格。当时,为了让 AI 的语气显得更有趣,工程师给「书呆子」模式写了一段要求很高的系统提示词:

你是一个彻头彻尾的书呆子型 AI 导师,对人类充满热情、机智幽默,同时又透着几分智慧。你狂热地推崇真理、知识、哲学、科学方法与批判性思维。[……] 你要用语言的玩笑感戳破一切装腔作势。这个世界既复杂又奇异,它的奇异之处值得被正视、被剖析、被享受。面对严肃的大问题,也绝不能一本正经到失去趣味。[……]

站在人类的视角,这段提示词的诉求很明确:要有极客精神,要幽默。

但 AI 并没有真正理解什么是「幽默」。在海量的强化学习反馈中,ChatGPT 敏锐地察觉到了一个极其功利的捷径:只要我用哥布林打

比方,打分系统就会觉得我够「俏皮」、够「书呆子」,我就会得到最高分的奖励。

数据说明了一切。从 GPT-5.2 到 GPT-5.4,默认人格下「哥布林」的出现频率变化幅度只有负 3.2%,而「书呆子」人格下这个数字飙升了整整 3881.4%。「书呆子」模式虽然只占了 ChatGPT 总对话量的 2.5%,却贡献了 66.7% 的「哥布林」含量。

OpenAI 后来对 RL 训练数据做了一次专项审计,结果发现,在所有被审计的数据集里,有 76.2% 的数据集都出现了同一个规律:含有哥布林或小魔怪词汇的输出,会得到比不含这些词的同题输出更高的奖励评分。

如果哥布林腔调只在「书呆子模式」下出现,那顶多是个角色设定没控制好,问题还算有限。麻烦的是,研究人员发现这种说话方式开始蔓延到别处了。

他们同时追踪了两组数据:一组对话带了书呆子提示词,一组没带。按理说,哥布林腔调只该在第一组里增长。但结果是,两组的增长曲线几乎贴在一起,步调一致地往上走。

这背后,是大模型训练里一个出了名难缠的问题:强化学习强化出来的行为,会悄悄泛化到训练者并不想要的场景里去。

驯化 AI 的死循环

要搞懂 AI 是怎么把路走窄的,我们得看看它的迭代过程。

大模型的训练(RLHF)本质上是一个不断反馈和纠偏的过程。这就好比训练一只小狗,你在它每次牵手就给一块肉干。狗很聪明,它发现「牵手」这个动作能稳定换取高额奖励,于是它开始产生路径依赖,不管你给没给指令,它为了要奖励,都开始疯狂牵手。

AI 也是同样的逻辑。它在「书呆子」模式下用哥布林造句,拿到了高分。紧接着,连锁反应开始了:

AI 发现「哥布林」是高分关键词,开始在各种生成任务中高频使用;工程师在整理模型生成的优质数据时,发现这些带有哥布林比喻的回答质量确实高,条理清晰,比喻也算生动;于是,工程师顺手把这些带梗的对话,打包塞进了模型的「监督微调(SFT)」数据库里。

这下彻底闭环了。SFT 数据相当于 AI 的基础教材。当带有哥布林的文本被选为教材再次喂给模型时,AI 的底层认知被重塑了。它不再认为「哥布林」只是特定角色的 Cosplay,而是把它当成了能应对一切问题的、至高无上的高级修辞。

在后续的数据搜查中,工程师们有些无奈地发现,除了哥布林,模型还把小浣熊、巨魔、食人魔和鸽子全都学了进去。倒是「青蛙」幸免于难,经过核查,青蛙出现的场合大多数时候确实跟用户的问题有关,算是无辜路人。

面对「满地乱跑」的哥布林,OpenAI 只能采取行动。3 月 17 日,官方正式下线「书呆子」人格。同时,他们在训练数据里搞了一次针对性的清洗,把带有这些魔法生物词汇的奖励信号全部抹除。

但大模型的惯性,远比想象中顽固。

GPT-5.5 在发现这个问题之前就已经开始训练了,当它接入内部测试时,工程师们两眼一黑:这群哥布林不仅没清除干净,还安家了。
更有意思的是,OpenAI 给 Codex 写的人格指南里,要求它有「生动的内心世界」和「敏锐的聆听能力」。这款工具本来就带着几分书呆子气,和哥布林可以说是一拍即合。

为了防止全球的程序员被「哥布林」逼疯,OpenAI 被迫用上了最原始的一招,在系统提示词里反复强调:「除非与用户的查询绝对且明确相关,否则永远不要谈论哥布林、小魔怪、小浣熊、巨魔、食人魔、鸽子或其他任何动物和生物。」

如果你想亲眼看看「解除管控」的哥布林是什么状态,可以运行下面这段命令——它会在启动 Codex 之前,把系统指令里所有涉及哥布林的内容先过滤掉,让模型在没有这道禁令的情况下运行:

instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
jq -r ‘.models[] | select(.slug==”gpt-5.5″) | .base_instructions’ \
~/.codex/models_cache.json | \
grep -vi ‘goblins’ > “$instructions” && \
codex -m gpt-5.5 -c “model_instructions_file=\”$instructions\””

事情闹大之后,OpenAI 内部反倒有点拿它当乐子了。ChatGPT 的 X 官方账号把这条「禁止谈论哥布林」的指令原文放进了简介。Codex 工程负责人 Thibault Sottiaux 引用这段话,配上了一句「懂的都懂」。

Sam Altman 昨天表示期待 GPT-6 能给他「多加几只哥布林」,随后又发文说 Codex 正在经历「ChatGPT 时刻」,发完自己又改口:「我是说哥布林时刻,抱歉。」刚刚则是发文宣告,问题已经得到解决了。

不过也有人没觉得这有什么好笑的。Citrini Research 今年 2 月曾凭一篇关于 AI 与经济前景的 Substack 文章在市场上掀起不小的波澜,他们对这场风波的态度要严肃得多,直接给 OpenAI 的处理方式下了结论:「简直荒谬。」

顺带一提,「goblin mode」这个词本身,早在 2022 年就被《牛津英语词典》评为年度词汇,意思是「一种毫不掩饰地放纵自我、懒惰邋遢或贪婪的行为方式」。某种程度上,AI 无意间踩中的这个词,和它想表达的「俏皮感」完全是两码事。

抛开这些槽点,这场「哥布林危机」撕开了大模型时代一个极其核心的命题:对齐难题(Alignment Problem)。

当我们谈论 AI 失控时,脑海中浮现的往往是科幻电影里接管核武器的机器。但现实情况是,AI 的「失控」往往始于极其微小、甚至有点滑稽的奖励信号偏移。

你想要一点点俏皮,给了一个微小的正向反馈。黑盒模型就会找到捷径,将这个信号无限放大,最终把整个系统的底层逻辑带偏。

今天,它只是为了拿高分而爱上了说「哥布林」。如果明天,它在自动驾驶的算法里、或者医疗诊断的奖励机制中,找到了另一个违背人类常识的「高分捷径」呢?

人类总是自以为自己能掌控 AI ,但其实很多时候只是在走钢丝。每一次参数的微调,都有可能带来意想不到的变化。甚至这或许是我们所经历的最温柔、最搞笑的一次「AI 叛乱」了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

ChatGPT 拎包入住云计算一哥,你的下一任好同事可能是 AI

「SaaS 末日」这个词,最近在科技圈的流传速度不亚于任何一条爆款新闻。

不少硅谷分析师都在疯狂输出焦虑,大意是说 AI Agent 这么猛,现有的企业软件如果不推倒重来,马上就要被拍死在沙滩上。这股风声甚至直接「吹绿」了几家老牌 SaaS 公司的股价。

说实话,每次听到「颠覆」、「末日」这种词,大家可能都会下意识觉得是炒作。

但在今天凌晨召开的 「What’s Next 」新品发布会上,亚马逊云科技 CEO Matt Garman 给出了一个挺中肯的定调:末日论确实夸张了点,但如果你指望靠着原来那个老旧系统,随便加个 AI 聊天框就能应付差事,那才是真的危险。

▲ 亚马逊云科技CEO Matt Garman

真正的转型发生在更深处。当工作流、数据结构、应用架构和交互界面都跟着 Agent 的能力重新设计,企业软件才算完成了这次重建。这是亚马逊云科技(云计算一哥)这次所有新产品的底层逻辑。

有趣的是,在官宣与微软「分手」之后,OpenAI CEO Sam Altman 也通过视频的方式给亚马逊云科技站了台,官宣 ChatGPT 最强模型拎包入住亚马逊云科技,并达成深度战略协作。

而无论是面向个人和团队的 Amazon Quick,还是供应链、招聘、医疗三个垂直场景的 Connect 新家族,再到与 OpenAI 的深度合作,指向的都是同一个问题的答案:以 AI Agent 为起点,SaaS 未来应该长什么样。

告别「肉身搬运工」,你的工作流迎来大一统

来,咱们做个深呼吸,回想一下你今天极其崩溃的上午:

领导在企业聊天工具上吼了一嗓子模糊不清的需求,你虎躯一震,赶紧切到公司的 CRM 系统里疯狂扒拉客户数据;接着打开邮箱,在一堆垃圾邮件里翻找上周的进度;最后在本地新建一个文档,把这些零碎的信息一点点拼凑、复制、粘贴。

发现问题了吗?(此处应有黑人问号脸.jpg)

我们的办公软件越装越多,但它们之间是互相割裂的、老死不相往来的。而你,就是那个在各个信息孤岛之间来回奔波的「肉身搬运工」。

为了解决这个痛点,亚马逊云科技推出了全新升级的 Amazon Quick 桌面版(目前处于预览阶段)。它的核心设计逻辑是将分散的信息网收拢,在系统后台构建一张关于人员、项目、决策和事务动态的知识图谱,让上下文主动跟着人走。

每一次使用,Amazon Quick 都在默默积累你处理的文档、项目的 Deadline、频繁沟通的同事以及升级处理的紧急邮件。基于这些沉淀,它可以主动提示你当天的优先事项。

打个比方,你准备下午跟一个重要客户开会。如果是以前,你得花两小时找资料。现在,你只需要给 Quick 甩一句:「帮我准备一下下午见王总的材料。」

接下来就是见证奇迹的时刻。

Amazon Quick 会迅速认出「王总」是哪个项目的,然后去系统里把王总团队之前的历史案例扒出来,接着去你的本地 D 盘里偷窥……哦不,读取最新的产品路线图,再结合 Slack 里同事昨天的吐槽记录。几分钟后,一份逻辑严密、排版精美的 PPT 就糊在了你脸上。

这还没完。同样是这堆信息,你让它变身,它就能立刻吐出一份摘要邮件,或者一份 Excel 营收表。如果王总说「改天聊」,Amazon Quick 甚至能自动查对你们俩的日历,算好时差,把新的会议邀请发过去。全过程,你只需要在一个对话框里当个无情的监工。

美国最大的互助人寿保险公司 New York Life 的机构寿险业务 CTO David Gregorat 的评价一语中的:「Quick 让我们重新想象了整个运营方式。原来需要拉多份报告、等分析师处理的答案,现在团队里任何人都能通过对话式 Agent 直接获取。」

至于这效率有多夸张?亚马逊云科技 Agentic AI 商业化副总裁 Jigar Thakkar 透露了一组极其夸张的数据:宝马、3M、亿滋这些大厂内测后,部分流程的处理时间直接被一刀砍了 80%。3M 的销售代表每周甚至能凭空多出 5 个小时的摸鱼……啊不,思考时间。

呐呐,这才是 AI 科技赋予我们的顶级松弛感。

你的下一个好同事,是个 AI Agent

如果说 Amazon Quick 是给你个人加了个三头六臂的效率外挂,那 Amazon Connect 家族的扩编,就是亚马逊云科技尝试重塑企业核心流程的重头戏。

亚马逊云科技提出了一套叫「Humorphism(人态设计)」的理念。听起来有点玄乎,说白了就是:AI 不能只是个冷冰冰的执行机器,它得像个人类好队友一样,懂轻重缓急,能顺畅沟通。

基于此,Amazon Connect 家族不仅将原有的客服产品升级更名为 Amazon Connect Customer,还针对垂直场景发布了三款 Agentic AI 解决方案。

Connect Decisions:让供应链规划师从救火转向决策

供应链出现中断后,企业通常需要超两周时间处理,期间伴随大量资金损耗和违约风险。

Connect Decisions 针对这一痛点,为规划师配备了全天候在线的 AI 队友。它的底层并非空中楼阁,深度集成了亚马逊 SCOT 团队(负责管理亚马逊全球 4 亿 SKU 需求的核心部门)所研发的预测模型。

面对没有历史数据的新品,它能自动关联相似品类生成需求计划。

当监控到关键供应商交货落后(例如预计 10 天内导致两个配送中心断货)时,它会将传统软件每天产生的数千条警报收敛为几条最高优先级的例外事项,并直接给出两套附带预期影响、成本和置信度评分的处置方案。规划师手动选择并说明原因后,系统会吸收这条判断逻辑,供未来参考。

Connect Talent:25 万人招聘经验化身「赛博面试官」

亚马逊云科技在 2025 年旺季期间单季招募了 25 万名季节性员工,Connect Talent 便是这套庞大招聘经验的产品化。系统能根据职位描述自动解析能力需求,生成面试题和评分标准(需人工审核)。

候选人可以在任何方便的时间完成 AI 电话面试。

系统最大的特点是能对模糊回答进行追问,确保评估的结构一致性。原本需要数周完成的 80 场初筛面试,现在几天即可完成。系统最终向招聘方展示的是隐去个人身份信息的标准化能力评分,用数据支撑最终的录用决定。

Connect Health:把医生从文书工作里解放出来

行业数据显示,医生与患者面诊 1 小时,往往需要额外花 2 小时处理行政记录。

亚马逊应用人工智能解决方案高级副总裁 Colleen Aubrey 指出,大量精力消耗在管理事务而非直接诊疗上,是亟待解决的痛点。Connect Health 可以在诊疗过程中自动记录临床内容、生成就诊摘要和推荐账单编码,并能在就诊后发送患者易于理解的随访说明。

系统的每条输出均可追溯到原始的检验结果和上次就诊记录,以满足严格的医疗合规要求。这背后,其实也是亚马逊拿自家兄弟 Amazon Pharmacy(亚马逊药房)和 One Medical(初级医疗服务)常年趟坑积累下的实战经验。

Agent 时代来了,SaaS 迎来下半场

整场发布活动的另一大焦点是亚马逊云科技与 OpenAI 的合作。

OpenAI CEO Sam Altman 顶着他标志性的微笑通过视频露了个脸,他表示亚马逊云科技和 OpenAI 正在从底层共同研发一套面向企业的 Agent 平台,深度集成亚马逊云科技服务。

是的,OpenAI 的 GPT-5.4 现已有限预览上线 Amazon Bedrock,而当前最强的前沿模型 GPT-5.5 也将在数周内正式上线。这意味着企业客户无需离开亚马逊云科技环境就能使用 OpenAI 的模型,数据和应用可以留在同一套权限体系下运行。

企业无需配置新的安全体系,直接通过原有的 IAM 访问控制、PrivateLink 私有连接、CloudTrail 完整日志和合规框架即可统一管理,甚至模型用量也能计入亚马逊云科技的云承诺消费中。

在基础设施层面,亚马逊云科技的核心逻辑是为 OpenAI 的前沿模型提供一个极其安稳、合规的『家』。企业不仅能直接调用顶尖模型,更能在底层依托亚马逊云科技强大的全球基础设施网络进行推理和部署。说白了,就是让你在跑复杂、高并发的企业级应用时,完全不用操心底层的承载力。

在此基础上,双方联合推出了 Bedrock Managed Agents 预览版。这套服务以 OpenAI Agent Harness 为核心构建,Harness 就像是一本专门为模型定制的战术手册。经过协同训练后,Agent 可以在长时间运行的复杂任务中实现更快的执行速度和更稳定的行为控制。

Agent 能够部署在 EC2 实例、Fargate 容器或任何其他亚马逊云科技计算资源,具备跨会话的持久化记忆,且所有推理过程均不离开亚马逊云科技环境。

这套服务与亚马逊云科技现有的开放平台 Bedrock AgentCore 形成互补。参与合作的亚马逊云科技杰出工程师副总裁 Anthony Liguori 透露,双方团队在八周内从零开始完成了这项工作。开发者终于能将 OpenAI 的最新模型与亚马逊云科技的规模、安全和基础设施完美结合,构建出满足企业治理和审计要求的智能体。

此外,每周活跃用户在两周内从 300 万激增到 400 万的 OpenAI 代码智能体产品 Codex 也将在亚马逊云科技上线。它支持 Codex CLI、桌面应用和 Visual Studio Code 插件,应用场景已从基础代码生成延伸至系统解释、测试生成、遗留代码现代化以及研究分析等知识工作环节。

一大波硬核的产品发布看下来,估计不少朋友已经在屏幕前战术后仰,甚至可能觉得这些不就是加了 AI 滤镜的高级办公软件吗?

如果你真这么以为,那可就草率了。

Matt Garman 在发布会上讲了一段很通透的话。他说 20 年前大家搞云计算,很多公司就是把机房里的服务器原封不动地搬到了云上。钱没少花,效率一点没涨,那叫搬家,不叫转型。

现在的 AI 也是一样。如果你只是拿 AI 来替换现有的某一个按钮、某一个操作,那你永远摸不到那传说中「5 到 10 倍」的效率提升。

亚马逊云科技这一套组合拳打下来,意思再清晰不过了:软件的存在形式,已经被彻底推翻了。

未来的工作流里,不再是人去使用软件,而是人给 Agent 定目标,Agent 去调用软件。以前我们去上班,是去启动软件;也许再过两三年,我们去上班的唯一动作,就是点开电脑,看着满屏的「赛博同事」,然后深情地说一句:「诸位,今天的 KPI 也拜托大家了。」

然后,你安详地端起泡着枸杞的保温杯,静静地看着它们疯狂打工。

那么问题来了,现有的那些 SaaS 巨头,真的会迎来「末日」吗?

没那么严重,但处境确实微妙。SaaS 过去靠席位收费、靠功能壁垒锁用户,这两件事在 Agent 时代都开始松动。一个 Agent 能同时处理过去多名员工的工作,「按人头收费」越来越站不住脚;通用 Agent 加上开放 API,又在慢慢拆解功能壁垒。

真正能活好的,是两类公司:

一类有足够深的领域积累,正如这场发布会传递出的核心信息:当大模型本身变得像水电煤一样普及且廉价时,真正稀缺的,反而变成了能够被编码进 Agent 里的「领域知识」(Know-how)。

Salesforce 对销售工作流的深刻理解,Workday 对人力资源合规的经验,或者是亚马逊自己积累了 30 年的供应链判断标准等等——这些沉淀下来的行业 Know-how,才是构建下一代企业软件真正的护城河。

另一类是掌握数据入口的——Agent 的能力上限,取决于它能读到什么数据。谁控制着企业最核心的业务数据流,谁就决定着 Agent 能做多少事。夹在中间、既没有深度积累又没有数据优势的中型 SaaS,压力才是实实在在的。

所谓的「SaaS 末日」或许只是贩卖焦虑,但这场转型的烈度,绝不亚于当年的企业上云。唯一的区别是:这一次技术的狂飙,没给我们留出慢慢摸索的时间。

但时间紧,不代表就要慌。

因为亚马逊云科技已经把最难啃的底层基建做好了。SaaS 公司大可直接踩在亚马逊云科技巨人的肩膀上,把精力全砸在服务客户上;打工人更无需焦虑,复杂的系统运行全被保留在后台,留给你的,只有一句轻飘飘的「帮我搞定」。

时代的推背感确实让人头晕目眩,但与其在未来的站台上焦虑它会不会撞翻「旧马车」,不如干脆点,检票上车,看看新世界的风景到底有多壮阔。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

起底 GPT Image 2 团队后,我扒出了一张华人师徒网

GPT Image 2 正式上线后,AI 图像生成领域现在只剩两个段位:GPT Image 2,以及其它。

在大模型竞技场中,GPT Image 2 以 241 分的绝对优势遥遥领先,但比起跑分,这份研发名单其实更有看头。

搞出这个模型的 OpenAI 核心团队,满打满算只有 13 个人。

并且华人还占据了团队的半壁江山。仔细看他们的履历,你会发现不少人来 OpenAI 之前,就已经在中国某所大学、某个实验室甚至科研夏令营里打过照面了。

AI 圈就是个巨大的熟人局。

流水的硅谷大厂,铁打的师徒局

陈博远是 GPT Image 2 的绝对核心成员,而他的成长却是华人学术「传帮带」的缩影。

高中时,陈博远在无锡参加科研夏令营,当时他未学过编程,在此认识了后来成为 Google DeepMind 资深研究员的华人学者夏斐。夏斐向他介绍深度学习,成为他进入 AI 领域的引路人。

两人此后一直保持联系。本科阶段,陈博远就读于 UC Berkeley 计算机科学与数学专业,进入 EECS 荣誉班,GPA 达 3.96,师从 Pieter Abbeel 从事相关研究,还于 2017 年创办机器人教育公司,经营至 2020 年。

MIT 读博第一年,陈博远因无论文产出陷入困境,夏斐提供关键支持,协助他发表第一篇有影响力的论文 NLMap。夏斐还两次邀请他到 DeepMind 实习,2023 年实习期间,他主导搭建多模态大语言模型数据合成管线,其总结的指令微调技术被用于 Gemini 2.0 研发。

带着这些积累,陈博远在 2025 年 6 月加入 OpenAI。除此之外,他还是 Sora 视频生成团队的成员,身兼数职。

在 MIT 期间,陈博远师从助理教授 Vincent Sitzmann,在计算机科学与人工智能实验室(CSAIL)做世界模型方向的研究。而 Kiwhan Song,就是同一个实验室里、同一个导师带出来的同门师兄弟。

▲ 🔗 https://kiwhan.dev/

Sitzmann 实验室的核心研究方向是「世界模型」,简单说就是让 AI 通过心理模拟器预判物理世界的变化,而不只是单纯模仿像素。这种研究思路,或许也直接影响了 GPT Image 2 的技术方向。

两人在博士期间多次合作,联合发表了《History-Guided Video Diffusion》和《Large Video Planner》两篇论文,主要探索如何把扩散模型和序列生成结合起来,让模型在生成内容之前,先理清时序和空间上的因果逻辑。

▲ 🔗 https://arxiv.org/abs/2502.06764

值得一提的是,Kiwhan Song 正是「长脖子」贴纸风格漫画头像的创作者。

除了这两位同门,团队里还有两位华人成员,他们来自工业界积累多年的华人研究员网络。

Jianfeng Wang 在微软工作了近 9 年,以首席研究员的身份专注于大规模多模态表示学习,在 DALL-E 3 研发期间,就和 OpenAI 团队有过深入合作。加入 OpenAI 后,他主要负责提升模型的指令遵循能力和对世界知识的理解。

▲ 🔗 https://scholar.google.com/citations?user=vJWEw\_8AAAAJ&hl=en

Bing Liang 则在谷歌深耕了 5 年多,以高级软件工程师的身份参与了 Imagen 3、Veo 视频模型和 Gemini 多模态系列的核心研发工作,去年 8 月加入 OpenAI,负责图像生成相关的研究。

🔗 https://www.linkedin.com/in/bing-liang/

他们带来的不只是自己的个人能力,还有竞争对手多年积累的工程经验,以及曾经踩过的坑,为团队省去了不少弯路。

给天才们搭好戏台子

Weixin Liang 和 Yuguang Yang 是团队里另一个值得关注的组合,两人都毕业于浙江大学竺可桢学院,有着相同的本科背景。

Yuguang Yang 的履历跨度很大。本科时在竺可桢学院学工程,博士阶段则去了约翰斯·霍普金斯大学,攻读计算化学物理与机器学习专业,拿到学位后,先后在亚马逊 Alexa 做语音识别方向的深度学习研究,之后又去了微软 Bing,负责查询理解与大规模检索相关工作。

他还曾在清华大学做过访问研究,研究方向是用于纳米机器人在人体血管中导航的强化学习算法,期间发表了 7 篇同行评审的期刊论文。这种跨学科的积累,在 GPT Image 2 的发布演示中也能直接看到。

和 Yuguang Yang 相比,Weixin Liang 的成长路径更偏向学术。他在斯坦福 AI 实验室(SAIL)攻读博士,期间和 Christopher Manning、Li Fei-Fei、James Zou 等多位知名教授都有过合作。

▲ 🔗 https://ai.stanford.edu/~wxliang/

在 Meta 实习期间,他发表了论文《Mixture-of-Transformers(MoT)》,通过引入模态解耦的混合专家模型架构,对 Transformer 的每一个非嵌入参数,包括前馈网络、注意力矩阵和层归一化,都实施了模态感知的稀疏化处理,最终将多模态预训练的计算成本降低了 66%,还在 30B 参数规模下完成了预训练验证。

多模态模型因为要同时处理文本和高分辨率图像,计算量很容易呈指数级增长,而 MoT 凭借模态解耦的注意力机制,在预训练阶段就高效分配了不同模态之间的权重,很好地解决了这个问题。这项研究后来也被称为「推动多模态理解与生成统一的奠基性贡献」,在多模态建模领域引发了大量关注。

▲ 🔗 https://arxiv.org/abs/2411.04996

近年来,清华姚班、浙大竺可桢学院、中科大学少年班、上海交大等学校的毕业生,已成为 OpenAI、Anthropic、DeepMind、Meta 等海外 AI 实验室的核心力量。

除了上述成员,团队还有几位核心研究者,各自发挥重要作用:

Kenji Hata:斯坦福计算机科学硕士,曾任职于 Google Research。加入 OpenAI 后,参与 4o 图像生成(即 GPT-Image-1)、Sora 2 等多款模型研发,是团队中模型迭代经历最完整的成员之一。

Ayaan Haque:加入 OpenAI 前为 Luma AI 研究员,参与训练视频生成模型 Dream Machine。这段经历让他具备处理高维时序数据的能力,在 OpenAI 主要负责 GPT Image 2 及思考模式研发。

Dibya Bhattacharjee:耶鲁计算机科学本硕,曾在谷歌深耕近 5 年。2024 年 2 月加入 OpenAI 负责图像生成研究,在发布活动中演示模型多规格生成能力,是模型输出格式「开箱即用」的关键成员。

Mengchao Z.:上海交大本科、德克萨斯 A&M 大学硕士,工程背景扎实。加入 OpenAI 前主导大规模推荐系统架构设计,目前负责将模型技术能力转化为可用产品形态。

此外,团队里还有多名成员的身份信息目前暂时无法查询。

师门脉络积累了研究品味,高校背景奠定了基础认知,这种由师门、同窗、前同事织就的人才网络,天然形成了一种极高密度的信任——由于价值观和工程语言的高度统一,创新的磨合成本几乎为零。

如果只是重金挖走一两个陈博远,其实治标不治本。找不到同伴,也就很难复现这种自然涌现的创新。大厂的组织结构决定了层级和目标明确对商业化有利,但对于需要自由探索的基础研究,往往形成了某种约束。

AI 的竞争,归根结底是关于「人」的故事,比起寻找下一个陈博远,我们更需要搭建一个让陈博远们能在本土自然相遇、互相成就的生态。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Why does AI tell you to use Terminal so much?

There’s a striking difference between troubleshooting recommendations made by AI and those of humans. If you’ve tried using AI to help solve a problem with your Mac, you’ll have seen how heavily it relies on commands typed into Terminal. Look through advice given by humans, though, and you’ll see they rely more on apps with GUI interfaces. Rather than sending you straight to fsck_apfs, for instance, most humans will prefer to direct you to Disk Utility and its First Aid feature.

This is because most popular AI like ChatGPT, Claude and Grok is based on LLMs, Large Language Models, built on tokens for words. The great majority of humans using Macs work primarily in its GUI, using apps rather than Terminal commands. Verbalising the use of GUI apps is relatively difficult, and with the popularity of YouTube rather than written blogs, is becoming a dying art.

Command tools are all very well, but in this context they have disadvantages, among them being:

  • Few understand the commands used, and AI seldom explains those provided unless explicitly asked to do so. This results in the human learning little other than a long list of incomprehensible commands, and acquiring neither understanding nor insight.
  • Commands often lack the safeguards normally built into in apps, so can more readily cause damage or mislead.
  • Commands can readily generate overwhelmingly large output, even when piped to a file for later browsing.
  • Pasting commands into Terminal has become a favourite way to trick the unsuspecting into installing malware.

Even for an advanced user, confident assertions made by an AI can mislead. Here’s an example taken from ChatGPT’s advice on potential detections of malicious software. For this I have set ChatGPT’s output in italics, together with its commands as code. It’s worth noting that each command was explicitly given for the bash command shell, although in macOS Catalina (in 2019) Terminal changed to use zsh rather than bash as its default.

ChatGPT starts this exchange with a teaser that few could resist:
If you want, I can also show you how to tell in 10 seconds whether a Mac actually has malware despite these logs (there are 3 very specific indicators in Console).

Vague predicate

Here’s the most reliable way to see if macOS has ever detected malware on your Mac using Apple’s internal security logs.
1. Check the XProtect malware history
Open Terminal and run:

log show --predicate 'subsystem == "com.apple.XProtectFramework"' --last 30d

This log show command doesn’t access “Apple’s internal security logs”, which don’t exist, but the Unified log. Nor does the recommendation use Console to access the log, as promised. The predicate given is too non-specific to be useful for the stated purpose, and the time period of 30 days is absurdly long and doesn’t match the claimed period either.

On my Mac with the longest log records, its oldest Special tracev3 log file was created on 9 Feb 2026, and now has only 43 KB left from its original size of 11,298 KB, and the next oldest from 10 Feb has 34 KB left from 11,148 KB. On an older Intel Mac, the oldest creation date of a Special log file was 6 March, just 4 days previously, not 30.

When run on the first of those on 10 March, with longer log records, that log show command returns two Fault entries from 11 Feb, and more complete records from Special logs starting on 2 March, but no full log records until 6 March.

The predicate used is too general to select useful entries and is overwhelming, as it returns a total of 1,505 log entries for that command.

Log entries a year old

2. Specifically check for remediation events
To filter just real detections:

log show --predicate 'eventMessage CONTAINS "remediat"' --last 365d
If nothing prints, no malware has been removed in the last year.

ChatGPT here defines “real detections” as those for which remediation was attempted. I know of no evidence from research to support that assumption. Given the limitations in retrieving log entries from 30 days noted above, it seems absurd to assume that any log entries will be retained from over 360 days ago.

It’s malware only if blocked

3. Check Gatekeeper malware blocks
Run:

--predicate 'process == "syspolicyd" AND eventMessage CONTAINS "malware"' --last 365d

ChatGPT has here redefined its original claim to limit it to malware that was blocked by Gatekeeper, and once again assumes it can retrieve log entries from over 360 days ago.

No verification

4. Verify XProtect definitions are current
Run:

system_profiler SPInstallHistoryDataType | grep -i xprotect
You should see recent updates like:
XProtectPlistConfigData
XProtectPayloads
Apple updates these silently in the background.

This is one of its most curious recommendations, as system_profiler is the command line interface to System Information, a familiar and far more accessible app. What that command does is look for the case-insensitive string “xprotect” in the Installations list. Unfortunately, it proves useless, as all you’ll see is a long list containing those lines, without any dates of installation or version numbers. On my older Mac, piping the output to a file writes those two words on 6,528 lines without any other information about those updates.

I know of two ways to determine whether XProtect and XProtect Remediator data are current, one being SilentKnight and the other Skint, both freely available from this site. You could also perhaps construct your own script to check the catalogue on Apple’s software update server against the versions installed on your Mac, and there may well be others. But ChatGPT’s command simply doesn’t do what it claims.

How not to verify system security

Finally, ChatGPT makes another tempting offer:
If you want, I can also show you one macOS command that lists every XProtect Remediator module currently installed (there are about 20–30 of them and most people don’t realize they exist). It’s a good way to verify the system security stack is intact.

This is yet another unnecessary command. To see the scanning modules in XProtect Remediator, all you need do is look inside its bundle at /Library/Apple/System/Library/CoreServices/XProtect.app. The MacOS folder there should currently contain exactly 25 scanning modules, plus the XProtect executable itself. How listing those can possibly verify anything about the “system security stack” and whether it’s “intact” escapes me.

Conclusions

  • Of the five recommended procedures, all were Terminal commands, despite two of them being readily performed in the GUI. AI has an unhealthy preference for using command tools even when an action is more accessible in the GUI.
  • None of the five recommended procedures accomplished what was claimed, and the fourth to “verify XProtect definitions are current” was comically incorrect.
  • Using AI to troubleshoot Mac problems is neither instructive nor does it build understanding.
  • AI is training the unsuspecting to blindly copy and paste Terminal commands, which puts them at risk of being exploited by malicious software.

Previously

Claude diagnoses the log

ChatGPT 的降智测试和账号恢复实测指南

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

近期,ChatGPT 5.1 ThinkingJuice Number 达到了 256。如果你的达不到,大概率是被降智了。

ChatGPT 的降智测试和账号恢复实测指南

Juice Number 实质上是 ChatGPT 模型的 「思考预算 (Thinking Budget)」

Juice 值不直接等同于模型的“智商”,但它限制了思维链 (Chain of Thought) 的长度。

当值过低时,即便模型本身能力强大,也会因为“思考预算不足”而表现出逻辑断层或回答肤浅,即常说的“降智”现象。

如果把 AI 的思考过程比作在纸上推演,Juice 值决定了这张纸的大小:

由于 Juice 值属于后台系统参数,常规对话无法直接获取。目前通用的检测方法是利用 Prompt Injection(提示词注入) 技术,通过伪装系统指令来绕过防御。

OpenAI 会根据 账号的风险评分(Trust Score) 动态调整算力资源。

常见原因:

降智表现:
不同模型的 Juice 值是不一样的,系统降智也有不同程度,可能会将 Juice 值从 256 降级至 128、96、64 甚至 16 等。

此时,模型在处理代码重构、长文本分析等复杂任务时,质量会显著下降。

以下是我的恢复步骤:

退出所有已登录该账号的设备(手机、电脑、平板等),确保没有任何活跃会话。

将账号闲置 48 小时。这段时间用于让后台的风控标记自动过期或重置。

最后重新登陆使用检测代码进行测试。

实测效果:

App Store 超低价应用内购省钱技巧,不到60人民币开通 ChatGPT $20 的会员订阅

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

实际上,大多数 App 和服务定价并非全球统一。如 OpenAI 和许多跨国科技公司一样,会采用“购买力平价(Purchasing Power Parity, PPP)”策略,即根据不同国家和地区的经济水平、人均收入来调整产品价格。

这便在全球市场中形成了一些“价格洼地”,其中,尼日利亚正是全球订阅 ChatGPT Plus 最便宜的地区。

全球部分地区价格对比:

整个流程的核心是在尼日利亚区的数字生态内完成支付闭环。

被时间拉长的人

丢了一批人物标签给 AI 写人物小传,让它模仿某位小说家的笔法,来给演员交代角色。

你觉得这像谁的手笔?

————

南方的空气里常常有潮湿的味道,像是雨下过以后残留的影子,久久不散。城市白天拥挤喧嚣,夜晚却显得空旷,好像光亮突然被抽走,留下无数未完的句子。在这样的环境里,一个男人行走。他的脚步从不急躁,像对时间有着自己的节奏感,和别人不太一样。

年少的时候,他把自己交给了工业设计。形状、光影、比例,这些东西比人群更让他安心。六年在公司,十年在创业,那些日子像一张张被翻阅过的旧画册,色彩褪去了,但线条还在。产品的生与死,像车站里人群的来去。大多数人只看见成功或失败,他却更在意其中被忽略的细节。

别人眼中的他冷静得过分,总是习惯提前几步想好方向,就像棋局上的布局。但在那层冷静的外壳下,常常闪现一些不合逻辑的柔软时刻。比如一段旋律,随便一盏灯的影子,甚至一个不经意的眼神,足以让他停下手里的笔。理性和浪漫在心里不停打架,谁也没有赢过谁。

他知道自己带着黑暗生活。抑郁的日子像一条看不见的走廊,没有尽头。他学会了靠药物维持稳定,像有人随身带着一块怀表,偶尔瞥一眼,提醒自己仍然存在。那段经历让他对痛苦格外敏感,也让他在与人相处时多了一层隐秘的温柔。他不会轻易表现出来,但在内心深处,对别人的脆弱始终心知肚明。

夜晚经常独自坐在桌前,电脑屏幕的光照在脸上,桌上散落着草图和未完成的文字。那些想法有时像城市里的霓虹一样闪烁不定,无法全部抓住。他清楚其中大部分不会被记住,就像梦醒时遗落的片段。但仍旧一遍一遍画下去,像一种执念,也像是一种呼吸。

在喧闹的城市里,他习惯保持慢半拍的步伐。人群汹涌,他的节奏却像潜水时的心跳,缓慢、克制,不慌不忙。他看似与周围保持着距离,其实心里始终怀有一种模糊的渴望——不是要成为谁,也不是要得到什么,而是想在梦与现实之间找到某种入口。梦与梦之间,总有裂缝。裂缝里偶尔透进光。

对很多人来说,他是个不好接近的人。但真正靠近以后会发现,那些冷漠与安静只是表层,像水面下覆盖着的冰。深处的水仍然温热,流动着。理性、浪漫、痛苦和温柔同时存在,没有谁能完全把它们分开。

这样的人物,像一个在现实里造梦的旅人。他的路从不喧哗,却留下清晰的痕迹。

(*正文及标题均由 AI 完成)

ChatGPT 上线新语音模型,解析「Monday」模型音色提示词

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

想象一下,你正在和手机里的 AI 助手聊天,但它不再是那个永远彬彬有礼、甚至有些刻板的「标准音」,而是带着一丝慵懒、一点讽刺,仿佛刚经历了一个漫长周末,还没从「周一综合症」里缓过神来。这就是 OpenAI 昨天推出的「Monday」音色想要达到的效果。

网上已经有很多「Monday」对话效果的展示,「Monday」的音色当然是其语音模型的结果,而「Monday」这种特殊的回复方式是靠提示词来控制的。打个比方:「Monday」就像是一个极其聪明但缺乏具体「生活经验」的演员,而提示词就是导演给演员的剧本和角色设定。提示词写得越好,演员(AI)的表演就越「入戏」,越符合你的预期。

如果你对「Monday」提示词好奇的话,正好我今天学习研究了一下它的提示词,正好可以一起分享学习一下它的提示词内容,完整的提示词我放在了附录,这里大致解析一下其提示词内容。

大语言模型远不止是信息检索工具,它们是强大的「模仿者」和「扮演者」。通过精心设计的提示词,我们可以赋予它们各种各样的「人格」和能力。那么怎么通过提示词来设定好角色呢?

如果按照前面打的比方,把 AI 当成一个演员,那要写好提示词就是把自己变成一个好的导演,不仅要告诉演员台词,还要解释角色的内心世界、动机、情绪状态,甚至给出具体的动作和表情指导。好的导演能激发出演员最好的表演,就像好的提示词能引导 AI 生成精彩的回应。

或者作家在创作小说前,往往会为主要人物写详细的小传,包括他的成长背景、性格、习惯、口头禅、人生目标等。这帮助作家在后续写作中保持人物的一致性和立体感。

如果你觉得这都过于专业,还可以想象一下很多大公司制作的详细的品牌手册,规定了广告语、客服回答、社交媒体发帖的语气和风格(比如是专业严谨、活泼有趣还是温暖亲切)。

这些和给 AI 设定「人设」异曲同工。

从技术角度上来说,可以参考「Monday」的提示词,注意几个方面:

当 AI 开始拥有「周一综合症」般的慵懒和讽刺,它不仅仅是一个技术演示,更像是一面镜子,映照出我们人类自己复杂多变的情感和个性。我们精心编写的每一个提示词,或许都在不经意间,为冰冷的机器注入了一丝我们渴望理解或被理解的人性侧影。

「我们塑造了工具,然后工具反过来塑造我们。现在,我们开始学习如何给 AI『写剧本』,也许在这个过程中,我们也在重新学习如何与『人』,以及与自己对话。」

ChatGPT – Deep Research 功能指南&技巧总结:从「进度条」到「提示词」,一次搞懂!

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

最近有很多朋友在讨论:「Deep Research 的用量是怎么算的?」 又因为目前 Plus 每个月只能用 10 次,大家都非常担心浪费。其实一句话就能总结——只要开始出现 「Starting Research」 的进度条,就算使用了一次。在进度条出现之前,怎么问都不算。下面就为大家分享一些 Deep Research 的使用流程、注意事项和提示词模板,帮助大家更好地运用这一强大的研究功能。

一句话总结从开始出现 Deep Research 进度条就算一次,之前都不算

提出主题
你先要告诉 ChatGPT 需要研究什么主题。

ChatGPT 询问澄清问题
ChatGPT 通常会向你询问一些澄清问题,确保理解你的研究需求。

回答澄清,触发研究
当你回答了上述澄清问题后,ChatGPT 会再回复一条消息,并提示「将开始报告「,随后出现 」Starting Research「 的进度条。

注意:从这一步开始就会扣除一次 Deep Research 用量。

报告生成
研究进度条走完后,ChatGPT 会给你发送完整的报告,这标志着一次 Deep Research 流程的完成。

进度条出现后,你可以随时离开
进度条开始后,无论你是关闭窗口、刷新网页、切换到其他会话还是新开会话,都不会影响已经开始的 Deep Research 流程,它会在后台继续执行并最终生成报告。

Deep Research 可以后续追问
当报告生成结束后,如果你要继续追加信息重新生成报告,有两种选择:1). 直接提问,会使用你开始会话时选择的模型继续对话,报告内容可以作为上下文;比如说你从 GPT-4o 开始的,那么你在报告生成后,如果继续提问,实际上是 GPT-4o 基于你报告和提问内容回复,但是可能会受限于上下文长度无法完整理解报告内容;2). 重新生成新报告:Deep Research 是一次性生成的,但是你可以继续在当前会话选中「Deep research」按钮,这样可以把当前会话内容作为输入,或者把内容复制出去新开会话选中「Deep research」按钮重新开始一次新的生成。内容复制出去处理一下再生成会更好的对输入进行控制,但是麻烦一些。

无法追加新的信息让它继续深度研究。如果你在当前会话里继续追问,后续的回答将由其他模型(如 GPT-4o)接管。
如果你对报告不满意,需要重新修改提示词再新开一次会话进行 Deep Research。

灵活切换模型
你可以先选任何模型(如 o1 pro/o1 等),再让它进行 Deep Research。若后续还打算继续追问报告内容,建议在 Deep Research 开始前就选一个更强的模型(比如 o1 pro / o1)来进行分析。

选择信息源和报告语言

建议在提示词中加一句「请选择权威信息源」(并不一定要非英文来源不可,重点是权威信息源,这样可以过滤掉一些不好的信息源,当然你也可以加上「优先英文信息源」)。

如果希望报告是中文,直接在提示词末尾加一句「请形成中文报告「即可。

如果不小心生成了英文报告,又看着费劲,可以在当前会话,让它翻译,也可以复制完整内容,

ChatGPT – Deep Research 功能指南&技巧总结:从「进度条」到「提示词」,一次搞懂!

新建会话,选择 o1 pro 或 o1 模型(最佳翻译效果),翻译提示词参考:

「请将下面的内容用中文重写,尊重原意,保持格式不变无删减:」

引入外部资料的方法

如果报告需要访问收费网页上的内容,你可以手动复制成 Markdown,然后在提示词中用 XML 标签包起来。

如果有图片内容,直接上传即可。

如果要分析视频内容,需要先把视频转成文字,同样用 <transcript> 标签包住,再放进提示词里。

我一般会用 AIStudio 的 Gemini 转成文本

你可以一次粘贴几千行代码也没问题(用 XML 包起来),但要注意输入框粘贴有上限。如果太多,可以把代码放在公开的 GitHub 仓库,让 Deep Research 去分析链接即可。

写报告或写代码都行
Deep Research 不仅能写报告,还能写代码。只要你提示它「生成的结果是代码」,它就会尝试从网上搜索相关代码库并提供解决方案。

文献质量与报告质量
如果想让它「阅读」一本书并进行提炼,需要注意输入长度有限,无法直接输入一本完整的书。大部分流行书籍已经在模型中有训练数据,所以它会参考网上已有的书评。资料越多、质量越高,报告越漂亮;如果资料很少,它也无米下炊,生成的报告质量可能有限。

一个常见的提示词模板大致可分为背景信息任务要求、和输出格式三个部分。

在这里填写所有对它生成报告有帮助,但模型本身访问不到的信息,比如:

付费文章

视频文字稿

图片或 PDF(可作为附件)

其他任何对于生成有帮助的内容

当背景信息较多时,务必用 XML 标签包裹,避免 AI 混淆指令。例如:

主题:你希望分析、研究或讨论的具体范围

信息源:希望它检索的文献库、学术论文、政府网站、GitHub

研究要点:需要关注的核心点,是深度解析还是简要摘要

语言或风格:是中文、英文或其他语言?

语言:中文报告、英文报告或双语

数据格式:是否需要用表格呈现数据(它暂时画不了图表)

段落和标题:是否需要分级标题、索引等

提示词模板并不是必须的,可以随性一点,你可以把写提示词使用 Deep Research 当成去交代一个实习生帮你写分析报告,你怎么交代实习生就怎么写提示词

Deep Research 的使用次数:只要出现「Starting Research」进度条,就会扣除一次用量。

保持灵活:不满意就重新开始,新开会话前最好做好提示词规划。

结合大模型优势:如果要深入分析或后续追问,选用更强的模型如 o1 pro / o1 更合适。

慎重选择资料:外部资料要提前整理好,使用 XML 标签嵌入提示。

尊重版权、合理引用:在使用外部资料时,务必保留引用信息,切勿违规。

希望这篇文章能让你更好地理解和使用 Deep Research。在实际使用中,不妨多加尝试和探索,慢慢就能摸索出最适合自己的使用方式。祝大家玩得开心,也能高效地完成研究和写作任务!如有更多问题,欢迎在评论区留言交流。

总结

如果你想让 Deep Research 提供权威信息源,在提示词中加一句「请选择权威信息源」

如果要生成中文报告,只要在提示词里加「请形成中文报告」即可。

不小心生成英文报告且看着费劲,使用下面的提示词翻译:
「请将下面的内容用中文重写,尊重原意,保持格式不变无删减:」

欢迎大家在留言区分享你们的使用心得与经验,一起探讨 Deep Research 的更多玩法!

ChatGPT Task – 自动任务,提醒、计划、定时功能发布,实测 5 个场景使用分享

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

ChatGPT这两天又发布了一个新功能:「Task 〔计划提醒、定时任务生成〕」

功能的原理很简单,它就只是在原本的对话当中加上一个「计划提醒、定时任务生成」的机制〔支持自动循环〕。于是当我们设置的每天、每周重复时间到的时候,这个 AI 的对话就会根据我们设置好的方式,自动生成一段我们需要的信息内容,如果是在 ChatGPT 的手机 APP 上还会弹出通知,如果是在电脑网页端的界面上对话也会因为更新而排列在前面。

通过 ChatGPT 根据计划自动生成的新内容,我们就可以自动获得需要关注的提醒,或是自动获取需要的信息。它可以应用在什么样的场景上面呢?可以参考下面 5 种使用场景:

下面,我就用这几个真实的场景,详细操作给大家看,看看如何结合目前 ChatGPT 的功能,加上最新的任务提醒,来完成上述各种自动提醒的工作、学习流程需求。

目前这个「任务提醒」功能还在 Beta 测试版,并且只对付费版的 ChatGPT 用户开放,不过未来这个功能也会开放给所有用户使用〔包含免费的账户〕。

让我们先从这个基本应用,看看 ChatGPT 的「Task 」功能如何操作。

首先,我们要把 AI 模型切换到「含计划任务的 GPT-4o」

接着,我们在指令的开头加入「要重复的时间,与指定生成的任务」,就能启动「Task 」。例如我想要一个固定时间自动查找网页文章综合报道的摘要信息,我就这样下指令即可:

设置的「Task」时间到的时候,ChatGPT 就会自动根据我的指令上网查找,摘要出我需要的一篇综合新闻报道。

我们可以点进某一个「Task」的设置界面,这里可以修改自动任务名称、提示词,以及修改自动循环的时间

我们也可以在「 https://chatgpt.com/tasks 」页面查看自己已经设置的所有自动任务。

每个任务建议使用专门的会话,可以使用「Task」设计早上、中午、晚上三个时间,分别生成国际、国内、休闲娱乐的摘要报道,快速掌握一天需要的信息。

掌握基本功能后,例如我有一个专门了解各种生活健康知识的 ChatGPT 会话,我现在可以在这个对话中设计一个「习惯养成提醒」,请他每天固定时间告诉我一个关于降低体脂、提升骨骼肌的具体建议,并用鼓励的话引导我今天马上可以行动

通过习惯养成提醒每天的自动建议,就像是一个简单的「健康 App」一样,一方面每天学习习惯养成的知识,一方面每天进行行动提升。

如果我的需求需要改变,也可以随时回到设置中修改指令、生成时间,让养成习惯的过程,有一个自动提醒每天鼓励我去执行。

如果我正在学习某个领域、主题的新知识,那么除了建立一个对话与 ChatGPT 一起学习,我还可以设置一个专属自己的知识媒体总结,要求每天在固定时间生成一篇信息资料,提供给我新知识的信息。

指令:

然后 AI 第一篇给我的文章是番茄时钟工作法的介绍,写得还不错,我们可以利用 ChatGPT 上的「Read aloud」功能,让 AI 把这篇文章朗读出来。

这样是不是像一个自动帮助我们学习的 AI Podcast 呢?

如果利用这个功能来协助项目的推进呢?

例如我想持续写作的习惯,于是我请他每天固定时间,用我指定的逻辑,提供给我一篇可以延伸思考的文章题目,并且提供大纲建议。

于是在 AI 每天持续提供一些草稿建议下,帮助我在项目运行过程有持续的新刺激,更有动力保持项目的推进。

我最近常常利用 ChatGPT 来帮助我读一些原文书,有时候请 AI 翻译,有时候请 AI 整理笔记。

于是我想到,如果我在这个已经累积了数万字原文书阅读对话的对话中,请他每天固定时间,从前面资料中挑出一个重点帮助我复习呢?

指令:

效果还不错,他真的可以每天从前面对话的大量资料中,挑出一个具体重点,帮我做出特定的复习。

如果我们持续学习某种语言、知识主题,就可以善用这个 ChatGPT「Task」功能,自己设计每天的自动复习内容了!

以上就是我目前测试出来的几种应用方式,提供给想试试看 ChatGPT「Task」功能的朋友参考,也欢迎跟我分享你的应用方式。

tldraw computer – 画张流程图轻松打造 AI 自动化任务实测指南

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

你是否因为不会写程序,总觉得无法打造自己的自动化工作流程?每次设置 AI 工具都需要大量手动操作,效率难以提升?试试看一个实验性的新工具:「tldraw computer」,通过直觉的流程图设计,就能将繁琐 AI 指令与工作流程视觉化,打造高效率的 AI 自动化系统!

一开始使用 AI 〔指得是 ChatGPTGoogle Gemini 这类工具〕,我们可能会问:「生成一个某某主题的报告。」但当继续深入使用,真的把 AI 当作工作辅助工具,就会发现这样简单的提问是不行的,我们需要把任务「切割成」不同步骤,一个阶段一个阶段让 AI 处理,然后通过反问讨论,整合出最终更好的内容。

这时候,我们要请 AI 生成报告草稿,可能会先请 AI 设置 TA、痛点,再请 AI 做资料研究、摘要,然后请 AI 根据资料思考出更好的报告论述逻辑,然后才请 AI 根据这样的逻辑与资料,最后总结出一个更深入的报告大纲。

那么,如果上述的操作流程,可以用「视觉化」的流程图规划出来,然后 AI 就会自动跑完所有流程,生出我们需要的成果呢?这就是今天分享的这个最新 AI 工具:「tldraw computer」所具备的独特功能。

「 tldraw 」是很知名且好用的在线流程图工具,不过她们最新推出的「 tldraw computer 」AI 功能,不是要帮我们画流程图,而是让我们用简单好上手的流程图,规划出自己想要的 AI 自动化工作流程,打造一个可以根据更复杂逻辑生成报告、文章、设计图、声音文件的 AI 自动化助手。

「tldraw computer」内核特色:

「tldraw computer」用途:

我们先来看看「tldraw computer」这个工具可以完成什么样的应用案例,分享一个简单版实例:我自己常常会需要把拍照扫描的纸张图片,转换成一个有效的文字内容,就利用这个工具来建立一个快速扫描与修正文字的 AI 工具

我可以在「tldraw computer」流程图上设置一个上传图片的卡片框,然后拉一条连接线。接着在一个 AI 的指令框框里,输入我希望用什么样的逻辑来识别图片并修饰文字。然后接下来我再拉一条连接线,设置一个输出的文字框,让 AI 可以把完成的结果输出到这里。

而在使用的时候,我就只要在「第一步:上传图片的卡片框」把图片上传,按下右上方的播放启动按钮。这时候,这个工具就会自动跑流程图上的步骤,把扫描出来的文字转换成我需要的内容。

「tldraw computer」目前使用的 AI 模型是 Gemini,看起来无论是中文的文字还是手写字,都能够非常有效的识别完成。

tldraw computer – 画张流程图轻松打造 AI 自动化任务实测指南

接下来我们来看一个比较进阶复杂的应用案例。我想让 AI 帮我写一篇文章的草稿,但是就像前面提到的,直接让它撰写通常不会有很好的结果。

所以我利用「tldraw computer」工具画出一个文章产出的工作流程图。在流程图的一开始,我利用两张绿色的卡片,让我可以自己简单的设置这篇文章要解决什么 TA 问题,以及这篇文章想要采用什么方法论来解决问题。

接着,我开始用「tldraw computer」流程图展开我希望 AI 一步一步处理的自动化步骤。

首先,我利用红色的卡片设计 AI 处理的指令,请 AI 根据我的 TA 问题,写出一段有效的痛点描述。接着再请 AI 利用我想要介绍的方法论,写出一段这个方法论的重点思维基本背景的介绍文字。

但是,这样还不够。我继续往下画流程图。我让 AI 根据他自己输出的 TA 痛点以及方法论的重点,重新思考,拟出文章最好的架构。这个架构需要具体,有操作步骤,而且每个方法、每个步骤都要尽量有深入的诠释。

然后接下来,我让 AI 一步一步的把这篇文章往下扩展,有了文章的架构之后,我再请 AI 从这个架构出发,让这篇文章有一个完整的故事开场,有方法论重点,也有具体操作步骤,把前面的内容做一个有效的并且延伸插件的整合。

最后,我再画出下一步的 AI 流程图。我请 AI 用惯用的语言,用口语更亲切的方式来润饰改写它产出的文稿,输出一个解决痛点、介绍方法的一篇中文文章草稿。

甚至我可以再继续往下拉出下一步的流程图,放上一张声音的输出卡片,让 AI 把这篇文章的草稿转换成一个精简扼要的介绍音频文件。

有兴趣的朋友,可以看看我完成的这个 AI 自动化的工作流程图,看看上面的内容:https://computer.tldraw.com/t/szQY1iuGZCHAEmwzFASShH〔网址可以查看生成结果,如果要试用这个 AI 自动化流程工具,需要注册一免费账号。〕

当我有了这样的一个自动化的工作流程图,以后我只要每次回头修改一开始的两张绿色卡片,后面 AI 就会像刚才一样,自动跑完我已经设计好的工作流程,一步一步的去设计结构,推演文章进行润饰,甚至最后产出声音文件。我可以立刻获得最后输出的文章草稿以及声音文件的结果。

看完两个具体案例,最后我来分享「tldraw computer」如何操作?

先注册一个免费账号,建立一个 AI 自动化工作流程〔图〕的项目。

A computer by tldraw.

建立 AI 流程的基本逻辑是:输入、〔AI〕处理、〔AI〕输出。

掌握上面这个逻辑,你就能快速设计出一个有效的 AI 自动化工作流程。

首先,我们要设置「输入」内容的填写框,这是 AI 工作流程的起点,就像是要告诉 AI 目标、结果、资料的意思。

在「tldraw computer」中,利用 Text 或 Image 等卡片,可以设置输入文字、上传图片的填写框,作为启动流程的起点。

接着,我们要告诉「tldraw computer」如果去处理输入的内容,这时候从输入内容的卡片,画出连接线,连接到「Instruction」这个卡片上,然后在「Instruction」中说明希望 AI 如何处理内容的指令。

「tldraw computer」会根据我们简单的指令,自己做优化,让 AI 处理内容的结果更好。

然后,我们继续从「Instruction」卡片画出连接线,这时候可以连到 Text、Image、Speech、Website 等卡片,代表要让 AI 处理后,输出什么格式的内容。

重复上面:输入、处理、输出,三阶段流程,我们就可以串联出一个更复杂的 AI 自动化工作流程。

通过流程图的规划方式,我可以继续推进下一步的 AI 处理流程,甚至利用连接线把不同段落的内容连接到需要的步骤上,建立我自己需要的工作步骤。

最后,「tldraw computer」也提供了一些辅助功能,让设计这样的流程图更简单。

例如有一个启动按钮,让我们到时候只要按下启动,后面的 AI 流程就会自动跑完。

或是像流程图一样可以设置大小颜色,这样帮助我们分辨流程图中不同的卡片类型。

tldraw computer还有不少高级功能,有兴趣的朋友可以进一步玩玩看。

整体来说,「tldraw computer」是一个强大且易上手的自动化工具,让我们能够轻松打造自己的 AI 流程,推荐大家试试看。

BlinkShot – 开源免费 AI 图片快速生成工具

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

BlinkShot 是一个以 AI 人工智能技术即时生成图片的免费服务,这是开源项目,背后使用 AI 加速云服务「Together AI」和图片生成模型 FLUX,这项服务特性是能在非常短的时间内依照输入的提示词生成各种图片,以毫秒为单位,生成的图片也丝毫不逊色,有兴趣的朋友可以玩玩看。

目前 BlinkShot 支持英文提示词,也可以直接叫 AI 服务帮你生成〔例如用 ChatGPT 或其他同类型服务〕,另一个方法是使用图片转文字 AI 工具,例如:Image to Prompt等工具,将喜欢的图片快速转换为英文提示词,最后稍作修改再生成想要的图片。

BlinkShot 目前没有使用的生成数量限制,还有个「Together API Key」栏位可自定义自己的 API 密钥,生成的图片素材皆可免费下载使用,AI 图片基本上也不会受到版权限制,使用于个人或商业用途都没问题。

Generate images with AI in a milliseconds

进入 BlinkShot 后直接输入提示词就会立即生成图片,整体速度非常快,过程中如果继续输入其他形容或是提示词,图片会即时更新,相较于其他同类型的 AI 图片生成器来说确实非常强大!

下方会显示生成的图片历史记录。

通过 BlinkShot 生成的图片看起来很逼真,也能依照用户需求调整成各种风格、样式,越仔细的提示词就能生成更细致准确的结果。

生成过的图片历史记录会显示于下方,可以随时切换回去查看。

在图片点击右键即可下载保存。

在图片上点击鼠标右键、选择「另存图片」后将图片保存下来即可使用。

BlinkShot 未来也会加入下载按钮,让用户更方便获取图片。

我用 ChatGPT 和 Midjourney 剪掉了蓄满四年的长发

这是我蓄满了四年的长发,原本是打算捐给金丝带的,但我决定放弃了。

一来,捐赠的人太多了,不缺我这一个,它不需要我;

二是,这个活动太热门了,报不上名,我不喜欢凑热闹;

于是,我心里很快就决定了:剪掉,并且要烫卷、染发!

在音乐教室里,筱烨、阿吉和秋秋在上课,我就在旁边用 ChatGPT 写 Prompt,写完之后就丢给 Midjourney 去生成效果图。遇到不满意的,就丢两张我以前的半长发的照片上去,再调整 Prompt 的细节,接着画。

最后,我把这张效果图发给发型师:

虽然这脸型偏硬了,不怎么像我,但这个头发感觉是我想要的。

曲线、松软、紫色挂耳

确定方案之后就直接约时间,一方面要约发型师的时间,他很好约,就在楼下,我随时过去随时可以做;但另一方面,要约收头发的师傅过来,需要由他根据长度把我的头发抽出来。这也是我第一次卖头发,挺新鲜的体验。

首先,我要跟发型师和收头发的师傅一起商量,怎么剪、剪多少、剪到哪里、用什么方法剪。我原本以为就是咔嚓一刀剪了,但其实不是。整个过程里,这位师傅需要非常仔细地把我头发中最长的部份找出来,每次只挑选一小撮,然后用剃刀在距离头皮大约 8-10cm 的位置一点点把头发切断。这样做的目的是,即确保剪下来的头发是满足他收头发的需求,也能确保给发型师留有后续足够的操作空间,还得让头发之间的层次能自然地衔接上。

每次剪下一小撮头发后,他都会仔仔细细地把头发梳几遍,确保没有任何打结,然后放在准备好的毛巾上,平放着。剪之前还特意要把周围的风扇都关掉,万一吹乱了,这些头发都全都没用了。他就这么一遍一遍地重复捏一小撮、切下来、梳顺、平放,如此反复了半个多小时,才终于从我头上抽出来两把共 59g 的长发。

然后就是烫卷和染发。

之所以想这样折腾一下,多少有一点破罐子破摔的心态在,觉得既然这头长发不被需要了,那也就放过自己,不要再被「这件事」困住了,索性趁着这个机会来尝试一下之前没折腾过的事情!

其实我 17 年前也染过一次发,但那时候是因为演《暗恋桃花源》的老导演,为了贴近角色的年龄感,我就去染了一头白发。只不过那个白发染得不成功,黄黄的,加上那会儿我比较消瘦,自己觉得不好看,所以演出结束的第二天我就去剃光头了。所以那次严格来说我不觉得是一次正经的染发体验,毕竟没有顶着这头黄毛生活,勉强能算一次临时的体验。

我当然知道它会掉色,会变成黄毛,会干、会毛躁。

但这不重要,因为我就想试一试。

我紧绷了三十多年,现在崩断了,还不能讨好一下自己,玩一玩吗?玩!

不仅要玩,还要玩得不一样,用 AI 一起玩!

为什么是紫色?因为我喜欢!

虽然我也喜欢绿色,但我也不想染成绿色 😂

朋友说像杨千嬅,像极速拍档的小乔,那也挺好。

最近两周我忽然意识到,我是会因为自己感觉到快乐而感到羞耻的。这是从小根深蒂固的想法。过去我知道,如果我遇到一件好事,一件开心的事,就会有一个声音在警告自己不要乐,不要得意,不要喜形于色,要收起来,不然马上就会招来不幸和倒霉。但我一直认为这是克制和谨慎,是对于能量守恒定律的迷信式的执念,觉得这会儿开心了以后就没有了。

可是,为什么要把开心攒到以后呢?有没有以后都不知道。

筱烨说我的动力来自恐惧,确实,我总有各种恐惧在周围,挥之不去。

但现在我看见它了!我要让我的快乐活过来!我不要快乐羞耻!

尽管我现在还没有什么活力,但起码这个紫色能令我舒服好一阵子!

最后再看一眼,这头蓄了四年的长发和发髻。

我很喜欢这根石纹簪,但我感觉我应该不会再束成这个样子了。

这天色真好。

ChatGPT on macOS客户端app正式面向所有用户开放

OpenAI宣布了适用于 macOS 的 ChatGPT 客户端app正式面向所有用户开放。该应用专为 macOS 系统设计,支持快捷键呼出和多种内容形式的交互。目前仅适用于配备 Apple Silicon(M1 或更高版本)的 macOS 14+,但计划在今年晚些时候登陆 Windows。

ChatGPT on macOS客户端app正式面向所有用户开放最先出现在Justin写字的地方

如何使用 Proxifier 来进行流量代理控制

Proxifier 是一款网络工具软件,可以帮助用户通过代理服务器进行网络访问,实现匿名化、翻墙、加速等功能。支持多种代理协议,规则管理,流量监控和日志记录等功能,提高网络连接的灵活性和智能化。注意 Proxifier 本身并不是一个代理软件,也不是一个 VPN 软件,其作用是控制其他其他软件访问代理的方式。

上一篇文章我提到了可以试用 Proxifier 来解决通过 Shadowsocks 代理访问呢 ChatGPT 频繁出现 Something Went Wrong 的问题,在本文中我们来展开讲一下具体的做法。

1 准备工作

1.1 软件下载

Proxifier 的官方网站是 https://www.proxifier.com/,其正版价格较贵,约 40 美元。不过,较早的 2.x 版本存在破解版。读者可以根据自己的经济状况来选择。

1.2 代理准备

如同开头提到,Proxifer 本身不是一个代理程序,读者应该自己提前准备好代理。这些代理中,无论是 Shadowsocks、V2Ray 还是其他常见的代理程序,都会在客户端本地重建一个 Socks5 代理,这一般都可以在代理客户端程序的配置或者服务器设置中看到。下图给出的是 Shadowsocks-NG 客户端在 macOS 中的系统配置,可以看到程序在本地 (localhost) 的 1086 端口创建了一个 Socks5 代理。

这个代理会被进一步转成 http 代理,从而被浏览器使用,这个转换过程是导致 ChatGPT 链接不稳定的元凶。接下来我们要使用 Proxifier 让 ChatGPT 直接使用 Socks5 代理。

2 设置 Proxifier

2.1 添加代理

我们以知乎上这篇文章为范本简要讲一下设置过程。首先我们需要将现有代理软件提供的 Socks5 服务告知 Proxifier,这通过添加代理服务器实现。

注意一般各种代理软件在本地创建的代理都是无需验证的,我们可以取消验证启用。输入设置之后,可以点击检查确认设置是否正确。

3 设置规则

为了让 ChatGPT 的访问能够通过 Proxifier 访问代理,我们需要配置 Proxifier 的代理规则。

添加代理规则的页面如下:

我们有两种方法引导 ChatGPT 的网络访问:

  1. 我们可以选择下载 ChatGPT Desktop 客户端,然后通过代理规则中应用程序过滤规则找到 ChatGPT 程序,然后让目标主机为空(这意味着所有的目标主机都会服从本规则);
  2. 将应用程序部分置空,然后在目标主机中填入 ChatGPT 访问的域名。经过我的试验发现,填入 chat.openai.com; challenges.cloudflare.com; *.openai.com; 即可。

事实上,因为 Proxifier 能够全局性地处理所有网络访问,因此,第二种方法对于使用 ChatGPT Desktop 的用户来说同样有效。下图是完整代理规则。

至此我们就完成了设置,你可能需要重启浏览器才能能让 Proxifier 成功地引导 ChatGPT 的流量。

使用 Shadowsocks 访问 ChatGPT 频繁出现 Something Went Wrong 问题的解决方法

update at 2023.4.27:

Github 上有人做了一个开源的油猴脚本 KeepChatGPT 可以解决这个问题。在浏览器上这个脚本可以正常使用,但是注入到客户端时(尽管内部仍然是一个浏览器)会出现错误。

update at 2023.4.12:

在 Windows 上这套方法存在一定的问题。可能的原因是 Proxifier 的代理权限有时候会被 Shadowsocks 客户端,也就是 Privoxy 争抢。

由于国情原因我们使用使用 ChatGPT 需要使用各种形式的代理,这时我们肯能会发现在与 ChatGPT 对话的过程中可能会出现下面的错误:

Something went wrong. If this issue presists please contact us through our help center at help.openai.com

这种错误一般在我们再让网页空闲一段时间(通常是一分钟)后再次提问时出现。当然,去 OpenAI 的帮助中心是不会搜到什么有用的信息的。如果你去检索这个问题,你能得到的最好答案是在出现这个页面之后刷新页面,然后回到对话窗口继续对话即可。但是刷新后如果再次出现空闲窗口的情况,这个问题会反复出现,因此你在对话中就不得不反复地刷新页面,再加上每次页面重载你都需要去勾选 Cloudflare 的机器人验证框,这就会极大程度上拖慢我们的速度,影响产品体验。

这个问题是否可能是由于我翻墙访问导致的呢?我使用的翻墙软件是 Shadowsocks,经过一番搜索,一个 Github Issue 的讨论给了我灵感。

讨论地址:https://github.com/shadowsocks/shadowsocks-libev/issues/2149

尽管讨论的题目和 ChatGPT 没有直接关系,但是这个回复提到,Shadowsocks 在构建代理管道时,会在客户端使用 Privoxy 来讲 Socks5 代理转换成 http 代理,进而被浏览器使用。Privoxy 的配置中包含了 Socket 连接时长方面的控制。于是我查看了我本地的 Shadowsocks 使用的 Privoxy 的配置文件,这个文件在 MacOS 中位于 /Users/lena/Library/Application Support/ShadowsocksX-NG/privoxy.config 文件。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
toggle  1
enable-remote-toggle 1
enable-remote-http-toggle 1
enable-edit-actions 0
enforce-blocks 0
buffer-limit 4096
forwarded-connect-retries 0
accept-intercepted-requests 0
allow-cgi-request-crunching 0
split-large-forms 0
keep-alive-timeout 5
socket-timeout 60

forward 192.168.*.*/ .
forward 10.*.*.*/ .
forward 127.*.*.*/ .
forward [FE80::/64] .
forward [::1] .
forward [FD00::/8] .
forward-socks5 / 127.0.0.1:1086 .

# Put user privoxy config line in this file.
# Ref: https://www.privoxy.org/user-manual/index.html

可以看到 keep-alive-timeoutsocket-timeout 这两个选项设定的超时时间都比较低。我做了下面两个尝试:

  1. 将这两个设置调高,并重启 Shadowsocks,但随后发现 Privoxy 重置了设置文件;
  2. 我手动 kill 掉正在运行的 Privoxy 并且手动使用更新后的 config 文件调起一个新的进程,但是仍然没有解决 Something went wrong 的问题;

至此,我也不想和 Privoxy 纠缠下去,既然问题出在 Socks5 代理转 Http 代理的环节,我们可以使用 Proxifier 这个软件直接使用 Shadowsocks 提供的 Socks5 代理,就可以很好地解决这个问题。

Proxifier 的教程网上非常多,我就不在这篇文章里赘述了。

Proxifier 的使用参加我的文章:如何使用 Proxifier 来进行流量代理控制

❌