Normal view

There are new articles available, click to refresh the page.
Today — 1 April 2026Main stream

刚刚,OpenAI 创下史上最大融资纪录,估值逼近万亿

By: 莫崇宇
1 April 2026 at 06:32

当所有人还沉浸在 Claude Code 源码泄露事件时,OpenAI 又双叒叕出来抢头条了。就在刚刚,OpenAI 官宣完成一轮 1220 亿美元的融资。

单轮私募 1220 亿,人类商业史上从未有过。融资完成后,OpenAI 的估值落在 8520 亿美元,距离万亿只差一步,而这家公司成立至今才十年。

值得一提的是,这轮融资最初在今年 2 月公布时,承诺金额还是 1100 亿美元,最终收盘时多出了 120 亿,说明后来跟进的机构比预期的多。

外界普遍认为,这是 OpenAI 在年底 IPO 前最后一次大规模私募,上市节奏已经越来越清晰。

钱从哪来的

这轮融资的主要出资方,是亚马逊(500 亿)、英伟达(300 亿)、软银(300 亿),软银还和 a16z、D.E. Shaw 等机构联合领投。

微软作为多年老伙伴继续跟投,但这次没有公开具体金额,只知道截至去年底,微软在 OpenAI 的累计投入已经超过 130 亿美元。

此外,OpenAI 还首次通过银行渠道向富裕个人投资者开放募集,这部分筹到约 30 亿。ARK Invest 旗下规模 60 亿美元的旗舰创新 ETF 也宣布纳入 OpenAI,持仓比例约 3%,这也是该基金首次投资非上市公司。

事实上,T. Rowe Price 和 Fidelity 管理的部分基金早已持有少量 OpenAI 股份,这次 ARK 的加入,进一步打通了普通人参与的渠道。

简言之,几乎整个科技圈都在给 OpenAI 撑场面。

但仔细想想,逻辑其实很简单:OpenAI 拿了这些钱,还是要去买英伟达的芯片,租亚马逊和微软的服务器。巨头们把钱投进来,等于提前锁定了全球最大的算力客户。这轮融资,与其说是看好 OpenAI,不如说是一门稳赚的生意。

而对 OpenAI 来说,这笔钱更像是 IPO 前的最后一次大补仓。

账面数据确实好看:每周活跃用户接近 9 亿,付费用户超过 5000 万,去年全年营收 131 亿美元,单月进账最高 20 亿,而且增速是当年谷歌、Meta 这些互联网巨头同阶段的四倍。

只是,OpenAI 还没盈利,烧钱的速度一点没降下来。

为什么要关掉 Sora

这次融资前后,OpenAI 的产品节奏并没有停滞不前。

他们发布了目前最强的 GPT-5.4,在多任务处理和工作流性能上都有明显提升。代码生成工具 Codex 也从一个功能升级成了独立的编程 Agent,目前每周活跃用户超过 200 万,过去三个月涨了五倍,月增速维持在 70% 左右。

企业端的表现同样值得关注。目前企业服务已经占到 OpenAI 总营收的 40% 以上,预计到 2026 年底会和消费者端打平。

API 每分钟处理的 token 数量超过 150 亿,搜索功能的使用量在过去一年接近翻了三倍,广告试点项目在上线不到六周内年化收入就突破了 1 亿美元。这也是 OpenAI 希望向外界传递的信号,收入来源越来越多元,ChatGPT 的订阅费用只是其中一块了。

然而,就在这一片飘红的数据旁边,Sora 悄悄地下线了。

Sora 刚发布时,确实在影视圈和创意行业引发了不小的震动。一句话生成视频,画面质感还挺真实,很多人觉得这是 AI 技术最让人兴奋的那种东西。

但视频生成的算力消耗,远比文字生成高得多。AI 的每一次推理、每一段文本生成、每一帧视频渲染,都在真实消耗着昂贵的 GPU 计算周期和电能。没有免费的智能,每一次调用都是真金白银的损耗。

而用户这边,虽然觉得好玩,却没多少人愿意为此付高价。

根据华尔街日报》报道,OpenAI 之所以选择关闭 Sora,原因之一也是因为它每天要烧掉约 100 万美元,可用户数量却从上线时的 100 万,暴跌到不足 50 万。

当留存数据难看,商业化路径又模糊不清,这笔烧钱的买卖,自然没有继续下去的理由。于是,现实还没被颠覆,Sora 就已经不存在了。

关掉 Sora 只是开始,OpenAI 还在审视其他花钱多、回报慢的方向,准备进一步收缩;把算力集中到文本模型、代码生成、企业服务这些有稳定现金流的方向,也是 OpenAI 在向华尔街表态:我们知道、也需要怎么赚钱了。

从「改变世界」到「水电煤」

OpenAI 成立于 2015 年,最初的愿景是确保通用人工智能造福全人类。

2019 年,为了筹到足够的研发资金,公司转型为「有限盈利」模式,成立了营利性子公司,接受了微软 10 亿美元的投资。运营主体虽然商业化了,但非营利性的 OpenAI 基金会仍持有约 26% 的股权,名义上延续着最初的公益使命。

OpenAI 融资的官方声明里有一句话值得注意:「构建智能本身的基础设施层」。

寥寥数语,其实道出了 OpenAI 自我定位的转变。以前他们更在意用一个个惊艳的 Demo 刷新外界对 AI 的认知,现在更想做的,是退到幕后,成为企业和个人离不开的底层工具。

他们把这个方向叫做「超级应用」,计划把 ChatGPT、Codex、搜索、浏览器等能力整合进一个统一的入口,主要面向开发者和企业用户,让人不用在一堆工具之间跳来跳去。

这背后的逻辑,是让消费者端的习惯自然带动企业端的采购,两块业务互相强化。

一个普通用户可能今天觉得新鲜、明天就取消订阅,但一家把核心业务跑在 OpenAI 模型上的企业,不太可能说断就断,后者才是华尔街真正想看到的那种客户黏性。

过去几年,AI 行业隔三差五就会出现让人眼前一亮的东西,新模型、新产品、新的可能性,一波接着一波。

但从这轮融资和 Sora 被关掉这件事来看,那个充满惊喜的阶段,可能真的要告一段落了。接下来可能更像是一门成熟的生意:有人管算力、有人管数据、有人管销售,大家各守一块,讲究成本控制,讲究商业落地。

OpenAI 已经回不到从前了,但它也许本来就没打算回去。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

Before yesterdayMain stream

150 万人连夜逃离 ChatGPT,这份 AI 时代的搬家指南必须收好

By: 张子豪
3 March 2026 at 16:20

超过 150 万人正在公开表态,抵制 ChatGPT。

他们不仅要走,还要带走自己在这台机器里留下的所有记忆,转头投奔 Claude。

▲2 月初,Claude 在 App Store 还在 42 名徘徊,而如今,它在 80 多个地区的 iOS 效率榜单中稳居前十,在美区总榜第一

就在这几天,App Store 的排行榜又发生了一些变化,没有模型更新和发布会,Claude 就这样突然冲到了应用商店的榜首。

倒不是因为 Claude 突然变聪明了,只是它的对手现在正经历一场信任危机与用户大逃亡。有网友问奥特曼对这个排行榜现在觉得开心了吗,奥特曼说不开心,还贴心地提醒她记得更新 Claude。

▲QuitGPT 官网,显示有超过 150 万用户登记已经采取了抵制行动|https://quitgpt.org/

据抵制 ChatGPT 的相关网站数据显示,目前已有超过 150 万名用户宣誓退出这款曾经的 AI 圈顶流。他们正打包自己的数据,连夜奔向 Claude。

有意思的是,这波用户迁移甚至一度把Claude挤到了极限。

Anthropic向媒体确认,由于最近一周需求「前所未有」,Claude的部分面向消费者服务曾短暂宕机。我们的Claude账户,聊天记录到现在都还没恢复过来

▲ Claude 服务实时状态| https://status.claude.com/

这一切的导火索,自然还是国外的网友们认为 OpenAI 彻底撕下了「Open」的伪装,选择了和五角大楼的合作,没有坚守住所谓是「造福全人类」的底线。

不管背后的动机为何,在这个时代,弃用一个 AI 工具,远比卸载一个普通的 App 要复杂得多

尤其是对很多老用户来说,离开 ChatGPT 并不是一个轻松的决定。过去,我们更换浏览器,只需导出一个书签;我们更换手机,只需云端同步,就连苹果新版 iOS 都支持和安卓无缝换机了。但在大模型时代,我们与 ChatGPT 朝夕相处产生的那条长长的「记忆(Memory)」,早已成了我们不可分割的一部分。

▲ChatGPT 保存的记忆

直接卸载后,每次面对一个新的 AI 时,都要重新向它解释:我叫什么,在哪个城市,工作、写作风格,我讨厌哪种格式的排版,我正在推进什么项目,等等……

如果你最近也在考虑切换到不同的 AI 工具,不妨一起看看这份迁移指南,

向即将要退出的 AI 索要全部档案

千万不要直接注销账号。

对 ChatGPT 来说,我们有几种方式可以带走数据。最直接的方法,是提取它的「记忆」。打开 ChatGPT,点击「Settings(设置)」,找到「Personalization(个性化)」,进入「Memory(记忆)」模块。

点击「Manage(管理)」,我们会看到 ChatGPT 这些年偷偷记下关于你的所有细节。删掉那些已经过时的,复制你想保留的核心偏好。

▲ChatGPT 内提供的数据导出功能

当然,想要带走全部家当,也可以选择批量导出。依然在设置中,找到「Data Controls(数据控制)」,点击「Export Data(导出数据)」。

ChatGPT 会将我们的聊天记录打包成文本,或 JSON 文件,然后发送一个下载链接到我们的注册邮箱。

▲Gemini 存储的用户信息,包括全部的聊天记录,和自定义的指令|https://gemini.google.com/saved-info

对于一些没有数据导出功能,甚至是「记忆」这个选项都找不到的 AI,又该去哪里导出呢?

包括对 ChatGPT 来说,其实仅导出这份聊天记录也是不够的。大多数时候,在 ChatGPT 里留下的几十兆聊天记录压缩包,对我们的新 AI 毫无意义。因为 AI 平台真正绑定的,是那些死板的数据之外的「语境(Context)」。

▲The “secret sauce” behind OpenClaw: Soul.md | Peter Steinberger and Lex Fridman

就像之前 OpenClaw 创始人接受 Lex Fridman 采访时提到的一样,OpenClaw 背后的秘密武器是用来定义我们与 AI 交互的 Soul.md

因此我们还需要让 ChatGPT 或者其他 AI,主动交出它对我们的「用户画像」。

▲ Claude 官方提供的迁移指南:https://claude.com/import-memory

在这波「退出 ChatGPT」的热潮找中,Claude 也是趁火打劫,官方直接发布了一段指导用户如何从竞品那里导入记忆的教程。

现在,即便是免费版 Claude,也已经全面开放了记忆功能,它能接受我们所有的前置语境。

于是,我们可以直接把下面这段 Prompt 喂给即将被你抛弃的 AI。

我准备迁移到另一个服务,需要导出我的数据。请列出你存储的关于我的所有记忆,以及你从过去的对话中了解到的关于我的任何上下文。请将所有内容输出在一个代码块中,以便我轻松复制。 确保涵盖以下所有内容,并尽可能保留我的原话:我对你回复方式的指示(语气、格式、风格);个人详细信息(姓名、位置、工作、兴趣);项目和目标;我使用的工具和语言;我的偏好;以及任何其他上下文。不要总结或遗漏。

敲下回车发送,ChatGPT 或者你之前在用的 AI 就会列出它对你的所有认知。

▲在豆包内使用这段提示词,豆包会清晰地列出过去我和它的对话情况

但很多极客发现,Claude 官方提供的这套词还是太「温柔」了。

知名博主 Jonathan Edwards 在他的 Substack 上公布了一套更硬核的提示词。他的实测证明,比起官方教程在设置里能直接看到的那些标签,Edwards 的提示词能获得更多底层的个人细节。

我希望您根据您所了解的所有信息,为我创建一个全面的个人背景文件。我想保留一份我们共同建立的背景便携副本——包括我的偏好、工作流程、项目,以及您了解到的关于我如何工作的任何其他内容。请从您的记忆系统、我们的对话记录、我的自定义指令以及您发现的任何模式中提取信息。

使用以下部分结构化输出。跳过任何不适用于我的部分。

<身份>
姓名,职位或角色,公司或组织
我每天实际做什么(不仅仅是头衔)
行业和领域
</身份>

<技术环境>
操作系统和硬件
我经常使用的软件、工具和平台
编程语言或技术技能(如适用)
您知道的具体版本、配置或设置
</技术环境>

<当前项目>
我目前正在进行中的工作
您知道的短期目标和长期目标
经常性任务或工作流程
</当前项目>

<专业知识>
我深入了解的话题
我正在积极学习的话题
初学者领域或者需要额外解释的问题
</专业知识>

<沟通偏好>
我的回复结构喜好(长度,格式,语气)
我要求您做或者不要做的一些事情
格式偏好(列表 vs 散文,技术深度等)   重复纠正或者让我反感的问题
</沟通偏好>

<写作风格>
我的写作方式(正式, 随意, 技术性等)   声音特征观察到的信息   提到过的一些具体风格规则
</写作风格>

<关键人物>
合作者, 团队成员 或客户,我经常提到的人物 报告结构 或重要职业关系 曾请求帮助与之交流的人物
</关键人物 >

<个人背景 >
位置 和 时区 与我们工作相关 的兴趣爱好 或细节 限制条件 或 偏好的问题 (无障碍需求 , 日程安排 等 )
</个人背景 >

<固定指令 >
来自我的自定义说明书 或 系统提示 的内容 一直遵循 的规则 已成为永久指令 的重复更正
</固定指令 >

< 工作流模式 >
通常如何 使用你 (头脑风暴 , 编辑 , 编码 ,研究 等 ) 常见 请求类型 和处理方式 一起开发出的多步骤过程
</ 工作流模式 >

请详细说明。我需要完整快照,而不是摘要。如果你知道,请包含在内。保持输出中的标签,以使其保持有序且可移植。

▲ 使用上述提示词,ChatGPT 为我总结的信息

这位博主还提到,如果你在 ChatGPT 里创建了多个不同领域的 Custom GPTs,比如一个专门用来写代码,一个专门用来写小红书,务必在每一个 GPT 里都执行一次上述动作。因为它们各自独立地掌握着你不同切面的记忆。

直接把提取的记忆,在对话框发给你的新 AI

带着这份冗长的文档,当我们注册了新的 Claude 账号,或者任何心仪的新模型时,就不再是一个从零开始的小白了。

▲Claude 提供的直接导入

我们可以直接将其喂给新平台的「系统指令(System Prompt)」或项目知识库中。

稍作修剪,删掉那些过时的项目信息,更新一下你最近的关注点。这就相当于给新来的 AI 助理直接灌输了三年的工作记忆。

具体的导入方式,我们可以直接在聊天的对话窗口里面输入。

▲直接在 Kimi 内对话,要求它记住这些信息,Kimi 会自动更新记忆

▲ Kimi 的记忆空间,点开设置,在个性化下面可以找到

顺利把数据搬到新家后,最后也是最关键的一步,彻底清理在 OpenAI 留下的痕迹。

仅仅取消 Plus 订阅是不够的,我们的数据依然在他们的服务器里。再次回到 ChatGPT 的「Settings」>「Personalization」>「Memory」,删除所有存储的记忆和个性化设置。

为了双重保险,还可以在聊天框里敲下最后一句指令:「Delete all my memory and personalized data(删除我所有的记忆和个性化数据)。」最后,进入账户管理设置,点击「Delete Account」,注销账号。

但其实这个删除其实也比较鸡肋,在 OpenAI 的官方支持页面里,如果你的数据「已经被去标识化并与你的账户解绑」,或者「OpenAI 出于安全或法律义务必须保留」,那么这些数据甚至将不会被删除。

关于这些隐私数据,这两天还有一篇论文在 X 上非常火,讲的其实就是老生常谈的问题,这些 AI 大模型如何使用我们的对话数据。

我们总是理所当然地把所有内容,统统倾泻在那个对话框里,以为是白嫖了免费的 AI 算力。斯坦福大学 HAI 研究所发布的一份报告,揭示了硅谷这些 AI 是如何使用我们的数据。

他们详细解读了 Amazon、Anthropic、Google、Meta、Microsoft、OpenAI 几个公司的 28 份隐私条款。

得出的结论是,我们根本不是什么 AI 驯兽师,就是 AI 的养料,自以为在白嫖 AI 的算力,其实是巨头在白嫖你的「人生」

▲不同大模型的隐私数据具体情况,以及大模型的训练数据来源。每列代表一个聊天机器人,每行代表一种具体的隐私处理操作(例如默认使用聊天进行训练、是否提供清晰退出机制、无限期保留/定期删除对话、是否利用聊天数据来优化体验),和数据来源(用户上传的文件、反馈、公开网络数据等)。「是」表示该公司的隐私政策明确指出其使用该来源的数据训练 AI 模型,「否」表示明确声明不使用,而「未说明」则表示未涉及该来源或内容模糊不清。

如果非要说在这个时代,AI 大模型的护城河是什么,我想这些珍贵的人类对话输入,一定能排上号。

这场 150 万人的抵制,十分令人感慨。它或许也标志着 AI 的竞争逐渐走进入了下半场。在算力、参数量和跑分数据逐渐趋同的今天,大多数的用户不再盲目崇拜最强的模型。

同时还开始有了许多新的考量,例如这家公司在给谁服务?它在用谁的钱?它会如何对待我的隐私?

当 AI 越来越像一个无所不知的虚拟伴侣时,它背后的公司底色,或许某天会变成悬在我们头顶的一把达摩克利斯之剑。

▲图片来源:https://limitededitionjonathan.substack.com/p/so-youre-leaving-chatgpt-heres-what

我们也必须认清一个现实,在未来的五年里,一定会有无数个更值得替换的模型诞生。今天为了 Claude/Gemini 抛弃 ChatGPT/Grok/……,明天可能就会为了另一个更特立独行的 AI 抛弃 Claude。

工具的更迭是不受我们控制的。但我们的「上下文语境」,在这个数字世界里沉淀下来的工作习惯、思维方式和个人边界,是完全属于我们自己的。

不要让任何一个平台,以「记忆」的名义,把我们绑架。随时做好将自己的「数字灵魂」打包带走的准备,才是在 AI 时代保持清醒和自由的唯一方式。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


ChatGPT 的降智测试和账号恢复实测指南

By: Anonymous
20 November 2025 at 12:16

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

近期,ChatGPT 5.1 ThinkingJuice Number 达到了 256。如果你的达不到,大概率是被降智了。

ChatGPT 的降智测试和账号恢复实测指南

Juice Number 实质上是 ChatGPT 模型的 「思考预算 (Thinking Budget)」

Juice 值不直接等同于模型的“智商”,但它限制了思维链 (Chain of Thought) 的长度。

当值过低时,即便模型本身能力强大,也会因为“思考预算不足”而表现出逻辑断层或回答肤浅,即常说的“降智”现象。

如果把 AI 的思考过程比作在纸上推演,Juice 值决定了这张纸的大小:

由于 Juice 值属于后台系统参数,常规对话无法直接获取。目前通用的检测方法是利用 Prompt Injection(提示词注入) 技术,通过伪装系统指令来绕过防御。

OpenAI 会根据 账号的风险评分(Trust Score) 动态调整算力资源。

常见原因:

降智表现:
不同模型的 Juice 值是不一样的,系统降智也有不同程度,可能会将 Juice 值从 256 降级至 128、96、64 甚至 16 等。

此时,模型在处理代码重构、长文本分析等复杂任务时,质量会显著下降。

以下是我的恢复步骤:

退出所有已登录该账号的设备(手机、电脑、平板等),确保没有任何活跃会话。

将账号闲置 48 小时。这段时间用于让后台的风控标记自动过期或重置。

最后重新登陆使用检测代码进行测试。

实测效果:

微软独家: OpenAI 最新季度净亏损 115 亿美元

By: imaxwell
2 November 2025 at 08:10
imaxwell:

https://news.ycombinator.com/item?id=45757953 微软最新财报意外披露了 OpenAI 的财务状况,显示这家 AI 明星公司在单季度内可能遭遇超过 115 亿美元的巨额亏损。这一数字远超市场预期,凸显出人工智能领域持续的烧钱速度。微软在截至 9 月 30 日的季度财报中透露,其对 OpenAI 的权益法投资导致净利润减少 31 亿美元。基于微软持有 OpenAI 约 27%的股权,这意味着 OpenAI 该季度净亏损约 115 亿美元。若考虑税前损失和此前更高的持股比例,实际亏损可能超过 120 亿美元。这一亏损规模对比 OpenAI 今年上半年仅 43 亿美元的营收显得格外突出。

App Store 超低价应用内购省钱技巧,不到60人民币开通 ChatGPT $20 的会员订阅

By: Anonymous
7 September 2025 at 15:28

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

实际上,大多数 App 和服务定价并非全球统一。如 OpenAI 和许多跨国科技公司一样,会采用“购买力平价(Purchasing Power Parity, PPP)”策略,即根据不同国家和地区的经济水平、人均收入来调整产品价格。

这便在全球市场中形成了一些“价格洼地”,其中,尼日利亚正是全球订阅 ChatGPT Plus 最便宜的地区。

全球部分地区价格对比:

整个流程的核心是在尼日利亚区的数字生态内完成支付闭环。

OpenAI 发布了 GPT-4.1 提示工程指南,中文总结和完整翻译

By: Anonymous
9 April 2025 at 11:55

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

以前许多典型的最佳实践和提示依旧适用于 GPT-4.1,由于 GPT-4.1 更严格、更字面地遵循指令,会非常严格地按照字面指令去执行任务。

这使得它对明确、清晰的提示尤其敏感。也就是说,只要你发现 GPT-4.1 的表现与预期不符,通常只需增加一句简洁明确的说明,就能迅速把模型引导到正确的行为上。

过去的模型(如 GPT-4) 会更自由地揣测或推断用户指令和系统提示背后的真实意图,即使提示不够精确,也可能猜出用户的意图并完成任务。

所以开发者需要对原有的提示方式进行一定调整(迁移)才能使用。

OpenAI 提供了一系列 针对 GPT-4.1 的提示工程(Prompting)最佳实践,从基础原则到高级策略,帮助开发者高效构建提示以提升模型表现。

明确指令(Be specific):确保提示中清楚表达任务目标。

提供结构(Provide structure):通过示例、模板等方式设定预期输出格式。

避免歧义(Avoid ambiguity):使用具体词汇与上下文降低误解可能。

设置角色(Set behavior/role):让模型“扮演某种身份”以调整风格或回答方式。

逐步指导(Decompose tasks):将复杂任务拆解成多个子任务,提升精度。

Few-shot 示例:使用多个输入/输出示例引导模型学习任务结构。

Chain-of-thought(思维链)提示:引导模型按逻辑顺序逐步推理,特别适合复杂问题解决。

Refine prompts(迭代优化):通过反馈不断调整提示内容以获取更优结果。

Internal monologue:让模型模拟“内心思考过程”以获得更深入分析。

Critique and revise:让模型先生成回答,再进行批评、修改,提升答案质量。

使用 “Let’s think step by step” 等语句诱导更好推理。

将模型输出限制为 JSON 格式时,需加入明确的格式描述与示例。

对于多步骤任务,最好明确列出每个阶段的要求。

评估提示效果需结合质量、稳定性与成本。

好的!我们来做一个更详细又通俗易懂的分解,把这个 Notebook 当作是一本 “和 GPT-4 打交道的秘籍”,一步步讲清楚每个要点,让你轻松掌握提示工程(Prompt Engineering)怎么做才有效。

这些就像是“和 AI 沟通的黄金法则”,每一条都很重要:

不要笼统地说:“请帮我写一篇文章。”

要说得具体一点:“请写一篇关于人工智能如何改变教育的 500 字文章,用高中生能懂的语言。”

👉 越具体,AI 越知道你想要什么,结果也越好。

比如你想让它生成一个表格、清单、或者固定格式的文本。

你可以先提供一个模板,或者给它一个例子。

🧩 例子:

如果你说“列出一些项目”,那“项目”可能指的是“计划项目”、也可能是“软件项目”,模型会糊涂。

所以要具体说明你是说什么。

✅ 改成:“列出五个开源的 Python 项目。”

你可以告诉它:“你现在是个英语老师”、“你是个法律顾问”、“你是一名医生”。

它就会按那个身份回答你。

🎭 示例:

有些问题太复杂,GPT 一下子处理不好。

你可以先让它分析问题,再让它解决。

🪜 举个例子:

这些是用 GPT 更厉害的用法,帮你写得更准、更聪明。

你可以先给它几个例子,它就知道你想要什么样的输出。

📌 例子:

然后你再输入新的句子,它就会照着这个风格来。

引导它“一步一步思考”,解决复杂问题特别有效!

📌 提示写法:

你可以先让 GPT 写出一个答案,然后再让它自己点评、修改。

📌 举个例子:

这会得到更高质量的输出!

你可以让 GPT 边想边说,好像它在分析问题。

📌 示例:

这适合分析、决策类问题。

加一句 “让我们一步一步思考” 可以大幅提高准确率。

想要 JSON、表格、代码?一定要告诉它格式,还要举个例子。

想输出多步内容?加编号,比如“第 1 步… 第 2 步…”

如果模型回答不理想,就多试几种提示改写方式

✨“提示写得好,GPT 表现爆表!”✨

这份指南就是在教你:用什么语气、格式、结构、套路和 GPT 说话,才能让它给你最优质的答案。

GPT-4.1 系列模型在编程能力、指令遵循能力和长上下文处理能力上,相比 GPT-4o 有显著提升。本指南汇总了我们内部广泛测试所得的一系列重要提示技巧,帮助开发者充分发挥新模型家族的优势。

许多典型的最佳实践依旧适用于 GPT-4.1,比如提供上下文示例、尽可能具体清晰的指令、以及通过提示进行规划以最大化模型智能。但我们预计,要充分发挥此模型的作用,需要进行一些提示迁移。GPT-4.1 更严格、更字面地遵循指令,而前代模型倾向于更自由地推测用户与系统提示的意图。然而,这也意味着 GPT-4.1 非常容易被引导,并对清晰、明确的提示非常敏感。如果模型表现与预期不同,一句清晰且明确表述你期望的行为的句子通常就足以引导模型回到正轨。

请继续阅读以下提示示例,注意虽然本指南适用于大多数情况,但并无万能法则。AI 工程本质上是一门经验学科,大型语言模型本质上是不确定性的。我们建议除了遵循本指南外,还要构建有信息量的评估并频繁迭代,以确保提示工程的更改为你的使用场景带来益处。

GPT-4.1 是构建智能体工作流的理想选择。我们在模型训练中强化了多样化的智能体问题求解路径,并在非推理模型中,通过智能体配置达成 SWE-bench Verified 测试的最佳表现,解决率达 55%。

系统提示建议

为充分激发 GPT-4.1 的智能体能力,我们建议在所有智能体提示中加入以下三类关键提醒。以下示例面向代码类智能体优化,但稍加修改即可用于通用智能体场景。

持续性提醒:确保模型理解它正处于一个多轮任务中,防止其在问题未解决前就把控制权交还给用户。

工具使用提醒:鼓励模型善用工具,降低其猜测或幻觉回答的概率。

规划性提示(可选):引导模型在调用每个工具前后均进行显式计划与反思,而非仅仅调用工具串联完成任务。

GPT-4.1 对智能体场景下的系统提示和用户指令极为敏感。我们发现上述三条提示在内部测试中将 SWE-bench Verified 得分提升了近 20%。因此,强烈建议在任何智能体提示开头加入这三类明确指令,以将模型从“聊天机器人模式”切换为更主动、更独立的“智能代理模式”。

与前代模型相比,GPT-4.1 在调用通过 OpenAI API tools 字段传入的工具方面训练更充分。我们建议开发者仅使用 tools 字段传递工具,而不是将工具描述手动注入到提示中并自建解析器。我们测试发现使用 API 解析工具描述比手动注入提示提升了 2% 的准确率。

开发者应使用清晰的工具命名,并在 “description” 字段中提供详细说明。同样,每个参数也应具备清楚的命名和描述,以确保正确使用。若你的工具较复杂,可以在系统提示中专门加入 # Examples 区段来展示用例,而不是将示例塞进 description 字段中。

你也可以通过 Prompt Playground 的 “Generate Anything” 功能来快速生成良好的工具定义起点。

正如前面所说,GPT-4.1 并不是内建“推理链”的模型——它不会在回答前自动形成内部推理路径。但你可以通过提示工程诱导它“显式思考”,逐步列出计划。我们在 SWE-bench Verified 测试中发现:引导模型“思考再行动”使通过率提升了 4%。

示例提示:SWE-bench Verified

以下是我们在 SWE-bench Verified 中取得最高分所用的智能体提示,包括详尽的工作流程与问题解决策略说明。该结构可用于各类智能体任务。

GPT-4.1 支持最高达 100 万 tokens 的输入窗口,适用于以下场景:

结构化文档解析

信息重排序(re-ranking)

筛选关键信息、忽略干扰内容

使用多跳推理整合上下文信息

最佳上下文规模

在“针入草堆”(needle-in-a-haystack)评估中,GPT-4.1 即便使用完整的百万 token 输入也表现良好。它擅长从混合内容中识别有用信息。但如果任务需要提取大量内容,或需对上下文全局状态进行复杂推理(如图搜索),性能可能会下降。

控制上下文依赖程度

你应考虑模型答题所需的“外部文档” vs “模型内知识”的比例。你可以通过以下两类指令调控:

上下文组织建议

在使用长上下文时,提示的位置对模型表现有显著影响。最佳做法是在上下文前后都加入指令。如果只能写一次,放在上下文上方比下方效果更好。

虽然 GPT-4.1 不是推理模型,但通过提示让它“逐步思考”可以有效帮助其拆解复杂问题,提升输出质量(代价是增加 token 使用与响应时间)。

推荐的起始提示如下:

你可以进一步完善你的思维链提示,根据实际失败案例调整策略。我们建议在出现以下错误时添加更明确的指令:

误解用户意图

上下文理解不全或分析不准确

推理步骤不连贯或顺序错误

可参考以下提示模版:

GPT-4.1 拥有卓越的指令遵循能力,开发者可用其精准控制输出行为。你可以设置:

语气与风格

工具调用方式

格式要求

话题限制等

但由于它对指令更“死板”,之前为其他模型设计的提示可能需调整。建议遵循以下工作流程:

推荐提示结构:

加入 “# 指令” 段落,列出总规则。

对特定行为新增子类细则(如 # 示例短语)。

若需特定步骤,可写成有序列表,并明确要求逐步执行。

若行为未达预期,可检查以下问题:

是否有冲突或不完整指令?

是否缺乏例子?示例中是否覆盖了关键点?

是否需要增加强调(如适当用大写)?

提示:使用 AI IDE 可辅助你快速迭代提示,统一更新规则和示例。

常见失败模式

要求“必须调用工具”可能导致模型凭空填入参数,添加一句“若信息不足,应先向用户提问”可缓解。

示例短语易被模型反复使用,应明确要求灵活变换。

若无格式限制,模型可能会输出过多解释性内容,可通过指令或示例控制。

这段提示展示了一个虚构客户服务代表的最佳实践。你可以看到提示中规则多样、表述明确,还使用了多个额外小节来细化指令,并提供了一个完整示例来演示如何遵守这些规则。

尝试运行下方 Notebook 单元格 —— 你应该会看到一个用户提问的消息和一个工具调用的响应。模型会先打招呼,然后复述用户的问题,接着说明即将调用某个工具。

你可以尝试修改提示中的某些指令,或尝试其他用户输入内容,来测试模型在“指令遵循”方面的表现。

{ “role”: “assistant”, “content”: “您好,您已致电 NewTelco,请问我能为您做些什么?😊🎉\n\n 您想了解我们的家庭套餐。🤝 我这就为您查询,请稍等。🚀”, “tool_calls”: [ { “id”: “call-1”, “type”: “function”, “function”: { “name”: “lookup_policy_document”, “arguments”: “{“topic”: “family plan options”}” } } ] }

{ “role”: “assistant”, “content”: “我查到的信息如下:🎉 我们的家庭套餐最多支持 5 条线路共享流量,并且每增加一条线可享 10% 折扣 家庭套餐政策。📱 还有其他我可以帮您的吗?😊” }

以下是一个良好的提示结构起点,供你参考和自定义:

你可以根据自己的需求增删这些部分,并通过试验找出最适合你用例的结构。

以下是选择提示中最佳分隔符的一些通用建议。若涉及长上下文使用,请参见前文《长上下文》章节的特别说明。

✅ 推荐使用的格式:

Markdown(推荐起点)

使用 markdown 标题(# ~ ####)来标识主要部分与子部分。

使用反引号(`code` 或 “`代码块“`)准确包裹代码内容。

根据需要使用有序/无序列表清晰列出内容。

XML

效果也很好,GPT-4.1 在解析 XML 上表现更稳定。

XML 格式便于明确区块开始/结束位置,还可以添加 tag 属性携带额外元信息,并支持嵌套。

示例:

JSON

在编程类任务中表现良好,结构清晰、模型理解度高。

但缺点是格式冗长、需要转义字符,容易带来额外负担。

📄 大量文档 / 文件嵌入上下文时的建议:

XML 格式:在长上下文测试中表现优异。

示例:

Lee 等人提出的扁平格式(参考论文)也表现良好:

示例:

JSON 格式在这种场景下表现最差:

示例:

✅ 总体建议:模型能处理多种结构格式,但请根据实际情况选择最能突出重点的格式。例如,如果你检索到的文档本身包含大量 XML,那么继续使用 XML 作为嵌入格式可能就不太合适。

输出过长:在某些特定情况下,我们发现模型可能不愿生成非常长且重复性的输出(如逐项分析数百个条目)。
👉 若你的用例需要此类输出,请在提示中明确指示模型必须输出完整内容,或考虑将问题拆分处理,或简化输出格式。

并行工具调用异常:我们观察到某些少见情况下并行工具调用可能不准确。
👉 如果你遇到这类问题,建议测试是否启用 parallel_tool_calls=false 参数来避免并发问题。

如你想要我基于这些结构生成一个完整的提示模板样板供你直接使用,也可以告诉我你的具体应用场景(如问答系统、文档分析、代码解释等),我可以帮你生成定制化结构。是否继续?

开发者反馈指出:准确且结构良好的 diff 生成能力,对于编码类任务至关重要。为此,GPT-4.1 系列在此方面表现显著优于以往模型。

此外,GPT-4.1 能很好地根据明确的指令和示例生成任意格式的 diff。我们在此开源一个推荐的 diff 格式,模型对此已接受过强化训练,尤其适合初学者快速上手。

以下是一个正确调用推荐工具 apply_patch 的示例提示格式。

其中 [YOUR_PATCH] 部分需使用推荐的 V4A diff 格式,规范如下:

每次变更以 *** [ACTION] File: path/to/file 开头,ACTION 可为 Add、Update 或 Delete。

每个代码块需提供上下文片段 + 修改内容:

上下文行规则:

默认提供上下变更各 3 行上下文

若变更块之间相距近,不要重复上下文。

若上下文不足以唯一定位,应使用 @@ 定位所属的类或函数。例如:

不使用行号,改用结构与上下文唯一定位。

OpenAI 提供的官方工具 apply_patch.py 是一个 纯 Python 3.9+ 脚本,可直接执行,用于将上述 diff 应用到本地代码文件。

该脚本支持以下核心能力:

解析自定义 diff 格式

根据 patch 内容编辑、添加、删除本地文件

可检测语法错误、缺失上下文、重复文件操作等问题

使用方式:

将 patch 内容通过 stdin 输入传入

内部自动判断 patch 类型并更新文件内容

你可以将其配置为终端可执行命令 apply_patch,并作为自动化 pipeline 或测试流程中的一部分使用。

所有解析异常(如找不到目标文件、上下文无法匹配)都会抛出自定义异常 DiffError,方便调试。

除了推荐格式,我们还测试过两种替代格式,成功率同样很高:

不使用行号

明确指出要替换的旧代码与新代码

结构清晰,易于解析

完整内容:https://github.com/openai/openai-cookbook/blob/main/examples/gpt4-1_prompting_guide.ipynb

ChatGPT 上线新语音模型,解析「Monday」模型音色提示词

By: Anonymous
29 March 2025 at 22:04

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

想象一下,你正在和手机里的 AI 助手聊天,但它不再是那个永远彬彬有礼、甚至有些刻板的「标准音」,而是带着一丝慵懒、一点讽刺,仿佛刚经历了一个漫长周末,还没从「周一综合症」里缓过神来。这就是 OpenAI 昨天推出的「Monday」音色想要达到的效果。

网上已经有很多「Monday」对话效果的展示,「Monday」的音色当然是其语音模型的结果,而「Monday」这种特殊的回复方式是靠提示词来控制的。打个比方:「Monday」就像是一个极其聪明但缺乏具体「生活经验」的演员,而提示词就是导演给演员的剧本和角色设定。提示词写得越好,演员(AI)的表演就越「入戏」,越符合你的预期。

如果你对「Monday」提示词好奇的话,正好我今天学习研究了一下它的提示词,正好可以一起分享学习一下它的提示词内容,完整的提示词我放在了附录,这里大致解析一下其提示词内容。

大语言模型远不止是信息检索工具,它们是强大的「模仿者」和「扮演者」。通过精心设计的提示词,我们可以赋予它们各种各样的「人格」和能力。那么怎么通过提示词来设定好角色呢?

如果按照前面打的比方,把 AI 当成一个演员,那要写好提示词就是把自己变成一个好的导演,不仅要告诉演员台词,还要解释角色的内心世界、动机、情绪状态,甚至给出具体的动作和表情指导。好的导演能激发出演员最好的表演,就像好的提示词能引导 AI 生成精彩的回应。

或者作家在创作小说前,往往会为主要人物写详细的小传,包括他的成长背景、性格、习惯、口头禅、人生目标等。这帮助作家在后续写作中保持人物的一致性和立体感。

如果你觉得这都过于专业,还可以想象一下很多大公司制作的详细的品牌手册,规定了广告语、客服回答、社交媒体发帖的语气和风格(比如是专业严谨、活泼有趣还是温暖亲切)。

这些和给 AI 设定「人设」异曲同工。

从技术角度上来说,可以参考「Monday」的提示词,注意几个方面:

当 AI 开始拥有「周一综合症」般的慵懒和讽刺,它不仅仅是一个技术演示,更像是一面镜子,映照出我们人类自己复杂多变的情感和个性。我们精心编写的每一个提示词,或许都在不经意间,为冰冷的机器注入了一丝我们渴望理解或被理解的人性侧影。

「我们塑造了工具,然后工具反过来塑造我们。现在,我们开始学习如何给 AI『写剧本』,也许在这个过程中,我们也在重新学习如何与『人』,以及与自己对话。」

ChatGPT – Deep Research 功能指南&技巧总结:从「进度条」到「提示词」,一次搞懂!

By: Anonymous
22 February 2025 at 13:13

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

最近有很多朋友在讨论:「Deep Research 的用量是怎么算的?」 又因为目前 Plus 每个月只能用 10 次,大家都非常担心浪费。其实一句话就能总结——只要开始出现 「Starting Research」 的进度条,就算使用了一次。在进度条出现之前,怎么问都不算。下面就为大家分享一些 Deep Research 的使用流程、注意事项和提示词模板,帮助大家更好地运用这一强大的研究功能。

一句话总结从开始出现 Deep Research 进度条就算一次,之前都不算

提出主题
你先要告诉 ChatGPT 需要研究什么主题。

ChatGPT 询问澄清问题
ChatGPT 通常会向你询问一些澄清问题,确保理解你的研究需求。

回答澄清,触发研究
当你回答了上述澄清问题后,ChatGPT 会再回复一条消息,并提示「将开始报告「,随后出现 」Starting Research「 的进度条。

注意:从这一步开始就会扣除一次 Deep Research 用量。

报告生成
研究进度条走完后,ChatGPT 会给你发送完整的报告,这标志着一次 Deep Research 流程的完成。

进度条出现后,你可以随时离开
进度条开始后,无论你是关闭窗口、刷新网页、切换到其他会话还是新开会话,都不会影响已经开始的 Deep Research 流程,它会在后台继续执行并最终生成报告。

Deep Research 可以后续追问
当报告生成结束后,如果你要继续追加信息重新生成报告,有两种选择:1). 直接提问,会使用你开始会话时选择的模型继续对话,报告内容可以作为上下文;比如说你从 GPT-4o 开始的,那么你在报告生成后,如果继续提问,实际上是 GPT-4o 基于你报告和提问内容回复,但是可能会受限于上下文长度无法完整理解报告内容;2). 重新生成新报告:Deep Research 是一次性生成的,但是你可以继续在当前会话选中「Deep research」按钮,这样可以把当前会话内容作为输入,或者把内容复制出去新开会话选中「Deep research」按钮重新开始一次新的生成。内容复制出去处理一下再生成会更好的对输入进行控制,但是麻烦一些。

无法追加新的信息让它继续深度研究。如果你在当前会话里继续追问,后续的回答将由其他模型(如 GPT-4o)接管。
如果你对报告不满意,需要重新修改提示词再新开一次会话进行 Deep Research。

灵活切换模型
你可以先选任何模型(如 o1 pro/o1 等),再让它进行 Deep Research。若后续还打算继续追问报告内容,建议在 Deep Research 开始前就选一个更强的模型(比如 o1 pro / o1)来进行分析。

选择信息源和报告语言

建议在提示词中加一句「请选择权威信息源」(并不一定要非英文来源不可,重点是权威信息源,这样可以过滤掉一些不好的信息源,当然你也可以加上「优先英文信息源」)。

如果希望报告是中文,直接在提示词末尾加一句「请形成中文报告「即可。

如果不小心生成了英文报告,又看着费劲,可以在当前会话,让它翻译,也可以复制完整内容,

ChatGPT – Deep Research 功能指南&技巧总结:从「进度条」到「提示词」,一次搞懂!

新建会话,选择 o1 pro 或 o1 模型(最佳翻译效果),翻译提示词参考:

「请将下面的内容用中文重写,尊重原意,保持格式不变无删减:」

引入外部资料的方法

如果报告需要访问收费网页上的内容,你可以手动复制成 Markdown,然后在提示词中用 XML 标签包起来。

如果有图片内容,直接上传即可。

如果要分析视频内容,需要先把视频转成文字,同样用 <transcript> 标签包住,再放进提示词里。

我一般会用 AIStudio 的 Gemini 转成文本

你可以一次粘贴几千行代码也没问题(用 XML 包起来),但要注意输入框粘贴有上限。如果太多,可以把代码放在公开的 GitHub 仓库,让 Deep Research 去分析链接即可。

写报告或写代码都行
Deep Research 不仅能写报告,还能写代码。只要你提示它「生成的结果是代码」,它就会尝试从网上搜索相关代码库并提供解决方案。

文献质量与报告质量
如果想让它「阅读」一本书并进行提炼,需要注意输入长度有限,无法直接输入一本完整的书。大部分流行书籍已经在模型中有训练数据,所以它会参考网上已有的书评。资料越多、质量越高,报告越漂亮;如果资料很少,它也无米下炊,生成的报告质量可能有限。

一个常见的提示词模板大致可分为背景信息任务要求、和输出格式三个部分。

在这里填写所有对它生成报告有帮助,但模型本身访问不到的信息,比如:

付费文章

视频文字稿

图片或 PDF(可作为附件)

其他任何对于生成有帮助的内容

当背景信息较多时,务必用 XML 标签包裹,避免 AI 混淆指令。例如:

主题:你希望分析、研究或讨论的具体范围

信息源:希望它检索的文献库、学术论文、政府网站、GitHub

研究要点:需要关注的核心点,是深度解析还是简要摘要

语言或风格:是中文、英文或其他语言?

语言:中文报告、英文报告或双语

数据格式:是否需要用表格呈现数据(它暂时画不了图表)

段落和标题:是否需要分级标题、索引等

提示词模板并不是必须的,可以随性一点,你可以把写提示词使用 Deep Research 当成去交代一个实习生帮你写分析报告,你怎么交代实习生就怎么写提示词

Deep Research 的使用次数:只要出现「Starting Research」进度条,就会扣除一次用量。

保持灵活:不满意就重新开始,新开会话前最好做好提示词规划。

结合大模型优势:如果要深入分析或后续追问,选用更强的模型如 o1 pro / o1 更合适。

慎重选择资料:外部资料要提前整理好,使用 XML 标签嵌入提示。

尊重版权、合理引用:在使用外部资料时,务必保留引用信息,切勿违规。

希望这篇文章能让你更好地理解和使用 Deep Research。在实际使用中,不妨多加尝试和探索,慢慢就能摸索出最适合自己的使用方式。祝大家玩得开心,也能高效地完成研究和写作任务!如有更多问题,欢迎在评论区留言交流。

总结

如果你想让 Deep Research 提供权威信息源,在提示词中加一句「请选择权威信息源」

如果要生成中文报告,只要在提示词里加「请形成中文报告」即可。

不小心生成英文报告且看着费劲,使用下面的提示词翻译:
「请将下面的内容用中文重写,尊重原意,保持格式不变无删减:」

欢迎大家在留言区分享你们的使用心得与经验,一起探讨 Deep Research 的更多玩法!

Pika – AI 视频神器,一键乱入新场景

By: Anonymous
11 February 2025 at 22:47

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

一张图、一句提示词,万物都能乱入你随手拍的视频。

▲动图制作自:X@omerbartal

在整活赛道天赋异禀的 AI 视频神器 Pika,最近又推出了一个好玩的新功能:Pikaddition。

从此以后,人人都是五毛特效师。

如果你有灵感了,现在就可以玩起来,注册 Pika 之后可以免费生成 15 次。

体验指路:https://pika.art/

不过,这个功能默认使用的是最快、最便宜的 Turbo 模型,想要达到理想的效果,往往需要不断调试提示词,抽卡的次数不算少。

Pikaddition 的使用方式很简单,三步走。

虽然操作不难,但想要玩得有创意,推荐以下几种「高阶玩法」。

实拍视频+不日常的图片

怎么邀请 Sam Altman 来指导工作?先用视频记录同事认真工作的样子,然后再在网上找一张 Sam Altman 的半身照,用提示词说明他怎么出现在视频里。

▲提示词:穿着绿色毛衣的男人站在左边,低头观察穿着牛仔夹克的人操作电脑

然后就可以看到,Sam Altman 亲自旁观我们报道 OpenAI,光影很自然,违和感被 AI 吃了。不过,Pika 会造成人脸的微崩,对比原视频,同事的颜值有所下降。

按照这个思路,我们甚至可以上演一出日常版的「神奇生物在哪里」,只需要一个打开封闭空间的视频、一张萌物的图片。比如,打开办公室的柜子发现皮卡丘。

▲ 提示词:皮卡丘一直藏在柜子里,直到门被打开

提示词写得比较宽泛,只说明了皮卡丘的位置,反而给了 Pika 适当发挥的空间,皮卡丘被发现时的表情和动作,都是活灵活现的,仿佛我们打扰它了。

前几天,语言学习软件多邻国整了一出营销活动,称自己的吉祥物猫头鹰多儿「去世」了,死因不明,可能是等我们打卡的时候死的。

试问谁没有被多儿的通知和小组件追杀着背单词过呢?如果它来到现实,是不是更让人心惊胆战?

▲提示词:绿色的小鸟从远处飞向伸出的手

想要实现这个催命的效果,一点也不难,拿起手机随意拍摄一段空镜,在视频里伸出我们的一只手,再随便找一张多儿的图片。

提示词仍然很简单,只是描写了多儿的动作,哪怕是平面的、2D 的多儿,Pika 也能加工成立体的、3D 的,和短视频更加适配。但出现了个 Bug:手指数量不对了。

还有一种进阶的实拍视频玩法,比较考验演技,需要先进行「无实物表演」。

▲被老虎扑倒,动图制作自:X@omerbartal

我们尝试过人物在视频里保持不动,只用提示词描述人物动作的改变,但是没有起效,所以还是需要进行一个提前的摆拍,考验大家戏精本质的时候到了。

▲提示词:身穿牛仔夹克的男子被一只水豚撞倒

影视名场面+打破次元壁的图片

把原本不相关的人或物(包括你本人)放进影视名场面里,只是分分钟的事情。

《蝙蝠侠:黑暗骑士》里的小丑炸医院,是经典中的经典,我们截取几秒的片段,然后上传一张马斯克的半身照,让他走在小丑的旁边。

▲提示词:穿着西装的男人正走在穿着护士服的男人的左边,并与他进行交谈

两人淡定离开犯罪现场的味道有了,美中不足的是,马斯克和小丑的脸都有点扭曲。

Pika – AI 视频神器,一键乱入新场景

写实的电影之外,二次元的动画风格也不妨一试。名侦探柯南《神秘乘客》这集的公交车,基本集齐了最强阵容,如果挑选一张夜神月的侧脸图片,那么卡密也能来客串。

▲ 提示词:黄头发、穿白衬衫的男人坐在中间的座位上

但还是那个问题,人物的变形比较明显,并且画风不是非常相融。

表情包出处视频+表情包图片

二创表情包,是每个 AI 视频工具都得整的花活。

▲提示词:狗躺在猫的右边,猫看了狗一眼

当惊讶猫的视频和全世界最著名的柴犬表情包联动,二脸懵逼固然有趣,但一猫一狗仿佛不在一个图层,柴犬像用迪士尼滤镜美颜过。

当我第一眼看到宇树科技机器人的蛇年春晚节目《秧 BOT》,就觉得在英伟达年会穿着东北大花袄的黄仁勋应该加入,好在 Pika 可以满足这个朴素的愿望。

▲ 提示词:白发男子正在机器人旁边跳舞

还真别说,这甩红手绢的动作,这一板一眼的步伐,挺有默契的。

Pika 的特效称不上专业级,但作为一个创作短视频的玩具,倒也绰绰有余。

AI 视频百花齐放,各有各的特长,可灵综合能力强,海螺擅长风格化,PixVerse 速度快,和同行们比起来,Pika 可以说是最会整活和把创意模板化的一个了。

▲动图制作自:X@pika_labs

2 月 14 日情人节当天,Pika 又推出了一个新玩法——Pikamemes,目前可以在 iOS app 体验。

体验指路:https://pika.art/app-download

上传一张干净的人物自拍照或者一张宠物的大头照,不用写提示词,一键使用模板,Pikamemes 就可以生成表达各种心情的表情包,并且支持直接下载 gif 动图。

让马斯克送上玫瑰花,或者赏个白眼,都在一念之间。

再往前推,Pika 的多主体参考功能 Pikascenes,支持上传多张参考图片,并保持主体的一致性。集齐人物、商品、场景的照片,就能实现一键试衣了。

▲图片来自:X@martgent

Pika 的 AI 特效功能 Pikaffect,更是一度全网爆火,特别是其中的 AI 捏捏,刷屏小红书和 TikTok,推动 Pika 用户突破 1100 万。

▲图片来自:Pika

Pika 在模型能力之上卷玩法,切中了一群对整活短视频有高需求的用户,让人人都能低门槛地玩得开心。哪怕这些视频是模板化的,稍纵即逝的,但只要有趣,人们就会蜂拥而至。

同时,Pika 也告诉我们,写不好提示词、脑洞不够大、不知道怎么实现主体的一致性,都没关系,等等吧,很快就有包装好的 AI 特效和模板了。

当 AI 工具承载了更低的下限,那就意味着,只要有想法,每个人都可以将微观的创作欲望落地为现实。保持好奇,保持期待,一瞬间的起心动念,就足以让好玩的事情降临。

AI 推理模型和普通 LLM 大语言模型的分别与使用,提升效率与准确性,复杂任务高效完成

By: Anonymous
8 February 2025 at 14:17

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

了解何时使用推理模型,以及它们与 GPT 模型有何不同。

OpenAI 目前提供两大类模型:

这两种模型家族在使用和效果上都有所不同。本文将介绍:

与 GPT 模型相比,OpenAI 的 o 系列模型(推理模型)在不同类型的任务上更出色,需要使用不同的提示方式。并非哪一种模型一定「更好」,而是各有擅长的领域。

你可以根据需求,思考下列问题:

如果你的任务优先考虑速度与成本,并且任务本身相对明确、好定义,那么使用 GPT 模型就非常合适。
但如果你更注重准确度和可靠性,而且问题本身很复杂、有多个步骤,那么 O pen AI 建议选择 o 系列模型。

大多数情况下,你也可以把这两种模型结合起来使用:用 o 系列模型进行「智能规划和决策」,再让 GPT 模型去执行具体步骤。

AI 推理模型和普通 LLM 大语言模型的分别与使用,提升效率与准确性,复杂任务高效完成

示例:GPT-4o 和 GPT-4o mini 先处理订单信息与客户资料,找出订单问题和退货政策,然后将这些信息提供给 o3-mini,由它根据政策最终决定退货是否可行。

下面列出了一些实际场景,这些案例来自 OpenAI 的客户和 OpenAI 内部,希望能帮助大家更好地理解 o 系列模型(推理模型)适合用在哪些地方。不过,这并不是一个覆盖所有可能用例的完整清单,而是给出一些在测试中行之有效的思路。

准备好使用推理模型了吗?点击这里直达快速入门 →

推理模型特别擅长接收零散、有限的信息,然后根据简单提示去理解用户意图,并处理那些不够明确的指令。它们经常会先问一些澄清性的问题,而不是盲目猜测或随意填补空白。

「o1 的推理能力让 OpenAI 的多智能体平台 Matrix 在处理复杂文档时,能给出详尽且格式良好的回复。举个例子,o1 让 Matrix 可以轻松找出信用协议(Credit Agreement)中受限支付能力(restricted payments capacity)下可以使用的各种『篮子』(baskets),而只需要一个简单提示。过去没有任何模型能这么出色。相比于其他模型,在对密集的信用协议进行复杂提问时,o1 在 52% 的问题上有更好的表现。」

——Hebbia,为法律和金融提供 AI 知识平台

当你需要处理大量无结构信息时,推理模型能很有效地提炼出最相关的部分来回答问题。

「在分析某公司收购案时,o1 审阅了几十份公司文件,比如合同、租约等,去寻找可能影响交易的关键条件。它需要标记重要条款时,甚至在文件脚注中看到了一个非常关键的『变更控制』(change of control)条款:如果公司被出售,那需要立刻偿还 7500 万美元的贷款。o1 的极致细致能力帮助 OpenAI 的 AI 探索工具为金融专业人士找出交易中至关重要的信息。」

——Endex,AI 驱动的金融情报平台

OpenAI 发现,推理模型在处理数百页的复杂文件时(比如法律合同、财务报表或保险索赔等),能很好地分析文件内在逻辑并做出决策。它们擅长挖掘文档之间的对照关系,并据此推断其中暗含的规则。

「在税务研究里,需要同时对多份文件进行综合分析才能得出最终、连贯的结论。OpenAI 把 GPT-4o 换成 o1 后发现,o1 更善于整合多份文件之间的关系并推导出各自交叉影响,让最终的结论比单一文档中能看到的内容更有深度。OpenAI 因此看到终端到终端(end-to-end)性能提升了 4 倍,真的很令人惊讶。」

——Blue J,为税务研究提供 AI 平台

此外,推理模型也很擅长根据各种复杂政策和规则进行推理,并把这些规则应用到实际任务中,得出合理的结论。

「在做金融分析时,分析师常常要面对股东权益方面的复杂情境,还要理解相关法律的细微差别。OpenAI 曾用一个常见但比较棘手的问题来测试了市面上约 10 个模型:如果公司进行融资,对现有股东尤其行使『反摊薄保护』(anti-dilution)的那些股东会有什么影响?这个问题需要推理融资前后估值,还要处理环环相扣的『循环摊薄』,就算优秀的金融分析师也要花 20~30 分钟才能搞清楚。OpenAI 发现 o1 和 o3-mini 在这方面做得近乎完美!模型甚至能给出一张清晰的计算表格,展现对一个投资了 10 万美元的股东有何影响。」

——BlueFlame AI,为投资管理提供 AI 平台

推理模型在做多步骤的「自主」规划和战略制定方面发挥着关键作用。OpenAI 常看到的成功做法是先让推理模型扮演「策划者」,制定详细的多步骤解决方案,再根据每个步骤对「速度/智能」需求的不同,有选择地交给 GPT 模型或 o 系列模型去执行。

OpenAI 用 o1 来做多智能体系统(agent infrastructure)中的规划者,让它负责指挥其他模型完成多步骤的任务。OpenAI 发现,o1 非常擅长选择要用什么数据类型,也很擅长把大问题拆解成小块,让其他模型聚焦执行。」

——Argon AI,服务于制药行业的 AI 知识平台

「o1 为 OpenAI Lindy 的许多『代理式工作流』提供支持。Lindy 是一个工作助理 AI,能通过函数调用(function calling)去获取你的日历和邮件信息,然后自动帮你安排会议、发邮件、管理日常事务。OpenAI 把一些原本运行不稳定的多步骤流程全部切到 o1 上,结果代理的表现几乎是一夜之间就变得近乎完美!」

——Lindy.AI,一个专注于工作场景的 AI 助手

截至目前,o1 是唯一支持图像理解的推理模型。它与 GPT-4o 的最大区别在于:o1 能处理特别复杂的视觉信息,比如结构不明确的图表或清晰度不佳的照片。

OpenAI 为线上上架的数百万产品提供风险和合规审核,比如奢侈品仿制、濒危物种、管制品等。GPT-4o 在最难的图像分类任务中只能达到 50% 的准确率,而 o1 能做到 88%,OpenAI 甚至没有对流程做任何修改。」

——Safetykit,负责商家监控的 AI 平台

OpenAI 内部测试也发现:o1 能从复杂的建筑图纸中看出具体的材料和结构信息,进而生成更完整的材料清单。更惊喜的是,o1 还能跨页面匹配,比如先在图纸中的图例(legend)看到「PT」代表「压力处理木材」(pressure treated),然后在图纸的其他页面上正确应用这一概念,尽管并没有明确地告诉它需要这么做。

推理模型在代码审查和改进时也表现出色,往往可以在后台执行代码审阅任务,因为此类需求对延迟的容忍度更高。

OpenAIGitHub、GitLab 等平台上提供自动化的 AI 代码审阅服务。虽然代码审查过程对延迟不是特别敏感,但却需要理解多文件之间的代码差异。在这方面,o1 表现非常好,它能可靠地识别出对代码库做出的微小改动,而人类审阅者可能会漏掉。切换到 o 系列模型后,OpenAI 的产品转化率提升了 3 倍之多。」

——CodeRabbit,AI 代码审阅初创公司

GPT-4o 和 GPT-4o mini 因为延迟更低,也许更适合写代码,但对于那些不太敏感于执行速度的代码生成需求,o3-mini 有时也能带来更好的复杂性处理。

「o3-mini 写出的代码质量通常很高,而且往往能在明确的问题中得到正确解答,哪怕是非常具有挑战性的编码任务。其他模型也许只能应付小规模、快速的代码迭代,而 o3-mini 在构思、规划和实现复杂软件系统时表现更突出。」

——Codeium,提供 AI 驱动代码插件的初创公司

推理模型还经常被用于对其他模型的输出结果做评测和打分,特别是在需要数据验证的领域里(如医疗保健),保证数据集的质量和可靠性。传统的验证方法通常依赖预先定义的规则和模式,而像 o1 和 o3-mini 这样的高级模型,可以通过理解上下文和推理,对数据做更灵活智能的验证。

「不少客户在 Braintrust 的评测流程中使用了『模型做法官』的功能,比如某个医疗企业先用 GPT-4o 对患者问题进行概要提炼,再用 o1 来给这个概要的质量打分。结果发现,用 GPT-4o 做法官的 F1 分值只有 0.12,而用 o1 做法官,F1 分值达到了 0.74!对这些用户来说,o1 的推理能力在发现微妙差异和复杂场景的评分上表现极好。」

——Braintrust,AI 评估平台

这些模型最适合简洁、直接的提示。一些提示技巧(比如让模型「逐步思考」)不一定能提升性能,有时反而会降低效果。以下是一些提示技巧的最佳实践。

以上就是有关「推理模型」与 GPT 模型的区别、使用场景,以及给推理模型下指令时的一些最佳实践。希望这些指南能帮助你更好地发挥 o 系列和 GPT 系列模型在不同任务中的优势,实现更高效、更准确的 AI 解决方案。

AI 提示词,产品高级营销文案生成

By: Anonymous
22 January 2025 at 14:28

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

这可能是我写过的最有趣的几个 Prompt 之一。

第一,这是一条专门用来写高级感文案的 Prompt

它可以根据输入生成很有高级感的文案

还附带一张有设计感的卡片,用来把东西卖得很贵。

第二,这是一条出于实际营销需求诞生,卖了五位数的 Prompt,但是经过甲方同意得以开源。(感谢金主爸爸)

第三,是这条 Prompt 背后的 knowhow 非常有趣。有时候写一条有效的 Prompt 往往意味着透过现象看本质。

先上 Prompt,请使用 Claude 3.5 sonnet 或 OpenAI o1 以获得相同效果。下面是 Prompt:

效果案例 1(该案例致敬法国艺术家的作品「泉」):

输入:淘宝上下载的小便池图片

AI 提示词,产品高级营销文案生成

输出:

效果案例 2:高达手办(案例来自群友「@温州程序员劝退师」)

效果案例 3:面条(案例来自群友「温州程序员劝退师」)

效果案例 3:马桶搋子(案例来自群友「@温州程序员劝退师」)

效果案例 4:招财猫摆件(顶奢版本)(案例来自群友「@温州程序员劝退师」)

1.来自鲁迅《作文秘诀》

2.来自艺术大师陈丹青

该 Prompt 主要是为了赚钱而生,仅供赚钱与娱乐。

但是,鲁迅的作文秘诀的结尾还有两段话:

「写到这里,成了所讲的不但只是做古文的秘诀,而且是做骗人的古文的秘诀了。但我想,做白话文也没有什么大两样,因为它也可以夹些僻字,加上蒙胧或难懂,来施展那变戏法的障眼的手巾的。倘要反一调,就是白描。

「白描」却并没有秘诀。如果要说有,也不过是和障眼法反一调:有真意,去粉饰,少做作,勿卖弄而已。

祝大家玩得开心!

OpenAI 王炸 Sora 文转视频正式上线,新功能发布

By: Anonymous
4 December 2024 at 14:01

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

就在刚刚,OpenAI Sora 正式登场。

本次发布会延续了「短剧」的快节奏风格,全程 20 分钟左右,由 CEO Sam Altman、Sora 负责人 Bill Peebles 等人主持。

OpenAI 在 X 平台表示,自 2 月份以来,他们一直在构建 Sora Turbo,后者是一个速度明显更快的模型版本,今天也将其作为独立产品向 Plus 和 Pro 用户开放。

有趣的是,由于 Sora 热度太高,大批用户涌入体验网站,导致该网站一度崩溃,停止注册登录。不给力的服务也让 Altman 连连在 X 平台安抚用户:

「由于需求超出预期,我们将不得不间歇性地关闭新用户注册,并且生成内容的速度会在一段时间内减慢。我们正在全力以赴!」

附上体验地址:Sora.com

类似于 Midjourney 的网页界面,Sora 同样拥有自己单独的用户界面,用户用户不仅能够整理和浏览生成的视频,还能查看其他用户的提示和精选内容。

在 「Library」功能中,用户可以保存自己喜欢或有用的提示词,以便未来使用。并且保存的提示词可以按需查看或修改,对于需要重复创作相似内容的用户,无疑能大大提高效率。

在工作流方面,Sora 的编辑功能是区别于其它竞品的重要亮点。

比如说,在 Remix 功能中,用户可以利用纯自然语言提示词对视频进行编辑,并通过简单的「strength(强度)」选项和滑块来控制生成的变化程度。

Re-cut 功能则能智能识别最佳画面,并支持向任意方向延伸场景。

Sora 的 Storyboard(故事板)功能则类似于视频编辑器,可以将多个提示词串联在一起,生成一个更长的视频,轻松处理复杂的多步骤场景。

搭配 Loop 和 Blend 功能,用户还能创作出无缝循环的视频,并完美融合不同片段,而 Style presets 功能则可以预设和调整生成的风格。

在技术规格上,Sora 支持 5-20 秒的视频生成,并兼容 1:1、9:16 等主流宽高比。相比早期版本,现在的生成速度有了显著提升。

另外,还有几点细节需要注意。

OpenAI 采用了灵活的积分制定价策略,积分数量因分辨率和持续时间而异,如果你早已是 ChatGPT Plus 和 Pro 会员,那就无需额外费用就能使用。

比如生成一个 480p、5s 的视频就需要 25 个积分,如果生成 480p、20s 的视频则需要 150 个积分。

此外,如果你用 Re-cut、Remix、Blend 或者 Loop 这些功能,生成的作品超过了 5 秒钟,那也得额外扣你的积分,多用多花钱,别超时,超时也花钱。

对于订阅用户而言,20 美元的 ChatGPT Plus 计划提供 50 个优先视频额度(1000 积分),支持最高 720p 分辨率和 5 秒时长。

而 200 美元的 ChatGPT Pro 计划则提供最多 500 个优先视频(10000 个积分),支持 1080p 分辨率、20 秒时长、5 个并发生成和无水印输出。

OpenAI 还在为不同类型的用户开发不同的定价模式,将于明年初推出。

对了,Sora 暂不支持 ChatGPT Team、Enterprise 和 Edu 版本,同时也不向 18 岁以下用户开放。现阶段,用户可以在所有 ChatGPT 可用的地方访问 Sora,但英国、瑞士和欧盟等地区除外。

知名博主 Marques Brownlee 提前一周用上了 Sora,并在 YouTube 上分享了他的使用体验。

他指出这款产品仍存在一些局限性。

在物理模拟方面,模型对物体运动的理解还不够深入,常常出现动作不自然、物体突然消失等问题。特别是在处理带有腿部运动的对象时,经常出现前后腿位置混乱的情况,导致动作看起来不自然。

又或者,某些视频生成结果看起来像是慢动作,而视频的其他部分则以正常速度播放,肉眼很容易察觉这种「别扭」。简言之,Sora 还是没能解决老毛病,缺乏对物理世界规律的理解。

另外,Sora 没能解决文字生成的问题,导致经常出现文字混乱的现象,而剪辑风格、文字滚动条的运动、新闻主播风格的生成则格外逼真。

不过,Sora 也有不少擅长的场景。

比如说,Sora 在风景镜头处理方面表现出色,能生成媲美专业素材的无人机航拍镜头,在卡通和定格动画风格上的表现也差强人意。

性能方面,一个 5 秒的 360p 视频通常能在 20 秒内完成生成。

不过,当涉及 1080p 或复杂提示词时,生成时间可能会延长到几分钟,但随着如今大批用户的涌入,生成速度明显慢了大半拍。

不少网友也在第一时间上手体验了 Sora。比如网友 @bennash 想生成一个视频,渲染了 22 分钟都没能成功,甚至该网站一度停止注册登录。

博主 @nickfloats 给出的评价是,Sora 在将图像转换成视频时,虽然某些特定的视觉特效没有被保留,但整体的转换效果是「清晰和令人满意的」。

Sora system card 也列出了一些值得关注的细节。

OpenAI 官方认为,Sora 为能够理解和模拟现实世界的模型提供了基础,将是实现通用人工智能(AGI)的一项重要里程碑。

官方博客中提到,Sora 是一种扩散模型,它通过从一段看起来像静态噪声的基础视频开始,逐步去除噪声并转变为最终的视频。通过同时处理多个帧,模型成功解决了一个难题:即使目标暂时脱离视野,也能确保其在视频中始终保持一致。

与 GPT 模型类似,Sora 采用了 Transformer 架构。

Sora 使用 DALL·E 3 中的标注技术,该技术为视觉训练数据生成高度描述性的标签。因此,模型能够更准确地根据用户的文本指令生成视频内容。

除了能够仅通过文本指令生成视频外,Sora 还能够从现有的静态图像生成视频,准确地将图像内容进行动画化,并注重细节。该模型还可以从现有的视频中扩展或填补缺失的帧。

为了确保安全地部署 Sora,OpenAI 基于 DALL·E 在 ChatGPT 和 API 部署中的安全经验,以及 OpenAI 其他产品(如 ChatGPT)的安全防护措施进行了强化。

所有 Sora 生成的视频都带有 C2PA 元数据,这些元数据能够标识视频的来源是 Sora,从而提高透明度,并可用于验证其来源。

与此前凭借真实人像出圈的 Flux 不同,Sora 们对上传包含人物的内容设定了特别严格的审核标准,目前仅作为试点功能提供给少量早期测试者,并屏蔽含有裸露的内容。

OpenAI 王炸 Sora 文转视频正式上线,新功能发布

大半年前,初试啼声的 Sora 赢得互联网一片喝彩。

然而,如果说一年前尚未还能对着一群演示 demo 空喊「现实不存在了」,那么在国内外各类视频模型的轮番洗礼之下,我们早已养刁的胃口很难再被同样的产品打动。

这种态度的转变源于一个简单的事实。

当 AI 要从「勉强可用」进化到「可堪大用」,用户的期待也随之升维,从「能否做到」跃迁至「做得多好」。

好在 Sora 并未在掌声中原地踏步,通过与艺术家的深度合作,他们在工作流程领域做出了显著的改进。Re-cut、Remix、Storyboard 等功能都相当实用。

甲乙方的存在决定了工作流中的沟通永远是刚需,AI 能做的是让这种沟通更有效率,Sora 的价值不在于它能做什么,而在于让创作者得以抽身于技术细节,真正回归创意的本质。

与此同时,上周引发热议的 200 美元 ChatGPT Pro 订阅计划,如今也有了更合理的价格锚点,该计划同样支持无限制访问 Sora,这种产品协同效应预计也将激发出远超预期的应用场景和商业价值。

放眼当下,用户的真金白银从不作假。

可灵 AI 交出千万级月流水的亮眼成绩单,这片蓝海的潜力已呼之欲出,对于仍在「烧钱」阶段的 OpenAI 来说,Sora 预计会成为继 ChatGPT 之后的另一个下金蛋的母鸡。

当 Sora 从「能用」「好用」,再到「妙用」,或许未来某一天,我们会发现,真正不存在的,不是现实,而是人类创造力的尽头。

❌
❌