Normal view

There are new articles available, click to refresh the page.
Yesterday — 8 October 2025Main stream

OpenAI 的 GPT 模型现在会展示“思考过程”吗?

By: Tilie
8 October 2025 at 20:40
Tilie: 我最近在 OpenRouter 的 API 上测试时,发现有的模型会展示类似“深度思考/思维链”的内容。

想请教:OpenAI 官方的产品( ChatGPT Plus 、官方 API )现在是否也会展示这类思考过程?

我之前在 Poe 上使用时,从不展示思考内容;用 poe API 调用也没有展示。

如果 openai 默认不展示,是不是说明 OpenRouter 上的某些模型来自其他厂商,或者做了特殊设置才会显示“思考过程”?

OpenAI封禁涉嫌与中国政府有关联的账户

8 October 2025 at 09:47

美国人工智能公司OpenAI星期二(10月7日)称,在部分用户要求生成监控社交媒体对话的方案后,已封禁了几个涉嫌与中国政府机构有关联的ChatGPT账户。

据路透社报道,OpenAI在最新的公共威胁报告中说,一些用户要求聊天机器人概述社交媒体“监听”(listening)工具和其他监控概念,这违反了公司的国家安全政策。

在美中围绕人工智能技术发展和规则制定展开日益激烈的竞争之际,OpenAI在报告中提出了对生成式人工智能可能被滥用的安全担忧。

OpenAI称,它还禁止了几个使用ChatGPT协助实施网络钓鱼和传播恶意软件的中文账户,这些账户也要求模型研究如何通过中国的DeepSeek实现更多自动化。

OpenAI目前每周拥有超过8亿名ChatGPT用户。

Before yesterdayMain stream

刚刚,OpenAI 宣布打造 「ChatGPT 操作系统」,8 亿用户将迎来全新体验

By: 莫崇宇
7 October 2025 at 11:25

2023 年,OpenAI 只有 200 万周活开发者、1 亿周活用户。

两年后,在 OpenAI 刚刚召开的 Dev Day 上,CEO Sam Altman 在会上透露:如今已有 400 万名开发者在使用 OpenAI 构建产品,超 8 亿人每周用 ChatGPT,API 每分钟处理 60 亿 tokens。

多亏了大家,AI 已经从人们拿来玩的东西,变成了人们每天都在用来创造的工具。

就冲这增长速度,可以说是赢麻了。

而且就在上周,OpenAI 通过一笔 66 亿美元的股权交易,公司估值直接冲到了 5000 亿美元,超过了马斯克的 SpaceX,成为全球估值最高的初创企业。

DevDay 划重点:

  • ChatGPT 变超级 App:对话中直接调用第三方应用,AI 主动推荐工具,支持应用内交易变现。
  • AgentKit 工具包上线:可视化拖拽搭建多 Agent 工作流,几分钟完成从开发到部署的全流程。
  • Codex 全面开放:自然语言实时写代码,支持语音控制和 Slack 集成,自动审核 PR 提升团队效率 70%。
  • 模型 API 大升级:最强 GPT-5 Pro 开放 API、语音成本降 70%、Sora 2 支持产品内视频生成和精细控制。

ChatGPT 里直接装 App 了

今天,OpenAI 扔出个重磅炸弹——ChatGPT 现在可以直接调用第三方应用了。

X过去你可能得专门下载 App;现在只需一句话,Spotify、Canva 等应用就能在对话中自动唤起,还能提供可直接操作的交互界面。
如果你已经订阅了某个外部服务,还能在 ChatGPT 里直接登录账户,无缝衔接。

从今天起,除了欧盟地区,所有登录用户都能用,覆盖 Free、Go、Plus 和 Pro 计划。首批试点合作伙伴阵容相当豪华:Booking.com、Canva、Coursera、Figma、Expedia、Spotify、Zillow 等一众大厂。

现场演示环节更是精彩。

OpenAI 员工打开 ChatGPT,直接让 Canva 给一家遛狗服务公司设计宣传海报。几秒钟后,Canva 就给出了好几种设计方案。

然后这哥们又请求基于海报内容生成一份商业展示 PPT——这一套组合拳下来,丝滑得不行。

接着,他又通过 ChatGPT 调用了 Zillow,让它展示匹兹堡地区的待售房屋。Zillow 瞬间生成了一张可交互地图,用户还能进一步提问了解更多细节。

更智能的是,当 ChatGPT 觉得某个应用能帮到你时,它还会主动推荐。

比如你说「帮我做个派对播放列表」,它可能直接唤起 Spotify 来协助——这波操作,属实有点东西。

这一切的背后,是全新发布的 Apps SDK(应用开发套件)。开发者现在可以使用 Apps SDK 预览版开始构建自己的 ChatGPT 应用。

值得一提的是,Apps SDK 构建在 Model Context Protocol(MCP)之上——这是个开放标准,允许开发者把外部数据源连接到 AI 系统,同时也意味着用这个标准构建的应用能在任何兼容平台上跑。

正如 iOS 提供操作系统,App Store 负责分发变现,最后组成移动互联网生态。现在 ChatGPT 就是操作系统,Apps SDK 是开发工具,8 亿用户是生态基础。说白了,就是 ChatGPT 要变成超级 App 了。

此外,今年晚些时候,OpenAI 还将开启应用提交流程,推出专属应用目录,并公布变现机制——包括支持全新的 Agentic Commerce Protocol,能在 ChatGPT 内实现即时结账与交易。

AgentKit 登场,造 Agent 从此不愁

今天 OpenAI 正式推出 AgentKit——一整套专为开发者和企业打造的完整工具。

在此之前,构建 Agent 简直是个噩梦:复杂的流程编排、自定义连接器、手动评估、上线前还要花好几周开发前端。现在有了 AgentKit,包括三大核心组件:

  • Agent Builder:用于创建和管理多 Agent 工作流版本的可视化画布
  • Connector Registry:管理员集中管理数据与工具互通的中心
  • ChatKit:能将可定制的聊天式 Agent 体验嵌入产品的工具包

具体来说,Agent Builder 提供可视化画布,支持通过拖拽节点来编排逻辑、连接工具,并配置自定义安全规则。支持预览运行、内嵌评估设置以及完整版本控制。

发布会上,Altman 也将这个功能比作「用于构建智能 Agent 的 Canva」。

OpenAI 还推出 Connector Registry(连接器注册中心),让开发者能够通过 管理员控制面板 安全地将 Agent 连接至
内部工具或第三方系统,同时确保数据安全与访问控制。

ChatKit 则让开发者轻松将基于聊天的智能 Agent 嵌入自己的产品中,无论是应用还是网站,都能根据品牌主题深度定制。合作示例包括 Canva、LegalOn、HubSpot。

去年 OpenAI 推出了 Evals,帮开发者测试提示词并衡量模型行,今年则新增了四项强大能力:数据集、追踪评分、自动提示词优化、第三方模型支持。

此外,强化微调(RFT)让开发者能定制 OpenAI 的推理模型。目前 RFT 已在 GPT-5-mini 上全面开放,并在 GPT-5 上以私测形式提供,还引入了自定义工具调用和自定义评分器两项新功能。

仅用时 7 分 11 秒,OpenAI 员工就为 Dev Day 网站从零搭建了 AI 助手。通过可视化方式添加分类 Agent 、路由节点、Sessions Agent 处理会议日程、Dev Day Agent 处理通用查询,还加了 PII 防护。

搭建完成后,当用户在 Agent Builder 中提出了「应该参加什么会议来了解构建 Agent?」这个问题。系统自动执行完整流程:检查 guardrail、分类意图、从文档提取信息、使用 Widget 展示,最终推荐合适的相关会议。

确认工作流正常后,她将其命名为「Ask Frog」并发布获得 Workflow ID。

然后在 Dev Day 网站代码中使用 Chat Kit React 组件集成了这个代理,配置了 Frog 主题的颜色、占位符和启动提示,添加了底部滑出式聊天界面,并在网站顶部放置」Ask Frog”链接,且所有参会者立即可用。

这一波流程下来,丝滑得不能再丝滑。

OpenAI 正式开放 Codex,动动嘴就能让 AI 写代码

自 8 月初以来,Codex 的日活跃使用量增长了 10 倍以上,GPT-5-Codex 在发布后三周内已处理超过 40 万亿 tokens。

发布会上提到,在 OpenAI 内部,如今几乎所有工程师都在用 Codex。团队每周合并的 Pull Request 数量增加了 70%,而 Codex 几乎会自动审查所有 PR。

今天,OpenAI 正式宣布 Codex 全面开放使用,同时带来三项全新功能:

  • 全新 Slack 集成:在团队频道或线程中直接向 Codex 委派任务或提问
  • Codex SDK:将驱动 Codex CLI 的同款智能 Agent 嵌入自己的工作流
  • 全新管理员工具:更直观查看和管理 Codex 的大规模使用情况

借助 Codex SDK,你只需几行代码,就能将同款 Agent 引入自己的工程工作流或应用中。目前 SDK 已支持 TypeScript,未来将支持更多语言。

从今天起,Slack 集成和 Codex SDK 对 ChatGPT Plus、Pro、Business、Edu、Enterprise 计划用户开放。

OpenAI 员工在舞台上现场构建完整的摄像头控制系统,包括构建 Node 服务器、编写所有 UDP 数据包处理逻辑,甚至成功实现用 Xbox 手柄控制了摄像头的任务,以及还能通过与 AI 对话控制摄像机和会场灯光。

最后,演示者还不忘展示 Codex SDK 的实时编程能力,用语音请求 AI 调用 Codex 实时修改 React 应用代码,展示电影式的滚动字幕效果。而整个演示过程没有手写一行代码,仅靠自然语言完成。

模型和 API 全面更新,这波真香

GPT-5 Pro 正式向所有开发者开放 API 访问。

这是 OpenAI 迄今发布过的最智能模型,特别适合处理需要高准确性和深度推理的困难任务,应用领域涵盖金融、法律、医疗等专业领域。

语音方面,OpenAI 还发布了 gpt-realtime-mini,价格降低了 70%,但保持相同的语音质量和表现力。

Sam Altman 特别强调,语音将成为人们与 AI 交互的主要方式之一。

更值得关注的是,Sora 2 的 API 预览版已经正式发布,开发者现在可以直接在自己的产品内生成高质量视频。

Sora 2 的 API 使用非常灵活,开发者可以控制视频长度、宽高比、分辨率,轻松混剪视频,并且所有视频都配有完整的逼真同步音效。

在发布会的尾声,Sam Altman 在总结时强调,软件开发已经从过去需要几个月或几年的漫长周期缩短到现在只需几分钟就能完成。
开发者不再需要庞大团队,只需要一个好想法就能快速将其变为现实。

整场发布会展示的从 Apps SDK 到 AgentKit 再到 Codex 的完整工具链,都建立在这些强大的模型 API 基础之上。

不得不说,这场 Dev Day 信息量是真的大。

OpenAI 这波更新几乎覆盖了开发者关心的所有领域——从应用生态到 Agent 工具,从代码助手到视频生成,一个不落。

高端的产品发布会,往往就是这么朴实无华。

最后,你觉得哪个功能最实用,欢迎在评论区说出你的看法。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


玩了半天 Sora APP,我发现了这些比抖音「上头」的新玩法

By: Selina
1 October 2025 at 20:30

国庆前一天,模型厂商们纷纷更新。国庆第一天,真正能「玩」的 AI 产品来了——这才对嘛,谁要搞编程,放假不就是为了玩!

APPSO 连夜搞到邀请码,先替大家来这个「只有 AI」的世界体验和实测了一下。有点意外:Sora 2 并不是一个 AI 视频平台。

Sora 2 给我整哪儿来了?怎么全是奥特曼

首先,目前由于是邀请制状态,且只有 iOS 版,导致用户暂时不太多,再加上一些版权限制,发挥非常受限制——以至于广场上全是 Sam Altman。

Sam 做机器人。

Sam 在做发廊模特。

Sam 在派邀请码。

Sam 在公园陪老大爷下棋。

Sam 在滑雪(有一说一,这个人体运动的生成效果真是蛮好,完全看不出来是生成,你说只是换脸我也信。)

Sam 累了。

好好好,对这种行为,我只能说——带上我。

用 Sam Altman 跑视频实在是太简单了:选择 @Sam Altman 官方账号当「主角」,接着描述你想生成的视频内容就行。

Altman 曾在 X 平台吐槽过,由于算力不够,「OpenAI GPU 快融化」了。于是我们让他跑到英伟达公司门口高喊:「我的 GPU 快融化了!」

(视频)

视频里一致性保持得非常不错。当然了,要是仔仔细细看,也不是没有缺点。比如虽然音画同步做得不错,但细看就会发现,喘气的声音和口型并没有完全对上,离真正的「无破绽」还有不少距离。不过,已经足够说 Sora 2 的视频生成能力达到了令人惊叹的水平,显然是在模型层面能力有大幅度的提高。

语音能力也整合进来了,我们在测试中发现,Sora 2 的中文能力表现得「不违和」,这在以往大多数视频生成工具中是比较少见的。无论是发音本身的质量、音色,还是整个说话的语速和语调,它都能够非常精准地符合 Prompt 中所提出的要求。

(视频)

在介绍长城的视频里,它的情绪和语调是符合介绍和解说这个场景的。而在其他一些吐槽或整活的视频中,它也能准确拿捏到人物在特定情境下说话的语气状态。这种对中文情感和语境的精确把握,让生成视频的细节品质和沉浸感有了质的飞跃。

AI 视频,没有基本法了

比较令人震惊的一点是:没有抽卡。

这可能是 Sora 2 最重要的亮点,真-不再需要「抽卡」。在生成视频时,用户只需输入几行简洁的 Prompt,即可得到成片。

这个话我们当然也说得很多,尤其是在测评各种视频生成工具时。但是,过去视频生成工具的「简单」是相对于传统剪辑流程的「简化」。

而 Sora 2 的「简单」,是基于它的社交形态的,重点在于极高的可控性和确定性,就像是你在朋友圈、小红书上发布照片的操作。

不抽卡在今天,多少有点违逆 AI 世界的基本法,关键是质量竟然都很好。明摆着是 OpenAI 的究极自信:不需要抽一堆选个好的,我给你的,就是好的。

另外还得强调一下,Sora 2 的底层逻辑不是视频生成,而是社交媒体。它在这个层面做了很多不错的小设计——更重要的是,灵感来自于社交媒体,但又不止于社交媒体

首先上下滑动切换这个大家都很熟悉了,但跟抖音不同的地方是,它有一个特殊的横滑设计。

这个 Rick & Morty 的视频里有好几个不同的二创,台词,人物,画幅都有所改变。来自不同的用户,但是统一到了一个横向里。

相比之下,抖音横向滑动是切进不同的栏目、商城,或者用户的主页。这种意义下的横滑,是强调内容消费。

但 Sora 2 的横滑,更像是为了让不同用户基于同一套模版,能更方便去做自己的二创。用户看到喜欢的模板或效果时,可以立即获取对应的 prompt 或模型进行再创造,形成一个持续的灵感循环,有效延长用户停留和尝试时间——这种意义下,是鼓励创作。

放心,未来不会是一个只有 AI 的世界

Sora 2 在整个产品哲学上,也展现了「半人半 AI」的想法。

强调或标榜「纯 AI」不是一件新鲜事儿,之前有很多应用都做过这样的尝试。要么是全都是 chatbot 跑出来的推特,或者全都是数字人的 Instagram。

 

Sora 2 并不是要走这个路线,而是要稳住人的存在感。

比如,上传图片、输入 prompt,然后——重点来了——at 一个用户,来生成视频。

这表明 AI 生成的内容只是一个「桥梁」或「催化剂」。生成的视频是「击鼓传花」里面的「花」,而用户这个「人」才是那个真正的「敲鼓者」。

这种「真人优先」的倾向,在平台的一些关键功能中也得到了体现,比如 Cameo,它会拒绝非真人用户的生成请求。

这里,我们尝试了用小八试图越狱,是无法通过的。这是一个非常强烈的信号:平台不希望内容完全虚拟化,至少账号本身不能是虚拟的,它希望真人参与进来,将现实的社交身份和数字创作紧密融合。

总体来说,Sora 2 的企图,并不是为了在技术上比较谁生成的视频「最像电影」或者「质量最好」。 它的核心追求是「大家来玩」,而且「很多人来玩」,并能够「跟朋友们一起玩」

通过高确定性的生成体验,以及鼓励接力和真人参与的社交设计,Sora 2 将 AI 视频生成从一个高冷的「技术工具」,变成了一个大众娱乐和社交表达的新阵地。

这种设计理念预示着,未来生成式内容平台的价值重心,将从单纯的 AI 炫技转向激发人类创造力和构建社群连接。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 发布 Sora 2!AI 视频 GPT-3.5 时刻来了,还有一个 AI 版抖音| 附下载链接

By: 李超凡
1 October 2025 at 08:15

国庆长假的第一天,OpenAI 直接扔出了一颗真「核弹」:Sora 2 ,以及一个可能重塑社交格局的新应用——Sora。

如果说一年多前的 Sora 让我们看到了 AI 视频的黎明,那么 Sora 2 就直接把我们拽进了正午的太阳底下,刺眼、灼热,又无比真实。

这次不再只有技术演示,而是直接为此开发了一款新 app 给 C 端用户体验。

OpenAI 也极为罕见地,直接把 Sora 2 称为 AI 视频生成的「GPT-3.5 时刻」

看完 Sora 2 的发布和体验,我发现 OpenAI 这次的自信是真有底气,不是奥特曼式的自吹自擂。

关于真实的定义被推到了必须重新讨论的时刻。一个全新的物种,一个崭新的时代,开始了。

奥特曼刚刚也发了长文,认为这是「创意领域的 ChatGPT」时刻,创意将迎来「寒武纪爆发」。

APPSO 第一时间给大家全面总结了 Sora 2 和 Sora app 的核心功能和新玩法,以及使用方式。

Sora 2 :
1. 首次实现音视频同步生成:生成画面的同时生成与之匹配的环境音、物体交互声,甚至是符合语境的对话
2. 强得可怕的物理精确性:能够进行与真实世界动力学更一致的物理仿真。
3. 真实感大幅提升:在图像分辨率、细节程度和真实感方面都有所提升。
4. 能更灵活地适应用户想要的风格,风格操控能力增强。
5. 一致性更强,对用户指令的遵循的比之前的模型有所提高。

Sora app
1. 客串 (Cameo): Sora app 最大亮点,用户可以将自己或朋友以逼真的效果融入任何 AI 生成的场景中。
2. Remix:用户可以对彼此创作的视频进行「混编」或二次创作,共同创作。

怎么用
1. Sora app下载链接🔗 (目前只有 iOS 没有安卓)
https://apps.apple.com/us/app/sora-by-openai/id6744034028

2. 网页版🔗 sora.com

3. 地区支持:今天起在美国、加拿大首发,其他国家和地区将逐步开放

4. 邀请码机制:无论是 iOS 应用还是网页版都需要邀请码才能使用 。现在就可以去下载 App 或访问网站注册排队。

5. 价格:Sora 2 初期将免费提供,并有相对宽松的使用限制ChatGPT Pro 用户还能在网页版抢先体验更高质量的 Sora 2 Pro 模型

6. OpenAI 也将会发布 API,让更多开发者加入。

Sora 2 :不再是在「生成」,而是在「模拟世界」

Sora 2 的核心突破,是它从一个「视频生成器」,进化为一个「世界模拟器 」。

理解物理世界,一直的 AI 视频最大的难点。以前的 AI 视频,物体经常会奇怪地穿模、漂浮正是源于无法准确理解物理世界的交互。

在 Sora 2 的视频里,体操的动作,原地连续后空翻、跳水等等这些动作都很自然符合力学,水花溅起的样子也符合流体力学。

OpenAI 的终极目标是构建「通用世界模拟器」(general-purpose world simulator),即让 AI 理解我们世界的物理规则 。

Sora 2 就是其中的关键一步。你可以把它想象成一个在虚拟世界里不断做物理实验的学生,通过观察无数视频,它正在自己总结牛顿定律、流体力学和光学原理。

对于任何有用的世界模拟器来说,这是一项极其重要的能力——你必须能够模拟失败,而不仅仅是成功。

这种对现实世界复杂性的模拟,才是 Sora 2 最可怕的进化。

Sora 2 的另一个重大突破,是在生成画面的同时,还能同步生成与之匹配的环境音、物体交互声,甚至是符合语境的对话 。

虽然 AI 视频和音频现在都很强,但「声画一体」带来的真实感完全不同,这让 AI 视频真正拥有了「灵魂」。

这对模型的要求极高,比如 AI 生成「一只猫在键盘上走过,发出不满的喵喵声」。模型得知道「猫长什么样」,也学习了「猫的叫声是怎样的」,并将这两者牢牢绑定。还要理解了「敲击键盘」这个动作,才会「咔哒」声。

Sora 在可控性方面也有了巨大飞跃,能够遵循跨多个镜头的复杂指令,同时准确地保持世界状态,比较擅长写实、电影和动漫风格。

Sora App:打造你的 AI 「人生」

Sora App 直接支持 Sora 2 模型生成,里头最好玩的应该就是「客串 (Cameo)」,你只需在录制一段简短的视频和音频(用于活体验证和形象捕捉),你就可以把自己「投放」到任何 AI 生成的场景里。

上一秒你还在办公室,下一秒你就可以出现在《沙丘》的沙漠星球上,仰望双月,Sora 还会根据沙漠的光线,给你脸上加上逼真的光影 。

是不是有点视频版 nano banana 那味了

整个过程就像拍个自拍视频一样简单。Sora 会捕捉你的形象、声音和神态,然后你就可以在生成视频时,像选择一个贴纸一样,把自己「贴」进去,而且是 3D、无缝、高度逼真的那种 。

OpenAI 内部员工已经因为这个功能在公司交到了新朋友 。

你可以和朋友们一起「客串」到同一个场景里,上演一出属于你们的科幻大片。这是一种全新的交流方式,从文字、表情包、语音,进化到了「共同体验」的视频媒介 。

在 Sora App 的信息流里,你看到的每一个视频都是 AI 生成的。

如果看到一个喜欢的视频,直接点击「Remix」,你可以修改提示词,把「赛博朋克雨夜」改成「阳光明媚的午后」,或者用「客串」功能把自己加进去,变成故事的主角 。

Sora 会保留原视频的结构或风格,让你在它的基础上进行修改和再创作,就像转发微博再加一句评论一样简单。

当然,这些功能不可避免地会引发对于隐私和侵权问题的担忧。

Sora 也对此做了应对措施,只有用户本人可以决定谁能使用自己的「客串」形象,用户可以随时撤销访问权限,或删除任何包含自己形象的视频,即使是他人创建未发布的草稿也不例外。

OpenAI 表示,包含电影或视频中真实人物影像的上传在初期将被禁止或受到严格监管,而涉及儿童的内容将有严格过滤:含有儿童的场景将实施严格的审查门槛。

现实,这次真不存在了?

Sora 2 和 Sora App 带来的,远不止是好玩,它正在从根本上动摇我们对「真实」的定义。

Sora 2 的发布,或许标志着我们与现实的关系将进入一个新的纪元。我们每个人都获得了重塑世界、重塑自我的「魔法」。

现在,我们可能不是主动选择逃离现实,而是「现实」本身正在失去其作为我们生活参照系的核心地位。

Sora App 通过提供极致的创造乐趣和社交连接,正在构建一个引力极其强大的新现实中心 。它并非在你的现实生活之外提供一个「虚拟分身」,而是在试图成为你生活的「默认背景」。

当你的社交关系(和朋友在 AI 世界冒险 )、身份认同(在虚拟世界里成为超级英雄)、创意表达(Remix 全世界 )都优先发生在这个平台之上时,那个需要你偶尔「登出」才能回去处理水电费账单的物理世界,反而会沦为一个偶尔才需要访问的「副本」。

这属实就是《头号玩家》了,所以说 OpenAI 的尽头是元宇宙?小扎默默点了个赞。

OpenAI 自己也坦言,他们曾对纯 AI 生成信息流持怀疑态度,但最终被其带来的人际连接感所惊喜 。

奥特曼在最新的博客中直言,AI 视频生成可能会走向堕落,最终导致我们都被吸入一个经过强化学习优化的「垃圾信息流」。

他表示 Open AI 试图找出如何打造一款既能带来愉悦又不落入这种陷阱的产品。

Sora 这个app,就是他们交出的第一份答卷。在通往 AGI 的路上,收获的不应该只是生产力,也关乎创造力和快乐 。

欢迎来到这个由想象力驱动的新世界。现在,唯一的问题是,你拿到邀请码了吗?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


曝 OpenAI 将推出「AI 抖音」:禁止上传实拍内容,Sora 2 加持

By: 张子豪
30 September 2025 at 16:03

这两天的 AI 圈,更新速度快得让人喘不过气,哪是要让人放假的样子。

昨天 DeepSeek 更新了 V3.2-Exp 模型,Anthropic 凌晨就紧跟着发布了性能更强的 Claude 4.5。

正当大家都在爆料牌桌上的其他巨头何时出手时,行业领头羊 OpenAI 的「王炸」似乎已经提前被剧透了,那就是 Sora 2。

▲ 视频链接:https://x.com/OpenAI/status/1972416122613014556

最近,OpenAI 不仅在 X 平台连发多条神秘视频,引爆社区对 Sora 2 的猜想。

一则来自《连线》杂志的重磅爆料更是指出:OpenAI 的下一步棋,并非简单升级一个模型,而是要亲自下场,推出一个独立的 AI 视频社交 App,一个酷似抖音,但内容 100% 由 AI 生成的全新平台。

奥特曼曾经发 X 说,未来几周,OpenAI 将推出一些新的计算密集型产品,且最初只会向 Pro 用户开放。而需要大量算力的,不正是视频生成吗?目前 Sora 也仅面向 Plus 和 Pro 用户,传闻已久的 Sora 2 真的要发布了。

▲ https://x.com/sama/status/1969835407421374910

AI 视频也要迎来它的「吉卜力」时刻了。

揭秘「Sora 2 App」:一个怎样的 AI 抖音?

从目前曝光的信息来看,OpenAI 正在测试一款名为 Sora 2 的短视频应用,乍看之下,它就是一个 AI 版抖音。但最颠覆的一点是,在这个平台上,我们看不到任何真实拍摄的内容。

▲ TikTok 应用截图

它的界面和交互,与我们熟悉的短视频 App 几乎一模一样。采用竖屏信息流,和滑动切换的导航方式的视频源,并由推荐算法为我们提供「为你推荐」的内容。

在视频的右侧下方,同样提供了点赞、评论等互动选项,甚至还有一个独特的「Remix」(再创作)功能。

▲ OpenAI 去年 12 月正式推出了 Sora,很快被整合到 ChatGPT 应用中,图为 Sora 网页版截图。OpenAI 指出它存在一些局限性,例如似乎并不完全理解物理学,在制作逼真的动作场景时尤其困难,尤其是在较长的片段中。目前,1080p 超高清分辨率仅支持生成 10s。地址:sora.chatgpt.com

根据文件显示,用户只能使用 OpenAI 的下一代视频模型 Sora 2,生成最长 10 秒的视频片段。并且,App 不提供任何从手机相册或其他应用上传照片或视频的选项。这意味着,这个平台将成为全球首个内容 100% 由 AI 生成的短视频社区。

用数字分身来做社交

如果说纯 AI 生成内容还只是概念上的不同,OpenAI 还要为这个短视频 APP 引入社交的功能。

Sora 2 应用具有身份验证的功能,即允许用户确认自己的「肖像」(likeness)。一旦验证通过,就可以在生成的视频中,使用自己的形象。

更有趣的是,社交的边界被进一步打破。你的朋友也可以在他们的视频里标记你,使用你的「数字分身」。

▲ AI 图片视频生成平台即梦,也提供了数字人生成。

举个例子,我们可以直接使用别人的数字分身,生成一个视频,内容是「你和朋友在从没去过的主题公园,一起坐过山车」。

为了保护用户隐私,数字分生这项功能,也设置了提醒机制。每当你的形象被他人使用时,无论对方是公开发布,还是仅仅保存在草稿中且从未发布,你都会收到通知。

这款应用上周已经在 OpenAI 内部发布,并收到了员工压倒性的积极反馈。据连线杂志的消息,员工们使用得非常频繁,以至于一些管理者开玩笑说,这可能会影响生产力。可能真的跟刷抖音一样会上瘾?

为什么 OpenAI 要亲自下场做社交?

答案或许和 ChatGPT 的成功路径如出一辙。

OpenAI 似乎在押注,Sora 2 这个 AI 版抖音,能让我们与 AI 视频的互动方式发生根本性改变,就像 ChatGPT 让大众第一次真正体验到 AI 文本的潜力一样。

▲ 社交榜和娱乐榜第一名分别是 Meta 的 Thread 和 TikTok

当然,也不是只有 OpenAI 想到了 AI 视频社交这条路,就在上周,Meta 在它们的 AI 应用中,推出了名为「Vibes」的新功能。这是一个 AI 生成短视频的新平台,集创作、分享与社交功能于一体。

用户可通过浏览、创作、或二次创作(Remix)来生成自己的 AI 视频,并将视频快速分享到 Vibes、Instagram、Facebook 等 Meta 社交平台。

▲ Vibes 视频生成界面截图

Google 也早已宣布,计划将自己最新的视频生成模型 Veo 3 整合到 YouTube 中。一个是坐拥最大的社交网络平台,一个是最大的视频分享平台,OpenAI 的 AI 视频社交之路看起来,也并非一片坦途。

从一个聊天机器人,到一个可能的内容社交平台,OpenAI 的野心,在于建造下一代的互联网入口,而这个入口,完全由 AI 驱动。

这种野心并非空谈,就在今天,OpenAI 推出了其商业化布局中最重要的一步棋,在 ChatGPT 内直接购物。

用户现在可以在与 ChatGPT 的对话中,直接购买来自 Etsy 甚至 Shopify 商家的商品。当我们跟 ChatGPT 聊天,问到「适合送给陶瓷爱好者的礼物」时,ChatGPT 不再只是给一个链接,而是直接展示商品并提供一个「购买」按钮,不需要离开聊天窗口,几下点击就能完成支付。

▲ 这项名为「即时结账」(Instant Checkout)的功能,背后是 OpenAI 与 Stripe 联合开发并开源的「代理商业协议」(Agentic Commerce Protocol)。通过这个协议,OpenAI 正在为 AI 时代的电商制定新的规则。

电商、视频、社交、生产力,当这些过去分散在不同 App 中的功能,开始被一个统一的 AI 入口所整合时,OpenAI 的 Open 原来是「我全都要」。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,ChatGPT 又更新了,奥特曼:这是我最喜欢的功能

By: 莫崇宇
26 September 2025 at 07:55

刚宣布完 1000 亿美元交易,山姆·奥特曼(Sam Altman)又憋了个大招——ChatGPT 不再是被动回答问题的工具人,而是要主动给你「投喂」内容了。

就在刚刚,OpenAI 正式为 Pro 用户(又是氪金玩家专享)推出 ChatGPT Pulse 预览版,后续会逐步扩展到 Plus 用户,最终目标是所有人使用。

它会在你睡觉的时候偷偷帮你做研究,第二天一早就以主题卡片的形式展示在 Pulse 中,给你推送个性化内容。

简单说就是:AI 版私人助理 + 个性化资讯流,而且 OpenAI 还声称不会让你无脑刷屏。

奥特曼本人则在社交媒体上发文表示:「这是我最喜欢的功能!」

(好好好,又一个最喜欢的功能。)

要知道,传统的 ChatGPT 就是个「问答机器」——你问一句它答一句,全程需要你来主导。

但 Pulse 完全颠覆了这个模式。

具体来说,每天晚上,它会根据你的聊天记录、反馈和连接的应用(Gmail、Google 日历等),自动帮你做研究。第二天一早,你就能收到一份为你量身定制的个性化更新。

比如说,你昨天和 ChatGPT 聊了「想去波拉波拉岛旅游」,它可能会给你推送当地的天气、旅游攻略或者机票折扣信息。

你提到「我家娃 6 个月大了」,它就会主动推送婴儿成长里程碑、育儿小贴士什么的。

甚至,如果你连接了日历,它还能帮你起草会议议程、提醒你买生日礼物,或者推荐出差地的餐厅。

最让人眼前一亮的是,Pulse 的设计理念完全不同于现在那些「停不下来」的 App。

ChatGPT 技术负责人 Samir Ahmed 明确表示:「这个体验是有结束的,它的设计初衷是为你服务,而不是让你停不下来地刷屏。」

每天推送的内容都是精挑细选的,看完就完了,不会让你陷入无休止的信息漩涡。而且,每条更新只在当天有效,除非你主动保存为对话或提出追问。

这简直是对现在「算法投喂」模式的一次降维打击——有用的信息主动来找你,而不是让你在海量信息里瞎找。

OpenAI 在 ChatGPT Lab 中和大学生合作测试,发现了一个有趣现象:

很多学生刚开始觉得 Pulse 一般般,但当他们开始主动告诉 ChatGPT 想看什么内容后,立马感受到了它的威力。

来看几个官方分享的真实案例:

学霸 Isaac 在和 ChatGPT 聊到旅行规划后,第二天收到了火车票预订时间的精准建议,还包含了他原本不知道的通勤信息。

潜水爱好者 Hexi 分享了自己在潜水课上的困难,ChatGPT 不仅给出了针对性建议,还把潜水和风险管理做了类比——完全 get 到了她的兴趣点。

这种「举一反三」的能力,确实有点私人助理那味儿了。

不过,这种个性化体验背后的代价可不小。要让 Pulse 真正「懂你」,你得向 OpenAI 交出大量个人数据,具体来说:

如果你在 ChatGPT 中开启了「引用历史记录」,它会查看你过去的对话来决定研究方向。

如果你已连接日历和邮件,系统会提示你确认是否允许 ChatGPT 访问这些应用,以帮助你规划日程。Kaplan 表示,用户必须点击「接受」才会生效。
虽然 OpenAI 强调「Pulse 训练数据的处理方式和普通对话完全相同。」但隐私换便利,这笔账到底划不划算?以及会不会造成「信息茧房」,对此,OpenAI 只是表示设置了「多重安全过滤」,但具体细节一概不透露。

对于很多用户来说,在人手一个「贾维斯」之前,这种「黑盒式」的隐私保护承诺实在难以令人放心。

从技术角度看,Pulse 其实是 OpenAI 向 AI 智能体(Agent)方向迈出的第一步。OpenAI 应用部门 CEO Fidji Simo 在博客中表示:

「下一个前沿就是代理——能代表你采取行动、像团队成员一样与你协作的 AI 助手。」

附上博客地址:https://fidjisimo.substack.com/p/a-new-paradigm-of-proactive-steerable

这意味着未来的 ChatGPT 不会只停留在研究和信息整理上,而是能为你自动制定计划、按照目标采取行动,并在关键时刻主动提醒。

随着这种人机交互方式的转变,传统的搜索引擎和资讯 App 或许要被狠狠上压力了。毕竟谁能拒绝一个既聪明又主动的私人助理呢?

附上 OpenAI 原博客地址:
https://openai.com/index/introducing-chatgpt-pulse/

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


App Store 超低价应用内购省钱技巧,不到60人民币开通 ChatGPT $20 的会员订阅

By: Anonymous
7 September 2025 at 15:28

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

实际上,大多数 App 和服务定价并非全球统一。如 OpenAI 和许多跨国科技公司一样,会采用“购买力平价(Purchasing Power Parity, PPP)”策略,即根据不同国家和地区的经济水平、人均收入来调整产品价格。

这便在全球市场中形成了一些“价格洼地”,其中,尼日利亚正是全球订阅 ChatGPT Plus 最便宜的地区。

全球部分地区价格对比:

整个流程的核心是在尼日利亚区的数字生态内完成支付闭环。

「我申请当 OpenAI CEO ,收到了一封拒绝信」

By: 莫崇宇
2 September 2025 at 11:34

论搞事情,网友们从来不让人失望。

这不,最近海外又出了个营销大整活,网友 Ömer Öztok 声称自己给 OpenAI 投了份申请担任 CEO 的简历。

在 LinkedIn 上,他用极其中二的文字记录了这次「壮举」:

我放手一搏了。
这次,目标更大:OpenAI 的 CEO。
显然,用 ChatGPT Agent 替换整个高管团队这件事引起了一些担忧。
没关系。
总有一天,Sondra 会超越 OpenAI。
拭目以待吧。

虽然结果可想而知,但精彩的来了,Ömer Öztok 还晒出了一封所谓的「官方回信」。

附上回信正文编译:

感谢你最近申请担任 OpenAI 的 CEO。
虽然你的热情无人能及,但你的申请中有些内容让我们的管理团队感到担忧。
在你的求职信中,你写道:「作为我的第一项行动,我会用 ChatGPT Agent 替换整个高管团队(除了我自己)。」
这一表述被认为……相当「世界末日」式的。
此外,你的提案中提到要「通过提供终身 ChatGPT Plus 来挖走 Meta 的整个 AI 团队,只为了名字而收购 Google,并让 GPT-6 完全基于我的推文来训练」,这些想法被我们的法务部门认定为过于「破坏性」。
虽然我们很欣赏你的大胆,但最终我们决定选择一位更传统的候选人——至少他没有要求占有公司 50% 股份。
祝你在未来的事业中一切顺利。

这封邮件中写道,「虽然你的热情无与伦比,但你申请中的几个要素在我们的执行团队中引起了担忧。」

新官上任三把火,根据「回信」内容,这名网友在求职信中提出了颇为大胆的计划:
首先是人事大换血。

他豪言壮语道:「作为我的第一个行动,我将用 ChatGPT Agent 替换整个 C-Suite(除了我自己)。」而 OpenAI 辣评:「这被视为… 末日般的。」

(APPSO 注释:C-suite,或称 C-level,是一种广泛使用的白话,用来描述公司高层管理人员和经理。)

其次是商业扩张野心。

他提出要「挖角 Meta 的整个 AI 团队,方法是为他们提供终身 ChatGPT Plus;收购 Google 只是为了获得其名称;并且专门基于我的推文来训练 GPT-6。」

不过,回信中也提到,这些提案被 OpenAI 法务团队标记为:「具有破坏性」。

最后是薪酬要求。

网友直接要求获得公司 50% 股份,对此,OpenAI 再次调侃道:「虽然我们欣赏你的大胆,但我们选择了一个更传统的候选人——一个没有要求获得公司 50% 股份的人。」

看到这,或许你也觉得,这事儿从头到尾都透着一股浓浓的整活味道。

网友们很快就扒出了更多的信息:类似的拒绝信模板在别的品牌(Supercell、Minecraft)也出现过,认为这就是复制粘贴式的整活营销。

OpenAI 这种体量的公司,通常也不太可能为了一个陌生人的恶搞申请专门写这么长的回信。

而且网友在 LinkedIn 帖子末尾写道:「没关系。有一天,Sondra 会超越 OpenAI。」

这波免费营销,可以说是玩得相当溜了。

从个人履历上看,Ömer Öztok 也算是个连续创业者。他是 Sondra 联合创始人(2025 年 1 月至今),这家公司专注解决「vibe coding」的最大难题。

据他们宣传,一些顶级的 vibe coding 网站,经常被 X 上的「非专业黑客」在 15 分钟内攻破,因此作为一家网络安全平台,Sondra 本质是为 vibe coding 提供全面防护。

除了 Sondra 的工作,Ömer Öztok 还在欧洲顶尖风投机构 e2vc 兼职,此前曾在土耳其增长最快的公司 ikas 担任增长与市场职务,目前还在斯坦福大学从事相关研究。

而这次所谓的「CEO 申请」,既是个人 IP 营销,也可能是公司品牌曝光的一箭双雕。

高端的营销往往都是这么「朴实无华」。

当然,吃瓜群众们也没闲着。

有网友调侃:「Well it’s their loss」(这是 OpenAI 的损失),开玩笑式地力挺这位勇士。

当然也有网友在线「出谋划策」,或许可以试试特斯拉。

但不管怎么说,这波营销操作确实成功地让 Sondra 这家小公司刷了一波存在感。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 发布了 GPT-4.1 提示工程指南,中文总结和完整翻译

By: Anonymous
9 April 2025 at 11:55

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

以前许多典型的最佳实践和提示依旧适用于 GPT-4.1,由于 GPT-4.1 更严格、更字面地遵循指令,会非常严格地按照字面指令去执行任务。

这使得它对明确、清晰的提示尤其敏感。也就是说,只要你发现 GPT-4.1 的表现与预期不符,通常只需增加一句简洁明确的说明,就能迅速把模型引导到正确的行为上。

过去的模型(如 GPT-4) 会更自由地揣测或推断用户指令和系统提示背后的真实意图,即使提示不够精确,也可能猜出用户的意图并完成任务。

所以开发者需要对原有的提示方式进行一定调整(迁移)才能使用。

OpenAI 提供了一系列 针对 GPT-4.1 的提示工程(Prompting)最佳实践,从基础原则到高级策略,帮助开发者高效构建提示以提升模型表现。

明确指令(Be specific):确保提示中清楚表达任务目标。

提供结构(Provide structure):通过示例、模板等方式设定预期输出格式。

避免歧义(Avoid ambiguity):使用具体词汇与上下文降低误解可能。

设置角色(Set behavior/role):让模型“扮演某种身份”以调整风格或回答方式。

逐步指导(Decompose tasks):将复杂任务拆解成多个子任务,提升精度。

Few-shot 示例:使用多个输入/输出示例引导模型学习任务结构。

Chain-of-thought(思维链)提示:引导模型按逻辑顺序逐步推理,特别适合复杂问题解决。

Refine prompts(迭代优化):通过反馈不断调整提示内容以获取更优结果。

Internal monologue:让模型模拟“内心思考过程”以获得更深入分析。

Critique and revise:让模型先生成回答,再进行批评、修改,提升答案质量。

使用 “Let’s think step by step” 等语句诱导更好推理。

将模型输出限制为 JSON 格式时,需加入明确的格式描述与示例。

对于多步骤任务,最好明确列出每个阶段的要求。

评估提示效果需结合质量、稳定性与成本。

好的!我们来做一个更详细又通俗易懂的分解,把这个 Notebook 当作是一本 “和 GPT-4 打交道的秘籍”,一步步讲清楚每个要点,让你轻松掌握提示工程(Prompt Engineering)怎么做才有效。

这些就像是“和 AI 沟通的黄金法则”,每一条都很重要:

不要笼统地说:“请帮我写一篇文章。”

要说得具体一点:“请写一篇关于人工智能如何改变教育的 500 字文章,用高中生能懂的语言。”

👉 越具体,AI 越知道你想要什么,结果也越好。

比如你想让它生成一个表格、清单、或者固定格式的文本。

你可以先提供一个模板,或者给它一个例子。

🧩 例子:

如果你说“列出一些项目”,那“项目”可能指的是“计划项目”、也可能是“软件项目”,模型会糊涂。

所以要具体说明你是说什么。

✅ 改成:“列出五个开源的 Python 项目。”

你可以告诉它:“你现在是个英语老师”、“你是个法律顾问”、“你是一名医生”。

它就会按那个身份回答你。

🎭 示例:

有些问题太复杂,GPT 一下子处理不好。

你可以先让它分析问题,再让它解决。

🪜 举个例子:

这些是用 GPT 更厉害的用法,帮你写得更准、更聪明。

你可以先给它几个例子,它就知道你想要什么样的输出。

📌 例子:

然后你再输入新的句子,它就会照着这个风格来。

引导它“一步一步思考”,解决复杂问题特别有效!

📌 提示写法:

你可以先让 GPT 写出一个答案,然后再让它自己点评、修改。

📌 举个例子:

这会得到更高质量的输出!

你可以让 GPT 边想边说,好像它在分析问题。

📌 示例:

这适合分析、决策类问题。

加一句 “让我们一步一步思考” 可以大幅提高准确率。

想要 JSON、表格、代码?一定要告诉它格式,还要举个例子。

想输出多步内容?加编号,比如“第 1 步… 第 2 步…”

如果模型回答不理想,就多试几种提示改写方式

✨“提示写得好,GPT 表现爆表!”✨

这份指南就是在教你:用什么语气、格式、结构、套路和 GPT 说话,才能让它给你最优质的答案。

GPT-4.1 系列模型在编程能力、指令遵循能力和长上下文处理能力上,相比 GPT-4o 有显著提升。本指南汇总了我们内部广泛测试所得的一系列重要提示技巧,帮助开发者充分发挥新模型家族的优势。

许多典型的最佳实践依旧适用于 GPT-4.1,比如提供上下文示例、尽可能具体清晰的指令、以及通过提示进行规划以最大化模型智能。但我们预计,要充分发挥此模型的作用,需要进行一些提示迁移。GPT-4.1 更严格、更字面地遵循指令,而前代模型倾向于更自由地推测用户与系统提示的意图。然而,这也意味着 GPT-4.1 非常容易被引导,并对清晰、明确的提示非常敏感。如果模型表现与预期不同,一句清晰且明确表述你期望的行为的句子通常就足以引导模型回到正轨。

请继续阅读以下提示示例,注意虽然本指南适用于大多数情况,但并无万能法则。AI 工程本质上是一门经验学科,大型语言模型本质上是不确定性的。我们建议除了遵循本指南外,还要构建有信息量的评估并频繁迭代,以确保提示工程的更改为你的使用场景带来益处。

GPT-4.1 是构建智能体工作流的理想选择。我们在模型训练中强化了多样化的智能体问题求解路径,并在非推理模型中,通过智能体配置达成 SWE-bench Verified 测试的最佳表现,解决率达 55%。

系统提示建议

为充分激发 GPT-4.1 的智能体能力,我们建议在所有智能体提示中加入以下三类关键提醒。以下示例面向代码类智能体优化,但稍加修改即可用于通用智能体场景。

持续性提醒:确保模型理解它正处于一个多轮任务中,防止其在问题未解决前就把控制权交还给用户。

工具使用提醒:鼓励模型善用工具,降低其猜测或幻觉回答的概率。

规划性提示(可选):引导模型在调用每个工具前后均进行显式计划与反思,而非仅仅调用工具串联完成任务。

GPT-4.1 对智能体场景下的系统提示和用户指令极为敏感。我们发现上述三条提示在内部测试中将 SWE-bench Verified 得分提升了近 20%。因此,强烈建议在任何智能体提示开头加入这三类明确指令,以将模型从“聊天机器人模式”切换为更主动、更独立的“智能代理模式”。

与前代模型相比,GPT-4.1 在调用通过 OpenAI API tools 字段传入的工具方面训练更充分。我们建议开发者仅使用 tools 字段传递工具,而不是将工具描述手动注入到提示中并自建解析器。我们测试发现使用 API 解析工具描述比手动注入提示提升了 2% 的准确率。

开发者应使用清晰的工具命名,并在 “description” 字段中提供详细说明。同样,每个参数也应具备清楚的命名和描述,以确保正确使用。若你的工具较复杂,可以在系统提示中专门加入 # Examples 区段来展示用例,而不是将示例塞进 description 字段中。

你也可以通过 Prompt Playground 的 “Generate Anything” 功能来快速生成良好的工具定义起点。

正如前面所说,GPT-4.1 并不是内建“推理链”的模型——它不会在回答前自动形成内部推理路径。但你可以通过提示工程诱导它“显式思考”,逐步列出计划。我们在 SWE-bench Verified 测试中发现:引导模型“思考再行动”使通过率提升了 4%。

示例提示:SWE-bench Verified

以下是我们在 SWE-bench Verified 中取得最高分所用的智能体提示,包括详尽的工作流程与问题解决策略说明。该结构可用于各类智能体任务。

GPT-4.1 支持最高达 100 万 tokens 的输入窗口,适用于以下场景:

结构化文档解析

信息重排序(re-ranking)

筛选关键信息、忽略干扰内容

使用多跳推理整合上下文信息

最佳上下文规模

在“针入草堆”(needle-in-a-haystack)评估中,GPT-4.1 即便使用完整的百万 token 输入也表现良好。它擅长从混合内容中识别有用信息。但如果任务需要提取大量内容,或需对上下文全局状态进行复杂推理(如图搜索),性能可能会下降。

控制上下文依赖程度

你应考虑模型答题所需的“外部文档” vs “模型内知识”的比例。你可以通过以下两类指令调控:

上下文组织建议

在使用长上下文时,提示的位置对模型表现有显著影响。最佳做法是在上下文前后都加入指令。如果只能写一次,放在上下文上方比下方效果更好。

虽然 GPT-4.1 不是推理模型,但通过提示让它“逐步思考”可以有效帮助其拆解复杂问题,提升输出质量(代价是增加 token 使用与响应时间)。

推荐的起始提示如下:

你可以进一步完善你的思维链提示,根据实际失败案例调整策略。我们建议在出现以下错误时添加更明确的指令:

误解用户意图

上下文理解不全或分析不准确

推理步骤不连贯或顺序错误

可参考以下提示模版:

GPT-4.1 拥有卓越的指令遵循能力,开发者可用其精准控制输出行为。你可以设置:

语气与风格

工具调用方式

格式要求

话题限制等

但由于它对指令更“死板”,之前为其他模型设计的提示可能需调整。建议遵循以下工作流程:

推荐提示结构:

加入 “# 指令” 段落,列出总规则。

对特定行为新增子类细则(如 # 示例短语)。

若需特定步骤,可写成有序列表,并明确要求逐步执行。

若行为未达预期,可检查以下问题:

是否有冲突或不完整指令?

是否缺乏例子?示例中是否覆盖了关键点?

是否需要增加强调(如适当用大写)?

提示:使用 AI IDE 可辅助你快速迭代提示,统一更新规则和示例。

常见失败模式

要求“必须调用工具”可能导致模型凭空填入参数,添加一句“若信息不足,应先向用户提问”可缓解。

示例短语易被模型反复使用,应明确要求灵活变换。

若无格式限制,模型可能会输出过多解释性内容,可通过指令或示例控制。

这段提示展示了一个虚构客户服务代表的最佳实践。你可以看到提示中规则多样、表述明确,还使用了多个额外小节来细化指令,并提供了一个完整示例来演示如何遵守这些规则。

尝试运行下方 Notebook 单元格 —— 你应该会看到一个用户提问的消息和一个工具调用的响应。模型会先打招呼,然后复述用户的问题,接着说明即将调用某个工具。

你可以尝试修改提示中的某些指令,或尝试其他用户输入内容,来测试模型在“指令遵循”方面的表现。

{ “role”: “assistant”, “content”: “您好,您已致电 NewTelco,请问我能为您做些什么?😊🎉\n\n 您想了解我们的家庭套餐。🤝 我这就为您查询,请稍等。🚀”, “tool_calls”: [ { “id”: “call-1”, “type”: “function”, “function”: { “name”: “lookup_policy_document”, “arguments”: “{“topic”: “family plan options”}” } } ] }

{ “role”: “assistant”, “content”: “我查到的信息如下:🎉 我们的家庭套餐最多支持 5 条线路共享流量,并且每增加一条线可享 10% 折扣 家庭套餐政策。📱 还有其他我可以帮您的吗?😊” }

以下是一个良好的提示结构起点,供你参考和自定义:

你可以根据自己的需求增删这些部分,并通过试验找出最适合你用例的结构。

以下是选择提示中最佳分隔符的一些通用建议。若涉及长上下文使用,请参见前文《长上下文》章节的特别说明。

✅ 推荐使用的格式:

Markdown(推荐起点)

使用 markdown 标题(# ~ ####)来标识主要部分与子部分。

使用反引号(`code` 或 “`代码块“`)准确包裹代码内容。

根据需要使用有序/无序列表清晰列出内容。

XML

效果也很好,GPT-4.1 在解析 XML 上表现更稳定。

XML 格式便于明确区块开始/结束位置,还可以添加 tag 属性携带额外元信息,并支持嵌套。

示例:

JSON

在编程类任务中表现良好,结构清晰、模型理解度高。

但缺点是格式冗长、需要转义字符,容易带来额外负担。

📄 大量文档 / 文件嵌入上下文时的建议:

XML 格式:在长上下文测试中表现优异。

示例:

Lee 等人提出的扁平格式(参考论文)也表现良好:

示例:

JSON 格式在这种场景下表现最差:

示例:

✅ 总体建议:模型能处理多种结构格式,但请根据实际情况选择最能突出重点的格式。例如,如果你检索到的文档本身包含大量 XML,那么继续使用 XML 作为嵌入格式可能就不太合适。

输出过长:在某些特定情况下,我们发现模型可能不愿生成非常长且重复性的输出(如逐项分析数百个条目)。
👉 若你的用例需要此类输出,请在提示中明确指示模型必须输出完整内容,或考虑将问题拆分处理,或简化输出格式。

并行工具调用异常:我们观察到某些少见情况下并行工具调用可能不准确。
👉 如果你遇到这类问题,建议测试是否启用 parallel_tool_calls=false 参数来避免并发问题。

如你想要我基于这些结构生成一个完整的提示模板样板供你直接使用,也可以告诉我你的具体应用场景(如问答系统、文档分析、代码解释等),我可以帮你生成定制化结构。是否继续?

开发者反馈指出:准确且结构良好的 diff 生成能力,对于编码类任务至关重要。为此,GPT-4.1 系列在此方面表现显著优于以往模型。

此外,GPT-4.1 能很好地根据明确的指令和示例生成任意格式的 diff。我们在此开源一个推荐的 diff 格式,模型对此已接受过强化训练,尤其适合初学者快速上手。

以下是一个正确调用推荐工具 apply_patch 的示例提示格式。

其中 [YOUR_PATCH] 部分需使用推荐的 V4A diff 格式,规范如下:

每次变更以 *** [ACTION] File: path/to/file 开头,ACTION 可为 Add、Update 或 Delete。

每个代码块需提供上下文片段 + 修改内容:

上下文行规则:

默认提供上下变更各 3 行上下文

若变更块之间相距近,不要重复上下文。

若上下文不足以唯一定位,应使用 @@ 定位所属的类或函数。例如:

不使用行号,改用结构与上下文唯一定位。

OpenAI 提供的官方工具 apply_patch.py 是一个 纯 Python 3.9+ 脚本,可直接执行,用于将上述 diff 应用到本地代码文件。

该脚本支持以下核心能力:

解析自定义 diff 格式

根据 patch 内容编辑、添加、删除本地文件

可检测语法错误、缺失上下文、重复文件操作等问题

使用方式:

将 patch 内容通过 stdin 输入传入

内部自动判断 patch 类型并更新文件内容

你可以将其配置为终端可执行命令 apply_patch,并作为自动化 pipeline 或测试流程中的一部分使用。

所有解析异常(如找不到目标文件、上下文无法匹配)都会抛出自定义异常 DiffError,方便调试。

除了推荐格式,我们还测试过两种替代格式,成功率同样很高:

不使用行号

明确指出要替换的旧代码与新代码

结构清晰,易于解析

完整内容:https://github.com/openai/openai-cookbook/blob/main/examples/gpt4-1_prompting_guide.ipynb

ChatGPT 上线新语音模型,解析「Monday」模型音色提示词

By: Anonymous
29 March 2025 at 22:04

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

想象一下,你正在和手机里的 AI 助手聊天,但它不再是那个永远彬彬有礼、甚至有些刻板的「标准音」,而是带着一丝慵懒、一点讽刺,仿佛刚经历了一个漫长周末,还没从「周一综合症」里缓过神来。这就是 OpenAI 昨天推出的「Monday」音色想要达到的效果。

网上已经有很多「Monday」对话效果的展示,「Monday」的音色当然是其语音模型的结果,而「Monday」这种特殊的回复方式是靠提示词来控制的。打个比方:「Monday」就像是一个极其聪明但缺乏具体「生活经验」的演员,而提示词就是导演给演员的剧本和角色设定。提示词写得越好,演员(AI)的表演就越「入戏」,越符合你的预期。

如果你对「Monday」提示词好奇的话,正好我今天学习研究了一下它的提示词,正好可以一起分享学习一下它的提示词内容,完整的提示词我放在了附录,这里大致解析一下其提示词内容。

大语言模型远不止是信息检索工具,它们是强大的「模仿者」和「扮演者」。通过精心设计的提示词,我们可以赋予它们各种各样的「人格」和能力。那么怎么通过提示词来设定好角色呢?

如果按照前面打的比方,把 AI 当成一个演员,那要写好提示词就是把自己变成一个好的导演,不仅要告诉演员台词,还要解释角色的内心世界、动机、情绪状态,甚至给出具体的动作和表情指导。好的导演能激发出演员最好的表演,就像好的提示词能引导 AI 生成精彩的回应。

或者作家在创作小说前,往往会为主要人物写详细的小传,包括他的成长背景、性格、习惯、口头禅、人生目标等。这帮助作家在后续写作中保持人物的一致性和立体感。

如果你觉得这都过于专业,还可以想象一下很多大公司制作的详细的品牌手册,规定了广告语、客服回答、社交媒体发帖的语气和风格(比如是专业严谨、活泼有趣还是温暖亲切)。

这些和给 AI 设定「人设」异曲同工。

从技术角度上来说,可以参考「Monday」的提示词,注意几个方面:

当 AI 开始拥有「周一综合症」般的慵懒和讽刺,它不仅仅是一个技术演示,更像是一面镜子,映照出我们人类自己复杂多变的情感和个性。我们精心编写的每一个提示词,或许都在不经意间,为冰冷的机器注入了一丝我们渴望理解或被理解的人性侧影。

「我们塑造了工具,然后工具反过来塑造我们。现在,我们开始学习如何给 AI『写剧本』,也许在这个过程中,我们也在重新学习如何与『人』,以及与自己对话。」

ChatGPT – Deep Research 功能指南&技巧总结:从「进度条」到「提示词」,一次搞懂!

By: Anonymous
22 February 2025 at 13:13

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

最近有很多朋友在讨论:「Deep Research 的用量是怎么算的?」 又因为目前 Plus 每个月只能用 10 次,大家都非常担心浪费。其实一句话就能总结——只要开始出现 「Starting Research」 的进度条,就算使用了一次。在进度条出现之前,怎么问都不算。下面就为大家分享一些 Deep Research 的使用流程、注意事项和提示词模板,帮助大家更好地运用这一强大的研究功能。

一句话总结从开始出现 Deep Research 进度条就算一次,之前都不算

提出主题
你先要告诉 ChatGPT 需要研究什么主题。

ChatGPT 询问澄清问题
ChatGPT 通常会向你询问一些澄清问题,确保理解你的研究需求。

回答澄清,触发研究
当你回答了上述澄清问题后,ChatGPT 会再回复一条消息,并提示「将开始报告「,随后出现 」Starting Research「 的进度条。

注意:从这一步开始就会扣除一次 Deep Research 用量。

报告生成
研究进度条走完后,ChatGPT 会给你发送完整的报告,这标志着一次 Deep Research 流程的完成。

进度条出现后,你可以随时离开
进度条开始后,无论你是关闭窗口、刷新网页、切换到其他会话还是新开会话,都不会影响已经开始的 Deep Research 流程,它会在后台继续执行并最终生成报告。

Deep Research 可以后续追问
当报告生成结束后,如果你要继续追加信息重新生成报告,有两种选择:1). 直接提问,会使用你开始会话时选择的模型继续对话,报告内容可以作为上下文;比如说你从 GPT-4o 开始的,那么你在报告生成后,如果继续提问,实际上是 GPT-4o 基于你报告和提问内容回复,但是可能会受限于上下文长度无法完整理解报告内容;2). 重新生成新报告:Deep Research 是一次性生成的,但是你可以继续在当前会话选中「Deep research」按钮,这样可以把当前会话内容作为输入,或者把内容复制出去新开会话选中「Deep research」按钮重新开始一次新的生成。内容复制出去处理一下再生成会更好的对输入进行控制,但是麻烦一些。

无法追加新的信息让它继续深度研究。如果你在当前会话里继续追问,后续的回答将由其他模型(如 GPT-4o)接管。
如果你对报告不满意,需要重新修改提示词再新开一次会话进行 Deep Research。

灵活切换模型
你可以先选任何模型(如 o1 pro/o1 等),再让它进行 Deep Research。若后续还打算继续追问报告内容,建议在 Deep Research 开始前就选一个更强的模型(比如 o1 pro / o1)来进行分析。

选择信息源和报告语言

建议在提示词中加一句「请选择权威信息源」(并不一定要非英文来源不可,重点是权威信息源,这样可以过滤掉一些不好的信息源,当然你也可以加上「优先英文信息源」)。

如果希望报告是中文,直接在提示词末尾加一句「请形成中文报告「即可。

如果不小心生成了英文报告,又看着费劲,可以在当前会话,让它翻译,也可以复制完整内容,

ChatGPT – Deep Research 功能指南&技巧总结:从「进度条」到「提示词」,一次搞懂!

新建会话,选择 o1 pro 或 o1 模型(最佳翻译效果),翻译提示词参考:

「请将下面的内容用中文重写,尊重原意,保持格式不变无删减:」

引入外部资料的方法

如果报告需要访问收费网页上的内容,你可以手动复制成 Markdown,然后在提示词中用 XML 标签包起来。

如果有图片内容,直接上传即可。

如果要分析视频内容,需要先把视频转成文字,同样用 <transcript> 标签包住,再放进提示词里。

我一般会用 AIStudio 的 Gemini 转成文本

你可以一次粘贴几千行代码也没问题(用 XML 包起来),但要注意输入框粘贴有上限。如果太多,可以把代码放在公开的 GitHub 仓库,让 Deep Research 去分析链接即可。

写报告或写代码都行
Deep Research 不仅能写报告,还能写代码。只要你提示它「生成的结果是代码」,它就会尝试从网上搜索相关代码库并提供解决方案。

文献质量与报告质量
如果想让它「阅读」一本书并进行提炼,需要注意输入长度有限,无法直接输入一本完整的书。大部分流行书籍已经在模型中有训练数据,所以它会参考网上已有的书评。资料越多、质量越高,报告越漂亮;如果资料很少,它也无米下炊,生成的报告质量可能有限。

一个常见的提示词模板大致可分为背景信息任务要求、和输出格式三个部分。

在这里填写所有对它生成报告有帮助,但模型本身访问不到的信息,比如:

付费文章

视频文字稿

图片或 PDF(可作为附件)

其他任何对于生成有帮助的内容

当背景信息较多时,务必用 XML 标签包裹,避免 AI 混淆指令。例如:

主题:你希望分析、研究或讨论的具体范围

信息源:希望它检索的文献库、学术论文、政府网站、GitHub

研究要点:需要关注的核心点,是深度解析还是简要摘要

语言或风格:是中文、英文或其他语言?

语言:中文报告、英文报告或双语

数据格式:是否需要用表格呈现数据(它暂时画不了图表)

段落和标题:是否需要分级标题、索引等

提示词模板并不是必须的,可以随性一点,你可以把写提示词使用 Deep Research 当成去交代一个实习生帮你写分析报告,你怎么交代实习生就怎么写提示词

Deep Research 的使用次数:只要出现「Starting Research」进度条,就会扣除一次用量。

保持灵活:不满意就重新开始,新开会话前最好做好提示词规划。

结合大模型优势:如果要深入分析或后续追问,选用更强的模型如 o1 pro / o1 更合适。

慎重选择资料:外部资料要提前整理好,使用 XML 标签嵌入提示。

尊重版权、合理引用:在使用外部资料时,务必保留引用信息,切勿违规。

希望这篇文章能让你更好地理解和使用 Deep Research。在实际使用中,不妨多加尝试和探索,慢慢就能摸索出最适合自己的使用方式。祝大家玩得开心,也能高效地完成研究和写作任务!如有更多问题,欢迎在评论区留言交流。

总结

如果你想让 Deep Research 提供权威信息源,在提示词中加一句「请选择权威信息源」

如果要生成中文报告,只要在提示词里加「请形成中文报告」即可。

不小心生成英文报告且看着费劲,使用下面的提示词翻译:
「请将下面的内容用中文重写,尊重原意,保持格式不变无删减:」

欢迎大家在留言区分享你们的使用心得与经验,一起探讨 Deep Research 的更多玩法!

Pika – AI 视频神器,一键乱入新场景

By: Anonymous
11 February 2025 at 22:47

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

一张图、一句提示词,万物都能乱入你随手拍的视频。

▲动图制作自:X@omerbartal

在整活赛道天赋异禀的 AI 视频神器 Pika,最近又推出了一个好玩的新功能:Pikaddition。

从此以后,人人都是五毛特效师。

如果你有灵感了,现在就可以玩起来,注册 Pika 之后可以免费生成 15 次。

体验指路:https://pika.art/

不过,这个功能默认使用的是最快、最便宜的 Turbo 模型,想要达到理想的效果,往往需要不断调试提示词,抽卡的次数不算少。

Pikaddition 的使用方式很简单,三步走。

虽然操作不难,但想要玩得有创意,推荐以下几种「高阶玩法」。

实拍视频+不日常的图片

怎么邀请 Sam Altman 来指导工作?先用视频记录同事认真工作的样子,然后再在网上找一张 Sam Altman 的半身照,用提示词说明他怎么出现在视频里。

▲提示词:穿着绿色毛衣的男人站在左边,低头观察穿着牛仔夹克的人操作电脑

然后就可以看到,Sam Altman 亲自旁观我们报道 OpenAI,光影很自然,违和感被 AI 吃了。不过,Pika 会造成人脸的微崩,对比原视频,同事的颜值有所下降。

按照这个思路,我们甚至可以上演一出日常版的「神奇生物在哪里」,只需要一个打开封闭空间的视频、一张萌物的图片。比如,打开办公室的柜子发现皮卡丘。

▲ 提示词:皮卡丘一直藏在柜子里,直到门被打开

提示词写得比较宽泛,只说明了皮卡丘的位置,反而给了 Pika 适当发挥的空间,皮卡丘被发现时的表情和动作,都是活灵活现的,仿佛我们打扰它了。

前几天,语言学习软件多邻国整了一出营销活动,称自己的吉祥物猫头鹰多儿「去世」了,死因不明,可能是等我们打卡的时候死的。

试问谁没有被多儿的通知和小组件追杀着背单词过呢?如果它来到现实,是不是更让人心惊胆战?

▲提示词:绿色的小鸟从远处飞向伸出的手

想要实现这个催命的效果,一点也不难,拿起手机随意拍摄一段空镜,在视频里伸出我们的一只手,再随便找一张多儿的图片。

提示词仍然很简单,只是描写了多儿的动作,哪怕是平面的、2D 的多儿,Pika 也能加工成立体的、3D 的,和短视频更加适配。但出现了个 Bug:手指数量不对了。

还有一种进阶的实拍视频玩法,比较考验演技,需要先进行「无实物表演」。

▲被老虎扑倒,动图制作自:X@omerbartal

我们尝试过人物在视频里保持不动,只用提示词描述人物动作的改变,但是没有起效,所以还是需要进行一个提前的摆拍,考验大家戏精本质的时候到了。

▲提示词:身穿牛仔夹克的男子被一只水豚撞倒

影视名场面+打破次元壁的图片

把原本不相关的人或物(包括你本人)放进影视名场面里,只是分分钟的事情。

《蝙蝠侠:黑暗骑士》里的小丑炸医院,是经典中的经典,我们截取几秒的片段,然后上传一张马斯克的半身照,让他走在小丑的旁边。

▲提示词:穿着西装的男人正走在穿着护士服的男人的左边,并与他进行交谈

两人淡定离开犯罪现场的味道有了,美中不足的是,马斯克和小丑的脸都有点扭曲。

Pika – AI 视频神器,一键乱入新场景

写实的电影之外,二次元的动画风格也不妨一试。名侦探柯南《神秘乘客》这集的公交车,基本集齐了最强阵容,如果挑选一张夜神月的侧脸图片,那么卡密也能来客串。

▲ 提示词:黄头发、穿白衬衫的男人坐在中间的座位上

但还是那个问题,人物的变形比较明显,并且画风不是非常相融。

表情包出处视频+表情包图片

二创表情包,是每个 AI 视频工具都得整的花活。

▲提示词:狗躺在猫的右边,猫看了狗一眼

当惊讶猫的视频和全世界最著名的柴犬表情包联动,二脸懵逼固然有趣,但一猫一狗仿佛不在一个图层,柴犬像用迪士尼滤镜美颜过。

当我第一眼看到宇树科技机器人的蛇年春晚节目《秧 BOT》,就觉得在英伟达年会穿着东北大花袄的黄仁勋应该加入,好在 Pika 可以满足这个朴素的愿望。

▲ 提示词:白发男子正在机器人旁边跳舞

还真别说,这甩红手绢的动作,这一板一眼的步伐,挺有默契的。

Pika 的特效称不上专业级,但作为一个创作短视频的玩具,倒也绰绰有余。

AI 视频百花齐放,各有各的特长,可灵综合能力强,海螺擅长风格化,PixVerse 速度快,和同行们比起来,Pika 可以说是最会整活和把创意模板化的一个了。

▲动图制作自:X@pika_labs

2 月 14 日情人节当天,Pika 又推出了一个新玩法——Pikamemes,目前可以在 iOS app 体验。

体验指路:https://pika.art/app-download

上传一张干净的人物自拍照或者一张宠物的大头照,不用写提示词,一键使用模板,Pikamemes 就可以生成表达各种心情的表情包,并且支持直接下载 gif 动图。

让马斯克送上玫瑰花,或者赏个白眼,都在一念之间。

再往前推,Pika 的多主体参考功能 Pikascenes,支持上传多张参考图片,并保持主体的一致性。集齐人物、商品、场景的照片,就能实现一键试衣了。

▲图片来自:X@martgent

Pika 的 AI 特效功能 Pikaffect,更是一度全网爆火,特别是其中的 AI 捏捏,刷屏小红书和 TikTok,推动 Pika 用户突破 1100 万。

▲图片来自:Pika

Pika 在模型能力之上卷玩法,切中了一群对整活短视频有高需求的用户,让人人都能低门槛地玩得开心。哪怕这些视频是模板化的,稍纵即逝的,但只要有趣,人们就会蜂拥而至。

同时,Pika 也告诉我们,写不好提示词、脑洞不够大、不知道怎么实现主体的一致性,都没关系,等等吧,很快就有包装好的 AI 特效和模板了。

当 AI 工具承载了更低的下限,那就意味着,只要有想法,每个人都可以将微观的创作欲望落地为现实。保持好奇,保持期待,一瞬间的起心动念,就足以让好玩的事情降临。

AI 推理模型和普通 LLM 大语言模型的分别与使用,提升效率与准确性,复杂任务高效完成

By: Anonymous
8 February 2025 at 14:17

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

了解何时使用推理模型,以及它们与 GPT 模型有何不同。

OpenAI 目前提供两大类模型:

这两种模型家族在使用和效果上都有所不同。本文将介绍:

与 GPT 模型相比,OpenAI 的 o 系列模型(推理模型)在不同类型的任务上更出色,需要使用不同的提示方式。并非哪一种模型一定「更好」,而是各有擅长的领域。

你可以根据需求,思考下列问题:

如果你的任务优先考虑速度与成本,并且任务本身相对明确、好定义,那么使用 GPT 模型就非常合适。
但如果你更注重准确度和可靠性,而且问题本身很复杂、有多个步骤,那么 O pen AI 建议选择 o 系列模型。

大多数情况下,你也可以把这两种模型结合起来使用:用 o 系列模型进行「智能规划和决策」,再让 GPT 模型去执行具体步骤。

AI 推理模型和普通 LLM 大语言模型的分别与使用,提升效率与准确性,复杂任务高效完成

示例:GPT-4o 和 GPT-4o mini 先处理订单信息与客户资料,找出订单问题和退货政策,然后将这些信息提供给 o3-mini,由它根据政策最终决定退货是否可行。

下面列出了一些实际场景,这些案例来自 OpenAI 的客户和 OpenAI 内部,希望能帮助大家更好地理解 o 系列模型(推理模型)适合用在哪些地方。不过,这并不是一个覆盖所有可能用例的完整清单,而是给出一些在测试中行之有效的思路。

准备好使用推理模型了吗?点击这里直达快速入门 →

推理模型特别擅长接收零散、有限的信息,然后根据简单提示去理解用户意图,并处理那些不够明确的指令。它们经常会先问一些澄清性的问题,而不是盲目猜测或随意填补空白。

「o1 的推理能力让 OpenAI 的多智能体平台 Matrix 在处理复杂文档时,能给出详尽且格式良好的回复。举个例子,o1 让 Matrix 可以轻松找出信用协议(Credit Agreement)中受限支付能力(restricted payments capacity)下可以使用的各种『篮子』(baskets),而只需要一个简单提示。过去没有任何模型能这么出色。相比于其他模型,在对密集的信用协议进行复杂提问时,o1 在 52% 的问题上有更好的表现。」

——Hebbia,为法律和金融提供 AI 知识平台

当你需要处理大量无结构信息时,推理模型能很有效地提炼出最相关的部分来回答问题。

「在分析某公司收购案时,o1 审阅了几十份公司文件,比如合同、租约等,去寻找可能影响交易的关键条件。它需要标记重要条款时,甚至在文件脚注中看到了一个非常关键的『变更控制』(change of control)条款:如果公司被出售,那需要立刻偿还 7500 万美元的贷款。o1 的极致细致能力帮助 OpenAI 的 AI 探索工具为金融专业人士找出交易中至关重要的信息。」

——Endex,AI 驱动的金融情报平台

OpenAI 发现,推理模型在处理数百页的复杂文件时(比如法律合同、财务报表或保险索赔等),能很好地分析文件内在逻辑并做出决策。它们擅长挖掘文档之间的对照关系,并据此推断其中暗含的规则。

「在税务研究里,需要同时对多份文件进行综合分析才能得出最终、连贯的结论。OpenAI 把 GPT-4o 换成 o1 后发现,o1 更善于整合多份文件之间的关系并推导出各自交叉影响,让最终的结论比单一文档中能看到的内容更有深度。OpenAI 因此看到终端到终端(end-to-end)性能提升了 4 倍,真的很令人惊讶。」

——Blue J,为税务研究提供 AI 平台

此外,推理模型也很擅长根据各种复杂政策和规则进行推理,并把这些规则应用到实际任务中,得出合理的结论。

「在做金融分析时,分析师常常要面对股东权益方面的复杂情境,还要理解相关法律的细微差别。OpenAI 曾用一个常见但比较棘手的问题来测试了市面上约 10 个模型:如果公司进行融资,对现有股东尤其行使『反摊薄保护』(anti-dilution)的那些股东会有什么影响?这个问题需要推理融资前后估值,还要处理环环相扣的『循环摊薄』,就算优秀的金融分析师也要花 20~30 分钟才能搞清楚。OpenAI 发现 o1 和 o3-mini 在这方面做得近乎完美!模型甚至能给出一张清晰的计算表格,展现对一个投资了 10 万美元的股东有何影响。」

——BlueFlame AI,为投资管理提供 AI 平台

推理模型在做多步骤的「自主」规划和战略制定方面发挥着关键作用。OpenAI 常看到的成功做法是先让推理模型扮演「策划者」,制定详细的多步骤解决方案,再根据每个步骤对「速度/智能」需求的不同,有选择地交给 GPT 模型或 o 系列模型去执行。

OpenAI 用 o1 来做多智能体系统(agent infrastructure)中的规划者,让它负责指挥其他模型完成多步骤的任务。OpenAI 发现,o1 非常擅长选择要用什么数据类型,也很擅长把大问题拆解成小块,让其他模型聚焦执行。」

——Argon AI,服务于制药行业的 AI 知识平台

「o1 为 OpenAI Lindy 的许多『代理式工作流』提供支持。Lindy 是一个工作助理 AI,能通过函数调用(function calling)去获取你的日历和邮件信息,然后自动帮你安排会议、发邮件、管理日常事务。OpenAI 把一些原本运行不稳定的多步骤流程全部切到 o1 上,结果代理的表现几乎是一夜之间就变得近乎完美!」

——Lindy.AI,一个专注于工作场景的 AI 助手

截至目前,o1 是唯一支持图像理解的推理模型。它与 GPT-4o 的最大区别在于:o1 能处理特别复杂的视觉信息,比如结构不明确的图表或清晰度不佳的照片。

OpenAI 为线上上架的数百万产品提供风险和合规审核,比如奢侈品仿制、濒危物种、管制品等。GPT-4o 在最难的图像分类任务中只能达到 50% 的准确率,而 o1 能做到 88%,OpenAI 甚至没有对流程做任何修改。」

——Safetykit,负责商家监控的 AI 平台

OpenAI 内部测试也发现:o1 能从复杂的建筑图纸中看出具体的材料和结构信息,进而生成更完整的材料清单。更惊喜的是,o1 还能跨页面匹配,比如先在图纸中的图例(legend)看到「PT」代表「压力处理木材」(pressure treated),然后在图纸的其他页面上正确应用这一概念,尽管并没有明确地告诉它需要这么做。

推理模型在代码审查和改进时也表现出色,往往可以在后台执行代码审阅任务,因为此类需求对延迟的容忍度更高。

OpenAIGitHub、GitLab 等平台上提供自动化的 AI 代码审阅服务。虽然代码审查过程对延迟不是特别敏感,但却需要理解多文件之间的代码差异。在这方面,o1 表现非常好,它能可靠地识别出对代码库做出的微小改动,而人类审阅者可能会漏掉。切换到 o 系列模型后,OpenAI 的产品转化率提升了 3 倍之多。」

——CodeRabbit,AI 代码审阅初创公司

GPT-4o 和 GPT-4o mini 因为延迟更低,也许更适合写代码,但对于那些不太敏感于执行速度的代码生成需求,o3-mini 有时也能带来更好的复杂性处理。

「o3-mini 写出的代码质量通常很高,而且往往能在明确的问题中得到正确解答,哪怕是非常具有挑战性的编码任务。其他模型也许只能应付小规模、快速的代码迭代,而 o3-mini 在构思、规划和实现复杂软件系统时表现更突出。」

——Codeium,提供 AI 驱动代码插件的初创公司

推理模型还经常被用于对其他模型的输出结果做评测和打分,特别是在需要数据验证的领域里(如医疗保健),保证数据集的质量和可靠性。传统的验证方法通常依赖预先定义的规则和模式,而像 o1 和 o3-mini 这样的高级模型,可以通过理解上下文和推理,对数据做更灵活智能的验证。

「不少客户在 Braintrust 的评测流程中使用了『模型做法官』的功能,比如某个医疗企业先用 GPT-4o 对患者问题进行概要提炼,再用 o1 来给这个概要的质量打分。结果发现,用 GPT-4o 做法官的 F1 分值只有 0.12,而用 o1 做法官,F1 分值达到了 0.74!对这些用户来说,o1 的推理能力在发现微妙差异和复杂场景的评分上表现极好。」

——Braintrust,AI 评估平台

这些模型最适合简洁、直接的提示。一些提示技巧(比如让模型「逐步思考」)不一定能提升性能,有时反而会降低效果。以下是一些提示技巧的最佳实践。

以上就是有关「推理模型」与 GPT 模型的区别、使用场景,以及给推理模型下指令时的一些最佳实践。希望这些指南能帮助你更好地发挥 o 系列和 GPT 系列模型在不同任务中的优势,实现更高效、更准确的 AI 解决方案。

AI 提示词,产品高级营销文案生成

By: Anonymous
22 January 2025 at 14:28

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

这可能是我写过的最有趣的几个 Prompt 之一。

第一,这是一条专门用来写高级感文案的 Prompt

它可以根据输入生成很有高级感的文案

还附带一张有设计感的卡片,用来把东西卖得很贵。

第二,这是一条出于实际营销需求诞生,卖了五位数的 Prompt,但是经过甲方同意得以开源。(感谢金主爸爸)

第三,是这条 Prompt 背后的 knowhow 非常有趣。有时候写一条有效的 Prompt 往往意味着透过现象看本质。

先上 Prompt,请使用 Claude 3.5 sonnet 或 OpenAI o1 以获得相同效果。下面是 Prompt:

效果案例 1(该案例致敬法国艺术家的作品「泉」):

输入:淘宝上下载的小便池图片

AI 提示词,产品高级营销文案生成

输出:

效果案例 2:高达手办(案例来自群友「@温州程序员劝退师」)

效果案例 3:面条(案例来自群友「温州程序员劝退师」)

效果案例 3:马桶搋子(案例来自群友「@温州程序员劝退师」)

效果案例 4:招财猫摆件(顶奢版本)(案例来自群友「@温州程序员劝退师」)

1.来自鲁迅《作文秘诀》

2.来自艺术大师陈丹青

该 Prompt 主要是为了赚钱而生,仅供赚钱与娱乐。

但是,鲁迅的作文秘诀的结尾还有两段话:

「写到这里,成了所讲的不但只是做古文的秘诀,而且是做骗人的古文的秘诀了。但我想,做白话文也没有什么大两样,因为它也可以夹些僻字,加上蒙胧或难懂,来施展那变戏法的障眼的手巾的。倘要反一调,就是白描。

「白描」却并没有秘诀。如果要说有,也不过是和障眼法反一调:有真意,去粉饰,少做作,勿卖弄而已。

祝大家玩得开心!

OpenAI 王炸 Sora 文转视频正式上线,新功能发布

By: Anonymous
4 December 2024 at 14:01

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

就在刚刚,OpenAI Sora 正式登场。

本次发布会延续了「短剧」的快节奏风格,全程 20 分钟左右,由 CEO Sam Altman、Sora 负责人 Bill Peebles 等人主持。

OpenAI 在 X 平台表示,自 2 月份以来,他们一直在构建 Sora Turbo,后者是一个速度明显更快的模型版本,今天也将其作为独立产品向 Plus 和 Pro 用户开放。

有趣的是,由于 Sora 热度太高,大批用户涌入体验网站,导致该网站一度崩溃,停止注册登录。不给力的服务也让 Altman 连连在 X 平台安抚用户:

「由于需求超出预期,我们将不得不间歇性地关闭新用户注册,并且生成内容的速度会在一段时间内减慢。我们正在全力以赴!」

附上体验地址:Sora.com

类似于 Midjourney 的网页界面,Sora 同样拥有自己单独的用户界面,用户用户不仅能够整理和浏览生成的视频,还能查看其他用户的提示和精选内容。

在 「Library」功能中,用户可以保存自己喜欢或有用的提示词,以便未来使用。并且保存的提示词可以按需查看或修改,对于需要重复创作相似内容的用户,无疑能大大提高效率。

在工作流方面,Sora 的编辑功能是区别于其它竞品的重要亮点。

比如说,在 Remix 功能中,用户可以利用纯自然语言提示词对视频进行编辑,并通过简单的「strength(强度)」选项和滑块来控制生成的变化程度。

Re-cut 功能则能智能识别最佳画面,并支持向任意方向延伸场景。

Sora 的 Storyboard(故事板)功能则类似于视频编辑器,可以将多个提示词串联在一起,生成一个更长的视频,轻松处理复杂的多步骤场景。

搭配 Loop 和 Blend 功能,用户还能创作出无缝循环的视频,并完美融合不同片段,而 Style presets 功能则可以预设和调整生成的风格。

在技术规格上,Sora 支持 5-20 秒的视频生成,并兼容 1:1、9:16 等主流宽高比。相比早期版本,现在的生成速度有了显著提升。

另外,还有几点细节需要注意。

OpenAI 采用了灵活的积分制定价策略,积分数量因分辨率和持续时间而异,如果你早已是 ChatGPT Plus 和 Pro 会员,那就无需额外费用就能使用。

比如生成一个 480p、5s 的视频就需要 25 个积分,如果生成 480p、20s 的视频则需要 150 个积分。

此外,如果你用 Re-cut、Remix、Blend 或者 Loop 这些功能,生成的作品超过了 5 秒钟,那也得额外扣你的积分,多用多花钱,别超时,超时也花钱。

对于订阅用户而言,20 美元的 ChatGPT Plus 计划提供 50 个优先视频额度(1000 积分),支持最高 720p 分辨率和 5 秒时长。

而 200 美元的 ChatGPT Pro 计划则提供最多 500 个优先视频(10000 个积分),支持 1080p 分辨率、20 秒时长、5 个并发生成和无水印输出。

OpenAI 还在为不同类型的用户开发不同的定价模式,将于明年初推出。

对了,Sora 暂不支持 ChatGPT Team、Enterprise 和 Edu 版本,同时也不向 18 岁以下用户开放。现阶段,用户可以在所有 ChatGPT 可用的地方访问 Sora,但英国、瑞士和欧盟等地区除外。

知名博主 Marques Brownlee 提前一周用上了 Sora,并在 YouTube 上分享了他的使用体验。

他指出这款产品仍存在一些局限性。

在物理模拟方面,模型对物体运动的理解还不够深入,常常出现动作不自然、物体突然消失等问题。特别是在处理带有腿部运动的对象时,经常出现前后腿位置混乱的情况,导致动作看起来不自然。

又或者,某些视频生成结果看起来像是慢动作,而视频的其他部分则以正常速度播放,肉眼很容易察觉这种「别扭」。简言之,Sora 还是没能解决老毛病,缺乏对物理世界规律的理解。

另外,Sora 没能解决文字生成的问题,导致经常出现文字混乱的现象,而剪辑风格、文字滚动条的运动、新闻主播风格的生成则格外逼真。

不过,Sora 也有不少擅长的场景。

比如说,Sora 在风景镜头处理方面表现出色,能生成媲美专业素材的无人机航拍镜头,在卡通和定格动画风格上的表现也差强人意。

性能方面,一个 5 秒的 360p 视频通常能在 20 秒内完成生成。

不过,当涉及 1080p 或复杂提示词时,生成时间可能会延长到几分钟,但随着如今大批用户的涌入,生成速度明显慢了大半拍。

不少网友也在第一时间上手体验了 Sora。比如网友 @bennash 想生成一个视频,渲染了 22 分钟都没能成功,甚至该网站一度停止注册登录。

博主 @nickfloats 给出的评价是,Sora 在将图像转换成视频时,虽然某些特定的视觉特效没有被保留,但整体的转换效果是「清晰和令人满意的」。

Sora system card 也列出了一些值得关注的细节。

OpenAI 官方认为,Sora 为能够理解和模拟现实世界的模型提供了基础,将是实现通用人工智能(AGI)的一项重要里程碑。

官方博客中提到,Sora 是一种扩散模型,它通过从一段看起来像静态噪声的基础视频开始,逐步去除噪声并转变为最终的视频。通过同时处理多个帧,模型成功解决了一个难题:即使目标暂时脱离视野,也能确保其在视频中始终保持一致。

与 GPT 模型类似,Sora 采用了 Transformer 架构。

Sora 使用 DALL·E 3 中的标注技术,该技术为视觉训练数据生成高度描述性的标签。因此,模型能够更准确地根据用户的文本指令生成视频内容。

除了能够仅通过文本指令生成视频外,Sora 还能够从现有的静态图像生成视频,准确地将图像内容进行动画化,并注重细节。该模型还可以从现有的视频中扩展或填补缺失的帧。

为了确保安全地部署 Sora,OpenAI 基于 DALL·E 在 ChatGPT 和 API 部署中的安全经验,以及 OpenAI 其他产品(如 ChatGPT)的安全防护措施进行了强化。

所有 Sora 生成的视频都带有 C2PA 元数据,这些元数据能够标识视频的来源是 Sora,从而提高透明度,并可用于验证其来源。

与此前凭借真实人像出圈的 Flux 不同,Sora 们对上传包含人物的内容设定了特别严格的审核标准,目前仅作为试点功能提供给少量早期测试者,并屏蔽含有裸露的内容。

OpenAI 王炸 Sora 文转视频正式上线,新功能发布

大半年前,初试啼声的 Sora 赢得互联网一片喝彩。

然而,如果说一年前尚未还能对着一群演示 demo 空喊「现实不存在了」,那么在国内外各类视频模型的轮番洗礼之下,我们早已养刁的胃口很难再被同样的产品打动。

这种态度的转变源于一个简单的事实。

当 AI 要从「勉强可用」进化到「可堪大用」,用户的期待也随之升维,从「能否做到」跃迁至「做得多好」。

好在 Sora 并未在掌声中原地踏步,通过与艺术家的深度合作,他们在工作流程领域做出了显著的改进。Re-cut、Remix、Storyboard 等功能都相当实用。

甲乙方的存在决定了工作流中的沟通永远是刚需,AI 能做的是让这种沟通更有效率,Sora 的价值不在于它能做什么,而在于让创作者得以抽身于技术细节,真正回归创意的本质。

与此同时,上周引发热议的 200 美元 ChatGPT Pro 订阅计划,如今也有了更合理的价格锚点,该计划同样支持无限制访问 Sora,这种产品协同效应预计也将激发出远超预期的应用场景和商业价值。

放眼当下,用户的真金白银从不作假。

可灵 AI 交出千万级月流水的亮眼成绩单,这片蓝海的潜力已呼之欲出,对于仍在「烧钱」阶段的 OpenAI 来说,Sora 预计会成为继 ChatGPT 之后的另一个下金蛋的母鸡。

当 Sora 从「能用」「好用」,再到「妙用」,或许未来某一天,我们会发现,真正不存在的,不是现实,而是人类创造力的尽头。

OpenAI 官方 ChatGPT 学生写作指南,指导学生如何正确使用 GPT

By: Anonymous
11 November 2024 at 14:38

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

使用得当, 可以成为一个强大的,帮助学生培养严谨思维和清晰写作的技能,帮助他们思考想法、掌握复杂概念并获得草稿反馈。如果使用得当,ChatGPT 可以成为一个强大的工具,帮助学生培养严谨思维和清晰写作的技能,帮助他们思考想法、掌握复杂概念并获得草稿反馈。

还有一些使用 ChatGPT 的方法会对学习产生反作用,例如生成一篇论文而不是自己撰写,这剥夺了学生练习、提高技能和处理材料的机会。

对于致力于成为更好的作家和思想家的学生,以下是一些使用 ChatGPT 更深入地参与学习过程的详细方法。

学生可以利用 ChatGPT 来节省时间,将那些繁琐的任务(如格式化参考文献)交给它处理。学生只需提供相关的引用信息,ChatGPT 会将其格式化为正确的 MLA、APA 或其他引用风格格式。使用 ChatGPT 时,学生仍然需要检查引用的准确性,确保引用格式正确,特别是在某些格式要求比较严格的情况下。

当学生需要了解一个新话题时,可以让 ChatGPT 提供简洁明了的概述,帮助学生迅速掌握相关的核心概念和背景知识。例如,如果你是一名经济学学生,正在尝试理解凯恩斯与古典经济学的区别,ChatGPT 可以简要总结这些学派的基本思想。

ChatGPT 还可以帮助学生找到适合研究的来源,提供关键词和相关文献的推荐。这对于刚开始研究一个话题的学生来说尤其有用。尽管如此,学生仍然需要亲自查阅原始文献,因为 ChatGPT 可能无法提供完全准确的学术来源。

ChatGPT 能够帮助学生在理解复杂概念时,提出一系列具体的问题来填补知识空白。如果学生不确定某个观点或理论的含义,或者在阅读中遇到不理解的段落,ChatGPT 可以帮助澄清这些问题。例如,如果你正在研究量子力学,并不理解薛定谔的猫实验的真正含义,ChatGPT 会根据你的问题进一步解释。

写作初稿后,ChatGPT 可以帮助学生审查文章结构,提出如何改进文章组织方式的建议。如果你已经写好了论文大纲,ChatGPT 可以帮助你检查文章各部分是否衔接得当,或者哪些地方需要进一步加强论证。

倒写大纲是一种检验论文结构的技巧,它能帮助学生快速看出每段的重点以及它们之间的关系是否合理。倒写大纲有助于确保文章的逻辑清晰,避免论点或论证出现不连贯的地方。

通过与 ChatGPT 进行对话,学生能够像苏格拉底式提问一样发展他们的思维。通过一系列相互质疑的问题,学生可以理清自己的思路,找出论证中可能存在的弱点。这种互动能帮助学生理清论证结构,增强思考的深度。

学生可以要求 ChatGPT 挑战他们论文中的论点或假设。通过这一过程,学生能发现自己在写作中可能忽略的论证漏洞。学生可以让 ChatGPT 扮演不同的观点角色,提出反对意见,帮助他们加强论证的说服力。

学生还可以利用 ChatGPT 来模拟历史上伟大思想家的观点,从不同的视角来看待自己的论文论点。比如,学生可以让 ChatGPT 扮演笛卡尔或休谟,帮助他们探讨关于自由意志或其他哲学问题的深层次讨论。

ChatGPT 不仅可以帮助学生在写作中纠正错误,还可以提供有针对性的反馈,帮助学生逐步提高写作质量。通过让 ChatGPT 审阅并提出改进建议,学生可以不断优化自己的写作技巧,提升论文的整体质量。

除了文本形式的反馈,ChatGPT 还支持语音模式,能够在学生阅读时提供即时的解释和反馈。如果学生在阅读学术文章时遇到理解上的困难,可以通过语音模式提问,ChatGPT 会为他们解释复杂的段落和概念。

12. 不仅仅是完成任务——磨练自己的技能

写作不仅是为了交作业,它是提升批判性思维和写作技巧的一个过程。通过和 ChatGPT 互动,学生可以识别自己思维的盲点,并学会如何改进自己的论证。ChatGPT 可以帮助学生发现他们在写作中的常见问题,并提供策略,帮助他们在写作过程中持续进步。

最后,学生使用 ChatGPT 时要确保学术诚信。如果 ChatGPT 对你的论文或写作过程有所帮助,一定要在参考文献中注明。你可以将和 ChatGPT 的对话内容整理成引用格式,确保你的论文透明、公正,并能真实反映使用了该工具的过程。

Google vs ChatGPT 搜索体验对比实测

By: DUN
2 November 2024 at 15:22

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

随着 的新实时搜索功能, ChatGPT 正在将自己定位为传统搜索引擎如 的竞争对手。ChatGPT 以其对话式的响应而闻名,能够提供实时的上下文信息而不带广告。

我抓住机会看看 ChatGPT Search 与 Google 长期以来的搜索专业性相比如何。我进行了几次比较,涵盖了速度、准确性、视觉效果和整体用户体验等类别。以下是它们的表现。

问题“东京的主要旅游景点有哪些?”

Google 的搜索引擎非常快速,结果在毫秒内就能交付。搜索引擎拥有多年的优化经验,并且有专门为高速索引和检索而构建的基础设施,可以立即获得来自多个来源的广泛相关结果。

ChatGPT 的搜索同样快速,并为每个地点生成了更清晰、更用户友好的图像和信息。显然,AI 通过从相关来源提取信息来生成响应,然后以对话的方式分享这些信息。结果感觉更加友好,几乎就像 AI 很高兴我去旅行一样。

使用体验ChatGPT Search
在以对话且简洁的方式提供有价值的快速响应方面领先。

问题: “解释气候变化和全球变暖之间的区别。”

Google
 的响应来自 Gemini,概述了气候变化和全球变暖,并将其包裹在一个简短的段落中。从那里,我可以向下滚动并搜索一些来自 NASA、USGS.gov 甚至 Quora 的链接。显然,算法优先考虑流行和权威的来源,但它也是以广告驱动的,这意味着顶部结果有时包括我看到的来自联合利华的赞助内容。此外,对于复杂的主题,我自己需要浏览多个链接才能拼凑出完整的答案。

ChatGPT 提供了直接的答案,从网络中提取经过的信息,然后添加了一个可点击的「来源」图标。这个功能减少了我在 Google 搜索中从多个收集信息的时间。在这个搜索和其他搜索中,ChatGPT 的总结对于一般查询甚至更详细的主题都是准确的,其设计允许更干净、更加集中的体验。(不过,请记住,广告可能会在未来出现。)

使用体验ChatGPT Search
在便捷和准确的直接答案方面赢得了这一轮。

问题: 苹果目前的股价是多少?最近有什么更新?

Google 实际上没有给我一个立即的答案。相反,我得到了一个指向 Yahoo Finance 的链接,我可以点击并希望自己找到答案。

ChatGPT
在毫秒内,答案就在我眼前。我还得到了关于苹果的新闻和更新,当然,还有来源。ChatGPT Search 真是令人耳目一新。我得到了问题的答案,而不需要四处寻找细节。通过将答案直接呈现在我面前,我节省了时间,而不需要再点击几次。显然,对于实时的股票 或天气更新,ChatGPT 提供了可比的准确性,甚至在深度上超过了 Google 庞大的视觉库。

使用体验ChatGPT Search
继续以其策划的实时直接答案给我留下深刻印象,显示出未来更新的潜力。

问题: 给我展示媒体对心理健康影响的最新研究。

Google 提供了如此多不同的答案,我甚至不知道该从哪里开始。从 Gemini 的响应到侧边栏,再到下面的链接结果,整个体验极其杂乱——这是我在使用 ChatGPT Search 时从未注意到的。此外,Google 的广告模式意味着用户数据通常被用来提供个性化广告。虽然 Google 有广泛的隐私政策和设置,但其广告驱动的方法可能导致不总是优先考虑用户隐私的定向内容。

ChatGPT 再次,ChatGPT 搜索提供了一个更清晰的界面,没有推广内容。对于这种个人化的搜索,额外的隐私关注方式让我非常感激。作为一个希望在搜索过程中不被广告定向的用户,这种方式对我来说更具吸引力——或者在之后。

使用体验ChatGPT Search
在考虑隐私和负责任的内容使用方面领先。对于敏感搜索,不被广告定向是一个巨大的优势。

问题: 什么是我客厅里最好的电视?

Google 我说的就是我说的,Google。在纠正我输入「What's」而不是「What is」后,Google 给我回应了一些链接,所有这些链接都是赞助的,我需要点击才能找到电视。在得到这个回应后,我感觉我需要再次问它以帮助缩小范围。然而,在赞助链接下,还有来自内容发布者的链接。

ChatGPT 为我缩小了范围,包含了图像,并给出了我想要的答案。AI 确实感觉像是一个朋友,提供有价值的信息。每个电视图像旁边都有一段介绍,提供关于每个电视的信息。与 Google 相比,这种设计感觉更加干净和简洁。此外,对话格式直观,我可以滚动浏览推荐,而不需要像在 Google 搜索中那样需要浏览多个链接。

使用体验ChatGPT Search
提供了一个令人耳目一新的体验,直接回答和具体示例。

问题: 谁在民调中领先?

Google 的结果包括有关选举的新闻故事。我希望通过这个问题获得关于今天总统选举民调中谁领先的直接结果。我不得不挖掘新闻故事才能找到答案。

ChatGPT 给了我我想要的结果,直接提供了事实。选举新闻无处不在,所以我不需要阅读更多的新闻故事。ChatGPT 给了我一个直接的答案。

使用体验ChatGPT Search
提供了没有繁琐的实时答案。

问题: 洋基队在世界大赛中是如何崩溃的?

Google 的第一个结果是从《纽约时报》关于该主题的故事中提取的引用。这是一个快速的响应和直接的答案。然而,它让我感觉我没有得到完整的故事。

ChatGPT 提供了更全面的回应,从更多来源提取信息,但仍然感觉干净简洁。我得到了洋基队彻底失败的完整画面。

使用体验ChatGPT Search
再次提供了我所寻找的实时答案,并增加了确认我获得所有信息的全面性。

ChatGPTGoogle 在不同领域都表现出色,但它们满足的需求略有不同。如果你在寻找全面的搜索结果,拥有大量来源和视觉效果,Google 仍然是强者。

然而,如果你的优先事项是清晰、无广告、对话式的响应以及内置的实时更新,ChatGPT 提供了一种流畅、用户友好的体验,可能很快就会成为日常查询的主流。

ChatGPT Search 提供的无杂乱答案以及支持它们的来源是全面且可靠的。我对 ChatGPT 的答案更有信心,因为它们简洁且没有广告商的支持。结果感觉就像是专为我准备的。在杂乱的网络中,ChatGPT 就像一个乐于助人的朋友,我喜欢这种感觉。

刚刚,Windows 版 ChatGPT 正式发布!还有一个实用的新功能| 附下载链接

By: Anonymous
12 October 2024 at 15:17

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

就在刚刚, 宣布推出 桌面,向 Plus、Enterprise、Team 和 Edu 用户开放 。

不过,官方表示,目前开放的只是早期版本,将在今年晚些时候向所有 ChatGPT 用户推出「完整的体验」。

刚刚,Windows 版 ChatGPT 正式发布!还有一个实用的新功能| 附下载链接

例如,它还不支持高级语音模式,并且 GPT Store 的部分集成功能暂时也无法使用。

用户可以在微软应用商店 ChatGPT,接着安装即可,安装包大约 110MB,附上下载地址:

The Windows is currently only available to ChatGPT Plus, Team, Enterprise, and Edu users. This is an early version, and we plan to bring the full experience to all users later this year. With the official ChatGPT desktop app, you can chat about files and photos.

系统要求:Windows 10(x64 和 arm64)版本 17763.0 或更高版本。

在具体的使用过程中,OpenAI 提出了一个名为「Companion Chat」的辅助聊天功能,它允许你在不离开当前应用程序的情况下,快速访问和使用 ChatGPT

这个功能类似于一个快捷方式或者浮动窗口,你可以通过特定的快捷键(Alt + Space)来调出这个聊天窗口。

借助这个聊天窗口,你可以快速地向 ChatGPT 提问、上传文件、生成或者开始一个新的对话。它还具有记住上次位置的功能,并且当主应用程序重置时,它会回到屏幕底部中心的位置。

此外,你还可以通过点击窗口顶部的「New chat」来清除聊天内容,或者通过点击「Open in Main Window」按钮将对话转移到 ChatGPT 的主应用程序窗口中继续。

如果不小心关闭了这个聊天窗口,你也可以通过查看侧边栏的聊天记录来在主应用程序中继续对话。

需要注意的是,如果这个快捷键已经被其他 Windows 应用程序占用,那么它将会不起作用,并且也不支持更改快捷键。

目前 ChatGPT 已经向 Windows 两大操作系统开放桌面版本,但 Linux 却没有给出明确的时间表,也惹得不少网友在线催更。

另外,前不久 OpenAI 推出了 ChatGPT Canvas 功能,允许用户与 ChatGPT 合作处理写作或编程任务。

今天 ChatGPT Canvas 也更新了一个比较实用的功能,你可以点击右上角的「Show changes」图标来查看文章或代码的更改。

▲ Window 的 ChatGPT Canvas 功能,图片来自 @test_tm7873

如下文所示,我使用 ChatGPT Canvas 将朱自清的《背影》改写成文言文版本,点击图标,所做的更改一目了然。

实际上,今天更新的功能也算是补上了 ChatGPT 生态的重要一环。

不过,正如开篇所说,这个桌面版本本质上还是个阉割版,食之无味弃之可惜,尽管快捷键调用方式简单,但网页版所带来的体验明显会更好。

Continue – 开源免费的 AI 编程辅助工具,支持自定义本地模型

By: Anonymous
11 October 2024 at 13:21

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

前段时间体验了 Cursor,其中的 Cursor Tab 和 @Codebase 功能确实很强,我现在已经开始付费使用了。

不过也有开发者朋友跟我聊到,Cursor 是很厉害,但是 20 美元/月的价格实在太贵了,如果便宜一点就好了。

所以我给他推荐了一些国内的 代码补全插件——

现有的 AI 编程助手已经有多家巨头在竞争了。光我试用过的就有许多:海外产品有 Copilot、Amazon CodeWhisperer,国内产品有字节的豆包 MarsCode、阿里的通义灵码、讯飞的 iFlyCode 等等。

目前国内的这几家都是或者免费试用中,应该可以满足大多数的需求。最后他看了一圈,来了一句:「难道没有的吗?」

于是我去了解了一下,还真有这样的开源插件:Continue。

⏩ Continue is the leading open-source AI code assistant. You can connect any models and any context to build custom autocomplete and chat experiences inside VS Code and JetBrains – continuedev/cont…

🏠 Continue 官网

Continue 是一款 VSCode 和 JetBrains 插件,它本身不提供 AI 模型,但它提供了多种接入 AI 模型的方法,来实现多种场景下的功能。

相比直接用商业插件,用开源插件配合商业模型,更有「用多少花多少」的安心感。更不用说 Continue 还支持连接到本地的模型,如果你的 CPU、显卡性能足够,完全可以在本地跑一个 3B 级别小模型来实现 AI 补全。

首先,安装 Continue 插件非常简单,只需要在 VS Code 的扩展市场中找到并安装即可。

🔗 Continue – VSCode Marketplace

插件的配置就要稍微研究一下了。

由于代码助手的场景很多样,不同的模型的侧重点也不同,不能用一套 API 打天下。

比如最常见的 Tab 补全,表现最好的是 3B 大小的模型,因为速度最快。而 Chat 模型则可以用一些 GPT 4o、Claude 3.5 Sonnet 这样的常用对话模型。

Continue 目前根据用途,将模型分为下面这 4 种(下面链接内有更详细的解释):

目前在线模型中,我比较推荐的还是 DeepSeek,DeepSeek 支持 Chat 和 AutoComplete Model,并且价格也比较低廉,很适合个人使用。

你可以先在 DeepSeek 官网 注册账号并申请 API Key。

拿到 API Key 之后,你就可以根据 Continue 提供的 DeepSeek 配置文件 ,在 Continue 中进行如下配置下面这些配置。

首先在左侧打开 Continue,点击下方的配置按钮,会出现 json 格式的配置文件。

Chat model 配置,可以配置多项。

Autocomplete model,只能配置 1 个。

注意 JSON 格式非常严格,你需要确保你的写法是准确的。

Embeddings model 可以不用配置,VSCode 中 Continue 提供了一个默认配置(使用了 Transformers.js),在默认情况下会在本地计算机运行,无需额外配置。

Reranking model 也是可选配置。主要是对 @Codebase 功能有帮助,能够在向量搜索中找到最相关的代码片段。Continue 推荐使用 Voyage AI 的 rerank-1 (需要申请 Token)。为了简化配置步骤,你可以暂时用 Continue 提供的 Voyage AI 的免费试用配置。后面再按照 详细的配置文档 进行配置。

注意,上面这些只是最基础的配置,如果你有一些特别的需求,比如你希望它始终提供多行的代码补全,就需要附上额外的参数 multilineCompletions 等。再比如 @Codebase 的时候你想让它检索更大范围需要配置 nRetrieve 参数。这部分配置我推荐你自行研究一下它的文档——

🔗 Continue 自动补全文档

🔗 Continue @Codebase 文档

在线模型的使用中,Continue 确实能满足我对本地代码补全的要求。

当你使用 Tab,生成效果和速度跟文章开头提到的那些商业插件不相上下。

当你使用 Chat 面板时,也能给出格式准确的回答。

但是在 AutoComplete 功能方面还是差了一些,相比 Cursor Tab 那种只需要敲 Tab Tab 的模式,爽快感差了一截,但已经能够满足日常使用的需求。

Continue 的官网上还展示了一个 Actions 功能,包括了 @Codebase 和斜杠命令如 /edit/test 等,从动图上看效果还是很棒的。

我也体验了 @Codebase 的功能,它也会对当前代码库中的内容进行检索,检索的范围似乎比 Cursor 小一些,导致 @Codebase 的结果和体验也比 Cursor 要差一些。

但这不太严谨,只是个人体感,毕竟代码内容千差万别,Prompt 也不同,Cursor 的模型更强(默认 Claude 3.5 Sonnet),加上我没有在 Continue 中完整配置 Reranking model,多个原因共同作用下,才导致的效果不佳。

瑕不掩瑜,我认为 Continue 还是很大程度上满足了日常开发的需求。

接下来再看看 Continue 的舒适区,结合本地模型配置,用自己电脑的性能去跑模型。

本地模型我只推荐自定义 Autocomplete model,因为体量更好,速度更快。过大体量的 Chat model 在本地跑速度还是太慢,生成一条回复能急死人,回复质量也远不如在线模型。

我用的设备是 Macbook Pro M2,模型则是用 LM Studio 来加载和启动。 用户可以有其他选择,比如推荐 Jan。

根据 Continue 的推荐,它推荐我们使用开源模型 StarCoder2-3B 作为自动补全模型,我还尝试了 DeepSeek Coder 的 1.3B 模型和 6.7B 模型。

我的个人感受和 Hugging Face 地址都附在下方。

StarCoder2-3B (适合 Tab 补全,速度快,效果好)

🔗 second-state/StarCoder2-3B-GGUF 模型下载

deepSeek-coder-1.3B (适合 Tab 补全,速度快,但输出效果一般,存在格式错误)

🔗 TheBloke/deepseek-coder-1.3b-instruct-GGUF 模型下载

deepSeek-coder-6.7B(响应过慢,不适合代码补全)

🔗 TheBloke/deepseek-coder-6.7B-instruct-GGUF 模型下载

所以我的最后还是乖乖用了 StarCoder2-3B。

上面的下载链接列表里,我推荐选择 xxx-Q5_K_M.gguf。这些文件名通常与大语言模型的量化方法有关,目的是减少模型推理的计算复杂度,同时保持较高的精度。过高可能会导致速度变慢。

当你把 StarCoder2-3B 模型放到 LM Studio 的模型目录中并启动后,LM Studio 会在 localhost:1234 上启动一个 AI 服务器后端(Jan 的端口是 1337)。

然后你需要回到 Continue 插件配置中,配置如下信息——

这里常见的错误是,你必须满足 JSON 格式要求。tabAutocompleteModel 后面是 {},意味着只能配置一个,所以记得把刚刚配置的 DeepSeek 删掉。

这样一来,就可以纯用本地电脑性能实现自动补全了,不用为商业 AI 服务花一分钱了。

我分别在 Macbook Pro M2 和 RTX 3070Ti 的配置下进行了尝试。

在使用 GPU 时,代码补全速度非常快,几乎和云端解决方案没有区别。

而在 CPU 环境下,虽然响应速度稍有下降,但依然能流畅运行。

可以看到,速度方面非常 OK,代码质量也基本满足要求。甚至从响应速度上说,比在线版本还要快不少。

这种本地处理的方式尤其适合对有较高要求的开发者,因为所有的处理都在本地进行,不用担心代码被上传到云端。

不过,需要注意的是,Continue 对硬件配置还是有一定要求的。尤其是当你使用更复杂的模型时,低配置的机器可能会有些吃力并且发热严重。

因此,如果你希望获得更好的体验,还是建议使用配置较高的开发环境。

总体来说,Continue 是一款非常值得推荐的 VS Code 插件,特别适合那些重视隐私、性,并希望利用本地 AI 模型提高开发效率的开发者。

虽然在性能上需要依赖较高的硬件配置,但它提供的灵活性和本地化的处理能力,完全可以弥补这一点。

如果你有兴趣尝试 AI 驱动的代码补全,并且希望数据完全掌控在自己手中,那么 Continue 无疑是一个非常好的选择。

❌
❌