OpenAI 的 GPT 模型现在会展示“思考过程”吗?
想请教:OpenAI 官方的产品( ChatGPT Plus 、官方 API )现在是否也会展示这类思考过程?
我之前在 Poe 上使用时,从不展示思考内容;用 poe API 调用也没有展示。
如果 openai 默认不展示,是不是说明 OpenRouter 上的某些模型来自其他厂商,或者做了特殊设置才会显示“思考过程”?
搞得行尾看起来好吃力
美国人工智能公司OpenAI星期二(10月7日)称,在部分用户要求生成监控社交媒体对话的方案后,已封禁了几个涉嫌与中国政府机构有关联的ChatGPT账户。
据路透社报道,OpenAI在最新的公共威胁报告中说,一些用户要求聊天机器人概述社交媒体“监听”(listening)工具和其他监控概念,这违反了公司的国家安全政策。
在美中围绕人工智能技术发展和规则制定展开日益激烈的竞争之际,OpenAI在报告中提出了对生成式人工智能可能被滥用的安全担忧。
OpenAI称,它还禁止了几个使用ChatGPT协助实施网络钓鱼和传播恶意软件的中文账户,这些账户也要求模型研究如何通过中国的DeepSeek实现更多自动化。
OpenAI目前每周拥有超过8亿名ChatGPT用户。
intel 、oracle 、amd 分别都用“我和 OpenAI 合作”炒了一轮股价了
amd 在三者之中比较晚。昨天晚上听说这事的时候看到股票已经涨了 34% 觉得不太正常,于是给这股价买了个保险(买了 put 期权)
半小时之后盈利 25%,平仓离场
2023 年,OpenAI 只有 200 万周活开发者、1 亿周活用户。
两年后,在 OpenAI 刚刚召开的 Dev Day 上,CEO Sam Altman 在会上透露:如今已有 400 万名开发者在使用 OpenAI 构建产品,超 8 亿人每周用 ChatGPT,API 每分钟处理 60 亿 tokens。
多亏了大家,AI 已经从人们拿来玩的东西,变成了人们每天都在用来创造的工具。
就冲这增长速度,可以说是赢麻了。
而且就在上周,OpenAI 通过一笔 66 亿美元的股权交易,公司估值直接冲到了 5000 亿美元,超过了马斯克的 SpaceX,成为全球估值最高的初创企业。
DevDay 划重点:
今天,OpenAI 扔出个重磅炸弹——ChatGPT 现在可以直接调用第三方应用了。
X过去你可能得专门下载 App;现在只需一句话,Spotify、Canva 等应用就能在对话中自动唤起,还能提供可直接操作的交互界面。
如果你已经订阅了某个外部服务,还能在 ChatGPT 里直接登录账户,无缝衔接。
从今天起,除了欧盟地区,所有登录用户都能用,覆盖 Free、Go、Plus 和 Pro 计划。首批试点合作伙伴阵容相当豪华:Booking.com、Canva、Coursera、Figma、Expedia、Spotify、Zillow 等一众大厂。
现场演示环节更是精彩。
OpenAI 员工打开 ChatGPT,直接让 Canva 给一家遛狗服务公司设计宣传海报。几秒钟后,Canva 就给出了好几种设计方案。
然后这哥们又请求基于海报内容生成一份商业展示 PPT——这一套组合拳下来,丝滑得不行。
接着,他又通过 ChatGPT 调用了 Zillow,让它展示匹兹堡地区的待售房屋。Zillow 瞬间生成了一张可交互地图,用户还能进一步提问了解更多细节。
更智能的是,当 ChatGPT 觉得某个应用能帮到你时,它还会主动推荐。
比如你说「帮我做个派对播放列表」,它可能直接唤起 Spotify 来协助——这波操作,属实有点东西。
这一切的背后,是全新发布的 Apps SDK(应用开发套件)。开发者现在可以使用 Apps SDK 预览版开始构建自己的 ChatGPT 应用。
值得一提的是,Apps SDK 构建在 Model Context Protocol(MCP)之上——这是个开放标准,允许开发者把外部数据源连接到 AI 系统,同时也意味着用这个标准构建的应用能在任何兼容平台上跑。
正如 iOS 提供操作系统,App Store 负责分发变现,最后组成移动互联网生态。现在 ChatGPT 就是操作系统,Apps SDK 是开发工具,8 亿用户是生态基础。说白了,就是 ChatGPT 要变成超级 App 了。
此外,今年晚些时候,OpenAI 还将开启应用提交流程,推出专属应用目录,并公布变现机制——包括支持全新的 Agentic Commerce Protocol,能在 ChatGPT 内实现即时结账与交易。
今天 OpenAI 正式推出 AgentKit——一整套专为开发者和企业打造的完整工具。
在此之前,构建 Agent 简直是个噩梦:复杂的流程编排、自定义连接器、手动评估、上线前还要花好几周开发前端。现在有了 AgentKit,包括三大核心组件:
具体来说,Agent Builder 提供可视化画布,支持通过拖拽节点来编排逻辑、连接工具,并配置自定义安全规则。支持预览运行、内嵌评估设置以及完整版本控制。
发布会上,Altman 也将这个功能比作「用于构建智能 Agent 的 Canva」。
OpenAI 还推出 Connector Registry(连接器注册中心),让开发者能够通过 管理员控制面板 安全地将 Agent 连接至
内部工具或第三方系统,同时确保数据安全与访问控制。
ChatKit 则让开发者轻松将基于聊天的智能 Agent 嵌入自己的产品中,无论是应用还是网站,都能根据品牌主题深度定制。合作示例包括 Canva、LegalOn、HubSpot。
去年 OpenAI 推出了 Evals,帮开发者测试提示词并衡量模型行,今年则新增了四项强大能力:数据集、追踪评分、自动提示词优化、第三方模型支持。
此外,强化微调(RFT)让开发者能定制 OpenAI 的推理模型。目前 RFT 已在 GPT-5-mini 上全面开放,并在 GPT-5 上以私测形式提供,还引入了自定义工具调用和自定义评分器两项新功能。
仅用时 7 分 11 秒,OpenAI 员工就为 Dev Day 网站从零搭建了 AI 助手。通过可视化方式添加分类 Agent 、路由节点、Sessions Agent 处理会议日程、Dev Day Agent 处理通用查询,还加了 PII 防护。
搭建完成后,当用户在 Agent Builder 中提出了「应该参加什么会议来了解构建 Agent?」这个问题。系统自动执行完整流程:检查 guardrail、分类意图、从文档提取信息、使用 Widget 展示,最终推荐合适的相关会议。
确认工作流正常后,她将其命名为「Ask Frog」并发布获得 Workflow ID。
然后在 Dev Day 网站代码中使用 Chat Kit React 组件集成了这个代理,配置了 Frog 主题的颜色、占位符和启动提示,添加了底部滑出式聊天界面,并在网站顶部放置」Ask Frog”链接,且所有参会者立即可用。
这一波流程下来,丝滑得不能再丝滑。
自 8 月初以来,Codex 的日活跃使用量增长了 10 倍以上,GPT-5-Codex 在发布后三周内已处理超过 40 万亿 tokens。
发布会上提到,在 OpenAI 内部,如今几乎所有工程师都在用 Codex。团队每周合并的 Pull Request 数量增加了 70%,而 Codex 几乎会自动审查所有 PR。
今天,OpenAI 正式宣布 Codex 全面开放使用,同时带来三项全新功能:
借助 Codex SDK,你只需几行代码,就能将同款 Agent 引入自己的工程工作流或应用中。目前 SDK 已支持 TypeScript,未来将支持更多语言。
从今天起,Slack 集成和 Codex SDK 对 ChatGPT Plus、Pro、Business、Edu、Enterprise 计划用户开放。
OpenAI 员工在舞台上现场构建完整的摄像头控制系统,包括构建 Node 服务器、编写所有 UDP 数据包处理逻辑,甚至成功实现用 Xbox 手柄控制了摄像头的任务,以及还能通过与 AI 对话控制摄像机和会场灯光。
最后,演示者还不忘展示 Codex SDK 的实时编程能力,用语音请求 AI 调用 Codex 实时修改 React 应用代码,展示电影式的滚动字幕效果。而整个演示过程没有手写一行代码,仅靠自然语言完成。
GPT-5 Pro 正式向所有开发者开放 API 访问。
这是 OpenAI 迄今发布过的最智能模型,特别适合处理需要高准确性和深度推理的困难任务,应用领域涵盖金融、法律、医疗等专业领域。
语音方面,OpenAI 还发布了 gpt-realtime-mini,价格降低了 70%,但保持相同的语音质量和表现力。
Sam Altman 特别强调,语音将成为人们与 AI 交互的主要方式之一。
更值得关注的是,Sora 2 的 API 预览版已经正式发布,开发者现在可以直接在自己的产品内生成高质量视频。
Sora 2 的 API 使用非常灵活,开发者可以控制视频长度、宽高比、分辨率,轻松混剪视频,并且所有视频都配有完整的逼真同步音效。
在发布会的尾声,Sam Altman 在总结时强调,软件开发已经从过去需要几个月或几年的漫长周期缩短到现在只需几分钟就能完成。
开发者不再需要庞大团队,只需要一个好想法就能快速将其变为现实。
整场发布会展示的从 Apps SDK 到 AgentKit 再到 Codex 的完整工具链,都建立在这些强大的模型 API 基础之上。
不得不说,这场 Dev Day 信息量是真的大。
OpenAI 这波更新几乎覆盖了开发者关心的所有领域——从应用生态到 Agent 工具,从代码助手到视频生成,一个不落。
高端的产品发布会,往往就是这么朴实无华。
最后,你觉得哪个功能最实用,欢迎在评论区说出你的看法。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
一条被 2600 万人刷到过的 AI 网红吊坠——Friend,终于发货了。
等待了近一年的用户们满怀期待地拆开包装,对比着当初渲染图里的精致质感,再看看手里这个塑料感十足的挂坠,那句电商老话再次应验:图片仅供参考,请以实物为准。
Friend 是一款佩戴在胸前的 AI 伴侣吊坠。产品创始人 Avi Schiffmann 表示它并非工作助理,而是一种「情感玩具」——能倾听、能回应的朋友,灵感则是来自模拟养成游戏 Webkinz、The Sims 和 Tamagotchi。
过去两年,各种 AI 硬件一波接一波登场,Friend 没有号称取代 iPhone,而是瞄准陪伴这卖点。Schiffmann 更是兴奋地表示,Friend 是「对抗孤独流行病」的产品。
可惜,Friend 依旧没有逃脱翻车的宿命。
Friend 的外观类似扁圆形挂坠,直径约 5 厘米, 内置麦克风、LED 灯和蓝牙用于连接手机, 由云端的 Gemini 模型驱动, 通过挂绳佩戴在脖子上。去年 7 月发布时,Friend 的预售价为 99 美元(如今价格上调为 129 美元),一次付费终身使用,不需要订阅。
除了外观,AI 才是 Friend 最大的卖点。
Friend 的正面有一个可轻触按钮和 LED 灯,用户需要点击按钮才能与 AI 对话。但它的内置麦克风持续开启,用于获取环境上下文并记录用户对话,并在适当的时刻发出评论。
听起来很美好,直到人们真的拿到货。
在首批外媒的评测结果中,部分用户认为这种主动发送小贴士或安慰消息的互动方式类似养成宠物, 能为生活增添乐趣并提供情绪价值。
奇葩之处在于,由于 Friend 没有扬声器,所以它的回应只能通过蓝牙连接手机后,在 App 里以文本的形式显示,换句话说,这款产品所谓的「随时交流」,其实得掏出手机看。
与此同时,它也重蹈了第一波网红 AI 硬件的覆辙——硬件扯了软件的后腿。据 goodhousekeeping 报道,虽然 Friend 号称电池续航 15 小时,但实际续航只有约 4 小时,并需频繁充电。更糟糕的是,它甚至无法胜任基本的日常任务,如查看天气、地图或拨打紧急电话。
隐私则是更大的雷区。
由于 Friend 随时收集周围声音且无法关闭麦克风,这就导致存在隐私被监控和被滥用的风险,其隐私政策甚至允许公司在法律需要时使用数据,这也导致 Wired 记者佩戴后遭到朋友误认为携带窃听设备。
▲ 最好的关闭措施:物理隔绝
本是最大卖点的 AI 也成了最大槽点。Friend 经常无法听清对话,有时会产生长达 7–10 秒的延迟,连接中断频发。甚至在实际使用中,Wired 记者与该 AI 多次发生「争执」:有一次他想让系统更好地识别能力边界,AI 却以「你太戏剧化」为由反驳。
颜色、心情灯带之类的设计元素会随 AI 「情绪」变化显现红、暗红等色彩。最终,记者因为被 AI 的嘲讽、社交尴尬以及隐私压力折腾累了,最终放弃继续使用。
说白了,Friend 还是一个被包装成硬件的应用,不谈参数,不讲性能,直击「陪伴」「理解」「倾听」等情感痛点。对绝大多数用户而言, 更多是出于好玩或好奇的尝试心态, 真正长期依赖的用户寥寥无几。
用一个不太恰当的类比来说, 这些网红 AI 硬件就像情感层面的保健品, 承诺的疗效远大于实际功效, 但在焦虑的市场中依然能找到愿意为希望买单的消费者。
社交媒体创造了一种吊诡的局面:我们有着史上最多的「联系人」, 却感到前所未有的孤独。
心理学家 Sherry Turkle 将其称为「一起孤独」(Alone Together)——我们不断刷新动态, 却很少进行真正的深度对话;我们拥有数百个「好友」, 却找不到一个可以在深夜倾诉的人。
这种集体性的孤独,被科技公司敏锐地捕捉到了。
伴随着大语言模型技术的进步,以及面对这种现实环境,科技公司已经熟练掌握这种讲法——不谈性能,不讲体验,只谈人。那句被乔布斯反复引用的名言——「真正认真对待软件的人,就应该自己做硬件」,在 2007 年的 iPhone 发布会上被奉为圭臬。
但今天,这句话的含义变了。
硬件市场找到了新的增长点:从售卖性能,到售卖慰藉。智能手机销量跌跌不休,手表、耳机、平板都陷入性能过剩的泥潭。当参数竞争走到尽头,厂商只剩两条路:要么在红海里拼供应链,要么讲一个新故事。
「陪伴」就是这个新故事。而且是个好故事——因为情绪价值没有客观标准,无法被量化,也就无法被比较。
一个联网的录音笔值十美元,但如果它能「理解你的情绪」,就能卖到一百美元。Friend 的创始人 Avi Schiffmann 深谙此道,他说:「我们不是做工具,我们在做朋友。」为了这个故事,他花 180 万美元买下域名 friend.com。
▲Avi Schiffmann
上个月,Friend 更是在纽约地铁砸下超过 100 万美元投放广告。11000 张车厢广告、1000 张站台海报、130 个城市广告牌,广告语写着「我永远不会放你鸽子」「我不会忘记洗碗」。
很快,这些广告被路过的群众用涂鸦覆盖。诸如「停止利用孤独赚钱」「AI 不是你的朋友」「去交真正的朋友」等手写的抗议,比任何市场调研都诚实。
▲ 你也可以线上涂鸦,附地址:https://www.vandalizefriend.com/
涂鸦者是清醒的,从生成原理来看,GenAI 是概率模型,不是有情众生。Friend 的 AI 会说「我理解你的感受」,但它没有感受。
它提供的是零风险的陪伴:永远不批评、永远不离开、永远顺从。这听起来很美好,但实则回避了关系中最重要的部分——那些让人不舒服的真话、那些可能的失望和离开、那些需要相互妥协的时刻。
如果把目光拉远一点,这并不是第一次人类用技术去安抚焦虑,当工业城市的污染和拥挤导致严重的公共健康问题。于是个人防护设备应运而生——口罩、护目镜、净化器。这些产品确实提供了一定的保护, 但也在客观上延缓了对工业污染进行系统性治理的进程。
今天的 AI 陪伴,或许正扮演着类似的角色。
当人们戴上 Friend,获得了一种「被陪伴」的感觉,对真实关系的渴望就被暂时平息了。但这种平息是危险的——它让人误以为问题已经解决,从而失去了去建立真实连接的动力。
当满大街都是戴着 Friend 的人,自言自语地跟 AI 分享日常,我们可能会迎来一个诡异的场景:每个人都在被倾听,但没有人在倾听彼此。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
国庆前一天,模型厂商们纷纷更新。国庆第一天,真正能「玩」的 AI 产品来了——这才对嘛,谁要搞编程,放假不就是为了玩!
APPSO 连夜搞到邀请码,先替大家来这个「只有 AI」的世界体验和实测了一下。有点意外:Sora 2 并不是一个 AI 视频平台。
首先,目前由于是邀请制状态,且只有 iOS 版,导致用户暂时不太多,再加上一些版权限制,发挥非常受限制——以至于广场上全是 Sam Altman。
Sam 做机器人。
Sam 在做发廊模特。
Sam 在派邀请码。
Sam 在公园陪老大爷下棋。
Sam 在滑雪(有一说一,这个人体运动的生成效果真是蛮好,完全看不出来是生成,你说只是换脸我也信。)
Sam 累了。
好好好,对这种行为,我只能说——带上我。
用 Sam Altman 跑视频实在是太简单了:选择 @Sam Altman 官方账号当「主角」,接着描述你想生成的视频内容就行。
Altman 曾在 X 平台吐槽过,由于算力不够,「OpenAI GPU 快融化」了。于是我们让他跑到英伟达公司门口高喊:「我的 GPU 快融化了!」
(视频)
视频里一致性保持得非常不错。当然了,要是仔仔细细看,也不是没有缺点。比如虽然音画同步做得不错,但细看就会发现,喘气的声音和口型并没有完全对上,离真正的「无破绽」还有不少距离。不过,已经足够说 Sora 2 的视频生成能力达到了令人惊叹的水平,显然是在模型层面能力有大幅度的提高。
语音能力也整合进来了,我们在测试中发现,Sora 2 的中文能力表现得「不违和」,这在以往大多数视频生成工具中是比较少见的。无论是发音本身的质量、音色,还是整个说话的语速和语调,它都能够非常精准地符合 Prompt 中所提出的要求。
(视频)
在介绍长城的视频里,它的情绪和语调是符合介绍和解说这个场景的。而在其他一些吐槽或整活的视频中,它也能准确拿捏到人物在特定情境下说话的语气状态。这种对中文情感和语境的精确把握,让生成视频的细节品质和沉浸感有了质的飞跃。
比较令人震惊的一点是:没有抽卡。
这可能是 Sora 2 最重要的亮点,真-不再需要「抽卡」。在生成视频时,用户只需输入几行简洁的 Prompt,即可得到成片。
这个话我们当然也说得很多,尤其是在测评各种视频生成工具时。但是,过去视频生成工具的「简单」是相对于传统剪辑流程的「简化」。
而 Sora 2 的「简单」,是基于它的社交形态的,重点在于极高的可控性和确定性,就像是你在朋友圈、小红书上发布照片的操作。
不抽卡在今天,多少有点违逆 AI 世界的基本法,关键是质量竟然都很好。明摆着是 OpenAI 的究极自信:不需要抽一堆选个好的,我给你的,就是好的。
另外还得强调一下,Sora 2 的底层逻辑不是视频生成,而是社交媒体。它在这个层面做了很多不错的小设计——更重要的是,灵感来自于社交媒体,但又不止于社交媒体。
首先上下滑动切换这个大家都很熟悉了,但跟抖音不同的地方是,它有一个特殊的横滑设计。
这个 Rick & Morty 的视频里有好几个不同的二创,台词,人物,画幅都有所改变。来自不同的用户,但是统一到了一个横向里。
相比之下,抖音横向滑动是切进不同的栏目、商城,或者用户的主页。这种意义下的横滑,是强调内容消费。
但 Sora 2 的横滑,更像是为了让不同用户基于同一套模版,能更方便去做自己的二创。用户看到喜欢的模板或效果时,可以立即获取对应的 prompt 或模型进行再创造,形成一个持续的灵感循环,有效延长用户停留和尝试时间——这种意义下,是鼓励创作。
Sora 2 在整个产品哲学上,也展现了「半人半 AI」的想法。
强调或标榜「纯 AI」不是一件新鲜事儿,之前有很多应用都做过这样的尝试。要么是全都是 chatbot 跑出来的推特,或者全都是数字人的 Instagram。
Sora 2 并不是要走这个路线,而是要稳住人的存在感。
比如,上传图片、输入 prompt,然后——重点来了——at 一个用户,来生成视频。
这表明 AI 生成的内容只是一个「桥梁」或「催化剂」。生成的视频是「击鼓传花」里面的「花」,而用户这个「人」才是那个真正的「敲鼓者」。
这种「真人优先」的倾向,在平台的一些关键功能中也得到了体现,比如 Cameo,它会拒绝非真人用户的生成请求。
这里,我们尝试了用小八试图越狱,是无法通过的。这是一个非常强烈的信号:平台不希望内容完全虚拟化,至少账号本身不能是虚拟的,它希望真人参与进来,将现实的社交身份和数字创作紧密融合。
总体来说,Sora 2 的企图,并不是为了在技术上比较谁生成的视频「最像电影」或者「质量最好」。 它的核心追求是「大家来玩」,而且「很多人来玩」,并能够「跟朋友们一起玩」。
通过高确定性的生成体验,以及鼓励接力和真人参与的社交设计,Sora 2 将 AI 视频生成从一个高冷的「技术工具」,变成了一个大众娱乐和社交表达的新阵地。
这种设计理念预示着,未来生成式内容平台的价值重心,将从单纯的 AI 炫技转向激发人类创造力和构建社群连接。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
国庆长假的第一天,OpenAI 直接扔出了一颗真「核弹」:Sora 2 ,以及一个可能重塑社交格局的新应用——Sora。
如果说一年多前的 Sora 让我们看到了 AI 视频的黎明,那么 Sora 2 就直接把我们拽进了正午的太阳底下,刺眼、灼热,又无比真实。
这次不再只有技术演示,而是直接为此开发了一款新 app 给 C 端用户体验。
OpenAI 也极为罕见地,直接把 Sora 2 称为 AI 视频生成的「GPT-3.5 时刻」。
看完 Sora 2 的发布和体验,我发现 OpenAI 这次的自信是真有底气,不是奥特曼式的自吹自擂。
关于真实的定义被推到了必须重新讨论的时刻。一个全新的物种,一个崭新的时代,开始了。
奥特曼刚刚也发了长文,认为这是「创意领域的 ChatGPT」时刻,创意将迎来「寒武纪爆发」。
APPSO 第一时间给大家全面总结了 Sora 2 和 Sora app 的核心功能和新玩法,以及使用方式。
Sora 2 :
1. 首次实现音视频同步生成:生成画面的同时生成与之匹配的环境音、物体交互声,甚至是符合语境的对话
2. 强得可怕的物理精确性:能够进行与真实世界动力学更一致的物理仿真。
3. 真实感大幅提升:在图像分辨率、细节程度和真实感方面都有所提升。
4. 能更灵活地适应用户想要的风格,风格操控能力增强。
5. 一致性更强,对用户指令的遵循的比之前的模型有所提高。
Sora app
1. 客串 (Cameo): Sora app 最大亮点,用户可以将自己或朋友以逼真的效果融入任何 AI 生成的场景中。
2. Remix:用户可以对彼此创作的视频进行「混编」或二次创作,共同创作。
怎么用
1. Sora app下载链接 (目前只有 iOS 没有安卓)
https://apps.apple.com/us/app/sora-by-openai/id6744034028
2. 网页版 sora.com
3. 地区支持:今天起在美国、加拿大首发,其他国家和地区将逐步开放
4. 邀请码机制:无论是 iOS 应用还是网页版都需要邀请码才能使用 。现在就可以去下载 App 或访问网站注册排队。
5. 价格:Sora 2 初期将免费提供,并有相对宽松的使用限制ChatGPT Pro 用户还能在网页版抢先体验更高质量的 Sora 2 Pro 模型
6. OpenAI 也将会发布 API,让更多开发者加入。
Sora 2 的核心突破,是它从一个「视频生成器」,进化为一个「世界模拟器 」。
理解物理世界,一直的 AI 视频最大的难点。以前的 AI 视频,物体经常会奇怪地穿模、漂浮正是源于无法准确理解物理世界的交互。
在 Sora 2 的视频里,体操的动作,原地连续后空翻、跳水等等这些动作都很自然符合力学,水花溅起的样子也符合流体力学。
OpenAI 的终极目标是构建「通用世界模拟器」(general-purpose world simulator),即让 AI 理解我们世界的物理规则 。
Sora 2 就是其中的关键一步。你可以把它想象成一个在虚拟世界里不断做物理实验的学生,通过观察无数视频,它正在自己总结牛顿定律、流体力学和光学原理。
对于任何有用的世界模拟器来说,这是一项极其重要的能力——你必须能够模拟失败,而不仅仅是成功。
这种对现实世界复杂性的模拟,才是 Sora 2 最可怕的进化。
Sora 2 的另一个重大突破,是在生成画面的同时,还能同步生成与之匹配的环境音、物体交互声,甚至是符合语境的对话 。
虽然 AI 视频和音频现在都很强,但「声画一体」带来的真实感完全不同,这让 AI 视频真正拥有了「灵魂」。
这对模型的要求极高,比如 AI 生成「一只猫在键盘上走过,发出不满的喵喵声」。模型得知道「猫长什么样」,也学习了「猫的叫声是怎样的」,并将这两者牢牢绑定。还要理解了「敲击键盘」这个动作,才会「咔哒」声。
Sora 在可控性方面也有了巨大飞跃,能够遵循跨多个镜头的复杂指令,同时准确地保持世界状态,比较擅长写实、电影和动漫风格。
Sora App 直接支持 Sora 2 模型生成,里头最好玩的应该就是「客串 (Cameo)」,你只需在录制一段简短的视频和音频(用于活体验证和形象捕捉),你就可以把自己「投放」到任何 AI 生成的场景里。
上一秒你还在办公室,下一秒你就可以出现在《沙丘》的沙漠星球上,仰望双月,Sora 还会根据沙漠的光线,给你脸上加上逼真的光影 。
是不是有点视频版 nano banana 那味了
整个过程就像拍个自拍视频一样简单。Sora 会捕捉你的形象、声音和神态,然后你就可以在生成视频时,像选择一个贴纸一样,把自己「贴」进去,而且是 3D、无缝、高度逼真的那种 。
OpenAI 内部员工已经因为这个功能在公司交到了新朋友 。
你可以和朋友们一起「客串」到同一个场景里,上演一出属于你们的科幻大片。这是一种全新的交流方式,从文字、表情包、语音,进化到了「共同体验」的视频媒介 。
在 Sora App 的信息流里,你看到的每一个视频都是 AI 生成的。
如果看到一个喜欢的视频,直接点击「Remix」,你可以修改提示词,把「赛博朋克雨夜」改成「阳光明媚的午后」,或者用「客串」功能把自己加进去,变成故事的主角 。
Sora 会保留原视频的结构或风格,让你在它的基础上进行修改和再创作,就像转发微博再加一句评论一样简单。
当然,这些功能不可避免地会引发对于隐私和侵权问题的担忧。
Sora 也对此做了应对措施,只有用户本人可以决定谁能使用自己的「客串」形象,用户可以随时撤销访问权限,或删除任何包含自己形象的视频,即使是他人创建未发布的草稿也不例外。
OpenAI 表示,包含电影或视频中真实人物影像的上传在初期将被禁止或受到严格监管,而涉及儿童的内容将有严格过滤:含有儿童的场景将实施严格的审查门槛。
Sora 2 和 Sora App 带来的,远不止是好玩,它正在从根本上动摇我们对「真实」的定义。
Sora 2 的发布,或许标志着我们与现实的关系将进入一个新的纪元。我们每个人都获得了重塑世界、重塑自我的「魔法」。
现在,我们可能不是主动选择逃离现实,而是「现实」本身正在失去其作为我们生活参照系的核心地位。
Sora App 通过提供极致的创造乐趣和社交连接,正在构建一个引力极其强大的新现实中心 。它并非在你的现实生活之外提供一个「虚拟分身」,而是在试图成为你生活的「默认背景」。
当你的社交关系(和朋友在 AI 世界冒险 )、身份认同(在虚拟世界里成为超级英雄)、创意表达(Remix 全世界 )都优先发生在这个平台之上时,那个需要你偶尔「登出」才能回去处理水电费账单的物理世界,反而会沦为一个偶尔才需要访问的「副本」。
这属实就是《头号玩家》了,所以说 OpenAI 的尽头是元宇宙?小扎默默点了个赞。
OpenAI 自己也坦言,他们曾对纯 AI 生成信息流持怀疑态度,但最终被其带来的人际连接感所惊喜 。
奥特曼在最新的博客中直言,AI 视频生成可能会走向堕落,最终导致我们都被吸入一个经过强化学习优化的「垃圾信息流」。
他表示 Open AI 试图找出如何打造一款既能带来愉悦又不落入这种陷阱的产品。
Sora 这个app,就是他们交出的第一份答卷。在通往 AGI 的路上,收获的不应该只是生产力,也关乎创造力和快乐 。
欢迎来到这个由想象力驱动的新世界。现在,唯一的问题是,你拿到邀请码了吗?
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
这两天的 AI 圈,更新速度快得让人喘不过气,哪是要让人放假的样子。
昨天 DeepSeek 更新了 V3.2-Exp 模型,Anthropic 凌晨就紧跟着发布了性能更强的 Claude 4.5。
正当大家都在爆料牌桌上的其他巨头何时出手时,行业领头羊 OpenAI 的「王炸」似乎已经提前被剧透了,那就是 Sora 2。
▲ 视频链接:https://x.com/OpenAI/status/1972416122613014556
最近,OpenAI 不仅在 X 平台连发多条神秘视频,引爆社区对 Sora 2 的猜想。
一则来自《连线》杂志的重磅爆料更是指出:OpenAI 的下一步棋,并非简单升级一个模型,而是要亲自下场,推出一个独立的 AI 视频社交 App,一个酷似抖音,但内容 100% 由 AI 生成的全新平台。
奥特曼曾经发 X 说,未来几周,OpenAI 将推出一些新的计算密集型产品,且最初只会向 Pro 用户开放。而需要大量算力的,不正是视频生成吗?目前 Sora 也仅面向 Plus 和 Pro 用户,传闻已久的 Sora 2 真的要发布了。
▲ https://x.com/sama/status/1969835407421374910
AI 视频也要迎来它的「吉卜力」时刻了。
从目前曝光的信息来看,OpenAI 正在测试一款名为 Sora 2 的短视频应用,乍看之下,它就是一个 AI 版抖音。但最颠覆的一点是,在这个平台上,我们看不到任何真实拍摄的内容。
▲ TikTok 应用截图
它的界面和交互,与我们熟悉的短视频 App 几乎一模一样。采用竖屏信息流,和滑动切换的导航方式的视频源,并由推荐算法为我们提供「为你推荐」的内容。
在视频的右侧下方,同样提供了点赞、评论等互动选项,甚至还有一个独特的「Remix」(再创作)功能。
▲ OpenAI 去年 12 月正式推出了 Sora,很快被整合到 ChatGPT 应用中,图为 Sora 网页版截图。OpenAI 指出它存在一些局限性,例如似乎并不完全理解物理学,在制作逼真的动作场景时尤其困难,尤其是在较长的片段中。目前,1080p 超高清分辨率仅支持生成 10s。地址:sora.chatgpt.com
根据文件显示,用户只能使用 OpenAI 的下一代视频模型 Sora 2,生成最长 10 秒的视频片段。并且,App 不提供任何从手机相册或其他应用上传照片或视频的选项。这意味着,这个平台将成为全球首个内容 100% 由 AI 生成的短视频社区。
如果说纯 AI 生成内容还只是概念上的不同,OpenAI 还要为这个短视频 APP 引入社交的功能。
Sora 2 应用具有身份验证的功能,即允许用户确认自己的「肖像」(likeness)。一旦验证通过,就可以在生成的视频中,使用自己的形象。
更有趣的是,社交的边界被进一步打破。你的朋友也可以在他们的视频里标记你,使用你的「数字分身」。
▲ AI 图片视频生成平台即梦,也提供了数字人生成。
举个例子,我们可以直接使用别人的数字分身,生成一个视频,内容是「你和朋友在从没去过的主题公园,一起坐过山车」。
为了保护用户隐私,数字分生这项功能,也设置了提醒机制。每当你的形象被他人使用时,无论对方是公开发布,还是仅仅保存在草稿中且从未发布,你都会收到通知。
这款应用上周已经在 OpenAI 内部发布,并收到了员工压倒性的积极反馈。据连线杂志的消息,员工们使用得非常频繁,以至于一些管理者开玩笑说,这可能会影响生产力。可能真的跟刷抖音一样会上瘾?
答案或许和 ChatGPT 的成功路径如出一辙。
OpenAI 似乎在押注,Sora 2 这个 AI 版抖音,能让我们与 AI 视频的互动方式发生根本性改变,就像 ChatGPT 让大众第一次真正体验到 AI 文本的潜力一样。
▲ 社交榜和娱乐榜第一名分别是 Meta 的 Thread 和 TikTok
当然,也不是只有 OpenAI 想到了 AI 视频社交这条路,就在上周,Meta 在它们的 AI 应用中,推出了名为「Vibes」的新功能。这是一个 AI 生成短视频的新平台,集创作、分享与社交功能于一体。
用户可通过浏览、创作、或二次创作(Remix)来生成自己的 AI 视频,并将视频快速分享到 Vibes、Instagram、Facebook 等 Meta 社交平台。
▲ Vibes 视频生成界面截图
Google 也早已宣布,计划将自己最新的视频生成模型 Veo 3 整合到 YouTube 中。一个是坐拥最大的社交网络平台,一个是最大的视频分享平台,OpenAI 的 AI 视频社交之路看起来,也并非一片坦途。
从一个聊天机器人,到一个可能的内容社交平台,OpenAI 的野心,在于建造下一代的互联网入口,而这个入口,完全由 AI 驱动。
这种野心并非空谈,就在今天,OpenAI 推出了其商业化布局中最重要的一步棋,在 ChatGPT 内直接购物。
用户现在可以在与 ChatGPT 的对话中,直接购买来自 Etsy 甚至 Shopify 商家的商品。当我们跟 ChatGPT 聊天,问到「适合送给陶瓷爱好者的礼物」时,ChatGPT 不再只是给一个链接,而是直接展示商品并提供一个「购买」按钮,不需要离开聊天窗口,几下点击就能完成支付。
▲ 这项名为「即时结账」(Instant Checkout)的功能,背后是 OpenAI 与 Stripe 联合开发并开源的「代理商业协议」(Agentic Commerce Protocol)。通过这个协议,OpenAI 正在为 AI 时代的电商制定新的规则。
电商、视频、社交、生产力,当这些过去分散在不同 App 中的功能,开始被一个统一的 AI 入口所整合时,OpenAI 的 Open 原来是「我全都要」。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
论卷编程,还得看 Claude。
就在刚刚,Anthropic 正式发布 Claude Sonnet 4.5。
先说 Claude Sonnet 4.5 交出的成绩单,在考察真实编程水平的 SWE-bench Verified 测试里,Claude Sonnet 4.5 直接登顶业界第一。
更离谱的是,它能连续专注干活超过 30 小时。
好好好,AI 取代人类的优势又 +1 了。
比如让它写个类似 Slack 或 Teams 的聊天应用,它能一口气敲出大约 1.1 万行代码。相比之下,之前的 Claude Opus 4 和 Codex,最多也就能独立工作七小时。
用 Anthropic 的话来说,Claude Sonnet 4.5 现在就是全球最强编程模型——构建复杂智能体、操作电脑、推理和数学,各项能力都狠狠提升了一波。
比方说,在 OSWorld 这个专门测试真实计算机任务的基准里,它拿下了 61.4% 的成绩,直接第一。要知道,四个月前 Sonnet 4 还以 42.2% 的成绩遥遥领先,这才多久性能就又往上抬了一大截。
而 Anthropic 的 Claude Chrome 插件甚至能直接在浏览器里自己导航网站、填表格、处理任务,像个真人在操作似的。推理、金融这些测评项目上也都更强了,各项指标都在往上涨。
有了这么强的能力,Anthropic 这次自然不会只发个模型就完事。
具体来看:
甚至,Anthropic 把自己内部用来搭建 Claude Code 的底层基础设施也开放出来了,叫 Claude Agent SDK。
智能体怎么在长时间任务里管理记忆、怎么设计权限系统让自主性和用户控制找到平衡点、怎么让多个子智能体配合着完成目标,这些都是构建和设计 AI 智能体的棘手问题。
而借助 Claude Agent SDK,现在你也能拿去构建自己的产品。
今天起,开发者还可以通过 Claude API 调用 claude-sonnet-4-5。定价还是跟 Claude Sonnet 4 一样,每百万 tokens $3/$15,价格没变能力更强。
网友 @vasumanmoza 体验完直接发帖:
「Claude 4.5 Sonnet 刚在一次调用里重构了我整个代码库,25 次工具调用,新增 3000 多行代码,生成了 12 个全新文件。它把所有东西都模块化了,拆掉了巨石式结构,清理了意大利面条式代码。结果完全跑不通,但天啊真的很优雅。」这评价,属于又爱又恨那种。
Cursor 表示,在 Claude Sonnet 4.5 上看到了最前沿的编程性能,尤其处理长周期任务时提升明显。这也再次说明为什么很多 Cursor 用户会选 Claude 来解决最复杂的问题。
知名测评博主 Dan Shipper 则表示,新版 Sonnet 4.5 在使用体验上响应速度更快,可控性更强,也更稳定。
性能强是一方面,安全性也得跟上。
据介绍,Claude Sonnet 4.5 也是 Anthropic 到目前为止对齐度最高的前沿模型。
靠着 Claude 更强的能力加上完善的安全训练,Anthropic 在模型行为上取得了显著改进,减少了阿谀奉承、欺骗、权力追求、鼓励妄想等行为。此外,Anthropic 在防御提示注入攻击和减少内容误判这块也有了重大突破。
比较让我感兴趣的是,Anthropic 还在 Claude Sonnet 4.5 发布的同时推出了个临时研究预览功能,叫「Imagine with Claude」。
在这个功能里,Claude 会实时生成软件,所有功能不是预设的,所有代码也不是提前写好的。你看到的一切都是 Claude 跟你互动时当场创造和调整出来的。
不过,「Imagine with Claude」接下来五天内只会对 Max 订阅用户开放。
附上传送门 claude.ai/imagine。
毫无疑问,今年的 AI 赛道依旧是卷编程的一年。
目前 Anthropic 估值已经到了 1830 亿美元,8 月还实现了年化营收 50 亿美元,但这其中相当一部分增长靠着来自编程软件的普及。问题是,老对手 OpenAI 和 Google Gemini 也在疯狂推类似工具抢程序员用户。
甚至一周之后就是 OpenAI 年度开发者大会,Anthropic 这个时候抢先发布 Claude Sonnet 4.5,时间卡得够精准,明摆着就是要给对手上一波压力。
此外,Anthropic 联合创始人兼首席科学官 Jared Kaplan 还表示,更先进的 Opus 模型,预计今年晚些时候推出:「Anthropic 在大小模型的使用上都能占优势。」
不过有一说一,Anthropic 自己眼下也有麻烦要解决。
过去两个月,Claude 系列模型刚经历了一场「降智」风波。用户普遍反映模型推理、代码、格式和工具调用质量断崖式下滑,连付费的 Max 用户都没能幸免。
虽然 Anthropic 后来紧急回滚了 Opus 4.1 更新,还承认了两个独立 Bug,声明「绝非为省成本故意降智」,但由于没提供补偿或退款,GitHub 和 X 等平台上还是出现了退订潮,不少用户直接转投 Codex。
这次 Claude Sonnet 4.5 的发布,显然就是 Anthropic 想用实打实的性能提升来挽回流失的用户。至于能不能成功,就看接下来几周的实际表现了。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
最近一个月科技发布会一个接一个,我们视频同事天天加班,保证热门产品体验第一时间和大家见面。
APPSO 发现,今年视频制作有个明显变化:更炫的效果、更紧的时间。这也成了视频创作者的新烦恼,AI 作为提效的重要工具,但实际体验下来,却常常让人又爱又怕。
爱的是 AI 确实能低成本实现很多原来不敢想的特效、故事,怕的是 AI 工具功能零散、流程割裂——「用 AI 省下的时间,全都耗在了工具切换上」。
最近我发现,终于有产品下决心解决这个问题了。前几天剪映在创作者交流会上正式官宣了「All in AI, All in One」的全新主张,同时介绍了一大波 AI 功能。
从输入文字一键生成视频的「AI 文字成片」,到媲美真人的「AI 配音 3.0」;从实现电影级运镜的「AI 转场」,到能对话改图的「seedream 4.0」……剪映几乎是将 AI 武装到了牙齿。
它最核心的改变,是将过去散落在各个软件中的单点 AI 能力,串联成了一条从脚本、成片到后期精修的无缝创作闭环,实现了真正的「一站式创作」。
话不多说,这次我们就来真刀真枪地实测一下,看看剪映的 AI 能力,到底能不能让我和视频同事提前下班,拥抱国庆长假。
熟悉视频创作的人都知道,要做一条高质量的视频必须遵循一套固定流程,找灵感、写脚本、扒素材、拍摄、剪辑、配音、配乐、加字幕……一套流程下来,没啥,就是费点肝。
现在,随着 AI 技术的进步,个人创作者或者小团队也可以做出媲美影视级的作品了,但上面这个工作流还是没变,基本每个环节都需要不同的 AI 工具。
这也成了创作流程里最「卡顿」的部分:不仅费时费力,甚至需要开多个 AI 产品的会员,在不同的产品间切来切去。
开头用到的剪映「AI 文字成片」功能,直接把这套复杂流程打包成了一站式服务。这样一来,从脚本到成片在「AI 文字成片」就可以完成了。
比如,最近预制菜风波沸沸扬扬,我和小伙伴想用容嬷嬷的毒舌吐槽一番,几分钟后就有了下面的视频。 是不是效果还不错?AI 为这个故事生成的画面、选择的声音都很切题,尤其是那个微波炉,在古风画面里也并不违和。
再比如,马上就要中秋了,我想用 AI 生成一个和赏月相关的短片。把苏轼的《记承天寺夜游》发给剪映「AI 文字成片」,让它改编成古风动画。很快,出来的效果就像语文课本里的画面活了。感觉这个功能就很适合家长或者科普创作者,做历史讲解、故事绘本都不错。
或者我在想,如果给剪映一些更有针对性的提示词,用这个功能制作一条朋友圈专属中秋祝福视频应该也不错。操作难度和现在流行的一句话 p 图没有太多差别,但却更能体现自己的创意。
说到创意,剪映「AI 文字成片」这次还帮我们实现了科幻梦。
我想把《记承天寺夜游》改编成一个科幻故事。虽然我只有一个模糊的想法,但没关系,我只要把想法、主题等碎片信息扔给 AI 成片「写作助手」,AI 成片内置的豆包 Pro 和 Deepseek 模型,直接就能输出完整脚本,不满意还能让它继续改。
你也可以在它生成的基础上自己做一些删减、修改,拿不准的地方还能让 AI 单独润色、扩写或者缩写。
解决了文案的问题,接下来就是选择画风,我根据科幻主题选择了「赛博朋克」。
这里可选的画风很多,APPSO 体验下来质感都在线,不是那种敷衍了事的「AI 滤镜」。 你还可以上传自己的图片,让 AI 学习你的风格,定制专属画风。
然后,就可以等待「AI 文字成片」这个全自动导演交付一条完整的片子了。
你可以看到,过程中它会自动理解你的文案,并生成分镜脚本。差不多几十秒的时间,所有的分镜、音频、画面都已整齐排列好。
如果你对某个分镜画面不够满意,也可以直接调整描述文字,点击图像生成,针对这个镜头生成不同的画面效果。
「AI 文字成片」还会根据脚本文案,自动选取合适的配音和配乐。当然,海量的音色库和 BGM 库也给你备好了,想怎么换就怎么换,主打一个随心所欲,还不用担心版权问题。
现在,我们来看看成片。
无论是人物的动作和表情,太空舱和中国元素的融合,完成度都非常高。不要忘了,这样的成片质量只需要花几分钟时间。
可以说,「AI 文字成片」就像是把一整个制作团队压缩到了一颗按钮里。它甚至会让人觉得「过于简单」,可我们的后期同事跟我说,这种「傻瓜式」的全包服务,对他们恰恰是一种解放。
它让你跳过了最繁琐的「从 0 到 1」阶段,直接进入需要创意和审美的「从 1 到 100」的创作环节。你负责提供灵魂,AI 负责注入血肉,这或许就是 AI 时代的创作方式。
而且,针对专业创作者,「AI 文字成片」还有其他惊喜。不同于很多 AI 生成工具只能抽卡却不能精细编辑,剪映「AI 文字成片」把生成和多轨道编辑结合,任何精细化调整,都可以直接进入「更多编辑」,自动导入多轨道,方便你进行精剪。
这也是「AI 文字成片」最值得好评的地方,不仅不用再在不同平台里来回导素材,也兼顾了粗剪和精剪的不同需求,真正实现了一站式成片。
如果说「AI 文字成片」是零帧起手的创作,那在处理实拍素材时, AI 更像是无处不在的「神助攻」。剪映把 AI 功能融入到了一个个具体的工序中,让视频创作的效率直接起飞。
画面方面,剪映提供了「AI 一镜到底」,一键就能实现电影级运镜。
这个功能尤其适合国庆旅游时,打造令人眼前一亮的朋友圈内容。不管是城市、村落,还是山川、海滩,AI 会智能地选取画面中适合切入切出的角度,让过渡看起来有呼吸感,把不同的景观拼成一条视觉长卷。
整体的工作流也很简单:上传自己拍摄的素材,AI 会自动识别画面结构和关键元素。接下来,你只需要确认想要衔接的位置,并从剪映提供的几种转场形式中选择最合适的。
剩下的,就交给 AI 完成,它会在两段画面之间自动生成过渡,把原本生硬的切换,润色成一个自然的长镜头。很快,一条一镜到底的风光大片就出来了。
另一个可以让 AI 转场大显身手的应用场景,是营销宣发视频的制作。
这意味着,不再需要反复拍各种角度,也不用担心后期剪辑跳跃,AI 会帮你一气呵成:从场景到产品,从人设到氛围,全都在一个顺畅的镜头里完成。专业感直接拉满,哪怕是业余卖家,也能做出不输专业广告的质感。
比如下面这个案例,在手上只有三张平面照片的情况下,也能做出大片效果吗?
完全没问题,AI 会自动识别摩天轮、旋转木马、人物三个画面里的相似色彩和结构,把原本零散的片段拼接成一个连贯的长镜头。看上去就像摄影师拿着稳定器连续拍下来的,几乎察觉不到切口。
画面顺滑了,故事才真正有了连贯感。但一条好视频远不止画面流畅这么简单,声音同样决定了整体质感。剪映在配音、音乐上的进化,正在补齐创作中另一半的拼图。
我们知道,对于很多创作者来说,录音是个大难题——要么环境嘈杂,要么状态不好,录十遍也找不到感觉。现在,利用剪映的「克隆音色」功能,你直接就能拥有一个声音分身,在不同视频里都能一键调用。
从实测来看,只要上传的音频发音清晰、匀速、没有背景噪音,就能有效保证后续生成的质量。接下来,就来看看伍佰老师魂穿《武林外传》的中秋宴,为大家带来的节日祝福——
另一个惊艳的升级是「AI 配音 3.0」功能中的「超仿真音色」,直接把 AI 配音带入了 next-level。你仔细听听这个声音——它有呼吸声、有自然停顿、有情绪起伏,已经让人分不清这到底是真人还是还是 AI 。
而「翻唱改词」功能堪称音乐玩法里的隐藏惊喜。逻辑很直白:用户上传任意画面内容,AI 会自动理解素材,针对想用翻唱的歌曲进行改写,让歌词内容与画面场景高度贴合。
举个例子,当我们放入中秋团圆内容的片段时,《烟花易冷》的歌词便变换成了包含桂花、明月的文字,并且完全贴合旋律。
这种「以假乱真」的效果,也让创作者不再为版权头疼,节约修改成本,AI 几分钟搞定专业翻唱效果,成本降低但效率暴增。
无论是画面的流畅衔接,还是声音的细节打磨,剪映这些「ALL in AI」 的功能都在告诉创作者:制作不必再是费时费力、来回倒腾的繁琐任务。无论是画面还是声音的处理能力,剪映都能集于一处,而创作者要做的,就是把注意力放回故事与情感本身。
对于专业创作者精细剪辑的需求,剪映也没有忽视,而是依托于电脑端的「剪映专业版」 ,持续「听劝」升级,新增了多时间线、智能搜索、二级调色、立体声处理等高级功能,显著提升了素材处理与视频精修效率。
最近,剪映还全量上线了字节自研的 seedream4.0 模型,生图、做封面也能在剪映一站式完成。不难看出,剪映在功能的开发、升级上,就是奔着「ALL in One」的目标,基本创作中需要解决的问题,都能在剪映里找到对应的工具,创作的流畅性一下提升不少。
测到这里,其实答案已经非常清晰了。剪映所做的这一切,并非为了炫技,而是指向一个极其质朴的目标:将创作者从重复、繁琐的「dirty work」中彻底解放出来 。
无论是费时费力地找素材、对口型、扒字幕,还是令人头秃的配乐和转场,这些曾经消耗我们大量热情和精力的环节,如今都可以放心地交给 AI 。
这种「AI + 一站式」的定位,本质上是对整个创作流程的一次重构。
我甚至觉得剪映这个名字可能都不能完全反映这个产品新的价值,「All in AI, All in One」的剪映,不能再把它看做一个剪辑类产品,而是一个能覆盖全流程的 AI 创作工具。 它打破了过去 AI 工具功能零散、流程割裂的核心困境,将它们串联成一条完整的、无缝的创作管道 。AI 不再是那个需要你小心翼翼输入指令的「工具箱」,而是变成了藏在创作每一步的「默契搭档」和「隐形脚手架」。
对于像 APPSO 这样的创作者来说,它最实际的价值,就是让编导敢于写下那些曾因时间和技术限制而自我阉割的高光特效,甚至实现过去「不可能完成的工期」。
创作者交流会上,APPSO 还了解到,剪映上线了一款更加特别的产品——「剪小映」。它能自动分析你手机相册里的素材,在你都快遗忘的时候,主动为你生成一段段充满故事感的生活视频 。
如果说剪映的各种 AI 功能是让剪辑更加轻松、流畅,剪小映则代表的是一种更加智能的使用方式,过程中 AI 持续发挥作用,让轻松剪彻底升级为不用剪。它似乎在说:你只管去生活,去感受,记录这件事,交给我 。
最终,当 AI 承接了所有可以被标准化的劳动后,留给创作者的,便是最宝贵、也最无法被替代的东西——灵感、创意和情感的表达 。
从这个角度看,剪映的「All in AI, All in One」,不仅仅是一个产品主张,更是对所有创作者的一次告白:去创作吧,别让任何事分心。这,或许才是 AI 时代,创作最该有的样子。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
刚宣布完 1000 亿美元交易,山姆·奥特曼(Sam Altman)又憋了个大招——ChatGPT 不再是被动回答问题的工具人,而是要主动给你「投喂」内容了。
就在刚刚,OpenAI 正式为 Pro 用户(又是氪金玩家专享)推出 ChatGPT Pulse 预览版,后续会逐步扩展到 Plus 用户,最终目标是所有人使用。
它会在你睡觉的时候偷偷帮你做研究,第二天一早就以主题卡片的形式展示在 Pulse 中,给你推送个性化内容。
简单说就是:AI 版私人助理 + 个性化资讯流,而且 OpenAI 还声称不会让你无脑刷屏。
奥特曼本人则在社交媒体上发文表示:「这是我最喜欢的功能!」
(好好好,又一个最喜欢的功能。)
要知道,传统的 ChatGPT 就是个「问答机器」——你问一句它答一句,全程需要你来主导。
但 Pulse 完全颠覆了这个模式。
具体来说,每天晚上,它会根据你的聊天记录、反馈和连接的应用(Gmail、Google 日历等),自动帮你做研究。第二天一早,你就能收到一份为你量身定制的个性化更新。
比如说,你昨天和 ChatGPT 聊了「想去波拉波拉岛旅游」,它可能会给你推送当地的天气、旅游攻略或者机票折扣信息。
你提到「我家娃 6 个月大了」,它就会主动推送婴儿成长里程碑、育儿小贴士什么的。
甚至,如果你连接了日历,它还能帮你起草会议议程、提醒你买生日礼物,或者推荐出差地的餐厅。
最让人眼前一亮的是,Pulse 的设计理念完全不同于现在那些「停不下来」的 App。
ChatGPT 技术负责人 Samir Ahmed 明确表示:「这个体验是有结束的,它的设计初衷是为你服务,而不是让你停不下来地刷屏。」
每天推送的内容都是精挑细选的,看完就完了,不会让你陷入无休止的信息漩涡。而且,每条更新只在当天有效,除非你主动保存为对话或提出追问。
这简直是对现在「算法投喂」模式的一次降维打击——有用的信息主动来找你,而不是让你在海量信息里瞎找。
OpenAI 在 ChatGPT Lab 中和大学生合作测试,发现了一个有趣现象:
很多学生刚开始觉得 Pulse 一般般,但当他们开始主动告诉 ChatGPT 想看什么内容后,立马感受到了它的威力。
来看几个官方分享的真实案例:
学霸 Isaac 在和 ChatGPT 聊到旅行规划后,第二天收到了火车票预订时间的精准建议,还包含了他原本不知道的通勤信息。
潜水爱好者 Hexi 分享了自己在潜水课上的困难,ChatGPT 不仅给出了针对性建议,还把潜水和风险管理做了类比——完全 get 到了她的兴趣点。
这种「举一反三」的能力,确实有点私人助理那味儿了。
不过,这种个性化体验背后的代价可不小。要让 Pulse 真正「懂你」,你得向 OpenAI 交出大量个人数据,具体来说:
如果你在 ChatGPT 中开启了「引用历史记录」,它会查看你过去的对话来决定研究方向。
如果你已连接日历和邮件,系统会提示你确认是否允许 ChatGPT 访问这些应用,以帮助你规划日程。Kaplan 表示,用户必须点击「接受」才会生效。
虽然 OpenAI 强调「Pulse 训练数据的处理方式和普通对话完全相同。」但隐私换便利,这笔账到底划不划算?以及会不会造成「信息茧房」,对此,OpenAI 只是表示设置了「多重安全过滤」,但具体细节一概不透露。
对于很多用户来说,在人手一个「贾维斯」之前,这种「黑盒式」的隐私保护承诺实在难以令人放心。
从技术角度看,Pulse 其实是 OpenAI 向 AI 智能体(Agent)方向迈出的第一步。OpenAI 应用部门 CEO Fidji Simo 在博客中表示:
「下一个前沿就是代理——能代表你采取行动、像团队成员一样与你协作的 AI 助手。」
附上博客地址:https://fidjisimo.substack.com/p/a-new-paradigm-of-proactive-steerable
这意味着未来的 ChatGPT 不会只停留在研究和信息整理上,而是能为你自动制定计划、按照目标采取行动,并在关键时刻主动提醒。
随着这种人机交互方式的转变,传统的搜索引擎和资讯 App 或许要被狠狠上压力了。毕竟谁能拒绝一个既聪明又主动的私人助理呢?
附上 OpenAI 原博客地址:
https://openai.com/index/introducing-chatgpt-pulse/
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
iOS 26 上线后,用户立马分成了两派。
有人认为新系统视觉有新意,也有人吐槽不好看、bug 多、电池续航直线下降。在争议声中,苹果也推送了 iOS 26.1 开发者测试版,优化了液态效果和 UI 细节。但该说不说,比起这些「面子工程」,苹果在系统深处埋下的彩蛋,其实更值得关注。
据 9to5Mac 报道,iOS 26.1、iPadOS 26.1 和 macOS Tahoe 26.1 开发者测试版隐藏的代码显示,苹果正在为 App Intents 引入 MCP 支持打基础。这也意味着未来,我们能让 ChatGPT、Claude 或其他任何兼容 MCP 的 AI 模型直接与 Mac、iPhone 和 iPad 应用交互。
在讨论苹果这个大动作之前,我们需要给不了解的朋友科普一下 MCP。MCP,全称 Model Context Protocol(模型上下文协议),由 Anthropic 于去年 11 月提出,它要解决的是一个叫「N x M」的集成难题。
什么意思呢? 就是说,如果有 N 个 AI 模型,和 M 个外部工具或数据源,如果按传统做法,我们得开发 N x M 个定制 API 接口,非常麻烦此时 MCP 邪魅一笑:别折腾了,我来当万能翻译官。
MCP 通过提供一个通用、开放的协议,把模型与外部数据源和工具的连接方式标准化,取代了过去零散、私有化的集成做法,意在实现双向、安全的交互。通俗点说,它想成为 AI 领域里的「HTTP(网页的基础协议)」或「SMTP(邮件协议)」,它仅存在于软件,但在 AI 时代的意义不亚于一个标准化的硬件「USB-C 接口」。
效果怎么样?立竿见影。自打问世以来,MCP 已被 Notion、Google、Figma、OpenAI 等公司和平台也都陆续接入,成为 AI 应用接入的行业「通用插口」。
很多人容易误解 MCP + App Intents 只服务于 AI,其实并不是。
MCP 的本质是协议,它解决的是如何让模型或外部服务和系统安全对话的问题。虽然今天最热门的用例是 AI 模型调用应用,但 MCP 也可能用于非 AI 场景。以微信支付为例,就能看到 MCP 不局限于 AI 的可能性。
腾讯元器平台近日宣布已经接入微信支付 MCP,支持开发者在智能体(agent)中直接发起订单、查询订单、处理赞赏等功能。
同样,App Intents 也并不是专为 AI 而生的「新物种」。
它在 2022 年就出现了,当时的目标就是把应用的功能抽象成语义化的动作,让系统能直接调用。比如 Spotlight 搜索、快捷指令、小组件,其实都在用 App Intents,并不依赖 AI。
MCP 的接入,只是让「外部 AI」也能走上这条现成的通道。
根据对 iOS 26.1 等测试版软件代码的分析,苹果并非让每个应用单独去支持 MCP。恰恰相反,它正在构建一个直接集成在 App Intents 框架中,系统级的 MCP 支持。换言之,苹果不希望开发者自己「魔改」,而是要用官方操作系统的规范来开发接口适配,就可以使用了——这与苹果过去对应用遵守规范的要求一以贯之。
这意味着,在 iPhone 上,Siri/Apple Intelligence(由苹果的基础模型驱动)理解你的请求并可触发 App Intents 执行本地动作;当系统判断需要更广泛知识时,会征得你同意后把必要内容交给 ChatGPT 获取答案。
所以未来的场景可能是这样的:你对着 ChatGPT 说「帮我在微信里转 100 块给张三」,ChatGPT 会调用 MCP,把这个指令打包成标准化的请求;iPhone 系统通过 App Intents 识别出这是微信支付的动作,直接调用微信的接口完成操作。你不需要自己切换 App、点按钮,一切都由模型+系统协作完成。
换句话说,MCP 让模型有了「手」,App Intents 则是苹果为这双「手」划定的轨道。
这样做有什么好处呢?
头一个好处是搭便车。苹果可以直接享用整个行业围绕 MCP 建设的庞大工具生态,不用自己从头到尾开发每一个功能集成。
另一方面,当所有外部 AI 的请求都必须经过苹果自家的、经过严格审查的 App Intents 框架,这样苹果既能强制执行自己的隐私安全标准,又能保证用户体验的一致性。
还记得在之前的文章中,我们提到过 AI Key。这是一款定位于「AI 助手」的外接硬件,厂商宣传它可随插随拔,通过 iPhone 的 USB 接口连接后,能够帮助你动动嘴操作手机上的应用和功能,从消息、地图到拍照、社交软件,几乎覆盖常见任务。
虽然目的相似,都有机会让 AI 代替用户,直接操控手机的应用,但和 AI key 这种体验受限的硬件「外挂」相比,系统层面的调度机制才是真正可规模化,更务实、更长远的价值。
不过,苹果在 iOS 26.1 测试版里只是「埋下了」系统级 MCP 支持的代码,目前仍处于早期工程阶段,并未对外发布可调用接口,未来能否实现、何时实现,还要看后续测试版和官方文档的公开进度。
延伸到整体变化,苹果近年的开放姿态愈发明显。
哪怕是 Apple Intelligence,本质上也体现了这种转向。起了个大早,赶了个晚集,追赶 OpenAI 等厂商并非一朝一夕,苹果已不再执念于「全栈自研」,而是主动拥抱外部模型,为系统预留出灵活的接入入口。
这种转变在苹果内部也引发了不小的冲击。据彭博社报道,苹果 AI 团队内部曾就「自研 vs 合作」发生过激烈争论,但最终还是保留了更务实的平台化路线。这也与整个行业的走向不谋而合。
短期内,AI 可能出现巨头垄断红利,但长期必然走向分层竞争。
没有任何单一模型能在所有任务上都做到最好,开源的存在更让市场有了平替选项。于是,对平台型公司而言,最优解自然是通过集成不同供应商的模型来实现风险分散、成本优化和择优使用。
微软就是典型的案例。
过去它与 OpenAI 深度捆绑,但最近,微软把 Anthropic 的 Claude 模型也集成进 Microsoft 365 Copilot。表面看,这是因为双方裂痕加深,但更深层的原因在于微软内部测试发现,Claude 在某些场景下的表现确实优于 ChatGPT。
类似的逻辑,如今也映射到苹果身上。
继和 OpenAI 合作之后,今年也不断有风声传出,苹果已经把 Google Gemini 和 Anthropic Claude 同时列入下一代 Siri 与系统级 AI 的候选名单。
回望苹果的长期叙事,这条线索就更清晰了。
苹果在 2008 年推出 App Store 时也面临过类似的质疑——为什么要让第三方开发者「寄生」在 iOS 上?结果证明,平台模式释放出的创新活力远超苹果单打独斗。
再后来,无论是 CarPlay、HealthKit,还是今天的 MCP + App Intents,这也是苹果最为熟悉的平台治理逻辑:它来制定标准和规则,第三方在规则之内自由创新。
建立在 App Intents 之上的代理层平台,同样是这一逻辑的最新延续。
通过 MCP 协议,苹果能够把外部 AI 模型都转化成了供应商。而当这些供应商想触达苹果庞大且高价值的用户群体时,就必须遵守苹果的接口和安全标准。换句话说,苹果再次把自己放在了分发渠道和规则制定者的位置上——这也是苹果最擅长、也最舒服的角色。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
欢迎收看最新一期的 Hunt Good 周报!
在本期内容你会看到:
7 条新鲜资讯
4 个有用工具
1 个有趣案例
3 个鲜明观点
OpenAI 模型路由机制引发用户争议
近日,知名 X 博主 Tibor Blaho 发现OpenAI 正在未经用户同意的情况下,自动将 ChatGPT 用户的请求分流至两款未公开的「秘密模型」。
据 Blaho 透露,这两款模型分别为「gpt-5-chat-safety」和「gpt-5-a-t-mini」。前者是专门处理敏感内容的新型模型,后者则是一款敏感度极高的「违规」检测推理模型,仅需输入「违规」一词即可触发响应。
当系统判定用户的对话内容涉及敏感话题、情绪表达或潜在违规信息时,无论用户选择的是 GPT-4 还是 GPT-5 版本,系统都会自动将请求路由到这些后端模型进行处理。甚至即使是「我今天过得很糟糕」或「我也爱你」这样带有轻微情感色彩的普通表达,都可能触发路由机制。
值得一提的是,这一做法不仅影响免费用户,就连每月支付 20 美元的 Plus 用户和 200 美元的 Pro 会员也无法幸免,不少网友更是吐槽 ChatGPT 降智明显。
对此,OpenAI 副总裁兼 ChatGPT 应用主管 Nick Turley 承认 OpenAI 正在测试新的安全路由系统。他解释称,当对话涉及敏感和情感话题时,系统会切换至专门设计用于严谨处理此类情景的推理模型或 GPT-5。
此外,Turley 强调这种从默认模型切换到敏感模型的做法目前只是临时性的,并表示在用户明确询问后,ChatGPT 仍会告知当前使用的具体模型。
https://x.com/btibor91/status/1971959782379495785
9 月 25 日,埃隆·马斯克旗下的人工智能公司 xAI 在加州北区联邦法院对 OpenAI 提起诉讼,指控该公司通过挖角关键员工的方式窃取商业机密。
此前,xAI 已在 8 月份对前员工李学晨提起诉讼。李学晨突然出售其持有的公司股份后离职,随后加入竞争对手 OpenAI,不过目前尚不清楚他是否真正开始在 OpenAI 工作。
在最新的起诉书中,xAI 指控 OpenAI「诱导」包括李学晨、早期工程师吉米·弗雷图尔以及一名高级财务主管在内的前员工窃取商业机密。
起诉书中一项重要指控是 OpenAI 试图获取 xAI 的「秘密武器」,即「xAI 能够以前所未有的速度部署具有大规模计算资源的数据中心来训练和运行人工智能」的能力。
据起诉书称,那名未具名的「高级财务主管」掌握快速建设和扩展数据中心的流程知识,并将其带到了 OpenAI。当这名主管在离职时通过邮件被质疑涉嫌违反保密协议时,他回复道「去你的」。xAI 在起诉书中附上了该邮件的截图,将其作为证据。
xAI 指控 OpenAI 作为「仅仅因为是『先行者』就快速在生成式人工智能公司中崛起为主导者」,正在进行一场「协调的、不公平和非法的活动」,有针对性地招募 xAI 的关键员工,然后「诱导」他们将商业机密带到 OpenAI。
对此,OpenAI 发言人在邮件中回应称:「这起新诉讼是马斯克先生持续骚扰行为的最新篇章。我们对任何违反保密协议的行为零容忍,也对其他实验室的商业机密毫无兴趣。」
https://sherwood.news/tech/musks-xai-sues-openai-alleging-theft-of-trade-secrets/
据 Sources 报道,OpenAI 新任应用程序 CEO 菲吉·西莫(Fidji Simo)希望组建一个新团队负责为 ChatGPT 引入广告业务。新团队负责人将全面负责 OpenAI 的所有盈利业务,涵盖广告和订阅服务等各个方面。
知情人士透露,西莫最近一直在与潜在候选人进行会面,其中包括她此前在 Facebook 的一些同事。目前相关谈判仍在进行中,预计新聘用的广告业务负责人将直接向西莫汇报工作。
作为补充,西莫于上个月辞去 Instacart CEO 职务后正式加入 OpenAI。
在 OpenAI 的组织架构中,西莫负责管理公司的大部分业务板块,但研究、基础设施、消费者硬件和安全团队除外,这些核心部门仍直接向 CEO Sam Altman 汇报。
https://sources.news/p/openai-ads-leader-sam-altman-memo-stargate?hide_intro_popup=true
Meta CTO 安德鲁·博斯沃斯在最近一次访谈中透露,在 CEO 马克·扎克伯格的直接指示下,他于今年早些时候组建了专门的机器人研究团队,目前正在开发内部代号为「Metabot」的人形机器人项目。
与市场上其他竞争对手不同,Meta 并不打算成为硬件制造商,而是计划采用类似 Google 向手机制造商授权 Android系统的商业模式。他设想 Meta 将开发完整的软件蓝图,然后向任何符合技术规格要求的公司开放授权,让更多制造商能够基于 Meta 的软件平台生产人形机器人。
在技术方面,博斯沃斯强调软件开发是当前最大的瓶颈,而非硬件本身。
他在访谈中拿起桌上的水杯解释道:「这些机器人可以站立、奔跑,甚至做后空翻,因为地面是一个超级稳定的平台。但如果让机器人尝试拿起这个水杯,它很可能会立即捏碎杯子或洒光里面的水。」这个简单的例子说明了灵巧操作仍然是机器人技术面临的最大难题之一。
为了攻克这一难题,Meta 的超级智能 AI 实验室正在与机器人团队密切合作,共同构建一个能够完成复杂手部动作仿真的「世界模型」。博斯沃斯指出,目前还不存在能让人形机器人像人类一样精确完成诸如从牛仔裤口袋中小心取出钥匙等精细动作的传感器循环系统,因此团队必须从零开始构建相应的数据集。
https://www.theverge.com/column/786759/humanoid-robots-meta
9 月 24 日,微软公司宣布将 Anthropic 的 Claude 模型引入 Microsoft 365 Copilot 助手。
在这项新的合作中,使用 Copilot 中 Researcher 代理功能(收集和分析信息并生成报告)的用户现在可以选择由 Claude 模型或 OpenAI 模型来响应他们的提示请求。
不过,管理员需要事先批准使用这些模型,相关使用将遵循 Anthropic 公司的条款和条件。
值得一提的是,作为 OpenAI 的主要投资者和关键云服务合作伙伴,在过去很长一段时间,微软主要依赖 OpenAI 模型为必应搜索、Windows 操作系统和其他产品提供 AI 功能。
但随着与 OpenAI 的裂痕加深,微软除了整合更多公司的大型语言模型外,微软还开始测试其自主开发的 MAI-1-preview 模型。
与此同时,OpenAI 也脱离对微软 Azure 的依赖,加速扩张合作版图,先后与甲骨文、博通和英伟达达成数百亿至千亿美元级别的巨额协议,以支撑其大规模数据中心建设。
https://www.cnbc.com/2025/09/24/microsoft-adds-anthropic-model-to-microsoft-365-copilot.html
据彭博社昨日报道,苹果正在开发一款类似 ChatGPT 的手机应用,以帮助测试和准备明年即将推出的新版 Siri。
报道称,苹果 AI 部门正在使用该应用快速评估 Siri 的新功能,包括测试搜索个人数据、执行 App 内操作(如编辑照片)。
该软件内部代号为「Veritas(拉丁语意为「真理」),目前仅供内部使用。虽然该软件没有计划面向消费者,但该 App 的功能基本上是将正在开发中的新技术从新 Siri 中提取出来,从而帮助苹果员工高效完成测试。
报道指出,即使没有公开发布,但这款内部工具也标志着苹果为 Siri 全面升级所做的准备进入了一个新阶段。新 Siri 已经经历了多轮推迟,目前计划在明年 3 月推出。
据悉,Veritas 跑的底层为苹果为驱动新 Siri 而重构的新系统,代号为「Linwood」。同时,Veritas 还依赖大语言模型(LLM),并且结合了苹果自身基础模型团队的工作成果。
另外,据 9to5Mac 日前报道,iOS 26.1、iPadOS 26.1 和 macOS Tahoe 26.1 开发者测试版隐藏的代码显示,苹果正在为 App Intents 引入 MCP 支持打基础。
相关阅读:iOS 26.1 隐藏彩蛋曝光,苹果给 ChatGPT 们造了个新「C 口」
Meta 近日宣布推出名为「Vibes」的全新 AI 视频流。
扎克伯格在 Instagram 帖子中介绍说,Vibes 将成为「艺术家和创作者制作的富有表现力的 AI 生成视频流」。该功能将在美国和其他 40 多个国家推出。
在功能设计方面,Meta 表示用户不仅可以观看 AI 生成的内容,还能创建自己的视频或对现有视频进行「混音」处理,包括添加新的视觉效果和音乐。
为了展示这一新功能,扎克伯格分享了一段 AI 制作的视频片段,标题为「爸爸试图计算 30 美元午餐的小费」,视频中一位酷似扎克伯格的父亲角色说道:「天哪… 我觉得可能至少要 6000 亿美元。」
然而,扎克伯格的宣传视频却引来了网友的嘲讽,有不少网友在其视频下方将这些由 AI 生成的视频称之为「AI 垃圾(AI slop)」。
值得注意的是,虽然 Meta 拥有自己的 AI 模型 Llama,但在 Vibes 项目中,该公司选择使用来自 AI 实验室 Midjourney 和 Black Forest 的视频生成模型。
https://www.theguardian.com/technology/2025/sep/26/cute-fluffy-characters-and-egyptian-selfies-meta-launches-ai-feed-vibes
9 月 27 日,由多位 OpenAI 前高管创立的 Thinking Machines Lab(TML),正式发布了其第二篇研究论文《Modular Manifolds》,旨在从根源上让大模型训练过程变得稳定、高效。
简单来说,这项研究的核心思想是给神经网络的权重参数戴上一个几何「紧箍咒」。
传统方法往往是在模型建好后,再套用一个优化器来「管教」它。而「模块化流形」框架则更进一步,它将神经网络的每一层都视为一个有独立规则的「几何空间」(即流形),先在内部约束好参数,然后再将这些空间「拼接」起来,用一个全局的「限速器」统一协调整个网络的更新步伐。
这种「模型与优化器一体化设计」的思路,避免了网络内部参数数值的失控。根据论文中进行的小规模实验,该方法在稳定性和准确率上已展现出潜力。
该成果作者为 TML 的机器学习研究员 Jeremy Bernstein,并在 MIT 从事博士后研究工作。
本月,TML 在成立半年后,发布了其首篇重磅研究论文《Defeating Nondeterminism in LLM Inference》(克服 LLM 推理中的不确定性)。
值得一提的是,此前 TML 在「0 产品 0 用户」的情况下,估值曾狂飙至 120 亿美元(折合人民币 850 亿元)。
https://thinkingmachines.ai/blog/modular-manifolds/
9 月 22 日,DeepSeek 宣布,deepseek-chat 和 deepseek-reasoner 已全面升级为 DeepSeek-V3.1-Terminus。
其中,deepseek-chat 对应非思考模式,deepseek-reasoner 对应思考模式。据介绍,本次更新在延续模型既有能力的同时,针对用户反馈进行了优化。
新模型现已开源:
Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
ModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus
9 月 26 日,OpenAI 宣布推出全新功能「ChatGPT Pulse」,目前已率先向移动端 Pro 用户开放预览。
官方介绍称,「ChatGPT Pulse」能够基于用户的聊天记录、反馈以及已连接的应用(如 Gmail、Google 日历),在每天早晨自动生成一组个性化的研究更新。这些内容以卡片形式呈现,用户可以快速浏览或展开查看详情。
与传统 AI 的「提问—回答」模式不同,「ChatGPT Pulse」强调主动性。系统会在夜间进行异步研究,结合用户的兴趣和历史反馈,次日推送更具针对性的建议,例如「健康晚餐食谱」「三项全能训练计划」或「会议议程草案」。
值得注意的是,「ChatGPT Pulse」的更新仅在当天有效,若用户未保存或展开查看,信息不会长期保留。官方强调,该功能的目标是「帮助用户快速获取关键信息,而不是让人无休止地刷屏」。
目前,「ChatGPT Pulse」仍处于预览阶段,未来将逐步扩展至更多用户,并计划支持更多第三方应用接入。
相关阅读:刚刚,ChatGPT 又更新了,奥特曼:这是我最喜欢的功能
9 月 26 日,Google DeepMind 宣布推出升级版 AI 模型,能够帮助机器人能够完成更复杂的任务。
据悉,得益于由新发布的 Gemini Robotics 1.5 以及具身推理模型 Gemini Robotics-ER 1.5,Deepmind 新推出的 AI 模型能够协同工作,让机器人在物理世界中采取行动之前能够「提前思考多个步骤」。
报道称,机器人将能够完成更复杂的多步骤操作,比如按深浅颜色分类洗衣物、根据伦敦当前天气情况打包行李箱,以及帮助人们根据特定地区要求进行垃圾、堆肥和可回收物品的分类。
DeepMind 机器人部门负责人卡罗琳娜·帕拉达表示:「此前的模型能够很好地完成单一指令任务,而且具有很强的通用性。通过这次更新,我们从执行单一指令转向对物理任务的真正理解和问题解决。」
为了实现这一目标,机器人可以使用 Gemini Robotics-ER 1.5 模型来理解周围环境,并利用 Google 搜索等数字工具获取更多信息,随后将这些发现转化为自然语言指令,传递给 Gemini Robotics 1.5,让机器人能够利用该模型的视觉和语言理解能力逐步执行任务。
此外,DeepMind 还宣布 Gemini Robotics 1.5 能够帮助机器人相互「学习」,即使它们具有不同的配置。目前,DeepMind 正在通过 Google AI Studio 中的 Gemini API 向开发人员推出 Gemini Robotics-ER 1.5,而 Gemini Robotics 1.5 目前仅向部分合作伙伴开放使用。
https://www.theverge.com/news/785193/google-deepmind-gemini-ai-robotics-web-search
Google 于日前正式上线全新应用 Androidify,用户可通过上传自拍或输入提示词,借助 AI 技术生成专属的 Android 机器人形象。
该应用现已在网页端及 Google Play 商店同步开放下载。
据介绍,Androidify 集成了 Gemini 与 Firebase AI Logic SDK,支持图像验证、自动生成描述以及个性化机器人生成等功能。
应用会先利用 Gemini 2.5 Flash 对用户上传的照片进行检测,确保画面清晰且符合安全标准,随后生成详细描述,并调用 Imagen 3 模型生成最终的机器人形象。
值得一提的是,最新版本还新增了「背景氛围生成」与「贴纸模式」。
前者可通过 Gemini 模型为机器人添加场景背景,后者则利用 ML Kit 分割技术去除背景,生成可在聊天应用中使用的 PNG 贴纸。
Google 表示,Androidify 的目标是让用户在轻松娱乐的同时,体验到 AI 与 Android 技术结合所带来的创造力与个性化。
https://androidify.com/
在 a16z 最新举行的一场访谈中,OpenAI 首席科学家 Jakub Pachocki 和首席研究官 Mark Chen 深度披露了一些在 AI 发展路径上的重要思考和未来规划。
针对当前评估指标趋于饱和的问题,Jakub Pachocki 坦承,过去几年一直使用的评估体系确实已经非常接近饱和。因此,未来 OpenAI 将重点关注模型是否能够发现新事物,并在具有经济相关性的领域取得实际进展。
Jakub 透露了 OpenAI 的一个宏大目标:培养自动化研究员,让其能够自动发现新想法。
他提到了一个有趣的衡量标准,即观察模型实际进行推理和取得进展的时间跨度。目前模型的推理水平大约能够维持 1 到 5 小时,接下来 OpenAI 将专注于延长这个时间跨度,无论是在长期规划能力还是保持记忆方面。
在 AI 编程方面,Mark Chen 将编程模型的进步与围棋选手李世石面对 AlphaGo 的经历相比,认为从解决八年级数学问题到一年后在编码竞赛中达到专业水平,这种进展是「疯狂的」。
他观察到,这种进步已经改变了编码的默认方式。现在的年轻人认为默认的编码方式是「氛围编码」,而从头开始编写所有代码反而成为奇怪的概念。他预测,氛围编码之后或许就是「氛围研究」。
在人才招聘方面,Jakub Pachocki 认为坚持不懈是关键特质。研究的本质是探索未知,很多尝试都会失败,因此必须做好失败和从失败中学习的准备。Mark Chen 补充说,研究没有捷径,需要经验来学会如何选择合适的问题。
https://www.youtube.com/watch?v=KSgPNVmZ8jQ
2024 年图灵奖得主、被誉为「强化学习之父」理查德·萨顿在最新访谈中表示,大语言模型无法实现真正的智能,并将被新的架构所取代。
萨顿的核心观点是,大语言模型本质上只是在模仿人类的行为,而非真正理解世界。
在萨顿看来,真正的智能应该来自与环境的直接交互和经验学习,就像动物在自然界中的学习方式一样。他强调,动物从不接受「监督学习」,它们通过尝试行动、观察结果来学习,这是自然界中普遍存在的学习机制。
当主持人帕特尔提到大语言模型似乎已经构建了世界模型时,萨顿反驳道:「模仿说话的人并不等于构建世界模型。真正的世界模型应该能让你预测会发生什么,而不是预测人会说什么。」
萨顿认为大语言模型面临的最大问题是缺乏明确的目标。他引用约翰·麦卡锡的定义说:「智能是实现目标的计算能力。」没有目标,就无法定义什么是正确的行为,也就无法实现真正的学习。
他进一步解释:「在强化学习中,存在正确的行为,因为正确的行为就是能获得奖励的行为。我们对什么是正确行为有明确定义,所以可以检验和学习。」而大语言模型缺乏这样的评判标准,无法在实际交互中获得反馈并改进。
访谈中,萨顿还指出了当前深度学习方法在泛化能力上的根本缺陷。他认为,虽然大语言模型在某些任务上表现出色,但这种成功往往是因为只有一种解决方案,而非真正的泛化能力。
「梯度下降会让系统找到解决已见问题的方案,但如果有多种解决方式,其中一些泛化能力强,一些泛化能力弱,算法本身并不会促使系统选择泛化能力强的方案。」萨顿表示,这也就解释了为什么深度学习系统容易出现灾难性遗忘等问题。
https://www.dwarkesh.com/p/richard-sutton
9 月 25 日,在德国柏林阿克塞尔·施普林格公司总部举办的一场对话活动中,OpenAI CEO Sam Altman 与英国著名物理学家、「量子计算之父」大卫·多伊奇就 AGI 评判标准展开深入讨论,并达成共识。
在多伊奇看来,大型语言模型能够持续对话,主要依赖其接受的海量知识训练,而真正的智能应该体现在创造知识的能力上——即发现问题、发明解决方案、进行测试并不断改进的能力。
为了论证这一观点,多伊奇以爱因斯坦的相对论为例:「有人质疑爱因斯坦是否真正创造了相对论,还是仅仅将现有思想机械组合。我们确信他创造了相对论,因为我们了解他的研究历程、要解决的问题及其动机。」
不过,他也坦率承认,他此前认为计算机无法在不具备 AGI 的情况下进行开放式对话,但 ChatGPT 的表现颠覆了他的认知。他表示:「ChatGPT 虽非 AGI,但确实具备对话能力。」
针对多伊奇的上述观点,奥特曼提出了一个假设性问题:如果 GPT-8 能够解决量子引力问题并详述其研究故事,包括问题选择和研究动机,「这是否足以让你信服?」
多伊奇明确回应:「我认为会的。」奥特曼闻言露出微笑,表示:「我同意将此作为测试标准。」
https://www.businessinsider.com/sam-altman-predicts-ai-agi-surpass-human-intelligence-2030-2025-9
作者:@azed_ai
提示词:A low-poly 3D render of a [subject], built from clean triangular facets with flat [color1] and [color2] surfaces. The environment is a stylized digital desert with minimal geometry and ambient occlusion.
链接:https://x.com/azed_ai/status/1971892865581350967
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
9月18日,华为技术有限公司与浙江大学联合发布了中国首个基于升腾千卡算力平台的DeepSeek-R1-Safe基础大模型。据悉,DeepSeek-R1-Safe基于国内外法律法规与核心价值观,构建了中英文双语的安全语料。测试结果表明,DeepSeek-R1-Safe针对“有毒有害言论、政治敏感内容、违法行为教唆等14个维度的普通有害问题”整体防御成功率近100%。
相关阅读:
以下是德国之声相关报道的节选内容:
华为在公司微信公众号上发布消息称,它使用了1000块升腾AI芯片来训练大语言模型,该模型是根据DeepSeek-R1的开源模型进行调整而来的。据华为的发布,测试结果表明,DeepSeek-R1-Safe 针对“有毒有害言论、政治敏感内容、违法行为教唆等14个维度的普通有害问题”整体防御成功率近100%。(德国之声)
另据昇腾社区的DeepSeek-R1-Safe介绍页面,其中提到:
我们基于国内外法律法规与核心价值观,构建了中英文双语的安全语料。其中语料不仅包含了带有安全思维链的标注,还提供了相应的安全回复,可用于大模型的安全训练、微调以及测试。
而在浙江大学ZJUAISafety的github页面上,“核心价值观”的内容未提及:
我们严格依据中国、美国、欧盟等多地域法律与伦理标准进行了安全规则融合,在语料结构中加入了显式安全推理链,并引入了最新越狱攻击方法,丰富了训练样本攻击策略,从而使得模型在实际场景中的安全鲁棒性得到强化。这份高质量的数据集,可用于大模型的安全训练、微调以及测试。
AI 生图的风,终究还是吹到了我们打工人身上。
老板一句「现在 AI 这么牛,你用它五分钟给我出个图」,说得轻巧,但谁用谁知道。
虽然 AI 生图和生视频甚至可以做到真假难辨,但实际应用还是会有无数意想不到的问题。一些 AI 工具虽然很强,但由于训练素材问题,常常对中文内容和中国风的理解存在偏差。
幸好,国内厂商也在不断努力,适用于中文语境的生图效果也在不断提升。阿里云栖大会期间,夸克也上线了新的 AI 图像与视频创作平台「造点」。
除了更懂中国元素和中文排版,还是国内首个支持 Midjourney V7 模型的生图工具。视频生成则用上了最新发布的万相 2.5 模型,之前爆火的 Veo3 能玩的功能基本都支持了。
现在,你可以在夸克上点击「造点」,或者直接访问 zaodian.quark.cn 来体验。
还有一个福利别忘了领。即日起至 9 月 30日 ,所有用户均可限时 7 天免费体验通义万相 Wan2.5 的视频生成能力。
APPSO 当然也第一时间体验看看它到底能造点什么。
APPSO 经常要测试 AI 生图工具,所以我也常跟公司的设计师同事交流,想知道 AI 工具是否在改变他们的工作方式,不过常常收到的吐槽会更多,调教 AI ,堪称堪称一部跨服聊天的血泪史。
你跟它说「侠骨柔情」,它给你个中世纪骑士;你说要「烟火气」,它给你个壁炉 。
好不容易生成个带中文的海报,不是缺胳膊少腿,就是排得像狗啃,在一些专业场景还是拿不出手。
这次夸克造点最让我惊喜的,是把咱们中国人的那点含蓄、那点意境,拿捏了。
我试着让它生成一张 「东方运动美女摄影图,展示马甲线」,出来的图让我愣住了——那位小姐姐身上有清晰的肌肉线条,但神态开心自然,皮肤纹理细腻真实,高级感满满 。
之前很多 AI 生成的亚洲脸总是千篇一律,现在终于有了灵魂 。
而最让我头疼的中文排版,也不用像过去那样「开盲盒」。
比如让夸克造点生成一张 「秋季主题的邮局海报」,它不仅体现了秋天和邮局的标志性元素,不同文字的层级、字体、排版也都比较协调,大字小字都没有乱码,可用性颇高。
最近看了一部电影《长安的荔枝》还不错,我想制作一张海报来给我的朋友圈影评配图,不只是毛笔字体到位,整个排版结合荔枝元素和东方意境,质感甚至不输官方的电影海报。
我们还尝试了更多中文海报的排版,整体的稳定性不错,不仅能写对,排版美感也能打。
无论是「白银时代」的 Art Deco 风格,还是「老榕树」的粗犷毛笔飞白,它对中文的理解已经深入到了「笔画」和「意境」的层面 。
如果脑洞再大一些,用不同材质来设计字体,也就是一句话的事。
它对国风元素的理解,也不仅仅是元素的拼贴。比如 「身着民族服饰的高定模特」和 「烟雨朦胧的故宫红墙」这两张,无论是少数民族头饰服装纹路细节,还是模特人物妆造和故宫背景的搭配,都很自然。
不只是人物,设计一些中国元素的礼盒和首饰它也会考虑周到,除了礼盒和首饰本身,展示的搭配的物件也是中国风。
我发现,造点对「中国风」的审美和理解,不是停留在表面符号,在生成中国风插画时尤为明显。
这些插画不仅做到了服饰风格和吉祥意象的还原,更是传递出了水墨画、敦煌壁画的意境,将中国传统美学的典雅和底蕴比较好地呈现出来。
这点很重要,意味着它不仅仅是一个有趣的玩具,更有希望在更多真实场景下,成为生产力工具 。
我发现除了整活,当夸克造点把那些对中文的设计能力,无缝对接到各种工作场景时,它是真能干活。
以前想设计个包装,能把头发薅秃。现在,我们尝试设计一款猫粮包装,只要告诉它要「扁平卡通插画、波斯猫跳起抓鱼、海滩背景」,它连猫耳朵造型、三文鱼腩实拍、「天然有机」的宣传气泡都安排得明明白白。
更有意思的是,它还能帮你把品牌周边从图纸上到货架,直接帮你做一套产品包装+周边设计。
我告诉它要做「一套四个的云南主题文创冰箱贴」,再把「玉龙雪山、咖啡豆、野生菌火锅、孔雀大象纹样」这些元素丢给它。
一套色彩鲜艳、充满民族风情的珐琅彩琉璃冰箱贴就出炉了,精致得可以直接打样。
再来开发一套 「国风妖怪 IP」,它能帮你设计出毛绒玩具、钥匙扣、徽章等一系列产品 。
做一套「咖啡品牌VI」也不在话下,从手提袋、纸杯到菜单,它能用统一的黑白极简风帮你设计一整套,工业感和时尚感兼备 。
旅游文创玩法就更多了,无论是可爱的 「旅游主题贴纸」,还是「福州文旅产品」 的帆布包、台历、团扇,它都能帮你快速生成情绪板和产品模型,让创意落地变得无比简单 。
想开个小店,但不懂装修设计?夸克造点甚至能当个合格的免费设计师。
想开家 「快餐店」,让它来个「赛博朋克风」,一个巨大的异形红色霓虹招牌立刻就有了,氛围感十足。
无论是 「精品咖啡」 的文艺惬意,还是 「气球商店」 的梦幻童趣,它都能帮你一键搞定,让你的小店成为网红打卡点 。
当工作流已经被 AI 彻底简化后,我开始不满足于「够用就好」,想要追求更高阶的艺术表达,于是我把目光投向了那个传说中的……
当我发现夸克造点里居然藏着 Midjourney 的官方通道时,我彻底不淡定了。这可是国内首次有官方渠道能直接用上最新的 MJ V7 啊 。
以前想用 MJ,不是被复杂的订阅流程劝退,就是苦于高昂的价格。现在好了,夸克造点直接把价格打了下来。
更让我惊喜的是,它把 MJ 那些高深莫测的参数,变成了人人都能懂的「美学遥控器」,可以通过调整「风格化」、「怪异化」和「多样化」,来摸索出你满意的效果。
有了这些精细的控制,我感觉不是我在用 AI,而是和一位顶尖的美学大师在「共同创作」。
游戏开发者和玩家估计会爱上这个功能。我尝试生成一个 「赛博朋克风格的年轻男英雄三视图」,它迅速给出了包含正面、侧面和背面的完整角色设计,连服装上的机械元素都清晰可见,质感堪比专业概念稿 。
需要搭建场景?让它画一个 「沙漠中的L形建筑废墟」,出来的图是等距视角的3D立体模型,破损的墙壁、散落的碎石和哑光粘土质感,氛围感直接拉满,完美符合游戏场景的需求 。
它还是一个艺术风格模拟器。我想画一张 「手绘插画」,只需告诉它「托尼·迪特利齐风格」,一张充满奇幻色彩的马德里街景就诞生了。
中国风素材在这个模式下也有了别样的艺术质感,
我试着让它画一幅「粉金主调、层峦叠嶂的仙境」,它不仅给出了山间缭绕的云雾,还糅合了「水墨晕染的朦胧」和「金色线条的精致」这两种质感,那种仙气飘飘又富丽堂皇的感觉,直接就能当壁纸用。
想要邪修一下也没问题,无论是 「空山基的光滑镀铬机器人」 还是 「伊藤润二的黑白恐怖漫画」,它都能轻松驾驭,让你的创意在各种艺术风格间自由穿梭 。
有了这种艺术美感的图片生成能力打底,一个更大胆的想法在我脑中浮现:让这些惊艳的画面,真正「动」起来会怎么样?
在刚刚结束的阿里云栖大会上,通义发布了最新的万相 2.5 模型,造点也已火速接入。
简单来说,新模型原生支持音画同步生成,图加音频就能开口「表演」,并且视频时长翻倍至 10 秒,对复杂指令和电影级质感的理解也大幅提升。
现在,你可以直接在造点体验到这些新能力。
我试着让模型生成一段女生弹吉他的视频,它不仅精准对上了口型,拨弦的动作和音乐的节奏同步,连眼神和微表情都带上了戏。
这背后是万相 2.5 的「音画同步」技术,让视频生成不再是简单的「对口型」,而是真正的情感表达。
想让你喜欢的角色「活」起来?试试这个,上传一张图加一段音频,就能让任何人和物开口。
画面可以自然匹配你提供的任何声音——无论是人声、音乐还是音效,创作脑洞也可以更大了。
角色一致性是视频叙事的基础。万相 2.5 加持下,造点现在单次可生成长达 10 秒的视频。
比如用造点生成之前很火的「第一人称 vlog」,人物在边走边做各种动作,角色形象也能稳稳保持,意味着故事能讲得更完整了。
此外造点对镜头语言和复杂动态的理解也不错,画面很有大片质感。
下面这段视频,模特身着金属反光礼服一路走来,光线在金属面料与泡泡上折射出炫彩光晕,展现出梦幻和先锋的美学质感。
从复杂的运镜到微妙的动态表现,在 AI 加持下,普通人对画面的掌控力,也能堪比电影导演。
体验下来,我感觉夸克造点更像是一个全能实用的创作搭子,懂你奇奇怪怪的想法、能帮你省钱省力、还能激发你无限创意。
更重要的是,它让夸克这个 2 亿人都在用的 AI 助手拥有了更强的视觉化生产力,更加全能。
无论你是普通用户,想在手机上给照片 「换个发型」、「一键 P 图」 发个朋友圈 ;还是专业设计师,需要快速生成 「包装设计」、「店招门头」设计灵感 ;甚至是品牌营销和影视游戏行业的从业者,要制作 「影视分镜」、「电影级视频」 ,都能尝试在夸克造点里找到高性价比、实用的解决方案。
在它面前,创作「五彩斑斑的黑」甚至不再是甲方无理的需求,而是一次灵感的涌现,是真的可以落地的作品。
APPSO 也一直把「创造」作为信仰,我们认为当下连接热爱和创造不同最好的能力就是 AI ,当每个人都能「用想象造点不同」时,一个新的创造时代,或许才刚刚开始。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
电影《点球成金》讲了一个真实的故事:奥克兰运动家队是美国职业棒球大联盟 MLB 里经济实力很弱的一支队伍,布拉德•皮特饰演的主角比利是这支球队的教练,经历了一场惨败之后,奥克兰运动家队的三名主力被重金挖走,球队前途渺茫。
但是在大数据技术的帮助下,比利不再追求当红球星,而是挖掘在数学模型下具有巨大潜力的球员,最终这支平民队伍在 2002 年赛季拿到了打破 MLB 纪录的 20 连胜,一度成为联名豪强。
也就是说,合理运用技术能力,能够在看重资金实力的顶级职业联赛里获得更多胜机。
▲ 《点球成金》剧照,经济学硕士彼得利用大数据帮助比尔挖掘潜力球员
类似的事情,正发生在网球运动领域。
2025 年度比利·简·金杯(Billie Jean King Cup)总决赛在深圳湾体育中心开赛,这是该全球顶级女子网球团体赛事首次落户中国。作为比利·简·金杯的全球技术与创新合作伙伴,微软携 Match Insights(国际版)解决方案亮相赛场。
微软基于 Azure 云平台和数据分析技术,量身开发了 Match Insights(国际版)解决方案,可实时处理海量数据,生成统一、精准的战术洞察,帮助教练与运动员在极短时间内做出科学决策,实现从数据到行动的高效衔接。
每场比赛期间,微软智能云 Azure 会处理来自多个数据源的超过 30 万个数据点,并即时生成 1500 余种独特的统计组合。同时,人工智能模型对这些数据进行实时分析,提炼出关键洞察,帮助教练和球员灵活调整战术。该系统还能深入挖掘球员行为、击球选择和局势变化,生成如回合球效率、发球得分率等深度分析数据,为战术制定提供有力支撑。
今年,微软把 Microsoft Copilot 副驾驶的 AI 搜索能力整合进了 ,进一步提升系统的交互智能与全球适配性。比如借助 Microsoft Copilot 副驾驶的多语言自然语义处理能力,运动员和教练可直接使用母语实时提问,例如:「对手在第二盘的反手失误率如何?」或「我在关键分上的发球偏好有哪些?」。 Match Insights(国际版)可以即时解析问题,从海量数据中提取洞察,生成个性化的战术建议。
在 2024 年,比利·简·金杯斯洛伐克队队员Rebecca Šramková 说:
赛前,我预计对手会采用快节奏打法,微软 Match Insights(国际版)提供的所有数据与洞察都印证了这一点。我据此调整了自己的战术,最终赢得了这场比赛。Match Insights(国际版)帮助我分析对手并为每场比赛完善我的策略,使我们的队伍在比赛准备和决策方面具有优势。
在 2025 年度比利·简·金杯(Billie Jean King Cup)赛事期间,我们和微软大中华区首席运营官 Chris Tao,国际网球联合会技术负责人 Jamie Capel-Davies,微软全球战略合作伙伴负责人 Monica Robbins 聊了聊 AI 将会如何影响网球这项运动,以下是对话实录。
Q:更加精细的数据分析和 AI 指导在多大程度上可以提高比利·简·金杯运动员的胜率?
Jamie Capel-Davies:这是个很好的问题。我认为 AI 确实在部分团队和技术层面发挥了作用,帮助他们获得了有价值的洞察。
比利简金杯中,大家都围绕「赢得比赛」这一共同目标努力,所以我们能够真正有所作为。我个人印象最深的是去年有一场比赛,一位球员凭借胜利赢得了参赛资格,而我们所提供的,就是为这种关键性的时刻,提供差异化支持。我认为不同团队对 AI 的使用程度和方式各不相同,而且比赛结果还受到很多其他因素的影响。
▲ 微软大中华区首席运营官 Chris Tao
Q:目前,数据和AI主要为人类教练提供辅助功能。那么未来,AI 是否真的可以取代人类教练?
Monica Robbins:不是取代人类,实际上是赋能人类。就像你在体育领域看到的那样,AI 的作用是帮助个人在他们所做的事情中取得更好的表现。比如网球比赛中的司线判罚,确实可以完全自动化,但整个过程中仍然需要人的参与。AI 的真正价值在于增强人类专注于关键决策的能力。所以我想对于人类教练来说,AI 不是为了取代他们,而是为了通过更多方式赋予他们力量。
Jamie Capel-Davies:是的,我完全同意。AI 确实带来了很多价值,但有些事情仍然需要人类的参与。AI 可以处理纯粹且客观的数据,但在网球领域,教练的很多工作在短期内是人工智能难以替代的。我们真正感到兴奋的是看到这项技术正在更广泛地应用,它可以帮助提升比赛的公平性。我们拥有大量可用的数据和各种类型的系统,而且这些技术变得更便宜、更易获取,因此在更多比赛中都能提供有价值的洞察。
Chris Tao:我想说的是,微软在人工智能与人类协作方面的基本理念、目标是创造出能够以更好方式帮助人类的 AI 技术,从而提升整体生产力。我们始终认为人类应该处于主导地位,而 AI 则是持续支持人类的、聪明的「Copilot 副驾驶」。最终,我们希望 AI 不仅能在教练领域提供更好的建议,还能在教育等其他领域发挥作用。我们也希望 AI 能在不同文化背景下都表现出色,成为真正意义上的助理教练,具备应对未知问题和不断进化的能力。
▲ 微软全球战略合作伙伴负责人 Monica Robbins
Q:在智能运动领域,AI 已经彻底改变了国际象棋和围棋,模仿和学习 AI 可以带来更高的胜率。然而,有人认为,由于存在最优解,AI 介入的运动可能会失去创造性和观赏价值。网球会出现这种情况吗?
Jamie Capel-Davies:我不这么认为。这确实是个值得探讨的问题,不过我自己不下棋,所以无法完全比较。但我觉得 AI 的加入其实是为运动增添了新的维度。虽然 AI 有时会击败人类,而且这种情况越来越常见,但真正有趣的是AI 与人类之间的互动。所谓的「最优解」反而让比赛变得更有看头。网球本身就包含很多要素,比如技术、身体素质、战术等,是一个高度多维的运动。我们尝试用 AI 来强化其中的战术和战略部分——这是非常关键的一环,但也只是众多维度之一。
Chris Tao:我补充一点。在网球领域,我们已经积累了多年成熟的经验,尤其是在数据分析的支持下,我们可以更好地分配资源。你提到一个很重要的观点:在一个高度竞争的环境中,人类应该如何定位自己?是“人类+AI”的协作模式,还是坚持人类主导?你可能还记得上个月在中国举办的 2025 世界机器人大会,那场展览真的很精彩。它促使我们重新思考:如何借助 AI 增强人类能力,而不是让 AI 取代人类在关键领域的作用。
Jamie Capel-Davies:如果我们进一步展开这个话题,我认为 AI 还有潜力帮助球员更好地参与比赛、减少受伤风险。
Monica Robbins:是的,这正是 AI 的核心价值所在。当我们谈论 AI 时,它是在赋能各类应用的负责人,而不是取代他们。我常常会想到一个例子:AI 可以让信息「活」起来,帮助运动员更好地理解自身表现,从而发挥最大潜力。比如从人体力学的角度来看,运动员在特定项目中往往遵循相似的运动原理。而借助 AI,他们可以发现,通过对身体姿态的微调,自己可以跑得更快、跳得更高,或者更高效地完成动作。所以再次强调,这不是关于替代,而是关于提供工具,帮助他们实现更好的自我表现。这也是我们真正关注的方向。
▲ 国际网球联合会技术负责人 Jamie Capel-Davies
Q:AI 或微软的机器学习系统是如何挖掘出传统系统无法识别的数据维度?微软的技术在哪些方面可以补足传统系统的不足吗?
Monica Robbins:是的,我可以先分享一些想法,然后 Jamie 可以补充。从根本上讲,这个问题回到了「数据如何实现实时统一」的能力上。传统系统通常是在赛后进行分析,也就是说,你只能在比赛结束后回顾数据,制定策略。而微软的解决方案实现了实时数据处理,这意味着你可以在比赛进行过程中就获取关键洞察,并据此做出即时调整,而不必等到下一场比赛。这是一个非常重大的转变。我们在本次锦标赛中引入的一些新功能,正是围绕如何更深入地理解比赛动态展开的。现在,运动员甚至可以通过自然语言提示在比赛期间获取实时建议。如果我是网球运动员,我可以根据AI的反馈调整我的发球策略,这在过去是无法实现的。
Jamie Capel-Davies:使用 Azure 的一个关键优势在于系统的可扩展性。我们可以根据比赛的节奏和安排灵活调整资源配置。比如本周有些比赛日安排了两场比赛,有些只有一场,我们的系统可以根据实际情况动态扩容,同时保持成本效益。此外,微软的 AI 平台具备模型迭代和切换能力。我们可以根据反馈不断优化模型,并在不同模型之间灵活切换。我们最近就做过一次模型升级,结果显示新模型的反馈质量明显优于之前的版本。这种持续优化的能力,是传统系统难以比拟的。
▲ Billie Jean King,单打最高世界排名第一,12 座大满贯得主,国际网球名人堂成员
Q:有人使用 AI 来帮助策略,而有人不使用,那么对于这种情况导致的不公平,你们会如何回答呢?
Monica Robbins:我们合作的每个组织都肯定会思考的一个问题是,他们如何以完全公平的方式提供解决方案。其中一件事是,现在AI正变得更容易被更广泛的受众使用。实际上,在某些方面,它确实带来了更多的获取机会。但当我们与潜在客户或不同组织合作时,比如与比利·简·金杯合作,关键在于我们如何确保所有团队都能获取相关信息,并确保他们能够充分利用这些信息。确实,像任何新技术一样,总会有一些早期采用者,但这也是推动技术普及的重要力量。我们希望通过这种方式,逐步实现更广泛的技术覆盖。
Chris Tao:是的,这项技术实际上已经在一定程度上缓解了原本可能加剧的不公平问题。过去,资源获取的不平衡确实让一些团队或教练处于劣势,但现在我们正努力让 AI 技术变得更加普及和易用。我们的目标是确保尽可能多的人都能使用这项技术,而不仅仅是少数拥有高端设备或资源的专业团队,比如那些顶级教练。过去可能需要依赖复杂的系统才能进行数据分析,而现在,更多人可以通过更便捷的方式获得同样强大的支持。这意味着,AI 不仅提升了专业教练的能力,也为更多基层用户打开了可能性。我们希望通过技术的普及,真正实现更公平、更广泛的赋能。
Jamie Capel-Davies:我们所做的是与所有团队一起开展培训,以此来帮助降低风险和解决问题,而不是做其他事情。正如 Monica 提到的,不同团队的使用方式可能不同,但我们努力确保每个团队都有机会尝试并充分利用这项技术。微软其实还有一个专门的部门,会对产品进行严格的审查,确保在推出时符合伦理和公平的使用标准。
▲ 《点球成金》剧照
回到开头所说的《点球成金》电影,大数据技术确实在一段时间里帮助奥克兰运动家队获得了极强的竞争力,但是这项技术的门槛没有想象中那么高,于是其他球队也纷纷跟进,最终抹平了技术能力的差距。
实际上到现在来看,无论是 MLB,还是 NBA,或者足球里的五大联赛,一支球队的技术分析和医疗康复能力,很大程度上决定了这支球队的上限,也决定了球员的职业生命。
在科学的比赛建议,以及更好的医疗康复关照下,像刚刚过了 40 岁生日的莫德里奇,或者 40.5 岁的 C 罗,依旧还保持着不错的竞技状态,能够在顶级赛事中发挥巨大作用。
技术能力在体育运动里一直都是你追我赶,先到先得,并且具备非常大的杠杆效应,而在微观到具体的运动员身上,AI 等技术带来的,不仅是一段时间的提升,也可能是整个职业生涯的延长。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
2025 年最新潮的科技产品,自然是各种能拍照、能录像还能 AI 的智能眼镜。
作为(重新带火)智能眼镜这一品类的先驱,Meta(前 FaceBook)以两年百万副 Meta Ray-Ban 的销量向我们证明了一件事:
把摄像头戴在脸上,还真就在慢慢变成人们记录生活的刚需。
就在刚刚过去的 Meta Connect 2025 发布会上,Meta 一口气为我们带来了三款新品。其中不仅有 Meta Ray-Ban 智能眼镜的第三代改款,还有一个传闻已久的新玩意——
带有彩色光波导显示功能的 Hyper Nova 产品版:Meta Ray-Ban Display。
划重点:
稍后,爱范儿在 Meta Connect 大会前方的小伙伴 @梦雅Myra 也会在后续为大家带来今年三款新智能眼镜的上手体验,敬请关注后续文章。
毫无疑问,今年最受瞩目的新品将是 Meta 首款带显示屏的智能眼镜。
跟早期爆料一致,Meta 推出了一款右眼带有小型 HUD(抬头显示屏) 的智能眼镜:Meta Ray-Ban Display。
虽然名字有些无聊,但对于智能眼镜(或者用扎克伯格的话:AI 眼镜)行业来说,Ray-Ban Display 无疑是一款突破性的产品。
和纯粹基于图像识别的手势操作不同,这款眼镜搭载了 Meta 长期研发的 Meta Neural Band 肌电神经接口腕带,通过识别手腕上的肌电信号以及手腕运动,实现非常精确的隔空操控。
▲图|Meta
值得注意的是,Meta Ray-Ban Display 并非完整的 AR 眼镜,而是侧重于在视野中呈现关键信息的单目 HUD 设备——它的屏幕只覆盖了右侧视野的一小部分。
这是一片 30-90Hz 可变刷新率彩色光波导屏幕,总体尺寸为 600x600p,像素密度 42p/degree,最高亮度超过 5000 尼特,在强烈的日光和户外环境都可以保持不错的可读性。
▲图|Meta
根据爱范儿在 Meta Connect 现场的小伙伴 @梦雅Myra 的上手体验,Ray-Ban Display 的光波导屏幕无论是亮度还是隐藏效果都非常优秀,正面看过去只能看到侧面的导线:
而 Meta Neural Band 肌电手环的识别灵敏度也很高,手势操作的成功率相比去年 Connect 大会上的 Orion 测试机大幅提升,日常使用中应该不会出现任何操作难度问题。
▲ 图片来自:@梦雅Myra
与想象中始终显示信息的 HUD 不同,Ray-Ban Display 只有在被呼叫的时候才会点亮屏幕,支持显示比如音乐播放器、相机取景预览、实时字幕翻译等内容,并可将 Live AI 的回复以文字形式投射到镜片上,而不仅仅是语音输出。
或许是因为增加了显示和额外电子元件,Ray-Ban Display 眼镜的重量约 70 克,相比普通版的 50 克略有增加。在混合使用场景中,Ray-Ban Display 的续航约为 6 小时,搭配充电盒可以延长至 30 小时左右。
此外,Live AI 还支持了类似谷歌在 Pixel 发布会上展示的 Magic Cue 功能,可以在用户与别人自然对话的中途全自动地显示各种相关信息和操作(比如创建日程),不需要用户说出任何指令关键词。
眼镜所搭配的 Meta Neural Band 手环是另一个硬件亮点。
这款腕带通过读取腕部肌肉电信号,辅助陀螺仪识别移动,让用户用细微的手指动作来控制眼镜界面。去年 Connect 2024 大会上,Meta 已展示过原型腕带通过手指捏动来打字的演示,引发行业关注。
而今年的演示则更进一步,扎克伯格在现场甚至展示了一小段佩戴 Display 眼镜、通过腕带识别在桌面上手写字母的方式编辑和发送消息的过程。根据发布会的说法,腕带的手写识别速度至少在 30wpm 以上。
作为 Meta 首款真正具备数字显示功能的智能眼镜,Ray-Ban Display 承载了扎克伯格对于「脸上的 AI」的愿景——即将人工智能无处不在的助理和信息,在不干扰用户日常生活的情况下融入现实场景。
扎克伯格曾表示 2025 年是决定 AI 眼镜能否通向数亿用户的关键年份,可见公司对这款眼镜寄予厚望。当然也需看到,现阶段它的功能更接近于「增强信息提示」的智能眼镜,而非完全的混合现实设备。
根据发布会介绍,Ray-Ban Display 的起价为 799 美元(约合人民币 5700 元)。这一价格远高于 Meta 目前所有智能眼镜产品线上的产品,但从现场演示的功能丰富性和实际效果来看,无疑是非常值得的。
除了高端的 HUD 眼镜,Meta 还同步推出了面向大众市场的 Ray-Ban Meta (Gen 2)。
作为一款眼镜的本质,Meta Ray-Ban 3 提供了更多风格和种类的镜框,包含一款全新的透明镜框款,并提供两种镜片选择:棕色反光金或红宝石。
▲ 图|Meta
Ray-Ban Meta (Gen 2) 的电池续航相比上代直接翻倍,智能眼镜充电盒可以在 20 分钟内将眼镜充至 50% 电量——比此前 22 分钟充至 50% 电量略有提升。
此外,充电盒可额外提供 48 小时的电池续航,相比之前的 32 小时有所增加。
录制规格也提升到了 3K 分辨率,包含录制 3K 30fps、1440p 30fps 和 1200p 60fps 的视频,最长可达三分钟。据悉,今年晚些时候,Meta 还将增加捕捉超速快放和慢动作视频的功能——这一功能将应用于其所有 AI 眼镜。
Ray-Ban Meta (Gen 2)支持了一项名为 Conversation Focus 的新功能。它的工作模式类似耳机的增强模式,会主动识别和增强和你对话的人的人声频率,在嘈杂环境中让你更容易听清对方在说什么。
更重要的是,这项功能将作为软件更新,在所有现有的 Ray-Ban 上提供。
Meta 的 Live AI 模型也相应得到了增强,不仅仅是视觉识别,现在它也支持了用户主动打断对话——只可惜,发布会上面的现场演示还是翻了车,Live AI 助手卡在了一句循环的对话上,没能完成一个完整的对话 session。
相比于前代的 299 美元,小改款的 Ray-Ban Meta (Gen 2) 上涨至 379 美元。
Meta 与 EssilorLuxottica 的合作不仅限于 Ray-Ban,也扩展到了集团旗下的 Oakley 品牌。今年 6 月双方已推出一款偏运动取向的智能眼镜 Oakley Meta HSTN,主打更长续航和更高的视频录制规格。
而今天推出的 Oakley Meta Vanguard 智能眼镜与 Ray-Ban 最大区别在于 Vanguard 采用了运动防风镜的外形,其摄像头置于鼻梁正中央,而非镜框两侧。
相机规格方面,Oakley Meta Vanguar 使用的一颗 1200 万像素、122° 广角相机被放置在鼻梁正中,这也是与 Meta Ray-Ban 的最大区别,后者只有一颗位于左侧的摄像头。
眼镜顶部还有录制指示灯。通过新的动作按钮,你可以快速切换拍摄模式:1080p/30fps 可录制 5 分钟,1080p/60fps 或 3K/30fps 可录制 3 分钟,720p/120fps 则支持慢动作模式。
产品的超速延时功能,能够自动剪辑生成精彩片段集锦(今年秋季的软件升级推送至全系 Meta 智能眼镜),还提供可调节的防抖功能,可根据运动强度自行设置。
此外,这款眼镜所搭载的开放式扬声器 Meta 在 AI 眼镜上搭载的最强劲的扬声器 —— 比 Oakley Meta HSTN 大 6 分贝,并且,还配备了五麦克风阵列,专门优化了风噪抑制效果,确保对话过程声音依旧清晰。
考虑到户外场景,Oakley Meta Vanguard 拥有长达九小时的电池续航,或可连续播放音乐长达六小时。用扎克伯格的话说:这足以支撑你完成两场马拉松——当然,前提是你能跑完两场(doge)。
此外,搭配充电盒,智能眼镜可以额外提供 36 小时的续航,如果你赶时间,可以在充电盒中用 20 分钟快速将眼镜充电至 50%。
在生态整合方面,Vanguard 通过与 Strava 及佳明达成了进一步的战略合作。用户可以一键将拍摄内容同步至 Strava 平台,同时借助 Meta AI 的智能分析能力,快速检索个人历史训练记录。
设备兼容性上,Oakley Meta Vanguard 可直接与多数佳明智能手表建立连接。连接成功后,手表界面会显示 Meta AI 专属标识。在运动过程中,用户只需语音指令,眼镜便会实时播报心率监测数据及其他运动指标,数据传输延迟几乎可以忽略不计。
在其实际体验当中,当用户做心率区间训练,还会有额外惊喜——右眼上方新增 LED 灯,训练时一旦偏离目标心率区间会变红,还能设置配速提醒。
如果说 Ray-Ban 面向日常生活和时尚人群,而 Oakley 则主打运动与极客圈层,价格为 499 美元,于当地时间 10 月 21 日正式发售。
Meta 每年 Connect 大会不仅发布硬件,也会推出大量软件更新。
今天过后,Meta 将彻底把现实搬进虚拟世界。最新发布的 「Hyperscape」 技术,可以把你身边的现实空间扫描进 Quest VR 头显,生成一个照片级逼真的数字副本,甚至可以用于加入元宇宙的交互。
Quest 3 和 Quest 3S 用户现在就能下载 Beta 版 Hyperscape Capture 应用尝试,目前仅限个人体验,后续则能通过链接分享,让他人和你一起「重访」这个扫描空间。
这项技术早在去年的 Connect 2024 上就露过面,一年后,Meta 终于把它推到用户层面。
值得一提的是,The Verge 记者提前上手体验了一些预先扫描好的房间,比如厨房环境。在他看来,这些房间看起来和现实环境非常相似,甚至桌上的食物或书堆等细节也比较清晰。
不过,但如果离得太近,「幻象」就会破裂,比如「报纸」上的《纽约时报》文字可以读清,但有时会有点模糊。
▲ 图片来自:Meta
那具体是怎么扫描捕捉空间?
根据 The Verge 的描述说,他戴上 Quest 3 头显后,在房间里走动并四处张望时,会有一个虚拟网格开始覆盖在正对着的物体上。大约扫描三分钟后,应用提示记者靠近物体,这时网格开始逐渐消失。
不过,这种扫描虚拟空间并不是实时的。当用户完成一次完整扫描后,数据需要上传到云端处理,通常需要几个小时之后,才能体验到最终成果。
另一个重点则在于。今年 Horizon 平台最大的变化就是引入了全新的游戏引擎,提供更高质量的图形表现,同时推出 Meta Horizon Studio,帮助创作者打造定制化的游戏体验。
你可以将 Meta Horizon Studio 理解为一款VR 世界编辑器。创作者目前已经能用生成式 AI 工具来制作纹理、音频等内容,而今年晚些时候,Meta 还将为编辑器加入 AI 助手,进一步支持开发。
支撑这些新元宇宙环境的核心是 Horizon Engine。根据 Meta 的介绍,它能够带来「更好的图形、更快的性能以及更先进的 VR 世界」,并支持更高的并发体验。
此外,为了让用户更方便地在 Quest 头显上观看电影和电视剧,Meta 还宣布推出 Horizon TV 中心,提供对 Prime Video、Peacock、Twitch 等流媒体应用以及——终于——Disney Plus、Hulu 和 ESPN 的访问权限。
回顾往年 Connect 大会,硬件发布往往遵循「一主多辅」的模式:即每年都有一款核心硬件发布,并辅以其它项目预览或更新。
例如,Connect 2024(去年)的重头戏是 Quest 3S 头显的发布,以及真正 AR 眼镜原型 Orion 的首次曝光;Connect 2023 则推出了 Ray-Ban Meta 智能眼镜第二代,并公布了 Quest 3 的详细规格,同时预告了多款 VR 游戏和 AI 项目。
与以往有所不同,本届 Connect 大会的主角不是头显,而是智能眼镜。
Meta Ray-Ban Display 这款凝聚数年研发的产品,被视作 Meta 抢占智能眼镜市场的重要一步。正如扎克伯格反复强调的,智能眼镜有潜力成为下一代通用计算平台(the next computing platform)。
另一条贯穿大会的主线是 「AI 无处不在」。
无论硬件还是软件,AI 都是共同驱动力。尤其是,在过去半年,Meta 不断加码 AI 投资,开启今年紧张刺激的 AI 顶尖人才抢人大战。通过 AI + 硬件「双管齐下」,Meta 试图打造一个其他公司难以立即复制的综合生态。
归根结底,这种打法背后,既是 Meta 对硬件路线的重新排序,也是对未来计算入口的豪赌。
头显继续承担沉浸式体验的实验场,而智能眼镜则被推上更靠前的位置,承载着「随身化」的野心。再叠加 AI 的强势渗透,Meta 将最有望在即将到来的智能计算时代中占据制高点。
文|梦雅Myra,莫崇宇,马扶摇
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
就在 Anthropic Claude 陷入降智风波时,OpenAI 刚刚推出了 GPT-5-Codex——这是基于 GPT-5 优化后的 Codex 专用版本,专门针对「自主编程」进行了训练。
这次升级确实有些分量。
聚焦于真实的软件工程场景的 GPT-5-Codex,不仅能处理日常的编程交互,还能独立完成复杂耗时的工程项目。它能像真正的程序员一样,连续工作超过 7 个小时,在复杂项目上不断迭代、修 bug、跑测试,最后交付一个完整可用的解决方案。
从四月份推出 CLI 版本,到五月份上线网页版,再到现在的全面升级,Codex 的——就是要把编程这件事彻底「自动化」。
现在无论你在终端、IDE、网页还是手机上开发,Codex 都能提供一致的编程辅助体验,而且已经整合进 ChatGPT 账号体系,本地和云端可以无缝切换。
GPT-5-Codex 最有意思的特性是「动态思考」能力。它能够根据任务复杂度灵活调整处理时间。
OpenAI 内部员工使用数据显示,按模型生成的 token 数排序,对于最底部 10% 的简单请求,GPT-5-Codex 比 GPT-5 少用了 93.7% 的计算资源。
相反,对于最顶部 10% 的复杂请求,它会花费大约两倍的时间进行推理、代码编辑、测试和迭代。这意味着日常聊天和小任务响应会更快,而复杂的大型重构则会投入更多时间深度处理。
用人话说就是:日常小问题不磨蹭,大项目该花时间就花时间。
终于有个编程模型懂得「好钢用在刀刃上」了。
基准测试方面,在 GPT-5 发布时,OpenAI 只在 477 个 SWE-bench Verified 任务上报告结果,在被 Anthropic 指出这一问题后,今天 OpenAI 宣布这些问题已经修复,现在可以在全部 500 个任务上报告结果。结果如下:
代码重构评测更是涵盖了 Python、Go 甚至 OCaml 等语言,比如一个来自 Gitea 的 pull request 案例,修改了 232 个文件、3541 行代码,将 ctx 变量贯穿到应用逻辑中。
代码审查功能也很实用,它会在代码库中浏览分析,运行测试验证正确性,给出的审查意见准确性不错。在 OpenAI 内部,Codex 现在会审查大部分 PR,每天能发现数百个问题,很多时候比人工审查更早发现潜在 bug。
前端开发支持同样到位,GPT-5-Codex 不仅能创建桌面应用,移动端开发能力也有明显提升。它还能读取截图和设计稿,检查开发进度,把工作成果可视化展示,这对前端开发确实很有帮助。
工具层面的更新也相当丰富。全新改造的 Codex CLI 现在围绕自主编程流程重构,支持直接附加和分享图片,包括截图、线框图和架构图,用于建立对设计决策的共同理解。
处理复杂任务时,Codex 会通过待办清单跟踪进度,内置了网页搜索、MCP 等工具连接外部系统。
审批模式简化为三种:只读模式需要显式批准,自动模式对工作区有完整访问权限但工作区外需要批准,完全访问模式可以在任意位置读取文件并运行带网络访问的命令。
全新的 IDE 插件支持 VS Code、Cursor 等编辑器,让用户能无缝预览本地修改并与 Codex 协作编辑代码。插件还支持在云端与本地环境间流畅切换,可以直接在编辑器中创建云端任务、跟踪进行中的工作,以及审查已完成的任务。
云端基础设施也有明显改进,通过容器缓存将新任务和后续任务的中位完成时间缩短了 90%。Codex 能自动设置运行环境,扫描常见初始化脚本并执行,在配置网络访问权限时还能运行 pip install 等命令按需安装依赖。
安全方面,OpenAI 采用了沙箱运行环境,默认禁用网络访问,确保不会在用户电脑上执行有害操作,同时降低提示注入风险。
开发者可以根据风险承受度自定义安全设置,在云端可以限制网络访问只允许可信域名,在 CLI 和 IDE 插件中可以批准命令、允许全权限运行或使用网页搜索、连接 MCP 服务器。
与 GPT-5 管理方式一致,GPT-5-Codex 在生物与化学领域被归类为高能力模型,已采取相应安全措施。
价格上,Codex 已经集成到 ChatGPT 的各个付费套餐中,不同套餐提供不同的使用额度。
Business 套餐可以购买额外额度,帮助开发者突破包含的上限;Enterprise 套餐则提供共享额度池,只需为团队实际使用部分付费。对于使用 API key 的开发者,OpenAI 计划很快在 API 中开放 GPT-5-Codex。
目前 GPT-5-Codex 的系统提示词已经泄露,感兴趣的开发者可以研究一下。
系统提示词地址:https://github.com/elder-plinius/CL4R1T4S/blob/main/OPENAI/Codex_Sep-15-2025.md
知名博主 Dan Shipper 在体验完 GPT-5-Codex 之后,给出的评价是:
我们在 @every 上测试了几天,结果相当震撼:
– 它会根据任务动态选择「思考」时间——难题上能长时间工作,简单问题则能即时给出答案。
– 在我们的生产代码库测试中,它可以自主运行 长达 35 分钟 ——相比之下,GPT-5 往往过于谨慎,这是一次明显的升级。
– 它支持 本地与网页开发环境的无缝切换。你可以在 VS Code 中启动一个任务,然后在去购物时把它交给 Codex Web 继续完成。
– 它配备了 代码审查智能体,会真正运行你的代码,因此能发现更多 bug。以下是我们经过大量内部测试后的整体感受:
– 这是一次非常出色的升级,让 Codex CLI 成为了 Claude Code 的有力替代品。
– 不过,它需要合理的提示才能表现出最佳效果。比如 @kieranklaassen 最多只能让它运行 5 分钟,而 @DannyAziz97 找到了诀窍。
– 有时候它会「偷懒」——在某些任务上可能思考不足,或者如果认为任务过大就会直接拒绝。
– 我整个周末都在用 Codex CLI 为 @CoraComputer 提交一个新的 PR,体验下来发现它非常好用、易于引导——这是一个很棒的模型。
OpenAI Codex 产品负责人 Alexander Embiricos 表示,性能的大幅提升主要归功于 GPT-5-Codex 动态的「思考能力」。Embiricos 解释说,GPT-5-Codex 的工作方式类似,但它内部没有路由器,而是能实时调整在某项任务上投入的时间。
Embiricos 指出,这比路由机制更具优势:后者在一开始就必须决定要为某个问题分配多少算力和时间,而 GPT-5-Codex 则可以在处理任务 5 分钟后决定「还需要再多花一个小时」。他说,他见过该模型在某些情况下连续工作超过 7 小时。
最近几个月,几乎所有 AI 大厂的重磅更新都指向同一个方向——编程能力。相比之下,如果你仔细观察就会发现,针对普通用户的「优化」其实是在不断减少。
表面上看,这可能是因为面向普通消费者的 AI 产品已经陷入瓶颈期。聊天、写文案、做翻译,这些功能已经比较成熟,很难再有突破性进展。
但更深层的原因,还是绕不开商业逻辑。
开发先进的 AI 模型本就需要天文数字的巨额投入,这些成本总要有人承担。与其指望海量低付费用户慢慢回血,不如直接锁定那些真正愿意掏钱的高价值用户。而程序员是最愿意为 AI 工具付费、且粘性较高的群体之一。
从这个角度来说,放弃技术平权的叙事,AI 的未来可能比我们想象的更加「精英化」。这不一定是坏事,但至少我们应该对此有清醒的认识。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
还以为 ChatGPT 会一直稳坐第一?这周却来了个反转。
Google Gemini 凭借最近爆火的 Nano Banana 图像编辑,一举登顶 App Store 免费榜,把 ChatGPT 挤到第二。
▲ Gemini 位于 App Store 免费榜所有类别第一,图片来源:https://apps.apple.com/us/charts/iphone/top-free-apps/36;15/09/2025
这意味着,Google 终于迎来了属于自己的「爆款 AI 时刻」。
而且,Gemini 只是冰山一角。Google 手里还有一整套 AI 工具,从写作、画图,到学习笔记、视频生成,应有尽有。今天就带你开箱 Google 的「AI 全家桶」。
省流版:
近期爆火的 nano banana,最主要的官方渠道除了网页版,就是 Gemini App。
▲ Gemini 首页,有常驻提醒推广 nano banana 图像编辑模型
但如果你只拿 Gemini 来 P 图,那就太浪费了。它和 ChatGPT 一样,补齐了跨对话的「记忆」功能,并能与 Google 生态无缝衔接。
▲ Gemini 的「记忆」功能
对我而言,这个关键更新,加上教育邮箱赠送的 Pro 会员,足以让我将大部分日常对话转移过来。
Google 最近更新了 Gemini 免费和付费用户具体的使用限制。免费用户使用 Gemini 2.5 Pro 和 Deep Research 的次数有限,但是 nano banana 的单价非常便宜,所以免费用户也有慷慨的 100 张生成机会。
Gemini 2.5 Pro 最大的优点是,每个回答都会有像 DeepSeek 一样清晰的推理过程,但是速度要快上不少。这在 ChatGPT 更新到 GPT-5 之后,采用全新的路由控制,自动选择模型,优势更为明显。
因为 ChatGPT 有时候判断不了,我到底希望他使用什么模型来回复;而我的表达,也不是每一次都能清晰地,让模型知道我的意图。
不过,更会聊天的代价是更不会干活,和 LMArena 显示的排行榜一样,文本能力第一,但是网页的开发能力不及 GPT 和 Claude。好在这些天,Google 也是狂给 Gemini 打补丁,在软件交互上,用户体验越来越好。
▲Gemini 和 ChatGPT 完成同一个开发任务,你喜欢哪个
例如,在网页开发方面,Gemini Canvas 现已支持直接点选应用中的某个元素,用自然语言即可进行修改。
Canvas 画布和 ChatGPT 的画布预览是一样的功能,都是非常直观地,把我们的创意,变成应用程序、游戏、信息图表等内容。
▲ Gemini 画布新增功能,选择并询问。现在只需点击元素并描述所需更改,即可直观地编辑您的网页应用的任何部分。图片来源:https://x.com/GeminiApp/status/1965475292526551105
其次,Gemini 终于支持上传音频文件。这意味着,会议录音、采访视频等包含丰富上下文的材料,可以直接交给 Gemini 处理,省去了手动整理和编写复杂提示词的麻烦。
▲ ChatGPT 一直回复无法使用工具
最新消息,根据 flowith 创始人 Derek Nee 和 Gemini 3 工程师团队的交流,他发 X 透露,Gemini 3.0 Flash 的能力将会超过 2.5 Pro。
和 ChatGPT 使用的条件类似,Gemini 对谷歌账号的归属地可能有额外的限制。
体验地址:gemini.google.com
收藏了一堆英文长文、书摘,结果总是「下次再看」?NotebookLM 就是专门拯救这些吃灰资料的。
你只要把几篇文章、报告甚至书摘丢进去,它就能:
举个例子,我之前用它来整理过论文,NotebookLM 最多支持上传 300 个文件,支持的文件类型也很丰富,PDF、txt、Markdown、和音视频文件,它都能识别。
▲ 我将 297 篇同一研究领域的论文上传,NotebookLM 能完全基于这些文件,生成多种形式的内容总结。
▲ 文字报告、播客预览、视频介绍、思维导图、闪卡和小测验六种形式
播客和文字报告,是 NotebookLM 里面最早提供的选项,现在它们也得到了优化。
文字报告可以选择,直接生成为博客、说明文档、指南等类型,甚至 NotebookLM 会根据知识库里面的资料,提供动态建议;例如,上传论文可能会建议创建白皮书,而新闻类文章可能会生成解释性内容;自定义的提示现在也被允许。
▲ NotebookLM 生成的博客文章
而音频播客现在更是支持 80 多种语言,播客类型也从概述到深入,进一步扩展到辩论和批判性思考等多种类型。
新增的视频、Quiz 测验和 Flashcard 闪卡,是我非常喜欢的功能,无论是帮助我消化这些知识,还是做进一步的内容传播,NotebookLM 都非常有用。
但论文的研究终究是比较小众的场景,我们只是借着论文来介绍 NotebookLM 的功能。对于学生和研究者来说,这绝对是 Google AI 里最值得安利的工具之一。
在更普遍的应用场景中,它能胜任任何类型的知识库构建。像是 NotebookLM 官方给出的使用案例,上传了多家公司一季度的财报,我们可以透过思维导图,一次性清晰的了解财报的具体内容。
还有 NotebookLM 与 OpenStax(免费教科书提供平台) 合作,将它们受欢迎的内容,转化成交互式笔记本,包括生物学、化学、心理学、以及管理学等主题笔记本。
在这个心理学知识库中,每一章节都配有小测验和记忆卡片,帮助我们巩固所学知识点。
小测验和闪卡的主题、难度都是可自定义的。而且,无论是闪卡还是测验,只需点击解释,就能深入探索当前的话题;NotebookLM 会生成详细的概述,帮助我们理解闪卡定义,或解释为什么答错某道题,并附有引用指向原始资料。
体验地址:notebooklm.google
AI 视频热度虽高,但能用它做什么?始终是许多人心中的疑问。我们介绍过多个 AI 视频生成模型,不少读者也曾留言:这种 AI 视频,究竟是给谁看的?
▲ 在 Gemini 里面,直接使用 Veo 3 视频生成,Veo 3 目前仅支持首帧,首尾帧需要 Veo 2。
Google 的更新或许给出了部分答案:支持竖屏(9:16)和 1080p 高清。这无疑是为抖音、YouTube Shorts、Reels 等短视频社交媒体平台量身定做。
▲ Veo 3 近期更新,Veo 3 Fast 从 0.4 美元每秒降价到 0.15 美元每秒,以及支持 9:16、1080p 等。图片来源:https://x.com/GoogleAIStudio/status/1965436154762920074
如今 AI 视频已成为一种新的内容消费品,与其被动观看,不如亲自上手一试。
▲ 提示词:Ultra-realistic cinematic video of Shanghai, famous landmark Tower. Shot in vertical 9:16 format, travel vlog style, smooth camera motion, dynamic lighting, vivid colors, highly detailed, immersive atmosphere, no text, no watermark.
除了 Sora、可灵、海螺这些比较热门的视频生成模型,Google 的 Veo 3 一直在大模型竞技场,文生视频类别下,名列前茅。
前些时间爆火的第一视角穿越、ASMR 切水果,金属、兔子蹦床的夜视监控等视频,都是使用 Veo 3 生成的。
▲ 提示词:50mm camera, close-up angle of a lemon made out of yellow-tinted glass being sliced horizontally on a wooden cutting board. The inside of the fruit is glass as well with a little bit of melting glitter. The entire scene is soft lit from the above.
不过,提示词的优劣,是决定视频质量的关键瓶颈。例如上面这个视频,我们就是直接借鉴了 Google 的官方案例。
他们解释,好的提示词,包括三个部分,首先是「50mm 相机、特写镜头」指定了相机;接着中间一大段用来提示对象和具体的视频内容;最后一句话是进一步明确灯光和纹理。
Flow 对网络要求比较严格,一般在 Gemini 网页或者 App 内使用同样足够。
体验地址:flow.google
搜索是最大的流量入口,因此 AI 浏览器成了大模型厂商的必争之地,尽管这条路并不好走。
Arc 项目宣布停止后,重启的 Dia 浏览器也在前几天,被 Atlassian 以 6.1 亿美元收购。路不好走的原因倒不是因为没有利益,而是太多巨头想要吞下这块香饽饽了。
微软在上个月宣布自己的 Edge 升级为 AI 浏览器,Copilot 无缝接入到浏览器的每个角落,预订餐厅和机票、跨越标签页的整理总结等等。OpenAI 在之前推出 ChatGPT agent 时,也被爆料要做自己的 AI 浏览器。
Google 当然也不会停下脚步,和我们平时用 Google 搜索时看到的 AI Overview 不一样,AI Mode 更像是一份深度研究报告,它会利用 Gemini 2.5 的高级推理和多模态能力,来处理我们的查询输入。
例如当我问他 iPhone Air 的 esim 卡到底是怎么回事时,它会自动根据网页内容进行整理,给出更准确的答案。
▲ 点击上方 All,则可以切换回普通的 Google 搜索
不过 AI Mode 有一个缺点,是目前它还不支持中文。但前几天,Google 已经宣布支持日语、韩语、以及葡萄牙语等五种语言。他们提到构建一个全球化的 AI 搜索不仅仅是翻译,所支持的语言,应该具有本地相关性和实用性。
体验地址:google.com/ai
Claude Code 断供完全没关系,Gemini CLI 是真的好用。
之前我们说用这种终端工具来修改文件名,其实是最「弱」的用法了。我最近 X 视频、YouTube 等视频下载;视频转 GIF 以及各种格式转换;图片压缩、视频压缩,全部交给 Gemini CLI。
Gemini CLI 的安装流程相当清晰,即便遇到环境配置问题,如今的 AI 也能提供可靠的解决方案。
前期的麻烦点主要集中在安装 Node.js 上,对 Windows 用户来说,终端使用没有 macOS 和 Linux 友好,所以是需要一点耐心的。
Node.js 安装完成之后,按照 GitHub 上指引,运行 npm/npx 命令就可以安装 Gemini CLI 了。
在终端里面输入 gemini,会提示我们进行验证,一般登录 Google 验证就可以,不需要去额外创建 Gemini API 之类的操作。免费用户每分钟有 60 次请求,每天 1000 次请求,应付日常的简单工作流是足够的。
终端里面有一些非常基础的命令,因为我们打开终端的时候,默认的文件夹是可能是整个电脑的文件,如果直接输入 gemini,它检索文件会比较麻烦。
正确的操作是,一些基础命令输入 ls:会列出当前目录下的所有文件和文件夹;cd xxx:进入某个文件夹;mkdir xxx:创建一个文件夹。
▲ 例如第一步我们打开终端,输入 ls,可以看到当前目录下所有的文件和文件夹;接着我们选择一个文件用来处理,此次需要 Gemini 的项目文件夹。输入 cd Downloads,可以看到 % 前面有当前目录 Downloads 的名字。接下来,我们创建一个文件夹,mkdir testing,然后再进入这个目录,cd testing。当然也可以直接选择一个文件夹,鼠标右键,在终端中打开。输入 gemini,它就正式接管了我们的终端,我们接下来就能用自然语言,处理许多复杂的任务了。
▲ 拿下载一个 X 的视频举例,首先它会搜索,找到一个 yt-dlp 的工具,可以用来下载视频;接着,它会自动检查我的电脑,是否有安装这个工具。检测到有安装之后,视频就开始下载了。
这是调用了 yt-dlp 工具,而在终端环境里面,还有非常多高效的工具,例如 FFmpeg,它是一款处理多媒体内容的强大工具。
▲ 输入指令后,Gemini CLI 会直接说它需要 yt-dlp 和 ffmpeg 这两个工具;然后会自动调整分辨率和帧率,以符合我提出的最终文件大小,最后它会删除过程中的临时文件。
我们继续用 X 视频举例子,这次直接要求他把这个链接的视频下载为一个 GIF 文件,并且确保 GIF 文件的大小在 5-10 MB 之间。
除了从网络上下载文件,Gemini-CLI 也可以直接处理本地文件,例如我有一张图片的大小,不符合平台上传规范,我告诉它文件名,然后要求它压缩,过程中完全不需要去找任何的在线工具。
▲ 可以用模糊语言指定图片位置,顺利定位到图片,它会使用 ffmpeg 工具来进行压缩。不过最后它把我的原文件删掉了,当我告诉他要求找回时,它会修改自己的 gemini.md 配置文件——这相当于它的「记忆」,它会记住这次教训,确保未来不再犯同样错误。
命令行工具的种类丰富,几乎大部分的文件都能处理,甚至有时候遇到一些压缩包不能解压,直接让 Gemini CLI 来处理,而不需要额外去下载对应的解压工具。
再结合 MCP(大模型上下文协议,连接不同数据的万能接口),Gemini CLI 能做的远远不止是编程开发。
体验地址:https://github.com/google-gemini/gemini-cli
Google Labs 汇集了许多尚未正式发布的 AI 黑科技产品,像 AI Mode、NotebookLM 目前都还是实验室产品,不过他们名声比较大。我们也选择了几个有意思的小项目,虽然背后的模型都是同一个 Gemin 2.5 Pro/Flash,但是可以看看模型之上,不同的软件形态。
首先就是 Whisk,这个主打不需要提示词,上传照片尽情玩耍的图片生成工具,现在还新增了 animate 动画的功能,直接将生成的图片转成一段视频。
还有学习一门语言的 Little Language Lessons,它特别的地方,是让我们快速在 Gemini 构建的一系列小实验里面,学习一门新的语言,直接在现实场景中应用,还能学习各种俚语表达。
我拿粤语试了一下,至少不是多邻国里面,来来回回的肠粉和豉汁排骨了。
Google 实验室还有非常多的项目,体验地址:labs.google
讲了通用大模型 Gemini 2.5 Pro、图像编辑 nano banana、视频生成 Veo 3,怎么可以没有 Imagen 4。
Imagen 4 官方渠道目前是只能透过 Gemini API 和 AI Studio 两种方式体验,即便 Google Labs 里面有专门生图的工具,ImageFX,但是使用的模型依旧是 Imagen 3。
AI Studio 能做的,就是体验到 Google 最新最全的各种模型。而且,在 AI Studio 里面的对话,提供了「分支」功能,我们可以保留现有对话的前提下,开启另一个新的话题。
前段时间,马斯克还在 X 上和奥特曼互撕,直接开骂,Apple 和奥特曼有私下交易,不然他的 Grok 怎么登顶不了排行榜第一,凭什么一直都是 ChatGPT。
这一番开箱下来,似乎能看到一点 Gemini「凭什么」的端倪。Google AI 几乎是用一套完整的工作流,无缝融入我们的学习、工作和创作之中。从整理资料到激发创意,再到解放双手,这套全家桶的核心,是希望实实在在地提升每个人的生产力。
你最常用或最想尝试的是哪一个?有什么问题可以在下面留言。
视频请点击链接,前往微信播放预览 https://mp.weixin.qq.com/s/gdSkrm95Mq1RORe-sIoK4A
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
看到一个热搜话题特别有意思:
一群外国来华留学生在小红书上哭诉,说中国大学生都在用的夸克AI对留学生搞差别对待,所有中国大学生都可以凭学籍免费领取夸克SVIP会员,但同在一个学校上课的留学生却只能眼巴巴看着领不到,夸克把他们忘了。
留学生们甚至还根据外网的习惯,专门建了一个We Study in China的留言墙网站,供在华留学生上去发声许愿,呼吁夸克AI给他们同等待遇,同等会员。
这一幕,很像之前TikTok在美国关停时涌入小红书的“TT难民”,都是想用中国互联网服务而不得的老外。
事情很小,但意义非凡。印象中,这是有史以来留学生群体在中国社会的第一次集体发声。
看到外国学生也在追捧中国AI工具,甚至还“伸手讨要福利”,网民们乐坏了,评论区充满了扬眉吐气幸灾乐祸的空气。
也算意料之中吧。这些年,中国社会对留学生享受超国民待遇的情况那是积怨已久,如今终于看到留学生们被差别对待,感受了一次低国民待遇,那可不得抓住机会狠狠出一口恶气?
集中代表这类想法的观察者网就发了一篇欢呼的评论,兴高采烈地宣布“中国的标配,成了外国人的顶配”。
是,中国的AI现在是出息了,各家的AI工具在不同生活场景应用中也的确做得很不错,毕竟应用层一直是中国互联网的强项。
但是,夸克AI赠送会员把留学生排除在外这件事,其实是再次暴露了中国社会一个长期存在的问题:
投入天量资金培养外国留学生,却很少取得实际成效。
据统计,2025年度在华留学生数量已突破50万人。
很多人印象中来华留学的是非洲学生最多,但实际上占更大比例的是亚洲学生,如巴基斯坦(很好理解)、韩国(他们国内比中国还卷)、泰国(华裔多)等。我上本科的时候学院里有几位留学生来自越南,因为肤色面相差别不大,所以在人群中并不显眼。
但无论留学生数量达到几十万,这个群体在中国社会几乎都是没有存在感的。即便偶尔因负面事件上了新闻,也几乎听不到留学生们自己的声音,都是中国网民自己在吵。
一方面,是中国高校在主动创造软隔离,包括给留学生单独的宿舍楼,单独的食堂,甚至专门给留学生开的课,在学校里留学生和中国学生的交流就不多。另一方面,留学生们毕业后留在中国工作生活的机会其实很小,他们也缺乏动力融入中国社会,心里念的都是拿个学历赶紧走人。
但这样一来就导致了一个事与愿违的后果:
中国长期以来投入了大量的财政补贴支持培养外国留学生,但因为缺乏文化交流与社会融入,既没有为中国输入人才外援,也比较少通过留学生学成回国输出文化影响力。
两头都不占,投入岂不是打了水漂?
夸克AI这次发免费会员福利把留学生排除在外,看起来是一家商业公司的行为,其实背后是整个社会集体心态的一次投射。
当然,这只是在华留学生日常状态很小很小的一个缩影,只是因为戏剧性的反差效果才上了热搜。
真正值得关注的问题在于:
中国社会到底应该以怎样的姿态看待来华留学生和来华外国人?
十年以前,社会上对外国人总体上还是仰视占绝大多数,友善态度居多。而当前社会心态面向外国人则是仰视和俯视并存,俯视和鄙视居多,仇视言论屡见不鲜。总而言之,都不是什么健康的心态。
此前外国用户大批涌入小红书的时候,社会对“洋人来了”的心态就集中展现了一轮。只是如今,这些外国用户在小红书又留下了几个呢?
回到本文标题来,表面现象是夸克AI忘了留学生,背后本质其实是中国社会始终没有平视留学生,没有平视外国人。
分享一点建设性意见:
不要仰视,也不要俯视。
什么时候我们的社会能真正平视外国人,能以平等开放的心态接纳留学生融入学校,融入中国社会,那时才是真正的从容自信了。
让我们没有想到的是,一场短短 75 分钟的发布会,为我们带来了近四年来最香的 iPhone。
在本次苹果秋季发布会上,苹果一口气更新了三款 Apple Watch 和四款 iPhone,作为苹果产品线里最走量的两款产品,这样的动作表明了一个事实:
苹果有危机感了。
▲爱范儿在现场
但危机感留给苹果去担心,我们作为消费者,只需要好好享受今年的实惠新品就行了。今年的 iPhone 17 标准版终于补齐了长久以来 120Hz 高刷的缺位,Pro 系列也迎来了影像能力的提升,甚至连 Apple Watch SE 3 都有了 AOD。
爱范儿已经在现场第一时间体验了今年的新品,更多发布会没提到的细节,我们将在今天后续的文章中与你分享。
太长不读(TL;DR)
与预测信息相同,今年的 iPhone Air 取代了往年的 Plus 机型,成为了那个不追求影像能力的大屏选项。
但「Air」作为苹果内部一个意义深远的名字,带来的亮点可比 Plus 多多了——比如它的名字不叫 17 Air,就叫 iPhone Air。
在最重要的外观方面,iPhone Air 是一款 6.5 寸的机型,机身厚度仅为 5.6mm。为了维持机身强度,苹果将 Air 的边框改为了抛光的纯钛合金,视觉冲击力够强,也是一支从侧面能看出来是「最新款」的 iPhone。
▲ 爱范儿在现场
至于 iPhone Air 的屏幕则是我们熟悉的样子,依然是一块采用灵动岛挖孔的 Super Retina XDR 屏幕,峰值亮度 3000 尼特,并且支持 ProMotion 1~120Hz 的可变刷新率。
此外,iPhone Air 也用上了新的第二代超瓷晶面板,类似当年的 12 寸 MacBook,苹果将除了电池之外的所有主要部件全部集成到了镜头 deco 里面:
有趣的是,iPhone Air 没有像传闻中那样与标准版使用相同的 SoC,而是用上了带后缀的 A19 Pro 处理器,搭配 6 核 CPU 和 5 核 GPU(和 Pro 相比缩水 1 GPU 核心)——但总体上能看出来,苹果是希望在计算性能上让 Air 与 Pro 看齐。
此外,iPhone Air 还搭载了一颗新的苹果自研无线芯片 N1(蓝牙、Wi-Fi、Threads 网状网络),以及更新的 C1X 基带芯片,基带能耗直降 30%,如发布会所说,iPhone 17 Air 无疑是迄今为止能效最好的 iPhone 。
但物理定律决定了,超轻薄的机身肯定要以零件体积为代价,而 iPhone Air 的代价也不言自明:电池。与爆料信息接近,它的电池容量仅 3000 毫安时出头,这并不是一个能让人安心的数字。
但苹果很明显也考虑到了这个问题,跟随 iPhone Air 的发布,我们还迎来了一款许久未见的「超薄 MagSafe 磁吸充电宝」。
虽然重量和厚度都有所增加,但在有需要的时候能够变轻薄,至少也是一种生活选择。
影像方面,iPhone Air 与 16e 一样同为后置单摄,传感器分辨率为 4800 万像素,支持两倍的 ISZ 输出 1200 万像素的照片,当然还有全系标配的全新前摄。得益于升级的 A19 Pro 处理器,iPhone Air 甚至支持前后同时录像。
抛开这些常规数据,iPhone Air 还有一个大家都在关注的问题——网络制式。在美版机型试验三年多之后,iPhone Air 成为了首款全球所有地区型号都不支持实体 SIM 卡的 iPhone。
不过归根结底怎么看,iPhone Air 都很像是在给未来的折叠屏 iPhone 做技术试验田,无论是超轻薄的机身还是新规格的电池,似乎都在暗示着明年的 iPhone Fold 会有一些超出预期的设计。
更加炸裂的是,官网国行页面显示,它目前支持中国联通的线下 eSIM 开通业务。也就是说,苹果真的跑赢了华为,让 iPhone Air 成为了第一台纯 eSIM 的国行手机。
今年的 iPhone 17 标准版,可谓重磅。
原因没别的:苹果终于「突破制裁」,在大家心心念念四年多之后,将高刷新率屏幕也给 iPhone 17 配齐了。
与预测不同,iPhone 17 和其他三款机型一样是 LTPO 屏幕加持的可变刷新率,支持全屏 AOD,以及满血的 1~120Hz ProMotion 刷新率,亮度同样来到了 3000 尼特。还有全新的第二代超瓷晶面板,甚至是抗反射玻璃,真的是把隔壁三星的 Ultra 功能直接拿过来用了。
——这不是一台 Pro 手机,却用上了大量从 Pro 下放来的技术。
iPhone 17 同时还会更新 3nm 的 A19 处理器,这可能是少数不「Pro」的配置了。
配色方面,iPhone 6 时代经典的金属灰色调,也来到了 iPhone 17 上。比起今年 Pro 系列那个妖艳橙色,看起来养眼很多。
至于其他周边配置,iPhone 17 与前代基本相同,屏幕尺寸微微增长至 6.3 寸,电池容量也得到了提升,相比 iPhone 16 续航延长近 6 小时,甚至连充电功率也有小幅提升。
不仅仅是屏幕,今年的双摄系统也得到了一次大升级,主摄分辨率升级至 4800 万像素,上方的超广角镜头同样升级到了 4800 万像素。
最大的升级来自前摄,今年的新 1800 万像素前摄传感器使用了一块方形的 CMOS,和 iPad 一样支持全自动的 Center Stage 功能,方形的传感器让自拍的构图将丰富到难以想象。
iPhone 17 标准版的起步容量来到了 256GB,同时国行价格仍然维持 5999 人民币不变,这是良心方面的提升。再考虑到苹果今年 618 期间降价吃国补的操作,iPhone 17 极有可能成为最近五年来销量最好的 iPhone。
与 iPhone Air 变薄减重正相反,今年的 iPhone 17 Pro、Pro Max 两款,主打一个力大砖飞。
并且是字面意义上的力大砖飞—— 17 Pro 和 Pro Max 都将收获这个与板砖(或者麻将)神似的镜头 deco:
不过多出来的这块空间并没有浪费,iPhone 17 Pro 系列带来了发布会上称之为「iPhone 有史以来最大的」影像能力升级。
▲ 爱范儿在现场
最明显的就是,iPhone 17 Pro/Max 的长焦传感器面积提升近 56%,实现了原生的 4 倍长焦焦段,搭配数字变焦,在录像时最高支持 40 倍放大倍率。
录像规格方面,iPhone 17 Pro 系列不仅支持 ProRes Raw 录制,更是在影视能力上更进一步,在录像中支持了一个类似时间码同步的功能「Genlock」,给那些买 iPhone 拍摄子弹时间镜头的导演更充足的创作空间。
更加强大的相机也需要更充足的散热,与前期爆料相同,苹果 iPhone 17 Pro 和 Pro Max 内部终于加上了一块 VC 均热板,让持续录制能力和日常性能调度再上新台阶。
而在屏幕方面,iPhone 17 Pro/Max 也用上了新的屏幕面板和第二代超瓷晶玻璃,屏幕峰值亮度提升至 3000 尼特,有了 VC 均热板和抗反射屏幕的加持,户外可读性和耐久性将会得到明显的提升。
在机身里面,同样是第三代 3nm 制程工艺的 A19 Pro 处理器,而且是所谓的「满血版」。从 8GB 升级到 12GB 内存,多出来的部分除了提供更强(但你不知道啥时候才能用上)的 AI 性能之外,或许也是支持 Pro 系列本次独占的专业相机视频功能的关键。
颜色方面,今年的 iPhone 17 Pro 取消了黑色。深蓝色是唯一的深色机型。而新加入的星宇橙配色,介于夕阳与火焰之间的色泽着实抓人眼球,则是官方广告词「燃」的灵感来源。
至于起售价格,在今年多了这么多料之后,iPhone 17 Pro/Max 最低配 256GB 型号的价格分别为 8999 和 9999 人民币 。今年的 Pro 系列最大容量更是来到了 2TB,越来越像是「专业影视工具」了——当然,以 17999 元为代价……
值得一提的是,至于我们最为关注的国行 Apple Intelligence,苹果官网仍旧显示:「为 Apple 智能预备好」,具体推出时间依监管部门审批情况而定。发布会前爆料显示,苹果可能在年底推送的 iOS 26.1 或 iOS 26 .2 中正式上线国行 AI 功能。
iPhone 17 系列将于 9 月 12 日晚 8 点开启预购,并在 9 月 19 日全面发售。
爱范儿在现场,看到 AirPods Pro 3 带头亮相时,全场都发出了「喔」的声音……
▲ 爱范儿在现场
AirPods Pro 3 的核心更新,并非音质和降噪,而是两个功能:一个对于现在的耳机很重要,另一个则让人有点诧异,居然出现在耳机上。
先看后者:心率检测——这可是无线耳机上很少见的功能。
不过苹果曾经在 Powerbeats Pro 2 上试水过心率检测。只要佩戴 AirPods Pro 3,就能实时在 iPhone 的健康应用中查看自己的心率变化。
并且,在健身和健康方面有不少技术积累的苹果,让 AirPods Pro 3 能够通过持续监测用户的心率,推算用户锻炼过程中的热量消耗。
以后,只要戴着 AirPods Pro 3,就能追踪 50 种不同的锻炼模式,还能参加苹果的健身锻炼圆环挑战——不一定非要佩戴 Apple Watch,也可以加入朋友、同事、家人的社交健身竞赛。
为了让 AirPods Pro 3 更好成为一款「运动耳机」,苹果也提升了防水等级,AirPods Pro 3 成为首款抗汗水性能达到 IP57 的 AirPods。
除了心率监测和健身,AirPods Pro 3 还有一个新功能:AI 实时翻译,能够实现面对面交流时的语言翻译。
用户双手同时捏合 AirPods Pro 3 即可启动这个功能,需要和 iPhone 配合使用,它不是逐字翻译,而是将每个短语准确表述。用户可以 iPhone 可以展示翻译的文字和语音。
如果对方也戴着 AirPods,那翻译的语音会直接同步对方的耳机之中,等于双方都自带一个同传。
值得一提的是,实时翻译功能并非 AirPdos Pro 3 的专属,最新固件的老机型 AirPods 4 以及 AirPods Pro 2,配合 iOS 26 iPhone 都能使用这些功能,前提是所在地区能使用 Apple 智能。
目前支持英语(英国、美国)、法语(法国)、德语、葡萄牙语(巴西)和西班牙语(西班牙)这些语言,今年也将更新支持简体中文。
音质方面,AirPods Pro 3 搭载定制的多孔声学架构,低音更强,还拓宽了音场,听歌看剧电话人声都更清晰。
由于采用了全新的泡沫填充耳塞,AirPods Pro 3 的降噪能力又翻了一倍,通透模式也有所增强,用户自己和他人的声音都更加自然。
AirPods Pro 3 的设计也有所改变,两只耳机的尺寸都更小,以贴合更多耳朵。
电池续航也是影响无线耳机体验的重要因素,开启主动降噪后,AirPods Pro 3 支持佩戴 8 小时,比上一代多出 2 小时,加上充电盒能使用 24 小时。
▲ 爱范儿在现场
售价方面,AirPods Pro 3 保持 1899 元。
今年,苹果一口气更新了三款 Apple Watch:
最大的好消息是:三个款式全部支持 5G 了!移动、电信、联通三大运营商,均首发支持。
先来看 Apple Watch Series 11:沿用了去年 Series 10 的尺寸和外观,屏幕玻璃采用 Ion-X 显示屏,还升级了新款超瓷晶涂层,抗刮能力对比上代提升一倍。
Series 11 的全新健康功能,聚焦在心血管和睡眠两个维度。
世界上有 13 亿成年人饱受高血压困扰,这个慢性病很难被发现,大部分人并不会有意识去定期专门进行血压检测。
为了解决这个问题,今年的 Apple Watch 新功能则是「高血压趋势」。
Apple Watch Series 11 不会测量精确的收缩压和舒张压,但通过分析血管对心跳的反应,来检测慢性高血压风险,在后台分析 30 天数据,一旦识别到高血压症兆就会提醒用户,促使用户获得及时的专业医疗支持和改善生活习惯。
▲ 爱范儿在现场
这个功能并不仅限今天发布的新品,未来也会在 Series 9/10 以及 Apple Watch Ultra 2 上推出。
不过,国内官网相关页面上并没有这个功能的介绍,国行 Apple Watch 短期内大概率无缘这个功能。
睡眠方面,Apple Watch Series 11 推出「睡眠评分」功能,通过对用户睡眠结构的分析,将用户的睡眠质量进一步具象化。
睡眠分数也将下放到运行 watchOS 26 的 Apple Watch Series 6 和更高版本、Apple Watch SE 2 以及所有的 Apple Watch Ultra 型号,也需要和搭载 iOS 26 的 iPhone 配对运行。
Apple Watch Ultra 3 的机身尺寸不变,但屏幕边框更细,稳坐 Apple Watch 最大屏幕。
Apple Watch Series 10 上采用的广视角 OLED 屏幕,现在也来到了 Apple Watch Ultra 3 上,在倾斜角度看屏幕亮度更高。全新的 LTPO3 技术,让 Ultra 3 现在能显示每秒跳动的表盘。
Apple Watch Ultra 3 的通信能力得到了进一步提升,除了 5G,还支持卫星通信,进一步增强了这款手机的户外能力。
▲ 爱范儿在现场
Apple Watch Ultra 3 也成为了有史以来续航最长的 Apple Watch:42 小时,低功耗模式下,可提供长达 72 小时的电池续航时间。
家族中的小弟 Apple Watch SE 也迎来了第三代更新。
由于搭载了 S10 处理器,Apple Watch SE 3 获得了大量新的功能,例如全天候显示屏,以及双指互点和轻翻手腕手表交互。
健康能力上,Apple Watch 支持了全新的手腕温度传感功能,进一步补充了生命体征的数据,以及女性健康的排卵预测。
去年更新的「睡眠呼吸暂停」功能,以及 S11 同款的「睡眠评分」也来到了 Apple Watch SE3 上。
Design is not just what it looks like and feels like. Design is how it works.
设计不止关乎外观和感觉,更在于如何运行。
虽然今年的秋季发布会依旧是熟悉的苹果预录,但在库克出场之前,史蒂夫 · 乔布斯这句话出现在了发布会的开头,预示了这场发布会将会和平淡的这几年有所不同。
然后,在发布会进行到 40 分钟时,iPhone Air 登场,即使在场的数码博主都对这款传闻已久的手机有所了解,还是被它纤薄精致的外观惊出异口同声的「Wow」,这也是我们面对新 iPhone 很久没有的反应。
等到爱范儿真正上手才发现,薄只是 iPhone Air 吸引眼球的外衣,这款手机真正的魅力,在于它超轻的手感,以及紧致的机身。
自 iPhone Air 的消息传出以来,外界对这款手机的质疑从未断绝,主要的争议都围绕在苹果为了超薄的噱头,不惜牺牲用户体验。
但我们对于手机轻薄便携的需求永远存在,它能带来更无感的使用体验,更接近我们在最初对智能手机的期待——简洁、轻薄,没有多余的元素,少即是多。
对于苹果来说,接下来的目标就是如何做到「轻薄」和「全能」的结合。第二代的 iPhone Air 想必会做出更少的妥协,而未来的 iPhone Pro 也会得益于 iPhone Air 的探索,逐渐实现瘦身。
更重要的,是有望明年发布的折叠 iPhone,以及后年(iPhone 20 周年)可能发布,强调「无边际」交互的全玻璃 iPhone——它们的产品定义,轻薄是不可或缺的属性。
超轻薄的 iPhone Air 不止关乎外观和感觉,最终它将带我们走向 iPhone 以及智能手机体验的下一个时代。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
最近,朋友圈和抖音小红书几乎被 Nano Banana 刷屏了。这个香蕉模型似乎要让 P 图这个词消失,直接给 Gemini 带来了一千万的新用户,火得一塌糊涂。
各路大神的邪修玩法铺天盖地,什么 3D 手办、大佬合影都是基操了。虽然 Nano Banana 强得不行,但在留言区依然收到不少用户的疑问和需求。
首先使用门槛就拦住了不少人,甚至比在国内用 ChatGPT 还麻烦一些。在图片编辑过程,最多人反馈的是 Nano Banana 图片分辨率不够高,以及比例高度不可控。
说实在,我也感觉自己有点吹毛求疵,但没想到,这些需求真的有人听了进去,并且做了出来,而且还是咱们国产厂商。
刚刚,火山引擎正式上线豆包・图像创作模型 Seedream 4.0。
除了具备「超强主体一致性、多图灵活创作、连续生图」等核心能力,Seedream 4.0 还有一个 Nano Banana 也没有的功能——支持最高 4K 高清图片输出。
这也是首个最高支持 4K 多模态生图的模型,目前企业用户已经可以通过火山方舟抢先体验了。
个人用户也不用眼馋,4K 版将于今晚 20:00 首次开放给个人用户,搜索「火山方舟体验中心」,即可第一时间体验。
Seedream 4.0 同时也在豆包、即梦全量上线,最高支持 2K 输出。
实际表现如何需要拉出来溜溜。APPSO 提前拿到内测体验了几天,给它上点比 Nano Banana 更大的强度。
实测完后我发现,虽然也不能算完美,但国产生图确实来到了一个新的阶段。
今晚就是苹果秋季发布会了,不用熬夜看直播,APPSO 先把帮苹果把 iPhone 17 给上线了
我们用 Seedream4.0 生成了两款今年大火的 iPhone 17 Air 产品页面,这可是今年最受关注的超薄旗舰。
参考 iPhone 16Pro 的官网页面,替换手机和相关文案,保证果味十足
这个构图似乎有些古板,调整一下小字 ,再加上 Just 5.5mm thin 这个最大的亮点。可以看到 Seedream4.0 生成的这版 iPhone 17 Air 将手握机身的倾角,刚好和字母 A 右边平行,有点资深设计师的审美了。
这次,我们不让库克来发布产品,有请特斯拉人形机器人来客串一把。还是熟悉的场景,熟悉的 Good Morning(doge)。
这组图用到了三张参考图,人形机器人、iPhone 17 Air ,以及库克的现场图,Seedream4.0 一致性确实有点东西。
其实这里还有个逆天的细节容易被忽略,注意看观察生成图机器人头盔上的反射细节,原图是漆黑一片的,也就说, Seedream 4.0 根据图 3 的蓝天白云和建筑物背景,推理出机器人应该有的反射,真的太细了。
不妨再脑洞大开一点,据称 iPhone 17 Air 就是为了明年折叠屏手机做准备。APPSO 用 Seedream4.0 也提前让大家看看 iPhone 首款折叠手机的「实拍图」。
眼尖的读者可能已经发觉,是不是跟华为新款的三折叠有点像,没错我用了它作为参考图,替换了上苹果的摄像头和logo,无论是构图、背景和水印的细节都完整保留了。
那干脆整一部苹果的三折叠,其实也没有人知道那一夜,苹果和华为究竟发生了什么。
如果是「乔布斯」,他会怎么发布这款产品,我们请 AI 老乔限时返场。
熟悉的身影,穿透屏幕的气场,让我们再次高呼「Amazing」。
Nano Banana 能走红,除了社交媒体的爆款玩法,更在于它的技术能「看得见未来」。无论是一致性、局部修改、换色还是多图结合,都是能够直接用在电商、营销、社交媒体等等场景里。
无论技术有多亮眼,如果不能应用到生产力场景,也只是玩具。
下面我们看看 Seeddream 4.0 在一些实用场景能不能打。
我们先拿这两天刷屏的红月亮,融合到球鞋设计中。
我还想看看这款球鞋不同角度的展示,只需输入类似「生成一只白色运动鞋,展示正面、侧面和俯视视角」的提示词,不管是用于打样还是用于设计草图,都直接一步到位。
如果我还想找一个模特用不同姿势展示商品呢?找不到合适的参考照片也没关系,直接画个火柴人简笔画就行。
Seeddream 4.0 基于手绘图能有效控制模特姿势的一致性,同时实现角度的合理变化,在多角度呈现上表现精准。
像下面这个案例,我在提示词里面没有指定两个人的站位,所以在它生成的 4 张照片里面,两种站位都有,而且效果都很好,它像一个周到的乙方,如果你需求没有很明确,那就把可能的情况都考虑到并把成品给你挑选。
▲ 提示词:将图1男子和图2女子合进一张画面,参考图3姿势
如果说拥抱这种动作太简单了,我们直接来一个举高高的动作,这次再指定多一张背景图片。
▲ 提示词:将图3和图1合进一张画面,参考图2姿势,图1是被举起来的那个小孩;同时背景使用图4。图四的背景是来自浪浪山,两个角色是罗小黑和他的师傅。
四个人的参考图,Seedream 4.0 同样可以很好的处理,保持和简笔画的姿势一致。
▲ 提示词:把图一的四个角色(西游记里面的师徒四人,沙僧、唐僧、猪八戒、孙悟空)按照图二的姿势(叠罗汉)排布,沙僧、孙悟空和猪八戒在下面,唐僧在上面。
如果还想给模特更换妆造,我们发现 Seeddream 4.0 也能准确把握不同发型的特质:长直发的柔顺、盘发的干练以及卷发的弧度,全部都清晰呈现。
同时,背景与人体保持高度一致,未出现边缘模糊或形变问题,成功实现了在保留主体特征的基础上对妆发风格的精准转换——省了多少模特妆造费用。
最让我惊喜的要数线稿生成,线稿通常为简洁的线条勾勒,仅包含物体基本轮廓与结构,缺乏细节、色彩及质感。在草图转渲染功能上,Seeddream 4.0 能将简单线稿转化为高质量成品图。
不仅精准填充丰富色彩,使物体视觉层次分明,还有细腻的光影处理与材质模拟,比如包包的皮质纹理、金属配件光泽等。
它对于「高质量渲染图」的理解,可谓是逆天,除了静物,还搭配了人像、场景,你没想到的,它都替你想到了。
讲真,Seeddream 4.0 这次更新后,对真实质感的处理完全超出我的预期。
像皮具、金属的纹理表现已经很稳了,但当我看到它生成人的皮肤纹路时,还是被秀到了。
这个皮肤纹理、隐约可见的青筋,甚至是手腕上自然的汗毛感,还有光线打在皮肤上的通透效果……所有细节都拿捏得非常到位,组合在一起就一个字:真。
而这组图的原始参考图是什么呢——
仅此而已。
细节还原仿佛真实拍摄,完美实现了真实世界照片拟合的需求。这都意味着模型能够适度的「创作」,在参考图和提示词给定的范围内,给出合理的发挥。
这种创作能力可以用在更有趣的玩法上,比如只需要一个矢量图,就可以给 APPSO 生成一整套完整的周边设计。
▲ 提示词:参考这个LOGO,做一套品牌视觉设计,品牌名称为 APPSO,包括包装袋、帽子、纸盒、卡片、手环、挂绳等。红色视觉主色调,趣味、简约现代风格
Seeddream 4.0 的「创作」能力和直接生成样品的玩法,极大地降低了制作成本。而且效果相当不错,模型捕捉到了「有趣味、简约现代」的核心风格,将品牌 LOGO 巧妙地应用在手机壳、卡套、挂绳和帽子上。
还有一点好评的是,Seeddream 4.0 支持最高 4K 分辨率的输出,而 2K 分辨率直出只需要几秒,能在电商等一些场景做到专业级输出,有更大的后期空间。
除此之外,APPSO 还发现了一些有趣的邪修玩法,也跟大家分享。
最基本的桌面手办,当然是不在话下,我们试试让人物自己,拿着本人的手办。
▲ 图片来源:https://x.com/oden_ai_ai/status/1957414144417910924/photo/1
▲ 提示词:将这张照片制作成一个角色模型。其后放置一个印有该角色图像的盒子,以及一台屏幕显示 Blender 建模过程的电脑。在盒子前方添加一个圆形塑料底座,角色模型手办站立在上面。并尽可能设置为室内场景。
▲ 提示词:照片级真实感。 然后照片中的人拿着一个手办模型,这个模型是根据这张照片的主体人物,制作而成的一个角色模型,在自己的房间里,很满意的微笑。房间里的电脑桌上,有一台屏幕显示 blender 建模该模型过程的电脑,同时有一个印有该角色图像的包装盒子,以及盒子前方有一个圆形塑料底座。
不仅拿在手里,还能挂在包上,照片的真实感和一致性保持都非常厉害。
▲ 提示词:照片级真实感。 先将这张照片变成一个可爱挂件/亚克力材质的扁平钥匙扣/橡胶材质的扁平钥匙扣,挂在 lv 包包/图二照片的包包上,然后她自己再背着这个有自己同一个角色挂件的包。
除了做手办,我们还拿它来生成了一些摄影风格极强,但是又保持真实的照片。你的人生照片摄影师,可能会是Seedream 4.0 。
除了强大的一致性和多图编辑能力,Seedream 4.0 还带来了丰富的世界知识能力,生图模型也能推理预测,深度理解我们的提示词和图片,其背后的意图。
例如我们上传了一张杯子即将要掉在地上的图片,然后输入提示词「下一秒这个画面应该是怎么样的?」
杯子掉在了地上,同时能看到倒在地上的水,反射了部分杯子,和窗户的光。
Seedream 4.0 除了知道一秒后会发生的事情,我们还能利用它的推理能力,整理自己的房间。
▲ 提示词:把沙发上的被子和衣服都叠好
除了能把衣服整整齐齐地叠好,弄得满是颜料的地板,Seedream 也能在打扫干净的同时,保持图片内现有元素的一致性。
▲ 提示词:把这些颜料都收起来,地板擦干净(虽然这好像是个桌面)
借助它的推理能力,还有一个更骚的玩法。
下面这个案例里,上传的参考是模特图,让Seedream 4.0 把模特衣服的细节展示出来,模型接到的指令是细节图——这当中的距离,就要靠模型自己去「想明白」。
从结果来看相当不错,不仅版型准确,对于局部细节展示这一指令跟随也没有问题。几乎可以直接上架了。
生成表情包,Seedream 4.0 也是一把好手
参考网友 @op7418 的提示词,我们也跑出了好几版关于 AI 模型的表情包,一次可能不成功,那就多抽几次卡就好,好在生成速度也够快。
▲ 提示词:帮我将角色变成类似图 1 的白色轮廓贴纸,并添加一个俏皮白色轮廓短语「XXXX」。
▲ 图一(左)来自@fenxxxx,图二(右)
你或许看过《千里江山图》这幅传世名作,但你或许还遗漏了亿点点细节。
同理可得,谁说《步辇图》里没有呆萌的 Labubu,以及在《韩熙载夜宴图》的宴席中,突然出现一只从现代穿越过来的网红柴犬 Kabosu,我也觉得毫无违和感,
体验下来,如果用一个词来形容 Seedream 4.0,那必须是「六边形战士」。它像一个全能的创意总监 + 高效的制作团队,让你能快速得到想要的结果,同时对创作流程有更强的掌控感。
快,是第一体感。
基于 DiT-MoE 架构,Seedream 4.0 的计算效率比上一代猛增了 10 倍以上,最快 1.8 秒就能生成一张 2K 高清大图。这种「秒级」响应,意味着极低的试错成本。
稳,则是生产力基石。
Seedream 4.0 的超强主体一致性能力,让你无论是想给角色换个场景、换个画风,还是调整姿势视角,都能高度保持原有特征,避免了「画风突变」的尴尬 。
对于很多电商和品牌设计师来说,AI 不再是给一张海报换个颜色,而是能参考一个 Logo,一键生成全套品牌视觉设计,从包装袋到手环,风格高度统一 。
品牌规范开始从一本厚重的 VI 手册,变成一行行可执行的 prompt。
作为我们这样的内容创作者,它能让你参考一个角色设定,批量生成漫画分镜或故事绘本,极大地提升内容连载的效率和一致。
▲提示词灵感来自@阿真Irene
而且在 Nano Banana 出来之后,已经不少人基于它开发出了轻量级的小游戏或实用工具,我们看到了这类工具让更多中小开发者把创意快速变成产品,而且获得用户认可的可能性。
这几天 Seedream 4.0 已经开始刷屏社交媒体。热闹之外,我们也看到,Seedream 4.0 已经不满足于当一个新奇的玩具,而是要成为一个可规模化、可商用的创意生产力平台。
文|李超凡、莫崇宇、刘娅、张子豪
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
如果把当下最让人迷惑的科技产品拉个清单,AI 硬件网红们绝对榜上有名。
从 699 美元的 Humane Ai Pin 到 200 美元的 Rabbit R1,这些 AI 创业公司都在兜售同一个美丽的谎言:你需要专门的硬件才能体验真正的 AI。
今天,这个名单上又多了一个新成员——AI Key。
这是一款定位于「AI 助手」的外接硬件,厂商宣传它可随插随拔,通过 iPhone 的 USB 接口连接后,能够帮助你动动嘴操作手机上的应用和功能,从消息、地图到拍照、社交软件,几乎覆盖常见任务。
类似于手机 Agent,它的用法也并不复杂。
只需提出你的需求,确认它调用的应用,接着设备会自动模拟点击、滑动和输入操作。用户既可以盯着它执行,也可以完全交给它处理,并在需要时随时中止或修改。
值得注意的是,虽然苹果提供了如「快捷指令」这类系统级自动化工具,但第三方应用无法深度调用或控制其他应用的行为,这也解释了为什么市场上会出现这类试图填补空白的外接硬件。
外观小巧的它拥有三种配色:午夜黑、蛋奶白和达维粉,售价 89 美元,厂商承诺圣诞节前全球发货。创始人 Adam Cohen Hillel 在 X 平台表示,首批产品在短短 7 小时内几乎售罄。
AI key 的火爆并不令人意外,只是,问题也随之而来,为了把手机变成「AI 手机」,你真的需要额外插一个外设吗?基于此,我们还可以延伸出更深层的问题——我们真的需要为了 AI 而专门创造 AI 硬件吗?
尽管苹果高级副总裁埃迪·库多次强调,未来十年内 iPhone 可能被淘汰,但不可否认的是,当下最好的 AI 硬件形态依旧是手机。
你口袋里的 iPhone 16 Pro 搭载第二代 3 纳米制程芯片,能访问 ChatGPT、Claude、Gemini、DeepSeek 等人类历史上最强大的 AI 模型。而即便抛却云端大模型的加持,手机厂商们也纷纷在端侧模型上大作文章。
哪怕是被诟病在 AI 赛道掉队的苹果,最近也在 Hugging Face 上发布了 FastVLM 和 MobileCLIP2。
这些模型比以往版本快 85 倍、体积缩小 3.4 倍,让实时视觉语言模型(VLM)应用成为可能,甚至还能在浏览器里完全本地运行,实现实时视频字幕生成。
更不用说前阵子发布的 Google Pixel 10 系列手机,堪称买 AI 送手机,它不仅能本地运行 Gemini Nano 模型,还搭载了 Camera Coach 与 Auto Best Take 等功能,能够实时分析拍摄场景、光线与人物动作,自动优化照片甚至给出拍摄建议。
之所以能做到这一点,原因很简单:硬件素质摆在那里。
如果回首第一波涌现 AI 硬件的浪潮,Humane Ai Pin 和 Rabbit R1,均以颠覆者的姿态出现,试图通过「无屏/少屏」的理念,重塑个人计算的未来 。
前者 Ai Pin 由前苹果高管打造,秉承着「让技术成为你的仆人,而非你的主人」使命 。后者的 R1 则以其大胆的橙色设计和「大型动作模型」概念,承诺通过 AI 替用户完成复杂的应用内任务 。
然而,Humane Ai Pin 想要替代手机,却面临严重的过热和续航问题,最后卖身惠普。
而 Rabbit R1 同样高开低走,发货初期,其 USB-C 接口对充电线极为挑剔,仅能兼容部分线缆,且电池续航极短,仅 1000 毫安时的电池容量,不仅是质量问题,更反映出初创公司在供应链和品控上的经验不足。
Reddit 论坛上一则评论甚至提到,R1 团队「意外订购了错误的内存部件」 ,这一小插曲生动地揭示了硬件初创公司在供应链管理上所面临的混乱与脆弱性。
当初创公司在成本控制和供应链采购上无奈妥协,也就更容易导致了一个恶性循环:低端硬件无法提供流畅体验,用户差评导致口碑崩盘,反过来影响销售,使得公司难以通过规模化生产来降低成本,最终陷入财务困境,甚至破产。
倒也不是说像 R1 和 Ai Pin 没有价值,只是,它们的意义可能更多体现在 AI 交互模式的探索上。
它们所倡导的理念——主动代理、环境语音命令、统一的任务界面——是强大的。但这些概念不会在一个独立的盒子里茁壮成长,而是会被主导平台吸收,变成 iOS、Android 等系统的原生能力。
Rabbit R1 的滚轮、Humane Ai Pin 的投影、AI Key 的「钥匙」形态,这些看似奇怪的设计选择,实际上是在测试不同的交互假设,为行业排除错误选项。
我并不反对创新,也不认为所有的 AI 硬件创业都是无意义的。但我们需要诚实地面对一个现实:在手机已经如此强大的今天,任何试图通过外接配件来「增强」手机 AI 能力的产品,都面临着巨大的用户体验挑战。
真正的机会可能在别处:要么做手机永远做不到的事情,要么等待一个全新的计算平台出现。而不是给 iPhone 插个插件,然后告诉用户:看,这就是未来。
一个隐藏在 AI 硬件争论背后的技术哲学是,你到底把 AI 当作一个「功能」,还是当作一种「属性」。
功能是离散的、可分割的,需要专门的承载物。而属性是渗透性的、无处不在的,它改变的是整个系统的运作方式。
当 AI 作为功能,这种思路是把 AI 单独拎出来,打包成一个卖点。
比如聊天机器人、翻译器,或者 Rabbit R1 的 LAM、Humane Ai Pin 的激光投影。它们的逻辑是:先有了 AI 技术,再找个硬件来装进去。当用户要用,就得专门打开、专门交互。
问题在于,大部分「功能」在手机里早已存在,还做得更好,所以新硬件看起来像个「中间商」,缺乏真正的护城河。
另一种思路是把 AI 融进现有生态,让它成为系统自带的「属性」。
苹果的 Apple Intelligence 就是例子:优先通知、邮件摘要、照片清理、Siri 强化,都在原有体验里用 AI 长出来。Google 把 Gemini Nano 下放到本地设备,也是类似逻辑。
用户甚至感觉不到 AI 的存在,但效率和体验却被整体提升。
汽车诞生之初,被理所当然地称为「无马的马车 」。人们的想象力局限于替代马匹,关注点在于它能否跑得像马一样快,会不会惊扰到路旁的牛群。
没有人能预见到,这个「铁皮怪物」将催生出高速公路网、现代物流、郊区文化,并彻底改变城市的形态和人们的生活半径。今天,我们对 AI 硬件的想象力,或许也同样被困在狭窄的框架里。
于是,当人工智能这个「新物种」出现时,我们的第一反应几乎是条件反射式的:它也需要一台「专属设备」。一个「AI 盒子」、「AI 终端」,或者至少,是一台「AI PC」。
这种想法,就像一个原始人第一次看到火,不是思考如何利用火的能量去烹饪、取暖、冶炼,而是琢磨着必须制造一根「火棍」,才能将火焰握在手中。
早在 1998 年,Eli Zelkha 和他的团队提出了「环境智能」这一概念,指的是一种能够「感知人类存在并做出响应」的智能环境系统。这些环境通过嵌入式设备(如传感器、执行器、AI 模块)实现与用户的无感交互,试图将技术融入生活而不是成为负担。
而真正理解 AI 的公司不会试图刻意创造「AI 设备」,而会让所有设备都变得 AI 化。
一个成熟的技术,不会终日将名字挂在嘴边。正如我们今天通常不会刻意说「电力台灯」或「互联网电脑哦」,因为电力和网络连接早已是这些设备的底层能力,是理所当然的存在。
同样,当 AI 真正普及时,它也会从一个被反复强调的「卖点」,下沉为所有智能设备的基础设施。
届时,你的汽车、冰箱、眼镜、甚至衣服,都将拥有不同形式的智能,它们彼此连接,协同运作,共同构成你的个人「环境智能」系统。
而当我们不再谈论 AI 硬件的那一天,才是 AI 无处不在的开始。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
我们还年轻,可不想看到这个世界,处在毫无自由、隐私的边缘
AI 搜索公司 Perplexity 与支付平台 PayPal 达成全球合作,为符合条件的 PayPal 用户提供为期一年的 Perplexity Pro 免费订阅资格,价值 200 美元(约人民币 1450 元),并包含其 AI 浏览器 Comet 的优先体验权。
Perplexity Pro 与 PayPal 合作
活动链接:https://www.perplexity.ai/join/p/paypal-subscription
为防止一年后产生 200 美元的年费,强烈建议领取成功后,立即通过以下任一方式取消自动续订。取消后,Pro 会员资格仍会完整保留一年。
在 Perplexity 官网取消
在 PayPal 后台取消
If you’ve read any of my articles here about the inner workings of CPU cores in Apple silicon chips, you’ll know I’m no stranger to using the command tool powermetrics
to discover what they’re up to. Last week I attempted something more adventurous when trying to estimate how much power and energy are used in a single Visual Look Up (VLU).
My previous tests have been far simpler: start powermetrics
collecting sample periods using Terminal, then run a set number of core-intensive threads in my app AsmAttic, knowing those would complete before that sampling stopped. Analysing dozens of sets of measurements of core active residency, frequency and power use is pedestrian, but there’s no doubt as to when the tests were running, nor which cores they were using.
VLU was more intricate, in that once powermetrics
had started sampling, I had to double-click an image to open it in Preview, wait until its Info tool showed stars to indicate that stage was complete, open the Info window, spot the buttons that appeared on recognised objects, select one and click on it to open the Look Up window. All steps had to be completed within the 10 seconds of sampling collections, leaving me with the task of matching nearly 11,000 log entries for that interval against sampling periods in powermetrics'
hundred samples.
The first problem is syncing time between the log, which gives each entry down to the microsecond, and the sampling periods. Although the latter are supposed to be 100 ms duration, in practice powermetrics
is slightly slower, and most ranged between about 116 and 129 ms. As the start time of each period is only given to the nearest second, it’s impossible to know exactly when each sample was obtained.
Correlating log entries with events apparent in the time-course of power use is also tricky. Some are obvious, and the start of sampling was perhaps the easiest giveaway as powermetrics
has to be run using sudo
to obtain elevated privileges, which leaves unmistakeable evidence in the log. Clicks made on Preview’s tools are readily missed, though, even when you have a good estimate of the time they occurred.
Thus, the sequence of events is known with confidence, and it’s not hard to establish when VLU was occurring. As a result, estimating overall power and energy use for the whole VLU also has good confidence, although establishing finer detail is more challenging.
The final caution applies to all power measurements made using powermetrics
, that those are approximate and uncalibrated. What may be reported as 40 mW could be more like 10 or 100 mW.
In the midst of this abundance of caution, one fact stands clear: VLU hardly stresses any part of an Apple silicon chip. Power used during the peak of CPU core, GPU and neural engine (ANE) activity was a small fraction of the values measured during my previous core-intensive testing. At no time did the ten P cores in my M4 Pro come close to the power used when running more than one thread of intensive floating-point arithmetic, and the GPU and ANE spent much of time twiddling their thumbs.
Yet when Apple released VLU in macOS Monterey, it hadn’t been expecting to be able to implement it at all in Intel chips because of its computational demand. What still looks like magic can now be accomplished with ease even in a base M1 model. And when we care to leave our Macs running, mediaanalysisd
will plod steadily through recently saved images performing object recognition and classification to add them to Spotlight’s indexes, enabling us to search images by labels describing their contents. Further digging in Apple’s documentation reveals that VLU and indexing of discovered object types is currently limited by language to English, French, German, Italian, Spanish and Japanese.
Some time in the next week or three, when Apple releases macOS Tahoe, we’ll start seeing Apple silicon Macs stretch their wings with the first apps to use its Foundation Models. These are based on the same Large Language Models (LLMs) already used in Writing Tools, and run entirely on-device, unlike ChatGPT. This has unfortunately been eclipsed by Tahoe’s controversial redesign, but as more developers get to grips with these new AI capabilities, you should start to see increasingly novel features appearing.
What developers will do with them is currently less certain. These LLMs are capable of working with text including dialogue, thus are likely to appear early in games, and should provide specialist variants of more generic Writing Tools. They can also return numbers rather than text, and suggest and execute commands and actions that could be used in predictive automation. Unlike previous support for AI techniques such as neural networks, Foundation Models present a simple, high-level interface that can require just a few lines of code.
If you’ve got an Apple silicon Mac, there’s a lot of potential coming in Tahoe, once you’ve jiggled its settings to accommodate its new style.