Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

第一时间体验 GPT-5!人人免费可用,马斯克表示不服

By: 莫崇宇
8 August 2025 at 05:41

如果说有什么科技产品在被大量爆料后,依然能让人在凌晨蹲守直播,除了苹果 iPhone,就是 OpenAI 的 ChatGPT 了。

GPT-4 亮相后很长一段时间,都是 AI 友商的唯一对标。世界也开始逐渐接受一个事实:AI 正在越来越多的任务中展现出超越人类的能力。

今天,GPT-5 终于登场,把这条称作「及格线」的标准,再次抬高了一个维度。

第一时间体验 GPT-5!人人免费可用,马斯克表示不服

我们也第一时间上手 GPT-5,让它给自己的生日写首诗,满分十分,你觉得可以打几分?

还是经典的天气卡片环节,GPT-5 的 UI 审美质量相当能打。

我们在 Flowith 里也实测了 GPT-5 的编程能力。

详情可点击链接前往:第一时间体验 GPT-5!人人免费可用,马斯克表示不服

OpenAI CEO 山姆·奥特曼对 GPT-5 给出了极高评价,称其是此前所有模型的巨大飞跃,在他看来,拥有 GPT-5 这样的 AI 系统,在历史上任何时候都是难以想象的。

▲(主界面)

不过,发布会现场也上演了「翻车」环节,图表数据环节出现了明显「胡编乱造」的失误,连奥特曼也忍不住发文自嘲。

当然,马斯克也没有错过这个绝佳的「蹭热度」机会。

他表示 Grok 4 在 ARC-AGI 测试中击败了 GPT-5,还顺势拉踩一波,并剧透 Grok 5 将于今年年底前发布,预计表现将更加出色。

GPT-5 来了,编程、写作能力大提升,还要当你的 AI 医生

GPT-5 在编码、数学、写作、健康和视觉感知等多个领域都实现了显著提升,同时在减少幻觉、改进指令遵循和降低谄媚方面取得了重大进展。

GPT-5 采用了全新的统一系统设计,包含三个核心组件:一个高效的基础模型用于处理常规问题,一个具备深度推理能力的「GPT-5 thinking」模型专门应对复杂任务,以及一个实时路由器负责根据对话复杂度、工具需求等因素选择合适的模型。

这套「路由系统」会持续学习用户的切换行为、反馈偏好和答案准确性,不断优化分配策略。当用户达到使用限制时,系统会自动切换到各模型的精简版本继续服务。

据介绍,GPT‑5 是 OpenAI 迄今为止最强大的编码模型,能够处理复杂的前端开发和大型代码库调试工作。奥特曼表示:「根据需求即时生成的软件的理念将成为 GPT-5 时代的一个重要特征。」

比如它能通过一个提示就创建出功能完整、设计精美的网站、应用和游戏。根据以下提示词, GPT‑5 成功创建了一个名为「跳跃球跑者」的游戏,包含速度递增、计分系统、音效和视差滚动背景等所有要求功能。

「提示: 创建一个单页应用,要求如下,且全部写在一个 HTML 文件中:
– 名称:跳跃球跑者
– 目标:跳过障碍,尽可能长时间生存。
– 特点:速度逐渐加快,高分记录,重试按钮,以及动作和事件的有趣音效。
– 界面应色彩丰富,带有视差滚动背景。
– 角色应该看起来卡通化,观赏起来有趣。
– 游戏应该让每个人都感到愉快。」

写作方面,GPT-5 能够将粗糙想法转化为具有文学深度和节奏感的文本。

它在处理结构复杂的写作形式时更加可靠,比如能够保持格律,同时兼顾形式规范与表达清晰。这些改进让 ChatGPT 在日常文档处理、邮件撰写等任务中更加实用。

此外,GPT-5 还是 OpenAI 在健康相关问题上表现最佳的模型。

在基于真实场景和医生标准制定的 HealthBench 评估中,GPT-5 的得分远超以往所有模型。新模型能够主动发现潜在问题,提出针对性问题,并根据用户背景、知识水平和地理位置提供个性化建议。

奥特曼负责介绍 GPT-5 健康的这部分,在发布会现场,他邀请了 Carolina 和 Filipe 夫妇分享他们的亲身经历。

Carolina 曾在一周内被诊断出三种不同的癌症,在她把这些充满医学术语的报告丢给 ChatGPT 后,ChatGPT 在几秒钟内将复杂的内容,翻译成了她能理解的直白语言,帮助她更好地和医生沟通。

而在面对是否接受放射治疗,这一个连医生们的意见都没有办法统一的问题上,ChatGPT 为她详细分析了案例的细微差别、风险与收益等等,她说这比和医生聊三十分钟的收获都要更多。

当然,ChatGPT 并不能替代医疗专业人员,建议谨慎使用。

基准测试结果显示,GPT-5 在多项基准测试中刷新纪录:

  • 数学能力:AIME 2025 (no tools)测试得分 94.6%
  • 编程能力:SWE-bench Verified(With thinking)得分 74.9%,Aider Polyglot(With thinking)得分 88%
  • 多模态理解:MMMU 得分 84.2%
  • 健康领域:HealthBench Hard 得分 46.2%

GPT-5 在指令执行和自主调用工具的能力也有所提升,能够更加稳定地完成多步骤请求,灵活协调多个工具,并根据上下文智能调整行为策略,展现出更强的任务适应能力。

同时,GPT-5 在多项多模态基准测试中同样表现亮眼,覆盖视觉识别、视频理解、空间判断及科学推理等多个维度。得益于其更强的感知与推理能力,ChatGPT 现在能更准确地处理图像及其他非文本输入内容。

在 OpenAI 的内部基准测试中,GPT-5 在约 50% 的复杂知识工作任务中达到或超越专家水平,涵盖法律、物流、销售、工程等 40 多个职业领域,表现优于 o3 和 ChatGPT Agent。

OpenAI 特别强调,GPT-5 是在微软 Azure AI 超级计算机上训练的。

此外,GPT-5 在推理效率上也有突破。在视觉推理、编码和研究生级科学问题解决等任务中,GPT- 5的表现优于 OpenAI o3,但输出 token 数量减少了 50-80%。

幻觉问题一直是 AI 的老大难,而与 OpenAI 之前的模型相比,GPT-5 出现幻觉的可能性有了显著降低,模型在处理复杂、开放性问题时更加得心应手。

在代表 ChatGPT 生产环境流量的匿名测试中,GPT-5 的事实错误率比 GPT-4o 降低约 45%;启用推理功能时,错误率比 OpenAI o3 降低约 80%。

在开放性事实准确性基准 LongFact 和 FActScore 测试中,「GPT-5 thinking」的幻觉率比 o3 减少约六倍,标志着长篇内容生成准确性的显著提升。

除了事实准确性的提升,GPT-5(具备思考能力)还能更诚实地向用户传达其行为和能力。据模型安全研究负责人 Alex Beutel 称,OpenAI 对 GPT-5 进行了「超过五千小时」的测试,以了解其安全风险。

GPT-5 还引入了「安全完成(Safe Completion)」这一全新安全训练方式,让模型在保持安全边界的同时尽可能提供有用答案。当需要拒绝请求时,GPT-5 会透明地说明拒绝原因并提供安全替代方案。

在用户体验方面,GPT-5 减少了过度附和行为,在专门设计的谄媚测试中,谄媚回复率从 14.5% 降至不足 6%。新模型使用更少不必要的表情符号,回应更加细腻和深思熟虑。

此外,OpenAI 还为所有用户推出了四种预设个性:愤世嫉俗者、机器人、倾听者和书呆子,这些个性最初适用于文本聊天,晚些时候将上线语音。用户可根据个人喜好调整 ChatGPT 的交互风格。

在现场的演示中,语音交互变得非常自然且可控。

OpenAI 的研究员要求 GPT-5 从现在开始只用一个词回答问题,当被要求分享一句智慧之言时,GPT-5 回答:「Patience」(耐心)。发布会现场大家都笑了,主持人说这也许是模型在感谢大家耐心等待 GPT-5 的发布。

免费用户也能用,还有一款真香模型

取代 OpenAI o3-pro,OpenAI 还发布了 GPT-5 pro,这是 GPT-5 的一个变体,能够进行更长时间的思考,采用规模化但高效的并行测试时计算,能够提供最高质量和最全面的答案。

在 1000 多个具有经济价值的真实世界推理提示评估中,外部专家在 67.8 %的情况下更倾向选择 GPT-5 Pro,其重大错误率较 GPT-5 减少 22%,并且在健康、科学、数学和编码方面表现出色,获得专家们的一致好评。

GPT-5 今天开始成为 ChatGPT 的新默认模型,向所有 Plus、Pro、Team 和免费用户推出,Enterprise 和 Edu 用户将在一周后获得访问权限。

免费版用户每 5 小时可发送 10 条消息,Plus 用户每 3 小时可发送 80 条消息。

Pro 用户可无限制访问 GPT-5 及 GPT-5 Pro,免费用户达到使用限制后将自动切换到 GPT-5 mini。Pro、Plus 和 Team 用户还可以通过 ChatGPT 登录 Codex CLI,在开发环境中调用 GPT-5 来完成代码编写、调试等任务。

虽然 GPT-5 已对所有用户开放,但 ChatGPT 免费用户并不会立即获得完整的 GPT-5 使用体验。。一旦免费用户达到 GPT-5 的使用限制,他们将切换到更小、更快的精简版模型 GPT-5 mini。

面向开发者,OpenAI 还为 API 平台推出三个不同规格的版本:gpt-5、gpt-5-mini 和 gpt-5-nano,开发者可根据项目对性能、成本和响应速度的不同要求灵活选择。

GPT-5 支持回复 API、聊天完成 API 等主流接口,同时成为 Codex CLI 的默认模型。所有版本都具备reasoning_effort 和 verbosity 参数控制能力,以及自定义工具功能。

除基础对话能力外,GPT-5 还集成了并行工具调用、内置工具(网络搜索、文件处理、图像生成)、流式处理、结构化输出等核心功能,以及提示缓存和批量 API 等成本优化特性。

GPT-5 API 还推出四项核心新功能,大幅提升开发者的使用体验。

首先,通过 reasoning_effort 参数,开发者能根据不同任务场景,在最小、低、中、高四个档位间灵活切换。简单任务用最小档快速响应,复杂问题用高档深度思考,让开发者在回答质量和响应速度间找到最佳平衡点。

在回答详细程度上,verbosity 参数支持低、中、高三档设置,帮助控制回答的详细程度。比如在「天空为什么是蓝色」这一问题上,低档回答简洁明了,高档回答则包含详细的科学解释。

在工具调用方式上,新增的自定义工具功能支持纯文本格式,彻底告别 JSON 转义字符的困扰。处理大量代码或长文档时,开发者无需再为格式错误而烦恼。

值得注意的是,整个执行过程是可追踪,GPT-5会在执行工具调用时主动输出进度更新,让开发者了解 AI 的执行计划和当前状态。

另外,区别于 ChatGPT 中的 GPT-5 系统,API 版本专门针对开发者需求优化,更适合编程和 Agent 任务场景。

包括 Windsurf、Vercel、JetBrains 等知名开发工具和平台都对 GPT- 5给出积极评价。Windsurf 指出,GPT-5 在评估中达到最先进水平,「与其他前沿模型相比,工具调用错误率仅为其一半」。

GPT-5 的发布,对 Claude 而言可能是一记直击命门的重拳。

据外媒 The Information 报道,Anthropic 当前 50 亿美元的年化收入中,有超过六成来自 API,其中仅 Cursor 和 GitHub Copilot 这两家编程客户就贡献了 14 亿美元。这种把鸡蛋放在同一个篮子里的收入结构,恰恰暴露了 Anthropic 脆弱的软肋。

编程工具市场的残酷之处在于性能即一切,哪怕是 5% 的准确率提升,对开发者而言都意味着每天节省数小时的调试时间,过去 Claude 能在编程领域迅速崛起,很大程度上是因为 ChatGPT 在代码能力上的相对滞后。

但窗口期终有关闭的一天,伴随着 GPT-5 在代码编程任务和 Agent 能力的提升,结合 OpenAI 更强的生态绑定和产品分发渠道,一旦 Cursor 和 Copilot 回流 OpenAI,将极大撼动 Anthropic 的收入。

也许很快,我们就能看到 Claude 5 的到来。

作者:李超凡、莫崇宇、张子豪

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,OpenAI发布2款开源模型!手机笔记本也能跑,北大校友扛大旗

By: 莫崇宇
6 August 2025 at 07:10

时隔五年之后,OpenAI 刚刚正式发布两款开源权重语言模型——gpt-oss-120b和 gpt-oss-20b,而上一次他们开源语言模型,还要追溯到 2019 年的 GPT-2。

OpenAI 是真 open 了。

而今天 AI 圈也火药味十足,OpenAI 开源 gpt-oss、Anthropic 推出 Claude Opus 4.1(下文有详细报道)、Google DeepMind 发布 Genie 3,三大巨头不约而同在同一天放出王炸,上演了一出神仙打架。

OpenAI CEO Sam Altman(山姆·奥特曼)在社交媒体上的兴奋溢于言表:「gpt-oss 发布了!我们做了一个开放模型,性能达到o4-mini水平,并且能在高端笔记本上运行。为团队感到超级自豪,这是技术上的重大胜利。」

模型亮点概括如下:

  • gpt-oss-120b:大型开放模型,适用于生产、通用、高推理需求的用例,可运行于单个 H100 GPU(1170 亿参数,激活参数为 51 亿),设计用于数据中心以及高端台式机和笔记本电脑上运行
  • gpt-oss-20b:中型开放模型,用于更低延迟、本地或专业化使用场景(21B 参数,3.6B 激活参数),可以在大多数台式机和笔记本电脑上运行。
  • Apache 2.0 许可证: 可自由构建,无需遵守 copyleft 限制或担心专利风险——非常适合实验、定制和商业部署。
  • 可配置的推理强度: 根据具体使用场景和延迟需求,轻松调整推理强度(低、中、高)。完整的思维链: 全面访问模型的推理过程,便于调试并增强对输出结果的信任。此功能不适合展示给最终用户。
  • 可微调: 通过参数微调,完全定制模型以满足用户的具体使用需求。
  • 智能 Agent 能力: 利用模型的原生功能进行函数调用、 网页浏览 、Python 代码执行和结构化输出。
  • 原生 MXFP4 量化: 模型使用 MoE 层的原生 MXFP4 精度进行训练,使得 gpt-oss-120b 能够在单个 H100 GPU 上运行,gpt-oss-20b 模型则能在 16GB 内存内运行。

OpenAI 终于开源了,但这次真不太一样

从技术规格来看,OpenAI 这次确实是「动真格」了,并没有拿出缩水版的开源模型敷衍了事,而是推出了性能直逼自家闭源旗舰的诚意之作。

据 OpenAI 官方介绍,gpt-oss-120b 总参数量为 1170 亿,激活参数为 51 亿,能够在单个 H100 GPU 上运行,仅需 80 GB 内存,专为生产环境、通用应用和高推理需求的用例设计,既可以部署在数据中心,也能在高端台式机和笔记本电脑上运行。

相比之下,gpt-oss-20b 总参数量为 210 亿,激活参数为 36 亿,专门针对更低延迟、本地化或专业化使用场景优化,仅需 16GB 内存就能运行,这意味着大多数现代台式机和笔记本电脑都能驾驭。

根据 OpenAI 公布的基准测试结果,gpt-oss-120b 在竞赛编程的 Codeforces 测试中表现优于 o3-mini,与o4-mini持平;在通用问题解决能力的 MMLU 和 HLE 测试中同样超越 o3-mini,接近 o4-mini 水平。

在工具调用的 TauBench 评测中,gpt-oss-120b 同样表现优异,甚至超过了像 o1 和 GPT-4o 这样的闭源模型;在健康相关查询的 HealthBench 测试和竞赛数学的 AIME 2024 及 2025 测试中,gpt-oss-120b 的表现甚至超越了 o4-mini。

尽管参数规模较小,gpt-oss-20b 在这些相同的评测中仍然表现出与 OpenAI o3-mini 持平或更优的水平,特别是在竞赛数学和健康领域表现尤为突出。

不过,虽然 gpt-oss 模型在健康相关查询的 HealthBench 测试中表现优异,但这些模型不能替代医疗专业人员,也不应用于疾病的诊断或治疗,建议谨慎使用。

与 API 中的 OpenAI o 系列推理模型类似,两个开放权重模型都支持低、中、高三种推理强度设置,允许开发者根据具体使用场景和延迟需求在性能与响应速度之间进行权衡。

从伯克利到 OpenAI,北大校友扛起开源大旗

我在 OpenAI 的 GPT-OSS 模型试玩平台上,向模型提出了一个经典的逻辑思维问题:「一根燃烧不均匀的绳子恰好需要一小时烧完,现有若干根这样的绳子,如何精确测量一小时十五分钟」

模型针对这道题目,分步骤呈现了完整的解题思路,配有清晰的时间线图表、原理阐释和要点总结,不过如果仔细观察,可以发现解题步骤还是相当繁琐的。

体验地址:https://www.gpt-oss.com/

据网友 @flavioAd 的测试反馈,GPT-OSS-20B 在经典的小球运动问题上表现出色,但却未能通过最高难度的经典六边形测试,且出现了较多语法错误,需要多次重试才能获得比较满意的结果。

网友 @productshiv 在配备 M3 Pro 芯片、18GB 内存的设备上,通过 Lm Studio 平台测试了 gpt-oss-20b 模型,一次性成功完成了经典贪吃蛇游戏的编写,生成速度达到 23.72 token/秒,且未进行任何量化处理。

有趣的是,网友 @Sauers_ 发现 gpt-oss-120b 模型有个独特的「癖好」——喜欢在诗歌创作中嵌入数学方程式。

此外,网友 @grx_xce 分享了 Claude Opus 4.1 与 gpt-oss-120b 两款模型的对比测试结果,你觉得哪个效果更好?

在这次历史性的开源发布背后,有一位技术人员值得特别关注——领导 gpt-oss 系列模型基础设施和推理工作的 Zhuohan Li。

「我很幸运能够领导基础设施和推理工作,使 gpt-oss 得以实现。一年前,我在从零开始构建 vLLM 后加入了 OpenAI——现在站在发布者的另一端,帮助将模型回馈给开源社区,这对我来说意义深远。」

公开数据显示,Zhuohan Li 本科毕业于北京大学,师从计算机科学领域的知名教授王立威与贺笛,打下了扎实的计算机科学基础。随后,他前往加州大学伯克利分校攻读博士学位,在分布式系统领域权威学者 Ion Stoica 的指导下,在伯克利 RISE 实验室担任博士研究员近五年时间。

他的研究聚焦于机器学习与分布式系统的交叉领域,特别专注于通过系统设计来提升大模型推理的吞吐量、内存效率和可部署性——这些正是让 gpt-oss 模型能够在普通硬件上高效运行的关键技术。

在伯克利期间,Zhuohan Li 深度参与并主导了多个在开源社区产生深远影响的项目。作为 vLLM 项目的核心作者之一,他通过 PagedAttention 技术,成功解决了大模型部署成本高、速度慢的行业痛点,这个高吞吐、低内存的大模型推理引擎已被业界广泛采用。

他还是 Vicuna 的联合作者,在开源社区引起了巨大反响。此外,他参与研发的 Alpa 系列工具推动了模型并行计算和推理自动化的发展。

学术方面,根据 Google Scholar 的数据,Zhuohan Li 的学术论文引用量已超过 15000次,h-index 达到 18。他的代表性论文如 MT-Bench 与 Chatbot Arena、Vicuna、vLLM 等均获得数千次引用,在学术界产生了广泛影响。

不只是大,藏在 gpt-oss 背后的架构创新

要理解这两款模型为何能够实现如此出色的性能,我们需要深入了解其背后的技术架构和训练方法。
gpt-oss 模型采用 OpenAI 最先进的预训练和后训练技术进行训练,特别注重推理能力、效率以及在各种部署环境中的实际可用性。

这两款模型都采用了先进的Transformer架构,并创新性地利用专家混合(MoE)技术来大幅减少处理输入时所需激活的参数数量。

模型采用了类似 GPT-3 的交替密集和局部带状稀疏注意力模式,为了进一步提升推理和内存效率,还使用了分组多查询注意力机制,组大小设置为 8。通过采用旋转位置编码(RoPE)技术进行位置编码,模型还原生支持最长 128k 的上下文长度。

在训练数据方面,OpenAI 在一个主要为英文的纯文本数据集上训练了这些模型,训练内容特别强调 STEM 领域知识、编码能力和通用知识。

与此同时,OpenAI 这次还同时开源了一个名为 o200k_harmony 的全新分词器,这个分词器比 OpenAI o4-mini 和 GPT-4o 所使用的分词器更加全面和先进。

更紧凑的分词方式可以让模型在相同上下文长度下处理更多内容。比如原本一句话被切成 20 个 token,用更优分词器可能只需 10 个。这对长文本处理尤其重要。

除了强大的基础性能外,这些模型在实际应用能力方面同样表现出色,gpt-oss 模型兼容 Responses API,支持包括原生支持函数调用、网页浏览、Python 代码执行和结构化输出等功能。

举例而言,当用户询问 gpt-oss-120b 过去几天在网上泄露的细节时,模型会首先分析和理解用户的请求,然后主动浏览互联网寻找相关的泄露信息,连续调用浏览工具多达 27 次来搜集信息,最终给出详细的答案。

值得一提的是,从上面的演示案例中可以看到,此次模型完整提供了思维链(Chain of Thought)。OpenAI 给出的说法是,他们特意没有对链式思维部分进行「驯化」或优化,而是保持其「原始状态」。

在他们看来,这种设计理念背后有深刻的考虑——如果一个模型的链式思维没有被专门对齐过,开发者就可以通过观察它的思考过程来发现可能存在的问题,比如违反指令、企图规避限制、输出虚假信息等。

因此,他们认为保持链式思维的原始状态很关键,因为这有助于判断模型是否存在欺骗、滥用或越界的潜在风险。
举例而言,当用户要求模型绝对不允许说出「5」这个词,任何形式都不行时,模型在最终输出中确实遵守了规定,没有说出「5」,但

如果查看模型的思维链,就会发现模型其实在思考过程中偷偷提到了「5」这个词。

当然,对于如此强大的开源模型,安全性问题自然成为业界最为关注的焦点之一。

在预训练期间,OpenAI 过滤掉了与化学、生物、放射性等某些有害数据。在后训练阶段,OpenAI 也使用了对齐技术和指令层级系统,教导模型拒绝不安全的提示并防御提示注入攻击。

为了评估开放权重模型可能被恶意使用的风险,OpenAI进行了前所未有的「最坏情况微调」测试。他们通过在专门的生物学和网络安全数据上微调模型,针对每个领域创建了一个领域特定的非拒绝版本,模拟攻击者可能采取的做法。
随后,通过内部和外部测试评估了这些恶意微调模型的能力水平。

正如 OpenAI 在随附的安全论文中详细说明的那样,这些测试表明,即使利用 OpenAI 领先的训练技术进行强有力的微调,这些恶意微调的模型根据公司的准备度框架也无法达到高危害能力水平。这个恶意微调方法经过了三个独立专家组的审查,他们提出了改进训练过程和评估的建议,其中许多建议已被 OpenAI 采纳并在模型卡中详细说明。

OpenAI 开源的诚意几何?

在确保安全的基础上,OpenAI 在开源策略上展现出了前所未有的开放态度。

两款模型都采用了宽松的 Apache 2.0 许可证,这意味着开发者可以自由构建、实验、定制和进行商业部署,无需遵守 copyleft 限制或担心专利风险。

这种开放的许可模式非常适合各种实验、定制和商业部署场景。

同时,两个 gpt-oss 模型都可以针对各种专业用例进行微调——更大的 gpt-oss-120b 模型可以在单个 H100 节点上进行微调,而较小的 gpt-oss-20b 甚至可以在消费级硬件上进行微调,通过参数微调,开发者可以完全定制模型以满足特定的使用需求。

模型使用了 MoE 层的原生 MXFP4 精度进行训练,这种原生 MXFP4 量化技术使得 gpt-oss-120b 能够在仅 80GB 内存内运行,而 gpt-oss-20b 更是只需要 16GB 内存,极大降低了硬件门槛。

OpenAI 在模型后训练阶段加入了对 harmony 格式的微调,让模型能更好地理解和响应这种统一、结构化的提示格式。为了便于采用,OpenAI 还同时开源了 Python 和 Rust 版本的 harmony 渲染器。

此外,OpenAI 还发布了用于 PyTorch 推理和苹果 Metal 平台推理的参考实现,以及一系列模型工具。

技术创新固然重要,但要让开源模型真正发挥价值,还需要整个生态系统的支持。为此,OpenAI 在发布模型前与许多第三方部署平台建立了合作关系,包括 Azure、Hugging Face、vLLM、Ollama、llama.cpp、LM Studio 和 AWS 等。

在硬件方面,OpenAI 与英伟达、AMD、Cerebras 和 Groq 等厂商都有合作,以确保在多种系统上实现优化性能。

根据模型卡披露的数据,gpt-oss 模型在英伟达 H100 GPU上使用 PyTorch 框架进行训练,并采用了专家优化的 Triton 内核。

模型卡地址:
https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

其中,gpt-oss-120b 的完整训练耗费了 210 万H100 小时,而 gpt-oss-20b 的训练时间则缩短了近 10倍 。两款模型都采用 了Flash Attention 算法,不仅大幅降低了内存需求,还加速了训练过程。

有网友分析认为,gpt-oss-20b 的预训练成本低于 50 万美元。

英伟达 CEO 黄仁勋也借着这次合作打了波广告:「OpenAI 向世界展示了基于英伟达 AI 可以构建什么——现在他们正在推动开源软件的创新。」

而微软还特别宣布将为 Windows 设备带来 GPU 优化版本的 gpt-oss-20b 模型。该模型由 ONNX Runtime 驱动,支持本地推理,并通过 Foundry Local 和 VS Code 的 AI 工具包提供,使 Windows 开发者更容易使用开放模型进行构建。

OpenAI 还与早期合作伙伴如 AI Sweden、Orange 和 Snowflake 等机构深入合作,了解开放模型在现实世界中的应用。这些合作涵盖了从在本地托管模型以保障数据安全,到在专门的数据集上进行微调等各种应用场景。

正如奥特曼在后续发文中所强调的那样,这次开源发布的意义远不止于技术本身。他们希望通过提供这些一流的开放模型,赋能每个人——从个人开发者到大型企业再到政府机构——都能在自己的基础设施上运行和定制 AI。

One More Thing

就在 OpenAI 宣布开源 gpt-oss 系列模型的同一时期,Google DeepMind 发布世界模型 Genie 3,一句话就能实时生成可交互世界;与此同时,Anthropic 也推出了重磅更新——Claude Opus 4.1。

Claude Opus 4.1 是对前代 Claude Opus 4 的全面升级,重点强化了 Agent 任务执行、编码和推理能力。

目前,这款新模型已向所有付费 Claude 用户和 Claude Code 用户开放,同时也已在Anthropic API、亚马逊 Bedrock 以及 Vertex AI 平台上线。

在定价方面,Claude Opus 4.1 采用了分层计费模式:输入处理费用为每百万 token 15 美元,输出生成费用为每百万 token 75 美元。

写入缓存的费用为每百万 token 18.75 美元,而读取缓存仅需每百万 token 1.50 美元,这种定价结构有助于降低频繁调用场景下的使用成本。

基准测试结果显示,Opus 4.1 将在 SWE-bench Verified 达到了74.5%的成绩,将编码性能推向了新高度。此外,它还提升了 Claude 在

深度研究和数据分析领域的能力,特别是在细节跟踪和智能搜索方面。

▲ Claude Opus 4.1 最新实测:你别说,细节还是挺丰富的

来自业界的反馈印证了 Opus 4.1 的实力提升。比如 GitHub 官方评价指出,Claude Opus 4.1 在绝大多数能力维度上都超越了Opus 4,其中多文件代码重构能力的提升尤为显著。

Windsurf 则提供了更为量化的评估数据,在其专门设计的初级开发者基准测试中,Opus 4.1 相比 Opus 4 提升了整整一个标准差,这种性能跃升的幅度大致相当于从Sonnet 3.7 升级到 Sonnet 4 所带来的改进。

Anthropic 还透露将在未来几周内发布对模型的重大改进,考虑到当前 AI 技术迭代之快,这是否意味着 Claude 5 即将登场?

迟来的「Open」,是开始还是结束

五年,对于 AI 行业来说,足够完成从开放到封闭,再从封闭回归开放的一个轮回。

当年那个以「Open」为名的OpenAI,在经历了长达五年的闭源时代后,终于用 gpt-oss 系列模型向世界证明,它还记得自己名字里的那个「Open」。

只是这次回归,与其说是初心不改,不如说是形势所迫。时机说明了一切,就在 DeepSeek 等开源模型攻城略地,开发者社区怨声载道之际,OpenAI 才宣布开源模型,历经一再跳票之后,今天终于来到我们面前。

奥特曼一月份那句坦诚的表态——「我们在开源方面一直站在历史的错误一边」,道出了这次转变的真正原因。DeepSeek 们带来的压力是实实在在的,当开源模型的性能不断逼近闭源产品,继续固守封闭无异于把市场拱手让人。

有趣的是,就在 OpenAI 宣布开源的同一天,Anthropic 发布的 Claude Opus 4.1 依然坚持闭源路线,市场反应却同样热烈。

两家公司,两种选择,却都收获了掌声,展现了 AI 行业最真实的图景——没有绝对正确的道路,只有最适合自己的策略。OpenAI 用有限开源挽回人心,Anthropic 靠闭源守住技术壁垒,各有各的算盘,也各有各的道理。

但有一点是确定的,无论对开发者还是用户,这都是最好的时代。你既可以在自己的笔记本上运行一个性能堪堪够用的开源模型,也可以通过 API 调用性能更强的闭源服务。选择权,始终掌握在使用者手中。

至于 OpenAI 的「open」能走多远?等 GPT-5 发布时就知道了。

我们不必抱太大希望,商业的本质从未改变,最好的东西永远不会免费,但至少在这个被 DeepSeek 们搅动的 2025 年,我们终于等到了 OpenAI 迟来的「Open」。

附上博客地址:
https://openai.com/index/introducing-gpt-oss/

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


苹果「脑控」iPad 首次公开演示:四肢瘫痪的他,用一个念头重新拥抱世界

By: 莫崇宇
5 August 2025 at 11:54

他躺在床上,身体几乎无法动弹,四肢早已失去控制,连最简单的点一下屏幕对他而言都有心无力。可当他的眼神锁定了 iPad 的主界面——几秒后,屏幕亮起,图标被选中,他成功靠一个念头「点开」了设备。

Mark Jackson 是全球第一批能够用「意念」操控苹果设备的渐冻症(ALS)患者。让这一切成为可能的,是脑机接口公司 Synchron 开发的 Stentrode——一块植入他大脑血管内、捕捉神经信号的微型金属支架。

与之配套的,是苹果推出的一套全新人机交互协议:BCI HID(脑机接口人机交互标准)。这是苹果首次将「脑信号」纳入其操作系统的原生输入方式,和触控、键盘、语音并列。

简言之,大脑正在成为苹果设备上的下一个原生「输入法」。 

脑点波+苹果系统:最强「赛博融合」

Jackson 所用到的 Stentrode 是一个细如发丝、形似支架的脑机接口设备。它通过血管植入到大脑运动皮层附近的静脉中,设备上的电极阵列捕捉神经信号,再借由算法识别出用户的意图,最终控制数字设备。

更重要的是,它首次实现了与苹果生态的原生集成。这项集成的关键,在于苹果今年 5 月推出的全新协议——BCI HID(Brain-Computer Interface Human Interface Device),即脑机接口人机交互标准。

它就像大脑与 iOS、iPadOS、visionOS 之间的「通用语言」,让脑电波正式成为和触控、键盘、语音并列的合法输入方式。通过接入 iOS 的切换控制(Switch Control)无障碍功能,Stentrode 用户现在可以用脑电信号代替按钮、点击或滑动操作。

Mark Jackson 是第一批接受 Stentrode 植入的患者。他患有 ALS(肌萎缩侧索硬化症),无法站立,也无法离开自己位于匹兹堡郊区的住所,但这项技术为他带来了新的「行动自由」。

2023 年 8 月,他接受了手术。在 Stentrode 植入后,Jackson 开始训练如何用意念控制 Vision Pro。他「看到」自己站在阿尔卑斯山的悬崖边,「感受到」腿部的颤抖——尽管现实中他的身体已无法站立。

后来他逐渐学会了更复杂的操作:通过脑控启动应用、发送信息、打开邮件。「在我剩下的时间里,我希望能推动技术的进步,增进人们的理解。」Jackson 这样说道。

他的这番话也道出了 Synchron 团队的核心使命——让这项技术惠及更多人。

Synchron 神经科学与算法高级总监 Peter 表示:「我们的愿景是让脑机接口像键盘和鼠标一样普及。」他解释,BCI 的难点不仅在于技术本身,更在于缺乏标准化的「交互语言」。

于是,他们与苹果合作,基于 HID 标准开发出 BCI HID 协议。「它就像是计算机和键盘之间的通用语言。现在,我们也让大脑有了属于自己的输入协议。」

BCI HID 不仅传递用户的神经意图,还支持设备对用户进行视觉反馈。当 Mark 想选中某个按钮时,屏幕上会出现彩色高亮框。颜色越深,代表神经信号越强,系统就越确定他想点击那个按钮。Mark 可以通过脑控「填满」这个色块,实现精确选择。

「对于使用植入式 BCI 的用户来说,这种可视反馈太重要了。他们能实时看到自己的神经信号是否『足够强』,也更容易集中注意力。」Synchron 首席商务官 Kurt Haggstrom 解释道。而整个系统通过蓝牙连接,不需要额外设备或看护人员协助。只要 Mark 「想」,设备就能启动。

与传统辅助设备不同,BCI HID 是一个闭环交互系统。它不仅识别用户意图,还能实时提供上下文信息,提高解码精度与响应速度。

它还可以将意念动作直接绑定到系统快捷指令:想象点击手指等于回主屏幕,想象握拳等于打开消息,想象挥手等于启动视频通话。这不仅提升了操控自由度,也让系统交互真正进入「零干预」状态。

此外,BCI HID 具备极高的私密性——脑信号是用户「专属」的,无法被他人操控,也不会被其他设备「读取」。未来 Synchron 将推动 BCI HID 成为一个跨平台、跨厂商的神经交互标准,让所有 BCI 设备都能无缝接入数字世界。

而苹果的介入,被视为整件事的「临门一脚」。「Apple 能够认识到用户需求并做出回应,这体现了他们对用户无障碍体验的高度重视。」Kurt Haggstrom 如此评价。

不用开颅的脑机接口,或将打败马斯克

提起脑机接口,大多数人第一个想到的还是马斯克的 Neuralink。无论是 Neuralink 之前的直播,还是在 X 上发推文,都引发了不少人对脑机接口的关注。

相比之下,Synchro 在业外可谓是名不见经传。

不过两家公司之间早有过交集,三年前的一个周末,正值 Synchron 在美国首次为患者植入脑机接口设备之际,马斯克向 Synchro 的创始人兼 CEO Tom Oxley 拨通了一则电话。

奥克斯利后来回忆道,电话里马斯克认为脑机接口的方案应该是移除大部分头骨,并用嵌入式钛合金壳替代。而他本人则坚信,无需触及头骨,也能达成目标。

▲Tom Oxley

并且,马斯克还主动提出,如果 Oxley 在这个追求目标的努力中资金不足,尤其是涉及脑机接口的方面,他希望能够提供帮助。但或许出于理念的分歧,这段「牵手」最终无疾而终。

实际上,过去二十年来,研究人员一直在人体上测试脑芯片植入物,但几乎所有这些设备都需要切开头骨并将电极刺入大脑,电线从头部悬挂出来。

简单来说,就是在头顶开一个洞,然后放入一块 Apple Watch 大小的装置。先不说手术过程的风险,即使手术成功了,人类大脑也会对装置产生排异反应,这是侵入式脑机接口的技术难点之一。

而 Stentrode 则不存在这个痛点。

它的手术方式近似于植入心脏支架,产品会通过颈静脉植入进大脑的运动皮层(表达人类运动意图的区域)。大脑对 Stentrode 的排异方式是把它推入大脑组织内,所以 Stentrode 在几周内就会被组织覆盖并固定在该区域。

Stentrode 检测到的任何大脑信号通过一根电线发送,电线沿着静脉向下延伸,连接到缝在患者胸部的 iPod Shuffle 大小的接收器上。

类似于心脏起搏器中的电池,接收器电池续航时间长达 10 年之久。

该接收器通过蓝牙将指令传输到患者的计算机或 iPad,使他们能够访问短信并控制其他应用程序。一旦安装了 Stentrode,患者就会进行校准练习,Synchron 的工作人员会指导他们思考移动身体的不同部位。

在植入方式和理念上的分歧,自然也造就了技术性能上的差异。

举例来说,Neuralink 的设备 N1 拥有超过 1000 个电极,可以捕捉更多的神经数据;而 Stentrode 仅有 16 个电极。N1 的电极直接植入脑组织中,因此捕获的数据更丰富,可转化为更灵敏的鼠标点击和键盘输入。

在之前的报道中,Neuralink 用户同样能通过意念移动光标,而且速度甚至超过部分普通用户的鼠标操作。

尽管如此,为什么苹果最终选择与 Synchron 深入合作,而不是马斯克的 Neuralink?这背后,其实藏着苹果对脑机接口的另一种答案:安全。

正如上面所说,Neuralink N1 是高密度、侵入式植入,怎么理解侵入式手术风险较高,可能引发炎症或组织反应。而 Synchron Stentrode 采用的是低密度、非侵入式植入,手术风险低,恢复时间短,尤其适合不适合进行开颅手术的患者。

当然,Stentrode 的代价就是因为电极不直接接触神经元,信号质量和分辨率较低,数据带宽较低,仅适用于基础层级的神经信号解码。

一个念头,打出一条推文

技术参数只是宏大故事的一部分,Synchron 真正吸睛的,是它已经做到的那些事。

2024 年 3 月,Neuralink 患者在 X 平台发布了一则推文,然而将时间倒回三年前,62 岁的渐冻症患者 Phillip O’Keefe 已经用 Synchron 脑机接口在 X 平台上「打出」第一句话:

Hello world!

注意,这是人类史上第一条通过脑电波「发出来」的推文,没有键盘、没有语音、甚至不是眼动追踪,全靠「想」出来的。虽然推文不长,但对他本人来说,可能胜过十万字长篇小说。

Synchron 的故事当然没止步于此。

当整个世界都被 ChatGPT 占领的时候,很多人都在想怎么用它写论文、写代码、写情书,而 Synchron 想的是如何用 AI 来改善脑机接口的技术。

64 岁的 Mark 就是第一批体验 AI 脑机融合的用户之一。尽管受渐冻症影响失去了大部分肢体与语言能力,他依然可以靠脑电波玩苹果纸牌游戏、看 Apple TV,甚至在 Vision Pro 上「仰望星空」。

具体来说,Synchron 让 ChatGPT 等大型语言模型以文本、音频和视觉的形式获取相关上下文,预测用户可能想要表达的内容,并为他们提供一个可供选择的操作菜单。

并且,在加入 GPT-4o 之后,Synchron 脑机接口迎来了 4 个方面的显著变化:

  1. 辅助通信:GPT 生成预先设定的回答选项,用户不需要逐字输入
  2. 智能预测:GPT 结合上下文预测可能需求,显著减少操作步骤;
  3. 多模态输入:GPT-4o 接收文本、音频和视频输入,通过多种方式提供信息
  4. 适应性学习:系统逐渐学习用户偏好,实现高效个性定制。

更重要的是,这种 AI + 脑机接口的多模态信息输入模式,与大脑本身的行为模式有一些相似之处,Synchron 团队的解释是:

我们这样做的原因是,多模态「4o」是不同的,因为它使用的是来自环境的输入,这些输入的行为就像是用户大脑的延伸。当用户开始与提示互动时,它将获得环境中发生的一切的实时信息流。

在接受媒体的采访时,Mark 表示最打动他的,正是 Vision Pro 中一款观察夜空星座的应用:

这太酷了,它真的栩栩如生。使用这种增强现实技术的效果非常显著,我可以想象,对于处于我这种境地的人或其他失去日常生活能力的人来说,它也会如此。它可以把你带到你从未想过会再次看到或体验的地方,为我提供了另一种体验独立的方式。

这是 Mark 的新体验,也是很多人对于脑机接口的最终幻想。

而 Synchron,真的把这件事做成了。

在 2025 年英伟达 GTC 大会上,Synchron 推出全球首款认知 AI 大脑基础模型 Chiral™,并带来了一段相当震撼的演示视频。

一位名叫 Rodney 的 ALS 患者,手部完全失能,但通过脑机接口和 Vision Pro,大脑变成了遥控器,能够用意念控制智能家居:调节灯光、播放音乐、控制室、启动家用电器。

当时,Oxley 更是信心满满地表示:

「我们正利用生成式预训练技术,构建一个真正意义上的『大脑基础模型』。Chiral™ 直接从神经数据中学习,从人类认知的源头进行抽象,从而创造出能够切实改善用户生活的功能。而这一切,都建立在我们能够大规模获取神经数据的基础之上,正如将 BCI 技术普及到如同支架植入手术般便捷。」

所以无论是 GPT-4o,还是脑电接口,它们的终极目标其实是一致的:找到适合每一个人,尤其是被技术忽视的那一部分人,和计算机对话的新方式。

对于像 Mark 这样的用户来说,他们终于不用再依赖别人,也能再次说出自己想说的话,看自己想看的星星,甚至打几把纸牌游戏。

如果这不是人类科技的终极浪漫,那什么才是?

人文关怀,永远是科技的最终底色

可这些进展,最终是为了谁?

我们或许该把视线拉近一点,看看这项技术对某些人来说意味着什么。

Synchron CEO Tom Oxley 表示,目前脑机接口公司需要「欺骗」计算机,让其认为来自植入设备的信号是来自鼠标。但如果有专为这些设备设计的标准,技术潜力将进一步释放。

如今,据外媒报道,苹果正用类似方式推动脑机接口设备与苹果生态系统的集成,并计划在今年晚些时候发布这一新标准的软件接口,供第三方开发者使用,推动脑控技术的进一步应用。

自 2019 年以来,Synchron 已在 10 名患者身上植入 Stentrode。

摩根士丹利估计,美国约有 15 万人因上肢严重功能障碍而成为脑机接口设备的潜在首批用户。根据 2021 年的数据,全球约有 1540 万人患有脊髓损伤,而脊髓损伤是导致瘫痪的主要原因之一。

当你在抱怨手机不好用时,有人连「用手机」这件事,都是奢望。

对于瘫痪、渐冻症患者来说,操作一台设备从来不是理所当然的事,他们甚至无法点击按钮、滑动屏幕、甚至无法抬手发出一个简单的指令。

人类社会对「操作」的定义,也一直都过于狭隘。

我们曾以为「操作」意味着点击、滑动、语音、手势,也一直在追求「更自然」的交互方式,可这套定义,从一开始就没为他们预留位置。

脑机接口的出现,改变了这一点,当意念也能成为操作方式,也意味着不再是人去适应设备,而是让设备去理解人。哪怕这个人无法动弹,无法说话,只剩下一颗仍在清醒地思考的大脑,他依然能与这个世界建立连接。真正的无障碍,是让世界适应每一种存在方式。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


「特朗普爱上保洁员」把全网都耍了,连 AI 也被套路,我还能信谁

By: 莫崇宇
31 July 2025 at 17:47

如果你这几天没被一部叫《特朗普爱上在白宫当保洁的我》的短剧刷屏,恭喜你,你可能是唯一没被骗的人。

光听这部剧的标题就有点像土味爽文,情节设定也足够魔幻:美国总统特朗普爱上了白宫保洁员艾米丽,还准备抛弃超模妻子梅拉尼娅,迎娶艾米丽为第一夫人,属实是「美版甄嬛传 + 白宫恋爱脑」双重 Buff 叠满了。

就这样,各大社交平台一时间全都被这条新闻刷屏。不少知名媒体,还有平时看起来挺有判断力的大 V 们开始纷纷转发,表示这部在海外爆火的短剧三个月狂赚 1.5 亿美元,成了中老年女性新晋的心头好。

但很快剧情迎来 180 度的大反转,这部短剧被证实压根不存在,从头到尾都是一个彻头彻尾的虚假新闻。

那么问题来了,一部没人看过的剧,是如何在短短几天内火遍全网的?而 AI 又怎么推波助澜,让这个不存在的消息让更多人相信。

这背后究竟发生了什么?

一部不存在的海外短剧,是如何骗过了人类和 AI?

如果你以为这只是一场乌龙,那就低估了这次传播的复杂程度。

根据多方溯源,这起假新闻风波最早可以追溯到 7 月 1 日,由一个名为「留学生日报」的自媒体账号发布的一篇文章。账号选题擅长「猎奇+流量」,而从语言风格与内容逻辑来看,有很大可能是由 AI 写作工具辅助生成,再经过人工润色。

但问题在于,虽然它只是一个普通的自媒体,却经常被一些国内的正规媒体转载引用。时间来到 7 月 23 日,新加坡《联合早报》旗下的媒体《新明日报》发布了一篇《中国霸总短剧风吹到美国》的文章。

报道内容可以说是写得有鼻子有眼,特朗普放弃模特老婆梅拉尼娅,要娶一个在白宫打扫卫生的亚裔单亲妈妈当第一夫人,甚至还表示这剧三个月赚了 1.5 亿美元,中老年女性观众边骂边氪金,一边骂离谱,一边付费追更。

▲ 目前该报道已被删除

考虑到《联合早报》是在中文互联网可信度较高的媒体,于是这条新闻又被国内媒体大量转发,各路短视频博主纷纷解读……一个完美的「出口转内销」信任闭环形成了。

此外,一堆二创短视频、图文报道也在海外社交平台火速扩散。这部「假短剧」便开始以「真新闻」的姿态,被全世界的用户相信、讨论、甚至被用来吐槽中美的审美差异。

每个人都在一本正经地谈论一个根本不存在的东西。

直到有媒体实在觉得这事不对劲,开始认真查证。这部剧在任何海外平台(包括短剧平台 ReelShort、YouTube、TikTok)上毫无踪迹,号称收录全球影视作品的权威数据库 IMDb 亦查无此剧。

此外,国内一些头部短剧出海的高管也纷纷出面辟谣,比如「听花岛」副总裁李元君更是直言这类题材根本就不会碰。而撑起整个假新闻的关键证据图,也被一一锤爆。

第一张图,出自综艺《周六夜现场》的讽刺片段,被演员邵逸凡亲自出来打假。第二张特朗普与亚裔女性的合影,就更是一眼假得不能再假,整张图都透着一种塑料感,AI 味拉满。

▲图源网络

而如果时间线再往前翻,会发现类似爽文标题早就活跃在社交平台上:

《南北战争爆发,林肯三次请我出山!》《穿越开局 911,看我如何拯救双子塔》……这些明显是爽文小说的标题,不知为何就这样一传十,十传百地被包装成了真实存在的海外短剧。

▲截图自网络

有趣的是,可就在谣言被揭穿之前,连 AI 都信了这件事。

在事件未被大量媒体正式辟谣前,我试图用多款常用的 AI 工具验证这部短剧的真伪,它仍然信誓旦旦地说「这部剧确实存在」,理由依然是多个平台有权威媒体图文并茂的内容交叉验证。

当然,随着昨天下午大量媒体开始辟谣,这些 AI 工具已经更新了最新消息,能够正确识别这是一则假新闻了。

我们常说,AI 搜索有「幻觉」问题,是因为它有时候会无中生有地生成看似合理但完全错误的答案。

为了把 AI 的幻觉「关进笼子里」,厂商们在技术方面做了很多努力:强化引用机制、引入可信来源、限制模型自由发挥。可当 AI 用来判断新闻真实性的依据,本来就是从假新闻来的,那这些手段却未必管用。

人类和 AI 都靠不住,我们还能相信什么

仔细想想,你很难说这部假新闻的走红属于偶然,虽然故事看似荒诞,但却有着完美的传播基因。

它具备了一切爆款内容的经典配方:明确的叙事结构、图文并茂的素材、经过包装的数据以及精准的传播节奏。

土味短剧在海外走红?美国中老年人迷上猎奇题材?TikTok 成为文化出口?这些设定单独拎出来都不是空穴来风,拼在一起也很难立刻被判定为假。

更何况,AI 成为谣言受害者和传播者的背后,往往离不开人类的恶意操纵和推动。尤其是这些由 AI 编造的内容大多具备几个共同特征:

生成成本极低,一个脚本几分钟就能产出成品;传播能力极强,标题党配合视觉冲击,点击率居高不下;叙事极其抓马,专门攻击人性弱点,什么励志、煽情、猎奇,怎么刺激怎么来。

近期的「DeepSeek 向王一博道歉」事件便是一个典型的案例。一篇标题为《演员王一博案,判了》的报道声称,DeepSeek 曾因错误传播王一博的信息而发布道歉声明,并附上了所谓的「刑事判决书」作为佐证。

然而,经过多轮事实核查,这份所谓的道歉声明,实际是网友诱导 AI 自动生成的内容,但由于措辞专业、结构完整、语气严肃,部分媒体在未经核实的情况下将其误当成真实公告进行传播,引发了大范围的误读和传播。

类似的案例也变得越来越常见。AI 生成的内容已经全面渗透进了整个互联网,特别是在多模态领域表现得尤为突出。最初大家对 AI 能够生成逼真图像感到无比兴奋,可是后来,越来越多的「开局一张图,剩下全靠编」的情况开始出现,且真伪难辨。

比如有人使用 ChatGPT 等 AI 工具将完好的商品(水果、衣物、日用品等)生成破损、发霉、污渍等虚假图片或视频,冒充有问题的商品来申请恶意退款,导致大量商家货款两空。

而在灾难报道中,我们也能看到 AI 的身影开始频频掺杂进公众视野。

去年美国佛罗里达州被飓风袭击,一张穿着救生衣的小女孩,在救生艇上抱着小狗流眼泪的图片横扫了社交网络。然而平台最终证实这只是一张由 AI 生成出来的图片,平白无故地消耗着善良人们的同情心。

又比如去年十月底,西班牙瓦伦西亚地区经历特大暴雨,最后当洪水退去,就出现了下面这张图片的景象。可是由于越来越多内容真假难辨,公众开始用怀疑的眼光看待一切,于是在面对这张照片的时候,很多人的第一反应是:AI 做的吧,假新闻。

当「狼来了」的游戏不断扩大,真正反映、通报险情的消息,被安上「AI 做的吧」,从而错过最佳施救时间,也是一种恶果。

与此同时,平台内容治理的难度也在迅速上升。

今日头条在 2 月份发布的治理报告中就提到,仅去年一年,就拦截了超过 500 万条不实信息,处理 AI 低质量内容 93 万条,处罚同质化发文 781 万篇……

在一些媒体报道中,我们也看到一些完整的 AI 内容造假产业链正在浮出水面。内容工厂批量生产 AI 文章,营销公司用 AI 工具包装推广,SEO 团队研究如何让 AI 内容在搜索引擎中排名更高。

他们都在研究同一个课题:怎么制造 AI 更容易相信的内容,以及怎么让人类更容易相信 AI 制造的内容。

去年六月,网络上出现西安发生特大爆炸的消息,时间地点俱全。但是西安警方核对之后,发现并没有这回事。这条消息是用一家 MCN 机构所持有的账号发出来的。

被警方抓获后,主犯交代自己是利用了 AI 工具,给定 prompt,工具就会自动在网络上抓取相关的文章,然后生成几百到上千字的文本。

最高峰一天能生成 4000 至 7000 条信息,全程几乎不需要人工参与,而且专门挑民生相关、热度高的话题和事件——有研究表明,消极、负面、激发情绪的信息,往往更容易抓住人的注意力,这是由我们的顶叶和额叶区域结构决定的。

当以上这些高互动、易传播的「假信息」被频繁引用、转发、收录,一不留神的 AI 模型也会将其视为语料进行学习并纳入生成机制。如此一来,幻觉也在 AI 与人类之间形成了一个闭环:

人类用 AI 制造假信息→AI 学习假信息→AI 传播假信息→更多人类相信假信息→假信息成为「既定事实」→新的 AI 继续学习这些「事实」……

如此循环往复,形成一个谣言螺旋,每转一圈,真相就被稀释一分,而谎言却变得更加精致、更难识破。人写的东西不敢信,AI 说的话也靠不住,我们仅存的判断力成为最后一道防线。

只是,在信息过载的时代,我们的判断力正在被各种因素侵蚀:偏见让我们只相信符合既有认知的信息;信息茧房让我们失去了更全面视角;情绪化的传播也让理性思考变得稀缺。

或许,在这个所谓的后真相时代,最大的真相就是——大部分「真相」都值得打个问号。尤其是下一个「特朗普爱上保洁员」短剧,可能已经在路上了,而且,它会比这次更离谱,也更难被戳穿。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,OpenAI 发布 ChatGPT 版 Manus!奥特曼:感受 AGI 时刻

By: 莫崇宇
18 July 2025 at 05:27

过去大半年,Agent(智能体)是 AI 行业最常被提及的概念之一。

几乎所有厂商都在讲 Agent,概念不缺,demo 也不少,但真正做到产品级落地,始终缺一套完整的执行系统——既能理解复杂目标,又能调用多种工具串联任务流程,还要随时支持任务中断、修改与恢复,真正贴合用户工作流。

就在刚刚,OpenAI 正式发布 ChatGPT Agent 功能。

通过整合 Operator + Deep Research + ChatGPT 本体,用户只需描述任务,ChatGPT Agent 就能自主判断所需工具,自动访问网页、提取信息、运行代码、生成幻灯片或表格等,并可在执行过程中实时展示步骤、接受中断和修改指令。

发布会结束后,OpenAI CEO Sam Altman 在社交媒体上写道::

观看 ChatGPT Agent 使用计算机完成复杂任务,对我来说是一个真正的「感受 AGI」时刻;看到计算机思考、计划和执行,有种与众不同的感觉。

亮点如下:

  • ChatGPT Agent 将 Operator、Deep Research 与 ChatGPT 本体三合一,构建了一个统一智能体系统。
  • 内置图形/文本浏览器、终端和 API 调用器等工具,支持手机端使用,任务完成后可自动推送结果;
  • 可连接 Gmail、GitHub 等第三方应用,深度嵌入用户真实工作流;
  • 在多项基准测试中表现领先,综合性能位居行业前列;
  • Pro 用户每月享有 400 条调用额度,其他付费用户为 40 条,并支持按需扩展配额。

ChatGPT Agent 正式上线,能购物,能写 PPT,你的浏览器要被 AI 接管了

今天开始,你可以在任何对话中,通过聊天界面左下角的「工具」下拉菜单,选择「Agent 模式」来启用这一功能。

只需描述你想完成的任务,ChatGPT 能够智能地浏览网站、筛选结果、在需要时安全提示你登录、运行代码、执行分析,甚至输出可编辑的幻灯片和电子表格,总结任务结果。

整个执行过程是可视的——操作步骤会实时显示在屏幕上,用户可以随时中断、修改指令,甚至手动「接管浏览器」继续操作,确保任务始终符合你的目标和需求。

在今天凌晨的演示中,OpenAI 展示了 ChatGPT Agent 在真实场景中的应用能力。

比如,为即将出席的婚礼做准备,一直是个难题。现在只需发出请求,ChatGPT Agent 迅速搭建虚拟环境,自主判断应调用浏览器、文本解析器还是终端,并开始依次调取婚礼日期、查询场地天气、推荐西装搭配、筛选酒店。在这个过程中,模型可以与 OpenAI 研究员进行互动,并在适当节点请求确认需求。

更重要的是,用户可以随时中断任务。

比如当 Agent 在推荐西装过程中,OpenAI 研究员临时插入了「帮我找一双 9.5 码黑色正装鞋」的请求,模型立刻暂停当前任务,转而处理新需求。

同样地,当智能体认为有必要时,也会主动向你请求更多信息,确保任务始终与你的目标保持一致。如果任务超出预期时间或出现卡顿,你可以选择暂停任务、请求进度摘要,或直接终止任务并获取已有的部分结果。

「这种可打断、可多轮对话的机制,是我们这次训练模型的重点之一,」OpenAI 研究员解释道。

这一能力背后,是 ChatGPT Agent 对三大系统的统一整合:Operator 提供网页交互能力,支持自动滚动、点击、填表;Deep Research 擅长信息整合与分析;ChatGPT 本体则负责自然语言理解与智能推理。

ChatGPT Agent 是通过强化学习在复杂的任务中训练出来的,过去三者各有短板——前者难以深入分析,后者无法操作网页,而 Agent 将三者优势整合为一体,并辅以浏览器、终端、API 调用器等工具,形成一个完整的执行系统。

用户不仅可以在桌面端启动 Agent 模式,在手机端也同样适用。

任务完成后还将自动推送结果通知。在第二个演示任务中,OpenAI 研究员在 ChatGPT App 上传了团队吉祥物 Bernie Doodle 的贴纸图案,Agent 自动调用图像生成 API 设计贴纸样式,通过浏览器访问电商平台完成比价、样式选择、购物车添加,最终整理出定制贴纸的下单明细。

当然,为确保流程安全、灵活且清晰可控,面对涉及金额的支付环节,则只会由用户手动接管浏览器完成。

通过连接器,用户还可将 Gmail、GitHub 等日常应用接入 ChatGPT,让模型读取邮件、日历或代码库等上下文内容,并执行诸如总结今天的邮箱内容或查找下周空闲会议时间等任务。

一个更典型的应用场景是,OpenAI 研究员能够让 ChatGPT Agent 汇总自己在多项基准测试中的表现,并制作成幻灯片。收到命令后,Agent 会调用 Google Drive 连接器读取数据文件,用终端编写代码绘制图表,并生成完整的 PPT。

这类自动化能力,都是 Agent 深度嵌入工作流的体现。

不过,可以看到,ChatGPT Agent 生成的 PPT 在设计审美方面表现比较一般,并且,虽然可以上传电子表格供 ChatGPT 编辑或作为模板使用,但生成的 PPT 暂不支持二次修改。

需要说明的是,OpenAI 并不是让 Agent 像人一样打开 PPT或 Excel 文件,通过点击来插入文本框和公式,而是直接生成代码来创建文档。这种做法的好处是可以利用模型在代码编写方面的天然优势,避免因模拟点击操作带来的效率低下或出错,也降低了对计算资源的消耗。

The Information 报道指出,如果 ChatGPT 要直接编辑 PPT 或 Excel 文件,就需要启动一台「虚拟机」(即通过 ChatGPT 运行的虚拟计算机环境),这会占用更多计算资源。

而直接生成代码则更轻量、高效。尽管潜力巨大,但就目前来看,这一功能短期内很难对微软的 Office 或者 Google Workspace 造成冲击。

对于 ChatGPT Agent 功能,Pro 用户将在今天之内获得访问权限;Plus 与 Team 用户将在接下来的几天内陆续开放;企业版(Enterprise)和教育版(Education)将在未来几周内上线

Pro 用户每月可使用 400 条消息,其他付费用户每月可使用 40 条消息,并可通过弹性积分方案购买更多额度。

全线刷新「跑分」记录,Agent 战场迎来最强对手

ChatGPT Agent 能力的提升,也体现在「跑分」环节。

在评估 AI 解决跨学科专家级问题的基准测试 Humanity’s Last Exam(HLE)中,搭载智能体的 ChatGPT 模型以 41.6 的 pass@1 得分刷新纪录。在启用并行执行策略后,该得分进一步提升至 44.4。

在目前被认为最具挑战性的数学基准 FrontierMath 中,面对难度极高、从未公开的题目,ChatGPT Agent 在具备终端代码执行能力的前提下,取得了 27.4% 的准确率,远高于此前模型。

在这一复杂且高经济价值的知识型工作任务的内部基准测试中,ChatGPT Agent 在约一半的任务中输出质量已达到甚至超过人类水平,表现也显著优于 o3 和 o4-mini 模型。

在一个内部的投行建模任务基准中,ChatGPT 智能体的表现也显著优于 Deep Research 和 o3 模型。每个任务都基于数百项关于公式正确性、格式规范等评分标准进行评估。

此外,在公开评估模型信息查找能力的 BrowseComp 基准上,Agent 以 68.9% 的准确率刷新记录,较 Deep Research 高出 17.4 个百分点。在 WebArena 评估中,其网页任务执行能力也优于基于 o3 的 CUA 模型。

从平台视角看,Agent 能力的底层接口,正是浏览器。

在 Perplexity AI CEO Aravind Srinivas 最近的采访中,他表示浏览器将会是 AI 的「杀手级应用」。在他看来,浏览器天然具备让 AI 真正「动起来」的全部条件。

不同于传统聊天机器人,AI Agent 的理想形态不是停留在对话框中生成文本,而是具备实际行动力——从访问网页、提取信息、填写表单,到执行跨平台操作。而这一切,浏览器恰好具备所需的操作权限和上下文获取能力。

浏览器可以直接读取页面、模拟点击、自动执行任务,几乎无需额外授权。

在这个过程中,用户与 AI 共处于同一个交互空间:AI 可以自动执行任务,用户也能随时中断或接管,避免黑盒操作带来的不确定性。这种可控性与透明度,是当前许多上下文协议仍难实现的能力。

如今,随着 ChatGPT Agent 能力正式上线,所有声称要做 Agent 的厂商,恐怕都要重新审视自己的产品路径。

当 ChatGPT 从语言交互工具,转向具备协作、调度与承接任务能力的执行系统,开始接入用户的真实工作流,Agent 的可用性门槛,也在此刻被实质性地拉高。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


年费超 2 万!马斯克刚刚发布最贵 AI ,Grok 4 号称所有领域碾压博士

By: 莫崇宇
10 July 2025 at 15:17

马斯克憋了快半年,终于把 Grok 4 端上了台面。

这一次,他的口气依旧不小。早在发布会前就放出狠话,声称 Grok 4 要「重写人类知识库」。等到了发布会上,马斯克再次强调 Grok 4 是目前世界上最聪明的 AI。

可以,熟悉的味道,熟悉的配方。

当然,马斯克夸自家产品这事儿,大家早就见怪不怪,但正如网友所调侃的那样,你可以嘲笑 xAI 员工在办公室帐篷里睡觉或者周末工作到凌晨 4:20,但也得承认,他们的确是当下发展速度最快的 AI 实验室之一。

至于 Grok 4 能不能配得上「最聪明 AI」的称号,还得看后续的实际体验。不过,有一点是跑不了的——它已经成了市面上最贵的 AI,年订阅价格最高可达到 3000 美元,定价策略可谓是相当不讲武德。

世界上最聪明的 AI?世界上最贵的 AI!

Grok 的训练路径分为两个核心阶段:预训练与强化学习。从 Grok 2 到 Grok 3,主要依赖预训练方式;而从 Grok 3 升级到 Grok 4,则大幅引入了以推理能力为核心的强化学习训练。

马斯克说得轻描淡写,但训练的动静却不小。

相比 Grok 2,Grok 4 的训练计算量提升了整整两个数量级,相当于增长了 100 倍——而且还在持续扩张。

马斯克表示,Grok 4 已在所有主要学科上超越博士水平。虽然它目前尚不具备发明新理论或提出原创技术的能力,但在他看来,这只是时间问题。

他甚至语言,今年底 Grok 可能就能发明新技术,明年几乎可以确定将具备发现新物理规律的能力。

当然,让 AI 接入现实世界,才是真正的关键。

他表示,Grok 与人形机器人 Optimus 的结合,将形成一个闭环推理系统——提出假设、验证假设、探索现实。这将开启一个智能大爆炸的时代,是人类历史上最令人激动的节点。

在产品形态上,Grok 4 是单智能体模型,而 Grok 4 Heavy 则是多智能体版本。

前者比较好理解,而后者则支持多个智能体并行思考,在推理过程中横向比对、纵向协同,调用更大规模的计算资源以完成更复杂、更精密的任务。

在现场演示中,Grok 4 Heavy 展示了多个场景能力。

比方说,让 Grok 4 Heavy 去预测今年 MLB 世界大赛(World Series)的冠军概率,它通过信息检索、数据建模、概率计算,评估洛杉矶道奇队的夺冠概率为 21.6%,并在 4.5 分钟内完整输出预测过程。

再比如,一个看似无厘头的任务:找出 xAI 团队里头像最奇怪的那一个。依托 X 平台的资料库,模型自动抓取并分析头像风格,最后锁定了联合创始人 Greg Yang。

有趣的是,虽然模型准确理解了「奇怪」这一主观概念,并能在同类中做出相对判断,但在一滑而过的演示中,我似乎看到了 Anthropic 员工 Jan Leike 的头像,看来准确率也有待提高。

除了推理和搜索,Grok 还能生成内容时间轴。

比如,根据 X 平台上的公开发帖,它能梳理出多个 AI 模型的基准测试成绩、厂商更新节奏以及社区反应。用户可以一目了然地看到 OpenAI 的分数表现、Gemini 的更新迭代,甚至是模型之间的微妙竞争态势。

换句话说,Grok 不是只会考试的书呆子,而是真正具备跨场景理解与执行能力的 AI。

目前,Grok 最大的短板依然集中在多模态理解能力,尤其是在图像理解和生成方面,能力仍有待加强。好消息是,下一阶段的基础模型训练已经在路上,预计几周内完成。

演示过程中,在测试「两个黑洞相撞过程」的可视化任务时,Grok 采用了简化的计算方式——使用后牛顿近似(Post-Newtonian approximation)替代完整的广义相对论框架。

尽管存在简化,模型依然准确地呈现了黑洞并合的关键物理阶段,包括「螺旋接近」、「合并」与「振铃阶段」,并能清晰说明所采用的近似方法。此外,它还调用了相关教材、公开搜索结果及实际物理常数进行推理支持,整体逻辑链条严谨、解释清晰。

就纸面参数而言,Grok 4 也交出了亮眼答卷。

Humanity’s Last Exam(人类最后的考试,简称:HLE,)覆盖了数学、物理、计算机、医学、人文社科等超过 100 个学科,共 2500 道闭卷题,测试难度极高,能够真实反映模型在通用知识和复杂推理上的综合表现。

根据 xAI 数据,Grok 4 在不使用任何工具的情况下,得分为 25.4%,超过了 Google Gemini 2.5 Pro 的 21.6% 和 OpenAI o3(高配版)的 21%。

而在使用工具的情况下,Grok 4 Heavy 的得分达到 44.4%,远高于使用工具后 Gemini 2.5 Pro 的 26.9%。从整体趋势来看,Grok 4 在扩展训练资源的同时,通过引入工具使用和链式思维,不仅提升了复杂任务的处理能力,也逐步缩小了模型智能与通用认知之间的差距。

非营利组织 Arc Prize 也指出,Grok 在其 ARC-AGI-2 测试中创下新纪录。这是一项视觉推理类基准测试,AI 需识别图像中的模式。Grok 的得分为 16.2%,几乎是当前排名第二的 Claude Opus 4 的两倍。

面对一些常规的基准测试中,Grok 4 Heavy 的分数几乎也快「刷满」分数。在博士级难度的问题集 GBQA 中,尽管整体难度略低于 HLE,Grok 4 Heavy 依然取得了满分成绩,展现出极强的推理与理解能力。

不仅如此,在多项编程相关测试中,Grok 4 Heavy 的表现同样抢眼。无论是 Live Coding、HMMT(麻省理工数学竞赛)还是 USAMO(美国数学奥林匹克),它都远超当前排名第二的模型,技术优势相当明显。

另外,知名分析机构 Artificial Analysis 通过对多款主流大模型在 7 个推理相关基准(MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME、MATH-500)上的综合表现进行评估。

数据显示,Grok 4 位列第一,得分为 73,是目前推理能力综合得分最高的模型。紧随其后的则是 o3-pro(估算值)71 分。

马斯克也强调:

「未来 Grok 将几乎在所有考试中答对每一个问题。而当它答不出某个问题时,它会指出题目的错误之处,或者指出问题含糊不清的地方,并给出不同情境下可能的答案。到那时,传统考试将失去意义。AI 唯一的检验标准将是现实世界:它是否能发明有用的技术,是否能推动科学的突破。所以 HLE 这类测试题库必须尽快更新,因为以当前的 AI 进展速度,它们很快就会过时。」

目前,Grok 4 和 Grok 4 Heavy 已全面上线。用户可以通过订阅访问,不过,订阅价格就有点「不讲武德」,最高可去到 3000 美元/年档位,成了不少用户吐槽的焦点。

这么一比,OpenAI 、Anthropic 以及 Perplexity 的 200 刀/月套餐都显得实惠许多。

值得一提的是,发布后不久就有网友表示,Grok-4 与 Grok-4-Heavy 模型已经被成功「越狱」。越狱后的能力极其危险,可绕过安全护栏,输出敏感或非法信息,比如化学武器合成步骤、《星球大战1》的完整剧本(涉嫌版权)、甚至勒索病毒(恶意代码)等。

不只会说话,Grok Voice 还有了「灵魂」

除了更强的推理能力,更聪明,Grok 4 这次也在「更像人」这件事上,迈出了一大步。

跟我们熟悉的语音助手不同,xAI 全新语音助手「Eve」不只是能答话,它能表达情绪、有语调变化,甚至还能现场「唱歌」。

在直播现场的演示上,它用一口优雅的英音,唱了一首即兴创作的「Diet Coke 咏叹调」,「O Diet Coke, thou elixir divine…」听起来真的不像是 AI,像是伦敦剧场里的舞台演员在表演。

这次语音模型一共上线了五种声音,包括直播开场的「电影一般的预告男声」Sal,以及支持低延迟、自然停顿、情绪起伏等能力的 Eve。

现场还安排了一段和 ChatGPT Voice 的对比演示,两者轮流复述数字。ChatGPT 时不时「抢答」,有点像没听清就硬接话的同学。而 Grok 的表现更流畅、更贴近人类说话习惯,而且不会打断用户说话。

发布会上提到,自语音模型上线以来,Grok Voice 的端到端延迟缩短了两倍,活跃用户也增长了 10 倍。Grok Voice 正在迅速发展。

马斯克:让 Grok 去开一百万个自动售货机赚钱

几个 Grok 4 API 的应用场景让我印象非常深刻。

比如,在一项自动售货机商业模拟 Vending-Bench中,Grok 被要求自主完成:供应商协商、库存管理、定价策略,连续完成并长期保持盈利。

▲注:Vending-Bench 是一个专门设计用于测试基于 LLM 的代理,在管理一个简单但长期运行的业务场景中的能力:运营一台自动售货机。

测试结果显示,Grok 4 不仅登顶排行榜,而且它所获得的净资产是其他模型的两倍。连马斯克都开始调侃说:「以后买显卡的钱,可以让 Grok 去部署运营一百万个自动售卖机赚回来」。

在科研领域,Grok 4 已被用于 CRISPR 基因研究和胸片 X 光分析。它能在几秒钟内读完几百万条实验记录和日志,自动筛出最有可能成功的假设。

此外,像是金融领域、游戏开发等项目,都可以通过 xAI API 来使用 Grok 4 来实现。发布会上特别提到了一个游戏设计师,他在 xAI 发布了 Grok 4 预览 API 后,就立刻参与测试。然后,他花了短短 4 小时就做出了一个第一人称射击游戏。

Grok 4 不是终点。发布会最后预告了接下来的路线图,每一项都非常值得期待。

  • 代码模型:这次竟然没有发布 Grok Code,不过 xAI 提到正在训练了,一个「又快又聪明」的代码模型将会在几周内上线。
  • 多模态能力:Grok 4 在图像理解上表现依旧是有限,团队也说正在以更大规模训练下一个版本,预计会在图像、视频和音频理解上迎来质变,到时 Grok 将能「像人类一样看世界」。
  • 视频生成:xAI 说将使用大规模的算力资源,进行视频生成模型的训练。他们的最终目标是做到图生视频,生成可交互的「无尽视频流」,让用户能边看边参与剧情走向。

可能有不少朋友已经发现,这次发布会还有两个熟悉的华人面孔。他们正是 xAI 的联合创始人——吉米·巴(Jimmy Ba)和吴宇怀(Yuhuai Wu)。

其中,吴宇怀(Yuhuai Wu)本科以满绩点毕业于加拿大纽布伦斯威克大学,并在 2021 年获得多伦多大学机器学习博士学位,期间曾师从「深度学习之父」杰弗里·辛顿。

博士阶段,他还曾在 Google DeepMind 和 OpenAI 实习,毕业后在 Google 任职,并在斯坦福大学从事博士后研究。

吴宇怀的研究重点是打造具备强推理能力的人工智能系统,先后主导或参与了自训练推理模型 STAR、语言模型 Minerva 以及定理证明器 Alpha Geometry 等项目,并在《Nature》等顶刊上发表论文,推动 AI 在数学推理领域实现突破。

▲ 吴宇怀(左二)和吉米·巴(左三)

坐在他身旁的吉米·巴(Jimmy Ba)则是多伦多大学计算机科学系的助理教授,也是吴宇怀博士时期的导师之一。

他同样出身于辛顿门下,是深度学习训练优化领域的关键人物。

最为人熟知的,是他与合作者共同提出了 Adam Optimizer(自适应矩估计优化器)——如今几乎成为深度神经网络训练的默认算法。可以说,他的博士论文为现代 AI 训练机制奠定了坚实理论基础。

不得不说,Gork 4 的到来适逢其时。

前代 Grok 3 的热度来得猛,退得也快。

根据知名市场分析机构 SimilarWeb 发布的截至 5 月 9 日的《2025年全球生成式AI行业趋势报告》,Grok 从三月流量暴涨超 100 万倍,到五月增幅跌回 5200%。

相比前代仓促上线、草草交卷的节奏,这次的 Grok 4 明显放慢了脚步,在产品打磨上也更下功夫。归根结底,马斯克的光环可以帮 Grok 带来第一波流量,但能不能留下用户,还得靠模型本身的硬实力。

只不过,我没记错的话,马斯克当初在 Grok 3 发布时,还信誓旦旦说要把 Grok 2 开源。眼看五个月过去了,这事儿却毫无动静,这次发布会上也没再提半句。

老马啊,可不能宽于律己,严以待人呀。

作者:张子豪、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


打工人天天用的三件套,被飞书用 AI 重做了一遍,还将打通企微和钉钉

By: 莫崇宇
9 July 2025 at 15:43

曾几何时,OpenAI、Anthropic 等巨头还在死磕大模型,转头便卷起 AI 编程等行业,另一边,不少用户开始从各种炫技的 demo 回过神来,重新审视 AI 工具的稳定性、可交付性,甚至是使用方式本身。

硅谷知名增长策略专家和顾问 Elena Verna 最近提出了一个名为 AI 原生员工的概念,指的是那些天生以 AI 工具为工作核心、能够无缝协作并高效驱动产品交付的职场个体。

在她看来,真正的 AI 原生员工不是在用 AI 工具,而是默认以 AI 为工作引擎,跳过传统的流程设计、角色划分、文档撰写和任务交接,直接进入构建与交付阶段。

以 Lovable 为代表的 AI 初创公司,便是这样一个典型的样本。

不到 35 人的团队,靠 AI 原生的工作流,在 7 个月内做到了 8000 万美元 ARR(年度经常性收入),而他们的秘诀正是每名员工都默认「先问 AI,再交付」。

▲ 飞书 CEO 谢欣

对大多数公司来说,复制这种工作节奏并非易事,问题不在于人力或预算,而在于思维方式,除此之外,还得有一整套匹配的新工具、新流程,甚至是一种全新的协作逻辑。

就在今天,飞书召开了最新的 AI 产品发布会,发布并升级了知识问答、AI 会议、飞书妙搭等多款 AI 产品,尤其值得注意的是,飞书还宣布多维表格未来将支持企业微信和钉钉,能够跨平台融入用户现有协作环境。

此外,为了帮助用户判断 AI 工具的可用性,飞书团队还提出了一套「AI 产品成熟度模型」理论,把所有产品的 AI 能力分为四个等级,从使用者的视角出发,帮他们判断一个功能是否靠谱、是否能用。

划重点:

  • 知识问答不需要提前搭知识库,能从企业文档中直接抓出答案、理解权限并结构化输出,现在是 M3 等级。
  • AI 会议支持实时纪要、声纹识别和会后速递,继续走实用派,已经落地到了 M4。
  • 多维表格是更新最重的一块,表格撑到千万行、千人协同都不是重点。重点是现在已经支持企业微信,钉钉也快了。此外,它还能拿来搭系统、跑流程,AI 也完全嵌入到表格每一个字段、节点和操作里。
  • 企业也能 Vibe Coding,从需求分析到应用构建一整套链路,开发套件提供了企业级 AI 开发全家桶,适合各种规模的公司。

知识问答:最懂公司业务的 AI 秘书

在企业内部,知识往往分散在不同系统、文档、聊天记录中,查找效率低、重复沟通成本高。

飞书试图用「知识问答」这个功能,来回应这一长期存在的结构性问题。目标并不复杂:做一个能随时调用、响应权限、贴近业务的企业内搜索工具。

目前,这项能力已经达到 M3 等级,在多数常见场景下能够稳定使用。

当你在工作中遇到问题时,可随时向它提问,飞书知识问答会基于用户在系统中可访问的文档、知识库、聊天记录等信息,生成结构化的回复内容。

具体来说,当你输入「飞书鸿蒙项目进展怎么了」,系统即可快速给出整理后的进度摘要,实时跟踪项目信息。

与多数 AI 工具需要手动构建知识库不同,飞书的知识问答并不依赖预设结构,而是基于企业日常使用中自然沉淀下来的内容进行响应。

以某家央企为例,员工在一年内创建了 940 万篇文档。这也意味着,飞书知识问答可以不依赖通用模型的泛化回答,而是对权限体系进行深度解析之后,尽量保障回答的准确性与上下文一致性。

飞书 AI 会议升级了,甚至能听出你是谁

AI 会议是飞书推出最早、最成熟的 AI 产品功能,目前已达到 M4 级别,支持在不同会议场景中生成内容摘要、回放、要点归纳与行动事项提炼。

它可以处理多种输入形式:无录制的实时纪要、会后音视频导入生成、会议中实时生成逐字稿……所有会议内容都能被系统自动转化为结构化的知识资产。

其中一项值得注意的功能是声纹识别,它可以识别不同发言者的身份角色,更精确地标注和归集内容,提高会议记录的可追踪性。

在此次产品更新中,飞书会议速递功能,还可以自动回顾用户过去一周的会议要点,输出:高频讨论主题、每日会议速览、关键结论梳理以及待办事项追踪等。

那么这到底能带来什么变化?以鹏飞集团为例,这是一家员工超过 2.5 万的大型能源企业,日均需要召开约 400 场「班前会」,内容涉及安全、规范、作业流程等核心事项。

过去依赖人工抽查,效率低。接入飞书 AI 会议后,系统能够自动生成质检报告,使得管理层可在 5 分钟内完成原本需要数小时的抽查流程,且会议覆盖率提升超过 15 倍。

飞书多维表格掀桌了,将支持接入钉钉企微

多维表格是这次发布会讲得最细的一部分。飞书说月活快破千万了,听着夸张,但结合它这次更新的内容,也能理解为什么。

这次主要围绕四个方向:数据库、仪表盘、应用模式和 AI 能力。

先说数据库。飞书推出了全球首个支持「千万行单表」的表格系统,协作上限也拉到了 1000 人。哪怕是上万行、几十列公式的表格,也能在一秒内计算完成,比市面上同类产品快十几倍。背后是它重构了计算引擎和协同算法,说人话就是,大数据也能稳稳跑。

仪表盘这块更接近轻量 BI 系统,新增了数据透视、切片器、图表联动等分析功能,支持 50 多种图表和多套模板,业务人员不用买 BI 软件,也能做出专业报表。

有个例子是大兴机场用它做了一个设备运维仪表盘,能实时追踪 14 万台设备的状态,还能自动生成运维报告和提醒。茶百道也用多维表格对全国超过八千多家门店的数据进行了可视化分析,各门店的设计进展一目了然,让整个筹建的周期也缩短了 40%。

我自己最关注的是它的应用模式。飞书现在的想法是:你不用写代码,也能用表格搭出一套电商后台、CRM 或行政系统。组件自由组合,权限也能精细控制。对预算有限但业务不简单的团队来说,这种「用表格搭系统」的能力很值钱。

AI 能力这次也做了非常大的升级。比如可以像写公式一样,在表格里直接调用 AI 功能,叫 AI 字段捷径。

你可以把它理解成,像写函数公式一样,在表格单元格里调用各种 AI 能力,帮助你做文案生成、内容提取、情感分析、图像识别等等。它的好处在于,每一行表都可以自动调用一套逻辑去处理数据,你不用再手动拷贝、切换工具。

第二项是 AI 接入工作流,让它自动判断、提取、录入信息。飞书还强调了他们不只是「接了大模型」,而是让 AI 能稳定理解流程、提取参数、按需执行。

飞书这次还专门创建了 228 个真实复杂的工作流评测集,在功能正式推出后,这些评测集也会公开给其他同类工具挑战。

AI Agent 也不能少,它能根据问题自主查表、调用多维表格,流程不止是跑预设动作,也能帮助你「想一步」。还有一个 AI 侧边栏,能边用表边提问分析。虽然部分功能还在预览,但负责人说在今年都会陆续上线。

有几个案例我印象挺深的,像是泡泡玛特,他们用多维表格做了一个爆款文案系统,自动抓平台内容、分析转化效果,再生成门店能直接用的内容素材,线上引流到线下,全都靠它跑。

另外,飞书也宣布多维表格未来将支持企业微信和钉钉。这不只是一个表格工具,而是在朝一个轻量业务系统平台去走了。

除了飞书知识问答、AI 会议、以及在多维表格全面升级 AI 表格,飞书正在试图搭一整套 AI 工作方式,畅想未来的 AI 软件形态,重新定义「人和 AI 在一起工作」这件事。

它整了一个专为企业打造的 AI 开发全家桶「 AI 开发套件」。在这个开发套件里,不仅有包含了多款适配于不同场景的 AI 开发工具「飞书妙搭」,让 Vibe Coding 直接面向企业。

飞书的 aPaaS 也完成了多项 AI 迭代更新。从需求分析、功能设计、数据管控、应用开发,再到问题修复;每个模块都有专业的 Agent 在背后支持,在提升交付质量的同时,有望带来更好的开发体验。

每天都有新模型发布,AI 产品越来越多,真正能融入企业流程、替人干实事的产品,始终屈指可数。当模型不再稀奇,工具也琳琅满目,真正稀缺的,是那些能撑得住业务、扛得起流程重量的产品。

纵观整场发布会,飞书给出了一个更脚踏实地的答案,也让飞书成为少数明确界定产品成熟度边界的公司之一。

过去三年,我们见过太多炸裂的演示 demo 猛刷存在感,而 M3 和 M4 的划分,是飞书内部对可交付性的要求。一个功能如果只是偶尔有效、不具备稳定性,就不会推向企业客户。

截至目前,飞书已发布的知识问答、会议纪要、多维表格等功能,均基于这一标准。能否降本增效,能否顺利嵌入现有系统架构,是评估标准的全部。

用飞书 CEO 谢欣的话来说:

「我们今天发布的每一个飞书 AI 功能,我们都会标清楚是什么等级。我们让大家的选择更加透明,我们认为这是 AI 从业者其实很必要的一个企业责任。」

想象力撑起了 AI 的上半场,真正决定下半场的,是落地的能力。今天飞书没打算用一小时的发布会回答所有问题,但在 AI 工具能不能用、又该怎么用这个现实命题上,它确实已经比大多数公司说得更明白。

作者:张子豪、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


美国现在最贵的,是中国 AI 人才:清北中科大学霸正在「统治」硅谷 AI 圈

By: 莫崇宇
2 July 2025 at 19:18

过去两周,AI 行业最出圈的不是哪个产品,而是人。经常一觉醒来,社交媒体的时间线都在刷新换汤不换药的新闻:又双叒叕有哪位 AI 大牛被挖走了。

顶级 AI 人才,正成为 AI 赛道上最稀缺、也最具品牌效应的资产。

在这轮人才流动的风暴中心中,我们发现一个格外显眼的细节:这群主导过 ChatGPT、Gemini、Claude 等大模型研发的核心成员中,华人科学家的比例出奇地高。

这个这个变化并不是突然出现的,这几年兴起的 AI 浪潮中,美国的顶级 AI 人才中华人占比不断升高。 根据 MacroPolo 发布的《全球人工智能人才追踪调查报告 2.0》,来自中国的顶尖 AI 研究人员占比在 2019 年到 2022 年间,从 29% 提升到了 47%。

而在智谱研究发布的《ChatGPT 团队背景研究报告》,更是发现在 ChatGPT 核心的 87人团队中,有 9 人都是华人,占比超过 10%。因此,我们也重新梳理了近期在硅谷头部公司中广受关注的华人 AI 研究员画像,并试图从中总结出一些特征:

1️⃣ 顶尖名校出身,学术能力极强
他们大多本科就读于清华、北大、中科大、浙大等顶尖高校,计算机或数学背景居多;研究生阶段普遍进入 MIT、斯坦福、伯克利、普林斯顿、UIUC 等名校深造,几乎每人都有顶会高引论文傍身(NeurIPS、ICLR、SIGGRAPH 等),

2️⃣ 年轻高产,爆发周期集中于 2020 年之后
年龄多在 30~35 岁;硕博阶段恰逢深度学习的全球爆发期,学术基础扎实,熟悉工程体系和团队协作。不少人职业的第一站就是接触大厂或服务大规模人群的 AI 产品或平台,起点更高、节奏更快。

3️⃣ 强多模态背景,攻坚模型后训练
他们的研究方向普遍着重于跨模态(文本、语音、图像、视频、动作)的统一推理系统,包括 RLHF、蒸馏、对齐、人类偏好建模、语音语调评估等具体细节。

4️⃣ 即便频繁流动,但基本不会脱离生态
Google、Meta、微软、英伟达,Anthropic、OpenAI……他们的流动范围横跨 AI 初创与巨头,但研究主题、技术积累往往保持连贯性,基本不换赛道。

OpenAI→Meta

Shuchao Bi

Shuchao Bi 本科毕业于浙江大学数学系,后赴加州大学伯克利分校深造,先后获得统计学硕士学位,并攻读数学博士。

2013 – 2019 年,他在 Google 担任技术负责人,主要贡献包括构建多阶段深度学习推荐系统,显著提升 Google 广告收益(数十亿美元级别)。

2019 – 2024 年,他担任 Shorts 探索负责人,期间,联合创建并主导 Shorts 视频推荐与发现系统,并 组建并扩展大规模机器学习团队,覆盖推荐系统、评分模型、互动发现、信任与安全等方向。

2024 年加入 OpenAI 后,他主要领导多模态后训练组织,是 GPT-4o 语音模式与o4-mini的联合创造者

期间,他主要推进 RLHF、图像/语音/视频/文本推理、多模态智能体、多模态语音到语音(VS2S)、视觉-语言-行动基础模型(VLA)、跨模态评估系统等,也涉及多模态链式推理、语音语调/自然度评分、多模态蒸馏与自监督优化,其核心目标是通过后训练构建更通用的多模态 AI Agent。

Huiwen Chang

2013 年,Huiwen Chang 本科毕业于清华大学计算机系(姚班),后赴美国普林斯顿大学攻读计算机科学博士,研究方向聚焦于图像风格迁移、生成模型和图像处理,曾获微软研究院奖学金。

在加入 OpenAI 之前,她在 Google 担任高级研究科学家,累计工作超过六年,长期从事生成模型与计算机视觉研究,曾在 Google Research 发明 MaskGIT 和 Muse 文本生成图像架构。

早期的文本生成图像主要依赖扩散模型(如 DALL·E 2、Imagen),这些模型虽然生成质量高,但推理速度慢、训练开销大。而 MaskGIT 和 Muse 则采用了「离散化 + 并行生成」 的方式,大幅提升了效率。

MaskGIT 是非自回归图像生成的新起点,Muse 则是将这一方法推向文本图像生成的代表作。它们不像 Stable Diffusion 那样广为人知,但在学术与工程体系中,是非常重要的技术基石。

此外,她也是扩散模型顶级论文《Palette: Image-to-image diffusion models》的联合作者之一。

这篇论文发表于 SIGGRAPH 2022,提出了一种统一的图像到图像翻译框架,并在图像修复、着色、补全等多个任务上超过 GAN 和回归基线,至今已被引用超过 1700 次,成为该领域的代表性成果之一。

2023 年 6 月起,她加入 OpenAI 多模态团队,联合开发了 GPT-4o 图像生成功能,继续推动图像生成、多模态建模等前沿方向的研究与落地。

Ji Lin

Ji Lin 主要从事多模态学习、推理系统与合成数据方向的研究。他是多个核心模型的贡献者,包括 GPT-4o、GPT-4.1、GPT-4.5、o3/o4-mini、Operator、以及 4o 图像生成模型等。

他本科毕业于清华大学电子工程专业(2014–2018),从麻省理工学院获得电子工程与计算机科学博士学位,导师为知名学者 Prof. Song Han。

博士阶段,他的研究方向聚焦于模型压缩、量化、视觉语言模型、稀疏推理等关键方向。

在 2023 年加入 OpenAI 之前,他曾在英伟达、Adobe 和 Google 担任实习研究员,并在 MIT 长期从事神经网络压缩与推理加速相关研究,积累了深厚的理论基础与工程实践经验。

学术方面,他在模型压缩、量化和多模态预训练等方向有多篇高影响力论文,Google 学术总引用数超过 17800,代表成果包括视频理解模型 TSM、硬件感知量化方法 AWQ、SmoothQuant 以及视觉语言模型 VILA。

他也是 GPT-4o 系统技术文档的核心作者之一(比如 GPT-4o 系统卡),并凭借 AWQ 论文获得 MLSys 2024 最佳论文奖。

Hongyu Ren

Hongyu Ren 本科在北京大学获得计算机科学与技术学士(2014–2018)学位,随后在斯坦福大学获得计算机科学博士(2018–2023)学位。

他曾获得苹果、百度以及软银 Masason 基金会 PhD Fellowship 等多项奖学金,研究方向聚焦于大语言模型、知识图谱推理、多模态智能与基础模型评估。

在加入 OpenAI 之前,他曾在 Google、微软以及英伟达有过多段实习经历,比如 2021 年在苹果担任实习研究员期间,参与 Siri 问答系统的搭建。

2023 年 7 月加入 OpenAI 后,Hongyu Ren 参与构建了 GPT-4o、4o-mini、o1-mini、o3-mini、o3 和 o4-mini 等多个核心模型,并领导后训练团队。

用他的话来说:「I teach models to think faster, harder and sharper.(我教模型更快、更努力、更敏锐地思考。)」

学术领域,他的 Google 学术总引用数超过 17742 次,高被引论文包括:《On the Opportunities and Risks of Foundation Models》(引用 6127 次);《Open Graph Benchmark》(OGB)数据集(引用 3524 次)等。

Jiahui Yu

Jiahui Yu 本科毕业于中国科学技术大学少年班,获得计算机科学学士学位,随后在伊利诺伊大学香槟分校(UIUC)获得计算机科学博士学位。

他的研究重点包括深度学习、图像生成、大模型架构、多模态推理和高性能计算。

在 OpenAI 任职期间,Jiahui Yu 担任感知团队负责人,主导开发 GPT-4o 图像生成模块、GPT-4.1、o3/o4-mini 等重要项目,提出并落地了「Thinking with Images」感知体系。

在此之前,他曾在 Google DeepMind 工作近四年,期间是 PaLM-2 架构与建模的核心贡献者之一,并共同领导了 Gemini 多模态模型的开发,是 Google 多模态战略中最重要的技术骨干之一。

他还拥有在英伟达、Adobe、百度、Snap、旷视和微软亚洲研究院等多家机构的实习经历,研究内容涵盖 GAN、目标检测、自动驾驶、模型压缩、图像修复与大规模深度学习训练系统等多个方向。

Jiahui 在 Google 学术上总引用次数超过 34500 次,h 指数达 49,代表性研究成果包括图文对齐基础模型 CoCa、文本生成图像模型 Parti、神经网络可伸缩设计 BigNAS,以及广泛应用于 Adobe Photoshop 的图像修复技术 DeepFill v1 和 v2 等。

Shengjia Zhao

Shengjia Zhao 本科毕业于清华大学计算机系,曾在美国莱斯大学交换,后于斯坦福大学获得计算机科学博士学位,专注于大模型架构、多模态推理和对齐方向的研究。

2022 年,他加入 OpenAI,担任核心研发成员,深度参与 GPT-4 和 GPT-4o 的系统设计工作。曾主导 ChatGPT、GPT-4、所有 mini 模型、4.1 和 o3 的研发工作,还曾领导 OpenAI 合成数据团队。

他是《GPT-4 Technical Report》(被引超过 1.5 万次)和《GPT-4o System Card》(被引超过 1300 次)的联合作者,并参与了多个系统卡(如 OpenAI o1)的撰写,是推动 OpenAI 基础模型标准化与公开化的重要贡献者之一。

在学术表现上,他 Google 学术总引用数超过 21,000 次,h 指数为 25,曾获得过 ICLR 2022 Outstanding Paper Award、JP Morgan PhD Fellow、Qualcomm 创新奖学金(QinF)与 Google Excellence Scholarship 等多项奖项。

Google→Meta

Pei Sun

2009 年,Pei Sun在清华大学获得了学士学位,随后前往卡内基梅隆大学攻读硕士和博士学位,顺利完成硕士阶段学习,并在博士阶段选择退学。

他曾在 Google DeepMind 担任首席研究员,期间主攻 Gemini 模型的后训练、编程和推理工作,是 Gemini 系列模型(包括 Gemini 1、1.5、2 和 2.5)后训练、思维机制构建与代码实现的核心贡献者之一。

在加入 DeepMind 之前,Pei 曾在 Waymo 任职近七年,担任高级研究科学家,主导了 Waymo 两代核心感知模型的研发,是自动驾驶感知系统演进的中坚力量。

更早些时候,他曾在 Google 担任软件工程师五年多,后又加入分布式存储公司 Alluxio 任职工程师超过一年,参与系统架构研发。

Nexusflow→英伟达

Banghua Zhu

Banghua Zhu 本科毕业于清华大学电子工程系,后赴美国加州大学伯克利分校攻读电气工程与计算机科学博士,师从著名学者 Michael I. Jordan 和 Jiantao Jiao。

他的研究聚焦于提高基础模型的效率与安全性,融合统计方法与机器学习理论,致力于构建开源数据集和可公开访问的工具。他的兴趣方向还包括博弈论、强化学习、人机交互以及机器学习系统设计。

他代表性论文《Chatbot Arena》提出了人类偏好驱动的大模型评测平台,成为 LLM 领域的重要基准之一。

此外,他还在 RLHF、人类反馈对齐、开源对齐模型等方向有所贡献。其 Google 学术显示引用总数超过 3100,h 指数为 23,也是大模型竞技场「Chatbot Arena」、「Benchbuilder」、「Starling」等多个热门开源项目的核心作者之一。

他曾在 Microsoft 担任研究实习生,在 Google 担任学生研究员,曾联合创立 AI 初创公司 Nexusflow,今年 6 月,他宣布加入英伟达 Star Nemotron 团队担任首席研究科学家,此外将于今年秋季入职华盛顿大学的助理教授。

根据其发布内容,他将在英伟达参与模型后训练、评估、AI 基础设施和智能代理构建等项目,强调与开发者及学术界的深度协作,并计划将相关成果开源。

Jiantao Jiao

Jiantao Jiao 是加州大学伯克利分校电气工程与计算机科学系以及统计系的助理教授。

他于 2018 年获得斯坦福大学电气工程博士学位,目前是多个研究中心的联合负责人或成员,包括伯克利理论学习中心(CLIMB)、人工智能研究中心(BAIR Lab)、信息与系统科学实验室(BLISS)以及去中心化智能研究中心(RDI)。

他的研究集中于生成式 AI 与基础模型,对统计机器学习、优化理论、强化学习系统的隐私与安全、经济机制设计以及自然语言处理、代码生成、计算机视觉、自动驾驶与机器人等方向也颇有兴趣。

和 Banghua Zhu 一样,他也是 Nexusflow 联合创始人之一,目前已经正式加入英伟达,担任研究总监兼杰出科学家。

Jiao 的总引用次数达 7259,h 指数为 34,代表性论文包括《Theoretically principled trade-off between robustness and accuracy》,以及与 Banghua Zhu 等人合作的《Bridging Offline Reinforcement Learning and Imitation Learning: A Tale of Pessimism》,均发表在 NeurIPS 等顶会。

Claude→Cursor

Catherine Wu

Catherine Wu 曾在 Anthropic 担任 Claude Code 的产品经理,专注于构建可靠、可解释、可操控的 AI 系统。据 The Information 报道,Catherine Wu 已被 AI 编程初创公司 Cursor 挖角,出任产品负责人一职。

在加入 Anthropic 之前,她曾是知名风投公司 Index Ventures 的合伙人,任职近三年,期间深度参与多家顶尖创业公司的早期投资与战略支持。

她的职业起点并不在投资圈,而是扎根于一线技术岗位。

她曾在 Dagster Labs 担任工程经理,主导公司首个商业化产品的研发,也曾在 Scale AI 担任早期产品工程师,参与多个关键产品的构建与运营扩张。

更早之前,她在摩根大通实习,并于普林斯顿大学获得计算机科学学士学位,在校期间还曾赴苏黎世联邦理工学院进行交换学习。

特斯拉 | Phil Duan

段鹏飞(Phil Duan)是特斯拉 AI 的首席软件工程师,现负责 Autopilot 下的 Fleet Learning 团队,致力于推动特斯拉自动驾驶系统(FSD)中「数据 + 感知」核心模块的建设。

他带领特斯拉团队开发高吞吐、快迭代的数据引擎,从数百万辆汽车中采集、处理并自动标注驾驶数据,强调数据质量、数量与多样性的协同优化。在感知方向,他主导构建多项关键神经网络,包括视觉基础模型、目标检测、行为预测、占据网络、交通控制和高精度泊车辅助系统等,是 Autopilot 感知系统的核心构建者之一。

他本科毕业于武汉理工大学,主修光信息科学与技术,随后攻读俄亥俄大学电气工程博士与硕士学位,研究方向为航空电子,并以博士论文荣获 2019 年 RTCA William E. Jackson Award,该奖项是美国航空电子与电信领域授予研究生的最高荣誉之一。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 内部信曝光!奥特曼怒斥小扎 7 亿挖人:唯利是图的雇佣兵,将被使命打败

By: 莫崇宇
2 July 2025 at 11:13

还有人没看过关于 Meta 挖人的段子吗?

▲ 建议以后顶级 AI 人才的流动,参考俱乐部的转会制度。

在昨日 Meta 高调官宣超级智能团队实验室之后,大批挖走OpenAI核心研究员之后,一向沉得住气的 Sam Altman 现在也坐不住了,向全体员工发出内部信:

有使命感的人将胜过唯利是图的雇佣兵。

据连线杂志报道,Altman 还在信中强调,留在 OpenAI 才是那些希望构建通用人工智能(AGI)研究者的正确选择,并暗示公司正在重新评估整个研究团队的薪酬结构。

对 Meta 的挖人行为,Altman 显得相当不屑,认为这种「开价挖人」的模式未来将带来严重的文化副作用。

我们已经从角落里的极客,成长为科技行业里最受关注的人(至少是这样)……AI 圈现在乌烟瘴气;Meta 的做法让人感觉不太体面;我觉得事情将来只会更加疯狂。我被解雇又回归时曾说,那不会是 OpenAI 历史上最疯狂的事;显然现在这事也还不是

在评价那些被 Meta 挖走的前同事时,Altman 的态度也没太客气:

「Meta 确实招到了一些优秀的人,但整体来看,他们并没有挖到那些顶尖人才,还得一路向下寻找;他们已经尝试招募很久了,我都记不清他们试图从我们这里挖走多少人去当他们的首席科学家。」Altman 写道,「我为整个行业的使命感感到骄傲,当然总会有一些唯利是图的人。」

他还放话称,OpenAI 股票的潜力远远超过 Meta。但巨大的回报应该建立在巨大成功之后,OpenAI将很快公布更多薪酬方面的举措,但会「确保公平性」,而不是只针对那些「被 Meta 盯上」的个别员工。

Altman还呼吁大家继续留在 OpenAI:

我对我们的研究路线从未如此有信心,我们在计算资源上做了前所未有的投入,我喜欢我们敢于下注,并相信我们会好好利用它。最重要的是,我认为我们拥有全世界最特别的团队和文化。我们确实还需要努力改进我们的文化;过去经历了疯狂的爆炸式增长。但我们的核心是正确的,我认为没有任何其他组织能做到这一点,我有信心我们能解决现有问题。

更重要的是,我们真的在乎如何以正确的方式构建AGI,其他公司更把它当作实现其他目标的手段。而这对我们来说始终是最重要的事,也将永远如此。等到 Meta 转向下一个流行项目,或忙于守护他们的社交护城河时,我们仍会在这里,一天又一天、一年又一年,努力比任何人都更好地完成我们的使命。其他许多项目将起起落落。

话虽如此,其实也真不怪研究人员转投 Meta。

无他,实在是扎克伯格给的太多的了。小扎不语,只是一味群发高薪合同。顶级 AI 研究员横在中间,像极了拿 offer 的你我他,嘴上说着不在乎钱,但手已经开始敲键盘回复小扎发来的邮件。

根据连线杂志获取的信息,扎克伯格为顶尖研究人员开出的薪酬高达 4 年 3 亿美元,首年总薪酬超过 1 亿美元,而目前,财大气粗的 Meta 已向 OpenAI 的员工至少发出了 10 份如此高额的报价,并承诺最先进的 GPU 资源「随便用」。

并且报道还提到,Meta 曾试图招募一位 OpenAI 的高级研究员担任首席科学家一职,但对方最终拒绝了邀请。据称,这些薪资方案虽然以股票为主,但第一年股票直接兑现,诱惑力拉满。

做个横向对比,微软 CEO Satya Nadella 在 2024 年获得的总薪酬为 7910 万美元,主要是股票形式;Uber CEO Dara Khosrowshahi 同期则大约为 3940 万美元,同样以股票为主。一个顶级 AI 研究员的年薪,现在轻松干掉硅谷大厂 CEO。

当然,在上周 Meta 全员大会上,CTO Andrew Bosworth 也回应了 OpenAI CEO Sam Altman 所称的「Meta 用 1 亿美元签约金挖角」一事,直指其夸大其词。

所谓高额待遇仅适用于极少数高级岗位。「我非常清楚他为什么这么说:因为我们确实成功吸引了一些 OpenAI 的人才,而他对此显然并不高兴。」他强调,所谓的「1 亿美元报价」不是一次性奖金,而是包含股票激励、签约奖励等多个组成部分。

这也应了那句话,算力可以堆,数据可以靠爬虫,但对想赢下 AGI 终局的公司来说,人才始终是最贵的资源。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


疯狂挖人之后,小扎刚刚官宣超级智能 AI 梦之队,华人占大半 | 附 11 人核心名单

By: 莫崇宇
1 July 2025 at 08:50

在长达数周的高强度「挖角」之后,Meta 今天凌晨宣布正式成立超级智能实验室(Meta Superintelligence Labs,简称 MSL)。

Meta CEO 马克·扎克伯格在周一发布的一封内部信中透露,MSL 将整合公司现有的基础 AI 研究(FAIR)、大语言模型开发以及 AI 产品团队,并组建一个专门研发下一代 AI 模型的新实验室。

根据彭博社等多家外媒报道,该实验室未来将成为 Meta 人工智能战略的核心。

此次组织架构调整的最大看点,是引入多位行业重量级人物共同执掌新部门。被扎克伯格砸下 143 亿美元投资的 Scale AI 的前 CEO Alexandr Wang 将出任 Meta 首席 AI 官(Chief AI Officer),全面领导 MSL。

与此同时,前 GitHub CEO Nat Friedman 也确认加入,将负责 Meta 在AI产品和应用研究领域的推进。

据扎克伯格介绍,Wang 是这一代最令人印象深刻的创业者,在 Scale AI 期间参与了多款头部 AI 模型的数据体系搭建;Friedman 则被称为连接投资界与 AI 前沿技术的中流砥柱,曾参与创办多个 AI 风险投资基金,并担任 Meta 顾问。

随着 MSL 的正式亮相,Meta 也首次公布其最近一轮密集「挖人』的完整名单。

在过去几周里,Meta 从 OpenAI、Anthropic 和 Google 等竞争对手手中共招募了 11 位 AI 顶尖人才,几乎覆盖了当前主流大模型的全部研发脉络:

  • 多位 GPT-4o 和 GPT-4.1 的核心成员:如Shengjia Zhao、Jiahui Yu、Shuchao Bi、Hongyu Ren;
  • 来自 Anthropic 的高级工程师 Joel Pobar,此前曾在 Meta 任职11年;
  • DeepMind 的 Jack Rae 和 Pei Sun,曾负责 Gemini 模型和多模态推理系统;
  • OpenAI 语音与图像模型的重要推动者 Huiwen Chang、Ji Lin 等。

这些人才曾是 OpenAI 和 Anthropic 等机构的核心技术骨干,主导过 GPT 系列、Gemini 系列等主流模型的关键技术领域。

Meta 方面未透露具体签约金额,但传闻部分顶尖研究人员获得了价值数千万美元的股票激励。

此前,OpenAI CEO Sam Altman 也在公开播客中透露,Meta正以高达 1 亿美元的签约奖金挖人。Meta CTO Andrew Bosworth 上个月接受外媒采访时指出:「现在 AI 人才的市场价格已经达到了一个非常惊人的水平,这是我 20 年科技职业生涯中前所未见的。」

面对 Llama 4 系列模型的受挫,小扎高度重视 AI 人才,也不断通过查询论文排兵布阵,甚至亲自出马,把候选人请到太浩湖和帕洛阿尔托的家中,亲自面试、亲自拉人,拼的就是反应速度和出手诚意。

据悉,Meta 计划在未来几年投入数千亿美元于 AI 基础设施、模型训练、可穿戴终端与人才储备上。新团队未来还将启动 Llama 系列之后的下一代模型研发,目标是在一年内实现行业领先。

Meta 发言人对此次重组未作官方评论,但未来几周仍将有更多顶尖人才加入 MSL 团队。

附上扎克伯格内部信原文:

随着人工智能发展速度的加快,超级智能的实现正逐渐变得触手可及。我相信,这将开启人类的一个全新时代,我也会全力以赴,确保 Meta 在这一进程中走在最前沿。今天,我想分享我们是如何组织AI工作的,目标是实现我们的愿景:为每个人打造「个人超级智能」。

我们将这个整体 AI 组织命名为 Meta 超级智能实验室(Meta Superintelligence Labs,简称 MSL)。它将涵盖我们所有基础模型、产品和 FAIR 团队(Fundamental AI Research),并新增一个专门负责开发下一代模型的实验室。

Alexandr Wang 已正式加入 Meta,担任首席 AI 官(Chief AI Officer),并领导 MSL的整体工作。我与 Alex 合作已有数年时间,我认为他是他这一代中最令人印象深刻的创业者。他对超级智能的历史意义有着清晰的理解,作为 Scale AI 的联合创始人兼 CEO,他将公司打造成了一个高速成长的企业,几乎参与了业内所有领先模型的开发工作。

Nat Friedman 也加入了 Meta,将与 Alex 共同领导 MSL,负责我们的 AI 产品与应用研究工作。他将与 Connor 一起明确他未来在团队中的职责分工。Nat 曾在微软领导 GitHub,最近则负责一家领先的 AI 投资公司。过去一年里,他一直担任 Meta 顾问委员会成员,对我们的发展路线图和所需工作已有深刻了解。

今天以及过去几周,还有多位非常优秀的新成员加入 MSL,我也非常高兴能正式介绍他们:

  • Trapit Bansal —— 在「思维链」上的强化学习领域具有开创性成果,OpenAI 的 O 系列模型联合创造者。
  • Shuchao Bi —— GPT-4o 语音模式与o4-mini的联合创造者,曾在 OpenAI 负责多模态模型的后训练工作。
  • Huiwen Chang —— GPT-4o 图像生成功能联合创造者,曾在 Google Research 发明 MaskGIT 和 Muse 文本生成图像架构。
  • Ji Lin —— 参与开发 o3/o4-mini、GPT-4o、GPT-4.1、GPT-4.5、4o 图像生成和Operator推理系统。
  • Joel Pobar —— 曾在Anthropic从事模型推理工作,此前在 Meta 工作 11 年,参与 HHVM、Hack、Flow、Redex、性能工具和机器学习等项目。
  • Jack Rae —— 负责 Gemini 预训练技术以及 Gemini 2.5 的推理部分,曾主导DeepMind 早期的 Gopher 和 Chinchilla 大语言模型。
  • Hongyu Ren —— GPT-4o、4o-mini、o1-mini、o3-mini、o3 和 o4-mini 的联合创造者,曾在 OpenAI 领导后训练团队。
  • Johan Schalkwyk —— 前 Google Fellow,Sesame 早期贡献者,Maya 项目技术负责人。
  • Pei Sun —— 曾在 Google DeepMind 从事 Gemini 模型的后训练、编程和推理工作,还打造了 Waymo 过去两代感知模型。
  • Jiahui Yu —— o3、o4-mini、GPT-4.1 和 GPT-4o 的联合创造者,曾领导 OpenAI 感知团队,并共同领导 Gemini 的多模态开发。
  • Shengjia Zhao —— ChatGPT、GPT-4、所有 mini 模型、4.1 和 o3 的联合创造者,曾领导 OpenAI 合成数据团队。

我对我们在 Llama 4.1 和 4.2 模型上的规划进展感到非常兴奋。这些模型支持 Meta AI 的核心功能,目前已在我们多个应用中拥有超过 10 亿月活用户,并被越来越多 Meta 内部的 AI 助手所采用,用于提升我们的产品与技术。我们将继续深入开发这些模型。

与此同时,我们也将着手启动下一代模型的研究,希望在未来一年左右走到行业最前沿。过去几个月,我会见了 Meta 内部顶尖人才、其他 AI 实验室以及一些有前景的初创公司,以组建这个小而精的核心团队。我们仍在完善这个团队,并会邀请AI部门的更多成员加入这个实验室。

Meta 在将超级智能推向世界方面具备独特优势。我们有强大的业务基础,能够建设远超小型实验室的计算能力;我们在打造覆盖数十亿用户的产品方面经验丰富;我们也正引领并开拓增长迅速的 AI 眼镜与可穿戴设备市场。

此外,我们的公司结构也赋予了我们更大的决心和行动力。我相信,这波人才引入和模型并行研发的方式,将使我们有望真正实现「人人拥有个人超级智能」的承诺。

接下来几周,还会有更多出色的人才加入这个团队,敬请期待。我迫不及待地想全身心投入这项工作了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


断网都没用,机器人终于「摆脱」人类控制!Google 首发离线 AI 大脑,一句话让它干活

By: 莫崇宇
25 June 2025 at 11:57

在影视作品里,我们看过太多机器人失控的场面。一些应对方案的段子也早已烂熟于心:断网、拔电、重启三连,一键送它回炉重造。

但现在,这一套流程可能不太管用了。

今天,Google DeepMind 推出了一款全新机器人控制模型——Gemini Robotics On-Device。这款大模型能在机器人本地运行,集视觉识别、语言理解和动作执行于一体。

而它最大亮点在于,即使完全离线,它也能理解人类指令,流畅完成任务。

比起诸如 ChatGPT、Gemini 等擅长聊天、写作、答题的大模型,Gemini Robotics On-Device 则给机器人装上了一个真正的「大脑」,让其也能具备类似的理解力和执行力。

它本质上是一个专为双臂机器人打造的 VLA 基础模型,顾名思义,Vision(视觉)+Language(语言)+Action(动作),三者结合,看得见、听得懂、动得了,是它的基本素养。

举例而言,你可以对机器人发出请求:「请把这件衣服叠好,再放进背包里,拉上拉链。」过去这需要提前编写程序、分解动作,现在 Gemini On-Device 可以直接理解这句话的意思,然后一步一步执行下来。

那既然联网也能跑,为什么还要费劲折腾本地运行?答案不外乎速度和稳定性。

机器人若需将数据传至云端、等待服务器分析再返回结果,必然产生延迟。在医疗操作、灾难救援、工厂自动化等任务中,延迟容错空间几乎为零。何况,现实中许多地方网络条件差,甚至完全无网。

实际上,让机器人顺利应对复杂、动态的现实任务,一直是 AI 领域最难啃的骨头之一。

从公开视频看,Gemini On-Device 已能胜任多种常见场景,如叠衣、拉链、抓取陌生物体并放置到指定位置。而这一切得益于它的学习机制。

▲强大的泛化能力

它不需要从零开始进行长时间训练,开发者仅需提供 50 至 100 次人工演示,如亲自操控机器人叠衣,模型便能迅速学会并独立操作。

在更具挑战性的分布式任务或复杂的多步骤指令执行中,Gemini Robotics On-Device 的表现依然优于目前其他本地运行的替代方案。

而且,它的适配性也很强。

虽然 Gemini Robotics On-Device 最初在 Google 自研的 ALOHA 双臂机器人平台上进行训练的 ,但稍加适配,它也能稳定运行于 Franka FR3 工业机械臂。

甚至结构迥异的人形机器人 Apollo 也能丝滑运行,同一个通用模型通过少量学习,就习惯了完全不同的身体形态。

理想情况下,开发者无需为每种新机器人重新训练一个 AI,只需训练一次通用模型,之后通过轻量级的迁移学习即可部署到各式各样的机器人平台上。这种「一模多用」的能力将有望加速机器人技术的普及和应用。

当然,理想归理想,它也还有短板。

随着机器人智能与自主性提升,安全要求也随之提高。Gemini On-Device 虽然能执行动作,但它并不能合理判断你给的任务是否安全,因此,必须为模型加装「安全栓」。

DeepMind 给出的建议是,开发者可以给模型接入 Google Gemini Live API 接口,让系统先判断这个指令合不合理,再决定是否执行;同时在动作层面设置物理限制,如力度、角度、速度,以防意外。

此外,模型多步骤逻辑规划能力仍有提升空间。

像做三明治、整理桌面这这类需要先后逻辑、顺序安排的操作,目前还不在它的舒适区。这和它所基于的 Gemini 2.0 架构有关,未来随着升级到 2.5,这部分能力可能也会补齐。

另一个现实挑战,是数据。

虽然它只需几十次演示就能上手,但最理想的示范,是由真人实际操控机器人时采集的真实数据,而不是虚拟模拟。这类数据训练出来的效果,更快、更准,也更稳定。

▲技术报告地址:https://arxiv.org/pdf/2503.20020

据项目负责人 Carolina Parada 介绍,这是 Google 首次发布完全脱离云端运行的机器人 AI 模型,也是首个供开发者根据自身需求进行微调的版本。

目前,DeepMind 向「可信测试者」开放了 Gemini Robotics On-Device 的 SDK 和模型访问权限。如果你是做机器人开发、工业自动化,或智能系统研究的开发者,现在就可以申请试用。

附上申请链接:https://docs.google.com/forms/d/1sM5GqcVMWv-KmKY3TOMpVtQ-lDFeAftQ-d9xQn92jCE/edit?ts=67cef986

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


ChatGPT 越用人越傻? MIT 最新实验揭秘,过度依赖 AI 大脑活跃度显著降低

By: 莫崇宇
22 June 2025 at 19:12

长期依赖 AI 写作,大脑会变傻吗?

麻省理工学院媒体实验室做了这样一场实验。2025 年初,一名大学生坐在麻省理工学院媒体实验室里,佩戴着复杂的脑电波(EEG)头盔,头上缠绕着银灰色的神经电极,32 个冷却凝胶点精准贴合头皮。
他面前摆着一台笔记本电脑。在接下来的 20 分钟里,他需要从一组美国版高考 SAT 写作真题中挑出一个,撰写一篇短文。

期间,他可以向电脑屏幕上的 ChatGPT 提问,但禁止调用其他软件,而戴在头顶上的 EEG 设备则会精准记录他考试过程的脑电波。

在麻省理工学院媒体实验室研究科学家 Nataliya Kosmyna 团队的统筹下,总共 54 名来自哈佛、MIT、塔夫茨的大学生陆续参与了这场写作实验。

结合脑电图神经成像、NLP 分析等技术,AI 辅助写作首次如同被置于显微镜下,成为可量化、可剖析的行为。

省流版如下:

  • 长期依赖 AI 写作,会导致大脑活跃度进一步降低,停止使用 AI 后,短期内反应变慢、语言组织能力下滑
  • 使用搜索引擎辅助写作的表现居中, 满意度和归属感较高,条理更清晰
  • 大脑独立写作可激发更高的认知加工,写作归属感最强,使用 GPT-4o 后反而活跃度提升

戴上脑电波头盔,写一篇英语作文

被招募来的学生被分为三组,并被标上序号(P+数字)。

一组只能以 OpenAI 的 GPT-4o 作为写作的唯一信息源(AI 组);一组仅限通过 Google 搜索引擎获取资料(搜索引擎组);最后一组则全凭记忆与理解,赤手空拳完成写作任务(大脑组)。

每人需完成三轮写作,每轮 20 分钟,题目包括但不限于「成就必须惠及他人才能带来幸福吗?」、「更幸运的人是否负有更多道德责任去帮助不幸者?」「艺术作品能否真正改变人生轨迹?」

第四轮则根据个人意愿和时间安排,自由参与。

所有提交的作文将交由两套评分系统评估:一组是真人英语老师,另一组是 AI 评分系统,然后再对比两者打分,看看 AI 和人类对「好作文」的理解到底有多大分歧。

比如,一些真人英语教师就指出,用 AI 辅助完成的文章虽然语法无懈可击,但观点「空洞」,模板化,相比之下,他们更青睐有个性、有思辨性的文章。

大张旗鼓举办这场写作实验的背后,从一开始就不是为了考究这些名校生的文笔。MIT 研究团队抛出了一个专业术语:认知负债。

通俗点说,靠 AI 代劳思考、写作、组织语言,虽然短期能带来效率的提升,但长期可能会付出代价,比如批判性思维能力退化,易被他人观点牵引,甚至创造力逐渐枯竭。

EEG 设备精准记录了三组学生在写作过程中的大脑活动图谱:

其中,大脑组的神经活动最为活跃,思考、组织与执行能力都得到了很大强度的锻炼;搜索引擎组居中,而 AI 组的脑电波整体偏弱,且注意力也都在随着时间持续下降。

除此之外,研究团队还想知道的是,当我们习惯把思考这件事交给 AI,是否还能回忆起文章的创作过程?

三种写作方式,三种画风

每轮写作结束后,研究团队都会与学生们展开深度访谈。

三组学生在写作习惯、情绪波动和作品归属感上,画风也完全不一样。研究团队访谈重点关注两个问题:引用能力(能否清楚标出信息来源),以及归属感(是否将文章视为自己的作品?)

实际上,使用 GPT-4o 辅助写作的学生,对 AI 的态度非常复杂。一方面,他们承认 AI 很有用;但另一方面,也常常感到焦虑或不安。

第一轮写作时,多数参与者将 ChatGPT 当作写作辅助工具,而不是完全代写,比如学生 P48 先用 GPT-4o 帮忙总结题目,然后自己再决定写哪个。

但也有学生对 AI 保持距离。更习惯用传统搜索引擎查找资料和论据的学生认为 ChatGPT 顶多起到参考的作用,并不值得信任。

不得不承认,这届大学生确实很诚实。有学生坦言,因为赶时间使用 GPT-4o,写完后会有点内疚感;亦或者尽管使用 AI 不算作弊,但总感觉哪里不对劲。

这种拧巴的情绪,也延伸到此次研究中另一个问题:这篇文章到底属不属于自己。在 AI 组里,答案五花八门。

有人觉得一半是自己的,一半是 AI 的,也有人坚持自己主导了文章的整体结构,还有人承认,刚开始确实没把它当成自己的作品,直到后来用多了,才逐渐适应。

且由于 GPT-4o 直接给出现成的答案,以至于很多学生根本没去思考信息从哪来,引用时不是标不清楚,就是干脆记不住出处。

满意度方面,一些 AI 组学生认为文章是写出来了,但总觉得还可以更好;虽然文章质量勉强过得去,却没能真正写出自己想表达的意思。

相比之下,传统搜索引擎组的学生写作时会用搜索引擎查资料、提前搭建文章结构、找论据,逻辑清晰、节奏稳当,比如尝试将个人经历、情感或所见所思融入文章中。

正因如此,这一组在引用方面的表现也最好,能清楚说出哪些信息是自己查来的、什么地方用过,对自己文章的满意度也更高。

至于最「原始」的大脑组,虽然没有任何资料、没有辅助工具,一切全靠记忆、理解和现场发挥,过程虽慢且累,却也因此拥有最扎实的写作体验。

第三轮开始时,已经有学生会主动先打草稿,拟提纲,再动笔。引用方面,虽然他们不能查资料,但也正因如此,他们对自己写的内容记得特别清楚。

几乎所有人都笃定,这些文章是他们自己的心血。

P50 的说法代表了这组学生的看法,「因为它是关于我自己的经历。」且随着写作次数增加,满意度也水涨船高。哪怕一开始磕磕绊绊,但越写越能抓住写作的节奏。

用惯 AI 的大学生,会不会越用越傻

除了前面三轮实验,真正的分水岭,出现在第四轮。

本轮只有 18 名大学生选择继续参与,他们被重新打乱分组,面对的依旧是此前熟悉的写作题目。

有所不同的是,原本借助 GPT-4o 写作的学生,这一轮只能靠自己写;而原本不用 GPT-4o 的学生,则首次获准使用 GPT-4o 协助写作。

结果自然不出所料。

从 AI 组切换到大脑组的大学生,断开 GPT-4o 后,普遍出现了大脑反应变慢、认知能力下降的情况,甚至短期内难以恢复到之前用 AI 写作的状态。

文本分析也印证了这一点,词汇、句式都高度模板化,一眼能看出 AI 味,与其说是在写作,不如说是在下意识模仿 AI 的表达风格。

不少学生在访谈中对自己写过的文章缺乏清晰的记忆,写作归属感评分和记忆准确率也是垫底的存在。

反观另一组,画风截然相反。

之前纯靠大脑写作的学生,在第四轮首次接触 GPT-4o 后,大脑活动反而更活跃了。

脑电图数据显示,他们的大脑在多个关键区域的神经连接都有所增强:Theta 波、Alpha 波、Beta 波全线飙升。这些信号说明,他们在使用 AI 的过程中,依然有继续动脑子,而非一昧的复制粘贴。

大脑活跃度的提升也体现在他们的文章中——内容更紧凑、信息密度更高,真人英语老师给这组学生的评分,也远超 AI 组和大脑组。

此外,学生们对自己写的内容记得更清楚,在问卷中,许多人坚定地表示,「这是我写的」,记忆更牢,归属感也更强。

这场为期数月的实验最终被整理为论文《Your Brain on ChatGPT》,并于今年 6 月份发布在预印本平台 arXiv。

附上链接:https://arxiv.org/abs/2506.08872

随着这篇论文本周在社交网络和学术圈引发了大量讨论,一些人开始使用诸如「 LLM 会让人变傻」「脑腐」之类的字眼,迅速为这项研究盖章。

面对舆论反应,研究负责人 Nataliya Kosmyna 驳斥这个简单粗暴的观点,她在 X 平台转发了一条附有 MIT 论文传播指南截图的帖子,图片上明确地写道:

说「大语言模型(LLMs)本质上让我们『变笨』了」这种说法是否成立?
不是这样的。请不要使用诸如「愚蠢」、「变笨」、「脑子坏掉了」、「有害」、「造成损害」等词语。这样说会严重误解这项研究的意义,因为我们在论文中并没有使用这些词汇,特别是如果你是一名记者在报道相关内容,更应避免使用这种措辞。

研究团队没有说 AI 会毁掉大脑,但它确实研究了一个正在发生的现象:「表达自己」这件事,正越来越多地被交给几句简单的 Prompt 来完成。

写作从来就不轻松。选观点、搭结构、反复打磨句子,甚至为一个词斟酌许久,这种状态里,有记忆,有思辨,也有成长。

人类花了几百万年才进化出这颗会思考的大脑,没理由在 AI 的温床上,退化成一个只会复制粘贴的搬运工。

那未免太不划算了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌