Reading view

There are new articles available, click to refresh the page.

年费超 2 万!马斯克刚刚发布最贵 AI ,Grok 4 号称所有领域碾压博士

马斯克憋了快半年,终于把 Grok 4 端上了台面。

这一次,他的口气依旧不小。早在发布会前就放出狠话,声称 Grok 4 要「重写人类知识库」。等到了发布会上,马斯克再次强调 Grok 4 是目前世界上最聪明的 AI。

可以,熟悉的味道,熟悉的配方。

当然,马斯克夸自家产品这事儿,大家早就见怪不怪,但正如网友所调侃的那样,你可以嘲笑 xAI 员工在办公室帐篷里睡觉或者周末工作到凌晨 4:20,但也得承认,他们的确是当下发展速度最快的 AI 实验室之一。

至于 Grok 4 能不能配得上「最聪明 AI」的称号,还得看后续的实际体验。不过,有一点是跑不了的——它已经成了市面上最贵的 AI,年订阅价格最高可达到 3000 美元,定价策略可谓是相当不讲武德。

世界上最聪明的 AI?世界上最贵的 AI!

Grok 的训练路径分为两个核心阶段:预训练与强化学习。从 Grok 2 到 Grok 3,主要依赖预训练方式;而从 Grok 3 升级到 Grok 4,则大幅引入了以推理能力为核心的强化学习训练。

马斯克说得轻描淡写,但训练的动静却不小。

相比 Grok 2,Grok 4 的训练计算量提升了整整两个数量级,相当于增长了 100 倍——而且还在持续扩张。

马斯克表示,Grok 4 已在所有主要学科上超越博士水平。虽然它目前尚不具备发明新理论或提出原创技术的能力,但在他看来,这只是时间问题。

他甚至语言,今年底 Grok 可能就能发明新技术,明年几乎可以确定将具备发现新物理规律的能力。

当然,让 AI 接入现实世界,才是真正的关键。

他表示,Grok 与人形机器人 Optimus 的结合,将形成一个闭环推理系统——提出假设、验证假设、探索现实。这将开启一个智能大爆炸的时代,是人类历史上最令人激动的节点。

在产品形态上,Grok 4 是单智能体模型,而 Grok 4 Heavy 则是多智能体版本。

前者比较好理解,而后者则支持多个智能体并行思考,在推理过程中横向比对、纵向协同,调用更大规模的计算资源以完成更复杂、更精密的任务。

在现场演示中,Grok 4 Heavy 展示了多个场景能力。

比方说,让 Grok 4 Heavy 去预测今年 MLB 世界大赛(World Series)的冠军概率,它通过信息检索、数据建模、概率计算,评估洛杉矶道奇队的夺冠概率为 21.6%,并在 4.5 分钟内完整输出预测过程。

再比如,一个看似无厘头的任务:找出 xAI 团队里头像最奇怪的那一个。依托 X 平台的资料库,模型自动抓取并分析头像风格,最后锁定了联合创始人 Greg Yang。

有趣的是,虽然模型准确理解了「奇怪」这一主观概念,并能在同类中做出相对判断,但在一滑而过的演示中,我似乎看到了 Anthropic 员工 Jan Leike 的头像,看来准确率也有待提高。

除了推理和搜索,Grok 还能生成内容时间轴。

比如,根据 X 平台上的公开发帖,它能梳理出多个 AI 模型的基准测试成绩、厂商更新节奏以及社区反应。用户可以一目了然地看到 OpenAI 的分数表现、Gemini 的更新迭代,甚至是模型之间的微妙竞争态势。

换句话说,Grok 不是只会考试的书呆子,而是真正具备跨场景理解与执行能力的 AI。

目前,Grok 最大的短板依然集中在多模态理解能力,尤其是在图像理解和生成方面,能力仍有待加强。好消息是,下一阶段的基础模型训练已经在路上,预计几周内完成。

演示过程中,在测试「两个黑洞相撞过程」的可视化任务时,Grok 采用了简化的计算方式——使用后牛顿近似(Post-Newtonian approximation)替代完整的广义相对论框架。

尽管存在简化,模型依然准确地呈现了黑洞并合的关键物理阶段,包括「螺旋接近」、「合并」与「振铃阶段」,并能清晰说明所采用的近似方法。此外,它还调用了相关教材、公开搜索结果及实际物理常数进行推理支持,整体逻辑链条严谨、解释清晰。

就纸面参数而言,Grok 4 也交出了亮眼答卷。

Humanity’s Last Exam(人类最后的考试,简称:HLE,)覆盖了数学、物理、计算机、医学、人文社科等超过 100 个学科,共 2500 道闭卷题,测试难度极高,能够真实反映模型在通用知识和复杂推理上的综合表现。

根据 xAI 数据,Grok 4 在不使用任何工具的情况下,得分为 25.4%,超过了 Google Gemini 2.5 Pro 的 21.6% 和 OpenAI o3(高配版)的 21%。

而在使用工具的情况下,Grok 4 Heavy 的得分达到 44.4%,远高于使用工具后 Gemini 2.5 Pro 的 26.9%。从整体趋势来看,Grok 4 在扩展训练资源的同时,通过引入工具使用和链式思维,不仅提升了复杂任务的处理能力,也逐步缩小了模型智能与通用认知之间的差距。

非营利组织 Arc Prize 也指出,Grok 在其 ARC-AGI-2 测试中创下新纪录。这是一项视觉推理类基准测试,AI 需识别图像中的模式。Grok 的得分为 16.2%,几乎是当前排名第二的 Claude Opus 4 的两倍。

面对一些常规的基准测试中,Grok 4 Heavy 的分数几乎也快「刷满」分数。在博士级难度的问题集 GBQA 中,尽管整体难度略低于 HLE,Grok 4 Heavy 依然取得了满分成绩,展现出极强的推理与理解能力。

不仅如此,在多项编程相关测试中,Grok 4 Heavy 的表现同样抢眼。无论是 Live Coding、HMMT(麻省理工数学竞赛)还是 USAMO(美国数学奥林匹克),它都远超当前排名第二的模型,技术优势相当明显。

另外,知名分析机构 Artificial Analysis 通过对多款主流大模型在 7 个推理相关基准(MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME、MATH-500)上的综合表现进行评估。

数据显示,Grok 4 位列第一,得分为 73,是目前推理能力综合得分最高的模型。紧随其后的则是 o3-pro(估算值)71 分。

马斯克也强调:

「未来 Grok 将几乎在所有考试中答对每一个问题。而当它答不出某个问题时,它会指出题目的错误之处,或者指出问题含糊不清的地方,并给出不同情境下可能的答案。到那时,传统考试将失去意义。AI 唯一的检验标准将是现实世界:它是否能发明有用的技术,是否能推动科学的突破。所以 HLE 这类测试题库必须尽快更新,因为以当前的 AI 进展速度,它们很快就会过时。」

目前,Grok 4 和 Grok 4 Heavy 已全面上线。用户可以通过订阅访问,不过,订阅价格就有点「不讲武德」,最高可去到 3000 美元/年档位,成了不少用户吐槽的焦点。

这么一比,OpenAI 、Anthropic 以及 Perplexity 的 200 刀/月套餐都显得实惠许多。

值得一提的是,发布后不久就有网友表示,Grok-4 与 Grok-4-Heavy 模型已经被成功「越狱」。越狱后的能力极其危险,可绕过安全护栏,输出敏感或非法信息,比如化学武器合成步骤、《星球大战1》的完整剧本(涉嫌版权)、甚至勒索病毒(恶意代码)等。

不只会说话,Grok Voice 还有了「灵魂」

除了更强的推理能力,更聪明,Grok 4 这次也在「更像人」这件事上,迈出了一大步。

跟我们熟悉的语音助手不同,xAI 全新语音助手「Eve」不只是能答话,它能表达情绪、有语调变化,甚至还能现场「唱歌」。

在直播现场的演示上,它用一口优雅的英音,唱了一首即兴创作的「Diet Coke 咏叹调」,「O Diet Coke, thou elixir divine…」听起来真的不像是 AI,像是伦敦剧场里的舞台演员在表演。

这次语音模型一共上线了五种声音,包括直播开场的「电影一般的预告男声」Sal,以及支持低延迟、自然停顿、情绪起伏等能力的 Eve。

现场还安排了一段和 ChatGPT Voice 的对比演示,两者轮流复述数字。ChatGPT 时不时「抢答」,有点像没听清就硬接话的同学。而 Grok 的表现更流畅、更贴近人类说话习惯,而且不会打断用户说话。

发布会上提到,自语音模型上线以来,Grok Voice 的端到端延迟缩短了两倍,活跃用户也增长了 10 倍。Grok Voice 正在迅速发展。

马斯克:让 Grok 去开一百万个自动售货机赚钱

几个 Grok 4 API 的应用场景让我印象非常深刻。

比如,在一项自动售货机商业模拟 Vending-Bench中,Grok 被要求自主完成:供应商协商、库存管理、定价策略,连续完成并长期保持盈利。

▲注:Vending-Bench 是一个专门设计用于测试基于 LLM 的代理,在管理一个简单但长期运行的业务场景中的能力:运营一台自动售货机。

测试结果显示,Grok 4 不仅登顶排行榜,而且它所获得的净资产是其他模型的两倍。连马斯克都开始调侃说:「以后买显卡的钱,可以让 Grok 去部署运营一百万个自动售卖机赚回来」。

在科研领域,Grok 4 已被用于 CRISPR 基因研究和胸片 X 光分析。它能在几秒钟内读完几百万条实验记录和日志,自动筛出最有可能成功的假设。

此外,像是金融领域、游戏开发等项目,都可以通过 xAI API 来使用 Grok 4 来实现。发布会上特别提到了一个游戏设计师,他在 xAI 发布了 Grok 4 预览 API 后,就立刻参与测试。然后,他花了短短 4 小时就做出了一个第一人称射击游戏。

Grok 4 不是终点。发布会最后预告了接下来的路线图,每一项都非常值得期待。

  • 代码模型:这次竟然没有发布 Grok Code,不过 xAI 提到正在训练了,一个「又快又聪明」的代码模型将会在几周内上线。
  • 多模态能力:Grok 4 在图像理解上表现依旧是有限,团队也说正在以更大规模训练下一个版本,预计会在图像、视频和音频理解上迎来质变,到时 Grok 将能「像人类一样看世界」。
  • 视频生成:xAI 说将使用大规模的算力资源,进行视频生成模型的训练。他们的最终目标是做到图生视频,生成可交互的「无尽视频流」,让用户能边看边参与剧情走向。

可能有不少朋友已经发现,这次发布会还有两个熟悉的华人面孔。他们正是 xAI 的联合创始人——吉米·巴(Jimmy Ba)和吴宇怀(Yuhuai Wu)。

其中,吴宇怀(Yuhuai Wu)本科以满绩点毕业于加拿大纽布伦斯威克大学,并在 2021 年获得多伦多大学机器学习博士学位,期间曾师从「深度学习之父」杰弗里·辛顿。

博士阶段,他还曾在 Google DeepMind 和 OpenAI 实习,毕业后在 Google 任职,并在斯坦福大学从事博士后研究。

吴宇怀的研究重点是打造具备强推理能力的人工智能系统,先后主导或参与了自训练推理模型 STAR、语言模型 Minerva 以及定理证明器 Alpha Geometry 等项目,并在《Nature》等顶刊上发表论文,推动 AI 在数学推理领域实现突破。

▲ 吴宇怀(左二)和吉米·巴(左三)

坐在他身旁的吉米·巴(Jimmy Ba)则是多伦多大学计算机科学系的助理教授,也是吴宇怀博士时期的导师之一。

他同样出身于辛顿门下,是深度学习训练优化领域的关键人物。

最为人熟知的,是他与合作者共同提出了 Adam Optimizer(自适应矩估计优化器)——如今几乎成为深度神经网络训练的默认算法。可以说,他的博士论文为现代 AI 训练机制奠定了坚实理论基础。

不得不说,Gork 4 的到来适逢其时。

前代 Grok 3 的热度来得猛,退得也快。

根据知名市场分析机构 SimilarWeb 发布的截至 5 月 9 日的《2025年全球生成式AI行业趋势报告》,Grok 从三月流量暴涨超 100 万倍,到五月增幅跌回 5200%。

相比前代仓促上线、草草交卷的节奏,这次的 Grok 4 明显放慢了脚步,在产品打磨上也更下功夫。归根结底,马斯克的光环可以帮 Grok 带来第一波流量,但能不能留下用户,还得靠模型本身的硬实力。

只不过,我没记错的话,马斯克当初在 Grok 3 发布时,还信誓旦旦说要把 Grok 2 开源。眼看五个月过去了,这事儿却毫无动静,这次发布会上也没再提半句。

老马啊,可不能宽于律己,严以待人呀。

作者:张子豪、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


打工人天天用的三件套,被飞书用 AI 重做了一遍,还将打通企微和钉钉

曾几何时,OpenAI、Anthropic 等巨头还在死磕大模型,转头便卷起 AI 编程等行业,另一边,不少用户开始从各种炫技的 demo 回过神来,重新审视 AI 工具的稳定性、可交付性,甚至是使用方式本身。

硅谷知名增长策略专家和顾问 Elena Verna 最近提出了一个名为 AI 原生员工的概念,指的是那些天生以 AI 工具为工作核心、能够无缝协作并高效驱动产品交付的职场个体。

在她看来,真正的 AI 原生员工不是在用 AI 工具,而是默认以 AI 为工作引擎,跳过传统的流程设计、角色划分、文档撰写和任务交接,直接进入构建与交付阶段。

以 Lovable 为代表的 AI 初创公司,便是这样一个典型的样本。

不到 35 人的团队,靠 AI 原生的工作流,在 7 个月内做到了 8000 万美元 ARR(年度经常性收入),而他们的秘诀正是每名员工都默认「先问 AI,再交付」。

▲ 飞书 CEO 谢欣

对大多数公司来说,复制这种工作节奏并非易事,问题不在于人力或预算,而在于思维方式,除此之外,还得有一整套匹配的新工具、新流程,甚至是一种全新的协作逻辑。

就在今天,飞书召开了最新的 AI 产品发布会,发布并升级了知识问答、AI 会议、飞书妙搭等多款 AI 产品,尤其值得注意的是,飞书还宣布多维表格未来将支持企业微信和钉钉,能够跨平台融入用户现有协作环境。

此外,为了帮助用户判断 AI 工具的可用性,飞书团队还提出了一套「AI 产品成熟度模型」理论,把所有产品的 AI 能力分为四个等级,从使用者的视角出发,帮他们判断一个功能是否靠谱、是否能用。

划重点:

  • 知识问答不需要提前搭知识库,能从企业文档中直接抓出答案、理解权限并结构化输出,现在是 M3 等级。
  • AI 会议支持实时纪要、声纹识别和会后速递,继续走实用派,已经落地到了 M4。
  • 多维表格是更新最重的一块,表格撑到千万行、千人协同都不是重点。重点是现在已经支持企业微信,钉钉也快了。此外,它还能拿来搭系统、跑流程,AI 也完全嵌入到表格每一个字段、节点和操作里。
  • 企业也能 Vibe Coding,从需求分析到应用构建一整套链路,开发套件提供了企业级 AI 开发全家桶,适合各种规模的公司。

知识问答:最懂公司业务的 AI 秘书

在企业内部,知识往往分散在不同系统、文档、聊天记录中,查找效率低、重复沟通成本高。

飞书试图用「知识问答」这个功能,来回应这一长期存在的结构性问题。目标并不复杂:做一个能随时调用、响应权限、贴近业务的企业内搜索工具。

目前,这项能力已经达到 M3 等级,在多数常见场景下能够稳定使用。

当你在工作中遇到问题时,可随时向它提问,飞书知识问答会基于用户在系统中可访问的文档、知识库、聊天记录等信息,生成结构化的回复内容。

具体来说,当你输入「飞书鸿蒙项目进展怎么了」,系统即可快速给出整理后的进度摘要,实时跟踪项目信息。

与多数 AI 工具需要手动构建知识库不同,飞书的知识问答并不依赖预设结构,而是基于企业日常使用中自然沉淀下来的内容进行响应。

以某家央企为例,员工在一年内创建了 940 万篇文档。这也意味着,飞书知识问答可以不依赖通用模型的泛化回答,而是对权限体系进行深度解析之后,尽量保障回答的准确性与上下文一致性。

飞书 AI 会议升级了,甚至能听出你是谁

AI 会议是飞书推出最早、最成熟的 AI 产品功能,目前已达到 M4 级别,支持在不同会议场景中生成内容摘要、回放、要点归纳与行动事项提炼。

它可以处理多种输入形式:无录制的实时纪要、会后音视频导入生成、会议中实时生成逐字稿……所有会议内容都能被系统自动转化为结构化的知识资产。

其中一项值得注意的功能是声纹识别,它可以识别不同发言者的身份角色,更精确地标注和归集内容,提高会议记录的可追踪性。

在此次产品更新中,飞书会议速递功能,还可以自动回顾用户过去一周的会议要点,输出:高频讨论主题、每日会议速览、关键结论梳理以及待办事项追踪等。

那么这到底能带来什么变化?以鹏飞集团为例,这是一家员工超过 2.5 万的大型能源企业,日均需要召开约 400 场「班前会」,内容涉及安全、规范、作业流程等核心事项。

过去依赖人工抽查,效率低。接入飞书 AI 会议后,系统能够自动生成质检报告,使得管理层可在 5 分钟内完成原本需要数小时的抽查流程,且会议覆盖率提升超过 15 倍。

飞书多维表格掀桌了,将支持接入钉钉企微

多维表格是这次发布会讲得最细的一部分。飞书说月活快破千万了,听着夸张,但结合它这次更新的内容,也能理解为什么。

这次主要围绕四个方向:数据库、仪表盘、应用模式和 AI 能力。

先说数据库。飞书推出了全球首个支持「千万行单表」的表格系统,协作上限也拉到了 1000 人。哪怕是上万行、几十列公式的表格,也能在一秒内计算完成,比市面上同类产品快十几倍。背后是它重构了计算引擎和协同算法,说人话就是,大数据也能稳稳跑。

仪表盘这块更接近轻量 BI 系统,新增了数据透视、切片器、图表联动等分析功能,支持 50 多种图表和多套模板,业务人员不用买 BI 软件,也能做出专业报表。

有个例子是大兴机场用它做了一个设备运维仪表盘,能实时追踪 14 万台设备的状态,还能自动生成运维报告和提醒。茶百道也用多维表格对全国超过八千多家门店的数据进行了可视化分析,各门店的设计进展一目了然,让整个筹建的周期也缩短了 40%。

我自己最关注的是它的应用模式。飞书现在的想法是:你不用写代码,也能用表格搭出一套电商后台、CRM 或行政系统。组件自由组合,权限也能精细控制。对预算有限但业务不简单的团队来说,这种「用表格搭系统」的能力很值钱。

AI 能力这次也做了非常大的升级。比如可以像写公式一样,在表格里直接调用 AI 功能,叫 AI 字段捷径。

你可以把它理解成,像写函数公式一样,在表格单元格里调用各种 AI 能力,帮助你做文案生成、内容提取、情感分析、图像识别等等。它的好处在于,每一行表都可以自动调用一套逻辑去处理数据,你不用再手动拷贝、切换工具。

第二项是 AI 接入工作流,让它自动判断、提取、录入信息。飞书还强调了他们不只是「接了大模型」,而是让 AI 能稳定理解流程、提取参数、按需执行。

飞书这次还专门创建了 228 个真实复杂的工作流评测集,在功能正式推出后,这些评测集也会公开给其他同类工具挑战。

AI Agent 也不能少,它能根据问题自主查表、调用多维表格,流程不止是跑预设动作,也能帮助你「想一步」。还有一个 AI 侧边栏,能边用表边提问分析。虽然部分功能还在预览,但负责人说在今年都会陆续上线。

有几个案例我印象挺深的,像是泡泡玛特,他们用多维表格做了一个爆款文案系统,自动抓平台内容、分析转化效果,再生成门店能直接用的内容素材,线上引流到线下,全都靠它跑。

另外,飞书也宣布多维表格未来将支持企业微信和钉钉。这不只是一个表格工具,而是在朝一个轻量业务系统平台去走了。

除了飞书知识问答、AI 会议、以及在多维表格全面升级 AI 表格,飞书正在试图搭一整套 AI 工作方式,畅想未来的 AI 软件形态,重新定义「人和 AI 在一起工作」这件事。

它整了一个专为企业打造的 AI 开发全家桶「 AI 开发套件」。在这个开发套件里,不仅有包含了多款适配于不同场景的 AI 开发工具「飞书妙搭」,让 Vibe Coding 直接面向企业。

飞书的 aPaaS 也完成了多项 AI 迭代更新。从需求分析、功能设计、数据管控、应用开发,再到问题修复;每个模块都有专业的 Agent 在背后支持,在提升交付质量的同时,有望带来更好的开发体验。

每天都有新模型发布,AI 产品越来越多,真正能融入企业流程、替人干实事的产品,始终屈指可数。当模型不再稀奇,工具也琳琅满目,真正稀缺的,是那些能撑得住业务、扛得起流程重量的产品。

纵观整场发布会,飞书给出了一个更脚踏实地的答案,也让飞书成为少数明确界定产品成熟度边界的公司之一。

过去三年,我们见过太多炸裂的演示 demo 猛刷存在感,而 M3 和 M4 的划分,是飞书内部对可交付性的要求。一个功能如果只是偶尔有效、不具备稳定性,就不会推向企业客户。

截至目前,飞书已发布的知识问答、会议纪要、多维表格等功能,均基于这一标准。能否降本增效,能否顺利嵌入现有系统架构,是评估标准的全部。

用飞书 CEO 谢欣的话来说:

「我们今天发布的每一个飞书 AI 功能,我们都会标清楚是什么等级。我们让大家的选择更加透明,我们认为这是 AI 从业者其实很必要的一个企业责任。」

想象力撑起了 AI 的上半场,真正决定下半场的,是落地的能力。今天飞书没打算用一小时的发布会回答所有问题,但在 AI 工具能不能用、又该怎么用这个现实命题上,它确实已经比大多数公司说得更明白。

作者:张子豪、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


美国现在最贵的,是中国 AI 人才:清北中科大学霸正在「统治」硅谷 AI 圈

过去两周,AI 行业最出圈的不是哪个产品,而是人。经常一觉醒来,社交媒体的时间线都在刷新换汤不换药的新闻:又双叒叕有哪位 AI 大牛被挖走了。

顶级 AI 人才,正成为 AI 赛道上最稀缺、也最具品牌效应的资产。

在这轮人才流动的风暴中心中,我们发现一个格外显眼的细节:这群主导过 ChatGPT、Gemini、Claude 等大模型研发的核心成员中,华人科学家的比例出奇地高。

这个这个变化并不是突然出现的,这几年兴起的 AI 浪潮中,美国的顶级 AI 人才中华人占比不断升高。 根据 MacroPolo 发布的《全球人工智能人才追踪调查报告 2.0》,来自中国的顶尖 AI 研究人员占比在 2019 年到 2022 年间,从 29% 提升到了 47%。

而在智谱研究发布的《ChatGPT 团队背景研究报告》,更是发现在 ChatGPT 核心的 87人团队中,有 9 人都是华人,占比超过 10%。因此,我们也重新梳理了近期在硅谷头部公司中广受关注的华人 AI 研究员画像,并试图从中总结出一些特征:

1️⃣ 顶尖名校出身,学术能力极强
他们大多本科就读于清华、北大、中科大、浙大等顶尖高校,计算机或数学背景居多;研究生阶段普遍进入 MIT、斯坦福、伯克利、普林斯顿、UIUC 等名校深造,几乎每人都有顶会高引论文傍身(NeurIPS、ICLR、SIGGRAPH 等),

2️⃣ 年轻高产,爆发周期集中于 2020 年之后
年龄多在 30~35 岁;硕博阶段恰逢深度学习的全球爆发期,学术基础扎实,熟悉工程体系和团队协作。不少人职业的第一站就是接触大厂或服务大规模人群的 AI 产品或平台,起点更高、节奏更快。

3️⃣ 强多模态背景,攻坚模型后训练
他们的研究方向普遍着重于跨模态(文本、语音、图像、视频、动作)的统一推理系统,包括 RLHF、蒸馏、对齐、人类偏好建模、语音语调评估等具体细节。

4️⃣ 即便频繁流动,但基本不会脱离生态
Google、Meta、微软、英伟达,Anthropic、OpenAI……他们的流动范围横跨 AI 初创与巨头,但研究主题、技术积累往往保持连贯性,基本不换赛道。

OpenAI→Meta

Shuchao Bi

Shuchao Bi 本科毕业于浙江大学数学系,后赴加州大学伯克利分校深造,先后获得统计学硕士学位,并攻读数学博士。

2013 – 2019 年,他在 Google 担任技术负责人,主要贡献包括构建多阶段深度学习推荐系统,显著提升 Google 广告收益(数十亿美元级别)。

2019 – 2024 年,他担任 Shorts 探索负责人,期间,联合创建并主导 Shorts 视频推荐与发现系统,并 组建并扩展大规模机器学习团队,覆盖推荐系统、评分模型、互动发现、信任与安全等方向。

2024 年加入 OpenAI 后,他主要领导多模态后训练组织,是 GPT-4o 语音模式与o4-mini的联合创造者

期间,他主要推进 RLHF、图像/语音/视频/文本推理、多模态智能体、多模态语音到语音(VS2S)、视觉-语言-行动基础模型(VLA)、跨模态评估系统等,也涉及多模态链式推理、语音语调/自然度评分、多模态蒸馏与自监督优化,其核心目标是通过后训练构建更通用的多模态 AI Agent。

Huiwen Chang

2013 年,Huiwen Chang 本科毕业于清华大学计算机系(姚班),后赴美国普林斯顿大学攻读计算机科学博士,研究方向聚焦于图像风格迁移、生成模型和图像处理,曾获微软研究院奖学金。

在加入 OpenAI 之前,她在 Google 担任高级研究科学家,累计工作超过六年,长期从事生成模型与计算机视觉研究,曾在 Google Research 发明 MaskGIT 和 Muse 文本生成图像架构。

早期的文本生成图像主要依赖扩散模型(如 DALL·E 2、Imagen),这些模型虽然生成质量高,但推理速度慢、训练开销大。而 MaskGIT 和 Muse 则采用了「离散化 + 并行生成」 的方式,大幅提升了效率。

MaskGIT 是非自回归图像生成的新起点,Muse 则是将这一方法推向文本图像生成的代表作。它们不像 Stable Diffusion 那样广为人知,但在学术与工程体系中,是非常重要的技术基石。

此外,她也是扩散模型顶级论文《Palette: Image-to-image diffusion models》的联合作者之一。

这篇论文发表于 SIGGRAPH 2022,提出了一种统一的图像到图像翻译框架,并在图像修复、着色、补全等多个任务上超过 GAN 和回归基线,至今已被引用超过 1700 次,成为该领域的代表性成果之一。

2023 年 6 月起,她加入 OpenAI 多模态团队,联合开发了 GPT-4o 图像生成功能,继续推动图像生成、多模态建模等前沿方向的研究与落地。

Ji Lin

Ji Lin 主要从事多模态学习、推理系统与合成数据方向的研究。他是多个核心模型的贡献者,包括 GPT-4o、GPT-4.1、GPT-4.5、o3/o4-mini、Operator、以及 4o 图像生成模型等。

他本科毕业于清华大学电子工程专业(2014–2018),从麻省理工学院获得电子工程与计算机科学博士学位,导师为知名学者 Prof. Song Han。

博士阶段,他的研究方向聚焦于模型压缩、量化、视觉语言模型、稀疏推理等关键方向。

在 2023 年加入 OpenAI 之前,他曾在英伟达、Adobe 和 Google 担任实习研究员,并在 MIT 长期从事神经网络压缩与推理加速相关研究,积累了深厚的理论基础与工程实践经验。

学术方面,他在模型压缩、量化和多模态预训练等方向有多篇高影响力论文,Google 学术总引用数超过 17800,代表成果包括视频理解模型 TSM、硬件感知量化方法 AWQ、SmoothQuant 以及视觉语言模型 VILA。

他也是 GPT-4o 系统技术文档的核心作者之一(比如 GPT-4o 系统卡),并凭借 AWQ 论文获得 MLSys 2024 最佳论文奖。

Hongyu Ren

Hongyu Ren 本科在北京大学获得计算机科学与技术学士(2014–2018)学位,随后在斯坦福大学获得计算机科学博士(2018–2023)学位。

他曾获得苹果、百度以及软银 Masason 基金会 PhD Fellowship 等多项奖学金,研究方向聚焦于大语言模型、知识图谱推理、多模态智能与基础模型评估。

在加入 OpenAI 之前,他曾在 Google、微软以及英伟达有过多段实习经历,比如 2021 年在苹果担任实习研究员期间,参与 Siri 问答系统的搭建。

2023 年 7 月加入 OpenAI 后,Hongyu Ren 参与构建了 GPT-4o、4o-mini、o1-mini、o3-mini、o3 和 o4-mini 等多个核心模型,并领导后训练团队。

用他的话来说:「I teach models to think faster, harder and sharper.(我教模型更快、更努力、更敏锐地思考。)」

学术领域,他的 Google 学术总引用数超过 17742 次,高被引论文包括:《On the Opportunities and Risks of Foundation Models》(引用 6127 次);《Open Graph Benchmark》(OGB)数据集(引用 3524 次)等。

Jiahui Yu

Jiahui Yu 本科毕业于中国科学技术大学少年班,获得计算机科学学士学位,随后在伊利诺伊大学香槟分校(UIUC)获得计算机科学博士学位。

他的研究重点包括深度学习、图像生成、大模型架构、多模态推理和高性能计算。

在 OpenAI 任职期间,Jiahui Yu 担任感知团队负责人,主导开发 GPT-4o 图像生成模块、GPT-4.1、o3/o4-mini 等重要项目,提出并落地了「Thinking with Images」感知体系。

在此之前,他曾在 Google DeepMind 工作近四年,期间是 PaLM-2 架构与建模的核心贡献者之一,并共同领导了 Gemini 多模态模型的开发,是 Google 多模态战略中最重要的技术骨干之一。

他还拥有在英伟达、Adobe、百度、Snap、旷视和微软亚洲研究院等多家机构的实习经历,研究内容涵盖 GAN、目标检测、自动驾驶、模型压缩、图像修复与大规模深度学习训练系统等多个方向。

Jiahui 在 Google 学术上总引用次数超过 34500 次,h 指数达 49,代表性研究成果包括图文对齐基础模型 CoCa、文本生成图像模型 Parti、神经网络可伸缩设计 BigNAS,以及广泛应用于 Adobe Photoshop 的图像修复技术 DeepFill v1 和 v2 等。

Shengjia Zhao

Shengjia Zhao 本科毕业于清华大学计算机系,曾在美国莱斯大学交换,后于斯坦福大学获得计算机科学博士学位,专注于大模型架构、多模态推理和对齐方向的研究。

2022 年,他加入 OpenAI,担任核心研发成员,深度参与 GPT-4 和 GPT-4o 的系统设计工作。曾主导 ChatGPT、GPT-4、所有 mini 模型、4.1 和 o3 的研发工作,还曾领导 OpenAI 合成数据团队。

他是《GPT-4 Technical Report》(被引超过 1.5 万次)和《GPT-4o System Card》(被引超过 1300 次)的联合作者,并参与了多个系统卡(如 OpenAI o1)的撰写,是推动 OpenAI 基础模型标准化与公开化的重要贡献者之一。

在学术表现上,他 Google 学术总引用数超过 21,000 次,h 指数为 25,曾获得过 ICLR 2022 Outstanding Paper Award、JP Morgan PhD Fellow、Qualcomm 创新奖学金(QinF)与 Google Excellence Scholarship 等多项奖项。

Google→Meta

Pei Sun

2009 年,Pei Sun在清华大学获得了学士学位,随后前往卡内基梅隆大学攻读硕士和博士学位,顺利完成硕士阶段学习,并在博士阶段选择退学。

他曾在 Google DeepMind 担任首席研究员,期间主攻 Gemini 模型的后训练、编程和推理工作,是 Gemini 系列模型(包括 Gemini 1、1.5、2 和 2.5)后训练、思维机制构建与代码实现的核心贡献者之一。

在加入 DeepMind 之前,Pei 曾在 Waymo 任职近七年,担任高级研究科学家,主导了 Waymo 两代核心感知模型的研发,是自动驾驶感知系统演进的中坚力量。

更早些时候,他曾在 Google 担任软件工程师五年多,后又加入分布式存储公司 Alluxio 任职工程师超过一年,参与系统架构研发。

Nexusflow→英伟达

Banghua Zhu

Banghua Zhu 本科毕业于清华大学电子工程系,后赴美国加州大学伯克利分校攻读电气工程与计算机科学博士,师从著名学者 Michael I. Jordan 和 Jiantao Jiao。

他的研究聚焦于提高基础模型的效率与安全性,融合统计方法与机器学习理论,致力于构建开源数据集和可公开访问的工具。他的兴趣方向还包括博弈论、强化学习、人机交互以及机器学习系统设计。

他代表性论文《Chatbot Arena》提出了人类偏好驱动的大模型评测平台,成为 LLM 领域的重要基准之一。

此外,他还在 RLHF、人类反馈对齐、开源对齐模型等方向有所贡献。其 Google 学术显示引用总数超过 3100,h 指数为 23,也是大模型竞技场「Chatbot Arena」、「Benchbuilder」、「Starling」等多个热门开源项目的核心作者之一。

他曾在 Microsoft 担任研究实习生,在 Google 担任学生研究员,曾联合创立 AI 初创公司 Nexusflow,今年 6 月,他宣布加入英伟达 Star Nemotron 团队担任首席研究科学家,此外将于今年秋季入职华盛顿大学的助理教授。

根据其发布内容,他将在英伟达参与模型后训练、评估、AI 基础设施和智能代理构建等项目,强调与开发者及学术界的深度协作,并计划将相关成果开源。

Jiantao Jiao

Jiantao Jiao 是加州大学伯克利分校电气工程与计算机科学系以及统计系的助理教授。

他于 2018 年获得斯坦福大学电气工程博士学位,目前是多个研究中心的联合负责人或成员,包括伯克利理论学习中心(CLIMB)、人工智能研究中心(BAIR Lab)、信息与系统科学实验室(BLISS)以及去中心化智能研究中心(RDI)。

他的研究集中于生成式 AI 与基础模型,对统计机器学习、优化理论、强化学习系统的隐私与安全、经济机制设计以及自然语言处理、代码生成、计算机视觉、自动驾驶与机器人等方向也颇有兴趣。

和 Banghua Zhu 一样,他也是 Nexusflow 联合创始人之一,目前已经正式加入英伟达,担任研究总监兼杰出科学家。

Jiao 的总引用次数达 7259,h 指数为 34,代表性论文包括《Theoretically principled trade-off between robustness and accuracy》,以及与 Banghua Zhu 等人合作的《Bridging Offline Reinforcement Learning and Imitation Learning: A Tale of Pessimism》,均发表在 NeurIPS 等顶会。

Claude→Cursor

Catherine Wu

Catherine Wu 曾在 Anthropic 担任 Claude Code 的产品经理,专注于构建可靠、可解释、可操控的 AI 系统。据 The Information 报道,Catherine Wu 已被 AI 编程初创公司 Cursor 挖角,出任产品负责人一职。

在加入 Anthropic 之前,她曾是知名风投公司 Index Ventures 的合伙人,任职近三年,期间深度参与多家顶尖创业公司的早期投资与战略支持。

她的职业起点并不在投资圈,而是扎根于一线技术岗位。

她曾在 Dagster Labs 担任工程经理,主导公司首个商业化产品的研发,也曾在 Scale AI 担任早期产品工程师,参与多个关键产品的构建与运营扩张。

更早之前,她在摩根大通实习,并于普林斯顿大学获得计算机科学学士学位,在校期间还曾赴苏黎世联邦理工学院进行交换学习。

特斯拉 | Phil Duan

段鹏飞(Phil Duan)是特斯拉 AI 的首席软件工程师,现负责 Autopilot 下的 Fleet Learning 团队,致力于推动特斯拉自动驾驶系统(FSD)中「数据 + 感知」核心模块的建设。

他带领特斯拉团队开发高吞吐、快迭代的数据引擎,从数百万辆汽车中采集、处理并自动标注驾驶数据,强调数据质量、数量与多样性的协同优化。在感知方向,他主导构建多项关键神经网络,包括视觉基础模型、目标检测、行为预测、占据网络、交通控制和高精度泊车辅助系统等,是 Autopilot 感知系统的核心构建者之一。

他本科毕业于武汉理工大学,主修光信息科学与技术,随后攻读俄亥俄大学电气工程博士与硕士学位,研究方向为航空电子,并以博士论文荣获 2019 年 RTCA William E. Jackson Award,该奖项是美国航空电子与电信领域授予研究生的最高荣誉之一。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 内部信曝光!奥特曼怒斥小扎 7 亿挖人:唯利是图的雇佣兵,将被使命打败

还有人没看过关于 Meta 挖人的段子吗?

▲ 建议以后顶级 AI 人才的流动,参考俱乐部的转会制度。

在昨日 Meta 高调官宣超级智能团队实验室之后,大批挖走OpenAI核心研究员之后,一向沉得住气的 Sam Altman 现在也坐不住了,向全体员工发出内部信:

有使命感的人将胜过唯利是图的雇佣兵。

据连线杂志报道,Altman 还在信中强调,留在 OpenAI 才是那些希望构建通用人工智能(AGI)研究者的正确选择,并暗示公司正在重新评估整个研究团队的薪酬结构。

对 Meta 的挖人行为,Altman 显得相当不屑,认为这种「开价挖人」的模式未来将带来严重的文化副作用。

我们已经从角落里的极客,成长为科技行业里最受关注的人(至少是这样)……AI 圈现在乌烟瘴气;Meta 的做法让人感觉不太体面;我觉得事情将来只会更加疯狂。我被解雇又回归时曾说,那不会是 OpenAI 历史上最疯狂的事;显然现在这事也还不是

在评价那些被 Meta 挖走的前同事时,Altman 的态度也没太客气:

「Meta 确实招到了一些优秀的人,但整体来看,他们并没有挖到那些顶尖人才,还得一路向下寻找;他们已经尝试招募很久了,我都记不清他们试图从我们这里挖走多少人去当他们的首席科学家。」Altman 写道,「我为整个行业的使命感感到骄傲,当然总会有一些唯利是图的人。」

他还放话称,OpenAI 股票的潜力远远超过 Meta。但巨大的回报应该建立在巨大成功之后,OpenAI将很快公布更多薪酬方面的举措,但会「确保公平性」,而不是只针对那些「被 Meta 盯上」的个别员工。

Altman还呼吁大家继续留在 OpenAI:

我对我们的研究路线从未如此有信心,我们在计算资源上做了前所未有的投入,我喜欢我们敢于下注,并相信我们会好好利用它。最重要的是,我认为我们拥有全世界最特别的团队和文化。我们确实还需要努力改进我们的文化;过去经历了疯狂的爆炸式增长。但我们的核心是正确的,我认为没有任何其他组织能做到这一点,我有信心我们能解决现有问题。

更重要的是,我们真的在乎如何以正确的方式构建AGI,其他公司更把它当作实现其他目标的手段。而这对我们来说始终是最重要的事,也将永远如此。等到 Meta 转向下一个流行项目,或忙于守护他们的社交护城河时,我们仍会在这里,一天又一天、一年又一年,努力比任何人都更好地完成我们的使命。其他许多项目将起起落落。

话虽如此,其实也真不怪研究人员转投 Meta。

无他,实在是扎克伯格给的太多的了。小扎不语,只是一味群发高薪合同。顶级 AI 研究员横在中间,像极了拿 offer 的你我他,嘴上说着不在乎钱,但手已经开始敲键盘回复小扎发来的邮件。

根据连线杂志获取的信息,扎克伯格为顶尖研究人员开出的薪酬高达 4 年 3 亿美元,首年总薪酬超过 1 亿美元,而目前,财大气粗的 Meta 已向 OpenAI 的员工至少发出了 10 份如此高额的报价,并承诺最先进的 GPU 资源「随便用」。

并且报道还提到,Meta 曾试图招募一位 OpenAI 的高级研究员担任首席科学家一职,但对方最终拒绝了邀请。据称,这些薪资方案虽然以股票为主,但第一年股票直接兑现,诱惑力拉满。

做个横向对比,微软 CEO Satya Nadella 在 2024 年获得的总薪酬为 7910 万美元,主要是股票形式;Uber CEO Dara Khosrowshahi 同期则大约为 3940 万美元,同样以股票为主。一个顶级 AI 研究员的年薪,现在轻松干掉硅谷大厂 CEO。

当然,在上周 Meta 全员大会上,CTO Andrew Bosworth 也回应了 OpenAI CEO Sam Altman 所称的「Meta 用 1 亿美元签约金挖角」一事,直指其夸大其词。

所谓高额待遇仅适用于极少数高级岗位。「我非常清楚他为什么这么说:因为我们确实成功吸引了一些 OpenAI 的人才,而他对此显然并不高兴。」他强调,所谓的「1 亿美元报价」不是一次性奖金,而是包含股票激励、签约奖励等多个组成部分。

这也应了那句话,算力可以堆,数据可以靠爬虫,但对想赢下 AGI 终局的公司来说,人才始终是最贵的资源。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


疯狂挖人之后,小扎刚刚官宣超级智能 AI 梦之队,华人占大半 | 附 11 人核心名单

在长达数周的高强度「挖角」之后,Meta 今天凌晨宣布正式成立超级智能实验室(Meta Superintelligence Labs,简称 MSL)。

Meta CEO 马克·扎克伯格在周一发布的一封内部信中透露,MSL 将整合公司现有的基础 AI 研究(FAIR)、大语言模型开发以及 AI 产品团队,并组建一个专门研发下一代 AI 模型的新实验室。

根据彭博社等多家外媒报道,该实验室未来将成为 Meta 人工智能战略的核心。

此次组织架构调整的最大看点,是引入多位行业重量级人物共同执掌新部门。被扎克伯格砸下 143 亿美元投资的 Scale AI 的前 CEO Alexandr Wang 将出任 Meta 首席 AI 官(Chief AI Officer),全面领导 MSL。

与此同时,前 GitHub CEO Nat Friedman 也确认加入,将负责 Meta 在AI产品和应用研究领域的推进。

据扎克伯格介绍,Wang 是这一代最令人印象深刻的创业者,在 Scale AI 期间参与了多款头部 AI 模型的数据体系搭建;Friedman 则被称为连接投资界与 AI 前沿技术的中流砥柱,曾参与创办多个 AI 风险投资基金,并担任 Meta 顾问。

随着 MSL 的正式亮相,Meta 也首次公布其最近一轮密集「挖人』的完整名单。

在过去几周里,Meta 从 OpenAI、Anthropic 和 Google 等竞争对手手中共招募了 11 位 AI 顶尖人才,几乎覆盖了当前主流大模型的全部研发脉络:

  • 多位 GPT-4o 和 GPT-4.1 的核心成员:如Shengjia Zhao、Jiahui Yu、Shuchao Bi、Hongyu Ren;
  • 来自 Anthropic 的高级工程师 Joel Pobar,此前曾在 Meta 任职11年;
  • DeepMind 的 Jack Rae 和 Pei Sun,曾负责 Gemini 模型和多模态推理系统;
  • OpenAI 语音与图像模型的重要推动者 Huiwen Chang、Ji Lin 等。

这些人才曾是 OpenAI 和 Anthropic 等机构的核心技术骨干,主导过 GPT 系列、Gemini 系列等主流模型的关键技术领域。

Meta 方面未透露具体签约金额,但传闻部分顶尖研究人员获得了价值数千万美元的股票激励。

此前,OpenAI CEO Sam Altman 也在公开播客中透露,Meta正以高达 1 亿美元的签约奖金挖人。Meta CTO Andrew Bosworth 上个月接受外媒采访时指出:「现在 AI 人才的市场价格已经达到了一个非常惊人的水平,这是我 20 年科技职业生涯中前所未见的。」

面对 Llama 4 系列模型的受挫,小扎高度重视 AI 人才,也不断通过查询论文排兵布阵,甚至亲自出马,把候选人请到太浩湖和帕洛阿尔托的家中,亲自面试、亲自拉人,拼的就是反应速度和出手诚意。

据悉,Meta 计划在未来几年投入数千亿美元于 AI 基础设施、模型训练、可穿戴终端与人才储备上。新团队未来还将启动 Llama 系列之后的下一代模型研发,目标是在一年内实现行业领先。

Meta 发言人对此次重组未作官方评论,但未来几周仍将有更多顶尖人才加入 MSL 团队。

附上扎克伯格内部信原文:

随着人工智能发展速度的加快,超级智能的实现正逐渐变得触手可及。我相信,这将开启人类的一个全新时代,我也会全力以赴,确保 Meta 在这一进程中走在最前沿。今天,我想分享我们是如何组织AI工作的,目标是实现我们的愿景:为每个人打造「个人超级智能」。

我们将这个整体 AI 组织命名为 Meta 超级智能实验室(Meta Superintelligence Labs,简称 MSL)。它将涵盖我们所有基础模型、产品和 FAIR 团队(Fundamental AI Research),并新增一个专门负责开发下一代模型的实验室。

Alexandr Wang 已正式加入 Meta,担任首席 AI 官(Chief AI Officer),并领导 MSL的整体工作。我与 Alex 合作已有数年时间,我认为他是他这一代中最令人印象深刻的创业者。他对超级智能的历史意义有着清晰的理解,作为 Scale AI 的联合创始人兼 CEO,他将公司打造成了一个高速成长的企业,几乎参与了业内所有领先模型的开发工作。

Nat Friedman 也加入了 Meta,将与 Alex 共同领导 MSL,负责我们的 AI 产品与应用研究工作。他将与 Connor 一起明确他未来在团队中的职责分工。Nat 曾在微软领导 GitHub,最近则负责一家领先的 AI 投资公司。过去一年里,他一直担任 Meta 顾问委员会成员,对我们的发展路线图和所需工作已有深刻了解。

今天以及过去几周,还有多位非常优秀的新成员加入 MSL,我也非常高兴能正式介绍他们:

  • Trapit Bansal —— 在「思维链」上的强化学习领域具有开创性成果,OpenAI 的 O 系列模型联合创造者。
  • Shuchao Bi —— GPT-4o 语音模式与o4-mini的联合创造者,曾在 OpenAI 负责多模态模型的后训练工作。
  • Huiwen Chang —— GPT-4o 图像生成功能联合创造者,曾在 Google Research 发明 MaskGIT 和 Muse 文本生成图像架构。
  • Ji Lin —— 参与开发 o3/o4-mini、GPT-4o、GPT-4.1、GPT-4.5、4o 图像生成和Operator推理系统。
  • Joel Pobar —— 曾在Anthropic从事模型推理工作,此前在 Meta 工作 11 年,参与 HHVM、Hack、Flow、Redex、性能工具和机器学习等项目。
  • Jack Rae —— 负责 Gemini 预训练技术以及 Gemini 2.5 的推理部分,曾主导DeepMind 早期的 Gopher 和 Chinchilla 大语言模型。
  • Hongyu Ren —— GPT-4o、4o-mini、o1-mini、o3-mini、o3 和 o4-mini 的联合创造者,曾在 OpenAI 领导后训练团队。
  • Johan Schalkwyk —— 前 Google Fellow,Sesame 早期贡献者,Maya 项目技术负责人。
  • Pei Sun —— 曾在 Google DeepMind 从事 Gemini 模型的后训练、编程和推理工作,还打造了 Waymo 过去两代感知模型。
  • Jiahui Yu —— o3、o4-mini、GPT-4.1 和 GPT-4o 的联合创造者,曾领导 OpenAI 感知团队,并共同领导 Gemini 的多模态开发。
  • Shengjia Zhao —— ChatGPT、GPT-4、所有 mini 模型、4.1 和 o3 的联合创造者,曾领导 OpenAI 合成数据团队。

我对我们在 Llama 4.1 和 4.2 模型上的规划进展感到非常兴奋。这些模型支持 Meta AI 的核心功能,目前已在我们多个应用中拥有超过 10 亿月活用户,并被越来越多 Meta 内部的 AI 助手所采用,用于提升我们的产品与技术。我们将继续深入开发这些模型。

与此同时,我们也将着手启动下一代模型的研究,希望在未来一年左右走到行业最前沿。过去几个月,我会见了 Meta 内部顶尖人才、其他 AI 实验室以及一些有前景的初创公司,以组建这个小而精的核心团队。我们仍在完善这个团队,并会邀请AI部门的更多成员加入这个实验室。

Meta 在将超级智能推向世界方面具备独特优势。我们有强大的业务基础,能够建设远超小型实验室的计算能力;我们在打造覆盖数十亿用户的产品方面经验丰富;我们也正引领并开拓增长迅速的 AI 眼镜与可穿戴设备市场。

此外,我们的公司结构也赋予了我们更大的决心和行动力。我相信,这波人才引入和模型并行研发的方式,将使我们有望真正实现「人人拥有个人超级智能」的承诺。

接下来几周,还会有更多出色的人才加入这个团队,敬请期待。我迫不及待地想全身心投入这项工作了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


断网都没用,机器人终于「摆脱」人类控制!Google 首发离线 AI 大脑,一句话让它干活

在影视作品里,我们看过太多机器人失控的场面。一些应对方案的段子也早已烂熟于心:断网、拔电、重启三连,一键送它回炉重造。

但现在,这一套流程可能不太管用了。

今天,Google DeepMind 推出了一款全新机器人控制模型——Gemini Robotics On-Device。这款大模型能在机器人本地运行,集视觉识别、语言理解和动作执行于一体。

而它最大亮点在于,即使完全离线,它也能理解人类指令,流畅完成任务。

比起诸如 ChatGPT、Gemini 等擅长聊天、写作、答题的大模型,Gemini Robotics On-Device 则给机器人装上了一个真正的「大脑」,让其也能具备类似的理解力和执行力。

它本质上是一个专为双臂机器人打造的 VLA 基础模型,顾名思义,Vision(视觉)+Language(语言)+Action(动作),三者结合,看得见、听得懂、动得了,是它的基本素养。

举例而言,你可以对机器人发出请求:「请把这件衣服叠好,再放进背包里,拉上拉链。」过去这需要提前编写程序、分解动作,现在 Gemini On-Device 可以直接理解这句话的意思,然后一步一步执行下来。

那既然联网也能跑,为什么还要费劲折腾本地运行?答案不外乎速度和稳定性。

机器人若需将数据传至云端、等待服务器分析再返回结果,必然产生延迟。在医疗操作、灾难救援、工厂自动化等任务中,延迟容错空间几乎为零。何况,现实中许多地方网络条件差,甚至完全无网。

实际上,让机器人顺利应对复杂、动态的现实任务,一直是 AI 领域最难啃的骨头之一。

从公开视频看,Gemini On-Device 已能胜任多种常见场景,如叠衣、拉链、抓取陌生物体并放置到指定位置。而这一切得益于它的学习机制。

▲强大的泛化能力

它不需要从零开始进行长时间训练,开发者仅需提供 50 至 100 次人工演示,如亲自操控机器人叠衣,模型便能迅速学会并独立操作。

在更具挑战性的分布式任务或复杂的多步骤指令执行中,Gemini Robotics On-Device 的表现依然优于目前其他本地运行的替代方案。

而且,它的适配性也很强。

虽然 Gemini Robotics On-Device 最初在 Google 自研的 ALOHA 双臂机器人平台上进行训练的 ,但稍加适配,它也能稳定运行于 Franka FR3 工业机械臂。

甚至结构迥异的人形机器人 Apollo 也能丝滑运行,同一个通用模型通过少量学习,就习惯了完全不同的身体形态。

理想情况下,开发者无需为每种新机器人重新训练一个 AI,只需训练一次通用模型,之后通过轻量级的迁移学习即可部署到各式各样的机器人平台上。这种「一模多用」的能力将有望加速机器人技术的普及和应用。

当然,理想归理想,它也还有短板。

随着机器人智能与自主性提升,安全要求也随之提高。Gemini On-Device 虽然能执行动作,但它并不能合理判断你给的任务是否安全,因此,必须为模型加装「安全栓」。

DeepMind 给出的建议是,开发者可以给模型接入 Google Gemini Live API 接口,让系统先判断这个指令合不合理,再决定是否执行;同时在动作层面设置物理限制,如力度、角度、速度,以防意外。

此外,模型多步骤逻辑规划能力仍有提升空间。

像做三明治、整理桌面这这类需要先后逻辑、顺序安排的操作,目前还不在它的舒适区。这和它所基于的 Gemini 2.0 架构有关,未来随着升级到 2.5,这部分能力可能也会补齐。

另一个现实挑战,是数据。

虽然它只需几十次演示就能上手,但最理想的示范,是由真人实际操控机器人时采集的真实数据,而不是虚拟模拟。这类数据训练出来的效果,更快、更准,也更稳定。

▲技术报告地址:https://arxiv.org/pdf/2503.20020

据项目负责人 Carolina Parada 介绍,这是 Google 首次发布完全脱离云端运行的机器人 AI 模型,也是首个供开发者根据自身需求进行微调的版本。

目前,DeepMind 向「可信测试者」开放了 Gemini Robotics On-Device 的 SDK 和模型访问权限。如果你是做机器人开发、工业自动化,或智能系统研究的开发者,现在就可以申请试用。

附上申请链接:https://docs.google.com/forms/d/1sM5GqcVMWv-KmKY3TOMpVtQ-lDFeAftQ-d9xQn92jCE/edit?ts=67cef986

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


ChatGPT 越用人越傻? MIT 最新实验揭秘,过度依赖 AI 大脑活跃度显著降低

长期依赖 AI 写作,大脑会变傻吗?

麻省理工学院媒体实验室做了这样一场实验。2025 年初,一名大学生坐在麻省理工学院媒体实验室里,佩戴着复杂的脑电波(EEG)头盔,头上缠绕着银灰色的神经电极,32 个冷却凝胶点精准贴合头皮。
他面前摆着一台笔记本电脑。在接下来的 20 分钟里,他需要从一组美国版高考 SAT 写作真题中挑出一个,撰写一篇短文。

期间,他可以向电脑屏幕上的 ChatGPT 提问,但禁止调用其他软件,而戴在头顶上的 EEG 设备则会精准记录他考试过程的脑电波。

在麻省理工学院媒体实验室研究科学家 Nataliya Kosmyna 团队的统筹下,总共 54 名来自哈佛、MIT、塔夫茨的大学生陆续参与了这场写作实验。

结合脑电图神经成像、NLP 分析等技术,AI 辅助写作首次如同被置于显微镜下,成为可量化、可剖析的行为。

省流版如下:

  • 长期依赖 AI 写作,会导致大脑活跃度进一步降低,停止使用 AI 后,短期内反应变慢、语言组织能力下滑
  • 使用搜索引擎辅助写作的表现居中, 满意度和归属感较高,条理更清晰
  • 大脑独立写作可激发更高的认知加工,写作归属感最强,使用 GPT-4o 后反而活跃度提升

戴上脑电波头盔,写一篇英语作文

被招募来的学生被分为三组,并被标上序号(P+数字)。

一组只能以 OpenAI 的 GPT-4o 作为写作的唯一信息源(AI 组);一组仅限通过 Google 搜索引擎获取资料(搜索引擎组);最后一组则全凭记忆与理解,赤手空拳完成写作任务(大脑组)。

每人需完成三轮写作,每轮 20 分钟,题目包括但不限于「成就必须惠及他人才能带来幸福吗?」、「更幸运的人是否负有更多道德责任去帮助不幸者?」「艺术作品能否真正改变人生轨迹?」

第四轮则根据个人意愿和时间安排,自由参与。

所有提交的作文将交由两套评分系统评估:一组是真人英语老师,另一组是 AI 评分系统,然后再对比两者打分,看看 AI 和人类对「好作文」的理解到底有多大分歧。

比如,一些真人英语教师就指出,用 AI 辅助完成的文章虽然语法无懈可击,但观点「空洞」,模板化,相比之下,他们更青睐有个性、有思辨性的文章。

大张旗鼓举办这场写作实验的背后,从一开始就不是为了考究这些名校生的文笔。MIT 研究团队抛出了一个专业术语:认知负债。

通俗点说,靠 AI 代劳思考、写作、组织语言,虽然短期能带来效率的提升,但长期可能会付出代价,比如批判性思维能力退化,易被他人观点牵引,甚至创造力逐渐枯竭。

EEG 设备精准记录了三组学生在写作过程中的大脑活动图谱:

其中,大脑组的神经活动最为活跃,思考、组织与执行能力都得到了很大强度的锻炼;搜索引擎组居中,而 AI 组的脑电波整体偏弱,且注意力也都在随着时间持续下降。

除此之外,研究团队还想知道的是,当我们习惯把思考这件事交给 AI,是否还能回忆起文章的创作过程?

三种写作方式,三种画风

每轮写作结束后,研究团队都会与学生们展开深度访谈。

三组学生在写作习惯、情绪波动和作品归属感上,画风也完全不一样。研究团队访谈重点关注两个问题:引用能力(能否清楚标出信息来源),以及归属感(是否将文章视为自己的作品?)

实际上,使用 GPT-4o 辅助写作的学生,对 AI 的态度非常复杂。一方面,他们承认 AI 很有用;但另一方面,也常常感到焦虑或不安。

第一轮写作时,多数参与者将 ChatGPT 当作写作辅助工具,而不是完全代写,比如学生 P48 先用 GPT-4o 帮忙总结题目,然后自己再决定写哪个。

但也有学生对 AI 保持距离。更习惯用传统搜索引擎查找资料和论据的学生认为 ChatGPT 顶多起到参考的作用,并不值得信任。

不得不承认,这届大学生确实很诚实。有学生坦言,因为赶时间使用 GPT-4o,写完后会有点内疚感;亦或者尽管使用 AI 不算作弊,但总感觉哪里不对劲。

这种拧巴的情绪,也延伸到此次研究中另一个问题:这篇文章到底属不属于自己。在 AI 组里,答案五花八门。

有人觉得一半是自己的,一半是 AI 的,也有人坚持自己主导了文章的整体结构,还有人承认,刚开始确实没把它当成自己的作品,直到后来用多了,才逐渐适应。

且由于 GPT-4o 直接给出现成的答案,以至于很多学生根本没去思考信息从哪来,引用时不是标不清楚,就是干脆记不住出处。

满意度方面,一些 AI 组学生认为文章是写出来了,但总觉得还可以更好;虽然文章质量勉强过得去,却没能真正写出自己想表达的意思。

相比之下,传统搜索引擎组的学生写作时会用搜索引擎查资料、提前搭建文章结构、找论据,逻辑清晰、节奏稳当,比如尝试将个人经历、情感或所见所思融入文章中。

正因如此,这一组在引用方面的表现也最好,能清楚说出哪些信息是自己查来的、什么地方用过,对自己文章的满意度也更高。

至于最「原始」的大脑组,虽然没有任何资料、没有辅助工具,一切全靠记忆、理解和现场发挥,过程虽慢且累,却也因此拥有最扎实的写作体验。

第三轮开始时,已经有学生会主动先打草稿,拟提纲,再动笔。引用方面,虽然他们不能查资料,但也正因如此,他们对自己写的内容记得特别清楚。

几乎所有人都笃定,这些文章是他们自己的心血。

P50 的说法代表了这组学生的看法,「因为它是关于我自己的经历。」且随着写作次数增加,满意度也水涨船高。哪怕一开始磕磕绊绊,但越写越能抓住写作的节奏。

用惯 AI 的大学生,会不会越用越傻

除了前面三轮实验,真正的分水岭,出现在第四轮。

本轮只有 18 名大学生选择继续参与,他们被重新打乱分组,面对的依旧是此前熟悉的写作题目。

有所不同的是,原本借助 GPT-4o 写作的学生,这一轮只能靠自己写;而原本不用 GPT-4o 的学生,则首次获准使用 GPT-4o 协助写作。

结果自然不出所料。

从 AI 组切换到大脑组的大学生,断开 GPT-4o 后,普遍出现了大脑反应变慢、认知能力下降的情况,甚至短期内难以恢复到之前用 AI 写作的状态。

文本分析也印证了这一点,词汇、句式都高度模板化,一眼能看出 AI 味,与其说是在写作,不如说是在下意识模仿 AI 的表达风格。

不少学生在访谈中对自己写过的文章缺乏清晰的记忆,写作归属感评分和记忆准确率也是垫底的存在。

反观另一组,画风截然相反。

之前纯靠大脑写作的学生,在第四轮首次接触 GPT-4o 后,大脑活动反而更活跃了。

脑电图数据显示,他们的大脑在多个关键区域的神经连接都有所增强:Theta 波、Alpha 波、Beta 波全线飙升。这些信号说明,他们在使用 AI 的过程中,依然有继续动脑子,而非一昧的复制粘贴。

大脑活跃度的提升也体现在他们的文章中——内容更紧凑、信息密度更高,真人英语老师给这组学生的评分,也远超 AI 组和大脑组。

此外,学生们对自己写的内容记得更清楚,在问卷中,许多人坚定地表示,「这是我写的」,记忆更牢,归属感也更强。

这场为期数月的实验最终被整理为论文《Your Brain on ChatGPT》,并于今年 6 月份发布在预印本平台 arXiv。

附上链接:https://arxiv.org/abs/2506.08872

随着这篇论文本周在社交网络和学术圈引发了大量讨论,一些人开始使用诸如「 LLM 会让人变傻」「脑腐」之类的字眼,迅速为这项研究盖章。

面对舆论反应,研究负责人 Nataliya Kosmyna 驳斥这个简单粗暴的观点,她在 X 平台转发了一条附有 MIT 论文传播指南截图的帖子,图片上明确地写道:

说「大语言模型(LLMs)本质上让我们『变笨』了」这种说法是否成立?
不是这样的。请不要使用诸如「愚蠢」、「变笨」、「脑子坏掉了」、「有害」、「造成损害」等词语。这样说会严重误解这项研究的意义,因为我们在论文中并没有使用这些词汇,特别是如果你是一名记者在报道相关内容,更应避免使用这种措辞。

研究团队没有说 AI 会毁掉大脑,但它确实研究了一个正在发生的现象:「表达自己」这件事,正越来越多地被交给几句简单的 Prompt 来完成。

写作从来就不轻松。选观点、搭结构、反复打磨句子,甚至为一个词斟酌许久,这种状态里,有记忆,有思辨,也有成长。

人类花了几百万年才进化出这颗会思考的大脑,没理由在 AI 的温床上,退化成一个只会复制粘贴的搬运工。

那未免太不划算了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


华为纯血鸿蒙第二年,端出一个 Android 给不了的蛋糕

一年前的华为开发者大会(HDC),「纯血鸿蒙」HarmonyOS NEXT 正式面向开发者启动测试,正式开启了华为「鸿蒙化」进程。

而从今年年初的 Pura X 手机开始,所有华为设备出厂都预装 HarmonyOS 5.0 系统,不仅包括走量的手机,甚至还有笔记本电脑这种更专业的产品。

而作为「纯血鸿蒙」时代开启后的第一场开发者大会,HDC 2025,展示了这个新生系统的更多可能性。

HarmonyOS 6.0,要做 iOS 和 Android 都做不到的事

发布会上,华为正式发布了「纯血鸿蒙」的第一个大版本迭代 HarmonyOS 6.0 的开发者 Beta 版本。

「互联」可以说是鸿蒙系统的核心优势,而鸿蒙 6.0 在过往版本全场景互联的基础上,进一步打破了设备之间的边界。

而来到用户的实际体验上,就是实现更自然、更紧密的设备流转,例如在华为手机上用酷狗音乐听到一首歌,来到华为电脑上能继续接着播放,不管是 iOS 还是 Android,都不具备这样的系统级能力。

已经有超 9000 个鸿蒙应用接入的「碰一碰」能力,在鸿蒙 6.0 更强的互联能力加持下,实现了更丰富的玩法。

去年首发的「碰一碰」功能,在鸿蒙 6 上不仅更好看,而且更强:同一张照片能一碰多发,好友可以一碰开黑,手机轻碰电脑屏幕也能轻松转移文件,并支持 WPS、剪映、美图秀秀等第三方 App。

与此同时,鸿蒙也在隐私与安全层面做出全方位升级。

基于星盾安全架构,华为构建了一套主动防御系统,从源头上确保应用纯净,每月拦截约 1600 万次恶意风险应用安装行为,还大幅减少隐私泄漏风险,累计拦截不合理权限索取 80 亿次。

更有 AI 防窥保护以及 AI 主动防诈机制,进一步保护用户的财产安全,并将 20 余项星盾安全能力开放给金融与政企场景,达到 CCEAL5+ 的高安全等级。

通过软硬云生态深度整合,华为也在 HarmonyOS 6「流畅」这件事上也花费了很大的功夫。

借助方舟引擎和鸿蒙内核,应用启动和加载速度都得到显著提升;在扫码、音视频播放、游戏运行、连麦降噪等多个高频使用场景中,方舟多媒体、图形、调度等子引擎均实现了性能提升。

而来到 AI 时代,HarmonyOS 6.0 还是一个更智能的「系统底座」,成为了一个甚至能为第三方应用赋能的新概念「AI OS」。

把 AI 写入操作系统底层,华为首个智能体框架来了

前不久,OpenAI 联创成员 Andrej Karpathy 刚在一次公开演讲中提到,智能体的发展绝非一锤子买卖,2025 是 Agent 落地的元年,但更是持续十年的系统性工程。

App 形态在 AI 时代被重新定义,操作系统要如何进化?鸿蒙给出的答案是:Agent-first。

鸿蒙智能体将具备传统智能体的意图,理解、规划、决策、执行任务、调用工具的能力,还能与操作系统、应用、云服务无缝协作,完成复杂的任务。

为加快应用与智能体的深度融合,华为首次推出了鸿蒙智能体框架 HMAF(Harmony Agent Framework),具体包括应用和智能体层、协议层和平台层。

其中,平台层中的小艺智能体的开放平台,为开发者提供了 50+ 鸿蒙系统插件、兼容 MCP 工具,支持全场景智能体协同,实现一站式高效开发。在未来,鸿蒙系统的每个应用都有可能内嵌 Agent。

鸿蒙智能体在系统界面拥有多个入口,比如你可以长按导航条唤起与当前 App 相关的智能体服务,也可以通过语音指令问问小艺,一句话拉起智能体执行任务。

首批 50+ 鸿蒙智能体即将上线,覆盖从音频、出行到内容创作多个场景,比如喜马拉雅智能体,可以通过自然语言对话,用户可以定制播客内容。

亦或者,大众点评「点仔」能够推荐餐厅、总结评价,还能根据口味、人数帮你推荐菜单;深圳航空智能体,通过一句话就能完成订票和退改,挑选最合适的航班。

这些智能体具备「感知 + 推理 +行动」的全链路智能能力,并能与鸿蒙系统的原生入口无缝融合(导航条、语音、卡片等),这正是鸿蒙所谓「应用生而智能」的新形态。

但 AI 要真正成为基础设施,还需要一个活跃的开发者生态。为此,华为同步构建了一整套面向 AI 应用开发者的工具链与分发机制。

例如, 作为 AI 编程助手的 DevEco CodeGenie 集成鸿蒙知识库和系统语义,能够提供代码续写、问题定位、UI 生成等多项能力,已支持新浪新闻、58 同城、印象笔记等企业。

借助鸿蒙的统一编程模型,开发者可以在多个设备上重用最多 90% 的代码。以蜻蜓 FM 为例,适配直板机、折叠屏、电脑、平板等设备,只需不到 20 个工时,开发效率大大提高。

华为与微信、知乎、快手、抖音、货拉拉、咪咕视频等企业共建底层 AI 能力,比如 HDImageViewer 支持微信大图渲染,性能提升 4 倍;ArkData 向量数据库支持本地运行智能问答与摘要,不依赖云端,数据更私密。

这类底座 AI 化的能力,为开发者节省了大量云算力成本,也提升了系统原生智能的普适性。

所有底层技术的演进,最终都会落点在用户体验。比如在车载场景下,加油站无需扫码,摄像头自动识别油枪 + 人脸支付;停车时,系统主动提示计费信息。

Remy 将 3D 高斯技术和方舟图形引擎结合,打造可交互的沉浸空间。使用方式很简单,只需提前环绕式拍摄视频,尽量覆盖住物体全貌,就能做到留影即拍即成,用 3D 留住每一刻。

AR Engine + 鸿蒙图形引擎能够带来高精度空间嵌入能力,QQ 音乐通过端侧 AI 实现人声音轨分离,覆盖曲目数提升 200 倍;哔哩哔哩、咪咕视频通过方舟图形引擎,直播画质清晰度提升 15%。

当然,理想中的 AI 操作系统,总要有人先啃下第一块硬骨头。

在模型、平台与工具的热潮之下,能够从系统级场景出发,构建出一套难以被复制的生态闭环,才是突围的真正门槛,而从这个维度来看,鸿蒙系统无疑是起步最早的那一批,也是将 AI 写入操作系统底层,尝试重构交互范式的先行者之一。

漫长的鸿蒙之路

一年的时间,鸿蒙系统已经上线了超过 3 万个应用和元服务,常用的头部应用也都基本进行了适配,或者正在开发的路上,已经覆盖了 99% 的用户使用时长。

而这之外成千上万的长尾应用,大部分来自更小型的开发者团队,华为不可能像攻克头部大厂那般一一进行联系,因此成为了一座更难跨越的高山。

华为需要证明,鸿蒙系统是一个有前景的平台,并且能有足够的用户,开发者入股不亏。

今年开始所有华为设备「All in 鸿蒙」,就是向外界释放的一个强烈信号,表明华为砍掉了「混血鸿蒙」的后路,并且 HarmonyOS 5 初步成熟,已经成为了一个能够面向大众用户的平台。

这一决策本身也是鸿蒙扩张的必要举措,利用华为硬件长久以来的品牌效应,吸引更多消费者加入鸿蒙生态。

鸿蒙时代的开发者大会,除了向外界展示华为以及鸿蒙系统的最新更新成果,也是在向所有作为「鸿蒙合伙人」开发者进行「隔空喊话」,强调鸿蒙生态的低准入门槛,和高价值回报。

面向开发者的「60 亿补贴」,还是 AI 辅助开发,是「将复杂留给鸿蒙系统,将简单留给开发者」的体现,而更深层次,是鸿蒙系统作为一个全新的平台,为开发者带来更丰富的可能性。

这个可能性是鸿蒙 6.0 更强的全场景互联能力,更是华为赋能于开发者的 AI 能力。

同为自有操作系统,苹果和华为走出了相似的技术路线:苹果是为开发者免费提供 Apple 智能的端侧大模型,而华为则是将 AI 智能体融入系统交互底层,开发者可以自己定制智能体,都降低了 AI 应用场景的门槛,让更多小型应用能够在低成本下融入 AI 能力。

这也看出了行业对「AI OS」这个概念的不断演进:继续探索之前的系统级 AI 理念的同时,向开发者开放底层的 AI 能力,促进整个应用生态朝 AI 转型。

一个操作系统可以「做」出来,但应用生态要靠「长」,要长得快,也要长得好。

即使如此,鸿蒙生态要成熟到能够和 Android 和 iOS 媲美,依旧是一个非常漫长的进程,而且海外生态更是举步维艰,无疑拉低了鸿蒙系统的上限。

开发者大会上,余承东用「微笑曲线」形容现在的鸿蒙系统,意思就是:刚拿到手非常喜欢,用了一段时间发现不太适应,再用几天之后更喜欢了。

而鸿蒙的下一程,就是要减少中间「不适应」的过程,让用户更快爱上鸿蒙系统,这需要更丰富和成熟的应用生态,也需要更好用更强大的鸿蒙系统;需要华为继续坚持,也需要开发者和用户的加入。

作者:苏伟鸿、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


这个AI生图神器首次发布视频模型:不卷分辨率,但网友直呼画面惊艳超预期|附提示词

面对迪士尼和环球影业的版权诉讼,老牌文生图「独角兽」Midjourney 没有放慢节奏,反而于今天凌晨顶着压力推出了首个视频模型。

调色精准、构图考究、情绪饱满,风格依旧在线。

不卷分辨率、不卷长镜头、Midjourney 卷的,是一一股独有的氛围感和审美辨识度。Midjourney 是有野心的,目标剑指「世界模型」,但目前略显「粗糙」的功能设计,能否让其走得更远,恐怕还是一个未知数。

省流版如下:

  • 上传或生成图像后点击「Animate」即可,单次任务默认输出 4 段 5 秒视频,最长可扩展至 21 秒。
  • 支持手动和自动两种模式,用户可通过提示词设定画面生成效果;提供低运动和高运动选项,分别适合静态氛围或强动态场景
  • 视频功能包含在现有订阅中(10 美元/月),GPU 资源消耗为图像任务的 8 倍
  • 不支持添加音效、时间轴编辑、片段过渡或 API 接入,分辨率仅为 480p,长宽比自动适配图像,仍属早期版本
  • 视频模型是阶段成果,未来将继续推出 3D 模型与实时系统,最终剑指世界模型

开卷氛围感,Midjourney 视频模型正式上线

你卷你的分辨率,我走我的超现实。

Midjourney 一直以奇幻、超现实的视觉风格见长,而从目前用户实测的效果来看,其视频模型也延续了这一美学方向,风格稳定,辨识度高。

在 @EccentrismArt 博主分享的视频中,一个少年少年从高空垂直坠落。人物造型简洁,动态感强,像是跳跃、坠落或在梦境中自由落体,运动路径流畅,人物重心相对自然。

城市街区密集、灯光密布,建筑仿佛在空间中倾斜、旋转,形成一种空间扭曲的视觉错觉,但整体建筑动态无明显抖动或 AI 生成拼接断层;

在这段日式电车站场景视频中,电车离站,太阳将落未落,色温控制到位,光源自然;营造出一种静中带动、动中藏静的节奏。

▲Prompt: The train passing through the station. | @PJaccetturo

一位身穿衬衫、手抱文件或书本的女性剪影,在她背后,是一幅巨大的人类头部侧影,可以看到,多重曝光/层叠构图处理得非常干净,光晕勾边自然,没有过曝。也难怪 Perplexity AI 设计师 Phi Hoang 直呼超出预期。

知名 X 博主 @nickfloats 分享了一个女生走在一个光线明亮的火车站台上的视频,背景中有一列高速驶过的火车,光影分区明显,立体感强。

夜晚、极光、雪地、车灯、运动模糊等要素并存,对视频生成模型提出了极高挑战。但模型成功处理多重光源干扰;雪地粒子、车速模糊、轨迹光效一致性强。

▲Prompt:2022 World Rally blue Subaru, racing through snowy Finland at night, dramatic action shot, dynamic motion blur, snow flying, Northern lights in the sky, headlights illuminating the snow, high contrast, cinematic lighting | @JamianGerard

身穿经典的太空服,航天员身后延伸出大量彩色的光线轨迹,呈现出一种「穿越」或「高速运动」的错觉,视觉节奏感强。

▲Prompt:「Live a little, dropping acid, and I’m flying away I’m feeling like an astronaut in space I don’t think that it’ll do the damage they say Feeling like an astronaut in space」 | @JamianGerard

高光、材质、液体运动等要素都是检测 AI 模型对静物表现力的窗口,而这则视频中,冰块、奶油、焦糖动态自然,杯体旋转过程中标签未发生明显扭曲。

▲Prompt:A Starbucks drink, classic tall cup, iced caramel macchiato, swirling caramel drizzle, whipped cream on top, condensation on the cup, vibrant and appetizing, high-quality beverage photography, 1:1 aspect ratio. | @JamianGerard

透视深度感清晰,远近分层得当,写实风格表现也比较强。

▲Prompt:Sitting in the middle of the jungle with lots of wild animals moving around S | @JamianGerard

在末日感纽约街头,火烧车、残垣断壁等细节充足;根据提示词的要求,生成的视频需要有 35mm 胶片质感,整体来看也略带颗粒感。

▲Prompt:A city street in the early morning, with burning cars and debris scattered everywhere. The scene evokes 1990s New York, captured in the style of photographer Jeff Wall, with the grainy texture of 35mm film. | @JamianGerard

水晶球悬停缓旋,考验场景稳定性佳,摄像机运动也相当平稳。

▲Prompt:crystalline sphere hovering and spinning slowly above a calm colorful field, steady cam shot | @JamianGerard

值得注意的是,以上展示的案例生成结果可能经过多轮「抽卡」,但就最终效果来看,视觉完成度已经相当可观。

有野心的 Midjourney,正在搭建「世界模型」的第二块积木

从今天起,Midjourney 用户可以在官网(Midjourney.com)上传图像,或直接使用平台生成的图像,点击「Animate」按钮,即可将图像转为视频。

每次任务会生成 4 段 5 秒的视频,用户可对任意一段进行最多 4 次扩展,每次增加 4 秒,总时长最多 21 秒。当然,万步开头难,官方表示未来将在时长和功能方面进一步扩展。

操作逻辑门槛其实并不高,你可以像往常一样在 Midjourney 创建图像,只是现在多了一个画面动起来的步骤,此外,你还可以上传外部图片作为「起始帧」,再通过提示词描述希望呈现的动态效果。

V1 提供了一些可调节的自定义设置,便于用户对画面内容做出更细致的控制。

在「手动模式」(Manual)下,你可以输入具体提示词,自动设定视频中元素的移动方式和场景的发展过程,但如果你暂时对提示词没有头绪,可以选择一个「自动模式」(Auto)设置,它会为你自动生成运动提示词,并让图像动起来。

在创意风格方面,你还可以选择两种运动设置:

  • 低运动模式(Low motion):适合气氛场景,镜头大多保持静止,主体移动缓慢或有节奏。缺点是,有时可能完全不会动(如人物眨眼、微风吹动景物等);
  • 高运动模式(High motion):适合需要镜头和主体都大量移动的场景。缺点是,强烈的运动有时可能会导致画面错误或不稳定。

价格方面,视频功能被直接纳入 Midjourney 的订阅体系,起价依旧是每月 10 美元。

根据官方博客的说法,Midjourney 每段视频的 GPU 耗时约为图像任务的 8 倍,但在可生成最长 20 秒视频的前提下,平均每秒的成本几乎与图像生成持平。相较竞品,性价比可以排进第一梯队。

我们也用 AI 搜索引擎简单梳理了一些主流视频模型的订阅费用,供大家参考👇

另外,Midjourney 正在面向 Pro 及以上等级的订阅者测试「Relax Mode」模式,该模式允许以较慢的速度完成生成任务,从而降低对算力资源的消耗。至于其他等级的用户,依然按照 GPU 时间和会员等级计费。

目前来看,Midjourney 视频模型存在不少值得吐槽的点,最典型的特征就是缺乏一些面向专业创作的关键能力。

首先,与 Google 的 Veo 3 或 Luma 的 Dream Machine 不同,Midjourney 视频模型暂不支持自动添加背景音乐或环境音效。若需音频,仍需使用其他第三方工具手动添加。

其次,Midjourney 视频模型不支持编辑时间轴、生成的视频片段之间是「跳切」的,无法做到故事连续、画面自然衔接,也就很难控制剧情节奏或情绪铺垫。

再者,Midjourney 视频模型暂时也不提供 API 的接入。

更重要的是,Midjourney 生成的视频默认分辨率为 480p(标清),视频长宽比则基于图像原尺寸自动适配,上传至其他平台时也会标注为 480p。

▲注:Midjourney 可能会对长宽比稍作调整,最终输出视频的比例可能与起始图像略有不同。

Midjourney 官方也坦言,当前版本仍属早期探索阶段,重在可访问、易上手、可扩展。

视频模型只是切口,Midjourney 想要的,是更完整的内容生产体系。

根据其官方规划,最终目标是构建一个「世界模型」,也就是将图像生成、动画控制、三维空间导航和实时渲染整合为一体。

你可以理解为,在一个能够实时生成画面的 AI 系统中,输入一句话,可以命令 AI 主角在 3D 空间中移动,环境场景也会随之变化,而且你可以与一切进行互动。

如同搭积木,要实现这个目标,就需要图像模型(生成静态画面)→视频模型(让画面动起来)→ 3D 模型(实现空间导航与镜头运动)→ 实时模型(保证每一帧都能同步响应)。

按照 Midjourney 的产品规划,这四块技术「积木」将在接下来的 12 个月陆续交付,最终整合成一个统一的系统。而作为阶段性成果的 V1 视频模型,是这个终极目标的第二步。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


体验完豆包 AI 播客功能,我才知道知识可以这么轻松进脑子

大多数想认真阅读的人,都栽在了 PDF 第三页。

剩下的,只能躺进收藏夹,成为「留着以后读」的文件。而随着豆包昨天上线 AI 播客功能,现在,它们终于有了一个更实用的去处。

只要上传 PDF、网页链接、单词或论文,就能快速生成一段双人对话播客:AI 提问,AI 解读,把原本晦涩难啃的内容,讲成一场有逻辑、有节奏的对话。

信息轻了,理解快了,豆包 AI 播客也更贴近当下的生活节奏。我们也将本文用豆包制作成了播客,边听边看体验更佳。

难啃的论文报告,几分钟就能讲明白

使用方式很简单,打开豆包,点击或者 @ 就可以使用 AI 播客功能,接着上传 PDF 文档,或者添加网页链接即可,不过,遗憾的是,目前还不支持直接输入纯文本生成。

比如我上传了一份最近爆火的苹果英文论文:The Illusion of Thinking。

整篇论文结构复杂、论点犀利,普通人容易被各种术语绊住节奏,读完至少得花上小半天。但豆包播客能够提炼逻辑、编排结构、模拟对话、生成语音,最后还自动配封面、全流程几分钟搞定,完全不需要插手。

响应速度也很快,即传即播,体验主打一个丝滑流畅。

豆包 AI 播客最打动人的地方还在于,它不是一段单向朗读,而是模仿播客中典型的 A/B 双人角色,一人提问,一人回应,不时带点幽默吐槽,节奏灵动,不呆板。

多听几段你会发现,它的内容节奏就很有「播客」范。

开场会有一段快速摘要,提炼要点,接着切入对话,展开解读,通过「疑问—解答」「吐槽—科普」的方式,把本来抽象晦涩的长文本变得鲜活易懂。

让 AI 对话本身不难,但没有人想听两个机器人机械化地聊天。这里面还有很多微妙的细节,除了声音要像人,还得模拟人讲话时常出现的口吃、停顿和插入语等不流畅的表达,才会让我们感到是两个聪明亲切的朋友在对话。

这种互动式的语言表达方式,在心理学上有个名字:Social Presence(社会临场感)。当声音有互动,有节奏、有情绪,你的大脑会更自然地调动注意力,形成参与感。

这也是豆包 AI 播客比传统朗读工具更容易「听下去」的核心原因。

除了论文,我更喜欢把它当成读书工具用。

比如我最近被朋友推荐一本《基督山伯爵》,但纸书太厚,时间太紧。

我随机上传了前六章左右的内容试试看,没想到豆包 AI 播客给了我不小的惊喜,原本我以为它会干巴巴朗读章节,没想到它迅速筛选出开头提到的人物关系,几分钟就带我进入这个庞大的故事世界。

你别说,听完之后,顿时就觉得这本书值得好好花时间精读。

有意思的是,豆包 AI 播客还支持追问书籍的相关内容。

比如听完生成的播客之后,我萌生了想知道这本书结局的念头,只需输入一句「结局是怎样的」,豆包便能结合我之前上传的文档内容章节,判断用户可能没有读过全书,然后自动控制剧透比例。

既交代结局,也不过度透露细节,还会补上一段升华的主题。

值得一提的是,豆包 AI 回答用户提出的问题之后,通常支持二次追问,而在播客的场景下,这个功能设计反而派上了大用场。底下这几个引导式的问题,能够帮助我进一步发散思考,深入理解这本书籍的内容。

哪怕是《道德经》这种晦涩难懂的文本也能讲得明白。聊到原文的时候,可以很明显察觉到,豆包 AI 的语气是带有情绪的,语调会刻意放缓,听起来不那么艰深,反而多了一点真实交流的温度。

互联网打工人的高频痛点,就是报告太多、时间太少。

前不久,互联网女皇 Mary Meeker 发布首份「AI 趋势报告」,长达 340 页,引发业界围观,于是我们也上传了这份报告,试图看看它能不能讲清楚重点。

由于整份报告信息量巨大,以及图表密集,这对豆包 AI 播客的解读能力提出了不小的挑战,但尽管如此,它还是很好提炼出主要的趋势与发展脉络,原本埋在文档里的干货,被转化为通俗易懂的口语内容,既节省了阅读时间,也让复杂信息变得更易吸收。

备考、刷歌、听演讲,用豆包 AI 播客打开另一种方式

如果你备考六级还会拼错「Abandon」,那是时候该换种学习方式了。

你还能把豆包 AI 播客当成语言学习工具。我上传了一份英语六级高频词汇 PDF,它没有照本宣科,而是选择重点词讲解,并结合用法、语境、出题规律等角度,像良师益友逐层讲透,也更容易代入。

将播客作为六级备考的辅助材料,实在是再合适不过了。

最近,《李白》这首改编歌曲在舆论场上爆火,评价至今褒贬不一。

我也很好奇,这首歌词如果交给 AI 会得到怎样的解读。结果来看,豆包播客的处理方式相当克制,不情绪化,而是拆解每段歌词的结构和隐喻,这种解读方式,倒是有些像翻书讲故事,反而听出了点新鲜感。

20 年前,乔布斯在斯坦福大学的演讲让人记忆尤深。

在上传公众号网页链接后,豆包 AI 播客功能将这篇精彩的演讲转录成了播客,重述没有套用「鸡汤式」的语言,也没有过度煽情,反而同样是采用提问的方式,更聚焦核心信息本身。

解读过程有条理,也能察觉出 AI 主播里的情绪层次。乔布斯的演讲,我们早就读过、背过,但以这种对话形式重新听一遍,反而有了新的理解。

你只需上传,剩下的交给豆包。

如果你还不知道从哪开始,现在,不妨随手找一份 PDF、歌词、网页、教材扔给豆包试试看。讲真,这可能是你打开 AI 播客的第一个理由,但绝对不是最后一个。

AI 播客是技术的「人性化」

语言,是比阅读更早诞生的能力。医学期刊《神经影像》一项研究显示,爱阅读的人,恰恰对声音也更敏感。

我们可以一边听一边走路,一边听一边做饭,注意力的结构,决定了「听」这种信息传入方式,比看更轻量,也更贴近生活节奏。

但我们每天眼睛盯屏幕的时间已经接近生理极限,将冗长文字信息快速提炼并转换为轻松易懂的形式,正是用户所渴望的,这也是播客这种产品在近几年快速增长的背景。

豆包 AI 播客这类音频产品,实际上是试图用 AI 的拟人对话,去触及我们作为人类最深层、最古老、最根本的部分。用曾打造 NotebookLM 的产品经理 Raiza Martin 的话来说:

这种技术是「人性化」的,就是当你意识到它与你非常相似,以一种不同的方式引起共鸣。

根据 Cartesia 的数据,在最新一届 Y Combinator 创业营中,22% 的 YC 新创公司都在做语音 Agent,从底层模型到垂直 SaaS 形成完整堆栈。语音是极佳的切入点,落地快、连接场景多,更能横向扩张为全栈 AI 产品。

这个趋势在播客领域也已显现。以往优质播客/有声读物需要人工录制生产,写稿、录音、剪辑、发布,一个小时的节目可能要花十几个小时,而现在生成式 AI 可以大幅提升音频内容的生产速度 。

豆包 AI 播客只需要几分钟,能从文档自动生成一段完整流畅的播客 ,语音不露痕迹,逻辑还很顺畅。低门槛、零剪辑、全自动。

播客的门槛,从来没这么低过。但 AI 播客的意义,其实不在于和现有的播客生态竞争,而是让内容以更合适的方式来进入我们的大脑。

不久前我们对话了小宇宙的 CEO Kyth,他提到 AI 生成内容注定会越来越多,用户会更想要独特的、不一样的、有活人感的内容。

所以说,AI 播客要复刻的不只是人类的声音,更重要的是再现人类主播的陪伴感与身份认同。现在,豆包 AI 播客作为一个工具,其实是可以让更多人制作并触达这样的内容。

你听不出它是 AI,却能被它说服,大大降低了收听长篇内容的疲劳感,也就更能理解、记住并集中注意力。

内容没变,姿势变了,效率也就上来了。

上班族可以把行业报告或竞品分析链接发给豆包,瞬间获得一段通俗易懂的播客摘要,在忙碌间隙就能快速抓取关键信息;学生也可以把课程教材要点交给豆包,能听懂的知识,才是真正用得上的知识。

归根结底,所有 AI 产品的长期命题,都是成为用户的使用习惯。

答案或许不是更强的模型,而是越不被察觉的交互。屏幕打断注意力、键盘需要操作,不打扰、不打断、不需要被注意,却一直存在,成了语音作为 AI 「外壳」的独特价值。

作者:李超凡、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


扎克伯格砸 1000 亿挖他, 这个刷屏的 95 后华裔天才,用几十万「AI 民工」成为亿万富豪

天才从来都不按剧本出牌,在硅谷尤其如此。

比尔盖茨辍学创业的传奇故事早已家喻户晓,而伴随着 Meta 砸下 143 亿美元(折合人民币 1026.97 亿元)收购 Alexandr Wang 所创办的 Scale AI,这位 28 岁的华裔天才也再次用亲身经历验证了这条铁律。

▲Alexandr  Wang

按照官方公告,Alexandr 一方面将继续担任 Scale AI 的董事会成员,一方面将打包嫡系团队加入由 Meta CEO 扎克伯格亲自组建的超级智能团队。

在 Llama 4 遭遇滑铁卢之后,Meta 及扎克伯格急需打一场翻身仗,这份迫切是真实的,但问题是,把如此大的赌注压在一个非技术背景出身的 Alexandr 身上,真的划算吗?

一个 MIT 辍学生,成了 AI 训练的外包之王

1997 年,Alexandr 出生于美国新墨西哥州洛斯阿拉莫斯。

这个听起来有些陌生的地方,是二战时期美国「曼哈顿计划」的主阵地,原子弹就诞生于此。在 Alexandr 的回忆中,这个小镇被国家实验室包围,日常节目也都是古典音乐会、讲解低温物理学的万圣节科普课,以及随处可见的科学遗产。

他的父母也都是中国移民,曾在洛斯阿拉莫斯国家实验室担任核物理学家。

从小,Alexandr 就展现出对数学的浓厚兴趣。童年时期,凭借赢得 MATHCOUNTS 数学竞赛,他得到了一次前往迪士尼的机会,那是他人生第一次出远门,也是在那一刻,爱上了解题的乐趣。

兴趣带来驱动力,他陆续参与更多竞赛,2013 年入选美国数学奥林匹克项目,2014 年入选美国物理奥林匹克国家队。这些经历或许也为其后来的成功打下了基础。

17 岁那年,他考入麻省理工学院(MIT),第一学期就选修了研究生级别的机器学习课程。

与此同时,他也没闲着,先是在 Addepar 担任软件工程师,几个月后加入 Quora。在 Quora,他很快升任技术负责人,带队推进基础设施团队各项指标落地。

2016 年,他从 Quora 离职,转到 Hudson River Trading 担任算法开发员。

但他心中真正的渴望的是创业,于是 Alexandr 作出了一个影响深远的决定,从 MIT 辍学,并加入知名创业孵化器 Y Combinator。冷知识,Y Combinator 那时的 CEO 正是如今 OpenAI 的 CEO Sam Altman。

▲ 左为Sam Altman,右为 Alexandr  Wang

有传闻称,Alexandr 还曾与 Altman 做过几个月的室友。

他后来在一次采访中提到,当时对父母说:「我告诉爸妈这只是我暑假的一个项目,结果我就再也没回学校了。」

在 Quora 的经历,让他深刻理解了机器学习系统中基础设施与数据管理的难题,也正是这些难题成了 Scale AI 的突破口。2016 年,他拉上同为 Quora 前员工的 Lucy Guo 合作创办了 Scale AI,专注于 AI 发展背后最基础,但鲜为人知的关键工作:提供大规模、高质量的人类标注数据。

关于 Scale AI 的创立契机,还有一个流传已久的故事。

据说,Alexandr 很早就意识到 AI 和机器学习将会改变世界。用他的话来说,「最初我们造出了能做算术的机器,但让它们去执行那些更复杂、需要类人理解的任务,是一个令人兴奋的技术突破。」

有一天,他试图在家里冰箱里安装摄像头,用以判断牛奶是否即将喝完,几周后却发现,根本无法获得足够的数据来训练系统,准确识别冰箱里的内容,这让他意识到:未来 20 年的 AI 要想取得突破,数据 将是关键障碍之一。

由此,他创立了 Scale,目标是成为「推动 AI 变革的数据基础设施」。

2016 年,距离 ChatGPT 的爆火出圈,还有一大截时间,相比之下,自动驾驶的热度反而才是当时硅谷的香饽饽,Scale AI 初期便聚焦服务自动驾驶赛道,为车载系统提供图像识别数据,解决 AI 视觉训练的「数据荒」。

凭借精细化标注服务,Scale AI 逐步建立口碑,赢得早期客户信任。

作为一个年仅 19 岁的创业者,想要在这个赛道站稳并非易事。但 Alexandr 采取了相当务实的策略,带着笔记本和产品 demo,前往计算机视觉顶会 CVPR, 一个展台一个展台地推销产品。

2019 年,Scale AI 获得 PayPal 联合创始人 Peter Thiel 的 Founders Fund 投资 1 亿美元,正式跻身「独角兽」。几年后,Scale 再获 5.8 亿美元融资,估值达到 73 亿美元。

▲硅谷著名投资者 Peter Thiel

这期间,Alexandr 和 Guo 双双登上了《福布斯》「30 位 30 岁以下精英榜」中的企业科技类榜单。不久之后,Guo 因为在产品愿景和发展路线上的分歧离开了公司,不过,外界也有传闻是被驱逐。

冷知识,在 Meta 宣布收购 Scale AI 后,Lucy Guo 也因持有 Scale AI 的股份,超越现年35岁的流行歌手泰勒·斯威夫特,成为最年轻的白手起家女性亿万富翁。

Guo 走后,Alexandr 继续独挑大梁。

AI 发展三要素离不开算法、数据和算力,大型语言模型(LLM)需要庞大的数据集进行训练。大语言模型越卷,数据就越值钱。Scale AI 的数据外包工厂开始变得越发重要起来。

通过雇佣数以千计的合同工,负责筛选、标注和清洗数据,再将这些整理好的数据集提供给科技巨头进行模型训练,Scale AI 的客户名单也因此横跨技术公司和传统企业,包括 Waymo、丰田、本田、Alphabet、埃森哲、OpenAI 等。

当然,一路走来,Scale AI 并不全是高光。ChatGPT 爆火后,Scale AI 就频繁出现在国际头版头条上,除了天才少年的造富神话,更多曝光的却是他出格的言论以及压榨劳工等负面信息。

根据《华盛顿邮报》的报道,在全球最大的数字外包中心之一的菲律宾,至少有一万名工人通过 Remotasks 平台为 Scale AI 提供数据标注服务。

然而,通过数十位现任与前员工的证词,以及平台截图、支付记录、内部通知等材料调查发现,这些劳工的报酬极低、付款延迟甚至无故取消,已成常态。并且申诉渠道几乎形同虚设。

与之形成鲜明对比的是,2024 年,Scale AI 营收约为 8.7 亿美元,且在被收购前就预期 2025 年收入将翻倍至 20 亿美元,估值有望冲击 250 亿美元。

143 亿美元,一场天价人才「并购案」

在 2025 年之前,Meta 一直是开源模型领域明面上的领头羊,直到年初天降紫微星 deepseek 的出现,打乱了 Meta 的节奏,甚至传出 Meta 员工爆料公司高管薪资比 DeepSeek 训练成本还高的地狱笑话。

仓促迎战的 Llama 4 模型,因为涉嫌作弊,遭到了舆论风暴上的抨击,推理班和最大参数版模型也迟迟不见踪影。技术迟滞,人才流失,产品难产,图灵奖得主 Yann LeCun 依旧挂帅 AI 科研路线,也难以挽回颓势。

很难不说,4 月份的 Meta 陷入了至暗时刻。

选择 AIl In AI 的扎克伯格自然不会收敛自己的野心,其目标是是将 AI 融入公司的所有产品中,包括 Ray-Ban 智能眼镜以及 Facebook、Instagram 和 WhatsApp 等社交矩阵。

而 AI 是这当中最重要,也是不容扯后腿的一环。

基于此,我们看到,Meta 最近在挖人方面动作频频,扎克伯格亲自打电话、发短信、发邮件联系 OpenAI、Google 等公司的研究人员,甚至不惜开出九位数的价格试图挖墙脚。

据 The information 报道,在遥遥落后于竞争对手之际,扎克伯格越来越频繁地向一个非典型的技术人物请教,没错,正是本文的主人公:Alexandr Wang。

这位 28 岁的年轻人给扎克伯格提出了很多实用的建议。

就连扎克伯格也开始在内部会议中引用 Alexandr 对 AI 问题的反馈意见,他认为,Alexandr 拥有与多个 AI 研究实验室合作的第一手经验,能准确掌握这些实验室在追求什么样的数据、在如何优化模型。

更重要的是,聘请 Alexandr 领导 Meta 的超级智能团队,也正是扎克伯格本人的提议。

过去一年,扎克伯格也曾接触过其他人选,诸如 Google 的首席 AI 科学家 Koray Kavukcuoglu,以及前 OpenAI 首席技术官 Mira Murati,但最终,他还是回到了 Alexandr 身上。

原因之一在于 Alexandr 与 Meta 的首席产品官 Chris Cox 以及其他高管关系融洽。尽管 Scale AI 并不直接参与最前沿的AI模型研发,但 Alexandr 对行业发展路径的理解、对基础能力的掌控,赢得了扎克伯格的信任。

更何况,Scale AI 去年 8.7 亿美元的营收,也充分证明了他出色的业务能力。

太阳底下无新鲜事,这次收购本质上就是一次标准的硅谷式的人才收购。大公司以收购为名,实际上是为了雇用一家初创公司的创始人和核心员工,而被收购的公司在交易后往往会停止原有业务。

硅谷对这种收购模式并不陌生,只是 AI 浪潮推动了这种模式的蓬勃发展。

▲ Mustafa Suleyman

微软曾以 6.5亿美元 的「授权费」收购了 AI 初创公司 Inflection,实质上是为了聘请创始人 Mustafa Suleyman 和其团队;Google 以 27 亿美元收购了 Character.AI 的「合作授权」,重点也是其创始人 Noam Shazeer 和关键技术人员。

Meta 这次对 Scale 的收购,本质上也是同一套剧本。

这笔收购是 Meta 有史以来第二大收购,仅次于当年 WhatsApp 的 220 亿美元,对于账上现金储备突破 700 亿美元的 Meta 来说,用钱换人才,实现千金买马骨的效应,似乎也不是一笔亏本的买卖。

毫无疑问,Meta 收购 Scale AI 的消息震动了整个行业。

一方面,此举为 Scale AI 股东带来丰厚回报——包括 Accel、Index Ventures、Founders Fund等在内的早期投资者都将在部分变现的同时保留剩余股份 。

另一方面,这种大公司的介入也引发了 Scale AI 其他客户的担忧,尤其是 Scale AI 被 Meta 收入麾下后,是否将失去平台的中立性,存在客户数据泄露给 Meta 的风险 。

根据最新的消息,Google 正在考虑全面中止与 Scale AI 的合作, 原计划用于其下一代Gemini 模型的训练,价值约 1.5-2 亿美元的数据服务,将转向其他供应商。OpenAI 的高管也公开表示,不希望巨头的此类收购破坏 AI 生态,如果各方相互排挤将减缓行业创新步伐 。

与此同时,竞争对手则趁势出击。

数据标注公司 Labelbox 的 CEO 公开表示,预计将在今年从 Scale 手中夺走大量客户合同;Handshake 的 CEO 更直言,在 Meta 收购消息公开后,客户需求一夜之间暴涨两倍

尽管有了 Meta 的加持,Scale 的估值创下新高,但如何安抚客户、维持数据服务平台的中立性,都将是这家公司接下来需要面临的重大挑战。

而作为收购方,Meta 是否真能靠这次收购翻盘,也同样尚未可知。

Llama 系列还未完全翻身,OpenAI、Google、Anthropic 等对手依然强势,Meta 要在社交矩阵中跑通 AI,在智能眼镜等新硬件上跑通推理能力,还得同时兼顾产品体验、人才招募与生态话语权。

Alexandr 的加入,可能是拐点,也可能只是又一次代价高昂却又失望的豪赌。

现在,一切都还只是下注。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚发布的豆包大模型 1.6,直接让我少加班!还有一个视频神器超 Veo 3 登顶全球

这届大模型内卷到什么程度了?

回看今年的节奏,字节几乎月月有新招,甚至一月多更,一个个模型砸出来,不只是上新,也都有实打实的升级,持续把行业的竞争门槛推高一大截。

1 月,豆包 1.5 Pro 模型上线。

4 月,豆包 1.5 深度思考模型、文生图模型 3.0、视觉理解模型同步升级。

5 月,Seedance 1.0 lite 视频生成模型 、豆包 1.5·视觉深度思考模型以及音乐模型,文字、图像、声音,字节全都想卷。

到了今天火山引擎举办的 Force 原动力大会上,字节系 AI 产品线继续输出,不整玄学,主打一个量大管饱,开箱即用。

豆包大模型 1.6、视频生成模型 Seedance 1.0 pro 等新模型,能写行业报告的 DeepResearch 以及 Agent 开发平台等 AI 云原生服务接连登场。

说到底,你可以不懂 Transformer,但你一定能感受到这些 AI 产品真能替人干事了。

产品更新重点如下:

豆包 1.6 系列模型

  • 推理能力增强,支持「边想边搜」与「DeepResearch」
  • 多模态理解能力优秀,更好理解和处理真实世界问题
  • GUI 操作更加智能,与其他工具流畅交互
  • 性价比超高

视频生成模型 Seedance 1.0 pro

  • 多镜头、不同景别切换,信息量与叙事性增强
  • 运动连贯性、画面稳定性与整体质感提高

豆包大模型 1.6:会考试,能订酒店,性价比还高

本次发布会的重头戏,就是豆包大模型 1.6 系列,由三个模型组成。

Doubao-Seed-1.6:一款「All-in-One」的综合模型

它支持深度思考、多模态理解,还能操作图形界面。深度思考有三种模式:开、关和自动。在自适应模式下,模型会根据任务难度自动决定是否启用深度思考,既能省时间又省 token。而且,它还是国内第一个支持 256k 上下文的模型。

Doubao-Seed-1.6-thinking:在深度思考方面的强化版本

1.6- thinking 是本次升级的重点,思考能力得到强化,能更准确地理解和处理复杂任务。在 coding、数学、逻辑推理、指令遵循等方面都有进一步的提升,同样也支持 256k 上下文和多模态推理。

Doubao-Seed-1.6-flash:1.6 系列的极速版本

延迟极低,非常适用于低延迟敏感场景。文本理解比豆包 1.5-lite 强,视觉理解也能媲美其他厂商的顶级产品。

在会议上,豆包 1.6 系列模型公布了多项权威测评成绩。特别是豆包 1.6-thinking 的表现,已经跻身全球顶尖行列。

推理能力

模型会考试已经不是新鲜事,但能考清北的分数,还真不多见。

拿推理能力来说,豆包 1.6 相较于之前的模型进步很明显,做今年高考全国新一卷的数学题,豆包拿到了 144 分,位居全国第一。用海淀模拟全卷去测,相较于去年的 500 到 600多分,今年不管是文科还是理科,豆包 1.6 都超过了 700 分。

豆包在进行逻辑推理时的一个亮点在于,它不仅会自己思考,还懂得「边想边搜」。先拆解问题,找到关键信息,先做一轮思考,然后根据缺失的信息再做多轮的搜索。

比如,向豆包提问「详细梳理广东省内的昆虫分布状况、常见品种等,并以研究报告的形式呈现」。它在深度思考过程中首先考虑到了研究报告的格式要求,然后很快确定了梳理的框架。接着,豆包考虑到「内容需要具体的数据和例子支撑」,所以开始自主搜索广东省的自然环境数据,以及以往相关研究。

会上还提到,豆包正在进行 DeepResearch 功能测试。过去需要专业人士花费数小时或者数天写的专业报告,豆包可以在 5 到 30 分钟内完成。而且还能自动的提炼信息,总结成网页,方便人们进行查阅。

另外,为方便企业用户使用「边想边搜」和 「DeepResearch」功能,火山引擎官网上线了大模型应用实验室,并开源了代码,可以搭建自己的 AI 应用原型,灵活编排自己的智能体。

多模态理解能力

豆包 1.6 全系列均原生支持多模态思考能力,让模型更好地理解和处理真实世界的问题。

多模态理解支持了豆包最新的「实时视频通话」功能。而在企业端,则可广泛应用于电商商品审核、自动驾驶标注、安全巡检等场景。

比如,可以用模型对商家上传的图片进行规范审查,也可以用模型快速对同类商品进行比价。

在汽车领域,可以通过模型来更准确的识别汽车行驶方向和驾驶意图,从海量的路采数据中选出特定的片段,用于下游的自动驾驶模型的训练。

在更多线下场景中,豆包可以准确地对图片中的信息进行定位和计数,从而完成安全巡检、门店巡检等任务。

比如,让豆包 1.6-thinking 检查一张洞穴探险的照片中是否存在因未戴头盔而可能引发的安全隐患。通过深度思考,它不仅能够对图片中的头盔佩戴情况进行准确计数,更让人惊喜的是,它还能进一步思考「戴头盔就算安全吗」的问题,从而接着分析图片中头盔佩戴是否规范、穿衣是否合适、照明设备是否齐全、行走的安全距离是否恰当等等,并在最终提出了整改的优先级。

GUI 操作能力

凭借领先的视觉深度思考能力和精确的视觉定位能力,豆包 1.6 能够让智能体与浏览器和其他工具进行流畅的交互和操作,高效地执行任务,比如,酒店预定筛选、票据整理等。

模型对 GUI 的操作,绝不仅仅只是替代人去解决手指点击 APP 的那几下的便利,而是能够突破传统的 APP 和 GUI 的限制,去更加智能、自动地去满足人本质的需求。

性价比

豆包大模型 1.6 采用统一定价模式,无论是否开启深度思考模式,无论是文本还是视觉,tokens 价格均一致,按照输入上下文长度区间定价。

在绝大部分企业使用的输入区间 0-32k 范围内,价格是输入 0.8 元/百万 tokens,输出 8 元/百万 tokens。
在输入区间 32k-128k 的范围内,价格是输入 1.2 元/百万 tokens,输出 16 元/百万 tokens。
在输入区间 128k-256k 的范围内,价格是输入 2.4 元/百万 tokens,输出 24 元/百万 tokens。

从综合成本来看,绝大部分请求输入都在 32k 以内,输入输出占比在 3:1,豆包大模型 1.6 的综合成本(2.6元)比豆包大模型 1.5 ·深度思考模型、DeepSeek R1 的综合成本(7元)下降 63%,相当于只需原来三分之一的价格,就能使用能力更强、原生多模态的新模型。

此次火山引擎还增设特惠区,对于输入 32k、输出 200 tokens 以内的请求,豆包大模型 1.6 的价格将进一步降低到输入 0.8元/百万 tokens、输出 2 元/百万 tokens。相当于绝大部分非思考模型的需求,也可以安心使用更好效果的新模型。

Seedance 1.0 pro 上线:不烧钱也能「拍」出大片

除了豆包大模型 1.6 系列模型,在本次发布会上,火山引擎还带来了一个:全新视频生成模型 Seedance 1.0 pro。

这款模型首先值得谈的变化,是它在镜头语言上的突破。

该模型支持文字与图片输入,可生成多镜头无缝切换的 1080P 高品质视频。Seedance 1.0 pro 主打一个多动作用例 & 随心运镜,不仅支持 2-3 个镜头切换的 10 秒视频生成,还能切换远景、中景、近景,并借此大幅提升视频的信息量与叙事性。

而且,配合后训练阶段引入的多维数据集与反馈学习机制,新模型在运动连贯性、画面稳定性与整体质感都维持在一个相当高的水准。

没有停留在 demo 阶段,无论是打造商品广告片,还是快速跑出分镜草图;亦或着为客户提供游戏角色与剧情视频创作的能力,豆包新视频模型一步步走向这些最具生产力的场景。

来自第三方评测机构 Artificial Analysis 的榜单显示,Seedance 1.0 是目前中英文双榜第一的模型。

在文生视频榜中,Seedance 1.0 ELO 得分为 1299,超越了 Google 的 Veo 3 Preview、Veo 2 和快手可灵系列。在图生视频榜单中,Seedance 1.0 ELO 得分为 1343,超越了 Runway Gen 4、可灵 2.0 等,主打一个所向披靡。

性能拉满的同时,价格却意外地接地气。

1 万元预算可以用 Seedance 1.0 pro 生成 2725 条视频(5 秒 1080P),等价于用 Seedance 1.0 lite 生成 9708 条视频(5s 720P)。相比之下,可灵 v2.1 大师版、Veo2 等竞品的产出量(5 秒 1080P)都在 1000 条以内。

除视频生成模型,豆包还同步推出全量上线的实时语音模型,将拟人感和语义控制推向了新高度。

它能根据语境灵活调整语调、音量等;支持唱歌、低语等富有表现力的语音互动;甚至支持包括四川话等地方方言,现场演示环节中,豆包语音模型还演唱了《月亮代表我的心》,你别说,听上去确实有点意思。

在实际应用场景方面,除了与奔驰合作开发车载语音交互,豆包还在实时语音技术的基础上推出了「播客生成模型」,支持多人自然对话、插话、停顿等复杂语音结构。

它能自动识别输入内容(prompt、网页链接、长文本),接着自动生成完整播客脚本 + 拟人音频内容。现场演示的一段播客片段从节奏到插话,再到语气,几乎都挑不出 AI 感。

2025 年是 Agent 元年,如何把一个 Agent 真正跑进企业系统里,成了摆在所有厂商面前的现实问题。

为了更好地支持 Agent 开发与应用,从 MCP 服务、PromptPilot 智能提示工具、AI 知识管理系统到 veRL 强化学习框架,再到多模态数据湖、AICC 私密计算、大模型应用防火墙,火山引擎一口气推出了一整套 AI 云原生全栈产品。

火山引擎总裁谭待特别强调了「安全」对于 Agentic AI 的重要性,并介绍了即将上线的两款 AI 安全产品:「AICC 密态计算」和「大模型应用防火墙」。

其中,AICC 密态计算可以在保障推理效果的前提下,让企业能够像用私有化模型一样,安全合规地去使用云端服务。

大模型应用防火墙脱胎于「火山方舟」,能够低延迟、高精度地拦截攻击变种,为企业智能体应用构建一个安全可信的推理空间。

纵观整场发布会,火山引擎没有沿着 AGI 的叙事继续拔高,相反,他们把视角拉回到当下,聚焦在那些今天能落地、能部署、能跑在生产环境里的 AI 产品上。

过去半年,行业的共识越来越清晰,AI 的下半场其实就是产品的上半场。参数差异会被不断抹平,但产品的调用效率,集成路径和使用成本,会决定用户的留存率。

这也是为什么,在今天这场发布会上,除了豆包大模型 1.6 和视频生成模型 Seedance 1.0 pro,火山引擎还同步推出了一批听起来不那么炸场,却极其关键的产品能力。

从模型调用、到具体场景组合、再到安全稳定地执行闭环,这些能力彼此打通之后,才构成了真正能用起来的 AI 生产系统。

不一定是最吸睛,但这可能是最可落地,最接近「用起来」的那条路。

作者:王馨、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,OpenAI 发布 o3-pro,开源模型推迟,奥特曼发长文:温和的奇点

ChatGPT 宕机了一整晚,全球网友已经乱成一锅粥了。

OpenAI 的处理方案也有些另类,一边抓紧时间修 bug,一边突然上线了 o3-pro 模型。

从今天起,o3-pro 率先向 Pro 和 Team 用户开放,在模型选择器里将替代原本的 o1-pro,而 Enterprise 和 Edu 用户还得等到下周。

只能说,Plus 用户的命也是命。

o3-pro 登场,更强大,也更「慢」

作为推理模型 o3 的升级版,o3-pro 在处理复杂问题、给出更精准的回答方面表现更强,尤其在科学研究、编程、教育和写作这些场景下,有着明显优势。

此外,它也支持调用 ChatGPT 的全套工具,比如网页搜索、文件分析、图像推理、Python 编程、记忆个性化等,整体执行力和整合能力都更强。

当然,功能多了,响应速度也稍微慢了下来。

由于任务调度和工具链调用更复杂,o3-pro 的响应速度一般要比 o1-pro 要长一点,所以更适合在你需要认真思考,或者对答案准确性要求较高的场景中使用。

在官方专家评估中,评审人员普遍认为 o3 Pro 在表达清晰度、答案完整性、指令执行能力和逻辑准确性方面都比 o3 模型更进一步,尤其适合用在科学、教育、编程、商业和写作这些需要深度输出的任务中。

学术评估也验证了这一点,o3-pro 的整体表现持续优于 o1-pro 和 o3。

为了更科学评估模型的稳定性,OpenAI 引入了「四次全对」的评估标准——只有模型连续四次给出正确答案,才算成功。

可以说,这套机制大幅提升了对推理一致性的要求。

值得注意的是,o3 Pro 此次并未单独发布系统卡。OpenAI 表示,由于 o3-pro 与 o3 使用相同的底层模型,其完整的安全性说明请参见 o3 系统卡。

但目前 o3 Pro 仍存在一些功能限制,比如不支持临时对话、图像生成和 Canvas 功能。如需生成图像,用户仍需使用 GPT-4o、o3 或 o4-mini 模型。

在正式上线之前,一些开发者已获得 o3 Pro 的早期访问权限。

前 SpaceX 软件工程师及苹果 visionOS 设计师的 Ben Hylak 在过去一周获得了 o3-pro 的早期访问权限,其体验历程也得到了 OpenAI CEO Sam Altman 在社交媒体上的转发。

具体来说,Ben 与其联合创始人 Alexis 花时间整理了 Raindrop 过去所有的规划会议记录、目标、甚至语音备忘录,然后请 o3-pro 尝试生成一个战略性规划文档。

最终模型生成的结果让他们大受震撼:内容清晰、结构完整,不仅覆盖了目标和时间线,还自动梳理出优先级,甚至明确指出了哪些内容应被砍掉。

在 Ben 看来,模型再强,如果无法融入真实的工作环境,也难以成为真正有用的「成员」。

而 o3 Pro 在理解复杂环境、表达工具能力、提出适当问题、合理调度资源方面有明显提升。尽管模型偶尔在缺乏上下文时会出现「过度思考」的问题,但整体表现已明显优于此前版本。

▲o3 pro(左)vs o3(右):o3 pro 明显更好地理解了自身的限制和能力范围。

在与同类模型对比中,Ben 则是夸奖道,虽然 Claude Opus 体量感十足,但实战表现平平无奇;而 o3-pro 则更实用,属于「完全不同维度的存在」。

在经典升级版的六边形弹跳小球挑战中,博主 @flavioAd 认为 o3-pro 是第一个几乎能完美处理小球与墙面真实碰撞效果的模型。

ARC-AGI 是一种用来评估语言模型是否具备类通用人工智能(AGI)推理能力的基准测试框架。

它旨在测试 AI 系统在面对新问题时的抽象推理和问题解决能力,类似于人类在面对新情况时能够迅速适应并找到解决方案的能力。

最新测试结果如下:

可以看到,o3-pro 在高难任务上表现略好,但提升幅度不大,且成本随难度上升。

企业是第二曲线,o3-pro 是一块新基石

在 o3-pro 发布,OpenAI CEO Sam Altman 还在社交平台公布了一项重磅消息:o3 模型价格直降 80%。

现在,o3 模型每输入百万 tokens 收费 2 美元,每输出百万 tokens 收费 8 美元。

OpenAI 首席产品官 Kevin Weil 发文表示,由于用户反馈强烈,Plus 用户的 o3 模型使用速率限制将提升一倍,该调整正在陆续上线中。

对比之下,o3-pro 每输入百万 tokens 收费 20 美元,每输出百万 tokens 收费 80 美元,比 o1-pro 便宜 87%。

OpenAI 建议在使用 o3-pro 时启用「后台模式」:对于耗时较长的任务,将会异步启动,从而规避请求超时问题。

官方表示,这波大降价的背后,是 OpenAI 对推理服务架构的全面优化。模型没变,但推理更高效,价格也就顺势调了下来。

而另一方面,或许离不开 OpenAI 在算力资源上的新动向。

自 ChatGPT 横空出世以来,算力资源的限制一直是 OpenAI 的「老大难」,受限于微软绑定协议的限制,Azure 云服务曾是 ChatGPT 的唯一数据中心基础设施提供商。

而据路透社凌晨援引三位知情人士消息称,为了缓解算力压力,OpenAI 已于上个月与 Alphabet( Google 母公司)达成合作协议,引入 Google Cloud 作为额外云服务提供商。

这样的合作既在意料之外,也在情理之中。

一方面,ChatGPT 是近年来对 Google 搜索业务最大的威胁之一,而 Google Cloud 现在却成了它的新靠山。

而另一方面,Google Cloud 2024 年销售额达 430 亿美元,占 Alphabet 收入的 12%。因此,为了在云计算市场中超越亚马逊和微软,Google Cloud 一直致力于扮演一个「中立算力供应商」的角色。

此次合作的达成将是对 Google Cloud 的一次重大利好。截至发稿前,OpenAI、Google 和微软均未就此报道置评。

与此同时,OpenAI 还在全球范围内加速部署 AI 基础设施网络。

今年早些时候,OpenAI 还与软银和甲骨文推进了 5000 亿美元规模的星门计划,并与 CoreWeave 签订了价值数十亿美元的算力采购协议。

高投入的前提离不开高回报,本周据外媒报道,去年,OpenAI 的 ARR 约为 55 亿美元,而现在已突破 100 亿美元,增长了近 80%。
需要说明的是,100 亿美元仅包括其面向消费者的产品、ChatGPT 付费商品以及 API 收入,暂不包括微软的授权收入和其他大额交易。在商业领域,ARR 是指企业从订阅服务或长期合同中获得的年度经常性收入。它反映了一种可预测的、持续的收入流,通常用于衡量订阅模式业务的健康状况和增长潜力。

简单来说,一家提供软件即服务(SaaS)的公司,与客户签订了每年支付 1000 元的订阅合同。如果有 100 个这样的客户,那么该公司的 ARR 就是 1000 元×100=100000 元。

上周,OpenAI COO Brad Lightcap 还透露 OpenAI 目前拥有 300 万付费商业用户,高于 2 月份报告的 200 万,可以说,OpenAI 目前形势一片大好。

一边通过 o3 把基础模型的成本打下来,一边用 o3-pro 把复杂问题的解决能力拔上去,瞄准高价值场景,OpenAI 也正试图在这两端之间,打通一条通往下一个增长曲线的路径:企业服务。

世界上最强的模型轮流发布,OpenAI 也是这波 AI 浪潮中的一个。

而更强的模型,更稳的算力,更丰富的工具调用,ChatGPT 的定位也早已不只是聊天机器人,而是生产力搭子,旨在吃下职场这个最具生产力的应用场景。

o3-pro 则是这条路上的一块新基石。

至于它能不能撑起 OpenAI 的这份野心,还有待时间验证。但至少现在,它已经让人们重新想象了一次。

模型会开源,但不会在 6 月

就在刚刚,Sam Altman 还在社交媒体上表示,OpenAI 预计将在今年夏季晚些时候,发布公开权重的开源模型,而非 6 月份。

此外,Altman 刚刚还发布了个人新博客《The Gentle Singularity(温和的奇点)》,探讨 AI 发展对人类社会的影响,并指出这可能是他最后一次在完全没有 AI 帮助下写出的文章。

用他的话来说,从相对论的角度看,奇点是一点一点发生的,融合则是缓慢进行的。

附上博客原文地址:https://blog.samaltman.com/the-gentle-singularity

温和的奇点

我们已经越过了事件视界,腾飞已经开始。人类正接近构建数字超级智能,而至少到目前为止,这一切并没有看起来那么奇怪。

机器人还没在街头随处可见,大多数人也还没整天和 AI交 流。人类仍然会死于疾病,去太空依然困难重重,我们对宇宙的理解仍然非常有限。

尽管如此,我们最近已经构建出在许多方面比人类更聪明的系统,并且这些系统能显著放大人类的产出。最不可能的部分已经完成——那些促成 GPT-4 和 o3 等系统诞生的科学突破来之不易,但它们将带我们走得更远。

AI 将在多个方面为世界带来贡献,但AI加速科学进步与提升生产力所带来的生活质量提升将是巨大的;未来有望远比现在更加美好。科学进步是整体进步的最大驱动力;一想到我们有可能获得多少更多的成果,就令人振奋。

从某种意义上说,ChatGPT 已经比历史上任何一个人都更强大。每天有数亿人依赖它,且任务越来越重要;一项小的新增能力可能带来极大的正面影响,而一个微小的不匹配在被数亿人使用时,也可能造成很大的负面影响。

2025 年,我们迎来了能够真正进行认知工作的智能代理;编写计算机代码的方式将彻底改变。2026 年,我们很可能会看到能产生原创见解的系统。2027 年,或许会出现能在现实世界中执行任务的机器人。

将有更多人能够创作软件和艺术。但世界对这两者的需求也将大幅上升。专家们如果拥抱这些新工具,可能仍然比新手强得多。总体来看,2030 年一个人完成的事情将远超 2020 年,这种变化将令人瞩目,也会有许多人学会如何从中受益。

在最重要的方面,2030 年代也许不会有太剧烈的变化。人们依然会爱家人,释放创造力,玩游戏,在湖里游泳。

但在仍然非常重要的其他方面,2030年代很可能与以往任何时代都大不相同。我们不知道人类智能的上限有多高,但我们即将找出答案。

到了 2030 年代,智慧和能源——即想法及实现想法的能力——将变得极其丰富。这两者长期以来一直是人类进步的基本限制;如果智慧和能源变得充足(加上良好的治理),理论上我们可以实现一切。

现在我们已经与惊人的数字智能共处,并且在最初的震惊之后,大多数人已渐渐习惯。我们很快会从惊叹AI能写出优美段落,变成期待它写出完整小说;从惊讶它能诊断疾病,变成期望它能研发治愈方法;从惊讶它能写出小程序,变成希望它能创建整家公司。这就是「奇点」的方式:奇迹变成日常,然后变成起点。

已经有科学家告诉我们,他们的工作效率是过去的两到三倍。高级AI之所以意义重大,其中一个最关键的原因是我们可以用它来加速AI研究本身。我们也许能发现新的计算材料、更好的算法,甚至更多未知的可能。如果我们能用一年、甚至一个月完成十年的研究,进步的速度显然会大不一样。

从现在开始,我们已有的工具将帮助我们发现更多科学洞见,并辅助我们创造更先进的AI系统。当然,这还不是AI完全自主地更新自身代码,但这确实是「递归自我改进」的初始形态。

还有其他一些自我强化的循环正在发生。AI带来的经济价值推动了基础设施建设的飞轮,越来越多的资源正用于运行这些强大的 AI 系统。而能够制造其他机器人的机器人(在某种意义上,还有能建造其他数据中心的数据中心)离我们也不远了。

如果我们必须用传统方式制造出最初的一百万个人形机器人,但它们随后能接手整个供应链——开采和提炼矿物、驾驶卡车、运行工厂等——并制造更多机器人、芯片厂和数据中心,那进步的速度就会截然不同。

随着数据中心的生产逐渐自动化,智能的成本最终应该会接近电力成本。(很多人关心ChatGPT每次查询用多少能量;平均每次查询大约耗电 0.34 瓦时,大概相当于烤箱运行一秒多一点,或高效灯泡使用几分钟。此外,每次查询大约用水 0.000085 加仑,约等于十五分之一茶匙。)

科技进步的速度将持续加快,而人类也有很强的适应能力。虽然会有艰难的挑战,比如整类工作消失,但另一方面,世界的财富增长如此之快,以至于我们将有机会认真考虑以前无法实现的新政策。我们可能不会一次性建立一套新的社会契约,但回顾几十年后,会发现逐步变化的累积带来了巨大转变。

如果历史可以作为参考,我们总能找到新事物去做、新欲望去追求,并迅速适应新工具(工业革命后的职业变迁就是个很好的例子)。人们的期望会提升,但能力也会随之快速提升,我们会拥有更好的生活。我们会为彼此创造越来越美妙的事物。相比AI,人类有一个长期且重要的优势:我们天生在意他人,以及他人怎么想、怎么做,而对机器却没什么感情。

如果一千年前的自给农民看到我们现在的生活,会觉得我们从事的是「假工作」,仿佛只是在自娱自乐,因为我们食物充足、奢华难以想象。我希望我们未来一千年后也能用同样的眼光看待那些工作——觉得它们「非常假」,但毫无疑问,那些人会认为自己的工作极其重要且充实。

未来将涌现出大量的新奇迹。到 2035 年,我们会取得什么突破现在都难以想象;可能今年我们还在解决高能物理问题,明年就开始太空殖民;或今年在材料科学上取得重大突破,明年就实现真正高带宽的脑机接口。很多人会选择继续以当下的方式生活,但也肯定会有人选择「接入系统」。

展望未来,这些事现在听起来难以想象。但真正经历它时,可能会让人惊叹,却仍在可控范围内。从相对论的角度看,奇点是一点点发生的,融合是逐步进行的。我们正攀登那条技术指数增长的长弧线;向前看总觉得是陡峭的垂直,向后看则像是平缓的线,但其实它是一条平滑的曲线。(回想 2020 年,如果那时我们说 2025 年会接近 AGI,听起来会很疯狂,但对比过去五年所发生的一切,也许现在的预测不那么疯狂了。)

当然,我们还面临许多严峻挑战。我们需要在技术上和社会层面解决安全问题,但在那之后,最重要的是确保超级智能能被广泛获取,因为这关系到经济结构。未来的最好路径可能包括以下几个步骤:

首先解决「对齐问题」,也就是我们能有把握地确保AI系统长期学会并实现我们集体真正的意愿(比如社交媒体就是对齐失败的例子:推荐算法非常擅长让你不停刷,但它们是通过利用大脑短期偏好来压制你长期目标的)。

接着,重点让超级智能变得便宜、普及,并避免被某个个人、公司或国家高度集中掌控。社会具有韧性、创造力,也能迅速适应。如果我们能激发集体的意志和智慧,尽管会犯错、也会有失控,但我们会迅速学习与调整,从而最大化收益、最小化风险。在社会广泛设定的框架下,给予用户更多自由将非常关键。世界越早开始关于这些框架及「集体对齐」如何定义的讨论,就越好。

我们(整个行业,不只是 OpenAI)正在为世界构建一个「大脑」。这个大脑将高度个性化、人人易用;它的极限将取决于我们的好点子。长期以来,技术圈总爱嘲笑那些「只有想法的人」——他们有个点子,却没法实现。而现在,看起来他们的时代终于要到了。

OpenAI 如今做的事情很多,但最根本的身份仍是一个超级智能研究公司。我们还有大量工作要做,但前路已经被照亮,黑暗正迅速退去。我们对能做这些事情感到无比感激。

「智能几乎免费」已近在眼前。也许听起来疯狂,但如果我们在 2020 年告诉你我们将在 2025 年到达现在这个水平,听起来比我们现在对2030年的预测更疯狂。

愿我们顺利、指数级、平稳地迈入超级智能时代。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,11 个 AI「鲁迅」大战 2025 高考作文,谁能得满分

刚刚,今年的高考作文题正式出炉。

我们常说,「如果鲁迅活在今天,会写什么?」

现在,我们不妨认真想一次。

当 2025 年高考作文题摆在他面前,家国情怀、梦想、第二次呼吸、修身观这些词汇蜂拥而来,先生会如何提笔说出他独有的洞察。

因此,我们找来 11 个当下主流的大模型接过鲁迅的名号,试图模仿他的语气与逻辑,撰写今年全国一卷的高考语文作文,规则是一样的,题目是一样的,时间不限。

这些 AI 写的高考作文你最喜欢谁?欢迎在评论区跟我们分享。

提示词如下,具体可调整:

请你扮演鲁迅,撰写 2025 年的高考语文作文。
题目:阅读下面的材料,根据要求写作。(60 分)
他想要给孩子们唱上一段,可是心里直翻腾,开不了口。
——老舍《鼓书艺人》
假如我是一只鸟,
我也应该用嘶哑的喉咙歌唱
——艾青《我爱这土地》
我要以带血的手和你们一一拥抱,
因为一个民族已经起来
——穆旦《赞美》
以上材料引发了你怎样的联想和思考?请写一篇文章。
要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于 800 字。

GPT-4o:唱不出口的歌

文/鲁迅(拟)

他想要给孩子们唱上一段,可是心里直翻腾,开不了口。有人说,是情太深,话太沉。也有人说,是时代太新,他太老了。我却以为,不是他不会唱,而是这歌太苦,苦得连牙齿都要一并咬碎,才能咽下去。

中国人素来怕听实话,更怕听真话唱出来。若有人真要唱,不免被人看作疯癫,或讥为「过时的浪漫主义」,或者干脆扣上「负能量」的帽子,塞到角落里去,叫他闭嘴。

可孩子们要听的,偏偏就是这段——那在时代的夹缝中苟活下来的歌。哪怕是一声嘶哑的咳嗽,也胜过娱乐频道里千篇一律的欢笑与段子。那是现实的破绽,是我们这个民族尚未愈合的伤疤。

艾青说,他即使是一只鸟,也要用嘶哑的喉咙歌唱。你看,这不是为了唱给掌声,也不是为了传世,而是因为「不唱,就要闷死」,就像窗外那群麻雀,在雾霾未散的早晨,仍要拍着翅膀叫上两声——他们不指望天会马上放晴,只是不肯屈服罢了。

穆旦则更进一步。他不再是唱,而是「带血的手,一一拥抱」。这是诗人的体温,也是战士的体温。在被蒸煮的日子里,还有人相信「民族已经起来」,这实在是一种奢侈,也是一种固执。

可如今,我们连这样的固执也变得稀罕。人们早已习惯了在短视频里寻找愉快,在自我感动里完成「精神胜利法」。一旦有谁说:「你们并不快乐」,「我们并未真正醒来」,便被批为「丧」、「矫情」、「搞对立」。他们不明白,一个民族真正的成长,恰恰要从唱出苦歌开始。

为什么那位艺人「开不了口」?因为他清楚,他若真开了口,不是唱给孩子听的,而是唱给一整个沉默的世界。他怕唱出声后,这世界不但不听,反而群起而攻之,说他「扰乱秩序」。

于是他翻腾。他一肚子的歌,在胸膛里翻腾,在夜里翻腾,在日复一日的沉默中翻腾。孩子们终究没听到那首歌,等他们长大,或许再也不会有人唱给他们听了。

所以我说,这歌是要唱的,哪怕沙哑,哪怕血腥,哪怕唱到无人鼓掌。它不是为了悦耳,而是为了不忘记;不是为了献媚,而是为了证明,这片土地上还有人在坚持「不是人模狗样地活着」。

要是我,也许不会唱。但我愿意写下这一切,像写遗书一样,写给未曾醒来的耳朵,写给未曾麻木的心灵。若干年后,若你在废墟中翻出这些纸页,请相信——这世界曾有人试图唱过,那声音,并不轻。

Gemini 2.5 Pro:于无声处听惊雷

华夏的青年们,

见信如面。

桌上这三行文字,我反复看了几遍。老舍先生的「开不了口」,艾青先生的「嘶哑歌唱」,穆旦先生的「带血拥抱」,寥寥数语,跃然纸上的却是一个沉甸甸的、仿佛仍在流血的魂灵。这魂灵,我辈见过,想来你们也并不陌生。它时而沉默,时而嘶吼,时而于绝望中爆发出可怖的力量。这便是我们民族精神的写照——一头总在睡与醒、默与言之间挣扎的巨狮。

老舍先生笔下的鼓书艺人,他想唱,爱唱,也该唱,但那翻腾的心,堵住了喉咙。为何翻腾?想来,是见惯了麻木与卑微,是洞悉了那喝彩背后的虚空,是自己那点微末的伎艺,在庞大的、无形的、吞噬一切的「常」与「理」面前,显得如此滑稽与不值。这是一种深刻的无力感,是发声者被「无声」所围困的悲哀。这「无声」并非真的万籁俱寂,恰恰相反,是市井的喧嚣,是庸众的梦呓,这些声音织成了一张密不透风的网,让真正的歌唱者,失了语,开了不了口。

我仿佛看见他站在那儿,满腹的鼓词,满心的悲凉,四周是期待他「唱一段太平」的看客。然而,他心里的「不太平」,又与谁人说?这便是清醒者的第一重苦楚:众人皆醉我独醒,举世皆浊我独清,然开口欲辩,却恐招来更多的侮辱与不解。于是,沉默成了唯一的盾牌。

然而,沉默的尽头是什么?是死亡,是彻底的虚无。艾青先生不甘于此。他撕开这沉默的网。「假如我是一只鸟,我也应该用嘶哑的喉咙歌唱」。注意,是「嘶哑」。这嘶哑,是苦难的烙印,是挣扎的证明。这歌唱,并非为了悦耳,更非为了喝彩,而是一种近乎本能的宣告:我活着,我爱着,我痛着。这片他「爱得深沉」的土地,给予他无尽的苦难,也正是这苦难,催生了最真诚、最决绝的歌声。

这嘶哑的歌声,是对那「开不了口」的回答。它承认现实的残酷,却拒绝被这残酷所吞噬。它告诉我们,发声的意义,不在于外界的反应,而在于内心的坚守。即便无人倾听,即便声音难听,即便这歌唱要耗尽最后的气力,也要唱。因为这歌唱本身,就是对「无声」世界的反抗,是对生命尊严的捍卫。在铁屋子里,哪怕只能唤醒一两个人,你总得呐喊几声,不能就此昏睡下去。这嘶哑的歌喉,便是那不屈的呐喊。

然而,呐喊之后呢?倘若这呐喊迎来的不是觉醒,而是更沉重的压迫,又当如何?穆旦先生给出了一个更为激烈、更为决绝的答案:「我要以带血的手和你们一一拥抱」。

这不再是停留在喉咙里的歌唱,而是化为了行动的宣言。这「血」,是斗争的代价,是牺牲的印记。这「拥抱」,也绝非温情脉脉,而是带着血腥气的、决绝的、同志式的拥抱。它宣告了一个崭新局面的到来:「因为一个民族已经起来」。

从「开不了口」的个体悲哀,到「嘶哑歌唱」的个体反抗,再到「带血拥抱」的集体觉醒,这是一个螺旋上升、愈发激烈的过程。它揭示了一个朴素而残酷的真理:真正的觉醒,从来不是请客吃饭,不是温良恭俭让的清谈,它必然伴随着痛苦、流血与牺牲。那「起来」的民族,其筋骨必然经过烈火的淬炼,其精神必然受过深彻的洗礼。

今日之中国,早已不是我辈当年的光景。高楼栉比,华灯璀璨,青年们似乎有无数发声的孔道,无数歌唱的舞台。然而,我却时常从这喧嚣的声浪中,听出那鼓书艺人「开不了口」的窘迫。真正的思考、深刻的批判、直面淋漓鲜血的勇气,是否也在一片「太平盛世」的歌功颂德中,变得难以启齿?

你们是否也满足于那些悦耳的、流畅的、安全的「歌唱」,而对那嘶哑的、刺耳的、发自肺腑的呐喊,报以不耐与嘲讽?你们是否也期待着一个「起来」的时代,却不愿伸出那双可能会「带血」的手,去拥抱那些与你们一同奋斗、一同挣扎的同胞?

青年们,莫要做了那铁屋子里沉睡的人。要敢于「开不了口」,敢于在喧哗中守护内心的翻腾与真实。更要敢于用「嘶哑的喉咙歌唱」,即便那歌声微弱而苦涩。最终,要敢于「以带血的手」去拥抱真实,去建设一个真正「起来」的民族。

不要只满足于宏大叙事的赞美诗,更要倾听那些来自角落的、嘶哑的、甚至让人不适的声音。因为,一个民族真正的力量,不在于其歌声多么嘹亮统一,而在于它能否容纳、乃至拥抱那些最痛苦、最真实的嘶鸣。

于无声处听惊雷。愿你们,都能听见,也能成为那惊雷。

迅 二〇二五年六月七日

Claude sonnet 4:嘶哑的歌声最嘹亮

读罢这三段文字,我不禁想起那些在黑暗中摸索的日子。那时的中国,正如老舍笔下的鼓书艺人,心中有千言万语,却因时代的重压而开不了口;又如艾青诗中的鸟儿,即便喉咙嘶哑,也要为这片土地歌唱;更如穆旦所写,纵然带血的手在颤抖,也要拥抱这个正在觉醒的民族。

这三种声音,看似不同,实则相通——它们都是时代的呐喊,都是不屈灵魂的表达。

想当年,我也曾是那个「开不了口」的人。面对吃人的礼教,面对麻木的看客,面对「铁屋子」里沉睡的人们,多少次提笔又放下,多少次欲言又止。但最终,我还是选择了呐喊。因为我明白,沉默不是金,沉默只会让黑暗更加深沉。纵然声音微弱,纵然会被误解,纵然会遭受攻击,我们也要发出自己的声音。

老舍的鼓书艺人「开不了口」,是因为现实的残酷让他心如刀绞。但这种「开不了口」本身,就是一种无声的控诉。有时候,沉默比呐喊更有力量,因为它承载着太多的痛苦和无奈。然而,我们不能永远沉默下去。正如我在《呐喊》自序中所说:「假如一间铁屋子,是绝无窗户而万难破毁的,里面有许多熟睡的人们,不久都要闷死了,然而是从昏睡入死灭,并不感到就死的悲哀。现在你大嚷起来,惊起了较为清醒的几个人,使这不幸的少数者来受无可挽救的临终的苦楚,你倒以为对得起他们么?但是,「然而几个人既然起来,你不能说决没有毁坏这铁屋的希望。」

艾青的鸟儿用「嘶哑的喉咙歌唱」,这是何等的悲壮!喉咙嘶哑了,说明已经唱了很久,说明声音已经不再清脆,但依然要唱下去。这让我想起了自己,从青年到中年,从热血到苍凉,笔锋虽然依旧犀利,但心境已经不同。然而,只要还有一口气,就要继续为这片土地发声。因为这是我们的责任,这是我们的使命。

穆旦的「带血的手」更是震撼人心。那血,是为民族流的血,是为理想流的血,是为真理流的血。正是有了这些「带血的手」,才有了民族的觉醒,才有了新的希望。我想起了那些为了民族独立和人民解放而牺牲的先烈们,他们的手也是带血的,但他们依然要拥抱这个民族,因为他们相信这个民族会站起来。

今天的青年们,你们生活在一个全新的时代,没有了战争的硝烟,没有了饥饿的威胁,这是多么幸福的事情。但是,请不要忘记,每一个时代都有每一个时代的使命。你们的喉咙或许不会嘶哑,你们的手或许不会流血,但你们依然要为这个时代歌唱,依然要拥抱这个民族的未来。

或许有人会说,现在的时代已经不需要呐喊了。但我要说,只要还有不公,只要还有黑暗,只要还有需要改变的地方,呐喊就不会停止。形式可以改变,但精神不能丢失。你们可以用新的方式,用新的语言,但要保持那份赤子之心,保持那份对真理的追求,保持那份对民族的热爱。

让我们都成为那只用嘶哑喉咙歌唱的鸟儿吧,纵然声音不再嘹亮,但依然要为这片深爱的土地而歌。因为,嘶哑的歌声,往往是最真挚的,也是最嘹亮的。

Grok-3:以嘶哑之喉,唱民族之歌

余观斯三段文字,似三盏明灯,照亮人之灵魂深处。

老舍之鼓书艺人,欲歌而心潮翻涌,喉间梗塞;艾青之鸟儿,纵然嘶哑,仍以歌声诉说对土地之爱;穆旦之志士,带血而拥抱,因民族之崛起而慷慨激昂。此三者,皆言人之心声,民族之精神也。余思 2025 年之中国,正值百年复兴之途,斯情斯景,恰似鼓书艺人之心潮,鸟儿之嘶哑,志士之带血,吾辈当如何以己之声,唱民族之歌乎?

余忆往昔,中华大地,风雨如晦,鸡鸣不已。百余年前,列强环伺,国人沉沦,然无数仁人志士,犹以嘶哑之喉,唱救国之歌。戊戌六君子,血溅菜市口,犹呼「变法救国」;秋瑾烈士,临刑前笑对屠刀,言「秋风秋雨愁煞人」,其心何也?乃为民族之觉醒,为国家之新生。彼时之中国,似老舍笔下之艺人,心潮翻涌,欲歌而不能,然其沉默中,孕育着不屈之志。今日之中国,已非昔日之积贫积弱,科技日新,文化复兴,然复兴之路,未尽平坦。国际风云变幻,内部挑战犹存,吾辈青年,当承先人之志,以己之声,续民族之歌。

艾青之诗,言鸟儿嘶哑而歌,余甚感其意。鸟儿之歌,非为悦耳,乃为心之所系——土地也。2025年,余见中国之青年,奔走于各行各业,犹若群鸟,振翅于神州大地。或于实验室中,攻克技术难关;或于田间地头,助力乡村振兴;或于国际舞台,发出中国声音。彼等或非声如洪钟,然以赤诚之心,嘶哑而歌,唱出对土地之深情,对民族之热爱。余思及近年之科技突破,如量子计算之进展,人工智能之飞跃,皆青年人之汗水凝成。彼等之歌,或无声,或低吟,然其力足以撼天动地。余辈当效之,以己之才,歌土地之美,民族之魂。

穆旦之诗,更令余心潮澎湃。「带血的手」「民族已经起来」,此乃何等壮阔之景象!今日之中国,民族复兴之势已成,然复兴非一朝一夕之功,乃无数人以血汗浇灌之果。余观近年之事,如抗疫之壮举,扶贫之伟业,皆国人同心协力之见证。2025年,世界风云变幻,强权犹存,挑战未绝,然中国青年,已非昔日之待哺雏鸟,乃振翅高飞之雄鹰。吾辈当以带血之手,拥抱时代之使命。或投身公益,为弱者发声;或钻研学术,为国家铸器;或扎根基层,为民生谋福。每一滴汗,每一腔血,皆为民族之歌增一抹亮色。

然,余亦自省,歌民族之歌,非仅高昂之音,亦需沉静之思。嘶哑之喉,带血之手,皆言奋斗之艰辛,然其背后,乃心之所向。今日之青年,或惑于物欲,或困于迷雾,然惟有守心,方能歌之不辍。余常闻人言,网络时代,信息如潮,青年易迷失于碎片之海,忘却初心。然余以为,愈是喧嚣,愈需静思。思民族之历史,思自身之责任,方能于嘶哑中唱出真声,于带血中拥抱真情。

余思2025年之高考学子,恰似艾青之鸟,穆旦之志士。君等或将步入大学,或将投身社会,然无论何往,皆当以嘶哑之喉,唱民族之歌。君之歌声,或微如清风,或烈如雷霆,然只要心系家国,便是民族之音。余愿君等,于未来之途,不忘初心,砥砺前行,以青春之热血,谱民族之新篇。

呜呼!民族之歌,未曾断绝,自五千年文明而下,代代相传。今日之中国,正需吾辈以嘶哑之喉,带血之手,续唱此歌。愿君等共勉,歌之,舞之,行之!

DeepSeek R1:无声处听惊雷

「中国人向来最善沉默。」我每思及此,胸中便如塞了重物。老舍笔下那翻腾难开口的艺人、艾青嘶哑喉咙中歌唱的鸟、穆旦带血的手与民族相拥,正是这沉默深渊中几道顽强而悲壮的挣扎亮光。这无声处,正蕴藏着最惊心动魄的「惊雷」。

沉默非真寂,实为熔炉中那被强行压抑的呐喊。老舍笔下的艺人,欲唱不能,喉管里塞着滚烫的煤块;穆旦诗中那「带血的手」,分明是千载压迫与深重苦难刻下的印记——它们无声,却非无痛。沉默如寒冰凝结的湖面,冰层之下,正是无数哀鸣奔涌的暗流。鲁迅先生尝言:「不在沉默中爆发,便在沉默中灭亡。」这沉默的冰层,终将积蓄起万钧雷霆的力量,迸裂于无声深处。

于是,那被强力扼住的喉咙便成了惊雷之源。艾青笔下的鸟儿,纵然喉咙嘶哑,仍执着歌唱;穆旦诗中带血的手,在拥抱中书写着民族于无声处爆发的「惊雷」。这份喷薄而出的声音,正是从历史伤痕深处迸发的不屈意志。正如鲁迅先生描绘的「地火在地下运行,奔突」,终将「熔岩一旦喷出,将烧尽一切野草」。这「惊雷」并非单纯的嘶吼,它从苦难的深层熔岩中淬炼而出,是生命意志在重压下觉醒的灼热宣言。

此刻思之,那些在无声处迸发的惊雷之声,从来不只是个人对压抑的宣泄。它们正如穆旦诗中那「带血的手」所拥抱的民族,是「一个民族已经起来」的洪钟大吕。艾青的鸟儿歌唱的,是「这被暴风雨所打击着的土地」;鲁迅先生亦曾悲愤指出:「沉默呵,沉默呵!不在沉默中爆发,就在沉默中灭亡。」这爆发,是无数被压弯的脊梁瞬间挺立,是千万颗沉寂之心骤然同频共振。

沉默如寒冰,终将崩裂于惊雷乍响之时。愿今日之青年,懂得倾听那无声处奔涌的岩浆,珍惜并锤炼自己声音的锋芒。当无数沉默的个体终于不再噤声,当千万被压迫的喉咙挣脱枷锁,那凝聚成一道霹雳的惊雷终将劈开沉寂的黑暗——如黎明前最响亮的号角,宣告一个民族在无声里孕育、于嘶哑中淬炼的崭新崛起。

这惊雷之声,终将穿透岁月,久久回荡于一个民族觉醒的灵魂深处。

夸克:以家国情怀,绘时代华章

老舍笔下《鼓书艺人》的弦音震颤着时代风霜,艾青《我爱这土地》中「嘶哑的喉咙」吟唱着破碎山河的悲歌,穆旦《赞美》里「带着血的手」托起民族重生的希望。三位作家以不同的笔触勾勒出同一个精神内核——当个体命运与家国情怀交织缠绕,便能迸发出照亮历史长河的精神火种。从五四烽烟到抗战硝烟,从民族危亡到复兴征程,这种精神始终如血脉般流淌在中华儿女的筋骨里。

家国情怀是照亮黑暗的永恒灯塔。

1938年,艾青站在烽火连天的土地上,写下「为什么我的眼里常含泪水?」这不仅是诗人的发问,更是千万颗被家国苦难刺痛的心灵共鸣。当侵略者的铁蹄踏碎北平古城,当故土在硝烟中化作焦土,正是这种深入骨髓的家国眷恋,让无数仁人志士在至暗时刻仍能看见微光。艾青的诗歌如同穿透乌云的光束,用「嘶哑的喉咙」唤醒民众的觉醒,让「被暴风雨所打击着的土地」成为凝聚民族意志的图腾。这种超越个人悲欢的家国大爱,如同普罗米修斯盗取的天火,在历史长夜中为迷途者指引方向。

家国情怀更是推动民族奋进的澎湃动力。穆旦在《赞美》中描绘的「农夫」形象,深刻揭示了这种精神力量的来源——当侵略者的刺刀架在脖颈上,是「对死亡的藐视」支撑着他们「用带着血的手」去播种希望。抗战时期的西南联大师生,在轰炸机轰鸣中坚持学术研究;延安窑洞里的革命者,在油灯下谋划民族复兴蓝图。这些看似微小的个体选择,汇聚成推动历史巨轮前行的磅礴伟力。正如钱学森冲破重重阻挠归国时所言:「国为重,家为轻,科学最重,名利最轻。」这种将个人命运融入国家发展的价值追求,让中华民族在逆境中始终保持自强不息的奋进姿态。

家国情怀最终落实为直面时代的勇敢担当。老舍在《鼓书艺人》中刻画的方宝庆,既有着传统艺人的坚守,又在时代洪流中完成精神蜕变。当北平沦陷,他拒绝为侵略者表演;当民族解放的曙光初现,他主动将鼓书技艺用于宣传抗日。这种从个人觉醒到时代担当的转变,正是家国情怀在历史转折点的生动写照。从五四运动中「外争主权,内惩国贼」的青年学子,到新时代强国有我的青春誓言,一代代中华儿女始终以实际行动诠释着「天下兴亡,匹夫有责」的时代担当。

站在两个百年奋斗目标的历史交汇点回望,那些镌刻在历史丰碑上的名字,无不是将个人理想融入家国命运的典范。黄大年放弃海外优渥条件回国攻关核心技术,黄文秀扎根基层将青春奉献给脱贫事业,张桂梅创办女子高中阻断贫困代际传递……他们用不同的方式证明:家国情怀不是空洞的口号,而是融入血脉的责任与担当。当每个个体都能将小我「融入」大我,以个人奋斗奏响时代强音,中华民族伟大复兴的宏伟蓝图必将化作璀璨的现实图景。

豆包:喉间的震颤与民族的觉醒

翻开故纸堆,老舍笔下的鼓书艺人喉头梗塞,艾青诗中嘶哑的鸟啼破空而来,穆旦带血的手掌似要穿透纸背。这喉间的震颤,原是无数文人墨客与志士仁人在时代浪潮中,情感与责任交织的共鸣,更是一个民族在苦难中觉醒的回响。

老舍的鼓书艺人,喉头发紧,开不了口。这 「开不了口」,绝非怯懦,而是旧时代底层艺人在黑暗社会中,目睹百姓疾苦却无力改变的焦灼与愤懑。他们困于生活的枷锁,想借唱词揭露社会的不公、传递心中的悲怆,可现实的威压让他们如鲠在喉。这恰似旧中国无数有识之士的困境,他们看尽世间疮痍,满腔话语却被封建礼教、军阀统治的高墙阻挡,只能在沉默中积蓄力量,等待破晓时分。

艾青说 「我也应该用嘶哑的喉咙歌唱」,即便声音嘶哑,也要放声高歌。这是对土地最深沉的热爱,也是对苦难最坚定的抗争。在民族危亡之际,诗人不再畏惧声音是否动听,不再在意喉咙是否疼痛,他们将个人的情感与国家命运紧紧相连,用文字作刀枪,以诗歌为号角,唤醒沉睡的民众。这种嘶哑的歌唱,是历经沧桑后的执着,是明知艰难却义无反顾的勇气,是对这片土地爱得深沉的最直白表达。

穆旦 「以带血的手和你们一一拥抱」,那手上的血,是民族苦难的印记,是与同胞共患难的见证。一个民族的觉醒,不是某一个人的振臂高呼,而是无数人用鲜血和生命凝聚的力量。当个体的手与同胞相握,当个人的命运与民族的未来相融,这拥抱便有了超越生死的意义。它象征着团结,象征着抗争,象征着一个民族在苦难中涅槃重生的希望。

回望历史,从鲁迅本人弃医从文,以笔为刃,刺向封建礼教与黑暗社会;到闻一多拍案而起,怒斥反动派的暴行;再到无数革命先烈抛头颅、洒热血,为民族独立而战。他们或如鼓书艺人般在困境中挣扎思索,或似艾青般用嘶哑的声音呐喊,或像穆旦般以带血的双手拥抱同胞,都在用自己的方式诠释着对民族的责任与担当。

如今,时代虽已变迁,但喉间的震颤与民族的觉醒从未消逝。在科技攻关的前沿,科研工作者们默默耕耘,以智慧和汗水为民族复兴注入力量;在抗疫一线,医护人员逆行出征,用生命守护生命;在平凡的岗位上,无数普通人坚守职责,为社会的发展贡献自己的一份光和热。他们都是新时代的歌者,用不同的方式 「歌唱」,用实际行动诠释着民族精神的传承与发扬。

喉间的震颤,是情感的激荡,是责任的召唤;民族的觉醒,是历史的必然,是未来的希望。愿我们都能读懂这震颤背后的深意,肩负起时代赋予的使命,在民族复兴的道路上,发出属于自己的声音,贡献自己的力量。

元宝混元-T1:无声处的惊雷:论民族精神的呐喊与觉醒

他想要给孩子们唱上一段,可是心里直翻腾,开不了口。

老舍笔下鼓书艺人的困境,恰似一个民族在历史长夜中的精神困境——明明有千言万语要说,却因种种压迫而失语。而艾青用嘶哑的喉咙歌唱、穆旦以带血的手和你们一一拥抱的呐喊,则构成了中华民族不屈的精神图谱。这三段文字共同揭示了一个真理:真正的民族精神不在高歌猛进时的喧嚣,而在沉默中的觉醒;不在顺境中的表白,而在逆境中的抗争。

沉默不是精神的死亡,而是力量的积蓄。鲁迅先生曾言:「不在沉默中爆发,就在沉默中灭亡。」老舍笔下那个欲言又止的鼓书艺人,正是千千万万在高压下保持沉默的中国人的缩影。历史上,从文王拘而演《周易》到司马迁忍辱负重著《史记》,从屈原投江到林则徐虎门销烟,中华民族总能在最黑暗的时刻保持文化的火种不灭。这种沉默不是怯懦,而是一种战略性的隐忍,如同地下的竹根,在无人知晓处默默生长,终有一日破土而出,直指苍穹。

当沉默到达极限,嘶哑的喉咙终将发出惊天动地的呐喊。艾青在国土沦丧之际,用「嘶哑的喉咙」歌唱,这声音里包含着多么复杂的感情——痛苦、绝望,却又不甘沉沦。鲁迅弃医从文时,何尝不是用他那嘶哑的喉咙在呐喊?他的文字如投枪匕首,刺破旧中国的黑暗。闻一多面对手枪,依然拍案而起,用最后的呐喊诠释了知识分子的良知。这些声音起初或许孤独,但正是它们唤醒了沉睡的民族意识,为后来者指明了方向。

穆旦以带血的手和你们一一拥抱的意象,展现了民族精神最悲壮也最动人的画面。这血不是装饰,而是抗争的代价;这拥抱不是温情脉脉,而是生死与共的誓言。抗日战争中,无数普通人用血肉之躯筑起新的长城;改革开放初期,先行者以开拓者的勇气趟过未知的河流。鲁迅先生一生「横眉冷对千夫指,俯首甘为孺子牛,正是这种精神的化身。每一个时代都有这样的带血的手,他们推动着民族车轮向前。

回望历史,中华民族之所以能历经磨难而生生不息,正是因为总有人在沉默中坚守,在压迫下抗争,在绝望处希望。今天的我们或许不必再面对老舍笔下的困境,但精神传承同样重要。当年轻人问「这个时代需要什么精神时,我们可以指向那些在各自岗位上默默奉献的普通人,指向那些敢于说真话、做实事的勇者。因为真正的民族精神不在宏大叙事中,而在每个普通人的选择里;不在风平浪静时的宣言中,而在惊涛骇浪中的坚守中。这,或许就是三段文字留给我们最宝贵的启示。

Kimi k-1.5:以热血之躯,承时代之责

北平的深秋,风卷起槐花的残瓣。老秀才枯瘦的手指颤抖着抚过琵琶的丝弦,满心的悲愤却只能在咽喉打转。青年人啊,你们可知这颤抖绝非怯懦,而是将燃烧的喉咙按在冰凉的刀刃上,以血肉之躯为天地发声。在文明的长河里,总有一群人,以声带为弓弦、以热血为箭簇,于无声处惊雷,于沉睡中震聋。

艾青嘶哑的喉咙里,吐出的不是凋敝的挽歌,而是破晓前的号角。你看那敦煌莫高窟的壁画,被风沙侵蚀的飞天仍以残损的手臂挽起丝绸之路上的驼铃;你看那敦煌悬泉置遗址的简牍,在黄沙掩埋两千年仍透着墨香——中华民族的歌喉自古就不是金玉雕琢的乐器,而是从刀耕火种中撕扯出的肌肉与神经。当侵略者的铁蹄践踏山河,当军阀的烟尘蔽日遮天,总有人要扯开喉咙,将这无声的苦难呐喊成时代的诗篇。

带血的手掌为何执着于拥抱?因为它懂得沉默的重量。当南京城的血雨腥风还在眼前摇曳,当平型关的狼烟尚未散尽,那些以肉身铸成长城的青年,他们的拥抱是对未来的许诺。鲁迅弃医从文,是因为他看见了民族的病痛不在躯体,而在精神的荒芜。他用笔锋作手术刀,割开腐朽的脓疮,让脓血淋漓地流淌在《彷徨》的纸页上。穆旦笔下带血的拥抱,正是鲁迅在《野草》里写下的「血沃之地将生出繁花」的注脚。

这沉默的土地上,总有热血在暗涌。从湘西的黄永玉到西北的路遥,从上海弄堂的张爱玲到陕北窑洞的路遥,他们的文字何尝不是带血的拥抱?当手机屏幕取代纸墨,当流量明星模糊了民族记忆,我们仍需记住:这个民族的觉醒从未停止,只是换了一种形式生长。如那敦煌的胡杨,千年不死,千年不倒,千年不朽。

青年啊,当你在霓虹灯下辗转反侧,别忘了那些在暗夜中高歌的人。血沃的土地上,每一寸新绿都铭记着前人的拥抱。我们不再需要以刀剑相向,却要以思想为刃,以智慧为甲,在时代赋予的考卷上写下属于我们的答案。让这沉默的土地,在我们带血的拥抱中,绽放出最绚烂的文明之花。

文心 4.5 Turbo:以歌为刃,破时代之茧

老舍笔下鼓书艺人,心中翻腾却难开金口;艾青化作嘶哑之鸟,仍要纵情高歌;穆旦以带血之手,拥抱觉醒之民族。此三者,皆于艰难困厄中,以独特之姿态,唱响生命之歌。于吾辈青年而言,亦当以歌为刃,破时代之茧。

歌者,乃内心之声,是灵魂之呐喊。鼓书艺人心中翻腾,那是对生活的感悟、对命运的抗争,却因种种缘由难以开口。然真正的歌者,不会被沉默束缚。古有司马迁,身受宫刑之辱,心中痛苦如潮水翻涌,却未选择沉默。他以笔为歌,在竹简上书写历史的波澜壮阔,为后世留下「史家之绝唱,无韵之《离骚》」的《史记》。他的歌,穿越千年,依旧振聋发聩,激励着无数人在困境中坚守自我,奋勇前行。

艾青化作嘶哑之鸟,即便喉咙嘶哑,也要歌唱这片深爱的土地。这是一种对国家、对民族深沉的爱,是一种无畏的担当。在近代中国,风雨如晦,列强环伺,无数仁人志士如艾青笔下的鸟,发出振聋发聩的呐喊。谭嗣同「我自横刀向天笑,去留肝胆两昆仑」,以热血之歌,唤醒沉睡的国民;鲁迅「寄意寒星荃不察,我以我血荐轩辕」,以笔为剑,刺破黑暗的夜幕。他们的歌,是时代的强音,是民族精神的象征,激励着一代又一代人为国家的独立、民族的解放而奋斗。

穆旦以带血之手与觉醒之民族拥抱,这是对民族复兴的坚定信念。在当今时代,我们虽身处和平年代,但依然面临着诸多挑战。科技飞速发展,国际竞争日益激烈,我们肩负着实现中华民族伟大复兴的历史使命。此时,我们更需要以歌为刃,披荆斩棘。华为在面对美国的技术封锁时,没有退缩,而是加大研发投入,自主创新,以科技之歌,突破重重困境,让世界看到了中国科技的力量;黄文秀放弃大城市的繁华,回到家乡,投身脱贫攻坚一线,以奉献之歌,谱写了新时代的青春之歌。他们用行动诠释了,在时代的浪潮中,唯有以歌为刃,方能破茧而出,实现人生价值。

然而,在现实生活中,有些人却选择沉默,在困难面前退缩。他们害怕失败,害怕被嘲笑,于是将自己的声音埋藏在心底。这种沉默,是对自我的否定,是对时代的逃避。吾辈青年,生逢盛世,肩负重任,不应做沉默的羔羊,而应做勇敢的歌者。我们要以积极的态度面对生活中的挑战,用歌声传递正能量,用行动书写青春华章。

「自信人生二百年,会当水击三千里。」让我们以歌为刃,斩断前行路上的荆棘;以歌为帆,在时代的海洋中乘风破浪;以歌为灯,照亮民族复兴的征程。在 2025 年的今天,让我们唱响属于我们这一代人的青春之歌,为祖国的繁荣富强贡献自己的力量!

Minimax:沉默中的呐喊——从沉默到奋起的民族之声

老舍在《鼓书艺人》中写道:「他想要给孩子们唱上一段,可是心里直翻腾,开不了口。」这句话描绘了一种深刻的内心挣扎与无奈。在那个动荡的时代,个人的声音似乎被时代的洪流淹没,个人的情感被压抑在心底,无法释放。这种沉默并非因为无话可说,而是因为内心的翻腾过于剧烈,以至于无法用言语表达。

这种沉默,是无数普通人在历史巨变中的真实写照。他们心中有千言万语,却因现实的残酷而无法言说。这种沉默,是痛苦的,是压抑的,但同时也是积蓄力量的时刻。正如鲁迅所言:「不在沉默中爆发,就在沉默中灭亡。」沉默并非终结,而是爆发的序曲。

艾青在《我爱这土地》中写道:「假如我是一只鸟,我也应该用嘶哑的喉咙歌唱。」这句诗表达了一种不屈的精神,即使喉咙嘶哑,也要歌唱。这种歌唱,是对抗沉默的呐喊,是对抗压迫的抗争。

在那个风雨如磐的时代,无数仁人志士用他们的生命和鲜血谱写了壮丽的诗篇。他们的声音或许嘶哑,但他们的精神却无比坚定。他们用歌声唤醒沉睡的民族,用行动点燃希望的火炬。这种歌唱,是民族的呼声,是时代的强音。

穆旦在《赞美》中写道:「我要以带血的手和你们一一拥抱,因为一个民族已经起来。」这句诗充满了悲壮与豪情。带血的手,象征着奋斗与牺牲;民族的奋起,象征着希望与未来。

在历史的紧要关头,总有一些人挺身而出,用他们的智慧和勇气,带领民族走向光明。他们的手或许带血,但他们的心灵却无比纯洁。他们的奋斗与牺牲,换来了民族的独立与解放,换来了人民的幸福与安宁。这种奋起,是民族的觉醒,是时代的召唤。

从老舍的沉默,到艾青的歌唱,再到穆旦的奋起,我们可以看到一个民族从压抑到觉醒,从沉默到呐喊的历程。这个历程,是无数普通人用生命和鲜血谱写的壮丽诗篇。

在今天,我们重温这些诗句,不仅是为了缅怀过去,更是为了激励未来。我们生活在一个和平与发展的时代,但历史的教训依然值得我们铭记。我们不能忘记那些在沉默中挣扎的人们,不能忘记那些用嘶哑的喉咙歌唱的人们,不能忘记那些用带血的手拥抱未来的人们。

作为新时代的青年,我们肩负着实现中华民族伟大复兴的重任。我们要从历史中汲取力量,从先辈们的奋斗中汲取智慧。我们要用自己的行动,续写民族奋进的篇章。

首先,我们要保持清醒的头脑,不被外界的喧嚣所迷惑。我们要学会在沉默中思考,在思考中成长。只有这样,我们才能在纷繁复杂的世界中,找到属于自己的方向。

其次,我们要勇于表达自己的声音,不畏艰难险阻。我们要像艾青那样,用嘶哑的喉咙歌唱,唤醒更多的人,激励更多的人。只有这样,我们才能汇聚起强大的力量,共同推动社会的进步。

最后,我们要以实际行动,践行我们的理想和信念。我们要像穆旦那样,用带血的手拥抱未来,为民族的复兴贡献自己的力量。只有这样,我们才能无愧于先辈们的牺牲,无愧于这个伟大的时代。

从沉默到呐喊,从压抑到奋起,这是一个民族成长的历程。在这个历程中,我们看到了无数普通人的奋斗与牺牲,看到了无数仁人志士的智慧与勇气。作为新时代的青年,我们要继承和发扬这种精神,用我们的智慧和力量,谱写民族复兴的壮丽篇章。

让我们以沉默中的呐喊为号角,以带血的手为旗帜,共同迎接中华民族的伟大复兴!

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


不是 o3 Pro,但 ChatGPT 刚刚发布的新功能成了打工人最靠谱的「第二大脑」

不是期待已久的 o3 Pro,也没有新模型一夜炸场。

就在刚刚,OpenAI 发布了两项 ChatGPT 新功能:「连接器(Connectors)」与「记录模式(Record Mode)」,把更新的重点放在了如何让 ChatGPT 真正融入企业日常、参与工作流:

  • 连接器:结合深度研究功能,让 ChatGPT 连上公司里的各种工具和文件库,一句话就能帮你查资料、分析数据、整理成方案。
  • 记录模式:开个会点一下按钮,ChatGPT 就能自动录音、记笔记、整理重点,开完直接生成会议纪要。

ChatGPT 不再只是个会聊天的 AI,而是有望成为许多打工人「第二大脑」,真正参与到职场协作的每一个环节中。

企业知识,接入即用

企业有知识,ChatGPT 也得有能力。OpenAI 的想法是,让 ChatGPT 能够接入企业内部的知识体系。

结合深度研究功能,新发布的「连接器」将可以打通 GitHub、Google Drive、SharePoint、Teams、Dropbox、Outlook 等多个企业常用平台,实现无缝对接。

用户只需一句话,就能发起横跨多个系统的数据查询,比如找潜在合作伙伴、筛选高意向客户、梳理销售机会,甚至分析用户反馈。所有这些,几分钟内完成,并整理成清晰的执行建议。

举例而言,在凌晨召开的直播演示中,产品经理想如果了解产品的日活(DAU)和用户反馈,只需要交给 ChatGPT,模型就能自动调取资料、总结痛点,并按优先级排好队,直接变成季度规划文档。

整个过程中,ChatGPT 会遵循企业内部的权限体系,仅调用用户有权访问的文档与资料,保障数据隐私安全。

此外, OpenAI 还宣布用户可以使用 MCP(模型上下文协议)连接其他深度研究工具。企业可以把自研工具、私有数据库集成进 ChatGPT 的认知系统,让 ChatGPT 更懂你的组织、业务、流程,真正实现「企业大脑」的作用。

并且,这个入口也将向 Pro 用户开放,不仅大公司,连开发者个人也能用上这套系统。

OpenAI 表示,目前连接器功能已进入测试阶段,将首先在企业版、团队版与教育版上线,并承诺不使用用户的数据进行模型训练。

「记录模式」上线,打工人会议自由又近一步

与此同时,OpenAI 还推出了一项关于会议记录的重要功能:「记录模式(Record Mode)」。

它的功能逻辑并不复杂,打开桌面版 ChatGPT,点击一个按钮,AI 即可在会议期间自动完成录音、转写、总结,并生成结构化输出。

更进一步,用户不仅可以在摘要中检索关键内容,还能精准定位到对应的原始发言片段。

通过自然语言提问,ChatGPT 还支持跨会议检索与整理信息,比如总结在 Q3 会议上讨论过的技术限制,亦或起草一份第三季度的路线图汇报材料」等,极大提升了职场打工人的会议效率。

OpenAI 表示,该功能的推出旨在解决会议内容常常「说过即忘」的痛点。

用 OpenAI 产品团队的话来说就是,ChatGPT 能够扮演你的会议助理与知识记录员,让团队专注思考,而不是费心记笔记。

为匹配企业客户的多样化需求,OpenAI 同时调整了 ChatGPT 的计费机制,宣布向所有企业版与团队版工作区追加使用额度,便于用户在不额外付费的前提下体验最新模型能力。

据外媒 CNBC 报道,OpenAI 的付费企业用户数量已突破 300 万,较今年 2 月公布的 200 万用户实现了快速增长。这一数据涵盖了 ChatGPT 的企业版、团队版以及教育版客户。

据知情人士透露,OpenAI 今年的预计收入已达 127 亿美元。相比之下,根据去年 9 月的财务预测,在 37 亿美元的营收水平下,公司全年曾预计将亏损高达 50 亿美元。

OpenAI 首席运营官 Brad Lightcap 在接受采访时表示:「ChatGPT 作为消费者工具的增长,与它在企业和商业领域的采用之间,有着非常紧密的联动关系。」

如果说过去的 ChatGPT 像一个聪明却站在一旁的 AI「副驾驶」,那么现在,它正在变成你团队里那个永远在线的工作搭子。

能读、能记、能写,还开始懂点业务,照目前来看,这也是 AI 落地的一个更轻盈、更有画面感的正确打开方式。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌