Reading view
The Great Capitulation
马斯克新 AI 破解千年难题却被紧急喊停?这个「玩笑」怎么让 AI 圈一夜未眠
Grok-3 证明了「黎曼猜想」了?
xAI 研究员 Hieu Pham 周末发布的一条推文在 AI 圈掀起轩然大波,推文原话是这么说的:
Grok-3 AI 系统刚刚证明了黎曼猜想(Riemann’s hypothesis)。为了验证这一证明的正确性,我们决定暂停该系统的训练。如果证明被确认无误,我们将不再继续其训练,因为这样的 AI 被认为过于智能,可能对人类构成威胁。
老规矩,先说结论,这单纯就是玩梗而已。
然而,随着推文的不断发酵,还是迅速引发了超过两百万网友的关注与讨论,甚至辐射到海内外的 AI 舆论圈。
事情的源头大概要追溯到网友 Andrew Curran 更早些时候的一则「爆料」,其声称 Grok-3 在训练过程中发生了灾难性事件。
随后,各种离奇的传言纷至沓来。
网友起哄说,OpenAI CEO Sam Altman 用巨大的激光器对准了 xAI 的最大训练集群,导致数据严重损坏;也有人煞有介事地暗示有人蓄意破坏下一代 LLM 训练运行。
更有调侃称,AI 似乎获得了自我意识,并解决了黎曼猜想,但在证明代码中「故意省略了 15 个分号」,使人类无法验证。
连 Runway 创始人 Cristóbal Valenzuela 也来凑热闹:
Gen-4 刚刚荣获了包括最佳影片在内的所有奥斯卡奖项。为了深入研究其在艺术领域的创新成果,我们决定暂停对其进行的训练。如果这部电影确实如早期评论家所言具有革命性,我们将不会恢复训练,因为这表明 AI 在艺术方面已经达到如此高的水平,以至于可能威胁到人类的创造力。
谣言就这么越传越邪乎。
多位 xAI 研究人员也纷纷转发 Andrew Curran 推文,加入这场集体「大团建」。
比如我们的老熟人 xAI 联创 Greg Yang 率先调侃道,Grok-3 在训练过程中突然殴打办公室里年长的保安。
另一位研究人员 Heinrich Kuttler 则表示:「是的,情况非常糟糕!我们后来用 nan(Not a Number,非数)把所有异常的权重都替换了一遍,才恢复。」
当然,更理性的网友直接在 X 上询问当前版本的 Grok 对黎曼猜想的理解,不出所料, Grok 的表现十分「玛卡巴卡」。
最终,这场闹剧由始作俑者——xAI 研究员 Hieu Pham 亲自画上句号:
好的,《周六夜现场》结束了。至于为什么证明黎曼假设是危险的,我强烈推荐马特·海格(@matthaig1)的精彩小说《人类》。
那么问题来了,为什么这则 Grok-3 证明黎曼猜想的消息能引起广泛的关注呢?首先是黎曼猜想本身的重要性。
黎曼猜想(Riemann Hypothesis)是数学中一个关于素数分布的重要猜想,由德国数学家伯恩哈德·黎曼于 1859 年提出,该猜想被列为克雷数学研究所(Clay Mathematics Institute)的「千年难题」之一。
它涉及到黎曼ζ函数(Riemann zeta function),这个函数定义为:
ζ(s)=1+12s+13s+14s+⋯\zeta(s) = 1 + \frac{1}{2^s} + \frac{1}{3^s} + \frac{1}{4^s} + \cdotsζ(s)=1+2s1+3s1+4s1+⋯
黎曼猜想的核心内容是:所有非平凡的黎曼ζ函数零点的实部都等于 1/2。换句话说,如果 ss 是黎曼ζ函数的一个非平凡零点,即 ζ(s)=0ζ(s)=0,那么其实部必定是 ℜ(s)=1/2ℜ(s)=1/2。
克雷数学研究所说了,如果有人能够成功证明黎曼猜想,将奖励 100 万美元的奖金。但这个猜想至今没有被证明或反驳,也被广泛认为是现代数论中的一个未解之谜。
这个猜想的证明对于数论(数学的一个分支)有着深远的影响。
目前,很多现代加密技术(比如保护网上支付、数据隐私等)都依赖于素数的性质。证明黎曼猜想或将会让人类更好地理解这些技术的基础,并且可能影响到未来的安全算法。
假如 Grok-3 能证明黎曼猜想,这不仅将推动理论数学、物理学、密码学等领域的大幅进展,同时将标志着 AI 在推理和解决复杂问题方面的巨大进步。
甚至可以说,这将成为人工智能超越人类智能的一个标志性事件。
月之暗面创始人杨植麟曾表示,数学场景是锻炼 AI 思考能力最理想的场景。
数学是一个极其严谨的逻辑体系,而 AI 的推理能力往往建立在严密的逻辑推导之上。
AI 解决数学问题的过程实质上是一个持续思考的历程,在这个过程中,它会不断尝试不同思路,通过反复试错来寻找正确答案。即便计算过程中出现错误,AI 也能通过验证和校对来纠正结果。
类似的理念也体现在 OpenAI o1 的强化学习训练上。
如果说以前的大模型是学习数据,o1 更像在学习思维。就像我们解题,不仅要写出答案,也要写出推理过程。一道题目可以死记硬背,但学会了推理,才能举一反三。
所以在今年美国针对优秀高中生的 AIME 测验当中,GPT-4o 仅完成了百分之十三的题目。相比之下,o1 的正确率高达 83 个百分点。
就博士水准的 GPQA Diamond 科研测评而言,GPT-4o 获得了 56.1% 的成绩,而 o1 的表现更为出色。不仅胜过了人类博士的 69.7%,更是达到了 78% 的正确率。
在国际信息学奥赛 (IOI) 的评测中,当每道题允许 50 次尝试时,模型达到了 49% 的得分率,即 213 分,而当每题提交机会增至一万次时,其最终得分提升至 362 分。
拿打败围棋世界冠军的 AlphaGo 类比,就更加容易理解了。
AlphaGo 就是通过强化学习训练的,先使用大量人类棋谱进行监督学习,然后与自己对弈,每局对弈根据输赢得到奖励或者惩罚,不断提升棋艺,甚至掌握人类棋手想不到的方法。
o1 和 AlphaGo 有相似之处,不过 AlphaGo 只能下围棋,o1 则是一个通用的大语言模型。
o1 学习的材料,可能是数学题库、高质量的代码等,然后 o1 被训练生成解题的思维链,并在奖励或惩罚的机制下,生成和优化自己的思维链,不断提高推理的能力。
这其实也解释了,为什么 OpenAI 强调 o1 的数学、代码能力强,因为对错比较容易验证,强化学习机制能够提供明确的反馈,从而提升模型的性能。
当然,更重要的是如何将这种推理能力拓展应用到更广泛的领域中。
所以我们会看到不少海外网友为 Grok-3 证明黎曼猜想欢呼,「如果是这样的话,我们真的在见证一个巨大的突破。」
马斯克曾多次在公开场合渲染 Grok-3 的强大,他声称 Grok-3 预计在年底前问世,并将成为「世界上最强大的 AI」。
实际上,Grok-3 是由上面提到的 AI 初创公司 xAI 开发的第三代大型语言模型,并预计在性能上预期将超越现有的所有 AI 大模型。
原因在于 Grok-3 训练背后依托的是目前世界上最大的 AI 训练集群——Colossus。
这个集群由 10 万个液冷英伟达 H100 GPU 组成,采用单一的 RDMA 网络互连架构。这个集群的规模已经超越了目前世界上任何其他的超级计算机,而且未来还将持续扩充 GPU 数量。
根据 The Information 的报道,Colossus 的出现甚至引起了 Altman 的密切关注,后者派飞机飞越 Colossus 训练基地,试图窥探其开发进展和能源供应情况。
所以说,当「最强 AI」、「千年数学难题」和以及长盛不衰的「AI 威胁论」这三重元素叠加,一场完美的「谣言风暴」就此形成。
甚至我们可以认为,Grok-3 证明黎曼猜想的谣言,与其说是一场闹剧,不如说是整个 AI 行业的一面照妖镜:
其一是折射出人们对 AI 的深层态度,大量技术乐观派坚信 AI 终将无所不能,既担心它发展得太快会失控,又害怕它发展得不够快无法实现突破。
其二是自 GPT-4 问世以来,尽管 AI 领域不断有新产品涌现,却鲜有真正的突破性进展。
人类既是 AI 的创造者,却又成了它最焦虑的观众。
每一个 AI 谣言的背后,都藏着整个行业的焦虑与期待。
加之最近闹得沸沸扬扬的 Scaling Law 发展撞墙论,相比去年的井喷期,今年的「创新疲劳」让人们对模型的小步改进已然失去耐心。
在这个意义上,Grok-3 证明黎曼猜想的谣言也成了人们对未来的一次集体想象。哪怕作为普通用户,我们也越来越期待下一个从 GPT-3.5 到 GPT-4 的质变时刻。
当然,真正的 AI 突破,往往发生在所有人都不看好的时候。
但我们都希望这个谜底能在年底前揭开。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。
OpenAI 最新产品全曝光!奥特曼驳斥 AI 发展撞墙,Ilya 认错,秘密寻找下一个重大突破
今年 AI 圈的瓜真是一浪接一浪。
最近,关于 Scaling Laws「撞墙」的消息在 AI 圈炸开了锅。图灵奖得主 Yann Lecun、Ilya、Anthropic 创始人 Dario Amodei 纷纷展开唇枪舌战。
争论的核心在于,随着模型规模的不断扩大,其性能提升是否会遇到天花板。正当舆论愈演愈烈之际,OpenAI CEO Sam Altman 刚刚在 X 平台作出回应:
「there is no wall 没有墙」
而在这场辩论的背景下,彭博社则披露了一条引人注目的消息。
OpenAI 计划在明年一月份推出一款名为「Operator」的 AI Agent(智能体),这个 Agent 能够使用计算机代替用户执行任务,如编写代码或预订旅行。
在此之前,Anthropic、微软、Google 也都被曝出正在布局类似的方向。
对于整个 AI 行业来说,AI 技术的发展从来就不是单一维度的线性过程。当一个方向似乎遇到阻力时,创新往往会在其他维度突破。
Scaling Laws 撞墙?下一步该怎么走
Scaling Laws 遭遇瓶颈的消息,最先源自外媒 The Information 上周末的一篇报道。
洋洋洒洒的数千字报道透露了两个关键信息。
好消息是,尽管 OpenAI 完成了下一代模型 Orion 训练过程的 20%,但 Altman 表示,Orion 在智能和执行任务、回答问题的能力方面已经与 GPT-4 不相上下。
坏消息是,据上手体验的 OpenAI 员工评估,与 GPT-3 和 GPT-4 之间的巨大进步相比,Orion 提升幅度较小,比如在编程等任务上表现不佳,且运行成本较高。
一句话概括就是,Scaling Laws 遭遇瓶颈了。
要理解 Scaling Laws 效果不及预期所带来的影响,我们有必要给不太清楚的朋友简单介绍一下 Scaling Laws 基本概念。
2020 年,OpenAI 在一篇论文中最早提出 Scaling Laws。
这一理论指出,大模型的最终性能主要与计算量、模型参数量和训练数据量三者的大小相关,而与模型的具体结构(层数/深度/宽度)基本无关。
听着有些拗口,说人话就是,大模型的性能会随着模型规模、训练数据量和计算资源的增加而相应提升。
OpenAI 的这项研究奠定了后续大模型发展的基础,不仅促成了 GPT 系列模型的成功,也为训练 ChatGPT 提供了优化模型设计与训练的关键指导原则。
只是,当我们现在还在畅想着 GPT-100 时,The Information 的爆料表明,仅仅增加模型规模已经不能保证性能的线性提升,且伴随着高昂成本和显著的边际效益递减。
而遭遇困境的并非仅有 OpenAI 一家。
彭博社援引知情人士的消息称,Google 旗下的 Gemini 2.0 同样未能达到预期目标,与此同时,Anthropic 旗下的 Claude 3.5 Opus 的发布时间也一再推迟。
在争分夺秒的 AI 行业,没有产品的新消息往往意味着最大的坏消息。
需要明确的是,这里所说的 Scaling Laws 遇到瓶颈并非意味着大模型发展就此终结,更深层的问题在于高昂成本导致边际效益的严重递减。
Anthropic CEO Dario Amodei 曾透露,随着模型变得越来越大,训练成本呈现爆炸式增长,其目前正在开发的 AI 模型的训练成本就高达 10 亿美元。
Amodei 还指出,未来三年内,AI 的训练成本还将飙升到 100 亿美元甚至 1000 亿美元的天文数字。
以 GPT 系列为例,仅 GPT-3 的单次训练成本就高达约 140 万美元,这些支出主要来自于强大的计算资源消耗,尤其是 GPU 的使用费用,以及巨额的电力支出。
单是 GPT-3 的训练就消耗了 1287 兆瓦时的电力。
去年,加州大学河滨分校的研究显示,ChatGPT 每与用户交流 25-50 个问题,就得消耗 500 毫升的水,预计到 2027 年,全球 AI 的年度清洁淡水需求量可能达到 4.2-66 亿立方米,相当于 4-6 个丹麦或半个英国的年度用水总量。
从 GPT-2 到 GPT-3,再到 GPT-4,AI 所带来的体验提升是跨越式的。
正是基于这种显著的进步,各大公司才会不惜重金投入 AI 领域。但当这条道路逐渐显露尽头,单纯追求模型规模的扩张已无法保证性能的显著提升,高昂的成本与递减的边际效益成为了不得不面对的现实。
现在,比起一味追求规模,在正确的方向上实现 Scaling 显得更加重要。
再见,GPT;你好,推理「O」
墙倒众人推,连理论也是如此。
当 Scaling Laws 疑似触及瓶颈的消息在 AI 圈内引发轩然大波时,质疑的声浪也随之翻涌而来。
一直持反主流立场的图灵奖得主、Meta AI 首席科学家 Yann Lecun,昨天兴奋地在 X 平台转载了路透社采访 Ilya Sutskever 的采访,并附文称:
「我不想显得事后诸葛亮,但我的确提醒过你。
引用:「AI 实验室 Safe Superintelligence(SSI)和 OpenAI 的联合创始人伊利亚·苏茨克韦尔(Ilya Sutskever)最近向路透社表示,通过扩大预训练阶段——即使用大量未经标注的数据来训练 AI 模型,使其理解语言模式和结构——所取得的成果已经停滞不前。」
回顾这位 AI 巨头过去两年对现行大模型路线的评判,可谓是字字珠玑,句句见血。
例如,今天的 AI 比猫还笨,智力差太远;LLM 缺乏对物理世界的直接经验,只是操纵着文字和图像,却没有真正理解世界,强行走下去只会死路一条等等。
时间拨回两个月前,Yann Lecun 更是毫不客气地给当下主流路线判了死刑。在一众 AI 末日论中,在众多 AI 末日论中,他还坚定地认为声称 AI 将威胁人类生存的言论纯属无稽之谈:
- 大型语言模型(LLMs)无法回答其训练数据中未包含的问题,
- 它们无法解决未经训练的难题,
- 它们无法在缺乏大量人类帮助的情况下学习新技能或知识,
- 它们无法创造新的事物。 目前,大型语言模型只是人工智能技术的一部分。 单纯地扩大这些模型的规模,并不能使它们具备上述能力。
同在 Meta FAIR 任职的田渊栋博士则更早预见了当前的困境。
5 月份在接受媒体采访时,这位华人科学家曾悲观地表示,Scaling Laws 也许是对的,但不会是全部。在他看来,Scaling Laws 的本质是以指数级的数据增长,来换取「几个点的收益」。
「最终人类世界可能会有很多长尾需求,需要人类的快速反应能力去解决,这些场景的数据本身也很少,LLM 拿不到。Scaling law 发展到最后,可能每个人都站在一个「数据孤岛」上,孤岛里的数据完全属于每个人自己,而且每时每刻都不停产生。专家学会和 AI 融合,把自己变得非常强,AI 也代替不了他。」
不过,形势或许还没有到如此悲观的境地。
客观而言,Ilya 在接受路透社的采访时,虽然承认了 Scaling Laws 带来的进展已趋于停滞,但并未宣告其终结。
「2010 年代是追求规模化的时代,而现在我们再次进入了一个充满奇迹和探索的新时代。每个人都在寻找下一个重大突破。在当下,选择正确的事物进行规模化比以往任何时候都更为关键。」
并且,Ilya 还表示 SSI 正在探索一种新的方法来扩展预训练过程。
Dario Amodei 最近在一档播客中也谈及此事。
他预测,在人类水平以下,模型并不存在绝对的天花板。既然模型尚未达到人类水平,就还不能断言 Scaling Laws 已经失效,只是确实出现了增长放缓的现象。
自古,山不转水转,水不转人转。
上个月,OpenAI 的研究员 Noam Brown 在 TED AI 大会上表示:
「事实证明,在一局扑克中,让一个机器人思考 20 秒钟,得到的性能提升与将模型扩展 100000 倍并训练它 100000 倍长的时间一样。」
而对于 Yann lecun 昨天的事后诸葛亮言论,他这样回应:
「现在,我们处于一个这样的世界,正如我之前所说,进入大规模语言模型预训练所需的计算量非常非常高。但推理成本却非常低。曾有许多人合理地担心,随着预训练所需的成本和数据量变得如此庞大,我们会看到 AI 进展的回报递减。但我认为,从 o1 中得到的一个真正重要的启示是,这道墙并不存在,我们实际上可以进一步推动这个进程。因为现在,我们可以扩展推理计算,而且推理计算还有巨大的扩展空间。」
以 Noam Brown 为代表的研究者坚信推理/测试时计算(test-time compute),极有可能成为提升模型性能的另一个灵丹妙药。
说到这里,就不得不提到我们熟悉的 OpenAI o1 模型。
与人类的推理方式颇为相似,o1 模型能够通过多步推理的方式「思考」问题,它强调在推理阶段赋予模型更充裕的「思考时间」,其核心秘密是,在像 GPT-4 这样的基础模型上进行的额外训练。
例如,模型可以通过实时生成和评估多个可能的答案,而不是立即选择单一答案,最终选择最佳的前进路径,这样就能够将更多的计算资源集中在复杂任务上,比如数学问题、编程难题,或者那些需要人类般推理和决策的复杂操作。
Google 最近也在效仿这条路线。
The Information 报道称,最近几周,DeepMind 在其 Gemini 部门内组建了一个团队,由首席研究科学家 Jack Rae 和前 Character.AI 联合创始人 Noam Shazeer 领导,旨在开发类似的能力。
与此同时,不甘落后的 Google 正在尝试新的技术路径,包括调整「超参数」,即决定模型如何处理信息的变量,比如它在训练数据中的不同概念或模式之间建立联系的速度,以查看哪些变量会带来最佳结果。
插个题外话,GPT 发展放缓的一个重要原因是高质量文本和其他可用数据的匮乏。
而针对这个问题,Google 研究人员原本寄希望于使用 AI 合成数据,并将音频和视频纳入 Gemini 的训练数据,以实现显著改进,但这些尝试似乎收效甚微。
知情人士还透露,OpenAI 和其他开发者也使用合成数据。不过,他们也发现,合成数据对 AI 模型提升的效果十分有限。
你好,贾维斯
再见,GPT,你好,推理「o」。
在前不久举行的 Reddit AMA 活动上, 一位网友向 Altman 提问,是否会推出「GPT-5」,以及推理模型 o1 的完整版。
当时,Altman 回答道:「我们正在优先推出 o1 及其后续版本」,并补充说,有限的计算资源使得同时推出多个产品变得困难。
他还特别强调,下一代模型未必会延续「GPT」的命名方式。
现在看来,Altman 急于与 GPT 命名体系划清界限,转而推出以「o」命名的推理模型,其背后似有深意。而推理模型的布局或许还是在于为当下主流的 Agent 埋下伏笔。
最近,Altman 在接受 YC 总裁 Garry Tan 的采访时,也再次谈到了 AGI 五级理论:
- L1:聊天机器人具有对话能力的 AI,能够与用户进行流畅的对话,提供信息、解答问题、辅助创作等,比如聊天机器人。
- L2:推理者像人类一样能够解决问题的 AI,能够解决类似于人类博士水平的复杂问题,展现出强大的推理和问题解决能力,比如 OpenAI o1。
- L3:智能体不仅能思考,还可以采取行动的 AI 系统,能够执行全自动化业务。
- L4:创新者能够协助发明创造的 AI,具有创新的能力,可以辅助人类在科学发现、艺术创作或工程设计等领域产生新想法和解决方案。
- L5:组织者可以完成组织工作的 AI,能够自动掌控整个组织跨业务流程的规划、执行、反馈、迭代、资源分配、管理等,基本上已经与人类差不多。
所以我们看到,与 Google 和 Anthropic 一样,OpenAI 现在正在将注意力从模型转移到一系列称为 Agent 的 AI 工具上。
最近,彭博社也曝出,OpenAI 正在准备推出一款名为「Operator」的新型 AI Agent,能够使用计算机代替用户执行任务,如编写代码或预订旅行。
在周三的一次员工会议上,OpenAI 领导层宣布计划在一月发布该工具的研究预览版,并通过公司的应用程序接口(API)向开发者开放。
在此之前,Anthropic 也推出了类似的 Agent,够实时处理用户计算机任务并代为执行操作。与此同时,微软近期推出了一套面向员工的 Agent 工具,用于发送邮件和管理记录。
而 Google 也正在筹备推出自己的 AI Agent。
报道还透露,OpenAI 正在进行多个与 Agent 相关的研究项目。其中,最接近完成的是一款能够在网页浏览器中执行任务的通用工具。
这些 Agent 预计将能够理解、推理、规划并采取行动,而这些 Agent 实际上是一个由多个 AI 模型组成的系统,并非单一模型。
比尔·盖茨曾经说过,「每个桌面上都有一台 PC」,史蒂夫·乔布斯说过,「每个人的手上都有一部智能手机」。现在我们可以大胆预测:每个人都将拥有自己的 AI Agent。
当然,人类的终极目标是,我们更希望有一天能够对着眼前的 AI 说出那句电影的经典对白:
你好,贾维斯
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。