Normal view

There are new articles available, click to refresh the page.
Yesterday — 21 December 2024Main stream

苹果正在与英伟达合作,想让 AI 的响应速度更快

By: 范津瑞
21 December 2024 at 12:00

近日,苹果与英伟达宣布合作,旨在加速和优化大语言模型(LLM)的推理性能。

为了改善传统自回归 LLM 推理效率低内存带宽小的问题,今年早些时候,苹果机器学习的研究人员发布并开源了一种名为「ReDrafter」(Recurrent Drafter,循环草稿模型)的推测解码技术。

▲图源:GitHub

目前,ReDrafter 已经整合到英伟达的可扩展推理方案「TensorRT-LLM」当中,后者是基于「TensorRT」深度学习编译框架的专为优化 LLM 推理而设计的开源库,支持包括「Medusa」等推测解码方法。

不过,由于 ReDrafter 所包含的算法使用了之前从未用过的运算符,因此英伟达方面添加了新的运算符,或者公开了现有的运算符,大大提高了 TensorRT-LLM 适应复杂模型和解码方式的能力。

▲图源:GitHub

据悉,ReDrafter 推测解码通过三个关键技术来加速 LLM 的推理过程:

  • RNN 草稿模型
  • 动态树注意力算法
  • 知识蒸馏训练

RNN 草稿模型是 ReDrafter 的「核心」组件。它使用循环神经网络(Recurrent Neural Network),基于 LLM 的「隐藏状态」来预测接下来可能出现的 tokens 序列,其能够捕捉局部的时间依赖性,从而提高预测准确性。

这个模型的工作原理是:LLM 在文本生成过程中首先生成一个初始 token,然后 RNN 草稿模型利用该 token 和 LLM 的最后一层隐藏状态作为输入进行束搜索(Beam Search),进而生成多个候选 tokens 序列。

与传统自回归 LLM 每次只生成一个 token 不同,通过 RNN 草稿模型的预测输出,ReDrafter 能够在每个解码步骤生成多个 tokens,大大减少了需要调用 LLM 验证的次数,从而提高了整体的推理速度。

▲图源:arXiv

动态树注意力算法(Dynamic Tree Attention)则是一种优化束搜索结果的算法。

我们已经知道,在束搜索过程中会产生多个候选序列,而这些序列往往存在共享的前缀。动态树注意力算法会识别出这些共享前缀,并将它们从需要验证的 tokens 中去除,从而减少 LLM 需要处理的数据量。

某些情况下,该算法能将需要验证的 tokens 数量减少 30% 到 60%。这意味着使用动态树注意力算法后,ReDrafter 能够更高效地利用计算资源,进一步提高推理速度。

▲图源:NVIDIA

知识蒸馏是一种模型压缩技术,它能够将一个大型、复杂的模型(教师模型)的知识「蒸馏」到一个更小、更简单的模型(学生模型)中。在 ReDrafter 中,RNN 草稿模型作为学生模型通过知识蒸馏从 LLM(教师模型)中学习。

具体来讲,蒸馏训练过程中,LLM 会给出一系列下一个可能词的「概率分布」,开发人员会基于这个概率分布数据训练 RNN 草稿模型,然后计算两个模型概率分布之间的差异,并通过优化算法使这个差异最小化。

在这个过程中,RNN 草稿模型不断学习 LLM 的概率预测模式,从而在实际应用中能够生成与 LLM 相似的文本。

通过知识蒸馏训练,RNN 草稿模型更好地捕捉到语言的规律和模式,从而更准确地预测 LLM 的输出,并且因为其较小的规模和较低的推理计算成本,显著提高了 ReDrafter 在有限硬件条件下的整体性能。

▲图源:阿里云开发者社区

苹果的基准测试结果显示,在 NVIDIA H100 GPU 上对数十亿参数的生产模型使用集成了 ReDrafter 的 TensorRT-LLM 时,其贪心解码(Greedy Decoding)每秒生成的 tokens 数量提高了 2.7 倍。

此外,在苹果自家的 M2 Ultra Metal GPU 上,ReDrafter 也能实现 2.3 倍的推理速度提升。苹果的研究人员表示「LLM 越来越多地用于驱动生产应用程序,提高推理效率既可以影响计算成本,也可以降低用户端延迟」。

▲图源:Apple

值得一提的是,在保持输出质量的同时,ReDrafter 减少了对 GPU 资源的需求,这使得 LLM 在资源受限的环境中也能高效地运行,为 LLM 在各种硬件平台上的使用提供了新的可能性。

苹果目前已经在 GitHub 上开源了这项技术,未来从中获益的公司将很可能不止英伟达一家。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Before yesterdayMain stream

英伟达推出「最便宜」AI 超算,想让每个人都踏入 AI 世界

By: 范津瑞
18 December 2024 at 18:00

2019 年,人工智能技术快速进步,AI 应用不断广泛深入。彼时,英伟达(NVIDIA)推出了面向「嵌入式设计师、研究人员和 DIY 制造商」的 AI 计算机以及开发套件「Jetson Nano」,售价 499 美元(约合 3638 元)。

▲Jetson Nano(图源:NVIDIA)

近日,英伟达发布了 Jetson Nano 的升级版,也是目前该系列中「最便宜」的 AI 超级计算机及其开发套件「Jetson Orin Nano Super」。在性能更强的同时,价格还降低了一半,仅售 249 美元(约合 1809 元)。

按照英伟达的官方说法,Nano Super 的受众是「商业 AI 开发者、业余爱好者和学生」。的确,不到 2000 元的价格对于那些初次接触生成式 AI、机器人技术或者计算机视觉技术的人群来讲,还算友好。

也许,这也表明了目前使用 AI 进行推理任务的成本正在逐渐降低。

▲Jetson Orin Nano Super(图源:NVIDIA)

相较于前代,Nano Super 的 AI 推理性能提升了 1.7 倍,整体性能提高了 70%,达到 67 INT8 TOPS。此外,Nano Super 的内存带宽增加至 102GB/s,比前代产品提升了 50%;CPU 频率也从前代的 1.5GHz 提升至 1.7GHz。

整个 Nano Super 开发套件包含 Jetson Orin Nano 8GB 系统级模块(SoM)和一个参考载板,SoM 配备了 NVIDIA Ampere 架构 GPU 和 6 核 Arm CPU,支持多个并发 AI 应用管道和高性能推理。

另外,它还支持调用最多四个摄像头,并且提供比之前的版本更高的分辨率和帧速率。

▲图源:NVIDIA

英伟达声称 Nano Super 的性能提升为所有流行的生成式人工智能模型和基于变换器(transformer)的计算机视觉带来了好处。

不仅如此,由于 Nano Super 套件的硬件与其前代 Orin Nano 的硬件基本相同,因此之前购入了 Orin Nano 的用户通过安装软件更新(JetPack SDK),也能体验到 Nano Super 的性能升级。

英伟达称,这是一份「持续给予的礼物」。

▲图源:NVIDIA

在英伟达生态的加持下,开发者可以从 NVIDIA Jetson AI 实验室获取教程,还可以在更广泛的 Jetson 社区获得支持和帮助,或者从其他开发者创建的项目中获得灵感等等。

英伟达表示,无论是创建基于检索增强生成的 LLM 聊天机器人、构建视觉 AI 代理还是部署基于 AI 的机器人,Nano Super 都是「理想的解决方案」,并且期待它能够加速 AI 驱动机器人技术在多个行业的发展。

随着人工智能领域从特定任务模型逐渐转向更为通用的基础模型,Nano Super 无疑为技术爱好者们提供了一个将想法变为现实的「最实惠」可访问平台。正如英伟达所说:

现在每个人都可以通过生成式 AI 解锁新的可能性

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


遭遇史上最大亏损,英特尔 CEO「被下岗」

By: 范津瑞
3 December 2024 at 18:30

据报道,英特尔宣布其首席执行官帕特·基辛格 (Pat Gelsinger)已于 12 月 1 日正式退休,并且已经退出了公司董事会。

彭博社的消息透露称,上周基辛格与董事会讨论了重夺市场份额并缩小与英伟达的差距方面的进展,两者之间的冲突已经「到达顶点」。知情人士表示基辛格可以选择退休或者被撤职,并宣布结束在英特尔的职业生涯。

这意味着基辛格实际上是被英特尔董事会「赶下台」的。随后英特尔的新领导层召开了全体员工大会,通报了基辛格退休的消息,并强调这是他的「个人决定」。

戏剧性的是,上个月基辛格还表示自己「有很大的精力和热情」,并且「仍然得到董事会的支持」。

▲英特尔 CEO 帕特·基辛格(图源:VideoCardz)

对于「被下岗」的境遇,基辛格在一份声明中表示自己「苦乐参半」:

领导英特尔是我一生的荣幸,这群人是业内最优秀、最聪明的人之一,我很荣幸能称他们每个人都为同事。今天当然是苦乐参半的,因为在我职业生涯的大部分时间里,这家公司一直是我的生命。我可以自豪地回顾我们共同取得的一切成就。对我们所有人来说,这都是充满挑战的一年,因为我们做出了艰难但必要的决定,使英特尔在当前的市场动态中处于领先地位。我永远感激世界各地的许多同事,他们是英特尔大家庭的一员,曾与我共事过。

基辛格离职的消息一出,英特尔的股价应声上涨。而英特尔的股价年初至今的跌幅达 52%,较基辛格接任 CEO 时累计下跌了 60%。

▲图源:Sustainability News

基辛格卸任之后,英特尔的首席财务官(CFO)大卫·津斯纳(David Zinsner)和执行副总裁米歇尔·约翰斯顿·霍尔索斯(Michelle Johnston Holthaus)被任命为临时联合首席执行官。

同时,霍尔索斯还被任命为新设立的英特尔产品事业部的首席执行官,该部门涵盖了公司的客户端计算事业部、数据中心与人工智能事业部以及网络与边缘事业部。

不过,两人的上任遭到了英特尔员工的质疑,他们指出两人并不具备基辛格那样的技术专长。

Intel 董事会独立主席弗兰克·耶里(Frank D. Yeary)将在过渡期间担任临时执行主席。耶里表示目前应该「致力于恢复投资者的信心」,并且「必须将产品事业部置于一切工作的中心地位」。

此外,英特尔表示其芯片设计和制造部门的领导架构将保持不变,同时董事会已经成立遴选委员会,正在寻找基辛格的继任者。对此,分析师汉斯·莫斯曼(Hans Mosesmann)表示英特尔内部「没有潜在的候选人」。

▲弗兰克·耶里(图源:Intel)

纵观英特尔的发展历程,基辛格的履历相当令人唏嘘。他为这家公司做出了不可磨灭的贡献,但也的确在近期公司运营方面出现了不少问题和战略失误。

1979 年,年仅 18 岁的基辛格加入了英特尔,开启了他的职业生涯,十年后他就成为了英特尔第 4 代 80486 处理器的首席架构师。32 岁时,他被评为公司历史上最年轻的副总裁,并于 2001 年上任英特尔首席技术官(CTO)。

基辛格曾在 2009 年离职,但迫于英特尔「来自激进投资者要求重组的不断增加的压力」,2021 年,他重返英特尔担任公司 CEO,并启动了一个雄心勃勃的「五年计划」,推动在美国和海外建设大规模的芯片制造工厂。

▲图源:Manufacturing Today

然而,基辛格回归后的公司发展也并不尽如人意。

2022 年初,英特尔的 PC 芯片收入下降了 25%,在数据中心芯片领域与 AMD 的竞争中宣告落败;同年,英特尔未能与 Alphabet 的自动驾驶汽车部门 Waymo 达成芯片供应协议,也失去了为索尼下一代 PS 供应芯片的机会。

2023 年,英特尔的 18A 芯片制造工艺未能满足可靠性预期,苹果和高通选择放弃使用这一芯片。据悉,2023 年英特尔的收入缩减至 540 亿美元,比基辛格上任时下降了约三分之一。

今年 10 月,英特尔的报告显示季度亏损高达 166 亿美元,这是其 56 年历史上最大的亏损。分析师预计该公司今年将亏损 36.8 亿美元,这将是英特尔自 1986 年以来的首次年度净亏损

为了扭转亏损局面,英特尔大幅削减了股息,暂停或延迟了多个芯片制造设施的建设,并将裁员 15% 以上,甚至考虑出售其自动驾驶部门 Mobileye 和企业网络部门。

▲图源:Data Center Knowledge

据彭博社分析,英特尔所面临的最大挑战之一就是人工智能计算推动的行业变革,此前作为竞争对手的英伟达已经在该领域占据了绝对主导地位,而英特尔试图通过新产品打入该市场,但并没有掀起什么浪花。

股权研究公司 Wolfe Research 的分析师克里斯·卡索(Chris Caso)对此表示「虽然基辛格在推进英特尔的流程路线图方面总体上取得了成功,但鉴于英特尔没有人工智能,我们认为英特尔没有规模自行追求领先的制造」。

对于英特尔的未来发展,英特尔的新领导层在员工大会上指出公司的目标不会改变:降本增效的同时,在产品和关键的 18A 芯片工艺方面表现地更好。

现任临时执行主席的耶里则表示公司的「优先事项」是简化和加强产品组合,提升晶圆制造和代工能力,并且优化运营开支和资本。耶里的愿景是打造一个更精简、更简单、更敏捷的英特尔。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


黄仁勋两万字访谈实录:希望英伟达拥有 5 万名员工和 1 亿个 AI 助手

By: 范津瑞
11 November 2024 at 09:30

NVIDIA(英伟达)公司 CEO 黄仁勋近期做客「Open Source」双周对话,同 Brad Gerstner 与 Altimeter 合伙人 Clark Tang 一起探讨了与关于推动智能向通用人工智能(AGI)发展的主题。

在 AI 和机器学习领域深耕多年,黄仁勋对 AI 发展现状和前景的评价一针见血:这是一场彻底的革命。

推理迎来爆炸式增长,开源模型需求量爆棚,完整兼容的 AI 基础设施不断落地……这个 AI 大行其道的时代,黄仁勋大胆构想,希望未来的英伟达能够拥有 5 万名员工和 1 亿个 AI 助手。

当谈及英伟达在当今 AI 世界的竞争壁垒和定位时,黄仁勋对自身优势十分自信清醒,同时也有着不小的野心:英伟达最擅长的是算法,我们的使命是为新世界构建一个无处不在的计算平台。

当然,有别于争夺市场份额,这颗野心只关乎「开拓」。

在时长近一个半小时的访谈中,黄仁勋眼光犀利地剖析了机器学习如何重塑计算世界,AI 如何带来前所未有的技术革命,并最终掀起巨大的革命浪潮。此外,还涉及 AI 的安全性和开源争议等话题。

看似高冷的皮夹克之下,是黄仁勋对 AI 领域的炽热初心:我会认真对待工作,认真对待责任,认真对待社会贡献以及我们所处的时代。

本次访谈的信息密度相当之大,对于 AI 行业的探讨也前所未有的深入,不容错过!

原访谈视频链接:

我们对黄仁勋在本次访谈中的主要观点做了简要梳理,如下:

  • 个人 AI 助手将很快出现,并且会随时间不断进化;
  • 我们已经从人类编程转向了机器学习,整个技术栈都在实现创新和增长;
  • 促进 AI 的加速进化,需要对「飞轮」的每个部分都进行加速;
  • 未来的计算(应用程序开发)将高度依赖机器学习和 AI,并且会有智能体来帮助人类使用这些应用程序;
  • AI 不会取代工作,它将改变工作,并将对人们如何看待工作产生深远影响;
  • AI 的安全是基础,不一定需要为每一项重要技术单独立法,也不能让监管过度扩展到不必要的领域;
  • 必须有开源模型来推动 AI 的创建,开源对于许多行业的激活是必要的;

以下是由 APPSO 编译的访谈全文:

从人类编程转向机器学习

Brad Gerstner:现在是 10 月 4 日星期五,我们在英伟达总部,就在 Altimeter 街下。我们将在周一召开年度投资者会议,讨论 AI 的所有影响,以及我们在智能扩展速度上的进展。

我真的想不出比你更合适的人来开启这个话题了,你既是股东,也是我们的智囊伙伴,和你一起探讨想法总能让我们变得更加明智。我们对这段友谊表示感激,所以感谢你的到来。

黄仁勋:很高兴来到这里。

Brad Gerstner:今年的主题是将智能扩展到通用人工智能(AGI)。

令人震撼的是,两年前我们做这个的时候,主题是 AI 时代,而那是在 ChatGPT 发布前两个月。想到这一切变化,真的是让人惊讶。所以我想我们可以以一个思想实验来开始,也许还可以做个预测。

如果我把通用人工智能(AGI)简单理解为我口袋里的个人助手,正如我所理解的那样,它知道我所有的事情,拥有关于我的完美记忆,能够与我沟通,可以为我预订酒店,甚至可以为我预约医生。在你看来,今天这个世界的变化速度如此之快,你认为我们什么时候能够拥有这种口袋里的个人助手?

黄仁勋:很快会以某种形式出现。那个助手会随着时间的推移变得越来越好。这就是我们所了解的技术的美妙之处。所以我认为,刚开始时它会非常有用,但并不完美。然后随着时间的推移,它会变得越来越完美。就像所有技术一样。

Brad Gerstner:当我们观察变化速度时,我记得 Elon 曾说过,唯一重要的事情是变化速度。我们确实感到变化的速度大大加快了,这是我们在这些问题上见过的最快的变化速度,因为我们在 AI 领域已经研究了大约十年,而你甚至更久一些。在你的职业生涯中,这是你见过的最快的变化速度吗?

黄仁勋:是的,因为我们重新发明了计算。这些变化很大程度上是因为我们在过去 10 年内将计算的边际成本降低了 10 万倍。如果按照摩尔定律计算,这个过程大约是 100 倍的提升,但我们做到了远远超过这一点。我们通过几种方式实现了这一目标。

首先,我们引入了加速计算,将在 CPU 上效率不高的工作转移到 GPU 上。

其次,我们发明了新的数值精度,开发了新的架构,设计了集成核心,改进了系统的构建方式,NVLink 增加了超快的内存(HBM),并通过 NVLink 和 InfiniBand 实现了全栈扩展。基本上,所有我描述的关于英伟达做事方式的细节,都促成了超越摩尔定律的创新速度。

现在,真正令人惊叹的是,正因为如此,我们从人类编程转向了机器学习。

而机器学习最令人惊讶的地方在于,事实证明它的学习速度非常快。所以,随着我们重新定义计算的分布方式,我们进行了多种形式的并行处理:张量并行、流水线并行,以及各种各样的并行计算方式。我们在这一基础上发明了新算法,并开发了新的训练方法。所有这些发明都在彼此之间产生了复合效应。

回到过去,如果你看看摩尔定律当时的运作方式,会发现软件是静态的。它被预设为像包装好的产品一样静态存在,然后硬件则以摩尔定律的速度发展。而现在,我们是整个技术栈在增长,整个栈都在进行创新,我认为这就是现状。

现在突然之间我们看到了惊人的扩展,当然,这是非凡的变化。但我们以前讨论的是预训练模型以及在这个层面上的扩展,如何通过将模型大小翻倍,适当地将数据量也翻倍。

因此,每年所需的计算能力都会增加 4 倍。这当时是个大事。但现在我们看到了在后训练阶段的扩展,也看到了推理阶段的扩展,对吧?人们过去常认为预训练很难,而推理相对容易。

现在一切都变得很难,这种观点其实是合理的,毕竟将所有人类的思维都归结为一次性完成的过程是荒谬的。所以思维一定存在快思维和慢思维、推理、反思、迭代、模拟等概念,而现在这些概念正在逐渐融入进来。

Clark Tang:我认为,就这一点而言,关于英伟达最被误解的一件事就是英伟达的真正技术优势有多大,对吧?我认为外界有一种看法,认为一旦有人发明了一种新芯片或者更好的芯片,他们就赢了。

但事实是,过去十年你们一直在构建完整的技术栈,从 GPU 到 CPU,再到网络,尤其是那些让应用程序能够在英伟达平台上运行的软件和库。你认为今天英伟达的技术优势比三到四年前更大还是更小?

黄仁勋:我很感谢你意识到计算已经发生了变化。事实上,人们之所以认为(现在很多人仍然这么认为)设计一款更好的芯片就行了,是因为它有更多的浮点运算能力(flops),有更多的翻转、字节和位,你懂我的意思吗?你看他们的主题演讲幻灯片,上面都是这些翻转和浮点运算,还有各种条形图、图表之类的。

这些都很好,我的意思是,性能当然很重要,所以这些基本上确实很重要。然而,不幸的是,这是老旧的思维方式。因为那时的软件只是在 Windows 上运行的某个应用程序,软件是静态的,这意味着你能改进系统的最好方式就是制造越来越快的芯片。

但我们意识到,机器学习不是人类编程。机器学习不仅仅是关于软件,它是关于整个数据通路的。事实上,机器学习的核心飞轮(flywheel)是最重要的东西。那么,你是如何考虑在推动这个飞轮的同时,让数据科学家和研究人员能够在这个飞轮中高效工作的?而这个飞轮从最最初的阶段就开始了。

许多人甚至没有意识到,实际上需要 AI 来整理数据,来教导另一个 AI。而仅仅这个 AI 本身就已经相当复杂了。

▲个人 AI 助手将很快以某种方式出现(图源:NITCO)

加速飞轮的每一步

Brad Gerstner:那它本身也在改进吗?它是否也在加速?你知道,当我们再一次思考竞争优势时,对吧?这实际上是所有这些因素的组合效应。

黄仁勋:完全正确,正是因为更智能的 AI 来整理数据,现在我们甚至有了合成数据生成以及各种不同的数据整理和呈现方式。所以在你进行训练之前,就已经涉及到大量的数据处理。而人们总是想到 PyTorch 是整个世界的起点和终点。

它确实非常重要,但不要忘了,在使用 PyTorch 之前有大量的工作,使用 PyTorch 之后也有大量工作。而关于飞轮的概念,实际上是你应该思考的方式。你知道,我应该怎么去思考整个飞轮?我该如何设计一个计算系统,一个计算架构,帮助你让这个飞轮尽可能高效运转?这并不是一个应用训练的单一步骤,对吧?这只是其中一步,好吗?

飞轮的每一步都很困难,所以你应该首先思考的不是如何让 Excel 更快运行,也不是如何让「毁灭战士」更快运行,那是过去的老路,对吧?

现在你需要考虑的是如何让这个飞轮更快。而这个飞轮包含了很多不同的步骤,正如你们所知道的,机器学习没有什么是简单的,OpenAI 所做的事情,或者 X 所做的事情,或者 Gemini 团队和 DeepMind 所做的事情,都没有什么是简单的。

因此我们决定,这才是你应该真正思考的。这是整个过程,你需要加速每一个部分。你要尊重阿姆达(Amdahl)定律,阿姆达定律会告诉你,如果这个部分占用了 30% 的时间,我将它加速了 3 倍,我并没有真的将整个过程加速太多,明白吗?

你真的需要创建一个能加速每一步的系统,只有通过加速整个过程,你才能真正显著改善这个循环时间,而那个学习速率飞轮,最终就是导致指数式增长的原因。

所以我要说的是,一个公司的观点实际上会反映在它的产品上。注意,我一直在谈论这个飞轮。

Clark Tang:你是说整个周期。

黄仁勋:没错,而且我们现在加速了一切。现在的主要焦点是视频。很多人都专注于物理 AI 和视频处理。试想一下前端,每秒有数 TB 的数据进入系统。给我举个例子,说明处理这些数据的管道是如何运行的,从数据摄取到准备进行训练的全过程,而这一切都是 CUDA 加速的。

Clark Tang:现在人们只在思考文本模型,但未来还包括视频模型,同时使用一些文本模型,比如 o1,来在我们开始处理之前先处理大量的数据。

黄仁勋:语言模型将会涉及到每一个领域。行业花费了大量技术和精力来训练语言模型,来训练这些大型语言模型。现在我们在每一步都使用更低的计算成本。这真的非常了不起。

Brad Gerstner:我不想过于简单化这个问题,但我们确实经常从投资者那里听到这样的问题,对吧?是的,但定制化芯片呢?是的,但他们的竞争壁垒会不会因此被打破?

我听到你所说的是,在这个组合系统中,优势是随着时间增长的。所以我听你说,我们今天的优势比三四年前更大,因为我们在改进每一个组件。而这种组合效应,意味着你知道,比如作为一个商业案例研究,英特尔曾经在技术栈中占据主导地位,而你们今天相对他们而言处于什么位置?

也许可以简单概括一下,比较一下你们今天的竞争优势与他们在巅峰时期的竞争优势。

黄仁勋:英特尔是非凡的。英特尔之所以非凡,是因为他们可能是第一家在制造工艺工程和生产方面极其出色的公司,而在制造工艺的基础上更进一步的是设计芯片,对吧?他们设计了芯片,构建了 x86 架构,并且不断制造更快的 x86 芯片。这是他们的聪明之处。他们将这一点与制造工艺加以结合。

我们的公司稍微有些不同,因为我们认识到,事实上,平行处理并不需要每个晶体管都非常完美。串行处理要求每个晶体管都必须完美无缺,而平行处理需要大量的晶体管以实现更高的成本效益。

我宁愿要多 10 倍的晶体管,速度慢 20%,也不愿要少 10 倍的晶体管,速度快 20%。明白吗?他们则更喜欢相反的选择,因此单线程性能和单线程处理与平行处理非常不同。所以我们意识到,实际上我们的世界并不是追求往下做得更好。我们想做到尽可能的好,但我们的世界真正关心的是如何往上做得更好。

并行计算、并行处理很难,因为每个算法都需要根据架构以不同的方式重构和重新设计。人们没有意识到的是,你可以有三种不同的 CPU,它们都有各自的 C 编译器,你可以把软件编译到相应的 ISA(指令集架构)上。这在加速计算中是不可能的,在并行计算中也是不可能的。

开发出架构的公司必须开发出自己的 OpenGL。所以我们彻底改变了深度学习,因为我们有一个特定领域的库,叫做 CUDNN。没有 CUDNN,就没有今天的深度学习。

没有人谈论 CUDNN,因为它是在 PyTorch 和 TensorFlow 之下的一层。早期还有 Caffe 和 Theano,现在有 Triton,还有很多不同的框架。那个特定领域的库,像 CUDNN,还有 Optics,一个特定领域的库叫做 CuQuantum,Rapids,还有其他很多库。

Brad Gerstner:行业特定的算法就位于那个大家都关注的 PyTorch 层之下,比如我经常听到人们说,如果没有这些底层库的话……

黄仁勋:如果我们没有发明它,任何顶层的应用程序都无法运行。你们明白我在说什么吗?从数学上讲,英伟达真正擅长的是算法,它融合了上层的科学与下层的架构,这是我们真正擅长的。

▲黄仁勋在访谈中

我们已经进入推理时代

Clark Tang:现在所有的关注点终于集中到了推理上。但是我记得两年前,Brad 和我和你共进晚餐时,我们问你一个问题:你认为英伟达在推理领域的技术优势会像在训练领域一样强大吗?

黄仁勋:我肯定说过,它会更强大。

Clark Tang:你刚才提到了很多因素,比如模块化组合,不同组合的总成,有时我们并不完全了解。对于客户来说,能够在这些之间灵活切换非常重要。但你能不能再谈谈,现在我们已经进入了推理时代。

黄仁勋:推理就是大规模的推理训练,对吧?所以,如果你训练得好,那么很有可能你的推理也会很好。如果你在这种架构上进行训练而没有任何调整,它将能够在这种架构上运行。

当然,你依然可以为其他架构进行优化,但至少,因为它已经是在英伟达的架构上构建的,所以它能够在英伟达的架构上运行。

另一个方面,当然,还有资本投资方面的问题。当你训练新模型时,你会希望使用最新最好的设备进行训练,而这会留下之前使用过的设备。而这些设备非常适合用于推理。因此,会有一条免费的设备路径。

新的基础设施背后有一条免费的基础设施链,这些设备与 CUDA 兼容。所以我们非常严谨,确保整个过程的兼容性,这样我们留下的设备依然能够保持卓越性能。

同时,我们也投入了大量精力,不断重新发明新的算法,以确保当时机来临时,Hopper 架构的性能会比刚购买时提升 2 到 4 倍,从而让基础设施继续保持高效。

所以,我们在改进新算法、新框架方面所做的所有工作,不仅帮助了我们每一个安装的基础架构,Hopper 因此变得更好,Ampere 也因此变得更好,甚至 Volt 也因此变得更好。

我记得 Sam 刚刚告诉我,他们最近刚从 OpenAI 退役了他们的 Volt 基础设施。所以,我认为我们留下了这些安装基础架构的痕迹。正如所有计算基础架构一样,安装基础架构是很重要的。

英伟达的产品遍布每一个云端、内部部署,直到边缘设备。因此,在云端创建的 Vela 视觉语言模型无需修改便能完美运行于边缘的机器人上。这一切的底层都是 CUDA。所以,我认为架构兼容性的概念对大型项目非常重要。这和 iPhone 或其他设备的兼容性概念没有什么不同。

我认为,安装基础架构对推理非常重要,但我们真正受益的是,因为我们在新的架构上训练这些大型语言模型时,我们能够思考如何创造出在未来非常优秀的推理架构。

所以我们一直在思考迭代模型和推理模型,如何为你的个人智能体创造非常交互性的推理体验,比如当它需要停下来思考一段时间时,如何快速与你互动。

所以,我们是如何实现这一目标的?答案是 NVLink。你知道,NVLink 让我们能够使用这些适合训练的系统,但当训练完成后,它的推理性能也非常卓越。你希望优化的是首次 Token 的响应时间,而实现首次 Token 的响应时间非常困难,因为这需要大量的带宽。

如果你的上下文也非常丰富,那么你还需要大量的计算能力。因此,你需要在同一时间拥有无限的带宽和计算能力,才能实现几毫秒的响应时间。而这种架构非常难以实现。为此,我们发明了 Grace Blackwell NVLink。

▲NVIDIA Blackwell 架构(图源:NVIDIA)

英伟达正在构建完整的、兼容的 AI 基础设施

Brad Gerstner:你知道,我这周早些时候和 Andy Jassy 共进晚餐,Andy 说:「我们有 Tranium,还有即将到来的 Inferencia」。我认为大多数人,还是认为这些对于英伟达是个挑战。

但紧接着他说「英伟达是我们一个非常重要的合作伙伴,而且未来还将继续是我们非常重要的合作伙伴,至少在我所能预见的未来」。

世界依靠英伟达运行,对吧?所以,当你想到这些为特定应用开发的定制 ASIC,比如 Meta 的推理加速器,或者 Amazon 的 Tranium,或者 Google 的 TPUs,还有你当前面临的供应短缺问题时,这些因素会改变你们之间的动态,还是说它们只是对你们系统的补充?

黄仁勋:我们只是在做不同的事情,我们试图实现不同的目标。英伟达正在尝试为这个新世界构建一个计算平台,这个机器学习的世界,这个生成式 AI 的世界,这个智能体 AI 的世界。

我们想要创造的是,经过 60 年的计算,我们重新发明了整个计算栈,从编程到机器学习的方式,从 CPU 到 GPU 的软件处理方式,从软件到人工智能的应用方式,对吧?软件工具、人工智能——计算栈的每个方面,技术栈的每个方面都发生了变化。

我们想要做的是创建一个无处不在的计算平台,这实际上是我们工作的复杂性所在。如果你思考我们在做什么,我们是在构建一个完整的 AI 基础设施,我们把它看作是一台计算机。

我以前说过,数据中心现在是计算的基本单位。对我来说,当我思考一台计算机时,我不是在想那块芯片,我是在想这个概念:它是我的心智模型,里面包括所有的软件、编排和所有的机械部分。这是我的使命,这是我的计算机,我们每年都在试图构建一台全新的计算机。

是的,这太疯狂了,之前没有人这么做过。我们每年都在尝试构建一台全新的计算机,而且每年我们都交付两到三倍的性能提升。每年我们都会将成本降低两到三倍,每年我们都会将能效提高两到三倍。

所以我们告诉客户,不要一次性购买所有设备,每年购买一点,好吗?原因是,我们希望他们能够逐步进入未来,所有的架构都是兼容的,好吗?

现在,仅仅以这样的速度构建这个平台就已经非常难了,而双倍的难度在于,我们不仅要销售基础设施或服务,而是把它们拆解开来,然后将它们集成到 GCP 中,集成到 AWS 中,集成到 Azure 中,集成到其他平台中,明白吗?

每个平台的集成都不一样。我们必须把所有的架构库、所有的算法和所有的框架集成到他们的系统中。我们把我们的安全系统集成到他们的系统中,我们把我们的网络集成到他们的系统中,对吧?然后我们每年进行大概 10 次这样的集成。而这就是奇迹所在。

Brad Gerstner:这就是奇迹所在,为什么?我的意思是,这太疯狂了。你每年都在做这些事,这真的很疯狂。想一想,是什么驱动你每年都这样做的?

然后再说到这一点,你知道 Clark 刚从中国台湾、韩国和日本回来,见了你所有的供应合作伙伴——那些你已经有十多年合作关系的伙伴。这些合作关系对于构建那个竞争壁垒的组合效应有多重要?

黄仁勋:是的,当你系统性地分解时,大家越是分解,就越会感到惊讶,整个电子行业生态系统今天是如何致力于与我们合作,最终构建出这个计算机的立方体,并将其整合到所有不同的生态系统中的?而且协调是如此无缝。显然,我们向后传递了 API、方法学、业务流程和设计规则,向前传递了方法学、架构和 API。

Brad Gerstner:这些已经被强化了几十年。

黄仁勋:强化了几十年,同时也在不断演进。但这些 API 在需要的时候必须整合在一起——所有这些在中国台湾和世界各地制造的东西,最终会落到 Azure 的数据中心。它们会组合到一起。

Clark Tang:有人只需要调用 OpenAI API,它就能正常工作。

黄仁勋:没错,完全是那种疯狂的感觉。这就是我们发明的东西,我们发明了这个庞大的计算基础设施,整个世界都在和我们一起构建它。

它被整合到了各个领域,你可以通过戴尔销售它,可以通过惠普(HPE)销售它,它托管在云端,也延伸到了边缘设备。人们现在在机器人系统中使用它,在人形机器人中使用它,它们在自动驾驶汽车中使用,它们都在架构上兼容,这真的非常疯狂。

Clark,我不希望你误以为我没有回答你的问题,事实上,我已经回答了。我所指的与你的 ASIC 相关的问题是这样的。

我们作为公司,只是在做不同的事情。作为一家公司,我们希望能够对环境有清晰的认知。我对我们公司及其生态系统周围的一切都非常清楚,对吧?

我知道所有在做不同事情的人以及他们在做什么。有时候,这对我们来说是对抗性的,有时候不是。我对此非常清楚。但这并不会改变我们公司的目标。公司唯一的目标就是构建一个可以无处不在的架构平台,这就是我们的目标。

我们并不想从任何人那里抢占市场份额。英伟达是市场的开拓者,而不是份额的争夺者。如果你看我们的公司报告,你会发现我们从来不谈市场份额,从来没有一天我们会在公司内部谈论市场份额。

我们所有的讨论都是关于如何创造下一个东西?我们如何解决飞轮中的下一个问题?我们如何为人们做得更好?我们如何将过去需要一年的飞轮周期缩短到一个月?你知道,这相当于飞轮的光速,不是吗?我们在思考所有这些不同的问题,但有一件事是确定的,我们对周围的一切都有清醒的认识,但我们对自己的使命非常明确。

唯一的问题是,这个使命是否必要,是否有意义。所有伟大的公司都应该有这样的使命。

从根本上讲,问题是你在做什么?唯一的问题是,它是否必要,是否有价值,是否有影响力,是否能帮助到别人?我非常确定,如果你是一名开发者,一家生成式 AI 初创公司,正在决定如何成为一家公司,你唯一不需要考虑的选择就是支持哪个 ASIC。

如果你只支持 CUDA,那么你可以在任何地方使用它,你以后随时可以改变主意,但我们是进入 AI 世界的入口,不是吗?一旦你决定进入我们的平台,其他决策都可以延后,你以后随时可以开发自己的 ASIC,我们对此毫不介意。

当我与 GCP 合作时,GCP、Azure 等公司,我们会提前几年向他们展示我们的路线图。他们不会向我们展示他们的 ASIC 路线图,这也不会冒犯我们,明白吗?如果你的目标明确且有意义,并且你的使命对你自己和他人都很重要,那么你就可以保持透明。

注意,我的路线图在 GTC 上是公开的,而我的路线图在 Azure、AWS 等合作伙伴那里会更深入。我们在这些方面没有任何困难,即使他们正在开发自己的 ASIC。

▲NVIDIA 的使命是构建完整兼容的 AI 基础设施(图源:The Brand Hopper)

AI 正在改变行业未来

Brad Gerstner:我觉得,当人们观察这个行业时,你最近说过,对 Blackwell 的需求是「疯狂的」。你还说,工作中最难的一部分就是在这个计算资源短缺的世界里,忍受对别人说「不」所带来的情感负担。

但批评者说,这只是一个时间节点,他们认为这就像 2000 年思科过度建设光纤一样,将会经历繁荣与萧条。你知道,我想到 2023 年年初我们一起吃饭的时候,当时的预测是英伟达 2023 年的营收会达到 260 亿美元,但你们实际做到了 600 亿,对吗?

黄仁勋:承认吧,这是世界上有史以来最大的预测失败。

Brad Gerstner:那时候我们在 2022 年 11 月特别激动,因为像来自 Inflection 的 Mustafa 和来自 Character 的 Noam 等人来到我们办公室讨论投资他们的公司。他们说,如果你们不能直接投资我们的公司,那就买英伟达吧,因为全世界都在争相获得英伟达的芯片,用来构建那些将要改变世界的应用。

当然,随着 ChatGPT 的出现,这一「寒武纪时刻」到来了。然而,即便如此,这 25 位分析师仍然沉迷于「加密寒冬」,无法想象世界上正在发生的事情,对吧?所以最终结果远超预期。

你明确表示,对 Blackwell 的需求非常疯狂,并且未来会一直如此。当然,未来是未知且不可知的,但为什么批评者的看法错得如此离谱?这不会像 2000 年思科那样成为过度建设的局面。

黄仁勋:思考未来的最佳方式是从基本原理推理出来,对吧?所以问题是,我们现在在做的事情的基本原理是什么?第一,我们在做什么?我们在做什么?我们正在重新发明计算,不是吗?

我们刚刚说过,未来的计算将高度依赖机器学习,对吗?我们几乎所有的应用程序,无论是 Word、Excel、PowerPoint、Photoshop、Premiere、AutoCAD,无论你给我举什么例子,所有这些都是手工设计的。我向你保证,未来这些都会高度依赖机器学习,不是吗?

并且,在这些工具之上,你还会有智能体来帮助你使用它们。

所以,到现在为止,这已经是个事实了,对吧?我们重新发明了计算,我们不会回头。整个计算技术栈正在被重新定义。

好了,现在我们已经做到了这一点,我们说软件将会不同,软件的编写方式将会不同,使用软件的方式也会不同。所以,让我们承认这些是我的基本事实。是的,那么问题来了,接下来会发生什么?

那么让我们回顾一下,过去的计算是怎么做的。我们有一万亿美元的计算机设备。看看过去的数据中心,打开门看看,你会说那些是你想要用来面对未来的计算机吗?答案是否定的。

你看到那些 CPU,我们知道它能做什么,不能做什么。我们也知道现在有价值一万亿美元的数据中心需要现代化。因此,眼下,如果我们要在未来四五年内进行现代化改造,那是完全合理的,也是明智的。

Brad Gerstner:所以我们已经在和那些需要进行现代化改造的人沟通,他们正在使用 GPU 进行现代化改造,没错。

黄仁勋:我的意思是,让我们做个假设。你有 500 亿美元的资本支出,你会选择 A 选项:为未来建设资本支出,还是 B 选项:按照过去的模式建设资本支出?你已经有了过去的资本支出,就在那里放着,反正它不会变得更好。

摩尔定律基本上已经结束了,所以为什么要重建呢?我们只需要把这 500 亿美元投入到生成式 AI 中,不是吗?这样你的公司就会变得更好。那么你会把这 500 亿中的多少投入进去?我会把 100% 的 500 亿都投入进去,因为我已经有了四年的旧基础设施。

所以现在,从基本原理出发,你只是从这个角度来推理,而这正是他们正在做的事情。聪明的人在做聪明的事情。

现在第二个部分是这样的:我们有一万亿美元的容量要去建设,对吧?一万亿美元的基础设施,可能投入了 1500 亿美元,对吧?所以我们在未来 4 到 5 年内要建设一万亿美元的基础设施。

我们观察到的第二点是,软件的编写方式不同了,而未来软件的使用方式也会不同。我们将会有智能体,不是吗?

我们公司将会有数字员工,他们会在你的收件箱里,在未来,这些小点点、小头像会变成 AI 的图标,不是吗?我会向他们发送任务。我不再用 C++ 编程了,我会用提示词来「编程」AI,不是吗?这和我今天早上写了一堆邮件没有什么不同。

我给我的团队下达了指示,对吧?我描述了背景,说明了我知道的基本限制,并描述了他们的任务。我会给他们足够的方向感,让他们明白我需要什么,我希望对预期结果尽可能明确。但我也会留出足够的创造空间,让他们可以给我带来惊喜,不是吗?

这和我今天如何提示 AI 没有什么不同,这正是我提示 AI 的方式。所以在我们现代化改造的基础设施之上,将会有一个全新的基础设施。这套新基础设施就是将操作这些数字人的 AI 工厂,它们会全天候地运行。

我们将在全球所有的公司中拥有它们,在工厂中拥有它们,在自动化系统中拥有它们,对吗?所以这个世界需要建立一整层计算结构,我称之为 AI 工厂的基础设施,这些现在还不存在。

所以问题是,这个规模有多大?目前我们还无法知道,可能是几万亿美元的规模,但美妙的是,现代化改造的数据中心架构与 AI 工厂的架构是相同的。

Brad Gerstner:这就是美妙之处。你已经说得很清楚了,你有一万亿美元的旧基础设施需要现代化改造,同时至少还有一万亿美元的新 AI 工作负载正在到来,今年大约会有 1250 亿美元的收入。

你知道,曾经有人告诉你们这家公司永远不会超过 10 亿美元的市值。而如今你坐在这里,如果你只占到了几万亿总市场(TAM)的 1250 亿收入,有什么理由让你认为你们未来的收入不会是现在的 2 倍、3 倍?有什么理由让你们的收入不会继续增长?

黄仁勋:没有,没错。你知道,这并不是关于现在的事情。公司只会受到「池塘」大小的限制,你知道,金鱼只能长到与池塘相匹配的大小。

所以问题是,我们的池塘有多大?这需要很多想象力,这也是为什么市场开拓者会思考未来,而不是只在现有的池塘里竞争。

如果你只是回顾过去、试图抢占市场份额,这很难看清未来。市场份额的争夺者只能做到这么大,而市场的开拓者可以变得非常大。所以,我认为我们公司的幸运之处在于,从公司成立的第一天起,我们就必须为自己创造市场空间。

人们当时没有意识到这一点,但我们几乎从零开始创造了 3D 游戏 PC 市场。我们基本上发明了这个市场以及所有相关的生态系统,包括显卡的生态系统。我们发明了这一切。所以,创造一个全新的市场来服务它,对我们来说是一件非常熟悉的事情。

▲Brad Gerstner(左)和 Clark Tang(右)在访谈中

不可思议的 OpenAI 和 X.AI

Brad Gerstner:没错,作为一个发明了新市场的人来说,这确实如此。让我们稍微转移话题,谈谈模型和 OpenAI。你知道,OpenAI 这周筹集了 65 亿美元,估值达到约 1500 亿美元。我们都参与了这次融资。

黄仁勋:真的为他们感到高兴,真的很高兴这一切顺利达成。是的,他们做得很棒,团队也表现得非常出色。

Brad Gerstner:有报告称他们今年的收入或收入运行率大约是 50 亿美元,明年可能达到 100 亿美元。如果你看今天的业务规模,它的收入大约是谷歌在 IPO 时的两倍。

他们有 2.5 亿的每周活跃用户,我们估计这是谷歌 IPO 时用户量的两倍。而如果你看它的业务倍数,如果你相信他们明年能达到 100 亿美元收入,那么他们的市值大约是明年收入的 15 倍,这和谷歌和 Meta 在 IPO 时的倍数差不多,对吧?当你想到这家公司 22 个月前还没有任何收入和每周活跃用户时,这非常惊人。

黄仁勋:Brad 对历史有着不可思议的掌握。

Brad Gerstner:当你想到这一点时,和我们谈谈 OpenAI 作为你们的合作伙伴,以及它在推动公众对 AI 的认知和使用方面的重要性。

黄仁勋:嗯,这是我们时代最具影响力的公司之一。这是一家纯粹的 AI 公司,追求通用人工智能(AGI)的愿景。

无论 AGI 的定义是什么,我几乎不认为它的定义完全重要,也不相信时间节点的重要性。我所知道的一件事是,AI 将在未来的时间里不断展现出一系列能力。这些能力的发展路线图将会非常惊人。在到达任何人所定义的 AGI 之前,我们就会将其广泛应用。

你现在要做的就是去和数字生物学家、气候科技研究人员、材料研究人员、物理科学家、天体物理学家、量子化学家对话。你可以去找视频游戏设计师、制造工程师、机器人专家,选择你喜欢的行业,深入其中,和那些重要的人对话,问他们,AI 是否彻底改变了他们的工作方式?然后你把这些数据点带回来,再问问自己,你到底有多怀疑?

因为他们不是在谈论 AI 未来某天的概念性好处,他们正在谈论现在就使用 AI。无论是农业科技、材料科技、气候科技,选择你想要的科技领域或科学领域,它们正在进步,AI 正在帮助他们推进他们的工作。

就在我们说话的这一刻,每个行业、每家公司、每所大学都在使用 AI,难以置信,不是吗?它绝对会在某种程度上改变商业,我们知道这一点,对吧?我的意思是,这种变化是如此真实,正在发生。所以我认为 ChatGPT 所引发的 AI 觉醒完全是不可思议的。我喜欢他们的速度和他们推动这一领域的单一目标,所以它真的非常具有影响力。

Brad Gerstner:他们构建了一个可以为下一代模型融资的引擎。我认为硅谷的共识正在增加,即整个模型层正在逐渐商品化,Llama 让很多人可以以非常低的成本构建模型。

所以一开始,我们有很多模型公司,比如 Character、Inflection、Cohere、Mistral 等等。很多人质疑这些公司是否能够达到经济引擎的「逃逸速度」,继续为下一代模型提供资金。我的感觉是,这也是为什么我们看到市场的整合,对吧?

显然,OpenAI 已经达到了那个「逃逸速度」,他们可以为自己的未来融资。但对我来说,不清楚的是,很多其他公司能否做到这一点。这是否是对模型层现状的一个公平概述?就像我们在其他许多市场中看到的一样,市场领导者会有一个经济引擎和应用来让他们继续投资。

黄仁勋:首先,模型和人工智能之间有一个根本区别,对吧?模型是人工智能的一个必要但不足的组成部分,对吧?人工智能是一种能力,但为了什么?应用是什么?

自动驾驶汽车的人工智能与人形机器人的人工智能有关,但它们并不相同。它们与聊天机器人的人工智能有关,但也不相同,对吧?所以你需要理解这个栈的分类。在栈的每一层都会有机会,但并不是每一层都有无限的机会。

我刚刚说了一些话,你所需要做的就是把「模型」一词替换为「GPU」。事实上,这是我们公司 32 年前的重大发现——GPU 图形芯片与加速计算之间有一个根本区别。加速计算与我们在 AI 基础设施中所做的工作不同,虽然相关,但并不完全相同。它们是建立在彼此之上的,但并不完全相同。每一层抽象都需要完全不同的技能。

一个非常擅长构建 GPU 的人,可能完全不知道如何成为一家加速计算公司。有很多人在构建 GPU,而我们发明了 GPU,但今天并不是只有我们一家在制造 GPU,对吧?世界上有很多 GPU,但并不是所有的公司都是加速计算公司。而且有很多加速器应用程序,但这与加速计算公司不同。例如,一个非常专门的 AI 应用程序可能会非常成功。

Brad Gerstner:这就是 MTIA。

黄仁勋:没错,但它可能不会成为一个具有广泛影响力和能力的公司。所以你必须决定你想处于哪个位置。在这些不同的领域可能都有机会,但就像建立公司一样,你必须注意生态系统的变化,以及哪些东西随着时间推移被商品化,分清楚什么是功能、什么是产品、什么是公司,这是一定的。好吧,我刚刚谈到了很多不同的思路。

Brad Gerstner:当然,还有一个新加入者拥有资金、聪明才智和雄心,那就是 X.AI,对吧?外界有报道称,你和 Larry 以及 Elon 共进了晚餐。他们说服你放弃了 10 万个 H100s,他们去了孟菲斯,在几个月内建立了一个大型的超级计算集群。

黄仁勋:首先三个点不在一条线上,我和他们共进了晚餐,因果关系仅仅就是这样。

Brad Gerstner:你怎么看他们构建超级计算集群的能力?外界还在讨论他们想要再增加 10 万个 H200s 来扩展这个超级集群的规模。

首先,和我们谈谈 X 公司的雄心壮志以及他们已经取得的成就。同时,我们是否已经进入了 20 万或 30 万个 GPU 集群的时代?

黄仁勋:答案是肯定的。首先要承认他们的成就是应得的。从概念阶段到数据中心的建成,并准备好让英伟达的设备进驻,到我们供电、连接设备并进行首次训练,这一过程。

首先,建造这样一个庞大的工厂,采用液冷技术、完成能源供应、获得许可,并在这么短的时间内完成。我是说,这简直是超人的成就。就我所知,全世界只有一个人能做到这一点,埃隆·马斯克在工程、建筑、大型系统和资源调配方面的理解是独一无二的,简直难以置信。

当然,他的工程团队也非常出色,软件团队、网络团队、基础设施团队都很棒。埃隆对此有着深入的理解。从我们决定启动项目的那一刻起,我们的工程团队、网络团队、基础设施计算团队、软件团队都进行了充分的准备。

然后,所有的基础设施、物流以及当天进入的数据量和设备量,还有英伟达的基础设施和计算技术,一切都在 19 天内完成了训练。

你知道这意味着什么吗?有谁睡觉了吗?24 小时不停地工作,毫无疑问,没有人睡觉。首先,19 天的时间真是不可思议,但如果退一步思考,这只是短短几周。你能看到的技术设备数量简直令人难以置信。

所有的布线和网络连接,与英伟达设备的网络连接与超大规模数据中心的网络连接完全不同。一个节点上的电线数量,计算机背部全都是电线。仅仅是把这座技术高峰整合起来,再加上所有的软件,简直难以置信。

所以我认为埃隆和他的团队所做的事情非常了不起,我也很感激他认可我们在工程和规划方面与他们的合作。但他们所取得的成就是独一无二的,前所未有。

为了让你更好地理解,10 万个 GPU,毫无疑问,这是地球上速度最快的超级计算机。这只是一个集群。通常你建造一台超级计算机需要三年时间来规划,对吧?然后交付设备并花一年时间让它全部运行起来。而我们在谈论的是 19 天。

▲ChatGPT 所引发的 AI 觉醒是不可思议的(图源:artnet)

推理将迎来爆炸式增长

Clark Tang:英伟达平台的优势是什么呢?它的整个流程都已经经过强化,对吧?

黄仁勋:是的,一切都已经在运行。当然,还有一大堆 X 算法、X 框架和 X 堆栈,我们还需要进行大量的集成。但它的前期规划非常出色,仅仅是预规划就已经令人印象深刻了。

Brad Gerstner:Elon 是独一无二的存在,但你刚刚回答时提到,20 万到 30 万个 GPU 集群已经存在了,对吧?它能扩展到 50 万个吗?它能扩展到 100 万个吗?你们产品的需求是否取决于这些集群能否扩展到百万级?

黄仁勋:最后一个问题的答案是否定的。我的看法是,分布式训练必须起作用,我认为分布式计算将会被发明出来,某种形式的联邦学习和分布式、异步计算将会被发现。我对此非常有信心,也非常乐观。

当然,需要意识到的是,过去的扩展法则主要是关于预训练。现在我们已经进入了多模态,我们开始了合成数据生成。后训练阶段的扩展变得非常快,合成数据生成、奖励系统、基于强化学习的训练都发展迅速。现在推理阶段的扩展也达到了极限。

这个想法是,在模型回答问题之前,它已经进行了 10000 次内部推理,这可能并不夸张。它可能已经进行了树搜索,可能已经基于这个问题进行了强化学习,可能进行了某种模拟,肯定进行了大量反思,可能查阅了一些数据和信息,对吧?所以它的上下文可能相当庞大。

我想,这种智能就是我们正在做的,不是吗?这就是我们正在做的。所以,如果你对这种扩展进行计算,将模型规模和计算规模每年扩展 4 倍,再加上使用需求不断增长……

我们是否认为我们需要数百万个 GPU?毫无疑问,是的。这是目前的一个确定性问题。那么问题是,我们如何从数据中心的角度来架构它?这在很大程度上取决于数据中心是一次性达到千兆瓦级,还是每次 250 兆瓦?我的看法是,这两种情况都会出现。

Clark Tang:我觉得分析师总是关注当前的架构选择,但我认为从这次对话中最大的收获之一就是,你们是在思考整个生态系统,以及未来多年的发展。

因此,英伟达扩展规模,不论是纵向还是横向扩展,都是为了应对未来,而不是仅仅依赖一个有 50 万或 100 万个 GPU 集群的世界。到分布式训练真正到来时,你们已经编写了支持它的软件。

黄仁勋:没错,记住我们和合作伙伴在大约七年前开发的 Megatron。如果没有它,这些大规模训练任务的扩展是不可能的。我们发明了 Megatron,我们发明了 Nickel、GPU Direct,还有我们通过 RDMA 所做的所有工作,这使得流水线并行处理变得更加容易。

所有的模型并行处理,所有分布式训练的分解、批处理等所有这些技术,都是因为我们做了早期的工作,现在我们也在为未来的下一代技术做准备。

Brad Gerstner:那么我们来谈谈 Strawberry 和 o1 吧。

首先,我觉得他们把 o1 命名为 o1 签证是很酷的,对吧?o1 签证是为了吸引全球最优秀、最聪明的人才来到美国,我知道我们都对此深有热情。

我非常喜欢这个想法,建造一个能思考、推动我们走向智能扩展新高度的模型,向那些通过移民来到美国的天才致敬,正是他们成就了今天的我们。

黄仁勋:肯定是一种外星智能。

Brad Gerstner:当然,这个项目是由我们的朋友 Noah Brown 领导的,他曾参与 Pluribus 和 Cicero 的工作,都是 Meta 的项目。推理时间推理作为一个完全新的智能扩展维度,与仅仅构建更大模型的方式截然不同,这有多重要?

黄仁勋:这非常重要,极其重要。很多智能无法预先完成,你知道吗?甚至很多计算都不能预先重新排序。乱序执行可以提前完成,但很多事情只能在运行时完成。

所以无论是从计算机科学的角度来看,还是从智能的角度来看,很多东西都需要上下文和情境,你所寻找的答案类型有时简单的快速答案已经足够了,而答案的后果取决于你使用这个答案的性质。

所以有些答案可以花一个晚上思考,有些答案可能需要一周的时间,对吧?我完全可以想象,我给我的 AI 发送一个提示词,告诉它,想一晚上,不要立刻告诉我,对吧?我想让你整晚思考,然后明天早上告诉我你最好的答案,并为我推理分析。

因此,我认为智能的分层,从产品角度来看,会有一次性的版本,也会有一些需要五分钟来完成的。

Brad Gerstner:这个智能层能够将这些问题与合适的模型和使用场景相匹配。昨晚我们在使用先进的语音模式和 o1 预览版,我正在辅导我儿子的 AP 历史考试,感觉就像世界上最好的 AP 历史老师坐在你旁边一起思考这些问题,真是非凡的体验。

黄仁勋:我的导师现在是 AI。

Brad Gerstner:当然,他们今天已经存在了。这也回到了这个话题,你知道,你们今天有超过 40% 的收入来自推理。但推理将因为「推理链」而迎来爆炸式增长,对吧?

黄仁勋:推理的增长将会是十亿倍的。

Brad Gerstner:翻倍,再翻十亿倍。

黄仁勋:对。这是大多数人还没有完全理解的部分。这正是我们之前谈论的行业变革,这是工业革命。

Brad Gerstner:这是智能的生产,对吧?

黄仁勋:它将增长十亿倍。

Brad Gerstner:大家都高度关注英伟达,认为它主要是用于更大模型的训练。是不是这样,如果你们今天的收入有 50% 来自训练,那么未来推理的规模将远远超过训练。训练固然重要,但推理的增长将会远超训练的增长,我们希望如此,几乎不可能有其他情况。

黄仁勋:我们希望如此,是的,上学是好事,但最终目标是你能在社会中有所贡献。所以训练这些模型是好的,但最终目标是要让它们产生影响。

Brad Gerstner:你们是否已经在使用「推理链」和类似 o1 的工具来改进你们自己的业务?

黄仁勋:我们今天的网络安全系统离不开我们自己的智能体。我们有智能体帮助设计芯片,如果没有这些智能体,Hopper 芯片就不可能实现,Blackwell 也不可能实现,Rubin 就更不用说了。

我们有 AI 芯片设计师、AI 软件工程师、AI 验证工程师,而且我们都是在公司内部开发的,因为我们有这个能力,我们更愿意利用这个机会自己探索这项技术。

▲推理的增长将会是十亿倍的(图源:NVIDIA)

我们需要更高效,更安全的 AI

Brad Gerstner:你知道,今天我走进这栋楼时,有人走过来对我说,你知道,问问 Jensen 关于文化的事情,一切都与文化有关。我看着你们的业务,我们谈了很多关于适应性和效率的事情,扁平化的组织结构可以快速执行,小团队运作。

你知道,英伟达在这个领域独树一帜,每位员工平均创造了大约 400 万美元的收入,每位员工大约创造了 200 万美元的利润或自由现金流。你们建立了一种效率文化,真正释放了创造力、创新力、责任感和主人翁意识,你打破了传统的职能管理模式。大家都喜欢谈论你有多少直接汇报的员工。

AI 的利用是否是让你们在保持高度创造力的同时保持高效的关键?

黄仁勋:毫无疑问。我希望有一天,英伟达今天有 32000 名员工,我们在以色列有 4000 个家庭,我希望他们一切安好。我希望有一天英伟达会成为一个拥有 50000 名员工和 1 亿个 AI 助手的公司。

在每个团队中,我们都会有一个 AI 目录,里面有一批擅长做各种事情的 AI。我们还会有一个收件箱,里面充满了我们合作过并且知道很擅长我们技能领域的 AI 目录。因此,AI 会招募其他 AI 来解决问题。AI 也会在 Slack 频道中互相交流。

Brad Gerstner:并且与人类一起合作。

黄仁勋:和人类一起合作。所以我们将会是一个庞大的员工群体,一部分是数字化和 AI,一部分是生物学上的人类员工,我希望未来还有一些是机电一体化的员工。

Brad Gerstner:从商业角度来看,我认为这常常被误解。你刚刚描述了一家公司,它的产出相当于拥有 15 万员工的公司,但实际上你只用了 5 万员工。你并没有说你要裁掉所有员工,你仍在增加员工数量,但这家公司的产出将会显著增加,对吧?

黄仁勋:这是经常被误解的地方。AI 不会取代工作,它将改变每一个工作。AI 将对人们如何看待工作产生深远影响,这一点我们必须承认,对吧?

AI 有可能带来巨大的好处,也有可能造成伤害,我们必须构建安全的 AI,没错,这一点必须作为基础。但是被忽视的部分是,当公司利用人工智能提高生产力时,它很可能会带来更好的收益或更好的增长,或者两者兼而有之。而当这发生时,CEO 的下一封邮件不太可能是裁员通知。

Brad Gerstner:当然,因为公司在增长。

黄仁勋:是的,原因是我们有比我们能够探索的更多的想法,我们需要人们来帮助我们思考,然后再去自动化这些想法。而自动化的部分,AI 可以帮助我们实现。

显然,它也会帮助我们进行思考,但我们仍然需要去弄清楚我们想要解决什么问题。我们可以解决无数的问题,但公司必须选择那些最需要解决的问题,然后找到一种方式来实现自动化并扩大规模。

因此,随着我们变得更高效,我们将会雇佣更多的人。人们常常忘记这一点。如果回顾历史,显然我们今天有比 200 年前更多的想法。这也是 GDP 和就业增长的原因,尽管我们一直在疯狂地进行自动化。

Brad Gerstner:这正是我们进入这一时期的重要点,几乎所有的人类生产力和繁荣都是过去 200 年技术和自动化的副产品。你可以回顾一下,从亚当·斯密到熊彼特的创造性破坏,过去 200 年人均 GDP 的增长图表,它不断加速发展。这让我想到一个问题。

如果你看 90 年代,美国的生产力增长率大约是每年 2.5% 到 3%。然后到了 2000 年代,它放缓到大约 1.8%。而过去十年,是记录上生产力增长最慢的时期。这指的是我们在固定的劳动力和资本投入下的产出增长,是我们有记录以来最慢的。

许多人对此进行了讨论。但如果世界如你所描述的那样,并且我们将利用和制造智能,那么我们是否正处于人类生产力即将出现巨大扩展的边缘?

黄仁勋:这是我们的希望。这是我们的希望,当然,你知道,我们生活在这个世界中,因此我们有直接的证据,对吧?我们有直接的证据,比如个别研究人员利用 AI,现在可以在前所未有的规模上探索科学,这就是生产力的体现。

或者我们设计出如此复杂的芯片,并以如此快的速度完成设计,而公司的员工规模并没有以相同速度增长,这也是生产力的体现,对吧?我们开发的软件也越来越好,因为我们在利用 AI 和超级计算机帮助我们,而员工数量几乎是线性增长的。

这又是一个生产力的证明。所以无论我深入到哪个行业,我都可以自我检查,我可以亲自验证这些表现是否普遍存在。毫无疑问,智能是世界上最有价值的资源,而现在我们将大规模生产它。

我们都必须学会如何在周围都是 AI 的环境中生活,这些 AI 能够非常出色地完成任务,甚至比我们更好。当我反思这一点时,我发现这就是我的生活。

我有 60 个直接汇报的下属,对吧?他们都是各自领域的世界级人才,做得比我好得多。我和他们合作没有任何问题,我也没有问题去指导他们、与他们沟通。因此,我认为人们将要学到的是,他们都将成为 AI 智能体的 CEO。

他们需要拥有创造力、决心,以及一些知识,知道如何分解问题,从而能够编程这些 AI 来帮助他们达成目标,就像我管理公司一样。

Brad Gerstner:你提到了一个问题,就是关于对齐、安全 AI 的讨论。你也提到了中东正在发生的悲剧。你知道,现在世界的不同地方都有很多自主性和 AI 的应用。

所以我们来谈谈不良行为者、安全 AI,以及与华盛顿的协调问题。你现在的感受如何?我们是否走在正确的道路上?我们的协调是否足够?我记得马克·扎克伯格曾说,战胜坏 AI 的方式是让好 AI 变得更好。你会如何描述我们如何确保 AI 对人类有积极净效益,而不是让我们陷入一个无目的的反乌托邦世界?

黄仁勋:关于安全的讨论非常重要,也很有意义。抽象的观点,即将 AI 视为一个大型的神经网络,这种看法就不太好。而原因是,我们知道,人工智能和大语言模型虽然相关,但并不相同。

现在有很多正在进行的工作,我认为非常出色。第一,开放源代码模型,使得每个行业、每家公司和整个研究界都能接触到 AI,并学习如何利用这种能力来应用于他们的领域。非常好。

第二,AI 的发展技术力量正在专注于发明如何使 AI 更加安全。AI 被用来筛选数据、筛选信息、训练其他 AI,创造出对齐的 AI,生成合成数据的 AI,扩展 AI 的知识,减少幻觉的 AI,以及所有被创造出来的用于矢量图像、图形等 AI,来告知和监控其他 AI 的系统,这些用于创建安全 AI 的 AI 系统还没有得到足够的认可。

Brad Gerstner:这些系统已经被构建出来了。

黄仁勋:对,我们正在建造这些系统,整个行业的所有人都在这样做。包括红队测试、流程控制、模型卡、评估系统、基准系统等等,所有这些安全机制正在以惊人的速度被构建出来。这些努力还没有得到应有的赞誉,你们懂的。

Brad Gerstner:是的,目前没有任何政府法规要求你们这样做。这是当前行业中的参与者们正在严肃对待这些关键问题,并围绕最佳实践进行协调。

黄仁勋:完全正确,这些努力没有得到足够的认可,也没有被充分理解。人们需要开始讨论 AI 作为一个由多种 AI 组成的系统,以及它作为一个经过良好工程设计的系统的本质。

关于监管,我们要记住,AI 是一种能力,它可以应用于很多领域。不一定需要为每一项重要技术单独立法,但是也不能让监管过度扩展到不必要的领域。

大部分的监管应该针对具体的应用来进行,例如 FAA(联邦航空管理局)、NIH(美国国立卫生研究院)、FDA(美国食品药品监督管理局)等机构已经在管理技术应用了,现在他们需要开始管理包含 AI 的技术应用。

因此,不要误解这一点,不要忽视我们将需要激活的现有大量监管体系。不要仅依赖一个全球 AI 委员会,因为每个监管机构的设立都是有原因的。这些不同的监管机构存在的原因,就是为了应对不同的挑战。让我们再次回到基本原则。

▲Clark Tang 在访谈中

AI 开源推动行业激活

Brad Gerstner:如果我不回到开放源代码这个问题上,我的伙伴 Bill Gurley(编者注:本场访谈 Bill 缺席)可能会责怪我。你们最近发布了一个非常重要、非常强大的开源模型。显然,Meta 也在为开源做出重大贡献。

我在读 Twitter 时发现,关于开放与封闭的讨论非常热烈。你怎么看待开源,尤其是你们自己的开源模型与前沿技术保持同步的能力?这是第一个问题。

第二个问题是,拥有开源模型以及为商业运营提供动力的封闭模型,这是否是你们未来的愿景?这两者是否能为 AI 安全创造一种健康的张力?

黄仁勋:开源与闭源的讨论与安全性有关,但不仅仅是关于安全性。例如,拥有闭源模型作为经济模型的引擎来维持创新,这是完全没有问题的,我对此全心全意支持。

我认为,将问题单纯地定义为闭源对抗开源是一种错误的思维方式。应该是闭源和开源,对吧?因为开源对许多行业的激活是必要的。

如果现在没有开源,所有这些不同的科学领域如何能够在 AI 上激活?因为他们必须开发自己的领域专属 AI,并且他们需要利用开源模型来创建领域专属 AI。这两者是相关的,但并不相同。

仅仅因为你有一个开源模型,并不意味着你就拥有了 AI。因此,你必须有开源模型来推动 AI 的创建。所以,金融服务、医疗保健、交通运输,以及许多其他领域的科学和行业,都是因为开源的推动而得以激活的。

Brad Gerstner:难以置信,你们的开源模型需求量很大吧?

黄仁勋:我们的开源模型?当然,Llama 的下载量,对吧?显然,Mark(扎克伯格)和他的团队所做的工作,令人难以置信,需求量爆棚,彻底激活了每个行业和每个科学领域。

我们创建 Nemotron 的原因是为了合成数据生成。直觉上,认为某个 AI 会一直循环生成数据来学习自己,听起来似乎不太可靠。你能在那个无限循环里转多少圈,这值得怀疑。不过,我的心中有一个形象,就像把一个超级聪明的人关在一个软包房里,一个月后再出来,可能并不会变得更聪明。

但是,如果有两三个人在一起讨论,我们有不同的 AI 模型,拥有不同的知识分布,能够相互问答、来回交流,那么我们三个人都会变得更聪明。所以 AI 模型之间相互交换、互动、来回讨论、辩论,进行强化学习和合成数据生成,这个想法直观上是有意义的。

因此,我们的 Nemotron 350B、340B 是世界上最好的奖励系统模型。它是最好的批评性模型,确实非常出色。所以,这是一个增强所有其他模型的奇妙工具,不论其他模型多么优秀,我都建议使用 Nemotron 340B 来进行增强,让它变得更好。而我们已经看到 Llama 变得更好,所有其他模型也因此受益。

▲Meta 在为开源做出重大贡献(图源:Linkedin)

AI 是一场彻底的革命

Brad Gerstner:作为在 2016 年交付首台 DGX-1 的人,这段旅程真的太不可思议了。你的旅程既不寻常又令人惊叹。你成功度过了最初的艰难时期,这本身就非同寻常。

你在 2016 年交付了第一台 DGX-1,我们在 2022 年迎来了这个「寒武纪时刻」。所以我想问一个我经常被问到的问题,那就是,你觉得你现在的工作状态还能持续多久?

你有 60 个直接汇报的下属,你无处不在,推动着这场革命。你享受这个过程吗?有没有其他你更想做的事情?

黄仁勋:你这是在问过去一个半小时的感受吗?答案是:很棒。我度过了一段非常愉快的时光,完全无法想象还有什么事情比这更值得我去做。

让我想想,我不认为应该让人觉得我们的工作总是充满乐趣。我的工作并非总是有趣的,我也不期望它总是有趣的。工作是否应该总是有趣?我认为重要的是工作总是重要的。我不会太把自己当回事,但我非常认真对待工作。我非常认真地对待我们的责任,认真对待我们对社会的贡献,以及我们所处的时代。

这总是有趣的吗?不,但我是否总是热爱它?是的,就像所有事情一样,无论是家庭、朋友、孩子,是否总是充满乐趣?不,但我们是否总是深深地爱着他们?绝对是。

我能做多久?真正的问题是,我能保持相关性多久?这个问题的答案只有通过另一个问题来回答:我将如何继续学习?今天我更加乐观了,我并不是因为我们今天的讨论而这么说。因为 AI 的出现,我对自己保持相关性和继续学习的能力更加乐观。我每天都在使用它。我不知道你们是否也使用,但我每天都在使用它。

没有一项研究不涉及 AI,即使我知道答案,我也会用 AI 来核对。令人惊讶的是,接下来我问的两三个问题,往往能揭示一些我不知道的事情。

你可以选择你感兴趣的主题,我认为 AI 作为导师、AI 作为助手,AI 作为一个可以一起头脑风暴的伙伴,来检查我的工作。伙计们,这真的是一场彻底的革命。而我是一名信息工作者,我的输出是信息。

所以我认为 AI 对社会的贡献是非凡的。如果我能像这样保持相关性,并继续做出贡献,我知道这份工作足够重要,值得我继续追求。而我的生活质量也是不可思议的。

Brad Gerstner:我无法想象,如果错过这个时刻会怎样。你我已经在这个行业工作了几十年,而这是我们三十年来最重要的时刻。我们对这段合作深表感谢。

黄仁勋:不要错过接下来的十年。

Brad Gerstner:非常感谢你们的思想交流,你让我们变得更明智。谢谢你,我认为你作为领导者,在乐观且安全地引领未来方面发挥了非常重要的作用。

黄仁勋:感谢你和我们在一起。我真的很享受,真的很感谢,感谢 Brad,感谢 Clark。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 计划自研 AI 芯片,以减少对英伟达的依赖

By: 范津瑞
31 October 2024 at 14:30

据路透社报道,OpenAI 正在与博通(Broadcom)合作开发其首款定制 AI 推理芯片,旨在处理其大规模的 AI 工作负载,特别是推理任务。

为此,OpenAI 已经组建了一支约 20 人的研发团队,包括曾参与谷歌 Tensor 处理器项目的首席工程师在内。

消息称博通将会帮助 OpenAI 进行芯片设计,并确保由台积电(TSMC)进行制造,预计 2026 年开始生产。

▲OpenAI 将自研 AI 芯片. 图片来源:cnBeta

为了实现芯片供应的多元化,OpenAI 此前计划建立芯片制作代工厂。但由于成本高昂,并且构建代工厂网络需要大量时间,OpenAI 已经搁置了这一计划,转而专注于内部芯片设计

OpenAI 这一通过「定制芯片设计来管理成本和访问 AI 服务器硬件」的战略意味着其走上了 Meta 和 Google 等科技公司的老路,而后者作为 OpenAI 的竞争对手,已经经历了几代人的努力。

并且,市面上不乏成熟且广泛部署应用的 AI 芯片,如 Google 推出的「TPU」、微软的「Maia 100」等等。

也就是说,OpenAI 需要更多的资金才能弥补这些差距,登上牌桌。

▲微软推出的 AI 芯片「Maia 100」. 图片来源:techmonitor

除了满足不断增长的基础设施需求,减少训练和运行成本以外,「减少对英伟达(NVIDIA)的依赖」也是 OpenAI 的「小算盘」之一。

OpenAI 的 CEO 奥特曼(Altman)指出,之所以要「获得更多芯片」,是因为两个问题:为 OpenAI 软件提供动力的先进处理器的短缺,以及为其工作和产品提供动力的硬件运行所需的「令人眼花缭乱」的成本。

他还曾公开抱怨市场资源匮乏,而 NVIDIA 主导并控制着最适合运行 AI 应用的芯片全球 80% 以上的市场。

作为英伟达图形处理单元(GPU)的最大买家之一,OpenAI 此前几乎完全依赖 NVIDIA GPU 进行训练。2020 年以来,OpenAI 在微软建造的大型超级计算机上开发了其生成式人工智能技术,这台计算机使用了 10000 个 NVIDIA GPU。

▲NVIDIA H100 GPU. 图片来源:NVIDIA

但由于芯片短缺和供应延迟,以及训练成本高昂的问题,OpenAI 不得不开始探索替代方案。他们计划通过微软的 Azure 云平台使用 AMD 芯片进行模型训练。

值得一提的是,AMD 在去年推出了 MI300 AI 芯片,致使其数据中心业务在一年内翻了一番。种种迹象表明,AMD 正在追赶市场领导者 NVIDIA。

▲AMD MI300 芯片. 图片来源:AMD

此外,消息人士称 OpenAI 仍在决定是否为其芯片设计开发或收购其他元件,并可能会聘请更多合作伙伴。

尽管「不惜一切代价构建 AGI(通用人工智能)」的 OpenAI 和号称「下一个英伟达」的博通之间和合作很可能引起英伟达的不满,但 OpenAI 表示「希望与仍致力于合作的芯片制造商保持良好的关系,特别是在使用其新一代 Blackwell 芯片方面」。

对此,英伟达暂时不予置评。

唯一的回应是市场。合作消息一出,博通的股价应声大涨,AMD 也延续了早盘涨幅。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌