Normal view

There are new articles available, click to refresh the page.
Yesterday — 21 December 2024Main stream

苹果正在与英伟达合作,想让 AI 的响应速度更快

By: 范津瑞
21 December 2024 at 12:00

近日,苹果与英伟达宣布合作,旨在加速和优化大语言模型(LLM)的推理性能。

为了改善传统自回归 LLM 推理效率低内存带宽小的问题,今年早些时候,苹果机器学习的研究人员发布并开源了一种名为「ReDrafter」(Recurrent Drafter,循环草稿模型)的推测解码技术。

▲图源:GitHub

目前,ReDrafter 已经整合到英伟达的可扩展推理方案「TensorRT-LLM」当中,后者是基于「TensorRT」深度学习编译框架的专为优化 LLM 推理而设计的开源库,支持包括「Medusa」等推测解码方法。

不过,由于 ReDrafter 所包含的算法使用了之前从未用过的运算符,因此英伟达方面添加了新的运算符,或者公开了现有的运算符,大大提高了 TensorRT-LLM 适应复杂模型和解码方式的能力。

▲图源:GitHub

据悉,ReDrafter 推测解码通过三个关键技术来加速 LLM 的推理过程:

  • RNN 草稿模型
  • 动态树注意力算法
  • 知识蒸馏训练

RNN 草稿模型是 ReDrafter 的「核心」组件。它使用循环神经网络(Recurrent Neural Network),基于 LLM 的「隐藏状态」来预测接下来可能出现的 tokens 序列,其能够捕捉局部的时间依赖性,从而提高预测准确性。

这个模型的工作原理是:LLM 在文本生成过程中首先生成一个初始 token,然后 RNN 草稿模型利用该 token 和 LLM 的最后一层隐藏状态作为输入进行束搜索(Beam Search),进而生成多个候选 tokens 序列。

与传统自回归 LLM 每次只生成一个 token 不同,通过 RNN 草稿模型的预测输出,ReDrafter 能够在每个解码步骤生成多个 tokens,大大减少了需要调用 LLM 验证的次数,从而提高了整体的推理速度。

▲图源:arXiv

动态树注意力算法(Dynamic Tree Attention)则是一种优化束搜索结果的算法。

我们已经知道,在束搜索过程中会产生多个候选序列,而这些序列往往存在共享的前缀。动态树注意力算法会识别出这些共享前缀,并将它们从需要验证的 tokens 中去除,从而减少 LLM 需要处理的数据量。

某些情况下,该算法能将需要验证的 tokens 数量减少 30% 到 60%。这意味着使用动态树注意力算法后,ReDrafter 能够更高效地利用计算资源,进一步提高推理速度。

▲图源:NVIDIA

知识蒸馏是一种模型压缩技术,它能够将一个大型、复杂的模型(教师模型)的知识「蒸馏」到一个更小、更简单的模型(学生模型)中。在 ReDrafter 中,RNN 草稿模型作为学生模型通过知识蒸馏从 LLM(教师模型)中学习。

具体来讲,蒸馏训练过程中,LLM 会给出一系列下一个可能词的「概率分布」,开发人员会基于这个概率分布数据训练 RNN 草稿模型,然后计算两个模型概率分布之间的差异,并通过优化算法使这个差异最小化。

在这个过程中,RNN 草稿模型不断学习 LLM 的概率预测模式,从而在实际应用中能够生成与 LLM 相似的文本。

通过知识蒸馏训练,RNN 草稿模型更好地捕捉到语言的规律和模式,从而更准确地预测 LLM 的输出,并且因为其较小的规模和较低的推理计算成本,显著提高了 ReDrafter 在有限硬件条件下的整体性能。

▲图源:阿里云开发者社区

苹果的基准测试结果显示,在 NVIDIA H100 GPU 上对数十亿参数的生产模型使用集成了 ReDrafter 的 TensorRT-LLM 时,其贪心解码(Greedy Decoding)每秒生成的 tokens 数量提高了 2.7 倍。

此外,在苹果自家的 M2 Ultra Metal GPU 上,ReDrafter 也能实现 2.3 倍的推理速度提升。苹果的研究人员表示「LLM 越来越多地用于驱动生产应用程序,提高推理效率既可以影响计算成本,也可以降低用户端延迟」。

▲图源:Apple

值得一提的是,在保持输出质量的同时,ReDrafter 减少了对 GPU 资源的需求,这使得 LLM 在资源受限的环境中也能高效地运行,为 LLM 在各种硬件平台上的使用提供了新的可能性。

苹果目前已经在 GitHub 上开源了这项技术,未来从中获益的公司将很可能不止英伟达一家。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Before yesterdayMain stream

英伟达推出「最便宜」AI 超算,想让每个人都踏入 AI 世界

By: 范津瑞
18 December 2024 at 18:00

2019 年,人工智能技术快速进步,AI 应用不断广泛深入。彼时,英伟达(NVIDIA)推出了面向「嵌入式设计师、研究人员和 DIY 制造商」的 AI 计算机以及开发套件「Jetson Nano」,售价 499 美元(约合 3638 元)。

▲Jetson Nano(图源:NVIDIA)

近日,英伟达发布了 Jetson Nano 的升级版,也是目前该系列中「最便宜」的 AI 超级计算机及其开发套件「Jetson Orin Nano Super」。在性能更强的同时,价格还降低了一半,仅售 249 美元(约合 1809 元)。

按照英伟达的官方说法,Nano Super 的受众是「商业 AI 开发者、业余爱好者和学生」。的确,不到 2000 元的价格对于那些初次接触生成式 AI、机器人技术或者计算机视觉技术的人群来讲,还算友好。

也许,这也表明了目前使用 AI 进行推理任务的成本正在逐渐降低。

▲Jetson Orin Nano Super(图源:NVIDIA)

相较于前代,Nano Super 的 AI 推理性能提升了 1.7 倍,整体性能提高了 70%,达到 67 INT8 TOPS。此外,Nano Super 的内存带宽增加至 102GB/s,比前代产品提升了 50%;CPU 频率也从前代的 1.5GHz 提升至 1.7GHz。

整个 Nano Super 开发套件包含 Jetson Orin Nano 8GB 系统级模块(SoM)和一个参考载板,SoM 配备了 NVIDIA Ampere 架构 GPU 和 6 核 Arm CPU,支持多个并发 AI 应用管道和高性能推理。

另外,它还支持调用最多四个摄像头,并且提供比之前的版本更高的分辨率和帧速率。

▲图源:NVIDIA

英伟达声称 Nano Super 的性能提升为所有流行的生成式人工智能模型和基于变换器(transformer)的计算机视觉带来了好处。

不仅如此,由于 Nano Super 套件的硬件与其前代 Orin Nano 的硬件基本相同,因此之前购入了 Orin Nano 的用户通过安装软件更新(JetPack SDK),也能体验到 Nano Super 的性能升级。

英伟达称,这是一份「持续给予的礼物」。

▲图源:NVIDIA

在英伟达生态的加持下,开发者可以从 NVIDIA Jetson AI 实验室获取教程,还可以在更广泛的 Jetson 社区获得支持和帮助,或者从其他开发者创建的项目中获得灵感等等。

英伟达表示,无论是创建基于检索增强生成的 LLM 聊天机器人、构建视觉 AI 代理还是部署基于 AI 的机器人,Nano Super 都是「理想的解决方案」,并且期待它能够加速 AI 驱动机器人技术在多个行业的发展。

随着人工智能领域从特定任务模型逐渐转向更为通用的基础模型,Nano Super 无疑为技术爱好者们提供了一个将想法变为现实的「最实惠」可访问平台。正如英伟达所说:

现在每个人都可以通过生成式 AI 解锁新的可能性

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 计划自研 AI 芯片,以减少对英伟达的依赖

By: 范津瑞
31 October 2024 at 14:30

据路透社报道,OpenAI 正在与博通(Broadcom)合作开发其首款定制 AI 推理芯片,旨在处理其大规模的 AI 工作负载,特别是推理任务。

为此,OpenAI 已经组建了一支约 20 人的研发团队,包括曾参与谷歌 Tensor 处理器项目的首席工程师在内。

消息称博通将会帮助 OpenAI 进行芯片设计,并确保由台积电(TSMC)进行制造,预计 2026 年开始生产。

▲OpenAI 将自研 AI 芯片. 图片来源:cnBeta

为了实现芯片供应的多元化,OpenAI 此前计划建立芯片制作代工厂。但由于成本高昂,并且构建代工厂网络需要大量时间,OpenAI 已经搁置了这一计划,转而专注于内部芯片设计

OpenAI 这一通过「定制芯片设计来管理成本和访问 AI 服务器硬件」的战略意味着其走上了 Meta 和 Google 等科技公司的老路,而后者作为 OpenAI 的竞争对手,已经经历了几代人的努力。

并且,市面上不乏成熟且广泛部署应用的 AI 芯片,如 Google 推出的「TPU」、微软的「Maia 100」等等。

也就是说,OpenAI 需要更多的资金才能弥补这些差距,登上牌桌。

▲微软推出的 AI 芯片「Maia 100」. 图片来源:techmonitor

除了满足不断增长的基础设施需求,减少训练和运行成本以外,「减少对英伟达(NVIDIA)的依赖」也是 OpenAI 的「小算盘」之一。

OpenAI 的 CEO 奥特曼(Altman)指出,之所以要「获得更多芯片」,是因为两个问题:为 OpenAI 软件提供动力的先进处理器的短缺,以及为其工作和产品提供动力的硬件运行所需的「令人眼花缭乱」的成本。

他还曾公开抱怨市场资源匮乏,而 NVIDIA 主导并控制着最适合运行 AI 应用的芯片全球 80% 以上的市场。

作为英伟达图形处理单元(GPU)的最大买家之一,OpenAI 此前几乎完全依赖 NVIDIA GPU 进行训练。2020 年以来,OpenAI 在微软建造的大型超级计算机上开发了其生成式人工智能技术,这台计算机使用了 10000 个 NVIDIA GPU。

▲NVIDIA H100 GPU. 图片来源:NVIDIA

但由于芯片短缺和供应延迟,以及训练成本高昂的问题,OpenAI 不得不开始探索替代方案。他们计划通过微软的 Azure 云平台使用 AMD 芯片进行模型训练。

值得一提的是,AMD 在去年推出了 MI300 AI 芯片,致使其数据中心业务在一年内翻了一番。种种迹象表明,AMD 正在追赶市场领导者 NVIDIA。

▲AMD MI300 芯片. 图片来源:AMD

此外,消息人士称 OpenAI 仍在决定是否为其芯片设计开发或收购其他元件,并可能会聘请更多合作伙伴。

尽管「不惜一切代价构建 AGI(通用人工智能)」的 OpenAI 和号称「下一个英伟达」的博通之间和合作很可能引起英伟达的不满,但 OpenAI 表示「希望与仍致力于合作的芯片制造商保持良好的关系,特别是在使用其新一代 Blackwell 芯片方面」。

对此,英伟达暂时不予置评。

唯一的回应是市场。合作消息一出,博通的股价应声大涨,AMD 也延续了早盘涨幅。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌