Reading view

There are new articles available, click to refresh the page.

曾经的最强苹果电脑 Mac Pro,已经被时代抛弃

没想到再次听到苹果 Mac Pro 的新消息,会是一个噩耗:

根据彭博社 Mark Gurman 爆料,苹果内部已经取消了新款 Mac Pro 台式机的开发,其搭载的 M4 Ultra 处理器也一起被砍,下一代高端桌面芯片是 M5 Ultra。

苹果内部基本放弃了 Mac Pro 项目,并认为 Mac Studio 才是未来。

Mac Pro 的坎坷一生

如果从 1994 年发布的 Power Macintosh 算起,那 Mac Pro 发布至今已过了 31 个年头,经历了苹果芯片的两次重大转型。

只是对于苹果来说,打造一台普通的性能猛兽永远不是产品的最终目标,做出一台既优雅又强大的电脑去定义未来,才是乔布斯和艾维的野心——甚至有的时候,「优雅」会优先于「强大」。

只是在半导体工业还不算发达的当时,设计和性能难以兼得,两者的矛盾如一个幽灵般盘旋在 Power Mac 和 Mac Pro 三十多年的历史中,注定了这个产品线命运多舛。

初代 Power Macintosh 采用了非常经典的塔式机箱形态,在当时作为首款搭载 PowerPC 处理器的苹果电脑问世,颇有秀肌肉的味道,位于苹果经典四象限的「专业级」和「台式机」区域。

从这时起,Power Macintosh 系列(后改名 Power Mac)成为了苹果电脑性能天花板代名词,主要面向高端的商务和创意用户。

Power Macintosh 定下的另一个「规矩」,就是极高的拓展性——它配备了 6 个 PCI 插槽和 7 个内置硬盘位,还需要用户自己添加独立显卡,完全就是为专业极客准备的产品。

在乔布斯回归苹果、乔纳森·艾维执掌设计大权后,两人通力合作打造出了多彩、塑料的 Power Mac G3,很好平衡了产品设计和性能功能。

两人不满足于此,Power Mac G4 Cube 在对未来计算机的进一步畅想中诞生。

通体玻璃和金属的外壳,看不到按钮和 CD 插槽,禅意甚至贯彻到机箱内部——连散热的风扇都没有。乔布斯对 Power Mac G4 Cube 非常满意:

我们通过简化去除多余的东西,取得进步。

Power Mac G4 Cube 得以位列现代艺术博物馆展厅,却也钉在了苹果产品的「耻辱柱」上:这个超小型机箱和无风扇的设计,导致散热能力低下,限制了性能发挥,最终这个设计也只使用了一代。

同样的故事,在 Mac Pro 产品线中还会再次上演。

2006 年,Mac Pro 接棒 Power Mac,同样在苹果转投英特尔的节点问世,搭载英特尔的至强系列处理器。

Mac Pro 延续了 Power Mac G5 的工业铝合金外壳,尽管工艺优秀,充满「Pro」气质,只是这个庞然大物的形态和体积,显然还不是苹果心目中的最佳形态。

于是在 2013 年,苹果给了艾维一个机会,去设计一款不同于以往的 Mac Pro。最终的成品确实称得上非同凡响,成为苹果产品设计史上极为浓墨重彩的一笔——

这个设计至今仍被人们津津乐道,但代价也很明显:这个仅有上代体积 1/8,只配备单个风扇的「垃圾桶」,很容易就会因为散热问题遇到性能瓶颈,对于一台面向专业用户的电脑来说是大忌。

▲ 两代 Mac Pro 体积对比

并且,苹果官方也只允许用户自行更换 Mac Pro 的内存和存储空间,并警告强行更换显卡会有很高的故障风险。

这并不是专业用户们所期待的 Mac Pro。在发布两三年后,到处都充满了对这个「垃圾桶」的吐槽,以及苹果是否已经抛弃专业用户的质疑声。

为了挽救口碑,苹果官方很罕见在 2017 年的一次媒体活动中出面承认了「垃圾桶」Mac Pro 的失败,并在之后推出了 iMac Pro 平息专业用户愤怒,承诺下一台 Mac Pro 将「更模块化」。

新款 Mac Pro 终于在「垃圾桶」发布后的 2182 天后发布——这期间,iPhone 大改了两次设计。

令人啼笑皆非的是,苹果对于「垃圾桶」的反思结果,就是重新捡起了 2006 年的初代塔式 Mac Pro 的图纸,铝合金机箱则换用了著名的「刨丝器」设计。

▲ 图源:YouTube@Ryan Gehret

至少,苹果终于端上来了一台高性能且可拓展的主机,人们欣然接受这台新 Mac Pro,这款产品最终也收获了不错的口碑。

只是当时也无人能预料到,这个 Mac Pro 的全新起点,同时也是这个产品线的终点。

一年后,Apple Silicon 横空出世,成为了 Mac 历史上最重要的一个转折点。

但这次,Mac Pro 没有像之前一样成为转型的排头兵,相反,在这个令人激动的新时代,它成为了无处安放的怪异存在。

Mac Pro 甚至是整个产品线中最后得到 Apple Silicon 翻新的型号,2023 年,搭载 M2 Ultra 的 Mac Pro 姗姗来迟。

虽然沿用了上一代颇受好评的新机箱,但高集成度的 Apple Silicon 生态,使得它的可扩展性极其有限,只能安装一些特殊的扩展卡,无法升级内存或者插入显卡。

与此同时,高能效的 Apple Silicon 终于让苹果得以「复活」Power Mac G4 Cube。

Mac Studio 小巧精致,外观没有一丝赘余,内部集成度高而无法扩展,苹果终于在 20 年后实现了乔布斯的夙愿,造出了一台真正面向未来的电脑。

▲ Power Mac G4 Cube 和 Mac Studio,图源:Macworld

对于用户来说,Mac Pro 更大、更重、更贵,却没带来更强的性能,只多出来一点点拓展性,新时代已经没有它的位置了。

或许也可以这么说,Mac Pro 不是被砍了,而是脱胎换骨,成为了 Mac Studio。

新时代再无 Mac Pro 的地位

和外观浑然一体的 iMac、Mac mini 以及多款 MacBook 比起来,采用塔式机箱、内部模块化设计的 Mac Pro,其实更像是一台 Windows 主机,不过运行着官方支持的 macOS。

纵观 Power Mac 和 Mac Pro 的历史,或者说整个电脑历史,高性能的主机以往似乎只有一种解题思路——巨大的塔式机箱,内部布满等着用户自己魔改的插槽。

在性能和能耗震惊世界的 Apple Silicon 诞生之后,苹果终于可以不再遵循 PC 高性能主机的这套规则,利用自己的芯片生态去代替以往需要不断增加更换电脑模块的方案。

在 M4 Mac mini 发布后,立马就有不少有趣的探索,例如联合运行多台 Mac mini 来形成盘阵列或者 AI 训练集群,以往这需要叠加更多显卡才能实现,并且功耗还更高。

▲ 图源:X@ Alex Cheema

对比可以自行更换元器件的模块化,这种高集成的设计使得产品出厂后再无升级可能,但高集成实现的高性能小型化,也产生了全新的价值。

以往的巨大机箱主机在,基本不具备流动性,我们以形式固定的「工作室」模式进行创作和生产,如果需要机动办公,则需要使用移动硬盘 + 性能本,无疑拉低了效率。

得益于高性能便携主机的出现,工作环境可以更灵活进行部署。像是影视行业的 DIT 工种,现在他们能够直接带走整个 Mac Studio 进行工作——换作以前的 16 千克 Mac Pro,这是不可能实现的。

▲ 把 Mac Studi 带着走的方案非常常见,图源:ProVideo Coalition

并不是只有苹果在深耕这个方向。英伟达的 DGX Spark 体积和老款 Mac mini 相当,却是一台具有 1 Petaflop 的 AI 超级计算机,曾经需要大型机柜和大量显卡的算力,现在可以直接摆在桌上。

芯片工艺和设计已经达到了一个顶峰,性能高能耗低成为常态,现在正是实现那些梦幻设计的时机,而小型化一直以来都是计算机和电子产品的迭代方向。

很多人对「小机箱」的趋势不解,质疑「能做大为什么不做大」,能够实现更好的散热——实际上,同一颗芯片的 Mac Pro 和 Mac Studio 性能几乎没有差距,现在的问题变成了「能做小为什么要做大」。

▲ 两者跑分非常接近,价格却相差 3000 美元,图源:MKBHD

更深层的变迁发生在社会之中。在 AI 改写生产力的时代下,每个人正在向「超级个体」靠拢,以前的工作方式是「计算机上长了个人」,那现在是人在哪里,性能就必须跟到哪里。

诚然,对于一些有专门需要的专业人士,像 Mac Pro 这样具有更高拓展性的大机箱还有价值,但 Mac Studio 的能力正在不断突破我们的想象,越来越多拓展也可以通过雷电接口解决。

带有一丝戏谑地说,Mac Pro 身上最有价值的部分,或许只剩下这个工艺水准极高的「刨丝器」机箱了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


黄仁勋送马斯克的3万块个人超算,要借Mac Studio才能流畅运行?首批真实体验来了

2000 亿参数、3 万块人民币、128GB 内存,这台被称作「全球最小超算」的机器,真的能让我们在桌面上跑起大模型吗?

▲ 图片来自 x@nvidia

前些天,黄仁勋正式把这台超算送到马斯克手上,而后也亲自去到 OpenAI 总部,送给奥特曼。从 CES 登场到如今落地,这台个人超算终于要来到我们手上。

▲官网发售情况,售价 3999 美元,也提供了华硕、联想、戴尔等七个电脑品牌的发售版本;链接:https://marketplace.nvidia.com/en-us/developer/dgx-spark/

NVIDIA DGX Spark,一台个人 AI 超级计算机,目标用户是科研人员、数据科学家和学生等,为他们提供高性能桌面级 AI 计算能力,帮助他们完成 AI 模型的开发和创新。

听着很强大,但普通人能想到的玩法,无非还是:

  • 本地跑大模型:跟它聊天的内容只留在自己电脑里,绝对安全。
  • 本地搞创作:不受限制地生成图片和视频,告别会员和积分。
  • 打造私人助理:把自己的资料都喂给它,训练一个只懂你的「贾维斯」。

▲ 部分显卡租赁平台显示的 A100 售价为 7元/时

实际上,DXG Spark GB10 Grace Blackwell 超级芯片的能力,或许可以拓展它的应用场景,但是具体能做些什么?又做得怎么样?3 万块的售价,能租 4000 小时的 A100,你真会把它放在桌上跑跑大模型吗?

我们收集了目前网络上关于 DGX Spark 多个详细评测,试图在我们的实际体验之前,带大家看看这台设备,到底值不值 3 万块。

太长不看版:

  1. 性能定位:轻量模型表现出色,1200 亿参数的大模型也能稳稳跑起来。总体水平介于未来的 RTX 5070 和 RTX 5070 Ti 之间。
  2. 最大短板:273 GB/s 内存带宽是限制。算力足够,但数据传输慢。体验就像一个脑子转得飞快但说话结巴的人。
  3. 邪修玩法:用一台 Mac Studio M3 Ultra 来「辅佐」它。DGX Spark 负责快速思考,Mac Studio 负责流畅表达,强行解决「结巴」问题。
  4. 生态丰富:官方提供了超过 20 种开箱即用的玩法,从生成视频到搭建多智能体助手,AI全家桶都给你配齐了。

只比 Mac Mini 强一点点?

话不多说,先看数据。

▲ 每秒处理填充和解码的平均 token 数量,DGX Spark 排在 RTX 5080 后,图片由 ChatGPT 制作

DGX Spark 对比 Mac Mini M4 Pro 还是要强上不少,尤其是在 Prefill 阶段。但是在 Decode 阶段,优势就没有这么明显了。Mac Mini M4 Pro 在 DeepSeek R1 开源模型上的 TPS 能做到 17.8,而 DGX Spark 也才 33.1。

快速做个名词解释,来看看 AI 推理的两个阶段到底是什么

简单来说,当我们在 AI 聊天框里输入问题,模型生成答案的过程可以分为两个关键步骤:

1. Prefill(预填充/阅读理解阶段)

AI 拿到我们的问题后,快速阅读和理解你输入的每一个字(即提示词)。

这个阶段处理得越快,我们等待 AI 吐出第一个字的时间就越短,也就是常用来宣传 AI 能力的指标,首字响应时间,TTFT(Time To First Token, TTFT) 越短。

2. Decode(解码/生成答案阶段)

就像 AI 已经想好了答案,开始逐字逐句地打字输出给我们。

决定 AI 打字的速度,也就是我们常说的 TPS(每秒生成词元数)。这个数值越高,我们看到答案完整显示的速度就越快。

💡 Tips:什么是 TPS?

TPS 是 Token Per Second(每秒处理词元数)的简称,可以理解为 AI 的工作效率或打字速度。

Prefill 阶段的 TPS: 代表 AI 读懂问题的速度。

Decode 阶段的 TPS: 代表 AI 给我们生成答案的速度。


所以 DGX Spark 在给我们回答时,第一个字很快能出来,但是后续它的打字速度,很慢。要知道,Mac Mini M4 Pro 的价格才 10999 元,24GB 统一内存的版本。

为什么会这样?这项测试是由大模型竞技场的团队 LMSYS,在他们的 SGLang 项目和 Ollama 上,选择上图中六个不同的设备,运行多个开源大语言模型完成的。

▲ SGLang 是由 LMSYS 团队开发的高性能推理框架,FP8、MXFP4、q4_K_M、q8_0 是指大语言模型的量化格式,即对大模型进行压缩,用不同的二进制存储方式

测试的项目包括了 1200 亿参数的本地大模型,也有 80 亿的较小模型,此外 Batch Size 批次大小和 SGLang 与 Ollama 两种框架的差别,都会对 DGX Spark 的表现,产生不同的影响。

例如,评测团队提到,DGX Spark 在批次大小为 1 时,每秒解码的次元数只有 20 个,但是当批次大小设置为 32,每秒解码词元上升到 370。一般说,批次大小设置越大,每次要处理的内容越多,对 GPU 的性能要求越高。

而 DGX Spark 的 AI 能力,根据其所采用的 GB10 Grace Blackwell 芯片架构,以及 1 PFLOP 的稀疏 FP4 张量的性能,定位是在 RTX 5070 和 RTX 5070 Ti 之间。

所以开头那张显示结果的图,其实并不能全面的展示 DGX Spark 的能力,因为它平均了所有模型测试的结果。但不同批次大小的模型推理、以及不同参数的模型,它最终展示出的性能,都会有所不同。

综合来看,DGX Spark 的优点是:

  • 算力强:能处理大批量任务,AI 核心能力在 RTX 5070 级别。
  • 内存大:128GB 的海量内存,让它能轻松运行千亿级别的大模型。

但它的短板,致命且清晰——带宽。

Prefill 阶段拼的是算力(脑子快不快),Decode 阶段拼的则是带宽(嘴巴快不快)。

DGX Spark 的问题就是:脑子(算力)很快,但嘴巴(带宽)跟不上。

打个比方,它的数据通道就像一根细水管:

  • DGX Spark 用的内存是 LPDDR5X(手机和笔记本电脑常用),带宽只有 273 GB/s。
  • 作为对比,高端游戏显卡 RTX 5090 用的 GDDR7 内存,带宽高达 1800 GB/s,那是一根消防水管。

这就是为什么 DGX Spark 在打字阶段(Decode)表现平平的根本原因。

LMSYS 将评测的详细结果放在了 Google 文档中,我们把数据交给 Kimi 智能体,得到了一份详细的可视化报告,原始数据的预览,也可以点击 Kimi 预览报告下载选项获取。

▲ https://www.kimi.com/chat/199e183a-7402-8641-8000-0909324fe3fb

带宽限制?连接一台 Mac Studio 破解

带宽是短板,但已经有更极客的团队,找到了榨干 DGX Spark 全部算力的方法,那就是找一个带宽更快的桌面设备,Mac Studio M3 Ultra,利用其 819 GB/s 的速度,把大模型的推理速度愣是整体提升了 2.8 倍。

拿到两台 DGX Spark 早期访问权限的 EXO Lab,就直接把大模型推理的 Prefill 和 Decode 两个阶段,分别给了 DGX Spark 和 Mac Studio 来承担,这又叫做 PD 分离。

和我们之前介绍的预填充、解码两个阶段一样,一个依赖算力,一个依赖带宽。如上图所示,黄色代表预填充阶段,它决定着 TTFT,首个次元生成时间;而蓝色代表解码阶段,它决定了 TPS,每秒生成的词元数。

▲ EXO Lab 的做法就是将 Decode 交给 Mac Studio。

但 PD 分离的实现也不并不简单,EXO 团队要解决的还有一个问题,如何将 DGX Spark 设备上,预填充阶段生成的内容(KV 缓存),传输到处理解码的设备上。

这部分数据量很大,如果两台设备之间,传输时间太长,甚至可能会抵消性能提升的效果。

EXO 的答案是:流水线式分层计算与传输。DGX Spark 在处理第一层预填充时,计算出的 KV 缓存会立即开始传输给 Mac Studio,而 DGX Spark 则继续进行第二层的预填充工作。

这种分层流水线的方式,能让计算和数据传输的时间完全重叠。最终,当所有层的预填充完成,Mac Studio 已经拿到完整的 KV 缓存,可以立即开始解码。

虽然这套方案,在某种程度上解决了 DGX Spark 带宽限制的问题,提升了 3 倍的速度,但是费用也涨了 3 倍。两台 DGX Spark 和一台 Mac Studio M3 Ultra 的费用,快接近 10 万元人民币。

如果还是用来跑一个本地大模型,未免太过于杀鸡用牛刀。

性能评测之外,还能做些什么

273 GB/s 的带宽,也并不是 DGX Spark 的全部,128GB 的统一内存,用在数据中心级别的 GB10 架构显卡,支持每秒一千万亿次计算(1 Petaflop),以及桌面级设计,都有机会拓展它的应用场景。

我们在 YouTube 上找了一些博主的开箱和上手体验视频,一起看看这台优点和短板都很明显的设备,可以做点什么。

本地 AI 视频生成

生文模型现在基本上都免费使用,但是生视频的模型,大多数都需要充值会员,或者积分制。

博主 BijianBowen 利用 ComfyUI 框架,以及阿里的 Wan 2.2 14B 文本到视频模型,直接根据 DXG Spark 官方的 Playbooks(操作指南),配置了一个视频生成项目。

▲ NVIDIA DGX Spark – 非赞助的评测(与 Strix Halo 对比、优缺点)视频来源:https://youtu.be/Pww8rIzr1pg

在视频生成过程中,他提到即使命令后显示 GPU 的温度已经达到了 60-70 摄氏度,但是听不到一点噪音,风扇转动的声音也没有。

▲大部分博主有提到,DGX Spark 确实比较「安静」,设备拆解相当工整,来自 storagereview.com

除了用在视频生成和图像生成的 ComfyUI 提供了在 DGX Spark 上操作的指南,还有在本地运行大模型的桌面工具 LM Studio,也发布了博客提到支持 DGX Spark。

工具调用,搭建多智能体聊天机器人

Level1Techs 分享了自己用 DGX Spark 并行运行,多个 LLMs 和 VLMs,来实现智能体之间的交互。

▲ 深入探讨英伟达的 DGX Spark,视频来源:https://youtu.be/Lqd2EuJwOuw

得益于 128GB 的大内存,他可以选择 1200 亿参数的 GPT-OSS、67 亿的 DeepSeek-Coder、以及 Qwen3-Embedding-4B 和 Qwen2.5-VL:7B-Instruct 四个模型,来处理不同的任务。

这个项目也是 Nvidia 官方提供的指南,在他们官网,提供了超过 20 种玩法,并且每一种用法,都给出了预计需要的时间,以及详细的步骤。

▲ https://build.nvidia.com/spark

像是搭建一个文本到知识图谱的系统,把非结构化文本文档,转换为结构化知识结点。

视频搜索和摘要总结。

我们在 Reddit 上也发现一些拿到了 DGX Spark 的用户,开启了 AMA(Ask Me Anything) 活动。博主分享了自己的测试结果,同样提到 AI 能力对标 RTX 5070。还有有人问,是否可以运行一波 Karpathy 新推出的 nanochat 项目。

后续应该还会有更多 DGX Spark 的基准测试结果,和更全面的使用指南更新,APPSO 的 DGX Spark 正快马加鞭赶来。

DGX Spark 的存在,看起来更像是 AI 狂飙时代下的一个实验,一台数据中心级算力的桌面机器,试探着我们对本地 AI 的幻想边界。

真正的问题除了 DGX Spark 能不能跑,还有当我们每个人都能拥有一台超算时,我们可以拿它做什么。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌