Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

美议员要求就特朗普允许对华卖H200做出详细说明

13 December 2025 at 11:57

美国众议员穆勒纳尔(John Moolenaar)星期五(12月12日)要求商务部长卢特尼克,针对总统特朗普允许英伟达向中国出售H200晶片的决定,做出详细说明。

据路透社报道,特朗普本周较早前做出上述决定,改变他在第一任期和前总统拜登时期的做法,即不允许中国从美国晶片公司得到最强大的人工智能(AI)硬件。

H200是英伟达现有旗舰晶片的前身,目前仍在美国的人工智能行业中使用。

也是众议院中国问题特别委员会主席的穆勒纳尔,在致函卢特尼克的信件中引述媒体报道称,特朗普的决定至少有一部分是基于华为宣称的晶片性能提升而做出,但这些性能提升是来自空壳公司从台湾和韩国供应商非法采购的晶片。

穆勒纳尔要求卢特尼克明年1月中前,汇报上述H200决定所依据的证据和分析。

白宫和美国商务部尚未对路透社的置评请求作出回应。

白宫官员:中国拒绝英伟达H200晶片

13 December 2025 at 10:17

美国白宫人工智能事务负责人萨克斯称,中国拒绝英伟达H200人工智能晶片,以支持中国国产半导体。

据彭博社报道,美国总统特朗普星期一(12月8日)称,他将允许H200出口至中国。

美国政府正采取旨在让美国产品进入中国市场与对手竞争,挑战华为等中国科技公司的举措,其中包括允许H200出口至中国。

这一做法获得萨克斯(David Sacks)的支持,但萨克斯星期五(12日)告诉彭博社,他不确定这一做法是否奏效。

萨克斯引述一篇未指明的新闻报道称:“他们拒绝了我们的晶片。显然他们不想要这些晶片,而我认为原因在于他们想要实现半导体行业的独立性。”

另一方面,路透社引述两名不愿具名的知情人士报道,随着订单量超过公司现有产能,英伟达已告诉中国客户,公司正在评估是否要提高H200产能。

其中一名消息人士称,中国企业对这款晶片的需求非常强劲,因此英伟达倾向于增加产能。英伟达尚未回复路透社的置评请求。

路透社曾报道,包括阿里巴巴和字节跳动在内的多家中国主要企业本周已就购买H200事宜与英伟达接洽,并有兴趣下大订单。

报道称,由于中国政府尚未批准任何H200采购事宜,因此仍存在不确定性。消息人士称,中国官员已在星期三(10日)召开紧急会议讨论此事,并将决定是否允许H200运往中国。

路透社较早前也引述熟悉英伟达供应链的消息人士报道,目前H200的产量非常有限。

英媒:尽管美国同意出售 中国将限制科企使用H200晶片

11 December 2025 at 11:09

英国媒体报道称,虽然美国政府准许美国人工智能(AI)巨企英伟达对华出售H200晶片,但中国仍将限制国内科企使用这类晶片。

据路透社报道,英国《金融时报》星期二(12月9日)引述两名知情人士,报道上述消息。

报道称,北京正在探讨如何限制中国科企使用H200晶片。这一举措,将给英伟达和其他美国晶片制造商进入中国市场增添障碍。

在中美科技战不见消停的背景下,北京积极推动中国科企以来国产半导体开发AI产品。

不过,在特朗普星期一(8日)宣布,批准英伟达向中国出口H200晶片,并将从销售额中抽取25%分成后,中国科企字节跳动和阿里巴巴已向英伟达询问购美H200晶片事宜。

特朗普开绿灯后 传字节阿里有意订购H200晶片

11 December 2025 at 09:49

知情人士称,美国总统特朗普宣布,准许美国人工智能(AI)巨企英伟达对华出售H200晶片后,中国科企字节跳动和阿里巴巴已向英伟达询问购美H200晶片事宜。

路透社星期三(12月10日)引述四名知情人士,报道上述消息。

其中两名知情者说,只要北京开绿灯,上述两家中国科企将向英伟达H200晶片下大订单。其中一人称,两家公司仍对供货情况表达关切,因此向英伟达询问出货详情。

在特朗普决定让英伟达向中国市场出售台湾制造的H200晶片前,英伟达对华售卖的最先进AI半导体是H20晶片。H200晶片的算力约为H20晶片的六倍。

中国政府尚未对特朗普的上述宣布表态。路透社报道,北京近几个月禁止政府资助的数据中心和中国科企购买英伟达AI晶片,导致英伟达在中国的市占率大幅萎缩。

美国科技媒体The Information星期三报道,中国监管机构聚集阿里巴巴、字节跳动和腾讯等科企代表,询问他们对H200晶片的需求。

报道引述消息人士称,中国官员对这些公司说,他们将很快得悉官方的决定。

两名熟悉英伟达供应链的知情者称,H200晶片目前的产量非常有限,英伟达专注生产最先进的Blackwell晶片和即将推出的Rubin晶片。

知情人士称,中国科企想采购H200晶片,以提升训练AI模型的能力,因为目前所使用的国产AI晶片更适用于训练推理模型。

路透社查阅逾百份投标案和学术报告发现,中国顶尖大学、数据中心企业,以及与中国军方有关联的实体,设法通过灰色市场渠道采购H200晶片。

DeepSeek据报用美禁英伟达晶片开发下一代AI模型

11 December 2025 at 09:05
中国人工智能初创企业深度求索据报使用美国禁止对华出口的英伟达晶片开发下一代AI模型。 (路透社档案照)

美国媒体报道称,中国人工智能(AI)初创公司深度求索(DeepSeek)依赖美国禁止向中国出口的英伟达晶片,开发新一代AI模型。

据彭博社报道,美国科技媒体The Information星期三(12月10日)引述匿名消息人士称,英伟达的Blackwell晶片通过允许销售这类晶片的国家偷运入中国。

报道称,确切的说,深度求索使用在未指定国家设置的数据中心安装的晶片,而搭载这些晶片的服务器在运往中国前已被拆解。

美国禁止这类先进半导体输入中国,促使中国AI技术开发者必须通过境外数据中心等方式获得这些硬件。

美国联邦检察官11月指控两名中国公民及两名美国公民,策划向中国运送数百万美元(100万美元相等于131万新元)的英伟达高阶晶片,违反国家安全出口限制。

美国司法部星期一(8日)指控两名中国男子涉嫌向中国走私英伟达H100和H200晶片。

深度求索代表未立即回应彭博社的置评请求。

英伟达发言人在一份声明中说,公司“未发现任何实质证据或收到任何线报”显示存在The Information所形容的相关行动。“这类偷运行为看似荒诞,只要获得任何线报,我们必将追究”。

深度求索今年1月横空出世,所开发的AI模型吸引全球目光。公司透露,所开发的AI模型建造成本远低于硅谷科企,但算力却足以媲美硅谷最佳科企产品。

美国总统特朗普星期一宣布批准英伟达向中国出口H200AI晶片,并将从销售额中抽取25%分成。不过,英伟达的Blackwell晶片仍被禁止销往中国。

在中美科技战不见消停的背景下,北京积极推动中国科企以来国产半导体开发AI产品。深度求索9月发布新一代模型,并表明与晶片制造商合作研发该模型。

摩尔线程将发新一代GPU 公司股价飙升

10 December 2025 at 15:04

中国晶片设计公司摩尔线程将揭晓新一代处理器架构,星期三(12月10日)公司股价飙升,一度上涨27%。

摩尔线程星期二(9日)公布,12月19日至20日,摩尔线程将举行首届MUSA开发者大会。摩尔线程创始人、董事长兼CEO张建中会系统阐述以MUSA为核心的全栈发展战略与未来愿景,并重磅发布新一代图形处理器(GPU)架构、推出涵盖产品体系、核心技术及行业解决方案的完整布局,分享多领域落地案例与生态建设进展。

公司股价在星期三收涨17.78%至每股740元(135.76新元)。

得益于市场对中国科技自给自足的乐观预期,公司总市值已接近500亿美元(647.96亿新元)。

摩尔线程被视为英伟达在中国的挑战者,因为它效仿了英伟达设计GPU的路径,GPU最初主要用于渲染影片游戏中的高质量图像,后来被用于AI训练。摩尔线程的大多数国内AI晶片竞争对手,如华为(Huawei)和寒武纪,设计的是订制的专用集成电路(ASIC)。

据道琼斯的报道,尽管投资者对摩尔线程的股票热情高涨,但分析师仍将其视为排在华为和寒武纪之后的国内二线AI晶片供应商。

存储管够的时代已经结束,立刻赶到战场的是涨价减配

By: 马扶摇
1 December 2025 at 12:02

又到了一年一度科技厂商发表财报的时候。只不过今年除了财务数据之外,在对于未来的业务预测中,各大厂商不约而同地表达了一项惊人一致的警告:

受到全球存储行业成本上升影响,明年的产品价格将有所上调。

图|GIGAZINE

这一轮涨价所波及的范围,要比爱范儿上个月有关内存涨价的文章中提到的更广——现在不仅仅是你的手机和电脑,更上游的显卡、板卡厂商也没能幸免。

这对于本就风雨飘摇的 DIY PC 圈子来说,无疑是个坏消息。

因为明年原本就是 CPU 和 GPU 工艺制程从 3nm 跨步到 2nm 的节点,如果再叠加上内存涨价,「装配一台电脑」的成本将变得惨不忍睹。

更地狱的是,如果按照现在的内存价格计算,买一台 512GB 内存的 Mac Studio,就相当于只花了内存的钱,M3 Ultra 处理器、外壳、雷雳 5 控制器甚至硬盘等等其余部分全都是白送的

真 · 买内存送电脑

换句话说,前方等待着我们的,将是一场旷日持久的苦战。

存储涨价不可避免

在之前的文章中,爱范儿已经和大家详细解析了最近一段时间手机 SKU、内存条、固态硬盘携手涨价的原因。

然而我们没有预料到的是,涨价的幅度和速度会如此夸张。

和之前文章中的编辑部同事类似,小编也在年初重组了自己的电脑,选择了一套金百达(KingBank)的 DDR4 3600 双 16GB 内存,一月份的售价为 349 元。

而今天再查时,这套的价格已经是年初的三倍了:

我们之前提到过,2025 年下半年的存储行业集体涨价,初始诱因就是飞速增长的 AI 产业。

无论是 OpenAI 的「三万亿美元 AI 基础设施计划」星门(Stargate),还是微软、亚马逊、苹果都在加快脚步推进的新数据中心建设,都离不开专门的企业级高带宽内存(High Bandwidth Memory, HBM) 。

而放眼全球,能够大规模生产 HBM ——或者说更广泛的 DRAM 产品的,无非就是三大垄断巨头:韩国的三星、SK 海力士(SK Hynix),以及美国的美光(Micron)。

图为 2023 年全球 DRAM 市场份额,三家长期保持市占率 95% 左右,近乎完全垄断|YOLE Intelligence

与此同时,AI + 数据中心的技术模式不仅没有停歇的势头,反而随着 AI 应用的日常化,变得更加兴旺起来。

即使把 AI 视作一个泡沫,那也是一个异常坚挺的泡沫。

在这种环境下,位于 DRAM 供应链顶端的三家巨头根本不需要玩「火龙烧仓」的把戏,直接将现有产能和扩产指标转入企业级产品,就能够轻易赚到比在消费级市场强行控货多得多的利润

2018 年无锡 SK 海力士工厂起火,旋即涨价

而这种生产策略的调整,结果就是上面说到的——

现在的存储缺货已经不再限于 DDR4、DDR5 之类的个人电脑内存,也进一步扩散到了显卡使用的 GDDR6、GDDR7 等高速内存上。

面对这样的形势,强势如英伟达也不得不采取措施了。

根据一份近期的爆料,英伟达已经与生产非公版显卡的板卡厂商(如华硕、技嘉、七彩虹等)协商调整销售模式,英伟达后续将不再配套销售 GPU 核心和显存,而是仅销售核心、板卡厂商需要自行采购显存颗粒:

图|NiceHash

虽然这项泄露还未得到英伟达或板卡厂商的正式回应,但从商业策略角度分析是完全合理且可能的。除了向外转移库存风险之外,英伟达自己也更需要这些显存颗粒。

因为它不仅有公版 RTX 这样的消费级产品,还有诸如 A800、H800、DGX 之类的业务,这些动辄 80GB 显存的企业级产品才是真正的大头,此次调整的一部分原因就是要把手中的闪存库存留给自家的 AI 产品。

图|Nvidia

另一边,最新的 AMD Radeon RX 9000 和 RTX 50 系显卡一样是 GDDR6 和 GDDR7 客户,虽然目前没有消息或新闻表明 AMD 也将改变板卡销售模式,但在存储行业整体涨价的背景下,可能性还是很高的。

因此,一边是 AI 巨头和数据中心加大采购量,一边是存储厂商削减消费级产品的产能,两者叠加,就构成了近期主流消费级内存产品价格单月增长 100%~200% 的疯狂现象:

自此,这场震动已经从垄断全球的三家 DRAM 厂商拓展到了英伟达这样的中上游企业,进而波及到消费级 PC 市场的 OEM 厂商与 DIY 玩家,而最终也将波及到同为 DRAM 需求大户的手机行业。

美好时光,只在今日

根据集邦咨询(Trend Force)的一份调查报告,今年第四季度 DRAM 合约价格相比去年同期涨价超 75%,并且是 DRAM(内存)和 NAND Flash(硬盘)同时上涨。

基于这样的背景,集邦咨询在报告中预估,2026 年的手机整机零件成本(BOM cost)将会在今年的基础上涨价约 5% 至 7%,甚至有可能上探到 10% 左右。

图|iFixit

比如一台售价 5499 元的手机,内存 + 硬盘的总成本占整机 BOM 成本的 15% 左右,如果闪存涨价一倍,涨幅并不会直接平移到售价上,而是叠加利润需求,让售价最终上涨 500~700 元左右。

这种涨幅的冲击,对于原本定价就在六千元左右的旗舰机型来说或许还能消化,但对于那些在三四千元档位、锱铢必较地拼参数的中高端机型来说,涨价 500 元是完全无法接受的。

换句话说:三四千元档手机也能 24GB + 1TB 的时代,恐怕是一去不复返了

与此同时,高端手机市场也并不能从存储涨价中独善其身。高规格的存储在 BOM 中的比例或许目前仍在控制范围内,但在目前的涨价速度面前同样不容小觑。

此外,与 PC 遇到的问题一样,2026 年同样是手机处理器从 3nm 升级 2nm 的关键节点。

台积电的 2nm 处理器报价原本就已水涨船高,更夸张的是,2nm 芯片的首发客户甚至有可能不是长年以来的苹果,而是 OpenAI ——

没错,现在 AI 不仅要和你抢内存,更是要和你抢处理器了。

内外交困之下,明年的手机涨价已经不再是个「是或否」的问题,而是「涨多少」的问题了。从目前存储行业的趋势推测,2026 年各家主流手机品牌「中低端减配」和「中高端涨价」将会变成共识。

不过在这一波涨价潮之中,也有几个特殊的身影。

比如刚刚发布的 Mate 80 标准版虽然踩在了涨价潮中间,但标价相比去年其实还有所下调。这和华为一直倾向于和存储供应商签一年期的「长协」不无关系,应对价格冲击的能力要明显强于按季度签协议的其他品牌。

图|华为官网

另一方面,三星自家的产品由于近水楼台先得月,受到年末存储涨价风波的影响也相对较小,目前普遍预测即将发布的 S26 系列新机的涨价幅度在 50 美元左右,属于勉强接受的范畴。

图|Android Authority

而苹果这边的消息就没有那么好了,虽然苹果对于供应链的议价能力极强,但面对这种「近乎垄断」的供应链情况也无从下手。

传闻中为了 Apple Intelligence 而全系标配的 12GB 内存,很有可能成为 iPhone 18 系列涨价的主因。

图|MacRumors

祸不单行,还有消息称台积电除了 2nm 涨价之外,还计划对 5nm 以下产品提价以平摊 2nm 制程的研发费用,最直接影响的就是苹果的 A20 Pro 处理器。一句话——

明年的 iPhone 18 系列新机很可能涨价 1000 元左右,如果需要买 iPhone,马上下单可能是最实惠的方案。

同时,手机的主流配置从 12 或 16GB 缩水回 12GB,也给软件设计和系统优化提出了更高的要求,未来一两年里,系统优化和软件瘦身将会成为厂商的重点之一——

图|彭博社

或许「安迪-比尔定律」的提出者也没有想到,这个定律竟然会碰到「安迪把东西收回去」的情况。

我们需要注意到,消费电子产品将受到越来越多来自 AI 的挤压。2025 下半年的 DRAM 全行业涨价并不是传统的「技术-市场」周期内的涨价,而是产能被从外部夺走了,这和 2nm 处理器涨价的原因不同

这仅仅是手机,对于 DDR4 和 DDR5 依赖更明显、利润率参差不齐的 PC 领域更是几乎碰到了死局。

或许等到明后年,我们就能见到「内存条和硬盘自备」的准系统笔记本上架了:

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


黄仁勋送马斯克的3万块个人超算,要借Mac Studio才能流畅运行?首批真实体验来了

By: 张子豪
23 November 2025 at 09:59

2000 亿参数、3 万块人民币、128GB 内存,这台被称作「全球最小超算」的机器,真的能让我们在桌面上跑起大模型吗?

▲ 图片来自 x@nvidia

前些天,黄仁勋正式把这台超算送到马斯克手上,而后也亲自去到 OpenAI 总部,送给奥特曼。从 CES 登场到如今落地,这台个人超算终于要来到我们手上。

▲官网发售情况,售价 3999 美元,也提供了华硕、联想、戴尔等七个电脑品牌的发售版本;链接:https://marketplace.nvidia.com/en-us/developer/dgx-spark/

NVIDIA DGX Spark,一台个人 AI 超级计算机,目标用户是科研人员、数据科学家和学生等,为他们提供高性能桌面级 AI 计算能力,帮助他们完成 AI 模型的开发和创新。

听着很强大,但普通人能想到的玩法,无非还是:

  • 本地跑大模型:跟它聊天的内容只留在自己电脑里,绝对安全。
  • 本地搞创作:不受限制地生成图片和视频,告别会员和积分。
  • 打造私人助理:把自己的资料都喂给它,训练一个只懂你的「贾维斯」。

▲ 部分显卡租赁平台显示的 A100 售价为 7元/时

实际上,DXG Spark GB10 Grace Blackwell 超级芯片的能力,或许可以拓展它的应用场景,但是具体能做些什么?又做得怎么样?3 万块的售价,能租 4000 小时的 A100,你真会把它放在桌上跑跑大模型吗?

我们收集了目前网络上关于 DGX Spark 多个详细评测,试图在我们的实际体验之前,带大家看看这台设备,到底值不值 3 万块。

太长不看版:

  1. 性能定位:轻量模型表现出色,1200 亿参数的大模型也能稳稳跑起来。总体水平介于未来的 RTX 5070 和 RTX 5070 Ti 之间。
  2. 最大短板:273 GB/s 内存带宽是限制。算力足够,但数据传输慢。体验就像一个脑子转得飞快但说话结巴的人。
  3. 邪修玩法:用一台 Mac Studio M3 Ultra 来「辅佐」它。DGX Spark 负责快速思考,Mac Studio 负责流畅表达,强行解决「结巴」问题。
  4. 生态丰富:官方提供了超过 20 种开箱即用的玩法,从生成视频到搭建多智能体助手,AI全家桶都给你配齐了。

只比 Mac Mini 强一点点?

话不多说,先看数据。

▲ 每秒处理填充和解码的平均 token 数量,DGX Spark 排在 RTX 5080 后,图片由 ChatGPT 制作

DGX Spark 对比 Mac Mini M4 Pro 还是要强上不少,尤其是在 Prefill 阶段。但是在 Decode 阶段,优势就没有这么明显了。Mac Mini M4 Pro 在 DeepSeek R1 开源模型上的 TPS 能做到 17.8,而 DGX Spark 也才 33.1。

快速做个名词解释,来看看 AI 推理的两个阶段到底是什么

简单来说,当我们在 AI 聊天框里输入问题,模型生成答案的过程可以分为两个关键步骤:

1. Prefill(预填充/阅读理解阶段)

AI 拿到我们的问题后,快速阅读和理解你输入的每一个字(即提示词)。

这个阶段处理得越快,我们等待 AI 吐出第一个字的时间就越短,也就是常用来宣传 AI 能力的指标,首字响应时间,TTFT(Time To First Token, TTFT) 越短。

2. Decode(解码/生成答案阶段)

就像 AI 已经想好了答案,开始逐字逐句地打字输出给我们。

决定 AI 打字的速度,也就是我们常说的 TPS(每秒生成词元数)。这个数值越高,我们看到答案完整显示的速度就越快。

💡 Tips:什么是 TPS?

TPS 是 Token Per Second(每秒处理词元数)的简称,可以理解为 AI 的工作效率或打字速度。

Prefill 阶段的 TPS: 代表 AI 读懂问题的速度。

Decode 阶段的 TPS: 代表 AI 给我们生成答案的速度。


所以 DGX Spark 在给我们回答时,第一个字很快能出来,但是后续它的打字速度,很慢。要知道,Mac Mini M4 Pro 的价格才 10999 元,24GB 统一内存的版本。

为什么会这样?这项测试是由大模型竞技场的团队 LMSYS,在他们的 SGLang 项目和 Ollama 上,选择上图中六个不同的设备,运行多个开源大语言模型完成的。

▲ SGLang 是由 LMSYS 团队开发的高性能推理框架,FP8、MXFP4、q4_K_M、q8_0 是指大语言模型的量化格式,即对大模型进行压缩,用不同的二进制存储方式

测试的项目包括了 1200 亿参数的本地大模型,也有 80 亿的较小模型,此外 Batch Size 批次大小和 SGLang 与 Ollama 两种框架的差别,都会对 DGX Spark 的表现,产生不同的影响。

例如,评测团队提到,DGX Spark 在批次大小为 1 时,每秒解码的次元数只有 20 个,但是当批次大小设置为 32,每秒解码词元上升到 370。一般说,批次大小设置越大,每次要处理的内容越多,对 GPU 的性能要求越高。

而 DGX Spark 的 AI 能力,根据其所采用的 GB10 Grace Blackwell 芯片架构,以及 1 PFLOP 的稀疏 FP4 张量的性能,定位是在 RTX 5070 和 RTX 5070 Ti 之间。

所以开头那张显示结果的图,其实并不能全面的展示 DGX Spark 的能力,因为它平均了所有模型测试的结果。但不同批次大小的模型推理、以及不同参数的模型,它最终展示出的性能,都会有所不同。

综合来看,DGX Spark 的优点是:

  • 算力强:能处理大批量任务,AI 核心能力在 RTX 5070 级别。
  • 内存大:128GB 的海量内存,让它能轻松运行千亿级别的大模型。

但它的短板,致命且清晰——带宽。

Prefill 阶段拼的是算力(脑子快不快),Decode 阶段拼的则是带宽(嘴巴快不快)。

DGX Spark 的问题就是:脑子(算力)很快,但嘴巴(带宽)跟不上。

打个比方,它的数据通道就像一根细水管:

  • DGX Spark 用的内存是 LPDDR5X(手机和笔记本电脑常用),带宽只有 273 GB/s。
  • 作为对比,高端游戏显卡 RTX 5090 用的 GDDR7 内存,带宽高达 1800 GB/s,那是一根消防水管。

这就是为什么 DGX Spark 在打字阶段(Decode)表现平平的根本原因。

LMSYS 将评测的详细结果放在了 Google 文档中,我们把数据交给 Kimi 智能体,得到了一份详细的可视化报告,原始数据的预览,也可以点击 Kimi 预览报告下载选项获取。

▲ https://www.kimi.com/chat/199e183a-7402-8641-8000-0909324fe3fb

带宽限制?连接一台 Mac Studio 破解

带宽是短板,但已经有更极客的团队,找到了榨干 DGX Spark 全部算力的方法,那就是找一个带宽更快的桌面设备,Mac Studio M3 Ultra,利用其 819 GB/s 的速度,把大模型的推理速度愣是整体提升了 2.8 倍。

拿到两台 DGX Spark 早期访问权限的 EXO Lab,就直接把大模型推理的 Prefill 和 Decode 两个阶段,分别给了 DGX Spark 和 Mac Studio 来承担,这又叫做 PD 分离。

和我们之前介绍的预填充、解码两个阶段一样,一个依赖算力,一个依赖带宽。如上图所示,黄色代表预填充阶段,它决定着 TTFT,首个次元生成时间;而蓝色代表解码阶段,它决定了 TPS,每秒生成的词元数。

▲ EXO Lab 的做法就是将 Decode 交给 Mac Studio。

但 PD 分离的实现也不并不简单,EXO 团队要解决的还有一个问题,如何将 DGX Spark 设备上,预填充阶段生成的内容(KV 缓存),传输到处理解码的设备上。

这部分数据量很大,如果两台设备之间,传输时间太长,甚至可能会抵消性能提升的效果。

EXO 的答案是:流水线式分层计算与传输。DGX Spark 在处理第一层预填充时,计算出的 KV 缓存会立即开始传输给 Mac Studio,而 DGX Spark 则继续进行第二层的预填充工作。

这种分层流水线的方式,能让计算和数据传输的时间完全重叠。最终,当所有层的预填充完成,Mac Studio 已经拿到完整的 KV 缓存,可以立即开始解码。

虽然这套方案,在某种程度上解决了 DGX Spark 带宽限制的问题,提升了 3 倍的速度,但是费用也涨了 3 倍。两台 DGX Spark 和一台 Mac Studio M3 Ultra 的费用,快接近 10 万元人民币。

如果还是用来跑一个本地大模型,未免太过于杀鸡用牛刀。

性能评测之外,还能做些什么

273 GB/s 的带宽,也并不是 DGX Spark 的全部,128GB 的统一内存,用在数据中心级别的 GB10 架构显卡,支持每秒一千万亿次计算(1 Petaflop),以及桌面级设计,都有机会拓展它的应用场景。

我们在 YouTube 上找了一些博主的开箱和上手体验视频,一起看看这台优点和短板都很明显的设备,可以做点什么。

本地 AI 视频生成

生文模型现在基本上都免费使用,但是生视频的模型,大多数都需要充值会员,或者积分制。

博主 BijianBowen 利用 ComfyUI 框架,以及阿里的 Wan 2.2 14B 文本到视频模型,直接根据 DXG Spark 官方的 Playbooks(操作指南),配置了一个视频生成项目。

▲ NVIDIA DGX Spark – 非赞助的评测(与 Strix Halo 对比、优缺点)视频来源:https://youtu.be/Pww8rIzr1pg

在视频生成过程中,他提到即使命令后显示 GPU 的温度已经达到了 60-70 摄氏度,但是听不到一点噪音,风扇转动的声音也没有。

▲大部分博主有提到,DGX Spark 确实比较「安静」,设备拆解相当工整,来自 storagereview.com

除了用在视频生成和图像生成的 ComfyUI 提供了在 DGX Spark 上操作的指南,还有在本地运行大模型的桌面工具 LM Studio,也发布了博客提到支持 DGX Spark。

工具调用,搭建多智能体聊天机器人

Level1Techs 分享了自己用 DGX Spark 并行运行,多个 LLMs 和 VLMs,来实现智能体之间的交互。

▲ 深入探讨英伟达的 DGX Spark,视频来源:https://youtu.be/Lqd2EuJwOuw

得益于 128GB 的大内存,他可以选择 1200 亿参数的 GPT-OSS、67 亿的 DeepSeek-Coder、以及 Qwen3-Embedding-4B 和 Qwen2.5-VL:7B-Instruct 四个模型,来处理不同的任务。

这个项目也是 Nvidia 官方提供的指南,在他们官网,提供了超过 20 种玩法,并且每一种用法,都给出了预计需要的时间,以及详细的步骤。

▲ https://build.nvidia.com/spark

像是搭建一个文本到知识图谱的系统,把非结构化文本文档,转换为结构化知识结点。

视频搜索和摘要总结。

我们在 Reddit 上也发现一些拿到了 DGX Spark 的用户,开启了 AMA(Ask Me Anything) 活动。博主分享了自己的测试结果,同样提到 AI 能力对标 RTX 5070。还有有人问,是否可以运行一波 Karpathy 新推出的 nanochat 项目。

后续应该还会有更多 DGX Spark 的基准测试结果,和更全面的使用指南更新,APPSO 的 DGX Spark 正快马加鞭赶来。

DGX Spark 的存在,看起来更像是 AI 狂飙时代下的一个实验,一台数据中心级算力的桌面机器,试探着我们对本地 AI 的幻想边界。

真正的问题除了 DGX Spark 能不能跑,还有当我们每个人都能拥有一台超算时,我们可以拿它做什么。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌