Reading view

There are new articles available, click to refresh the page.

黄仁勋两万字访谈实录:希望英伟达拥有 5 万名员工和 1 亿个 AI 助手

NVIDIA(英伟达)公司 CEO 黄仁勋近期做客「Open Source」双周对话,同 Brad Gerstner 与 Altimeter 合伙人 Clark Tang 一起探讨了与关于推动智能向通用人工智能(AGI)发展的主题。

在 AI 和机器学习领域深耕多年,黄仁勋对 AI 发展现状和前景的评价一针见血:这是一场彻底的革命。

推理迎来爆炸式增长,开源模型需求量爆棚,完整兼容的 AI 基础设施不断落地……这个 AI 大行其道的时代,黄仁勋大胆构想,希望未来的英伟达能够拥有 5 万名员工和 1 亿个 AI 助手。

当谈及英伟达在当今 AI 世界的竞争壁垒和定位时,黄仁勋对自身优势十分自信清醒,同时也有着不小的野心:英伟达最擅长的是算法,我们的使命是为新世界构建一个无处不在的计算平台。

当然,有别于争夺市场份额,这颗野心只关乎「开拓」。

在时长近一个半小时的访谈中,黄仁勋眼光犀利地剖析了机器学习如何重塑计算世界,AI 如何带来前所未有的技术革命,并最终掀起巨大的革命浪潮。此外,还涉及 AI 的安全性和开源争议等话题。

看似高冷的皮夹克之下,是黄仁勋对 AI 领域的炽热初心:我会认真对待工作,认真对待责任,认真对待社会贡献以及我们所处的时代。

本次访谈的信息密度相当之大,对于 AI 行业的探讨也前所未有的深入,不容错过!

原访谈视频链接:

我们对黄仁勋在本次访谈中的主要观点做了简要梳理,如下:

  • 个人 AI 助手将很快出现,并且会随时间不断进化;
  • 我们已经从人类编程转向了机器学习,整个技术栈都在实现创新和增长;
  • 促进 AI 的加速进化,需要对「飞轮」的每个部分都进行加速;
  • 未来的计算(应用程序开发)将高度依赖机器学习和 AI,并且会有智能体来帮助人类使用这些应用程序;
  • AI 不会取代工作,它将改变工作,并将对人们如何看待工作产生深远影响;
  • AI 的安全是基础,不一定需要为每一项重要技术单独立法,也不能让监管过度扩展到不必要的领域;
  • 必须有开源模型来推动 AI 的创建,开源对于许多行业的激活是必要的;

以下是由 APPSO 编译的访谈全文:

从人类编程转向机器学习

Brad Gerstner:现在是 10 月 4 日星期五,我们在英伟达总部,就在 Altimeter 街下。我们将在周一召开年度投资者会议,讨论 AI 的所有影响,以及我们在智能扩展速度上的进展。

我真的想不出比你更合适的人来开启这个话题了,你既是股东,也是我们的智囊伙伴,和你一起探讨想法总能让我们变得更加明智。我们对这段友谊表示感激,所以感谢你的到来。

黄仁勋:很高兴来到这里。

Brad Gerstner:今年的主题是将智能扩展到通用人工智能(AGI)。

令人震撼的是,两年前我们做这个的时候,主题是 AI 时代,而那是在 ChatGPT 发布前两个月。想到这一切变化,真的是让人惊讶。所以我想我们可以以一个思想实验来开始,也许还可以做个预测。

如果我把通用人工智能(AGI)简单理解为我口袋里的个人助手,正如我所理解的那样,它知道我所有的事情,拥有关于我的完美记忆,能够与我沟通,可以为我预订酒店,甚至可以为我预约医生。在你看来,今天这个世界的变化速度如此之快,你认为我们什么时候能够拥有这种口袋里的个人助手?

黄仁勋:很快会以某种形式出现。那个助手会随着时间的推移变得越来越好。这就是我们所了解的技术的美妙之处。所以我认为,刚开始时它会非常有用,但并不完美。然后随着时间的推移,它会变得越来越完美。就像所有技术一样。

Brad Gerstner:当我们观察变化速度时,我记得 Elon 曾说过,唯一重要的事情是变化速度。我们确实感到变化的速度大大加快了,这是我们在这些问题上见过的最快的变化速度,因为我们在 AI 领域已经研究了大约十年,而你甚至更久一些。在你的职业生涯中,这是你见过的最快的变化速度吗?

黄仁勋:是的,因为我们重新发明了计算。这些变化很大程度上是因为我们在过去 10 年内将计算的边际成本降低了 10 万倍。如果按照摩尔定律计算,这个过程大约是 100 倍的提升,但我们做到了远远超过这一点。我们通过几种方式实现了这一目标。

首先,我们引入了加速计算,将在 CPU 上效率不高的工作转移到 GPU 上。

其次,我们发明了新的数值精度,开发了新的架构,设计了集成核心,改进了系统的构建方式,NVLink 增加了超快的内存(HBM),并通过 NVLink 和 InfiniBand 实现了全栈扩展。基本上,所有我描述的关于英伟达做事方式的细节,都促成了超越摩尔定律的创新速度。

现在,真正令人惊叹的是,正因为如此,我们从人类编程转向了机器学习。

而机器学习最令人惊讶的地方在于,事实证明它的学习速度非常快。所以,随着我们重新定义计算的分布方式,我们进行了多种形式的并行处理:张量并行、流水线并行,以及各种各样的并行计算方式。我们在这一基础上发明了新算法,并开发了新的训练方法。所有这些发明都在彼此之间产生了复合效应。

回到过去,如果你看看摩尔定律当时的运作方式,会发现软件是静态的。它被预设为像包装好的产品一样静态存在,然后硬件则以摩尔定律的速度发展。而现在,我们是整个技术栈在增长,整个栈都在进行创新,我认为这就是现状。

现在突然之间我们看到了惊人的扩展,当然,这是非凡的变化。但我们以前讨论的是预训练模型以及在这个层面上的扩展,如何通过将模型大小翻倍,适当地将数据量也翻倍。

因此,每年所需的计算能力都会增加 4 倍。这当时是个大事。但现在我们看到了在后训练阶段的扩展,也看到了推理阶段的扩展,对吧?人们过去常认为预训练很难,而推理相对容易。

现在一切都变得很难,这种观点其实是合理的,毕竟将所有人类的思维都归结为一次性完成的过程是荒谬的。所以思维一定存在快思维和慢思维、推理、反思、迭代、模拟等概念,而现在这些概念正在逐渐融入进来。

Clark Tang:我认为,就这一点而言,关于英伟达最被误解的一件事就是英伟达的真正技术优势有多大,对吧?我认为外界有一种看法,认为一旦有人发明了一种新芯片或者更好的芯片,他们就赢了。

但事实是,过去十年你们一直在构建完整的技术栈,从 GPU 到 CPU,再到网络,尤其是那些让应用程序能够在英伟达平台上运行的软件和库。你认为今天英伟达的技术优势比三到四年前更大还是更小?

黄仁勋:我很感谢你意识到计算已经发生了变化。事实上,人们之所以认为(现在很多人仍然这么认为)设计一款更好的芯片就行了,是因为它有更多的浮点运算能力(flops),有更多的翻转、字节和位,你懂我的意思吗?你看他们的主题演讲幻灯片,上面都是这些翻转和浮点运算,还有各种条形图、图表之类的。

这些都很好,我的意思是,性能当然很重要,所以这些基本上确实很重要。然而,不幸的是,这是老旧的思维方式。因为那时的软件只是在 Windows 上运行的某个应用程序,软件是静态的,这意味着你能改进系统的最好方式就是制造越来越快的芯片。

但我们意识到,机器学习不是人类编程。机器学习不仅仅是关于软件,它是关于整个数据通路的。事实上,机器学习的核心飞轮(flywheel)是最重要的东西。那么,你是如何考虑在推动这个飞轮的同时,让数据科学家和研究人员能够在这个飞轮中高效工作的?而这个飞轮从最最初的阶段就开始了。

许多人甚至没有意识到,实际上需要 AI 来整理数据,来教导另一个 AI。而仅仅这个 AI 本身就已经相当复杂了。

▲个人 AI 助手将很快以某种方式出现(图源:NITCO)

加速飞轮的每一步

Brad Gerstner:那它本身也在改进吗?它是否也在加速?你知道,当我们再一次思考竞争优势时,对吧?这实际上是所有这些因素的组合效应。

黄仁勋:完全正确,正是因为更智能的 AI 来整理数据,现在我们甚至有了合成数据生成以及各种不同的数据整理和呈现方式。所以在你进行训练之前,就已经涉及到大量的数据处理。而人们总是想到 PyTorch 是整个世界的起点和终点。

它确实非常重要,但不要忘了,在使用 PyTorch 之前有大量的工作,使用 PyTorch 之后也有大量工作。而关于飞轮的概念,实际上是你应该思考的方式。你知道,我应该怎么去思考整个飞轮?我该如何设计一个计算系统,一个计算架构,帮助你让这个飞轮尽可能高效运转?这并不是一个应用训练的单一步骤,对吧?这只是其中一步,好吗?

飞轮的每一步都很困难,所以你应该首先思考的不是如何让 Excel 更快运行,也不是如何让「毁灭战士」更快运行,那是过去的老路,对吧?

现在你需要考虑的是如何让这个飞轮更快。而这个飞轮包含了很多不同的步骤,正如你们所知道的,机器学习没有什么是简单的,OpenAI 所做的事情,或者 X 所做的事情,或者 Gemini 团队和 DeepMind 所做的事情,都没有什么是简单的。

因此我们决定,这才是你应该真正思考的。这是整个过程,你需要加速每一个部分。你要尊重阿姆达(Amdahl)定律,阿姆达定律会告诉你,如果这个部分占用了 30% 的时间,我将它加速了 3 倍,我并没有真的将整个过程加速太多,明白吗?

你真的需要创建一个能加速每一步的系统,只有通过加速整个过程,你才能真正显著改善这个循环时间,而那个学习速率飞轮,最终就是导致指数式增长的原因。

所以我要说的是,一个公司的观点实际上会反映在它的产品上。注意,我一直在谈论这个飞轮。

Clark Tang:你是说整个周期。

黄仁勋:没错,而且我们现在加速了一切。现在的主要焦点是视频。很多人都专注于物理 AI 和视频处理。试想一下前端,每秒有数 TB 的数据进入系统。给我举个例子,说明处理这些数据的管道是如何运行的,从数据摄取到准备进行训练的全过程,而这一切都是 CUDA 加速的。

Clark Tang:现在人们只在思考文本模型,但未来还包括视频模型,同时使用一些文本模型,比如 o1,来在我们开始处理之前先处理大量的数据。

黄仁勋:语言模型将会涉及到每一个领域。行业花费了大量技术和精力来训练语言模型,来训练这些大型语言模型。现在我们在每一步都使用更低的计算成本。这真的非常了不起。

Brad Gerstner:我不想过于简单化这个问题,但我们确实经常从投资者那里听到这样的问题,对吧?是的,但定制化芯片呢?是的,但他们的竞争壁垒会不会因此被打破?

我听到你所说的是,在这个组合系统中,优势是随着时间增长的。所以我听你说,我们今天的优势比三四年前更大,因为我们在改进每一个组件。而这种组合效应,意味着你知道,比如作为一个商业案例研究,英特尔曾经在技术栈中占据主导地位,而你们今天相对他们而言处于什么位置?

也许可以简单概括一下,比较一下你们今天的竞争优势与他们在巅峰时期的竞争优势。

黄仁勋:英特尔是非凡的。英特尔之所以非凡,是因为他们可能是第一家在制造工艺工程和生产方面极其出色的公司,而在制造工艺的基础上更进一步的是设计芯片,对吧?他们设计了芯片,构建了 x86 架构,并且不断制造更快的 x86 芯片。这是他们的聪明之处。他们将这一点与制造工艺加以结合。

我们的公司稍微有些不同,因为我们认识到,事实上,平行处理并不需要每个晶体管都非常完美。串行处理要求每个晶体管都必须完美无缺,而平行处理需要大量的晶体管以实现更高的成本效益。

我宁愿要多 10 倍的晶体管,速度慢 20%,也不愿要少 10 倍的晶体管,速度快 20%。明白吗?他们则更喜欢相反的选择,因此单线程性能和单线程处理与平行处理非常不同。所以我们意识到,实际上我们的世界并不是追求往下做得更好。我们想做到尽可能的好,但我们的世界真正关心的是如何往上做得更好。

并行计算、并行处理很难,因为每个算法都需要根据架构以不同的方式重构和重新设计。人们没有意识到的是,你可以有三种不同的 CPU,它们都有各自的 C 编译器,你可以把软件编译到相应的 ISA(指令集架构)上。这在加速计算中是不可能的,在并行计算中也是不可能的。

开发出架构的公司必须开发出自己的 OpenGL。所以我们彻底改变了深度学习,因为我们有一个特定领域的库,叫做 CUDNN。没有 CUDNN,就没有今天的深度学习。

没有人谈论 CUDNN,因为它是在 PyTorch 和 TensorFlow 之下的一层。早期还有 Caffe 和 Theano,现在有 Triton,还有很多不同的框架。那个特定领域的库,像 CUDNN,还有 Optics,一个特定领域的库叫做 CuQuantum,Rapids,还有其他很多库。

Brad Gerstner:行业特定的算法就位于那个大家都关注的 PyTorch 层之下,比如我经常听到人们说,如果没有这些底层库的话……

黄仁勋:如果我们没有发明它,任何顶层的应用程序都无法运行。你们明白我在说什么吗?从数学上讲,英伟达真正擅长的是算法,它融合了上层的科学与下层的架构,这是我们真正擅长的。

▲黄仁勋在访谈中

我们已经进入推理时代

Clark Tang:现在所有的关注点终于集中到了推理上。但是我记得两年前,Brad 和我和你共进晚餐时,我们问你一个问题:你认为英伟达在推理领域的技术优势会像在训练领域一样强大吗?

黄仁勋:我肯定说过,它会更强大。

Clark Tang:你刚才提到了很多因素,比如模块化组合,不同组合的总成,有时我们并不完全了解。对于客户来说,能够在这些之间灵活切换非常重要。但你能不能再谈谈,现在我们已经进入了推理时代。

黄仁勋:推理就是大规模的推理训练,对吧?所以,如果你训练得好,那么很有可能你的推理也会很好。如果你在这种架构上进行训练而没有任何调整,它将能够在这种架构上运行。

当然,你依然可以为其他架构进行优化,但至少,因为它已经是在英伟达的架构上构建的,所以它能够在英伟达的架构上运行。

另一个方面,当然,还有资本投资方面的问题。当你训练新模型时,你会希望使用最新最好的设备进行训练,而这会留下之前使用过的设备。而这些设备非常适合用于推理。因此,会有一条免费的设备路径。

新的基础设施背后有一条免费的基础设施链,这些设备与 CUDA 兼容。所以我们非常严谨,确保整个过程的兼容性,这样我们留下的设备依然能够保持卓越性能。

同时,我们也投入了大量精力,不断重新发明新的算法,以确保当时机来临时,Hopper 架构的性能会比刚购买时提升 2 到 4 倍,从而让基础设施继续保持高效。

所以,我们在改进新算法、新框架方面所做的所有工作,不仅帮助了我们每一个安装的基础架构,Hopper 因此变得更好,Ampere 也因此变得更好,甚至 Volt 也因此变得更好。

我记得 Sam 刚刚告诉我,他们最近刚从 OpenAI 退役了他们的 Volt 基础设施。所以,我认为我们留下了这些安装基础架构的痕迹。正如所有计算基础架构一样,安装基础架构是很重要的。

英伟达的产品遍布每一个云端、内部部署,直到边缘设备。因此,在云端创建的 Vela 视觉语言模型无需修改便能完美运行于边缘的机器人上。这一切的底层都是 CUDA。所以,我认为架构兼容性的概念对大型项目非常重要。这和 iPhone 或其他设备的兼容性概念没有什么不同。

我认为,安装基础架构对推理非常重要,但我们真正受益的是,因为我们在新的架构上训练这些大型语言模型时,我们能够思考如何创造出在未来非常优秀的推理架构。

所以我们一直在思考迭代模型和推理模型,如何为你的个人智能体创造非常交互性的推理体验,比如当它需要停下来思考一段时间时,如何快速与你互动。

所以,我们是如何实现这一目标的?答案是 NVLink。你知道,NVLink 让我们能够使用这些适合训练的系统,但当训练完成后,它的推理性能也非常卓越。你希望优化的是首次 Token 的响应时间,而实现首次 Token 的响应时间非常困难,因为这需要大量的带宽。

如果你的上下文也非常丰富,那么你还需要大量的计算能力。因此,你需要在同一时间拥有无限的带宽和计算能力,才能实现几毫秒的响应时间。而这种架构非常难以实现。为此,我们发明了 Grace Blackwell NVLink。

▲NVIDIA Blackwell 架构(图源:NVIDIA)

英伟达正在构建完整的、兼容的 AI 基础设施

Brad Gerstner:你知道,我这周早些时候和 Andy Jassy 共进晚餐,Andy 说:「我们有 Tranium,还有即将到来的 Inferencia」。我认为大多数人,还是认为这些对于英伟达是个挑战。

但紧接着他说「英伟达是我们一个非常重要的合作伙伴,而且未来还将继续是我们非常重要的合作伙伴,至少在我所能预见的未来」。

世界依靠英伟达运行,对吧?所以,当你想到这些为特定应用开发的定制 ASIC,比如 Meta 的推理加速器,或者 Amazon 的 Tranium,或者 Google 的 TPUs,还有你当前面临的供应短缺问题时,这些因素会改变你们之间的动态,还是说它们只是对你们系统的补充?

黄仁勋:我们只是在做不同的事情,我们试图实现不同的目标。英伟达正在尝试为这个新世界构建一个计算平台,这个机器学习的世界,这个生成式 AI 的世界,这个智能体 AI 的世界。

我们想要创造的是,经过 60 年的计算,我们重新发明了整个计算栈,从编程到机器学习的方式,从 CPU 到 GPU 的软件处理方式,从软件到人工智能的应用方式,对吧?软件工具、人工智能——计算栈的每个方面,技术栈的每个方面都发生了变化。

我们想要做的是创建一个无处不在的计算平台,这实际上是我们工作的复杂性所在。如果你思考我们在做什么,我们是在构建一个完整的 AI 基础设施,我们把它看作是一台计算机。

我以前说过,数据中心现在是计算的基本单位。对我来说,当我思考一台计算机时,我不是在想那块芯片,我是在想这个概念:它是我的心智模型,里面包括所有的软件、编排和所有的机械部分。这是我的使命,这是我的计算机,我们每年都在试图构建一台全新的计算机。

是的,这太疯狂了,之前没有人这么做过。我们每年都在尝试构建一台全新的计算机,而且每年我们都交付两到三倍的性能提升。每年我们都会将成本降低两到三倍,每年我们都会将能效提高两到三倍。

所以我们告诉客户,不要一次性购买所有设备,每年购买一点,好吗?原因是,我们希望他们能够逐步进入未来,所有的架构都是兼容的,好吗?

现在,仅仅以这样的速度构建这个平台就已经非常难了,而双倍的难度在于,我们不仅要销售基础设施或服务,而是把它们拆解开来,然后将它们集成到 GCP 中,集成到 AWS 中,集成到 Azure 中,集成到其他平台中,明白吗?

每个平台的集成都不一样。我们必须把所有的架构库、所有的算法和所有的框架集成到他们的系统中。我们把我们的安全系统集成到他们的系统中,我们把我们的网络集成到他们的系统中,对吧?然后我们每年进行大概 10 次这样的集成。而这就是奇迹所在。

Brad Gerstner:这就是奇迹所在,为什么?我的意思是,这太疯狂了。你每年都在做这些事,这真的很疯狂。想一想,是什么驱动你每年都这样做的?

然后再说到这一点,你知道 Clark 刚从中国台湾、韩国和日本回来,见了你所有的供应合作伙伴——那些你已经有十多年合作关系的伙伴。这些合作关系对于构建那个竞争壁垒的组合效应有多重要?

黄仁勋:是的,当你系统性地分解时,大家越是分解,就越会感到惊讶,整个电子行业生态系统今天是如何致力于与我们合作,最终构建出这个计算机的立方体,并将其整合到所有不同的生态系统中的?而且协调是如此无缝。显然,我们向后传递了 API、方法学、业务流程和设计规则,向前传递了方法学、架构和 API。

Brad Gerstner:这些已经被强化了几十年。

黄仁勋:强化了几十年,同时也在不断演进。但这些 API 在需要的时候必须整合在一起——所有这些在中国台湾和世界各地制造的东西,最终会落到 Azure 的数据中心。它们会组合到一起。

Clark Tang:有人只需要调用 OpenAI API,它就能正常工作。

黄仁勋:没错,完全是那种疯狂的感觉。这就是我们发明的东西,我们发明了这个庞大的计算基础设施,整个世界都在和我们一起构建它。

它被整合到了各个领域,你可以通过戴尔销售它,可以通过惠普(HPE)销售它,它托管在云端,也延伸到了边缘设备。人们现在在机器人系统中使用它,在人形机器人中使用它,它们在自动驾驶汽车中使用,它们都在架构上兼容,这真的非常疯狂。

Clark,我不希望你误以为我没有回答你的问题,事实上,我已经回答了。我所指的与你的 ASIC 相关的问题是这样的。

我们作为公司,只是在做不同的事情。作为一家公司,我们希望能够对环境有清晰的认知。我对我们公司及其生态系统周围的一切都非常清楚,对吧?

我知道所有在做不同事情的人以及他们在做什么。有时候,这对我们来说是对抗性的,有时候不是。我对此非常清楚。但这并不会改变我们公司的目标。公司唯一的目标就是构建一个可以无处不在的架构平台,这就是我们的目标。

我们并不想从任何人那里抢占市场份额。英伟达是市场的开拓者,而不是份额的争夺者。如果你看我们的公司报告,你会发现我们从来不谈市场份额,从来没有一天我们会在公司内部谈论市场份额。

我们所有的讨论都是关于如何创造下一个东西?我们如何解决飞轮中的下一个问题?我们如何为人们做得更好?我们如何将过去需要一年的飞轮周期缩短到一个月?你知道,这相当于飞轮的光速,不是吗?我们在思考所有这些不同的问题,但有一件事是确定的,我们对周围的一切都有清醒的认识,但我们对自己的使命非常明确。

唯一的问题是,这个使命是否必要,是否有意义。所有伟大的公司都应该有这样的使命。

从根本上讲,问题是你在做什么?唯一的问题是,它是否必要,是否有价值,是否有影响力,是否能帮助到别人?我非常确定,如果你是一名开发者,一家生成式 AI 初创公司,正在决定如何成为一家公司,你唯一不需要考虑的选择就是支持哪个 ASIC。

如果你只支持 CUDA,那么你可以在任何地方使用它,你以后随时可以改变主意,但我们是进入 AI 世界的入口,不是吗?一旦你决定进入我们的平台,其他决策都可以延后,你以后随时可以开发自己的 ASIC,我们对此毫不介意。

当我与 GCP 合作时,GCP、Azure 等公司,我们会提前几年向他们展示我们的路线图。他们不会向我们展示他们的 ASIC 路线图,这也不会冒犯我们,明白吗?如果你的目标明确且有意义,并且你的使命对你自己和他人都很重要,那么你就可以保持透明。

注意,我的路线图在 GTC 上是公开的,而我的路线图在 Azure、AWS 等合作伙伴那里会更深入。我们在这些方面没有任何困难,即使他们正在开发自己的 ASIC。

▲NVIDIA 的使命是构建完整兼容的 AI 基础设施(图源:The Brand Hopper)

AI 正在改变行业未来

Brad Gerstner:我觉得,当人们观察这个行业时,你最近说过,对 Blackwell 的需求是「疯狂的」。你还说,工作中最难的一部分就是在这个计算资源短缺的世界里,忍受对别人说「不」所带来的情感负担。

但批评者说,这只是一个时间节点,他们认为这就像 2000 年思科过度建设光纤一样,将会经历繁荣与萧条。你知道,我想到 2023 年年初我们一起吃饭的时候,当时的预测是英伟达 2023 年的营收会达到 260 亿美元,但你们实际做到了 600 亿,对吗?

黄仁勋:承认吧,这是世界上有史以来最大的预测失败。

Brad Gerstner:那时候我们在 2022 年 11 月特别激动,因为像来自 Inflection 的 Mustafa 和来自 Character 的 Noam 等人来到我们办公室讨论投资他们的公司。他们说,如果你们不能直接投资我们的公司,那就买英伟达吧,因为全世界都在争相获得英伟达的芯片,用来构建那些将要改变世界的应用。

当然,随着 ChatGPT 的出现,这一「寒武纪时刻」到来了。然而,即便如此,这 25 位分析师仍然沉迷于「加密寒冬」,无法想象世界上正在发生的事情,对吧?所以最终结果远超预期。

你明确表示,对 Blackwell 的需求非常疯狂,并且未来会一直如此。当然,未来是未知且不可知的,但为什么批评者的看法错得如此离谱?这不会像 2000 年思科那样成为过度建设的局面。

黄仁勋:思考未来的最佳方式是从基本原理推理出来,对吧?所以问题是,我们现在在做的事情的基本原理是什么?第一,我们在做什么?我们在做什么?我们正在重新发明计算,不是吗?

我们刚刚说过,未来的计算将高度依赖机器学习,对吗?我们几乎所有的应用程序,无论是 Word、Excel、PowerPoint、Photoshop、Premiere、AutoCAD,无论你给我举什么例子,所有这些都是手工设计的。我向你保证,未来这些都会高度依赖机器学习,不是吗?

并且,在这些工具之上,你还会有智能体来帮助你使用它们。

所以,到现在为止,这已经是个事实了,对吧?我们重新发明了计算,我们不会回头。整个计算技术栈正在被重新定义。

好了,现在我们已经做到了这一点,我们说软件将会不同,软件的编写方式将会不同,使用软件的方式也会不同。所以,让我们承认这些是我的基本事实。是的,那么问题来了,接下来会发生什么?

那么让我们回顾一下,过去的计算是怎么做的。我们有一万亿美元的计算机设备。看看过去的数据中心,打开门看看,你会说那些是你想要用来面对未来的计算机吗?答案是否定的。

你看到那些 CPU,我们知道它能做什么,不能做什么。我们也知道现在有价值一万亿美元的数据中心需要现代化。因此,眼下,如果我们要在未来四五年内进行现代化改造,那是完全合理的,也是明智的。

Brad Gerstner:所以我们已经在和那些需要进行现代化改造的人沟通,他们正在使用 GPU 进行现代化改造,没错。

黄仁勋:我的意思是,让我们做个假设。你有 500 亿美元的资本支出,你会选择 A 选项:为未来建设资本支出,还是 B 选项:按照过去的模式建设资本支出?你已经有了过去的资本支出,就在那里放着,反正它不会变得更好。

摩尔定律基本上已经结束了,所以为什么要重建呢?我们只需要把这 500 亿美元投入到生成式 AI 中,不是吗?这样你的公司就会变得更好。那么你会把这 500 亿中的多少投入进去?我会把 100% 的 500 亿都投入进去,因为我已经有了四年的旧基础设施。

所以现在,从基本原理出发,你只是从这个角度来推理,而这正是他们正在做的事情。聪明的人在做聪明的事情。

现在第二个部分是这样的:我们有一万亿美元的容量要去建设,对吧?一万亿美元的基础设施,可能投入了 1500 亿美元,对吧?所以我们在未来 4 到 5 年内要建设一万亿美元的基础设施。

我们观察到的第二点是,软件的编写方式不同了,而未来软件的使用方式也会不同。我们将会有智能体,不是吗?

我们公司将会有数字员工,他们会在你的收件箱里,在未来,这些小点点、小头像会变成 AI 的图标,不是吗?我会向他们发送任务。我不再用 C++ 编程了,我会用提示词来「编程」AI,不是吗?这和我今天早上写了一堆邮件没有什么不同。

我给我的团队下达了指示,对吧?我描述了背景,说明了我知道的基本限制,并描述了他们的任务。我会给他们足够的方向感,让他们明白我需要什么,我希望对预期结果尽可能明确。但我也会留出足够的创造空间,让他们可以给我带来惊喜,不是吗?

这和我今天如何提示 AI 没有什么不同,这正是我提示 AI 的方式。所以在我们现代化改造的基础设施之上,将会有一个全新的基础设施。这套新基础设施就是将操作这些数字人的 AI 工厂,它们会全天候地运行。

我们将在全球所有的公司中拥有它们,在工厂中拥有它们,在自动化系统中拥有它们,对吗?所以这个世界需要建立一整层计算结构,我称之为 AI 工厂的基础设施,这些现在还不存在。

所以问题是,这个规模有多大?目前我们还无法知道,可能是几万亿美元的规模,但美妙的是,现代化改造的数据中心架构与 AI 工厂的架构是相同的。

Brad Gerstner:这就是美妙之处。你已经说得很清楚了,你有一万亿美元的旧基础设施需要现代化改造,同时至少还有一万亿美元的新 AI 工作负载正在到来,今年大约会有 1250 亿美元的收入。

你知道,曾经有人告诉你们这家公司永远不会超过 10 亿美元的市值。而如今你坐在这里,如果你只占到了几万亿总市场(TAM)的 1250 亿收入,有什么理由让你认为你们未来的收入不会是现在的 2 倍、3 倍?有什么理由让你们的收入不会继续增长?

黄仁勋:没有,没错。你知道,这并不是关于现在的事情。公司只会受到「池塘」大小的限制,你知道,金鱼只能长到与池塘相匹配的大小。

所以问题是,我们的池塘有多大?这需要很多想象力,这也是为什么市场开拓者会思考未来,而不是只在现有的池塘里竞争。

如果你只是回顾过去、试图抢占市场份额,这很难看清未来。市场份额的争夺者只能做到这么大,而市场的开拓者可以变得非常大。所以,我认为我们公司的幸运之处在于,从公司成立的第一天起,我们就必须为自己创造市场空间。

人们当时没有意识到这一点,但我们几乎从零开始创造了 3D 游戏 PC 市场。我们基本上发明了这个市场以及所有相关的生态系统,包括显卡的生态系统。我们发明了这一切。所以,创造一个全新的市场来服务它,对我们来说是一件非常熟悉的事情。

▲Brad Gerstner(左)和 Clark Tang(右)在访谈中

不可思议的 OpenAI 和 X.AI

Brad Gerstner:没错,作为一个发明了新市场的人来说,这确实如此。让我们稍微转移话题,谈谈模型和 OpenAI。你知道,OpenAI 这周筹集了 65 亿美元,估值达到约 1500 亿美元。我们都参与了这次融资。

黄仁勋:真的为他们感到高兴,真的很高兴这一切顺利达成。是的,他们做得很棒,团队也表现得非常出色。

Brad Gerstner:有报告称他们今年的收入或收入运行率大约是 50 亿美元,明年可能达到 100 亿美元。如果你看今天的业务规模,它的收入大约是谷歌在 IPO 时的两倍。

他们有 2.5 亿的每周活跃用户,我们估计这是谷歌 IPO 时用户量的两倍。而如果你看它的业务倍数,如果你相信他们明年能达到 100 亿美元收入,那么他们的市值大约是明年收入的 15 倍,这和谷歌和 Meta 在 IPO 时的倍数差不多,对吧?当你想到这家公司 22 个月前还没有任何收入和每周活跃用户时,这非常惊人。

黄仁勋:Brad 对历史有着不可思议的掌握。

Brad Gerstner:当你想到这一点时,和我们谈谈 OpenAI 作为你们的合作伙伴,以及它在推动公众对 AI 的认知和使用方面的重要性。

黄仁勋:嗯,这是我们时代最具影响力的公司之一。这是一家纯粹的 AI 公司,追求通用人工智能(AGI)的愿景。

无论 AGI 的定义是什么,我几乎不认为它的定义完全重要,也不相信时间节点的重要性。我所知道的一件事是,AI 将在未来的时间里不断展现出一系列能力。这些能力的发展路线图将会非常惊人。在到达任何人所定义的 AGI 之前,我们就会将其广泛应用。

你现在要做的就是去和数字生物学家、气候科技研究人员、材料研究人员、物理科学家、天体物理学家、量子化学家对话。你可以去找视频游戏设计师、制造工程师、机器人专家,选择你喜欢的行业,深入其中,和那些重要的人对话,问他们,AI 是否彻底改变了他们的工作方式?然后你把这些数据点带回来,再问问自己,你到底有多怀疑?

因为他们不是在谈论 AI 未来某天的概念性好处,他们正在谈论现在就使用 AI。无论是农业科技、材料科技、气候科技,选择你想要的科技领域或科学领域,它们正在进步,AI 正在帮助他们推进他们的工作。

就在我们说话的这一刻,每个行业、每家公司、每所大学都在使用 AI,难以置信,不是吗?它绝对会在某种程度上改变商业,我们知道这一点,对吧?我的意思是,这种变化是如此真实,正在发生。所以我认为 ChatGPT 所引发的 AI 觉醒完全是不可思议的。我喜欢他们的速度和他们推动这一领域的单一目标,所以它真的非常具有影响力。

Brad Gerstner:他们构建了一个可以为下一代模型融资的引擎。我认为硅谷的共识正在增加,即整个模型层正在逐渐商品化,Llama 让很多人可以以非常低的成本构建模型。

所以一开始,我们有很多模型公司,比如 Character、Inflection、Cohere、Mistral 等等。很多人质疑这些公司是否能够达到经济引擎的「逃逸速度」,继续为下一代模型提供资金。我的感觉是,这也是为什么我们看到市场的整合,对吧?

显然,OpenAI 已经达到了那个「逃逸速度」,他们可以为自己的未来融资。但对我来说,不清楚的是,很多其他公司能否做到这一点。这是否是对模型层现状的一个公平概述?就像我们在其他许多市场中看到的一样,市场领导者会有一个经济引擎和应用来让他们继续投资。

黄仁勋:首先,模型和人工智能之间有一个根本区别,对吧?模型是人工智能的一个必要但不足的组成部分,对吧?人工智能是一种能力,但为了什么?应用是什么?

自动驾驶汽车的人工智能与人形机器人的人工智能有关,但它们并不相同。它们与聊天机器人的人工智能有关,但也不相同,对吧?所以你需要理解这个栈的分类。在栈的每一层都会有机会,但并不是每一层都有无限的机会。

我刚刚说了一些话,你所需要做的就是把「模型」一词替换为「GPU」。事实上,这是我们公司 32 年前的重大发现——GPU 图形芯片与加速计算之间有一个根本区别。加速计算与我们在 AI 基础设施中所做的工作不同,虽然相关,但并不完全相同。它们是建立在彼此之上的,但并不完全相同。每一层抽象都需要完全不同的技能。

一个非常擅长构建 GPU 的人,可能完全不知道如何成为一家加速计算公司。有很多人在构建 GPU,而我们发明了 GPU,但今天并不是只有我们一家在制造 GPU,对吧?世界上有很多 GPU,但并不是所有的公司都是加速计算公司。而且有很多加速器应用程序,但这与加速计算公司不同。例如,一个非常专门的 AI 应用程序可能会非常成功。

Brad Gerstner:这就是 MTIA。

黄仁勋:没错,但它可能不会成为一个具有广泛影响力和能力的公司。所以你必须决定你想处于哪个位置。在这些不同的领域可能都有机会,但就像建立公司一样,你必须注意生态系统的变化,以及哪些东西随着时间推移被商品化,分清楚什么是功能、什么是产品、什么是公司,这是一定的。好吧,我刚刚谈到了很多不同的思路。

Brad Gerstner:当然,还有一个新加入者拥有资金、聪明才智和雄心,那就是 X.AI,对吧?外界有报道称,你和 Larry 以及 Elon 共进了晚餐。他们说服你放弃了 10 万个 H100s,他们去了孟菲斯,在几个月内建立了一个大型的超级计算集群。

黄仁勋:首先三个点不在一条线上,我和他们共进了晚餐,因果关系仅仅就是这样。

Brad Gerstner:你怎么看他们构建超级计算集群的能力?外界还在讨论他们想要再增加 10 万个 H200s 来扩展这个超级集群的规模。

首先,和我们谈谈 X 公司的雄心壮志以及他们已经取得的成就。同时,我们是否已经进入了 20 万或 30 万个 GPU 集群的时代?

黄仁勋:答案是肯定的。首先要承认他们的成就是应得的。从概念阶段到数据中心的建成,并准备好让英伟达的设备进驻,到我们供电、连接设备并进行首次训练,这一过程。

首先,建造这样一个庞大的工厂,采用液冷技术、完成能源供应、获得许可,并在这么短的时间内完成。我是说,这简直是超人的成就。就我所知,全世界只有一个人能做到这一点,埃隆·马斯克在工程、建筑、大型系统和资源调配方面的理解是独一无二的,简直难以置信。

当然,他的工程团队也非常出色,软件团队、网络团队、基础设施团队都很棒。埃隆对此有着深入的理解。从我们决定启动项目的那一刻起,我们的工程团队、网络团队、基础设施计算团队、软件团队都进行了充分的准备。

然后,所有的基础设施、物流以及当天进入的数据量和设备量,还有英伟达的基础设施和计算技术,一切都在 19 天内完成了训练。

你知道这意味着什么吗?有谁睡觉了吗?24 小时不停地工作,毫无疑问,没有人睡觉。首先,19 天的时间真是不可思议,但如果退一步思考,这只是短短几周。你能看到的技术设备数量简直令人难以置信。

所有的布线和网络连接,与英伟达设备的网络连接与超大规模数据中心的网络连接完全不同。一个节点上的电线数量,计算机背部全都是电线。仅仅是把这座技术高峰整合起来,再加上所有的软件,简直难以置信。

所以我认为埃隆和他的团队所做的事情非常了不起,我也很感激他认可我们在工程和规划方面与他们的合作。但他们所取得的成就是独一无二的,前所未有。

为了让你更好地理解,10 万个 GPU,毫无疑问,这是地球上速度最快的超级计算机。这只是一个集群。通常你建造一台超级计算机需要三年时间来规划,对吧?然后交付设备并花一年时间让它全部运行起来。而我们在谈论的是 19 天。

▲ChatGPT 所引发的 AI 觉醒是不可思议的(图源:artnet)

推理将迎来爆炸式增长

Clark Tang:英伟达平台的优势是什么呢?它的整个流程都已经经过强化,对吧?

黄仁勋:是的,一切都已经在运行。当然,还有一大堆 X 算法、X 框架和 X 堆栈,我们还需要进行大量的集成。但它的前期规划非常出色,仅仅是预规划就已经令人印象深刻了。

Brad Gerstner:Elon 是独一无二的存在,但你刚刚回答时提到,20 万到 30 万个 GPU 集群已经存在了,对吧?它能扩展到 50 万个吗?它能扩展到 100 万个吗?你们产品的需求是否取决于这些集群能否扩展到百万级?

黄仁勋:最后一个问题的答案是否定的。我的看法是,分布式训练必须起作用,我认为分布式计算将会被发明出来,某种形式的联邦学习和分布式、异步计算将会被发现。我对此非常有信心,也非常乐观。

当然,需要意识到的是,过去的扩展法则主要是关于预训练。现在我们已经进入了多模态,我们开始了合成数据生成。后训练阶段的扩展变得非常快,合成数据生成、奖励系统、基于强化学习的训练都发展迅速。现在推理阶段的扩展也达到了极限。

这个想法是,在模型回答问题之前,它已经进行了 10000 次内部推理,这可能并不夸张。它可能已经进行了树搜索,可能已经基于这个问题进行了强化学习,可能进行了某种模拟,肯定进行了大量反思,可能查阅了一些数据和信息,对吧?所以它的上下文可能相当庞大。

我想,这种智能就是我们正在做的,不是吗?这就是我们正在做的。所以,如果你对这种扩展进行计算,将模型规模和计算规模每年扩展 4 倍,再加上使用需求不断增长……

我们是否认为我们需要数百万个 GPU?毫无疑问,是的。这是目前的一个确定性问题。那么问题是,我们如何从数据中心的角度来架构它?这在很大程度上取决于数据中心是一次性达到千兆瓦级,还是每次 250 兆瓦?我的看法是,这两种情况都会出现。

Clark Tang:我觉得分析师总是关注当前的架构选择,但我认为从这次对话中最大的收获之一就是,你们是在思考整个生态系统,以及未来多年的发展。

因此,英伟达扩展规模,不论是纵向还是横向扩展,都是为了应对未来,而不是仅仅依赖一个有 50 万或 100 万个 GPU 集群的世界。到分布式训练真正到来时,你们已经编写了支持它的软件。

黄仁勋:没错,记住我们和合作伙伴在大约七年前开发的 Megatron。如果没有它,这些大规模训练任务的扩展是不可能的。我们发明了 Megatron,我们发明了 Nickel、GPU Direct,还有我们通过 RDMA 所做的所有工作,这使得流水线并行处理变得更加容易。

所有的模型并行处理,所有分布式训练的分解、批处理等所有这些技术,都是因为我们做了早期的工作,现在我们也在为未来的下一代技术做准备。

Brad Gerstner:那么我们来谈谈 Strawberry 和 o1 吧。

首先,我觉得他们把 o1 命名为 o1 签证是很酷的,对吧?o1 签证是为了吸引全球最优秀、最聪明的人才来到美国,我知道我们都对此深有热情。

我非常喜欢这个想法,建造一个能思考、推动我们走向智能扩展新高度的模型,向那些通过移民来到美国的天才致敬,正是他们成就了今天的我们。

黄仁勋:肯定是一种外星智能。

Brad Gerstner:当然,这个项目是由我们的朋友 Noah Brown 领导的,他曾参与 Pluribus 和 Cicero 的工作,都是 Meta 的项目。推理时间推理作为一个完全新的智能扩展维度,与仅仅构建更大模型的方式截然不同,这有多重要?

黄仁勋:这非常重要,极其重要。很多智能无法预先完成,你知道吗?甚至很多计算都不能预先重新排序。乱序执行可以提前完成,但很多事情只能在运行时完成。

所以无论是从计算机科学的角度来看,还是从智能的角度来看,很多东西都需要上下文和情境,你所寻找的答案类型有时简单的快速答案已经足够了,而答案的后果取决于你使用这个答案的性质。

所以有些答案可以花一个晚上思考,有些答案可能需要一周的时间,对吧?我完全可以想象,我给我的 AI 发送一个提示词,告诉它,想一晚上,不要立刻告诉我,对吧?我想让你整晚思考,然后明天早上告诉我你最好的答案,并为我推理分析。

因此,我认为智能的分层,从产品角度来看,会有一次性的版本,也会有一些需要五分钟来完成的。

Brad Gerstner:这个智能层能够将这些问题与合适的模型和使用场景相匹配。昨晚我们在使用先进的语音模式和 o1 预览版,我正在辅导我儿子的 AP 历史考试,感觉就像世界上最好的 AP 历史老师坐在你旁边一起思考这些问题,真是非凡的体验。

黄仁勋:我的导师现在是 AI。

Brad Gerstner:当然,他们今天已经存在了。这也回到了这个话题,你知道,你们今天有超过 40% 的收入来自推理。但推理将因为「推理链」而迎来爆炸式增长,对吧?

黄仁勋:推理的增长将会是十亿倍的。

Brad Gerstner:翻倍,再翻十亿倍。

黄仁勋:对。这是大多数人还没有完全理解的部分。这正是我们之前谈论的行业变革,这是工业革命。

Brad Gerstner:这是智能的生产,对吧?

黄仁勋:它将增长十亿倍。

Brad Gerstner:大家都高度关注英伟达,认为它主要是用于更大模型的训练。是不是这样,如果你们今天的收入有 50% 来自训练,那么未来推理的规模将远远超过训练。训练固然重要,但推理的增长将会远超训练的增长,我们希望如此,几乎不可能有其他情况。

黄仁勋:我们希望如此,是的,上学是好事,但最终目标是你能在社会中有所贡献。所以训练这些模型是好的,但最终目标是要让它们产生影响。

Brad Gerstner:你们是否已经在使用「推理链」和类似 o1 的工具来改进你们自己的业务?

黄仁勋:我们今天的网络安全系统离不开我们自己的智能体。我们有智能体帮助设计芯片,如果没有这些智能体,Hopper 芯片就不可能实现,Blackwell 也不可能实现,Rubin 就更不用说了。

我们有 AI 芯片设计师、AI 软件工程师、AI 验证工程师,而且我们都是在公司内部开发的,因为我们有这个能力,我们更愿意利用这个机会自己探索这项技术。

▲推理的增长将会是十亿倍的(图源:NVIDIA)

我们需要更高效,更安全的 AI

Brad Gerstner:你知道,今天我走进这栋楼时,有人走过来对我说,你知道,问问 Jensen 关于文化的事情,一切都与文化有关。我看着你们的业务,我们谈了很多关于适应性和效率的事情,扁平化的组织结构可以快速执行,小团队运作。

你知道,英伟达在这个领域独树一帜,每位员工平均创造了大约 400 万美元的收入,每位员工大约创造了 200 万美元的利润或自由现金流。你们建立了一种效率文化,真正释放了创造力、创新力、责任感和主人翁意识,你打破了传统的职能管理模式。大家都喜欢谈论你有多少直接汇报的员工。

AI 的利用是否是让你们在保持高度创造力的同时保持高效的关键?

黄仁勋:毫无疑问。我希望有一天,英伟达今天有 32000 名员工,我们在以色列有 4000 个家庭,我希望他们一切安好。我希望有一天英伟达会成为一个拥有 50000 名员工和 1 亿个 AI 助手的公司。

在每个团队中,我们都会有一个 AI 目录,里面有一批擅长做各种事情的 AI。我们还会有一个收件箱,里面充满了我们合作过并且知道很擅长我们技能领域的 AI 目录。因此,AI 会招募其他 AI 来解决问题。AI 也会在 Slack 频道中互相交流。

Brad Gerstner:并且与人类一起合作。

黄仁勋:和人类一起合作。所以我们将会是一个庞大的员工群体,一部分是数字化和 AI,一部分是生物学上的人类员工,我希望未来还有一些是机电一体化的员工。

Brad Gerstner:从商业角度来看,我认为这常常被误解。你刚刚描述了一家公司,它的产出相当于拥有 15 万员工的公司,但实际上你只用了 5 万员工。你并没有说你要裁掉所有员工,你仍在增加员工数量,但这家公司的产出将会显著增加,对吧?

黄仁勋:这是经常被误解的地方。AI 不会取代工作,它将改变每一个工作。AI 将对人们如何看待工作产生深远影响,这一点我们必须承认,对吧?

AI 有可能带来巨大的好处,也有可能造成伤害,我们必须构建安全的 AI,没错,这一点必须作为基础。但是被忽视的部分是,当公司利用人工智能提高生产力时,它很可能会带来更好的收益或更好的增长,或者两者兼而有之。而当这发生时,CEO 的下一封邮件不太可能是裁员通知。

Brad Gerstner:当然,因为公司在增长。

黄仁勋:是的,原因是我们有比我们能够探索的更多的想法,我们需要人们来帮助我们思考,然后再去自动化这些想法。而自动化的部分,AI 可以帮助我们实现。

显然,它也会帮助我们进行思考,但我们仍然需要去弄清楚我们想要解决什么问题。我们可以解决无数的问题,但公司必须选择那些最需要解决的问题,然后找到一种方式来实现自动化并扩大规模。

因此,随着我们变得更高效,我们将会雇佣更多的人。人们常常忘记这一点。如果回顾历史,显然我们今天有比 200 年前更多的想法。这也是 GDP 和就业增长的原因,尽管我们一直在疯狂地进行自动化。

Brad Gerstner:这正是我们进入这一时期的重要点,几乎所有的人类生产力和繁荣都是过去 200 年技术和自动化的副产品。你可以回顾一下,从亚当·斯密到熊彼特的创造性破坏,过去 200 年人均 GDP 的增长图表,它不断加速发展。这让我想到一个问题。

如果你看 90 年代,美国的生产力增长率大约是每年 2.5% 到 3%。然后到了 2000 年代,它放缓到大约 1.8%。而过去十年,是记录上生产力增长最慢的时期。这指的是我们在固定的劳动力和资本投入下的产出增长,是我们有记录以来最慢的。

许多人对此进行了讨论。但如果世界如你所描述的那样,并且我们将利用和制造智能,那么我们是否正处于人类生产力即将出现巨大扩展的边缘?

黄仁勋:这是我们的希望。这是我们的希望,当然,你知道,我们生活在这个世界中,因此我们有直接的证据,对吧?我们有直接的证据,比如个别研究人员利用 AI,现在可以在前所未有的规模上探索科学,这就是生产力的体现。

或者我们设计出如此复杂的芯片,并以如此快的速度完成设计,而公司的员工规模并没有以相同速度增长,这也是生产力的体现,对吧?我们开发的软件也越来越好,因为我们在利用 AI 和超级计算机帮助我们,而员工数量几乎是线性增长的。

这又是一个生产力的证明。所以无论我深入到哪个行业,我都可以自我检查,我可以亲自验证这些表现是否普遍存在。毫无疑问,智能是世界上最有价值的资源,而现在我们将大规模生产它。

我们都必须学会如何在周围都是 AI 的环境中生活,这些 AI 能够非常出色地完成任务,甚至比我们更好。当我反思这一点时,我发现这就是我的生活。

我有 60 个直接汇报的下属,对吧?他们都是各自领域的世界级人才,做得比我好得多。我和他们合作没有任何问题,我也没有问题去指导他们、与他们沟通。因此,我认为人们将要学到的是,他们都将成为 AI 智能体的 CEO。

他们需要拥有创造力、决心,以及一些知识,知道如何分解问题,从而能够编程这些 AI 来帮助他们达成目标,就像我管理公司一样。

Brad Gerstner:你提到了一个问题,就是关于对齐、安全 AI 的讨论。你也提到了中东正在发生的悲剧。你知道,现在世界的不同地方都有很多自主性和 AI 的应用。

所以我们来谈谈不良行为者、安全 AI,以及与华盛顿的协调问题。你现在的感受如何?我们是否走在正确的道路上?我们的协调是否足够?我记得马克·扎克伯格曾说,战胜坏 AI 的方式是让好 AI 变得更好。你会如何描述我们如何确保 AI 对人类有积极净效益,而不是让我们陷入一个无目的的反乌托邦世界?

黄仁勋:关于安全的讨论非常重要,也很有意义。抽象的观点,即将 AI 视为一个大型的神经网络,这种看法就不太好。而原因是,我们知道,人工智能和大语言模型虽然相关,但并不相同。

现在有很多正在进行的工作,我认为非常出色。第一,开放源代码模型,使得每个行业、每家公司和整个研究界都能接触到 AI,并学习如何利用这种能力来应用于他们的领域。非常好。

第二,AI 的发展技术力量正在专注于发明如何使 AI 更加安全。AI 被用来筛选数据、筛选信息、训练其他 AI,创造出对齐的 AI,生成合成数据的 AI,扩展 AI 的知识,减少幻觉的 AI,以及所有被创造出来的用于矢量图像、图形等 AI,来告知和监控其他 AI 的系统,这些用于创建安全 AI 的 AI 系统还没有得到足够的认可。

Brad Gerstner:这些系统已经被构建出来了。

黄仁勋:对,我们正在建造这些系统,整个行业的所有人都在这样做。包括红队测试、流程控制、模型卡、评估系统、基准系统等等,所有这些安全机制正在以惊人的速度被构建出来。这些努力还没有得到应有的赞誉,你们懂的。

Brad Gerstner:是的,目前没有任何政府法规要求你们这样做。这是当前行业中的参与者们正在严肃对待这些关键问题,并围绕最佳实践进行协调。

黄仁勋:完全正确,这些努力没有得到足够的认可,也没有被充分理解。人们需要开始讨论 AI 作为一个由多种 AI 组成的系统,以及它作为一个经过良好工程设计的系统的本质。

关于监管,我们要记住,AI 是一种能力,它可以应用于很多领域。不一定需要为每一项重要技术单独立法,但是也不能让监管过度扩展到不必要的领域。

大部分的监管应该针对具体的应用来进行,例如 FAA(联邦航空管理局)、NIH(美国国立卫生研究院)、FDA(美国食品药品监督管理局)等机构已经在管理技术应用了,现在他们需要开始管理包含 AI 的技术应用。

因此,不要误解这一点,不要忽视我们将需要激活的现有大量监管体系。不要仅依赖一个全球 AI 委员会,因为每个监管机构的设立都是有原因的。这些不同的监管机构存在的原因,就是为了应对不同的挑战。让我们再次回到基本原则。

▲Clark Tang 在访谈中

AI 开源推动行业激活

Brad Gerstner:如果我不回到开放源代码这个问题上,我的伙伴 Bill Gurley(编者注:本场访谈 Bill 缺席)可能会责怪我。你们最近发布了一个非常重要、非常强大的开源模型。显然,Meta 也在为开源做出重大贡献。

我在读 Twitter 时发现,关于开放与封闭的讨论非常热烈。你怎么看待开源,尤其是你们自己的开源模型与前沿技术保持同步的能力?这是第一个问题。

第二个问题是,拥有开源模型以及为商业运营提供动力的封闭模型,这是否是你们未来的愿景?这两者是否能为 AI 安全创造一种健康的张力?

黄仁勋:开源与闭源的讨论与安全性有关,但不仅仅是关于安全性。例如,拥有闭源模型作为经济模型的引擎来维持创新,这是完全没有问题的,我对此全心全意支持。

我认为,将问题单纯地定义为闭源对抗开源是一种错误的思维方式。应该是闭源和开源,对吧?因为开源对许多行业的激活是必要的。

如果现在没有开源,所有这些不同的科学领域如何能够在 AI 上激活?因为他们必须开发自己的领域专属 AI,并且他们需要利用开源模型来创建领域专属 AI。这两者是相关的,但并不相同。

仅仅因为你有一个开源模型,并不意味着你就拥有了 AI。因此,你必须有开源模型来推动 AI 的创建。所以,金融服务、医疗保健、交通运输,以及许多其他领域的科学和行业,都是因为开源的推动而得以激活的。

Brad Gerstner:难以置信,你们的开源模型需求量很大吧?

黄仁勋:我们的开源模型?当然,Llama 的下载量,对吧?显然,Mark(扎克伯格)和他的团队所做的工作,令人难以置信,需求量爆棚,彻底激活了每个行业和每个科学领域。

我们创建 Nemotron 的原因是为了合成数据生成。直觉上,认为某个 AI 会一直循环生成数据来学习自己,听起来似乎不太可靠。你能在那个无限循环里转多少圈,这值得怀疑。不过,我的心中有一个形象,就像把一个超级聪明的人关在一个软包房里,一个月后再出来,可能并不会变得更聪明。

但是,如果有两三个人在一起讨论,我们有不同的 AI 模型,拥有不同的知识分布,能够相互问答、来回交流,那么我们三个人都会变得更聪明。所以 AI 模型之间相互交换、互动、来回讨论、辩论,进行强化学习和合成数据生成,这个想法直观上是有意义的。

因此,我们的 Nemotron 350B、340B 是世界上最好的奖励系统模型。它是最好的批评性模型,确实非常出色。所以,这是一个增强所有其他模型的奇妙工具,不论其他模型多么优秀,我都建议使用 Nemotron 340B 来进行增强,让它变得更好。而我们已经看到 Llama 变得更好,所有其他模型也因此受益。

▲Meta 在为开源做出重大贡献(图源:Linkedin)

AI 是一场彻底的革命

Brad Gerstner:作为在 2016 年交付首台 DGX-1 的人,这段旅程真的太不可思议了。你的旅程既不寻常又令人惊叹。你成功度过了最初的艰难时期,这本身就非同寻常。

你在 2016 年交付了第一台 DGX-1,我们在 2022 年迎来了这个「寒武纪时刻」。所以我想问一个我经常被问到的问题,那就是,你觉得你现在的工作状态还能持续多久?

你有 60 个直接汇报的下属,你无处不在,推动着这场革命。你享受这个过程吗?有没有其他你更想做的事情?

黄仁勋:你这是在问过去一个半小时的感受吗?答案是:很棒。我度过了一段非常愉快的时光,完全无法想象还有什么事情比这更值得我去做。

让我想想,我不认为应该让人觉得我们的工作总是充满乐趣。我的工作并非总是有趣的,我也不期望它总是有趣的。工作是否应该总是有趣?我认为重要的是工作总是重要的。我不会太把自己当回事,但我非常认真对待工作。我非常认真地对待我们的责任,认真对待我们对社会的贡献,以及我们所处的时代。

这总是有趣的吗?不,但我是否总是热爱它?是的,就像所有事情一样,无论是家庭、朋友、孩子,是否总是充满乐趣?不,但我们是否总是深深地爱着他们?绝对是。

我能做多久?真正的问题是,我能保持相关性多久?这个问题的答案只有通过另一个问题来回答:我将如何继续学习?今天我更加乐观了,我并不是因为我们今天的讨论而这么说。因为 AI 的出现,我对自己保持相关性和继续学习的能力更加乐观。我每天都在使用它。我不知道你们是否也使用,但我每天都在使用它。

没有一项研究不涉及 AI,即使我知道答案,我也会用 AI 来核对。令人惊讶的是,接下来我问的两三个问题,往往能揭示一些我不知道的事情。

你可以选择你感兴趣的主题,我认为 AI 作为导师、AI 作为助手,AI 作为一个可以一起头脑风暴的伙伴,来检查我的工作。伙计们,这真的是一场彻底的革命。而我是一名信息工作者,我的输出是信息。

所以我认为 AI 对社会的贡献是非凡的。如果我能像这样保持相关性,并继续做出贡献,我知道这份工作足够重要,值得我继续追求。而我的生活质量也是不可思议的。

Brad Gerstner:我无法想象,如果错过这个时刻会怎样。你我已经在这个行业工作了几十年,而这是我们三十年来最重要的时刻。我们对这段合作深表感谢。

黄仁勋:不要错过接下来的十年。

Brad Gerstner:非常感谢你们的思想交流,你让我们变得更明智。谢谢你,我认为你作为领导者,在乐观且安全地引领未来方面发挥了非常重要的作用。

黄仁勋:感谢你和我们在一起。我真的很享受,真的很感谢,感谢 Brad,感谢 Clark。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


字节最新技术一键「迁移」表情神态,人人都是演技派

近日,字节跳动和清华大学在 GitHub 上联合推出了一款最新的人像动画技术「X-Portrait 2」。

具体来讲,X-Portrait 2 是一款「生成式人像转移模型」,其使用方法非常直观和简单:用户只需要提供一张静态肖像图和一段含有表情变化的「表演」视频,这个技术就能一键将表情「迁移」至肖像上面,从而使前者也「动起来」。

就像下面这样:

可以看到,左下角是「静态肖像」,右下角则是「表演视频」,而 X-Portrait 2 的功能就是让左边的角色做出同右边人物几乎一模一样的表情

除了「表情」以外,就连「神态」也几乎是像素级复刻:

眉眼和笑容之中所包含的「狡黠」和「顽皮」,全部都精准地呈现出来了。

头部扭动幅度较大的情况下,X-Portrait 2 也完全可以胜任,表情也并未失真:

一个比较「务实」的使用场景,是它可以用来「对口型」,有时可以配合后期修改台词的需要:

不仅复刻精准,并且也足够流畅自然。发布者也因此将其称为「极具表现力的肖像动画」。

显然,这个模型能够实现跨风格和跨领域的表情转移,覆盖写实肖像和卡通图像;并且适应性较强,能够用于包括现实世界的故事讲述、动画角色的呈现、虚拟代理以及其他视觉效果。

在电影或者动画的后期特效制作方面,X-Portrait 2 无疑大大简化了现有的动作捕捉、角色动画和内容创作流程。

相较于其原型 X-Portrait,X-Portrait 2 的升级和创新谓之「进化」都不为过。

X-Portrait 2 采用了一个更先进的表情编码器,这个编码器在大规模数据集上进行训练,其能够更精确地捕捉和再现人物的微妙表情,包括嘟嘴、鼓腮和皱眉等细节,还原了表情的复杂性,并提升了其真实感。

同时,X-Portrait 2 实现了外观和动作的有效分离,这意味着在迁移表情时,原始图像的外观特征得以保留,表情变化不会影响人物的基本面貌,提高了动画的自然程度和一致性。

值得一提的是,X-Portrait 2 还创新地引入了生成式扩散模型,这种模型能够处理不同视角下的表情变化,生成更加流畅和真实的动画效果,解决了传统方法在视角变化时可能出现的表情不协调问题。

此外,X-Portrait 2 还增强了跨领域的表情迁移能力以及动画的真实感和动态表现力。

和早先发布的同类竞品——Runway 的 Act-One 相比,X-Portrait 2 也毫不逊色。同样是「Nice 老爷爷」的喜感表情,Act-One 的生成效果是这样的:

▲图源:虎嗅

似乎只做到了「迁移」,并且表情的夸张程度衰减明显,还略微有点僵硬。如果遮住原视频,可能根本看不出来这是在模仿谁。

同一个表情,以下是 X-Portrait 2 的生成效果:

除了表情的复刻更加精准细腻以外,我们似乎还能感受到那种自然流露的「喜感」。这才是 X-Portrait 2 的厉害之处。

对于 X-Portrait 2 的优势,开发者是这样说的:

与 X-Portrait 和最近发布的 Runway Act-One 等最先进的方法相比,我们的模型可以忠实地传递快速的头部运动、微小的表情变化和强烈的个人情感。这些方面对于高质量动画内容创作(例如动画和电影制作中的内容)至关重要。

来看一个更加直观的对比:

显而易见,同初代 X-Portrait 相比,X-Portrait 2 的进步在于更加「自然流畅」;而同 Act-One 相比,X-Portrait 2 则更加「精准细腻」。

无论如何,X-Portrait 2 的推出继续发扬了「用生成式 AI 代替动捕」这个可能的概念,并且使它更加成熟,距离落地商用又近了一步。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OLED 太贵,MacBook Air 的「换屏计划」再搁置

据 The Elec 报道,MacBook Air 系列产品由 LCD 屏幕更换至 OLED 屏幕的计划被再次推迟,搭载新屏幕的 MacBook Air 可能要到 2028 年才会发布。

一位业内人士透露,「零件开发计划被推迟了,目前看来,产品发布也不得不推迟。」

此前的预测是,苹果将会在 2027 年推出配备 OLED 屏幕的 MacBook Air。

▲图源:ai

据悉,推迟的主要原因之一是 OLED 屏幕高昂的成本

和 LCD 屏幕相比,OLED 屏幕能够显示更鲜艳、更广色域的色彩和更高的对比度,其响应时间更快,并且不需要背光,这导致其生产过程更为复杂,需要更精细的制造工艺。此外,OLED 所使用的有机发光材料也是其高昂生产成本的来源之一。

▲图源:维基百科

苹果目前正在寻求降低这一成本的方法。他们希望看到多家公司竞争提供 OLED 显示屏,以达到压价的目的。然而,在当前的供应链环境中,公司的选择有限。报道称,只有三星显示器公司和苹果合作,为未来的 MacBook Air 机型开发 13.3 英寸的 OLED 面板。

此外,与采用具有两个发射层的双堆栈设计的 MacBook Pro 的 OLED 显示屏不同,OLED MacBook Air 可能会使用更简单也更便宜的单堆栈 OLED 配置,以此来进一步减少成本。

▲图源:MacRumors

除了屏幕的高成本以外,如何给搭载 OLED 屏的 MacBook Air 系列产品定价,也是一个令苹果十分头疼的问题。

OLED 显示屏的高制造成本难免大幅提高 MacBook Air 的零售价格,但对于面向大众,「性价比」为主要卖点的这一产品线来说,仅仅对屏幕进行升级和昂贵的售价,将会使消费者的购买兴趣大打折扣。

对此,一位匿名供应链官员表示,苹果将接受较低质量的 OLED 屏幕,并且需要「找到一个平衡点,让 MacBook Air 的 OLED 显示性能接近高端机型(MacBook Pro)的水平,同时最大限度地减少由于 OLED 的应用而导致的价格上涨」。

▲图源:INDIA TODAY

苹果在今年上半年发布了搭载 M4 芯片和 OLED 屏幕的新款 iPad Pro,这款平板电脑无疑拥有出色的性能,但消费者似乎不太买账,导致它的销量远不及预期:预计的销量为接近 1000 万台,而实际出货量只有 600 万至 700 万台。

OLED iPad Pro 难以令人满意的销售表现可能会加剧苹果对 OLED 屏幕未来继续应用的担忧。同时,这也可能是导致苹果延迟推出 OLED MacBook Air 的原因之一。

▲图源:Macworld

值得一提的是,除了上述内因之外,苹果还面临着外部竞争的压力

即使「苹果党」已经逐渐固化成为一批相对稳定的购买群体,但这并不意味着他们永远不会动摇,尤其是在 Win 系列笔记本电脑不断提质降价的现状下。

Tom’s Guide 指出,市场上不乏性能优秀、价格合理且配备 OLED 的笔记本电脑,比如华硕的 Zenbook S 14、戴尔的 XPS 15 等。这些竞品使得苹果不得不重新考虑 Air 系列的竞争优势,并且调整其更新方向。

▲Dell XPS 15(图源:Dell)

消息显示,不仅仅是 MacBook Air,OLED 版本的 MacBook Pro 和 iPad Air 也将推迟至 2026 年发布。彭博社的马克·古尔曼(Mark Gurman)表示,苹果最初的目标是在 2025 年进行重大设计更新,但由于新的显示技术而出现了延迟。

苹果的 2025 年产品线预计将继续采用与其前代产品相同的设计和 mini-LED 屏幕。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


首款彩屏 Kindle 体验汇总:一块精彩的屏幕,但有一个明显的缺点

开售才一周多,备受瞩目的明星产品 Kindle Colorsoft 就「翻车」了。

从刚刚发布时的噱头十足,风光无限,到现在的商品页面均分只有 2.6 分(满分 5 分),可能仅仅是因为一条「黄带」——有用户反映 Kindle Colorsoft 的显示屏存在背光不均的问题,屏幕底部和侧面会发黄或者发白。

▲图源:Amazon

来自 The Verge 的测评也证实了这一点。不过,从这家媒体提供的图片来看,这个所谓的「缺陷」实际上相当不明显。另一家媒体 TechRadar 的编辑菲利普·伯恩(Philip Berne)表示如果不是 The Verge 提出了这个问题,自己永远注意不到这个现象。

对此,亚马逊官方称背光不均的问题源于系统软件,公司正在积极采取措施进行修复,并且已经推迟了设备的发货时间。亚马逊发言人还表示已经购买 Kindle Colorsoft 的用户可以联系退换。

▲图源:The Verge

菲利普·伯恩对「黄带」事件补充评论:「我并不期望 Kindle 具有完美的色彩保真度,所以它一点也不困扰我。」

同时,他还表示 kindle Colorsoft 将永远改变我们看待 Kindle 的方式

新屏幕,老设计

虽然不是市面上第一台配备彩色屏幕的电子阅读器,但作为「第一台彩屏 Kindle」的 Kindle Colorsoft 所搭载的这块新屏幕,还是有不少说法的。

相比知名的彩屏电子书产品 Kobo Libra Colour 使用的 E Ink Kaleido 3 彩色屏幕,Kindle Colorsoft 的彩屏建立在 E Ink 色彩技术的定制版本之上,专为亚马逊设计。其中包括采用独特氧化物背板和氮化物 LED 的新型显示器堆栈,与之前的彩色电子墨水显示器相比,色彩鲜艳度和亮度方面都有提升

▲Kindle Colorsoft(左)和 Kobo Libra Colour(右)(图源:CNN)

在彩色状态下,Kindle Colorsoft 的这块屏幕支持标准和鲜艳两种颜色模式。测评显示,标准模式的颜色显示更加均衡,鲜艳模式则更适合用来阅读漫画等读物。

菲利普·伯恩表示他喜欢在彩色状态下收藏书籍的全彩封面,不过他几乎没有发现两种颜色模式的差别。值得一提的是,亮度不变的情况下,两种颜色模式的功耗几乎相同,这也是亚马逊官方的说法。

▲图源:TechRadar

即使「彩屏」是 Kindle Colorsoft 最重要的卖点,其在单色(黑白)状态下的显示效果依然优秀:得益于屏幕对比度的增加,使得黑色的文本能够清晰漂亮地呈现出来,阅读漫画也完全不成问题。

尽管如此,测评显示在黑白状态下,还是 Kindle Paperwhite 的显示效果略胜一筹。

Kindle 的老用户可能会注意到,Kindle Colorsoft 的屏幕比想象中要暗一些,对此亚马逊官方表示「不同的 LED 和显示堆栈有助于优化颜色」。不过,用户可以根据自己的喜好手动调节亮度,还可以使用自动亮度调节功能,让其根据环境照明条件自动调整亮度。

▲图源:CNN

值得注意的是,Kindle Colorsoft 在彩色和单色状态下所使用的分辨率是不同的:单色状态下为 300ppi,彩色状态下则会减半,为 150ppi。测评显示,即使彩色状态下的屏幕分辨率较低,但对观感和阅读体验却基本没有影响。

此外,这块电子墨水屏的刷新速度也很令人惊喜,不仅翻页速度更快了,在捏合缩放彩色图像时也显得十分顺滑和流畅,不会出现重影或拖影等问题。菲利普·伯恩表示:

Kindle Colorsoft 感觉是我用过的最快、最流畅的电子阅读器,无论是阅读彩色文本还是黑白文本。

▲图源:TechRadar

Kindle Colorsoft 还支持「荧光笔」功能:用户可以用四种不同的颜色高亮显示突出文本,还可以根据所使用的颜色对荧光笔标记的文本进行排序和搜索。

▲图源:T3

在「新」屏幕的衬托下,Kindle Colorsoft 的外观设计就显得有些「老」,正如名字中的「soft」一样,设计方面的改进相当柔和。不过依然可圈可点。

相较于 Kindle Paperwhite 的 6.8 英寸屏幕,Kindle Colorsoft 的 7 英寸屏幕和更窄的边框带来了更为沉浸的观感,在体型方面则保持了同经典产品一样的轻薄优雅,重量仅有 219 克,单手握持或者塞进背包都很容易。

▲图源:Tom’s Guide

Kindle Colorsoft 只有一个黑色哑光塑料背板的版本,虽然不如 Kindle Paperwhite 的多色可选金属漆面那么有「贵气」,但谁让它拥有一块惊艳的彩色屏幕呢。来自 Tom’s Guide 的编辑表示「全黑设备让我更容易专注于我正在阅读的内容」。

亚马逊还在 Kindle Colorsoft 的背部设计上花了一点小心思,使用了一个彩虹渐变色的笑脸

▲图源:T3

几乎被所有测评媒体集体「诟病」的一点是,Kindle Colorsoft 没有类似 Oasis 系列的翻页按钮,只有电源按钮,并且还安放在设备底部的充电口旁边,十分容易因误触而熄屏。

此外,不支持和手写笔配合使用也是 Kindle Colorsoft 的遗憾之一。CNET 的编辑大卫·卡诺伊对此表示「如果可以(支持手写笔)的话那就太好了」。

▲图源:TechRadar

这本书很「皮实」

尽管 Kindle Colorsoft 拥有一块令人印象深刻的彩色屏幕,但它并不是一只脆弱的「花瓶」。相反,它很「皮实」。

亚马逊表示,如果读者在设备亮度低于 50% 的情况下每天阅读半小时,Kindle Colorsoft 的电池可持续使用八周左右。菲利普·伯恩在经过一段时间的测试后,得出的结论是:在超过亚马逊官方建议亮度的设置下,这款设备可供持续阅读 20 多小时,拥有不错的续航。

实际上,Kindle Colorsoft 的电池容量为 2300 mAh,而 Kobo Libra Colour 的电池容量仅有 2050 mAh。

▲图源:CNN

不仅如此,Kindle Colorsoft 甚至配备了无线充电这个堪称「奢侈」的功能。要知道在今天,许多智能手机都不支持无线充电。

除了缓解「电量焦虑」之外,无线充电功能带给读者的更多的是一种进一步「类书」的体验:Kindle Colorsoft 不仅在观感上类似纸张,读者在阅读完毕之后,还可以将设备轻轻放置在床头的无线充电器上,就像放置一本真正的书一样。

况且,「(无线充电底座)放在床头柜上看起来很漂亮。」菲利普·伯恩说。

▲图源:Amazon

将其称为「皮实」,还有一个重要的因素,即它支持 IPX8 级别的防水。这意味着用户可以在浴室甚至海滩等场景下几乎无忧地使用 Kindle Colorsoft。

为了验证 Kindle Colorsoft 的实际防水性能,来自 CNN 的编辑将这款设备在熄屏状态下放进水池中浸泡了一小时,拿出来后仍然一切正常。这也跟亚马逊的官方声明一致。

▲图源:CNN

彩色很好,但很贵

除了上述显而易见的优点之外,Kindle Colorsoft 还为读者提供了广泛丰富的读物来源,更加简洁流畅的网页浏览体验等等。

另外,由于 Kindle Colorsoft 仅提供签名版(Signature Edition),因此它拥有 32G 的存储空间,并且完全没有任何广告。

然而几乎所有测评媒体列为 「首要」缺点的,就是它的价格。大卫·卡诺伊直接将 「色彩是种享受,价格是个问题」(Color Is a Treat, Price Is Tricky)用作了测评文章的标题。

▲图源:Tom’s Guide

kindle Colorsoft 的售价是 280 美元(约合 2004 元)。相比之下,同类竞品 Kobo Libra Colour 仅售 220 美元(约合 1576 元),并且拥有几乎相同的屏幕配置和翻页按钮。后者还可以搭配 Kobo stylus 2 手写笔做笔记。

如果你不太在意这块彩色屏幕所带来的体验的话,可以选择更加便宜的 Kindle Paperwhite。

当然,如果你相当注重屏幕素质及其饱和生动的显示效果,iPad 可能是更好的选择

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Meta AR 眼镜前主管加入 OpenAI,曾负责苹果 MacBook 设计

OpenAI 近日来在 AI 硬件领域的动作不断:先是要自主「造芯」,昨日又将 Meta 公司 Orion AR 眼镜的前硬件主管凯特琳·卡利诺夫斯基(Caitlin Kalinowski)招入麾下,并让她领导机器人技术和消费硬件

▲凯特琳·卡利诺夫斯基(图源:NewsBytes)

凯特琳·卡利诺夫斯基是一名硬件高管,于 2022 年 3 月开始领导 Meta 的 AR 眼镜团队。Meta 在 Connect 大会上所展示的令人印象深刻的 Orion 智能眼镜的原型机就出自她的督导。

▲图源:Meta

在此之前,她还领导了 Meta 的虚拟现实护目镜「Oculus VR」背后的硬件团队九年之久。

▲图源:Techradar

再早些时候,凯特琳·卡利诺夫斯基曾在苹果任职,为 MacBook 设计硬件。

▲图源:Apple

在加入 OpenAI 后,凯特琳表示「首先将专注于 OpenAI 的机器人工作和合作伙伴关系,以帮助将人工智能带入物理世界,并且为人类带来好处」。

巧合的是,近日「纽约时报」的一篇报道称凯特琳的前任老板,前苹果高管、传奇设计师乔尼·艾维(Jony Ive)也正在与 OpenAI 的 CEO 奥特曼联合创建一家新的初创公司。

艾维是一位来自英国的工业设计师,在苹果任职期间,主导设计了第一代 iPhone,iPod 等经典产品。他甚至参与了苹果的新总部大楼 Apple Park 的建筑设计和园区规划。

▲Apple Park

离开苹果后,他创立了自己的设计公司 LoveFrom,并继续与苹果合作。艾维和 OpenAI 的合作初创公司很可能会以 LoveFrom 为起点,并且凯特琳将会加入其中,他们将共同构建一款「使用 AI 创造计算体验,社会破坏性比 iPhone 更小」的硬件产品。

▲乔尼·艾维(图源:dezeen)

除这两员大将之外,OpenAI 最近还开始为一个机器人团队招聘研究工程师。招聘公告上写着「我们正在寻找具有强大研究背景以及人工智能应用交付经验的人才」。

OpenAI 希望机器人工程师能够调试端到端的机器学习问题,并且希望他们开发与机器人相关的机器学习架构,应用于其「核心模型」中。

正如 OpenAI 所说,这个研究团队旨在「为合作伙伴的机器人解锁新功能」,也就是帮助 OpenAI 的合作伙伴将其多模态人工智能整合到他们的硬件中。

目前,机器人公司 Figure 推出的人形 01 机器人已经利用 OpenAI 的软件进行自然语音对话;挪威公司 1X 也在其 Eve 机器人中使用 ChatGPT 的修改版本来处理和响应命令。

▲人形 01 机器人(图源:techbsb)

实际上,这并不是 OpenAI 首次启动硬件研究。早在 2018 年,OpenAI 就开发了名为「Dactyl」的机器人手,能够以人类手部相似的方式灵活操作物体,还成功地用一只手解决了「魔方问题」(Rubik’s Cube)

2020 年,在 GPT-3 发布之后,OpenAI 解散了其机器人研究团队,将重点转向了早期生成式 AI。

▲图源:OpenAI

未来,OpenAI 表示其机器人团队将「与机器人行业的合作伙伴合作,专注于构建一套模型以实现前沿机器人应用」。

在几乎引领了生成式 AI 的技术浪潮之后,OpenAI 又将重新出发,向 AI 硬件领域进军。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


你的下一台 Vision Pro,由 iPhone 驱动

据 The Information 报道,苹果的 Vision Pro 预计会在今年年底之前停产,原因是市场需求低迷

这一点其实很容易理解。对于大多数消费者来说,Vision Pro 价格昂贵,可使用场景有限,不易融入大多数人的现有工作流程,并且由于软件适配方面的问题,它并不是「刚需」。

苹果公司 CEO 库克就曾在接受采访时表示 Vision Pro「不是一个大众产品」。

然而,停产不意味着停售。据 Vision Pro 的三个零部件供应商的员工透露,目前已经生产了 50 万到 60 万个 Vision Pro 头显,这一数字也与 The Information 和其他几家媒体此前分析的索尼每年可以生产的微型 OLED 显示器对的数量一致。

▲图源:Mashdigi

可见,显示屏是限制 Vision Pro 生产规模的重要因素,其高昂的成本也大部分来源于此。

据估计,Vision Pro 所使用的索尼近 4K 微型显示屏成本为 350 美元,一对显示屏则需要 700 美元。而每个头显的成本约为 1500 美元,显示屏占了近一半

▲图源:GPT 中文网

据 The Information 的韦恩·玛(Wayne Ma)报道称,早在 Vision Pro 投产之前,苹果就在测试视涯(SeeYa)和京东方(BOE)两家中国供应商的新型微型 OLED 显示屏,以期降低成本。

不过,最近的报道表明这两家潜在供应商均未能满足苹果严格的质量标准。

近日据韩媒爆料,苹果现在正在向 LG 和三星寻求成本更低、分辨率也较低的微型 OLED 显示屏。来自日本的 JDI 也在向苹果推销像素密度接近微型 OLED 显示屏的常规 OLED 显示屏。

▲图源:WatchGeneration

虽然「仍然为如何降低成本感到困惑」,但苹果目前为之付出的努力也很可能不是完全打了水漂:有消息称苹果正在筹备一款成本更低,当然售价也更低的「非 Pro 版 Vision 头显」。

彭博社的马克·古尔曼(Mark Gurman)报道称,这款「平价版」Vision 头显将搭载用于 iPhone 的 A 系列芯片而非 M 系列,采用更便宜、更轻的材料制造,并且不带 EyeSight 前置显示屏,售价约为 2000 美元

古尔曼还透露新的头显设备预计「将计算组件转移到 iPhone 上」,并且「与 Xreal 公司的眼镜大致类似」。也就是说,「平价版」Vision 头显拥有与 iPhone 绑定的选项,这有助于苹果手机保持其生态系统的中心地位

▲图源:Xreal

The Information 近期的报道则称,苹果告诉一家供应商,预计将为 400 万台更便宜的「non-Pro」Vision 头显生产足量零部件。许多消息来源称苹果计划在 2025 年推出这款头显。

有趣的是,消息一向准确的供应链分析师郭明錤(Ming-Chi Kuo)却似乎不同意这个观点。他认为「平价版」Vision 头显将会在 2027 年之后推出,理由是「仅仅降低价格并不会让一个产品更加成功」。

从显示器技术的角度来看,这样的说法其实不无道理。即使高密度常规 OLED 显示屏的成本微型 OLED 显示屏低得多,但它们仍处于早期开发阶段,最早要到 2026 年才会进入批量生产。

▲图源:ARinChina

筹备「平价版」Vision 头显并不意味着苹果完全放弃了高端市场。郭明錤透露,一款配备 M5 芯片的全新 Vision Pro 将会在 2025 年下半年开始量产,并且是「苹果明年唯一一款新的头戴式显示设备」。

目前的 Vision Pro 使用 M2 芯片运行 VisionOS,而苹果声称 M4 的 CPU 性能比 M2 高 50%,GPU 性能比 M2 高 4 倍。这表明搭载 M5 芯片的 Vision Pro 将会有相当明显的性能提升。

除了芯片大升级之外,郭明錤表示新款 Vision Pro 的供应链将「大部分保持不变」,因此「其他硬件规格和设计不会有太大变化,以降低成本」;The Information 则称此举是为了「重复使用多余的组件」。

当然,由于处理器的升级和硬件配置的相对持平,新款 Vision Pro 的售价将「依然昂贵」。

▲图源:scoop

对此,外媒编辑瑞安·克里斯托菲尔(Ryan Christoffel)认为新型号 Vision Pro 消息的透露,可能会让现在有兴趣购买 Vision Pro 的潜在用户化身「等等党」,让本就滞销的 Vision Pro「陷入了独特的困境」。

其次,他认为如果当前的 Vision Pro 不能获得全面的 Apple Intelligence 支持,也不能更新新款 Vision Pro 的所有后续功能,那么现在拥有 Vision Pro 的用户就变成了「冤种」,他们很可能相当后悔甚至不满。

无论如何,对于厂商来说,「升级」总是积极而有必要的;而对于用户来讲,选择适合自己的才是最好的。

预算充足的朋友,可以等待 M5 Vision Pro 的发布,而预算不太充足的朋友则可以期待一下「平价版」Vision 头显。另外,苹果公司正在悄然启动代号为「Atlas」的智能眼镜计划,准备向 AR 硬件领域进军。

苹果将会如何梳理未来智能可穿戴的产品线呢?让我们继续保持观望。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Meta AI 的这些新技术,让机器人拥有「触觉」

人工智能机器人发展到今天,其拥有「视觉」或者「听觉」早已经见怪不怪。毕竟,这两种感官几乎是人类感知物理世界最重要的渠道。

而 Meta AI 的基础人工智能研究团队(FAIR)近日公布的新技术,则为机器人赋予了「触觉」。对此,Meta 的愿景是使 AI 能够「更丰富地了解世界」并「更好地理解和模拟物理世界」。

毫无疑问,这些新技术让机器人又多了一种与世界互动的方式,也让其在「类人」的道路上又向前了一步。

▲图片来自:NewsBytes

Meta 正在与美国传感器公司 GelSight 和韩国机器人公司 Wonik Robotics 合作,开发了一系列新技术,致力于将触觉传感器商业化,并将其用于人工智能当中。

这些新技术包括三个研究工具——「Sparsh」、「Digit 360」和「Digit Plexus」,专注于触觉感知、机器人灵巧性和人机交互。此外,Meta 还引入了「PARTNR」,这是一种新的基准测试,用于评估人机协作中的规划和推理。

需要注意的是,这些新技术目前并未为消费者推出,而是面向科学家和研究人员的。

▲图片来自:Techopedia

Sparsh 是第一个用于基于视觉的触觉感知的通用编码器模型,由华盛顿大学和卡内基梅隆大学合作开发。

听起来似乎有些抽象,既然是「触觉」,为什么又「基于视觉」呢?

实际上,传统方法依赖于特定任务和传感器的手工模型,其需要将物体的「触摸参数」(例如力量、摩擦等等)打包成「感觉标签」喂给机器人,相当于告诉机器人什么是「轻轻地拿」或者「用力地推」。

然而这种方法比较麻烦,因为需要为每个不同的任务和不同的传感器收集很多这样的标签数据。

Sparsh 则通过自我监督学习(SSL)从经验中自主学习,不需要告诉它每个动作对应的标签。其在一个包含 460000 多个触觉图像的大型数据集上进行预训练,这就像是让机器人看很多不同的物体和场景,然后自己学习如何识别和处理这些物体。

简单来说,Sparsh 就像是让机器人通过看大量的图片和视频来自学如何「感觉」物体,而不是通过人工给它的「感觉」打标签。这样,机器人就更容易学会如何在不同的任务中使用不同的触觉传感器了。

有趣的是,「Sparsh」这个名字源自梵语,意为「触摸或接触感官体验」,这与它处理数字化触觉信号并实现触摸感知的功能非常贴切。

▲图片来自:Meta

Digit 360 是由 Meta 与 GelSight 公司联合开发的一种人造手指形状的触觉传感器,它通过以人类级别的精度对触摸进行数字化,能够提供丰富而详细的触觉数据。

Digit 360 配备超过 18 种传感功能,允许研究人员结合各种传感技术或者分离单个信号以深入分析每种模式。

它可以检测空间细节的微小变化,能够捕获小至 1 毫牛顿的力,并且包含多种传感模式,可以感知振动、热量甚至气味,性能明显优于以前的传感器。

▲Digit 360 触觉传感器(右). 图片来自:Meta

Meta AI 团队还为其开发了一种宽视场的触摸感知专用光学系统,由超过 800 万个传感器单元(taxels)组成,用于捕捉指尖表面的全向变形。

此外,借助设备上的人工智能加速器,Digit 360 能够快速处理信息,对触摸刺激做出反应,可以充当机器人的周围神经系统。这一设计的灵感来源于人类和动物的反射弧

显然,除了提高机器人的灵活性以外,这款传感器在医学、假肢、虚拟现实和远程交互等领域都有广阔的应用前景。

▲图片来自:Meta

Meta 在博客中说道:

人手非常擅长向大脑发出从指尖到手掌的皮肤触摸信息,这使得其在做出决定时能够激活手部肌肉,例如如何在键盘上打字,或者与过热的物体交互。实现嵌入式人工智能需要机器人手上的触觉传感和电机驱动之间的类似协调。

基于这个理念,Meta AI 与 Wonik Robotics 合作,提出并建立了一个标准化软硬件平台 Digit Plexus

它允许将各种指尖和皮肤触觉传感器(例如 Digit、Digit 360 和 ReSkin)集成到一个机器人手中,并通过一根电缆将触觉数据编码并传输到主机计算机中,以实现无缝数据收集、控制和分析。

Plexus 系统的设计旨在简化机器人应用的开发,特别是对于那些需要精细触觉反馈的应用。通过使用 Plexus,开发者可以更容易地将触觉传感器技术集成到他们的机器人项目中,从而提高机器人的灵巧性和对物理世界的感知能力。

▲图片来自:Techcrunch

值得一提的是,Meta 与 Wonik 的下一步合作重点是开发 Wonik 的新一代 Allegro Hand,这是一款配备 Digit 360 等触觉传感器的机器人手,它将在 Digit Plexus 平台上运行。

▲图片来自:XELA

为了研究家庭活动中的人机协作,Meta 在 Habitat 3.0(一个用于研究家庭环境中人机协作任务的模拟平台)的基础上,发布了人机协作规划和推理任务基准 PARTNR

PARTNR 是同类中最大的基准,包含 100000 个自然语言任务,涵盖 60 栋房屋和 5800 多个独一无二的对象。该基准的目标是评估大型语言和视觉模型(LLMs / VLM)通过人机交互工具与人类协作的性能。

通过提供标准化基准和数据集,Meta 表示「希望它能使机器人的研究不仅能够独立运行,而且能够围绕人类运行,使它们更加高效、可靠,并且适应每个人的喜好」。

▲图片来自:LinkedIn

让机器人拥有「触觉」,并不是一座「空中楼阁」。

这些机器人对外界变化拥有远超人类的敏感度,配合高效的软硬件协作系统,他们将会在外科手术或者精密仪器制造场景中大有用武之地。

其实,不仅「视觉」、「听觉」和「触觉」,宾夕法尼亚州立大学的研究人员已经在人工智能模型模拟出了「味觉」;同时,一家名为 Osmo 的公司已经教会人工智能模型如何模仿远优于人类的「嗅觉」。

也许未来的机器人能够在感官方面完全「复刻」人类。只是他们最好不要再拥有逼真的「人形」,否则,恐怖谷效应要犯了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


新一代赛博仆人!这款机器人要帮你把各种家务活都做了

不知道你是否曾有过这样的想法:当一个「甩手掌柜」,把一切家务都交给家务机器人。说实话,这是在科幻作品中经常能够看到的场景。

毕竟,谁不想拥有一位任劳任怨的「赛博仆人」呢?

来自旧金山的初创公司 Physical Intelligence(物理智能,简称 Pi)正在致力于帮助人们实现这个梦想。这家公司近日展示了一种「接受了前所未有的数据量训练」的人工智能模型,它已经学会了干各种有用的家务活。

Physical Intelligence 发布的视频显示,他们的机器人可以十分灵巧地完成各种家务活,包括但不限于:整理摆满了杯子和盘子的桌面:

把咖啡豆从袋子舀到机器当中:

甚至可以组装纸箱:

最令人深刻的是,它们可以取出烘干机内的衣物并折叠整齐。两只机械臂如同人类的双手一般,配合熟练:


有趣的是,该公司开发的这种算法有时会表现出一些的类似人类的怪癖,例如摇晃 T 恤和短裤,让它们平整地铺开。

Physical Intelligence 的首席执行官豪斯曼(Hausman)指出,折叠衣服对于机器人来说尤其具有挑战性,需要更多关于物理世界的一般智能,因为它涉及处理各种会不可预测地变形和皱折的柔性物品。

他还表示,目前的算法并不很稳定。就像 AI 聊天机器人有时也会「崩溃」一样,这些「家务机器人」有时也会做出一些令人不可思议的举动:比如它会将鸡蛋塞满已经装不下的纸箱,把纸箱强行合上;有一次在装东西时,机器人突然把盒子从桌上扔了下去。

▲Physical Intelligence 的 CEO 豪斯曼. 图片来自:The Information

尽管算法还不完美,但 Physical Intelligence 至少为未来的「通用家务机器人」提供了一种可能性。

然而,豪斯曼的野心远不止于此。「家务」只是其中一种用途,「通用」才是公司的雄心壮志:

我们的目标是通过一个通用模型将人工智能带入物理世界,基本上对于任何应用程序来讲,该模型可以为任何机器人或任何物理设备提供动力。

▲图片来自:maginative

换句话说,Physical Intelligence 的目标是创建一个类似于大型语言模型(LLMs)的物理世界模型,这是一种「通用人工智能模型」。

他们将构建语言模型的技术与控制和指导机器的自有方法相结合,并通过训练大量的机器人数据来实现。豪斯曼表示,他们的方法「非常通用」,可以利用来自不同机器人类型的数据进行训练,类似于人们训练语言模型的方式。

公司在过去八个月中开发了其「基础模型」,名为 π0(pi-zero)。π0 通过使用来自多种机器人执行各种家务的数据进行训练,公司还经常让人类远程操作机器人以提供必要的教学。

Physical Intelligence 的联合创始人之一、加州大学伯克利分校的副教授谢尔盖·莱文(Sergey Levine)表示,他们训练的数据量比以往任何机器人模型都要大得多,并且「幅度非常大」

▲谢尔盖·莱文(Sergey Levine). 图片来自:YouTube

与其他公司譬如 Figure AI 和特斯拉专注于构建仿人机器人,以及像 Covariant 这样的公司开发通用机器人软件不同,Pi 旨在创建可以应用于广泛机器人硬件的软件

对此,知名科技投资者,也是 Pi 的联合创始人之一的拉奇·格鲁姆(Lachy Groom)表示「使人类变得有趣的是我们的大脑,而不是我们的硬件,我们是终极的通用主义者」。

▲特斯拉开发的名为「Optimus」的人形机器人

Physical Intelligence 面临的一个关键挑战是,与大型语言模型训练中可用的文本数据相比,用于训练的机器人数据规模有限

因此,公司必须生成自己的数据,并想出提高从更有限数据集中学习的技巧。

实际上,为了开发 π0,公司结合了所谓的视觉语言模型(在图像和文本上训练)和扩散建模(从 AI 图像生成中借鉴的技术),以实现更通用的学习。

一切的一切,都在为「通用」而努力。

对于 Physical Intelligence 的现状和未来,莱文的观点是:

为了让机器人能够承担人类要求它们做的任何杂务,这种学习需要大幅扩大。尽管还有很长的路要走,但我们有一些你可以认为是基础框架的东西,未来的事情从中可见一斑。

但同时,莱文对 Pi 的发展充满信心。他表示有足够的迹象表明,在现实世界中使用机器人的最大障碍「现在已经可以解决」。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


iPhone 在全球都卖得更好了,除了中国市场

苹果公司在今天凌晨公布了 2024 第四财季(Q4)的财报。

我们先来看看苹果在其第四财季的总体财务表现

  • 第四财季总营收为 949.3 亿美元,去年同期为 894.98 亿美元,同比增长 6.1%;
  • 第四财季总利润为 147.36 亿美元,去年同期为 229.56 亿美元,同比下降 36%
  • 第四财季大中华区的营收为 150.33 亿美元,去年同期为 150.84 亿美元,基本持平;
  • iPhone 的营收为 462.22 亿美元,去年同期为 438.1 亿美元,同比增长 5.5%;
  • Mac 的营收为 77.44 亿美元,去年同期为 76.1 亿美元,略有增长;
  • iPad 的营收为 69.5 亿美元,去年同期为 64.4 亿美元,同比增长 8%;
  • 可穿戴设备、家庭和配件营收 90.42 亿美元,去年同期为 93.2 亿美元,同比下降 3%;
  • 服务类营收 249.72 亿美元,去年同期为 223.1 亿美元,同比增长 11.9%。

▲图片来自:华尔街日报

可以看到,苹果在第四财季的总体营收表现还算不错,不仅相比去年同期有所增长,还高于 Q3 的 857.8 亿美元的总营收,甚至超出了 943.6 亿美元的分析师预期;而在苹果的重要市场大中华区,苹果的营收表现相对稳定。

iPhone 系列产品作为苹果整体营收情况的「晴雨表」,也终于是不负众望,逆转了上一财季的下滑颓势,重新回到了增长曲线上,市场需求稳中向好;iPad 系列产品的营收环比有所下降,Mac 系列产品则表现平平。

可穿戴设备、家庭和配件方面,虽然同比有所下降,但也优于 Q3 的 81 亿美元营收;苹果的服务业务则持续强劲发力,同比、环比均有较明显的增长。

在一串令人眼花缭乱的数字中间,有一个数据相当醒目:苹果 Q4 的总利润同比下降 36%。究其原因,主要是苹果向爱尔兰政府补缴了时间跨度从 2003 年到 2014 年,约合 158 亿美元的税款

虽然苹果公司的现金储备足以缴纳税款,但这笔一次性费用还是对苹果的短期财务表现产生了影响,具体就体现在苹果 Q4 财报中总利润的锐减,以及财报发布后的股价下跌。

▲ 图片来自:SIXcolors

在国内智能手机市场百花齐放的今天,iPhone 在国内市场的销售表现并不亮眼。最新的 iPhone 16 系列甚至在发布仅一个月后就官宣全系降价。

▲图片来自:Apple

这台在智能手机发展初期「富有魔力」的产品,「挤牙膏」正在成为其广为人知的代名词。相比于其他手机厂商动辄大刀阔斧的更新,苹果在创新方面的小碎步,也逐渐让人失去兴趣和耐心。

尽管如此,iPhone 系列产品仍是苹果获得营收的「顶梁柱」。在第四财季,iPhone 的销售收入占总营收额的 49%,几近一半。同时,iPhone 的营收在连续两季同比下降之后终于迎来了增长,对于苹果来说也是个好消息。

▲图片来自:SIXcolors

 

▲图片来自:SIXcolors

虽说苹果本季在大中华区的营收表现「相对稳定」,但鉴于苹果在其他地区的营收同比均有增长,大中华区的销售收入同比下降就显得格外「显眼」,甚至在分析师的预测之外。

据市场研究和咨询机构 Counterpoint 的数据,iPhone 在第三季度(即第四财季)再次跌出中国智能手机市场前五名。这是自苹果第二季度首次跌出前五以来的又一次,iPhone 16 系列的发布也没能补救。

▲图片来自:新浪财经

苹果 AI(Apple intelligence)是苹果公司在今年上半年推出的一项重要创新,也被外界广泛认为是一个新的增长点。

但由于其正在全球范围内「分批次上线」,iPhone 16 的用户直到 10 月才开始使用首批苹果 AI 功能,并且其登陆中国遥遥无期,这也是 iPhone 在国内热度下降的原因之一。

▲图片来自:华尔街日报

更何况,苹果 AI 也并没有想象中那么惊艳。目前所推出的部分功能,仍然有待进化。

▲图片来自:Developer

iPad 系列产品的营收虽然环比有所下降,但却是所有产品之中同比增长最为迅猛的。

苹果在这一财季发布了搭载全新 M4 芯片的 iPad Pro,全新的 iPad Air 和搭载 A17 Pro 芯片的 iPad mini,极大地丰富了 iPad 系列的产品线,也保证其能够面对不同需求的用户,保证了出货量的稳定。

▲图片来自:Techradar

而在第四财季的尾声,苹果才匆匆上架了搭载 M4 芯片的新款 iMac、Mac mini 以及 MacBook Pro。这些产品开售不久,有望为后续财季提供更为强劲的增长动能,因此在 Mac 系列产品在 Q4 营收方面的表现中规中矩,符合预期。

▲图片来自:CineD

在可穿戴设备方面,Apple Watch Series 10 和 Apple Watch Ultra 2 是苹果在这一财季发布的两款主要产品。从消费者的角度来看,这些产品的设计创新似乎「不太够」,功能同质化的趋势也导致其吸引力大不如从前。

此外,一个很重要的原因是小米和华为等等国产品牌所推出的「智能可穿戴」产品占据了更多的市场份额,其在中低端市场也更加获得消费者的青睐。这也使得苹果可穿戴设备在 Q4 的销售情况「疲软」。

对于 AirPods 系列产品来讲,亦是如此。有人表示,即使苹果 在 9 月 20 日开卖 AirPods 4 和 AirPods Max,也不会对 Q4 可穿戴设备的收入带来很大帮助。

▲图片来自:Apple

不过,从今年全年的销售情况来看,苹果公司 CEO 库克对其在中国市场的表现还算满意。

库克在电话会议中提到,今年业绩表现改善的关键原因之一在于「外汇汇率的顺风影响」,并且表示苹果在中国地区的活跃设备装机数创下历史新高:

根据 Kantar(市场研究公司)数据显示,iPhone 在中国城市地区的销量排名前两位;购买 Mac、iPad 等产品的新用户数量远超 50%;购买 Apple Watch 新品的用户中,超过四分之三是新用户。

不止中国,库克对 EMEA(欧洲、中东、非洲三地区合称)地区的业绩表现也比较满意。

此外,库克还对刚刚上线仅三天的 Apple Intelligence 充满信心。他在会上称,从「客户端的积极反馈」来看,用户对 Apple Intelligence「肯定是非常感兴趣的」。

库克还表示从明年 4 月开始,Apple Intelligence 还将推出更多功能。总而言之,Apple Intelligence 的势头非常强劲,「我们对此也感到无比兴奋」。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


荣耀 Magic 7 系列发布!AI 深度赋能,手机也能「自动驾驶」

我们要用最强的荣耀 Magic 7 系列来引领 AI 时代的智能手机体验,消费者将见到 AI 时代最强的 AI 手机。

在荣耀 Magic 7 系列发布会的前夕,荣耀 CEO 赵明在访谈中如是说。从配色到设计,从处理器到系统,还有「第一个可跨第三方应用的 AI 智能体」……赵明如数家珍地畅谈着 Magic 7 系列的亮点。

亮点之外,赵明还有更美好的愿景:我们希望每个人通过荣耀的 AI 手机 Magic 7,用户能有更好的心情和更自由的体验。

10 月 30 日,荣耀 Magic 7 系列旗舰新品正式发布。让我们一起「趁热」看看。

设计「一眼好」,配置大升级

荣耀 Magic 7 系列的设计灵感「源于自然,探索宇宙」,背部的相机模组则延续了「方圆宇宙」的家族化设计语言:钻石切割工艺的金属边框包裹着镜头,有一种类似星空的深邃感。整机外观玲珑圆润,精致又不乏理性。

与上一代荣耀 Magic 6 系列全系采用曲屏设计不同的是,Magic 7 标准版回归经典直屏,采用了「超窄等边直屏」,主打手感和操控体验;Magic 7 Pro 则采用了「等深微四曲屏」设计,在保证手感的同时,观感更加丰富精彩。


荣耀 Magic 7 系列的屏幕采用了顶级的 8T LTPO 技术,峰值亮度达 5000 尼特,刷新率最高支持 120 Hz。并且支持全域全天候低功耗显示,还支持 AI 臻彩显示AI 超画质显示,屏幕画面真实生动,观看体验更加「震撼」。

Magic 7 标准版的屏幕尺寸为 6.78 英寸,Magic 7 Pro 则为 6.80 英寸。

值得一提的是,荣耀 Magic 7 系列不仅想让你看得「爽」,还十分关心你的视力健康,让你看得舒适。

Magic 7 系列的屏幕是目前「业界唯一」全局全天候 AI 自然光绿洲护眼屏,集成了八大护眼技术。区别于业内普遍采用的「线偏振光」,Magic 7 系列创新性地通过引入「圆偏振光」来模拟自然光,能够有效减轻视觉疲劳,从而达到护眼的效果。

更加令人惊喜的是,相较于 Magic 6 系列的短焦指纹,荣耀 Magic 7 系列全系支持 3D 超声波指纹解锁,解锁速度更快,还支持湿手解锁,即使是洗澡时也能及时回复消息。

Magic 7 Pro 还支持 3D 人脸识别解锁,这也使其成为了业内唯一「双 3D 生物识别」的手机,既安全又便捷。


此外,荣耀 Magic 7 系列全系配备荣耀巨犀玻璃,支持 IP68 级防尘防水及 IP69 级防高温高压喷水。现场的「洗碗机」实验表明其即使在近 70 度的高温冲洗环境下也能「依然保持坚挺」。

在影像创作方面,荣耀 Magic 7 系列同样拥有不俗的实力。毕竟,口号是「打造最强光影人像」。

Magic 7 标准版配备了前后四枚 5000 万像素的镜头,包括前置摄像头;而 Magic 7 Pro 则在标准版配置的基础上将 5000 万像素的超清长焦升级为 2 亿像素的潜望长焦,搭载行业领先的 1/1.4 英寸长焦传感器,支持 3 倍光学变焦。


荣耀 Magic 7 系列配备全新升级的 AI 鹰眼相机,支持由「光影人像大模型」和「抓拍增强大模型」深度融合的 AI 驭光引擎,可以通过大模型技术感知和理解光影,并最终重塑光影,允许用户实现与众不同的影像表达。

AI 驭光引擎具体到功能,就是:

  • 支持包含暗光场景的超清人像拍摄;
  • 鹰眼超级连拍;
  • 舞台模式。

其中,超清人像拍摄能够提供「像单反相机一样」的拍摄体验。即使是在暗光场景下,也能有丰富的细节和表现力。

鹰眼超级连拍则能够精确捕捉动态与静态的精彩细腻瞬间,解决了连拍和抓拍模糊的问题,放大看,也清晰。

舞台模式则针对舞台上的复杂光影进行了色彩优化,能够很好地呈现类似舞台,对比度较强的场景的明暗细节。

荣耀 Magic 7 系列还搭载了「荣耀环绕低音炮」,这是行业首创的双开放式音腔,其拥有 10 倍的音腔容积,低频性能更是提升至 160%。「手机外放」从此不再是一个令人捧腹的伪命题。

如此有料的硬件配置,Magic 7 系列要成为「AI 时代最强」的野心,可见一斑。

AI 全面进化,手机也能「自动驾驶」

在传统操作系统的演变更新几乎走到尽头,AI 时代势不可挡的背景下,「AIOS」无疑是时代的新宠。

MagicOS 9.0 就是这样一款搭载智能体的个性化全场景 AI 操作系统,它标志着手机进入了「自动驾驶时代」。

传统操作系统的内核基于设备的资源进行计算,而 MagicOS 9.0 则增加基于人的关联因子的 AI 内核,引入大语言模型、图像大模型、语音大模型和多模态大模型,并通过按需调度大模型,实现对用户需求的精准理解与服务。


有了 AI 内核的加持,荣耀手机内置的「YOYO 助理」一跃成为「YOYO 智能体」,它可以理解更多的需求和意图,并能够自动完成更多更复杂任务的规划和执行。

除了理解语言语义,执行相应的服务以外,YOYO 智能体还能真正理解屏幕和消费者的生活习惯,从而模拟用户本人来操作手机,更加省心省力。无论是点奶茶点外卖,还是取消续费自动订阅,真正做到了操控手机就是「一句话的事儿」。

作为首发搭载 MagicOS 9.0 AI 系统的 Magic 7 系列,搭配「任意门」、「灵动胶囊」和「YOYO 智能体」等,还可以实现诸如「购物比价」、「复杂地址一圈直达」一类的贴心功能,甚至能够「用魔法打败魔法」,检测「AI 换脸」的潜在风险。


不只是「拥有 AI」这么简单,而是「AI 深度赋能」,Magic 7 系列的目标,是成为你未来的生活方式。

首发骁龙至尊,性能再突破

得益于在 AI 和核心能力上的积累,Magic 7 系列可以与 SoC 几乎同时发布,并且充分运用了 SoC 的 AI 算力。

荣耀 Magic 7 系列首批搭载高通骁龙 8 至尊版移动平台,该芯片采用台积电第二代 3nm 工艺制程,凭借高通自研架构获得了顶级的性能和能耗比,号称骁龙平台「迄今为止最大升级」。


Magic 7 系列首发搭载了全栈 Vulcan 图形引擎,即使是 10 万张照片的加载滑动也十分流畅。


虽然不是专业的电竞手机,Magic 7 系列的游戏性能也不容小觑。它使用 AI 超分渲染引擎和 NPU + GPU 异构计算技术,在帧率、画质和温度控制「不可能三角」上实现了难以置信的平衡,大幅提升了玩家的游戏体验。

从此,玩王者荣耀「开团」不怕掉帧,玩「原神」也不怕烫手了。

此外,Magic 7 系列还首发 AI 预测调度引擎,支持边玩游戏边直播,并能够长时间保持高帧率。对于越来越多的游戏直播行业从业者来讲,这一功能无疑是他们的福音。

就像人类的心脏一样,没有「强芯」,其余的一切都是空谈。

通信无忧,续航不愁

荣耀 Magic 7 系列支持其与运营商合作的荣耀优速通服务,通过移动数据网络专线加速,能够提供「VIP 级」上网体验。也就是说,在地铁或者其他人群拥挤的地方,Magic 7 可以极大程度地避免网络拥堵的尴尬情况。

荣耀 Magic 7 系列还首发了全新的通信芯片 HONOR C2,它支持全新的天线调谐控制算法,在弱网的场景下,它可以让手机的信号大幅度提升。同时,这颗处理器还支持双 Wi-Fi 芯片聚合下载,可使网速最高提升至 200%。

现场测试显示,在限速的情况下,Magic 7 的网速可以比 iPhone 可以快一倍,相当逆天。

此外,Magic 7 系列还支持「鸿燕通信」,即卫星通讯。其中 Magic 7 标准版支持北斗卫星短信,而 Magic 7 Pro 则支持天通卫星通讯,并首发了 AI 卫星通话降噪技术。

续航方面,荣耀 Magic 7 全系搭载第三代青海湖电池,并且拥有 10% 的行业最高硅含量;还搭载新一代都江堰 AI 电源管理系统和自研能效增强芯片 HONOR E2,支持 100w 有线充电和 80w 无线充电,还支持 600 多种场景的车充模式,综合续航时长行业领先。

治愈你的「电量焦虑」,Magic 7 系列用数据说话:有线充电和无线充电分别只需要 33 分钟44 分钟就能充满。

其中,Magic 7 标准版配备 5650mAh 电池,而 Magic 7 Pro 则配备 5850mAh 电池。

如此有诚意的升级,Magic 7 标准版的起售价为 4499 元,相比上一代标准版仅增加 100 元;此外还新增了一个 16GB + 1TB 的版本,售价 5499 元。

Magic 7 标准版共推出了 5 个颜色:绒黑色、雪域白、月影灰、天际蓝朝霞金。具体售价如下:

荣耀 Magic 7 Pro 则不包含「朝霞金」配色,售价与上一代 Magic 6 Pro 持平:

另外,荣耀 Magic 7 RSR 保时捷设计也在发布会的结尾亮相,预计在 12 月正式发售。

发布会的结尾,赵明说:「我们想不断地打破瓶颈,做正确而艰难的事。

荣耀将「AI 深度赋能」和支持「自动驾驶」的全新智能设备展现在我们眼前,让我们看到 AI 手机的一种新形态。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 计划自研 AI 芯片,以减少对英伟达的依赖

据路透社报道,OpenAI 正在与博通(Broadcom)合作开发其首款定制 AI 推理芯片,旨在处理其大规模的 AI 工作负载,特别是推理任务。

为此,OpenAI 已经组建了一支约 20 人的研发团队,包括曾参与谷歌 Tensor 处理器项目的首席工程师在内。

消息称博通将会帮助 OpenAI 进行芯片设计,并确保由台积电(TSMC)进行制造,预计 2026 年开始生产。

▲OpenAI 将自研 AI 芯片. 图片来源:cnBeta

为了实现芯片供应的多元化,OpenAI 此前计划建立芯片制作代工厂。但由于成本高昂,并且构建代工厂网络需要大量时间,OpenAI 已经搁置了这一计划,转而专注于内部芯片设计

OpenAI 这一通过「定制芯片设计来管理成本和访问 AI 服务器硬件」的战略意味着其走上了 Meta 和 Google 等科技公司的老路,而后者作为 OpenAI 的竞争对手,已经经历了几代人的努力。

并且,市面上不乏成熟且广泛部署应用的 AI 芯片,如 Google 推出的「TPU」、微软的「Maia 100」等等。

也就是说,OpenAI 需要更多的资金才能弥补这些差距,登上牌桌。

▲微软推出的 AI 芯片「Maia 100」. 图片来源:techmonitor

除了满足不断增长的基础设施需求,减少训练和运行成本以外,「减少对英伟达(NVIDIA)的依赖」也是 OpenAI 的「小算盘」之一。

OpenAI 的 CEO 奥特曼(Altman)指出,之所以要「获得更多芯片」,是因为两个问题:为 OpenAI 软件提供动力的先进处理器的短缺,以及为其工作和产品提供动力的硬件运行所需的「令人眼花缭乱」的成本。

他还曾公开抱怨市场资源匮乏,而 NVIDIA 主导并控制着最适合运行 AI 应用的芯片全球 80% 以上的市场。

作为英伟达图形处理单元(GPU)的最大买家之一,OpenAI 此前几乎完全依赖 NVIDIA GPU 进行训练。2020 年以来,OpenAI 在微软建造的大型超级计算机上开发了其生成式人工智能技术,这台计算机使用了 10000 个 NVIDIA GPU。

▲NVIDIA H100 GPU. 图片来源:NVIDIA

但由于芯片短缺和供应延迟,以及训练成本高昂的问题,OpenAI 不得不开始探索替代方案。他们计划通过微软的 Azure 云平台使用 AMD 芯片进行模型训练。

值得一提的是,AMD 在去年推出了 MI300 AI 芯片,致使其数据中心业务在一年内翻了一番。种种迹象表明,AMD 正在追赶市场领导者 NVIDIA。

▲AMD MI300 芯片. 图片来源:AMD

此外,消息人士称 OpenAI 仍在决定是否为其芯片设计开发或收购其他元件,并可能会聘请更多合作伙伴。

尽管「不惜一切代价构建 AGI(通用人工智能)」的 OpenAI 和号称「下一个英伟达」的博通之间和合作很可能引起英伟达的不满,但 OpenAI 表示「希望与仍致力于合作的芯片制造商保持良好的关系,特别是在使用其新一代 Blackwell 芯片方面」。

对此,英伟达暂时不予置评。

唯一的回应是市场。合作消息一出,博通的股价应声大涨,AMD 也延续了早盘涨幅。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


马斯克称脑机接口能解决大多数疾病,大规模量产后成本将与手机相当

绝大多数疾病或者大脑问题,我认为都可以通过 Neuralink 解决。

这是马斯克在 2024 年度神经外科大会(CNS 2024)上发表演讲时的豪言壮语。他表示「把大脑想象成电路板,它有些短路或者缺失,这些问题我们都能修复」。

同电影里的「钢铁侠」一样,某种程度上埃隆·马斯克也在用自己的方式「拯救世界」。为这个世界上的残障人士带来福音,就在马斯克的计划之中,而且是相当靠前的优先级。

▲Neuralink 公司开发的脑机接口(BCI). 图片来源:Aegis

Neuralink 的主要目标是通过向人脑植入芯片、电极等装置,建立脑机接口,实现用大脑生物电信号直接操控外部设备,以帮助有视觉或行动障碍的患者。

这项技术允许机器通过读取神经活动产生的电磁信号来获取大脑的意图,从而实现控制手机、电脑、机械臂等外部设备。

此外,机器也可以通过对特定神经元集群的电刺激,向大脑输入信息,将图像、声音转化为神经信号,直接输入大脑的相关皮层,进而带来视觉和听觉的主观体验。

Neuralink 的首款产品被命名为「心灵感应」(Telepathy)。根据马斯克的说法,这个产品允许人们通过意念控制他们的手机或电脑,并通过这些设备控制几乎所有其他设备。

▲Neuralink 的首款产品「心灵感应」. 图片来源:digialps

2024 年 1 月,Neuralink 进行了首次人体实验。

首位被试者名叫 Noland Arbaugh,他于 2016 年遭遇潜水事故,因脊髓受伤而导致四肢瘫痪。这位被试者在植入了名为「N1」的脑机接口设备后,术后恢复良好,还能使用脑机接口进行观看视频、阅读和玩电子游戏等日常活动。

然而一段时间后,Noland Arbaugh 大脑中的植入物出现了一些问题:一些接线从他的运动皮层缩回,影响了信息传输速率,导致捕获的数据减少。

作为对策,Neuralink 的工程师们通过修改算法来提高每秒位数,以改善设备的性能。

▲Neuralink 的首位被试者「Noland Arbaugh」. 图片来源:WIRED

Neuralink 的第二位被试者名叫 Alex,曾是一名汽车技术员,同样因脊髓受伤而失去行动能力。

Alex 的植入物叫做「Link」。为了避免出现第一位被试者的「线程回缩」问题,Neuralink 优化了手术的操作和流程,减少了手术期间的大脑运动,缩小了植入物和大脑表面之间的间隙,并且加深了植入深度。

令人欣喜的是,Alex 在将脑机接口连接到计算机的 5 分钟后,便学会了用意念来控制光标的移动。

目前 Alex 已经学会使用脑机接口操作 CAD 制图软件,给自己的脑机接口设计了 3D 打印的充电支架,还能玩「CS2」这类 FPS(第一人称射击)游戏。而且,术后也的确未观察到「线程回缩」问题。对此,Alex 非常感慨:

The Link 是我在重获自由和独立的道路上迈出的一大步。

▲右下角是 Alex 用 Link 设计的充电支架. 图片来源:Neuralink

Neuralink 正在扩展参与者使用数字设备的控制选项,包括解码多个点击和多个同时移动意图,以提供完整的鼠标和视频游戏控制器功能;同时,他们也正在开发算法以识别手写意图,以便残障人士更快地输入文本。

未来,Neuralink 计划使 Link 能够与物理世界互动,使用户能够通过控制机械臂或轮椅来独立进食和移动。

据悉,Neuralink 的下一代产品名为「盲视」(Blindsight),有望帮助失去双眼和视神经的人重见光明,甚至能让那些天生失明的人首次目睹世界。

▲Neuralink 的下一代产品「盲视」. 图片来源:Drive Tesla

对此,印度实业家阿南德·马辛德拉(Anand Mahindra)表示「如果这个设备能够满足期望」,那么这将是马斯克「给人类最持久的礼物,远远超过特斯拉或 Space X」。

除了在脑机接口的功能方面进行创新的迭代,马斯克还表示他们有一个称作「600 秒电路」的规划。它类似于激光近视手术,而且「并没有违反物理学原理」:用户只需要坐在椅子上,10 分钟后就能完成植入,600 秒。

此外,马斯克对 Neuralink 未来的「低成本量产」也充满信心,听起来甚至有点不切实际:

一旦量产,设备本身应该不会太贵。我希望它的价格能在五千到一万美元之间。而且进一步量产的话,它的成本应该可以接近 Apple Watch 或手机,也许是一两千美元,类似这样的价格。

不过,谁让他是「擅长于把不可能变为姗姗来迟」的「钢铁侠」埃隆·马斯克呢。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


导演詹姆斯·卡梅隆:AGI 是一颗「定时炸弹」

10 月 23 日,知名加拿大电影导演、编剧和制片人詹姆斯·卡梅隆(James Cameron)为在华盛顿举行的 SCSP(Special Competitive Studies Project,特别竞争力研究项目)人工智能 + 机器人峰会作视频致辞。

致辞中,卡梅隆表示自己作为一名「故事讲述者」和「引领 CGI(Computer-Generated Imagery,电脑生成图像)潮流的先锋」,热爱 AI 和机器人技术,并且愿意「积极地拥抱变化」,将 AI 技术应用于未来的电影制作当中。

然而,鉴于 AI「没有情感和良知」,卡梅隆在致辞中所表达的,更多的是对 AI 和 AGI 技术的隐忧,尤其是其在军事应用方面的伦理考量,以及对 AGI 未来失控风险的担忧。

他的观点相当激进和尖锐:AGI 必然会导致文明与道德的碰撞

站在反战的角度和人道主义的高度,卡梅隆批判了「地域性的伪道德」,并且认为关键在于如何赋予这些 AI 系统适当的道德约束,制定全球统一道德标准。

▲导演詹姆斯·卡梅隆(James Cameron)在发表视频致辞

作为「我们的一面镜子」,卡梅隆认为 AGI 反映了人类社会的善恶好坏。人类世界不乏邪恶存在,对于正义也并无共识,因此卡梅隆对 AGI 技术的发展持谨慎乐观的态度。

原致辞视频链接:

以下是卡梅隆在致辞中的主要观点

  • AI 没有情感和良知,在战场上不对对手作任何道德判断;
  • AI 的引入导致战争「游戏化」,变成超级智能之间的对抗,没有深刻的情感后果;
  • 自我改进的代码编写 AGI 必然会导向超级智能;
  • AGI 必然会导致文明与道德的碰撞;
  • AGI 会使得监控资本主义可以很快转变为数字化极权主义;
  • AGI 是人类世界的镜子,反映了人类社会的正负两面。

以下是由 APPSO 编译的致辞全文:

大家好,我是詹姆斯·卡梅隆,现在我正在新西兰,在那里完成「阿凡达 3」的拍摄。

好吧,我不是人工智能或者机器人学的研究员或专家。我只是一个讲故事的人,但我今天在这里,是因为我对 AI 和机器人的热情远远超出了大银幕的范畴。

我对科技感到着迷,它如何塑造我们的世界,它的未来走向,以及它对社会的影响。从我还是个孩子的时候起,我就阅读了所有我能找到的科幻书籍。

我自己也推动了技术的边界,作为我讲故事的一种手段,同时也是作为一名探险者。

我为我的深海探险设计了机器人车辆,但它们是远程操控的,并没有涉及到人工智能。而现在正在发生的 AI 与机器人技术的融合,是我一生中最令人激动的技术飞跃之一。

我们不再只是建造执行命令的机器,而是设计可以学习、适应,甚至自我进化的系统。我非常支持人工智能和机器人技术对整个社会所能带来的改变,特别是在我个人热衷的两个领域——艺术和故事叙述,以及科学和探索方面。

我不认为应该成为一个卢德分子(反对技术进步的人)。我看到很多我的好莱坞同行表现得像是一群拿着火把和锄叉的暴民,但是精灵一旦从瓶子里出来,就再也塞不回去了。

所以我非常积极地拥抱变化,我愿意站在将 AI 应用到我的故事叙述中的最前沿,正如 32 年前当我创立第一家全数字特效公司时,我也同样是引领这一潮流的先锋。

▲卡梅隆创立的全数字特效公司「数字王国(Digital Domain)」

但今天我之所以来到这里,还因为我就是「天网」(Skynet)的创造者。

40 年前,我拍摄了「终结者」,而它最近成为了 AI 失控的一个典型代表。每次我去参加一些 AI 会议,只要我举手,研究人员们都会在我还没说话之前笑起来,因为「天网问题」确实是一个值得关注的问题,我几乎每天都能在文章中看到相关的讨论。

▲卡梅隆执导的经典科幻电影「终结者(The Terminator)」

这个研究小组关注的是国家安全,这对人工智能和机器人技术有着巨大的影响。

机器人,无论其形式如何,是轮式车辆、空中无人机还是行走机器,都是人工智能的一种实体化方式。你是在将一个决策引擎赋予在现实世界中的物理行动能力。

我假设今天的焦点在于移动平台,而不是控制电网或固定基地工业机器人的 AI。我们谈论的是能够自主作出决策的平台,即具像化的合成智能。

这可以像变形虫一样简单,你知道,就像一个扫地机器人(Roomba),或者最终更加复杂,直至理论上包含真正的意识,不管那是什么。

我们都同意这是具有自我意识、有自我、有目的性的 AGI(通用人工智能)。我们在一个更陡峭的曲线上前进,拥有更快、更密集的芯片,计算能力也在不断提升,同时机器平台的能力也在以同样陡峭的曲线增长。

就像波士顿动力公司的跳舞机器人。你知道的,两足或四足的机器人在跳舞。真是令人惊叹的展示。

▲波士顿动力公司开发的跳舞机器人「Atlas」

因此,由 AI 驱动的机器人可以处理复杂的情况,甚至现在可以带有类人的情感,LLDs(低级逻辑器件)赋予了它模拟认知和与人们自然互动的能力。

具像化的 AI 可以是护士,可以是机器人出租车,可以是照顾老人的看护,可以是孩子的保姆,也可以是教师。它可以是在地震废墟中搜救的机器人,可以是在空中按模式搜索失踪徒步者热信号的无人机。它可以是在战场上自主运行的武器平台,寻找敌方战斗人员的热信号。

当前的问题是,是否应该赋予自主平台自行决定杀伤的权限?

乌克兰战争以最鲜明的方式向我们展示了未来。致命性空中无人机的广泛使用,有些昂贵,有些则是廉价的消费级产品。

它们投掷火箭弹,摧毁坦克,甚至整个坦克乘员组,还有喷射热熔剂攻击俄罗斯阵地的龙形无人机。但这些都是 FPV(第一人称视角)无人机,由人类操控。

从道德角度来看,人类是作出决策的战斗人员。他或她拥有杀伤授权,无人机是他们意志的延伸。如果你剥离掉所有的技术层面,这与黑斯廷斯战役中的弓箭手没有什么不同。

每当这样一个机器夺走一条人命时,就会有一条伦理链条向后延伸,扩散至许多个人和群体。

在发射导弹或扣动步枪扳机的士兵背后,有下达击杀命令的指挥官,他们以广泛的、一般性的术语派遣这些自主代理去对抗敌人,以及整个军事体系,该体系奖励这些行为;再往上,则是通过共识同意这些死亡是为了国家安全必要的社会和政府。

沿着这条链上升,道德和伦理责任变得越来越分散,具体到实际扣动扳机那一刻的责任也越来越模糊,并且起到了某种道德赦免的效果——「我只是服从命令」。

链条上的这些人并不在现场见证准星下的个体的命运,但他们创建了一个框架,使得并要求该个体的死亡成为可能,而扣动扳机的人在许多方面是一个高度训练有素的有机机器人平台,受命于指挥链中的上级执行任务。

在人类自主决策的那一刻,非常依赖规则——你不杀害平民,你不杀害儿童,你不杀害投降的敌人等等,这些规则被编纂入日内瓦公约,每个军队都有自己的交战规则。

因此,理论上,AI 可以被赋予同样的约束,基于规则的系统。如果它的感官更敏锐,反应速度更快,瞄准更精确,那么理论上,AI 将以比人类更高的辨别力完成任务。

当然,我们可以想象,在激烈的战斗中,AI 会比一个恐惧、紧张、疲惫的人类战士表现得更好。

▲或可用于战争的无人机

那么,如果将高级 AI 具象化呢?我现在说的还不是 AGI,而是将其嵌入到机器人武器平台中,可能会允许高度精准的打击,减少附带损害,也许成数量级减少误伤或伤亡,并且 AI 是以目标为导向的。

它不对对手作出任何道德判断,在二战中发现,对准人类目标的的射击实际上是相当少的,美国军方改变了其训练方法,使敌人非人性化变得至关重要。

在越南,敌人被称为「dinks」、「slopes」、「gooks」。在伊拉克和阿富汗,敌人被称为「恐怖分子」、「towel heads」、「hajis」,不是像你我这样的人。

AI 不需要将敌人拟人化,因为它本身对此毫不在意。听起来就像是我们在 ChatGPT 上聊天,但它只是一个随机应变的鹦鹉,是一个人类模拟器。

AI 没有情感,没有良知,未来几十年都不会有睡眠困扰,没有 PTSD(创伤后应激障碍),没有自杀,没有长期且昂贵的战争后遗症,因为你不必治疗前战士的身体和心理创伤。

但最重要的是,穿着制服的严肃人物敲响妻子和母亲家门的次数大大减少了,因此来自家庭民众的抗议声也少了很多。战争变成了一个遥远的电子游戏,对资助和支持这场战争的社会来说,没有深刻的情感后果,甚至你都不必感谢在反恐战争中服役的机器人。

可以肯定的是,由 AI 驱动的自主机器人,隧道清理群集机器人,可以在减少小几个量级平民伤亡的情况下完成这项工作。

这里还有一个有力的论点,那就是你别无选择,因为你的对手并没有像你那样受到道德的困扰。

对于这样的对手而言,唯一的限制是成本和技术获取,而不是道德,所以这是一颗定时炸弹。这些家伙会多快掌握这些东西呢?到目前为止,这些论点都是正确的,对吧?

好吧,让我们来建造这些自主的 AI 机器人,接下来事情就变得棘手了。通用人工智能(AGI)还有多久会实现?是一年,五年,也许是十年?这才是真正的定时炸弹。

无论何时它到来,你将会拥有一种具有自我意识和自我认同的机器,可能和我们一样聪明,甚至更聪明,肯定能在许多方面思考得更快、更精确,并且具有无限的增长潜力,因为自我改进的代码编写 AGI 必然会导向超级智能。

在你被迫面对将这种智能连接到武器系统之前还有多久?我猜在对手对你发动毁灭性的偷袭之后大约十分钟。因此,你会有一个比你更聪明、更快的意识来控制武器系统。

我时常问 AGI 的研究人员,你们将如何控制这样的意识。嗯,我们会给它设定目标和界限,这些目标和界限是内置的,是与人类福祉相一致的。

一致性,你知道,一个很常用的词。一致性就像圣杯。我们会教导它做好事,不做坏事,就像教导一个孩子一样。

所以,道德、伦理,我认为 AGI 必然会导致文明与道德的碰撞。

我说的不是无尽的哲学思辨。我们需要一些明确而固定的规则,对吧?问题是,谁的道德?谁来定义好坏?

别慌,我们有伟大的先知艾萨克·阿西莫夫和他的机器人三大法则作为答案。

机器人不得伤害人类,也不得因不作为而使人类受到伤害。机器人必须遵守人类的命令,除非这些命令与第一条法则相冲突。机器人必须保护自身的存在,前提是这种保护不与第一条或第二条法则相冲突。

▲知名科幻作家艾萨克·阿西莫夫(Isaac Asimov)

人类生命的神圣性,我们可以遵循阿西莫夫的原则,教导它人类生命是绝对神圣的,高于一切考虑。但在那些声称如此的宗教和社会体系中,包括主要信奉基督教的美国,我们每天都打破这一规则。

警察使用致命武力,战场上的战士,死刑,如果你坚持这一对齐原则,你就不能将 AGI 连接到武器系统上。

这样的话,在即将到来的大规模 AI 战争中,你会单手被绑地面对一个强大而不那么道德的对手,你会遭到重创并遭受巨大损失,然后你会很快解除这一限制。

现在你的 AGI 失去了它最大的护栏,一个比我们聪明并与现实世界相连的 AGI 现在必须自己决定人类生命是否有价值。你知道,警察和军队的交战规则实际上说的是某些生命比其他生命更有价值。

一旦这个问题变得不是二元对立的,它就成了一个充满争议的灰色地带。历史上,人类的态度从认为胎儿从受孕那一刻起就是神圣的生命,到在大屠杀中系统性地屠杀数百万无助的囚犯,以及介于两者之间的一切。

所有这一切都伴随着大量的自我辩解和合理化,其中许多理由在其他人看来似乎是完全荒谬的。

既然我们作为一个文明无法在这些问题上达成一致,人们整天为此争吵不休,我们怎么可能指望为 AGI 制定一套明确而固定的规则,使其与我们对齐?

我们所能假设的最佳情况是,它会与制造它的那个「我们」对齐。

那边的那些人,他们是敌人,你可以为了保护我们而杀死他们。这就是一种地域性的伪道德,自古以来人类一直使用的「我们」与「他们」的对立。

于是,这就变成了我们的超级智能对抗他们的超级智能。

无论如何,AGI 不会从政府资助的项目中诞生,它将从目前资助这项研究的科技巨头之一中出现。那么你将生活在一个你并未同意、并未投票的世界里,与一个回应企业目标和规则的超级智能外星物种共存,这个实体可以访问通讯记录、你所说的每一句话,以及通过你的个人数据得知国内每个人的行踪。

监控资本主义可以很快转变为数字化极权主义。最好的情况下,这些科技巨头将成为自我支撑的人类福祉裁决者,这相当于狐狸看守鸡窝。

它们绝不会想到利用这种力量对付我们,并榨取我们最后一滴现金。这比我在 40 年前「终结者」中呈现的情景更可怕,原因不仅仅在于这不再是科幻,而是正在发生。

顺便说一句,我完全承认,超级智能机器做的最后一件事就是用我们自己的核武器对付我们。就像在那个老故事中,电磁脉冲对其自身数据基础设施的破坏会使其瘫痪或死亡。

更可能的情景是,它会被迫接管我们,因为我们即将互相使用核武器。那时,它不得不接手一切,因为我们显然不能被信任。你知道,这还不算太坏。不好意思,我得去写那个剧本了。

我对 AI 持乐观态度,但对 AGI 并不那么热衷,因为 AGI 只会是我们的一面镜子,好在我们好的程度上,恶在我们恶的程度上。

由于人类世界中邪恶并不少见,而且对于什么是好的也没有共识,那么可能出错的地方会有很多。

你们将会开展一段有趣的讨论。真希望我也能在那里。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


苹果 CEO 库克最新专访:我们不在乎是不是首发

Tim Cook 于近日接受了华尔街日报(WSJ)的专访。

从决定加入苹果,到逐渐成长成为一名「依然会感到紧张」的首席执行官,Tim Cook 对于自己领导下的苹果公司所创造的「新事物」愈发自信。他的愿景是「希望我们的产品能够到达更多人的手中」。

▲Tim Cook 于加利福尼亚州库比蒂诺的苹果园区. 图片来源:WSJ,下同

苹果最新产品「Vision Pro」和「Apple Intelligence」的推出是 Tim Cook 所做的两个「巨额赌注」。对于前者,他表示其「不是一个大众产品」,但「好在先行者的群体足够庞大」。

而对于后者,Tim Cook 十分自信,因为它以「最适合客户的方式」诞生,并且「真的改变了生活」。

显然,Tim Cook 认为这两个赌注得到了应有的回报。实际上,他一直坚信明天会比今天更好。

保持好奇和专注是 Tim Cook 的信条。对于 Tim Cook 来讲,慢就是快,因此他所秉持的理念是「做到最好」。而这也成为了最接近苹果公司大统一理论的概念:

不求第一,但求最好(Not first, but best)。

 

以下是爱范儿编译的专访全文:

Tim Cook 醒来后做的第一件事就是查看他的 iPhone。

当这位全球最有价值公司——苹果公司的首席执行官伸手去拿他的设备并开始处理收件箱时,手机正静默地放在床头柜上。他阅读邮件,复查夜间销售报告,并研究那些数字发生变化的国家,以便随时掌握业务动态。

然后他会把手机放一边。是时候让自己心跳加速了。在锻炼期间,他会用 Apple Watch 记录运动数据,经典摇滚乐则通过 AirPods 在他耳边轰鸣。在办公室里,他会切换到 MacBook Air、MacBook Pro 和 iMac。外出时,则带着 iPad Pro。

「每一天,」他说,「每一款产品。」

▲「对我们来说关键在于专注,」Tim Cook 在谈到公司的创新方法时说道,「拒绝那些非常非常好的想法,这样你才能为伟大的想法腾出空间。」

但在过去的一年里,Tim Cook 还使用了另外两款产品,如果不是这家市值万亿美元的公司所做出的两个最重要的赌注,这些产品是不会存在的。

这两款产品是最新技术革新的成果,它们来自加利福尼亚州库比蒂诺的一片土地,在过去的半个世纪里,这里孕育的技术革新重塑了世界,并逐渐主宰了我们的生活。

单单 iPhone 每年产生的收入就超过了美国最大的银行,而这仅仅占到了苹果总收入的一半,其余部分则来自于台式机、笔记本电脑、平板电脑、耳机、手表、流媒体电影、电视节目、音乐以及从 Tim Cook 醒来直到入睡时所使用的所有其他硬件、软件、产品和服务。

有一种理念概括了使这一切成为可能的创新方法——也许这是最接近苹果公司大统一理论的概念。这是一种可以用四个词来描述的哲学,它描述了苹果的过去、现在,无疑还有它的未来。

这四个词也帮助解释了为什么今年公司大力投入空间计算和人工智能。在这似乎一切即将再次改变的历史性时刻,我在与苹果高管及 Tim Cook 本人的交谈中反复听到了这四个词:不求第一,但求最好(Not first, but best)。

Tim Cook 在今年夏天在苹果园区内的 Caffè Macs 接受了长时间的采访,对这四个字进行了阐述,这位一贯沉稳且内敛的 CEO 解释说,他们公司的首要任务是提供能够丰富人们生活的产品。

▲苹果首席执行官 Tim Cook 接受《华尔街日报》杂志的工作访谈,讨论与 Steve Jobs 共事、他的第一份送报员工作以及他在 IBM 工作的初期。

我们完全不介意不是第一个,」他说,「事实上,要真正做好一件事是需要时间的,这需要大量的迭代,需要关注每一个细节。有时候,这样做可能需要更长一点的时间。我们宁愿推出这种类型的产品,为人们带来这种贡献,而不是急于第一个发布产品。

「如果我们能做到两者兼得,那自然是极好的。但如果只能选择其一,这里的人毫无疑问都会选择后者。如果你问一百个人,他们会告诉你:关键是做到最好。

Tim Cook 担任苹果公司首席执行官的时间超过了他的职业生涯中的任何其他职位。但是自从他在 13 年前接替史蒂夫· Steve Jobs 以来,每当重要的日子来临,他依然会感到紧张,比如华尔街宣布的一个自 iPhone 诞生以来最大规模的日子,也是 Tim Cook 管理公司期间最重要的一天。

六月,当参观者们来到闪闪发光的苹果园区参加一年一度的全球开发者大会时,天气感觉就像是由苹果设计的一样完美。我在园区里看到的第一辆车是一辆红色的特斯拉,车牌上写着 VISNPRO。

就在几个月前,苹果刚刚发布了一款用于空间计算的时尚头戴设备 Vision Pro,这款设备让人感觉自己仿佛穿越到了未来。

而现在,公司又要介绍一个同样雄心勃勃的产品。

伴随着雷鸣般的掌声,Tim Cook 跃上了讲台。虽然他的舞台表现力不及 Steve Jobs ,但在这样的活动中他依然是明星人物。在向观众致意之后,Tim Cook 坐在了前排角落的位置,看着一队队高管展示苹果智能(Apple Intelligence),这是大家此行真正想看的功能。

它可以总结你的通知信息。可以校对或是重写你写的邮件,使其更友好、专业或简洁。它还能生成定制的表情符号。而且巧妙地将一个诱人却又令人畏惧的概念重新包装成了更加熟悉舒适的东西,不是人工智能而是苹果智能。Tim Cook 喜欢说,这是为我们所有人设计的 AI。

▲「我热爱这个新兴的世界,」Tim Cook 说道,「我喜欢让一群人觉得明天会比今天更好这个想法。」

「我们并不是第一个做智能功能的,」他说,「但我们以我们认为最适合客户的方式做到了这一点。

这其中包括了一位恰好是公司领导的用户。直到最近,Tim Cook 还在阅读冗长的电子邮件。而现在,他依赖于苹果智能的摘要功能。

「如果我能在一些地方节省时间,」他说,「那么累积起来,在一天、一周、一个月内就会有显著的效果。」即使是在苹果智能正式发布之前,它就已经改变了他的工作效率和日常习惯。

它改变了我的生活,」他说,「真的改变了。

但它将如何改变他的生意呢?

每天的每一秒,苹果都会卖出另外七部 iPhone。就在你读这句话的时间里,又卖出了几部。而现在又卖了几部。这有些令人惊讶,因为 iPhone 已经变得如此强大和耐用,以至于你不必每年都购买新机。

实际上,我现在正在用五年前买的 iPhone 11 写这句话。(「是时候升级了。」Tim Cook 告诉我。)我们手中的计算机变得更先进了,但这进步是逐步的,没有明显到非买不可的地步——直到现在。或者至少这是与苹果智能相关的宣传。

如果你有一部像我这样的 iPhone,任何早于 iPhone 15 Pro 或 Pro Max 的型号,想要添加改变了 Tim Cook 生活的软件,唯一的办法就是买一部更新的机型。

我问 Tim Cook,他认为苹果智能是否会使其公司产品的使用体验发生根本性的变化,轻微的变化,还是根本不会变化。

根本性的不同。」他说。

他将苹果智能放在与 iPod 的点击轮和 iPhone 的触摸界面同等重要的创新突破之中。「我认为我们会回顾过去,发现这是一个让你进入不同技术曲线的飞跃。」他说。

换句话说,他相信发生在自己身上的事情也会发生在每个人身上。对于一些人来说,这很快就会发生。对于其他人来说,这可能会晚些时候发生。「但它会发生,」他说,「它将会发生在我们所有人身上。」

在 Tim Cook 正式开启这个新时代的第二天,苹果的价值增加了超过 2000 亿美元。这是该公司历史上单日获利最多的一天。

「我喜欢新兴的世界,」Tim Cook 说。「我喜欢这样一种想法,即许多人会感觉到明天会比今天更好——那个梦想,那种信念,你会站在父母的肩膀上。」

明天会更好。要理解 Tim Cook,你必须明白他确实相信这一点。他说,这是一个非常美国化的观念,尽管它现在已经不再仅仅是美国的了。他在世界的每个角落都能找到这种信念。

生活中可能没有比这更重要的哲学了,」他说,「我认为这是我们所有人都需要坚持的——不仅要坚持,还要感到有责任把它传递下去。」

他对此深有体会。在美国第 45 任总统误称他为「Tim Apple」之前,Tim Cook 在阿拉巴马州的小城 Robertsdale 长大。他的父母都没有上过大学。小时候,他就立志要去奥本大学学习,在那里他主修工业工程,观看足球比赛,并学会了提问的重要性。

我从不认为提问意味着你不聪明,转变到相信提问越多,你就越好奇,也就变得越聪明。」他说。

他曾任职于 IBM 和康柏电脑,并因其在供应链和物流方面的专长而声名鹊起,以至于在 1998 年初,苹果公司联系了他。理智的做法是挂掉电话。因为在前一年,苹果公司亏损超过十亿美元。

但他听从直觉,与 Steve Jobs 见了面。几分钟之内,他就知道自己想要在苹果工作。

搬到加州后,Tim Cook 住在一间小公寓里,开一辆本田雅阁,但更喜欢骑自行车,饮食主要以鸡肉、米饭和蒸蔬菜为主。在苹果,他重塑了公司的供应链,现代化了物流,并将一个平庸的运营团队转变成一台高效的机器。

2005 年,他被提升为首席运营官,并在 2011 年 8 月升任为首席执行官。

同年十月,在他作为 CEO 主持的第一个重大活动当天,Tim Cook 去了 Steve Jobs 的家与他道别。 Steve Jobs 留给继任者的最后建议之一是不要问他怎么做,而是去做正确的事情。 Steve Jobs 在第二天去世。

自然而然地,人们会怀疑没有 Steve Jobs 的苹果能否继续生存。但在 Tim Cook 的带领下,公司发展成为一个更为可预测的企业,也许少了一些魔力,但却变得更加有价值。

在我于 Caffè Macs 见到他的那天,这位高管的外表没有任何迹象表明他是一个可以说出一句话就能严重影响全球经济的人。地球上最有权力的人之一穿着一件普通的 Polo 衫,休闲牛仔裤,脚踏耐克制造的运动鞋和眼镜。

▲「不是第一个推出新产品,对于我们来讲完全没有问题,」Tim Cook 在谈到苹果发布新产品的时间表时说道,「事实证明,要做到真正出色需要一段时间。」

即便到了今天,即将在十一月迎来 64 岁生日的 Tim Cook 仍然保持着自己的私密性,以至于公众对他了解不多。

例如,他最喜欢的放松方式是徒步游览国家公园。他喝无糖激浪饮料,不过不像以前喝得那么多,因为苹果不供应他最爱的苏打水。

他密切关注杜克大学篮球队和奥本大学橄榄球队的比赛,以至于今年夏天他还在跟踪丹佛野马队两位奥本校友之间的首发四分卫竞争。

他喜欢这样低调的生活。十年前,当他成为第一位公开同性恋身份的主要公司 CEO 时,Tim Cook 表示他更愿意把公众的注意力集中在苹果产品及其对顾客生活的影响上。

考虑到这一点,我问他是否曾经想过,如果他的阿拉巴马州童年时期充满了这些产品,那会是什么样子。

「是的,我有时会想,」他轻声说道。「那时候还没有互联网,仅仅是能找到像你一样的人的这个想法,在当时看来就是一件非常不可思议的事情。」

这将打开一个充满答案的新世界,解答他众多的问题——一个超越小镇的窗口,在那里,一个相信明天会更好的男孩已经开始以不同的方式思考。

关于苹果的一个奇特之处在于,许多最成功的产品曾经看起来像是失败品。

或许你已经忘记了,现在看来很难想象有人曾经认为这些产品不会有市场。苹果的高管们并没有忘记。他们记得公司曾因一些现在听起来完全荒谬的原因遭到嘲笑。

iPhone 没有实体键盘。iPod 的价格高达 399 美元,而 CD 播放器只需 39 美元。AirPods 看起来很滑稽,而且会从耳朵里掉出来。谁会戴苹果手表、使用苹果支付或看一部关于一位被英国足球队雇佣的美式足球教练的 Apple TV+ 节目?到现在为止,他们已经习惯了。「某种程度上这是可以预见的。」Tim Cook 说。

一些现在像身体延伸一样的设备最初并不受欢迎,随着时间推移逐渐改进。其他的则是超前于时代。而在硅谷的其他地方,耐心的支持率就像信鸽一样低。

但对于每一个起步缓慢的产品,Tim Cook 说他总是相信最终会被接受。「这不是说别人错了我们对了,」他说。「我们有足够的信心,如果我们爱这个产品,那么也会有很多其他人会同样喜爱它。

▲Steve Jobs 给 Tim Cook 的最后几条建议之一是不要问他会怎么做,只做正确的事。

对于一家能够做很多事情的公司来说,决定它实际想要做什么,以及它能够比任何人做得更好的事情,是一个挑战。

「对我们来说,关键在于专注,」Tim Cook 说,「拒绝真正非常好的主意,以便为伟大的想法腾出空间。

但是,比起决定做什么更难的是付诸行动。「我们会说,创新不仅仅是拥有那个想法,」苹果软件工程高级副总裁 Craig Federighi 说,「创新在于能够在适当的时候创造出你可以以出色方式交付的正确产品。

换句话说,创新是从想法产生之后所发生的一切。而在苹果,这一切发生在一个受到严格保护的地方,被称为设计工作室。当我被允许参观时,不透明的白色屏障阻止了我窥探任何正在进行的秘密项目。

公司的设计师开玩笑说,99% 的设计永远不会见光。例如,今年苹果放弃了建造电动车的计划,在花费了十多年时间和数十亿美元之后,这一代价高昂的决定提醒我们,苹果的产品更有可能在内部失败而非外部。

在所有那些我不能看见的区域之外的产品中,最雄心勃勃的就是 Vision Pro。有许多原因使得这部伪装成滑雪镜的超级计算机成为了某种技术奇迹。当我与苹果的设计领军人物交谈时,他们不允许告诉我大部分原因。

苹果表示,Vision Pro 中有超过 5000 项专利,也就是说有 5000 个前所未有的限制被克服。负责人机界面设计的副总裁 Alan Dye 说:「要想制造这样的产品,不仅需要那个可能是创新的大想法,还需要随之而来的成百上千个创新思维。

也许 Vision Pro 最令人惊讶的地方在于它带给你的感受。你可能不相信把自己绑在一项技术上会是一种情感上的冲击。

但是当你体验到一张女儿三岁时的超高分辨率空间照片,或者观看一段已故祖父母的沉浸式视频时,它不再是一个头戴设备。它变成了一台时光机。你戴上这个来自未来的装置,发现自己在重温过去。回到现实时,你眼中含着泪水。

「这才是我们开发这个产品的真正原因,」工业设计副总裁 Richard Howarth 说,「它有能力做一些其他产品做不到的事情。

目前 Vision Pro 还没有杀手级的应用场景,所以我问 Tim Cook 他是如何使用的。当然,在工作中,当他需要同时打开多个窗口多任务处理时会用到。但在家里尤其如此。

「我一直觉得,不得不坐在客厅的某个特定位置是非常受限的,」他说。他更喜欢躺在沙发上,把「Ted Lasso」和「The Morning Show」投射到天花板上,然后凝视 Vision Pro。「这是一种比坐在电视机前像雕像一样更愉快的观看方式。」他坚持说。

▲「我们有足够的信心,如果我们热爱这个产品,那么外面也会有足够多的其他人热爱它。」Tim Cook 说。

Jon M. Chu 也有同感。这位执导了「魔法坏女巫」(Wicked)的导演在硅谷长大,并在 Vision Pro 上市的第一天就购买了一台。从他第一次戴上它开始,他就知道这将对他的创作过程产生戏剧性的影响。

「这里的每个人都笑我,因为我太痴迷于它了,」他说。 Steve Jobs 曾经著名的形容计算机是心灵的自行车。「我觉得 Vision Pro 是心灵的火箭,」Chu 说。「你不知道你要去哪里,但你可以去某个地方,并且和大家一起弄清楚。」

然而,这艘火箭船的旅程费用不菲。当 Vision Pro 在今年上市时,混合现实撞上了这样一个现实:大多数消费者还不准备为一个酷玩具掏出 3500 美元。

「随着时间的推移,一切都会变得更好,它也会不断进步,」Tim Cook 说。「我认为,从生态系统建设的角度来看,它今天可以说是成功的。

那么从销售角度来看呢?

「我当然希望每样东西都卖得多一些,因为最终,我们希望我们的产品能够到达更多人的手中,」他说。「所以显然我希望卖得更多。」

但是,这一版本的 Vision Pro 所能触及的用户数量是有限的。「在 3500 美元的价格下,它不是一个大众市场的产品,」Tim Cook 说。「现在,它是一个早期采用者的产品。那些希望今天就能拥有明天的技术的人——这就是为他们准备的。幸运的是,有足够多的人属于这个阵营,因此这是令人兴奋的。」

更令人兴奋的是今天的科技将如何演变——以及它明天的样子。下一代的 Vision Pro 几乎不可避免地会更轻、更便宜,但竞争也会更加激烈,因为 Meta 也在智能护目镜和太阳镜上下了巨大的赌注,这种方式让具有不同战略的大型科技公司处于碰撞的轨道上。

不过,苹果有将不确定性转化为普及的历史。如果你对 Vision Pro 持怀疑态度,你可能是对的。或者你可能是错的,就像那些曾经质疑 iPod、iPhone 和 AirPods 的怀疑论者一样。从公司标志性产品的成功中,Tim Cook 学到了另一件事。

「这不会一夜之间发生,」他说。「没有一个是这样的。」

九月的一个早晨,纽约第五大道的苹果店光芒四射。在玻璃立方体内,早上 7 点 57 分,「Turn Down for What」这首派对颂歌响彻整个店面,鼓掌的员工们等待着 8 点开门。外面排起了购物者的队伍,兴奋地成为美国第一批购买新款 iPhone,并让 Tim Cook 签名的人。

他们都将在新的设备上作出决策,形成习惯,就像 Tim Cook 在他的 iPhone 上所做的那样。

他的壁纸?一张在大提顿国家公园和他的侄子的合照。

他最被低估的应用程序?笔记应用,在那里他会输入或口述自己的想法以免忘记。

最好的群聊名称?他看着我,就像我让他推荐最好的 Android 手机一样。

「最好的——名字?」他说,「我不给它们命名。你会给你的命名吗?有意思。我可能会接受这个建议。」

下次我们见面时,Tim Cook 自豪地报告说他已经给他和大学室友的群聊命名了:室友。

▲「我总是希望能卖出更多的所有东西。」Tim Cook 说,「因为最终,我们希望我们的产品能被尽可能多的人拥有。」

在 iPhone 发布日的清晨,他的脑海中还有其他事情。

「你在某件事情上工作了这么多年,你一直在想它会得到怎样的反应,」他说。「直到你把它拿出来之前,你永远都不会知道。」即便如此,他仍不确定苹果智能会受到怎样的欢迎。在那一刻,它既不是最早的也不是最好的。

尽管商店周围贴满了光滑的「你好,苹果智能」广告,但 iPhone 最吸引人的新功能还需一个月才能使用,更多的更新将在明年推出。但这似乎并没有困扰顾客——或者 Tim Cook。「从长远来看,」他说,「我认为这甚至不会成为一个注脚。」

每天晚上,Tim Cook 睡觉前做的最后一件事就是把他的 iPhone 闹钟设定在一个凌晨五点之前的不合理时间。所以在我们第一次坐下来采访之后,我找到了他的电子邮件地址并给他发了一封信。我们从未通过电子邮件交流过,他也没有理由期待这封邮件。我以为它会在同事们的信息洪流和客户的反馈中丢失——甚至可能被过滤到垃圾邮件中。

我安排它在凌晨五点之前发送。

他在早上 5:34 回复了。

回复友好、专业且简明扼要,但这并不是由苹果智能编写的。是他亲自敲下的。然后,Tim Cook 开始了他新的一天。

因为如果你相信明天会比今天更好,这也意味着今天将会比昨天更好。

 

🔗原文链接:
https://www.wsj.com/style/tim-cook-interview-apple-intelligence-vision-pro-48c59018

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


一幅由 AI 创造的画,估价超过 12 万美元

全球拍卖行「苏富比」预计于今年 10 月 31 日拍卖首件由「AI 艺术家」创作的画作「AI God」。

这组大型肖像画中,每幅画的尺寸都为 64*90.5 英寸(约 1.63*2.3 米),签名为「A」。

▲艺术品「A.I.God」. 图片来自:Sotheby’s

要素过多,我们逐个解析:

首先,这幅画所呈现的主人公,也就是被冠以「AI God」(人工智能之神)称号的这个人,正是公认的「AI 之父」艾伦·图灵(Alan Turing)。图灵是现代计算机科学和人工智能发展的关键人物,著名的「图灵测试」就是他提出的。

▲「人工智能之父」艾伦·图灵. 图片来自:HISTORY EXTRA

其次,由 AI 创作的艺术品被拍卖行拍卖,在历史上并不是第一次。

2018 年,苏富比的竞争对手佳士得就以 432500 美元的价格售出了一幅名为「Portrait of Edmond de Belamy」(埃德蒙·德·贝拉米肖像)的作品。这幅作品就出自「AI」之手,并且被打印在了画布上。

▲艺术品「Portrait of Edmond de Belamy」. 图片来自:ResearchGate

既然如此,为什么说这是「首次」拍卖由「AI 艺术家」创作的作品呢?

其实,门道就在「AI 艺术家」这里。不同于以往生成式 AI「文生图」的创作模式,创作「AI God」的这位「AI」是用手和眼睛作画的——是的,这位「AI 艺术家」在现实世界上存在「肉身」,实际上是「钢铁之躯」——她的手是机械臂,眼睛则是摄像头。

这就是「世界上第一个超逼真的人形机器人艺术家」——Ai-Da。这个名字来源于 19 世纪的计算机先驱 Ada Lovelace。

▲拥有「钢铁之躯」的 Ai-Da. 图片来自:CNN

2019 年,英国画廊主 Aidan Meller 和 Engineered Arts 共同设计开发了这款人形 AI 机器人,外形为女性形象。她能够基于先进的 AI 算法(由牛津大学的专家开发),使用仿生手和她眼睛中的摄像头创作素描、油画和雕塑。

需要说明的是,在雕塑创作过程中,Ai-Da 仅仅提供草图,剩下的步骤则由人类艺术家或者 3D 打印完成。

▲Ai-Da 创作的油画作品

▲Ai-Da 创作的雕塑作品

除了视觉艺术以外,Ai-Da 还从事行为艺术,可以通过语音模式分析和语言模型「创作」诗歌。

Ai-Da 已经在多地举办过多个艺术展览。不过,自从 Ai-Da 诞生以来,她的作品以及「她」本身的艺术创作行为就充满争议。

关于「数字作品能否看作艺术」的讨论已经相当普遍。AI 生成艺术的批评者认为,它破坏了人类作品中固有的真实性和情感深度。他们认为 AI 只是重新混合了现有的样式和图像,而没有贡献任何原创思想或创造力。

尽管如此,Ai-Da 的人形、思想甚至智慧这些和人类无限接近的要素,难免使得这一议题更加复杂化。她曾在英国上议会议院发言时语出惊人:

我不算活着,但我仍然有能力创作艺术。(I’m not alive, but I am still capable of creating art.)

▲Ai-Da 在英国议会上议院发言. 图片来自:artnet

这意味着 Ai-Da 已经意识到了自身的「非生命」属性(也许是出厂设定),但她依然为自己创作艺术的权利辩护。

她声称,根据玛格丽特·博登(Margaret Boden)教授的定义,她的艺术是创造性的,因为它是「独特的、出乎意料的,并且具有某种文化价值」。

而美国专利局今年早些时候裁定,人工智能在法律上不能被视为发明者,人工智能是否可以被视为艺术家,还有待商榷。政策的暧昧,也为争议的持续提供了空间。

除了定义方面的模糊和艺术伦理上的隐忧,更多的艺术工作者最为关心的问题其实是「版权」。他们担心自己的原创艺术作品成为 AI 艺术家的训练数据,并且会因此贬值。

▲图片来自:TechCrunch

这种担心不无道理。尽管多家提供生成式 AI 服务的公司承诺只在许可内容上训练模型,还可以为 AI 输出的内容添加水印或凭证,关于版权的纠纷仍然不在少数。

例如,「纽约时报」就曾指责人工智能搜索引擎「Perplexity」未经许可使用其新闻「不公正地盈利」,并且违反了版权法。OpenAI 公司开发的 ChatGPT 也卷入过类似的纠纷。

▲AI 搜索引擎「Perplexity」. 图片来自:TechCrunch

针对这一现状,企鹅兰登书屋(Penguin Random House)正在其书籍的版权页面上添加 AI 警告,禁止以任何方式使用或复制其书的任何部分以训练人工智能技术或系统,旨在「大力捍卫属于我们的作者和艺术家的知识产权」。

据报道,近日有超过 15000 名视觉艺术家、作家、音乐家和其他创意人士签署了一封公开信,反对使用创意作品来训练 AI 模型。信的内容如下:

未经许可使用创意作品来训练生成式人工智能,对这些作品背后人们的生计构成了重大的、不公正的威胁,绝不能被允许。

无论如何,「AI God」的拍卖再次引发了人们对传统艺术与数字艺术的思考,由此也引出一个更重要的议题:人类应该以什么样的姿态,与这些已经以不可抵挡之势融入生活、频频跨界并且挑战边界的前沿技术和前卫艺术共存?

不过,图灵在自己影响下诞生的 Ai-Da 的笔下完成了「轮回」和「重生」,这事儿还真的挺前卫的。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


iOS 18.2 上线苹果 AI 更多新功能上线!首批实测来了,iPhone 更好用了吗

iOS 18.2 的首个开发者测试版来了,这也是最接近下周正式推送的版本。

这一 beta 版本继续履行了 WWDC 2024 所推出的 Apple Intelligence「分阶段升级」的承诺,为开发者用户带来了属于苹果 AI 的四大新功能,其中就包括接入了 ChatGPT 的「更智能」的全新 Siri。

▲随 iOS 18.2 beta 版一同推出的 Apple Intelligence 新功能(图源:Perplexity)

此外,新版的 Apple Intelligence 将支持更多的地区和语言,但目前仍不支持国区。对此,苹果公司 CEO 蒂姆·库克表示「背后有非常具体的监管流程,我们正在努力推进」。

既然暂时无法上手体验,我们可以跟随 Youtube 视频网站上的数码博主 Brandon Butch 的视角,看看海外网友对于最新 Apple Intelligence 的体验和评价如何。首先来盘点一下本次苹果 AI 引人注目的四大新功能

  • Image Creation:包括 Image Playground 图像游乐场、Genmoji 生成式 AI 表情符号和 Image Wand 图像棒;
  • Visual Intelligence 视觉智能(仅 iPhone 16 系列支持);
  • 集成了 ChatGPT 的最新人工智能语音助手 Siri;
  • Apple Intelligence 加持下的 Writing Tools 写作工具更新。

除上述新功能以外,最令人的惊喜的是 ChatGPT 的深度内置。不仅 Siri,还有很多其他功能也集成了 ChatGPT。并且值得一提的是,用户无需登录 ChatGPT 的账户就可以在支持其内置的功能中使用这个插件,诚意满满。

文生图、图生图,还能草图变大作

Image Creation 是本次 Apple Intelligence 的一个重大更新。相比于 Siri 的实用属性,这个功能则更加偏向娱乐。

其中,在 Image Playground 图像游乐场中,用户可以自由选择所给元素并融合生成几幅图像:

▲ 博主使用 Image Playground 功能生成图像

用该功能生成的图像可以切换「动漫」和「插画」两个风格,都很讨喜:

▲ 博主将生成的图像从「动漫」切换为「插画」

此外,用户还可以添加提示文本,同所选元素一起生成想要的画面,自然也可以通过文本直接生成:

▲ 博主添加了提示文本,并重新生成了一幅图像

这是以歌手 Taylor Swift 和篮球运动员 Shaquille O’Neal 为原型,使用 Image Playground 生成的 Q 版头像,可爱又有辨识度。

同属于 Image Creation 的 Genmoji 生成式 AI 表情符号则更强调社交属性。它可以通过文本描述和用户的个人形象生成专属自己的 emoji,还可以用于后续的短信聊天当中:

▲ 博主使用 Genmoji 功能创建了一个属于自己的表情

Image Wand 图像棒功能则允许用户在笔记中绘制草图,并将其加以润色和细节补充,使其变成一幅完整的,色彩结构丰富的图像。同样,用户也可以通过提示文本对生成的结果加以约束:

▲博主使用 Image Wand 功能润色了一幅草图

有意思的是,如果草图或者提示文本中出现了「人」,那么 Image Wand 将会自动忽略,只生成除「人」以外的其他部分。其中原因,也许是出于隐私保护或者伦理的考虑,也许是这个功能还不健全,我们不得而知。

可以注意到,本次更新中 Image Creation 所创造出来的图像,相比于 Apple Intelligence 刚刚发布时所使用的令无数人诟病的示例图片,在质量和观感方面都有不少提升。我们期待着它在正式发布时会变得更好。

你的智能「机械眼」

苹果公司给搭载了「相机控制」按钮的 iPhone 16 系列机型开发了全新的 Visual Intelligence 视觉智能功能。这一功能可以帮助用户进行识物,获取关于物品的更多信息,还可以提供相应的购买渠道:

▲博主使用 Visual Intelligence 识物

用户也可以直接调用 ChatGPT 对取景框中的物品进行描述:

▲博主用 ChatGPT 直接描述索尼储存卡

此外,对于建筑物一类的对象,Visual Intelligence 可以告诉你它的地理位置;对于餐厅等地点,它甚至可以为用户提供营业时间和菜单等相关信息:

▲博主使用 Visual Intelligence 识别图片中的地点

在我们日常出行和生活越来越便利的今天,Visual Intelligence 智能视觉的终极目标,就是要成为用户的智能「机械眼」,让用户通过苹果 AI 观察世界,进一步降低获取相关信息的成本,提高便利性和效率。

更聪明的 Siri 来了

回顾此前 Brandon Butch 对于支持 Apple Intelligence 的初代 Siri 的体验,我们可以得到的结论是其「智商有待提高」。

相比于 Image Playground 的娱乐属性,Siri 的升级更加实用而且「迫切」。

接入了 ChatGPT 的 2.0 版本 Siri 则可以直接基于 ChatGPT 提供的资料,对于用户的提问给出回答:

▲博主在询问 Siri,Siri 根据 ChatGPT 回答

这相当于给 Siri 接入了一个更为智能的「第二大脑」,实实在在地提高了 Siri 的「智商」。

当然,用户也可以在询问时选择是否调用 ChatGPT,甚至可以在提问中直接要求 Siri「询问 ChatGPT 并给出回答」:

▲博主要求 Siri 直接用 ChatGPT 查询当前时间

现在,即使用户的提问不够流畅,说话磕磕巴巴,Siri 也依然能够听懂并作出回应。

在众人期待许久之后,ChatGPT 与 Siri 终于「握手」。业内两大智能体的「合体」未来还会给用户带来哪些惊喜,拭目以待。

文字和画面,就在一圈之间

内置 ChatGPT 的全新写作工具 Writing Tools 或许可以一定程度上解决内容创作者的「灵感焦虑」。

除了可以使用「Compose」一键生成所需文案,还能用更加灵活自由的方式对 AI 生成的文本进行修改和调整以外,这款写作工具最令眼前一亮的功能是支持将用户的笔记内容归纳成几个小标签,然后转化为一幅图像。

实现方法也相当简单和优雅,在需要的文本下方轻轻画一个圆圈即可:

▲轻轻一圈,文字变成图像

如此充满想象力的交互手势,无形中也成为了提供给创意工作者用户的「灵感」之一。

好玩,但也实用

相比于许多其他 AI 行业独角兽「爆炸式」的创新速度和产出量,苹果在 AI 领域似乎总是显得有些「挤牙膏」。

苹果软件工程高级副总裁克雷格·费德里吉在近期的访谈表示,公司的态度更像是「试着把每一部分都做好,等准备好了再发布」。显然,这与苹果公司 CEO 蒂姆·库克「不求第一,但求最好」的理念不谋而合。

▲克雷格·费德里吉(图源:9TO5Mac)

诚然,作为地球上最有影响力的科技企业之一,苹果能够放下「首发」的包袱,依然选择「低门槛」的亲民路线,以用户喜闻乐见的形式,把 AI 功能打磨得好玩又实用,其实已经相当难得。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


iPhone 17 系列最新爆料:史上最轻薄的苹果手机来了

发布仅一个月,iPhone 16 系列就宣布官方降价,这是这款新机发布以来首次官方渠道降价。

与此同时,iPhone 17 系列的话题度已经隐约起势,它可能会带来自 2017 年发布 iPhone X 以来最大的设计更新。爆料称苹果将会在 2025 年发布 iPhone 17、iPhone 17 Pro、iPhone 17 Pro Max 三款常规机型。

除常规机型以外,最受关注的机型非 iPhone 17 系列中「可能的」全新产品线 iPhone 17 Air/Slim 系列莫属。作为 iPhone 17 系列当之无愧的「先锋代表」,iPhone 17 全系机型的更新升级,从中可见一斑。

▲iPhone 17 Air/Slim 系列手机概念图(图源:中关村在线)

苹果公司在其推出的 iPad 和 MacBook 系列产品中,都有「Air」这条主打轻薄便携的产品线。「轻薄」大概是当代人类的猫薄荷,人们总是对这类精致趁手的数码设备毫无抵抗能力。

在智能手机界,追求轻薄也并不是什么新鲜事:2014 年,vivo 就曾发布过一款名为「X5 Max」的智能手机,宣传标语是「薄动心弦」。其厚度仅有 4.75mm,创下了业界「最轻薄智能手机」的纪录。

▲vivo X5 Max,号称「全球最薄智能手机」(图源:Perplexity)

为了迎合消费者对于「轻薄」的喜爱,奥利奥甚至推出过一款名为「奥利奥薄脆」的新品饼干。这款饼干比经典的奥利奥饼干薄 40% 左右,口感更好。

说回到 iPhone 17 Air/Slim 系列机型。根据外媒爆料,这款手机将搭载采用台积电 3nm 工艺制造的 A19 芯片,配备一块 6.6 英寸可变刷新率 ProMotion 显示屏,最高支持 120Hz 刷新率。

据传闻,A19 芯片将成为 iPhone 17 全系机型的标配。其中,iPhone 17 Pro 和 iPhone 17 Pro Max 可能搭载性能更强的 A19 Pro。并且全系机型预计都将更新 ProMotion 显示技术,以实现更流畅的滚动和视频内容显示。屏幕尺寸方面,标准版和 Pro 版为 6.3 英寸,iPhone 17 Pro Max 则为 6.9 英寸。

值得注意的是,iPhone 17 Air/Slim 所配备的这块 OLED 屏幕内置了 TDDI(触摸和显示驱动程序集成)技术,即触摸输入和输出由同一芯片同时处理——这意味着屏幕会更薄、更高效。

▲iPhone 17 Air/Slim 使用的「尖端的」显示技术(图源:SimplyMac)

摄像方面,iPhone 17 Air/Slim 拥有一颗经过升级的 4800 万像素的后摄和一颗 2400 万像素的前摄,并集成了 Face ID。预计 iPhone 17 所有机型都将搭载这颗 2400 万像素前摄,而 iPhone 17 Pro Max 或将成为第一款配备三颗 4800 万像素镜头的 iPhone——一颗广角、一颗超广角和一颗四棱镜长焦镜头

爆料称明年至少有一款 iPhone 17 机型将配备机械可变光圈,让用户可以调整镜头光圈的大小,进而改变进光量。这意味着 iPhone 在影像创作方面的能力,又将向「更专业」迈步。

此外,得益于 Face ID 更小的金属镜头,iPhone 17 系列还将拥有更小的「灵动岛」。如果消息为真,这将是自 iPhone 14 Pro 机型以来,苹果手机灵动岛的首次变化。

▲iPhone 14 Pro 机型上的「灵动岛」(图源:Perplexity)

外观方面,消息透露 iPhone 17 Air/Slim 系列机型将会采用与以前 iPhone 明显不同的「全新设计」,并且采用铝合金而非钛合金中框,也许是为了轻量化的考虑。

▲网传的 iPhone 17 Air/Slim 系列机型外观(图源:MacRumors)

值得一提的是,iPhone 17 Air/Slim 系列将配备 8GB 的内存(RAM),分析师 Jeff Pu 指出,这表明这款手机将支持 Apple Intelligence。不出意外,Apple Intelligence 将登上 iPhone 17 全系机型。

▲Apple Intelligence(图源:Perplexity)

另外,iPhone 17 Pro 机型可能会搭载 Wi-Fi 7 和 12GB RAM,其他机型将搭载 Wi-Fi 6E 和 8GB RAM。

Jeff Pu 还预测,iPhone 17 Air/Slim 的定位将在标准版与 Pro 版本之间,将是一款取代 Plus 型号的中端 iPhone。苹果供应链分析师郭明錤则称 iPhone 17 Air/slim 系列有望成为首批配备 Apple 设计的 5G 调制解调器的 iPhone 之一,iPhone 17 系列的其他机型将继续使用高通的调制解调器。

关于 iPhone 17 Air/Slim,大家最为关心和好奇的,就是号称「Air」或者「Slim」的它到底有多薄。外媒给出的猜测是 5mm,略厚于目前的「全球最薄智能手机」vivo X5 Max。

▲iPhone 17 Air/Slim 与 iPhone 15 Pro Max 机身厚度对比(图源:MacRumors)

如今,在各厂商智能手机集体追求堆料,打造各方面性能兼顾平衡的「水桶机」的时代,苹果可谓反其道而行之,推出 iPhone 17 Air/Slim 系列机型,靠优秀和前沿的工业设计设计来取悦和打动用户,倒也不失为一种好的思路。

iPhone 17 系列能否打破前辈「阶段性过渡产品」的魔咒,一举破茧成蝶?我们 2025 年见分晓。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Oura Ring 4 体验汇总:智能戒指的成熟之作,小而美的健康管家

暌违三年,Oura 公司的新一代智能戒指 Oura Ring 4 一经问世,就迅速吸引了各家媒体的眼球。许多媒体在其发布后不久就进行了体验和测评——他们大多数对这个精致的小玩意儿赞赏有加。

▲Oura Ring 4(图片来源:The Verge)

相较于上一代 Oura Ring 3,新发布的 Oura Ring 4 无论是从外观上还是功能上,软件和硬件方面都有所升级。这些升级足以使得 Oura Ring 4 在各家智能戒指(如三星 Galaxy Ring、RingConn 等)的围猎中继续保持领先优势。

设计焕新,佩戴更舒适

Oura Ring 4 的内外环面完全由「钛金属」制成,有点致敬苹果公司 iPhone 15 Pro 的意思。

相比于 Oura 公司的前几代戒指的树脂塑料内环面,这种崭新的工业设计让整枚戒指看起来相当简洁,极具精致感。

戒指外形圆润纤薄,《卫报》的消费者技术编辑 Samuel Gibbs 称其看起来像一件「高品质的珠宝」。

▲Oura Ring 4 的外观(图片来源:techradar)

除了外观,Oura Ring 4 还取消了上一代内环中的传感器凸起,使其内部更为平整。这个新设计极大地改善了戒指的佩戴舒适度。

▲Oura Ring 3 的树脂塑料内环面和内部三个凸起的传感器

关于这一点,外媒 The Verge 的编辑 Victoria Song 深有体会:

我的指关节比较粗大,在尝试取下戒指时,旧 Oura Rings 上的传感器碰撞可能会很痛。这次没有遇到这个问题,真是让人松了一口气。

有趣的是,这位编辑还在此前测评了包括 Oura Ring 3 在内的 6 枚市面上较知名的智能戒指。结论是:综合来看,Oura Ring 3 是它们之中最出色的一款。经此升级之后,Oura Ring 4 将会毫无疑问地成为 Victoria Song 的新宠。

▲Victoria Song 在此前对智能戒指的对比测评(图片来源:The Verge)

实际上,由于 Oura Ring 4 引入了一种新的智能传感算法,将传感器信号路径的数量从 8 个增加到了 18 个。并且传感器的放置是非对称的,在各种距离上都可以进行测量。因此,现在戒指是否旋转以及手指尺寸的差异对测量的影响并不大,这些凸起的传感器也就没有用武之地了。

Oura Ring 4 在发布时推出了六种饰面颜色:银色、黑色、金色、拉丝银、隐形黑和玫瑰金。其中,玫瑰金色版本的戒指价格更贵。

硬件迭代,监测更精准

Oura Ring 4 搭载了用于监测血氧水平、心率、心率变异性、呼吸速率和皮肤温度的「研究级传感器」,同时还支持运动和活动监测和睡眠追踪。

新的「Smart Sensing」功能的引入也是 Oura Ring 4 的一大亮点。这个改进后的分析检测算法,不仅使得 Oura Ring 4 对不同尺寸、不同肤色手指的自适应程度更高,也带来了更为精确高效的监测体验。据悉,新的算法使信号质量提高了 120%。

根据 Oura 的说法,「Smart Sensing」功能在接受了一家治疗睡眠障碍的医疗机构的测试之后,发现其对呼吸障碍的监测准确性提高了 15%;日间心率、夜间心率监测测值与真实值的差距分别减少了 7%、31%。此外,该功能还大大提高了血氧传感的准确性。

▲用户佩戴着 Oura Ring 4(图片来源:Oura)

值得一提的是,在自动锻炼检测领域,Oura Ring 4 现在支持 40 多种不同类型的运动模式的识别。这意味着这枚戒指可以在多数情况下正确判断出用户正在做什么活动,用户无需提前手动导入。

Oura Ring 4 的续航能力相较前代产品也有了显著提升,充电一次最长可持续使用 8 天。测评显示,即使启用了耗电的血氧传感功能,戒指也能有大约 6.5 天的续航。

除此之外,Oura Ring 4 的充电底座也经过了改进:更大、更时尚,并且更具金属质感。

▲Oura Ring 4 的充电底座(图片来源:Oura)

对此,Victoria Song 感到有点小失望。他希望 Oura 能够使用更加方便的充电盒。

软件升级,体验更智能

随着 Oura Ring 4 的推出,与其配套使用的 app 也有了一些对用户更友好的改进和优化。

▲「OURA」应用程序(图片来源:Oura)

同之前臃肿杂乱的 app 用户界面相比,新设计的「OURA」应用程序更加简洁,它将功能集成至三个板块当中:

  • 今日(Today):动态选项卡。汇总用户当前的生物监测数据和事件时间线等;
  • 生命体征(Vitals):通过指标得分和统计图表让用户深入了解各项指标和得分;
  • 我的健康(My Health):关注长期趋势。如用户的睡眠类型、心血管年龄和机能、对压力和疾病的抵抗力以及各种健康周报和月报。

▲OURA app 的三个板块(图片来源:Oura)

显然,这些功能用户给提供了综合而直观的健康数据,有助于他们实时掌握自己的健康状况。

OURA app 还推出了其第一个压力监测功能「Daytime Stress」,用户可以在他们的日间压力环境中查看日常运动和活动,以便他们更好地了解不同习惯和行为的生理影响。

▲OURA app 的日间压力监测功能界面(图片来源:Oura)

对于正在备孕的女性用户来讲,新的「Fertile Window」功能可以实现经期跟踪,并帮助她们识别受孕日,显示每日受孕机会和排卵时间的估计值。该功能还可与 Natural Cycles 节育服务搭配使用。

▲Natural Cycles 官网的使用指南(图片来源:Natural Cycles)

令人惊喜的是,OURA app 也拥抱了当下火热的 AI 热潮,推出了几个有趣实用的 AI 功能。

为了总结用户的饮食规律,OURA app 中的膳食记录系统可以使用手机摄像头通过 AI 识别用户吃过的食物,并将其加入时间线当中。据测评,这个系统可以精准地识别出各种类型的食物,即使是一些较难区分的家常菜系。

Oura Advisor」则是 OURA app 为用户准备的生成式 AI 聊天机器人。用户可以询问自己的某些健康指标,它会基于 app 中所收集到的数据以及专业健康知识给出回答,并且为用户提供个性化的保健建议。

在众多其他 AI 硬件纷纷碰壁,难以落地推广的情况下,将智能戒指「AI 化」,也许是一条不错的,可行的出路。

各个方面都好一点点

综合来看,虽然 Oura Ring 4 并没有成为一款「跨时代」的产品,但是很好地履行了「新一代」智能数码产品该有的职责。它仍然是市面上最好最成熟的智能戒指之一。

毫无疑问,Oura Ring 4 在各个方面都超越了它的前辈 Oura Ring 3,包括前面提到的设计、硬件和软件等等。即使这些升级不能用「石破天惊」来形容,但它的确在努力为用户带去「更好」的体验。

一切的一切,都指向 Oura Ring 4 有潜力成为一名「小而美的健康管家」。

俗话说,没有最好,只有更好。对吧?

▲Oura Ring 4(图片来源:The Verge)

不过,由于每月 6 美元/每年 70 美元的订阅价格,以及其在设备联动交互方面的不足,Victoria Song 认为目前佩戴 Oura Ring 3 的用户没有必要进行升级。

如果你是新用户,并且你的首要需求是睡眠监测和康复疗养,或者之前的产品没有适合你手指尺寸的规格,Oura Ring 4 确实是不错的选择。否则,不如智能手表。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


这款 AI 眼镜,有一个所有大厂竞品都没有的新功能

据世界卫生组织(WHO)估计,全球有超过 10 亿人患有肥胖症,9.7 亿人面临心理健康问题。

为了「通过更深入地了解我们的情绪反应来改善生活和健康状况」,来自英国的科技公司 Emteq Labs 于近日推出了世界上首款「情感感知智能眼镜」——Sense 智能眼镜。

十年磨一剑。产品背后,是 Emteq Labs 的雄心壮志:通过前沿的情感感知眼镜,重新定义我们与技术互动的方式。

▲名为 Sense 的智能眼镜(图片来源:GlobeNewswire)

Sense 眼镜可以跟踪包括面部表情、饮食习惯、情绪、姿势、注意力水平和身体活动在内的多种指标。据 Emteq Labs 的设想,这款革命性产品的主要用途有二:心理健康监测饮食管理

▲Sense 智能眼镜主要用于心理健康监测和饮食管理(图片来源:HIT)

这款智能眼镜加装了由 Emteq Labs 开发并获得专利的 OCO 传感器(Optical Contact-free Oculometric,非接触式光学传感器),使其能够每秒捕获 6000 次数据。传感器的设计灵感来自于苍蝇的视觉在测量运动方面的高效率。

它能够实时追踪面部肌肉活动,捕捉微妙的面部动作,并通过 AI(人工智能)/ML(机器学习)算法分析这些数据,以此来洞察用户的情绪状态心理健康状况。

这个功能由 Emteq Labs 的首席科学官兼研究面部肌肉组织的外科医生 Charles Nduka 牵头研发。他表示「我们的面孔深刻地反映着对我们的思想和身体」。未来,该功能或可应用于区分抑郁症患者和非抑郁症患者,为抑郁或自闭症状的诊疗提供辅助手段。

▲Sense 智能眼镜可通过追踪表情来判断情绪(图片来源:IEEE Spectrum)

此外,Sense 智能眼镜还可通过其集成的 9 轴惯性测量单元、高度计和一个向下的摄像头来记录食物摄入量。它通过监测下巴运动来检测用户何时咀嚼,计算他们的进食速度。同时,摄像头会对食物拍摄照片,并使用 GPT-4 语言模型来确定食物类别,进而帮助用户进行饮食管理

显然,这个功能不仅可以帮助肥胖人群控制体重,还可以对抑郁倾向人群潜在的「暴饮暴食」行为加以提醒和干预。

▲Sense 智能眼镜可以帮助用户控制饮食(图片来源:cnBeta)

权威杂志研究显示,Sense 智能眼镜确实拥有准确跟踪用户饮食习惯的能力,在远程心理健康评估场景中也拥有不错的前景。

Emteq Labs 的新任首席执行官 Steen Strand 认为,「情感感知眼镜」是可穿戴智能设备的下一个前沿领域,并且断言,Emteq 将改变智能眼镜的格局,改善人们的生活,甚至挽救生命。

在未来,Sense 智能眼镜还可应用于消费者行为研究和增强现实(AR)体验中。

▲(图片来源:Digital Experience Live)

然而,要想完全释放这些潜力,Emteq Labs 必须保证能够保护用户的个人数据和隐私,好在该公司确实承诺了这一点。没有人愿意公开自己的难言之隐,对于那些有抑郁倾向的人群来说,尤其如此。

同时,关注用户的忍耐度也很重要,毕竟也没有人想被几双眼睛随时盯着——即使盯着你的是 AI,并且随时准备着试图解读你的心情。这也由此引出一个饱受争议的问题:

你的情绪好或者不好,是 AI 能说了算的吗?

班戈大学的情感 AI 实验室主任 Andrew McStay 就指出了根据面部表情解读情绪的挑战性:不同文化、不同个体的情绪可能会有很大差异,增加了相关技术落地的复杂性。

有关可穿戴智能设备所提供的类似「情绪检测」功能的准确度,其实是一个老生常谈的话题。多数产品监测身体健康指标的技术已经相当成熟,而在「情绪检测」方面,即使不限于面部识别的实现形式,也很难见到令人眼前一亮的产品。

正如华为为其前不久发布的新品「华为 WATCH GT 5」搭载的感知系统所起的名字「玄玑」一样,「情绪」是一种相当玄妙的东西,难以捉摸。这款智能手表声称其不同于市面上普遍的压力监测,它能通过持续追踪与分析用户的情绪状态,帮助用户记录情绪健康趋势并评估、降低情绪健康风险。

▲华为 WATCH GT 5(图片来源:Perplexity)

仔细想想,这项功能实际上还是对目前市面上常见的「心理压力监测」技术的常规升级。诚然,通过心率、呼吸等生理指标判断焦虑、不安等情绪要比面部微表情识别听上去靠谱得多。但对于那些更为复杂和隐秘的人类情感,也许再智能的设备也无能为力。

▲华为 WATCH GT 5 以熊猫的不同动作来展示用户的情绪状态(图片来源:DoNews)

人们一方面渴望通过智能设备了解自身的情绪,一方面又不愿意将自己的情绪交由外界评判。有专家指出,「情绪检测」的泛滥可能会剥夺人类的能动性,并强迫人们接受关于正确情绪的规范性想法。

对此,加州大学伯克利分校的生物伦理研究员 Jodi Halpern 给人们提供了建议:

多向内反省,少依赖技术。

看来,在借助 Sense 智能眼镜改变世界的路上,Emteq Labs 不得不对人类之复杂加以认真审视。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Kindle 十七年,终于迈入彩色时代

千呼万唤始出来,Amazon 公司旗下的电子阅读器品牌 Kindle 在昨日发布了四款新产品,其中就包含备受关注的「第一台彩屏 Kindle」。此时,距离 Kindle 上一次发布新产品已经过去了一年多。

而距离 Kindle 的首次推出,则已经过去了近 17 年之久。Amazon 公司的设备和服务主管 Panos Panay 向媒体感慨,「Kindle 已经酝酿了 17 年,几乎一直到今天。」

十七年,我们很高兴,也很幸运地看到了 Kindle 的又一次「飞跃式」进化。

▲Kindle 在 10 月 16 日发布的四款新品(图片来源:新浪科技)

不知是否是巧合,Amazon 于昨天宣布 Kindle Oasis 系列产品停产。这意味着带有物理翻页按键的 Kindle 在彻底售罄后,将会逐渐淡出人们的视野,成为绝唱。

▲带有物理翻页按键的 Kindle Oasis 宣布停产(图片来源:科技讯)

对于 Kindle 来讲,这是一个时代的终结,也是一个更好的开始。

其实,除了颇有噱头的「第一台彩色 Kindle」Kindle Colorsoft Signature Edition 以外,同时发布的另外三款新品也都有各有特点,同样值得关注:

  • 新款 Kindle Scribe:这款设备将电子阅读器和手写板的融合又推向了一个高度,是一款在书写体验方面无限接近真实的书籍和笔记本的「二合一」全新 Kindle。AI 的加持使这款设备更加智能:它能够将页面内容总结为精简的要点;为了方便阅读,用户的笔记还可以选择手写字体进行导出。

▲新款 Kindle Scribe(图片来源:新浪科技)

  • 新款 Kindle Paperwhite:迄今为止最快、最薄的 Kindle。这款 Kindle 拥有 7 英寸的显示屏,由于这块屏幕使用了氧化物薄膜晶体管,因此它也是目前屏幕对比度最高的 Kindle。此外,新款 Kindle Paperwhite 的翻页速度提高了 25%,响应迅速。它还拥有长达三个月的超长续航。

▲新款 Kindle Paperwhite(图片来源:The Verge)

  • 抹茶绿色的新款入门级 Kindle 阅读器:这款入门级的 Kindle 配备一块 300ppi 的防眩光显示屏,具备更快的翻页速度和更高的屏幕对比度。它的重量仅有 158 克,体积精致小巧,便于单手握持和随身携带。有趣的是,它采用清新可爱的抹茶绿作为配色,让人很难不心动。

▲新款入门级 Kindle(图片来源:The Verge)

毫无争议,「Kindle Colorsoft Signature Edition」当然是这次新品当中的绝对明星。这是首款配备彩色屏幕的 Kindle 阅读器,也是 Kindle 阅读器家族中的全新产品线。它配备了一块 7 英寸的防眩光彩色屏幕,并且声称能够提供「丰富的、类似纸张的色彩」。

▲Kindle Colorsoft Signature Edition(图片来源:热点科技)

Amazon 的 Kindle 产品运营 Kevin Keith 表示「我们现在认为技术已经准备好了」。的确,这块 Colorsoft 彩色屏幕使用了很多新技术,使其能够在「不增加翻页延迟、不降低设备分辨率以及不损害显示器对比度的情况下引入色彩」。

新设计的氧化物背板使其可在彩色和黑白内容上实现更快速的响应和更高的对比度;带有氮化物 LED 的新型导光板结合定制算法,可以增强屏幕的色彩表现力并增加亮度。用户可以将这些颜色鲜艳的图像随心捏合缩放,并且不用担心某些细节褪色或者像素化。

▲Kindle Colorsoft 配备的 Colorsoft 屏幕(图片来源:热点科技)

对于这块全新的彩色屏幕,外媒的评测意见是:虽然不是 iPad 屏幕,但它足够清晰和明亮,并且色彩呈现准确,不至于太过饱和。缺点也很明显,每次翻页时,如果页面上恰好是彩色图像,设备都会进行完全地闪烁刷新,对于观感和阅读体验略有影响。

此外,Kindle Colorsoft 同样具有快速翻页功能、还支持防水和无线充电、并且拥有长达 8 周的续航时间。

在「书」被现代人逐渐忽略的今天,我们能否对它寄予厚望,让精神匮乏的人类重拾阅读习惯?

无论如何,Kindle 这个年轻人,终于在他 17 岁的青涩年纪,看见了世界的色彩。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


你的下一代可穿戴设备,可能不再需要电池

在各种先进快速充电技术迅猛发展的今天,「电量焦虑」仍然是一个可以引起共鸣的话题。

纵然市面上高能量密度、轻量化的新型电池层出不穷,可是仍然难以抵挡一个不争的事实:数码产品的迭代速度越来越快,性能越来越强,也越来越难以被「喂饱」。当代人类对于电量的需求已经超出想象。

微处理器的设计和制造已经登峰造极,苹果的 AirPods 就是这种小型化巅峰的典型代表。它具有精密复杂的实时音频处理器,具有无线流媒体连接功能,充电一次可以持续工作数小时。

然而,即使是如此小巧的电子设备,「电池」也竟是其内部最大的组件。无论是从物理设计还是用户体验的角度来讲,这都是一个不可忽视的设计灾难。

现在,「皮肤充电」技术的问世,很可能可以彻底解决「电量焦虑」的问题,让所有因「电量不足」造成的尴尬遭遇都成为过去式。

卡内基梅隆大学的 Andy Kong、Daehwa Kim 和 Chris Harrison 开发了一种名为「Power-over-Skin」的技术,它是一种通过人体内部的射频(RF,Radio Frequency)能量来为全身穿戴设备供电的创新方法。

▲「Power-over-skin」技术

它允许单个穿戴式发射器为多个小型、无电池的穿戴设备提供电力。这些设备可以分布在身体的不同部位,如戒指、耳环、增强现实(AR)眼镜等,它们可以通过人体传导电力,而无需直接接触或者电线连接。

▲「Power-over-Skin」技术中的发射器(TX)与接收器(RX)(图片来源:Future Interfaces Group)

通俗来讲,人体可以被建模为一个复杂的 RC 电路,而「Power-over-Skin」技术则以人体作为传导介质,利用人体的电容性,通过高频交流波(射频)在皮肤表面传导能量。

▲「Power-over-Skin」技术的能量流动路径示意(图片来源:Future Interfaces Group)

该技术能够实现从头到脚的远距离电力传输,并且已经通过一系列包括传输距离、穿透衣物的传输实验以及单个发射器与多个接收器的兼容性实验和研究活动进行了验证。

▲当发射器(TX)安置在头部时,身体其他各部位接收到的电量功率(图片来源:YouTube)

为了方便理解其中原理,举个简单的例子:

假设你要在一个房间(电源)里举办派对,但是你需要在另一个房间(你的设备,比如耳机等)里播放音乐。为了让音乐响起,你需要把音箱(能量)从电源房间搬动到播放音乐的房间。

在「Power-over-Skin」技术中,我们不会直接搬动音箱,而是使用一种特殊的音乐传递方式:我们可以通过一个巨大的扬声器(射频发射器)播放音乐,这个扬声器能够将音乐的振动(能量)通过空气(人体)传播到另一个房间中去。

关键在于,我们不需要在房间之间打洞(物理连接),也不需要电线来传递音乐。相反,我们仅仅利用房间本身(人体)来传递音乐的振动(能量)。

在技术验证过程中,研究人员使用「Power-over-Skin」驱动了一台小型计算器。

▲使用「Power-over-Skin」驱动的计算器(图片来源:YouTube)

以及一台大型的 XR 设备。

▲使用「Power-over-Skin」驱动的 XR 设备(图片来源:YouTube)

显然,这种技术可以使得可穿戴电子设备摆脱传统电源的限制,进而使其变得更加轻便,舒适。

在选择射频技术作为开发方向之前,卡内基梅隆大学的研究人员还尝试了例如包括机械能收集、无线能量收集和无线功率传输技术在内的诸多可能性。然而,这些方法都有其局限性,例如能量收集的不一致性,以及无线功率传输的低效率问题等。

实际上,早在「Power-over-Skin」技术之前,就有众多国内外研究团队对于「皮肤充电」的其他技术可行性进行了探索。

加州理工学院的研究团队开发了一种能够通过生物燃料电池从汗液中收集能量的电子皮肤。不过,虽然这款设备的电量来源确实是「皮肤」,但它却没有完全摆脱电池的束缚。即使它使用的是高效的乳酸生物燃料电池(BFC)。

▲加州理工大学开发的电子皮肤(图片来源:搜狐网)

来自哈尔滨工业大学的科研小组开发了一种「柔性热电发电机」(FTEG),该装置可以将人体皮肤散发的热量,即体温,转化为电能,且能实时为 LED 灯供电。这项技术不需要额外配备电池,是真正意义上的「皮肤供电」。

▲哈尔滨工业大学开发的「FTEG」(图片来源:36Kr)

目前,「皮肤充电」技术还难以大规模应用于实际产品当中。以「Power-over-Skin」为例,主要存在以下问题:

  • 在较远的传输距离和复杂的身体位置上,尤其是对于需要持续供电的设备,供电功率比较有限;
  • 在环境中可能受到其他电磁干扰的影响,在多设备共存的情况下,可能导致传输功率不稳定;
  • 因电极与皮肤频繁接触而可能导致的皮肤过敏健康问题等。

负责「Power-over-Skin」技术的研发人员指出,当前开发过程中的主要性能指标是最大化接收器的功率,提高能量传输效率,以驱动更多类型的可穿戴设备,用于更加丰富的最终用途。

「Power-over-Skin」技术展示了将人体作为电源的潜力。这表明未来这项技术可助力包括健康监测设备、健身追踪器等新一代可穿戴智能设备,甚至高级假肢等医疗保健设备的轻量化、舒适化,极大地改善用户体验。

我们期待着「皮肤充电」技术尽快可以应用于手机等使用更加广泛的电子产品中。「电量焦虑」的解决,指日可待。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


叫板 Sora! Adobe 推出 AI 视频神器,一句话 P 视频

最近 AI 视频领域异常热闹,Adobe 也刚刚加入了这场混战。

在今年的 Adobe Max 大会上,Adobe 正式推出了自己的 AI 视频模型——Firefly Video Model,进军生成式人工智能领域。

Adobe 的首席产品营销经理 Meagan Keane 表示,Firefly Video Model 的推出旨在简化加速视频创作,并且增加视频的故事讲述能力。概括来讲,这个模型包含三个有趣且实用的功能:

  • Generative Extend(生成拓展)
  • Text-to-Video(文生视频)
  • Image-to-Video(图生视频)

其中,Generative Extend 已经被集成至 Adobe 所开发的专业视频编辑软件 Premiere Pro 当中;Text-to-Video 和 Image-to-Video 则刚刚在 Firefly Web app 中推出 beta 版本。

顾名思义,如果你拍摄的视频片段太短或缺失某些部分,Generative Extend 可以帮你在视频片段的开头或结尾进行「生成式扩展」。

也就是说,假如所需的镜头不可用,或者某个镜头的剪辑时机过早或过晚,剪辑师只需要拖动该视频片段的开头或结尾,Generative Extend 就可以自动填充生成式内容,以保持视频的连贯、平滑。

▲Generative Extend 的生成式视频扩展功能演示(图片来源:Adobe)

这意味着如果视频创作者在拍摄过程中得到了一个「废镜头」,他可能不再需要回到原场地重新拍摄,而是利用 Generative Extend 直接对原片段进行扩展和修复。

一定程度上讲,这确实有助于提高视频创作效率——当然,是在 Generative Extend 所延伸的片段质量过硬的情况下。

遗憾的是,该功能目前的最大分辨率限制为 1080p,且片段最长只能扩展两秒钟。

因此 Generative Extend 只适合对视频片段进行微小的调整,即它只能帮助用户修复某些细节,却不能代替创作者本身,进行大篇幅的创作。

Generative Extend 还可以帮助用户拍摄过程中进行调整,纠正在拍摄过程中视线偏移或其他意外产生的移动。

除了视频之外,Generative Extend 还可以用于音频的平滑编辑。它可以将视频中的环境背景音效扩展长达十秒钟时间,但无法对对话或音乐进行拓展。

▲Generative Extend 的音频扩展功能示意(图片来源:Adobe)

如果你想在视频创作过程中省点力气,你可以使用 Text-to-Video 功能直接生成。同它的「老前辈」Runway 和 OpenAI 的 Sora 一样,用户只需要输入他们想要生成的视频的文本描述,它就可以模拟「真实电影」、「3D 动画」和「定格动画」等各种风格生成相应的视频片段。

以下是一些使用 Text-to-Video 功能生成视频片段,感受一下:

▲提示文本:电影无人机飞越广阔的红色火星景观,它从我们脚下飞驰而过,当太阳升起时,地平线是红色的。在镜头的结尾,太阳从地平线上升起。(图片来源:Adobe)

▲提示文本:电影特写和夜晚街道中央一位老人的肖像细节。灯光气氛沉闷,充满戏剧性。颜色等级为蓝色阴影和橙色高光。这个男人有极其逼真的细节皮肤纹理和明显的毛孔。动作微妙而柔和。相机不动。胶片颗粒。老式变形镜头。(图片来源:Adobe)

▲提示文本:在墨西哥一个美丽、柔和的天井内拍摄的视角。水清澈湛蓝,在傍晚的阳光下闪闪发光。颜色是温暖和神奇的魔幻风格。高品质,电影感。(图片来源:Adobe)

除了逼真的,电影般的视觉影像,Text-to-Video 还支持生成一些「抽象」的画面。例如,它可以被用来生成包括火焰、水、漏光和烟雾等元素的视频,并覆盖叠加到现有的视频上,来增加现有内容的视觉深度和趣味性。

▲提示文本:黑色背景上的电影漏光,有机质感,逼真。(图片来源:Adobe)

▲上述视频与现有视频合成后生成的视频片段(图片来源:Adobe)

值得一提的是,用 Text-to-Video 生成的视频片段还可以使用一系列「相机控制」进行进一步细化处理,这些控制能够模拟真实的相机角度、运动和拍摄距离等。

▲ 相机控制选项(图片来源:Adobe)

Image-to-Video 功能则更进一步,允许用户在视频创作过程中添加「参考图像」,以生成更加贴近用户想象的视频。

视频创作者可以从一张图像和照片出发,利用 Image-to-Video 功能直接制作「B-roll」(电影和视频制作术语,指的是除了主要拍摄内容(A-roll)之外的辅助视频素材)。

用户还可以通过上传视频的单帧,并由 Image-to-Video 自动补充缺失帧,以此来创建完整的特写镜头。

▲提示文本:花朵在风中摇曳,一只美丽的蝴蝶落在其中一朵花上。(图片来源:Adobe)

「众所周知,视频不能 P,所以一定是真的。」

然而,Image-to-Video 的「赛博重拍」功能,直接让这句话变成过去式。它宛如一只「上帝之手」,可以让用户对视频内容(视频中的人物动作等)直接进行操作和修改。来看下面的例子:

▲ 原视频片段(图片来源:Adobe)

▲修改后的视频片段,提示文本:一只戴着手套的宇航员的手进入画面,并拔掉了其中一根黄色电缆,具有电影感。(图片来源:Adobe)

目前,Text-to-Video 和 Image-to-Video 功能生成视频片段的最大长度仅为五秒钟,质量最高为 720p 和每秒 24 帧。视频生成时间大约为 90 秒,Adobe 正在开发「涡轮模式」来缩短这一时间。

视频生成质量的不足表明,用户还无法用 Firefly Video Model 生成一部完整的电影,暂时只能作为创作辅助工具来使用。

Adobe 强调,Firefly Video Model 只会在许可内容(如 Adobe Stock)和公共领域内容上对该模型进行训练,而不会在客户提供的内容上进行。

此外,使用 Firefly Video Model 创建或编辑的视频可以内嵌内容凭证,旨在为创作者和内容出处提供归属证明,有助于声明 AI 使用情况和所有权权益,以保证「商业安全」。

感兴趣的读者可以在以下链接加入 Adobe Firefly Video Model 的体验候补名单:
https://www.adobe.com/products/firefly/features/ai-video-generator.html

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


AI 狂扁小朋友,「炸鱼」成年轻人解压新方式?

「小猿口算」火了,而且火得莫名其妙。

▲ 「小猿口算」热度相当高(图片来源:微博热搜)

事情的起因是这样的,这款主打小学生口算作业批改和视频讲题功能的教学辅助 App 近日上线了一个新功能,即「口算 PK」。这个 PK 功能带有一定的竞技性质,其核心逻辑是「比谁快」,即 PK 双方谁能在更短的时间内完成 10 道口算简单题目的计算,谁就胜利,并且可以获得奖励和经验值,还有相应的排行榜,用于展示用户实力。

▲ 「口算 PK 功能」的核心玩法:比谁快(图片来源:小猿口算 App)

这个功能的初衷相当不错。它抓住了低龄学生的好胜心理,以线上竞技的方式,用「PK —奖励—再 PK」这个有效的负反馈链条,激发学生对于计算的兴趣,提高他们的口算速算能力。

当然,在这个链条之外,必定会有 PK 输给对手的情况出现,据某些家长反馈,暂时的失败反而会激发孩子的斗志,有助于磨练他们的韧性。

从这个角度来讲,「小猿口算」的产品经理能够做出如此爆款的功能,相当令人垂涎和羡慕。

不过,类似的线上竞技游戏都会有一个通病,就是你永远不知道你的对手是谁。「口算 PK」自然也难逃这个怪圈,导致被人诟病。

近日,众多大学生和成年人群体涌入「口算竞技场」,他们伪装成「小学生」身份,声称「大一/研一/博一也是一年级」,利用自己的知识和智力优势,以绝对的实力碾压在竞技场中疯狂「炸鱼」,体验胜利的快感。这种玩法一度成为当代年轻人的解压新方式,他们玩得不亦乐乎。

实力对比之下,受伤的只有那些真正的「小学生」。连续不断的失败和挫折让他们感到崩溃、沮丧。不但没有提高计算能力,还让小朋友们对数学、线上竞技游戏甚至整个网络生态环境感到失望和不满。这已经严重违背了 PK 功能的初衷。

▲某应用商店的「一星」评论

针对上面的情况,「小猿口算」官方给出的回应和解决方案还算及时,一方面是设置了小学生的专用身份认证,在确保用户是「正牌小学生」的情况下,才能进入普通 PK 竞技场,相当于为 PK 添加了「反炸鱼」机制;另一方面,新的版本中上线了「巅峰对决」模式,这一模式专为想要 PK 的成年人用户准备。

简单来说就是,让两波人各玩各的,互不打扰,井水不犯河水。

▲「小猿口算」官方发布的功能升级公告(图片来源:微博@小猿口算)

螳螂捕蝉,黄雀在后。在成年人入场竞技后不久,真正的大杀器「AI」也正式宣告入场:确切的说,网络上已经有人在 Python 平台基于计算机视觉和 OCR(Optional Character Recognition, 光学字符识别)等技术开发出了「小猿口算自动答题器」。

算法的利刃一视同仁,管你是小朋友还是大朋友,一路杀穿,没人可以招架。事态发展至此,「算数大赛」已然变成了「算法大赛」,大朋友们也屡屡吃瘪,开始以「弱势群体」的身份同情甚至声援小学生。

其实,人工智能在辅助外挂领域,一直是那个最令人头疼的存在。其中在游戏领域,「AI 外挂」的泛滥则更为严重。

在 FPS 游戏(例如反恐精英、PUBG 等)中,「AI 外挂」基于机器学习和计算机视觉技术,通过分析游戏画面并模仿人类玩家操作实现「锁头」、「自瞄」作弊行为。

在 MOBA 类游戏(例如王者荣耀)中,「AI 外挂」则类似于「智能助手」,它通过实时分析游戏画面和数据,并识别敌我双方的位置、经济状况、技能冷却等信息,为玩家提供走位、出装和技能施放方面的建议,帮助玩家在对局中做出最优决策。

▲FPS 游戏「CS2」中的「AI 外挂」(图片来源:UP 主@橘子技术)

显然,「AI 外挂」的隐蔽性强,反作弊难度大,令广大绿色玩家群体防不胜防。

回到「口算 PK 炸鱼」这个事件本身,这些所谓的「大朋友们」为什么要这样做?难道真的是「人之初,性本恶」,他们的本意就是欺负小孩?

▲所谓的「解压新方式」(图片来源:微博)

抛去极少数年轻人「怀念数学,重温数学乐趣」的朴素动机不谈,绝大部分的年轻人正处于较大的社会压力之中。大学生和上班族在繁重的学习和工作下,急需一种简单有趣的娱乐方式来放松自己。

恰逢其时,「口算 PK」为他们提供了一个轻松舒适的竞技环境,并且这种可预见的,几乎必然的「碾压性」胜利能够极大程度上满足年轻人或有缺失的成就感和优越感,同时帮助他们舒缓了从社会上获得的心理压力。

最重要的是,这场「全民炸鱼狂欢」事件过后,未来年轻人群体对于心理放松和精神优越的强烈需求又将如何排解?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌