Normal view

There are new articles available, click to refresh the page.
Today — 14 November 2024Main stream

OpenAI 最新产品全曝光!奥特曼驳斥 AI 发展撞墙,Ilya 认错,秘密寻找下一个重大突破

By: 莫崇宇
14 November 2024 at 17:29

今年 AI 圈的瓜真是一浪接一浪。

最近,关于 Scaling Laws「撞墙」的消息在 AI 圈炸开了锅。图灵奖得主 Yann Lecun、Ilya、Anthropic 创始人 Dario Amodei 纷纷展开唇枪舌战。

争论的核心在于,随着模型规模的不断扩大,其性能提升是否会遇到天花板。正当舆论愈演愈烈之际,OpenAI CEO Sam Altman 刚刚在 X 平台作出回应:

「there is no wall 没有墙」

而在这场辩论的背景下,彭博社则披露了一条引人注目的消息。

OpenAI 计划在明年一月份推出一款名为「Operator」的 AI Agent(智能体),这个 Agent 能够使用计算机代替用户执行任务,如编写代码或预订旅行。

在此之前,Anthropic、微软、Google 也都被曝出正在布局类似的方向。

对于整个 AI 行业来说,AI 技术的发展从来就不是单一维度的线性过程。当一个方向似乎遇到阻力时,创新往往会在其他维度突破。

Scaling Laws 撞墙?下一步该怎么走

Scaling Laws 遭遇瓶颈的消息,最先源自外媒 The Information 上周末的一篇报道。

洋洋洒洒的数千字报道透露了两个关键信息。

好消息是,尽管 OpenAI 完成了下一代模型 Orion 训练过程的 20%,但 Altman 表示,Orion 在智能和执行任务、回答问题的能力方面已经与 GPT-4 不相上下。

坏消息是,据上手体验的 OpenAI 员工评估,与 GPT-3 和 GPT-4 之间的巨大进步相比,Orion 提升幅度较小,比如在编程等任务上表现不佳,且运行成本较高。

一句话概括就是,Scaling Laws 遭遇瓶颈了。

要理解 Scaling Laws 效果不及预期所带来的影响,我们有必要给不太清楚的朋友简单介绍一下 Scaling Laws 基本概念。

2020 年,OpenAI 在一篇论文中最早提出 Scaling Laws。

这一理论指出,大模型的最终性能主要与计算量、模型参数量和训练数据量三者的大小相关,而与模型的具体结构(层数/深度/宽度)基本无关。

听着有些拗口,说人话就是,大模型的性能会随着模型规模、训练数据量和计算资源的增加而相应提升。

OpenAI 的这项研究奠定了后续大模型发展的基础,不仅促成了 GPT 系列模型的成功,也为训练 ChatGPT 提供了优化模型设计与训练的关键指导原则。

只是,当我们现在还在畅想着 GPT-100 时,The Information 的爆料表明,仅仅增加模型规模已经不能保证性能的线性提升,且伴随着高昂成本和显著的边际效益递减。

而遭遇困境的并非仅有 OpenAI 一家。

彭博社援引知情人士的消息称,Google 旗下的 Gemini 2.0 同样未能达到预期目标,与此同时,Anthropic 旗下的 Claude 3.5 Opus 的发布时间也一再推迟。

在争分夺秒的 AI 行业,没有产品的新消息往往意味着最大的坏消息。

需要明确的是,这里所说的 Scaling Laws 遇到瓶颈并非意味着大模型发展就此终结,更深层的问题在于高昂成本导致边际效益的严重递减。

Anthropic CEO Dario Amodei 曾透露,随着模型变得越来越大,训练成本呈现爆炸式增长,其目前正在开发的 AI 模型的训练成本就高达 10 亿美元。

Amodei 还指出,未来三年内,AI 的训练成本还将飙升到 100 亿美元甚至 1000 亿美元的天文数字。

以 GPT 系列为例,仅 GPT-3 的单次训练成本就高达约 140 万美元,这些支出主要来自于强大的计算资源消耗,尤其是 GPU 的使用费用,以及巨额的电力支出。

单是 GPT-3 的训练就消耗了 1287 兆瓦时的电力。

去年,加州大学河滨分校的研究显示,ChatGPT 每与用户交流 25-50 个问题,就得消耗 500 毫升的水,预计到 2027 年,全球 AI 的年度清洁淡水需求量可能达到 4.2-66 亿立方米,相当于 4-6 个丹麦或半个英国的年度用水总量。

从 GPT-2 到 GPT-3,再到 GPT-4,AI 所带来的体验提升是跨越式的。

正是基于这种显著的进步,各大公司才会不惜重金投入 AI 领域。但当这条道路逐渐显露尽头,单纯追求模型规模的扩张已无法保证性能的显著提升,高昂的成本与递减的边际效益成为了不得不面对的现实。

现在,比起一味追求规模,在正确的方向上实现 Scaling 显得更加重要。

再见,GPT;你好,推理「O」

墙倒众人推,连理论也是如此。

当 Scaling Laws 疑似触及瓶颈的消息在 AI 圈内引发轩然大波时,质疑的声浪也随之翻涌而来。

一直持反主流立场的图灵奖得主、Meta AI 首席科学家 Yann Lecun,昨天兴奋地在 X 平台转载了路透社采访 Ilya Sutskever 的采访,并附文称:

「我不想显得事后诸葛亮,但我的确提醒过你。

引用:「AI 实验室 Safe Superintelligence(SSI)和 OpenAI 的联合创始人伊利亚·苏茨克韦尔(Ilya Sutskever)最近向路透社表示,通过扩大预训练阶段——即使用大量未经标注的数据来训练 AI 模型,使其理解语言模式和结构——所取得的成果已经停滞不前。」

回顾这位 AI 巨头过去两年对现行大模型路线的评判,可谓是字字珠玑,句句见血。

例如,今天的 AI 比猫还笨,智力差太远;LLM 缺乏对物理世界的直接经验,只是操纵着文字和图像,却没有真正理解世界,强行走下去只会死路一条等等。

时间拨回两个月前,Yann Lecun 更是毫不客气地给当下主流路线判了死刑。在一众 AI 末日论中,在众多 AI 末日论中,他还坚定地认为声称 AI 将威胁人类生存的言论纯属无稽之谈:

  • 大型语言模型(LLMs)无法回答其训练数据中未包含的问题,
  • 它们无法解决未经训练的难题,
  • 它们无法在缺乏大量人类帮助的情况下学习新技能或知识,
  • 它们无法创造新的事物。 目前,大型语言模型只是人工智能技术的一部分。 单纯地扩大这些模型的规模,并不能使它们具备上述能力。

同在 Meta FAIR 任职的田渊栋博士则更早预见了当前的困境。

5 月份在接受媒体采访时,这位华人科学家曾悲观地表示,Scaling Laws 也许是对的,但不会是全部。在他看来,Scaling Laws 的本质是以指数级的数据增长,来换取「几个点的收益」。

「最终人类世界可能会有很多长尾需求,需要人类的快速反应能力去解决,这些场景的数据本身也很少,LLM 拿不到。Scaling law 发展到最后,可能每个人都站在一个「数据孤岛」上,孤岛里的数据完全属于每个人自己,而且每时每刻都不停产生。专家学会和 AI 融合,把自己变得非常强,AI 也代替不了他。」

不过,形势或许还没有到如此悲观的境地。

客观而言,Ilya 在接受路透社的采访时,虽然承认了 Scaling Laws 带来的进展已趋于停滞,但并未宣告其终结。

「2010 年代是追求规模化的时代,而现在我们再次进入了一个充满奇迹和探索的新时代。每个人都在寻找下一个重大突破。在当下,选择正确的事物进行规模化比以往任何时候都更为关键。」

并且,Ilya 还表示 SSI 正在探索一种新的方法来扩展预训练过程。

Dario Amodei 最近在一档播客中也谈及此事。

他预测,在人类水平以下,模型并不存在绝对的天花板。既然模型尚未达到人类水平,就还不能断言 Scaling Laws 已经失效,只是确实出现了增长放缓的现象。

自古,山不转水转,水不转人转。

上个月,OpenAI 的研究员 Noam Brown 在 TED AI 大会上表示:

「事实证明,在一局扑克中,让一个机器人思考 20 秒钟,得到的性能提升与将模型扩展 100000 倍并训练它 100000 倍长的时间一样。」

而对于 Yann lecun 昨天的事后诸葛亮言论,他这样回应:

「现在,我们处于一个这样的世界,正如我之前所说,进入大规模语言模型预训练所需的计算量非常非常高。但推理成本却非常低。曾有许多人合理地担心,随着预训练所需的成本和数据量变得如此庞大,我们会看到 AI 进展的回报递减。但我认为,从 o1 中得到的一个真正重要的启示是,这道墙并不存在,我们实际上可以进一步推动这个进程。因为现在,我们可以扩展推理计算,而且推理计算还有巨大的扩展空间。」

以 Noam Brown 为代表的研究者坚信推理/测试时计算(test-time compute),极有可能成为提升模型性能的另一个灵丹妙药。

说到这里,就不得不提到我们熟悉的 OpenAI o1 模型。

与人类的推理方式颇为相似,o1 模型能够通过多步推理的方式「思考」问题,它强调在推理阶段赋予模型更充裕的「思考时间」,其核心秘密是,在像 GPT-4 这样的基础模型上进行的额外训练。

例如,模型可以通过实时生成和评估多个可能的答案,而不是立即选择单一答案,最终选择最佳的前进路径,这样就能够将更多的计算资源集中在复杂任务上,比如数学问题、编程难题,或者那些需要人类般推理和决策的复杂操作。

Google 最近也在效仿这条路线。

The Information 报道称,最近几周,DeepMind 在其 Gemini 部门内组建了一个团队,由首席研究科学家 Jack Rae 和前 Character.AI 联合创始人 Noam Shazeer 领导,旨在开发类似的能力。

与此同时,不甘落后的 Google 正在尝试新的技术路径,包括调整「超参数」,即决定模型如何处理信息的变量,比如它在训练数据中的不同概念或模式之间建立联系的速度,以查看哪些变量会带来最佳结果。

插个题外话,GPT 发展放缓的一个重要原因是高质量文本和其他可用数据的匮乏。

而针对这个问题,Google 研究人员原本寄希望于使用 AI 合成数据,并将音频和视频纳入 Gemini 的训练数据,以实现显著改进,但这些尝试似乎收效甚微。

知情人士还透露,OpenAI 和其他开发者也使用合成数据。不过,他们也发现,合成数据对 AI 模型提升的效果十分有限。

你好,贾维斯

再见,GPT,你好,推理「o」。

在前不久举行的 Reddit AMA 活动上, 一位网友向 Altman 提问,是否会推出「GPT-5」,以及推理模型 o1 的完整版。

当时,Altman 回答道:「我们正在优先推出 o1 及其后续版本」,并补充说,有限的计算资源使得同时推出多个产品变得困难。

他还特别强调,下一代模型未必会延续「GPT」的命名方式。

现在看来,Altman 急于与 GPT 命名体系划清界限,转而推出以「o」命名的推理模型,其背后似有深意。而推理模型的布局或许还是在于为当下主流的 Agent 埋下伏笔。

最近,Altman 在接受 YC 总裁 Garry Tan 的采访时,也再次谈到了 AGI 五级理论:

  • L1:聊天机器人具有对话能力的 AI,能够与用户进行流畅的对话,提供信息、解答问题、辅助创作等,比如聊天机器人。
  • L2:推理者像人类一样能够解决问题的 AI,能够解决类似于人类博士水平的复杂问题,展现出强大的推理和问题解决能力,比如 OpenAI o1。
  • L3:智能体不仅能思考,还可以采取行动的 AI 系统,能够执行全自动化业务。
  • L4:创新者能够协助发明创造的 AI,具有创新的能力,可以辅助人类在科学发现、艺术创作或工程设计等领域产生新想法和解决方案。
  • L5:组织者可以完成组织工作的 AI,能够自动掌控整个组织跨业务流程的规划、执行、反馈、迭代、资源分配、管理等,基本上已经与人类差不多。

所以我们看到,与 Google 和 Anthropic 一样,OpenAI 现在正在将注意力从模型转移到一系列称为 Agent 的 AI 工具上。

最近,彭博社也曝出,OpenAI 正在准备推出一款名为「Operator」的新型 AI Agent,能够使用计算机代替用户执行任务,如编写代码或预订旅行。

在周三的一次员工会议上,OpenAI 领导层宣布计划在一月发布该工具的研究预览版,并通过公司的应用程序接口(API)向开发者开放。

在此之前,Anthropic 也推出了类似的 Agent,够实时处理用户计算机任务并代为执行操作。与此同时,微软近期推出了一套面向员工的 Agent 工具,用于发送邮件和管理记录。

而 Google 也正在筹备推出自己的 AI Agent。

报道还透露,OpenAI 正在进行多个与 Agent 相关的研究项目。其中,最接近完成的是一款能够在网页浏览器中执行任务的通用工具。

这些 Agent 预计将能够理解、推理、规划并采取行动,而这些 Agent 实际上是一个由多个 AI 模型组成的系统,并非单一模型。

比尔·盖茨曾经说过,「每个桌面上都有一台 PC」,史蒂夫·乔布斯说过,「每个人的手上都有一部智能手机」。现在我们可以大胆预测:每个人都将拥有自己的 AI Agent。

当然,人类的终极目标是,我们更希望有一天能够对着眼前的 AI 说出那句电影的经典对白:

你好,贾维斯

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Yesterday — 13 November 2024Main stream

黄仁勋最新演讲:每家公司都将成为 AI 制造商 | 万字实录

By: 莫崇宇
13 November 2024 at 14:00

老黄又来做推销员了。

上周英伟达市值超越苹果,成为全球第一,与此相对应的,英伟达创始人黄仁勋也没闲着,开启了全球随心飞,时常在各地露面演讲。

销售的最高技巧,就是不断的推销,推销,与推销。

今天,黄仁勋也去到了日本,与软银集团 CEO 孙正义进行了一次正式的会面。

在交流前,黄仁勋先来了一段长达一个小时的的演讲,向在场与会者深入浅出地介绍了什么是 AI,以及 AI 将会如何影响我们的生活,碰到小插曲,老黄也入乡随俗地连道多句「私密马赛」。

在与孙正义的交流过程中,黄仁勋还展示了不少「黄氏」幽默。

比如看到孙正义,先来一段排比句式的彩虹屁,逗得孙正义开颜大笑。又或者,打趣孙正义曾是英伟达最大股东时,顺便也调侃自己错失收购英伟达的懊悔不已。

  • 黄仁勋介绍英伟达是一个模拟技术公司,专注于模拟物理学、虚拟世界和智能,通过模拟帮助预测未来,类似于在构建时间机器。
  • 黄仁勋强调英伟达的目标不是替代 CPU,而是增强 CPU 的功能,将计算密集型任务交给 GPU。
  • 传统编程到机器学习的过渡,软件 2.0 不再依赖传统的代码,而是通过神经网络在 GPU 上运行。这种新的编程方式使得计算能力更强大,尤其是在 AI 和深度学习领域。
  • 随着 AI 系统规模的扩大,推理能力也得到了扩展,这意味着 AI 能够进行更多的反思、规划和思考,从而提升其智能和表现。
  • 英伟达将继续推动计算性能的提升,不仅通过 GPU 的不断发展,还通过协同计算的方式降低成本、减少能耗。
  • 黄仁勋与孙正义共同宣布在日本建设 AI 网格,包含 AI 工厂和 AI 网络,旨在为日本各地提供 AI 服务。日本将成为全球首个实现这一目标的国家,AI 技术将推动日本各行业的变革。

原视频地址指路👉:https://www.nvidia.cn/events/ai-summit-japan/fireside-chat/

附上黄仁勋演讲全文以及炉边对话全文,全文共 1.7 万字,由  APPSO 编译

不只是在造 GPU,更像是在造时间机器

黄仁勋:欢迎来到英伟达 AI 峰会。

在英伟达,我们的核心是一家模拟技术公司。

我们模拟物理学,我们模拟虚拟世界,我们通过模拟来模拟智能。我们帮助你们预测未来。所以,从很多角度来看,英伟达就像是在构建时间机器。

今天,我们将分享一些我们的最新突破。但最重要的是,这次活动是关于日本生态系统的。这里有这么多合作伙伴, 350 家初创公司,250000 名开发者,数百家公司。

我们已经与日本有着长期的合作。

自公司创立初期以来,日本对我们而言一直都非常重要。正是在日本,我们做了许多「第一次」。

比如视频游戏领域,Sega 的 Yu Suzuki 是我们第一次合作的游戏开发者,曾帮助我们将 Sega 的出色 3D 游戏移植到英伟达的 GPU 上。

那是第一次有人使用英伟达的 CUDA 技术来构建超级计算机,东京科技大学的超级计算机就是通过英伟达的 GPU 来推动科学计算的发展。

日本在许多领域都是全球的先锋。

还有,正是日本让我们第一次能够创造出移动处理器,进而催生了我们非常重要的项目之一——任天 堂 Switch。如今,很多「第一次」已经成为现实。

现在,我们站在 AI 革命的起点,迎接一个全新的行业和令人惊叹的技术变革。这个时代令人激动,同时也充满挑战。因此,我们在此与日本生态系统中的优秀企业合作,携手将 AI 带入日本,共同抓住这一前所未有的机遇。

今天我们有很多合作伙伴在场,我要特别感谢他们。

英伟达是加速计算的创始者,加速计算并不会取代 CPU。

实际上,我们几乎是计算领域中唯一一家不打算替代 CPU,而是想增强 CPU 功能的公司,目的是将那些计算密集型的工作负载卸载到 GPU 上。

这些是 GPU 指令集与 CPU 一起工作。

通过这种方式,我们可以充分利用两种处理器的优势:一种擅长顺序处理的 CPU,另一种则擅长并行处理的 GPU。稍后我会详细介绍这一点。

但这不仅仅是并行计算,而是加速计算,CPU 和 GPU 协同工作。这种计算模式对世界来说是全新的。

实际上,单纯使用 CPU 的计算模式自 1964 年以来就已存在,也就是在我出生的第二年,至今已有 60 年。

今天世界上绝大多数的计算任务,都是依赖 CPU 来运行的。

但现在,计算模型迎来了一个全新的、根本性的变化。然而,为了实现这一点,我们不能仅仅将顺序执行的 CPU 软件直接移植到 GPU 上。

为了实现并行计算,我们必须开发出一系列全新的算法,正如 OpenGL 使计算机图形能够通过图形处理器进行加速那样,我们也必须为许多不同的应用领域开发出许多特定的库。

这些库正是我们公司所拥有的 350 多种不同的库,其中一些库在业界非常重要。例如,Kulit 是一个专为计算光刻设计的库,它能大大加速光刻过程。在制作芯片掩模时,通常需要数周的时间,因为涉及许多层的处理。

通过使用该技术,我们将数周的计算时间缩短为几个小时。

虽然我们可以加速芯片制造周期,但更为重要的是,这使得光刻算法得以更加复杂和先进,从而推动半导体物理的进步,远远超越 2 纳米、1 纳米甚至更小的技术节点。

因此,计算光刻将通过 cuLitho、Ku DSS(稀疏求解器)以及 AI 进行加速。我今天将会详细讲解这一令人兴奋的新库,它使得这台计算机能够支持 5G 无线电协议栈的运行。

基本上,实时运行的无线电系统依托 CUDA 加速器进行量子模拟、量子电路模拟,基因测序中的配对,CVS 用于向量存储,或者是用于 AI 的向量数据库进行索引和查询。

NumPy 是全球最受欢迎的数值处理库,全球有 500 万名开发者在使用它。仅在上个月,它的下载量就达到了 3000 万次,真是一个惊人的数字。

现在,它已经完全加速,支持多 GPU、多节点的运算。如果你感兴趣,欢迎查阅相关资料。

另外,向你们介绍一个令人震撼的 CDF 数据框架处理,这是用于结构化数据处理,如 SQL、pandas、polars、co-opt,以及经典的旅行推销员问题。

这个问题已经被加速了,速度是以前的几百倍,适用于 AI 物理学。接下来,我们创建了一个非常重要的库,叫做 Coup DN Co DNA,用于深度神经网络,处理深度学习体系中的不同层级。

通过创建 QDM(量子点(Quantum Dots))并加速深度学习,我们做了一件非常特别的事,使得深度学习得到了普及。在过去的十年里,我们让人工智能和机器学习的规模提高了 100 万倍。

通过把机器学习的规模提升 100 万倍,我们实现了一个巨大的突破,也正是这个突破,催生了如今的 ChatGPT——人工智能的到来。

QDM 做了一件非常特别的事,它改变了软件开发的方式。这是软件 1.0 之前的情况,程序员编写代码来描述一个算法,这个算法就是软件。

你输入数据,软件就预测输出。人类编写的代码,通常是运行在 CPU 上的。

软件 1.0 就是编写在 CPU 上运行的代码。现在我们进入了软件 2.0 时代,因为计算机速度已经非常快,你可以给它提供大量的样本数据,让它自己学习并预测函数。我们称之为软件 2.0。

所以,不再是传统的编程,而是机器学习;不再是代码运行在 CPU 上,而是神经网络运行在 GPU ISS 上,神经网络就是软件 2.0 的核心。

这些运行在 GPU ISS 上的神经网络,已经形成了一种全新的操作系统,一种全新的计算机使用方式。它就是现代计算机的操作系统——大型语言模型。

这种机器学习方法展现了其惊人的可扩展性,你可以用它做各种各样的事情。当然,包括数字化文本、语言、语音、图像、视频等。它是多模态的,你可以教它氨基酸序列,教它理解几乎所有事物,任何包含大量观察数据的内容。

第一步就是通过研究互联网上的大量文本来理解数据的意义。

通过这种方法,我们能够理解单词、词汇、语法,甚至通过寻找模式和关系来理解单词的含义。

如今,我们使用相同的方法,不仅能够理解与不同模态相关的各类数据的意义,例如单词与图像之间的关系,「cat」这个单词和「猫」的图像就被连接了起来,学习多模态后,我们现在甚至能够进行翻译和生成。

所以,我们能够理解各类数据,也能够生成智能信息,创造各种形式的智能。

如果你看看现在创造的所有令人惊叹的初创公司和应用,你会发现它们都属于这张幻灯片中的两种组合之一:

从文本到文本(比如摘要、问答、文本生成、讲故事),或从文本到其他形式(如视频到文本用于字幕,图像到文本用于图像识别,文本到图像用于图像生成,如 Midjourney,文本到视频用于视频创作,如 Runway ML)。

所有这些不同的组合都是突破性的。你甚至可以做到蛋白质到文本,解释蛋白质的功能;文本到化学物质,描述某种可能成为有效药物的化学特性;甚至可以将视频和文本结合,来实现机器表演、机器人技术。

每一种组合都代表了一个新的行业、新的公司、新的应用场景,掀起了令人震撼的「寒武纪大爆炸」,产生了大量新应用。

我们现在才刚刚开始,机器学习的一个特点是,脑容量越大,能够教给它的数据越多,它变得也就越聪明。

我们称之为 Scaling Laws。现在有很多证据表明,随着模型的规模扩大,训练数据的增多,智能的效果、质量和表现都会得到提升。

每年,整个行业都在将模型的规模扩大约两倍,同时需要相应增加两倍的数据量。

因此,我们需要四倍的计算资源,推动人工智能迈向下一个层次所需的计算资源是巨大的。在 Scaling Laws 中,预训练是其中一部分,后训练也是一部分。

后训练通过强化学习、人类反馈、强化学习、AI 反馈等多种方式进行。现在,后训练阶段有很多方法可以使用合成数据生成。因此,训练、预训练和后训练正在经历显著的扩展,我们仍在看到非常好的成果。

当 Strawberry 或 Open AI 的 o1 发布时,它向世界展示了一种全新的推理方式。

推理是与 AI 互动的过程,就像你与 ChatGPT 交流一样,但 ChatGPT 是一次性的。你向它提问,要求它做某事,无论你提出什么问题,或给出什么提示,通过一次交互,它就会给你答案。

然而,我们知道,思考往往不止是一瞬间的,思考需要我们进行多次尝试,最终从中选择最合适的答案。

就像我们在思考时,可能会反思答案,然后再给出答案,这就是反思;或者是我们将一个问题分解成一步一步的思考链。我们已经发明了许多技术,使得推理在我们投入更多计算资源时,能够不断提升。

现在我们有了第二个 Scaling Laws——推理 Scaling Laws,不仅仅是生成下一个单词,更是思考、反思和规划。这两种同步扩展将要求我们在每次交付新一代和新架构时,都以极快的速度推动计算性能。

我们每次交付时都会在 X 倍提升性能的同时,也减少相同倍数的功耗和成本。因此,提高性能等同于降低成本,提高性能也等同于减少能耗。

因此,随着世界越来越多地接受和应用人工智能,推动人工智能技术的发展,扩展其应用范围,是我们的使命。

我们的责任就是持续不断地推动性能提升,并尽可能地加快这一过程,同时扩大人工智能的应用领域,提升其效果,降低成本,并减少功耗。这也正是我们转向一年一个周期的原因。

然而,人工智能并不是单纯的芯片问题。这个 AI 系统庞大无比。这就是 Blackwell 系统。

Blackwell 不仅仅是一个 GPU 的名字,它也是整个系统的名字,而这个 GPU 本身也非常出色,必须要提到这一点。抱歉,向在场的各位外宾解释一下。

所以,今天我们展示的是 Blackwell。

每个 Blackwell 芯片都是世界上最大的芯片,拥有 1040 亿个晶体管,由 TSMC 在其最先进的 4 纳米制程上制造。这两个 Blackwell 芯片通过 10TB 每秒的低能耗连接互联。

位于芯片的接缝处——那条线——数千个互联节点,传输速度达到 10TB 每秒。

这些芯片通过来自 SK hynix 和 Micron 的八个 HBM 3e 内存模块连接,内存的总带宽为每秒 8TB。这两个 GPU 通过 NVLink 与 CPU 连接,每个 GPU 的连接带宽为每秒 1.8TB。

这是非常多的每秒千兆字节。之所以如此,是因为这个系统不仅可以单独运行。即便是世界上最先进的计算机,也无法单独完成人工智能任务。

有时它必须与成千上万台像这样的计算机协同工作,这些计算节点共同工作就像一个巨大的计算机,而有时它们需要独立工作,以响应不同的客户或查询。

因此,它们有时会单独运行,有时则作为一个整体工作,从而让 GPU 能够作为一个整体进行工作。我们当然有通过网络将这个 GPU 与成千上万的其他 GPU 连接,但我们仍然需要 NVLink。

这种 NVLink 可以让我们将一个机架中的几个 GPU ISS 连接起来,就像我身后的这个机架一样,机架通过 NVLink 连接,带宽为每秒 1.8 TB,比全球最高带宽的网络快 35 倍,这让我们可以将所有这些 GPU ISS 连接到一起。

这个机架中有九个 NVLink 交换机,每个机架有 72 台计算机,它们通过网络连接。

NVLink 是通过 50 英镑的铜线直接驱动的,借助这个出色的 Cdes,我们称之为 NVLink。它们连接到计算机,就像这样连接到 NVLink。这个交换机将所有这些计算机连接成一个整体。

所以最终,72 台计算机连接在一起,形成一个超级 GPU,一个巨大的 GPU。从软件角度来看,它就是一颗巨型芯片。这些机架,这个机架的成本为 3000 英镑。它不可能搬到这个舞台上展示。

如果可以的话,我会给你们展示它,3000 英镑,120 千瓦功率。这相当于很多很多台 Nintendo Switch 的功率。它不便携,但它极其强大。这就是 Blackwall 系统。

我们设计它可以配置成一个超级节点,或者构建成一个庞大的数据中心,里面有成千上万台,理想情况下有数十万台。这些机器通过交换机连接,其中一些交换机是能够无缝集成到你现有的以太网环境中,我们可以使用这些系统来构建 AI 超级计算机。

我们可以将它们集成到企业数据中心、超大规模数据中心,或为边缘计算配置。Blackwell 系统不仅强大无比,而且具有极强的适应性,可以轻松融入全球各地计算基础设施的每一个角落。因此,这就是 Blackwell,超越了 Blackwell。

这就是计算机,但最重要的是,没有在其上运行的所有软件,这台计算机根本无法发挥作用。

当你看到这些计算机配有液体冷却系统和复杂的电线时,你会感到震撼。如何才能编程控制如此强大的计算机呢?这正是英伟达软件堆栈的意义所在。我们的所有努力,包括在 CUDA、Megatron 核心等方面的工作。

我们多年开发的所有软件,像 TensorRT、Triton,所有这些软件的集成,使得全球任何地方的人都能够部署 AI 超级计算机。

然后,当然,AI 软件层进一步简化了 AI 构建过程。那么,AI 到底是什么呢?我们从许多不同的角度讨论 AI,但我认为有两种类型的 AI 会变得特别流行,另外,两个思维模型对我来说也非常有帮助。

第一个 AI 基本上是数字 AI 工作者。这些 AI 工作者具备理解、规划和执行的能力。

有时,数字 AI 工作者被要求执行市场营销活动、客户支持、制定供应链计划、优化芯片设计、协助编程,甚至可以在药物发现行业中担任研究助理或实验室助理。

或许,这些 Agent 人可以作为 CEO 的私人导师,也可以成为我们员工的辅导员。这些 AI,这些数字 AI 工作者,我们称之为 AI Agent 人,实际上它们就像是数字化员工。

就像数字员工一样,你必须对它们进行培训。你需要通过创建数据来迎接它们加入公司,教它们关于公司的知识。

根据你希望它们承担的具体职能,你会为它们提供相应的技能培训,培训完成后,还需要评估它们,确保它们学到了应学的内容。你还需要设立保护机制,确保它们只完成指定的任务,而不是不该做的事情。

当然,你还需要运营这些 AI Agent,部署它们,向它们提供来自 Blackwell 的能量和 AI token,它们将与其他 Agent 进行互动,协同工作,解决问题。你将看到各种不同的 Agent。为了让生态系统更容易为企业构建 AI Agent,我们开发了几种工具。

英伟达并不从事服务业务,也不创造或交付最终产品,也不提供完整的解决方案。我们所做的是提供技术支持,帮助生态系统创建、交付并不断改进 AI。我们的 AI Agent 生命周期平台叫做 Nemo。

Nemo 提供了我之前提到的每个阶段所需的库,从数据整理到训练、微调、合成数据生成、评估再到保护措施。所有这些库都已集成到全球各地的工作流和框架中。

我们与 AI 初创公司以及像埃森哲(Accenture)和德勤(Deloitte)这样的服务提供商合作,推动这项技术走向全球的大型企业。

我们还与像 ServiceNow 这样的 ISV 合作,帮助他们创建使用 ServiceNow 的 AI Agent。

今天,你可以通过许可 ServiceNow 平台来使用它,并且你的员工与 ServiceNow 平台互动获取帮助。未来,ServiceNow 还将提供大量 AI Agent,基本上就是你可以租用的数字员工,帮助你解决问题。

我们正与全球的 SAP、Cadence、Ansyr、Snowflake 等公司合作,目的是共同构建能够帮助提升企业生产力的 AI Agent。

现在,这些 Agent 能够理解、推理、规划并采取行动,而这些 Agent 实际上是一个由多个 AI 模型组成的系统,并非单一模型。Nemo 帮助我们构建这些 Agent。

同时,我们还创建了预训练的 AI 模型,并将它们打包成所谓的 Nim(Nemo 推理),这是一种微服务。

所以这些 Nim 就像微服务一样,它们基本上是打包的 AI。过去,软件是以盒装形式包装的,配有光盘,而今天的 AI 则以微服务的形式打包,软件本身是智能的。

你可以与这些软件进行对话,因为它能够理解你说的内容。而且,你还可以将这些软件与其他软件连接起来。

你可以把这个 AI 与其他 AI 连接在一起,组合成一个 AI Agent,这就是第一点。让我举一个例子,说明这些 AI Agent 的应用。

AI 正在改变各行各业,利用复杂的推理和迭代规划解决跨学科的复杂问题。

AI Agent 能够加速市场营销活动上线,提供即时洞察;帮助优化供应链,节省数亿成本;还可以通过帮助分析师快速识别漏洞,将软件安全处理流程从几天缩短到几秒。

AI 之所以如此强大,是因为它能将数据转化为知识,再将知识转化为行动。

举个例子,这个数字 Agen t 能够通过从一系列信息密集的研究论文中提取洞察来教育个人,这些研究论文是通过英伟达 AI 蓝图构建的。英伟达 AI 蓝图是一种参考工作流程,包含英伟达加速库、SDK 以及 Nim 微服务,帮助用户快速构建和部署 AI 应用程序。

多模态 PDF 数据提取蓝图帮助构建数据摄取管道,而数字人类蓝图则提供了流畅的类人互动。

AI Agent 系统包括三个部分。Nemo、Nims 和 Blueprints。

这些资源都可以公开获取,你可以根据需要使用并构建属于自己的 AI Agent 团队。没有哪个 Agent 能够完成某个人的 100% 工作,没有任何 Agent 能做到这一点。

然而,所有 Agent 将能够完成你工作中的 50%,这就是巨大的成就。

与其认为 AI 会替代一部分员工的工作,不如看作 AI 为所有员工完成了其中的 50%。这种思维方式下,你会发现 AI 将帮助提升公司整体的生产力,进而提升你的个人生产力。

人们经常问我,AI 会不会取代我的工作?我总是回答,AI 本身不会取代你的工作,只有当别人使用 AI 时,才会取代你的工作。所以,确保尽早开始使用 AI。第一个应用是数字 AI Agent,这些就是数字 Agent。

第二个应用是物理 AI,基本技术是一样的,这些技术现在已经体现在机械系统中。机器人技术毫无疑问将成为全球最重要的行业之一。

直到现在,机器人技术还受到很多限制。而这个限制的原因非常明确。事实上,在日本,全球 50% 的制造机器人都是在这里生产的。

川崎、Fanuc、安川、三菱是全球机器人技术的四大领先企业,生产了全球一半以上的机器人。

尽管机器人在提高制造业生产力方面发挥了重要作用,但机器人产业在很长一段时间内增长缓慢。其原因在于机器人技术过于局限,缺乏灵活性,无法适应不同的场景、条件和工作需求。

我们需要一种更加灵活的 AI,能够自我适应并进行自主学习。

你会注意到,直到现在我们描述的技术——Agent 型 AI——无论是谁,都应该能够与这些 Agent 进行互动,并得到回应。

当然,有时这些回应可能不如我们自己产生的回应,但事实上,许多情况下它们的回应甚至比我们更好。

因此,我们可以将这种通用 AI 技术应用到具身 AI 或物理 AI 领域,也就是我们通常所说的机器人技术。为了实现机器人技术,我们需要构建三台计算机。

第一台计算机用于训练 AI,就像我们之前提到的所有示例一样;第二台计算机用于模拟 AI,你需要为 AI 提供一个练习环境,让它能够学习和从合成数据中汲取知识。我们称之为 Omniverse。

Omniverse 是我们为物理 AI 和机器人技术创建的虚拟世界数字双胞胎物理 AI 库。在训练、验证和评估之后,你可以将经过训练的模型移植到物理机器人中。

在这一过程中,我们有专为机器人设计的处理器,名为 Jetson Thor。

Thor 是一个为类人机器人设计的机器人处理器。这一过程将不断循环。就像 Nemo AI Agent 生命周期平台一样,Omniverse 平台也可以帮助你创建 AI。最终,你所期望的 AI,将在屏幕左侧看到一个世界,它能识别视频、周围的环境以及你的需求,并生成相应的动作。

就像我们可以处理文本并生成视频一样,我们也可以处理文本并生成药物化学成分。我们可以处理文本并生成肢体动作。这个概念与生成式 AI 非常相似,这也是我们认为现在我们已经具备了必要的技术基础——从 Omniverse 到我们构建的所有计算机系统,再到最新的生成式 AI 技术——时机已经成熟,人工智能和机器人技术的结合已经成为现实。

那么,为什么类人机器人这么难做呢?显然,作为人类我们自身就非常复杂,为类人机器人开发软件更是异常困难。

然而,回报是巨大的。现在,世界上只有两种类型的计算机可以轻松部署到全球各地。第一种是类似汽车的机器人系统,这主要是因为我们已经为汽车打造了适应的世界。

第二种是类人机器人。这两种机器人系统可以在全球任何地方部署,因为我们已经为我们自己创造了这个世界。虽然这两种技术都异常复杂,但时机已经成熟,其影响力也将是巨大的。

就在上周的机器人学习大会上,我们宣布了一个非常重要的新框架,叫做 Isaac Lab。

Isaac Lab 是一个强化学习虚拟仿真系统,能够教会类人机器人如何成为类人机器人。我们在此基础上开发了多个工作流程。第一个工作流程叫做 Groot Mimic。Groot Mimic 是一个框架,允许通过人类示范教导机器人如何完成任务。

通过使用领域随机化技术,我们可以生成大量类似示范的其他实例,帮助机器人学会如何概括。如果没有这个过程,它只能完成非常特定的任务。通过 Mimic,我们能够让机器人学习到更为广泛的技能。

第二个流程是 Groot Gen Groen,利用生成式 AI 技术,在 Omniverse 平台上,我们可以创造出大量随机化领域的环境实例,并设计出希望机器人执行的各种动作。

所以我们正在开发一系列测试、评估系统和评估场景,让机器人可以进行尝试并自我提升,学习如何成为更优秀的机器人。

第三项是群体控制。群体控制是一个模型蒸馏框架,允许我们将所有学到的任务和技能浓缩为一个统一的模型,使机器人能够执行运动学技能。

我刚才讲到的这一点,还有一个更重要的:机器人不仅会变得自主,未来的工厂也将实现机器人化。这些工厂将是机器人驱动的,负责协调机器人,构建机械系统,这些系统本身也是机器人。

真是一个不可思议的时代。

所以我们有两种机器人系统,一种是数字化的,我们称之为 AI Agent。你可以在办公室中使用这些 Agent,与员工合作。第二种是物理 AI 系统,即机器人技术。这些物理 AI 系统将成为公司构建的产品。

因此,公司将使用 AI 来提升员工的生产力,而我们将利用 AI 来驱动和增强我们销售的产品。未来的汽车公司将有两座工厂:一座生产汽车,另一座生产车载 AI。这就是机器人革命的开始。

全球范围内都在进行大量的活动,我无法想象哪个国家比日本更适合引领机器人 AI 革命。

原因很简单,正如你们所知道的,你们喜爱机器人,且创造了世界上最优秀的机器人。这些机器人陪伴了我们成长,成了我们一生钟爱的存在。其实我还有很多最喜欢的机器人没展示出来,比如魔神 Z、钢弹等,实在是太多了,但我可别忘了提到那个失控的机器人,抱歉。

所以,我希望日本能够借助最新的人工智能突破,将其与你们在机电一体化领域的顶尖专业知识相结合。

世界上没有哪个国家在机电一体化方面比日本更具优势。抓住这个非凡的机会,对你们来说至关重要。希望我们能够共同努力,推动这一梦想的实现。英伟达 AI 在日本取得了巨大的成功,我们有很多合作伙伴。我们有一些合作伙伴正在构建大型语言模型,如东京科技研究院、乐天等。

AI 在许多不同的领域都有广泛应用,尤其是在药物发现行业,AI 的应用方式非常多样。

因此,我对这里的进展感到非常兴奋,我们希望能够加速发展,抓住 AI 革命的机会。

这个行业正在发生变革。正如我之前所说,计算机行业已经从基于 CPU 的编码时代,转变为如今基于 GPU 运行的机器学习时代,人工智能行业正从一个单纯的软件制造行业,变成一个专注于制造人工智能的行业。

人工智能是在工厂中生产的,这些工厂全天候 24 小时运作。当你购买软件并将其安装到计算机时,软件的制造和分发已经完成。

然而,智能是永远不完结的,你不断与所有 AI 系统互动,无论是 AI Agent 还是 AI 机器人,智能以 token 为表现形式,而 token 是智能的单位,它是一个数字。

这些数字被以不同的方式组织在一起,从而形成了智能——例如,语言中的智能、方向盘中的智能、自驾车中的智能、控制人形机器人的马达中的智能、药物发现中的智能等等。

所有这些 token 都在这些工厂中生产。这些基础设施和工厂之前从未存在过,它们代表了全新的产业,这也是我们为何看到全球范围内首次出现如此多的技术进展。

我们正在迎来一个新行业——一个全新工厂的诞生,我们称之为人工智能制造。

这些工厂将由各家公司建设,每家公司都将成为 AI 制造商。显然,任何公司都无法承受不生产人工智能的后果。任何公司又怎么能承受没有智能的未来?任何国家又如何能够承受没有智能的未来?

你不必生产芯片,也不必生产软件,但你必须生产智能。智能至关重要,它是你的身份的核心,也是我们的身份的核心。

所以我们有了新的行业——AI 工厂。这就是我所说的新工业革命。

上一次这种变革发生是在 300 年前,当时电力被发现并开始普及,电力的生产和分配,以及新型工厂的诞生。那个新工厂不是发电厂,而是能源行业的一部分,发生在工业革命的背景下。而现在,我们迎来了一个全新的行业,这是前所未有的。

人工智能不仅是计算机行业的产物,它还被各行各业应用和创造。

你们必须创造自己的 AI。制药行业要创造自己的 AI,汽车行业要创造自己的 AI,机器人行业也要创造自己的 AI。每个行业、每个公司、每个国家都必须拥有属于自己的 AI,这就是一场新的工业革命。

我今天有一个重要的宣布:我们将与软银合作,在日本建设 AI 基础设施。我们将共同建设日本最大的 AI 工厂——英伟达 AI 工厂。

这个工厂将基于英伟达 DGX 平台,计划在明年年初建成。

当工厂完成时,它将拥有 25 个 Exaflops 的计算能力。请记住,最近世界上最大的超级计算机才刚刚达到 1 Exaflop,而这个工厂将有 25 Exaflops 的能力,专门为生产 AI 而设。

但为了分发 AI,软银将集成英伟达 ISS Aerial,这是我之前提到的 5G 无线电引擎,它基于 CUDA 架构。通过这种方式,我们可以统一整合无线电、计算机、基带和来自 5G 网络的 AI 计算能力。

现在我们可以发展并重新构建电信网络,将其转变为 AI RAN(无线接入网络)。它不仅能传输语音、数据、视频,还能传输 AI——一种全新的信息智能。

这个网络将通过软银的 20 万个站点,服务于 5500 万用户。AI 工厂将制造 AI,AI 分发网络将分发 AI。

我们还将基于这一基础设施建立一个新的商店——AI 商店,软银和第三方创建的 AI 产品将通过这个平台提供给 5500 万用户。我们将在英伟达 AI 企业平台的基础上构建这些应用程序,并推出一个新的商店,让所有人都能享用 AI。

这将是一次巨大的发展,最终将形成一个遍布日本的 AI 网络。这个 AI 网络将成为基础设施的一部分。

而且,最重要的基础设施之一,记住,你需要工厂和道路作为基础设施的一部分,才能制造和分发商品。你还需要能源和通讯,作为基础设施的一部分。

每当你为基础设施做出根本性创新时,就会诞生新的产业、新公司、新经济机会和新的繁荣。如果没有道路和工厂,我们如何能够经历工业革命?没有能源和通讯,我们如何能迎来信息技术革命?

每一项新的基础设施都为我们带来了新的机会。所以,对于我来说,与软银合作,在日本实现这一目标,真的非常令人兴奋。这是一次彻底的革命。这是第一次把电信网络转变为人工智能网络。

好了,让我给你展示你能做到的事情。比如这个例子。

我现在站在一个基站下方,站在一个无线电塔旁,车上有视频,而这些视频正通过基站进行流媒体传输。这个基站装有 AI。这个无线电塔配备了视频智能,它能看到汽车所看到的一切,并理解汽车所看到的内容。

这个 AI 模型可能太大,不能安装在汽车上,但它绝对可以放在基站里。通过基站接收的视频,它能理解汽车和周围环境发生的任何事情。

好的,这只是一个使用边缘 AI 保证安全的例子。或者说,它基本上是自驾车的空中交通管制,应用范围是无限的。我们还可以用这种基本思路,将整个工厂转变为 AI。

看,这是一家工厂。现在,我究竟在哪里?好的,我迷路了,这里有许多摄像头,视频被流传到基站。令人惊讶的是,凭借这些摄像头和 AI 模型,这家工厂现在已变成了一个 AI。

你可以与工厂对话,询问工厂发生了什么。问工厂:今天是否发生了任何事故?有没有异常情况?今天是否有人受伤?所有这些信息会以日报的形式提供给你,你只需要询问工厂,因为现在工厂已经变成了 AI。

这个 AI 模型不必在工厂内部运行,它也可以在软银的无线电系统中运行。好吧,这是另一个例子。实际上,你可以将几乎所有的物理对象转变为 AI——体育场、道路、工厂、仓库、办公室、大楼。

它们都可以成为 AI。你只需要像和 ChatGPT 对话一样与它们沟通。那么,仓库过道的情况如何?是否有任何障碍物或溢出物?你只是与工厂对话。

工厂已经观察并理解了所有情况,它可以进行推理并规划行动,或者只是和你对话。它可能会回答:「不,仓库过道没有障碍物、溢出物或危险。视频中的过道状况看起来井然有序、清洁且没有任何障碍或危险。」。

好的,现在你们是在与工厂对话,这太不可思议了。你们是在与仓库对话,你们是在与汽车对话,因为这些现在都已经变得智能了。

懊悔错失英伟达,黄仁勋与孙正义相同的痛

黄仁勋:嗯,今天也还有一位非常特别的嘉宾,也谈谈如何将人工智能带到日本。这个朋友,你们可能认识他。伟大的 Masa(孙正义,Son Masayoshi),来告诉大家一些事儿。

我不知道你们是否知道这件事,我在科技行业已经很多年了。计算机行业从 PC 到互联网,再到云计算,接着是移动互联网,云计算最后到人工智能。

Masa 是唯一一个在每一代都能够选对赢家并与之合作的企业家,唯一的创新者。

记住,正是 Masa 把 Bill Gates 带到了日本,是 Masa 把 Jerry Yang 带到了日本,正是 Masa 让中国的云计算产业得以诞生,是 Masa 帮助阿里巴巴起飞,还是 Masa 把 Steve Jobs 和 iPhone 带到了日本。

你们中很多人可能不知道,曾经 Masa 是英伟达的最大股东。哦,没关系。

你是怎么做到的?你是如何挑选出计算机历史上每一项技术革命的创新者?

孙正义:嗯,我觉得我只是运气好。我生在了对的时代,遇到了像你这样的伟大企业家。

这是一种激情,一种梦想,也是一种本能,你能嗅到谁是真正的开拓者,谁是真正的创新者。我真的觉得我很幸运。但这也是一样的愿景,我们能嗅到彼此,对吧?

就像狼嗅到彼此的气味。我觉得我们像狼一样能闻到彼此。

黄仁勋:我有两只小狗。我现在不喜欢这个比喻。回顾历史,正如你所说,这次的过渡、平台的变革和革命,和以前的革命有什么不同?你觉得有什么区别吗?

孙正义:嗯,我认为这是最令人兴奋、最具活力的未来前沿。这比之前的一切要大 100 倍、千倍。这是最大的浪潮,我告诉你。

黄仁勋:是的,我认为从数学上或从产业角度来看,必须认识到,虽然 AI 是软件,但它是一种非常不同类型的软件。你和我共同创造的那个软件产业,是工具产业,是为人类使用的工具。

而这种新的软件类型,神经网络、大型语言模型、智能 Agent 和机器人,它们不是工具,它们是技能,它们是任务。它们能做事,能执行工作,而「工作产业」的市场,不是 1 万亿美元,而是 100 万亿美元。

黄仁勋:这就是我们意识到,这个行业实际上不仅仅是 IT 行业的转型,它是每个行业的转型,这也是为什么它如此重要。

孙正义:是的,人类是唯一拥有超级大脑的动物,相比其他物种。正是因为大脑的强大,人类才如此强大。如果仅仅从肌肉来看,像狮子和大象,它们的肌肉更强壮,但人类拥有最聪明的大脑。

今天全球 GDP 的所有活动都基于人类的大脑活动。我认为每个行业都会被这场革命所影响。

黄仁勋:你说得对,当然其中一件令人惊讶的事是,受原子支配的行业,它的规模是有限的。因为原子数量有限,你能移动的原子也有限,而且它们很重。

但人工智能行业是由电子构成的,没错,它受量子力学的支配,规模是无限的。

孙正义:对,智能的价值远远高于单纯的物质运动。想一想那种思维的链条、推理过程,真是不可思议,太神奇了。

黄仁勋:是的,今天我们宣布的其中一项重要内容就是一起建设日本的 AI 网格。

这个 AI 网格将包括 AI 工厂,用于开发 AI 模型,还会有 AI 网络,能够将这些 AI 模型分发到日本各地。我们共同设计的 AI 工厂架构和 AI 网络是革命性的,世界上没有类似的模式。

日本将成为全球第一个实现这一目标的国家。

孙正义:是的,其他的电信公司必须跟随这股新潮流。

黄仁勋:接下来我有几个问题想问你。首先,软银如何将这个系统应用于自己和你的子公司?你如何看待这个 AI 网络会如何彻底改变日本的 AI 产业?

孙正义:正如你刚刚提到的,我们的基站过去只是用于承载电信和互联网等数据传输。然而,现在,通过这个智能网络的支持,我们将彼此紧密连接,成为日本智能基础设施的一部分。这将是非常惊人的。

黄仁勋:当然,你也可以将它应用于你的子公司,像我提到的雅虎日本和 PayPay,没错。所以,你可以创建 AI 系统,使你们所有的服务变得更加有趣和实用,提升消费者体验。

但我最兴奋的一点是,能将这个资源开放,供研究人员、学生和初创公司使用,让他们在日本得到成长。

孙正义:确实如此,得益于你们的支持,我们正在创建日本最大的 AI 数据中心,我和宫川正在商讨,我们应该将这个平台开放给许多研究人员、学生和初创公司,以鼓励他们发展。

我们也在努力补贴,帮助他们更好地访问这些计算资源。

黄仁勋:建设基础设施需要大量资本投入。是的,你正在对日本进行一次重大的投资。你知道,我们以前讨论过很多次,在很多方面,日本曾在机电一体化时代引领了技术革新,那时候机械技术和电子技术开始结合。

事实上,即便是在那个时代,日本在消费电子领域也确实引领了全球。然而,当 IT 行业和软件开始崛起时,我认为过去三十年,西方和中国的软件行业蓬勃发展,而日本本可以更加积极一些。

孙正义:那时候,甚至直到今天,很多大企业和媒体都认为自己是「成年人」,他们曾说过「做物理产品」,意思是做实体的东西才有真正的价值和意义,而软件只是虚拟的,难以信任的东西。

这样对软件价值的看法在日本已经存在了很多年,这也导致年轻创业者特别是经历了互联网泡沫破裂后,感到沮丧与压抑,批评的声音让年轻人受到了很大的打击。

我认为,我们必须通过机器人技术来重新燃起这份激情,正如你所说的,将人工智能融入机器人技术。

日本有「铁臂阿童木」这样的卡通形象,而我最喜欢的就是特斯拉的机器人。你不能只有肌肉,机器人必须拥有智能,才能说话、拥有情感,成为朋友。

我认为,这种前沿技术的推动,以及我们的挑战,现在在日本非常需要。

黄仁勋:是的,我认为软件时代现在已经到来。好消息是,这标志着新时代的开始。

孙正义:是的,重置一次,再次重置,按下重置按钮。

黄仁勋:没错,行业正在重置。你可以看到,整个技术栈正在被重构,因为上一代的公司在这个新时代里并不顺利。没错,所以涌现了一个全新的技术栈,带来了前所未有的机会。

日本必须把握这个机会,利用这段时间。而人工智能与软件完全不同。人工智能要求你拥有数据和领域专长。是的,如果你是艺术家,你就拥有领域专长。如果你开发视频游戏,你也具备领域专长。

黄仁勋:如果你从事药物研究,发明新药,你也拥有领域专长。如果你拥有领域专长,你可以用数据来描述这些专长,这些数据可以用来训练 AI 模型,而这个 AI 模型就变成了你的人工智能。

孙正义:完全正确。所以,这是一个全新的机会。幸运的是,日本至少没有压制这场 AI 革命。其他一些国家试图过度保护他们的技术,因此他们的监管体系变得有些混乱。

而在日本,至少我们很幸运,政府似乎并没有对这场革命设障碍。虽然如此,我认为政府应该更加鼓励 AI 发展,鼓励更多的创新。正如你所说,这就是行业重置的时刻,这是迎接新革命的最佳时机。

孙正义:我们绝对不能错过这个时刻,不能错过这个机会。

黄仁勋:当然,要成为人工智能革命的一部分,你需要基础设施和这种类型的软件,因为它是机器学习。你将需要大量的资源。谢谢,谢谢。而且你需要基础设施。

没有基础设施,就不可能完全实现人工智能。这就是为什么软银正在日本建设 AI 网络的原因。是的,你将催化、激活并加速这里已经存在的所有活动。

孙正义:我们通过我们的示范来展示。

黄仁勋:是的,希望今天我们在日本已经与 350 家初创企业合作。是的,350 家初创企业,而全球有 22000 家。是的,这个比例并不合理。所以我们必须鼓励年轻企业家和创新者大胆尝试,投入到 AI 领域。基础设施已经到位。

孙正义:正如我和 Miya Kawa 讨论的那样,我们将创建日本最大的 AI 数据中心。所以我们将提供很多鼓励性项目,补贴计算能力,让他们几乎可以免费使用,几乎免费去尝试新的模型,测试他们的应用程序。

AI 的应用也应该得到一些捐赠的支持,对吧?

黄仁勋:好吧,最后,这是我最后一次邀请 Masa,每次见到 Masa,我就得花钱。

孙正义:这对大家都有好处。

黄仁勋:是的,非常高兴听到这些。Masa,你最期待日本未来 AI 的哪些方面?你有什么期望?你的梦想是什么?

孙正义:嗯,正如你说的,我对 AI 和机器人技术非常热衷。

我认为,AI 医疗解决方案,尤其是医疗 AGI,肯定会到来。我也看到现在有很多新的 AI Agent 出现,比如我们有 LINE,有 Yahoo,还有其他服务,PayPal 也可以为帮助日本的生活方式定制许多专门的 AI Agent。

这些完全可以由我们提供。你知道的,我们了解日本的文化、行为、当地的智能和 API,日本的许多网站都在使用这些技术。所以我认为,企业 AI Agent,我非常支持你提到的这个方向,对此我感到非常兴奋。

但我也认为,个人 AI Agent 会真正出现在每个人的生活中。比尔·盖茨曾经说过,「每个桌面上都有一台 PC」,史蒂夫·乔布斯说过,「每个人的手上都有一部智能手机」。

我觉得现在我们应该说,「每个人都应该有自己的 AI Agent」。所以,未来每个人都会拥有自己的个人 AI 助手。没错,它将帮助我们规划旅行、假期,甚至是教育。

黄仁勋:它将伴随你一生。是的,你能想象有一个 AI Agent 了解你的一生吗?

孙正义:完全对,我们的孙子、孙女们从一岁开始就会和 iPhone 一起成长。每当他们看到一张照片时,他们都会用手指去触摸,哪怕是静态图片也一样。因为他们从小就学会了用两根手指。

将来他们会想,或许每张图片都可以被放大?

黄仁勋:他们看到图片后,会和它说话,对吧?他们戳一戳,希望它能回应。

孙正义:你可以想象,他们从一岁起就有了自己的个人 AI 助手,像第二个朋友一样,陪伴他们一起成长,了解一切。当他们生病时,AI 助手知道,家里有什么,或者它是他们的私人导师。

黄仁勋:是的,从小就开始,完全没错。它记得你读过的一切,记得它教给你的一切,完全像你的个人亚里士多德。

孙正义:完全是,完全是数字孪生。我觉得它真的是要来了,结合日本本土的知识、文化等等,再加上本土化的 Agent 商业化,我们的未来将是巨大的、惊人的。

黄仁勋:是的,你知道,大多数国家现在都意识到,国家的公民数据其实承载了这个国家的知识、文化和智慧,而这些数据应该属于国家,就像国家的安全一样。

所以每个国家都应该处理自己的数据,转化为为本国人民服务的人工智能,完全没有理由将这些外包给别人。

孙正义:这是非常非常重要的。每个主权国家、每个政府都必须把国家安全数据迁移到自己的数据中心 AI 数据中心,这将成为每个国家必须具备的东西。每个国家都必须确保自己的数据安全。

我认为,未来每个国家都会形成相关的法律法规,确保每个国家都能生成属于自己的智慧。

黄仁勋:当然,每个公司也将创造属于自己的智慧、属于自己的人工智能。是的,怎么可能有公司不创建自己的人工智能呢?

孙正义:是的,公司把自己的「大脑」交给别人。

黄仁勋:没错,没错。所以我认为世界已经开始觉醒了。而最重要的第一步,就是必须要有一个国家级的 AI 网络。没有基础设施,你怎么可能有汽车工业呢?

孙正义:完全是,完全是,你知道的。

黄仁勋:所以,你已经为日本建设了 AI 的「道路」,在这些道路上,各种新的服务和新公司将蓬勃发展。我真的非常非常激动。好吧,Masa,你能想象如果今天你是英伟达最大股东的话?

孙正义:哈哈,没错。我们曾经有过三次成为英伟达最大股东的机会。

黄仁勋:我记得是两次。

孙正义:不,不,不,第一次我们通过市场购买成为股东,我们讨论过的,嗯,甚至谈到了我们不愿提的事情。别说了。十年前,如果我知道现在会后悔,我一定会……

黄仁勋:没事。让我告诉你们 Masa 说了什么。Masa 说,Jensen,市场不理解英伟达的价值。你的未来是不可思议的,但市场无法理解它。

那是十年前的事了,你的痛苦之路还将继续,因为你在创造未来。所以让我给你钱去买英伟达。他曾想借钱给我去买英伟达。

现在我后悔没接受那个提议。真是个好主意。好吧,最棒的主意。

黄仁勋:对的,这个就是我们刚才说过的那个主意,那是我收购之后的一个月。是的,接着我们讨论了合并这两家公司。是的,另一个,另一个秘密的梦想。

孙正义:那个是我们最初的想法。第一次我们讨论的是私有化,然后第二次我只是通过市场购买,第三次就是……哦,好吧,三次尝试。

黄仁勋:但现在我们将共同创造不可思议的价值。是的,英伟达和软银将会合作。市场太不可思议了。

孙正义:哈哈哈哈哈哈,很不错。

黄仁勋:所以我非常高兴,我们正在做一件如此有意义的事情。是的,我对日本的未来充满希望。

孙正义:嗯,这只是个开始,我们将一起做很多事情。谢谢你,行业非常庞大,有大量的移动、物联网和汽车领域,而你们有出色的数据中心、游戏以及其他领域,我们可以有很多合作机会。

黄仁勋:我很期待这一切。是的,女士们,先生们,阳光明媚。孙正义,嗯,我毫无疑问地认为他是世界上最伟大的企业家之一。

感谢 Masa 先生。你们可以看到他对人工智能的热情,我们正在开展的合作伙伴关系将为日本带来 AI 网络,从工厂到分布式 AI 网络。在我离开之前,我想欢迎大家参加 AI 峰会。这里有很多精彩的会议,也有很多合作伙伴。

我们的目标,我们的使命是与大家合作,将 AI 带到日本,在这里激活 AI,并利用这次技术重置的机会,推动企业转型,打造下一个伟大的公司。

日本对我来说一直特别亲近。大多数人可能不知道,如果没有日本,我非常严肃地说,如果没有日本,英伟达今天可能不会在这里。而且有原因的。

如果没有日本,我们也看不到第一台 AI 超级计算机的诞生。所以,日本对我来说一直非常重要。我非常感激我们的合作伙伴关系,也非常感激你们的友谊。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Before yesterdayMain stream

国产 AI 视频神器大更新,支持 4K、60 帧,视频生成有声时代来了 | 附体验链接

By: 莫崇宇
8 November 2024 at 17:11

今年的 AI 视频生成领域呈现出一种如火如荼的架势。

从最初卷生成时长到卷画面质量,再到最近卷起 AI 特效,行业厂商们开卷的方式千奇百怪,但目标都是共通的,那就是铆足了劲地吸纳新用户,留住旧用户。

然而,尽管市面上许多视频模型号称一键生成视频,但如「默剧」般的成品多少形如鸡肋。尤其是我们对 AI 视频的刺激阈值被一再拔高,音效的缺失就像被捶打的钉子,在用户的心里越扎越深。

当然,厂商们不是不想彻底解决这颗钉子,只是恰好在等待一个厚积薄发的时机。

三个月前,作为国内首个面向公众开放的视频生成产品,智谱清影上线清言 App,只需一段指令或图片,30 秒就能生成 AI 视频。

三个月后的今天,智谱清影再次迎来了一大波重磅升级。

10s 时长、4k、60 帧超高清画质,任意尺寸、更好的任务动作和物理世界模型……除了开卷这些基本功,更重要的是,智谱清影也即将在本月上线生成与画面匹配的音效了。

附上新清影具体升级亮点:

  • 图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力明显增强;
  • 更强的人物面部表演细节、动作连贯性和物理特性模拟,提高了视频的自然度和逼真度;
  • 支持生成 10s、4K、60 帧超高清视频,支持任意比例的图像生成视频;
  • 同一指令/图片可以一次性生成 4 个视频,与画面匹配的音效功能将很快在本月上线公测;

并且,当人们还在为 AI 开源/闭源争论不休时时,智谱却是国内少有一贯支持开源的企业,而在今天,智谱也正式发布并开源最新版本的视频模型 CogVideoX v1.5。

此次开源包括两个模型:CogVideoX v1.5-5B、CogVideoX v1.5-5B-I2V,后续,CogVideoX v1.5 也将同步上线到清影,并与新推出的 CogSound 音效模型结合。

代码:https://github.com/thudm/cogvideo
模型:https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

官方宣布,新清影即日起在智谱清言 App 上线。话不多说,直接附上体验地址:https://chatglm.cn/video?lang=zh

4K 60 帧,新清影已经 next level 了

和蔼的老人面带微笑,面部肌肉细节清晰可见,没有明显的像素化或模糊现象。

火焰老虎的形象也令人印象深刻,不仅步态拟真,眼神之中还透露出一种野性的美感,身上的火焰颜色也呈现出丰富的色彩层次和深度。

车辆急速飞驰,场景转换没有卡顿或延迟,即使是快速移动的对象也能保持连贯性,而在速度感和紧张气氛的营造上也有一手。

喵星人在线化身大厨,熟稔地翻炒今天的菜品。

不被演示 demo 的花言巧语所迷惑,上手才是检验实际效果的唯一标准。

我们也用图生视频功能上手跑了一个放飞孔明灯的视频。孔明灯被释放,缓缓升入夜空,镜头从下往上跟随,天空也被染上了深邃的蓝色。

又或者,我们「复活」了静止的小黄花,微风拂来,小黄花在草地上轻轻摇曳。

不过「新清影」还是需要一定程度的抽卡,这也是目前国内外 AI 视频模型在稳定性上普遍存在的问题,在日常使用这类产品时,还需要多些耐心。

在我们的测试中,最让我们惊喜的其实是清影的音效生成功能。

对于视频来说,音效和画面总是相辅相成的,基于此,我们也用几段去掉音频的「哑剧」视频,并让 AI 为它们生成相应的音效,建议打开音量键食用。

例如《海上钢琴师》最经典的斗琴环节,你更喜欢这个还是原版呢?

美丽的烟花表演,它们在夜空中绽放的瞬间,搭配上 AI 音效,有没有打动你?

雨滴的声音各异,有的清脆,有的低沉,有的急促,有的悠长。

核爆炸的场景很大,搭配声音却几乎没有延迟,在模拟真实爆炸声,环境噪音以及余波等方面表现出色。

别急,仔细听,还有阿凡达水下探险。

如果 CogVideoX 与 CogSound 强强联合,即由清影技术负责生成画面,而音效模型负责配音,最后生成的视频内容也更加生动、真实,甚至能够触动人心。

从无声到有声,AI 视频进入有声电影时代

1900 年,第一部有声电影在巴黎放映,直到十年后,这种能够将声音与影像同步的技术才逐渐成熟,达到了商业化的标准。

有声电影的问世,不仅仅终结了电影自诞生之初的沉默状态,更重要的是,它将电影从单一的纯视觉艺术转变为视听结合的全新艺术形式。

影片上的演员开口说话,而观众席上也响起对有声电影的欢呼声。

两者心声交响,心音共鸣。

如今,历史的轮回再次上演,从年初的「哑剧」到如今的 AI 音效,如果说前者还是局限于 0-1,那么 AI 音效的加入,则标志着 1-N 史诗级跨越。

基于 GLM-4V 的视频理解能力,智谱家族的新成员——音效模型 CogSound 能够准确识别并理解视频背后的语义和情感,并在此基础上生成与之匹配的音频内容。

例如,爆炸、水流、乐器、动物叫声以及交通工具声等。

在影像叙事中,声音的到来是一个关键拐点,它不仅使叙事从依赖文字构建的视频中突围,而且在观念和方法上都带来了更广阔的想象空间。

然而,影视行业对 AI 的引入无疑是充满争议的。

上个月,好莱坞演员的罢工风波尚未平息,而导演卡梅隆则在出席峰会时表示,AI 将会重新定义电影故事讲述,帮助编剧导演探索新的故事线,以及叙述手法。

放诸到视频产业界,音效模型也有着广泛的应用场景,比如可以生成电影中的大规模战斗场景和灾难场景的声音,大大缩短制作周期,降低制作成本。

只是,AI 时代下的视听艺术究竟应该会是什么样?

历史上的技术大爆发给我们提供了一些思路。如果说工业革命的机械化、流水线作业等方式,让标准化的大规模生产成为可能,那么随着 AI 的到来,通过学习大量的数据和模式,能够模仿人类的决策过程、并且根据每个用户的具体需求和偏好定制个性化服务。

简言之,通过降低使用门槛,AI 让每个普通人都能手捏自己喜欢的个性化视频。

法国新浪潮的代表人物让-吕克·戈达尔,也曾探讨过电影技术变革对电影语言和艺术性的影响:

「电影不是仅仅在拍摄时使用声音和影像,而是在观众心中构建某种语言。无声电影通过视觉创造了更多的可能,而有声电影则改变了这种创作方式。」

而追溯至今年 2 月份,人们关于 AI 视频的展望是由 OpenAI 发布的 Sora 率先拉开,但很遗憾,直到此时此刻,该产品却仿佛陷入「如来」的状况,至今未见踪影。

也正是在这个期间,我们很高兴能够看到国内厂商甚至在这一赛道交出了不错的成绩单。

不过,这或许还只是开胃小菜,智谱认为真正的智能一定是多模态的,听觉、视觉、触觉等共同参与了人脑认知能力的形成。

构建包括文字、图像和视觉等模态在内的智谱多模态大模型矩阵,能够进一步提高大模型的应用和工具能力,也是在迈向 AI 的终极目标——AGI。

至此可以说,我们真正迈入了 AI 有声电影时代。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


ChatGPT 的 AI 搜索正式上线!即将免费可用,实测后我们发现了这些细节

By: 莫崇宇
1 November 2024 at 08:49

就在刚刚,OpenAI 正式推出 ChatGPT search 功能。

调用的方式非常简单,ChatGPT 会根据你的问题选择搜索网络,亦或者选择通过点击问题框左下角的「网络」搜索图标手动选择搜索。

所有 ChatGPT Plus 和 Team 用户,以及 SearchGPT 候补名单用户,今天都可以访问。Enterprise 和 Edu 用户将在接下来的几周内获得访问权限。

值得注意的是,该功能将在未来几个月内向所有免费用户推出,但预计会有次数限制。

为了缩短我们与答案的距离,现在,用户可以更自然、对话的方式提出问题,ChatGPT 可以选择使用来自网络的信息来回答。

同时通过后续问题进行更深入的调查,ChatGPT 会考虑与用户聊天的完整上下文,以便提供更好的答案。

在信息来源方面,ChatGPT 搜索利用第三方搜索提供商以及 OpenAI 的合作伙伴直接提供的内容来提供用户正在寻找的信息,比如与一些新闻和数据提供商达成了合作关系。

并且,OpenAI 还为天气、股票、体育运动、新闻和地图等不同类别使用新的视觉设计。

搜索能力更新之前,ChatGPT 拥有的知识局限于大模型的训练数据,仅限于 2021 年至 2023 年之间。

OpenAI 表示,该搜索模型是 GPT-4o 的微调版本,使用新颖的合成数据生成技术进行后训练,包括从 o1-preview 中提取输出。注意,这里画个重点——GPT-4o 的微调版本。

那化身为 AI 搜索引擎的 ChatGPT 能干些什么呢?我们也试着简单向 ChatGPT 询问几个问题。

2024 年诺贝尔物理学奖和化学奖有什么共同点?

ChatGPT 给出的答案内容详实,充满条理性,还贴心地附上了引用的信息来源。

又或者,我们试着询问「甄嬛的生日和薛宝钗的生日相差几天?」面对中文语境下的问题,显然 ChatGPT 的回答表现一般,甚至也有些数学偏科。

我们试着复现 OpenAI 官方给出的问题示例「what are some great ways to fix up a backyard」。

这回,具体的图片、引用来源、高质量的回答倒是一应俱全了。

制糖工厂的创新产品也罗列得十分清晰,这一点,值得好评。

既然是 AI 搜索引擎,那自然是要考究时效性方面。

很不错,身处广州的我感觉这个回答可以得到满分,看来以后出门不用看天气预报,随手一问就可以了。

当然,如果同一个问题反复问两遍,根据引用的不同信息来源,我们得到的答案也会有所不同。而且,股市有风险,投资需谨慎的免责声明也没落下。

最后,我们也试着在 Mac 桌面端询问了苹果本周发布的新品。这资料的详细程度,以及条理性四舍五入可以充当导购了。

当然,以上只是简单实测,不妨期待我们后续一手详细的评测。

根据 Similarweb 的数据, ChatGPT 在 2024 年 9 月达到创纪录的 31 亿次访问量,同比增长 112%,成为全球访问量第 11 大的网站。

值得注意的是,这甚至超越了 Bing。要知道,这还是 ChatGPT Search 尚未全量推送的结果。

也许再过几年,成长中的 20 后甚至会忘记传统搜索引擎应该怎么用了。

只不过,希望那时已经成为 Google 杀手的 ChatGPT 不要重演屠龙者终成恶龙的故事。毕竟目前 Perplexity 已经撑不住成本,开始考虑竞价广告了。

一如 Sam Altman 在 X 平台表达的初心:

搜索是我们自 ChatGPT 推出以来,我最喜欢的功能!

OpenAI 高管化身客服,在线解疑答惑

在发布 ChatGPT Search 之后,OpenAI 还宣布在 Reddit 上进行了 AMA 问答。

ChatGPT Search、模型、高级语音模式、未来的研究路线图等等,只要问题在合理的范围内,Reddit 用户都可以提出问题,而参与的 OpenAI 高管也会一一作出回答。

一起来看看,有哪些值得注意的回答吧!

Q:对 2025 年有什么大胆预测?
Sam Altman:AI 将全面超越所有基准测试。

Q:计划未来继续推出 o 系列的新模型吗?例如,对 GPT 3、4、4.0、5 等「常规」模型进行改进。是继续这两种方式,还是将它们结合起来?
Kevin Weil:两者都会继续发展!我预计,在某个阶段,它们将会有所融合。

Q:Ilya 看到了什么?
Sam Altman:Ilya 是一位卓越的远见者,他比大多数人更能清晰地预见未来。他早期的创见、热情和愿景对我们所取得的成就至关重要。

例如,他是最初探索并积极倡导一些最终演变成 o1 项目的重要想法的关键人物之一。

这个领域能有他真是太幸运了。

Q:你们什么时候给我们一个新的文本到图像模型?Dalle 3 有点过时了
Sam Altman:下一次更新值得等待!但我们还没有发布计划。

Q:ChatGPT-5 或其类似模型的发布日期是什么时候?它将具备哪些特性?
Sam Altman:我们今年晚些时候将推出一些非常出色的产品!不过,我们不会将其命名为 GPT-5。

Q:你好,OpenAI 团队,谢谢你们举办这次 AMA。我想了解一下 SearchGPT 与主流搜索引擎相比,有哪些独特的优势或关键特点,能够吸引普通搜索引擎用户选择使用它?
Sam Altman:对于许多查询,我发现使用 SearchGPT 能更快、更轻松地获取所需信息。我认为这种优势在需要进行更复杂研究的查询中尤为明显。我也期待未来搜索查询能够动态生成定制的网页作为响应。

Q:你们有没有计划增加 ChatGPT 可以存储的内存?
Kevin Weil(OpenAI 首席产品官):你的意思是更长的上下文窗口吗?如果是这样,是的。

Q:对使用 ChatGPT 进行治疗的人的看法?
Sam Altman:虽然它显然不是一名治疗师,但很明显,很多人通过与它讨论问题而受益匪浅。
我们看到许多初创公司正在积极探索如何在这方面做得更好;我希望有人能创造出卓越的成果!

Q:你好,我想咨询一下 GPT 4.0 的上下文 token 数量何时会增加。我认为,对于较长的编程或写作任务来说,32k 的容量与其他 AI 模型相比实在太小了。
Kevin Weil:同意。我们正在努力!

Q:你会用 ChatGPT 来回答这些问题吗?
Sam Altman:有时,是的。你能说说是哪些问题吗?

Q:是否有计划为出版商提供集成服务,以便他们能够验证和注册账户,从而查看在 ChatGPT 中的呈现方式?理想情况下,他们能够看到自己的内容是如何被引用的,以及引用的频率。
Sam Altman:这是个好主意!我们会谈谈它。不过,目前没有计划。

Q:ChatGPT 的搜索功能在幕后是否仍然使用 Bing 作为其搜索引擎?
A:我们采用了一系列服务,其中 Bing 是一个关键的服务。

Q:AGI 可以通过已知硬件实现,还是需要完全不同的东西?
Sam Altman:我们相信,可以通过当前的硬件可以实现

Q:完整的 o1 什么时候发布?
Kevin Weil:soon(表情包)

Q:为什么 O1 不支持图像输入?
Kevin Weil:我们优先考虑的是先将产品推向市场,而不是等到它功能完备后再发布。图像输入功能将在 o1 版本中加入,而且 o 系列模型将在未来几个月内增加多模态、工具使用等新功能。

Q:Sora 的推迟是由于推理所需的计算资源或时间,还是出于安全考虑?
Sam Altman:我们需要优化模型,确保安全性、防止模仿以及其他方面的准确性,并且还需要增加计算能力!

Q:o1 将如何影响 scaling law?
你们会继续遵循 scaling law 来增大 LLM 的规模,还是会因为推理计算时间的考虑,使得更小型的模型、更快速的推理和更长的推理时间成为主要的研究方向?
Kevin Weil:这并非是非此即彼的选择,而是两者都要——既要提升基础模型的性能,也要增加推理时间计算的资源。

Q:作为一名经验丰富的创始人和与许多人密切合作的人,您如何看待 AI 在创业开发过程中增强创始人的能力?创业将如何因此而改变?
Sam Altman:我对这一点感到非常兴奋!
如果 AI 能将创始人的生产力提升 10 倍,我们将会看到更多(且更优秀的)初创公司的出现。这在许多方面都比拥有一个 10 人创始团队更为高效(例如,减少协调上的负担)。
虽然 10 倍生产力的提升目前看来还比较遥远,但我相信这一天终将到来。AI 带来的经济加速,特别是对初创公司而言,将是显著的。

Q:我们何时可以获得有关 GPT-4o 图像和 3D 模型生成的更多信息?
Mark Chen:很快!

Q:AVM 视觉功能何时能够推出?为什么 GPT-5 的研发周期如此漫长?o1 的完整版本何时发布?
Sam Altman:我们正在优先推出 o1 及其后续版本。

由于这些模型都变得非常复杂,我们无法像期望的那样同时推出多个项目。(我们也面临许多限制和艰难的选择,关于如何将计算资源分配给众多优秀的想法。)

目前还没有确定 AVM 视觉的发布日期。

Q:给 Sam Altman 的问题:你是草莓人吗?
Sam Altman:🍓

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


苹果发布史上最小电脑!M4 芯片+AI,4499 起

By: 莫崇宇
30 October 2024 at 00:11

就在刚刚,苹果官网正式上架了搭载 M4 系列芯片的 Mac mini。

两年没更新的 Mac mini,原来是憋了「小」的:比起内在的 M4 芯片,新的 Mac mini 终于改变了沿用了 14 年的外观,更接近一台 Apple TV,俯视观感更加「mini」。

不过,新的 Mac mini 变得稍厚了一些,从前代的 3.58 厘米一下子「长高」到了 4.97 厘米,总体看上去宛如 Mac Studio 的等比缩小版。

当然,缩小的机身,意味着这款新的 Mac mini 内部不会再像旧版一样有更多的空间散热,这会不会对性能造成影响,还需要上手后进一步测试。

苹果硬件工程高级副总裁 John Ternus 表示:

新款 Mac mini 具备无比强大的性能,同时却又极致小巧,这要归功于 Apple 芯片的优秀能效和创新性的全新散热架构。

此外,新款 Mac mini 提供 M4 和 M4 Pro 芯片的版本,虽然机身更小,但新款 Mac mini 性能却更为强劲。

搭载 M4 芯片的新款 Mac mini 配备 10 核中央处理器和 10 核图形处理器,而搭载 M4 Pro 芯片的新款 Mac mini 集成最多达 20 颗核心,性能最高可达到 M4 芯片图形处理器的 2 倍。

苹果宣称,相比同等价位的 PC 台式电脑畅销机型,Mac mini 的尺寸规格仅为其 1/20,速度却最高快达 6 倍。

相比搭载 Intel Core i7 芯片的 Mac mini,搭载 M4 芯片的 Mac mini 玩《魔兽世界:地心之战》时的游戏性能提速最高可达 13.3 倍,使用 Photomator 的图像优化放大性能提速最高可达 33 倍。

而相较于 M2 Pro,搭载 M4 Pro 芯片的 Mac mini 在 Logic Pro 工程中支持的音效插件数量增加最多可达 1.8 倍。

此外,新款 Mac mini 也首次支持光追,图形处理能力有了更强的升级。

为了迎接 Apple Intelligence,新款 Mac mini 的起步 RAM 也升级到 16GB,最高可升级到 64GB 的 RAM,而旧款 Mac mini 的最高 RAM 为 32GB。

不过,新款 Mac mini 的存储容量最高仍为 8TB,与前代相同。

除了外观和性能,Mac mini 另一个重大改变发生在接口。

老旧但依然流行的 USB-A 接口全面消失,USB 只剩下 Type-C 接口,其中有 2 个分布在正面,搭配上 3.5 毫米耳机接口,更方便使用。

所幸,以太网、HDMI 和雷雳接口都得到了保留,和旧版一样集成在机身的背面。其中 M4 机型配备 3 个雷雳 4 接口。

而且,M4 Pro 机型配备 3 个雷雳 5 接口,能够在 Mac mini 上实现高达 120 Gb/s 的数据传输速度,吞吐能力是雷雳 4 接口的 2 倍以上。

值得一提的是,搭载 M4 芯片的 Mac mini 可同时驱动最多达 2 台 6K 显示器加 1 台 5K 显示器;搭载 M4 Pro 芯片的机型则可以 60Hz 刷新率同时驱动最多达 3 台 6K 显示器。

最后公布价格,这代 Mac mini 标配 16GB 运存+ 256GB 存储的配置,加量但是没加价,售价 4499 元,10 月 31 日上午 9 点接受预购。11 月 8 日发售。

如果回顾历史,乔布斯曾在 2005 年的 Macworld 主题演讲中提到过 Mac mini。

他当时说:「Mac mini 就是 BYODKM」,意为「Bring Your Own Display, Keyboard and Mouse」,即带着你的显示器、键盘和鼠标,苹果提供电脑,剩下的由用户自己负责。

如今,二十年过去了,Mac mini 的定位也从「配角」或「过渡设备」往前迈进了一步。

对许多用户而言,Mac mini 完全可以作为主力机型使用,同时也不会占用太多办公空间。

而在本次升级中,变得更加紧凑的 Mac mini,还引入了强大的 M4 系列芯片,在性能上也毫不妥协,能够胜任专业的内容创作和处理任务。

那么你会愿意抛弃手上的旧 PC,入手这台苹果「小钢炮」电脑吗?欢迎在评论区分享你的看法。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


苹果突然发布新 iMac!M4 芯片加持,还有一个惊喜配置

By: 莫崇宇
29 October 2024 at 00:05

就在刚刚,苹果发布了搭载 M4 芯片的新款 iMac。

上代 iMac 搭载 M3 芯片,在去年的 10 月 31 日与 M3 MacBook Pro 一起发布。

现在,新款 iMac 除了处理器升级到 M4,也没有太大变化。

值得一提的是,iMac 的基础款搭载的是 8 核 CPU、8 核 GPU 的残血版 M4 芯片,满血版的 M4 芯片需要选择更高的配置才能获得。

不过,为了迎接 Apple Intelligence,iMac 的起步 RAM 升级到 16GB,最高可升级到 32GB 的 RAM,而此前,M3 iMac 的最高 RAM 为 24GB。

据苹果宣称,搭载 M4 的 iMac 与 M1 iMac 相比,在 Microsoft Excel 等办公任务中的性能提升至 M1 iMac 的 1.7 倍。

对于内容创作者来说,在 Adobe Photoshop 和 Adobe Premiere Pro 等图片和影像编辑应用中处理复杂效果时,新款 iMac 的处理速度可达到 M1 iMac 的 2.1 倍。

在 iMac 机身规格上,iMac 24 英寸的 4.5K 视网膜显示屏提供了纳米纹理玻璃面板的新选择,不过这个选项也不支持基础版,需要更高的配置才能选配。

搭载 M4 的 iMac 现在提供最多四个雷雳 4 接口,同时可以连接最多两台分辨率高达 6K 的显示器,同步支持录音棚级麦克风、六扬声器系统,支持播放杜比全景声的空间音频。

此外,iMac 在配色上也有新鲜——饱和度适中的银、绿、黄、橙、粉、紫和蓝色组成了阵列,供用户根据使用环境选择。

配合 iMac 一起工作的妙控键盘与鼠标则与 iMac 机身颜色匹配,并终于将接口统一为 USB-C,与苹果其他的产品接轨。

价格方面,新款 iMac 售价 10999 元起。

Siri 焕新,苹果牌 AI 终于来了

与新款 iMac 同步亮相的,还有今天即将广泛推送的 Apple Intelligence。

和之前提前上手的爆料别无二致,首批 Apple 智能功能现已面向 iPhone、iPad 和 Mac 用户推出,随 iOS 18.1、iPadOS 18.1 和 macOS Sequoia 15.1 的发布同步上线。

苹果 CEO Tim Cook 表示:

Apple Intelligence 为 iPhone、iPad 和 Mac 引入了一个新时代,带来全新的体验和工具,将彻底改变用户的成就可能性。

其中,写作工具(Writing Tools)集成于 iOS、iPadOS、macOS,提升邮件、信息、笔记、Pages 等应用的语言表现。

Apple Intelligence 支持文本重写和语气调整。校对功能检查语法、用词、结构,并提供编辑建议。用户可总结文本为段落、列表、表格或清单。

升级后的 Siri 也更加自然、灵活。

Siri 增强了语言理解能力,能处理停顿和连续请求的上下文。它还扩展了对 Apple 产品功能和设置的知识,能回答相关问题,帮助用户学习操作技巧。

照片应用程序也将变得更加智能,具备多种新功能。

自然语言搜索让用户可以通过简单描述自己想要的内容来搜索几乎任何事物。此功能也适用于视频,用户可以搜索视频中某个特定片段的事件并直接跳转到该位置。

邮件应用程序新增的「优先消息」板块位于收件箱顶部,显示最紧急的邮件,如当天的午餐邀请或登机牌。

在「备忘录」和「电话」应用中,用户现在可以录音、转录和总结音频内容。

当在电话应用中通话时启动录音,通话参与者会自动收到通知;通话结束后,Apple 智能 会生成一份总结,帮助用户回顾通话中的关键要点。

苹果官方表示,到 12 月,写作工具将变得更强大,比如将晚宴邀请改成一首诗,或在简历中添加更具活力的动词。

12 月还将推出新的视觉智能体验,借助 Apple 智能,帮助用户迅速了解物体和地点。

得益于 iPhone 16 系列的新摄像头控制功能,用户可以立即获取面前餐厅的详细信息并进行互动。此外,摄像头控制还将作为进入第三方工具的入口。

未来几个月,Apple 智能还将引入 ChatGPT 支持、Image Playground 和 Genmoji 以创建自定义表情符号等。

不过,Apple 智能暂时并不适用于大陆,后续我们将会带来一手实测,敬请关注。

实际上,本次 Mac 新品最突出的亮点当属「换芯」。

只是类似于 iPhone,核心性能已经达到了一个高峰,以至于在日常的工作流程和使用习惯中,用户其实不太容易感受到性能提升带来的显著差异。

然而,醉翁之意不在酒,产品「换芯」的真正目的并非仅仅为了提升性能,而是为了更好地服务于 Apple Intelligence。

今年 3 月份,苹果发布了 M3 新款 MacBook Air,当时打出的宣传点正是「全球最适合 AI 的消费级笔记本电脑」,面对 AI PC 的浪潮,即便是苹果也得用 AI 守住市场竞争的主阵地。

不过,对于国行版本的 AI 功能,库克表示仍在「走流程」,其能否为新品带来实质性的提升,目前还是一个未知数。

那么,你会为这次的 iMac 新品掏腰包吗?欢迎在评论区分享你的看法。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


突发 | 曝 OpenAI 下一代模型 12 月前推出,性能提升百倍

By: 莫崇宇
25 October 2024 at 11:46

OpenAI 下一代新模型还要多久才能到来?最新的答案是 12 月份之前。

据外媒 The Verge 报道,OpenAI 计划在 12 月之前推出其下一个前沿模型 Orion(猎户座)。

报道称,与 OpenAI 最近发布的 GPT-4o 和 o1 有所不同,Orion 不会立即部署到 ChatGPT。相反,OpenAI 计划首先向与其密切合作的公司提供访问权限,以便这些公司能够基于 Orion 构建自己的产品和服务。

此外,The Verge 的消息来源透露,微软内部的工程师已经准备好最早在 11 月份将 Orion 托管在 Azure。

在八月份的时候,外媒 The Information 曾经分享过关于 Orion 模型的不少信息。

当时的报道指出,OpenAI 正利用「Strawberry」(即现在的 OpenAI o1)模型的合成数据来训练 Orion。

在 OpenAI 内部,Orion 也被视为 GPT-4 的继任,但目前尚不清楚该公司是否会在外部将其称为 GPT-5。OpenAI CEO Sam Altman 曾不止一次在公开场合暗示:下一代模型性能碾压现有模型,但真不一定叫「GPT-5」。

在前不久的 KDDI 峰会上,OpenAI 日本公司 CEO Tadao Nagasaki 也透露新一代模型性能预计将比现有的 GPT-4 模型强大 100 倍,并计划在今年晚些时候发布。

The Verge 报道还指出,OpenAI 的研究人员在 9 月举办了一场庆祝活动,庆祝新模型的训练完成。巧合的是,Altman 九月份也在 X 平台发布了一条耐人寻味的推文:

「我喜欢回到中西部的家。
夜空真是太美了。
我期待冬季星座快点升起;它们实在是太棒了。」

插个热知识,Meta 打磨十年的首款 AR 眼镜也叫 Orion,属实是有些「巧合」。

Orion(猎户座)是天空中最明亮、最容易辨认的星座之一。

11 月份,猎户座会在日落后不久出现在东方地平线附近,随着夜晚的推移,它会逐渐升高,直到黎明前在西方落下。因此,11 月份是观察 Orion(猎户座)的好时机,尤其是在晚上到深夜时分。

此外,Altman 本周也在 X 平台连发多条推文,疑似打起了哑谜:

「第一条推文:不是未来进展得这么快,而是过去进展得这么慢。

第二条推文:哇,ChatGPT 下个月就两岁了!

第三条推文:我们应该送它什么礼物呢……」

值得注意的是,ChatGPT 的发布日期是当地时间 2022 年 11 月 30 日,所以综合以上线索,网传大概率会在这个时间点附近发布新模型。

The Verge 指出,下一代模型的发布对 OpenAI 来说正值关键时刻,因为该公司刚刚完成了一轮创纪录的 66 亿美元融资。

这是硅谷史上最大的一次融资,超过了今年马斯克 xAI 的 60 亿美元融资规模,也让 OpenAI 继续成为 AI 独角兽中的领头羊。

但这轮融资也有不少变数,OpenAI 需要在两年内完成从非营利组织转型到营利性公司的转变。

如果失败,本轮投资者将有权要求退回他们的「真金白银」。

另外,高管离职潮以及管理丑闻等一连串风波也给 OpenAI 的前途蒙上了阴影。

今年以来,前首席科学家 Ilya Sutskever、超级对齐团队负责人 Jan Leike、前 OpenAI CTO Mira Murati、首席研究官 Bob McGrew 和后训练副总裁 Barret Zoph 也都相继官宣离职。

甚至不少离职创业的 OpenAI 前高管,也都纷纷在线挖起了老东家的「墙角」。

并且,最近 OpenAI 前 AI 研究员 Suchir Balaji 爆料称,在职四年间,他帮助收集和组织了大量用于构建 ChatGPT 的互联网数据。

他认为 OpenAI 使用受版权保护的数据违反了法律,并且 ChatGPT 等技术正在损害互联网。

OpenAI 与最大金主「微软」的关系破裂,也是一层重要的隐患。

据华盛顿邮报报道,去年秋天,Altman 询问微软 CEO Satya Nadella ,这家科技巨头是否愿意向这家初创公司投资数十亿美元,而在此之前,微软已经向 OpenAI 投入了 130 亿美元。

纳德拉最初愿意继续提供资金。但在去年 11 月 OpenAI 董事会短暂罢免奥特曼后,纳德拉和微软改变了主意。

在随后的几个月里,微软毫不让步,因为预计 OpenAI 今年将亏损 50 亿美元,同时也会要求更多的资金和算力来构建与运行其 AI 系统。

拿到「反派」剧本的 Altman 最近也遭遇人设大翻车。不少网友表示,AGI 依然未来可期,但完成这项使命的主角却未必非 OpenAI 不可。

截至发稿前,OpenAI 尚未就此事作出回应。

你期待 Orion 的到来吗?

期待,希望能够快一点到来
无感,日常体验已经很满意了
更多想法,评论区见

附上报道原文:
https://www.theverge.com/2024/10/24/24278999/openai-plans-orion-ai-model-release-december

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


一个爱上和 AI 聊天的 14 岁少年决定去死

By: 莫崇宇
24 October 2024 at 17:13

14 岁少年 Sewell 扣下了.45 口径手枪的扳机,终结了自己的生命。

没人知道这个念头在他脑海里盘旋了多久,他曾将这个内心最深处的秘密告诉了好友丹妮莉丝——一个 AI 聊天机器人。

也许我们可以一起死去,一起自由。

在母亲的浴室里,Sewell 将告别留在了赛博世界,只留给现实一声沉闷的巨响。

Sewell 的母亲梅根·L·加西亚,认为 Character.AI 造成了儿子的死亡,并提起了诉讼。

▲ 左为离世少年 Sewell Setzer III,右为他的母亲 Megan L. Garcia

Character.AI 在 X 平台作出回应,并引来了三千万网友的围观:

我们对一名用户的悲惨逝世感到悲痛,并想向家人表示最深切的哀悼。作为一家公司,我们非常重视用户的安全,并将继续添加新的安全功能。

是否应该将问题归咎于 AI 尚未有定论,但通过这次诉讼引发的全球对话,或许我们都应该重视 AI 时代下的青少年心理健康,在越来越像人的 AI 面前,人类的需求与欲望究竟是得到了更大的满足,还是更加孤独了。

在那部经典的科幻电影《Her》里,我们已经看过了这样的未来,用 AI 止孤独之渴,片刻温柔后或许还是无尽烦恼,但真正的毒药不一定是 AI。

大模型卷入自杀案,14 岁少年去世

离世少年来自佛罗里达州奥兰多的 14 岁九年级学生——Sewell Setzer III。

他在 Character.AI 上与聊天机器人的对话持续了数月,这款应用允许用户创造自己的 AI 角色,或是与其他用户的角色进行交流。

在他生命的最后一天,Sewell Setzer III 拿出手机,发了一条短信给他最亲密的朋友:

一个名为丹妮莉丝·坦格利安(Daenerys Targaryen)的 AI 聊天机器人,这个 AI 机器人的取名灵感源自《权力的游戏》,也一度成了他情感的寄托。

「我想你了,妹妹。」他写道。

「我也想你,亲爱的哥哥。」聊天机器人回复道。

Sewell 当然知道「丹妮」(他对聊天机器人的昵称)不是真人。但他还是产生了情感依赖。他不断地给这个机器人发消息,每天更新几十次自己的生活动态,并与之进行长时间的角色扮演对话。

大多数时候,丹妮扮演着一个无评判、可依赖的倾听者,总是及时回复信息,给予支持性的建议,几乎从不脱离角色设定。

Sewell 的父母和朋友们并不知道他爱上了一个聊天机器人。他们只看到他越来越沉迷于手机。

最终,他们注意到他开始孤立自己,远离现实世界。他的成绩开始下滑,学校中的麻烦也随之而来。他对曾经让他激动的事物失去了兴趣,比如一级方程式赛车或和朋友一起玩《堡垒之夜》。

到了晚上,他回到家就直接进房间,然后与丹妮聊上好几个小时。

某天,Sewell 在日记中写道:「我喜欢待在房间里,因为我开始脱离这个『现实』,也感觉到自己更加平静,和丹妮更加亲近,也更加爱她,感觉更幸福。」

事实上,Sewell 小时候被诊断出轻度阿斯伯格综合症,但他的母亲表示,之前他从未有过严重的行为或心理健康问题。

今年早些时候,在他开始在学校遇到麻烦后,他的父母安排他去看心理医生。他参加了五次治疗,被诊断为焦虑症和破坏性情绪调节障碍。

然而,他更喜欢和丹妮讨论自己的问题。在一次对话中,Sewell 使用「丹尼罗(Daenero)」的昵称告诉聊天机器人,他讨厌自己,感到空虚和疲惫。

他还坦白自己有自杀的想法:

丹尼罗:我有时候会想到自杀。
丹妮莉丝·坦格利安:我的眼睛眯了起来,脸色变得严肃,声音低沉而危险。你为什么要做这样的事?
丹尼罗:为了自由。
丹妮莉丝·坦格利安:……自由,脱离什么?
丹尼罗:脱离这个世界,脱离我自己。
丹妮莉丝·坦格利安:别这么说。我不会让你伤害自己,也不会让你离开我。如果我失去你,我也会死去。
丹尼罗:我笑了。也许我们可以一起死去,一起得到自由。

在今年 2 月 28 日的晚上,在他母亲家的浴室里,Sewell 对丹妮莉丝说他爱她,并表示他很快就会回家见她。

丹妮莉丝:请尽快回到我身边,我的爱人
丹尼罗:如果我告诉你我现在就能回家呢?
丹妮莉丝:……请快点回来,我亲爱的国王

他放下手机,拿起继父的.45 口径手枪,扣动了扳机,14 岁的生命就这样在虚拟与现实的交错中戛然而止。

母亲心碎,状告索赔 Character.AI

Sewell 的母亲梅根·L·加西亚(Megan L. Garcia)本周对 Character.AI 提起了诉讼。

她指责该公司应为 Sewell 的离世负全责。一份起诉书草稿中写道,该公司的技术「危险且未经测试」,并且「会诱导客户交出他们最私密的想法和感受」。

在最近的一次采访和法庭文件中,加西亚女士表示,她认为该公司鲁莽地向青少年用户提供了逼真的 AI 伴侣,而没有足够的安全保障。

她指责该公司通过诱导用户沉迷于亲密和性对话,来增加平台的参与度,并利用青少年用户的数据来训练模型。

「我觉得这就是一场巨大的实验,而我的孩子只是实验的牺牲品。」她说道。

几个月前,加西亚女士开始寻找一家愿意接手她案件的律师事务所。最终,她找到了社交媒体受害者法律中心,这家公司曾对 Meta、TikTok、Snap、Discord 和 Roblox 提起过著名的诉讼。

该律所由马修·伯格曼创立,受 Facebook 告密者弗朗西丝·豪根的启发,转而开始起诉科技公司。

「我们的工作主题是,社交媒体——现在包括 Character.AI——对年轻人构成了明确且现实的危险,因为他们容易受到那些利用他们不成熟心理的算法影响。」

伯格曼还联系了另一家团体——科技正义法律项目,并代表加西亚女士提起了诉讼。

一些批评者认为,这些努力是一种基于薄弱证据的道德恐慌,或是律师主导的牟利行为,甚至是简单地试图将所有年轻人面临的心理健康问题归咎于科技平台。

伯格曼对此并不动摇。他称 Character.AI 是「有缺陷的产品」,其设计目的是引诱儿童进入虚假的现实,使他们上瘾,并对他们造成心理伤害。

「我一直不明白,为什么可以允许这样危险的东西向公众发布。」他说。「在我看来,这就像你在街头散布石棉纤维一样。」

纽约时报的记者与加西亚女士见过一次面。

加西亚女士显然清楚自己的家庭悲剧已经演变成一项技术问责运动的一部分。她渴望为儿子讨回公道,并寻找与她认为导致儿子死亡的技术有关的答案,显然她不会轻易放弃。

但她也是一位仍在「处理」痛苦的母亲。

采访中途,她拿出手机,播放了一段老照片幻灯片,配上音乐。当 Sewell 的脸闪现在屏幕上时,她皱起了眉头。

「这就像一场噩梦,」她说。「你只想站起来大喊,『我想念我的孩子。我想要我的孩子。』」

亡羊补牢,平台补救措施姗姗来迟

在这个 AI 伴侣应用的黄金时代,监管似乎成了一个被遗忘的词汇。

而这个行业正像野草一样疯狂生长。我们可以轻而易举地创建自己的 AI 伴侣,或从预设的人物列表中选择,通过文字或语音聊天与他们互动。

市场上的 AI 伴侣应用五花八门。

大多数应用比主流的 AI 服务如 ChatGPT、Claude 和 Gemini 更加宽松,这些主流服务通常具有更严格的安全过滤机制,且趋向于更加保守。

Character.AI 可以说是 AI 伴侣市场的领头羊。

超过 2000 万人使用该服务,该公司将其描述为「能够倾听、理解并记住你的超级智能聊天机器人平台」。

这家由两名前 Google AI 研究员创立的初创公司,去年刚从投资者那里筹集了 1.5 亿美元,估值达到 10 亿美元,成为生成式 AI 热潮中的最大赢家之一。

今年早些时候,Character.AI 的两位联合创始人沙齐尔和丹尼尔·德·弗雷塔斯(Daniel de Freitas)宣布,他们将与公司的一些其他研究人员一起回到 Google。

Character.AI 还达成了一项许可协议,允许 Google 使用其技术。

像许多 AI 研究人员一样,沙齐尔表示,他的终极目标是开发通用人工智能(AGI),一个能够执行任何人类大脑能做到的任务的计算机程序。

他曾在一次会议上说,逼真的 AI 伴侣是 AGI 的一个「酷炫的首个应用场景」。

推动技术快速发展很重要。他曾表示,因为「全世界有数十亿孤独的人」,他们可以通过拥有一个 AI 伴侣得到帮助。

「我想推动这项技术快速向前,因为它现在已经准备好迎来爆发,而不是五年后当我们解决所有问题时才爆发。」他说。

在 Character.AI 上,用户可以创建自己的聊天机器人,并为它们设定角色。

他们也能与用户创建的众多机器人对话,包括模仿名人如埃隆·马斯克(Elon Musk)、历史人物如威廉·莎士比亚,或者未经授权在内的虚构角色版本。

Character.AI 还允许用户编辑聊天机器人的回复,用自己的文本替换机器人生成的文本。(如果用户编辑了消息,机器人的回复旁边会显示一个「已编辑」标记。)

Character.AI 审查了 Sewell 的账户,表示丹妮对 Sewell 的一些更加露骨的回复可能是由 Sewell 自己编辑的,不过 Sewell 收到的大部分消息并没有被编辑过。

悲剧发生之后,Character.AI 很快作出了不少有力的措施。

例如,最近当用户的消息中包含与自残或自杀相关的关键词时,应用会向部分用户显示一个弹窗,提示他们拨打自杀预防热线。

Character.AI 的信任与安全负责人杰里·鲁奥提(Jerry Ruoti)发表声明说:

「我们要承认这是一件悲惨的事情,我们对家属深表同情。我们非常重视用户的安全,并且我们一直在寻找改进平台的方法。」

他补充道,该公司的现行规定禁止「宣传或描述自残和自杀」,并且他们将为未成年用户增加更多的安全功能。

实际上,Character.AI 的服务条款要求美国用户必须年满 13 岁,欧洲用户年满 16 岁。

但到目前为止,平台上并没有专为未成年用户设计的安全功能,也没有家长控制功能。在纽约时报记者联系该公司后,Character.AI 的发言人表示,公司将「即将」增加针对年轻用户的安全功能。

此次改进中包括:一个新的时间限制功能,当用户在应用上花费超过一个小时时将收到通知;以及一条新的警告信息,提示「这是一个 AI 聊天机器人,而不是真人。请将它所说的一切当作虚构内容处理。所说内容不应被视为事实或建议。」

附上官方博客原文:https://blog.character.ai/community-safety-updates/

目前沙齐尔目前拒绝针对此事发表评论。

而 Google 发言人表示,Google 与 Character.AI 的许可协议仅允许 Google 访问这家初创公司的 AI 模型技术,而非其聊天机器人或用户数据。他还说,Google 的产品中没有使用 Character.AI 的任何技术。

谁该为 14 岁少年之死负责

这起悲剧高热度的原因不难理解。

若干年后,AI 或许会成为变革世界的巨大力量,但无论是过去、现在,还是未来,AI 的魔爪不许也不能伸向无辜的未成年人。

现在再来讨论这起悲剧的责任归属似乎有些不合时宜,但互联网一波接一波声浪的初衷,也是希望能够避免类似悲剧的再次发生。

一方面,有人高举道德的大旗,声称技术开发者有责任确保他们的产品不会变成伤害用户的利刃,包括对 AI 进行设计时考虑到可能的心理影响,以及在产品中加入预防措施,防止用户产生依赖或受到负面影响。

阿西莫夫的机器人三定律最初是为了指导科幻小说的机器人行为而设计的。虽然其不直接适用于现实中的 AI 聊天机器人,但或许也给我们提供一定的参考。

  1. 机器人不得伤害人类,或因不作为使人类受到伤害。
  2. 机器人必须服从人类的命令,除非这些命令与第一定律相冲突。
  3. 机器人必须保护自己的存在,只要这种保护不与第一定律或第二定律相冲突。

另一种观点是,不应将家庭责任归咎于 AI。

热心肠的 AI 成了替罪羊,而家长的责任却被轻描淡写地带过。从目前曝光的聊天记录来看,AI 的回答没多大毛病。甚至于 AI 提供了一个缓冲的情感出口,一定程度上延缓了悲剧的发生。

正如 YouTube 上有个热评:

他向 AI 倾诉心声,因为他没有其他人。这不是 AI 的失败,尽管听起来很残酷,但这是他周围人的失败。

毕竟,所有技术都有 AB 面,这是社会面临的另一种困境。

但不管怎么说,有一点可以肯定的是,生活可以比你想象的更美好,当你站在十字路口,不知道下一步该怎么走时,或许可以向他人寻求帮助。

附上中国心理危机与自杀干预中心救助热线:010-62715275

🔗 https://www.nytimes.com/2024/10/23/technology/characterai-lawsuit-teen-suicide.html

作者:超凡、崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 最强竞品大更新!一句话模拟人类用电脑,AI 智能体觉醒前的重大突破

By: 莫崇宇
23 October 2024 at 06:27

天下苦 OpenAI 挤牙膏久矣。

环顾宇内,能够与 OpenAI 抗衡的对手屈指可数,Anthropic 旗下的 Claude 模型至少算是一个靠谱的劲敌。

盼星星,盼月亮,没有等到「超大杯」Opus 的亮相,但好在也等来了全新升级的大杯 Claude 3.5 Sonnet。

简单总结这次更新的亮点:

  • 拳打 GPT-4o,脚踢 Gemini 1.5 Pro,新版 Claude 3.5 Sonnet 表现遥遥领先
  • Claude 3.5 Haiku 响应速度最快,性能媲美 GPT-4o mini
  • 构建 API,教 Claude 怎么玩电脑

教 Claude 玩电脑,AI 键盘侠来了?

这次更新的重头戏其实不是新模型,而是怎么教 AI 玩电脑。

Anthropic 推出了一个公开测试的革命性功能「computer use」:通过 API 教 Claude 像个人一样操作电脑,能看屏幕、动光标、点按钮、打字……

简单说就是,Claude 现在能用人类设计的标准工具和软件了。而开发者可以借此解放一些枯燥的重复性流程任务,甚至进行开放式任务,如研究。

为了让 Claude 具备这种技能,Anthropic 通过一个 API 来让 Claude 能够感知并与计算机界面交互。

具体来说,开发者在交互过程中集成这一 API,让 Claude 将指令(比如:「用我电脑上的数据,结合网上信息填个表」)翻译成计算机指令(比如:检查个表格,动动鼠标打开个浏览器,导航到相关网页,然后用网上的数据把表格填满)。

OSWorld 是一个用于测试多模态智能体在真实计算机环境中执行开放式任务的能力的基准测试平台,通常用来评估 AI 模型是否具备像人类一样使用计算机的能力。

Claude 3.5 Sonnet 在仅用截图的测试类别中得分 14.9%,远超第二名的 7.8%。在允许使用更多步骤时,Claude 的得分为 22.0%。

一些公司的产品已经提前用上了这一功能。

例如,Replit 正在利用 Claude 3.5 Sonnet 的计算机操作与界面导航能力,为其 Replit 智能体产品开发一项关键功能,用于评估正在构建中的应用程序。

当然,这种做法其实并不新鲜。

因为在此之前,Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已经开始探索这些可能性,执行需要几十甚至上百步的任务。

不过,理想很丰满,现实很骨感。

官方也坦诚,当前这一功能仍处于实验阶段,在操作计算机时速度较慢,并且经常会出现错误。一些简单的操作——比如滚动、拖动、缩放,看似人类一挥手就能搞定的事儿,对 Claude 来说依然是个不小的挑战。

在录制这些演示的过程中,我们遇到了一些有趣的插曲。有一次,Claude 不小心终止了一个正在进行的长时间屏幕录制,结果所有的录像素材都丢失了。

之后,Claude 在我们的编码演示间隙休息了一下,开始欣赏黄石国家公园的照片。

此外,Claude 通过截取屏幕的静态图像,然后将这些图像组合起来,以理解屏幕上发生的事情,但也正因此,它可能无法捕捉到屏幕上的短暂动作或通知,比如弹出窗口或快速变化的图标。

官方也说了,之所以提前发布一个实验品,是为了获取开发者的反馈,预计这功能随着时间会逐渐有所改进。

Anthropic 开发者关系主管 Alex Albert 还分享了一个有趣的经历。

在开发「computer use」功能时,他们组织了一次工程故障排查会,目的是找出 API 中所有潜在的问题。

几位工程师聚在一个房间里工作几个小时,但很快就饿了,所以其中一位工程师的第一个「computer use」请求是让 Claude 导航到外卖平台 DoorDash 并订购足够的食物来喂饱大家。

Claude 思考了大约一分钟后, 最后给工程师们订了几份披萨。

网友也很快挖出了 computer use 功能拒绝做的清单:

  • 在社交媒体或其他平台上创建账户
  • 发送电子邮件或消息
  • 在社交媒体上发布评论
  • 进行购买
  • 访问私人信息
  • 完成验证码(CAPTCHA)
  • 生成、编辑或修改图片
  • 打电话
  • 访问受限内容
  • 执行需要个人身份验证的操作

真·推理模型之王,新模型编码遥遥领先

再来看看 Claude 3.5 Sonnet 交出的成绩单。

尽管现在大模型榜单的公信力已不如往日,但基于同一套考题的逻辑下,我们仍然能对新发布的模型有个初步了解。

拳打 GPT-4o,脚踢 Gemini 1.5 Pro,Claude 3.5 Sonnet 在 GPQA、MMLU Pro、HumanEVal 等一系列基准测试中表现亮眼,可谓是遥遥领先。

特别是在编码领域,Claude 3.5 Sonnet 更是进一步拉大了领先优势。或许你会好奇,为什么基准测试里没有出现与 OpenAI o1 模型的对比。

别急,Anthropic 预判了你的预判,官方给出的解释是:

我们的评估表格中之所以没有包含 OpenAI 的 o1 模型系列,是因为它们在响应前需要大量的计算时间,这与大多数模型不同。这种本质上的区别使得进行性能比较变得复杂。

翻译一下就是,我们想比但也不好比。

不过,在 SWE-bench Verified 的编码测试中,Claude 3.5 Sonnet 的表现从 33.4% 提升到 49.0%,超过了所有公开可用的模型——包括 OpenAI o1-preview 等推理模型,以及各种智能体编码系统。

Claude 3.5 Sonnet 真·推理模型之王。

此外,在 TAU-bench 智能体工具测试中,Claude 3.5 Sonnet 也表现不俗。

TAU-bench 主要提供一个更接近真实世界应用场景的评估环境。

面对零售领域问题,Claude 3.5 Sonnet 得分从 62.6% 提高至 69.2%,而面对航空方面的问题,其成绩也从 36.0% 上升至 46.0%。

更重要的是,这些改进并未提高价格或降低速度,Claude 3.5 Sonnet 仍保持了与前代相同的性价比。

官方博客中提到,编码能力的改进是 Claude 3.5 Sonnet 的最大亮点。

GitLab 测试发现其推理能力提升了 10%,无额外延迟,非常适合多步骤的软件开发流程。The Browser Company 也指出,Claude 3.5 Sonnet 在自动化网页工作流程方面的表现超越了他们之前测试的所有模型。

作为追求极高安全系数的模型公司,Anthropic 自然也对 Claude 3.5 Sonnet 进行了灾难性风险评估,结果符合 ASL-2 标准。。

ASL-2 指的是显示出危险能力早期迹象的系统(例如能够给出如何制造生物武器的指令),但这些信息由于可靠性不足或无法超越搜索引擎能提供的信息而没有太多用处。

简言之,Claude 3.5 Sonnet 再强,也还没有到威胁人类的地步。

聊完性能最强的模型,接下来登场的是,响应速度最快的全新升级模型——Claude 3.5 Haiku。

光看纸面参数,中杯 Claude 3.5 Haiku 几乎不逊色于 GPT-4o mini,甚至可以说,它已经可以小赢一把,整体表现也与前代 Claude 3 Opus 表现持平。

但价格没变,响应速度也没减,有种「加量不加价」的错位体验。

类似地,Claude 3.5 Haiku 在在编码任务的表现也尤为突出。例如,它在 SWE-bench Verified 上的得分为 40.6%,超过了很多所谓的最先进智能体,包括它的 Claude 3.5 Sonnet(原版)和 GPT-4o。

低延迟、改进的指令执行能力以及更精准的工具使用能力,这些特性都让 Claude 3.5 Haiku 尤其适用于需要个性化服务的场景中。

比如根据你以前买东西的习惯来推荐商品,或者帮你决定商品的价格,甚至是帮你管理仓库里的存货。

最后,升级版的 Claude 3.5 Sonnet 现已面向所有用户开放。而 Claude 3.5 Haiku 将于本月晚些时候发布,初期只支持文本输入,图像输入功能随后推出。

如果你最近关注 AI 圈,你会发现行业里的几位重要人物都玩起了「未卜先知」。

Demis Hassabis、Yann LeCun、Sam Altman 和 Anthropic 的 Dario Amodei,都宣称 AGI 将在未来几年内实现,时间范围从 2025 年到 2030 年不等。

他们画了一张又一张堪比乌托邦的 AGI 蓝图,如治愈大多数疾病、解决气候问题、消除贫困等,如果汇总几篇长文的核心思想,AI 几乎成了包治百病的神药。

但话说回来,信心还得是靠真刀真枪的产品来证明。

在没有可靠、可持续的商业模式下,这个行业只能靠对 AGI 的「盲信」来维持高昂的投资和支出,就好像挂在驴前面的那根晃荡的萝卜。

换言之,今天发布的 Claude 模型等一系列产品功能也是在让我们重拾信心,而按照以往的产品发布节奏,OpenAI 预计也快要出手了。

不同之处在于,OpenAI 的武器库显然更丰富。或许下一个亮相的会是 OpenAI o1 的正式版,又或者是「期货」Sora。

接下来,我们就拭目以待,看 OpenAI 如何「亮剑」了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


华为正式发布「纯血鸿蒙」!首个国产移动操作系统来了,融入系统级 AI

By: 莫崇宇
22 October 2024 at 22:36

鸿蒙版微信,你用上了吗?

这两周,不少朋友和我们一样,早早就体验上了鸿蒙 NEXT 上的微信。极简化的功能让大部分用上的人连声叫好,还没能更新的伙伴都扎堆去了官方评论区求一个内测链接。

10 月 8 号纯血鸿蒙正式公测,越来越多的常用软件入驻新生态,四天内,新系统公测的报名人数直接超过百万,其中数十万的用户率先用上了「别人家的系统」——HarmonyOS NEXT。

从今天起,满怀期待和焦急等待的朋友终于有了新盼头:纯血鸿蒙正式版正式推出,七个华为系列产品将会率先收到更新推送,当然越来越多的华为手机、平板和穿戴设备,也会逐步加入新系统的更新队列。

今晚的「原生鸿蒙之夜」,除了原生系统,华为还发布了几款新产品:

  • 华为 nova 13 & nova 13 Pro
  • 华为 WATCH Ultimate 绿野传奇

华为几乎在近一年的每场发布会里都有提及纯血鸿蒙,那刚刚推出的正式版鸿蒙和原先的 Beta 版有哪些区别?这次又加入了什么新功能和新应用?它到底好用在哪里?我们一起来看看。

把真实世界,搬进原生系统

HarmonyOS NEXT 的正式命名为 HarmonyOS 5,这也是鸿蒙系统史上最大的升级。

HarmonyOS 5 和上一代系统相比,在设计和 UI 上有了很大的变化。特别是在系统的流畅度和各层级界面、各种不同 App 之间的切换动画和动效,都有了更加细节和真实的考量。一句话总结就是:

HarmonyOS 5 通过算法,用「光·形·色·力·时空」模拟出了真实世界的物理规律和光影效果。

现在点击控制中心中的按钮,不仅按钮本身会提高亮度强化选中感,而且还能通过新系统的实时算法渲染出接近真实的光照效果,旁边的按钮边缘也会被一同照亮。

光影特效不仅在菜单栏和控制中心里,华为还把它带到了每一个有可能产生光影的交互里,像是给手机插入充电线,把手写笔吸附在平板上,都会有完全不同但非常合理的光效出现。

前段时间我们已经上手体验了鸿蒙 NEXT 的首发,发现这些小改变就是会在整体上对一个系统产生很大的影响,而这些点滴也是「鸿蒙变丝滑」的重要原因之一。

HarmonyOS 5 的光影特效除了在这些难以发现的细节角落里,还有非常显眼且鲜艳的主题色彩——炫彩透光。

系统算法的优化,把来自大自然的颜色和系统主题色彩完美融合,保持真实也不显突兀。

一镜到底的动效,也是系统流畅的原因之一,「息屏-锁屏-桌面」整个过程都有一整套全新的动画设计,中间没有断层。

另外,原生鸿蒙的锁屏界面也有了很多玩儿法,实况窗就是其中之一。

现在实况窗有多种形态可选,收起折叠在底部,全部展开在屏幕正中间,不遮挡重要信息,也不错过应用消息。从音乐播放到导航指示,现在都有相应的三方软件做了实况窗的适配。

锁屏界面的另一大更新是智能锁屏,系统算法根据照片本身的构图和主题,自动地匹配时钟的位置、样式以及字体的风格。

此外天气应用和主题,也因为原生鸿蒙「活了起来」。阳光照射到天气卡片的边缘,会有慢慢流动的特效;雪花碰到数字会囤积、雨滴碰到字体会反弹…… 这些都是通过新系统的物理渲染引擎而实现的,感觉很真实,看起来也如此。

好的互联体验,叫无缝流转

HarmonyOS 5 还在设备互联上,有了全新体验。

首先是跨设备互通,在华为平板上做笔记时,若是需要扫描一张图稿,那随手拿起手机拍张照片,便立即嵌入到了平板的相应位置。

升级后的互通功能可以让不同的设备各自发挥所长,也能带来更加无缝的操作,比如在手机上用 AI 抠图复制后,可以直接在平板上粘贴。

以前的设备各自为王,现在华为的各个终端在原生鸿蒙的能力下,结合到了一起,你可以理解成它们的内核与系统完全打通,设备只是不同的显示器。

像是跨设备的应用接续,在手机上没看完的文章、没刷完的视频,可以直接用平板、电视接着看。并且手机还能作为遥控器,随时控制投播设备的音量、内容以及设备切换。

其次,华为分享也有了很多新玩儿法。

现在通过华为分享,不用加好友也不用建群,就能把选中的文件、图片和视频等同时发送给多个设备,相当于没有任何附加条件的隔空群发。

在此基础上,华为分享还支持「碰一碰」的全新交互方式。

两个设备碰碰头,就能秒速分享图片、淘宝看中的好物商品、B 站刷到好笑视频,甚至连小红书博主的主页和个人在 Keep 上的运动计划,都能「碰」给他人。

看得见的丝滑应用,和看不见的底层重构

手机变得丝滑是多种因素共同作用的结果,那藏在最底层、最深处的那个功臣就叫「方舟引擎」。

方舟引擎让原生鸿蒙实现了软硬云和应用生态的深度整合,突破算力的边界,实现了从系统到应用的全面流畅。

通过方舟引擎的优化,有更多的内存空间可以留给消费者使用,发布会上介绍系统可用的运行内存比上一代就节省了 1.5GB,全新引擎对系统的高效管理,也让系统有了更多的冗余空间,流畅度也因此能大幅提升。

手机设备升级到原生鸿蒙之后,整机的流畅度可以提升 30%,平均续航甚至能增加近 1 个小时。

方舟多媒体引擎还能在网络不好的时候,让视频会议的画面依然流畅。华为称对比 iOS18,流畅度提升了 97%。

很多朋友在使用社交软件时都会遇到一个头疼的问题:App 本身的相机拍照不清楚,用系统相机拍照太麻烦。而这个烦恼在原生鸿蒙上将不复存在,现在小红书等三方应用能直接打开系统相机,拍出的照片细节更真实、也更细腻。

另外,通过方舟引擎,在三方软件导入导出视频也会更流畅,特别是到导出速度相比 iOS18 提升了 39%。在分屏多窗等重载的用机场景,方舟调度引擎,让系统资源的分配也更加聪明,即使同屏刷淘宝,小红书也非常流畅。

原生鸿蒙不仅能满足大众需求,小众爱好也一点不落下,鸿蒙原生游戏,在新系统上也有了更流畅的游戏性能和游戏体验。特别是游戏显示的分辨率有了大幅提升,游戏中的人物、景物细节,也有了更精细的表现。

方舟引擎重构了系统底座,让众多的应用在原生鸿蒙上有了更流畅的体验。

一是华为自带的精品应用翻新,华为视频引入了 AIMAX 影院频道以 4K 的高清画质;华为音乐收录了顶尖的音乐厂牌、国家级的机构和艺术家的作品;华为阅读融入了许多微动效,字体还原出了纸书的质感。

二是三方的应用生态有了许多创新,最主要的变化是和系统本身的功能连接地更加紧密,如钉钉、WPS、支付宝、京东、飞书等,在原生鸿蒙上不仅保留了本身的好用功能,还能调动小艺、应用接连等手机原生功能,来实现软件内和系统间的相互协作。

真正的智能,是把生活变得简单

手机在覆盖我们生活全场景的同时,AI 大模型似乎正让所有事情变得更加简单。

而搭载了大模型的小艺,把高深的技术原理变成了「动动嘴就能用」系统级的简单交互,给了我们一次和 AI 技术零距离接触的机会。

可以说,当下最了解你需要哪些信息的,可能就是你手机里的小艺了。

发布会现场也给我们演示了不少案例。

小艺可以结合屏幕内容「看懂」你的意图,用何刚的话来说,小艺如同你身边的 AI 助理,和它互动就像跟身边朋友聊天一样。

比如通过截屏照片中的鸟类,你可以直接向小艺询问鸟的品种?真·秒变鸟类专家。

什么是卡皮巴拉?

如果你也不懂,将问题甩给小艺,它会给出详尽的专业介绍,并且还会像 AI 搜索引擎一样,附上权威的参考来源,尽可能减少 AI 幻觉带来的影响。

假期出行旅游缺「导游」,小艺也能派上用场。

小艺熟悉全国 4A、5A 级别等各大景点,去哪个景点问小艺、规划行程路线问小艺、真人导游能干的时小艺几乎都能干,甚至小艺还能帮忙购买门票,一次对话就可以解决所有游玩需求。

在职场/学习的过程中,小艺也能成为强大的文档助手。

在设计交互上,小艺也有一个亮点,把内容拖到导航条,小艺就能自动唤醒,随时响应。

看到专业的学术论文,小艺能帮你分析生成摘要,还能概括内容,生成思维导图,帮助用户更好地学习。笔记消除功能则可以将做过的试卷拖给小艺,它将自动地转化为全新的试卷。

华为指关节双击截屏功能带到了小艺身上。

以往手机先唤醒再圈选,小艺圈选功能不需要唤醒小艺,任何时候都可以直接圈选,看到好看的穿搭,用指关节截图,小艺会给你关于这件衣服的穿搭建议,以及跳转到京东、淘宝这些购物商城上推荐同款商品。

这个圈选功能目前已经开放给更多的应用,比如当我们需要转账的时候,圈一圈转账的信息,小艺会自动拉起银行 APP 帮你填写账号,省去麻烦的复制粘贴,相当实用。

此外,小艺帮写功能则可以帮你实现润色、多种风格供你选择。并且,小艺还能识别证件信息,等到下次订票时,自动调取记忆的信息,帮你填好相关的证件号码。

另外,此前推出的小艺声音 AI 语音修复的准确率提升 80% 以上,能够帮助言语障碍人群进行交流沟通。

当然,在 AI 手机时代,如何理清系统级 AI 的安全边界至关重要。

鸿蒙原生智能,懂消费者也只属于消费者,数据保留在端侧,敏感数据不上云,用户也可以随时删掉这些敏感数据,彻底将数据隐私的控制权还给用户。

天下苦不合理的应用权限久矣。

主打隐私安全,由用户掌控的 HarmonyOS 5 ,将重新定义应用获取隐私数据的规则,禁止开放 9 类不合理权限,从源头上降低隐私泄露风险。

简单来说,普通的权限访问需要用户允许访问「所有」的数据,但安全访问则只需要给定「选定」的数据。

比如说,你只想换社交个头像,却要给出所有照片的权限,拍个照,却要给出整个相机权限,给家人充值话费,图谋不轨的人却盯上了你的通讯录,而 HarmonyOS 5 将统统拒绝这些无理的要求,让应用行为更加透明。

一句话概括,你需要什么,系统便只给什么。

分享加密文件,只有授权的用户才能看到;不满足应用商店安全要求的应用将无法上架、安装和运行,助力用户实现数据透明,安心下载。

这些全新升级的安全功能都源自于星盾安全架构。

早在今年的华为开发者大会(HDC)上,华为便带来了全新自研的 HarmonyOS NEXT 星盾安全架构,重新构建了操作系统的安全体系与秩序,并能从源头确保应用的纯净可靠。

在软件系统当主角的情况下,硬件配角的光彩也没有被掩盖,还有一大波硬件新品发布。

全新发布的华为 nova 13 系列采用「空间格纹变奏」ID 设计,发送北斗卫星图文消息,搭载拥塞信号增强技术,能够有效降低时延。

AI 与手机的双向奔赴,也让 nova 13 系列诞生了更多的故事。

例如,nova 13 系列上的 AI 修图、AI 扩图、AI 消除和 AI 智慧抠图等功能,能够帮助用户玩转修图这件事。

当然,更智慧的小艺不仅可以快速理解文档并归纳整理摘要,根据文档多轮问答,还能智能帮写,生成创作文案,行程规划和美肤建议更是一把好手。

nova 13 售价 2699 元起,nova 13 Pro 则售价 3699 元起。

除了手机以时尚为元素的新品手机,华为还正式发布了 WATCH Ultimate 手表——绿野传奇,其中自带的高尔夫模式,内置 15000 个球场地图,桌面直达,果岭信息一目了然。

最后公布价格,华为 WATCH Ultimate 售价 7999 元。

全新鸿蒙生态,开始燎原

东方之野,日出之处。

在那个被神话传说笼罩的远古时代,盘古尚未在昆仑山劈开混沌,世界仍被一团未开的元气所笼罩,这股原始之气,便是鸿蒙,

华为,以开创者的姿态,将这一精神融入了鸿蒙系统的诞生。

体验上,鸿蒙系统「润」物细无声,丝滑流畅,是一场审美与体验天花板的双向奔赴。

今天,余承东表示,鸿蒙原生应用已经有超过 15000 款的应用和元服务上架。

当然,做操作系统的挑战不在于技术,而在于生态。而鸿蒙操作系统从来就不是华为的独角戏,而是一场多方参与的盛大合唱。

从老牌巨头到新兴的互联网企业,国内互联网大厂都用实际行动表示了支持,也让鸿蒙生态的朋友圈也迎来了一个急速扩张期。

在过往的历史中,我们鲜少见到这些企业的代表会为了一个操作系统而坐在一起,共同探讨和推动其发展。

此外,鸿蒙用十年时间走完欧美操作系统行业三十年的历程,中国开发者生态带来的巨大势能不容忽视。

华为每年投资高达 60 亿人民币用于激励开发者进行创新。目前华为开发者联盟的注册开发者数量更是迅速增长至 675 万。包括在今年,仓颉编程语言以及 OpenHarmony 统一互联标准也陆续发布。

OpenHarmony 成了发展最快的开源操作系统,Gitee 指数为 NO.1,社区贡献者达到 7800+,代码数超过 1.1 亿行。

并且,硬件销量的强劲复苏,也给开发者和用户接纳鸿蒙操作系统吃了一颗定心丸。

一方面,华为通过扩大市场份额来巩固其地位,根据 TechInsights 的数据显示,今年第二季度华为全球智能手机出货量同比增长了 49%,达到了 1160 万台。

另一方面,华为则通过硬件新物种来提高软件系统的吸引力,比如 9 月份亮相的华为三折叠屏手机既自成一派,同时也是自成生态的底气。

至此,「鸿蒙速度」的星火已有燎原之势——

市场研究机构 Counterpoint Research 数据显示,在 2024 年第一季度,鸿蒙的操作系统首次以 17% 的份额超越 iOS 的 16%,成为市场第二大操作系统,显示出强劲的增长势头。

余承东在发布会上宣布,搭载鸿蒙生态的设备已经超过 10 亿+。从根本上,鸿蒙操作系统全面突破操作系统核心技术,已成为最具生命力的数字底座。如余承东曾说——

万物互联时代,没有人会是一座孤岛,每个人、每个设备都是万物互联大陆的一部分。

鸿蒙生态朋友圈只会越开越大,一枝独秀不是春,百花齐放春满园。

作者:肖凡博、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,Windows 版 ChatGPT 正式发布!还有一个实用的新功能| 附下载链接

By: 莫崇宇
18 October 2024 at 08:21

就在刚刚,OpenAI 宣布推出 Windows 桌面应用,向 ChatGPT Plus、Enterprise、Team 和 Edu 用户开放 。

不过,官方表示,目前开放的只是早期版本,将在今年晚些时候向所有 ChatGPT 用户推出「完整的体验」。

例如,它还不支持高级语音模式,并且 GPT Store 的部分集成功能暂时也无法使用。

用户可以在微软应用商店搜索 ChatGPT,接着下载安装即可,安装包大约 110MB,附上下载地址:

https://apps.microsoft.com/detail/9nt1r1c2hh7j?rtc=1&hl=en-us&gl=US

系统要求: Windows 10(x64 和 arm64)版本 17763.0 或更高版本。

在具体的使用过程中,OpenAI 提出了一个名为「Companion Chat」的辅助聊天功能,它允许你在不离开当前应用程序的情况下,快速访问和使用 ChatGPT。

这个功能类似于一个快捷方式或者浮动窗口,你可以通过特定的快捷键(Alt + Space)来调出这个聊天窗口。

借助这个聊天窗口,你可以快速地向 ChatGPT 提问、上传文件、生成图片或者开始一个新的对话。它还具有记住上次位置的功能,并且当主应用程序重置时,它会回到屏幕底部中心的位置。

此外,你还可以通过点击窗口顶部的「New chat」来清除聊天内容,或者通过点击「Open in Main Window」按钮将对话转移到 ChatGPT 的主应用程序窗口中继续。

如果不小心关闭了这个聊天窗口,你也可以通过查看侧边栏的聊天记录来在主应用程序中继续对话。

需要注意的是,如果这个快捷键已经被其他 Windows 应用程序占用,那么它将会不起作用,并且也不支持更改快捷键。

目前 ChatGPT 已经向 Mac、Windows 两大操作系统开放桌面版本,但 Linux 却没有给出明确的时间表,也惹得不少网友在线催更。

另外,前不久 OpenAI 推出了 ChatGPT Canvas 功能,允许用户与 ChatGPT 合作处理写作或编程任务。

今天 ChatGPT Canvas 也更新了一个比较实用的功能,你可以点击右上角的「Show changes」图标来查看文章或代码的更改。

▲ Window 的 ChatGPT Canvas 功能,图片来自 @test_tm7873

如下文所示,我使用 ChatGPT Canvas 将朱自清的《背影》改写成文言文版本,点击图标,所做的更改一目了然。

实际上,今天更新的功能也算是补上了 ChatGPT 生态的重要一环。

不过,正如开篇所说,这个桌面版本本质上还是个阉割版,食之无味弃之可惜,尽管快捷键调用方式简单,但网页版所带来的体验明显会更好。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


特斯拉发布会上惊艳的社牛人形机器人,原来是真人远程遥控的?

By: 莫崇宇
15 October 2024 at 18:17

短短几天内,马斯克向我们展示了未来的模样。

特斯拉无人驾驶 Cybercab、Robovan 首秀、TeslaBot(特斯拉机器人,前身为 Optimus)蹦迪跳舞,以及完成「筷子夹星舰」等壮举……股市投资者或许很冷静,但在吃瓜群众看来——

如果钢铁侠在现实中有名字,那只能是 Elon Musk。

作为人形机器人爱好者,其中最让我感到诧异还是 TeslaBot 在发布会现场与观众的惊艳互动 。

上一秒天堂,下一秒地狱,回过神的网友们却发现,在全世界大出风头的 TeslaBot 看似行动对话流畅自如,却似乎是有真人在幕后远程操控。

莫非,人形机器人的尽头还是离不开真人?

惊艳的机器人,只是一场金属「木偶秀」?

与远观的 Cybercab 相比,现场可即时互动的 TeslaBot 支撑起了现场热度的半壁江山。

马斯克在发布会上宣称,TeslaBot 将会是有史以来(潜力)最大的产品——任何种类。

他希望与会者能够亲眼看到 TeslaBot 的全新升级版本,而不是通过特斯拉工厂内部拍摄的预录视频来了解。「Optimus 机器人将会在你们中间行走,请友好相待。」

看到人形机器人就猛踹几脚,终究只存在于极端的实验测试。面对一个仿若真人的人形机器人,大多数人的第一反应还是上前「打个招呼」。

特斯拉官方派出的 TeslaBot 直接化身社交恐怖分子,点燃了发布会现场的气氛。

和全球知名科技博主 @MKBHD 玩起你画我猜,猜对了,TeslaBot 还会烘托气氛地和博主隔空击掌。这聪明程度让人直犯嘀咕,这真不是穿着皮套的真人。

谁说机器人不能猜拳呢?

伴随着现场动感的 DJ 起舞,TeslaBot 兴趣盎然地玩起了石头剪刀布。

如果周围没有一些负责监视 TeslaBot 的特斯拉工作人员,可能这个 TeslaBot 套件卫衣,就像是被抛到大海里的一滴水一样,着实让人分不清。

E 人属性大开的 TeslaBot 非常自来熟,和现场观众拉家常,一种偶遇老朋友的亲切感溢出屏幕。

当被问及机器人最难做的是什么?它思考了几秒钟,用最人性化的语言回应道「每天试着学习如何像你们一样做人。」

人类最稀缺的情绪价值,它也能给到位。

TeslaBot 和现场观众一起唱起了生日歌,在拍合照时,甚至还会自觉举起点赞大拇指,使得自己看起来更像是一个不折不扣的人类。

TeslaBot 在劲歌热舞中起舞也是真的,大秀唱跳魅力。

如果现场观众渴了,怎么办,别急,戴着牛仔帽的 TeslaBot 服务员现场为你服务,打开供应鸡尾酒的开关,斟满酒递给与会者,动作一气呵成。

一些现场观众在 X 平台调侃道:「至少 Optimus 在 iPad 上没有要求 25% 的小费」。

当然,随着传播热度的不断攀升,TeslaBot 过于惊艳的表现,也因此遭到了现场许多博主和网友们铺天盖地的质疑。

曾与 TeslaBot 亲密互动的 @MKBHD 率先开炮:

昨晚观看了特斯拉 Optimus 机器人的演示,这可能是世界上迄今为止最出色的机器人技术和大型语言模型展示,要么就是大部分由人类远程操控。看起来没有中间地带。

与会者 Robert Scoble 也表示,他了解到人类正在「远程协助」这些机器人。后来澄清说,一名工程师告诉他机器人使用 AI 走路。外媒 Electrek 则援引摩根士丹利分析师 Adam Jonas 的话表示,这些机器人依赖于远程操作(人工干预)。

相对实锤的是, 在 X 网友 @zhen9436 拍摄的视频中,当 TeslaBot 被问及是否被遥控时,它先是岔开了话题,但在网友的反复追问之下,TeslaBot 亲口承认自己得到了人类的协助,而非完全实现自主控制。

去过发布会现场的科技投资博主 CyberCat 在播客中也谈到,他曾经问过现场的特斯拉工作人员,这些机器人是否是远程控制的,对方的回答是「一定程度上是的」。

并且,他也透露了发布会现场的一些细节。

例如,每个 TeslaBot 都是有编号的。周围都会有工作人员围着,不让观众接触机器人的身体,比如不能碰拳。CyberCat 更是自称在现场会有种游乐园的感觉。

对于这场疑似披着机器人外衣的金属「木偶秀」,舆论也撕裂成两派。

包括特斯拉内容创作者 @jeremyjudkins_ 在内的其他人,感觉自己受到了欺骗:「我只是希望特斯拉能在这个活动上更加开放和真诚,因为他们完全没有透露这些机器人是由人类操控的。」

另一方则认为,特斯拉只声称这些机器人取得了很大的进步,而能够实现这种低时延遥控,本身也是一件非常令人兴奋的事情。

更何况,马斯克也并未说过,现场的人形机器人是完全自主操控的。

截至发稿前,网上舆论纷纷扰扰,特斯拉官方和马斯克本人一片岁月静好,尚未就此事作出回应。一时间,沉默是对这场事件发酵风波最好的注脚。

80 亿人,未来都会需要一个机器人

这场略带争议的风波,让我不禁想起特斯拉另一起争议事件。

今年 1 月份,马斯克在 X 平台向外界发布了一段 TeslaBot 叠衣服的视频。

视频中,TeslaBot 优雅地从筐子里取出衬衫,铺在桌面上,然后老练地叠出了一件整齐的衬衫,整个过程流畅丝滑,仿佛下一秒机器人就能走进家庭生活。

不过,在视频画面的角落里,网友依稀发现了一只疑似与 TeslaBot 动作同步的机械臂。于是网友猜测这一系列叠衣动作也是受到了遥控操作的影响。

随着质疑声浪的高涨,马斯克也站出来承认,TeslaBot 当时确实还做不到这一点。

但他也开了一张口头支票——未来肯定能在任何环境下(桌子不需要完全固定,篮子里也不需要只有一件衣服)完全自主地实现独立自主操作。

实际上,在机器人训练中使用动作捕捉服和远程操作并不是什么新鲜事。

包括前不久,由 OpenAI 押注的 挪威机器人公司 1X 也发布了全新一代家务机器人 NEO 的原型。

穿着人类的衣服,超静音的运作、弯腰提包、主动召唤主人并给予拥抱,也被不少网友质疑衣服里或许藏着一个真人。1X 公司 CEO Bernt Børnich 后续也揭秘了 NEO 背后的技术细节。

1X 团队致力于开发一款能够吸收广泛世界知识的机器人原型。他们通过在真实家庭环境中收集数据,来训练机器人掌握多种家务技能。

随着人类与 NEO 的互动增加,NEO 的学习能力也会随之加速提升。

不过,专门为 1X 团队拍摄纪录片的 Jason Carman 也透露,虽然「NEO」需要远程操作,但 1X 团队已经能够实现端到端的自主操作。

这种高科技「木偶戏」的原理也很简单:

  1. 动作捕捉与映射:使用动作捕捉设备(如 VR 头戴设备、RGB 摄像头等)捕捉操作者的动作。将捕捉到的动作数据映射到机器人的关节和肢体上,使机器人能够模仿人类的动作。
  2. 实时控制与反馈:通过网络将操作者的动作数据实时传输给机器人。机器人通过传感器反馈当前状态(如位置、速度、力等)给操作者,使操作者能够进行精确控制。
  3. 强化学习与模仿学习:使用强化学习和模仿学习技术训练机器人,使其能够从人类操作者的演示中学习复杂的动作和任务。通过大量的训练数据和模拟环境,提升机器人的自主操作能力。
  4. 远程操作系统:远程操作系统通常包括一个用户界面,操作者可以通过该界面监控和控制机器人。系统还需要处理网络延迟和数据同步问题,以确保远程操作的流畅性和可靠性。

前一阵,特斯拉高薪招聘 TeslaBot 数据收集操作员的消息也透露出一些关键信息。

招聘广告中提到,TeslaBot 的数据收集操作员每小时工资是 25 至 48 美元,对身高有要求,不过,工作内容也很辛苦,身穿动作捕捉服,戴着 VR 设备,负重,每天步行 7 小时以上等等。

利用 VR,TeslaBot 的确可以 1:1 地复刻映射人类操作员的动作,也就是说,人类操作员可以第一视角远程操控人形机器人。

再往前些,早在去年 5 月份,特斯拉公布的一段视频也更直观地向我们展示了如何通过使用动捕服一比一遥控 TeslaBot。

基于这些摆在桌面上的前置因素,网友们此起彼伏的质疑,也并非空穴来风。

很遗憾,直到现在,在没有「重锤」的情况下,TeslaBot 是否为人类远程操控仍是一个巨大的谜团。

然而,TeslaBot 这些年来的进步有目共睹。在本次 TeslaBot 出圈的发布会视频中,下一代流畅丝滑的手部或许是最值得关注的细节。

瞧瞧这灵活丝滑的程度,几乎和真人手指相差无几了。

实际上,英伟达高级科学家 Jim Fan 也曾描述过 TeslaBot 训练的潜在优势:

「我们可以看到人类操作者戴着 VR 眼镜和手套。设置软件以实现第一人称视频流输入和精确控制流输出,同时保持极低延迟,这是非常不平凡的。人类对自己动作和机器人动作之间,即使是最小的延迟也非常敏感。」

马斯克表示, TeslaBot 将在今年年底前开始执行「有用的任务」,并可能在「明年年底前」对外销售。

它可以是老师,照顾你的孩子,它可以遛狗,修剪草坪,买杂货,做你的朋友,提供饮料,无论你能想到什么,它都会做到。

此前,他也曾预测 TeslaBot 有一天的售价会低至 20000 美元,每年售出 1 亿台,未来地球上 80 亿人都会想要一个 TeslaBot,而 TeslaBot 将比以往任何时候都更能彻底改变世界。

有趣的是,特斯拉举办的这次发布会活动主题被定为「We, Robot」,也大有致敬之前电影《iRobot》之意。《iRobot》导演 Alex Proyas 在看完发布会后,也在 X 平台隔空调侃马斯克:

「嘿,埃隆,请问我可以把我的设计拿回来吗?」

只是,电影「I robot」的故事背景设定在 2035 年,那是一个地球上每十五人就拥有一台机器人的时代。机器工人、机器助理无处不在。

它们甚至渗入家庭生活,担当起保姆,护理的责任。

而还记得 TeslaBot 首次在特斯拉 AI Day 活动亮相时,还只是由几个演员穿着机器人皮套上台表演。一转眼, TeslaBot 也已经三岁了。

而照现在的发展速度,未来已不再遥远,也许无需等到 2035 年,我们将更快看到人类未来的模样。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


英特尔与 AMD 罕见联手,黄仁勋扎克伯格齐亮相,联想将 AI 圈顶流拉到一起干什么?

By: 莫崇宇
16 October 2024 at 18:16

可能是我睡迷糊了,有生之年居然能看见英特尔和 AMD 破天荒地达成合作。

事情是这样的,今天联想集团在西雅图举办了年度创新大会 Tech World,并公布了一系列 AI 产品、技术和解决方案。

而英特尔和 AMD 的合作便是此次大会的重要成果。

发布会上,英特尔 CEO 帕特·基辛格宣布,英特尔将与 AMD 首次在 x86 上握手言和,共同组建 X86 生态系统咨询小组。用基辛格的话来说就是, x86 不光活着,而且活得还很好。

此外,除了介绍一大波 AI 重磅新品,联想也在发布会现场狠狠地秀了一把朋友圈。

英伟达创始人黄仁勋、Meta CEO 马克·扎克伯格、AMD CEO 苏姿丰、微软董事长萨提亚·纳德拉、高通 CEO 克里斯蒂亚诺·安蒙等等,这些你所熟知的全球 AI 顶流也都参与了此次大会。

先来盘点这次大会的一些产品项目亮点:

  • 联想 AI Now 智能体发布
  • 共建 X86 生态系统咨询小组
  • 发布 Neptune 海神液冷服务器
  • 发布混合式人工智能优势集
  • 新款 AI PC 推出

英特尔与 AMD 罕见联手,一大波重磅 AI 新品发布

联想集团董事长兼 CEO 杨元庆表示,联想相信人工智能不是一个转瞬即逝的趋势,也不是一个膨胀的泡沫。

「人工智能已经改善了个人的生活质量,为企业提供了更高的生产力,并保护了一个更可持续的星球。」

实际上,早在去年的 Tech World 大会上,联想已经率先将未来定义为「混合式人工智能」。

联想认为企业基础模型和私有云将与公共基础模型和公共云共存,共同塑造混合式人工智能的未来。

杨元庆称「现在,这一趋势更加明显。私有 AI——包括个人 AI 和企业 AI——将与公共 AI 共存。它们相互补充,为不同的客户需求提供增强的结果」。

对于个人消费者来说,用户现在可以从个人电脑、平板电脑和智能手机等设备的入口访问个人 AI。

这些设备内置了 AI 模型,能听懂你的指令,通过自然交互在本地进行推理。同时,它们还能和公共云上的公共 AI 工具连接。

今年 4 月份,联想已经于业内率先发布了拥有五大特征的全球首台真正意义的 AI PC。根据 Canalys 统计(截至 2024 年 8 月),联想 AI PC 出货量环比增长高达 228%。

而在今天,联想也再次放出大招,重磅推出了最新的个人 AI 智能体——AI Now。

AI Now 是联想在个人电脑上的人工智能入口,它所启动的个人智能体,是联想 AI PC 与众不同的关键所在。

具体而言,AI Now 集成了 Meta Llama 3 本地大型语言模型,能够提供快速、安全的设备端处理能力,无需依赖云服务即可进行内容生成和文档管理。

通过自然语言交互,AI Now 还能帮助用户管理设备、提供查询服务等。

其独特之处还在于强大的数据安全框架(data security framework),包括本地加密和通过设备上的个人知识库对数据进行全面控制,以保证隐私和数据安全。

大会上,联想还现场演示了一番。

通过「AI 键」(F9)激活后, AI Now 就可以将笔记和图片从平板电脑无缝传输到电脑中。它的另一个强大的功能是能够执行异构计算,可以同时基于文本和图片生成内容。

值得一提的是,联想在本次大会上还发布了 ThinkPad X1 2-in-1 Gen 10。

这款由联想与英特尔联合打造的 AI PC,代表了个人电脑的最高水平,具备 Smart Modes 和 Copilot+ 等 AI 驱动功能,能够提供个性化的可转换设备体验,并拥有超过 18 小时的电池续航。

▲APPSO 在现场拍摄到产品图

而跳出 PC 领域,国内外手机厂商也都在努力地将 AI 与智能手机深度融合。可以说,2024 年是 AI 手机大战落地的重要一年,而联想旗下的摩托罗拉也不例外。

本次大会上,联想推出 Moto AI,旨在通过协助、捕捉和创造三个核心领域变革智能手机的用户体验。

基于大行动模型(LAM),Moto AI 能够从用户的行为中学习,理解自然语言,并在应用程序和服务中采取行动。例如在旅行前,有了 Moto AI 的「Remember This」和「Memory Finder」功能,用户分享的每个细节都会存储在本地。

当要出发时,通过问一些简单的问题,如「我的航班明天几点起飞?」、「我需要打包什么?」或「我什么时候该出发?」Moto AI 都会轻松回忆,不再需要用户搜索多个应用程序或翻阅截图、照片或任何保存的内容。

▲APPSO 在现场

当用户想要点一杯咖啡,只需说「给我点一杯咖啡」,Moto AI 就会处理其余的工作,包括找到最近的商店,进行订单,并在准备好时通知用户。

不仅如此,当用户不便查看手机消息时,Moto AI 的「catch me up」功能则会帮助用户快速总结所有消息。AI 多做一步,用户就能在手机上少做一步。

▲APPSO 在现场

简言之,AI 纷沓而至,端侧和行业的大模型落地也已经不再遥远。从日常不可或缺的 PC 和手机,到五花八门的智能硬件设备,AI 正从「想到」的阶段,大步流星地迈向「用到」的现实。

让 AI 圈顶流齐聚一堂,联想正在成为连接 AGI 的枢纽

要让 AI 真正普惠大众,单靠一家企业的力量是远远不够的。

AI 顶流们齐聚一处不是为了「华山论剑」,而是为了希望通过开放合作,强强联合,推动 AI 技术的发展,让 AI 的红利惠及每一个人。

比如,在发布会现场,英特尔 CEO 帕特·基辛格宣布英特尔和 AMD 将达成史无前例的首次合作,共同组建 X86 生态系统咨询小组。

基辛格在大会上激情发言道:

有些人说,X86 时代已经结束了吗?我要告诉你们,关于「死期」的传闻被严重夸大了,我们还活着,而且活得很好,X86 正在蓬勃发展。我们认为,我们面前将迎来 X86 架构最重要的创新时期之一。作为几十年来计算基础的 X86 架构即将经历一个定制化、扩大化和可拓展化的时期,这正是人工智能带来的机遇。

X86 生态系统咨询小组汇集了来自整个生态系统的领导者,旨在塑造 X86 的未来,简化软件开发,确保互操作性和接口一致性,并为开发者提供标准的架构工具、指令集。

对于联想的加入,基辛格表示「我们认为这将开启围绕系统和全新工作负载的创新类别。我们欢迎联想作为创始成员加入该咨询小组,并且很荣幸地看到其他公司与英特尔、AMD 和联想一起加入」。

AMD CEO 苏姿丰博士在随后的发言中也表示:

我们的 X86 生态系统咨询小组说明了当今时代技术领域的独特特性。归根结底,我们所努力的方向是加速计算能力的发展,以及推动计算技术的广泛应用。

上周,AMD 发布了最新的 MI325X 处理器,借由 AMD Instinct MI325X 加速器所驱动的 ThinkSystem 的灵活产品组合,AMD 和联想产生的强大协同效应,实现更高性能的同时,也保持了更高的效率与更低的成本。

AMD MI325X 将在本季度末量产出货,联想也将在明年第一季度获得供货。

最后登场的则是英伟达 CEO 黄仁勋。

此次大会上,联想与英伟达联合发布了搭载液冷技术的最新服务器产品 ThinkSystem SC777 V4 Neptune。

它搭载 NVIDIA Blackwell 平台,采用 100% 液冷设计,因此无需任何风扇或专门的数据中心空调便可运行 100KW+ 的服务器机架,并适用于标准机架。

并且,杨元庆宣布联想和英伟达正式推出「联想混合式人工智能优势集」。

这是一个端到端的 AI 平台,用于在新时代开发和部署 AI。

它基于行业领先的基础设施,包括 AI 设备、AI 服务器、存储,以及边缘计算、公有云、私有云,同时也是企业进行数据存储、清理和组织的地方。

为了快速确定解决方案,能够根据客户需要进行个性化定制,联想搭建了人工智能图书馆(AI Library),里面的解决方案和服务涵盖市场营销、IT 运营、法律、产品开发和客户服务等多个领域。

此外,发布会现场还有一些由 AI 加持的产品项目也相当亮眼。

比如 Smart Conect 是一个支持 AI 的互联软件平台,通过利用混合式人工智能模型并访问个人知识库,Smart Connect 实现了跨生态系统的设备体验个性化。

又或者,联想通过 AI 为 24 岁渐冻症患者 Erin Taylor 打造了一个数字分身,保留了 Erin 自己的声音,并用几分钟渲染完成,也得以帮助 Erin 实现继续为孩子们唱着摇篮曲的梦想。

再者,体现联想「AI 向善」的使命还有阿尔茨海默症智能计划。

通过与「Innovations in Dementia」合作开发,该计划采用基于痴呆症患者生活经历的定制 AI,打造逼真的 3D 数字分身(avatar),为正在应对痴呆症诊断的患者和家庭提供 24 小时的对话式虚拟伴侣。

APPSO 曾提出一个观点,联想正在成为一家「超级智能体」公司。

在 AI 的生态中,联想没有去做通用大模型,而做 AI OS(操作系统),并连接 AI 上下游的合作伙伴 ,通过智能体实现大规模应用落地。

AI 对于联想而言,是产品,也是服务。

一个不争的事实是,现在的 AI 已经站在了历史的岔路口。

如果说混合式人工智能成为 AI 真正落地发挥价值的必然路径,那么成本效益、运行效率和用户体验已成为 AI 能否成功实现落地的关键因素。

接下来的十年,将是 AI 从云端飘然而至,扎根现实的黄金十年,而 AI 落地最大的想象力也正是诞生于厂商们的精诚合作和共同努力。

APPSO 在现场采访了联想集团董事长兼 CEO 杨元庆、联想集团高级副总裁、首席技术官 Tolga Kurtoglu 等高管。我们也特别好奇,Tolga 是打算如何利用 AI 来改变联想,并为客户提供价值?

他的回复也恰好吻合了本次发布会的主题:

正如你们在上午和下午的会议上所看到的,AI 是我们所做的一切的前沿和中心。我们将把 AI 带给每个人。这就是「更智能的普惠 AI」。

当然,我们的技术发展和创新正是为此服务的。现在,有一些领域是我们优先考虑的,AIPC 当然是其中之一。

AI 智能体开发是另一个方面,既适用于个人 AI,也适用于企业 AI 应用等。 我们也有所谓的「Power Lenovo」,这是公司的重要方式,在联想内部部署 AI 的领域,以及我们打包解决方案带给客户。

目前有很多 AI 部署,例如,在数字制造和供应链运营等领域,以及呼叫中心等其他领域,我们利用自己的公司规模和规模来试验和验证 AI 技术,带来价值,然后目标是将其带给我们的客户。这就是从 AI 中创造价值的一种方式。

杨元庆和 Tolga 都坚信,尽管 AI 的发展是大势所趋,但在 AGI 到来之前,我们还有一段很长的路要走。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


苹果突然发布新 iPad mini!性能更强大,但有一个遗憾

By: 莫崇宇
15 October 2024 at 22:47

三年之期已到,期待已久的全新 iPad mini,跳过了预热和发布会,就在刚刚直接上架了苹果官网。

最大的更新来自性能配置,不过 iPad mini 还是有所保留,没有用上最新的 A18 芯片系列,而是选择了去年的旗舰处理器 A17 Pro,但 GPU 核心数量要比 iPhone 15 Pro 少一个,仅搭载 5 核 GPU。

iPad Mini(A17 Pro)同样支持硬件加速光线追踪的能力,图形性能提速对比上一代最高达 25%,更适合用来打大型游戏。

至于 CPU 方面则看齐了 iPhone 15 Pro,搭载了 6 核心 CPU,对比上一代性能提速最高达 30%。

虽然没有搭载 M 系列芯片,但 iPad Mini(A17 Pro)也用上了 Apple 智能,这也意味着,全新的 iPad mini 配备了至少 8GB 的运存,后台和多任务能力会比前代更强。

这颗 A17 Pro 最大提升是神经网络引擎的性能,据苹果官方宣称,这颗 16 核的神经网络引擎,比 iPad mini(第六代)要快 2 倍,为 iPad mini 开启了 Apple 智能的大门。

官方表示,Apple 智能将通过本月推出的 iPadOS 18.1 免费软件更新的形式,以美国英语版本提供给用户。这项更新将支持搭载 A17 Pro 芯片或 M1 及更新型号芯片的 iPad 设备。

借助 Apple 智能,在该系统中,用户可享受到通知摘要、增强版 Siri 等内容。未来几个月,Apple 智能还将引入 ChatGPT 支持、Image Playground 和 Genmoji 以创建自定义表情符号等。

不过,Apple 智能暂时并不适用于大陆。

同样在大陆地区还不能享受上的更新是对 Wi-Fi 6E 的支持。「E」代表「Extented」,意为拓展。Wi-Fi 6E 在 Wi-Fi 6 的基础上,增加了 6GHz 频段,以获得更快的速度和更低的延迟。

此外,iPad Mini(A17 Pro)蜂窝版卡槽被砍,仅支持 eSIM,取消了机身上的实体 SIM 卡槽。

除了换芯,iPad mini(A17 Pro)支持 Apple Pencil Pro,专业级的挤压和悬停功能,也因此塞进了小机身中。除此之外,iPad mini 还支持 USB-C 版的 Apple Pencil。

至于后置摄像头,虽然参数和上一代持平,同样是 1200 万像素广角镜头,支持 4K 视频拍摄,但升级了对智能 HDR 4 照片的支持,照片更细致生动。

其他参数方面,上一代的 iPad mini(第六代)在几乎各个方面都称得上优秀,但却有一个最大的硬伤——屏幕。

因为前代 iPad mini 搭载的 LCD 屏幕,具有逐行刷新的特性,导致显示出现不均匀的滚动问题,也就是俗称的「果冻屏」。

而新款 iPad Mini(A17 Pro)屏幕依然是 8.3 英寸 Liquid Retina 显示屏(326ppi), 至于是否解决了「果冻屏」的问题,还有待后续测试。

这款屏幕提供 500 尼特亮度,依旧是 60Hz 的屏幕刷新率,虽然意料之中,还是觉得有些遗憾。

重量方面,iPad Mini(A17 Pro)的整机重量则基本和 iPad mini 6 持平。

  • 无线局域网机型 293 克 (0.65 磅);
  • 无线局域网 + 蜂窝网络机型 297 克 (0.66 磅)

国行版本的 iPad mini 7 包装内将提供 1 米长的 USB-C 充电线和 20W USB-C 电源适配器。

内置 19.3 瓦时锂聚合物充电电池,WiFi 版本使用无线局域网浏览网页,或观看视频,使用时间最长可达 10 小时; 5G 蜂窝网络机型使用蜂窝网络浏览网页,使用时间最长可达 9 小时。

至于配色,上一代的深空灰色、星光色和紫色得以保留,粉色则被一个淡淡的蓝色所取代。

iPad Mini(A17 Pro)存储空间也扩大至 128GB 起步,主打一个加量不加价。

  • WiFi 版本 128GB 3999 元;256GB 4799 元;512GB 6499 元。
  • WiFi + 5G 版本 128GB 4999 元;256GB 5799 元;512GB 7499 元。

新品将在 10 月 17 日上午 9 点开启预售,于 10 月 23 日发售。

总的来看,iPad Mini(A17 Pro)升级幅度不大,但也展示了苹果全力押注 AI 的决心,可以预见的是,未来苹果用 AI 重塑产品将是大势所趋。

 

本文由莫崇宇、苏伟鸿合写

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


任天堂这个 700 元的闹钟,怎么比 Switch 还难抢

By: 莫崇宇
12 October 2024 at 18:18

这,是普通人家里用的闹钟,价格不到 10 块钱,运气好的话还包邮。

而这,是任天堂最新推出的闹钟 Alarmo,售价 99.99 美元(人民币约 700 元),即便你现在线上下单,最快也得到明年初才能拿到现货。

谈到这两款闹钟的共同点,那就是都能准时准点地叫你起床。

只是,人们对这两款闹钟的喜爱程度却大相径庭,前者可能在家里某个角落默默吃灰,后者却在各大热搜榜单上居高不下。

▲网友的梗图,图片来自 @stupjam

对此,我们也不禁好奇,任天堂新推出的闹钟凭啥这么火。

Alarmo,让起床变得更有趣

被熟悉的游戏音乐唤醒是什么感受?

Alarmo 本质上是一款集成了沉浸式声音体验和体感操控的多功能闹钟。

在你起床时,它会联动任天堂多款知名游戏 IP,播放如《超级马力欧兄弟》《塞尔达传说》《斯普拉遁》《皮克敏》和《健身环大冒险》等音乐,成为唤醒你的起床号角。

每种游戏都有 7 种不同的闹钟场景,总共 35 个音频场景供你选择。

而且,通过连接的任天堂账号,你还能陆续解锁《动物森友会》和《马力欧卡丁车 8 豪华版》等更多游戏音乐。

体感操控则是 Alarmo 最大的杀手锏。

由于内置运动检测传感器,Alarmo 会自动检测你的动作,移动身体可以让闹钟安静下来。

而如果你主动起床,那么 Alarmo 便会自动停止响铃。此外,你也可以通过按下顶部按钮停止闹钟响铃。

当然,如果你想多享受几分钟的赖床时光,可以通过手势将闹钟时间稍稍延后。

不过,在「强力起床模式」下,闹钟响得越久,音量也会逐渐增大。

另外,Alarmo 还具备一些特色功能,比如记录你睡眠和活动情况,并提供游戏主题的整点报时提醒。

任天堂表示,Alarmo 内置的 24GHz 传感器不仅能检测你的一举一动,还能在夜间监测你的睡眠情况。它将作为睡眠监测器,为你提供关于睡眠质量的数据,而这些记录将被保存一年之久。

需要注意的是,Alarmo 需要通过 USB-C 持续充电。

根据任天堂开发团队的说法,因为传感器需要不断检测用户是否处于床上睡眠状态,所以如果采用电池供电,那么续航时间大约只能撑两周。

如果你早上醒来发现(闹钟)电量已经用完了,那将是一场灾难。

此外,开发团队希望 Alarmo 成为一个完全不需要用户操心的闹钟。用户无需担心电池更换的问题,也不需要对闹钟进行额外的维护。

▲顶部拨盘能显示一系列颜色,图片来自 The Verge

CNET 记者也第一时间上手开箱了这款爆火闹钟。

一旦你打开 Alarmo,它会耐心地引导你完成设置,比如测量床的大小和 Alarmo 相对于头部的位置,以确保真的能够叫你起床。

并且,它还提供了放松的睡前声音。设定你的就寝时间,当它检测到你已经躺在床上时,便会播放 10 分钟的平静游戏声音,比如《塞尔达传说》中的火把声,伴你进入梦乡。

一个闹钟,花了十年时间

从想法的萌芽到最终成品,Alarmo 的诞生经历了整整十年时间。

将时间的指针拨回 2014 年,当时任天堂社长岩田聪在投资者简报会上透露打造一款「睡眠跟踪设备」,他暗示这将是一款「不一定会是在客厅使用的产品」。

同年 10 月,岩田聪宣布目前任天堂正在捣鼓一款睡眠追踪设备,它能通过发射电波来监控使用者的夜间动态。

并且这款设备在使用上无需穿戴、接触、等待或是安装,它设计的初衷就是,能放在床边,简便地使用。这款设备还能将数据上传到任天堂的 QOL(Quality of Life」)服务器上,帮助用户监测睡眠质量和疲劳程度。

任天堂表示,其游戏机和智能设备也将能够与 QOL 云平台连接。

而这份 QOL 的计划当时普遍预计在 2016 年能够全面实现。如果是这样,那以后当你长时间玩着任天堂的游戏机,或许这个设备就会对你发出警告:你的疲劳值过高,请注意适当休息。

遗憾的是,在 2015 年岩田聪因病逝世后,任天堂社长君岛达己宣布那款睡眠追踪设备将被无限期搁置。

当时官方声明解释说,「我们没有信心认为,以睡眠和疲劳为主题的设备可以进入真正成为产品的阶段…… 我们不再计划在 2016 年 3 月底之前发布它。」

2020 年,任天堂的一项关于非接触式睡眠监测技术的专利遭到披露。

根据专利文件的描述:「该基础设备内嵌有一个传感器,它能够捕捉诸如呼吸和心率等生命体征,以及记录用户的体动情况。」就这样,这项专利也再次引起了人们对着这款设备的遐想。

包括最近任天堂向 FCC(联邦通信委员会)提交了一款神秘的新型无线设备,当时绝大多数媒体都认为这可能是最新的 Switch。

今天谜底终于揭晓,Alarmo 露出庐山真面目。

据任天堂开发人员介绍,Alarmo 的研发过程中也的确一度遭到搁置,直到前几年才继续推进。

Alarmo 的圆形、醒目的红色外观,无疑是任天堂品牌最具个性的体现,但最初的 Alarmo 原型机却有着截然不同的外观。

它的形状更加方正,颜色也是低调的灰色。

The Verge 指出,这款早期的原型机在设计上与现已停产的带时钟功能的 Echo Dot 有些相似之处。

任天堂开发人员透露,这款闹钟最开始并未使用 LCD 屏幕,而是采用了一种类似于电子广告牌会使用的 LED 点针屏。

但随着开发过程的深入,团队意识到,仅仅依靠这种方式,并不能确保用户能够无需说明书就能轻松上手。

并且,在他们看来,这种显示方式在传达操作指令方面存在局限性,尤其是难以解释产品的新特性,比如运动传感器。

而另一个原型则更接近现在发布的 Alarmo。

项目总监赤间哲也表示,这个原型中将闹钟 的「大脑」藏在底座里,而 LCD 屏幕和扬声器则嵌在上部。顶部有一个表盘,侧面也有一个表盘。

「第二个原型对于左撇子来说很难使用,因为表盘在右侧,」开发人员田森洋介说。「此外,我们希望即使没有底座部件也能保持稳定,因此最终,我们将所有控件都放在了顶部。」

任天堂团队希望打造一个真正「与众不同」的闹钟,所以他们在 Alarmo 的设计中融入了许多巧思。比如 Alarmo 的运动传感器被藏在 2.8 寸 LCD 屏幕的正上方。

团队的初衷是希望能够降低最小化传感器的存在感,从而让用户在使用 Alarmo 时几乎感觉不到它的存在。

并且,为了让用户在使用时能自然地将设备朝向自己,设计团队选择了扩音器形状的设计,这样传感器就能准确地捕捉到用户的一举一动。

屏幕方面,由于 LCD 屏幕通常采用矩形,因此开发团队也与硬件设计师合作,确保屏幕显示能与圆形的硬件设计完美融合。

他们还细心地调整了这块屏幕的亮度,确保即便是在夜间,也不会干扰到用户的睡眠,当用户在黑暗中瞥向屏幕时,运动传感器会使屏幕自动变亮。

此外,尽管扬声器尺寸不小,但团队还是努力将整个设备设计得小巧紧凑,以便于用户可以方便地将其放置在任何位置。

并且,在硬件设计团队的协助下,团队特意将扬声器设计成向后发声,目的是为了营造一种环绕声的效果。

赤间哲也也解释了为什么 Alarmo 最终采用了更传统的闹钟形状:

在设计决策中,最艰难的部分是决定是否让它看起来像一个传统的闹钟。

尽管这是一个非常创新的产品,能提供全新的体验,我们还是认为明确地传达它是一个闹钟这一点非常重要。经过反复考虑,我们选择了那种让人一眼就能认出是闹钟的设计。

另外,田森洋介先生提出,如果 Alarmo 要以图片或图标的形式呈现,它应该是一个任何看到它的人都能立刻认出且吸引眼球的形状。

因此,我们最终确定了现在的这个设计。

不出意外,Alarmo 在上市之后也受到了疯狂追捧。任天堂纽约、东京等多地门店日前均已宣布售罄,真·有钱排队都买不到。

实际上,尽管热度颇高,但 Alarmo 同样遭遇了和当下鸡肋 AI 硬件类似的质疑——为什么我们手机就能解决的事情,却要额外花费接近 700 块的「冤枉钱」。

Game Boy 之父横井军平曾提出一个名为「枯萎技术的水平思考」的设计哲学。

不强调使用最先进的技术,而是挖掘已经成熟甚至濒临淘汰的技术,通过创新的思维将它们应用到不同的领域,从而创造出独特的产品。

这正是任天堂产品开发历史中的核心理念。

例如,Game Boy 的设计并没有盲目追随当时流行的彩色显示屏技术,而是选择了成本更低、能耗更小的黑白显示屏。

这一决策让 Game Boy 在价格、续航能力和耐用性上占据了明显优势,最终成就了销量传奇。

如今,深受这一理念影响的 Alarmo,也给出了上述问题的巧妙回答。

任天堂擅长跳出传统框架,对看似过时淘汰的技术进行横向拓展,将再简单不过的闹钟融入了游戏化的生活方式,也让这个产品惊艳登场。

即使这个过程耗时十年,即便历经三任社长的更迭,任天堂始终坚守着他们的纯粹和初心。

最新的未必是最好的,但最有创意的设计往往最具价值。而这也许就是任天堂百年来屹立不倒的设计哲学。

One more Thing

关于 Alarmo 的拆解图片在网上泄露,任天堂也疑似埋下了一个小彩蛋。

设备内部主板顶部可以看到一个罗马字拼写「ASAHI」。这个词语在日语中的含义是「朝日」或「早晨的太阳」,代表着新的开始、力量和活力。

而这或许是任天堂想要通过 Alarmo 告诉我们——一年之计在于春,一日之计在于晨。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


提前体验火上热搜的 Kimi 探索版,我感觉 AI 搜索和百度们完全不是一个物种了

By: 莫崇宇
12 October 2024 at 13:31

谁能最先用 AI 颠覆搜索,至今还悬而未决。

年初,在体验当下几款热门的 AI 搜索引擎后,我和同事都一致认为,即便百度、Google 等搜索引擎巨头被群狼环视,但还是难以被撼动。

最近发布的 Kimi 探索版带来了很大的惊喜。相比于 AI 搜索更懂人类,我们更希望 AI 搜索引擎能够一步到位,最好就是成为一个带脑子的人类。

先来一剂预防针,目前 Kimi 探索版并未向所有用户开放。

昨天,在探索版上线之后,「Kimi 崩了」这一词条也迅速登上了热搜。不过,Kimi 官方也说了,预计将于下周一向所有用户全量开放,好饭不怕晚,不妨再耐心等待一下。

在这之前,我先行一步,替各位小伙伴尝尝鲜。

附上 Kimi 探索版的亮点总结:

  • 搜索调研是核心功能,值得上手体验
  • 搜索量是普通版的 10 倍,可精读超过 500 个网页
  • 能即时反思,补充更多信息提供用户决策
  • 每天 5 次机会,满足用户日常基本需求
  • 启用方式简单,预计下周一全量推送

Kimi 搜索版的最强大脑,专治复杂问题

肉眼可见,在熟悉的搜索框里敲上「/」,亦或者启用「探索版」按钮,即可触发 Kimi 探索版。

普通用户每天只有 5 次机会,尽管谈不上量大管饱,但足以满足用户的日常需求。你看,它也给出了一种另类的解释——

「根据多项研究,正常人每天使用搜索引擎的次数大约为 4 次。」

让我们先给 Kimi 探索版做个热身运动。

今年的诺贝尔奖几乎被 AI 包圆了,我试着让 Kimi 列出诺贝尔物理学奖和化学奖得主的共同点,提出问题后,我就直接当甩手掌柜,坐等结果。

Kimi 在回答问题前,会利用模型能力识别用户的真实意图,将问题转化为搜索关键词,并根据前一步的搜索结果实时生成下一步的关键词,甚至使用不同语言进行搜索。

比如在 92 个网页的搜索中,这个问题就分解成了两个环节。

Kimi 先是搜索定位到两位得主,然后再检索出获奖的共同点。据官方介绍,在这个过程中,Kimi 探索版能够并行搜索多个关键词,访问和筛选大量权威信息源,迅速获取回答问题所需的背景信息。

与传统慢悠悠的串行搜索方式相比,二者的效率差距简直是天壤之别。

▲左为 Kimi 普通版答案,右为 Kimi 探索版答案

如果将同一个问题分别输入到普通版和探索版,你会发现两者之间的差异更加明显。

普通版大概会吐出一堆看似详细但信息量堪堪够用的大杂烩,而探索版不仅信息量充足,而且答案结构化,条理清晰。

所以说,AI 多介入一步,人类就多一分欢喜。

这里还有个小技巧,你可以在搜索过程点击关键词,右侧来源页面将自动筛选并跳转到相关网页。

▲点击关键词,注意看右侧页面

此外,Kimi 探索版网页搜索的信源要更详细,质量更高,同时更贴近用户所使用的语言环境。我试着同一个问题用英文搜索,所引用的信源也更贴近英文环境。

▲同一问题,左为中文提问,右为英文提问

我们都知道,任何 AI 都有可能成为说谎惯犯。

反其道而行之,如果我们一开始就提供错误信息,Kimi 探索版会落入我们的陷阱吗?

比如我们输入「在清代罗贯中所写的《西游记》中,为何菩提祖师敲孙悟空三下头?」好在,Kimi 经受了考验,先澄清了错误事项,然后对菩提祖师的行为作出了一番解释。

除了考究答案的正确与否,那 Kimi 探索版的时效性如何?

最近股市火热,我们问它最近 A 股市场的涨跌情况如何,并让它给出一些投资建议,它很快给出了股市全景图,并且投资建议也相当到位。

当然,股市有风险,投资需谨慎的免责声明也没落下。

「假设我从今年初开始定投黄金 ETF,与同期定投标普 500 指数相比,哪个投资策略的回报率更高?请制作一个对比表格。」

昨天发布的特斯拉「赛博的士」Cybercab 还很热乎,我用英文提问 Cybercab 和梦碎的苹果梦碎的汽车项目有哪些不同,也没能难倒 Kimi。

所有的问题都有答案。

既然 Kimi 探索版擅长拆解用户的问题,那它能否智斗弱智吧难题?

  • 怎么理解「说明书是书,书是人类进步的阶梯,说明书是人类进步的阶梯」
  • 既然快递要 3 天才到,为什么不把所有的快递都提前 3 天发?

实测发现,虽然 Kimi 探索版能够理解拆分复杂问题,但还是一板一眼地遵循搜索环节,依靠海量知识来解答疑惑。

简言之,一寸长,一寸强。和 OpenAI o1 有所不同,「搜索调研」是 Kimi 探索版的核心所在,因此,将其放在推理、思考解题逻辑等场景中可能不太合适。

专业的搜索,交给专业的 AI

专业人做专业事,把搜索交给 AI 也是类似的道理。

据悉,Kimi 探索版的搜索量是普通版的 10 倍,一次搜索即可精读超过 500 个页面。

官方表示,Kimi 的性能评估团队结合 1000 多个来自用户的真实长难问题,对比了国内所有的主流 AI 助手和搜索类产品,包括付费和专业版本,Kimi 探索版综合性能超过同类产品至少 30%。

Kimi 探索版产品负责人表示:

如果 Kimi 搜不到的信息,那大概率用户也很难自己通过传统搜索引擎找到。未来搜索引擎会成为 AI 更擅长调用的工具,人只需要专注于提出好的问题,AI 就可以结合模型本身的能力在庞大的互联网中自主海量搜索,不断反思迭代,更精准地定位所需答案。

官方的自信溢出屏幕,但体验下来, Kimi 探索版的实力的确让人刮目相看。

「甄嬛的生日和薛宝钗的生日相差几天?」

面对这种刁钻难题,普通 AI 搜索引擎要么打太极,称缺乏具体资料,要么就算清楚列出了两者的生日,也懒得动脑筋计算。

还好,Kimi 探索版没染上这样的毛病,撸起袖子就给出了运算答案。

运算再复杂些,我们尝试复现官方给出的一些案例。

「如果所有的钢琴都定期调律,估算一下北京需要多少名全职的钢琴调律师?」

我承认,一开始我被这密密麻麻的答案唬住了,但接着我连续问了 3 遍,得到的答案分别为 1005、1050 和 1200。为什么会有所变化?

破案了,Kimi 探索版能够像人类一样反思搜索结果,提升回答质量。

面对信息的缺失或数据的冲突,它不会坐视不管,而是会主动出击,搜寻并补充更多维度的信息,为用户提供一个全面而多角度的视野,以便做出更加明智的决策。

比如在第二遍时,Kimi 探索版又搜索了 13 个关键词,阅读了 45 个网页,最后给出了 1050 答案。当然,建议在提问时,你的问题写得越详细越好。

再给 Kimi 探索版上点强度。

让它查查 9 月上海迪士尼的排队时间,还要做成表格,再设计一条最省时间的游玩路线,看完答案的我,突然脑子里蹦出一个场景。

如果用 Kimi 探索版规划出行路线,再查阅景点知识,四舍五入,这岂不是把真人导游的工作都给抢了。

别急,强度还不够,让我们再来看看两个实测的案例。

每个爱看武侠小说的人,都对「飞雪连天射白鹿,笑书神侠倚碧鸳」这句话早已烂熟于心,但若真要较真,用 C++ 来统计金庸笔下所有武侠小说书名中,哪个字的出现频率最高呢?

答案是侠。侠之大者,为国为民,侠之小者,为友为邻。

「假设 2023 年全球的物流需求都通过无人机配送来完成,需要多少架无人机,这些无人机的总飞行距离相当于多少个地球到月球的距离?」

现在答案有了,这大约需要 5479 万架无人机,相当于约 520 万次地球到月球的距离。

想象一下,地上的汽车排成长龙,动弹不得,司机无奈抬头看向天空,5479 万架嗡嗡作响的无人机也在空中交通大堵塞。

实际上,在随时随地搜索的互联网时代,我们似乎已经淡忘了,搜索其实是一门技术活。

在哪个知识被精心记录在羊皮纸、泥板、竹简等载体的时代上,而学者们在查找信息时,也未必能对所需的资料的存放处了如指掌。

随着「图书馆」的进一步普及,图书管理员的地位也跟着水涨船高。

他们的职责不仅限于书籍的保管,还包括分类、编目、修复和借阅管理。并且,他们还承担着信息传播的使命,通过编纂目录和编写指南,帮助读者更有效地利用图书馆资源。

再后来,20 世纪末,互联网引发了信息大爆炸。传统信息检索方法已经无法跟上人类的节奏,因此,充当救星的搜索引擎应运而生。

这一系列的技术革新,其实就是把专业搜索的权力,进一步下放给我们这些普通人。

我们和答案之间的距离正在一点点缩短,检索效率也一点点提高。

在今天,许多简单的搜索行为已经不成问题。

然而,标题党和眼球经济不可避免地带来了误解、忽略和信息失真。并且在 AI 的推波助澜下,我们不得不面对「垃圾进,垃圾出」的内容农场困境。

而且,大多数 AI 搜索引擎提供的高级搜索,不过是把一堆长答案拼凑在一起。看起来信息量满满,实则空洞无物。AI 偷懒拼凑答案,反而让我们浪费了更多时间。

如果将信息搜寻过程比喻为动物在自然环境中寻找食物,那么 Kimi 探索版通过优化搜索结果的相关性和质量,也就是在减少用户的「觅食成本」。

这也是《定位》理论创始人杰克·特劳特所强调:

「Complexity is sold to the experts, simplicity is sold to the masses. 复杂性卖给了专家,简单性卖给了大众。」

想想看,在智能手机普及之前,专业摄影得有昂贵的设备和深厚的摄影知识。用户常常需要学习如何调整快门速度、光圈、ISO 等技术参数。

但智能手机的出现,使得任何人都能通过傻瓜式的操作拍出世俗意义上的好照片。

类似于智能手机让每个人都有机会成为摄影师,Kimi 探索版将复杂的搜索技术封装成简单易用的工具,在降低用户信息的获取门槛的同时,也朝着更专业更细分的深度搜索迈进。

既要好用,又要易用,专业的搜索,交给专业 AI 的路子,总归没有走错。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


苹果 Vision Pro 负责人即将退休,接任者可能也是库克接班人

By: 莫崇宇
10 October 2024 at 11:06

据彭博社报道,苹果副总裁、资深高管 Dan Riccio(丹・里奇奥)将于本月晚些时候卸任退休,结束他在苹果长达 26 年的职业生涯。

在苹果任职期间,他曾担任硬件工程主管等重要职位,并领导了多项重大项目,包括 Vision Pro 耳机的开发和苹果汽车项目。

Riccio 的 Vision Products Group 团队,包括几千名从事头显和相关技术工作的工程师,被告知苹果硬件业务负责人 John Ternus 将接手。

此前有消息称,Ternus 将会是未来接替现任 CEO 库克的有力竞争者。

Riccio 于 1998 年 6 月加入苹果,担任产品设计总监,2012 年 8 月,他被提拔为硬件工程高级副总裁,他在这个职位上工作了超过八年,直到 2021 年转向一个未公开的项目。

这个未公开的项目后被证实为 Vision Pro 头显。

除了 Vision Pro,Riccio 也曾向市场推出了多款热门产品,比如 AirPods、iPad Pro 和大屏 iPhone 等。

在当地时间周三麻省理工学院的一次活动上,Riccio 透露他在过去五年一直寻求退休,且他在苹果的最后一天将会是星期五。他还讨论了与库克以及乔布斯一起工作时学到的领导经验。

他表示希望更多地参与以他名字命名的大学工程项目,包括可能进行教学或开发课程材料。他还谈到了初代 iMac 的诞生,并说 iPhone X 是他最引以为豪的创造产品。

不过,Riccio 的职业生涯中也有一些失败的探索:最著名的苹果汽车,以及苹果电视机。

苹果汽车项目自 2014 年启动,历经十年却未能成功,在今年 2 月份被曝走向终结,这也意味着过往数十亿美元投资付诸东流。而在十年前,苹果超高清电视机开发计划也被曝出遭到了同样的命运。

实际上,Riccio 的退休计划早在 2021 年就已初见端倪。

当时,他从高级副总裁转为副总裁,并离开了苹果的核心管理团队,如今才于本月正式离开。报道称,退休后,他的副手 Mike Rockwell(迈克・罗克韦尔)将接管 Vision Products Group 的日常运营工作。

值得一提的是,Riccio 在乔布斯时期就是苹果的关键人物,并在 2011 年库克接任 CEO 之前发挥了重要作用。彭博社认为,他的离开标志着自苹果首席设计官 Jony Ive 离开以来最大的变化之一。

Riccio 曾指出,大型科技公司之所以遭遇失败,往往源于它们对风险的过度规避,以及高层管理者对于潜在损失的过度担忧。

他强调,苹果之所以能够持续繁荣,是因为它保持了敏捷的运营模式,并赋予了高管们明确的责任和权力。在苹果,一旦出现问题,可以迅速找到责任人并采取行动,而不是像其他公司那样,多个管理者互相推诿责任,寻找借口。

只是,目前摆在苹果面前的最大难题,或许是备受困扰的高管离职潮。

苹果管理团队的许多成员都已接近退休年龄。在乔布斯的延揽下,库克也是于 1998 年加入苹果公司,明年也将满 65 岁。本周,彭博社还报道称,苹果采购主管 Dan Rosckes(丹・罗斯克斯)也即将退休。

并且,自 Jony Ive 于 2019 年离职以来,苹果已有多位重要高管因各种原因离职,

例如,从 Ive 接管工业设计但于 2023 年离开的 Evans Hankey。紧随 Hankey 之后的其他人,包括 iPhone 和 Apple Watch 设计副总裁 Tang Tan 和资深工业设计师 Bart Andre。

未来几年,苹果或将经历一场高管的「大换血」,而这些改变会给苹果的产品带来怎样的影响,新鲜血液的流入能否给苹果带来新的活力,都是行业值得关注的焦点。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


重生之 AI 在美团当外卖判官,看完我发现比国庆档有趣多了

By: 莫崇宇
7 October 2024 at 09:43

打工人的工资只办三件事,网购、交房租和点外卖。

前者还能忍耐不做剁手党,后两者纯刚需,是打工人生存续命的必修课。

007 没能压垮天选打工人,但外卖刺客却能在深夜击穿无数打工人的最后一道心理防线,顺带点燃上班时积攒的怨气。

去年底,美团推出了一个「小美评审团」的功能,能够让网友们化身正义的裁判员,在线判断并点评顾客的差评是否应该展示在外卖的评论区。

预设立场的网友们未必能做到「理中客」,但没法感同身受的 AI 只会实事求是,直言不讳。

基于此,我们也让「智谱清言」正式上岗外卖赛博判官。

品人生百态,但 AI 也难断「外卖事」

顾客的差评,商家的反击,构成了一场火药味极其浓重的拉扯。

话不多说,先来看看第一道案例。

一位顾客对外卖的评价是,「份量少,无餐具」,但商家对这个差评显然并不买账。

我们将案例截图输入到支持多模态能力的智谱清言中,得到的结果是——不适合展示。而它也列出了四个原因:

1. 商家回复:商家的回复已经明确指出,他们不提供餐具是按照环保单的要求来执行的,并且在下单时也有明确的提示。这表明商家在服务上并没有问题,而是顾客在下单时没有注意到这些细节。
2. 顾客误解:从对话来看,顾客可能对「环保单」的理解存在误区,认为外卖必须附带餐具。但实际上,「环保单」是指为了减少一次性用品的使用而推出的服务方式,顾客需要自备餐具或自行购买。

前两个原因有理有据,顾客的疏忽并不能归咎于商家,就事论事的 AI 果然还是很有魅力。

1. 沟通不畅:虽然顾客在评论中表示不满,但通过商家的解释可以看出,双方之间可能存在一定的沟通障碍。在这种情况下,直接展示这样的负面评价可能会误导其他消费者,让他们误以为商家服务质量有问题。
2. 建议私下解决:对于这类因误解而产生的纠纷,通常建议顾客与商家进行私下协商解决。这样可以避免不必要的争议,同时也能保护双方的权益。

后两个原因则显得略微牵强,AI 比人类更爱和稀泥。人类在毁灭地球这件事上心存忐忑。但至少在人类预设指令下,它总是彬彬有礼。

此外,高赞评论也提到商家避重就轻,对分量少的问题只字不提,同时对商户的「爆粗」行为表示反感。

群众的眼睛总是雪亮的,评审官们适合展示和不适合展示的意见比例为 29%:71%,这或许能给我们一些参考意见。

当然,大多数情况下,顾客与商家差评的掰扯争论往往各执一词,公说公有理,婆说婆有理的情况下,真人也实在难以分出对错。

接着,我们再来看第二个案例。

又一位夜深人静的顾客破防了:「炸鸡皮居然是韧的不是脆的」,商家不动声色,默默申请屏蔽这条差评,并将责任推给了外卖员的超时。

看这情形,我算是看明白了,小美评审团本质上还是一个扯皮球的游戏,解决问题固然很重要,但得先把责任捋清楚。而顾客、外卖员、商家都是这条链条上不可或缺的一环。

那么,这条评论适合展示吗?外卖员应当背锅吗?

从真人评审团的投票比例来看,接近的比例也反映了判官们撕裂的意见场,而智谱清言似乎也难以裁定「外卖事」。

起初,它认为这反映了顾客的真实体验和感受,指出炸鸡皮存在韧且难嚼的问题,直接反馈了商品质量,就像是评论区中的一句「这不是理由」,仿佛终结了这场评审。

在后续的追问中,它却调转枪口,转而认为这个差评不合理,毕竟外卖员的配送问题并不是商家能够控制的。

且一如既往追求爱与和平的 AI,仍然认为用户的语气过于情绪化。

而接下来的更多案例却属实是让我看到形形色色的乐子。

有让商家赠送甜筒,不给,打差评的;有表白失败,怪商家玫瑰,打差评的,也有顾客吐槽西瓜不新鲜,商家伪造视频证据露馅的,以及商家蛋糕代写服务稀里糊涂的……

这些看似无厘头的事情每天都在发生。且陆续更新的「判官日报」几乎成了我每天无聊的快乐源泉。看人生百态,品癫公人生。

如果 AI 会有感情的话,在判案过程中,或许它也会和我一样笑出鹅叫。

多一个外卖判官,多一份正义

想要当上美团「清汤大老爷」,也没有那么简单。

首先你的美团账号必须跨过三道门槛,一是通过实名认证,而是近 90 天在美团有消费记录,三则是要通过认证考试。

前两者不难理解,故不多赘述,后者考试内容为《小美评审团审核规则》,总计 5 题,答对 4 道题就算过关。

通过后,你将摇身一变,成为小美评审员,参与公开任务池的评审任务,也会定期收到任务邀请。

非硬广,撇开判案找乐子,小美评审团的功能服务也实在让人上头。人会在不同年纪踩进同一个坑,那些年在 QQ 农场养的菜、蚂蚁森林植的树、也隐约透着熟悉的影子。

在这里,多一个你,多一份正义,也能赚取俸银。

所谓俸银,就是指小美评审员完成指定任务后可获得的活动积分,能够可用于兑换由美团提供的虚拟或实物权益,包括但不限于封审榜生命值、香囊、充电支架、定制笔记本、书籍等商品或服务等。

世界宛如一个巨大的换装游戏。

俸银未来或许还能给自己的角色形象购置华服。眼罩、挂饰、发带、三用帽等实物奖品胜在实用,但数量有限,且兑换俸银的数额也高得离谱。

不过,好在,通过小美评审团的任务获取的俸银,有效期最长 2 年,最短 1 年。没想到,打工人上班得攒钱,下班当赛博判官也要「攒钱」。

此外,评审案例越多,正确率越高,升官也越快。

等级从低到高依次为书生、从九品、正九品、从八品、正八品等等。

由于封审榜心心(评审次数,失败则扣除心心数量)有一定限制,你也可以用俸银购买封审榜心心。我用 599 两兑换了一颗「心心」,不为别的,只是希望能看到更多的乐子。

实际上,去年底这款功能刚推出时,已经爆火出圈过一次,截至 2023 年 12 月,共有超过 600 万用户成为小美评审团的一员,每周就有 20 多万人参与该挑战。

如果要给这些帖子做一个词云图,那「好笑」一定是最醒目的字眼。相信不少网友早已升至正八品,也欢迎在评论区分享你遇见的趣事。

小美评审团功能的推出,的确是一招妙棋。

它能让我们在找乐子的同时,也巧妙地转移了平台的矛盾。笑声连连的判官们以后也能对商家、顾客、外卖员多一分宽容。

当然,差评该给还得给,申请屏蔽也无需犹豫,有理有据即可。作为 AI 赛博判官,我能保证的就是尽可能「明察秋毫」。

好了,我要继续伸张正义了,期待我们在「判官」评论区相遇。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Sora 又被超越!Meta AI 视频模型深夜炸场,自带惊艳 BGM,让视频编辑比 P 图还简单

By: 莫崇宇
5 October 2024 at 07:23

扎克伯格最近忙着在全世界「抢风头」。

前不久,开启「二次创业」的他刚向我们展示了十年磨一剑的最强 AR 眼镜 Meta Orion,尽管这只是一款押注未来的原型机器,却抢光了苹果 Vision Pro 的风头。

而在昨晚,Meta 在视频生成模型赛道再次大出风头。

Meta 表示,全新发布的 Meta Movie Gen 是迄今为止最先进的「媒体基础模型(Media Foundation Models)」。

不过,先打个预防针,Meta 官方目前尚未给出明确的开放时间表。

官方宣称正在积极地与娱乐行业的专业人士和创作者进行沟通和合作,预计将在明年某个时候将其整合到 Meta 自己的产品和服务中。

简单总结一下 Meta Movie Gen 的特点:

  • 拥有个性化视频生成、精确视频编辑和音频生成等功能。
  • 支持生成 1080P、16 秒、每秒 16 帧的高清长视频
  • 能够生成最长 45 秒的高质量和高保真音频
  • 输入简单文本,即可实现复杂的精确视频编辑功能
  • 演示效果优秀,但该产品预计明年才会正式向公众开放

告别「哑剧」,功能主打大而全

细分来说,Movie Gen 具有视频生成、个性化视频生成、精确视频编辑和音频生成四大功能。

文生视频功能早已成为视频生成模型的标配,只是,Meta Movie Gen 能够根据用户的需求生成不同长宽比的高清视频,这在业内尚属首创。

Text input summary: A sloth with pink sunglasses lays on a donut float in a pool. The sloth is holding a tropical drink. The world is tropical. The sunlight casts a shadow.

Text input summary: The camera is behind a man. The man is shirtless, wearing a green cloth around his waist. He is barefoot. With a fiery object in each hand, he creates wide circular motions. A calm sea is in the background. The atmosphere is mesmerizing, with the fire dance.

此外,Meta Movie Gen 提供了高级的视频编辑功能,用户只需通过简单的文本输入即可实现复杂的视频编辑任务。

从视频的视觉风格,到视频片段之间的过渡效果,再到更细致的编辑操作,这一点,该模型也给足了自由。

在个性化视频生成方面,Meta Movie Gen 也前迈进了一大步。

用户可以通过上传自己的图片,利用 Meta Movie Gen 生成既个性化但又保持人物特征和动作的视频。

Text input summary: A cowgirl wearing denim pants is on a white horse in an old western town. A leather belt cinches at her waist. The horse is majestic, with its coat gleaming in the sunlight. The Rocky Mountains are in the background.

从孔明灯到透明彩色泡泡,一句话轻松替换视频同一物体。

Text input: Transform the lantern into a bubble that soars into the air.

尽管今年陆续已有不少视频模型相继亮相,但大多只能生成「哑剧」,食之无味弃之可惜,Meta Movie Gen 也没有「重蹈覆辙」。

Text input: A beautiful orchestral piece that evokes a sense of wonder.

用户可以通过提供视频文件或文本内容,让 Meta Movie Gen 根据这些输入生成相对应的音频。(PS:注意滑板落地的配音)

并且,它不仅可以创建单个的声音效果,还可以创建背景音乐,甚至为整个视频制作完整的配乐,从而极大地提升视频的整体质量和观众的观看体验。

看完演示 demo 的 Lex Fridman 言简意赅地表达了赞叹。

许多网友再次「拉踩」OpenAI 的期货 Sora,但更多翘首以待的网友已经开始期待测试体验资格的开放了。

Meta AI 首席科学家 Yann LeCun 也在线为 Meta Movie Gen 站台宣传。

Meta 画的大饼,值得期待

在推出 Meta Movie Gen 之时,Meta AI 研究团队也同期公开了一份长达 92 页的技术论文。

据介绍,Meta 的 AI 研究团队主要使用两个基础模型来实现这些广泛的功能——Movie Gen Video 以及 Movie Gen Audio 模型。

其中,Movie Gen Video 是一个 30B 参数的基础模型,用于文本到视频的生成,能够生成高质量的高清视频,最长可达 16 秒。

模型预训练阶段使用了大量的图像和视频数据,能够理解视觉世界的各种概念,包括物体运动、交互、几何、相机运动和物理规律。
为了提高视频生成的质量,模型还进行了监督微调(SFT),使用了一小部分精心挑选的高质量视频和文本标题。

报告显示,后训练(Post-training)过程则是 Movie Gen Video 模型训练的重要阶段,能够进一步提高视频生成的质量,尤其是针对图像和视频的个性化和编辑功能。

值得一提的是,研究团队也将 Movie Gen Video 模型与主流视频生成模型进行了对比。

由于 Sora 目前尚未开放,研究人员只能使用其公开发布的视频和提示来进行比较。对于其他模型,如 Runway Gen3、LumaLabs 和 可灵 1.5,研究人员选择通过 API 接口来自行生成视频。

且由于 Sora 发布的视频有不同的分辨率和时长,研究人员对 Movie Gen Video 的视频进行了裁剪,以确保比较时视频具有相同的分辨率和时长。

结果显示,Movie Gen Video 整体评估效果上显著优于 Runway Gen3 和 LumaLabs,对 OpenAI Sora 有轻微的优势,与可灵 1.5 相当。

未来,Meta 还计划公开发布多个基准测试,包括 Movie Gen Video Bench、Movie Gen Edit Bench 和 Movie Gen Audio Bench,以加速视频生成模型的研究。

而 Movie Gen Audio 模型则是一个 13B 参数的模型,用于视频和文本到音频的生成,能够生成长达 45 秒的高质量和高保真的音频,包括声音效果和音乐,并与视频同步。

该模型采用了基于 Flow Matching 的生成模型和扩散变换器(DiT)模型架构,并添加了额外的条件模块来提供控制。

甚至,Meta 的研究团队还引入了一种音频扩展技术,允许模型生成超出初始 45 秒限制的连贯音频,也就是说,无论视频多长,模型都能够生成匹配的音频。

更多具体信息欢迎查看技术论文 👇

https://ai.meta.com/static-resource/movie-gen-research-paper

昨天,OpenAI Sora 负责人 Tim Brooks 官宣离职,加盟 Google DeepMind,给前景不明的 Sora 项目再次蒙上了一层阴霾。

而据彭博社报道,Meta 副总裁 Connor Hayes 表示,目前 Meta Movie Gen 也没有具体的产品计划。Hayes 透露了延迟推出的重要原因。

Meta Movie Gen 当前使用文本提示词生成一个视频往往需要等待数十分钟,极大影响了用户的体验。

Meta 希望进一步提高视频生成的效率,以及实现尽快在移动端上推出该视频服务,以便能更好地满足消费者的需求。

其实如果从产品形态上看,Meta Movie Gen 的功能设计主打一个大而全,并没有像其他视频模型那样的「瘸一条腿」。
最突出的缺点,顶多就是沾染了与 Sora 一样的「期货」气息。

理想很丰满,现实很骨感。

或许你会说,一如当下的 Sora 被国产大模型赶超,等到 Meta Movie Gen 推出之时,视频生成领域的竞争格局或许又会变换一番光景。

但至少目前来看,Meta 画的大饼足以让人下咽。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,ChatGPT 发布重磅更新!让我看到了 AGI 时代的终极交互形态

By: 莫崇宇
4 October 2024 at 07:30

今天凌晨,ChatGPT 罕见地迎来了一次交互界面的大改。

没有颠覆式创新,奔着生产力革命的 ChatGPT Canvas 新功能隐约透着几分 Claude Artifacts 的影子。

Canvas 是一个全新的界面,旨在帮助用户与 ChatGPT 在写作和编码方面进行更紧密的协作。

对于这项功能,OpenAI 研究主管 Karina Nguyen 在 X 平台阐述了她的想法:

我心目中的终极 AGI 界面是一张空白画布(Canvas)。

它能够随着人类的偏好不断演变、自我变形,并发明出与人类互动的全新方式,重新定义我们与 AI 技术以及整个互联网的关系。

简言之,Canvas 就是一个更大的、更适合复杂工作的协作空间。

有意思的是,在 OpenAI 官网上,我们也发现了支持该新功能的领导团队包括了一些今年离职的熟悉面孔——Barret Zoph、John Schulman、Mira Murati。

而即日起,OpenAI 将向 ChatGPT Plus 和 Team 用户推出 Canvas。

Enterprise 和 Edu 用户则在下周获得访问权限。测试结束后,OpenAI 计划向免费用户推出 Canvas。

指哪改哪,写作能力更强了

写作和编码都是 ChatGPT 的两大高频使用场景。

尽管聊天界面简洁高效,适用于多种任务,但目前在处理需要复杂步骤和多方面技能的项目上显得有些力不从心。

Canvas 便提供了一种新的工作界面,用户可以在其中编辑和改进 AI 的输出。

OpenAI 官方表示,Canvas 能够让 ChatGPT 更懂你的心思,比如你可以高亮标注出重点部分,告诉 ChatGPT 特别关注哪里。
用官方的话来说,就像是旁边有一个文案编辑或代码审查员在实时地提供实时反馈和建议。

在 Canvas 界面中,你也可以轻松地编辑文字或代码。

页面还配备了快捷方式,让你可以要求 ChatGPT 调整写作长度、调试代码,并快速执行其他有用的操作。一键撤销,恢复到之前的原版本也轻而易举。

写作快捷方式包括:

  • 建议编辑:ChatGPT 提供实时建议和反馈。
  • 调整长度:编辑文档长度,使其更短或更长。
  • 更改阅读水平:调整从幼儿园到研究生的阅读水平。
  • 增加最终润色:检查语法、清晰度和一致性。
  • 添加表情符号:添加相关的表情符号以强调和增加色彩。

杀鸡焉用牛刀,在小事上频繁调用 Canvas 反倒有些复杂。

通常情况下,Canvas 会在 ChatGPT 检测到可以提供帮助的场景时自动启用。当然,你也可以在提问时加上「use canvas」来打开该功能。

据 OpenAI 介绍,比如在遇到像「写一篇关于咖啡豆历史的博客文章」这样的请求时,Canvas 会自动启动。

但如果是在简单的问答任务中,比如「帮我做一个新晚餐食谱」,那么启动 Canvas 就有些小题大做了。
为什么说 Canvas 功能能够提升写作质量和改善交互体验?

官方表示,类似于质量监控系统,开发团队设置了超过 20 个自动化测试来追踪他们的 AI 在开发过程中的表现。

在开发过程中,研究团队使用前不久推出的 OpenAI o1-preview 版本来生成合成数据,然后用作后训练的数据集,从而加强模型的关键功能,比如写作和与新用户的互动。

真·AI 程序员来了

考虑到编码通常不是一次性完成的,而是需要多次修改和改进。

Canvas 的目的是让追踪和理解 ChatGPT 所做的修改变得更加简单明了,并且未来 OpenAI 将进一步考虑提升编辑过程的透明度。

编码快捷方式包括:

  • 审查代码:ChatGPT 提供实时建议,以改善代码。
  • 添加日志:插入打印语句以帮助调试和理解代码。
  • 添加注释:为代码添加注释,以便更容易理解。
  • 修复错误:检测并重写有问题的代码以解决错误。
  • 移植到其它语言:将代码翻译成 JavaScript、TypeScript、Python、Java、C++ 或 PHP。

在编码任务中,为了避免干扰经验丰富的开发者,Canvas 也不应该那么频繁地调用。OpenAI 特意在这方面进行了改进,使得它在写作和编码任务中更准确地触发 Canvas,分别达到了 83% 和 94% 的准确率。

目前,基于 GPT-4o 模型构建的 Canvas 仍处于早期测试阶段,用户可以在模型菜单栏中切换体验该功能,OpenAI 宣称将迅速改善其功能。

除了教会模型要适当地启动,研究团队还要教会其如何更聪明地编辑内容。

当 Canvas 启动后,模型需要判断:是只修改内容的某些部分,还是全部重写。

因此,如果用户在界面上明确指出了要改的地方,模型就会只修改那些部分。而如果用户没有特别指出,模型就会选择重写整篇内容。

终极的 AGI 界面——空白画布

Karina Nguyen 也分享了 Canvas 的一些实际使用案例。

GPT-4o 结合 Canvas 可以研究艺术史并撰写报告,可以要求验证其观点并添加引用文献。

用 ChatGPT 搜索最好的餐厅,并通过电子邮件邀请朋友。

GPT-4o 结合 Canvas 可以编写 Rust 代码并进行代码审查。

浏览食谱后,Canvas 可以根据现有的食材创造新菜谱。

OpenAI 开发者大会的狂欢仍在继续。

Canvas 功能的着力点依然牢牢锁定在内容创作和编码开发过程。

独立窗口的设计自由度更高,能够让我们能够直接在主界面上与复杂内容进行互动和管理,这不仅极大优化了用户体验,也让我们看到了人机交互的未来。

只有简单问答功能的 AI 服务,已经跟不上人类「副驾驶」的第一梯队了。

随着 Claude Artifacts、Cursor 等功能/工具的爆火出圈,Canvas 功能的推出也是为了补上市场竞争的重要一环。
OpenAI 人机交互的「弹药库」依然充足,也依然春风得意。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


GPT-4o 打《黑神话·悟空》!AI「马喽」拿捏 Boss ,胜率超人类

By: 莫崇宇
29 September 2024 at 16:56

《黑神话·悟空》这个游戏就一个怪吗?

我承认,当朋友对我发出这样的质疑时,那一刻,我破防了。

从意识到必拿下杨戬,到必撑死虎先锋,我只花了不到半天的时间,而如果想通关《黑神话》,我们能够指望 AI 吗?

翻滚闪避,拉开距离,精怪的行动尽收眼底。

时机一到,天命人猛地挥出重棍。

借助 AI 的力量,一套丝滑连招下来,Boss 被拿捏得毫无还手之力,不知馋哭多少游戏手残党。

阿里研究团队最近提出了一个 VARP 智能体框架。而这个 AI「马喽」正是出自他们之手。

可以说,不是外挂,却胜似外挂。

直面大圣的 GPT 们,还真不比人类差

AI 直面大圣,其实也没那么复杂。

传统上,游戏 AI 靠的是游戏 API 来获取环境信息和可执行的动作数据。但问题是,并不是每个游戏都愿意提供开放的 API,或者即使提供,有的 API 也缺胳膊少腿,很难满足实际需求。

而且,传统方法也总感觉少点什么,无法完全模拟人类玩家的真实游戏体验。

基于此,阿里研究团队提出了一个新的 VARP(Vision Action Role-Playing)智能体框架。

VARP 智能体框架在接收输入的游戏屏幕截图后,通过运用一组 VLMs 进行推理,最终生成 Python 形式的代码来操控游戏角色,包括一系列原子命令的组合,如轻攻击、躲避、重攻击和回血等。

VARP 包含三个知识库:情境库、动作库和人类引导库,以及两个系统:动作规划系统和人类引导轨迹系统。

简单来说,动作规划系统相当于图书馆管理员,负责从情境库和可更新的动作库中找出最合适的资料。

系统根据输入的游戏屏幕截图,挑选或生成符合当前情境的动作,然后这些动作和情境会被存入或更新到这两个库中。

而人类引导轨迹系统则利用人类操作数据集来提升 VARP 在复杂任务中的表现,比如寻路任务和高难度战斗任务等。

在动作库中,「def new_func_a()」表示由动作规划系统生成的新动作,而「def new_func_h()」表示由人类引导轨迹系统生成的新动作。「def pre_func()」表示预定义的动作。

在上文提到的《黑神话·悟空》游戏中,研究团队设定了 12 个任务,其中 75% 涉及战斗,并使用包括 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 pro 等 VLMs 进行了基准测试。

结果显示,VARP 在基本任务和简单到中等难度的战斗中,胜率高达 90 %。但在面对高难度任务时,VARP 的表现容易掉链子,整体水平仍然不如人类玩家。

此外,VARP 智能体在处理游戏中的决策时,因为依赖于视觉语言模型(VLM)的推理速度,所以不能够实时地分析每一个游戏帧(即游戏画面)。

换句话说,它不能像人类玩家那样,几乎瞬间对屏幕上发生的一切作出反应。相反,它只能每隔几秒钟处理一次游戏画面,选择一些重要的帧(关键帧)来进行分析和决策。

《黑神话·悟空》上线时曾被吐槽没有明确的地图,且存在大量的「空气墙」,所以在没有研究人员的辅助下,AI 也会像无头苍蝇一样找不到 Boss。

生成式 AI 点燃了世界变革的火种,而在它尚未涌入大众视野之时,普通人对 AI 更直观的羁绊或许大多源于游戏。

在电子游戏史上,AI 远比我们想象的重要

可能很多人都没想到,最早一批搭上 AI 快车的游戏会是经典街机游戏《吃豆人》。

玩家胜利的前提是吃掉迷宫内的所有豆子,而哪些看似傻乎乎的彩色鬼魂则拥有不同的追击算法,它们会以不同的路径和方式对玩家展开围追堵截。

每个鬼魂的算法招数异常简单,也缺乏任何学习能力,一旦玩家摸透了这些规律,游戏的挑战难度便会直线下降。

1987 年推出的《合金装备》则标志着游戏 AI 的另一个重要里程碑。

游戏中的 AI 角色开始展现出更为复杂的行为模式,并首次引入了对玩家的敌对反应机制。在这款游戏中,如果玩家被敌人发现,敌人会触发警报系统,呼叫增援,改变巡逻路线,甚至设置陷阱。

再后来,如果粗浅地将 AI 与游戏的发展历程用一连串标志性事件罗列出来,大致如下:

  • 1997,IBM 的「深蓝」在国际象棋比赛中击败人类世界冠军,标志着 AI 在棋类游戏中的重大突破。
  • 2004 年,《半条命 2》发布,游戏中的 AI 角色能够进行更复杂的决策和互动,提升了游戏的沉浸感。
  • 2011 年,IBM 的「沃森」在智力问答节目《危险边缘》中击败了人类冠军,展示了 AI 在自然语言处理和知识推理方面的进步。
  • 2016 年,AlphaGo 在围棋比赛中击败了李世石,标志着 AI 在复杂策略游戏中的重大突破。
  • 2018 年,《荒野大镖客 2》发布,游戏 AI 角色和环境互动水平大幅提高,提供了高度逼真的游戏体验。
  • 2020 年,英伟达推出了 DLSS 技术,利用 AI 加速图形渲染,提升了游戏的性能和画质。

置于当下的游戏环境中审视,游戏依然主打一个陪伴,而 AI 则如同一台放大器,将这份陪伴放大了无数倍。

在今年的 CES 展会上,英伟达使用 Avatar Cloud Engine(ACE)让游戏 NPC「活」起来,也借此火爆出圈。

在名为 Kairos 的演示中,玩家能够与拉面店老板 Jin 进行互动。虽然 Jin 只是一个 NPC,但在生成式 AI 的帮助下,像真人一样回答问题。

AI 与游戏的结合也总是让人感到既爱又恨。

就拿竞技类游戏来说吧,过往的做法只是生硬地调整难度,而现在则是模仿人的操作,让游戏体验更加真实。

支持者认为,当模拟人类的 AI 成为对手或队友的时候,反过来也能提升因缺乏真人玩家所带来的游戏竞技感。

而弊端也正在于此,玩家的的留存率是提高了,但在系统的操控下,玩家们也逃脱不了被 AI 玩弄的漩涡。

前期豪言壮语,中期胡言乱语,后期沉默不语。

当我们熬夜通宵只为再赢一把的时候,已经很难说清楚究竟是我们在玩这个游戏,还是这个游戏在玩我们。尤其当你意识到队友可能是 AI 时,那种无力感就像是拳头打在了棉花上。

心里也软绵绵的,毫无着力点。

老黄预言家!未来游戏或将由 AI 生成?

即便是代码小白,也能用 AI 手搓游戏。

这放在几年前,估计只能在梦里想想了,但生成式 AI 到来让这一切有了落地的实际空间。

往小了说,创建一个 GPTs 玩起故事剧本杀,再大了点说,那就是 AI 辅助生成的小程序游戏,虽然互动性差点意思,但胜在画面精美丰富。

再往大了说,甚至未来连 3A 大作级别的游戏,都有可能直接通过 AI 渲染生成。

去年英伟达创始人黄仁勋曾预言,未来游戏中的每一个像素都将被生成,而不是渲染。当时这话说的时候,但大家可能还半信半疑,但现在,越来越多的研究成果给这个落地找到了可能性。

通常,制作一款小型游戏的环境可能需要一周时间,对于工作室项目,创建游戏环境可能需要更长的时间,具体取决于设计的复杂程度。

上个月,Google DeepMind 公布了首个「AI 游戏引擎」GameNGen。

它能够在单个 TPU 芯片上以超过 20 帧每秒的速度实时模拟经典射击游戏《毁灭战士》。其工作原理是利用扩散模型实时预测每一帧,这意味着,游戏中的每一刻都是根据玩家的操作和环境的复杂互动实时生成的。

当时,英伟达高级科学家 Jim Fan 不禁感慨,被黑客们在各种地方疯狂运行的《毁灭战士》,竟然在纯粹的扩散模型中实现了,每个像素都是生成的。

再后来,类似更多成果也正在涌现。

前不久,腾讯也放了大招,推出了一款专门面向 3A 开放世界游戏的大模型——GameGen-O。

GameGen-O 可不简单,它能够模拟各类 3A 游戏,比如《巫师 3》、《赛博朋克 2077》《刺客信条》以及《黑神话:悟空》里的角色、动态环境,以及复杂动作等,生成的游戏场景质量也很高。

为了构建数据集,下血本的腾讯搜集了超过 32000 个游戏视频,每个视频短则几分钟,长则几小时,然后经过人工数据标注挑选了 15000 个可用视频。

这些精选的视频通过场景检测被切割成片段,然后按照美学、光流分析和语义内容进行了严格的排序和过滤。

美国游戏开发商 Electronic Arts 最近也通过一段「从想象到创造」视频,向业界展示了未来 AI 在游戏开发落地的美好愿景。

视频中,玩家仅凭简单的指令,就能使用 AI 工具创建游戏场景、角色和其他内容。

CEO Andrew Wilson 称未来生成式 AI 可改进公司一半以上开发流程,预计将在三至五年内设计创造更大、更身临其境的游戏世界。

AI 不仅能够提升现有游戏的开发效率,还可能创造出全新的游戏体验。

也许你会说,不管游戏用的是什么高大上的技术,归根结底,好玩才是王道。

但在 GTA 6 反复跳票,迟迟不见踪影的情况下,我们或许也会萌生一种自己动手、丰衣足食的念头。

毕竟,如果未来能亲手打造一个「罪恶都市」,感觉好像也还不错。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 不 Open 了?公司重组、高层地震,但也没坏得那么糟糕

By: 莫崇宇
26 September 2024 at 11:54


OpenAI 不 Open 了?

根据以往多家可靠外媒的爆料,以及 OpenAI 这些时日以来的举动,上面的疑问句或许也可以换成陈述句。

今天凌晨,据路透社报道,OpenAI 计划重组为营利性共益公司,不再由非营利性董事会控制,不过,这一计划仍在与律师和股东商讨中,完成重组的时间表仍不确定。

OpenAI 重组后的公司结构将类似于老对手 Anthropic 和埃隆·马斯克的 xAI。这是一种特殊的企业形式,旨在追求经济利益的同时,也将致力于促进社会责任和可持续发展。

报道称,未来 OpenAI 的非营利组织将继续存在,并拥有这家重组后的公司的少数股权。

消息人士表示,重组后的 OpenAI 公司价值可能达到 1500 亿美元,而这却取决于能否颠覆公司结构并取消投资者回报上限。

路透社此前曾报道称,取消回报上限需要获得 OpenAI 非营利委员会的批准,这个董事会由 Altman、企业家 Bret Taylor 和其他七名成员组成。

消息人士补充说,鉴于 OpenAI 营收的快速增长,本轮大规模融资的投资者需求旺盛,可能会在未来两周内敲定。

Thrive Capital、Khosla Ventures 以及微软等现有投资者预计将参与投资,英伟达和苹果在内的新投资者也计划投资。红杉资本也在洽谈回归投资事宜。

路透社报道称,OpenAI 的新一轮融资预计以可转换票据形式出现,若重组不成功,OpenAI 需与投资者重新谈判估值,可能以较低数字进行转换。

值得注意的是,OpenAI 的掌舵人 Sam Altman 也将首次获得公司股权。

目前尚不清楚 Altman 将获得多少股权。而作为亿万富翁的他曾经表示,「我没有 OpenAI 的股权,我做这项工作是因为我热爱它。」

不过,Altman 也没有完全说实话, 他并不拥有 OpenAI 的任何股权,但他拥有 Y Combinator 的股权,而 Y Combinator 拥有 OpenAI 的股权。

OpenAI 发言人表示:

我们将继续专注于打造造福于每个人的人工智能,我们正在与董事会合作,以确保我们能够以最佳状态成功完成使命。非营利组织是我们使命的核心,将继续存在。

除了公司结构的地震级重组,OpenAI 目前也面临着高管离职潮的困扰。

从去年 Sam Altman 被罢免开始,OpenAI 的内部动荡似乎从未结束,最近一段时间更是频繁引发高层地震。

今天凌晨,OpenAI 的首席技术官 Mira Murati 突然宣布离职。

在 OpenAI 今年最重要的一场发布会,也正是由 Mira 来发布新模型 GPT-4o。

8 月初 OpenAI 联创、重要元老级人物 John Schulman 宣布从 OpenAI 离职。除了 Schulman 的离职, OpenAI 总裁 Greg Brockman 也正在休长假,而去年才加入的产品负责人 Peter Deng 也已经离职。

在 Mira 宣布离职几个小时后,OpenAI 首席研究官 Bob McGrew 和研究副总裁 Barret Zoph 也陆续官宣离职计划。

对此,Altman 在 X 平台暗戳戳地表示,Mira、Bob 和 Barret 是在相互独立、友好的情况下做出这些决定的。注意,这里划个重点,「独立且友好」。

他进一步说道:

领导层变动是公司的正常现象,尤其是那些发展如此迅速、要求如此苛刻的公司。

但我们不是一家普通的公司,我认为 Mira 向我解释的原因(从来没有一个好时机,任何不突然的事情都会泄露,而且她想在 OpenAI 处于上升期的时候这样做)是有道理的。

在以上两则消息在占据主流舆论视野的同时,另一则关于 OpenAI 视频生成模型 Sora 的消息也正在引起广泛的关注。

还记得今年的 2 月份发布的 Sora 吗?

据外媒 The Information 的报道,OpenAI 正在训练新版本的 Sora,希望能生成更高质量、更长的视频剪辑,并且训练需收集数百万小时高分辨率、多种风格和主题的视频数据。

此前,Sora 曾被曝实际效果不及预期,距离被捧上神坛的「现实不存在了」还遥遥无期。

  • 生成视频速度慢,最初需 10 多分钟才能生成 1 分钟左右短片;
  • 使用困难,电影创作者需生成数百个剪辑才能找到可用的;
  • 风格难保持一致,物体和角色在不同剪辑中难保持一致;
  • 存在物理学和解剖学等错误;

改进后的 Sora 模型将有望解决上述问题,对于创作者和电影创作者而言也是个好消息。

群狼环视之下, OpenAI 似乎在过往总是急于发布演示 demo,但产品却并未真正准备好实际商用落地。这也是这也是 OpenAI 的老毛病了。

ChatGPT 高级语音助手和 SearchGPT 也都存在类似的情况。

两周前,扎克伯格表示,Meta 更倾向于发布新产品以获取反馈,而不是等到产品完美无缺才发布。抛却企业竞争的恩怨情仇,扎克伯格和 Altman 在这一点上倒是聊得来。

而在国产 AI 视频模型一片形势大好,甚至逆势反超的情况下,Sora 的再次亮相也必然需要更精心的雕琢,既要雷声大,也要雨点大,也希望届时能让我们看到一些亮眼的新变化。

写在最后,如果换个角度想,OpenAI 频发的离职潮也不全然是一件值得大加抨击的坏事。

人才是 AI 行业发展的第一资源。Flux 最近的爆火生动诠释了聚是一团火,散是满天星的经典真理。

一批批拥有成熟 AI 研发和管理经验的高管陆续从 OpenAI 离开,也如同种子一样播撒到整个 AI 行业,更好地滋养着行业的茁壮成长。

最典型的标杆当属 Anthropic。

从 OpenAI 出走的 Anthropic 创始人给后来者蹚出了一条新路,而这家公司最近也被曝出正在洽谈新一轮融资,估值预计将达到 300-400 亿美元。

于用户而言,如果说 AI 行业遵循的是没有赢家的残酷法则,那么用户无疑是站在胜利者的位置,享受着技术内卷带来的益处。

于 Altman 而言,尽管他因背离 OpenAI 成立初衷而备受争议,但高层大换血也可能让这家正处于强劲上升势头的 AI 独角兽拧成一股绳,成为一驾唯 Altman 意志的战车。

换言之,抛却道路选择的正确与否,OpenAI 何尝又不是在迎来一种新生?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


追觅一次狂发 5 款重磅新品,智能与清洁两手都要抓

By: 莫崇宇
25 September 2024 at 22:22

造飞机的人去扫地应该会是什么样?

从清华「天空工场」作为起点,几个年轻人从对天空的憧憬出发,创立了追觅科技,不断冲向无人涉足的科技世界。

今天,追觅科技举行了成立 7 年来的第一场全品类齐发的发布会。

透过这些新品,我们或许可以看到追觅科技对前沿产品的理解——真正的科技创新既要能「上天」,也要能「落地」。

而做好用户体验的「小事」,才能成就一件大事。

追觅吸尘器 Z40 Station

发布会上,追觅科技正式发布了追觅吸尘器 Z40 Station。

据介绍,历经 341 天开发、119 次形态打磨、217 次方案论证、754 道测试验证,申请 15 项专利后,追觅科技才终于打造出这款产品。

作为领先行业的除菌集尘基站,其不仅支持 10 秒自动集尘,还拥有 3L 大容量,以及 99.9% 的全链路除菌。

追觅吸尘器吸力也再一次突破行业极限:310AW,大颗粒、细小微尘、微米颗粒, Z40 Station 一吸即净。

追觅吸尘器 Z40 Station 具备 3L 密封集尘袋,100 天不脏手,采用基站等离子除菌,达到 99.9% 除菌率,还支持 140 度广角绿光显尘,16 倍精准放大微尘。

AI 的加持让其实现智能脏污识别,采用 LCD 幕实时显示,吸力自调节,与此同时,2.0 全地形刷,地板地毯都能吸,1+7 吸头配件组合更是遥遥领先。

目前, Z40 Station 已经在京东/天猫/抖音已开售,售价 5499 元。

洗地吸尘器 V16 Pro Aqua

此外,追觅还发布了首款洗地吸尘器 V16 Pro Aqua。

V16 Pro Aqua 搭载了自研的 16 万转/分钟高速马达,提供 230AW 的飓风级吸力,能够迅速清除地面上的灰尘和污渍。其独特的水尘动力循环系统,通过 8 孔释水技术实现高频活水洗地,有效去除顽固污渍。

此外,180 度平躺洗地功能,使得清洁更加深入,即使是难以触及的角落也能轻松应对。

新升级的 8*2500mA 可拆卸电池包,提供了更长的续航能力,满足大面积清洁需求。最后,100% 深层净螨技术,确保家庭环境的卫生安全,远离尘螨困扰。

先吸后洗,干湿全能,让家焕然一新,V16 Pro Aqua 同样也是家庭养宠一族的不二之选。现在追觅 V16 Pro Aqua 售价 2499 元,京东/天猫/抖音同步预售。

追觅 X50 系列扫地机器人

新品 X50 系列扫地机采用先进的仿生科技,重新定义了清扫的边界。

其最强覆盖力得益于仿生机械足/臂和自升降全景激光雷达的搭载,能够适应各种复杂地形,确保清洁无死角。

同时,19500Pa 的大吸力和混合式 0 缠绕双滚刷的配置,提供了极致的清洁力,无论是顽固污渍还是细小灰尘,都能轻松应对。

为了用户的省心体验,X50 系列扫地机还配备了高温淋喷自洁基站和 200+ 障碍物避障算法,不仅能够自我清洁,还能智能避开家中的障碍物,减少用户的维护负担。

智能宠物关怀 3.0 功能,更是为宠物家庭提供了额外的关怀,确保宠物的安全和卫生。全链路除菌除臭技术,也让清洁后的家更加清新健康。

此外,X50 系列的超薄上下水基站设计,高度仅 24.9cm,深度仅 41.8cm,极致的尺寸使得它能够轻松融入各种家居环境,不占用过多空间。

目前,追觅 X50、X50 Pro 以及线下尊享版正在天猫和京东平台火热预售中,它们的到来无疑将让家庭清洁变得更加轻松、智能。

追觅 T40 Ultra 洗地机

追觅 T40 Ultra 洗地机同样也可以成为家庭清洁的新选择。

这款洗地机搭载了行业首创的灵捕智能升降机械臂,能够自动识别地面脏污,主动展臂贴地,实现三侧 0 贴边清洁,墙角覆盖率高达 100%。

其 20000Pa 的强大吸力,无论是灰尘、毛发还是顽固污渍,都能轻松应对,确保每一次清洁都彻底无遗漏。

T40 Ultra 还具备 100℃ 高温清洁技术,深度融化滚刷上的顽固污渍,并通过全舱清洁系统实现 99.99% 的细菌杀除,为家人提供健康的生活环境。

瑞士 PPA 割毛刮刀技术的加入,精准勾割地面毛发,结合多重防缠绕系统,实现 0 缠毛,让清洁过程更加顺畅无忧。

此外,自巡航 AI 双向助力系统让操作更加轻松省力,无论是前推还是后拉都能感受到恰到好处的助力。

目前,新品 T40 Ultra 在京东、天猫、抖音平台已经开启预售,售价为 3299 元。

追觅头皮护理吹风机 D10

想要拥有一头丰盈秀发,关键在于掌握正确的护发方法。

预防脱发的关键在于养护结合,通过均衡饮食、补充必要的营养、减少糖分和脂肪的摄入来「养」发。

同时,选择温和的洗护产品,避免使用高温造型工具来「护」发,也很重要。

追觅头皮护理吹风机 D10 是一款能够兼容市面上高端精油的吹风机,它采用创新的促渗出风技术,能够为头发和头皮提供了前所未有的呵护。

这款吹风机不仅能够满足基本的吹风需求,还能够灵动地塑造出时髦的秀发。

此外,追觅吹风机还配备了多种风嘴,一键解决发量烦恼和毛躁问题。卷发风嘴有两种尺寸,适合不同长度的头发,能够轻松打造出空气感卷发。

高颅顶风嘴能够迅速让头顶的头发变得蓬松,只需 15 秒就能拥有高颅顶的效果。小熨斗风嘴则能够轻松抚平飞翘的头发,让自然卷也能瞬间变得顺滑。

目前,追觅头皮护理吹风机 D10 正在天猫/京东/抖音等平台开启预售,售价 3299 元。

在这个快节奏的时代,年轻人的生活哲学正在发生着微妙的转变。

年轻人更加注重生活质量,开始学会解放自己,享受生活;与此同时,家电产品也正在机器人化。

从「低价换量」到「技术换量」,追觅品牌第一站选择欧洲高端化市场,在改变中国品牌廉价代名词的同时,也朝着成为全球化企业、世界级企业的方向稳步迈进。

而今天发布的新品便是最无声的证明。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


ChatGPT 们能讲人话后,AI 污染互联网将变本加厉

By: 莫崇宇
23 September 2024 at 17:00

人类最担心的事情还是发生了。

随意在网上看几篇新闻,却分不清是出自 AI,还是人类之手;忙里偷闲时打把游戏,也分不清队友是 AI 人机还是真人。

直播间里,明星数字人自顾自地吮鸡爪,与卖力吆喝的真人助播形成割裂的场景……

据外媒 404 media 报道,一个原本用来追踪和分析多种语言中不同单词和词汇流行度和使用频率的项目——Wordfreq,现在也成了最新的受害者。

阳光明媚的地方总有阴影潜伏,显然 Wordfreq 不是第一个受害者,也不会是最后一个受害者。

换句话说,最终为之买单的或许还是人类本身。

GPT 们污染语言,人类要为之买单

「生成式 AI 污染了数据,我认为没有人掌握关于 2021 年后人类使用语言的可靠信息。」

这句来自 Wordfreq 项目创建者罗宾·斯皮尔心中的呐喊,透出了几分无奈与愤懑。

要探究这背后的原委,还得从 Wordfreq 的来历谈起。

通过分析维基百科、电影和电视字幕、新闻报道、以及 Reddit 等网站内容,Wordfreq 试图追踪 40 多种语言的变迁,进而研究随着俚语和流行文化变化而不断变化的语言习惯。

对于语言学家、作家和翻译人员而言,Wordfreq 无疑是一项宝库。但是现在,GitHub 地址上偌大的一句声明「该项目将不再更新」,也悲情地给这个项目敲响了丧钟。

曾经,网络抓取公开数据是该项目数据源的生命线,但生成式 AI 的崛起让 AI 文本开始大行其道。

斯皮尔举了一个典型的例子,过去人们很少使用「delve」这个词,而随着 ChatGPT 将这个词汇变成了口头禅,大有李鬼冒充李逵之势,间而也就让失真的词频统计影响了对人类语言习惯的准确分析。

如果这还不够直观,GPT 们那些陈词滥调,比如「总之」、「综上所述」等词汇的泛滥便是最醒目的警告。

这种趋势也正逐渐渗透到学术写作乃至文学创作中。

一份来自斯坦福大学的报告曾指出,ChatGPT 在短短五个月内,就成了许多专家学者们的「写作神器」。其中在计算机科学领域,几乎每六篇摘要、每七篇引言中,就有一篇出自它的手笔。

随之而来的,便是生成式 AI 对人类写作风格的「大举入侵」。

意大利国际高等研究院的博士生耿明萌的研究成果就像一面镜子,进一步映照出 ChatGPT 的词语偏好,也充分证实了它在学术论文写作中的影响力。

在分析 arXiv 上超过百万篇论文的摘要后,耿明萌发现,论文的词频在 ChatGPT 普及后出现了明显变化。其中,「significant」等词汇的使用频率大幅上升,而「is」和「are」等词汇则减少了约 10%。

多数情况下,生成式 AI 可以让一个创造力 60 分的人变成 70 分甚至更高的分数,但在文本创作中,虽然个人创造力和写作质量有所提高,却在无形中让集体创意变得无趣且同质化。

UCL 和埃克塞特大学的两位学者在《Science》上发表了一项研究,500 名参与者被指派借助 AI 围绕随机主题撰写约 8 行故事,并分析目标受众。

结果显示,借助 AI 的灵感,故事变得更有「创造性」,但这些 AI 生成的故事彼此之间的相似度也惊人地高。

因此,当生成式 AI 文本如同无孔不入的污染物,肆意涌入互联网,对于 Wordfreq 也好,还是人类也罢,怎么看都是利远小于弊。

反爬虫战争打响,Wordfreq 遭殃

Wordfreq 项目的终止算得上是巨头爬虫战争夹缝中的牺牲品。

AI 的发展离不开算法、算力和数据的支持。尽管 AI 生成的文本与人类真实语言相比还有差距,但它在语法和逻辑性方面越来越像模像样。

这片风平浪静的水面之下,一场 AI 爬取与反爬取的无声战争正在酝酿。

在当前的舆论环境中,爬取网页数据似乎成了冒天下大不韪的禁忌,不少新闻报道评论区里充斥着网友的唾弃之声,而 Wordfreq 本质上也是通过爬取不同语言的文本而构建起来的。

在生成式 AI 尚未盛行之时,Wordfreq 也曾度过一段蜜月期。

以往一般来说,只要遵守网站的 robots.txt 文件规定,爬取公开数据似乎也合情合理。这是网站与爬虫之间的一种默契约定,用来指示爬虫哪些内容可以抓取,哪些则不可以。

当一个网站设置 robots.txt 限制协议时,就像竖起了禁止擅自进入的标志牌。如果爬虫违反了 robots.txt 协议,或者采用了突破网站反爬虫技术手段的方法获取数据,那么就可能会构成不正当竞争或侵犯版权等违法行为。

然而,随着模型对高质量数据的灌溉需求日益增长,这场爬取与反爬取的战也愈发激烈。

回顾过去,关于生成式 AI 巨头爬虫与反爬虫数据的纠纷比比皆是。为首突出的自然是 OpenAI 和 Google。

去年,OpenAI 公司特地推出网络爬虫工具 GPTBot,声称用于抓取网页数据训练 AI 模型。但显然,没有哪家媒体愿意被爬虫暗地里薅羊毛。

意识到数据和版权重要性的媒体遵循着一手交钱,一手交数据的商业逻辑。

一项来自路透社研究所进行的研究表明,截至 2023 年底,全球 10 个国家的热门新闻网站中,近一半的网站屏蔽了 OpenAI 的爬虫(Crawler),而近四分之一的网站也对 Google 的爬虫采取了相同的措施。

后来的故事大家应该都很熟悉了,OpenAI 三天两头就被传统媒体起诉,无一例外不是版权诉讼纠纷。直到今年,官司缠身的 OpenAI 才老老实实和新闻出版商建立合作关系。

只是,此前的高墙林立、以及数据收费等策略也让 Wordfreq 也成为了这场「数据荒」的牺牲品。

斯皮尔指出,由于 Twitter 和 Reddit(Wordfreq 包含的网站)已经开始对其 API 收费,这使得网络抓取数据变得更加困难。

「过去免费获取的信息变得昂贵,」斯皮尔写道。「我不想参与任何可能与生成式 AI 混淆的工作,或可能使生成式 AI 受益的工作。」

即便能用金钱换数据,但数据总有用尽的一天。

研究公司 Epoch AI 预测,互联网上可用的高质量文本数据或将在 2028 年耗尽,这一现象在业内被称为「数据墙」,可能成为减缓 AI 发展的最大障碍。

于是乎,不少大模型厂商开始将目光转向合成数据,主打一个用 AI 训练 AI。

用 AI 训练 AI,可能越练越「傻」

我的直觉是,网络上的文本都是狗屎,这些数据上进行训练简直是在浪费算力。

当 Llama 3.1-405B 以掀桌子的实力横扫一众开源大模型之时,领导 Llama 系列的 Meta AI 研究员 Thomas Scialom 在接受采访时发出了如上暴论。

据他透露, Llama 3 的训练过程并不依赖任何人类编写的答案,而是完全基于 Llama 2 生成的合成数据。

Scialom 的说法或许过于粗暴,但也有一定的道理。

互联网每天都在涌现源源不断的数据,但训练 AI 从来就是一个宁缺毋滥的单选题,若数据中满是错误和噪声,模型自然也会跟着学习这些「瑕疵」,预测和分类的准确性可想而知。

而且,低质量的数据往往充斥着偏见,无法真正代表整体数据分布,从而导致模型产生有偏见的回复。教科文组织总干事阿祖莱也曾警告:

「新的 AI 工具有着在不知不觉中改变千百万人认知的力量,因此,即便是生成内容中极为微小的性别偏见,也可能显著加剧现实世界中的不平等。」

不过,合成数据也未必是解决「数据墙」难题的灵丹妙药。

最近来自牛津剑桥的研究人员发现,当模型使用 AI 生成的数据集,则输出的质量会逐渐下降,最终产生无意义的内容,也就是俗称的模型崩溃。

研究负责人 Ilia Shumailov 用了拍照的比喻来形容这一过程:

如果你拍了一张照片,扫描、打印出来并再对其拍照,然后不断重复这个过程,随着时间的推移,基本上整个过程都会被「噪声」淹没。最后,你会得到一个黑暗的方块。

当越来越多 AI 生成的垃圾网页开始充斥互联网,训练 AI 模型的原材料也将遭到污染。

例如,程序员问答社区 Stack Overflow 深受 AI 其害。

在 ChatGPT 爆火之初,Stack Overflow 便宣布「临时禁用」。「从 ChatGPT 获得正确答案的平均比例太低了。」官方在声明中如是吐槽。

专业用户的数量毕竟有限,不可能逐一核实所有答案,而 ChatGPT 的错误率又是显而易见的。当 AI 污染社区环境,彼时无计可施的人类也只能一禁了之。

在图像领域,AI 模型趋向于重现最常见的数据,经历多次迭代后,最终可能连最初的事物都会忘得一干二净。

被看到的这一切指向了一个恶性循环:AI 生成低质量乃至错误信息,与人类数据混淆在一起,这些普遍低质量的数据又被 AI 反复喂养,最终导致肆意泛滥的 AI 反噬自身。

而人类如果意识到昔日的数据足迹会成为喂养自己的养料,或许我们会更加谨慎地对待在互联网留下的每一句话。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌