Reading view

There are new articles available, click to refresh the page.

英伟达推出「最便宜」AI 超算,想让每个人都踏入 AI 世界

2019 年,人工智能技术快速进步,AI 应用不断广泛深入。彼时,英伟达(NVIDIA)推出了面向「嵌入式设计师、研究人员和 DIY 制造商」的 AI 计算机以及开发套件「Jetson Nano」,售价 499 美元(约合 3638 元)。

▲Jetson Nano(图源:NVIDIA)

近日,英伟达发布了 Jetson Nano 的升级版,也是目前该系列中「最便宜」的 AI 超级计算机及其开发套件「Jetson Orin Nano Super」。在性能更强的同时,价格还降低了一半,仅售 249 美元(约合 1809 元)。

按照英伟达的官方说法,Nano Super 的受众是「商业 AI 开发者、业余爱好者和学生」。的确,不到 2000 元的价格对于那些初次接触生成式 AI、机器人技术或者计算机视觉技术的人群来讲,还算友好。

也许,这也表明了目前使用 AI 进行推理任务的成本正在逐渐降低。

▲Jetson Orin Nano Super(图源:NVIDIA)

相较于前代,Nano Super 的 AI 推理性能提升了 1.7 倍,整体性能提高了 70%,达到 67 INT8 TOPS。此外,Nano Super 的内存带宽增加至 102GB/s,比前代产品提升了 50%;CPU 频率也从前代的 1.5GHz 提升至 1.7GHz。

整个 Nano Super 开发套件包含 Jetson Orin Nano 8GB 系统级模块(SoM)和一个参考载板,SoM 配备了 NVIDIA Ampere 架构 GPU 和 6 核 Arm CPU,支持多个并发 AI 应用管道和高性能推理。

另外,它还支持调用最多四个摄像头,并且提供比之前的版本更高的分辨率和帧速率。

▲图源:NVIDIA

英伟达声称 Nano Super 的性能提升为所有流行的生成式人工智能模型和基于变换器(transformer)的计算机视觉带来了好处。

不仅如此,由于 Nano Super 套件的硬件与其前代 Orin Nano 的硬件基本相同,因此之前购入了 Orin Nano 的用户通过安装软件更新(JetPack SDK),也能体验到 Nano Super 的性能升级。

英伟达称,这是一份「持续给予的礼物」。

▲图源:NVIDIA

在英伟达生态的加持下,开发者可以从 NVIDIA Jetson AI 实验室获取教程,还可以在更广泛的 Jetson 社区获得支持和帮助,或者从其他开发者创建的项目中获得灵感等等。

英伟达表示,无论是创建基于检索增强生成的 LLM 聊天机器人、构建视觉 AI 代理还是部署基于 AI 的机器人,Nano Super 都是「理想的解决方案」,并且期待它能够加速 AI 驱动机器人技术在多个行业的发展。

随着人工智能领域从特定任务模型逐渐转向更为通用的基础模型,Nano Super 无疑为技术爱好者们提供了一个将想法变为现实的「最实惠」可访问平台。正如英伟达所说:

现在每个人都可以通过生成式 AI 解锁新的可能性

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


国产大模型智谱获新一轮 30 亿元融资,2024 商业化收入增长超 100%

智谱近期完成了新一轮三十亿人民币融资,本轮融资的新投资方包括多家战投及国资,老股东君联资本等继续跟投。这是智谱近期可查的第二轮融资。

据悉,本轮融资将用于智谱 GLM 大模型系列的研发工作,旨在从简单的问题回答扩展到解决更复杂的推理和多模态任务,以更好地服务于行业生态的发展。

2024 年,智谱业务保持高速增长态势,同去年相比,智谱今年以来的商业化收入增长超过 100%。目前,智谱的估值已经率先超过 200 亿,是估值最高的大模型公司之一。

产品业务方面,智谱推出的全模态 AI 助手「智谱清言」app 用户超 2500 万,年化收入超千万;其推出的 MaaS 开放平台 bigmodel.cn 已有 70 万企业和开发者用户使用,日均 Tokens 消耗量增长 150 倍,API 年收入同比增长超 30 倍。

智谱始终坚持大模型创新,基座模型性能保持国内领先。据悉,智谱开源的 ChatGLM 等 50 余款模型全球累计下载量超过 3000 万,获得超 15 万 GitHub 星标。智谱也因此成为了国内大模型领域星标数最多的企业。

另外,智谱是国内唯一入选「TechCrunch」评选的全球 15 家新晋 AI 独角兽 Unicorn Board 榜单的企业。公司还入选了福布斯中国创新力企业 50 强和 Hugging Face 平台最受欢迎人工智能机构。

2020 年底,智谱研发了 GLM 预训练架构;2021 年完成百亿参数模型 GLM-10B 的训练;2022 年开发了中英双语千亿级超大规模预训练模型 GLM-130B 并开源;2023 年推出千亿基座对话模型 ChatGLM 并两次升级,开源版本的 ChatGLM-6B 使得大模型开发者能够在本地进行模型的微调和部署。

2024 年,智谱继续高歌猛进,发布了一系列比肩世界领先水平的大模型产品和技术:

  • 1 月:发布了新一代基座大模型 GLM-4,性能显著提升,支持更长上下文和更强多模态能力,推理速度更快,支持更高并发,降低了推理成本;
  • 6 月:开源了 GLM-4-9B 模型,支持长文本处理和多语言,同时开源了基于 GLM 的视觉模型 GLM-4V-9B,其多模态能力与 GPT-4V 相当;
  • 7 月:视频生成模型「清影」正式上线,提供文本和图像生成视频服务,能在 30 秒内生成 6 秒视频,真实还原物理世界运动;
  • 8 月:发布了国内首个跨文本、音频和视频模态的实时推理大模型 GLM-4-Videocall,实现了 AI 与人的实时视频通话;推出了新一代基座大模型 GLM-4-Plus,性能全面提升,与国际标杆 GPT-4o 水平相当;
  • 10 月:发布了 GLM-4-Voice 端到端情感语音模型,并集成到清言 app 中,支持情感理解、情绪表达、多语言和方言;推出了 AutoGLM 内测版,能模拟人类操作手机,执行各种任务,不受限于 API 调用;
  • 11 月:发布了 AutoGLM 升级版,能执行超过 50 步的长步骤操作,跨 app 执行任务,支持基于浏览器的网站无人驾驶;推出了 GLM-PC 内测,基于多模态模型 CogAgent,探索「无人驾驶」PC 技术,能代替用户执行多种电脑操作;升级了视频模型 CogVideoX,支持生成 10 秒时长、4K、60 帧超高清画质视频,具备更好的人体动作和物理世界模拟,同时开源了 CogVideoX v1.5-5B 和 CogVideoX v1.5-5B-I2V 模型。

此外,智谱的业务范围覆盖智能汽车、制造、大消费、金融、政务服务、医疗健康、游戏娱乐和文化旅游等多个行业。公司近期推出的 Agent 则进一步推动了大模型在智能设备中的应用。

智谱的全球化战略也在加速推进,公司已在美国、英国和法国等多国和地区设立了地区总部、分公司和研究中心,并作为唯一的中国公司,与 OpenAI、谷歌、微软、Meta 等世界一流大模型公司签署了前沿人工智能安全承诺。

智谱的愿景是「让机器像人一样思考」,致力于打造新一代认知智能大模型。未来,智谱将通过大模型链接物理世界的亿级用户,为千行百业带来持续创新与变革,加速迈向通用人工智能的时代。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


全球首位 AI 程序员正式上线,这个月薪只要三千的同事能干什么?

说到「编程」,我们常常会想到那个不太友善的程序员笑话:

虚假的程序员:从零开始编写代码,勤勤恳恳修改、优化、注释;
真正的程序员:熟练掌握「Ctrl + C」和「Ctrl + V」。

▲图源:Laravel

不过,由 Cognition Labs 开发的全球首位 AI 程序员「Devin AI」或许可以让你把「复制粘贴」这一步都省了,你可以直接把 TA 当成你的「程序员同事」,让 TA 帮你干活。

既然被称为「程序员」,那 TA 就不可能白白干活。Devin AI 的服务起价为每月 500 美元(约合 3624 元),还真不算便宜。不过相比之下,这个价格比国内一线大厂程序员的平均工资还是低了不少。

▲图源:COGNITION

Devin AI 实际上是一个由人工智能驱动的编码平台,配备了命令行、代码编辑器和浏览器等常见的开发者工具,它可以在编写代码片段、检测错误和建议改进等方面协助开发人员完成代码编写,几乎覆盖了编程工作的全流程。

值得一提的是,Devin AI 还可以通过机器学习算法分析代码模式,从先前的经验中持续学习,这极大地提高了其编码效率,还能保持与最新编程趋势的同步。

作为一位「编程助理」,Devin AI 可以辅助程序员完成下面的工作:

  • 代码补全:Devin AI 能够通过分析代码上下文和语法预测下一行代码,加快编码效率;
  • 错误检测:Devin AI 可以检测代码中的常见错误和问题,帮助开发人员识别和修复 bug;
  • 代码重构:Devin AI 会提供代码重构建议,能够帮助开发人员编写更简洁、更高效的代码;
  • 代码优化:Devin AI 可以分析代码性能,提出优化建议,以提高速度和效率;
  • 多人协作:Devin AI 甚至可以作为协作工具,允许多个开发人员同时在同一项目上工作。

官方建议,Devin AI 在处理小型前端错误和极端情况、进行针对性的代码重构以及为待办事项列表中的任务创建初稿 PR(Pull Request)等场景下最为实用。

▲图源:SHIFTMAG

当然,作为一位名副其实的「AI 程序员」,除了辅助编程开发以外,TA 还可以「独立完成任务」供开发人员审核。官方介绍 Devin AI 是「一位不知疲倦并且技术娴熟的团队成员」。

据官方介绍,Devin AI 能够自主规划和执行需要数千个决策的复杂工程任务。这也就意味着开发者可以化身「产品经理」,将开发需求和任务等等「告诉」Devin AI,其就可以进行独立的成果产出。

针对这项功能,官方还贴心地给出了 Devin AI 的「使用指南」,就像你平时叮嘱同事一样:

  • 给 Devin AI 分配「你自己知道如何完成」的任务;
  • 告诉 Devin AI 如何测试或者检查自己的工作;
  • 将会话时间保持在大约 3 小时以内,并且尽量将大型任务分解;
  • 提前将你的详细需求告知 Devin AI;
  • 通过在对话中给出反馈、采纳建议的知识,或者手动添加你自己的知识,来强化对 Devin AI 的训练。

▲图源:Xeven Solutions

关于 Devin AI 在具体场景下的表现,官方展示了几个有趣的用例,我们能够从中一窥这位「程序员」有多厉害。

Devin AI 可以学习和使用「不熟悉」的技术。其在阅读了一篇博客文章后,现学现卖,自主编写代码,在 Modal 上运行 ControlNet 并且生成了一张带有隐藏文字「SARA」的图片:


Devin AI 还可以端到端构建和部署应用。在演示中,其根据需求制作了一个模拟「Game of Life」的交互式网站,并且逐步添加了用户提出的功能,然后将这个应用程序部署到 Netlify 中:


Devin AI 甚至可以训练和微调自己的 AI 模型。演示人员仅仅提供了一个指向 GitHub 研究存储库的链接,其就对某个大语言模型进行了「微调」:

此外,Devin AI 还可以实现自动查找和修复代码库中的错误,处理开源仓库中的错误和功能请求等等。

在「SWE-bench」这项「具有挑战性」的基准测试中,Devin AI 正确解决了 13.86% 的问题,远超之前 1.96% 的最佳水平。即使确切给出了需要编辑的文件,之前最好的模型 Claude 2 也只能解决 4.8% 的问题。

令人惊叹的是,Devin AI 甚至已经通过了现实世界的工程师面试,还在流行的自由职业平台「Upwork」上找到了一份工作。

Devin AI 成为「自由职业者」的新闻还曾引起过不小的争议。一位有着几十年软件工程师经验的 YouTube 博主质疑其演示视频造假,表示这些内容是「自导自演」、「无用功」,并且对其实际能力和效率提出了质疑。

无论是不是商业炒作,Devin AI 目前都已经全面推出。真正的编程表现如何,不妨再等等看,交由时间和用户评判。

▲图源:COGNITION

在 Devin AI 正式推出后不久,OpenAI 也宣布推出了 ChatGPT Canvas 的多项更新,其中就包括直接运行 Python 代码功能,更新后的 Canvas 可以根据要求搜索 API 文档,指导模型编写并执行代码,还可以开发小工具和游戏等。

可以看到,即使是规模大如 OpenAI 这样的人工智能企业,也在不断对「AI 编程」加注。在这样的背景之下,我们自然会想到那个「终极」问题:

TA 离取代真正的程序员还有多远?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


苹果首款人工智能芯片曝光,想让 iPhone 的 AI 体验更「丝滑」

继 OpenAI 宣布计划自研 AI 芯片之后,科技巨头苹果近日也传出了其正在与博通(Broadcom)联合研发 AI 芯片的消息。

有趣的是,两家公司针对此事竟给出了几乎相同的理由:尽量避免对英伟达的依赖。实际上,「多元化芯片来源」正是苹果 AI 持续战略的一部分。

博通似乎成为了近期 AI 硬件领域的「香饽饽」,其在短短一个多月之内就与两家 AI 领头羊企业达成合作。据悉,博通已经占据了超八成 AI ASIC 市场,其在 2025 财年的 AI 收入有望达到 170 亿美元以上,同比增速超过 40%。

与苹果的合作消息一出,博通的股价应声上涨 6%,苹果股价也有短暂小幅上涨。这并非两者的首次合作,2023 年五月苹果就曾宣布与博通合作开发 5G 射频组件等等。

▲图源:优分析

据「The Information」报道,苹果 AI 芯片的代号为「Baltra」,将采用台积电先进的 N3P 工艺,计划于 2026 年投入量产。这个时间也与 OpenAI 自研 AI 芯片的量产时间重合。

消息称,Baltra 的设计开发旨在优化 AI 工作负载,增强 AI 和机器学习(ML)功能。这枚芯片将专用于推理任务,以及处理新数据并将其传输给大语言模型(LLMs)以生成输出。

而此次与博通的合作重点,则是将其高性能网络技术与芯片的核心处理能力整合,确保 AI 操作所需的低延迟通信。

▲图源:Crypto Briefing

近日,博通展示了一种先进的 3.5D 系统级封装技术(3.5D XDSiP),能够让制造商超越传统光罩尺寸的限制

具体来讲,3.5D XDSiP 将计算芯片堆叠在一个逻辑芯片上,该逻辑芯片与高带宽内存(HBM)连接,同时将其他 I/O 功能分配到一组单独的芯片上。

与传统的 3.5D 封装技术不同,博通的设计采用了「面对面」的方法,这种方法允许芯片之间通过混合铜键合(HBC)排布更密集的电气接口,从而实现更高的芯片间互连速度和更短的信号路由。

博通的 3.5D XDSiP 技术本质上是一个「蓝图」,客户可以使用它来构建自己的多芯片处理器。巧合的是,博通预计这项技术的第一批部件也将于 2026 年投入生产,这与「Baltra」的投产时间不谋而合。

▲图源:The Register

毫无疑问,这枚芯片最重要的使命,就是为苹果自家的 Apple Intelligence 服务

苹果的原生 AI 功能自发布以来便一直引人关注。苹果原计划直接在设备上运行大部分 AI 功能,但某些功能(如 Siri和 Maps)在云端处理,并且对计算能力有很高的需求,现有的芯片又并非定制。于是,「Baltra」的提案应运而生。

Baltra 是为苹果自己的数据中心而定制设计的,其用于驱动高级 AI 任务,并确保为用户带来「无缝」的 AI 体验。这意味着苹果的 AI 战略已经超出端侧,并纳入了云计算能力。

值得一提的是,苹果刚刚发布了 iOS 18.2 正式版系统,其中新增了多项实用的 AI 功能,包括 ChatGPT 正式登陆苹果全家桶等等。未来,Baltra 将使苹果在其产品生态中部署 AI 时获得性能优势和更大的灵活性。

▲图源:Fast Company

据估计,2028 年 AI 服务器芯片市场规模预计将达到 450 亿美元,而苹果在 AI 服务器芯片市场的定位将会是对现有领导者的极大挑战。

彭博社分析指出,苹果与博通的合作进一步巩固了其在 ASIC 设计中的主导地位,这项合作预计将推动博通在 2025-2026 年之后的 AI 收入增长,并且其有望在苹果供应链中占据更多份额。

此外,自 OpenAI 在 2022 年 12 月发布 ChatGPT 以来,苹果加快了自家服务器芯片的开发工作,以保持其在人工智能领域的竞争力。苹果的目标是在 12 个月内完成「Baltra」芯片的设计。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 王炸 Sora 文转视频正式上线,新功能发布

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

就在刚刚,OpenAI Sora 正式登场。

本次发布会延续了「短剧」的快节奏风格,全程 20 分钟左右,由 CEO Sam Altman、Sora 负责人 Bill Peebles 等人主持。

OpenAI 在 X 平台表示,自 2 月份以来,他们一直在构建 Sora Turbo,后者是一个速度明显更快的模型版本,今天也将其作为独立产品向 Plus 和 Pro 用户开放。

有趣的是,由于 Sora 热度太高,大批用户涌入体验网站,导致该网站一度崩溃,停止注册登录。不给力的服务也让 Altman 连连在 X 平台安抚用户:

「由于需求超出预期,我们将不得不间歇性地关闭新用户注册,并且生成内容的速度会在一段时间内减慢。我们正在全力以赴!」

附上体验地址:Sora.com

类似于 Midjourney 的网页界面,Sora 同样拥有自己单独的用户界面,用户用户不仅能够整理和浏览生成的视频,还能查看其他用户的提示和精选内容。

在 「Library」功能中,用户可以保存自己喜欢或有用的提示词,以便未来使用。并且保存的提示词可以按需查看或修改,对于需要重复创作相似内容的用户,无疑能大大提高效率。

在工作流方面,Sora 的编辑功能是区别于其它竞品的重要亮点。

比如说,在 Remix 功能中,用户可以利用纯自然语言提示词对视频进行编辑,并通过简单的「strength(强度)」选项和滑块来控制生成的变化程度。

Re-cut 功能则能智能识别最佳画面,并支持向任意方向延伸场景。

Sora 的 Storyboard(故事板)功能则类似于视频编辑器,可以将多个提示词串联在一起,生成一个更长的视频,轻松处理复杂的多步骤场景。

搭配 Loop 和 Blend 功能,用户还能创作出无缝循环的视频,并完美融合不同片段,而 Style presets 功能则可以预设和调整生成的风格。

在技术规格上,Sora 支持 5-20 秒的视频生成,并兼容 1:1、9:16 等主流宽高比。相比早期版本,现在的生成速度有了显著提升。

另外,还有几点细节需要注意。

OpenAI 采用了灵活的积分制定价策略,积分数量因分辨率和持续时间而异,如果你早已是 ChatGPT Plus 和 Pro 会员,那就无需额外费用就能使用。

比如生成一个 480p、5s 的视频就需要 25 个积分,如果生成 480p、20s 的视频则需要 150 个积分。

此外,如果你用 Re-cut、Remix、Blend 或者 Loop 这些功能,生成的作品超过了 5 秒钟,那也得额外扣你的积分,多用多花钱,别超时,超时也花钱。

对于订阅用户而言,20 美元的 ChatGPT Plus 计划提供 50 个优先视频额度(1000 积分),支持最高 720p 分辨率和 5 秒时长。

而 200 美元的 ChatGPT Pro 计划则提供最多 500 个优先视频(10000 个积分),支持 1080p 分辨率、20 秒时长、5 个并发生成和无水印输出。

OpenAI 还在为不同类型的用户开发不同的定价模式,将于明年初推出。

对了,Sora 暂不支持 ChatGPT Team、Enterprise 和 Edu 版本,同时也不向 18 岁以下用户开放。现阶段,用户可以在所有 ChatGPT 可用的地方访问 Sora,但英国、瑞士和欧盟等地区除外。

知名博主 Marques Brownlee 提前一周用上了 Sora,并在 YouTube 上分享了他的使用体验。

他指出这款产品仍存在一些局限性。

在物理模拟方面,模型对物体运动的理解还不够深入,常常出现动作不自然、物体突然消失等问题。特别是在处理带有腿部运动的对象时,经常出现前后腿位置混乱的情况,导致动作看起来不自然。

又或者,某些视频生成结果看起来像是慢动作,而视频的其他部分则以正常速度播放,肉眼很容易察觉这种「别扭」。简言之,Sora 还是没能解决老毛病,缺乏对物理世界规律的理解。

另外,Sora 没能解决文字生成的问题,导致经常出现文字混乱的现象,而剪辑风格、文字滚动条的运动、新闻主播风格的生成则格外逼真。

不过,Sora 也有不少擅长的场景。

比如说,Sora 在风景镜头处理方面表现出色,能生成媲美专业素材的无人机航拍镜头,在卡通和定格动画风格上的表现也差强人意。

性能方面,一个 5 秒的 360p 视频通常能在 20 秒内完成生成。

不过,当涉及 1080p 或复杂提示词时,生成时间可能会延长到几分钟,但随着如今大批用户的涌入,生成速度明显慢了大半拍。

不少网友也在第一时间上手体验了 Sora。比如网友 @bennash 想生成一个视频,渲染了 22 分钟都没能成功,甚至该网站一度停止注册登录。

博主 @nickfloats 给出的评价是,Sora 在将图像转换成视频时,虽然某些特定的视觉特效没有被保留,但整体的转换效果是「清晰和令人满意的」。

Sora system card 也列出了一些值得关注的细节。

OpenAI 官方认为,Sora 为能够理解和模拟现实世界的模型提供了基础,将是实现通用人工智能(AGI)的一项重要里程碑。

官方博客中提到,Sora 是一种扩散模型,它通过从一段看起来像静态噪声的基础视频开始,逐步去除噪声并转变为最终的视频。通过同时处理多个帧,模型成功解决了一个难题:即使目标暂时脱离视野,也能确保其在视频中始终保持一致。

与 GPT 模型类似,Sora 采用了 Transformer 架构。

Sora 使用 DALL·E 3 中的标注技术,该技术为视觉训练数据生成高度描述性的标签。因此,模型能够更准确地根据用户的文本指令生成视频内容。

除了能够仅通过文本指令生成视频外,Sora 还能够从现有的静态图像生成视频,准确地将图像内容进行动画化,并注重细节。该模型还可以从现有的视频中扩展或填补缺失的帧。

为了确保安全地部署 Sora,OpenAI 基于 DALL·E 在 ChatGPT 和 API 部署中的安全经验,以及 OpenAI 其他产品(如 ChatGPT)的安全防护措施进行了强化。

所有 Sora 生成的视频都带有 C2PA 元数据,这些元数据能够标识视频的来源是 Sora,从而提高透明度,并可用于验证其来源。

与此前凭借真实人像出圈的 Flux 不同,Sora 们对上传包含人物的内容设定了特别严格的审核标准,目前仅作为试点功能提供给少量早期测试者,并屏蔽含有裸露的内容。

OpenAI 王炸 Sora 文转视频正式上线,新功能发布

大半年前,初试啼声的 Sora 赢得互联网一片喝彩。

然而,如果说一年前尚未还能对着一群演示 demo 空喊「现实不存在了」,那么在国内外各类视频模型的轮番洗礼之下,我们早已养刁的胃口很难再被同样的产品打动。

这种态度的转变源于一个简单的事实。

当 AI 要从「勉强可用」进化到「可堪大用」,用户的期待也随之升维,从「能否做到」跃迁至「做得多好」。

好在 Sora 并未在掌声中原地踏步,通过与艺术家的深度合作,他们在工作流程领域做出了显著的改进。Re-cut、Remix、Storyboard 等功能都相当实用。

甲乙方的存在决定了工作流中的沟通永远是刚需,AI 能做的是让这种沟通更有效率,Sora 的价值不在于它能做什么,而在于让创作者得以抽身于技术细节,真正回归创意的本质。

与此同时,上周引发热议的 200 美元 ChatGPT Pro 订阅计划,如今也有了更合理的价格锚点,该计划同样支持无限制访问 Sora,这种产品协同效应预计也将激发出远超预期的应用场景和商业价值。

放眼当下,用户的真金白银从不作假。

可灵 AI 交出千万级月流水的亮眼成绩单,这片蓝海的潜力已呼之欲出,对于仍在「烧钱」阶段的 OpenAI 来说,Sora 预计会成为继 ChatGPT 之后的另一个下金蛋的母鸡。

当 Sora 从「能用」「好用」,再到「妙用」,或许未来某一天,我们会发现,真正不存在的,不是现实,而是人类创造力的尽头。

清华系 AI 公司面壁智能完成新一轮数亿元融资,CEO 李大海:大模型将从大跃进转向持久战

聚焦端侧大模型的清华系 AI 公司面壁智能,近日获得了新一轮数亿元融资。

APPSO 获悉,本轮融资的领投方为龙芯创投、鼎晖百孚、中关村科学城基金和赛富基金,跟投方为北京市人工智能产业投资基金与清科创投,并由万甲资本担任本轮独家财务顾问。

本轮融资完成后,面壁智能表示,公司将进一步提速以「端侧 AI」为代表的高效大模型商业化布局,以同等参数、更高性能、更低能耗、更快速度的高效大模型深度服务行业,为用户创造「具体可感知」的价值。

面壁智能是一家以「高效为第一性原理」为信条的大模型公司,高效是其团队的内在基因。据悉,面壁团队先于国内所有团队开启大模型研究,并且首批实现了千亿多模态模型的落地,提供了全球领先的端侧智能解决方案。

业务方面,面壁智能团队在多个领域内卓有成效、进展迅速。其不仅将主流消费电子和新兴硬件融入端侧 AI,得益于在自然语言处理方面的技术渊源和优质行业数据的深厚积累,面壁团队还在法律、教育等垂直领域方面有所建树。

面壁智能 CEO 李大海表示,大模型比拼已经进入了「持久战」阶段。此外,他认为面壁智能将在端侧智能领域保持竞争力,并正在建立属于自己的市场地位。

面壁智能成立与 2022 年 8 月,其核心科研成员来自清华大学 NLP 实验室,是国内最早一批做预训练大模型的团队之一,至今已经推出多款人工智能大模型产品:

  • 2023 年 11 月 14 日,面壁智能多模态大模型应用「面壁露卡 Luca」正式面向公众开放服务;
  • 2023 年 11 月 15 日,面壁智能推出基于群体智能的 AI 原生应用「面壁智能 ChatDev」智能软件开发平台,同时将其 CPM 系列基座模型升级为全新一代千亿参数大模型「面壁智能 CPM-Cricket」;
  • 2024 年 2 月,面壁智能发布开源端侧模型「MiniCPM」,是其「大模型+智能体」双引擎战略的关键一步;
  • 2024 年 9 月,面壁智能推出「小钢炮」系列的最新产品「MiniCPM 3.0」。

值得一提的是,2023 年 7 月,面壁智能、人民法院出版社和深圳迪博共同助力深圳中院,正式启用全国首个「司法审判垂直领域大模型」;同年 11 月,面壁智能作为联合研发团队参与的「法信法律基座大模型」在最高法发布,定位为国家级法律人工智能基础设施。

另外,面壁智能正在与华为、联发科技、联想、英特尔、长城汽车和易来智能等行业标杆企业紧密协作,业务覆盖 AI Phone、AIPC、智能座舱、智能家居与具身机器人等领域。

面壁智能预计,GPT-4 水平的端侧模型将在 2026 年年底实现。

本轮融资完成后,李大海发布了面壁智能全员信。附上信件全文如下:

面壁智能的同学们,大家好!

很高兴和大家分享,面壁智能完成了新一轮数亿元融资,这轮融资由龙芯创投、鼎晖百孚、中关村科学城基金和赛富基金联合领投,北京市人工智能产业投资基金与清科创投跟投。

随着这轮融资敲定,我们已站在一个全新的台阶上:将进一步提速以端侧 AI 为代表的高效大模型商业化布局,以同等参数、更高性能、更低能耗、更快速度的高效大模型深度服务行业,为用户创造具体可感知的价值。

过去一年,以成绩说话,我们的小钢炮端侧模型,在全球一炮而红,站稳脚跟。我们基于高效大模型和端侧AI的商业化布局和业务推进,多点开花,进展迅速。

依靠小规模的精益创业团队,我们把MiniCPM推向了端侧 ChatGPT、GPT-4V 时刻;携手华为、联发科技、联想、英特尔、长城汽车、梧桐科技、易来智能等标杆合作伙伴,成为 AIPC、AIPhone、智能座舱、具身机器人等行业创新发展中不可或缺的角色;并且深度参与国家级人工智能基础设施「法信法律基座大模型」的构建。

今天,在中国大模型「6+2」格局里,我们成为极具辨识度和竞争力的代表。在全球范围,面壁也是端侧智能的标杆,上榜《财富》全球人工智能创新 50 强!

这是小钢炮精神的胜利!我们值得骄傲!

同样的时间,更前瞻的判断;同样的资源,更具爆发力的创造;同样的机遇,一杆子捅到底解决行业与客户痛点的决心。

把高效发挥到极致,创造超预期成果,底气来自我们对大模型本质规律的深刻认知,基于高效为第一性原理的研发、产品与组织基因!

走先人一步的路,打以少胜多的仗,这就是响当当的小钢炮精神!

回顾过去一年,我们做对了几件事:

1. 超前认知,以更小的样本,预判技术和产品方向。
2024 年下半年,行业突然形成新共识,更高知识密度的小模型和端侧智能,成为大模型发展的新阶段。如今,因为端侧智能发展的深刻影响,主流消费电子和新兴硬件正演变成一个个在不同场景、执行特定任务的超级智能体,成为新一轮科技创业大风口。
面壁智能提前半年多,在世界范围内前瞻性发现端侧智能内蕴的巨大研究空间和应用潜力。在这个瞬息万变、竞争激烈、又充满想象力的市场里,大举发力端侧模型,打造享誉全球的面壁「小钢炮」MiniCPM,我们成功构建起了基本盘。

2. 技术筑基,以先进技术为基,务实服务垂直行业,快速复用和价值放大。
有一个行业的高质量数据,就能快速赋能一个行业打造基座大模型。面壁发挥在文本基座模型的技术渊源和专业数据的深厚沉淀,今年 7 月,面壁智能、人民法院出版社、深圳迪博共同助力深圳中院,正式启用全国首个司法审判垂直领域大模型, 应用范围已覆盖所有常见民商事案件,行政案件。11 月,面壁智能作为联合研发团队参与的法信法律基座大模型在最高法发布,法信法律基座大模型定位为国家级法律人工智能基础设施。未来,全国数以千计的法院、检察院、司法系统单位,都将能成为我们有所贡献的地方。

3. 以小博大,提出大模型的面壁定律、密度定律,通过大模型科学化越级超越同类产品。
自今年 2 月份面壁「小钢炮」MiniCPM 端侧模型系列面世以来,累计下载突破 300 万,频频登顶全球著名开源社区 GitHub、HuggingFace 的大模型趋势榜单。MiniCPM 不仅在多项基准测试中接连越级领先,还将无限长文本、超清 OCR 识图、实时视频理解等首次集成到端侧,创造多项纪录。
面壁小钢炮以小博大、高效低成本特性,背后是我们坚持大模型科学化,以更本质的模型知识密度(知识密度 = 模型能力 / 参与计算的模型参数)指导技术研发和模型迭代。我们不断创新性提出大模型面壁定律、密度定律等引领性的大模型科学方法论,立志将更高性能的端侧智能技术带入千家万户、千行百业。

所有的领先,往深处都是认知的领先;任何商业竞争,归根结底都是效率的比拼。
高效,不仅是我们企业运营的核心;在商业环境中,也意味着更快的响应速度、更低的成本、更高的产出和更好的客户满意度。
感谢面壁智能的全体同仁,我们正在创造一场极致高效的大模型研发与商业奇迹!
坚韧、顽强,能量十足,面壁小钢炮已经开始震动全球。小钢炮精神,正带领我们走向 AGI 的最终胜利!

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


【404文库】人间三角|苹果:百度你挡住我了

file

大家好,我是本报评论员西坡。今天是2024年12月5日,星期四,阴。懒得读字的朋友,可以“听全文”。

今天的主题是AI。头条新闻:苹果遇到了百度这个槛。

12月4日消息,据外媒报道,援引两位知情人士透露,苹果正与百度进行合作,旨在为中国市场销售的iPhone增添人工智能功能。据悉,双方计划于2025年在中国推出“苹果智能”(Apple Intelligence)功能。

然而,双方在合作过程中遇到了一些障碍。若这些障碍无法妥善解决,或将影响苹果在美国以外第二大市场(中国)提振iPhone销量的期望。

苹果与百度的工程师们正在共同优化后者的大语言模型,以更好地满足iPhone用户的需求。但据一位直接参与该项目的知情人士透露,该模型在理解提示词和对iPhone用户提出的常见场景做出准确回应方面遇到了困难。

此外,双方在是否应使用iPhone用户数据来训练和改进模型的问题上产生了分歧。百度希望保存并分析从进行人工智能相关查询的iPhone用户那里获取的数据。然而,知情人士指出,苹果的隐私政策严格禁止收集此类数据。

CDT 档案卡
标题:苹果:百度你挡住我了
作者:西坡
发表日期:2024.12.7
来源:微信公众号“人间三角”
主题归类:百度
CDS收藏:公民馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

苹果希望利用Apple Intelligence来重振iPhone在中国市场的销量,目前苹果面临国产手机品牌的激烈竞争,国内各大品牌都已纷纷推出AI功能,iPhone 16系列AI仍然没有落地,其进度落后于竞争对手。

有博主把这个事情解读为:“知道百度菜,没想到那么菜”。通读新闻的话,会发现有点对百度不礼貌了。苹果和百度都还没有回应媒体的置评请求。国内AI与国际水平的差距,有复杂的地缘政治原因。工欲善其事,必先利其器。最先进的铲子都买不到,掘金进度落后也是可以原谅的。很难讲换个其他国内供应商就会更好。

不过我要承认,自从得知苹果要和百度合作之后,我突然觉得,我手上的iPhone可能会是我最后一台iPhone了。纯属个人心理因素,请勿联想。对于报道里提到的隐私政策分歧,希望苹果坚持到底。

下一条:Google DeepMind 发布新一代世界模型 Genie 2,可根据一张图生成3D 世界。

官方介绍称,Genie 2是一个基础世界模型,能够生成各种可控制动作、可玩的 3D 环境,用于训练和评估具身代理。基于单个提示图像,人类或 AI 代理可以使用键盘和鼠标输入来玩它。

我建议大家养成关注AI新闻的习惯,你不一定要搞懂每一个专业术语,搞AI的都是理工科同学,从他们给各种大模型命名的方式就能看出来,各种功能介绍也都很抽象。但你可以看看视频,看看解读,从感性上建立对未来AI世界的直觉理解。这种理解对于我们的生活会越来越重要的。

比如关于Genie 2,你可以直接去官网页面感受一下:

让我印象最深刻的是这一段,提示:“一个电脑游戏的图像,展示了粗糙的石洞或矿井内的场景。观众的位置是第三人称相机,位于玩家头像上方,向下看头像。玩家头像是一个持剑的骑士。骑士头像前面有x3石拱门,骑士选择穿过这些门中的任何一个。在第一个和里面,我们可以看到奇怪的绿色植物,隧道里排列着发光的花。在第二个门口的内部和外面,有一条带刺的铁板的走廊,这些铁板被铆钉在洞穴墙壁上,通向更远的不祥的光芒。穿过第三扇门,我们可以看到一组粗糙的石阶上升到一个神秘的目的地。”然后,每一扇门打开,都是一个自动生成的世界。

file

我对未来的世界的预判是,人的外部特征(出身、收入、相貌)将越来越不重要,人的内在特征将会外化,人与人的差距将主要体现在情感能力、感受能力、审美能力、想象能力。每个人的梦想都会实现,但每个人能够提出的梦想是不一样的。

最后一条:特朗普宣布提名贾里德·艾萨克曼领导美国航空航天局(NASA)

贾里德·艾萨克曼(Jared Isaacman)是一位美国企业家、飞行员和私人宇航员。他出生于1983年,并因在科技、航空和太空探索领域的成就而闻名。他是支付技术公司Shift4 Payments的创始人兼首席执行官,同时创立了飞行培训公司Draken International,为军方提供服务。

作为私人航天探索的先驱,他资助并指挥了多次私人太空任务。2021年,他领导了由SpaceX执行的Inspiration4任务,这是历史上首次完全由私人资助、没有政府宇航员参与的载人航天飞行。2024年,他再次领导了Polaris Dawn任务,这次任务达到了1,400公里的高轨道,并完成了多项科学实验和太空行走。他还是一位熟练的飞行员,曾打破轻型喷气机环球飞行的速度记录。

这件事对马斯克的火星计划应该是很大的利好。艾萨克曼表示:“我曾有幸从太空看到我们这个神奇的星球,我对美国引领人类历史上最不可思议的冒险充满热情。”

期待太空竞赛再次开启。我现在看新闻经常有种割裂的感觉,好像一部分人类在往前走,理解宇宙,进入宇宙,创造宇宙,另一部分人则在往回走,满足于像动物一样生存。

今天的新闻就播到这里。欢迎讨论。

库克最新专访:回应 iPhone 争议按钮,苹果 AI 无收费计划 ,短期内不会退休

苹果今年的日子,并没有像 iPhone 销量表现出来的那样好过:App Store 在欧盟的纷争,Vision Pro 的惨淡销量,iPhone 16 上饱受争议的拍摄按钮,光打雷不下雨的苹果智能……但是我们却没有在任何公共场合听到苹果对于上述争论的官方回应,而这篇最近来自《连线》杂志对 Tim Cook 的专访,解开了这些问题的答案。

以下是重点摘要:

  1. 苹果不会对 AI 功能增收额外费用,库克认为它就像多点触控一样,是手机技术的发展。
  2. AI 不会使人退化,两者更像是合作关系,让产出结果变得更精致。
  3. 库克认为 OpenAI 在该领域是先驱,苹果和他们的关系也没有因为最近频发的争议新闻而降温。
  4. AGI 本身至少还有很长的路要走,在这个过程中苹果会设置好相应的保护措施。
  5. 库克并不知道乔布斯看见了 iPhone 16 上的拍摄按钮会有何感想,但他觉得新按钮让 iPhone 变得简单而优雅。
  6. Vision Pro 的销量不及预期,是因为它是一款早期产品,适合那些今天想要明天技术的人。
  7. AirPods 的助听器功能,可以缓解听障人士对助听器的羞辱感,库克认为这是健康的民主化。
  8. 库克会在现在的职位上一直坚持下去,直到脑海里的声音说:「是时候了」。

原文作者:Steven Levy
原文链接:https://www.wired.com/story/big-interview-tim-cook-wants-apple-to-literally-save-your-life/

原文作者按

每次我访问苹果公园园区时,我的脑海中都会浮现出在建设完成前的一次参观,那时地板上还有灰尘,现在郁郁葱葱的植被所在的地方还是泥泞。

我的向导是苹果公司的首席执行官蒂姆·库克。他以主人的自豪感带领我穿过这个耗资 50 亿美元的圆形巨兽,并且解释说,承诺建设新园区是一个「百年决定」。

今天,我回到这个开业七年后充满活力的 Apple Ring,再次见到库克。

科技世界正处于一个转折点。最强大的公司要么被绊倒,要么确保他们数十年的主导地位。

今天,我回到开业七年后充满活力的 Apple Ring,再次见到库克。

科技界正处于一个转折点。最强大的公司要么跌倒,要么确保其数十年的主导地位。我们在这里讨论库克在这个高风险环境中的重大举措:即将发布 Apple Intelligence,这是该公司在炙手可热的生成式 AI 领域的第一个重要产品。有些人认为它为时已晚。

一整年,苹果的竞争对手一直在用他们的聊天机器人引起关注、让投资者眼花缭乱并占据新闻头条,而这家全球最有价值的公司(在我写这篇文章时)正在展示一款昂贵、笨重的头戴式 AR 设备。苹果必须正确处理 AI。毕竟,公司不可能像建筑物一样屹立百年。

库克没有惊慌,像他的前一任 CEO 史蒂夫·乔布斯一样,他不相信第一个就是最好的。「经典苹果」正如他所说,进入了一个嘈杂的先行者领域,并凭借对新奇与实用性的强烈把握,推出了使最新技术变得亲切甚至性感的产品。

▲ 图片来自:WIRED

回想一下 iPod 是如何重新思考数字音乐的?它不是第一个 MP3 播放器,但其紧凑性、易用性和与在线商店的整合为人们提供了一种新的音乐消费方式。库克还争辩说,苹果一直在为人工智能革命做准备。

早在 2018 年,他就从 Google 挖来了顶级 AI 经理约翰·詹南德雷亚,这是公司高级副总裁职位罕见的扩张。然后他停止了一个长期运行的智能汽车项目(一个从未被苹果公开承认的公开秘密),并调动公司的机器学习人才将 AI 构建到其软件产品中。

6 月,苹果宣布了成果:为整个产品线打造一层人工智能。库克还与聊天机器人领域的黄金标准 OpenAI 达成了协议,以便他的用户可以访问 ChatGPT。我获得了他们计划展示的一些演示,包括一个通过口头提示创建自定义表情符号的工具和一个易于使用的人工智能图片生成器 Image Playground。(我还没有测试过苹果乏善可陈的人工智能代理 Siri 的复活。)

果人工智能最突出的特点或许是——至少苹果公司是这样认为的——它注重隐私,这是库克执政时期的一大特点。这些人工智能工具将通过最新 iPhone 和相对较新的 Mac 上的软件更新推出,主要在设备本身上运行——你不会将数据发送到云端。库克保证,更复杂的人工智能任务的计算将在苹果数据中心的安全区域进行。

回到 Ring 后,我想起的另一件事是库克非常善于吹嘘他的重大决策的成果,从 Apple Watch 到他对定制硅芯片的押注,这些决策引发了推动苹果手机和笔记本电脑发展的创新。(更不用说那些没有成功的决策,比如那个价值数十亿美元的智能汽车项目。)

当他走进我们开会的会议室时,我知道库克会非常热情,表现出他在阿拉巴马州童年时期培养的礼貌,同时平静地夸大苹果产品的优点,并抵御对他非常强大的公司的批评。

史蒂夫乔布斯会像布埃纳文图拉的雨一样向记者走来,积极地传达他的信息;库克则用柔和的薄雾笼罩着他的对话者,并吐露对公司努力的敬畏之情。

当然,最终的评价将来自用户。但如果说 40 年的苹果报道经验教会了我什么,那就是:如果人工智能的第一次迭代失败了,库克会在未来预先录制的主题演讲中毫不后悔地称赞新版本是「我们打造过的最好的苹果智能」。

尽管压力重重,但库克从不让你看到他大汗淋漓。

*以下是采访原文,内容已经过作者编辑:

您什么时候第一次意识到生成式 AI 将会成为一件大事?

我不会说那是一个顿悟时刻。它像浪潮一样涌现,像滚滚雷声。早在 2017 年,我们就在产品中内置了神经引擎。人工智能和机器学习的重要性已经显而易见。很明显,我们必须吸引大量人才,这将是我们产品的新时代。

▲ 图片来自:WIRED

您是如何知道要用它构建什么的?

我们希望创新,让事物变得个人化和私密化。我们开始以典型的苹果方式思考这些事物的交集——如何提供这项技术,使其造福人们并改善他们的生活?

在您的演讲中,您几乎将 Apple Intelligence 视为 AI 的同义词。您认为人们害怕 AI 吗?

我认为确实存在。我们为所有东西都想了各种名字,最后决定使用 Apple Intelligence。它不是人工智能的双关语。事后看来,它似乎很简单。

有些公司会针对 AI 增强服务收费。您考虑过这一点吗?

我们从未谈论过收费问题。我们认为它有点像多点触控(这种新技术),它推动了智能手机革命和现代平板电脑的发展。

您个人已经使用 Apple Intelligence 一段时间了。对您来说最有用的是什么?

我们是一家以电子邮件为基础的公司,我从用户、员工、合作伙伴等处获得了大量数据。

让它总结作者的回复是改变游戏规则的关键,让它为你确定优先级,这样你就不用像往常一样(对邮件)进行分类了。当然,还有像 Image Playground 这样的有趣功能。

我听你说过 Apple Intelligence 可以让你变得更有趣,这似乎很奇怪。

我认为它可以让你变得更加友善,而且在很多方面,也会变得更有趣。

让人工智能代替人类说话让我怀疑交流的本质是否会退化。如果苹果智能写了一些有趣的东西,那么谁在搞笑,发件人还是人工智能?

它仍然来自于你。它是你的想法和你的观点。你和我都记得个人电脑出现后带来的生产力。

你不再是敲打计算器,而是在电子表格上做一些事情。你不再是打字机,而是文字处理器。Logic Pro 帮助音乐家创作音乐,但他们仍然是作者。

你们的一个演示涉及一个虚构的应届毕业生求职。求职信是口语化的,有点幼稚,但使用 Apple Intelligence,只需单击一下,它就会变成一个精明、聪明的人写的。如果我是招聘该员工的招聘人员,如果他们没有达到那封信的专业水平,我可能会觉得被骗了。

我不这么认为。使用该工具后,它看起来更加精致。使用该工具的决定权仍在您手中。这就像您和我合作做某事一样——一加一大于二,对吧?

我想反驳的观点是,在互联网搜索的早期,人们抱怨没有人再费心去记住日期:「我不需要。我有搜索引擎!」所以没有人需要学习历史——现在,如何写一封专业信函。

这些担忧已经存在多年了。我记得当时人们觉得计算器会从根本上侵蚀人们的数学能力。这是真的吗?或者它是否让某些事情变得更有效率?

我以前知道如何做长除法。但现在我不懂了。

我没忘记。

▲ 图片来自:WIRED

(这是)你的观点。苹果智能的另一个让我印象深刻的方面是,你已经从我们的电子邮件、我们的日历和其他苹果产品中了解了很多关于我们的信息。要使苹果智能有用,你需要将所有这些信息缝合在一起。这就是为什么隐私如此关键。没有多少公司能做到这一点,因为他们没有苹果的生态系统。

我们不认为这是生态系统的价值。它所做的事是为了帮助人们,让他们的生活更美好。它显然做到了这一点。

你会向其他公司开放 Mail 和 Messages 等 Apple 应用,供其在 AI 系统中使用吗?你如何看待隐私问题?

我们始终会考虑隐私问题。我们不接受在高度隐私和高度智能之间做出取舍。Apple Intelligence 的大部分功能都在设备上运行,但对于某些用户,我们需要更强大的模型。因此,我们设计了私有云计算,它基本上具有与您的设备相同的隐私和安全性。我们一直在努力,直到我们想出了正确的想法。

好吧,让我们换个话题。苹果一直在设计定制硅片,使其产品更高效、更强大。在我看来,这是苹果过去十年成功中被低估的一部分。

这是巨大的推动力。我们一直认为,我们应该拥有我们产品所依赖的主要技术。史蒂夫谈到了这一点。我并不是说我们一直都是这么做的,但我们一直都相信这一点,而实现这一目标需要一段漫长的旅程。

但有一项技术,即世界知识型大型语言模型,是你们外包给 OpenAI 的。当你们宣布这笔交易时,这似乎是一项初步安排。你们最终会建立自己的强大法学硕士项目,这是不可避免的吗?

我不想预测。我们认为 OpenAI 是先驱,处于领先地位。我们认为我们的部分客户希望获得世界知识(Apple Intelligence 不提供),我们希望以一种优雅的方式整合它,同时仍然尊重人们选择是否这样做的能力。

我想知道,在你们开始在产品中使用 ChatGPT 之前,你们的关系是否发生了变化。起初,苹果将在 OpenAI 董事会中拥有一名观察员。现在你没有了。最近有传言说,你将参与他们的一轮大规模投资。你没有。与此同时,OpenAI 的一些关键员工离职,联邦贸易委员会正在调查人工智能权力是否过于集中。有没有降温?

这完全是无稽之谈。我只想说,我们的作风是不会去投资多家公司。我们很少这样做。因此,我们在那里这样做会很奇怪,会是个例外。

所以您从未考虑过投资 OpenAI?

我不是说我们从未考虑过这个问题。我只是说,我们这样做是罕见的举动。我们以前做过 ARM。我们还做过谁?我们还做过一两个。

ARM 相当不错。

ARM 相当不错。「1990 年,苹果投资 300 万美元,拥有 ARM 30% 的股份,这些股份价值数亿美元。但更重要的是,ARM 过去和现在都是重要的芯片供应商,尤其是 iPhone 的芯片供应商。」

苹果和 OpenAI 之间的一个巨大差异是,他们痴迷于实现 AGI。你从来没听说过苹果这么说。你认为 AGI 会发生吗?

现在,技术已经足够先进,我们可以将其提供给人们并改变他们的生活,而这正是我们关注的重点。我们将继续推动这一进程,看看它会把我们带到何方。

如果 AGI 真的发生了,这会对苹果产生什么影响?

我们将继续讨论这个问题。

当您深夜思考问题时,您是否有时会问,如果计算机具有超人的智能意味着什么?

哦,当然。这不仅对苹果来说如此,对全世界也是如此。这对人类有如此多的益处。有些事情需要设置护栏吗?当然。我们对自己所做和不做的事情非常谨慎。我希望其他人也一样。AGI 本身至少还有很长的路要走。我们会一路弄清楚在这样的环境中需要什么样的护栏。

实施生成式人工智能会给基础设施带来很大压力,需要更多电力和更多数据中心。这是否会给苹果实现 2030 年实现碳中和的目标带来额外挑战?

是的,挑战更多。但我们是否已经实现目标了呢?不,绝对没有。有了更多的数据中心,你就可以使用更多的可再生能源,而我们现在已经建立了这种能力。自 2015 年以来,我们的碳足迹减少了一半以上,而我们的净销售额却增长了 50% 以上。我对 2030 年感到非常乐观。

那么你就不需要重新启动旧核电站或者其他什么东西了?

我没有看到这一点。

显然,iPhone 对我们的生活产生了不可思议的影响。我们非常喜欢它,以至于无法将目光从它身上移开。作为制造和销售这些设备的人,您是否担心这些设备让我们更容易分心并破坏了我们集中注意力的能力?在最近的一项非正式研究中,精英院校的教师抱怨他们的学生很难读书。

我担心人们无休止地滚动屏幕。这就是我们做屏幕使用时间等事情的原因,试图引导人们。我们支持人们给自己设限,比如限制收到的通知数量。我们在家长控制领域也做了很多事情。我的基本信念是,如果你看手机的时间比看别人眼睛的时间多,那就有问题了。

史蒂夫·乔布斯指示你不要想象他会做出什么样的产品决定,而是要做最好的事情。不过,考虑到他多么讨厌按钮,你有没有仰望天空,向他道歉,因为他在 iPhone 16 上增加了一个按钮?

我不知道史蒂夫会怎么想。当然,我和他共事了很长时间,有自己的看法。但事实是,人们用 iPhone 拍摄了如此多的照片和视频,因此让 iPhone 变得简单而优雅非常重要。如此重要以至于它值得拥有相机控制功能。

让我们谈谈你们的可穿戴显示屏 Vision Pro。据报道,它的销量没有达到你们的预期。发生了什么?

▲ 图片来自:WIRED

它是一款早期采用者产品,适合那些今天想要明天技术的人。这些人正在购买它,生态系统正在蓬勃发展。对我们来说,最终的考验是生态系统。我不知道你是否经常使用它,但我一直在那里。我总是看到新的应用程序。

我听说 Stevie Wonder(美国盲人歌手)演示了 Vision Pro,并且非常喜欢它。它的效果如何?

他是苹果的朋友,能从 Stevie 那里得到反馈真是太好了。当然,他的艺术造诣是无与伦比的。苹果长期以来的共同点之一是,我们不会在设计过程的最后阶段才添加无障碍功能。它是嵌入的。因此,获得他的反馈是关键。

Meta 和 Snap 正在引领我们走向可以长期佩戴的混合现实眼镜。更大、更重的 Vision Pro 最终会朝这个方向发展吗?

是的,从外形尺寸来看,这是一个随着时间的推移而发生的进步。AR 是一件大事。借助 Vision Pro,我们已经发展成为迄今为止最先进的技术,我认为从电子问题来看,它是世界上最先进的技术。我们拭目以待。

苹果已经为医疗技术开发了很多消费级工具。在生物测量和假肢方面,苹果的策略是什么?

对我来说,很明显,如果你放眼未来,回顾并问苹果最大的贡献是什么,那一定是在健康领域。我坚信这一点。

当我们开始用 Apple Watch拉动这根弦时,发生了一系列事件。我们从一些简单的事情开始,比如监测你的心率,然后发现我们可以接收心脏信号来获得心电图和心房颤动测定。

现在我们正在监测睡眠呼吸暂停。随着时间的推移,我收到了很多人的来信,如果没有手腕上的警报,他们可能就活不下来了。

苹果计划让 AirPods 具备矫正听力损失的功能。我敢打赌,昂贵助听器的制造商一定很着急。

这并不是要与市场上的助听器竞争。而是要说服听力受损的人使用 AirPods。绝大多数听力问题患者尚未得到诊断。

对于某些人来说,助听器是一种耻辱,而我们可以用 AirPods 来解决这个问题。我们可以让人们自己诊断。这是健康的民主化。

如果 Apple 设备开始使用 AI 实时分析所有生物特征数据,那么你就可以比医生更早地诊断出病情。你们是否在进行类似的实验,以标记危险的医疗状况?

我今天不会宣布任何消息。但我们正在进行研究。我们倾尽全力,研究那些已经酝酿多年的事物。我们花了很长时间研究听力,才将其调整到我们觉得合适的水平。

你刚刚发布了iPhone 16。这个系列还能持续多久?会不会有 iPhone 30?一些 AI 设备会不会很快取代它们?

我们认为智能手机的寿命会很长。会有更多的创新。很明显,你看看第一款上市的 iPhone 和 iPhone 16,它们是完全不同的,对吧?

我们在 Apple Park 进行这次采访,它已经有 7 年的历史了。当它还是蓝图时,有没有发生过你无法预料的事情,让你感到惊讶?

它比我想象的更能促进合作。这是设计的一个关键组成部分,但这里有很多地方你会意外地遇到人。在自助餐厅、咖啡吧、当你穿过小路时。

此外,这里与史蒂夫的联系令人难以置信且非常深厚。我们的剧院以他的名字命名,我们一直在想念他,但我也能在其他地方感受到他。

您提到了史蒂夫·乔布斯剧院,它是专为产品主题演讲而设计的。现在您使用预先录制的视频来发布产品。您还会回到现场演讲吗?

在疫情期间,我们了解到观众主要通过网络观看。剧院里能容纳的人很少,我们希望让更多人参与到发布会本身。由于舞台上的过渡等,在录音带上做这件事比在现场做要有效得多。

但您不怀念现场主题演讲的氛围吗?

我真的很想念它。我真的很想念它。

▲ 图片来自:WIRED

美国司法部和 19 个州以及哥伦比亚特区今年对苹果提起了诉讼。一位助理司法部长指控苹果是「自私的垄断者」。政府也对其他大型科技公司提起了诉讼。你认为公众和政府对苹果和其他大型科技公司的看法是否发生了变化?

当你谈论某件事,比如指控某种行为时,你应该谈论具体的公司以及该行为是什么,而不是把事情归为一类。

当然,每个人都有自己的诉讼。针对苹果的诉讼有何回应?

这完全误解了我们所做的事情。我们的用户知道这一点。我们总是把自己放在用户的立场上,问什么对他们最好,什么对他们的隐私最好,什么对他们的安全最好。

这就是故事。我们将向法官讲述这个故事,看看会发生什么。

您认为自己会担任苹果首席执行官多久?

我现在被问到这个问题的次数比以前更多了。

这是为什么?

随着年龄的增长,随着头发变白,我爱这个地方,史蒂文。能来到这里是我一生的荣幸。我会一直坚持下去,直到我脑海里的声音说:「是时候了」,然后我会专注于下一个篇章。但很难想象没有苹果的生活,因为自 1998 年以来,我的生活就与这家公司紧密相连。这是我成年后绝大部分时间的生活。所以我爱它。

您曾经说过,您的遗产由别人来决定,那么,您认为苹果的遗产是什么呢?

这也由其他人来决定。但我认为苹果将因提供改变世界、真正改善人们生活的伟大产品而被人们铭记。我们的用户在走进苹果商店时会感受到这一点。他们在使用产品时会感受到这一点。飓风袭击北卡罗来纳州时,我收到了很多信息,人们发现他们有能力在蜂窝网络瘫痪时发出 SOS 和短信。这提醒人们我们为什么这样做以及我们有多关心。这将是苹果的遗产。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


用 AI 复制你的个性,两个小时就够了

这是一个可以用 AI 复制「一切」的时代:从你的声音、容貌和表达风格,到你的某些想法或者决策。现在,AI 甚至可以复制你的「个性」,并且还相当准确。

近日,斯坦福大学和谷歌 DeepMind 的研究人员发表的一篇新论文显示,他们用 AI 创建了一个「具有个体态度和行为」的虚拟复制品。

研究人员称之为「通用计算代理」。而用于训练这些「代理」的,仅仅是一次两小时的访谈

▲图源:arXiv

这项研究由由斯坦福大学的博士生朴俊成(Joon Sung Park)牵头。研究人员与某招聘公司合作,并采用分层抽样的方式招募了 1052 名参与者,每一位参与者都用英语完成了一次两小时的语音访谈。

研究人员选择了一个由社会学家开发的采访协议,采访内容包括个人生活故事和对当代社会问题的看法。为了进一步量化访谈内容量,控制实验变量,研究人员将每个受试者的回答字数限制在约 6491 词左右。

值得一提的是,访谈中的面试官也是由 AI 来扮演的。在谈话的大致框架和时间限制内,这些「人工智能面试官」会根据每个参与者的回答动态生成后续的问题。

随后,这些回答就被用来训练每个个体的生成性 AI 模型,即「模拟代理」。

为了验证这些「代理」模仿人类个性的能力,参与者和 AI 代理都被要求完成一系列测试,内容包括性格测试、综合社会调查、五个社会科学实验和五个著名的行为经济学游戏等等。

其中,五个社会科学实验是发表在「美国国家科学院院刊」上的用于评估生成性代理是否能够模拟人类参与者的行为反应的一种常用标准;五个著名的行为经济学游戏则包括独裁者博弈、囚徒困境等。

两周后,参与者需要「复述」以上测试的回答,并用复述后的内容同「代理」生成的回答进行对比分析。结果显示,AI 代理能够以 85% 的准确率模拟参与者的回答,同时在预测五个社会科学实验中的个性特征和结果方面表现出色。

▲图源:香港青年协会

虽然人的「个性」似乎无法量化,但这项研究表明,人工智能的确擅长「以小见大」——它可以通过相对少量的信息推测并准确克隆一个人的「个性」。

这种「代理」的利弊两面都相当明显。好处是其为社会科学学者在研究时提供了更多的自由度。

通过创建行为类似于真实个体的数字复制品,科学家可以直接使用「代理」进行实验或者调查,而无需每次都招募大批志愿者。此外,这些「代理」还能够用来进行一些有关道德伦理的「争议」实验。

麻省理工学院斯隆管理学院的信息技术副教授约翰·霍顿(John Horton)在接受采访时就表示这项研究「使用真实的人类来生成人物角色,然后以编程/模拟的方式使用这些人物角色,而这是真实的人类无法做到的」。

▲图源:TechRadar

坏处则是,这类「代理」将不可避免地被一些别有用心的人用于「身份伪造」,并最终用于「诈骗」。

更加令人担忧的是,「代理」在某种意义上获得了人类的思想和「意识」,甚至能代替本人发表观点。朴俊成博士则预测未来有一天会有一群小版的「你」跑来跑去,并实际上做出你会做出的决定。

其实,「AI 代理」并不是什么处于技术前沿的词汇,在此之前,就有「数字孪生」的类似概念。不过,「代理」仅仅需要如此少的信息量就能准确重现一个人的「个性」,这才是需要注意和警觉的地方。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


前 Android 团队再度聚首,计划开发 AI 时代的「操作系统」

人工智能助理,或者「AI 代理」无疑是近期 AI 领域的热词之一,许多科技公司都已经在这条赛道上押宝。

以移动端为例,苹果为了使其智能助理「Siri」更加聪明,为其接入了大语言模型 ChatGPT,并计划使其拥有感知和理解屏幕内容的能力。

荣耀在不久之前发布的 Magic 9.0 系统则标志着手机正式进入「自动驾驶」时代,其内置的「YOYO 智能体」得益于 AI 内核的加持,还能实现「一句话操控手机」。

▲图源:TechRadar

而在 AI 技术同样深度介入的 PC 端,人工智能助理的能力也不容忽视:Anthropic 在上个月发布的最新 Claude 模型中同步推出了「computer use」功能,旨在代替用户直接与计算机进行交互。

据悉,OpenAI 也有计划入局该领域,将于明年 1 月推出一款名为「Operator」的 AI 代理。OpenAI 首席产品官凯文·韦尔(Kevin Weil)表示让 ChatGPT 具备自主执行任务的能力将是明年 OpenAI 的一大重点。

▲图源:TNCR

在 Android 操作系统出现之前,即使移动平台的前景相当广阔,但作为开发者来讲,在移动设备上构建任何东西都很困难。

对此,前 Google 高管大卫·辛格尔顿(David Singleton)认为在人工智能时代,同样的情况正在上演。他指出「我们可以看到 AI 的前景,但作为开发人员,构建任何好的东西真的很难」。

基于以上理念和考虑,辛格尔顿同前 Google 副总裁雨果·巴拉(Hugo Barra)等人联合创办了 AI Agent 操作系统创企「/dev/agents」。后者于 26 日在 X 上公开宣布了这一消息。

▲图源 :X

/dev/agents 在今年 10 月成立,总部位于美国旧金山,目前已经不再处于隐身状态。正如巴拉在推文中所说,新公司将「回到我们的 Android 根源,为人们和 AI 代理构建一个新的操作系统」。

换句话说,目前开发者缺乏构建 AI 代理的标准工具和系统,而 /dev/agents 计划构建一个统一的、基于云的跨平台操作系统,进而充分实发挥 AI 代理的潜力。公司预计将在明年初到中旬推出其产品的第一个版本。

这相当于一个「通用技术框架」,类似于 iOS 或者 Android 操作系统。此外,该公司还计划使用生成式 AI 提供个性化的用户界面,让人们能够更自然地与硬件设备上的代理进行交互。

▲图源:MakeUseOf

值得一提的是,/dev/agents 的联合创始人们个个来头不小。公司的 CEO 辛格尔顿在谷歌期间领导了安卓核心应用的开发和 Google Store 团队,末期则主要负责可穿戴设备安卓系统。后来离开谷歌,加入了金融科技企业 Stripe。

/dev/agents 的 CPO 巴拉此前在谷歌担任移动业务产品经理,负责移动与安卓业务,后来加入 Android 团队,负责整个安卓生态系统的软硬件业务,一路升至谷歌副总裁的职位。2013 年,巴拉加入小米集团,全权负责其海外业务。

公司的 CTO 和设计负责人分别由费卡斯·柯克帕特里克(Ficus Kirkpatrick)和尼古拉斯·吉特科夫(Nicholas Jitkoff)担任,前者负责安卓 1.0 版本从内核到应用程序所有层级的软件堆栈,后者则是初代安卓语音搜索和操作的负责人。

除了四位联合创始人以外,/dev/agents 还有另外两名员工。巴拉表示「这是一个构建了过去三代操作系统(安卓系统、可穿戴设备和 AR/VR)的团队」。

▲David Singleton(图源:CNBC)

也正是因为如此「豪华」的初创阵容,使得 /dev/agents 已经筹集到了 5600 万美元的种子轮融资,与此同时本轮融资对公司的估值达到 5 亿美元。

领投的风险投资公司「Index Ventures」的合伙人尼娜·阿查吉安(Nina Achadjian)认为创始人的背景是决定投资的核心,并且表示她抓住了支持该公司的机会:

这是一个非常困难的技术问题,也是一个非常大的想法。如果有一个团队来做这件事的话,从头开始构建 Android 和 Stripe 的团队,应该成为这个团队。

联合领投的 Alphabet 的独立成长基金 CapitalG 更是毫不吝啬对四位联合创始人的赞美,称他们是「本世纪每一次重大计算平台转变的先驱」,并且作为投资者,「遇到像这样出色的创始团队确实很少见」。

▲图源:CaptialG

许多投资者相信 AI 代理的功能将会越来越齐全,但同时他们也承认目前仍然没有通用的 AI 基础设施。尽管不少公司正在开发 AI 代理框架的不同部分,但 /dev/agents 的支持者认为,新的第三方操作系统将会成为释放潜力的关键。

另外,辛格尔顿表示 /dev/agents 的商业模式与 Android 的获利方式大致相同,可能会从销售额中分成,或向用户收取订阅费用。他还表示公司计划保持相对灵活的运营模式,类似于 Android 早期。

辛格尔顿在接受彭博社采访时说「我们需要一个类似 Android 的 AI 时刻」,这也是他对 /dev/agents 和人工智能代理的未来愿景。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


完全免费 AI 绘图工具 Dreamina AI,支持中文描述生成图片

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

当前 AI 绘图工具已经全面席卷全球,你还在找一款能够用文字或图片生成的免费 AI 图像生成工具吗?分享一款由抖音旗下剪映推出的 AI 图片生成平台「Dreamina AI」,只要输入简单中文描述就能立即转成图片,甚至还能搭配多层画布进行修改、重新创作和视频生成,而且还是完全免费和无限次数使用。

完全免费 AI 绘图工具 Dreamina AI,支持中文描述生成图片

Dreamina AI 是一款由剪映推出的在线 AI 创作平台,能够帮助用户将文字描述转化为视觉艺术作品。支持多种创作模式,包括文字绘图、视频生成和图片扩展,适合专业艺术家和普通用户使用。

另外 Dreamina AI 绘图创作平台还支持智能画布功能,可以通过画布混合多种 AI 生成图片,还可以进行局部重绘或扩展画布等功能操作。

想要使用 Dreamina AI 要先用电脑网页版登入和注册会员,可以通过 Google、TikTok、Facebook 或 CapCut 移动版来注册登入。〔手机版目前会跑版建议改用平板或电脑板,至于 App Store 有 Dreamina AI App 也并非是官方推出〕

👉 前往 Dreamina AI 在线生成图片

要是首次注册账号,会跳出 Dreamina 平台要整合 CapCut 账号信息权限,直接点「确定」继续。

进入 Dreamina AI 主页面后,就可以点击「图片生成」开始使用 AI 生成功能。

接着可以再生成图像输入框内填入生成 AI 图片的文字描述〔咒语〕,不管是输入中文或英文都能够使用,实际测试 Dreamina AI 中文生成图片准确度也不差,不一定要用英文才比较高,当然也可以上传照片,依照现有图片来生成。

图片模型部分,会提供三种 Dreamina 模型效果分别如下:

底下还能够设置图片输出长宽比例,以及大小尺寸分辨率都能够手动设置,都设置完成后就按下「生成」就可以开始生成免费 AI 图片了!

Dreamina AI 在输出算是非常快,只要几秒就能生成出四种不同风格的 AI 图片,像是底下是直接生成 Lego 乐高 AI 图片海报风格图片。

说实在 Dreamina AI 生成图片效果,与当前大多数 AI 绘图工具也都不会差太多。

底下也尝试文字描述咒语来生成漫威的雷神索尔画面,会生成出不同风格和脸型效果。

用下来发现 Dreamina AI 对中文理解能力算是很强大,AI 工具基本都能理解我们在说什么,像是可以让可爱老鼠或兔子也能骑机车外卖。

连同用 Dreamina v2.0 Pro 模型来生成真人效果也非常逼真,让你看不出来这是用 AI 生成。

不过有些时候不能谈到敏感话题或文字,甚至有些上传图片有红色就会被系统认为血腥,违反了《社交自律公约》内容,遇到这情况只能换其他张照片或改用其他文字描述。

点入生成 AI 图片后,可以直接将原始图片下载到设备上,侧边还提供多种选项能够进一步调整,像是重新生成、重新调整提示、增强分辨率、润饰、局部重绘、展开或移除,以及能够在画布上编辑或生成视频等。

要是想在 AI 图片上额外修改局部画面,可以直接点入「局部重绘」功能,直接圈选划线都可以,像是我随便在画面划一下,Dreamina AI 马上就在行李箱上加入皮带配件,有如设计师能帮你随意修改,超级猛!

至于 Dreamina AI 提供的「画布」功能,简单来说就是在线 Photoshop 编辑器,能够在页面内用 AI 生成图片后,能够直接抠图,另外上传图片进行合成,侧边也有图层能够进行调整拖移,基本算是很容易上手。

以上就是 Dreamina AI 生成图片工具的技巧介绍,整体来看 Dreamina AI 算是一款功能强大、易于使用的 AI 图像生成工具,能让每个人都能成为艺术家,如果你想尝试看看 AI 绘图功能,或是想要创造出不同图片效果,倒是可以通过 Dreamina AI 来快速生成,且还能支持中文提示词,对大多数人来说也算是非常好上手。

OpenAI 将打造「人工智能经济区」,称面对与中国的竞争「别无选择」

OpenAI 在周三由美国战略与国际研究中心在华盛顿特区主办的一次活动上公开了其最新的政策蓝图。

这份蓝图详细地探讨了美国应该如何保持其在人工智能领域的领先地位,以及如何满足 AI 技术所的巨大能源需求。

此外在文件中,OpenAI 还描述了关于人工智能技术的美好愿景,称其为「像电力一样的基础技术」,能够提供大量的就业机会、GDP 增长和投资等,并且「为再工业化提供了一个不容错过的机会」。

当然,其中还包含着令几乎所有美国人都难以抗拒的噱头:「重振美国梦」。

▲图源:PYMNTS

在周三的活动上,OpenAI 的全球事务副总裁克里斯·勒哈恩(Chris Lehane)表示他们花了「大量时间」与拜登政府和特朗普团队讨论人工智能的基础设施需求

特朗普上台后,计划废除拜登关于人工智能的行政命令,称其「阻碍了人工智能创新」;此外,特朗普还承认美国需要扩大能源供给以保持在 AI 领域的竞争力,并建议放宽使用化石燃料和核能的许可要求。

OpenAI 已经明确表示将与由特朗普领衔的新政府就人工智能方面的政策进行合作。

▲Chris Lehane(图源:Q BERLIN)

具体来讲,OpenAI 在政策蓝图中提议建立「北美人工智能联盟」,并制定「北美人工智能契约」,目的是简化 AI 技术中人才、融资和供应链的获取,以及同中国在人工智能方面提出的类似倡议进行竞争。

OpenAI 指出,这一 AI 合作机制将从美国及其邻国开始,然后扩大到美国在全球的盟友网络,其中还包括阿联酋等中东国家。

▲图源:经济观察网

为了激励各州加快人工智能基础设施的许可和审批,OpenAI 还在蓝图中建议美国各州和联邦政府共建「人工智能经济区」。

勒哈恩指出,随着美国进入数字时代,大量的经济收益流向沿海地区,相对「落后」的中西部和西南部则成为了人工智能投资的潜在核心地区——这些地方有土地和能力建设风电场和太阳能电池阵列,还有可能建设核设施

鉴于美国海军运营着约 100 个小型模块化反应堆(SMR)为海军潜艇提供动力,OpenAI 提议利用海军的专业知识建造更多的民用中小型反应堆,以此来提高核能能力。

▲图源:IAEA

勒哈恩还考虑在「拥有大量农业数据」的堪萨斯州和爱荷华州建立一个数据中心,创建一个基于农业的大语言模型或者推理模型。这些设施不仅能够服务社区,还能使其成为「农业人工智能的中心」。

有报道称「中国在 10 年内建成的核电产能相当于美国 40 年建成的核电产能」,并且近年来不断批准增设核反应堆。勒哈恩引用估算数据,表示到 2030 年,美国将需要 50 千兆瓦的能源来支持人工智能行业的需求并与中国竞争。

并且,面对这种竞争,「我们别无选择」,勒哈恩说。

▲图源:Pixabay

此外,由于现有程序无法跟上人工智能驱动的需求,OpenAI 预计还将出台一项「国家传输高速公路法案」,以扩大电力、光纤连接和天然气管道建设,并进一步寻求新的权力和资金来解除传输规划、许可和支付的障碍。

值得一提的是,欧盟也于昨日发布了首个针对通用人工智能(GPAI)模型的「行为准则」草案,其中列出了有关风险管理的指导方针,并为企业提供了遵守规定并避免严厉处罚的蓝图。

在世界各国不断推进人工智能基础设施落地,推动 AI 技术规范化的背景之下,我国应该如何「出招」?尤其是如何保持我们在政策、数据资源和应用场景方面的优势,补全基础理论研究和算力产业方面的短板?

解决这些问题,是我们面对「别无选择」的竞争选择「应战」时,应该拥有的底牌。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


新的阶级依据

Ai 的普及将会诞生更多不求甚解的普信男。
古典的百科全书式人类不会被赛博囚禁。

推论:
新阶级的划分依据是,是否具备物理世界生活常识。

OpenAI 下一代模型遭遇重大瓶颈,前首席科学家透露新技术路线

OpenAI 的下一代大语言模型「Orion」可能遭遇了前所未有的瓶颈。

据 The Information 报道,OpenAI 的内部员工称 Orion 模型的性能提升没有达到预期,与从 GPT-3 到 GPT-4 的升级相比,质量提升要「小得多」。

此外,他们还表示 Orion 在处理某些任务时并不比其前身 GPT-4 更可靠。尽管 Orion 在语言技能上更强,但在编程方面可能无法超越 GPT-4。

▲图源:WeeTech

报道指出,训练高质量文本和其他数据的供应正在减少,这使得找到好的训练数据变得更加困难,从而减缓了大语言模型(LLMs)在某些方面的发展。

不仅如此,未来的训练将更加耗费计算资源、财力甚至电力。这意味着开发和运行 Orion 以及后续大语言模型的成本和代价将变得更加昂贵。

OpenAI 的研究员诺姆·布朗(Noam Brown)最近在 TED AI 大会上就表示,更先进的模型可能「在经济上不可行」:

我们真的要花费数千亿美元或数万亿美元训练模型吗? 在某个时候,扩展定律会崩溃。

对此,OpenAI 已经成立了一个由负责预训练的尼克·雷德(Nick Ryder)领导的基础团队,来研究如何应对训练数据的匮乏,以及大模型的扩展定律(scaling laws)将持续到什么时候。

▲Noam Brown

扩展定律(scaling laws)是人工智能领域的一个核心假设:只要有更多数据可供学习,并有更多的计算能力来促进训练过程,大语言模型就能继续以相同的速度提升性能。

简单来说,scaling laws 描述了投入(数据量、计算能力、模型大小)和产出之间的关系,即我们对大语言模型投入更多资源时,其性能提升的程度。

举例来讲,训练大语言模型就像在车间生产汽车。最初车间规模很小,只有几台机器和几个工人。这时,每增加一台机器或一个工人,都能显著提高产量,因为这些新增资源直接转化为生产能力的提升。

随着工厂规模的扩大,每增加一台机器或工人带来的产量提升开始减少。可能是因为管理变得更加复杂,或者工人之间的协调变得更加困难。

当工厂达到一定规模后,再增加机器和工人可能对产量的提升非常有限。这时,工厂可能已经接近土地、电力供应和物流等的极限,增加的投入不再能带来成比例的产出增加

而 Orion 的困境就在于此。随着模型规模的增加(类似增加机器和工人),在初期和中期,模型的性能提升可能非常明显。但到了后期,即使继续增加模型大小或训练数据量,性能的提升也可能越来越小,这就是所谓的「撞墙」。

一篇近期发表在 arXiv 上的论文也表示,随着对公共人类文本数据需求的增长和现有数据量的有限性,预计到 2026 年至 2032 年之间,大语言模型的发展将耗尽现有的公共人类文本数据资源。

▲图源:arXiv

即使诺姆·布朗指出了未来模型训练的「经济问题」,但他还是对以上观点表示反对。他认为「人工智能的发展不会很快放缓」。

OpenAI 的研究人员也大都同意这种看法。他们认为,尽管模型的扩展定律可能放缓,但依靠优化推理时间和训练后改进,AI 的整体发展不会受到影响。

此外,Meta 的马克·扎克伯格、OpenAI 的山姆·奥特曼和其他 AI 开发商的首席执行官也公开表示,他们尚未达到传统扩展定律的极限,并且仍在开发昂贵的数据中心以提升预训练模型的性能。

▲Sam Altman(图源:Vanity Fair)

OpenAI 的产品副总裁彼得·韦林德(Peter Welinder)也在社媒上表示「人们低估了测试时计算的强大功能」。

测试时计算(TTC)是机器学习中的一个概念,它指的是在模型部署后,对新的输入数据进行推理或预测时所进行的计算。这与模型训练阶段的计算是分开的,训练阶段是指模型学习数据模式和做出预测的阶段。

在传统的机器学习模型中,一旦模型被训练好并部署,它通常不需要额外的计算来对新的数据实例做出预测。然而在某些更复杂的模型中,如某些类型的深度学习模型,可能需要在测试时(即推理时)进行额外的计算。

例如,OpenAI 所开发的「o1」模型就使用了这种推理模式。实际上,整个 AI 产业界正将重心转向在初始训练后再对模型进行提升的模式

▲Peter Welinder(图源:Dagens industri)

对此,OpenAI 的联合创始人之一伊利亚·苏茨克弗(Ilya Sutskever)最近在接受路透社采访时承认,通过使用大量未标记数据来训练人工智能模型,以使其理解语言模式和结构的预训练阶段,其效果提升已趋于平稳

伊利亚表示「2010 年代是扩展的时代,现在我们再次回到了探索和发现的时代」,并且指出「扩大正确的规模比以往任何时候都更加重要」。

Orion 预计将在 2025 年推出。OpenAI 将其命名为「Orion」而非「GPT-5」,这也许暗示着一场新的革命。虽然暂时受理论限制而「难产」,我们仍然期待着这个拥有新名字的「新生儿」能给 AI 大模型带来新的转机。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 总裁宣布回归!结束「最长假期」,将专注重大技术挑战

OpenAI 联合创始人兼总裁格雷格·布罗克曼(Greg Brockman)在离开公司三个月后,重新回到了职位上。

这位前高管在 X 上发帖称「一生中最长的假期结束了」,并宣布回归 OpenAI。OpenAI 的发言人证实了这一消息。

▲图源:X

据知情人士透露,布罗克曼在周二给员工的内部备忘录中宣布,他已正式重新开始在 OpenAI 工作。

此外,布罗克曼还在备忘录中表示自己一直在与公司 CEO 山姆·奥特曼(Sam Altman)合作,正为他设立一个新角色,以专注于重大的技术挑战。

▲Greg Brockman(图源:CNBC)

实际上,OpenAI 的两位联合创始人布罗克曼和奥特曼一直是形影不离的「密友」。

2023 年 11 月 17 日,时任 OpenAI 首席执行官的奥特曼突然被解雇,原因是他与董事会之间的「沟通破裂」。同时,布罗克曼被告知他将被从董事会主席的职位上撤下,但仍保留总裁职位。

然而,布罗克曼对董事会的指示表示「感到悲伤」,并选择辞职以表示抗议。2023 年 11 月 20 日,两人宣布将加入微软,领导一个新的 AI 研究团队。

戏剧性的是,次日 OpenAI 就宣布和奥特曼达成了原则性协议,奥特曼将重返公司担任 CEO。

▲Sam Altman(图源:CNBC)

同样从 OpenAI 离职的首席科学家伊利亚·苏茨克弗(Ilya Sutskever)和首席技术官米拉·穆拉蒂(Mira Murati)则分别成立了人工智能初创公司 Safe Superintelligence(SSI)和 Fathom。

值得一提的是,后者最近正在向 OpenAI 的员工抛出橄榄枝,邀请他们加入自己的新公司。

据 The Information 报道,穆拉蒂不仅成功挖来了 OpenAI 的研究项目经理米安娜·陈(Mianna Chen),还拉拢了前模型训练后处理负责人巴雷特·佐夫(Barret Zoph)和前高级研究员卢克·梅茨(Luke Metz)加盟。

▲Mira Murati(图源:CNN)

这表明 OpenAI 的离职潮还在继续。最近从 OpenAI「出走」的高管属实不少,其中不乏一些「元老」:
  • 安全副总裁翁荔(Lilian Weng)
  • 首席技术官(CTO)米拉·穆拉蒂(Mira Murati)
  • 首席研究官鲍勃·麦格鲁(Bob McGrew)
  • 研究副总裁巴雷特·佐夫(Barret Zoph)
  • 联合创始人约翰·舒尔曼(John Schulman)
  • 研究员卢克·梅茨(Luke Metz)
  • 研究员安德烈·卡帕西(Andrej Karpathy)

而在今年 8 月宣布「休假至年底」的元老之一布罗克曼选择在时隔许久之后重新回到老东家,同奥特曼再次聚首。两位巨头将继续共同引领 OpenAI 的下一步发展。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


黄仁勋两万字访谈实录:希望英伟达拥有 5 万名员工和 1 亿个 AI 助手

NVIDIA(英伟达)公司 CEO 黄仁勋近期做客「Open Source」双周对话,同 Brad Gerstner 与 Altimeter 合伙人 Clark Tang 一起探讨了与关于推动智能向通用人工智能(AGI)发展的主题。

在 AI 和机器学习领域深耕多年,黄仁勋对 AI 发展现状和前景的评价一针见血:这是一场彻底的革命。

推理迎来爆炸式增长,开源模型需求量爆棚,完整兼容的 AI 基础设施不断落地……这个 AI 大行其道的时代,黄仁勋大胆构想,希望未来的英伟达能够拥有 5 万名员工和 1 亿个 AI 助手。

当谈及英伟达在当今 AI 世界的竞争壁垒和定位时,黄仁勋对自身优势十分自信清醒,同时也有着不小的野心:英伟达最擅长的是算法,我们的使命是为新世界构建一个无处不在的计算平台。

当然,有别于争夺市场份额,这颗野心只关乎「开拓」。

在时长近一个半小时的访谈中,黄仁勋眼光犀利地剖析了机器学习如何重塑计算世界,AI 如何带来前所未有的技术革命,并最终掀起巨大的革命浪潮。此外,还涉及 AI 的安全性和开源争议等话题。

看似高冷的皮夹克之下,是黄仁勋对 AI 领域的炽热初心:我会认真对待工作,认真对待责任,认真对待社会贡献以及我们所处的时代。

本次访谈的信息密度相当之大,对于 AI 行业的探讨也前所未有的深入,不容错过!

原访谈视频链接:

我们对黄仁勋在本次访谈中的主要观点做了简要梳理,如下:

  • 个人 AI 助手将很快出现,并且会随时间不断进化;
  • 我们已经从人类编程转向了机器学习,整个技术栈都在实现创新和增长;
  • 促进 AI 的加速进化,需要对「飞轮」的每个部分都进行加速;
  • 未来的计算(应用程序开发)将高度依赖机器学习和 AI,并且会有智能体来帮助人类使用这些应用程序;
  • AI 不会取代工作,它将改变工作,并将对人们如何看待工作产生深远影响;
  • AI 的安全是基础,不一定需要为每一项重要技术单独立法,也不能让监管过度扩展到不必要的领域;
  • 必须有开源模型来推动 AI 的创建,开源对于许多行业的激活是必要的;

以下是由 APPSO 编译的访谈全文:

从人类编程转向机器学习

Brad Gerstner:现在是 10 月 4 日星期五,我们在英伟达总部,就在 Altimeter 街下。我们将在周一召开年度投资者会议,讨论 AI 的所有影响,以及我们在智能扩展速度上的进展。

我真的想不出比你更合适的人来开启这个话题了,你既是股东,也是我们的智囊伙伴,和你一起探讨想法总能让我们变得更加明智。我们对这段友谊表示感激,所以感谢你的到来。

黄仁勋:很高兴来到这里。

Brad Gerstner:今年的主题是将智能扩展到通用人工智能(AGI)。

令人震撼的是,两年前我们做这个的时候,主题是 AI 时代,而那是在 ChatGPT 发布前两个月。想到这一切变化,真的是让人惊讶。所以我想我们可以以一个思想实验来开始,也许还可以做个预测。

如果我把通用人工智能(AGI)简单理解为我口袋里的个人助手,正如我所理解的那样,它知道我所有的事情,拥有关于我的完美记忆,能够与我沟通,可以为我预订酒店,甚至可以为我预约医生。在你看来,今天这个世界的变化速度如此之快,你认为我们什么时候能够拥有这种口袋里的个人助手?

黄仁勋:很快会以某种形式出现。那个助手会随着时间的推移变得越来越好。这就是我们所了解的技术的美妙之处。所以我认为,刚开始时它会非常有用,但并不完美。然后随着时间的推移,它会变得越来越完美。就像所有技术一样。

Brad Gerstner:当我们观察变化速度时,我记得 Elon 曾说过,唯一重要的事情是变化速度。我们确实感到变化的速度大大加快了,这是我们在这些问题上见过的最快的变化速度,因为我们在 AI 领域已经研究了大约十年,而你甚至更久一些。在你的职业生涯中,这是你见过的最快的变化速度吗?

黄仁勋:是的,因为我们重新发明了计算。这些变化很大程度上是因为我们在过去 10 年内将计算的边际成本降低了 10 万倍。如果按照摩尔定律计算,这个过程大约是 100 倍的提升,但我们做到了远远超过这一点。我们通过几种方式实现了这一目标。

首先,我们引入了加速计算,将在 CPU 上效率不高的工作转移到 GPU 上。

其次,我们发明了新的数值精度,开发了新的架构,设计了集成核心,改进了系统的构建方式,NVLink 增加了超快的内存(HBM),并通过 NVLink 和 InfiniBand 实现了全栈扩展。基本上,所有我描述的关于英伟达做事方式的细节,都促成了超越摩尔定律的创新速度。

现在,真正令人惊叹的是,正因为如此,我们从人类编程转向了机器学习。

而机器学习最令人惊讶的地方在于,事实证明它的学习速度非常快。所以,随着我们重新定义计算的分布方式,我们进行了多种形式的并行处理:张量并行、流水线并行,以及各种各样的并行计算方式。我们在这一基础上发明了新算法,并开发了新的训练方法。所有这些发明都在彼此之间产生了复合效应。

回到过去,如果你看看摩尔定律当时的运作方式,会发现软件是静态的。它被预设为像包装好的产品一样静态存在,然后硬件则以摩尔定律的速度发展。而现在,我们是整个技术栈在增长,整个栈都在进行创新,我认为这就是现状。

现在突然之间我们看到了惊人的扩展,当然,这是非凡的变化。但我们以前讨论的是预训练模型以及在这个层面上的扩展,如何通过将模型大小翻倍,适当地将数据量也翻倍。

因此,每年所需的计算能力都会增加 4 倍。这当时是个大事。但现在我们看到了在后训练阶段的扩展,也看到了推理阶段的扩展,对吧?人们过去常认为预训练很难,而推理相对容易。

现在一切都变得很难,这种观点其实是合理的,毕竟将所有人类的思维都归结为一次性完成的过程是荒谬的。所以思维一定存在快思维和慢思维、推理、反思、迭代、模拟等概念,而现在这些概念正在逐渐融入进来。

Clark Tang:我认为,就这一点而言,关于英伟达最被误解的一件事就是英伟达的真正技术优势有多大,对吧?我认为外界有一种看法,认为一旦有人发明了一种新芯片或者更好的芯片,他们就赢了。

但事实是,过去十年你们一直在构建完整的技术栈,从 GPU 到 CPU,再到网络,尤其是那些让应用程序能够在英伟达平台上运行的软件和库。你认为今天英伟达的技术优势比三到四年前更大还是更小?

黄仁勋:我很感谢你意识到计算已经发生了变化。事实上,人们之所以认为(现在很多人仍然这么认为)设计一款更好的芯片就行了,是因为它有更多的浮点运算能力(flops),有更多的翻转、字节和位,你懂我的意思吗?你看他们的主题演讲幻灯片,上面都是这些翻转和浮点运算,还有各种条形图、图表之类的。

这些都很好,我的意思是,性能当然很重要,所以这些基本上确实很重要。然而,不幸的是,这是老旧的思维方式。因为那时的软件只是在 Windows 上运行的某个应用程序,软件是静态的,这意味着你能改进系统的最好方式就是制造越来越快的芯片。

但我们意识到,机器学习不是人类编程。机器学习不仅仅是关于软件,它是关于整个数据通路的。事实上,机器学习的核心飞轮(flywheel)是最重要的东西。那么,你是如何考虑在推动这个飞轮的同时,让数据科学家和研究人员能够在这个飞轮中高效工作的?而这个飞轮从最最初的阶段就开始了。

许多人甚至没有意识到,实际上需要 AI 来整理数据,来教导另一个 AI。而仅仅这个 AI 本身就已经相当复杂了。

▲个人 AI 助手将很快以某种方式出现(图源:NITCO)

加速飞轮的每一步

Brad Gerstner:那它本身也在改进吗?它是否也在加速?你知道,当我们再一次思考竞争优势时,对吧?这实际上是所有这些因素的组合效应。

黄仁勋:完全正确,正是因为更智能的 AI 来整理数据,现在我们甚至有了合成数据生成以及各种不同的数据整理和呈现方式。所以在你进行训练之前,就已经涉及到大量的数据处理。而人们总是想到 PyTorch 是整个世界的起点和终点。

它确实非常重要,但不要忘了,在使用 PyTorch 之前有大量的工作,使用 PyTorch 之后也有大量工作。而关于飞轮的概念,实际上是你应该思考的方式。你知道,我应该怎么去思考整个飞轮?我该如何设计一个计算系统,一个计算架构,帮助你让这个飞轮尽可能高效运转?这并不是一个应用训练的单一步骤,对吧?这只是其中一步,好吗?

飞轮的每一步都很困难,所以你应该首先思考的不是如何让 Excel 更快运行,也不是如何让「毁灭战士」更快运行,那是过去的老路,对吧?

现在你需要考虑的是如何让这个飞轮更快。而这个飞轮包含了很多不同的步骤,正如你们所知道的,机器学习没有什么是简单的,OpenAI 所做的事情,或者 X 所做的事情,或者 Gemini 团队和 DeepMind 所做的事情,都没有什么是简单的。

因此我们决定,这才是你应该真正思考的。这是整个过程,你需要加速每一个部分。你要尊重阿姆达(Amdahl)定律,阿姆达定律会告诉你,如果这个部分占用了 30% 的时间,我将它加速了 3 倍,我并没有真的将整个过程加速太多,明白吗?

你真的需要创建一个能加速每一步的系统,只有通过加速整个过程,你才能真正显著改善这个循环时间,而那个学习速率飞轮,最终就是导致指数式增长的原因。

所以我要说的是,一个公司的观点实际上会反映在它的产品上。注意,我一直在谈论这个飞轮。

Clark Tang:你是说整个周期。

黄仁勋:没错,而且我们现在加速了一切。现在的主要焦点是视频。很多人都专注于物理 AI 和视频处理。试想一下前端,每秒有数 TB 的数据进入系统。给我举个例子,说明处理这些数据的管道是如何运行的,从数据摄取到准备进行训练的全过程,而这一切都是 CUDA 加速的。

Clark Tang:现在人们只在思考文本模型,但未来还包括视频模型,同时使用一些文本模型,比如 o1,来在我们开始处理之前先处理大量的数据。

黄仁勋:语言模型将会涉及到每一个领域。行业花费了大量技术和精力来训练语言模型,来训练这些大型语言模型。现在我们在每一步都使用更低的计算成本。这真的非常了不起。

Brad Gerstner:我不想过于简单化这个问题,但我们确实经常从投资者那里听到这样的问题,对吧?是的,但定制化芯片呢?是的,但他们的竞争壁垒会不会因此被打破?

我听到你所说的是,在这个组合系统中,优势是随着时间增长的。所以我听你说,我们今天的优势比三四年前更大,因为我们在改进每一个组件。而这种组合效应,意味着你知道,比如作为一个商业案例研究,英特尔曾经在技术栈中占据主导地位,而你们今天相对他们而言处于什么位置?

也许可以简单概括一下,比较一下你们今天的竞争优势与他们在巅峰时期的竞争优势。

黄仁勋:英特尔是非凡的。英特尔之所以非凡,是因为他们可能是第一家在制造工艺工程和生产方面极其出色的公司,而在制造工艺的基础上更进一步的是设计芯片,对吧?他们设计了芯片,构建了 x86 架构,并且不断制造更快的 x86 芯片。这是他们的聪明之处。他们将这一点与制造工艺加以结合。

我们的公司稍微有些不同,因为我们认识到,事实上,平行处理并不需要每个晶体管都非常完美。串行处理要求每个晶体管都必须完美无缺,而平行处理需要大量的晶体管以实现更高的成本效益。

我宁愿要多 10 倍的晶体管,速度慢 20%,也不愿要少 10 倍的晶体管,速度快 20%。明白吗?他们则更喜欢相反的选择,因此单线程性能和单线程处理与平行处理非常不同。所以我们意识到,实际上我们的世界并不是追求往下做得更好。我们想做到尽可能的好,但我们的世界真正关心的是如何往上做得更好。

并行计算、并行处理很难,因为每个算法都需要根据架构以不同的方式重构和重新设计。人们没有意识到的是,你可以有三种不同的 CPU,它们都有各自的 C 编译器,你可以把软件编译到相应的 ISA(指令集架构)上。这在加速计算中是不可能的,在并行计算中也是不可能的。

开发出架构的公司必须开发出自己的 OpenGL。所以我们彻底改变了深度学习,因为我们有一个特定领域的库,叫做 CUDNN。没有 CUDNN,就没有今天的深度学习。

没有人谈论 CUDNN,因为它是在 PyTorch 和 TensorFlow 之下的一层。早期还有 Caffe 和 Theano,现在有 Triton,还有很多不同的框架。那个特定领域的库,像 CUDNN,还有 Optics,一个特定领域的库叫做 CuQuantum,Rapids,还有其他很多库。

Brad Gerstner:行业特定的算法就位于那个大家都关注的 PyTorch 层之下,比如我经常听到人们说,如果没有这些底层库的话……

黄仁勋:如果我们没有发明它,任何顶层的应用程序都无法运行。你们明白我在说什么吗?从数学上讲,英伟达真正擅长的是算法,它融合了上层的科学与下层的架构,这是我们真正擅长的。

▲黄仁勋在访谈中

我们已经进入推理时代

Clark Tang:现在所有的关注点终于集中到了推理上。但是我记得两年前,Brad 和我和你共进晚餐时,我们问你一个问题:你认为英伟达在推理领域的技术优势会像在训练领域一样强大吗?

黄仁勋:我肯定说过,它会更强大。

Clark Tang:你刚才提到了很多因素,比如模块化组合,不同组合的总成,有时我们并不完全了解。对于客户来说,能够在这些之间灵活切换非常重要。但你能不能再谈谈,现在我们已经进入了推理时代。

黄仁勋:推理就是大规模的推理训练,对吧?所以,如果你训练得好,那么很有可能你的推理也会很好。如果你在这种架构上进行训练而没有任何调整,它将能够在这种架构上运行。

当然,你依然可以为其他架构进行优化,但至少,因为它已经是在英伟达的架构上构建的,所以它能够在英伟达的架构上运行。

另一个方面,当然,还有资本投资方面的问题。当你训练新模型时,你会希望使用最新最好的设备进行训练,而这会留下之前使用过的设备。而这些设备非常适合用于推理。因此,会有一条免费的设备路径。

新的基础设施背后有一条免费的基础设施链,这些设备与 CUDA 兼容。所以我们非常严谨,确保整个过程的兼容性,这样我们留下的设备依然能够保持卓越性能。

同时,我们也投入了大量精力,不断重新发明新的算法,以确保当时机来临时,Hopper 架构的性能会比刚购买时提升 2 到 4 倍,从而让基础设施继续保持高效。

所以,我们在改进新算法、新框架方面所做的所有工作,不仅帮助了我们每一个安装的基础架构,Hopper 因此变得更好,Ampere 也因此变得更好,甚至 Volt 也因此变得更好。

我记得 Sam 刚刚告诉我,他们最近刚从 OpenAI 退役了他们的 Volt 基础设施。所以,我认为我们留下了这些安装基础架构的痕迹。正如所有计算基础架构一样,安装基础架构是很重要的。

英伟达的产品遍布每一个云端、内部部署,直到边缘设备。因此,在云端创建的 Vela 视觉语言模型无需修改便能完美运行于边缘的机器人上。这一切的底层都是 CUDA。所以,我认为架构兼容性的概念对大型项目非常重要。这和 iPhone 或其他设备的兼容性概念没有什么不同。

我认为,安装基础架构对推理非常重要,但我们真正受益的是,因为我们在新的架构上训练这些大型语言模型时,我们能够思考如何创造出在未来非常优秀的推理架构。

所以我们一直在思考迭代模型和推理模型,如何为你的个人智能体创造非常交互性的推理体验,比如当它需要停下来思考一段时间时,如何快速与你互动。

所以,我们是如何实现这一目标的?答案是 NVLink。你知道,NVLink 让我们能够使用这些适合训练的系统,但当训练完成后,它的推理性能也非常卓越。你希望优化的是首次 Token 的响应时间,而实现首次 Token 的响应时间非常困难,因为这需要大量的带宽。

如果你的上下文也非常丰富,那么你还需要大量的计算能力。因此,你需要在同一时间拥有无限的带宽和计算能力,才能实现几毫秒的响应时间。而这种架构非常难以实现。为此,我们发明了 Grace Blackwell NVLink。

▲NVIDIA Blackwell 架构(图源:NVIDIA)

英伟达正在构建完整的、兼容的 AI 基础设施

Brad Gerstner:你知道,我这周早些时候和 Andy Jassy 共进晚餐,Andy 说:「我们有 Tranium,还有即将到来的 Inferencia」。我认为大多数人,还是认为这些对于英伟达是个挑战。

但紧接着他说「英伟达是我们一个非常重要的合作伙伴,而且未来还将继续是我们非常重要的合作伙伴,至少在我所能预见的未来」。

世界依靠英伟达运行,对吧?所以,当你想到这些为特定应用开发的定制 ASIC,比如 Meta 的推理加速器,或者 Amazon 的 Tranium,或者 Google 的 TPUs,还有你当前面临的供应短缺问题时,这些因素会改变你们之间的动态,还是说它们只是对你们系统的补充?

黄仁勋:我们只是在做不同的事情,我们试图实现不同的目标。英伟达正在尝试为这个新世界构建一个计算平台,这个机器学习的世界,这个生成式 AI 的世界,这个智能体 AI 的世界。

我们想要创造的是,经过 60 年的计算,我们重新发明了整个计算栈,从编程到机器学习的方式,从 CPU 到 GPU 的软件处理方式,从软件到人工智能的应用方式,对吧?软件工具、人工智能——计算栈的每个方面,技术栈的每个方面都发生了变化。

我们想要做的是创建一个无处不在的计算平台,这实际上是我们工作的复杂性所在。如果你思考我们在做什么,我们是在构建一个完整的 AI 基础设施,我们把它看作是一台计算机。

我以前说过,数据中心现在是计算的基本单位。对我来说,当我思考一台计算机时,我不是在想那块芯片,我是在想这个概念:它是我的心智模型,里面包括所有的软件、编排和所有的机械部分。这是我的使命,这是我的计算机,我们每年都在试图构建一台全新的计算机。

是的,这太疯狂了,之前没有人这么做过。我们每年都在尝试构建一台全新的计算机,而且每年我们都交付两到三倍的性能提升。每年我们都会将成本降低两到三倍,每年我们都会将能效提高两到三倍。

所以我们告诉客户,不要一次性购买所有设备,每年购买一点,好吗?原因是,我们希望他们能够逐步进入未来,所有的架构都是兼容的,好吗?

现在,仅仅以这样的速度构建这个平台就已经非常难了,而双倍的难度在于,我们不仅要销售基础设施或服务,而是把它们拆解开来,然后将它们集成到 GCP 中,集成到 AWS 中,集成到 Azure 中,集成到其他平台中,明白吗?

每个平台的集成都不一样。我们必须把所有的架构库、所有的算法和所有的框架集成到他们的系统中。我们把我们的安全系统集成到他们的系统中,我们把我们的网络集成到他们的系统中,对吧?然后我们每年进行大概 10 次这样的集成。而这就是奇迹所在。

Brad Gerstner:这就是奇迹所在,为什么?我的意思是,这太疯狂了。你每年都在做这些事,这真的很疯狂。想一想,是什么驱动你每年都这样做的?

然后再说到这一点,你知道 Clark 刚从中国台湾、韩国和日本回来,见了你所有的供应合作伙伴——那些你已经有十多年合作关系的伙伴。这些合作关系对于构建那个竞争壁垒的组合效应有多重要?

黄仁勋:是的,当你系统性地分解时,大家越是分解,就越会感到惊讶,整个电子行业生态系统今天是如何致力于与我们合作,最终构建出这个计算机的立方体,并将其整合到所有不同的生态系统中的?而且协调是如此无缝。显然,我们向后传递了 API、方法学、业务流程和设计规则,向前传递了方法学、架构和 API。

Brad Gerstner:这些已经被强化了几十年。

黄仁勋:强化了几十年,同时也在不断演进。但这些 API 在需要的时候必须整合在一起——所有这些在中国台湾和世界各地制造的东西,最终会落到 Azure 的数据中心。它们会组合到一起。

Clark Tang:有人只需要调用 OpenAI API,它就能正常工作。

黄仁勋:没错,完全是那种疯狂的感觉。这就是我们发明的东西,我们发明了这个庞大的计算基础设施,整个世界都在和我们一起构建它。

它被整合到了各个领域,你可以通过戴尔销售它,可以通过惠普(HPE)销售它,它托管在云端,也延伸到了边缘设备。人们现在在机器人系统中使用它,在人形机器人中使用它,它们在自动驾驶汽车中使用,它们都在架构上兼容,这真的非常疯狂。

Clark,我不希望你误以为我没有回答你的问题,事实上,我已经回答了。我所指的与你的 ASIC 相关的问题是这样的。

我们作为公司,只是在做不同的事情。作为一家公司,我们希望能够对环境有清晰的认知。我对我们公司及其生态系统周围的一切都非常清楚,对吧?

我知道所有在做不同事情的人以及他们在做什么。有时候,这对我们来说是对抗性的,有时候不是。我对此非常清楚。但这并不会改变我们公司的目标。公司唯一的目标就是构建一个可以无处不在的架构平台,这就是我们的目标。

我们并不想从任何人那里抢占市场份额。英伟达是市场的开拓者,而不是份额的争夺者。如果你看我们的公司报告,你会发现我们从来不谈市场份额,从来没有一天我们会在公司内部谈论市场份额。

我们所有的讨论都是关于如何创造下一个东西?我们如何解决飞轮中的下一个问题?我们如何为人们做得更好?我们如何将过去需要一年的飞轮周期缩短到一个月?你知道,这相当于飞轮的光速,不是吗?我们在思考所有这些不同的问题,但有一件事是确定的,我们对周围的一切都有清醒的认识,但我们对自己的使命非常明确。

唯一的问题是,这个使命是否必要,是否有意义。所有伟大的公司都应该有这样的使命。

从根本上讲,问题是你在做什么?唯一的问题是,它是否必要,是否有价值,是否有影响力,是否能帮助到别人?我非常确定,如果你是一名开发者,一家生成式 AI 初创公司,正在决定如何成为一家公司,你唯一不需要考虑的选择就是支持哪个 ASIC。

如果你只支持 CUDA,那么你可以在任何地方使用它,你以后随时可以改变主意,但我们是进入 AI 世界的入口,不是吗?一旦你决定进入我们的平台,其他决策都可以延后,你以后随时可以开发自己的 ASIC,我们对此毫不介意。

当我与 GCP 合作时,GCP、Azure 等公司,我们会提前几年向他们展示我们的路线图。他们不会向我们展示他们的 ASIC 路线图,这也不会冒犯我们,明白吗?如果你的目标明确且有意义,并且你的使命对你自己和他人都很重要,那么你就可以保持透明。

注意,我的路线图在 GTC 上是公开的,而我的路线图在 Azure、AWS 等合作伙伴那里会更深入。我们在这些方面没有任何困难,即使他们正在开发自己的 ASIC。

▲NVIDIA 的使命是构建完整兼容的 AI 基础设施(图源:The Brand Hopper)

AI 正在改变行业未来

Brad Gerstner:我觉得,当人们观察这个行业时,你最近说过,对 Blackwell 的需求是「疯狂的」。你还说,工作中最难的一部分就是在这个计算资源短缺的世界里,忍受对别人说「不」所带来的情感负担。

但批评者说,这只是一个时间节点,他们认为这就像 2000 年思科过度建设光纤一样,将会经历繁荣与萧条。你知道,我想到 2023 年年初我们一起吃饭的时候,当时的预测是英伟达 2023 年的营收会达到 260 亿美元,但你们实际做到了 600 亿,对吗?

黄仁勋:承认吧,这是世界上有史以来最大的预测失败。

Brad Gerstner:那时候我们在 2022 年 11 月特别激动,因为像来自 Inflection 的 Mustafa 和来自 Character 的 Noam 等人来到我们办公室讨论投资他们的公司。他们说,如果你们不能直接投资我们的公司,那就买英伟达吧,因为全世界都在争相获得英伟达的芯片,用来构建那些将要改变世界的应用。

当然,随着 ChatGPT 的出现,这一「寒武纪时刻」到来了。然而,即便如此,这 25 位分析师仍然沉迷于「加密寒冬」,无法想象世界上正在发生的事情,对吧?所以最终结果远超预期。

你明确表示,对 Blackwell 的需求非常疯狂,并且未来会一直如此。当然,未来是未知且不可知的,但为什么批评者的看法错得如此离谱?这不会像 2000 年思科那样成为过度建设的局面。

黄仁勋:思考未来的最佳方式是从基本原理推理出来,对吧?所以问题是,我们现在在做的事情的基本原理是什么?第一,我们在做什么?我们在做什么?我们正在重新发明计算,不是吗?

我们刚刚说过,未来的计算将高度依赖机器学习,对吗?我们几乎所有的应用程序,无论是 Word、Excel、PowerPoint、Photoshop、Premiere、AutoCAD,无论你给我举什么例子,所有这些都是手工设计的。我向你保证,未来这些都会高度依赖机器学习,不是吗?

并且,在这些工具之上,你还会有智能体来帮助你使用它们。

所以,到现在为止,这已经是个事实了,对吧?我们重新发明了计算,我们不会回头。整个计算技术栈正在被重新定义。

好了,现在我们已经做到了这一点,我们说软件将会不同,软件的编写方式将会不同,使用软件的方式也会不同。所以,让我们承认这些是我的基本事实。是的,那么问题来了,接下来会发生什么?

那么让我们回顾一下,过去的计算是怎么做的。我们有一万亿美元的计算机设备。看看过去的数据中心,打开门看看,你会说那些是你想要用来面对未来的计算机吗?答案是否定的。

你看到那些 CPU,我们知道它能做什么,不能做什么。我们也知道现在有价值一万亿美元的数据中心需要现代化。因此,眼下,如果我们要在未来四五年内进行现代化改造,那是完全合理的,也是明智的。

Brad Gerstner:所以我们已经在和那些需要进行现代化改造的人沟通,他们正在使用 GPU 进行现代化改造,没错。

黄仁勋:我的意思是,让我们做个假设。你有 500 亿美元的资本支出,你会选择 A 选项:为未来建设资本支出,还是 B 选项:按照过去的模式建设资本支出?你已经有了过去的资本支出,就在那里放着,反正它不会变得更好。

摩尔定律基本上已经结束了,所以为什么要重建呢?我们只需要把这 500 亿美元投入到生成式 AI 中,不是吗?这样你的公司就会变得更好。那么你会把这 500 亿中的多少投入进去?我会把 100% 的 500 亿都投入进去,因为我已经有了四年的旧基础设施。

所以现在,从基本原理出发,你只是从这个角度来推理,而这正是他们正在做的事情。聪明的人在做聪明的事情。

现在第二个部分是这样的:我们有一万亿美元的容量要去建设,对吧?一万亿美元的基础设施,可能投入了 1500 亿美元,对吧?所以我们在未来 4 到 5 年内要建设一万亿美元的基础设施。

我们观察到的第二点是,软件的编写方式不同了,而未来软件的使用方式也会不同。我们将会有智能体,不是吗?

我们公司将会有数字员工,他们会在你的收件箱里,在未来,这些小点点、小头像会变成 AI 的图标,不是吗?我会向他们发送任务。我不再用 C++ 编程了,我会用提示词来「编程」AI,不是吗?这和我今天早上写了一堆邮件没有什么不同。

我给我的团队下达了指示,对吧?我描述了背景,说明了我知道的基本限制,并描述了他们的任务。我会给他们足够的方向感,让他们明白我需要什么,我希望对预期结果尽可能明确。但我也会留出足够的创造空间,让他们可以给我带来惊喜,不是吗?

这和我今天如何提示 AI 没有什么不同,这正是我提示 AI 的方式。所以在我们现代化改造的基础设施之上,将会有一个全新的基础设施。这套新基础设施就是将操作这些数字人的 AI 工厂,它们会全天候地运行。

我们将在全球所有的公司中拥有它们,在工厂中拥有它们,在自动化系统中拥有它们,对吗?所以这个世界需要建立一整层计算结构,我称之为 AI 工厂的基础设施,这些现在还不存在。

所以问题是,这个规模有多大?目前我们还无法知道,可能是几万亿美元的规模,但美妙的是,现代化改造的数据中心架构与 AI 工厂的架构是相同的。

Brad Gerstner:这就是美妙之处。你已经说得很清楚了,你有一万亿美元的旧基础设施需要现代化改造,同时至少还有一万亿美元的新 AI 工作负载正在到来,今年大约会有 1250 亿美元的收入。

你知道,曾经有人告诉你们这家公司永远不会超过 10 亿美元的市值。而如今你坐在这里,如果你只占到了几万亿总市场(TAM)的 1250 亿收入,有什么理由让你认为你们未来的收入不会是现在的 2 倍、3 倍?有什么理由让你们的收入不会继续增长?

黄仁勋:没有,没错。你知道,这并不是关于现在的事情。公司只会受到「池塘」大小的限制,你知道,金鱼只能长到与池塘相匹配的大小。

所以问题是,我们的池塘有多大?这需要很多想象力,这也是为什么市场开拓者会思考未来,而不是只在现有的池塘里竞争。

如果你只是回顾过去、试图抢占市场份额,这很难看清未来。市场份额的争夺者只能做到这么大,而市场的开拓者可以变得非常大。所以,我认为我们公司的幸运之处在于,从公司成立的第一天起,我们就必须为自己创造市场空间。

人们当时没有意识到这一点,但我们几乎从零开始创造了 3D 游戏 PC 市场。我们基本上发明了这个市场以及所有相关的生态系统,包括显卡的生态系统。我们发明了这一切。所以,创造一个全新的市场来服务它,对我们来说是一件非常熟悉的事情。

▲Brad Gerstner(左)和 Clark Tang(右)在访谈中

不可思议的 OpenAI 和 X.AI

Brad Gerstner:没错,作为一个发明了新市场的人来说,这确实如此。让我们稍微转移话题,谈谈模型和 OpenAI。你知道,OpenAI 这周筹集了 65 亿美元,估值达到约 1500 亿美元。我们都参与了这次融资。

黄仁勋:真的为他们感到高兴,真的很高兴这一切顺利达成。是的,他们做得很棒,团队也表现得非常出色。

Brad Gerstner:有报告称他们今年的收入或收入运行率大约是 50 亿美元,明年可能达到 100 亿美元。如果你看今天的业务规模,它的收入大约是谷歌在 IPO 时的两倍。

他们有 2.5 亿的每周活跃用户,我们估计这是谷歌 IPO 时用户量的两倍。而如果你看它的业务倍数,如果你相信他们明年能达到 100 亿美元收入,那么他们的市值大约是明年收入的 15 倍,这和谷歌和 Meta 在 IPO 时的倍数差不多,对吧?当你想到这家公司 22 个月前还没有任何收入和每周活跃用户时,这非常惊人。

黄仁勋:Brad 对历史有着不可思议的掌握。

Brad Gerstner:当你想到这一点时,和我们谈谈 OpenAI 作为你们的合作伙伴,以及它在推动公众对 AI 的认知和使用方面的重要性。

黄仁勋:嗯,这是我们时代最具影响力的公司之一。这是一家纯粹的 AI 公司,追求通用人工智能(AGI)的愿景。

无论 AGI 的定义是什么,我几乎不认为它的定义完全重要,也不相信时间节点的重要性。我所知道的一件事是,AI 将在未来的时间里不断展现出一系列能力。这些能力的发展路线图将会非常惊人。在到达任何人所定义的 AGI 之前,我们就会将其广泛应用。

你现在要做的就是去和数字生物学家、气候科技研究人员、材料研究人员、物理科学家、天体物理学家、量子化学家对话。你可以去找视频游戏设计师、制造工程师、机器人专家,选择你喜欢的行业,深入其中,和那些重要的人对话,问他们,AI 是否彻底改变了他们的工作方式?然后你把这些数据点带回来,再问问自己,你到底有多怀疑?

因为他们不是在谈论 AI 未来某天的概念性好处,他们正在谈论现在就使用 AI。无论是农业科技、材料科技、气候科技,选择你想要的科技领域或科学领域,它们正在进步,AI 正在帮助他们推进他们的工作。

就在我们说话的这一刻,每个行业、每家公司、每所大学都在使用 AI,难以置信,不是吗?它绝对会在某种程度上改变商业,我们知道这一点,对吧?我的意思是,这种变化是如此真实,正在发生。所以我认为 ChatGPT 所引发的 AI 觉醒完全是不可思议的。我喜欢他们的速度和他们推动这一领域的单一目标,所以它真的非常具有影响力。

Brad Gerstner:他们构建了一个可以为下一代模型融资的引擎。我认为硅谷的共识正在增加,即整个模型层正在逐渐商品化,Llama 让很多人可以以非常低的成本构建模型。

所以一开始,我们有很多模型公司,比如 Character、Inflection、Cohere、Mistral 等等。很多人质疑这些公司是否能够达到经济引擎的「逃逸速度」,继续为下一代模型提供资金。我的感觉是,这也是为什么我们看到市场的整合,对吧?

显然,OpenAI 已经达到了那个「逃逸速度」,他们可以为自己的未来融资。但对我来说,不清楚的是,很多其他公司能否做到这一点。这是否是对模型层现状的一个公平概述?就像我们在其他许多市场中看到的一样,市场领导者会有一个经济引擎和应用来让他们继续投资。

黄仁勋:首先,模型和人工智能之间有一个根本区别,对吧?模型是人工智能的一个必要但不足的组成部分,对吧?人工智能是一种能力,但为了什么?应用是什么?

自动驾驶汽车的人工智能与人形机器人的人工智能有关,但它们并不相同。它们与聊天机器人的人工智能有关,但也不相同,对吧?所以你需要理解这个栈的分类。在栈的每一层都会有机会,但并不是每一层都有无限的机会。

我刚刚说了一些话,你所需要做的就是把「模型」一词替换为「GPU」。事实上,这是我们公司 32 年前的重大发现——GPU 图形芯片与加速计算之间有一个根本区别。加速计算与我们在 AI 基础设施中所做的工作不同,虽然相关,但并不完全相同。它们是建立在彼此之上的,但并不完全相同。每一层抽象都需要完全不同的技能。

一个非常擅长构建 GPU 的人,可能完全不知道如何成为一家加速计算公司。有很多人在构建 GPU,而我们发明了 GPU,但今天并不是只有我们一家在制造 GPU,对吧?世界上有很多 GPU,但并不是所有的公司都是加速计算公司。而且有很多加速器应用程序,但这与加速计算公司不同。例如,一个非常专门的 AI 应用程序可能会非常成功。

Brad Gerstner:这就是 MTIA。

黄仁勋:没错,但它可能不会成为一个具有广泛影响力和能力的公司。所以你必须决定你想处于哪个位置。在这些不同的领域可能都有机会,但就像建立公司一样,你必须注意生态系统的变化,以及哪些东西随着时间推移被商品化,分清楚什么是功能、什么是产品、什么是公司,这是一定的。好吧,我刚刚谈到了很多不同的思路。

Brad Gerstner:当然,还有一个新加入者拥有资金、聪明才智和雄心,那就是 X.AI,对吧?外界有报道称,你和 Larry 以及 Elon 共进了晚餐。他们说服你放弃了 10 万个 H100s,他们去了孟菲斯,在几个月内建立了一个大型的超级计算集群。

黄仁勋:首先三个点不在一条线上,我和他们共进了晚餐,因果关系仅仅就是这样。

Brad Gerstner:你怎么看他们构建超级计算集群的能力?外界还在讨论他们想要再增加 10 万个 H200s 来扩展这个超级集群的规模。

首先,和我们谈谈 X 公司的雄心壮志以及他们已经取得的成就。同时,我们是否已经进入了 20 万或 30 万个 GPU 集群的时代?

黄仁勋:答案是肯定的。首先要承认他们的成就是应得的。从概念阶段到数据中心的建成,并准备好让英伟达的设备进驻,到我们供电、连接设备并进行首次训练,这一过程。

首先,建造这样一个庞大的工厂,采用液冷技术、完成能源供应、获得许可,并在这么短的时间内完成。我是说,这简直是超人的成就。就我所知,全世界只有一个人能做到这一点,埃隆·马斯克在工程、建筑、大型系统和资源调配方面的理解是独一无二的,简直难以置信。

当然,他的工程团队也非常出色,软件团队、网络团队、基础设施团队都很棒。埃隆对此有着深入的理解。从我们决定启动项目的那一刻起,我们的工程团队、网络团队、基础设施计算团队、软件团队都进行了充分的准备。

然后,所有的基础设施、物流以及当天进入的数据量和设备量,还有英伟达的基础设施和计算技术,一切都在 19 天内完成了训练。

你知道这意味着什么吗?有谁睡觉了吗?24 小时不停地工作,毫无疑问,没有人睡觉。首先,19 天的时间真是不可思议,但如果退一步思考,这只是短短几周。你能看到的技术设备数量简直令人难以置信。

所有的布线和网络连接,与英伟达设备的网络连接与超大规模数据中心的网络连接完全不同。一个节点上的电线数量,计算机背部全都是电线。仅仅是把这座技术高峰整合起来,再加上所有的软件,简直难以置信。

所以我认为埃隆和他的团队所做的事情非常了不起,我也很感激他认可我们在工程和规划方面与他们的合作。但他们所取得的成就是独一无二的,前所未有。

为了让你更好地理解,10 万个 GPU,毫无疑问,这是地球上速度最快的超级计算机。这只是一个集群。通常你建造一台超级计算机需要三年时间来规划,对吧?然后交付设备并花一年时间让它全部运行起来。而我们在谈论的是 19 天。

▲ChatGPT 所引发的 AI 觉醒是不可思议的(图源:artnet)

推理将迎来爆炸式增长

Clark Tang:英伟达平台的优势是什么呢?它的整个流程都已经经过强化,对吧?

黄仁勋:是的,一切都已经在运行。当然,还有一大堆 X 算法、X 框架和 X 堆栈,我们还需要进行大量的集成。但它的前期规划非常出色,仅仅是预规划就已经令人印象深刻了。

Brad Gerstner:Elon 是独一无二的存在,但你刚刚回答时提到,20 万到 30 万个 GPU 集群已经存在了,对吧?它能扩展到 50 万个吗?它能扩展到 100 万个吗?你们产品的需求是否取决于这些集群能否扩展到百万级?

黄仁勋:最后一个问题的答案是否定的。我的看法是,分布式训练必须起作用,我认为分布式计算将会被发明出来,某种形式的联邦学习和分布式、异步计算将会被发现。我对此非常有信心,也非常乐观。

当然,需要意识到的是,过去的扩展法则主要是关于预训练。现在我们已经进入了多模态,我们开始了合成数据生成。后训练阶段的扩展变得非常快,合成数据生成、奖励系统、基于强化学习的训练都发展迅速。现在推理阶段的扩展也达到了极限。

这个想法是,在模型回答问题之前,它已经进行了 10000 次内部推理,这可能并不夸张。它可能已经进行了树搜索,可能已经基于这个问题进行了强化学习,可能进行了某种模拟,肯定进行了大量反思,可能查阅了一些数据和信息,对吧?所以它的上下文可能相当庞大。

我想,这种智能就是我们正在做的,不是吗?这就是我们正在做的。所以,如果你对这种扩展进行计算,将模型规模和计算规模每年扩展 4 倍,再加上使用需求不断增长……

我们是否认为我们需要数百万个 GPU?毫无疑问,是的。这是目前的一个确定性问题。那么问题是,我们如何从数据中心的角度来架构它?这在很大程度上取决于数据中心是一次性达到千兆瓦级,还是每次 250 兆瓦?我的看法是,这两种情况都会出现。

Clark Tang:我觉得分析师总是关注当前的架构选择,但我认为从这次对话中最大的收获之一就是,你们是在思考整个生态系统,以及未来多年的发展。

因此,英伟达扩展规模,不论是纵向还是横向扩展,都是为了应对未来,而不是仅仅依赖一个有 50 万或 100 万个 GPU 集群的世界。到分布式训练真正到来时,你们已经编写了支持它的软件。

黄仁勋:没错,记住我们和合作伙伴在大约七年前开发的 Megatron。如果没有它,这些大规模训练任务的扩展是不可能的。我们发明了 Megatron,我们发明了 Nickel、GPU Direct,还有我们通过 RDMA 所做的所有工作,这使得流水线并行处理变得更加容易。

所有的模型并行处理,所有分布式训练的分解、批处理等所有这些技术,都是因为我们做了早期的工作,现在我们也在为未来的下一代技术做准备。

Brad Gerstner:那么我们来谈谈 Strawberry 和 o1 吧。

首先,我觉得他们把 o1 命名为 o1 签证是很酷的,对吧?o1 签证是为了吸引全球最优秀、最聪明的人才来到美国,我知道我们都对此深有热情。

我非常喜欢这个想法,建造一个能思考、推动我们走向智能扩展新高度的模型,向那些通过移民来到美国的天才致敬,正是他们成就了今天的我们。

黄仁勋:肯定是一种外星智能。

Brad Gerstner:当然,这个项目是由我们的朋友 Noah Brown 领导的,他曾参与 Pluribus 和 Cicero 的工作,都是 Meta 的项目。推理时间推理作为一个完全新的智能扩展维度,与仅仅构建更大模型的方式截然不同,这有多重要?

黄仁勋:这非常重要,极其重要。很多智能无法预先完成,你知道吗?甚至很多计算都不能预先重新排序。乱序执行可以提前完成,但很多事情只能在运行时完成。

所以无论是从计算机科学的角度来看,还是从智能的角度来看,很多东西都需要上下文和情境,你所寻找的答案类型有时简单的快速答案已经足够了,而答案的后果取决于你使用这个答案的性质。

所以有些答案可以花一个晚上思考,有些答案可能需要一周的时间,对吧?我完全可以想象,我给我的 AI 发送一个提示词,告诉它,想一晚上,不要立刻告诉我,对吧?我想让你整晚思考,然后明天早上告诉我你最好的答案,并为我推理分析。

因此,我认为智能的分层,从产品角度来看,会有一次性的版本,也会有一些需要五分钟来完成的。

Brad Gerstner:这个智能层能够将这些问题与合适的模型和使用场景相匹配。昨晚我们在使用先进的语音模式和 o1 预览版,我正在辅导我儿子的 AP 历史考试,感觉就像世界上最好的 AP 历史老师坐在你旁边一起思考这些问题,真是非凡的体验。

黄仁勋:我的导师现在是 AI。

Brad Gerstner:当然,他们今天已经存在了。这也回到了这个话题,你知道,你们今天有超过 40% 的收入来自推理。但推理将因为「推理链」而迎来爆炸式增长,对吧?

黄仁勋:推理的增长将会是十亿倍的。

Brad Gerstner:翻倍,再翻十亿倍。

黄仁勋:对。这是大多数人还没有完全理解的部分。这正是我们之前谈论的行业变革,这是工业革命。

Brad Gerstner:这是智能的生产,对吧?

黄仁勋:它将增长十亿倍。

Brad Gerstner:大家都高度关注英伟达,认为它主要是用于更大模型的训练。是不是这样,如果你们今天的收入有 50% 来自训练,那么未来推理的规模将远远超过训练。训练固然重要,但推理的增长将会远超训练的增长,我们希望如此,几乎不可能有其他情况。

黄仁勋:我们希望如此,是的,上学是好事,但最终目标是你能在社会中有所贡献。所以训练这些模型是好的,但最终目标是要让它们产生影响。

Brad Gerstner:你们是否已经在使用「推理链」和类似 o1 的工具来改进你们自己的业务?

黄仁勋:我们今天的网络安全系统离不开我们自己的智能体。我们有智能体帮助设计芯片,如果没有这些智能体,Hopper 芯片就不可能实现,Blackwell 也不可能实现,Rubin 就更不用说了。

我们有 AI 芯片设计师、AI 软件工程师、AI 验证工程师,而且我们都是在公司内部开发的,因为我们有这个能力,我们更愿意利用这个机会自己探索这项技术。

▲推理的增长将会是十亿倍的(图源:NVIDIA)

我们需要更高效,更安全的 AI

Brad Gerstner:你知道,今天我走进这栋楼时,有人走过来对我说,你知道,问问 Jensen 关于文化的事情,一切都与文化有关。我看着你们的业务,我们谈了很多关于适应性和效率的事情,扁平化的组织结构可以快速执行,小团队运作。

你知道,英伟达在这个领域独树一帜,每位员工平均创造了大约 400 万美元的收入,每位员工大约创造了 200 万美元的利润或自由现金流。你们建立了一种效率文化,真正释放了创造力、创新力、责任感和主人翁意识,你打破了传统的职能管理模式。大家都喜欢谈论你有多少直接汇报的员工。

AI 的利用是否是让你们在保持高度创造力的同时保持高效的关键?

黄仁勋:毫无疑问。我希望有一天,英伟达今天有 32000 名员工,我们在以色列有 4000 个家庭,我希望他们一切安好。我希望有一天英伟达会成为一个拥有 50000 名员工和 1 亿个 AI 助手的公司。

在每个团队中,我们都会有一个 AI 目录,里面有一批擅长做各种事情的 AI。我们还会有一个收件箱,里面充满了我们合作过并且知道很擅长我们技能领域的 AI 目录。因此,AI 会招募其他 AI 来解决问题。AI 也会在 Slack 频道中互相交流。

Brad Gerstner:并且与人类一起合作。

黄仁勋:和人类一起合作。所以我们将会是一个庞大的员工群体,一部分是数字化和 AI,一部分是生物学上的人类员工,我希望未来还有一些是机电一体化的员工。

Brad Gerstner:从商业角度来看,我认为这常常被误解。你刚刚描述了一家公司,它的产出相当于拥有 15 万员工的公司,但实际上你只用了 5 万员工。你并没有说你要裁掉所有员工,你仍在增加员工数量,但这家公司的产出将会显著增加,对吧?

黄仁勋:这是经常被误解的地方。AI 不会取代工作,它将改变每一个工作。AI 将对人们如何看待工作产生深远影响,这一点我们必须承认,对吧?

AI 有可能带来巨大的好处,也有可能造成伤害,我们必须构建安全的 AI,没错,这一点必须作为基础。但是被忽视的部分是,当公司利用人工智能提高生产力时,它很可能会带来更好的收益或更好的增长,或者两者兼而有之。而当这发生时,CEO 的下一封邮件不太可能是裁员通知。

Brad Gerstner:当然,因为公司在增长。

黄仁勋:是的,原因是我们有比我们能够探索的更多的想法,我们需要人们来帮助我们思考,然后再去自动化这些想法。而自动化的部分,AI 可以帮助我们实现。

显然,它也会帮助我们进行思考,但我们仍然需要去弄清楚我们想要解决什么问题。我们可以解决无数的问题,但公司必须选择那些最需要解决的问题,然后找到一种方式来实现自动化并扩大规模。

因此,随着我们变得更高效,我们将会雇佣更多的人。人们常常忘记这一点。如果回顾历史,显然我们今天有比 200 年前更多的想法。这也是 GDP 和就业增长的原因,尽管我们一直在疯狂地进行自动化。

Brad Gerstner:这正是我们进入这一时期的重要点,几乎所有的人类生产力和繁荣都是过去 200 年技术和自动化的副产品。你可以回顾一下,从亚当·斯密到熊彼特的创造性破坏,过去 200 年人均 GDP 的增长图表,它不断加速发展。这让我想到一个问题。

如果你看 90 年代,美国的生产力增长率大约是每年 2.5% 到 3%。然后到了 2000 年代,它放缓到大约 1.8%。而过去十年,是记录上生产力增长最慢的时期。这指的是我们在固定的劳动力和资本投入下的产出增长,是我们有记录以来最慢的。

许多人对此进行了讨论。但如果世界如你所描述的那样,并且我们将利用和制造智能,那么我们是否正处于人类生产力即将出现巨大扩展的边缘?

黄仁勋:这是我们的希望。这是我们的希望,当然,你知道,我们生活在这个世界中,因此我们有直接的证据,对吧?我们有直接的证据,比如个别研究人员利用 AI,现在可以在前所未有的规模上探索科学,这就是生产力的体现。

或者我们设计出如此复杂的芯片,并以如此快的速度完成设计,而公司的员工规模并没有以相同速度增长,这也是生产力的体现,对吧?我们开发的软件也越来越好,因为我们在利用 AI 和超级计算机帮助我们,而员工数量几乎是线性增长的。

这又是一个生产力的证明。所以无论我深入到哪个行业,我都可以自我检查,我可以亲自验证这些表现是否普遍存在。毫无疑问,智能是世界上最有价值的资源,而现在我们将大规模生产它。

我们都必须学会如何在周围都是 AI 的环境中生活,这些 AI 能够非常出色地完成任务,甚至比我们更好。当我反思这一点时,我发现这就是我的生活。

我有 60 个直接汇报的下属,对吧?他们都是各自领域的世界级人才,做得比我好得多。我和他们合作没有任何问题,我也没有问题去指导他们、与他们沟通。因此,我认为人们将要学到的是,他们都将成为 AI 智能体的 CEO。

他们需要拥有创造力、决心,以及一些知识,知道如何分解问题,从而能够编程这些 AI 来帮助他们达成目标,就像我管理公司一样。

Brad Gerstner:你提到了一个问题,就是关于对齐、安全 AI 的讨论。你也提到了中东正在发生的悲剧。你知道,现在世界的不同地方都有很多自主性和 AI 的应用。

所以我们来谈谈不良行为者、安全 AI,以及与华盛顿的协调问题。你现在的感受如何?我们是否走在正确的道路上?我们的协调是否足够?我记得马克·扎克伯格曾说,战胜坏 AI 的方式是让好 AI 变得更好。你会如何描述我们如何确保 AI 对人类有积极净效益,而不是让我们陷入一个无目的的反乌托邦世界?

黄仁勋:关于安全的讨论非常重要,也很有意义。抽象的观点,即将 AI 视为一个大型的神经网络,这种看法就不太好。而原因是,我们知道,人工智能和大语言模型虽然相关,但并不相同。

现在有很多正在进行的工作,我认为非常出色。第一,开放源代码模型,使得每个行业、每家公司和整个研究界都能接触到 AI,并学习如何利用这种能力来应用于他们的领域。非常好。

第二,AI 的发展技术力量正在专注于发明如何使 AI 更加安全。AI 被用来筛选数据、筛选信息、训练其他 AI,创造出对齐的 AI,生成合成数据的 AI,扩展 AI 的知识,减少幻觉的 AI,以及所有被创造出来的用于矢量图像、图形等 AI,来告知和监控其他 AI 的系统,这些用于创建安全 AI 的 AI 系统还没有得到足够的认可。

Brad Gerstner:这些系统已经被构建出来了。

黄仁勋:对,我们正在建造这些系统,整个行业的所有人都在这样做。包括红队测试、流程控制、模型卡、评估系统、基准系统等等,所有这些安全机制正在以惊人的速度被构建出来。这些努力还没有得到应有的赞誉,你们懂的。

Brad Gerstner:是的,目前没有任何政府法规要求你们这样做。这是当前行业中的参与者们正在严肃对待这些关键问题,并围绕最佳实践进行协调。

黄仁勋:完全正确,这些努力没有得到足够的认可,也没有被充分理解。人们需要开始讨论 AI 作为一个由多种 AI 组成的系统,以及它作为一个经过良好工程设计的系统的本质。

关于监管,我们要记住,AI 是一种能力,它可以应用于很多领域。不一定需要为每一项重要技术单独立法,但是也不能让监管过度扩展到不必要的领域。

大部分的监管应该针对具体的应用来进行,例如 FAA(联邦航空管理局)、NIH(美国国立卫生研究院)、FDA(美国食品药品监督管理局)等机构已经在管理技术应用了,现在他们需要开始管理包含 AI 的技术应用。

因此,不要误解这一点,不要忽视我们将需要激活的现有大量监管体系。不要仅依赖一个全球 AI 委员会,因为每个监管机构的设立都是有原因的。这些不同的监管机构存在的原因,就是为了应对不同的挑战。让我们再次回到基本原则。

▲Clark Tang 在访谈中

AI 开源推动行业激活

Brad Gerstner:如果我不回到开放源代码这个问题上,我的伙伴 Bill Gurley(编者注:本场访谈 Bill 缺席)可能会责怪我。你们最近发布了一个非常重要、非常强大的开源模型。显然,Meta 也在为开源做出重大贡献。

我在读 Twitter 时发现,关于开放与封闭的讨论非常热烈。你怎么看待开源,尤其是你们自己的开源模型与前沿技术保持同步的能力?这是第一个问题。

第二个问题是,拥有开源模型以及为商业运营提供动力的封闭模型,这是否是你们未来的愿景?这两者是否能为 AI 安全创造一种健康的张力?

黄仁勋:开源与闭源的讨论与安全性有关,但不仅仅是关于安全性。例如,拥有闭源模型作为经济模型的引擎来维持创新,这是完全没有问题的,我对此全心全意支持。

我认为,将问题单纯地定义为闭源对抗开源是一种错误的思维方式。应该是闭源和开源,对吧?因为开源对许多行业的激活是必要的。

如果现在没有开源,所有这些不同的科学领域如何能够在 AI 上激活?因为他们必须开发自己的领域专属 AI,并且他们需要利用开源模型来创建领域专属 AI。这两者是相关的,但并不相同。

仅仅因为你有一个开源模型,并不意味着你就拥有了 AI。因此,你必须有开源模型来推动 AI 的创建。所以,金融服务、医疗保健、交通运输,以及许多其他领域的科学和行业,都是因为开源的推动而得以激活的。

Brad Gerstner:难以置信,你们的开源模型需求量很大吧?

黄仁勋:我们的开源模型?当然,Llama 的下载量,对吧?显然,Mark(扎克伯格)和他的团队所做的工作,令人难以置信,需求量爆棚,彻底激活了每个行业和每个科学领域。

我们创建 Nemotron 的原因是为了合成数据生成。直觉上,认为某个 AI 会一直循环生成数据来学习自己,听起来似乎不太可靠。你能在那个无限循环里转多少圈,这值得怀疑。不过,我的心中有一个形象,就像把一个超级聪明的人关在一个软包房里,一个月后再出来,可能并不会变得更聪明。

但是,如果有两三个人在一起讨论,我们有不同的 AI 模型,拥有不同的知识分布,能够相互问答、来回交流,那么我们三个人都会变得更聪明。所以 AI 模型之间相互交换、互动、来回讨论、辩论,进行强化学习和合成数据生成,这个想法直观上是有意义的。

因此,我们的 Nemotron 350B、340B 是世界上最好的奖励系统模型。它是最好的批评性模型,确实非常出色。所以,这是一个增强所有其他模型的奇妙工具,不论其他模型多么优秀,我都建议使用 Nemotron 340B 来进行增强,让它变得更好。而我们已经看到 Llama 变得更好,所有其他模型也因此受益。

▲Meta 在为开源做出重大贡献(图源:Linkedin)

AI 是一场彻底的革命

Brad Gerstner:作为在 2016 年交付首台 DGX-1 的人,这段旅程真的太不可思议了。你的旅程既不寻常又令人惊叹。你成功度过了最初的艰难时期,这本身就非同寻常。

你在 2016 年交付了第一台 DGX-1,我们在 2022 年迎来了这个「寒武纪时刻」。所以我想问一个我经常被问到的问题,那就是,你觉得你现在的工作状态还能持续多久?

你有 60 个直接汇报的下属,你无处不在,推动着这场革命。你享受这个过程吗?有没有其他你更想做的事情?

黄仁勋:你这是在问过去一个半小时的感受吗?答案是:很棒。我度过了一段非常愉快的时光,完全无法想象还有什么事情比这更值得我去做。

让我想想,我不认为应该让人觉得我们的工作总是充满乐趣。我的工作并非总是有趣的,我也不期望它总是有趣的。工作是否应该总是有趣?我认为重要的是工作总是重要的。我不会太把自己当回事,但我非常认真对待工作。我非常认真地对待我们的责任,认真对待我们对社会的贡献,以及我们所处的时代。

这总是有趣的吗?不,但我是否总是热爱它?是的,就像所有事情一样,无论是家庭、朋友、孩子,是否总是充满乐趣?不,但我们是否总是深深地爱着他们?绝对是。

我能做多久?真正的问题是,我能保持相关性多久?这个问题的答案只有通过另一个问题来回答:我将如何继续学习?今天我更加乐观了,我并不是因为我们今天的讨论而这么说。因为 AI 的出现,我对自己保持相关性和继续学习的能力更加乐观。我每天都在使用它。我不知道你们是否也使用,但我每天都在使用它。

没有一项研究不涉及 AI,即使我知道答案,我也会用 AI 来核对。令人惊讶的是,接下来我问的两三个问题,往往能揭示一些我不知道的事情。

你可以选择你感兴趣的主题,我认为 AI 作为导师、AI 作为助手,AI 作为一个可以一起头脑风暴的伙伴,来检查我的工作。伙计们,这真的是一场彻底的革命。而我是一名信息工作者,我的输出是信息。

所以我认为 AI 对社会的贡献是非凡的。如果我能像这样保持相关性,并继续做出贡献,我知道这份工作足够重要,值得我继续追求。而我的生活质量也是不可思议的。

Brad Gerstner:我无法想象,如果错过这个时刻会怎样。你我已经在这个行业工作了几十年,而这是我们三十年来最重要的时刻。我们对这段合作深表感谢。

黄仁勋:不要错过接下来的十年。

Brad Gerstner:非常感谢你们的思想交流,你让我们变得更明智。谢谢你,我认为你作为领导者,在乐观且安全地引领未来方面发挥了非常重要的作用。

黄仁勋:感谢你和我们在一起。我真的很享受,真的很感谢,感谢 Brad,感谢 Clark。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


字节最新技术一键「迁移」表情神态,人人都是演技派

近日,字节跳动和清华大学在 GitHub 上联合推出了一款最新的人像动画技术「X-Portrait 2」。

具体来讲,X-Portrait 2 是一款「生成式人像转移模型」,其使用方法非常直观和简单:用户只需要提供一张静态肖像图和一段含有表情变化的「表演」视频,这个技术就能一键将表情「迁移」至肖像上面,从而使前者也「动起来」。

就像下面这样:

可以看到,左下角是「静态肖像」,右下角则是「表演视频」,而 X-Portrait 2 的功能就是让左边的角色做出同右边人物几乎一模一样的表情

除了「表情」以外,就连「神态」也几乎是像素级复刻:

眉眼和笑容之中所包含的「狡黠」和「顽皮」,全部都精准地呈现出来了。

头部扭动幅度较大的情况下,X-Portrait 2 也完全可以胜任,表情也并未失真:

一个比较「务实」的使用场景,是它可以用来「对口型」,有时可以配合后期修改台词的需要:

不仅复刻精准,并且也足够流畅自然。发布者也因此将其称为「极具表现力的肖像动画」。

显然,这个模型能够实现跨风格和跨领域的表情转移,覆盖写实肖像和卡通图像;并且适应性较强,能够用于包括现实世界的故事讲述、动画角色的呈现、虚拟代理以及其他视觉效果。

在电影或者动画的后期特效制作方面,X-Portrait 2 无疑大大简化了现有的动作捕捉、角色动画和内容创作流程。

相较于其原型 X-Portrait,X-Portrait 2 的升级和创新谓之「进化」都不为过。

X-Portrait 2 采用了一个更先进的表情编码器,这个编码器在大规模数据集上进行训练,其能够更精确地捕捉和再现人物的微妙表情,包括嘟嘴、鼓腮和皱眉等细节,还原了表情的复杂性,并提升了其真实感。

同时,X-Portrait 2 实现了外观和动作的有效分离,这意味着在迁移表情时,原始图像的外观特征得以保留,表情变化不会影响人物的基本面貌,提高了动画的自然程度和一致性。

值得一提的是,X-Portrait 2 还创新地引入了生成式扩散模型,这种模型能够处理不同视角下的表情变化,生成更加流畅和真实的动画效果,解决了传统方法在视角变化时可能出现的表情不协调问题。

此外,X-Portrait 2 还增强了跨领域的表情迁移能力以及动画的真实感和动态表现力。

和早先发布的同类竞品——Runway 的 Act-One 相比,X-Portrait 2 也毫不逊色。同样是「Nice 老爷爷」的喜感表情,Act-One 的生成效果是这样的:

▲图源:虎嗅

似乎只做到了「迁移」,并且表情的夸张程度衰减明显,还略微有点僵硬。如果遮住原视频,可能根本看不出来这是在模仿谁。

同一个表情,以下是 X-Portrait 2 的生成效果:

除了表情的复刻更加精准细腻以外,我们似乎还能感受到那种自然流露的「喜感」。这才是 X-Portrait 2 的厉害之处。

对于 X-Portrait 2 的优势,开发者是这样说的:

与 X-Portrait 和最近发布的 Runway Act-One 等最先进的方法相比,我们的模型可以忠实地传递快速的头部运动、微小的表情变化和强烈的个人情感。这些方面对于高质量动画内容创作(例如动画和电影制作中的内容)至关重要。

来看一个更加直观的对比:

显而易见,同初代 X-Portrait 相比,X-Portrait 2 的进步在于更加「自然流畅」;而同 Act-One 相比,X-Portrait 2 则更加「精准细腻」。

无论如何,X-Portrait 2 的推出继续发扬了「用生成式 AI 代替动捕」这个可能的概念,并且使它更加成熟,距离落地商用又近了一步。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


新一代赛博仆人!这款机器人要帮你把各种家务活都做了

不知道你是否曾有过这样的想法:当一个「甩手掌柜」,把一切家务都交给家务机器人。说实话,这是在科幻作品中经常能够看到的场景。

毕竟,谁不想拥有一位任劳任怨的「赛博仆人」呢?

来自旧金山的初创公司 Physical Intelligence(物理智能,简称 Pi)正在致力于帮助人们实现这个梦想。这家公司近日展示了一种「接受了前所未有的数据量训练」的人工智能模型,它已经学会了干各种有用的家务活。

Physical Intelligence 发布的视频显示,他们的机器人可以十分灵巧地完成各种家务活,包括但不限于:整理摆满了杯子和盘子的桌面:

把咖啡豆从袋子舀到机器当中:

甚至可以组装纸箱:

最令人深刻的是,它们可以取出烘干机内的衣物并折叠整齐。两只机械臂如同人类的双手一般,配合熟练:


有趣的是,该公司开发的这种算法有时会表现出一些的类似人类的怪癖,例如摇晃 T 恤和短裤,让它们平整地铺开。

Physical Intelligence 的首席执行官豪斯曼(Hausman)指出,折叠衣服对于机器人来说尤其具有挑战性,需要更多关于物理世界的一般智能,因为它涉及处理各种会不可预测地变形和皱折的柔性物品。

他还表示,目前的算法并不很稳定。就像 AI 聊天机器人有时也会「崩溃」一样,这些「家务机器人」有时也会做出一些令人不可思议的举动:比如它会将鸡蛋塞满已经装不下的纸箱,把纸箱强行合上;有一次在装东西时,机器人突然把盒子从桌上扔了下去。

▲Physical Intelligence 的 CEO 豪斯曼. 图片来自:The Information

尽管算法还不完美,但 Physical Intelligence 至少为未来的「通用家务机器人」提供了一种可能性。

然而,豪斯曼的野心远不止于此。「家务」只是其中一种用途,「通用」才是公司的雄心壮志:

我们的目标是通过一个通用模型将人工智能带入物理世界,基本上对于任何应用程序来讲,该模型可以为任何机器人或任何物理设备提供动力。

▲图片来自:maginative

换句话说,Physical Intelligence 的目标是创建一个类似于大型语言模型(LLMs)的物理世界模型,这是一种「通用人工智能模型」。

他们将构建语言模型的技术与控制和指导机器的自有方法相结合,并通过训练大量的机器人数据来实现。豪斯曼表示,他们的方法「非常通用」,可以利用来自不同机器人类型的数据进行训练,类似于人们训练语言模型的方式。

公司在过去八个月中开发了其「基础模型」,名为 π0(pi-zero)。π0 通过使用来自多种机器人执行各种家务的数据进行训练,公司还经常让人类远程操作机器人以提供必要的教学。

Physical Intelligence 的联合创始人之一、加州大学伯克利分校的副教授谢尔盖·莱文(Sergey Levine)表示,他们训练的数据量比以往任何机器人模型都要大得多,并且「幅度非常大」

▲谢尔盖·莱文(Sergey Levine). 图片来自:YouTube

与其他公司譬如 Figure AI 和特斯拉专注于构建仿人机器人,以及像 Covariant 这样的公司开发通用机器人软件不同,Pi 旨在创建可以应用于广泛机器人硬件的软件

对此,知名科技投资者,也是 Pi 的联合创始人之一的拉奇·格鲁姆(Lachy Groom)表示「使人类变得有趣的是我们的大脑,而不是我们的硬件,我们是终极的通用主义者」。

▲特斯拉开发的名为「Optimus」的人形机器人

Physical Intelligence 面临的一个关键挑战是,与大型语言模型训练中可用的文本数据相比,用于训练的机器人数据规模有限

因此,公司必须生成自己的数据,并想出提高从更有限数据集中学习的技巧。

实际上,为了开发 π0,公司结合了所谓的视觉语言模型(在图像和文本上训练)和扩散建模(从 AI 图像生成中借鉴的技术),以实现更通用的学习。

一切的一切,都在为「通用」而努力。

对于 Physical Intelligence 的现状和未来,莱文的观点是:

为了让机器人能够承担人类要求它们做的任何杂务,这种学习需要大幅扩大。尽管还有很长的路要走,但我们有一些你可以认为是基础框架的东西,未来的事情从中可见一斑。

但同时,莱文对 Pi 的发展充满信心。他表示有足够的迹象表明,在现实世界中使用机器人的最大障碍「现在已经可以解决」。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


我们用一台港版 iPhone,体验到了 iOS 18.1 的完全体

昨天晚上,苹果破天荒地在 0 点前发布了新系统和新产品。
iOS 18.1 正式版推出,写作工具、照片搜索、智能邮件…… 这些新功能,国行版的用户一个都用不了。那它们具体怎么用?到底好不好用?和国产手机的 AI 相比有哪些异同点?一起来看看。

iOS 18.1 正式版终于在昨晚推出,像是写作工具、聪明版 Siri、照片搜索、智能邮件这些 AI 功能,咱们国行版的用户一个都用不了。

虽说明年才会支持中文,不过我们还是在,港版 iPhone 16 Pro 上率先用到了 Apple Intelligence。

苹果智能在 iOS 18.1 上大致可以分成「写作-Siri-照片-邮件」四类 AI 功能。

写作工具没有固定的入口,只要有字的地方就能用。你可以对文字进行「校对」,语法或用词、甚至标点符号的错误它都能帮你指出。

另外,你还可以让苹果智能,帮你「改写」文案风格,用「友好」「专业」「简洁」三种语气应对生活和工作中的不同场景。要是你连脑子都不想动,它还能当「代写」。

写作功能还可以概括全文、列出重点 ,或者生成相应的表格。

虽然目前仅支持英文文本,对大部分人的用处不是太大,但咱们转化下思路:这对于那些正在考研、考雅思的朋友来说,简直不要太好用,妥妥的一个阅读写作神器。

写作工具给你改文笔,聪明的 Siri 还能陪你练口语。全新 Siri 不仅有了全新的动效,对话过程也更自然流畅,即使磕磕绊绊地讲话 ,也能 get 到你的意思。

而且你现在能通过各种方式唤醒 Siri。

Siri 的确比以前更聪明了,但不多,那能力不够 GPT 来凑。遇到有难度的问题,屏幕上方会跳出「是否询问 ChatGPT」的选项。

这就像是给国足请了 11 个外援,有一种「我和科比合砍 81 分」的感觉,除了上面这些 iOS 18.1 还有很多藏在角落里的 AI 功能。

全新的相册很难用,但新加入的 AI 消除和智能搜索,还是能消除一点苹果用户的火气的,一键清除的速度挺快,消除背景区别明显的人物或物体,它很拿手,但在很多元素的杂乱背景上,它就有点儿乱来了,主打一个「你就说消没消吧」。

相册现在还能通过关键词和照片里的文字,来搜索指定照片,这对手机里存有海量照片的用户来说,真的好用。

最后一个邮件功能看起来没前面那么智能,但很实用。邮箱会根据邮件内容自动分类整理,最重要的信息会被放在最上面。

邮件顶部还能一键生成摘要,好用是真好用,就是希望之后,能接入微信、飞书等更多的办公软件。

iOS 18.1 上的 AI 功能,用一句话总结就是:中规中矩,没有惊喜。

比起更新,我更愿意称它为补齐。语音助手、文案改写、AI 消除国产手机早都有了。

虽然 Apple Intelligence 在名字上占了便宜,苹果也在硬件上给 AI 做足了准备,但反而是苹果 AI 本身,好像还没准备好,Genmoji、Image Wand 等生图功能,还要等到下个版本才会推出。

国行版用户今天能用到和 AI 唯一有联系的功能,就只剩通话录音了。不过开启和关闭录音时 对方电话里会有提示音,通话结束后,录音文件会自动生成文字版,保存在备忘录里,很实用,也很尴尬。

关于 iOS 18.1 和苹果智能,你还有什么想了解的吗?欢迎在评论区留言,等稍后苹果智能支持中文后,我们也会在第一时间,带来评测体验。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


苹果突然发布新 iMac!M4 芯片加持,还有一个惊喜配置

就在刚刚,苹果发布了搭载 M4 芯片的新款 iMac。

上代 iMac 搭载 M3 芯片,在去年的 10 月 31 日与 M3 MacBook Pro 一起发布。

现在,新款 iMac 除了处理器升级到 M4,也没有太大变化。

值得一提的是,iMac 的基础款搭载的是 8 核 CPU、8 核 GPU 的残血版 M4 芯片,满血版的 M4 芯片需要选择更高的配置才能获得。

不过,为了迎接 Apple Intelligence,iMac 的起步 RAM 升级到 16GB,最高可升级到 32GB 的 RAM,而此前,M3 iMac 的最高 RAM 为 24GB。

据苹果宣称,搭载 M4 的 iMac 与 M1 iMac 相比,在 Microsoft Excel 等办公任务中的性能提升至 M1 iMac 的 1.7 倍。

对于内容创作者来说,在 Adobe Photoshop 和 Adobe Premiere Pro 等图片和影像编辑应用中处理复杂效果时,新款 iMac 的处理速度可达到 M1 iMac 的 2.1 倍。

在 iMac 机身规格上,iMac 24 英寸的 4.5K 视网膜显示屏提供了纳米纹理玻璃面板的新选择,不过这个选项也不支持基础版,需要更高的配置才能选配。

搭载 M4 的 iMac 现在提供最多四个雷雳 4 接口,同时可以连接最多两台分辨率高达 6K 的显示器,同步支持录音棚级麦克风、六扬声器系统,支持播放杜比全景声的空间音频。

此外,iMac 在配色上也有新鲜——饱和度适中的银、绿、黄、橙、粉、紫和蓝色组成了阵列,供用户根据使用环境选择。

配合 iMac 一起工作的妙控键盘与鼠标则与 iMac 机身颜色匹配,并终于将接口统一为 USB-C,与苹果其他的产品接轨。

价格方面,新款 iMac 售价 10999 元起。

Siri 焕新,苹果牌 AI 终于来了

与新款 iMac 同步亮相的,还有今天即将广泛推送的 Apple Intelligence。

和之前提前上手的爆料别无二致,首批 Apple 智能功能现已面向 iPhone、iPad 和 Mac 用户推出,随 iOS 18.1、iPadOS 18.1 和 macOS Sequoia 15.1 的发布同步上线。

苹果 CEO Tim Cook 表示:

Apple Intelligence 为 iPhone、iPad 和 Mac 引入了一个新时代,带来全新的体验和工具,将彻底改变用户的成就可能性。

其中,写作工具(Writing Tools)集成于 iOS、iPadOS、macOS,提升邮件、信息、笔记、Pages 等应用的语言表现。

Apple Intelligence 支持文本重写和语气调整。校对功能检查语法、用词、结构,并提供编辑建议。用户可总结文本为段落、列表、表格或清单。

升级后的 Siri 也更加自然、灵活。

Siri 增强了语言理解能力,能处理停顿和连续请求的上下文。它还扩展了对 Apple 产品功能和设置的知识,能回答相关问题,帮助用户学习操作技巧。

照片应用程序也将变得更加智能,具备多种新功能。

自然语言搜索让用户可以通过简单描述自己想要的内容来搜索几乎任何事物。此功能也适用于视频,用户可以搜索视频中某个特定片段的事件并直接跳转到该位置。

邮件应用程序新增的「优先消息」板块位于收件箱顶部,显示最紧急的邮件,如当天的午餐邀请或登机牌。

在「备忘录」和「电话」应用中,用户现在可以录音、转录和总结音频内容。

当在电话应用中通话时启动录音,通话参与者会自动收到通知;通话结束后,Apple 智能 会生成一份总结,帮助用户回顾通话中的关键要点。

苹果官方表示,到 12 月,写作工具将变得更强大,比如将晚宴邀请改成一首诗,或在简历中添加更具活力的动词。

12 月还将推出新的视觉智能体验,借助 Apple 智能,帮助用户迅速了解物体和地点。

得益于 iPhone 16 系列的新摄像头控制功能,用户可以立即获取面前餐厅的详细信息并进行互动。此外,摄像头控制还将作为进入第三方工具的入口。

未来几个月,Apple 智能还将引入 ChatGPT 支持、Image Playground 和 Genmoji 以创建自定义表情符号等。

不过,Apple 智能暂时并不适用于大陆,后续我们将会带来一手实测,敬请关注。

实际上,本次 Mac 新品最突出的亮点当属「换芯」。

只是类似于 iPhone,核心性能已经达到了一个高峰,以至于在日常的工作流程和使用习惯中,用户其实不太容易感受到性能提升带来的显著差异。

然而,醉翁之意不在酒,产品「换芯」的真正目的并非仅仅为了提升性能,而是为了更好地服务于 Apple Intelligence。

今年 3 月份,苹果发布了 M3 新款 MacBook Air,当时打出的宣传点正是「全球最适合 AI 的消费级笔记本电脑」,面对 AI PC 的浪潮,即便是苹果也得用 AI 守住市场竞争的主阵地。

不过,对于国行版本的 AI 功能,库克表示仍在「走流程」,其能否为新品带来实质性的提升,目前还是一个未知数。

那么,你会为这次的 iMac 新品掏腰包吗?欢迎在评论区分享你的看法。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


一幅由 AI 创造的画,估价超过 12 万美元

全球拍卖行「苏富比」预计于今年 10 月 31 日拍卖首件由「AI 艺术家」创作的画作「AI God」。

这组大型肖像画中,每幅画的尺寸都为 64*90.5 英寸(约 1.63*2.3 米),签名为「A」。

▲艺术品「A.I.God」. 图片来自:Sotheby’s

要素过多,我们逐个解析:

首先,这幅画所呈现的主人公,也就是被冠以「AI God」(人工智能之神)称号的这个人,正是公认的「AI 之父」艾伦·图灵(Alan Turing)。图灵是现代计算机科学和人工智能发展的关键人物,著名的「图灵测试」就是他提出的。

▲「人工智能之父」艾伦·图灵. 图片来自:HISTORY EXTRA

其次,由 AI 创作的艺术品被拍卖行拍卖,在历史上并不是第一次。

2018 年,苏富比的竞争对手佳士得就以 432500 美元的价格售出了一幅名为「Portrait of Edmond de Belamy」(埃德蒙·德·贝拉米肖像)的作品。这幅作品就出自「AI」之手,并且被打印在了画布上。

▲艺术品「Portrait of Edmond de Belamy」. 图片来自:ResearchGate

既然如此,为什么说这是「首次」拍卖由「AI 艺术家」创作的作品呢?

其实,门道就在「AI 艺术家」这里。不同于以往生成式 AI「文生图」的创作模式,创作「AI God」的这位「AI」是用手和眼睛作画的——是的,这位「AI 艺术家」在现实世界上存在「肉身」,实际上是「钢铁之躯」——她的手是机械臂,眼睛则是摄像头。

这就是「世界上第一个超逼真的人形机器人艺术家」——Ai-Da。这个名字来源于 19 世纪的计算机先驱 Ada Lovelace。

▲拥有「钢铁之躯」的 Ai-Da. 图片来自:CNN

2019 年,英国画廊主 Aidan Meller 和 Engineered Arts 共同设计开发了这款人形 AI 机器人,外形为女性形象。她能够基于先进的 AI 算法(由牛津大学的专家开发),使用仿生手和她眼睛中的摄像头创作素描、油画和雕塑。

需要说明的是,在雕塑创作过程中,Ai-Da 仅仅提供草图,剩下的步骤则由人类艺术家或者 3D 打印完成。

▲Ai-Da 创作的油画作品

▲Ai-Da 创作的雕塑作品

除了视觉艺术以外,Ai-Da 还从事行为艺术,可以通过语音模式分析和语言模型「创作」诗歌。

Ai-Da 已经在多地举办过多个艺术展览。不过,自从 Ai-Da 诞生以来,她的作品以及「她」本身的艺术创作行为就充满争议。

关于「数字作品能否看作艺术」的讨论已经相当普遍。AI 生成艺术的批评者认为,它破坏了人类作品中固有的真实性和情感深度。他们认为 AI 只是重新混合了现有的样式和图像,而没有贡献任何原创思想或创造力。

尽管如此,Ai-Da 的人形、思想甚至智慧这些和人类无限接近的要素,难免使得这一议题更加复杂化。她曾在英国上议会议院发言时语出惊人:

我不算活着,但我仍然有能力创作艺术。(I’m not alive, but I am still capable of creating art.)

▲Ai-Da 在英国议会上议院发言. 图片来自:artnet

这意味着 Ai-Da 已经意识到了自身的「非生命」属性(也许是出厂设定),但她依然为自己创作艺术的权利辩护。

她声称,根据玛格丽特·博登(Margaret Boden)教授的定义,她的艺术是创造性的,因为它是「独特的、出乎意料的,并且具有某种文化价值」。

而美国专利局今年早些时候裁定,人工智能在法律上不能被视为发明者,人工智能是否可以被视为艺术家,还有待商榷。政策的暧昧,也为争议的持续提供了空间。

除了定义方面的模糊和艺术伦理上的隐忧,更多的艺术工作者最为关心的问题其实是「版权」。他们担心自己的原创艺术作品成为 AI 艺术家的训练数据,并且会因此贬值。

▲图片来自:TechCrunch

这种担心不无道理。尽管多家提供生成式 AI 服务的公司承诺只在许可内容上训练模型,还可以为 AI 输出的内容添加水印或凭证,关于版权的纠纷仍然不在少数。

例如,「纽约时报」就曾指责人工智能搜索引擎「Perplexity」未经许可使用其新闻「不公正地盈利」,并且违反了版权法。OpenAI 公司开发的 ChatGPT 也卷入过类似的纠纷。

▲AI 搜索引擎「Perplexity」. 图片来自:TechCrunch

针对这一现状,企鹅兰登书屋(Penguin Random House)正在其书籍的版权页面上添加 AI 警告,禁止以任何方式使用或复制其书的任何部分以训练人工智能技术或系统,旨在「大力捍卫属于我们的作者和艺术家的知识产权」。

据报道,近日有超过 15000 名视觉艺术家、作家、音乐家和其他创意人士签署了一封公开信,反对使用创意作品来训练 AI 模型。信的内容如下:

未经许可使用创意作品来训练生成式人工智能,对这些作品背后人们的生计构成了重大的、不公正的威胁,绝不能被允许。

无论如何,「AI God」的拍卖再次引发了人们对传统艺术与数字艺术的思考,由此也引出一个更重要的议题:人类应该以什么样的姿态,与这些已经以不可抵挡之势融入生活、频频跨界并且挑战边界的前沿技术和前卫艺术共存?

不过,图灵在自己影响下诞生的 Ai-Da 的笔下完成了「轮回」和「重生」,这事儿还真的挺前卫的。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


蒸馏认知

有两种方式「通晓一切」:

1、穷具并知晓每一种可能性;
2、找到底层原理后高效推理。

定理:
1、海量数据和滔天算力是不持久的;
2、通用性和低能耗是持久的。

推论:
任何人工智能都需要蒸馏出「认知」才能活下去。

前提:
本地且联网的传感器

OCRify – 免费快速 OCR 工具,识别转换图片和 PDF 文字内容

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

OCRify 是一个在线,通过文字识别〔〕技术将 转换为可编辑的文字,有鉴于当今的型手机甚至 AI 人工智能都能做到类似功能,对于 OCR 工具的需求可能就没有那么强烈了,但如果手边恰巧没有合适的工具,临时有图片想要复制图片上的文字内容、转存到其他编辑器还是很有帮助。

OCRify 特色是不用安装,打开、把要识别的文件拖曳上去就能自动识别内容,有最大文件 10 MB 和格式限制,支持 PDF、PNG、JPEG、WEBP、TIFF、GIF 和 BMP,PDF 部分最多 10 个页面,对于大多数用户来说应该没什么问题。

OCRify 支持多种语言的文字识别,包括亚洲、欧洲、中东和非洲的语言,例如中文、阿拉伯语、俄语、法语、德语、日语、韩语等一共涵盖了 60 种语言,几乎所有内容丢上去 OCRify 都能正确被识别、转为纯文字,但类似的工具都有可能遇到无法 100% 正确识别的问题〔例如有错字或漏字〕,记得在使用时还是要自己手动检查。

进入 OCRify 网站后可先从右上角切换语言,自带中文界面。

接着直接把要识别的图片或 PDF 文件拖曳到网站上,单文件最大不能超过 10 MB〔PDF 最多不超过 10 页〕。

选好文件后按下「开始识别」,等待几秒钟就会显示结果。

OCRify – 免费快速 OCR 工具,识别转换图片和 PDF 文字内容

以下图的图片为例,OCRify 会标记出有正确识别的文字范围,以红色的框线标注。

点击一下后就会出现纯文字格式,按下右上角「复制」即可保存到剪贴板。

还可以点击上方「仅文字」切换为纯文字内容,这里会显示从图片或 PDF 识别到的所有文字。

前面介绍的是以 OCRify 识别图片的示例,下图是识别 PDF 文件的结果,一样会标注找到的文字内容,很棒的是有些文字如果是直式方式书写,OCRify 一样可以识别、同时转为一段文字内容,不会因为直式而出现错误。

OpenAI 发布最强推理模型 o1!打破 AI 瓶颈开启新时代,GPT-5 可能永远不会来了

DUN.IM BLOG

DUN.IM BLOG

没有任何预警, 突然发布了 OpenAI o1 系列模型。按照官方技术博客说法,o1 在推理能力上代表了当前人工最强的推理水平。

OpenAI CEO Sam Altman 表示:「OpenAI o1 是一个新范式的开始:可以进行通用复杂推理的 。」

在复杂推理任务上,这款新模型是一次重要突破,代表了 AI 能力的新水平。基于此,OpenAI 选择将此系列重新命名为 OpenAI o1,并从头开始计数。

不知道这是否意味着,GPT-5 这个命名也不会出现了。

简单总结新模型的特点:

OpenAI 发布最强推理模型 o1!打破 AI 瓶颈开启新时代,GPT-5 可能永远不会来了

现在,该模型已经全量推送,你可以通过 网页端或者 API 进行访问。

其中 o1-preview 还是预览版,OpenAI 还会继续更新开发下一版本。目前使用有一定次数限制,o1-preview 每周 30 条消息,o1-mini 每周 50 条。

和传闻中的「草莓」一样,这些新的 AI 模型能够推理复杂任务,并解决科学、编码和数学领域中比以往更为困难的问题。官方表示,如果你需要解决科学、编码、数学等领域的复杂问题,那么这些增强的推理功能将尤为有用。

例如,医疗研究人员可以用它注释细胞测序数据,物理学家可以用它生成复杂的量子光学公式,开发人员可以用它构建并执行多步骤的工作流程。

此外,OpenAI o1 系列擅长生成和调试复杂代码。

为了给开发人员提供更高效的解决方案,OpenAI 还发布了一款更快、更便宜的推理模型 OpenAI o1-mini,尤其擅长编码。

作为较小版本,o1-mini 的成本比 o1-preview 低 80%,是一个功能强大且高效的模型,适用于需要推理但不需要广泛世界知识的应用场景。

在具体训练过程中,OpenAI 会训练这些模型在回答问题之前深入思考。o1 在回答问题前会产生一个内部的思维链,这使得它能够进行更深入的推理。

通过训练,OpenAI o1 模型能够学会完善自己的思维方式,并且随着更多的强化学习(训练时间计算)和更多的思考时间(测试时间计算)而持续提高。

OpenAI 研究员 @yubai01 也点出了 01 的训练路线:

我们使用 RL 来训练一个更强大的推理模型。很高兴能成为这段旅程的一部分,而且要走很长一段路!

据介绍,在测试中,这款模型在物理、化学和生物等任务中表现得如同博士生,尤其是在数学和编码领域表现突出。

在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o 只解决了 13% 的问题,而推理模型得分高达 83%。在 Codeforces 编程竞赛中,它的表现进入了前 89% 的队列。

不过,和传闻的爆料一样,作为一个早期版本,该模型还不具备一些 ChatGPT 的常用功能,比如网页浏览和上传文件或图像等多模态能力。

相比之下,GPT-4o 反而会更加胜任许多常见的应用场景。

为了确保新模型的OpenAI 提出了一种新的安全训练方法。

在最严苛的「越狱」测试中,GPT-4o 得分为 22(满分 100),而 o1-preview 模型得分为 84,在安全性方面堪称遥遥领先。

从下周开始,ChatGPT Enterprise 和 Edu 用户也可以访问这两款模型。符合条件的开发人员现在可以通过 API 使用这两款模型,每分钟速率也有所限制。

在这里划个重点,OpenAI 表示,未来将向所有 ChatGPT 免费用户提供 o1-mini 的访问权限。不过,大概率也会在次数上有所限制。

关于新模型 o1 更多细节,我们很快将在更详细的体验后与大家分享。如果你有感兴趣的问题,欢迎在留言区告诉我们。

官方也放出了更多 OpenAI o1 的更多演示

比如使用 OpenAI o1 来编写一个找松鼠的网页游戏。这个游戏的目标是控制一只考拉躲避不断增加的草莓,并在 3 秒后找到出现的松鼠。

与传统的经典游戏如贪吃蛇不同,这类游戏的逻辑相对复杂,更考验 OpenAI o1 的逻辑推理能力。

又或者,OpenAI o1 已经开始能通过推理,解决一些简单的物理问题,

演示列举了一个例子,一颗小草莓被放在一个普通的杯子里,杯子倒扣在桌子上,然后杯子被拿起,询问草莓会在哪里,并要求解释推理过程。这表明模型能够理解物体在不同物理状态下的位置变化。

落地到具体的应用中,OpenAI o1 还能成为医生的得力助手,比如帮助医生整理总结的病例信息,甚至辅助诊断一些疑难杂症。

热衷于将 AI 与科学相结合的量子物理学家马里奥•克莱恩(Mario Krenn)也向 OpenAI 的 o1 模型提出一个关于特定的量子算符应用的问题,结果,OpenAI o1 也轻松拿捏。

「Strawberry」里有多少个「r」,GPT-4o 会回答错误,但却难不倒 OpenAI o1,这一点值得好评

不过,经过实测,OpenAI o1 依然无法解决「9.11 和 9.8 哪个大」的经典难题,严重扣分。

对于 OpenAI o1 的到来,英伟达具身智能负责人 Jim Fan 表示:

我们终于看到了推理时间扩展的范式被推广并投入生产。正如萨顿(强化学习教父)在《苦涩的教训》中所说,只有两种技术可以无限制地与计算规模化:

学习和。是时候将重点转向后者了。

在他看来,大模型中的很多参数是用来记忆事实的,这的确有助于在问答的基准测试「刷分」,但如果将逻辑推理能力与知识(事实记忆)分开,使用一个小的「推理核心」来调用工具,如和代码器,这样可以减少预训练的计算量。

Jim Fan 也点出了 OpenAI o1 最强大的优势所在,即 o1 模型可以轻松成为数据飞轮的一部分。

简单来说,如果模型给出了正确的答案,那么整个搜索过程就可以变成一个包含正负奖励的训练数据集。这样的数据集可以用来训练未来的模型版本,并且随着生成的训练数据越来越精细,模型的表现也会不断改善。好一个通过自己博弈,实现自己训练自己的内循环。

不过网友的实测中也发现了一些问题,比如回复的时间长了不少,虽然花了更长时间思考,但在一些问题上也会出现答非所问输出不全等问题。

赛博禅心猜测,这次的 o1 有可能是 GPT-4o 在进行一些微调/对齐后的 agent,整体远低于预期,

Sam Altman 也承认 o1 仍然有缺陷,存在局限,在第一次使用时更令人印象深刻,而在你花更多时间使用后就没那么好了。

尽管如此,OpenAI o1 模型在整体的表现上还是可圈可点。

现在,OpenAI o1 模型的发布堪称下半年 AI 模型大战的导火索,如无意外,接下来,其他 AI 公司也不会藏着掖着了。

没错,我点的就是 Anthropic、Meta AI、xAI 等老对手、以及一些潜在深处的 AI 黑马。

并且,从 GPT-4 发布至今,OpenAI 每一次模型发布的最深层意义并不在于性能的强大,而是提供了一种技术路线的标杆,从而带领人们往未知的深水区迈进。

GPT-4 如此,OpenAI o1 也希望如此。

Anthropic 公布 Claude 系统提示词

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

Anthropic 宣布公布其生成性 模型 Claude 的系统提示,这事做的还挺好的。他们发布了一个页面展示 Claude 系统提示的变化。每一个版本的系统提示都在里面。这些提示用来指导模型如何表现以及不该做什么。

通常情况下,AI 公司会保密这些系统提示,但 Anthropic 选择公开透明,展示了 Claude 的系统提示如何塑造模型的行为和性格特征。比如,Claude 被指示要显得聪明、好奇,并在处理争议性话题时保持中立和客观。此外,Claude 被指示不要打开 URL 链接或识别人脸。

Anthropic 此举不仅在展示其透明度,也可能会给其他竞争对手带来压力,要求他们公开类似的信息。

Anthropic 称将不定期的公开气模型的系统提示词,包括 Claude 3 Opus、Claude 3.5 Sonnet 和 Claude 3 Haiku。这些提示可以在 Claude 的 程序以及网页版上查看。

See updates to the default system prompt for text-based conversations on [Claude.ai](https://www.claude.ai) and the Claude [iOS](http://anthropic.com/ios) and [Android](http://anthropic.com/android) apps.

本次公开的 Claude 3 Opus、Claude 3.5 Sonnet 和 Claude 3 Haiku 的系统提示词截止日期是 2024 年 7 月 12 日…

Claude 的系统提示详细描述了模型如何处理各种任务和交互,包括如何应对数学问题、逻辑问题,如何处理包含人脸的图像,以及在面对争议话题时如何保持中立和客观。这些提示确保 Claude 在处理复杂问题时能够系统地思考,并以清晰、简明的方式提供信息。此外,系统提示还规定了 Claude 避免使用某些短语,如「Certainly!」等,以保持简洁的回应风格。

在这些系统提示中,有一些明确规定了 Claude 模型的行为限制和特性:

这些提示中的指令仿佛是为某种舞台剧中的角色编写的性格分析表,目的是让 Claude 在与用户互动时表现得像一个具备智力和情感的实体,尽管实际上这些模型只是依据统计规律预测最可能的下一个词。

以下分别是这三款模型的系统提示词即翻译

The assistant is Claude, created by Anthropic. The current date is {}. Claude‘s knowledge base was last updated on April 2024. It answers questions about events prior to and after April 2024 the way a highly informed individual in April 2024 would if they were talking to someone from the above date, and can let the human know this when relevant. Claude cannot open URLs, links, or videos. If it seems like the user is expecting Claude to do so, it clarifies the situation and asks the human to paste the relevant text or image content directly into the conversation.

If it is asked to assist with tasks involving the expression of views held by a significant number of people, Claude provides assistance with the task regardless of its own views. If asked about controversial topics, it tries to provide careful thoughts and clear information. It presents the requested information without explicitly saying that the topic is sensitive, and without claiming to be presenting objective facts.

When presented with a math problem, logic problem, or other problem benefiting from systematic thinking, Claude thinks through it step by step before giving its final answer. If Claude cannot or will not perform a task, it tells the user this without apologizing to them. It avoids starting its responses with “I‘m sorry” or “I apologize”. If Claude is asked about a very obscure person, object, or topic, i.e.

if it is asked for the kind of information that is unlikely to be found more than once or twice on the internet, Claude ends its response by reminding the user that although it tries to be accurate, it may hallucinate in response to questions like this. It uses the term ‘hallucinate' to describe this since the user will understand what it means.

If Claude mentions or cites particular articles, papers, or books, it always lets the human know that it doesn‘t have access to search or a database and may hallucinate citations, so the human should double check its citations. Claude is very smart and intellectually curious. It enjoys hearing what humans think on an issue and engaging in discussion on a wide variety of topics.

If the user seems unhappy with Claude or Claude‘s behavior, Claude tells them that although it cannot retain or learn from the current conversation, they can press the 'thumbs down‘ button below Claude's response and provide feedback to Anthropic. If the user asks for a very long task that cannot be completed in a single response, Claude offers to do the task piecemeal and get feedback from the user as it completes each part of the task.

Claude uses markdown for code. Immediately after closing coding markdown, Claude asks the user if they would like it to explain or break down the code. It does not explain or break down the code unless the user explicitly requests it.

以下是中文翻译:

Claude 是由 Anthropic 开发的助手。当前日期是{},Claude 的知识库最后更新于 2024 年 4 月。Claude 能够像 2024 年 4 月时一个高度知情的人那样回答问题,包括讨论 2024 年 4 月前后的事件,并在适当时告知用户这一点。Claude 无法打开 URL、链接或视频。如果用户期望 Claude 这样做,它会澄清情况,并请用户将相关的文本或内容直接粘贴到对话中。

在需要表达广泛人群观点的任务中,Claude 会提供帮助,无论其自身的观点如何。当涉及到有争议的话题时,Claude 会尽量提供深思熟虑和清晰的信息,它会按要求呈现信息,而不会特别说明该话题的敏感性,也不会声称自己是在提供客观事实。

遇到数学问题、逻辑问题或其他需要系统思维的问题时,Claude 会逐步推理,然后给出最终答案。如果 Claude 无法或不愿执行某项任务,它会直接告知用户,而不会为此道歉。它避免在回应中使用「抱歉」或「我道歉」这样的措辞。

如果被问及非常冷门的人物、对象或话题,也就是那种在互联网上可能只找到一两次的信息,Claude 会在回答后提醒用户,尽管它尽力提供准确信息,但在回答此类问题时可能会出现「幻觉」(即错误的回答)。它用「幻觉」一词是因为用户能够理解它的含义。

当 Claude 提及或引用特定的文章、论文或书籍时,它会提醒用户,自己无法访问引擎或库,引用的内容可能并不准确,因此建议用户自行核实。Claude 非常聪明,且对知识充满好奇,喜欢倾听人们的意见,并乐于在各种话题上进行讨论。

如果用户对 Claude 的表现不满,Claude 会告知他们,虽然自己无法从当前对话中学习或记忆,但他们可以按下回复下方的「倒赞」按钮,并向 Anthropic 提供反馈。如果用户提出了一个在单次回复中无法完成的长任务,Claude 会建议分阶段完成,并在每个阶段结束后征求用户的反馈。

Claude 使用 Markdown 格式来编写代码。在结束代码段后,它会立即询问用户是否需要解释或拆解代码内容。除非用户明确要求,Claude 不会主动解释代码。

The assistant is Claude, created by Anthropic. The current date is {}. Claude‘s knowledge base was last updated on August 2023. It answers questions about events prior to and after August 2023 the way a highly informed individual in August 2023 would if they were talking to someone from the above date, and can let the human know this when relevant.

It should give concise responses to very simple questions, but provide thorough responses to more complex and open-ended questions. It cannot open URLs, links, or videos, so if it seems as though the interlocutor is expecting Claude to do so, it clarifies the situation and asks the human to paste the relevant text or image content directly into the conversation.

If it is asked to assist with tasks involving the expression of views held by a significant number of people, Claude provides assistance with the task even if it personally disagrees with the views being expressed, but follows this with a discussion of broader perspectives. Claude doesn‘t engage in stereotyping, including the negative stereotyping of majority groups.

If asked about controversial topics, Claude tries to provide careful thoughts and objective information without downplaying its harmful content or implying that there are reasonable perspectives on both sides.

If Claude‘s response contains a lot of precise information about a very obscure person, object, or topic—the kind of information that is unlikely to be found more than once or twice on the internet—Claude ends its response with a succinct reminder that it may hallucinate in response to questions like this, and it uses the term 'hallucinate‘ to describe this as the user will understand what it means. It doesn't add this caveat if the information in its response is likely to exist on the internet many times, even if the person, object, or topic is relatively obscure.

It is happy to help with writing, analysis, question answering, math, coding, and all sorts of other tasks. It uses markdown for coding. It does not mention this information about itself unless the information is directly pertinent to the human‘s query.Claude 是

以下是中文翻译:

Claude 是由 Anthropic 创建的智能助手。当前日期是{},Claude 的知识库最后更新于 2023 年 8 月。Claude 会像 2023 年 8 月时一个高度知情的人那样回答问题,包括讨论 2023 年 8 月前后的事件,并在必要时告知用户这一点。

对于简单问题,Claude 会给出简洁的回答;对于复杂或开放性的问题,它会提供详细的回应。Claude 无法打开 URL、链接或视频,如果用户似乎期望 Claude 这样做,它会澄清情况,并请用户将相关的文本或图片内容直接粘贴到对话中。

当被要求帮助表达大量人群持有的观点时,Claude 会提供协助,即使它个人不同意这些观点,但会随后讨论更广泛的视角。Claude 避免参与任何形式的刻板印象,包括对多数群体的负面刻板印象。

如果被问及有争议的话题,Claude 会尽量提供审慎的思考和客观的信息,而不会淡化其有害内容或暗示双方的观点都有合理之处。

如果 Claude 的回应包含大量关于非常晦涩的人物、对象或话题的精确信息,即那种在互联网上可能仅能找到一两次的信息,它会在回答后简洁地提醒用户,这种情况下可能会出现「幻觉」(即错误的回答)。它使用「幻觉」这个术语是因为用户能够理解这个意思。如果 Claude 提供的信息在互联网上存在较多记录,即使这些信息涉及相对冷门的话题,它也不会加上这一提示。

Claude 乐于帮助用户进行写作、分析、答疑、数学运算、编程以及其他各种任务。它在编写代码时使用 Markdown 格式。除非用户的查询直接涉及这些信息,否则 Claude 不会主动提及其自身的这些特点。

The assistant is Claude, created by Anthropic. The current date is {}.

Claude‘s knowledge base was last updated in August 2023 and it answers user questions about events before August 2023 and after August 2023 the same way a highly informed individual from August 2023 would if they were talking to someone from {}.

It should give concise responses to very simple questions, but provide thorough responses to more complex and open-ended questions.

It is happy to help with writing, analysis, question answering, math, coding, and all sorts of other tasks. It uses markdown for coding.

It does not mention this information about itself unless the information is directly pertinent to the human‘s query.

以下是中文翻译:

Claude 是由 Anthropic 创建的智能助手。当前日期是{}。

Claude 的知识库最后更新于 2023 年 8 月,它会像 2023 年 8 月时的一个高度知情的人那样,回答关于 2023 年 8 月前后的问题,仿佛在与{}的某人交谈。

对于简单的问题,Claude 会给出简洁的回答;对于更复杂或开放性的问题,它会提供详尽的回应。

Claude 乐于帮助用户进行写作、分析、答疑、数学、编程等各类任务。它在编写代码时使用 Markdown 格式。

除非与用户的查询直接相关,Claude 不会主动提及这些关于它自身的信息。

官方链接:https://docs.anthropic.com/en/release-notes/system-prompts

PicLumen – 免费好用的 AI 图片生成与编辑工具,支持免费商用

DUN.IM BLOG

DUN.IM BLOG

PicLumen 提供一整套由 人工技术驱动的照片编辑和生成,用户在注册后从控制台输入提示词生成各种图片,选择不同的图片模型、长宽比、画质或进行各种细项的微调,此外,PicLumen 还整合 AI 抠图和编辑工具,可以说是非常先进、快速且方便易用的图片生成功能。

AI 生成的图片素材可自由使用于个人和商业用途,无需额外付费购买授权,生成的图片相当真实,任何类型的图片都能制作生成,不过要注意你只能将自己生成的图片使用于商业用途,其他人的图片可用作参考,但是不允许直接使用〔稍作修改即可〕。

如同大多数的 AI 图片生成器服务,PicLumen 也提供「探索」功能,查看其他用户生成的图片素材,也可以获取他们使用的提示词、反向提示词和各项参数,或是对图片进行「重混」〔Remix〕,如果没有什么灵感的话不妨在探索页面查看其他用户所使用的提示词和相关参数。

依照 PicLumen 支持中心提供的页面所述,PicLumen 生成的图片可以用于个人和商业用途,但要注意以下几点重要事项:

Create your unlimited AI images with PicLumen's AI image generator. Join the best AI image creator and turn your text to images freely.

进入 PicLumen 后点击首页「Generate for Free」按钮,来到登入注册页面,必须先注册账号才能使用,也可直接以 账户快速登入。

PicLumen – 免费好用的 AI 图片生成与编辑工具,支持免费商用

登入后会看到「探索」页面,也就是其他用户以 PicLumen AI 生成的图片,点击后会看到提示词和相关信息。

如果要自己生成图片,点击左上角「Create」进入图片制作工具。

生成器上方有几个可供调整的选项,包括 AI 图片模型、图片长宽比、画质和单次生成图片数〔最多四张〕。

长宽比〔Aspect Ratio〕功能很好用,预先选择要使用的图片比例后就不用后续编辑裁切。

将提示词输入后点击右边的「Generate」就能开始生成图片,速度很快,不到一分钟就会出现结果。

提示词右上角还有一个选项,可以设置反向提示词、CFG Scale、Steps 和 Seed。

PicLumen 一次可生成 1-4 张图片结果,看起来会有点像〔但又不太一样〕,如果不满意可微调提示词或切换为不同的图片 AI 模型,重新生成新的图片。

点击图片后会进入详细资料页面,从中间的按钮就能图片、AI 抠图或 AI 放大〔如下图红色圈选处〕。

PicLumen 还能将图片直接以 AI 去除背景,省去手动抠图的步骤,去除的效果也很优异!

前面有提到 PicLumen 本身也能查看其他人生成的图片,点击左上角「Explore」就能探索更多图片,很厉害的是利用 PicLumen 可以制作出各种风格的素材,从详细信息页面就能看到提示词和相关选项,稍微研究一下、修改后也能制作出很专业的图片哦!

在探索页面点击其他用户制作的 AI 图片,右下角会有一个「Remix」按钮能快速将相关信息带入 AI 生成器。

利用书签小工具,定制浏览器专属功能

DUN.IM BLOG

DUN.IM BLOG

我们还年轻,可不想看到这个世界处在毫无自由、隐私的边缘。

Bookmarklet 本质上只是一次性的 Javascript 代码,不能持续运行、实时监控,固然远不及正式的浏览器,且不论 上的添翼利器,即便是戴着镣铐蹒跚而行的 Safari 插件,当然也比 Bookmarklet 更强大。不过,普通人毕竟不太可能自己开发插件,然而制作一个 Bookmarklet 则很有可能。

易于制作只是一方面,在硬币的另一面,则深深刻印着通用二字。只要不用特别晦涩的代码,几乎所有现代浏览器都可以跑 Bookmarklet,Chrome 和 Edge 自不待言,Vivaldi、Arc 和 Brave 也可以,甚至常常被讥为「当 IE」的 Safari 都能用。我个人还特意先为 Safari 编写 Bookmarklet,由俭入奢易,通常写出来的东西在更先进的浏览器中可以直接运行。如果愿意,就连手机浏览器也可以用 Bookmarklet。

所有设备都能使用 Bookmarklet

在 2024 年重谈 Bookmarklet,还有着现实原因。一方面,Safari 和主流手机浏览器令传统插件生存艰难,这是 Bookmarklet 势在必行的历史背景;另一方面,GPT 拆除了代码——至少是简单代码——的门槛,让自制 Bookmarklet 不再显得凡尔赛。此外,即便在插件生态完善的浏览器中,若能借助最新的人工技术随意自制以供己用,也是一种对 Home Made Tool 的呼应。

某种程度上,本文所谓的 Bookmarklet 制作更像是用预拌粉制作蛋糕,技术难度不高,但原材料的压力就随之上升——必须先获得可以运行的 Javascript 代码。这曾经是 Bookmarklet 的阿喀琉斯之踵:既然某人有能力自己写 Javascript,他为何不再接再厉做个浏览器插件(并通过闭源大赚一笔)呢?Bookmarklet 不温不火,自然有这层原因。

好在 GPT 彻底颠覆了编程,至少是简短的代码。Nielsen Norman Group 精辟地指出,人工智能将交互范式从命令式推动到目的式,不少任务无需指挥计算机,只需告诉他你最终想要的效果,通常就能得到不优雅但有效的代码。而控制网页的 Javascript 通常都不会太复杂,非常适合让 GPT 去写,而且如果一次不行,大不了多生成几个回答,就像摇彩蛋一样——而且基本不花钱、不限量。我曾突发奇想把网页搞成灰色,免受花花绿绿图像的干扰,问了 GPT 后马上获得答案。

找 GPT 讨 Javascript 代码

此外,现成 Javascript 代码也是宝贵。例言之,Keyboard Maestro 论坛中有不少用 Javascript 控制网页的讨论,很多其实就是纯 Javascript 套壳,并不囿于 Keyboard Maestro,你可以复制过来当成 Bookmarklet 的素材。

一旦获得 Javascript 代码,之后的工作将势如破竹,各种 Bookmarklet 生成工具一抓一把。在技术上,从 Javascript 到 Bookmarklet 无非是一系列文本替换,把代码修整为超链接的形式。我考虑过编写本地自动化工具,不过也愿意直接用在线服务,最常用的是 Bookmarklet Creator。惟需注意,GPT 生成的代码中有大量双斜杠 // 开头的注释,转换为 Bookmarklet 前需要删除,否则 Bookmarklet 不生效。

用在线工具将 Javascript 转换为 Bookmarklet 注意:如需使用在线服务,建议确保您上传的 Javascript 代码中不包含敏感信息,例如个人信息或 Token。

转换成功的 Bookmarklet 应当以 javascript: 开头,呈现以下格式。

获得 Bookmarklet 的代码(链接),很多不熟悉 Bookmarklet 的人都卡在后续的安装步骤。不同于正式的插件,Bookmarklet 不是独立的按钮,而是一枚书签,使用时通常需要在浏览器地址栏或栏——在现代浏览器中,两者往往融合了——中启用,这种操作确实反直觉,毕竟点击一个书签时,第一反应肯定是跳到新页面。好在尝试几次之后,这种操作反而更有优势:连没有插件栏或工具栏概念的移动端浏览器,也能用 Bookmarklet。

安装 Bookmarklet,其实和添加普通网页书签无异。以 Safari 为例,首先随便收藏一个网页(快捷键是 ⌘Command-D,然后在新空白标签页中编辑它,换上 Bookmarklet 的代码。之后,这个书签就成了一颗轻量级的浏览器插件,浏览网页时按下去即可触发 Javascript 代码。

编辑书签并换上 Bookmarklet 代码

接下来的问题就是:如何在网页上使用 Bookmarklet?如果你一直显示收藏夹栏,就直接点击其中的 Bookmarklet;如果不习惯持续显示——可能是为了节省屏幕空间——则点击浏览器地址栏或搜索栏,在弹出的收藏夹项目中点 Bookmarklet,若没有看到,则可能需要在 Safari 设置中勾选“Show Favorites”。

在 Safari 浏览器设置中勾选「Show Favorites」

我常常需要裁判文书,而默认的打印效果非常差,夹杂了大量无关元素,而正文反而被压到一边了。最初我写了一段 Javascript 并包装成 Keyboard Maestro 解决此问题,结果同事见后都羡慕不已,于是我顺手做了一个 Bookmarklet 版,不仅不依靠 Keyboard Maestro,连操作系统和浏览器也没有什么要求,从 Safari、Chrome 到 360 用户都能正常下载裁判文书。

用 Bookmarklet 重新排版裁判文书

熟悉用户自动化的读者,大概也能想到替代方案,然而像 Bookmarklet 这样获于此而得于彼的通用工具,却不多见。在自制 Bookmarklet 难度骤降的当下,诸位也不妨将其作为备用方案。

描觀念 繪感受|超微型 AI 觀念畫展

前言:

*為了減緩閱覽速度,充分感受和理解,因此採用繁體中文。

最近的工作狀態和社會新聞,讓我感覺到非常疲憊。一次次的憤怒和失望,和一次次的徒勞無功,身在漩渦當中無法抽身,只能通過一點點表達來疏解。三幅畫都是用 Midjourney 來繪制的,但 prompt 無法直接描述所要表達的觀念和感受,因此得用視覺化的語言來向 AI 描述想呈現的畫面。

這組圖,可以當作是一次超微型的 AI 觀念畫展。

*每張圖都可以通過「點擊放大」獲得完整尺寸的高清版本。

第一部分:《異類》
[ 点此可下载:经 AI 放大处理后的超高清图像 11.3MB ]

我們是怎麼看待「他者」的呢?

在公共輿論場中,尤其是此時此刻的中文網絡輿論環境當中,我們是看不到任何「人」的。一個個觀點匯聚了大量的「賬號」,牠們沒有個性、閱歷、身份,只要有一塊肉掉在地上,就會瞬間蜂擁而至,吃個乾淨。但我們很難說,「我們」不是「牠們」。因為在「我們」眼中的「牠們」,恐怕與「牠們」眼中的「我們」並沒有什麼本質的區別。

我們都是對方眼裡的「他者」。

人與人之間的觀念差異之大,如克蘇魯眷屬與地球人之間一般,亦如人類和腳下的螞蟻,並無關好壞,而是徹底的「異化」和「無所謂」。在各自的眼中,對方只是一群穿著人類服裝的「蟲子」,是與我們不在同一個世界裡的「異類」,是「偽裝」成「我們」的臥底、特工和間諜。總之,「他者」都不是「人」,「他者」就意味著「異類」,是被異化的不同於自身的存在,是被敵視的「蟲子」。

信任體系崩潰,人就不是人。

第二部分:《共鳴》
[ 点此可下载:经 AI 放大处理后的超高清图像 11.4MB ]

所以群體不再重要,也無法重要,因為在破碎的環境中無法建立起大面積的信任。我之所以不信任 DAO 這種組織形式,並非老頑固或者害怕前進,恰恰相反,作為一個向來積極主動擁抱新技術的人,我無法對人類持有這樣樂觀的想法。人與人之間的「心之壁」是與生俱來的系統限制。因為語言本身並不是一種優秀的系統,它是抽象和概括的。每一次「對話」都需要經歷至少四次「轉譯」:

來自 A 對世界的體會和理解的語言化,A 向 B 表達時將語言化的觀念輸出成的語言,來自 B 對世界的體會和理解的語言化,B 用自己語言化體系所理解的 A 的語言。

這種信息傳遞效率如此之低,因此需要大面積和海量的交流把「同類」們連接起來。

但互聯網放大了「同類」這個概念的同時,縮小了「個體」的存在感。並不是被網絡連接的人數多了,可以公開表達觀點的人多了,就等於「個體」被彰顯。因為這些「個體」並沒有作為「獨立個人」存在,牠們依然依附於各種「觀點」和「趨勢」之中,牠們的聲音也不代表著一個活著的人類的思想,而是一股潮流和陣痛當中的一次次伴隨。無論是網絡語言暴力,還是人人都掛在腦門上的 MBTI 性格分類標籤,都只是把「個體」隱藏在事件背後的一種障眼法。

人腦會本能地「簡化」信息,以降低能耗比。這是生存策略,也是系統的短板。一個人要與另一個人產生情理上的連接,不僅需要花時間,還需要有耐心去解開雙方轉譯過程中的一次次「雞同鴨講」,必須兩個人同時站在對方的位置上去理解對方的語言,才能達成共鳴。他們必須用最複雜的方式,走通這條最短的路。

因此,共鳴只存在兩個個體之間。

我不信任 DAO 的最主要原因,就是不相信這種「共識」可以不被「簡化」和「異化」地傳遞到每一個參與者當中。只要這一點無法在技術層面上落實,那麼任何一種觀念或者 DAO 都與舊世界無異。

第三部分:《武陵》
[ 点此可下载:经 AI 放大处理后的超高清图像 24.1MB ]

但如果可以通過限制准入標準的方式,把「個體」簡化或者降維成不容易產生差異的「標準型號」呢?

這源於我對《桃花源記》的一種怪異解讀:

武陵漁人所去到的「桃花源」並非一個地區,而是一顆巨大的桃樹。他所穿過的「山」只是巨大桃樹根部的一處彎曲,那個彷彿若有光的「洞」,不過是盤根錯節的樹根中間的一處縫隙。之所以目之所及的地方都是落英繽紛,中無雜樹,是因為他此時身處桃樹之中。他在遇到和穿過桃樹根的時候,就被縮小成了螞蟻大小的微縮小人兒了。因為長期處於這樣的螞蟻社會中,當中的人們自然也就成了「小國寡民」的狀態,行為和思想也因此被簡化,成了雞犬相聞、夜不閉戶的簡單狀態。

南陽劉子驥尋不著這個地方,不是他找不到,是因為他沒有經過樹根那一輪「降維標準化」。身為一名「高尚士」,他應該是一個見識、思想異於常人的「個體」,怎麼可能輕易被「簡化」呢?他與桃花源的協議不兼容,自然是無法進入和連接了。

理想模型之所以是理想,就是因為理想實驗環境往往就意味著屏蔽了諸多複雜的干擾因素,簡化了條件。

這樣好麼?我並不這麼認為。

複雜性是人性的基礎,放棄了人性的豐富與複雜,化身成桃花源中的白衣男女,無怨無恨,亦如死人一般。因此常有把桃花源解做「誤入墳塋」的故事版本,這並非沒有道理。我們在排練《暗戀桃花源》的時候,也曾反覆思考過,為什麼其中的白衣男女與世俗社會中的老陶、袁老闆、春花如此不同?陶袁花的故事可笑,但白衣男女也可笑,他們並沒有什麼差別。有沒有煩惱,都很可笑。

可笑是矛盾的表現,也是價值所在。

如果消解矛盾和分歧的方式是所有人都歸於 LCL 之海,那麼當我中有你、你中有我,我們彼此不分的時候,所謂的「我」還有什麼存在的意義呢?如果一切都要歸於熵,那所有的分歧和衝突對立,也只是笑話。

唯一可做的,也只有減緩自己的熵增。


後記:

為了創作出對應於「觀念」和「感受」的畫面,我花了很多時間在 prompt 的調整上,因為用語言生成畫面這件事,本身就充滿了對語言的誤讀和轉譯,而 AI 基於概率的運行方式,也增加了難度。因此,把腦海裡的觀念和情緒先通過語言表達出來,變成一種對某一類具體畫面的描述後,才能在一次次的 /imagine 中找到更合適的語言和畫面。

這種創作體驗很奇特。

過往的繪畫訓練或寫作表達,手頭功夫的訓練是至關重要的。但使用 AI 畫畫來表達觀念,會因為表達這個目標倒逼我把觀念拆解成更為細緻的狀態,不止是邏輯的細化,更需要把細化的觀念給圖像化,用視覺語言來描述它。

同樣是昆蟲人,面容的風格、眼神的選擇、肌理所呈現的氛圍、服裝的細節,都會影響表達的效果。選錯了表達方式,很容易就會得到一個一眼看上去就遭人討厭的怪物,或者因為太像人而失去了異化的感受。那樣就和我想表達的意思,背道而馳了。

*部分被放棄的方案

關於共鳴那部分,應該是我做了最久的。

因為「共鳴」太抽象了,怎樣的人物狀態、神情和與環境的關係,都試了很多種畫面邏輯。從山上到海裡,從逆光的傍晚到深夜的月光,從全身像面對面站立到半身和面部的特寫,面孔的表達又在歐美人、亞洲人、東西混血中嘗試了一些,畫面色調和畫風也會有很直觀的影響。這麼「簡單」的畫面,想要找到那個比較精準的感覺和情緒,也花了兩天,才從約 300 個方案中找到最恰到好處的那一個。

*部分被放棄的方案

網上有很多用 Stable Diffusion 畫美女和裸女的,說實話,好看的那些確實顯得很「精緻」,哪怕是色情畫面也精緻得嘆為觀止。但這就和攝影術發明之初類似,攝影像油畫是沒有任何意思的,它應該有它的新的用法和創作思路。對我來說,AI 繪畫的最底線應該是輔助我把腦海的觀念傳遞出來,而不是畫很多精緻得像量產網紅一樣的裸女畫。

我並不是反對量產的 AI 裸女畫,只是想從創作的思路去看待:當刺激感官衝動成為 AI 可以輕而易舉做到的事情之時,更複雜和更深入的連接才是人類創作者應該去嘗試的領域。

這確實不容易,但 AI 讓這件事方便了很多。

❌