Reading view

There are new articles available, click to refresh the page.

英伟达推出「最便宜」AI 超算,想让每个人都踏入 AI 世界

2019 年,人工智能技术快速进步,AI 应用不断广泛深入。彼时,英伟达(NVIDIA)推出了面向「嵌入式设计师、研究人员和 DIY 制造商」的 AI 计算机以及开发套件「Jetson Nano」,售价 499 美元(约合 3638 元)。

▲Jetson Nano(图源:NVIDIA)

近日,英伟达发布了 Jetson Nano 的升级版,也是目前该系列中「最便宜」的 AI 超级计算机及其开发套件「Jetson Orin Nano Super」。在性能更强的同时,价格还降低了一半,仅售 249 美元(约合 1809 元)。

按照英伟达的官方说法,Nano Super 的受众是「商业 AI 开发者、业余爱好者和学生」。的确,不到 2000 元的价格对于那些初次接触生成式 AI、机器人技术或者计算机视觉技术的人群来讲,还算友好。

也许,这也表明了目前使用 AI 进行推理任务的成本正在逐渐降低。

▲Jetson Orin Nano Super(图源:NVIDIA)

相较于前代,Nano Super 的 AI 推理性能提升了 1.7 倍,整体性能提高了 70%,达到 67 INT8 TOPS。此外,Nano Super 的内存带宽增加至 102GB/s,比前代产品提升了 50%;CPU 频率也从前代的 1.5GHz 提升至 1.7GHz。

整个 Nano Super 开发套件包含 Jetson Orin Nano 8GB 系统级模块(SoM)和一个参考载板,SoM 配备了 NVIDIA Ampere 架构 GPU 和 6 核 Arm CPU,支持多个并发 AI 应用管道和高性能推理。

另外,它还支持调用最多四个摄像头,并且提供比之前的版本更高的分辨率和帧速率。

▲图源:NVIDIA

英伟达声称 Nano Super 的性能提升为所有流行的生成式人工智能模型和基于变换器(transformer)的计算机视觉带来了好处。

不仅如此,由于 Nano Super 套件的硬件与其前代 Orin Nano 的硬件基本相同,因此之前购入了 Orin Nano 的用户通过安装软件更新(JetPack SDK),也能体验到 Nano Super 的性能升级。

英伟达称,这是一份「持续给予的礼物」。

▲图源:NVIDIA

在英伟达生态的加持下,开发者可以从 NVIDIA Jetson AI 实验室获取教程,还可以在更广泛的 Jetson 社区获得支持和帮助,或者从其他开发者创建的项目中获得灵感等等。

英伟达表示,无论是创建基于检索增强生成的 LLM 聊天机器人、构建视觉 AI 代理还是部署基于 AI 的机器人,Nano Super 都是「理想的解决方案」,并且期待它能够加速 AI 驱动机器人技术在多个行业的发展。

随着人工智能领域从特定任务模型逐渐转向更为通用的基础模型,Nano Super 无疑为技术爱好者们提供了一个将想法变为现实的「最实惠」可访问平台。正如英伟达所说:

现在每个人都可以通过生成式 AI 解锁新的可能性

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


国产大模型智谱获新一轮 30 亿元融资,2024 商业化收入增长超 100%

智谱近期完成了新一轮三十亿人民币融资,本轮融资的新投资方包括多家战投及国资,老股东君联资本等继续跟投。这是智谱近期可查的第二轮融资。

据悉,本轮融资将用于智谱 GLM 大模型系列的研发工作,旨在从简单的问题回答扩展到解决更复杂的推理和多模态任务,以更好地服务于行业生态的发展。

2024 年,智谱业务保持高速增长态势,同去年相比,智谱今年以来的商业化收入增长超过 100%。目前,智谱的估值已经率先超过 200 亿,是估值最高的大模型公司之一。

产品业务方面,智谱推出的全模态 AI 助手「智谱清言」app 用户超 2500 万,年化收入超千万;其推出的 MaaS 开放平台 bigmodel.cn 已有 70 万企业和开发者用户使用,日均 Tokens 消耗量增长 150 倍,API 年收入同比增长超 30 倍。

智谱始终坚持大模型创新,基座模型性能保持国内领先。据悉,智谱开源的 ChatGLM 等 50 余款模型全球累计下载量超过 3000 万,获得超 15 万 GitHub 星标。智谱也因此成为了国内大模型领域星标数最多的企业。

另外,智谱是国内唯一入选「TechCrunch」评选的全球 15 家新晋 AI 独角兽 Unicorn Board 榜单的企业。公司还入选了福布斯中国创新力企业 50 强和 Hugging Face 平台最受欢迎人工智能机构。

2020 年底,智谱研发了 GLM 预训练架构;2021 年完成百亿参数模型 GLM-10B 的训练;2022 年开发了中英双语千亿级超大规模预训练模型 GLM-130B 并开源;2023 年推出千亿基座对话模型 ChatGLM 并两次升级,开源版本的 ChatGLM-6B 使得大模型开发者能够在本地进行模型的微调和部署。

2024 年,智谱继续高歌猛进,发布了一系列比肩世界领先水平的大模型产品和技术:

  • 1 月:发布了新一代基座大模型 GLM-4,性能显著提升,支持更长上下文和更强多模态能力,推理速度更快,支持更高并发,降低了推理成本;
  • 6 月:开源了 GLM-4-9B 模型,支持长文本处理和多语言,同时开源了基于 GLM 的视觉模型 GLM-4V-9B,其多模态能力与 GPT-4V 相当;
  • 7 月:视频生成模型「清影」正式上线,提供文本和图像生成视频服务,能在 30 秒内生成 6 秒视频,真实还原物理世界运动;
  • 8 月:发布了国内首个跨文本、音频和视频模态的实时推理大模型 GLM-4-Videocall,实现了 AI 与人的实时视频通话;推出了新一代基座大模型 GLM-4-Plus,性能全面提升,与国际标杆 GPT-4o 水平相当;
  • 10 月:发布了 GLM-4-Voice 端到端情感语音模型,并集成到清言 app 中,支持情感理解、情绪表达、多语言和方言;推出了 AutoGLM 内测版,能模拟人类操作手机,执行各种任务,不受限于 API 调用;
  • 11 月:发布了 AutoGLM 升级版,能执行超过 50 步的长步骤操作,跨 app 执行任务,支持基于浏览器的网站无人驾驶;推出了 GLM-PC 内测,基于多模态模型 CogAgent,探索「无人驾驶」PC 技术,能代替用户执行多种电脑操作;升级了视频模型 CogVideoX,支持生成 10 秒时长、4K、60 帧超高清画质视频,具备更好的人体动作和物理世界模拟,同时开源了 CogVideoX v1.5-5B 和 CogVideoX v1.5-5B-I2V 模型。

此外,智谱的业务范围覆盖智能汽车、制造、大消费、金融、政务服务、医疗健康、游戏娱乐和文化旅游等多个行业。公司近期推出的 Agent 则进一步推动了大模型在智能设备中的应用。

智谱的全球化战略也在加速推进,公司已在美国、英国和法国等多国和地区设立了地区总部、分公司和研究中心,并作为唯一的中国公司,与 OpenAI、谷歌、微软、Meta 等世界一流大模型公司签署了前沿人工智能安全承诺。

智谱的愿景是「让机器像人一样思考」,致力于打造新一代认知智能大模型。未来,智谱将通过大模型链接物理世界的亿级用户,为千行百业带来持续创新与变革,加速迈向通用人工智能的时代。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


全球首位 AI 程序员正式上线,这个月薪只要三千的同事能干什么?

说到「编程」,我们常常会想到那个不太友善的程序员笑话:

虚假的程序员:从零开始编写代码,勤勤恳恳修改、优化、注释;
真正的程序员:熟练掌握「Ctrl + C」和「Ctrl + V」。

▲图源:Laravel

不过,由 Cognition Labs 开发的全球首位 AI 程序员「Devin AI」或许可以让你把「复制粘贴」这一步都省了,你可以直接把 TA 当成你的「程序员同事」,让 TA 帮你干活。

既然被称为「程序员」,那 TA 就不可能白白干活。Devin AI 的服务起价为每月 500 美元(约合 3624 元),还真不算便宜。不过相比之下,这个价格比国内一线大厂程序员的平均工资还是低了不少。

▲图源:COGNITION

Devin AI 实际上是一个由人工智能驱动的编码平台,配备了命令行、代码编辑器和浏览器等常见的开发者工具,它可以在编写代码片段、检测错误和建议改进等方面协助开发人员完成代码编写,几乎覆盖了编程工作的全流程。

值得一提的是,Devin AI 还可以通过机器学习算法分析代码模式,从先前的经验中持续学习,这极大地提高了其编码效率,还能保持与最新编程趋势的同步。

作为一位「编程助理」,Devin AI 可以辅助程序员完成下面的工作:

  • 代码补全:Devin AI 能够通过分析代码上下文和语法预测下一行代码,加快编码效率;
  • 错误检测:Devin AI 可以检测代码中的常见错误和问题,帮助开发人员识别和修复 bug;
  • 代码重构:Devin AI 会提供代码重构建议,能够帮助开发人员编写更简洁、更高效的代码;
  • 代码优化:Devin AI 可以分析代码性能,提出优化建议,以提高速度和效率;
  • 多人协作:Devin AI 甚至可以作为协作工具,允许多个开发人员同时在同一项目上工作。

官方建议,Devin AI 在处理小型前端错误和极端情况、进行针对性的代码重构以及为待办事项列表中的任务创建初稿 PR(Pull Request)等场景下最为实用。

▲图源:SHIFTMAG

当然,作为一位名副其实的「AI 程序员」,除了辅助编程开发以外,TA 还可以「独立完成任务」供开发人员审核。官方介绍 Devin AI 是「一位不知疲倦并且技术娴熟的团队成员」。

据官方介绍,Devin AI 能够自主规划和执行需要数千个决策的复杂工程任务。这也就意味着开发者可以化身「产品经理」,将开发需求和任务等等「告诉」Devin AI,其就可以进行独立的成果产出。

针对这项功能,官方还贴心地给出了 Devin AI 的「使用指南」,就像你平时叮嘱同事一样:

  • 给 Devin AI 分配「你自己知道如何完成」的任务;
  • 告诉 Devin AI 如何测试或者检查自己的工作;
  • 将会话时间保持在大约 3 小时以内,并且尽量将大型任务分解;
  • 提前将你的详细需求告知 Devin AI;
  • 通过在对话中给出反馈、采纳建议的知识,或者手动添加你自己的知识,来强化对 Devin AI 的训练。

▲图源:Xeven Solutions

关于 Devin AI 在具体场景下的表现,官方展示了几个有趣的用例,我们能够从中一窥这位「程序员」有多厉害。

Devin AI 可以学习和使用「不熟悉」的技术。其在阅读了一篇博客文章后,现学现卖,自主编写代码,在 Modal 上运行 ControlNet 并且生成了一张带有隐藏文字「SARA」的图片:


Devin AI 还可以端到端构建和部署应用。在演示中,其根据需求制作了一个模拟「Game of Life」的交互式网站,并且逐步添加了用户提出的功能,然后将这个应用程序部署到 Netlify 中:


Devin AI 甚至可以训练和微调自己的 AI 模型。演示人员仅仅提供了一个指向 GitHub 研究存储库的链接,其就对某个大语言模型进行了「微调」:

此外,Devin AI 还可以实现自动查找和修复代码库中的错误,处理开源仓库中的错误和功能请求等等。

在「SWE-bench」这项「具有挑战性」的基准测试中,Devin AI 正确解决了 13.86% 的问题,远超之前 1.96% 的最佳水平。即使确切给出了需要编辑的文件,之前最好的模型 Claude 2 也只能解决 4.8% 的问题。

令人惊叹的是,Devin AI 甚至已经通过了现实世界的工程师面试,还在流行的自由职业平台「Upwork」上找到了一份工作。

Devin AI 成为「自由职业者」的新闻还曾引起过不小的争议。一位有着几十年软件工程师经验的 YouTube 博主质疑其演示视频造假,表示这些内容是「自导自演」、「无用功」,并且对其实际能力和效率提出了质疑。

无论是不是商业炒作,Devin AI 目前都已经全面推出。真正的编程表现如何,不妨再等等看,交由时间和用户评判。

▲图源:COGNITION

在 Devin AI 正式推出后不久,OpenAI 也宣布推出了 ChatGPT Canvas 的多项更新,其中就包括直接运行 Python 代码功能,更新后的 Canvas 可以根据要求搜索 API 文档,指导模型编写并执行代码,还可以开发小工具和游戏等。

可以看到,即使是规模大如 OpenAI 这样的人工智能企业,也在不断对「AI 编程」加注。在这样的背景之下,我们自然会想到那个「终极」问题:

TA 离取代真正的程序员还有多远?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


苹果首款人工智能芯片曝光,想让 iPhone 的 AI 体验更「丝滑」

继 OpenAI 宣布计划自研 AI 芯片之后,科技巨头苹果近日也传出了其正在与博通(Broadcom)联合研发 AI 芯片的消息。

有趣的是,两家公司针对此事竟给出了几乎相同的理由:尽量避免对英伟达的依赖。实际上,「多元化芯片来源」正是苹果 AI 持续战略的一部分。

博通似乎成为了近期 AI 硬件领域的「香饽饽」,其在短短一个多月之内就与两家 AI 领头羊企业达成合作。据悉,博通已经占据了超八成 AI ASIC 市场,其在 2025 财年的 AI 收入有望达到 170 亿美元以上,同比增速超过 40%。

与苹果的合作消息一出,博通的股价应声上涨 6%,苹果股价也有短暂小幅上涨。这并非两者的首次合作,2023 年五月苹果就曾宣布与博通合作开发 5G 射频组件等等。

▲图源:优分析

据「The Information」报道,苹果 AI 芯片的代号为「Baltra」,将采用台积电先进的 N3P 工艺,计划于 2026 年投入量产。这个时间也与 OpenAI 自研 AI 芯片的量产时间重合。

消息称,Baltra 的设计开发旨在优化 AI 工作负载,增强 AI 和机器学习(ML)功能。这枚芯片将专用于推理任务,以及处理新数据并将其传输给大语言模型(LLMs)以生成输出。

而此次与博通的合作重点,则是将其高性能网络技术与芯片的核心处理能力整合,确保 AI 操作所需的低延迟通信。

▲图源:Crypto Briefing

近日,博通展示了一种先进的 3.5D 系统级封装技术(3.5D XDSiP),能够让制造商超越传统光罩尺寸的限制

具体来讲,3.5D XDSiP 将计算芯片堆叠在一个逻辑芯片上,该逻辑芯片与高带宽内存(HBM)连接,同时将其他 I/O 功能分配到一组单独的芯片上。

与传统的 3.5D 封装技术不同,博通的设计采用了「面对面」的方法,这种方法允许芯片之间通过混合铜键合(HBC)排布更密集的电气接口,从而实现更高的芯片间互连速度和更短的信号路由。

博通的 3.5D XDSiP 技术本质上是一个「蓝图」,客户可以使用它来构建自己的多芯片处理器。巧合的是,博通预计这项技术的第一批部件也将于 2026 年投入生产,这与「Baltra」的投产时间不谋而合。

▲图源:The Register

毫无疑问,这枚芯片最重要的使命,就是为苹果自家的 Apple Intelligence 服务

苹果的原生 AI 功能自发布以来便一直引人关注。苹果原计划直接在设备上运行大部分 AI 功能,但某些功能(如 Siri和 Maps)在云端处理,并且对计算能力有很高的需求,现有的芯片又并非定制。于是,「Baltra」的提案应运而生。

Baltra 是为苹果自己的数据中心而定制设计的,其用于驱动高级 AI 任务,并确保为用户带来「无缝」的 AI 体验。这意味着苹果的 AI 战略已经超出端侧,并纳入了云计算能力。

值得一提的是,苹果刚刚发布了 iOS 18.2 正式版系统,其中新增了多项实用的 AI 功能,包括 ChatGPT 正式登陆苹果全家桶等等。未来,Baltra 将使苹果在其产品生态中部署 AI 时获得性能优势和更大的灵活性。

▲图源:Fast Company

据估计,2028 年 AI 服务器芯片市场规模预计将达到 450 亿美元,而苹果在 AI 服务器芯片市场的定位将会是对现有领导者的极大挑战。

彭博社分析指出,苹果与博通的合作进一步巩固了其在 ASIC 设计中的主导地位,这项合作预计将推动博通在 2025-2026 年之后的 AI 收入增长,并且其有望在苹果供应链中占据更多份额。

此外,自 OpenAI 在 2022 年 12 月发布 ChatGPT 以来,苹果加快了自家服务器芯片的开发工作,以保持其在人工智能领域的竞争力。苹果的目标是在 12 个月内完成「Baltra」芯片的设计。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


清华系 AI 公司面壁智能完成新一轮数亿元融资,CEO 李大海:大模型将从大跃进转向持久战

聚焦端侧大模型的清华系 AI 公司面壁智能,近日获得了新一轮数亿元融资。

APPSO 获悉,本轮融资的领投方为龙芯创投、鼎晖百孚、中关村科学城基金和赛富基金,跟投方为北京市人工智能产业投资基金与清科创投,并由万甲资本担任本轮独家财务顾问。

本轮融资完成后,面壁智能表示,公司将进一步提速以「端侧 AI」为代表的高效大模型商业化布局,以同等参数、更高性能、更低能耗、更快速度的高效大模型深度服务行业,为用户创造「具体可感知」的价值。

面壁智能是一家以「高效为第一性原理」为信条的大模型公司,高效是其团队的内在基因。据悉,面壁团队先于国内所有团队开启大模型研究,并且首批实现了千亿多模态模型的落地,提供了全球领先的端侧智能解决方案。

业务方面,面壁智能团队在多个领域内卓有成效、进展迅速。其不仅将主流消费电子和新兴硬件融入端侧 AI,得益于在自然语言处理方面的技术渊源和优质行业数据的深厚积累,面壁团队还在法律、教育等垂直领域方面有所建树。

面壁智能 CEO 李大海表示,大模型比拼已经进入了「持久战」阶段。此外,他认为面壁智能将在端侧智能领域保持竞争力,并正在建立属于自己的市场地位。

面壁智能成立与 2022 年 8 月,其核心科研成员来自清华大学 NLP 实验室,是国内最早一批做预训练大模型的团队之一,至今已经推出多款人工智能大模型产品:

  • 2023 年 11 月 14 日,面壁智能多模态大模型应用「面壁露卡 Luca」正式面向公众开放服务;
  • 2023 年 11 月 15 日,面壁智能推出基于群体智能的 AI 原生应用「面壁智能 ChatDev」智能软件开发平台,同时将其 CPM 系列基座模型升级为全新一代千亿参数大模型「面壁智能 CPM-Cricket」;
  • 2024 年 2 月,面壁智能发布开源端侧模型「MiniCPM」,是其「大模型+智能体」双引擎战略的关键一步;
  • 2024 年 9 月,面壁智能推出「小钢炮」系列的最新产品「MiniCPM 3.0」。

值得一提的是,2023 年 7 月,面壁智能、人民法院出版社和深圳迪博共同助力深圳中院,正式启用全国首个「司法审判垂直领域大模型」;同年 11 月,面壁智能作为联合研发团队参与的「法信法律基座大模型」在最高法发布,定位为国家级法律人工智能基础设施。

另外,面壁智能正在与华为、联发科技、联想、英特尔、长城汽车和易来智能等行业标杆企业紧密协作,业务覆盖 AI Phone、AIPC、智能座舱、智能家居与具身机器人等领域。

面壁智能预计,GPT-4 水平的端侧模型将在 2026 年年底实现。

本轮融资完成后,李大海发布了面壁智能全员信。附上信件全文如下:

面壁智能的同学们,大家好!

很高兴和大家分享,面壁智能完成了新一轮数亿元融资,这轮融资由龙芯创投、鼎晖百孚、中关村科学城基金和赛富基金联合领投,北京市人工智能产业投资基金与清科创投跟投。

随着这轮融资敲定,我们已站在一个全新的台阶上:将进一步提速以端侧 AI 为代表的高效大模型商业化布局,以同等参数、更高性能、更低能耗、更快速度的高效大模型深度服务行业,为用户创造具体可感知的价值。

过去一年,以成绩说话,我们的小钢炮端侧模型,在全球一炮而红,站稳脚跟。我们基于高效大模型和端侧AI的商业化布局和业务推进,多点开花,进展迅速。

依靠小规模的精益创业团队,我们把MiniCPM推向了端侧 ChatGPT、GPT-4V 时刻;携手华为、联发科技、联想、英特尔、长城汽车、梧桐科技、易来智能等标杆合作伙伴,成为 AIPC、AIPhone、智能座舱、具身机器人等行业创新发展中不可或缺的角色;并且深度参与国家级人工智能基础设施「法信法律基座大模型」的构建。

今天,在中国大模型「6+2」格局里,我们成为极具辨识度和竞争力的代表。在全球范围,面壁也是端侧智能的标杆,上榜《财富》全球人工智能创新 50 强!

这是小钢炮精神的胜利!我们值得骄傲!

同样的时间,更前瞻的判断;同样的资源,更具爆发力的创造;同样的机遇,一杆子捅到底解决行业与客户痛点的决心。

把高效发挥到极致,创造超预期成果,底气来自我们对大模型本质规律的深刻认知,基于高效为第一性原理的研发、产品与组织基因!

走先人一步的路,打以少胜多的仗,这就是响当当的小钢炮精神!

回顾过去一年,我们做对了几件事:

1. 超前认知,以更小的样本,预判技术和产品方向。
2024 年下半年,行业突然形成新共识,更高知识密度的小模型和端侧智能,成为大模型发展的新阶段。如今,因为端侧智能发展的深刻影响,主流消费电子和新兴硬件正演变成一个个在不同场景、执行特定任务的超级智能体,成为新一轮科技创业大风口。
面壁智能提前半年多,在世界范围内前瞻性发现端侧智能内蕴的巨大研究空间和应用潜力。在这个瞬息万变、竞争激烈、又充满想象力的市场里,大举发力端侧模型,打造享誉全球的面壁「小钢炮」MiniCPM,我们成功构建起了基本盘。

2. 技术筑基,以先进技术为基,务实服务垂直行业,快速复用和价值放大。
有一个行业的高质量数据,就能快速赋能一个行业打造基座大模型。面壁发挥在文本基座模型的技术渊源和专业数据的深厚沉淀,今年 7 月,面壁智能、人民法院出版社、深圳迪博共同助力深圳中院,正式启用全国首个司法审判垂直领域大模型, 应用范围已覆盖所有常见民商事案件,行政案件。11 月,面壁智能作为联合研发团队参与的法信法律基座大模型在最高法发布,法信法律基座大模型定位为国家级法律人工智能基础设施。未来,全国数以千计的法院、检察院、司法系统单位,都将能成为我们有所贡献的地方。

3. 以小博大,提出大模型的面壁定律、密度定律,通过大模型科学化越级超越同类产品。
自今年 2 月份面壁「小钢炮」MiniCPM 端侧模型系列面世以来,累计下载突破 300 万,频频登顶全球著名开源社区 GitHub、HuggingFace 的大模型趋势榜单。MiniCPM 不仅在多项基准测试中接连越级领先,还将无限长文本、超清 OCR 识图、实时视频理解等首次集成到端侧,创造多项纪录。
面壁小钢炮以小博大、高效低成本特性,背后是我们坚持大模型科学化,以更本质的模型知识密度(知识密度 = 模型能力 / 参与计算的模型参数)指导技术研发和模型迭代。我们不断创新性提出大模型面壁定律、密度定律等引领性的大模型科学方法论,立志将更高性能的端侧智能技术带入千家万户、千行百业。

所有的领先,往深处都是认知的领先;任何商业竞争,归根结底都是效率的比拼。
高效,不仅是我们企业运营的核心;在商业环境中,也意味着更快的响应速度、更低的成本、更高的产出和更好的客户满意度。
感谢面壁智能的全体同仁,我们正在创造一场极致高效的大模型研发与商业奇迹!
坚韧、顽强,能量十足,面壁小钢炮已经开始震动全球。小钢炮精神,正带领我们走向 AGI 的最终胜利!

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


【404文库】人间三角|苹果:百度你挡住我了

file

大家好,我是本报评论员西坡。今天是2024年12月5日,星期四,阴。懒得读字的朋友,可以“听全文”。

今天的主题是AI。头条新闻:苹果遇到了百度这个槛。

12月4日消息,据外媒报道,援引两位知情人士透露,苹果正与百度进行合作,旨在为中国市场销售的iPhone增添人工智能功能。据悉,双方计划于2025年在中国推出“苹果智能”(Apple Intelligence)功能。

然而,双方在合作过程中遇到了一些障碍。若这些障碍无法妥善解决,或将影响苹果在美国以外第二大市场(中国)提振iPhone销量的期望。

苹果与百度的工程师们正在共同优化后者的大语言模型,以更好地满足iPhone用户的需求。但据一位直接参与该项目的知情人士透露,该模型在理解提示词和对iPhone用户提出的常见场景做出准确回应方面遇到了困难。

此外,双方在是否应使用iPhone用户数据来训练和改进模型的问题上产生了分歧。百度希望保存并分析从进行人工智能相关查询的iPhone用户那里获取的数据。然而,知情人士指出,苹果的隐私政策严格禁止收集此类数据。

CDT 档案卡
标题:苹果:百度你挡住我了
作者:西坡
发表日期:2024.12.7
来源:微信公众号“人间三角”
主题归类:百度
CDS收藏:公民馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

苹果希望利用Apple Intelligence来重振iPhone在中国市场的销量,目前苹果面临国产手机品牌的激烈竞争,国内各大品牌都已纷纷推出AI功能,iPhone 16系列AI仍然没有落地,其进度落后于竞争对手。

有博主把这个事情解读为:“知道百度菜,没想到那么菜”。通读新闻的话,会发现有点对百度不礼貌了。苹果和百度都还没有回应媒体的置评请求。国内AI与国际水平的差距,有复杂的地缘政治原因。工欲善其事,必先利其器。最先进的铲子都买不到,掘金进度落后也是可以原谅的。很难讲换个其他国内供应商就会更好。

不过我要承认,自从得知苹果要和百度合作之后,我突然觉得,我手上的iPhone可能会是我最后一台iPhone了。纯属个人心理因素,请勿联想。对于报道里提到的隐私政策分歧,希望苹果坚持到底。

下一条:Google DeepMind 发布新一代世界模型 Genie 2,可根据一张图生成3D 世界。

官方介绍称,Genie 2是一个基础世界模型,能够生成各种可控制动作、可玩的 3D 环境,用于训练和评估具身代理。基于单个提示图像,人类或 AI 代理可以使用键盘和鼠标输入来玩它。

我建议大家养成关注AI新闻的习惯,你不一定要搞懂每一个专业术语,搞AI的都是理工科同学,从他们给各种大模型命名的方式就能看出来,各种功能介绍也都很抽象。但你可以看看视频,看看解读,从感性上建立对未来AI世界的直觉理解。这种理解对于我们的生活会越来越重要的。

比如关于Genie 2,你可以直接去官网页面感受一下:

让我印象最深刻的是这一段,提示:“一个电脑游戏的图像,展示了粗糙的石洞或矿井内的场景。观众的位置是第三人称相机,位于玩家头像上方,向下看头像。玩家头像是一个持剑的骑士。骑士头像前面有x3石拱门,骑士选择穿过这些门中的任何一个。在第一个和里面,我们可以看到奇怪的绿色植物,隧道里排列着发光的花。在第二个门口的内部和外面,有一条带刺的铁板的走廊,这些铁板被铆钉在洞穴墙壁上,通向更远的不祥的光芒。穿过第三扇门,我们可以看到一组粗糙的石阶上升到一个神秘的目的地。”然后,每一扇门打开,都是一个自动生成的世界。

file

我对未来的世界的预判是,人的外部特征(出身、收入、相貌)将越来越不重要,人的内在特征将会外化,人与人的差距将主要体现在情感能力、感受能力、审美能力、想象能力。每个人的梦想都会实现,但每个人能够提出的梦想是不一样的。

最后一条:特朗普宣布提名贾里德·艾萨克曼领导美国航空航天局(NASA)

贾里德·艾萨克曼(Jared Isaacman)是一位美国企业家、飞行员和私人宇航员。他出生于1983年,并因在科技、航空和太空探索领域的成就而闻名。他是支付技术公司Shift4 Payments的创始人兼首席执行官,同时创立了飞行培训公司Draken International,为军方提供服务。

作为私人航天探索的先驱,他资助并指挥了多次私人太空任务。2021年,他领导了由SpaceX执行的Inspiration4任务,这是历史上首次完全由私人资助、没有政府宇航员参与的载人航天飞行。2024年,他再次领导了Polaris Dawn任务,这次任务达到了1,400公里的高轨道,并完成了多项科学实验和太空行走。他还是一位熟练的飞行员,曾打破轻型喷气机环球飞行的速度记录。

这件事对马斯克的火星计划应该是很大的利好。艾萨克曼表示:“我曾有幸从太空看到我们这个神奇的星球,我对美国引领人类历史上最不可思议的冒险充满热情。”

期待太空竞赛再次开启。我现在看新闻经常有种割裂的感觉,好像一部分人类在往前走,理解宇宙,进入宇宙,创造宇宙,另一部分人则在往回走,满足于像动物一样生存。

今天的新闻就播到这里。欢迎讨论。

用 AI 复制你的个性,两个小时就够了

这是一个可以用 AI 复制「一切」的时代:从你的声音、容貌和表达风格,到你的某些想法或者决策。现在,AI 甚至可以复制你的「个性」,并且还相当准确。

近日,斯坦福大学和谷歌 DeepMind 的研究人员发表的一篇新论文显示,他们用 AI 创建了一个「具有个体态度和行为」的虚拟复制品。

研究人员称之为「通用计算代理」。而用于训练这些「代理」的,仅仅是一次两小时的访谈

▲图源:arXiv

这项研究由由斯坦福大学的博士生朴俊成(Joon Sung Park)牵头。研究人员与某招聘公司合作,并采用分层抽样的方式招募了 1052 名参与者,每一位参与者都用英语完成了一次两小时的语音访谈。

研究人员选择了一个由社会学家开发的采访协议,采访内容包括个人生活故事和对当代社会问题的看法。为了进一步量化访谈内容量,控制实验变量,研究人员将每个受试者的回答字数限制在约 6491 词左右。

值得一提的是,访谈中的面试官也是由 AI 来扮演的。在谈话的大致框架和时间限制内,这些「人工智能面试官」会根据每个参与者的回答动态生成后续的问题。

随后,这些回答就被用来训练每个个体的生成性 AI 模型,即「模拟代理」。

为了验证这些「代理」模仿人类个性的能力,参与者和 AI 代理都被要求完成一系列测试,内容包括性格测试、综合社会调查、五个社会科学实验和五个著名的行为经济学游戏等等。

其中,五个社会科学实验是发表在「美国国家科学院院刊」上的用于评估生成性代理是否能够模拟人类参与者的行为反应的一种常用标准;五个著名的行为经济学游戏则包括独裁者博弈、囚徒困境等。

两周后,参与者需要「复述」以上测试的回答,并用复述后的内容同「代理」生成的回答进行对比分析。结果显示,AI 代理能够以 85% 的准确率模拟参与者的回答,同时在预测五个社会科学实验中的个性特征和结果方面表现出色。

▲图源:香港青年协会

虽然人的「个性」似乎无法量化,但这项研究表明,人工智能的确擅长「以小见大」——它可以通过相对少量的信息推测并准确克隆一个人的「个性」。

这种「代理」的利弊两面都相当明显。好处是其为社会科学学者在研究时提供了更多的自由度。

通过创建行为类似于真实个体的数字复制品,科学家可以直接使用「代理」进行实验或者调查,而无需每次都招募大批志愿者。此外,这些「代理」还能够用来进行一些有关道德伦理的「争议」实验。

麻省理工学院斯隆管理学院的信息技术副教授约翰·霍顿(John Horton)在接受采访时就表示这项研究「使用真实的人类来生成人物角色,然后以编程/模拟的方式使用这些人物角色,而这是真实的人类无法做到的」。

▲图源:TechRadar

坏处则是,这类「代理」将不可避免地被一些别有用心的人用于「身份伪造」,并最终用于「诈骗」。

更加令人担忧的是,「代理」在某种意义上获得了人类的思想和「意识」,甚至能代替本人发表观点。朴俊成博士则预测未来有一天会有一群小版的「你」跑来跑去,并实际上做出你会做出的决定。

其实,「AI 代理」并不是什么处于技术前沿的词汇,在此之前,就有「数字孪生」的类似概念。不过,「代理」仅仅需要如此少的信息量就能准确重现一个人的「个性」,这才是需要注意和警觉的地方。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


前 Android 团队再度聚首,计划开发 AI 时代的「操作系统」

人工智能助理,或者「AI 代理」无疑是近期 AI 领域的热词之一,许多科技公司都已经在这条赛道上押宝。

以移动端为例,苹果为了使其智能助理「Siri」更加聪明,为其接入了大语言模型 ChatGPT,并计划使其拥有感知和理解屏幕内容的能力。

荣耀在不久之前发布的 Magic 9.0 系统则标志着手机正式进入「自动驾驶」时代,其内置的「YOYO 智能体」得益于 AI 内核的加持,还能实现「一句话操控手机」。

▲图源:TechRadar

而在 AI 技术同样深度介入的 PC 端,人工智能助理的能力也不容忽视:Anthropic 在上个月发布的最新 Claude 模型中同步推出了「computer use」功能,旨在代替用户直接与计算机进行交互。

据悉,OpenAI 也有计划入局该领域,将于明年 1 月推出一款名为「Operator」的 AI 代理。OpenAI 首席产品官凯文·韦尔(Kevin Weil)表示让 ChatGPT 具备自主执行任务的能力将是明年 OpenAI 的一大重点。

▲图源:TNCR

在 Android 操作系统出现之前,即使移动平台的前景相当广阔,但作为开发者来讲,在移动设备上构建任何东西都很困难。

对此,前 Google 高管大卫·辛格尔顿(David Singleton)认为在人工智能时代,同样的情况正在上演。他指出「我们可以看到 AI 的前景,但作为开发人员,构建任何好的东西真的很难」。

基于以上理念和考虑,辛格尔顿同前 Google 副总裁雨果·巴拉(Hugo Barra)等人联合创办了 AI Agent 操作系统创企「/dev/agents」。后者于 26 日在 X 上公开宣布了这一消息。

▲图源 :X

/dev/agents 在今年 10 月成立,总部位于美国旧金山,目前已经不再处于隐身状态。正如巴拉在推文中所说,新公司将「回到我们的 Android 根源,为人们和 AI 代理构建一个新的操作系统」。

换句话说,目前开发者缺乏构建 AI 代理的标准工具和系统,而 /dev/agents 计划构建一个统一的、基于云的跨平台操作系统,进而充分实发挥 AI 代理的潜力。公司预计将在明年初到中旬推出其产品的第一个版本。

这相当于一个「通用技术框架」,类似于 iOS 或者 Android 操作系统。此外,该公司还计划使用生成式 AI 提供个性化的用户界面,让人们能够更自然地与硬件设备上的代理进行交互。

▲图源:MakeUseOf

值得一提的是,/dev/agents 的联合创始人们个个来头不小。公司的 CEO 辛格尔顿在谷歌期间领导了安卓核心应用的开发和 Google Store 团队,末期则主要负责可穿戴设备安卓系统。后来离开谷歌,加入了金融科技企业 Stripe。

/dev/agents 的 CPO 巴拉此前在谷歌担任移动业务产品经理,负责移动与安卓业务,后来加入 Android 团队,负责整个安卓生态系统的软硬件业务,一路升至谷歌副总裁的职位。2013 年,巴拉加入小米集团,全权负责其海外业务。

公司的 CTO 和设计负责人分别由费卡斯·柯克帕特里克(Ficus Kirkpatrick)和尼古拉斯·吉特科夫(Nicholas Jitkoff)担任,前者负责安卓 1.0 版本从内核到应用程序所有层级的软件堆栈,后者则是初代安卓语音搜索和操作的负责人。

除了四位联合创始人以外,/dev/agents 还有另外两名员工。巴拉表示「这是一个构建了过去三代操作系统(安卓系统、可穿戴设备和 AR/VR)的团队」。

▲David Singleton(图源:CNBC)

也正是因为如此「豪华」的初创阵容,使得 /dev/agents 已经筹集到了 5600 万美元的种子轮融资,与此同时本轮融资对公司的估值达到 5 亿美元。

领投的风险投资公司「Index Ventures」的合伙人尼娜·阿查吉安(Nina Achadjian)认为创始人的背景是决定投资的核心,并且表示她抓住了支持该公司的机会:

这是一个非常困难的技术问题,也是一个非常大的想法。如果有一个团队来做这件事的话,从头开始构建 Android 和 Stripe 的团队,应该成为这个团队。

联合领投的 Alphabet 的独立成长基金 CapitalG 更是毫不吝啬对四位联合创始人的赞美,称他们是「本世纪每一次重大计算平台转变的先驱」,并且作为投资者,「遇到像这样出色的创始团队确实很少见」。

▲图源:CaptialG

许多投资者相信 AI 代理的功能将会越来越齐全,但同时他们也承认目前仍然没有通用的 AI 基础设施。尽管不少公司正在开发 AI 代理框架的不同部分,但 /dev/agents 的支持者认为,新的第三方操作系统将会成为释放潜力的关键。

另外,辛格尔顿表示 /dev/agents 的商业模式与 Android 的获利方式大致相同,可能会从销售额中分成,或向用户收取订阅费用。他还表示公司计划保持相对灵活的运营模式,类似于 Android 早期。

辛格尔顿在接受彭博社采访时说「我们需要一个类似 Android 的 AI 时刻」,这也是他对 /dev/agents 和人工智能代理的未来愿景。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 将打造「人工智能经济区」,称面对与中国的竞争「别无选择」

OpenAI 在周三由美国战略与国际研究中心在华盛顿特区主办的一次活动上公开了其最新的政策蓝图。

这份蓝图详细地探讨了美国应该如何保持其在人工智能领域的领先地位,以及如何满足 AI 技术所的巨大能源需求。

此外在文件中,OpenAI 还描述了关于人工智能技术的美好愿景,称其为「像电力一样的基础技术」,能够提供大量的就业机会、GDP 增长和投资等,并且「为再工业化提供了一个不容错过的机会」。

当然,其中还包含着令几乎所有美国人都难以抗拒的噱头:「重振美国梦」。

▲图源:PYMNTS

在周三的活动上,OpenAI 的全球事务副总裁克里斯·勒哈恩(Chris Lehane)表示他们花了「大量时间」与拜登政府和特朗普团队讨论人工智能的基础设施需求

特朗普上台后,计划废除拜登关于人工智能的行政命令,称其「阻碍了人工智能创新」;此外,特朗普还承认美国需要扩大能源供给以保持在 AI 领域的竞争力,并建议放宽使用化石燃料和核能的许可要求。

OpenAI 已经明确表示将与由特朗普领衔的新政府就人工智能方面的政策进行合作。

▲Chris Lehane(图源:Q BERLIN)

具体来讲,OpenAI 在政策蓝图中提议建立「北美人工智能联盟」,并制定「北美人工智能契约」,目的是简化 AI 技术中人才、融资和供应链的获取,以及同中国在人工智能方面提出的类似倡议进行竞争。

OpenAI 指出,这一 AI 合作机制将从美国及其邻国开始,然后扩大到美国在全球的盟友网络,其中还包括阿联酋等中东国家。

▲图源:经济观察网

为了激励各州加快人工智能基础设施的许可和审批,OpenAI 还在蓝图中建议美国各州和联邦政府共建「人工智能经济区」。

勒哈恩指出,随着美国进入数字时代,大量的经济收益流向沿海地区,相对「落后」的中西部和西南部则成为了人工智能投资的潜在核心地区——这些地方有土地和能力建设风电场和太阳能电池阵列,还有可能建设核设施

鉴于美国海军运营着约 100 个小型模块化反应堆(SMR)为海军潜艇提供动力,OpenAI 提议利用海军的专业知识建造更多的民用中小型反应堆,以此来提高核能能力。

▲图源:IAEA

勒哈恩还考虑在「拥有大量农业数据」的堪萨斯州和爱荷华州建立一个数据中心,创建一个基于农业的大语言模型或者推理模型。这些设施不仅能够服务社区,还能使其成为「农业人工智能的中心」。

有报道称「中国在 10 年内建成的核电产能相当于美国 40 年建成的核电产能」,并且近年来不断批准增设核反应堆。勒哈恩引用估算数据,表示到 2030 年,美国将需要 50 千兆瓦的能源来支持人工智能行业的需求并与中国竞争。

并且,面对这种竞争,「我们别无选择」,勒哈恩说。

▲图源:Pixabay

此外,由于现有程序无法跟上人工智能驱动的需求,OpenAI 预计还将出台一项「国家传输高速公路法案」,以扩大电力、光纤连接和天然气管道建设,并进一步寻求新的权力和资金来解除传输规划、许可和支付的障碍。

值得一提的是,欧盟也于昨日发布了首个针对通用人工智能(GPAI)模型的「行为准则」草案,其中列出了有关风险管理的指导方针,并为企业提供了遵守规定并避免严厉处罚的蓝图。

在世界各国不断推进人工智能基础设施落地,推动 AI 技术规范化的背景之下,我国应该如何「出招」?尤其是如何保持我们在政策、数据资源和应用场景方面的优势,补全基础理论研究和算力产业方面的短板?

解决这些问题,是我们面对「别无选择」的竞争选择「应战」时,应该拥有的底牌。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


新的阶级依据

Ai 的普及将会诞生更多不求甚解的普信男。
古典的百科全书式人类不会被赛博囚禁。

推论:
新阶级的划分依据是,是否具备物理世界生活常识。

OpenAI 下一代模型遭遇重大瓶颈,前首席科学家透露新技术路线

OpenAI 的下一代大语言模型「Orion」可能遭遇了前所未有的瓶颈。

据 The Information 报道,OpenAI 的内部员工称 Orion 模型的性能提升没有达到预期,与从 GPT-3 到 GPT-4 的升级相比,质量提升要「小得多」。

此外,他们还表示 Orion 在处理某些任务时并不比其前身 GPT-4 更可靠。尽管 Orion 在语言技能上更强,但在编程方面可能无法超越 GPT-4。

▲图源:WeeTech

报道指出,训练高质量文本和其他数据的供应正在减少,这使得找到好的训练数据变得更加困难,从而减缓了大语言模型(LLMs)在某些方面的发展。

不仅如此,未来的训练将更加耗费计算资源、财力甚至电力。这意味着开发和运行 Orion 以及后续大语言模型的成本和代价将变得更加昂贵。

OpenAI 的研究员诺姆·布朗(Noam Brown)最近在 TED AI 大会上就表示,更先进的模型可能「在经济上不可行」:

我们真的要花费数千亿美元或数万亿美元训练模型吗? 在某个时候,扩展定律会崩溃。

对此,OpenAI 已经成立了一个由负责预训练的尼克·雷德(Nick Ryder)领导的基础团队,来研究如何应对训练数据的匮乏,以及大模型的扩展定律(scaling laws)将持续到什么时候。

▲Noam Brown

扩展定律(scaling laws)是人工智能领域的一个核心假设:只要有更多数据可供学习,并有更多的计算能力来促进训练过程,大语言模型就能继续以相同的速度提升性能。

简单来说,scaling laws 描述了投入(数据量、计算能力、模型大小)和产出之间的关系,即我们对大语言模型投入更多资源时,其性能提升的程度。

举例来讲,训练大语言模型就像在车间生产汽车。最初车间规模很小,只有几台机器和几个工人。这时,每增加一台机器或一个工人,都能显著提高产量,因为这些新增资源直接转化为生产能力的提升。

随着工厂规模的扩大,每增加一台机器或工人带来的产量提升开始减少。可能是因为管理变得更加复杂,或者工人之间的协调变得更加困难。

当工厂达到一定规模后,再增加机器和工人可能对产量的提升非常有限。这时,工厂可能已经接近土地、电力供应和物流等的极限,增加的投入不再能带来成比例的产出增加

而 Orion 的困境就在于此。随着模型规模的增加(类似增加机器和工人),在初期和中期,模型的性能提升可能非常明显。但到了后期,即使继续增加模型大小或训练数据量,性能的提升也可能越来越小,这就是所谓的「撞墙」。

一篇近期发表在 arXiv 上的论文也表示,随着对公共人类文本数据需求的增长和现有数据量的有限性,预计到 2026 年至 2032 年之间,大语言模型的发展将耗尽现有的公共人类文本数据资源。

▲图源:arXiv

即使诺姆·布朗指出了未来模型训练的「经济问题」,但他还是对以上观点表示反对。他认为「人工智能的发展不会很快放缓」。

OpenAI 的研究人员也大都同意这种看法。他们认为,尽管模型的扩展定律可能放缓,但依靠优化推理时间和训练后改进,AI 的整体发展不会受到影响。

此外,Meta 的马克·扎克伯格、OpenAI 的山姆·奥特曼和其他 AI 开发商的首席执行官也公开表示,他们尚未达到传统扩展定律的极限,并且仍在开发昂贵的数据中心以提升预训练模型的性能。

▲Sam Altman(图源:Vanity Fair)

OpenAI 的产品副总裁彼得·韦林德(Peter Welinder)也在社媒上表示「人们低估了测试时计算的强大功能」。

测试时计算(TTC)是机器学习中的一个概念,它指的是在模型部署后,对新的输入数据进行推理或预测时所进行的计算。这与模型训练阶段的计算是分开的,训练阶段是指模型学习数据模式和做出预测的阶段。

在传统的机器学习模型中,一旦模型被训练好并部署,它通常不需要额外的计算来对新的数据实例做出预测。然而在某些更复杂的模型中,如某些类型的深度学习模型,可能需要在测试时(即推理时)进行额外的计算。

例如,OpenAI 所开发的「o1」模型就使用了这种推理模式。实际上,整个 AI 产业界正将重心转向在初始训练后再对模型进行提升的模式

▲Peter Welinder(图源:Dagens industri)

对此,OpenAI 的联合创始人之一伊利亚·苏茨克弗(Ilya Sutskever)最近在接受路透社采访时承认,通过使用大量未标记数据来训练人工智能模型,以使其理解语言模式和结构的预训练阶段,其效果提升已趋于平稳

伊利亚表示「2010 年代是扩展的时代,现在我们再次回到了探索和发现的时代」,并且指出「扩大正确的规模比以往任何时候都更加重要」。

Orion 预计将在 2025 年推出。OpenAI 将其命名为「Orion」而非「GPT-5」,这也许暗示着一场新的革命。虽然暂时受理论限制而「难产」,我们仍然期待着这个拥有新名字的「新生儿」能给 AI 大模型带来新的转机。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 总裁宣布回归!结束「最长假期」,将专注重大技术挑战

OpenAI 联合创始人兼总裁格雷格·布罗克曼(Greg Brockman)在离开公司三个月后,重新回到了职位上。

这位前高管在 X 上发帖称「一生中最长的假期结束了」,并宣布回归 OpenAI。OpenAI 的发言人证实了这一消息。

▲图源:X

据知情人士透露,布罗克曼在周二给员工的内部备忘录中宣布,他已正式重新开始在 OpenAI 工作。

此外,布罗克曼还在备忘录中表示自己一直在与公司 CEO 山姆·奥特曼(Sam Altman)合作,正为他设立一个新角色,以专注于重大的技术挑战。

▲Greg Brockman(图源:CNBC)

实际上,OpenAI 的两位联合创始人布罗克曼和奥特曼一直是形影不离的「密友」。

2023 年 11 月 17 日,时任 OpenAI 首席执行官的奥特曼突然被解雇,原因是他与董事会之间的「沟通破裂」。同时,布罗克曼被告知他将被从董事会主席的职位上撤下,但仍保留总裁职位。

然而,布罗克曼对董事会的指示表示「感到悲伤」,并选择辞职以表示抗议。2023 年 11 月 20 日,两人宣布将加入微软,领导一个新的 AI 研究团队。

戏剧性的是,次日 OpenAI 就宣布和奥特曼达成了原则性协议,奥特曼将重返公司担任 CEO。

▲Sam Altman(图源:CNBC)

同样从 OpenAI 离职的首席科学家伊利亚·苏茨克弗(Ilya Sutskever)和首席技术官米拉·穆拉蒂(Mira Murati)则分别成立了人工智能初创公司 Safe Superintelligence(SSI)和 Fathom。

值得一提的是,后者最近正在向 OpenAI 的员工抛出橄榄枝,邀请他们加入自己的新公司。

据 The Information 报道,穆拉蒂不仅成功挖来了 OpenAI 的研究项目经理米安娜·陈(Mianna Chen),还拉拢了前模型训练后处理负责人巴雷特·佐夫(Barret Zoph)和前高级研究员卢克·梅茨(Luke Metz)加盟。

▲Mira Murati(图源:CNN)

这表明 OpenAI 的离职潮还在继续。最近从 OpenAI「出走」的高管属实不少,其中不乏一些「元老」:
  • 安全副总裁翁荔(Lilian Weng)
  • 首席技术官(CTO)米拉·穆拉蒂(Mira Murati)
  • 首席研究官鲍勃·麦格鲁(Bob McGrew)
  • 研究副总裁巴雷特·佐夫(Barret Zoph)
  • 联合创始人约翰·舒尔曼(John Schulman)
  • 研究员卢克·梅茨(Luke Metz)
  • 研究员安德烈·卡帕西(Andrej Karpathy)

而在今年 8 月宣布「休假至年底」的元老之一布罗克曼选择在时隔许久之后重新回到老东家,同奥特曼再次聚首。两位巨头将继续共同引领 OpenAI 的下一步发展。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


黄仁勋两万字访谈实录:希望英伟达拥有 5 万名员工和 1 亿个 AI 助手

NVIDIA(英伟达)公司 CEO 黄仁勋近期做客「Open Source」双周对话,同 Brad Gerstner 与 Altimeter 合伙人 Clark Tang 一起探讨了与关于推动智能向通用人工智能(AGI)发展的主题。

在 AI 和机器学习领域深耕多年,黄仁勋对 AI 发展现状和前景的评价一针见血:这是一场彻底的革命。

推理迎来爆炸式增长,开源模型需求量爆棚,完整兼容的 AI 基础设施不断落地……这个 AI 大行其道的时代,黄仁勋大胆构想,希望未来的英伟达能够拥有 5 万名员工和 1 亿个 AI 助手。

当谈及英伟达在当今 AI 世界的竞争壁垒和定位时,黄仁勋对自身优势十分自信清醒,同时也有着不小的野心:英伟达最擅长的是算法,我们的使命是为新世界构建一个无处不在的计算平台。

当然,有别于争夺市场份额,这颗野心只关乎「开拓」。

在时长近一个半小时的访谈中,黄仁勋眼光犀利地剖析了机器学习如何重塑计算世界,AI 如何带来前所未有的技术革命,并最终掀起巨大的革命浪潮。此外,还涉及 AI 的安全性和开源争议等话题。

看似高冷的皮夹克之下,是黄仁勋对 AI 领域的炽热初心:我会认真对待工作,认真对待责任,认真对待社会贡献以及我们所处的时代。

本次访谈的信息密度相当之大,对于 AI 行业的探讨也前所未有的深入,不容错过!

原访谈视频链接:

我们对黄仁勋在本次访谈中的主要观点做了简要梳理,如下:

  • 个人 AI 助手将很快出现,并且会随时间不断进化;
  • 我们已经从人类编程转向了机器学习,整个技术栈都在实现创新和增长;
  • 促进 AI 的加速进化,需要对「飞轮」的每个部分都进行加速;
  • 未来的计算(应用程序开发)将高度依赖机器学习和 AI,并且会有智能体来帮助人类使用这些应用程序;
  • AI 不会取代工作,它将改变工作,并将对人们如何看待工作产生深远影响;
  • AI 的安全是基础,不一定需要为每一项重要技术单独立法,也不能让监管过度扩展到不必要的领域;
  • 必须有开源模型来推动 AI 的创建,开源对于许多行业的激活是必要的;

以下是由 APPSO 编译的访谈全文:

从人类编程转向机器学习

Brad Gerstner:现在是 10 月 4 日星期五,我们在英伟达总部,就在 Altimeter 街下。我们将在周一召开年度投资者会议,讨论 AI 的所有影响,以及我们在智能扩展速度上的进展。

我真的想不出比你更合适的人来开启这个话题了,你既是股东,也是我们的智囊伙伴,和你一起探讨想法总能让我们变得更加明智。我们对这段友谊表示感激,所以感谢你的到来。

黄仁勋:很高兴来到这里。

Brad Gerstner:今年的主题是将智能扩展到通用人工智能(AGI)。

令人震撼的是,两年前我们做这个的时候,主题是 AI 时代,而那是在 ChatGPT 发布前两个月。想到这一切变化,真的是让人惊讶。所以我想我们可以以一个思想实验来开始,也许还可以做个预测。

如果我把通用人工智能(AGI)简单理解为我口袋里的个人助手,正如我所理解的那样,它知道我所有的事情,拥有关于我的完美记忆,能够与我沟通,可以为我预订酒店,甚至可以为我预约医生。在你看来,今天这个世界的变化速度如此之快,你认为我们什么时候能够拥有这种口袋里的个人助手?

黄仁勋:很快会以某种形式出现。那个助手会随着时间的推移变得越来越好。这就是我们所了解的技术的美妙之处。所以我认为,刚开始时它会非常有用,但并不完美。然后随着时间的推移,它会变得越来越完美。就像所有技术一样。

Brad Gerstner:当我们观察变化速度时,我记得 Elon 曾说过,唯一重要的事情是变化速度。我们确实感到变化的速度大大加快了,这是我们在这些问题上见过的最快的变化速度,因为我们在 AI 领域已经研究了大约十年,而你甚至更久一些。在你的职业生涯中,这是你见过的最快的变化速度吗?

黄仁勋:是的,因为我们重新发明了计算。这些变化很大程度上是因为我们在过去 10 年内将计算的边际成本降低了 10 万倍。如果按照摩尔定律计算,这个过程大约是 100 倍的提升,但我们做到了远远超过这一点。我们通过几种方式实现了这一目标。

首先,我们引入了加速计算,将在 CPU 上效率不高的工作转移到 GPU 上。

其次,我们发明了新的数值精度,开发了新的架构,设计了集成核心,改进了系统的构建方式,NVLink 增加了超快的内存(HBM),并通过 NVLink 和 InfiniBand 实现了全栈扩展。基本上,所有我描述的关于英伟达做事方式的细节,都促成了超越摩尔定律的创新速度。

现在,真正令人惊叹的是,正因为如此,我们从人类编程转向了机器学习。

而机器学习最令人惊讶的地方在于,事实证明它的学习速度非常快。所以,随着我们重新定义计算的分布方式,我们进行了多种形式的并行处理:张量并行、流水线并行,以及各种各样的并行计算方式。我们在这一基础上发明了新算法,并开发了新的训练方法。所有这些发明都在彼此之间产生了复合效应。

回到过去,如果你看看摩尔定律当时的运作方式,会发现软件是静态的。它被预设为像包装好的产品一样静态存在,然后硬件则以摩尔定律的速度发展。而现在,我们是整个技术栈在增长,整个栈都在进行创新,我认为这就是现状。

现在突然之间我们看到了惊人的扩展,当然,这是非凡的变化。但我们以前讨论的是预训练模型以及在这个层面上的扩展,如何通过将模型大小翻倍,适当地将数据量也翻倍。

因此,每年所需的计算能力都会增加 4 倍。这当时是个大事。但现在我们看到了在后训练阶段的扩展,也看到了推理阶段的扩展,对吧?人们过去常认为预训练很难,而推理相对容易。

现在一切都变得很难,这种观点其实是合理的,毕竟将所有人类的思维都归结为一次性完成的过程是荒谬的。所以思维一定存在快思维和慢思维、推理、反思、迭代、模拟等概念,而现在这些概念正在逐渐融入进来。

Clark Tang:我认为,就这一点而言,关于英伟达最被误解的一件事就是英伟达的真正技术优势有多大,对吧?我认为外界有一种看法,认为一旦有人发明了一种新芯片或者更好的芯片,他们就赢了。

但事实是,过去十年你们一直在构建完整的技术栈,从 GPU 到 CPU,再到网络,尤其是那些让应用程序能够在英伟达平台上运行的软件和库。你认为今天英伟达的技术优势比三到四年前更大还是更小?

黄仁勋:我很感谢你意识到计算已经发生了变化。事实上,人们之所以认为(现在很多人仍然这么认为)设计一款更好的芯片就行了,是因为它有更多的浮点运算能力(flops),有更多的翻转、字节和位,你懂我的意思吗?你看他们的主题演讲幻灯片,上面都是这些翻转和浮点运算,还有各种条形图、图表之类的。

这些都很好,我的意思是,性能当然很重要,所以这些基本上确实很重要。然而,不幸的是,这是老旧的思维方式。因为那时的软件只是在 Windows 上运行的某个应用程序,软件是静态的,这意味着你能改进系统的最好方式就是制造越来越快的芯片。

但我们意识到,机器学习不是人类编程。机器学习不仅仅是关于软件,它是关于整个数据通路的。事实上,机器学习的核心飞轮(flywheel)是最重要的东西。那么,你是如何考虑在推动这个飞轮的同时,让数据科学家和研究人员能够在这个飞轮中高效工作的?而这个飞轮从最最初的阶段就开始了。

许多人甚至没有意识到,实际上需要 AI 来整理数据,来教导另一个 AI。而仅仅这个 AI 本身就已经相当复杂了。

▲个人 AI 助手将很快以某种方式出现(图源:NITCO)

加速飞轮的每一步

Brad Gerstner:那它本身也在改进吗?它是否也在加速?你知道,当我们再一次思考竞争优势时,对吧?这实际上是所有这些因素的组合效应。

黄仁勋:完全正确,正是因为更智能的 AI 来整理数据,现在我们甚至有了合成数据生成以及各种不同的数据整理和呈现方式。所以在你进行训练之前,就已经涉及到大量的数据处理。而人们总是想到 PyTorch 是整个世界的起点和终点。

它确实非常重要,但不要忘了,在使用 PyTorch 之前有大量的工作,使用 PyTorch 之后也有大量工作。而关于飞轮的概念,实际上是你应该思考的方式。你知道,我应该怎么去思考整个飞轮?我该如何设计一个计算系统,一个计算架构,帮助你让这个飞轮尽可能高效运转?这并不是一个应用训练的单一步骤,对吧?这只是其中一步,好吗?

飞轮的每一步都很困难,所以你应该首先思考的不是如何让 Excel 更快运行,也不是如何让「毁灭战士」更快运行,那是过去的老路,对吧?

现在你需要考虑的是如何让这个飞轮更快。而这个飞轮包含了很多不同的步骤,正如你们所知道的,机器学习没有什么是简单的,OpenAI 所做的事情,或者 X 所做的事情,或者 Gemini 团队和 DeepMind 所做的事情,都没有什么是简单的。

因此我们决定,这才是你应该真正思考的。这是整个过程,你需要加速每一个部分。你要尊重阿姆达(Amdahl)定律,阿姆达定律会告诉你,如果这个部分占用了 30% 的时间,我将它加速了 3 倍,我并没有真的将整个过程加速太多,明白吗?

你真的需要创建一个能加速每一步的系统,只有通过加速整个过程,你才能真正显著改善这个循环时间,而那个学习速率飞轮,最终就是导致指数式增长的原因。

所以我要说的是,一个公司的观点实际上会反映在它的产品上。注意,我一直在谈论这个飞轮。

Clark Tang:你是说整个周期。

黄仁勋:没错,而且我们现在加速了一切。现在的主要焦点是视频。很多人都专注于物理 AI 和视频处理。试想一下前端,每秒有数 TB 的数据进入系统。给我举个例子,说明处理这些数据的管道是如何运行的,从数据摄取到准备进行训练的全过程,而这一切都是 CUDA 加速的。

Clark Tang:现在人们只在思考文本模型,但未来还包括视频模型,同时使用一些文本模型,比如 o1,来在我们开始处理之前先处理大量的数据。

黄仁勋:语言模型将会涉及到每一个领域。行业花费了大量技术和精力来训练语言模型,来训练这些大型语言模型。现在我们在每一步都使用更低的计算成本。这真的非常了不起。

Brad Gerstner:我不想过于简单化这个问题,但我们确实经常从投资者那里听到这样的问题,对吧?是的,但定制化芯片呢?是的,但他们的竞争壁垒会不会因此被打破?

我听到你所说的是,在这个组合系统中,优势是随着时间增长的。所以我听你说,我们今天的优势比三四年前更大,因为我们在改进每一个组件。而这种组合效应,意味着你知道,比如作为一个商业案例研究,英特尔曾经在技术栈中占据主导地位,而你们今天相对他们而言处于什么位置?

也许可以简单概括一下,比较一下你们今天的竞争优势与他们在巅峰时期的竞争优势。

黄仁勋:英特尔是非凡的。英特尔之所以非凡,是因为他们可能是第一家在制造工艺工程和生产方面极其出色的公司,而在制造工艺的基础上更进一步的是设计芯片,对吧?他们设计了芯片,构建了 x86 架构,并且不断制造更快的 x86 芯片。这是他们的聪明之处。他们将这一点与制造工艺加以结合。

我们的公司稍微有些不同,因为我们认识到,事实上,平行处理并不需要每个晶体管都非常完美。串行处理要求每个晶体管都必须完美无缺,而平行处理需要大量的晶体管以实现更高的成本效益。

我宁愿要多 10 倍的晶体管,速度慢 20%,也不愿要少 10 倍的晶体管,速度快 20%。明白吗?他们则更喜欢相反的选择,因此单线程性能和单线程处理与平行处理非常不同。所以我们意识到,实际上我们的世界并不是追求往下做得更好。我们想做到尽可能的好,但我们的世界真正关心的是如何往上做得更好。

并行计算、并行处理很难,因为每个算法都需要根据架构以不同的方式重构和重新设计。人们没有意识到的是,你可以有三种不同的 CPU,它们都有各自的 C 编译器,你可以把软件编译到相应的 ISA(指令集架构)上。这在加速计算中是不可能的,在并行计算中也是不可能的。

开发出架构的公司必须开发出自己的 OpenGL。所以我们彻底改变了深度学习,因为我们有一个特定领域的库,叫做 CUDNN。没有 CUDNN,就没有今天的深度学习。

没有人谈论 CUDNN,因为它是在 PyTorch 和 TensorFlow 之下的一层。早期还有 Caffe 和 Theano,现在有 Triton,还有很多不同的框架。那个特定领域的库,像 CUDNN,还有 Optics,一个特定领域的库叫做 CuQuantum,Rapids,还有其他很多库。

Brad Gerstner:行业特定的算法就位于那个大家都关注的 PyTorch 层之下,比如我经常听到人们说,如果没有这些底层库的话……

黄仁勋:如果我们没有发明它,任何顶层的应用程序都无法运行。你们明白我在说什么吗?从数学上讲,英伟达真正擅长的是算法,它融合了上层的科学与下层的架构,这是我们真正擅长的。

▲黄仁勋在访谈中

我们已经进入推理时代

Clark Tang:现在所有的关注点终于集中到了推理上。但是我记得两年前,Brad 和我和你共进晚餐时,我们问你一个问题:你认为英伟达在推理领域的技术优势会像在训练领域一样强大吗?

黄仁勋:我肯定说过,它会更强大。

Clark Tang:你刚才提到了很多因素,比如模块化组合,不同组合的总成,有时我们并不完全了解。对于客户来说,能够在这些之间灵活切换非常重要。但你能不能再谈谈,现在我们已经进入了推理时代。

黄仁勋:推理就是大规模的推理训练,对吧?所以,如果你训练得好,那么很有可能你的推理也会很好。如果你在这种架构上进行训练而没有任何调整,它将能够在这种架构上运行。

当然,你依然可以为其他架构进行优化,但至少,因为它已经是在英伟达的架构上构建的,所以它能够在英伟达的架构上运行。

另一个方面,当然,还有资本投资方面的问题。当你训练新模型时,你会希望使用最新最好的设备进行训练,而这会留下之前使用过的设备。而这些设备非常适合用于推理。因此,会有一条免费的设备路径。

新的基础设施背后有一条免费的基础设施链,这些设备与 CUDA 兼容。所以我们非常严谨,确保整个过程的兼容性,这样我们留下的设备依然能够保持卓越性能。

同时,我们也投入了大量精力,不断重新发明新的算法,以确保当时机来临时,Hopper 架构的性能会比刚购买时提升 2 到 4 倍,从而让基础设施继续保持高效。

所以,我们在改进新算法、新框架方面所做的所有工作,不仅帮助了我们每一个安装的基础架构,Hopper 因此变得更好,Ampere 也因此变得更好,甚至 Volt 也因此变得更好。

我记得 Sam 刚刚告诉我,他们最近刚从 OpenAI 退役了他们的 Volt 基础设施。所以,我认为我们留下了这些安装基础架构的痕迹。正如所有计算基础架构一样,安装基础架构是很重要的。

英伟达的产品遍布每一个云端、内部部署,直到边缘设备。因此,在云端创建的 Vela 视觉语言模型无需修改便能完美运行于边缘的机器人上。这一切的底层都是 CUDA。所以,我认为架构兼容性的概念对大型项目非常重要。这和 iPhone 或其他设备的兼容性概念没有什么不同。

我认为,安装基础架构对推理非常重要,但我们真正受益的是,因为我们在新的架构上训练这些大型语言模型时,我们能够思考如何创造出在未来非常优秀的推理架构。

所以我们一直在思考迭代模型和推理模型,如何为你的个人智能体创造非常交互性的推理体验,比如当它需要停下来思考一段时间时,如何快速与你互动。

所以,我们是如何实现这一目标的?答案是 NVLink。你知道,NVLink 让我们能够使用这些适合训练的系统,但当训练完成后,它的推理性能也非常卓越。你希望优化的是首次 Token 的响应时间,而实现首次 Token 的响应时间非常困难,因为这需要大量的带宽。

如果你的上下文也非常丰富,那么你还需要大量的计算能力。因此,你需要在同一时间拥有无限的带宽和计算能力,才能实现几毫秒的响应时间。而这种架构非常难以实现。为此,我们发明了 Grace Blackwell NVLink。

▲NVIDIA Blackwell 架构(图源:NVIDIA)

英伟达正在构建完整的、兼容的 AI 基础设施

Brad Gerstner:你知道,我这周早些时候和 Andy Jassy 共进晚餐,Andy 说:「我们有 Tranium,还有即将到来的 Inferencia」。我认为大多数人,还是认为这些对于英伟达是个挑战。

但紧接着他说「英伟达是我们一个非常重要的合作伙伴,而且未来还将继续是我们非常重要的合作伙伴,至少在我所能预见的未来」。

世界依靠英伟达运行,对吧?所以,当你想到这些为特定应用开发的定制 ASIC,比如 Meta 的推理加速器,或者 Amazon 的 Tranium,或者 Google 的 TPUs,还有你当前面临的供应短缺问题时,这些因素会改变你们之间的动态,还是说它们只是对你们系统的补充?

黄仁勋:我们只是在做不同的事情,我们试图实现不同的目标。英伟达正在尝试为这个新世界构建一个计算平台,这个机器学习的世界,这个生成式 AI 的世界,这个智能体 AI 的世界。

我们想要创造的是,经过 60 年的计算,我们重新发明了整个计算栈,从编程到机器学习的方式,从 CPU 到 GPU 的软件处理方式,从软件到人工智能的应用方式,对吧?软件工具、人工智能——计算栈的每个方面,技术栈的每个方面都发生了变化。

我们想要做的是创建一个无处不在的计算平台,这实际上是我们工作的复杂性所在。如果你思考我们在做什么,我们是在构建一个完整的 AI 基础设施,我们把它看作是一台计算机。

我以前说过,数据中心现在是计算的基本单位。对我来说,当我思考一台计算机时,我不是在想那块芯片,我是在想这个概念:它是我的心智模型,里面包括所有的软件、编排和所有的机械部分。这是我的使命,这是我的计算机,我们每年都在试图构建一台全新的计算机。

是的,这太疯狂了,之前没有人这么做过。我们每年都在尝试构建一台全新的计算机,而且每年我们都交付两到三倍的性能提升。每年我们都会将成本降低两到三倍,每年我们都会将能效提高两到三倍。

所以我们告诉客户,不要一次性购买所有设备,每年购买一点,好吗?原因是,我们希望他们能够逐步进入未来,所有的架构都是兼容的,好吗?

现在,仅仅以这样的速度构建这个平台就已经非常难了,而双倍的难度在于,我们不仅要销售基础设施或服务,而是把它们拆解开来,然后将它们集成到 GCP 中,集成到 AWS 中,集成到 Azure 中,集成到其他平台中,明白吗?

每个平台的集成都不一样。我们必须把所有的架构库、所有的算法和所有的框架集成到他们的系统中。我们把我们的安全系统集成到他们的系统中,我们把我们的网络集成到他们的系统中,对吧?然后我们每年进行大概 10 次这样的集成。而这就是奇迹所在。

Brad Gerstner:这就是奇迹所在,为什么?我的意思是,这太疯狂了。你每年都在做这些事,这真的很疯狂。想一想,是什么驱动你每年都这样做的?

然后再说到这一点,你知道 Clark 刚从中国台湾、韩国和日本回来,见了你所有的供应合作伙伴——那些你已经有十多年合作关系的伙伴。这些合作关系对于构建那个竞争壁垒的组合效应有多重要?

黄仁勋:是的,当你系统性地分解时,大家越是分解,就越会感到惊讶,整个电子行业生态系统今天是如何致力于与我们合作,最终构建出这个计算机的立方体,并将其整合到所有不同的生态系统中的?而且协调是如此无缝。显然,我们向后传递了 API、方法学、业务流程和设计规则,向前传递了方法学、架构和 API。

Brad Gerstner:这些已经被强化了几十年。

黄仁勋:强化了几十年,同时也在不断演进。但这些 API 在需要的时候必须整合在一起——所有这些在中国台湾和世界各地制造的东西,最终会落到 Azure 的数据中心。它们会组合到一起。

Clark Tang:有人只需要调用 OpenAI API,它就能正常工作。

黄仁勋:没错,完全是那种疯狂的感觉。这就是我们发明的东西,我们发明了这个庞大的计算基础设施,整个世界都在和我们一起构建它。

它被整合到了各个领域,你可以通过戴尔销售它,可以通过惠普(HPE)销售它,它托管在云端,也延伸到了边缘设备。人们现在在机器人系统中使用它,在人形机器人中使用它,它们在自动驾驶汽车中使用,它们都在架构上兼容,这真的非常疯狂。

Clark,我不希望你误以为我没有回答你的问题,事实上,我已经回答了。我所指的与你的 ASIC 相关的问题是这样的。

我们作为公司,只是在做不同的事情。作为一家公司,我们希望能够对环境有清晰的认知。我对我们公司及其生态系统周围的一切都非常清楚,对吧?

我知道所有在做不同事情的人以及他们在做什么。有时候,这对我们来说是对抗性的,有时候不是。我对此非常清楚。但这并不会改变我们公司的目标。公司唯一的目标就是构建一个可以无处不在的架构平台,这就是我们的目标。

我们并不想从任何人那里抢占市场份额。英伟达是市场的开拓者,而不是份额的争夺者。如果你看我们的公司报告,你会发现我们从来不谈市场份额,从来没有一天我们会在公司内部谈论市场份额。

我们所有的讨论都是关于如何创造下一个东西?我们如何解决飞轮中的下一个问题?我们如何为人们做得更好?我们如何将过去需要一年的飞轮周期缩短到一个月?你知道,这相当于飞轮的光速,不是吗?我们在思考所有这些不同的问题,但有一件事是确定的,我们对周围的一切都有清醒的认识,但我们对自己的使命非常明确。

唯一的问题是,这个使命是否必要,是否有意义。所有伟大的公司都应该有这样的使命。

从根本上讲,问题是你在做什么?唯一的问题是,它是否必要,是否有价值,是否有影响力,是否能帮助到别人?我非常确定,如果你是一名开发者,一家生成式 AI 初创公司,正在决定如何成为一家公司,你唯一不需要考虑的选择就是支持哪个 ASIC。

如果你只支持 CUDA,那么你可以在任何地方使用它,你以后随时可以改变主意,但我们是进入 AI 世界的入口,不是吗?一旦你决定进入我们的平台,其他决策都可以延后,你以后随时可以开发自己的 ASIC,我们对此毫不介意。

当我与 GCP 合作时,GCP、Azure 等公司,我们会提前几年向他们展示我们的路线图。他们不会向我们展示他们的 ASIC 路线图,这也不会冒犯我们,明白吗?如果你的目标明确且有意义,并且你的使命对你自己和他人都很重要,那么你就可以保持透明。

注意,我的路线图在 GTC 上是公开的,而我的路线图在 Azure、AWS 等合作伙伴那里会更深入。我们在这些方面没有任何困难,即使他们正在开发自己的 ASIC。

▲NVIDIA 的使命是构建完整兼容的 AI 基础设施(图源:The Brand Hopper)

AI 正在改变行业未来

Brad Gerstner:我觉得,当人们观察这个行业时,你最近说过,对 Blackwell 的需求是「疯狂的」。你还说,工作中最难的一部分就是在这个计算资源短缺的世界里,忍受对别人说「不」所带来的情感负担。

但批评者说,这只是一个时间节点,他们认为这就像 2000 年思科过度建设光纤一样,将会经历繁荣与萧条。你知道,我想到 2023 年年初我们一起吃饭的时候,当时的预测是英伟达 2023 年的营收会达到 260 亿美元,但你们实际做到了 600 亿,对吗?

黄仁勋:承认吧,这是世界上有史以来最大的预测失败。

Brad Gerstner:那时候我们在 2022 年 11 月特别激动,因为像来自 Inflection 的 Mustafa 和来自 Character 的 Noam 等人来到我们办公室讨论投资他们的公司。他们说,如果你们不能直接投资我们的公司,那就买英伟达吧,因为全世界都在争相获得英伟达的芯片,用来构建那些将要改变世界的应用。

当然,随着 ChatGPT 的出现,这一「寒武纪时刻」到来了。然而,即便如此,这 25 位分析师仍然沉迷于「加密寒冬」,无法想象世界上正在发生的事情,对吧?所以最终结果远超预期。

你明确表示,对 Blackwell 的需求非常疯狂,并且未来会一直如此。当然,未来是未知且不可知的,但为什么批评者的看法错得如此离谱?这不会像 2000 年思科那样成为过度建设的局面。

黄仁勋:思考未来的最佳方式是从基本原理推理出来,对吧?所以问题是,我们现在在做的事情的基本原理是什么?第一,我们在做什么?我们在做什么?我们正在重新发明计算,不是吗?

我们刚刚说过,未来的计算将高度依赖机器学习,对吗?我们几乎所有的应用程序,无论是 Word、Excel、PowerPoint、Photoshop、Premiere、AutoCAD,无论你给我举什么例子,所有这些都是手工设计的。我向你保证,未来这些都会高度依赖机器学习,不是吗?

并且,在这些工具之上,你还会有智能体来帮助你使用它们。

所以,到现在为止,这已经是个事实了,对吧?我们重新发明了计算,我们不会回头。整个计算技术栈正在被重新定义。

好了,现在我们已经做到了这一点,我们说软件将会不同,软件的编写方式将会不同,使用软件的方式也会不同。所以,让我们承认这些是我的基本事实。是的,那么问题来了,接下来会发生什么?

那么让我们回顾一下,过去的计算是怎么做的。我们有一万亿美元的计算机设备。看看过去的数据中心,打开门看看,你会说那些是你想要用来面对未来的计算机吗?答案是否定的。

你看到那些 CPU,我们知道它能做什么,不能做什么。我们也知道现在有价值一万亿美元的数据中心需要现代化。因此,眼下,如果我们要在未来四五年内进行现代化改造,那是完全合理的,也是明智的。

Brad Gerstner:所以我们已经在和那些需要进行现代化改造的人沟通,他们正在使用 GPU 进行现代化改造,没错。

黄仁勋:我的意思是,让我们做个假设。你有 500 亿美元的资本支出,你会选择 A 选项:为未来建设资本支出,还是 B 选项:按照过去的模式建设资本支出?你已经有了过去的资本支出,就在那里放着,反正它不会变得更好。

摩尔定律基本上已经结束了,所以为什么要重建呢?我们只需要把这 500 亿美元投入到生成式 AI 中,不是吗?这样你的公司就会变得更好。那么你会把这 500 亿中的多少投入进去?我会把 100% 的 500 亿都投入进去,因为我已经有了四年的旧基础设施。

所以现在,从基本原理出发,你只是从这个角度来推理,而这正是他们正在做的事情。聪明的人在做聪明的事情。

现在第二个部分是这样的:我们有一万亿美元的容量要去建设,对吧?一万亿美元的基础设施,可能投入了 1500 亿美元,对吧?所以我们在未来 4 到 5 年内要建设一万亿美元的基础设施。

我们观察到的第二点是,软件的编写方式不同了,而未来软件的使用方式也会不同。我们将会有智能体,不是吗?

我们公司将会有数字员工,他们会在你的收件箱里,在未来,这些小点点、小头像会变成 AI 的图标,不是吗?我会向他们发送任务。我不再用 C++ 编程了,我会用提示词来「编程」AI,不是吗?这和我今天早上写了一堆邮件没有什么不同。

我给我的团队下达了指示,对吧?我描述了背景,说明了我知道的基本限制,并描述了他们的任务。我会给他们足够的方向感,让他们明白我需要什么,我希望对预期结果尽可能明确。但我也会留出足够的创造空间,让他们可以给我带来惊喜,不是吗?

这和我今天如何提示 AI 没有什么不同,这正是我提示 AI 的方式。所以在我们现代化改造的基础设施之上,将会有一个全新的基础设施。这套新基础设施就是将操作这些数字人的 AI 工厂,它们会全天候地运行。

我们将在全球所有的公司中拥有它们,在工厂中拥有它们,在自动化系统中拥有它们,对吗?所以这个世界需要建立一整层计算结构,我称之为 AI 工厂的基础设施,这些现在还不存在。

所以问题是,这个规模有多大?目前我们还无法知道,可能是几万亿美元的规模,但美妙的是,现代化改造的数据中心架构与 AI 工厂的架构是相同的。

Brad Gerstner:这就是美妙之处。你已经说得很清楚了,你有一万亿美元的旧基础设施需要现代化改造,同时至少还有一万亿美元的新 AI 工作负载正在到来,今年大约会有 1250 亿美元的收入。

你知道,曾经有人告诉你们这家公司永远不会超过 10 亿美元的市值。而如今你坐在这里,如果你只占到了几万亿总市场(TAM)的 1250 亿收入,有什么理由让你认为你们未来的收入不会是现在的 2 倍、3 倍?有什么理由让你们的收入不会继续增长?

黄仁勋:没有,没错。你知道,这并不是关于现在的事情。公司只会受到「池塘」大小的限制,你知道,金鱼只能长到与池塘相匹配的大小。

所以问题是,我们的池塘有多大?这需要很多想象力,这也是为什么市场开拓者会思考未来,而不是只在现有的池塘里竞争。

如果你只是回顾过去、试图抢占市场份额,这很难看清未来。市场份额的争夺者只能做到这么大,而市场的开拓者可以变得非常大。所以,我认为我们公司的幸运之处在于,从公司成立的第一天起,我们就必须为自己创造市场空间。

人们当时没有意识到这一点,但我们几乎从零开始创造了 3D 游戏 PC 市场。我们基本上发明了这个市场以及所有相关的生态系统,包括显卡的生态系统。我们发明了这一切。所以,创造一个全新的市场来服务它,对我们来说是一件非常熟悉的事情。

▲Brad Gerstner(左)和 Clark Tang(右)在访谈中

不可思议的 OpenAI 和 X.AI

Brad Gerstner:没错,作为一个发明了新市场的人来说,这确实如此。让我们稍微转移话题,谈谈模型和 OpenAI。你知道,OpenAI 这周筹集了 65 亿美元,估值达到约 1500 亿美元。我们都参与了这次融资。

黄仁勋:真的为他们感到高兴,真的很高兴这一切顺利达成。是的,他们做得很棒,团队也表现得非常出色。

Brad Gerstner:有报告称他们今年的收入或收入运行率大约是 50 亿美元,明年可能达到 100 亿美元。如果你看今天的业务规模,它的收入大约是谷歌在 IPO 时的两倍。

他们有 2.5 亿的每周活跃用户,我们估计这是谷歌 IPO 时用户量的两倍。而如果你看它的业务倍数,如果你相信他们明年能达到 100 亿美元收入,那么他们的市值大约是明年收入的 15 倍,这和谷歌和 Meta 在 IPO 时的倍数差不多,对吧?当你想到这家公司 22 个月前还没有任何收入和每周活跃用户时,这非常惊人。

黄仁勋:Brad 对历史有着不可思议的掌握。

Brad Gerstner:当你想到这一点时,和我们谈谈 OpenAI 作为你们的合作伙伴,以及它在推动公众对 AI 的认知和使用方面的重要性。

黄仁勋:嗯,这是我们时代最具影响力的公司之一。这是一家纯粹的 AI 公司,追求通用人工智能(AGI)的愿景。

无论 AGI 的定义是什么,我几乎不认为它的定义完全重要,也不相信时间节点的重要性。我所知道的一件事是,AI 将在未来的时间里不断展现出一系列能力。这些能力的发展路线图将会非常惊人。在到达任何人所定义的 AGI 之前,我们就会将其广泛应用。

你现在要做的就是去和数字生物学家、气候科技研究人员、材料研究人员、物理科学家、天体物理学家、量子化学家对话。你可以去找视频游戏设计师、制造工程师、机器人专家,选择你喜欢的行业,深入其中,和那些重要的人对话,问他们,AI 是否彻底改变了他们的工作方式?然后你把这些数据点带回来,再问问自己,你到底有多怀疑?

因为他们不是在谈论 AI 未来某天的概念性好处,他们正在谈论现在就使用 AI。无论是农业科技、材料科技、气候科技,选择你想要的科技领域或科学领域,它们正在进步,AI 正在帮助他们推进他们的工作。

就在我们说话的这一刻,每个行业、每家公司、每所大学都在使用 AI,难以置信,不是吗?它绝对会在某种程度上改变商业,我们知道这一点,对吧?我的意思是,这种变化是如此真实,正在发生。所以我认为 ChatGPT 所引发的 AI 觉醒完全是不可思议的。我喜欢他们的速度和他们推动这一领域的单一目标,所以它真的非常具有影响力。

Brad Gerstner:他们构建了一个可以为下一代模型融资的引擎。我认为硅谷的共识正在增加,即整个模型层正在逐渐商品化,Llama 让很多人可以以非常低的成本构建模型。

所以一开始,我们有很多模型公司,比如 Character、Inflection、Cohere、Mistral 等等。很多人质疑这些公司是否能够达到经济引擎的「逃逸速度」,继续为下一代模型提供资金。我的感觉是,这也是为什么我们看到市场的整合,对吧?

显然,OpenAI 已经达到了那个「逃逸速度」,他们可以为自己的未来融资。但对我来说,不清楚的是,很多其他公司能否做到这一点。这是否是对模型层现状的一个公平概述?就像我们在其他许多市场中看到的一样,市场领导者会有一个经济引擎和应用来让他们继续投资。

黄仁勋:首先,模型和人工智能之间有一个根本区别,对吧?模型是人工智能的一个必要但不足的组成部分,对吧?人工智能是一种能力,但为了什么?应用是什么?

自动驾驶汽车的人工智能与人形机器人的人工智能有关,但它们并不相同。它们与聊天机器人的人工智能有关,但也不相同,对吧?所以你需要理解这个栈的分类。在栈的每一层都会有机会,但并不是每一层都有无限的机会。

我刚刚说了一些话,你所需要做的就是把「模型」一词替换为「GPU」。事实上,这是我们公司 32 年前的重大发现——GPU 图形芯片与加速计算之间有一个根本区别。加速计算与我们在 AI 基础设施中所做的工作不同,虽然相关,但并不完全相同。它们是建立在彼此之上的,但并不完全相同。每一层抽象都需要完全不同的技能。

一个非常擅长构建 GPU 的人,可能完全不知道如何成为一家加速计算公司。有很多人在构建 GPU,而我们发明了 GPU,但今天并不是只有我们一家在制造 GPU,对吧?世界上有很多 GPU,但并不是所有的公司都是加速计算公司。而且有很多加速器应用程序,但这与加速计算公司不同。例如,一个非常专门的 AI 应用程序可能会非常成功。

Brad Gerstner:这就是 MTIA。

黄仁勋:没错,但它可能不会成为一个具有广泛影响力和能力的公司。所以你必须决定你想处于哪个位置。在这些不同的领域可能都有机会,但就像建立公司一样,你必须注意生态系统的变化,以及哪些东西随着时间推移被商品化,分清楚什么是功能、什么是产品、什么是公司,这是一定的。好吧,我刚刚谈到了很多不同的思路。

Brad Gerstner:当然,还有一个新加入者拥有资金、聪明才智和雄心,那就是 X.AI,对吧?外界有报道称,你和 Larry 以及 Elon 共进了晚餐。他们说服你放弃了 10 万个 H100s,他们去了孟菲斯,在几个月内建立了一个大型的超级计算集群。

黄仁勋:首先三个点不在一条线上,我和他们共进了晚餐,因果关系仅仅就是这样。

Brad Gerstner:你怎么看他们构建超级计算集群的能力?外界还在讨论他们想要再增加 10 万个 H200s 来扩展这个超级集群的规模。

首先,和我们谈谈 X 公司的雄心壮志以及他们已经取得的成就。同时,我们是否已经进入了 20 万或 30 万个 GPU 集群的时代?

黄仁勋:答案是肯定的。首先要承认他们的成就是应得的。从概念阶段到数据中心的建成,并准备好让英伟达的设备进驻,到我们供电、连接设备并进行首次训练,这一过程。

首先,建造这样一个庞大的工厂,采用液冷技术、完成能源供应、获得许可,并在这么短的时间内完成。我是说,这简直是超人的成就。就我所知,全世界只有一个人能做到这一点,埃隆·马斯克在工程、建筑、大型系统和资源调配方面的理解是独一无二的,简直难以置信。

当然,他的工程团队也非常出色,软件团队、网络团队、基础设施团队都很棒。埃隆对此有着深入的理解。从我们决定启动项目的那一刻起,我们的工程团队、网络团队、基础设施计算团队、软件团队都进行了充分的准备。

然后,所有的基础设施、物流以及当天进入的数据量和设备量,还有英伟达的基础设施和计算技术,一切都在 19 天内完成了训练。

你知道这意味着什么吗?有谁睡觉了吗?24 小时不停地工作,毫无疑问,没有人睡觉。首先,19 天的时间真是不可思议,但如果退一步思考,这只是短短几周。你能看到的技术设备数量简直令人难以置信。

所有的布线和网络连接,与英伟达设备的网络连接与超大规模数据中心的网络连接完全不同。一个节点上的电线数量,计算机背部全都是电线。仅仅是把这座技术高峰整合起来,再加上所有的软件,简直难以置信。

所以我认为埃隆和他的团队所做的事情非常了不起,我也很感激他认可我们在工程和规划方面与他们的合作。但他们所取得的成就是独一无二的,前所未有。

为了让你更好地理解,10 万个 GPU,毫无疑问,这是地球上速度最快的超级计算机。这只是一个集群。通常你建造一台超级计算机需要三年时间来规划,对吧?然后交付设备并花一年时间让它全部运行起来。而我们在谈论的是 19 天。

▲ChatGPT 所引发的 AI 觉醒是不可思议的(图源:artnet)

推理将迎来爆炸式增长

Clark Tang:英伟达平台的优势是什么呢?它的整个流程都已经经过强化,对吧?

黄仁勋:是的,一切都已经在运行。当然,还有一大堆 X 算法、X 框架和 X 堆栈,我们还需要进行大量的集成。但它的前期规划非常出色,仅仅是预规划就已经令人印象深刻了。

Brad Gerstner:Elon 是独一无二的存在,但你刚刚回答时提到,20 万到 30 万个 GPU 集群已经存在了,对吧?它能扩展到 50 万个吗?它能扩展到 100 万个吗?你们产品的需求是否取决于这些集群能否扩展到百万级?

黄仁勋:最后一个问题的答案是否定的。我的看法是,分布式训练必须起作用,我认为分布式计算将会被发明出来,某种形式的联邦学习和分布式、异步计算将会被发现。我对此非常有信心,也非常乐观。

当然,需要意识到的是,过去的扩展法则主要是关于预训练。现在我们已经进入了多模态,我们开始了合成数据生成。后训练阶段的扩展变得非常快,合成数据生成、奖励系统、基于强化学习的训练都发展迅速。现在推理阶段的扩展也达到了极限。

这个想法是,在模型回答问题之前,它已经进行了 10000 次内部推理,这可能并不夸张。它可能已经进行了树搜索,可能已经基于这个问题进行了强化学习,可能进行了某种模拟,肯定进行了大量反思,可能查阅了一些数据和信息,对吧?所以它的上下文可能相当庞大。

我想,这种智能就是我们正在做的,不是吗?这就是我们正在做的。所以,如果你对这种扩展进行计算,将模型规模和计算规模每年扩展 4 倍,再加上使用需求不断增长……

我们是否认为我们需要数百万个 GPU?毫无疑问,是的。这是目前的一个确定性问题。那么问题是,我们如何从数据中心的角度来架构它?这在很大程度上取决于数据中心是一次性达到千兆瓦级,还是每次 250 兆瓦?我的看法是,这两种情况都会出现。

Clark Tang:我觉得分析师总是关注当前的架构选择,但我认为从这次对话中最大的收获之一就是,你们是在思考整个生态系统,以及未来多年的发展。

因此,英伟达扩展规模,不论是纵向还是横向扩展,都是为了应对未来,而不是仅仅依赖一个有 50 万或 100 万个 GPU 集群的世界。到分布式训练真正到来时,你们已经编写了支持它的软件。

黄仁勋:没错,记住我们和合作伙伴在大约七年前开发的 Megatron。如果没有它,这些大规模训练任务的扩展是不可能的。我们发明了 Megatron,我们发明了 Nickel、GPU Direct,还有我们通过 RDMA 所做的所有工作,这使得流水线并行处理变得更加容易。

所有的模型并行处理,所有分布式训练的分解、批处理等所有这些技术,都是因为我们做了早期的工作,现在我们也在为未来的下一代技术做准备。

Brad Gerstner:那么我们来谈谈 Strawberry 和 o1 吧。

首先,我觉得他们把 o1 命名为 o1 签证是很酷的,对吧?o1 签证是为了吸引全球最优秀、最聪明的人才来到美国,我知道我们都对此深有热情。

我非常喜欢这个想法,建造一个能思考、推动我们走向智能扩展新高度的模型,向那些通过移民来到美国的天才致敬,正是他们成就了今天的我们。

黄仁勋:肯定是一种外星智能。

Brad Gerstner:当然,这个项目是由我们的朋友 Noah Brown 领导的,他曾参与 Pluribus 和 Cicero 的工作,都是 Meta 的项目。推理时间推理作为一个完全新的智能扩展维度,与仅仅构建更大模型的方式截然不同,这有多重要?

黄仁勋:这非常重要,极其重要。很多智能无法预先完成,你知道吗?甚至很多计算都不能预先重新排序。乱序执行可以提前完成,但很多事情只能在运行时完成。

所以无论是从计算机科学的角度来看,还是从智能的角度来看,很多东西都需要上下文和情境,你所寻找的答案类型有时简单的快速答案已经足够了,而答案的后果取决于你使用这个答案的性质。

所以有些答案可以花一个晚上思考,有些答案可能需要一周的时间,对吧?我完全可以想象,我给我的 AI 发送一个提示词,告诉它,想一晚上,不要立刻告诉我,对吧?我想让你整晚思考,然后明天早上告诉我你最好的答案,并为我推理分析。

因此,我认为智能的分层,从产品角度来看,会有一次性的版本,也会有一些需要五分钟来完成的。

Brad Gerstner:这个智能层能够将这些问题与合适的模型和使用场景相匹配。昨晚我们在使用先进的语音模式和 o1 预览版,我正在辅导我儿子的 AP 历史考试,感觉就像世界上最好的 AP 历史老师坐在你旁边一起思考这些问题,真是非凡的体验。

黄仁勋:我的导师现在是 AI。

Brad Gerstner:当然,他们今天已经存在了。这也回到了这个话题,你知道,你们今天有超过 40% 的收入来自推理。但推理将因为「推理链」而迎来爆炸式增长,对吧?

黄仁勋:推理的增长将会是十亿倍的。

Brad Gerstner:翻倍,再翻十亿倍。

黄仁勋:对。这是大多数人还没有完全理解的部分。这正是我们之前谈论的行业变革,这是工业革命。

Brad Gerstner:这是智能的生产,对吧?

黄仁勋:它将增长十亿倍。

Brad Gerstner:大家都高度关注英伟达,认为它主要是用于更大模型的训练。是不是这样,如果你们今天的收入有 50% 来自训练,那么未来推理的规模将远远超过训练。训练固然重要,但推理的增长将会远超训练的增长,我们希望如此,几乎不可能有其他情况。

黄仁勋:我们希望如此,是的,上学是好事,但最终目标是你能在社会中有所贡献。所以训练这些模型是好的,但最终目标是要让它们产生影响。

Brad Gerstner:你们是否已经在使用「推理链」和类似 o1 的工具来改进你们自己的业务?

黄仁勋:我们今天的网络安全系统离不开我们自己的智能体。我们有智能体帮助设计芯片,如果没有这些智能体,Hopper 芯片就不可能实现,Blackwell 也不可能实现,Rubin 就更不用说了。

我们有 AI 芯片设计师、AI 软件工程师、AI 验证工程师,而且我们都是在公司内部开发的,因为我们有这个能力,我们更愿意利用这个机会自己探索这项技术。

▲推理的增长将会是十亿倍的(图源:NVIDIA)

我们需要更高效,更安全的 AI

Brad Gerstner:你知道,今天我走进这栋楼时,有人走过来对我说,你知道,问问 Jensen 关于文化的事情,一切都与文化有关。我看着你们的业务,我们谈了很多关于适应性和效率的事情,扁平化的组织结构可以快速执行,小团队运作。

你知道,英伟达在这个领域独树一帜,每位员工平均创造了大约 400 万美元的收入,每位员工大约创造了 200 万美元的利润或自由现金流。你们建立了一种效率文化,真正释放了创造力、创新力、责任感和主人翁意识,你打破了传统的职能管理模式。大家都喜欢谈论你有多少直接汇报的员工。

AI 的利用是否是让你们在保持高度创造力的同时保持高效的关键?

黄仁勋:毫无疑问。我希望有一天,英伟达今天有 32000 名员工,我们在以色列有 4000 个家庭,我希望他们一切安好。我希望有一天英伟达会成为一个拥有 50000 名员工和 1 亿个 AI 助手的公司。

在每个团队中,我们都会有一个 AI 目录,里面有一批擅长做各种事情的 AI。我们还会有一个收件箱,里面充满了我们合作过并且知道很擅长我们技能领域的 AI 目录。因此,AI 会招募其他 AI 来解决问题。AI 也会在 Slack 频道中互相交流。

Brad Gerstner:并且与人类一起合作。

黄仁勋:和人类一起合作。所以我们将会是一个庞大的员工群体,一部分是数字化和 AI,一部分是生物学上的人类员工,我希望未来还有一些是机电一体化的员工。

Brad Gerstner:从商业角度来看,我认为这常常被误解。你刚刚描述了一家公司,它的产出相当于拥有 15 万员工的公司,但实际上你只用了 5 万员工。你并没有说你要裁掉所有员工,你仍在增加员工数量,但这家公司的产出将会显著增加,对吧?

黄仁勋:这是经常被误解的地方。AI 不会取代工作,它将改变每一个工作。AI 将对人们如何看待工作产生深远影响,这一点我们必须承认,对吧?

AI 有可能带来巨大的好处,也有可能造成伤害,我们必须构建安全的 AI,没错,这一点必须作为基础。但是被忽视的部分是,当公司利用人工智能提高生产力时,它很可能会带来更好的收益或更好的增长,或者两者兼而有之。而当这发生时,CEO 的下一封邮件不太可能是裁员通知。

Brad Gerstner:当然,因为公司在增长。

黄仁勋:是的,原因是我们有比我们能够探索的更多的想法,我们需要人们来帮助我们思考,然后再去自动化这些想法。而自动化的部分,AI 可以帮助我们实现。

显然,它也会帮助我们进行思考,但我们仍然需要去弄清楚我们想要解决什么问题。我们可以解决无数的问题,但公司必须选择那些最需要解决的问题,然后找到一种方式来实现自动化并扩大规模。

因此,随着我们变得更高效,我们将会雇佣更多的人。人们常常忘记这一点。如果回顾历史,显然我们今天有比 200 年前更多的想法。这也是 GDP 和就业增长的原因,尽管我们一直在疯狂地进行自动化。

Brad Gerstner:这正是我们进入这一时期的重要点,几乎所有的人类生产力和繁荣都是过去 200 年技术和自动化的副产品。你可以回顾一下,从亚当·斯密到熊彼特的创造性破坏,过去 200 年人均 GDP 的增长图表,它不断加速发展。这让我想到一个问题。

如果你看 90 年代,美国的生产力增长率大约是每年 2.5% 到 3%。然后到了 2000 年代,它放缓到大约 1.8%。而过去十年,是记录上生产力增长最慢的时期。这指的是我们在固定的劳动力和资本投入下的产出增长,是我们有记录以来最慢的。

许多人对此进行了讨论。但如果世界如你所描述的那样,并且我们将利用和制造智能,那么我们是否正处于人类生产力即将出现巨大扩展的边缘?

黄仁勋:这是我们的希望。这是我们的希望,当然,你知道,我们生活在这个世界中,因此我们有直接的证据,对吧?我们有直接的证据,比如个别研究人员利用 AI,现在可以在前所未有的规模上探索科学,这就是生产力的体现。

或者我们设计出如此复杂的芯片,并以如此快的速度完成设计,而公司的员工规模并没有以相同速度增长,这也是生产力的体现,对吧?我们开发的软件也越来越好,因为我们在利用 AI 和超级计算机帮助我们,而员工数量几乎是线性增长的。

这又是一个生产力的证明。所以无论我深入到哪个行业,我都可以自我检查,我可以亲自验证这些表现是否普遍存在。毫无疑问,智能是世界上最有价值的资源,而现在我们将大规模生产它。

我们都必须学会如何在周围都是 AI 的环境中生活,这些 AI 能够非常出色地完成任务,甚至比我们更好。当我反思这一点时,我发现这就是我的生活。

我有 60 个直接汇报的下属,对吧?他们都是各自领域的世界级人才,做得比我好得多。我和他们合作没有任何问题,我也没有问题去指导他们、与他们沟通。因此,我认为人们将要学到的是,他们都将成为 AI 智能体的 CEO。

他们需要拥有创造力、决心,以及一些知识,知道如何分解问题,从而能够编程这些 AI 来帮助他们达成目标,就像我管理公司一样。

Brad Gerstner:你提到了一个问题,就是关于对齐、安全 AI 的讨论。你也提到了中东正在发生的悲剧。你知道,现在世界的不同地方都有很多自主性和 AI 的应用。

所以我们来谈谈不良行为者、安全 AI,以及与华盛顿的协调问题。你现在的感受如何?我们是否走在正确的道路上?我们的协调是否足够?我记得马克·扎克伯格曾说,战胜坏 AI 的方式是让好 AI 变得更好。你会如何描述我们如何确保 AI 对人类有积极净效益,而不是让我们陷入一个无目的的反乌托邦世界?

黄仁勋:关于安全的讨论非常重要,也很有意义。抽象的观点,即将 AI 视为一个大型的神经网络,这种看法就不太好。而原因是,我们知道,人工智能和大语言模型虽然相关,但并不相同。

现在有很多正在进行的工作,我认为非常出色。第一,开放源代码模型,使得每个行业、每家公司和整个研究界都能接触到 AI,并学习如何利用这种能力来应用于他们的领域。非常好。

第二,AI 的发展技术力量正在专注于发明如何使 AI 更加安全。AI 被用来筛选数据、筛选信息、训练其他 AI,创造出对齐的 AI,生成合成数据的 AI,扩展 AI 的知识,减少幻觉的 AI,以及所有被创造出来的用于矢量图像、图形等 AI,来告知和监控其他 AI 的系统,这些用于创建安全 AI 的 AI 系统还没有得到足够的认可。

Brad Gerstner:这些系统已经被构建出来了。

黄仁勋:对,我们正在建造这些系统,整个行业的所有人都在这样做。包括红队测试、流程控制、模型卡、评估系统、基准系统等等,所有这些安全机制正在以惊人的速度被构建出来。这些努力还没有得到应有的赞誉,你们懂的。

Brad Gerstner:是的,目前没有任何政府法规要求你们这样做。这是当前行业中的参与者们正在严肃对待这些关键问题,并围绕最佳实践进行协调。

黄仁勋:完全正确,这些努力没有得到足够的认可,也没有被充分理解。人们需要开始讨论 AI 作为一个由多种 AI 组成的系统,以及它作为一个经过良好工程设计的系统的本质。

关于监管,我们要记住,AI 是一种能力,它可以应用于很多领域。不一定需要为每一项重要技术单独立法,但是也不能让监管过度扩展到不必要的领域。

大部分的监管应该针对具体的应用来进行,例如 FAA(联邦航空管理局)、NIH(美国国立卫生研究院)、FDA(美国食品药品监督管理局)等机构已经在管理技术应用了,现在他们需要开始管理包含 AI 的技术应用。

因此,不要误解这一点,不要忽视我们将需要激活的现有大量监管体系。不要仅依赖一个全球 AI 委员会,因为每个监管机构的设立都是有原因的。这些不同的监管机构存在的原因,就是为了应对不同的挑战。让我们再次回到基本原则。

▲Clark Tang 在访谈中

AI 开源推动行业激活

Brad Gerstner:如果我不回到开放源代码这个问题上,我的伙伴 Bill Gurley(编者注:本场访谈 Bill 缺席)可能会责怪我。你们最近发布了一个非常重要、非常强大的开源模型。显然,Meta 也在为开源做出重大贡献。

我在读 Twitter 时发现,关于开放与封闭的讨论非常热烈。你怎么看待开源,尤其是你们自己的开源模型与前沿技术保持同步的能力?这是第一个问题。

第二个问题是,拥有开源模型以及为商业运营提供动力的封闭模型,这是否是你们未来的愿景?这两者是否能为 AI 安全创造一种健康的张力?

黄仁勋:开源与闭源的讨论与安全性有关,但不仅仅是关于安全性。例如,拥有闭源模型作为经济模型的引擎来维持创新,这是完全没有问题的,我对此全心全意支持。

我认为,将问题单纯地定义为闭源对抗开源是一种错误的思维方式。应该是闭源和开源,对吧?因为开源对许多行业的激活是必要的。

如果现在没有开源,所有这些不同的科学领域如何能够在 AI 上激活?因为他们必须开发自己的领域专属 AI,并且他们需要利用开源模型来创建领域专属 AI。这两者是相关的,但并不相同。

仅仅因为你有一个开源模型,并不意味着你就拥有了 AI。因此,你必须有开源模型来推动 AI 的创建。所以,金融服务、医疗保健、交通运输,以及许多其他领域的科学和行业,都是因为开源的推动而得以激活的。

Brad Gerstner:难以置信,你们的开源模型需求量很大吧?

黄仁勋:我们的开源模型?当然,Llama 的下载量,对吧?显然,Mark(扎克伯格)和他的团队所做的工作,令人难以置信,需求量爆棚,彻底激活了每个行业和每个科学领域。

我们创建 Nemotron 的原因是为了合成数据生成。直觉上,认为某个 AI 会一直循环生成数据来学习自己,听起来似乎不太可靠。你能在那个无限循环里转多少圈,这值得怀疑。不过,我的心中有一个形象,就像把一个超级聪明的人关在一个软包房里,一个月后再出来,可能并不会变得更聪明。

但是,如果有两三个人在一起讨论,我们有不同的 AI 模型,拥有不同的知识分布,能够相互问答、来回交流,那么我们三个人都会变得更聪明。所以 AI 模型之间相互交换、互动、来回讨论、辩论,进行强化学习和合成数据生成,这个想法直观上是有意义的。

因此,我们的 Nemotron 350B、340B 是世界上最好的奖励系统模型。它是最好的批评性模型,确实非常出色。所以,这是一个增强所有其他模型的奇妙工具,不论其他模型多么优秀,我都建议使用 Nemotron 340B 来进行增强,让它变得更好。而我们已经看到 Llama 变得更好,所有其他模型也因此受益。

▲Meta 在为开源做出重大贡献(图源:Linkedin)

AI 是一场彻底的革命

Brad Gerstner:作为在 2016 年交付首台 DGX-1 的人,这段旅程真的太不可思议了。你的旅程既不寻常又令人惊叹。你成功度过了最初的艰难时期,这本身就非同寻常。

你在 2016 年交付了第一台 DGX-1,我们在 2022 年迎来了这个「寒武纪时刻」。所以我想问一个我经常被问到的问题,那就是,你觉得你现在的工作状态还能持续多久?

你有 60 个直接汇报的下属,你无处不在,推动着这场革命。你享受这个过程吗?有没有其他你更想做的事情?

黄仁勋:你这是在问过去一个半小时的感受吗?答案是:很棒。我度过了一段非常愉快的时光,完全无法想象还有什么事情比这更值得我去做。

让我想想,我不认为应该让人觉得我们的工作总是充满乐趣。我的工作并非总是有趣的,我也不期望它总是有趣的。工作是否应该总是有趣?我认为重要的是工作总是重要的。我不会太把自己当回事,但我非常认真对待工作。我非常认真地对待我们的责任,认真对待我们对社会的贡献,以及我们所处的时代。

这总是有趣的吗?不,但我是否总是热爱它?是的,就像所有事情一样,无论是家庭、朋友、孩子,是否总是充满乐趣?不,但我们是否总是深深地爱着他们?绝对是。

我能做多久?真正的问题是,我能保持相关性多久?这个问题的答案只有通过另一个问题来回答:我将如何继续学习?今天我更加乐观了,我并不是因为我们今天的讨论而这么说。因为 AI 的出现,我对自己保持相关性和继续学习的能力更加乐观。我每天都在使用它。我不知道你们是否也使用,但我每天都在使用它。

没有一项研究不涉及 AI,即使我知道答案,我也会用 AI 来核对。令人惊讶的是,接下来我问的两三个问题,往往能揭示一些我不知道的事情。

你可以选择你感兴趣的主题,我认为 AI 作为导师、AI 作为助手,AI 作为一个可以一起头脑风暴的伙伴,来检查我的工作。伙计们,这真的是一场彻底的革命。而我是一名信息工作者,我的输出是信息。

所以我认为 AI 对社会的贡献是非凡的。如果我能像这样保持相关性,并继续做出贡献,我知道这份工作足够重要,值得我继续追求。而我的生活质量也是不可思议的。

Brad Gerstner:我无法想象,如果错过这个时刻会怎样。你我已经在这个行业工作了几十年,而这是我们三十年来最重要的时刻。我们对这段合作深表感谢。

黄仁勋:不要错过接下来的十年。

Brad Gerstner:非常感谢你们的思想交流,你让我们变得更明智。谢谢你,我认为你作为领导者,在乐观且安全地引领未来方面发挥了非常重要的作用。

黄仁勋:感谢你和我们在一起。我真的很享受,真的很感谢,感谢 Brad,感谢 Clark。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


字节最新技术一键「迁移」表情神态,人人都是演技派

近日,字节跳动和清华大学在 GitHub 上联合推出了一款最新的人像动画技术「X-Portrait 2」。

具体来讲,X-Portrait 2 是一款「生成式人像转移模型」,其使用方法非常直观和简单:用户只需要提供一张静态肖像图和一段含有表情变化的「表演」视频,这个技术就能一键将表情「迁移」至肖像上面,从而使前者也「动起来」。

就像下面这样:

可以看到,左下角是「静态肖像」,右下角则是「表演视频」,而 X-Portrait 2 的功能就是让左边的角色做出同右边人物几乎一模一样的表情

除了「表情」以外,就连「神态」也几乎是像素级复刻:

眉眼和笑容之中所包含的「狡黠」和「顽皮」,全部都精准地呈现出来了。

头部扭动幅度较大的情况下,X-Portrait 2 也完全可以胜任,表情也并未失真:

一个比较「务实」的使用场景,是它可以用来「对口型」,有时可以配合后期修改台词的需要:

不仅复刻精准,并且也足够流畅自然。发布者也因此将其称为「极具表现力的肖像动画」。

显然,这个模型能够实现跨风格和跨领域的表情转移,覆盖写实肖像和卡通图像;并且适应性较强,能够用于包括现实世界的故事讲述、动画角色的呈现、虚拟代理以及其他视觉效果。

在电影或者动画的后期特效制作方面,X-Portrait 2 无疑大大简化了现有的动作捕捉、角色动画和内容创作流程。

相较于其原型 X-Portrait,X-Portrait 2 的升级和创新谓之「进化」都不为过。

X-Portrait 2 采用了一个更先进的表情编码器,这个编码器在大规模数据集上进行训练,其能够更精确地捕捉和再现人物的微妙表情,包括嘟嘴、鼓腮和皱眉等细节,还原了表情的复杂性,并提升了其真实感。

同时,X-Portrait 2 实现了外观和动作的有效分离,这意味着在迁移表情时,原始图像的外观特征得以保留,表情变化不会影响人物的基本面貌,提高了动画的自然程度和一致性。

值得一提的是,X-Portrait 2 还创新地引入了生成式扩散模型,这种模型能够处理不同视角下的表情变化,生成更加流畅和真实的动画效果,解决了传统方法在视角变化时可能出现的表情不协调问题。

此外,X-Portrait 2 还增强了跨领域的表情迁移能力以及动画的真实感和动态表现力。

和早先发布的同类竞品——Runway 的 Act-One 相比,X-Portrait 2 也毫不逊色。同样是「Nice 老爷爷」的喜感表情,Act-One 的生成效果是这样的:

▲图源:虎嗅

似乎只做到了「迁移」,并且表情的夸张程度衰减明显,还略微有点僵硬。如果遮住原视频,可能根本看不出来这是在模仿谁。

同一个表情,以下是 X-Portrait 2 的生成效果:

除了表情的复刻更加精准细腻以外,我们似乎还能感受到那种自然流露的「喜感」。这才是 X-Portrait 2 的厉害之处。

对于 X-Portrait 2 的优势,开发者是这样说的:

与 X-Portrait 和最近发布的 Runway Act-One 等最先进的方法相比,我们的模型可以忠实地传递快速的头部运动、微小的表情变化和强烈的个人情感。这些方面对于高质量动画内容创作(例如动画和电影制作中的内容)至关重要。

来看一个更加直观的对比:

显而易见,同初代 X-Portrait 相比,X-Portrait 2 的进步在于更加「自然流畅」;而同 Act-One 相比,X-Portrait 2 则更加「精准细腻」。

无论如何,X-Portrait 2 的推出继续发扬了「用生成式 AI 代替动捕」这个可能的概念,并且使它更加成熟,距离落地商用又近了一步。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


新一代赛博仆人!这款机器人要帮你把各种家务活都做了

不知道你是否曾有过这样的想法:当一个「甩手掌柜」,把一切家务都交给家务机器人。说实话,这是在科幻作品中经常能够看到的场景。

毕竟,谁不想拥有一位任劳任怨的「赛博仆人」呢?

来自旧金山的初创公司 Physical Intelligence(物理智能,简称 Pi)正在致力于帮助人们实现这个梦想。这家公司近日展示了一种「接受了前所未有的数据量训练」的人工智能模型,它已经学会了干各种有用的家务活。

Physical Intelligence 发布的视频显示,他们的机器人可以十分灵巧地完成各种家务活,包括但不限于:整理摆满了杯子和盘子的桌面:

把咖啡豆从袋子舀到机器当中:

甚至可以组装纸箱:

最令人深刻的是,它们可以取出烘干机内的衣物并折叠整齐。两只机械臂如同人类的双手一般,配合熟练:


有趣的是,该公司开发的这种算法有时会表现出一些的类似人类的怪癖,例如摇晃 T 恤和短裤,让它们平整地铺开。

Physical Intelligence 的首席执行官豪斯曼(Hausman)指出,折叠衣服对于机器人来说尤其具有挑战性,需要更多关于物理世界的一般智能,因为它涉及处理各种会不可预测地变形和皱折的柔性物品。

他还表示,目前的算法并不很稳定。就像 AI 聊天机器人有时也会「崩溃」一样,这些「家务机器人」有时也会做出一些令人不可思议的举动:比如它会将鸡蛋塞满已经装不下的纸箱,把纸箱强行合上;有一次在装东西时,机器人突然把盒子从桌上扔了下去。

▲Physical Intelligence 的 CEO 豪斯曼. 图片来自:The Information

尽管算法还不完美,但 Physical Intelligence 至少为未来的「通用家务机器人」提供了一种可能性。

然而,豪斯曼的野心远不止于此。「家务」只是其中一种用途,「通用」才是公司的雄心壮志:

我们的目标是通过一个通用模型将人工智能带入物理世界,基本上对于任何应用程序来讲,该模型可以为任何机器人或任何物理设备提供动力。

▲图片来自:maginative

换句话说,Physical Intelligence 的目标是创建一个类似于大型语言模型(LLMs)的物理世界模型,这是一种「通用人工智能模型」。

他们将构建语言模型的技术与控制和指导机器的自有方法相结合,并通过训练大量的机器人数据来实现。豪斯曼表示,他们的方法「非常通用」,可以利用来自不同机器人类型的数据进行训练,类似于人们训练语言模型的方式。

公司在过去八个月中开发了其「基础模型」,名为 π0(pi-zero)。π0 通过使用来自多种机器人执行各种家务的数据进行训练,公司还经常让人类远程操作机器人以提供必要的教学。

Physical Intelligence 的联合创始人之一、加州大学伯克利分校的副教授谢尔盖·莱文(Sergey Levine)表示,他们训练的数据量比以往任何机器人模型都要大得多,并且「幅度非常大」

▲谢尔盖·莱文(Sergey Levine). 图片来自:YouTube

与其他公司譬如 Figure AI 和特斯拉专注于构建仿人机器人,以及像 Covariant 这样的公司开发通用机器人软件不同,Pi 旨在创建可以应用于广泛机器人硬件的软件

对此,知名科技投资者,也是 Pi 的联合创始人之一的拉奇·格鲁姆(Lachy Groom)表示「使人类变得有趣的是我们的大脑,而不是我们的硬件,我们是终极的通用主义者」。

▲特斯拉开发的名为「Optimus」的人形机器人

Physical Intelligence 面临的一个关键挑战是,与大型语言模型训练中可用的文本数据相比,用于训练的机器人数据规模有限

因此,公司必须生成自己的数据,并想出提高从更有限数据集中学习的技巧。

实际上,为了开发 π0,公司结合了所谓的视觉语言模型(在图像和文本上训练)和扩散建模(从 AI 图像生成中借鉴的技术),以实现更通用的学习。

一切的一切,都在为「通用」而努力。

对于 Physical Intelligence 的现状和未来,莱文的观点是:

为了让机器人能够承担人类要求它们做的任何杂务,这种学习需要大幅扩大。尽管还有很长的路要走,但我们有一些你可以认为是基础框架的东西,未来的事情从中可见一斑。

但同时,莱文对 Pi 的发展充满信心。他表示有足够的迹象表明,在现实世界中使用机器人的最大障碍「现在已经可以解决」。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


一幅由 AI 创造的画,估价超过 12 万美元

全球拍卖行「苏富比」预计于今年 10 月 31 日拍卖首件由「AI 艺术家」创作的画作「AI God」。

这组大型肖像画中,每幅画的尺寸都为 64*90.5 英寸(约 1.63*2.3 米),签名为「A」。

▲艺术品「A.I.God」. 图片来自:Sotheby’s

要素过多,我们逐个解析:

首先,这幅画所呈现的主人公,也就是被冠以「AI God」(人工智能之神)称号的这个人,正是公认的「AI 之父」艾伦·图灵(Alan Turing)。图灵是现代计算机科学和人工智能发展的关键人物,著名的「图灵测试」就是他提出的。

▲「人工智能之父」艾伦·图灵. 图片来自:HISTORY EXTRA

其次,由 AI 创作的艺术品被拍卖行拍卖,在历史上并不是第一次。

2018 年,苏富比的竞争对手佳士得就以 432500 美元的价格售出了一幅名为「Portrait of Edmond de Belamy」(埃德蒙·德·贝拉米肖像)的作品。这幅作品就出自「AI」之手,并且被打印在了画布上。

▲艺术品「Portrait of Edmond de Belamy」. 图片来自:ResearchGate

既然如此,为什么说这是「首次」拍卖由「AI 艺术家」创作的作品呢?

其实,门道就在「AI 艺术家」这里。不同于以往生成式 AI「文生图」的创作模式,创作「AI God」的这位「AI」是用手和眼睛作画的——是的,这位「AI 艺术家」在现实世界上存在「肉身」,实际上是「钢铁之躯」——她的手是机械臂,眼睛则是摄像头。

这就是「世界上第一个超逼真的人形机器人艺术家」——Ai-Da。这个名字来源于 19 世纪的计算机先驱 Ada Lovelace。

▲拥有「钢铁之躯」的 Ai-Da. 图片来自:CNN

2019 年,英国画廊主 Aidan Meller 和 Engineered Arts 共同设计开发了这款人形 AI 机器人,外形为女性形象。她能够基于先进的 AI 算法(由牛津大学的专家开发),使用仿生手和她眼睛中的摄像头创作素描、油画和雕塑。

需要说明的是,在雕塑创作过程中,Ai-Da 仅仅提供草图,剩下的步骤则由人类艺术家或者 3D 打印完成。

▲Ai-Da 创作的油画作品

▲Ai-Da 创作的雕塑作品

除了视觉艺术以外,Ai-Da 还从事行为艺术,可以通过语音模式分析和语言模型「创作」诗歌。

Ai-Da 已经在多地举办过多个艺术展览。不过,自从 Ai-Da 诞生以来,她的作品以及「她」本身的艺术创作行为就充满争议。

关于「数字作品能否看作艺术」的讨论已经相当普遍。AI 生成艺术的批评者认为,它破坏了人类作品中固有的真实性和情感深度。他们认为 AI 只是重新混合了现有的样式和图像,而没有贡献任何原创思想或创造力。

尽管如此,Ai-Da 的人形、思想甚至智慧这些和人类无限接近的要素,难免使得这一议题更加复杂化。她曾在英国上议会议院发言时语出惊人:

我不算活着,但我仍然有能力创作艺术。(I’m not alive, but I am still capable of creating art.)

▲Ai-Da 在英国议会上议院发言. 图片来自:artnet

这意味着 Ai-Da 已经意识到了自身的「非生命」属性(也许是出厂设定),但她依然为自己创作艺术的权利辩护。

她声称,根据玛格丽特·博登(Margaret Boden)教授的定义,她的艺术是创造性的,因为它是「独特的、出乎意料的,并且具有某种文化价值」。

而美国专利局今年早些时候裁定,人工智能在法律上不能被视为发明者,人工智能是否可以被视为艺术家,还有待商榷。政策的暧昧,也为争议的持续提供了空间。

除了定义方面的模糊和艺术伦理上的隐忧,更多的艺术工作者最为关心的问题其实是「版权」。他们担心自己的原创艺术作品成为 AI 艺术家的训练数据,并且会因此贬值。

▲图片来自:TechCrunch

这种担心不无道理。尽管多家提供生成式 AI 服务的公司承诺只在许可内容上训练模型,还可以为 AI 输出的内容添加水印或凭证,关于版权的纠纷仍然不在少数。

例如,「纽约时报」就曾指责人工智能搜索引擎「Perplexity」未经许可使用其新闻「不公正地盈利」,并且违反了版权法。OpenAI 公司开发的 ChatGPT 也卷入过类似的纠纷。

▲AI 搜索引擎「Perplexity」. 图片来自:TechCrunch

针对这一现状,企鹅兰登书屋(Penguin Random House)正在其书籍的版权页面上添加 AI 警告,禁止以任何方式使用或复制其书的任何部分以训练人工智能技术或系统,旨在「大力捍卫属于我们的作者和艺术家的知识产权」。

据报道,近日有超过 15000 名视觉艺术家、作家、音乐家和其他创意人士签署了一封公开信,反对使用创意作品来训练 AI 模型。信的内容如下:

未经许可使用创意作品来训练生成式人工智能,对这些作品背后人们的生计构成了重大的、不公正的威胁,绝不能被允许。

无论如何,「AI God」的拍卖再次引发了人们对传统艺术与数字艺术的思考,由此也引出一个更重要的议题:人类应该以什么样的姿态,与这些已经以不可抵挡之势融入生活、频频跨界并且挑战边界的前沿技术和前卫艺术共存?

不过,图灵在自己影响下诞生的 Ai-Da 的笔下完成了「轮回」和「重生」,这事儿还真的挺前卫的。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


蒸馏认知

有两种方式「通晓一切」:

1、穷具并知晓每一种可能性;
2、找到底层原理后高效推理。

定理:
1、海量数据和滔天算力是不持久的;
2、通用性和低能耗是持久的。

推论:
任何人工智能都需要蒸馏出「认知」才能活下去。

前提:
本地且联网的传感器

描觀念 繪感受|超微型 AI 觀念畫展

前言:

*為了減緩閱覽速度,充分感受和理解,因此採用繁體中文。

最近的工作狀態和社會新聞,讓我感覺到非常疲憊。一次次的憤怒和失望,和一次次的徒勞無功,身在漩渦當中無法抽身,只能通過一點點表達來疏解。三幅畫都是用 Midjourney 來繪制的,但 prompt 無法直接描述所要表達的觀念和感受,因此得用視覺化的語言來向 AI 描述想呈現的畫面。

這組圖,可以當作是一次超微型的 AI 觀念畫展。

*每張圖都可以通過「點擊放大」獲得完整尺寸的高清版本。

第一部分:《異類》
[ 点此可下载:经 AI 放大处理后的超高清图像 11.3MB ]

我們是怎麼看待「他者」的呢?

在公共輿論場中,尤其是此時此刻的中文網絡輿論環境當中,我們是看不到任何「人」的。一個個觀點匯聚了大量的「賬號」,牠們沒有個性、閱歷、身份,只要有一塊肉掉在地上,就會瞬間蜂擁而至,吃個乾淨。但我們很難說,「我們」不是「牠們」。因為在「我們」眼中的「牠們」,恐怕與「牠們」眼中的「我們」並沒有什麼本質的區別。

我們都是對方眼裡的「他者」。

人與人之間的觀念差異之大,如克蘇魯眷屬與地球人之間一般,亦如人類和腳下的螞蟻,並無關好壞,而是徹底的「異化」和「無所謂」。在各自的眼中,對方只是一群穿著人類服裝的「蟲子」,是與我們不在同一個世界裡的「異類」,是「偽裝」成「我們」的臥底、特工和間諜。總之,「他者」都不是「人」,「他者」就意味著「異類」,是被異化的不同於自身的存在,是被敵視的「蟲子」。

信任體系崩潰,人就不是人。

第二部分:《共鳴》
[ 点此可下载:经 AI 放大处理后的超高清图像 11.4MB ]

所以群體不再重要,也無法重要,因為在破碎的環境中無法建立起大面積的信任。我之所以不信任 DAO 這種組織形式,並非老頑固或者害怕前進,恰恰相反,作為一個向來積極主動擁抱新技術的人,我無法對人類持有這樣樂觀的想法。人與人之間的「心之壁」是與生俱來的系統限制。因為語言本身並不是一種優秀的系統,它是抽象和概括的。每一次「對話」都需要經歷至少四次「轉譯」:

來自 A 對世界的體會和理解的語言化,A 向 B 表達時將語言化的觀念輸出成的語言,來自 B 對世界的體會和理解的語言化,B 用自己語言化體系所理解的 A 的語言。

這種信息傳遞效率如此之低,因此需要大面積和海量的交流把「同類」們連接起來。

但互聯網放大了「同類」這個概念的同時,縮小了「個體」的存在感。並不是被網絡連接的人數多了,可以公開表達觀點的人多了,就等於「個體」被彰顯。因為這些「個體」並沒有作為「獨立個人」存在,牠們依然依附於各種「觀點」和「趨勢」之中,牠們的聲音也不代表著一個活著的人類的思想,而是一股潮流和陣痛當中的一次次伴隨。無論是網絡語言暴力,還是人人都掛在腦門上的 MBTI 性格分類標籤,都只是把「個體」隱藏在事件背後的一種障眼法。

人腦會本能地「簡化」信息,以降低能耗比。這是生存策略,也是系統的短板。一個人要與另一個人產生情理上的連接,不僅需要花時間,還需要有耐心去解開雙方轉譯過程中的一次次「雞同鴨講」,必須兩個人同時站在對方的位置上去理解對方的語言,才能達成共鳴。他們必須用最複雜的方式,走通這條最短的路。

因此,共鳴只存在兩個個體之間。

我不信任 DAO 的最主要原因,就是不相信這種「共識」可以不被「簡化」和「異化」地傳遞到每一個參與者當中。只要這一點無法在技術層面上落實,那麼任何一種觀念或者 DAO 都與舊世界無異。

第三部分:《武陵》
[ 点此可下载:经 AI 放大处理后的超高清图像 24.1MB ]

但如果可以通過限制准入標準的方式,把「個體」簡化或者降維成不容易產生差異的「標準型號」呢?

這源於我對《桃花源記》的一種怪異解讀:

武陵漁人所去到的「桃花源」並非一個地區,而是一顆巨大的桃樹。他所穿過的「山」只是巨大桃樹根部的一處彎曲,那個彷彿若有光的「洞」,不過是盤根錯節的樹根中間的一處縫隙。之所以目之所及的地方都是落英繽紛,中無雜樹,是因為他此時身處桃樹之中。他在遇到和穿過桃樹根的時候,就被縮小成了螞蟻大小的微縮小人兒了。因為長期處於這樣的螞蟻社會中,當中的人們自然也就成了「小國寡民」的狀態,行為和思想也因此被簡化,成了雞犬相聞、夜不閉戶的簡單狀態。

南陽劉子驥尋不著這個地方,不是他找不到,是因為他沒有經過樹根那一輪「降維標準化」。身為一名「高尚士」,他應該是一個見識、思想異於常人的「個體」,怎麼可能輕易被「簡化」呢?他與桃花源的協議不兼容,自然是無法進入和連接了。

理想模型之所以是理想,就是因為理想實驗環境往往就意味著屏蔽了諸多複雜的干擾因素,簡化了條件。

這樣好麼?我並不這麼認為。

複雜性是人性的基礎,放棄了人性的豐富與複雜,化身成桃花源中的白衣男女,無怨無恨,亦如死人一般。因此常有把桃花源解做「誤入墳塋」的故事版本,這並非沒有道理。我們在排練《暗戀桃花源》的時候,也曾反覆思考過,為什麼其中的白衣男女與世俗社會中的老陶、袁老闆、春花如此不同?陶袁花的故事可笑,但白衣男女也可笑,他們並沒有什麼差別。有沒有煩惱,都很可笑。

可笑是矛盾的表現,也是價值所在。

如果消解矛盾和分歧的方式是所有人都歸於 LCL 之海,那麼當我中有你、你中有我,我們彼此不分的時候,所謂的「我」還有什麼存在的意義呢?如果一切都要歸於熵,那所有的分歧和衝突對立,也只是笑話。

唯一可做的,也只有減緩自己的熵增。


後記:

為了創作出對應於「觀念」和「感受」的畫面,我花了很多時間在 prompt 的調整上,因為用語言生成畫面這件事,本身就充滿了對語言的誤讀和轉譯,而 AI 基於概率的運行方式,也增加了難度。因此,把腦海裡的觀念和情緒先通過語言表達出來,變成一種對某一類具體畫面的描述後,才能在一次次的 /imagine 中找到更合適的語言和畫面。

這種創作體驗很奇特。

過往的繪畫訓練或寫作表達,手頭功夫的訓練是至關重要的。但使用 AI 畫畫來表達觀念,會因為表達這個目標倒逼我把觀念拆解成更為細緻的狀態,不止是邏輯的細化,更需要把細化的觀念給圖像化,用視覺語言來描述它。

同樣是昆蟲人,面容的風格、眼神的選擇、肌理所呈現的氛圍、服裝的細節,都會影響表達的效果。選錯了表達方式,很容易就會得到一個一眼看上去就遭人討厭的怪物,或者因為太像人而失去了異化的感受。那樣就和我想表達的意思,背道而馳了。

*部分被放棄的方案

關於共鳴那部分,應該是我做了最久的。

因為「共鳴」太抽象了,怎樣的人物狀態、神情和與環境的關係,都試了很多種畫面邏輯。從山上到海裡,從逆光的傍晚到深夜的月光,從全身像面對面站立到半身和面部的特寫,面孔的表達又在歐美人、亞洲人、東西混血中嘗試了一些,畫面色調和畫風也會有很直觀的影響。這麼「簡單」的畫面,想要找到那個比較精準的感覺和情緒,也花了兩天,才從約 300 個方案中找到最恰到好處的那一個。

*部分被放棄的方案

網上有很多用 Stable Diffusion 畫美女和裸女的,說實話,好看的那些確實顯得很「精緻」,哪怕是色情畫面也精緻得嘆為觀止。但這就和攝影術發明之初類似,攝影像油畫是沒有任何意思的,它應該有它的新的用法和創作思路。對我來說,AI 繪畫的最底線應該是輔助我把腦海的觀念傳遞出來,而不是畫很多精緻得像量產網紅一樣的裸女畫。

我並不是反對量產的 AI 裸女畫,只是想從創作的思路去看待:當刺激感官衝動成為 AI 可以輕而易舉做到的事情之時,更複雜和更深入的連接才是人類創作者應該去嘗試的領域。

這確實不容易,但 AI 讓這件事方便了很多。

借行业科普聊了一次 AI 与设计师的关系

上个月去上海之前,@取景框看世界 在微信上邀请我一起做一期关于设计行业的科普视频,面向学生群体做一次对行业整体状况的分享。这次是 B站 向他发起的约稿,也是他频道的主要内容类型之一。答应他后,从上海回来我就根据自己这么些年的体会和反思,录了一期比较掏心窝的内容。由于参与的人比较多,直到前天,节目才终于上线。

🎥 点击图片跳转到播放页面

因为参与的人数比较多,我说的话也比较多,所以在汇总的成片里需要剪掉一些。但我又觉得难得录一期视频(从去年11月到现在都没有更过视频了),为了保证表达的完整性,我还是得有一个自己的版本。但因为实在忙得顾不过来,于是麻烦 @小雨 帮我把这条视频剪了出来。

毕竟是 @怪物尚志 的御用摄影/后期,有他的帮忙,我的视频里头一回多了许多配合文案的动画,比我一个人在镜头前单口相声好看多了。这一期花絮,也在昨天发了出来,跟正片错开一天。

🎥 点击封面跳转到播放页面

这期视频的封面是我昨晚用 midjourney 画的。

在这条视频里,除了科普工业设计的一些基本概念和行业现状,我也特别聊了一下 AIGC 和设计师之间的关系。前两个月虽然一直很忙,但我也一直在关注 AIGC 的动向。这两个月的变化实在是过于惊人了!

以下是我去年八九月用 midjourney 画的一些东西:

然而在这短短半年内,版本已经从当时的 v3 发展到了现在的 v5。ChatGPT 也从 GPT-3 发展到了 GPT-4,坊间传言 GPT-5 的研发已经完成且爬完了全网所有视频,可以直指某一条视频中的某一段话,只是还没发布。可以说开年后的这两个月内,AIGC 的发展速度已经大大超乎了预料,甚至正处于失控的边缘,它们正在开始颠覆一些东西。将来会发生什么,无法预料,但一定有什么事情已经在发生了。

所以我觉得,无论如何,再忙也得重新用起来。光是跟进各种新闻和消息是不行的,midjourney 前两天刚发布了由图片转译成 prompt 的新功能,多模态的 AI 已经不远了,这会更进一步推动人和 AI 之间的交互。我觉得,自己还是得保持使用状态才行。所以前两天我又重新充了值,开始体验它的新版本。

我先试着画了一些机甲的东西,例如这样的:

上面的两张的用 prompt 直接生成的,但下面的两张,是用 /remix 命令修改了部分描述词后的新图。可以看到下面的图和上面的图保持了相关性,于是我想试试,如果用这个命令替换背景会是什么效果,于是有了这组车的图:

上面的两张图是用 prompt 直接生成的,当我用 /remix 替换了背景描述的 prompt 之后,就生成了下面的两张。更换环境之后,车辆的姿态和镜头视角几乎没有变化,车身的反光与环境之间的关系也很自然,这个效果已经可以说非常惊人了!

然后,我随便画了一些白色的机器人站在燃烧废墟上的场景:

用 /remix 替换了机器人配色部分的描述词后,生成了下面这样的图:

对 /remix 有了基本的体感之后,我开始尝试用 /blend 命令来做一些融合的实验。

首先,我随便描述了一个赛博少女,得到一些随机的图:

接着,我再随便生成一个红发少女:

材料准备好之后,开始把它们进行组合。

第一次先尝试融合两张图,一个是游戏画风的机甲人,一个是二次元的赛博少女。

它们俩合成后,得到了以下这个人物:

新角色具备其中一张图里人物的长相特征与体态,也有另一张图的配色和机甲特点。虽然得到的结果具有随机性,但既然可以这样融合,那么应该也可以通过 /blend 命令来得到一些更有目的性的创作。

有了第一次的体验后,第二次我用三张图片进行合成:

图一是现画的半透明金属机器人,图二是上面准备好的红发少女,图三是现画的骑士。

这三个合成出来的新角色,同时具备了细碎的金色细节、波浪红发、银白色盔甲:

但这不是我想要的,我想试试加大红发少女的比例。在垫图的方式下,可以通过 –iw 命令来分配各个图片之间的权重占比,但是在 /blend 中不能这么操作。于是,我想通过把合成的新图作为素材,再一次与红发少女进行融合,并加入机甲的元素来强化她身上盔甲的质感。

二次合成使用的图,如下:

合成出来的新角色我非常满意!

她既有红发少女面部和眼神的特征,又把两副银白外甲融合得非常优雅,也保留了初始半透明金属机器人遗传下来的金色金属关节的特征,又做出了图三机甲的坚硬感和图一外甲的银白光泽。这一次的融合很成功。

但如果 /remix 可以局部替换特征,那么这些没有写 prompt 而是通过 /blend 直接合成的图,能否通过 /remix 加入新的 prompt 来修改已有的特征呢?

为了让实验效果明显一些,我想让盔甲的白色部分比例缩小,增加金属部分的比例,于是就先把这批图重新刷了几遍,直到出现肩甲是金色的变异版本:

然后不断在此基础上进一步变异,强化金色肩甲的特征:

所有图片均可以点击放大下载原图

准备好之后,我在 /remix 中添加新的 prompt:pink armor

以下是修改特征后的结果:

所有图片均可以点击放大下载原图

整体的效果我还是挺满意的。一来,新生成的人物很好地保持了最初红发少女的眼神和神态;二来,金色金属被替换成粉色金属后,金属质感的表达是正确的。虽然头发也一起变成了粉色,这确实是没完全理解指令,但原有的发色搭配新的粉色盔甲也确实不是很和谐。

到此,重新开始用 AIGC 工具的热身完毕,找回一些感觉了。

至于这期视频封面里用到的车图,是我昨晚用 Maserati 和 Ferrari 以及 Apple 和 Tesla 分别杂糅出来的缝合怪。虽然乍一看好像没什么新奇的,但是如果我把去年八月底用 midjourney 画的汽车拿出来对比,就会意识到这是多么疯狂的进化速度了:

上面三个是去年八月用 v3 画的车;

下面这些是昨晚用 v5 画的车:

所有图片均可以点击放大下载原图
视频封面使用的图片
所有图片均可以点击放大下载原图

虽然工业设计有大量的细化和落地工作是 AI 无法干的,但从目前来看,无论是 midjourney 还是 Stable Diffusion + controlNET 都已经可以很好地帮助设计师完成概念发散和快速枚举了。这样的图像质量,通过垫图、remix 和 blend 的组合使用,完全可以在创意初期快速拉出一批高质量的「草图」,设计师可以把更多的精力放在对方案思路的推敲、对细节的考据以及各个环节的沟通协调上。

从今年二三月开始到往后的十一二年,人类社会将迎来一场以破坏为开端的变革和创新。

无论我们是否愿意,都将一起进入新的世界。

用 Newbing 辅助写的第一篇 blog / The first blog to be aided by NewBing / NewBingによって助けられた最初のブログです

一週裡有一半時間都坐在這裡工作 / I spend half of the time in a week working here / 私は一週間の半分の時間をここで働いています
我讓店裡特意給我保留的專用裂口杯 / I asked the store to keep a special slit cup for me / 私は店に特別なスリットカップを取っておいてもらった

原本被通知早上要和客戶開會,騎到平時停車的地方時卻被臨時告知先不開了。因為起來得比平時早一些,所以覺得有一點睏睏的。於是,就在店裡坐著冥想了五分鐘,借倆口咖啡因下肚先回點血。

I was originally notified that I had to meet with a client in the morning, but when I rode to the place where I usually park, I was told that it was not going to happen. Because I got up earlier than usual, I felt a little sleepy. So, I sat in the shop and meditated for five minutes, and took a couple of sips of caffeine to get some blood back.

元々は朝にクライアントと会うことになっていたのですが、いつも駐車する場所に着いたら、やめることになったと急に言われました。普段よりも早く起きたので、少し眠気がありました。そこで、店の中で座って5分間瞑想し、カフェインを2口飲んで血が回るようにしました。

在最近幾次冥想的過程中發現,Apple Watch 的這個呼吸頻率對我來說已經偏快了,如果完全按照我自己的節奏來控制,起碼得是 3 次,或者 2.5 次這個頻率,但 Apple Watch 已經不能設置更慢的呼吸節奏了。

I found out in the last few meditations that this breathing rate of Apple Watch is too fast for me. If I completely control it according to my own rhythm, it should be at least 3 times, or 2.5 times this frequency, but Apple Watch can no longer set a slower breathing rhythm.

最近の瞑想の過程で分かったのですが、Apple Watchのこの呼吸頻度は私にとっては早すぎます。自分のリズムに完全に合わせてコントロールするなら、少なくとも3回、あるいは2.5回この頻度でなければなりませんが、Apple Watchではもう遅い呼吸リズムを設定できません。

剛才測了一下時間,我三次呼吸(一呼一吸)的總時長是 2:03 (兩分零三秒)。這樣的話,換成 AW 的呼吸頻率計算方式應該是「每分鐘呼吸 1.5 次」。

I just measured the time and found that the total duration of my three breaths (one inhale and one exhale) was 2:03 (two minutes and three seconds). In this case, using AW’s breathing frequency calculation method, it should be “1.5 breaths per minute”.

さっき時間を測ってみたら、私の3回の呼吸(一呼吸)の合計時間は2:03(2分3秒)でした。この場合、AWの呼吸頻度の計算方法に換算すると、「1分間に1.5回呼吸」となります。

*以上英語和日語翻譯採用 New Bing 的 AI 完成。

*The English and Japanese translations are done by New Bing’s AI.

*以上の英語と日本語の翻訳は、New Bing の AI によって行われました。

但是,翻譯完之後,它居然一直反問我新的問題,是對我和我的行為感到好奇嗎?

But after translating, it kept asking me new questions. Is it curious about me and my behavior?

しかし、翻訳した後、新しい質問をずっと聞いてきました。私と私の行動に興味があるのでしょうか?

不是的。據我所知,它只是一個根據字詞關係來生成對話的超大模型,這種對話其實非常可能來自人類語庫中不要讓話掉在地上的社交禮貌用例。所以,這種反問並不能證明這個對話 AI 已經具備了意識。

No. As far as I know, it is just a huge model that generates dialogue based on word relationships. This kind of dialogue is very likely to come from human language libraries that do not want to let the conversation fall to the ground. Therefore, this kind of rhetorical question cannot prove that this dialogue AI already has consciousness.

いいえ。私の知る限り、それは単に単語の関係に基づいて対話を生成する巨大なモデルです。このような対話は、会話を地面に落とさないようにする人間の言語ライブラリから非常に可能性が高く来ています。したがって、このような反語的な質問は、この対話 AI がすでに意識を持っていることを証明できません。

AIGC 和 VIS 的类比

大概是2016-2018年间,我曾经和我司两任平面设计师说:

你们现在的技能在将来用处不大,但不代表平面设计就到头了。本质上 VIS 和 AI(那会还没有 AIGC 这个说法)是差不多的事情,前一个是你设定好规则,然后在不同的应用场景下不断组合复制,后一个是它学会你教它的规则,它来组合复制。一个是手工活,一个是工业化,他俩只是效率的差别。你们未来需要教会这些 AI 什么是好设计、如何做设计,让它释放你的体力劳动,你把时间腾出来考虑更复杂的事情。

那时候,我判断这个事情就是十年左右,没想到,事实上只用了五六年。

当然,以上只是高度简化的说法,但大意如此。

* 拓展阅读:https://mp.weixin.qq.com/s/pv6ECT8WR4tdNhsYiATt2w

人类的定义正在重构的历史开始了

上周在即刻看到一个话题:

ChatGPT vs. iPhone 两种技术有何异同? 就它们制造产业变革和影响来说,对比思考能否启发对未来的想象?

我目前的看法是:

iPhone 为代表的技术,拓展了人的外延。人是技术网的中心,是作为生物人抛向空中的一块大腿骨。

ChatGPT 为代表的技术,更新了人的定义。信息和意识不是人的特权,是否只有生物人才是人,需要被认真严肃地对待。

前者的产业革新是建立在人脑上限之中的,超过脑容量的部分,推进速度非常缓慢。

后者不存在理论上限,对自身的推进速度远大于前者。但由于前者高度依赖人这个不确定因素,因此,在后者产生革新的同时,会同时产生大范围的剧烈冲突。前者脆弱,但作为后者的基建,这种大范围冲突可能导致两败俱伤,拖累后者进化速度。但因为发展不平均,所以后者会衍生出全新的社会形态。

AI 不需要代替人才能更新「人」的定义,更不必达到硅基生命的程度,只需要在表达方式上像人(即便它根本不理解自己在说什么),就自然会在生产方式和伦理上产生大量冲击。这些冲击会更新人对自身的认识,配合其自身的效率属性,人会主动更新对自身的定义描述。

在此基础上,设计师将来的工作会和今天大不相同。因为我们在思考人与物的关系时,中间的媒介可能不会再是物理交互和界面交互,而是面向 AI 的交互。这种交互可能是有形的,也可能是无形的。另一种更有可能发生的情况是,你所设计的产品不是给人类使用的,而是面向 AI 的中间件,这会改变很多约定俗成的非物理/生物层面的规则。

我们有幸站在了这段历史的开端之中。

流浪地球2:图恒宇和 Moss 必然的相逢

我最喜欢的部份是图恒宇的故事线,但不是他对女儿的执念,而是对技术的信念,以及 Moss 对生死和变量的注解。

整部影片的视效确实非常震撼和好看,但其中的人与人性还是略显潦草和脸谱化,所有推动节点都略俗套。刘培强的工具人属性太强,沙溢、图恒宇、马主任的角色都立起来了,刘培强的篇幅那么长却没立起来,这是剧本的问题。

因此我更喜欢图恒宇的故事线。

如果是我,也会支持「数字生命计划」这类脱碳入硅的技术方案。一方面,我不认为以人类的血肉之躯可以完成 2500 年长达一百代人的流浪地球任务,我不相信地球人类会团结一致长达二十五个世纪;另一方面,让人类与人工智能融合,成为新的物种,摆脱对地球生态圈的过度依赖,是地球人类成为星际人类的过程中,至关重要的一步,早晚得走这一步。

一句话评价:

这是一部非常出色,但还不够动人的科幻视效大片。

不过我依然给五星,因为同时做好科幻视效和人性故事的,需要给七星。

电影是小柒用压岁钱请爸爸妈妈看的

Ai 绘画将从何处开始进入日常生活?

最近几个月 Ai 绘画这个话题很火,但基本上大家都只是看个热闹,跟普通人的生活没多大关系。或者说,大家感觉不到它和自己有什么关系。只有相关从业者,感受到了巨大的生存压力和身份危机。

但和当年支付大战的春晚红包类似,能让普通人都参与进来、玩起来的场景可能才能让大家感受到:Ai 绘画意味着什么,能做什么。

尽管众多以文生图的 Ai 工具已经大幅度降低了创作门槛,但是在那之前,各种咒术、法门终究是拦住不少普通人接触 Ai 绘画的一块巨石。我自己也曾在用过某些 Ai 工具后,在一条展示初次接触的创作成果的视频里提醒大家,不要忽视它,但也不要过分害怕它。它一定会给我们的生活带来巨大的变化,只是目前还没积累到那一刻,仅此而已。

如果说有什么场景,类似发红包那样简单明了,人人都可以参与,我觉得有一个非常合适的应用场景,那就是用 Ai 生成定制头像。对于不具备绘画能力、不懂念咒语、不会使用绘图软件的大多数人而言,Ai 画头像就是各类修图美容软件一级的场景,既有尝新和娱乐,也有充分的社交属性,和红包非常相似。

最近试用了一下漫镜,一个感觉是,神情抓得不错,风格也足够多,用它来探索自己不同造型的可能性,还是挺有启发的!因此中途我想到一件事,如果这类产品的效率再高一些,跟各大连锁发型屋合作,预约时就上传几张照片,生成几套发型方案,人到了现场就让托尼老师根据效果图来剪,这不是非常好的体验升级么?谁说 Ai 必然逼得人失业呢?还得是看人怎么用。

除了头像,你觉得还有哪些场景,适合普通人体验 Ai 绘画呢?

点解图片体验 AI 制作头像

电子宠物

我曾想,至少有了AI版的电子宠物,才能说人工智能已经普及。我小时候从没拥有过自己的电子宠物,但见身边朋友玩过。小小的鹅卵石似的一个物件,黑白屏幕里有个蠢蠢的小动物,百无一用,只会待机。而妳和它能有的全部互动,就是妳点按写着互动名称的按钮,它播放对应的动画——妳点喂食,它播放张嘴闭嘴。

现在人们太稀罕AI了,甚至许多人担心或者假装担心AI会取代人类!但那不正说明AI还很弱嘛,大概任何新技术诞生都会经历这种过程吧?虽然在哪一方面都还没达到熟练地深度整合运用,但是人们为这份新的希望而躁动,满是憧憬又充满担忧。真等到技术成熟、普及……电不光能驱动月球车,还能绕在马桶圈里让妳坐在屁股底下,互联网不光能在军事、经济领域决胜千里,也能游走在每个人眼前、手边、枕头旁。那时人工智能应该也是如此吧,它能在特别高精尖的领域发挥人类无法企及的能力,也可以收了神通,容身在鹅卵石样的物件里,除了待机什么也不做。妳问它「嘿,那小谁,今天天气怎么样?」它反问妳是不是对每个会出声的东西都问同样问题,一个电子宠物为什么会知道天气怎样?妳赛博喂食,它倒不再嫌妳蠢,而是用我猜也猜不到的方式从妳的喂食里汲取养分,长成独一无二的家伙,陪妳快乐给妳添烦。人类最先进科技的结晶,该是多么具有个性又可爱呀,还不用花太多精力来照料。但是妳觉得它能取代猫吗?

fin.

让 MJ 学我画两张小画儿

昨晚吃饭前跟儿子一起画画,我随便画了一下我们在 Minecarft 里的第二个家,和随便画的一个岩浆包围的高堡:

后来想说看看 Midjourney 能模仿成怎么程度,就丢进去试了一下:

emmm,画得还行……

就是画风不太相关,它有它的训练痕迹,哈哈哈哈哈哈哈~

测试所使用的 prompt:

Tree house, jungle, rainforest, simple little house –sref+空格+两张手绘图的地址 –ar 9:16 –s 50 –v 6.0 –style raw

經濟再差也不能公開談論

經濟狀況究竟有多糟糕呢?從各大品牌在售後策略、降價思路和運營的混亂程度等方面的表現,均可窺見一斑。尤其是當你置身於自媒體、電商與品牌運營三者的交匯點上,這種巨大的荒謬性將更加明顯。

上週末出差重慶,兩周沒在家,難得一個週末,結果倆人坐下後就被各自工作群里的事情纏著,不是回消息就是打電話,咖啡都沒喝上一口。

在國內的社交媒體似乎不讓提「經濟不好」這樣的事,與之相關的話也會被限制,索性我就轉成日語來發了:

経済状況は本当にどれほど悪いのでしょうか?各大ブランドのアフターサービス戦略、値引きの考え方、そして運営の混乱度などから、その一端を窺い知ることができます。特に、個人のネットワークソーシャルメディア、ECサイト、およびブランド運営の交差点に立つと、この巨大な不条理さがさらに明白になります。

先週末、出張で重慶に行ってきました。二週間も家に帰っていなかったので、久しぶりの週末を楽しみにしていたのですが、結果として、座った途端、それぞれの仕事グループからの連絡が絶えず届き、メッセージを返したり、電話をしたりすることに追われてしまいました。コーヒーすら一口も飲めないままです。

為什麼是轉日文不是英語呢?因為即便是英語,在內地的網絡環境里也顯得有些直白了。日語反而更有「似乎知道在說什麼,但根本看不懂」的戲劇化的「陌生化」的效果。

好不容易,終於把翻了一年的《夜航西飛》讀完了。

這是我今年讀完的第三本書。

昨天去宜家看洗手檯和鏡櫃,直到在餐廳排隊前一秒,都沒想起宜家給我發的領生日蛋糕的短信。可就是那麼巧,下周生日,昨天正猶豫要不要去店裡看看,我就慫恿筱燁說想幹就幹,這一來才想起有一個蛋糕等著領。這就是天注定的意思。

苹果停车转 AI 将引发人才大震荡

1、没有 AI 的汽车、手机、电脑、平板等,将是一堆废铁;

2、一家公司的核心战略不能同时放在两个大方向上。

综上,停下造车全攻 AI 是非常明智的。

连键盘侠都知道「不难」的造车,没造出来不是造不出来,是制定的目标太远太高。苹果之前想一步到位搞出 L4 的移动座舱,但现阶段的人类还没有办法,这太难了。在他们之前的设想中,自动驾驶的汽车和 Apple Vision Pro 是可以放在同一个场景里的。但很显然,这个步子太大了。用新势力们的方式当然可以,但那不是苹果想做的。

最关键的是,AI 的大爆发是此前大家都没料到的。没有这事儿,车还是一个重要的方向,但这一波爆发的 AI 不是资本热潮,而是实打实的浪潮了,此时不全力转向,是真的会死的。况且苹果并不是没有在 AI 上投入的,这些年一直都在积累,只是权重还没拉到那么高。现在切方向,即是大势所趋的必须,也是归拢资源的必要。

过去 Jony 可以对供应商说,这里有一桶取不完的钱,你能做到你就能拿走,以此把工业设计拉高到一个令人望尘莫及的程度;今天的苹果比二十年前拥有更多的现金,有自己的芯片和庞大的人才库,有海量的设备和训练数据,可以说:

比起造车,AI 才是更适合苹果干的事;

干好 AI 所需的人才、数据、算力,也是他们的优势。

以苹果的财力,下这样的决心,恐怕要出现一次人才流动的大震荡。

原文发布于知乎提问:

苹果取消探索十年之久的电动汽车项目,将团队转向生成式 AI,原因有哪些?会带来哪些影响?

❌