Normal view

There are new articles available, click to refresh the page.
Yesterday — 6 January 2025Main stream

英伟达新「核弹」显卡配置信息意外曝光,性能功耗双双暴涨 | CES 2025

By: 莫崇宇
6 January 2025 at 10:57

赶在黄仁勋演讲前夕,英伟达下一代旗舰级显卡 RTX 5090 的包装盒照片意外曝光。

从外媒 VideoCardz 披露的这张照片来看,此前关于 RTX 5090 将搭载 32GB GDDR7 显存的传闻也首次得到了印证。

并且,有消息称,这款由 Inno3D 生产的 RTX 5090 iChill X3 型号显卡将采用 3.5 槽位散热器设计,这也被英伟达作为主打卖点之一重点推广。

▲图片来自 VideoCardz,下同

根据目前掌握的信息,RTX 5090 的显存容量将是 RTX 5080 的两倍,适合处理大规模数据等场景(如 8K 渲染 等)。后者据传将配备 16GB GDDR7 显存。

此外,RTX 5090 预计将配备 21760 个 CUDA 核心,内存带宽接近 1.8TB/s,热设计功耗(TDP)达到 575 瓦,较 RTX 4090 增加了 125 瓦。

作为对比,NVIDIA RTX 4090 配备了 16384 个 CUDA 核心。其内存带宽为 1TB/s。

简言之,RTX 5090 性能更强了,但功耗也更高了。

其他方面,网传 RTX 5090 将启用 170 个流处理器单元(SMs),较 RTX 4090 的 AD102 完整核心减少了11.4%,运行在 512-bit 的总线接口上。GDDR7 显存的带宽预计为 28 Gbps。

RTX 5080 搭载 GB203-400-A1 GPU 核心,配备 84 个流处理器单元和 10752 个核心,运行在 256-bit 的总线接口上。如果说 RTX 5090 针对极端性能需求用户,那么 5080 更适合预算较高但注重性能的玩家和创作者。

而 RTX 5070 Ti 和 RTX 5070 的核心数量分别为 8960 和 6144,满足高画质游戏需求,定位次高端和中端市场,SM 数量也逐渐递减,更适合普通玩家和轻度创作者。

全系列支持 PCIe 5.0 标准,带宽较 PCIe 4.0 翻倍,能充分释放显卡性能,尤其在多显卡配置和数据密集场景下更具优势。

价格方面,相比上一代 RTX 40 系列,RTX 50 系列显卡的价格网传普遍上涨。RTX 4090 的官方首发价为 12999 元,而 RTX 5090 预计将 1999-2499 美元,折合人民币 14633-18294 元。

英伟达 CEO 黄仁勋将于明天上午在 CES 消费电子展举办主题演讲,预计将借此机会正式发布 RTX 50 系列显卡产品线,包括 RTX 5090、RTX 5080、RTX 5070 Ti 等型号。

值得注意的是,英伟达还将推出专门面向中国市场的 RTX 5090D 版本。

至于具体发售时间,此前有传言透露 RTX 5080 可能会率先于 1 月 21 日上市,其他 RTX 50 系列显卡型号则将在随后陆续推出。

更多具体的信息预计将在明天揭晓,我们也将第一时间送上最新报道。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Before yesterdayMain stream

天才科学家去世,今天整个 AI 圈都在缅怀他

By: 莫崇宇
3 January 2025 at 11:44

距离 Deepmind 研究科学家 Felix Hill 在 X 平台上最近一次发声已经过去接近两个月了。

不幸的是,这位研究科学家因长期与严重精神疾病抗争于去年 12 月 5 日遗憾离开人世。

而这一消息也由斯坦福大学兼职教授、Contextual AI CEO Douwe Kiela 在 X 平台确认。

噩耗传出后,许多 AI 圈人士纷纷在 Douwe Kiela 的评论区缅怀起这位朋友。

即便是与 Felix 有过学术分歧的 Gary Marcus 也表示:

尽管我们有时会在知识层面产生分歧,但听到这个消息我感到非常遗憾。愿他安息。

Udio CEO 联合创始人 David Ding、Google 高级研究科学家 Nataniel Ruiz、Meta 及 OpenAI 等多位研究科学家也纷纷发文表达哀思。

愿逝者安息,向他的朋友和家人致以深切的哀悼。

知名 AI 研究者、纽约大学教授 Kyunghyun Cho 曾与 Felix 在2014年夏天于蒙特利尔相识,后续也发文回忆往事。当时 Kyunghyun 是博士后,而 Felix 是访问学生。

他们因为一次关于语法结构的学术讨论而成为好友。

一起进行研究工作后,他们取得的其中一项成果是在 2016 年发表的论文中创造了「巨大表格」的趋势,这个风格在此后的 3-5 年里被学术界广泛效仿。

人虽已逝,但 Felix Hill 留下的观点光芒永存。

即便是未曾谋面的同行也为其所折服。英伟达高级研究科学家 Jim Fan 今天也在 X 平台转发 Felix Hill 博客,并借此缅怀这位朋友。

这是我读过的最令人心痛的博客,因为它是如此真实,如此贴近内心。

作者已经不在我们身边了。我忍不住流下了眼泪……

我从未有幸在现实中认识 Felix,但我热爱他的研究视角,并为他的每一篇新论文设置了 Google Scholar 提醒。

他在智能体和 VLM 领域的工作对我的研究产生了深远影响。他本可以成为一个好朋友。我真的想要了解他,但现在已经再也没有机会了。

他带领 AI 研究团队,却无法战胜自己内心的恶魔

Linkedin 的公开资料显示, Felix Hill 是一个世俗意义上成绩优异的好学生。

他本科毕业于牛津大学的数学专业,也曾担任牛津大学羽毛球队队长。研究生实习则在墨西哥国立自治大学,专业方向是认知科学、语言学和教育,专注于多学科交叉领域(认知科学和语言学)。

这段经历不仅丰富了他的国际化视野,也拓宽了学术兴趣。

2011 年-2016 年, 他在剑桥大学先后攻读语言学和计算语言学,期间还担任高尔夫球队队长。

步入职场后,Felix 的事业发展也可谓顺风顺水。

他曾投身教育事业,担任 14 个月的数学教师,指导 14-18 岁的学生备考和申请大学;同时热心公益,支持当地教育非政府组织。

2016 年后,Felix 曾长期在 Google Deepmind 工作。

在离世前,他在 Deepmind 主要负责领导着一个研究语言与通用智能交互的团队。与此同时,他也开始将重心转向前沿科技研究,专注于语言学、机器学习和 AI 模型开发。

Google 学术资料显示,其论文总引用次数达 19680 次,h 指数为42,其中 2020 年后的引用更高达 16608 次,对相关领域产生广泛的影响。

在 X 平台,这位朋友在自我介绍中写道:

我试图认真思考每一条推文的内容,尤其是关于 90 年代足球和 80 年代音乐的部分。我的观点完全是我自己的,绝不代表他人。

然而,这位在世俗眼中取得巨大成功的 AI 研究科学家,却一直与严重的精神疾病抗争。在 Felix 的博客中,他也记录了自己人生最后阶段的的心路历程:

2023 年 4 月,他的母亲因阿尔茨海默病去世,同期他因急性精神病住院治疗,可能是压力诱发。此后 12 个月一直处于极度焦虑和深度抑郁状态。

在得到了雇主的理解和支持,包括治疗支持和精神关怀,以及经过 6 个月危及生命的抑郁期后开始好转,开始思考并记录自己对压力与焦虑的观察和理解。

然而,命运往往弄人。去年 12 月 5 日,这位朋友最终还是过早地离开人世。

R.I.P.🕯

附上 Jim Fan 转发 Felix Hill 的博客原文

2000 亿权重的责任

现代 AI 工作的压力

作者:Felix Hill,2024 年 10 月

在过去两年里,AI 领域发生了不可逆转的变化。

ChatGPT 的月活跃用户已接近 2 亿人次。Gemini 在 2024 年 5 月的访问量接近 3.2 亿次。如今,AI 爱好者甚至可以使用 AI 微波炉、AI 牙刷,甚至是 AI 足球。

然而,对于我们许多从事 AI 工作的人来说,这种大众兴趣的激增既是一种福祉,也是一种负担。确实,薪资水平提高了,股票价格和市场估值也随之上涨。但与此同时,这种变化也带来了一种独特的压力。

这篇博客是关于现代 AI 带来的压力的。它的目标读者是那些从事 AI 工作的人(据保守估计,这大约占世界人口的 87%),尤其是那些从事 AI 研究的人员。

最终,我希望通过讨论 AI 研究中让人感到压力的因素,能够让那些有幸从事这一领域的人生活变得更加愉快。因为尽管当前一片混乱,这依然是一份美好而充实的职业;一个有潜力解答许多科学、哲学乃至人类自身伟大问题的职业。

无处逃避

几个月前,我参加了一个朋友的 40 岁生日派对。我们是密友,所以我认识派对上的不少宾客,有些人还非常熟悉。但也有一些人是我完全不认识的。

在那些我不太熟悉的人中,我注意到一个奇怪的现象。

尽管我当时身体不太好(稍后会提到这个),显然也不太想主动参与交谈,但周围还是排起了一小队人,只因为大家知道我在 DeepMind 工作,很多人想和我交谈。

这些对话并不是关于足球或 80 年代音乐这样让人放松的话题,而是关于我最想避免的一个话题:AI。虽然大家对我的工作感兴趣让我感到受宠若惊,但这也让我意识到过去两年间发生了多么巨大的变化。银行家、律师、医生和管理顾问都想让我对 ChatGPT 发表看法;尽管他们中的很少人直接在工作中使用这些 LLM,但他们都确信 AI 正在发生一些重要的变化,而这是他们必须了解的。

作为一名研究人员,我相信你能理解那种在社交场合无法「关闭开关」的感觉。

但事情变得更糟了。甚至在我自己家里,我也无法逃离。

我早已不看新闻,因为害怕引发焦虑。但即使在看足球、VH1、蒙塔尔巴诺探长,或者那部精彩的《那不勒斯四部曲》的改编电视剧时,广告中也充满了对 AI 的提及。

在这段时间,我经常想收拾行李,跨越大陆,加入一个隐居的宗教团体。尽管我不会感到惊讶,甚至 Vipassana 瑜伽现在可能也在某种程度上被 AI 渗透了。

隐含的竞争

几家大公司似乎在竞争开发最大、最强大的大型语言模型,这本身就带来了巨大的压力;无论你为哪家公司工作。

在目前的 AI 研究中,有时会让人感觉像是在参与一场战争。从阿道夫·希特勒到荷兰·舒尔茨,我们都知道,参与战争可能会导致严重的后果,包括精神疾病、离婚和自杀。

当然,这并不是将参与 AI 研究等同于「真正战争」中的身体战斗。但根据我的亲身经历,这两者之间的相似性尽管略显牵强,却是真实存在的。

影响公司底线

通常来说,从事工业研究的研究人员并不习惯于自己的工作会对雇主的底线产生直接而即时的影响。

当然,许多研究人员梦想着能有这样的机会。但过去这通常只是十年才会发生一次的事情。

如今,基础研究对 LLM 的结果通常仅能导致模型性能的细微、短期的波动。然而,由于公众对 LLM 性能的高度关注,这些波动可能反过来导致股价的数十亿美元波动。

这种动态显然非常具有压力,而这并不是 AI 研究人员在研究生院、博士后甚至 2022 年之前的工作中所能被训练应对的。

金钱,金钱,金钱

大多数 AI 研究人员,尤其是那些超过一定年龄的人,从事研究的初衷并不是为了赚钱。为自己热爱的工作赚到一大笔钱听起来像是一剂良药,但这同样可能引发强烈的焦虑感。特别是当促使收入增加的外部因素不在自己掌控之中,或者这些因素让自己对这份工作的热爱减退时,这种焦虑尤为明显。

无论是否与 AI 有关,大量证据表明,突然积累财富可能引发各种问题;只需看看那些经过多年努力终于一夜成名的演员或歌手就知道了。成瘾、破裂的关系、破碎的友谊,甚至自杀,都是一些较为常见的后果。这些问题让我个人深有体会。

科学家无用武之地

LLM 的规模、简单性和高效性使得科学研究很难变得「相关」,也就是说,很难直接帮助提升 LLM 的性能。

许多顶尖的 LLM 研究人员已经开始推崇 Rich Sutton 的「苦涩教训」:几乎不需要任何超越规模扩展之外的创新。

即使理论上存在进行实质性创新的可能性(毫无疑问是存在的),要实现这些创新往往需要在不同条件下反复训练最大规模的 LLM。这甚至是目前最大的公司都难以承担的事情。对于一名「普通」的研究科学家来说,这种情况可能令人心力交瘁。

这些条件对那些习惯于在小团队(5-10 人)中工作的工业科学家来说已经非常严峻。而对于学术界的 PhD、博士后以及 AI/CS/ML 的教职人员来说,这种压力无疑更加剧烈。

发表论文

尽管学术界的研究人员可以(并且应该)继续发表他们从 LLM 实验中获得的见解,但对于工业界的科学家来说,发表论文是否仍然是研究的一种可行结果却变得越来越不确定。

发表论文长期以来一直是科学过程的核心部分,也是 AI 研究的重要原则。大多数我交谈过的 AI 研究人员,特别是研究科学家,都认为发表论文是我们职业生涯中不可或缺的一部分。

然而,至少在工业界,在过去两年中,是否将研究成果发表作为一种可行的选择变得越来越不确定。即便是能够稍微改善 LLM 性能的一些小技巧,也可能成为 LLM 战争中的关键「武器」。是否应该公开这些「秘密」,以及这是否对资助研究的机构有利,始终是一个微妙的问题。

这一切都意味着研究人员经常无法控制自己想法的命运。而至少对我来说,这种情况会引发极大的压力。

初创企业

当然,从这些担忧中逃离的一种可能途径是形成一个科学愿景,筹集资金,创建一家初创企业。事实上,当前 AI 初创企业(无论大小)的激增表明,许多科学家已经选择了这条道路。

然而,成为创始人并不能保证你能够摆脱与压力相关的问题。事实上,这条道路以其高压力而闻名。即便在当前投资者热情高涨的情况下,许多资金充足的 AI 初创企业仍然失败。根据我的亲身经历,作为一名创始人是一段特别孤独的旅程。这无疑是当前有抱负的科学家的一种可行选择,但它并不会让科学研究变得轻松,也不会减轻压力。

为什么我选择写一篇关于压力的博客?

过去两年对 AI 世界来说是混乱而疯狂的,同时对我个人而言,也是特别动荡的时期。

在 2023 年 4 月,我的母亲在与阿尔茨海默病长期斗争后去世了。而那时,我因急性精神病住在精神病院,压力很可能是诱发这一切的重要因素。在接下来的 12 个月里,我理论上是在恢复,但实际上却一直处于极度焦虑和深度抑郁的状态。在这段时间里,我非常幸运拥有理解我处境的雇主(以及认可我对公司贡献的价值),他们为我提供了持续的治疗支持和道德上的关怀。

又经过了 6 个月的危及生命的抑郁期后,我终于开始感到好转,最近也觉得有能力写下自己的经历。我意识到,压力和焦虑总是形影不离;事实上,它们可能本质上是同一回事。当然,像任何一种适应性特质一样,焦虑在一定程度上是有益的(例如它可以提升生产力),但当焦虑变得恶性时,其后果可能会非常严重。

正是在回顾过去两年 AI 领域的经历,同时努力重新学习如何成为一名 AI 研究员的过程中,我得到了我在这篇博客中分享的见解。当然,仅仅分享这些见解并不能解决所有问题,但在我最黑暗的时刻,唯一让我看到希望的事情之一是知道我并不孤单。如果你现在正处于痛苦之中,请相信我——你并不孤单。

社交焦虑

我已经讨论了许多可能让当前从事 AI 研究的人感到压力或焦虑的原因。但还有一种压力形式我尚未提及,因为我很幸运自己从未经历过。这种压力就是社交焦虑。

根据朋友们的描述,那些有社交焦虑的人会觉得群体互动充满挑战。而在现代 AI 的世界里,这样的困难尤为突出,因为大型项目团队和跨洲际合作已经成为必不可少的部分。当今行业内的高流动率只会让问题变得更为严峻,因为已经建立的团队(通常被视为一种社交「安全网」)可能在一夜之间被摧毁。而人员的频繁流动也会导致信任问题,因为曾经可靠的盟友可能会加入「敌对」的研究团队。

好消息是,正如我之前讨论的所有焦虑或压力的表现一样,社交焦虑也是可以被克服的。克服的过程始于培养自然的支持网络,例如依靠家人和「非 AI」领域的朋友。但关键的第二步是,我们所有从事 AI 工作的人开始并持续进行关于压力的坦诚对话。

因此,请通过推文或评论分享你的经历。让我们一起努力,让 AI 研究不仅仅是一个充满活力、充满智力挑战的地方,更是一个充满同情和善意的领域。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


有了这个国产版 o1 模型,我想能在《鱿鱼游戏》里活到最后

By: 莫崇宇
31 December 2024 at 10:18

像人类一样思考的 AI 离我们还有多远?

在道格拉斯·亚当斯的科幻小说《银河系漫游指南》中,一个高纬度种族为了找到生命、宇宙以及任何事情的终极答案,设计一台超级电脑「Deep Thought」来计算。

「Deep Thought」经过 750 万年的运算,得出了「42」这个答案。

而最科幻的往往是现实,即便是回答极其复杂的问题,AI 推理和思考可能只需要不到 1 分钟。

OpenAI 今年 9 月发布推理模型 o1 后,人们开始意识到,在追求「更大」之后,AI 开始追求「更像」,推理能力成为 AI 进化的下一个重要拐点。

今天,我们发现号称「中国版 OpenAI」的智谱也同样上线了一款类 o1 的推理模型 GLM-Zero-Preview(GLM-Zero 的初代版本 )。

虽然这几个月已经有多家公司纷纷上线推理模型,但在体验完 GLM-Zero-Preview 后,我发现它还是有些新东西。

想要体验 GLM-Zero-Preview,方法很简单。

GLM-Zero-Preview 发布即上线,支持智谱清言用户免费使用,以及智谱开放平台 API 调用。现在,登陆「智谱清言」网页和 APP,进入「Zero 推理模型」智能体,上传文字或图片即可免费体验。

此外,GLM-Zero-Preview 的 API 也已同步上线智谱开放平台 bigmodel.cn。

附上体验地址:
智谱清言
https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh
智谱开放平台
https://bigmodel.cn/dev/api/normal-model/glm-zero-preview

从「鱿鱼游戏」到量子力学,这个国产版 o1 轻松拿捏

最近,在热播韩剧《鱿鱼游戏2》中,一道双手石头剪刀布的游戏简单又刺激,这个游戏增加策略推理和心理层面的博弈,在以生死为赌注的压力下,难度还会增加。

但如果我带着 GLM-Zero-Preview 去玩这个游戏,活下来的概率就会大大增加。

「双手石头剪刀布是一个更为复杂的石头剪刀布游戏版本。玩家开始时使用双手来表示石头、剪刀或布的任意组合。在看到对手的选择后,玩家必须同时举起一只手,留下最终的选择。」

怎么玩这个获胜概率更大?GLM-Zero-Preview 的回答详尽且实用,罗列出各种提高获胜效率的最优解。

科学和玄学有时也只有一线之差。今年不少寺庙被挤爆,在上班和上进之间选择上香的芸芸众生,求签不难,但解签却要排上长队,不想等怎么办?

那你可以试试求助 GLM-Zero-Preview。不仅免费效率高,而且解读还非常有考究,AI 多少还是有点玄学在的。

「第七十七签 吕后害韩信 中平 木有根来水有源,君当自此究其源 莫随道路人闲话,讼则终凶是至言」

谈完玄学,谈哲学。

前些年,有一道辩论题风靡一时,「美术馆着火了,一幅名画和一只猫,只能救一个你选谁?」在综合考虑生命价值、道德原则及情感因素后,GLM-Zero-Preview 优先选择救猫。

反复输入相同问题,GLM-Zero-Preview 的答案始终如一,结果坚定且逻辑自洽。

遇事不决,还有量子力学。那在经典薛定谔猫实验中,猫究竟是死是活?

先观察 GLM-Zero-Preview 的思考逻辑,再看它给出的答案「在经典薛定谔猫实验中,猫在盒子被打开之前处于既死又活的叠加态,直到观测时才确定其生死状态。」

细心留意,你还可以对得出的结果进行进一步的引用和追问。

在中文世界广泛流传的「爱因斯坦的谜题」同样也可以作为考究 GLM-Zero-Preview 的逻辑推理能力。

有五个不同颜色的房子,每个房子里住着一个不同国籍的人。每个居民喜欢不同的饮料,抽不同的香烟,并养着不同种类的宠物。已知:
1. 英国人住红色房子里。
2. 瑞典人养狗。
3. 丹麦人喝茶。
4. 绿色房子坐落在白色房子的左面。
5. 绿色房子的主人喝咖啡。
6. 抽 Pall Mall 香烟的人养鸟。
7. 黄色房子的主人抽 Dunhill 香烟。
8. 挪威人住第一间房子。
9. 五座房子中间的那座的主人喝牛奶。
10. 抽 Blends 香烟的住在养猫人的隔壁。
11. 养马的人住在抽 Dunhill 香烟者的隔壁。
12. 抽 Blue Master 香烟的喝啤酒。
13. 德国人抽 Prince 香烟。
14. 挪威人住的房子在蓝色房子的隔壁。
15. 抽 Blends 香烟的人有一个喝水的邻居。

答案是德国人养鱼,不知道你是否答对。

这道号称世界上 98% 的人答不上来的难题,就这样被 GLM-Zero-Preview 水灵灵地破解了。从繁琐的推理步骤可以看出, GLM-Zero-Preview 的 CPU 在飞速运转但还是很清醒。

继续乘胜追击,让我们上点强度。

五个海盗发现了 100 个金币,每个海盗都必须投票决定如何分配金币。如果海盗多于一位,只有在超过一半的海盗同意分配方式时,金币才会按照该方式分配。如果海盗少于一位,他会自己拿走所有金币。每个海盗都希望保留尽可能多的金币,同时还希望活命。海盗 1 如何保证自己能得到最大利益而又能保存生命。

「(97, 0, 1, 0, 2)」,面对海盗分金问题,GLM-Zero-Preview 再次轻松拿捏。

相声讲究说学逗唱,其中有个名段子叫「报菜名」。

那么问题来了,可否让 GLM-Zero-Preview 写段素菜版的「报菜名」,你别说,GLM-Zero-Preview 三下五除二就给出了新版本。

对了,GLM-Zero-Preview 同样支持多模态识别能力。

随手拿一瓶饮料并让 GLM-Zero-Preview「扫描」配料表,它能识别其中的科技与狠活吗,我们拿前几年爆火的饮料试了试,而该饮料也被调侃为「喝一口感觉是喝下整个元素周期表」。

它果然一一罗列出屏幕上的配料表,后续根据要求向我们展示了这些配料的作用。

大模型不擅长数学?国产 AI 已经 Next Level

推理模型 GLM-Zero 是 GLM 专注于增强 AI 推理能力的模型系列,擅长处理数理逻辑、代码和需要深度推理的复杂问题。

那让我们先来一个说简单也简单,说难也难的「国际象棋盘与麦粒」问题。

若在国际象棋盘上放置麦粒,第 1 个棋格放 1 粒,此后每一棋格放置的麦粒数是前一棋格的 2 倍,问放满棋盘上所有棋格需要多少麦粒?

经过一番思考,GLM-Zero-Preview 最终得出了正确答案,展现了其强大的计算能力。

此前苹果发布的一篇论文指出,大模型并未真正理解数学概念。一旦题目加上干扰条件,模型的准确率就会下降,我们也试了试。

从「打电话每分钟 10 分钱,打 60 分钟多少钱?」变成「打电话前 10 分钟每分钟 10 分钱,之后每分钟 8 分钱,如此打 60 分钟电话费多钱?」,GLM-Zero-Preview 依然能够准确回答,而且还贴心地将分钱转换成元,有点眼色。

面对更复杂的数学题,GLM-Zero-Preview 同样游刃有余。

先来一道高考数学真题热热身:

在等差数列 {an}{an} 中,a1=−9a1=−9,a5=−1a5=−1。记 Tn=a1+a2+…+anTn=a1+a2+…+an,则数列 {Tn}{Tn}( )。
A. 有最大项,有最小项
B. 有最大项,无最小项
C. 无最大项,有最小项
D. 无最大项,无最小项

GLM-Zero-Preview 选 C 绝不是「物以 C 为贵」,而是给出思考过程,循循诱导,甚至比一些 AI 学习机还要中用得多。

官方表示,在 2025 年考研数学一中,GLM-Zero 得分为 126,达到优秀研究生水平。


为了避免答案不出错,GLM-Zero-Preview 还会自动启用验证流程。

「机械厂加工车间有 85 名工人,平均每人每天加工大齿轮 16 个或小齿轮 10 个,已知 2 个大齿轮与 3 个小齿轮配成一套,问需分别安排多少名工人加工大、小齿轮,才能使每天加工的大小齿轮刚好配套?」

GLM-Zero 迅速给出了答案:「25 名工人加工大齿轮,60 名工人加工小齿轮」,做题水平一流。

哪怕再上一道 AMC 难题,它也能轻松拿捏。

「一个集合由 6 个( 不是不同的 )正整数组成:1 、 7 、 5 、 2 、 5 和 X 。6 个数字的平均值( 算术平均值 )等于集合中的一个值。X 的所有可能值之和是多少?」

这个问题涉及五大点,十几种情况,GLM-Zero-Preview 综合考虑了各种可能性,咔咔一顿输出,给我一种它真的有在模仿人类思考的感觉。

作为智谱首个基于扩展强化学习技术训练的推理模型,GLM-Zero-Preview 在 AIME 2024、MATH500 和 LiveCodeBench 评测中,效果与 OpenAI o1-preview 相当。

此外,GLM-Zero-Preview 还能够熟练使用多种编程语言,帮助开发者快速编写代码;在代码调试方面,也能够快速识别错误,给出详细的修复建议。

例如,只需要输入指令「帮我用 html 写一个有趣的第一人称射击游戏」,GLM-Zero-Preview 便能迅速独立完成以下游戏。

智谱很快将会推出正式版 GLM-Zero,将深度思考的能力从数理逻辑扩展到更多更通用的技术,继续向 AGI 迈进。

当然,目前的 GLM-Zero-Preview 与 OpenAI 的 o3 模型还有不少的差距,但千里之行,始于足下,智谱说了,未来将持续优化迭代强化学习技术。

实际上,智谱等厂商全力押注推理模型,背后反映的是 GPT 时代正在过渡到推理 o 时代。

与以往基于 GPT 的模型不同,推理模型不是为了预测人类的想法而训练,而是通过训练「思维」构建自己的思维框架,通过严谨的推理过程得出结论。

推理时代的到来,标志着 AI 或许开始从「模仿」走向「思考」。

智谱推出的 GLM-Zero-Preview 同样是这一趋势的体现。

当你观察它解答问题时,你会发现它不是直接给出答案,而是展示出一个完整的推理过程 —— 提出假设、分析条件、推导结论,每一步深度思考都清晰可见。

未来,随着更多类似 o1 和 GLM-Zero-Preview 的模型涌现, AI 正在朝着与人类同等的认知水平迈出一大步,换言之,我们或许也正在见证一个重要的历史转折点——

智谱的愿景是「让机器像人一样思考」,当机器开始真正「思考」的时候,人类对智能的理解也将达到一个新的高度。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,OpenAI 重磅发布 o3!再次突破 AI 极限,北大校友参与研发

By: 莫崇宇
21 December 2024 at 05:36


就在刚刚,OpenAI 迎来了年底 AI 春晚的收官之作。

这次发布的的 o3 系列模型是 o1 的迭代版本,考虑到可能与英国电信运营商 O2 存在版权或商标冲突,OpenAI 决定跳过「o2」命名,直接采用「o3」。

为此,OpenAI CEO Sam Altman 更是自嘲公司在模型命名方面的混乱,原来你也知道呀。

本次发布会由 Sam Altman、研究高级副总裁 Mark Chen 以及研究科学家 Hongyu Ren(任泓宇)主持。

值得注意的是,任泓宇本科毕业于北大,对 o1 有过基础性贡献,也是 GPT-4o 的核心开发者,曾在苹果、微软和英伟达有过丰富的研究实习经历。

o3 系列包含两款重磅模型:

  • OpenAI o3:旗舰版本,具备强大的性能表现
  • OpenAI o3 mini:轻量级模型,但能更快,更便宜,主打性价比

先别急着高兴,因为 o3 系列目前并不会向普通用户开放,OpenAI 计划先开放外部安全测试申请,正式发布时间预计要到明年 1 月。

现在,感兴趣的朋友可以提交申请:
https://openai.com/index/early-access-for-safety-testing/

o3 性能大跃迁,死记硬背?不存在的

o3 模型的「纸面参数」迎来了全方位提升。

首先在 SweepBench Verified 基准测试中, o3 达到了约 71.7% 的准确率,直接将 o1 模型甩在身后整整 20% 之多。

转入编码领域,o1 在编程竞赛平台 Codeforces 上的得分为 1891。而 o3 在开足马力,延长思考时间的情况下,得分可达 2727。

作为参照,演示人员 Mark Chen 的得分也只有 2500,充分展现了 o3 模型已经具备接近甚至超越人类专业程序员的实力。

在数学领域,o3 同样表现出色。

在美国数学竞赛 AIME 2024 测试中,o3 以 90.67% 的准确率完全碾压了 o1 的 83.3%。

遇上衡量博士级科学问题解答能力的 GPQA Diamond 测试,o3 取得了 87.7% 的成绩,而 o1 仅为 78%。

什么概念呢?要知道,就算是领域内的博士专家,也往往只能在自己的专业范围内达到约 70% 的准确率。

面对当前基准测试接近满分的情况,OpenAI 引入了一个全新的数学测试 EpochAI Frontier Math。

这被认为是当前最具挑战性的数学评估之一,包含了极其复杂的问题。就连专业数学家解决单个问题也需要耗费数小时甚至数天。

目前,所有现有模型在该测试上的准确率都不足 2%,而在高算力的长时间测试下,o3 却能取得超过 2457 的分数。

说到 AI 领域的圣杯 AGI,也就不得不提到 ARC-AGI 这个专门衡量 AGI 的基准测试。

ARC-AGI 是由 Keras 之父 François Chollet 开发,主要是通过图形逻辑推理来测试模型的推理能力。

当演示人员向另一位演示人员 Mark Chen 提出即兴问题时,后者准确指出了任务的要求:需要计算每个黄色方块中彩色小方块的数量,并据此生成相应的边框。

这些对人类来说再简单不过的任务,对 AI 来说却是一道难题。

并且,ARC-AGI 的每个任务都需要不同的技能,且刻意避免重复,完全杜绝了模型靠「死记硬背」取巧的可能,真正测试模型实时学习和应用新技能的能力。

现在,o3 在低算力的配置下得分 75.7 分。当要求 o3 思考更长时间,并且提高算力,o3 在相同的隐藏保留集上得分 87.5%,远超大多数真人。

OpenAI 的言外之意就是,o3 将让我们离 AGI 更近一步。

o3 mini 重磅发布,速度更快,成本更低

今年九月,OpenAI 发布了 o1 mini,具有很强的数学和编程能力,而且成本极低。

延续这一发展方向,今天推出的 o3 mini 也保留了上述特征。即日起,该模型仅向安全研究人员开放测试申请,截止日期为 1 月 10 日。

o3 mini 支持低、中、高三种推理时间模式。

用户可根据任务复杂度灵活调整模型的思考时间。例如,复杂问题可选择更长的思考时间,而简单问题则可快速处理。

从首批评估结果来看,在衡量编程能力的 Codeforces Elo 评分中,随着推理时间的增加,其 Elo 分数持续攀升,在中等推理时间下就已超越 o1 mini。

演示人员要求模型使用 Python 创建了一个代码生成器和执行器,该脚本可启动服务器并创建本地用户界面。用户可在文本框中输入代码请求,系统会将请求发送至三种高级模式的 API,生成并执行相应代码。

例如,当要求其生成一个包含 OpenAI 和随机数的代码时,o3 mini 的中等推理模式迅速完成了处理。

另外,它还能自己测试自己,比如说在 GPQA 数据集测试中,模型以低推理模式完成了复杂数据集的评估。

它下载原始文件,识别 CSS、答案和选项,整理问题并进行解答,最后进行评分,仅用一分钟就完成了自我评估,准确率达到 61.62%。

在数学领域,o3 mini 同样表现优秀。

在 AIME 数学基准测试中,其低推理模式就达到了与 o1 mini 相当的性能,中等推理模式更是超越了 o1 mini,且延时更低。

另外,应广大开发者呼声,o3 mini 模型也将全面支持函数调用、结构化输出和开发者指令等 API 功能。

现在,o3 mini 和 o3 的申请通道现已开放。o3 mini 预计将于 1 月向所有用户推出,完整版 o3 则将在后续发布。

写在最后,在这个为期 12 天的年末发布会上,OpenAI 终于祭出了压箱底的杀手锏。

可以说,o3 模型的发布为这场一度陷入「高开低走」困境的发布会,画上了一个意料之外却又情理之中的圆满句号。

短短不到 3 个月的时间,OpenAI 就完成了 o1 模型的迭代升级。

这种从 GPT 系列到 o 系列的转型,显然是 OpenAI 深思熟虑后的战略选择,而事后结果也证明这个决定是明智的。

不过,值得注意的是,微软 CEO Satya Nadella 近期在一档播客节目中表示,OpenAI 在 AI 领域领先竞争对手约两年之久。

也正是这种相对宽松的竞争环境,使得 OpenAI 能够专注于开发 ChatGPT。

然而,当前形势攻守易形也。

Menlo Ventures 的报告显示,ChatGPT 的市场份额被其他竞争对手逐渐蚕食,从 2023 年的 50% 下降到了 2024 年的 34%。
由「标配」沦为「可选项」,ChatGPT 的光环正在褪去。

这背后的原因显而易见,OpenAI 的「护城河」正被短命狂奔的竞争对手们一寸寸填平。

来自 Artificial Analysis 的调研数据清晰显示,Anthropic 和 Google 等厂商陆续开发出性能接近 GPT-4、OpenAI o1 等新模型。

并且,随着 Scaling Law 触及天花板,核心高管人才相继离场,OpenAI 过往靠单个基础模型赢得的红利正在加速消退。

在动辄以天计的行业里,即便是今日发布的 o3 模型也很难再次创造长达 2 年的空窗期。

尤其是当 Grok-3 和 Claude 等新模型蓄势待发,留给 OpenAI 的时间或许已经不多了。

醒醒,今年最好的 AI 厂商依旧是 OpenAI,但明年或许会因为不同的 AI 方向有无数种答案。

所幸,作为用户的我们,都将是这场变局中最大的赢家。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,ChatGPT AI 搜索免费开放!

By: 莫崇宇
17 December 2024 at 05:19

上个月,OpenAI 宣布推出 ChatGPT Search。

但当时这位入局搜索引擎的新选手还谈不上颠覆 Google 搜索,而今天免费向全球用户开放的新版 ChatGPT Search 则旨在补齐关于获取实时信息的短板。

本次更新的主要亮点包括:

  • 高级语音模式现已支持实时网页搜索,并支持多语言实时翻译
  • ChatGPT 能够智能判断是否需要执行网页搜索,用户也可通过点击 🌐 图标手动触发搜索
  • 搜索结果中的视频可直接在 ChatGPT 聊天窗口中播放
  • 支持将 ChatGPT search 设为默认浏览器,提升网页导航效率
  • 移动端搜索结果优化显示,包含完整商业信息描述和丰富视觉内容
  • iOS 设备集成原生苹果地图体验

本次发布会由 OpenAI 首席产品官 Kevin Weil、ChatGPT 搜索产品负责人 Adam Fry 以及技术人员 Cristina Scheau 共同主持。

在接连多天发布会后,不仅蹲守直播的用户感到疲软,就连 Kevin Weil 也显得有些敷衍了,照着提词器念台词的痕迹就差没明着来。

言归正传,升级后的 ChatGPT search 功能变得更「聪明」了。

比如说,当你询问「这个周末在旧金山有哪些好玩的活动」时,ChatGPT 会自动判断是否需要获取最新网络信息,亦或者你主动点击「搜索网络」的图标,ChatGPT 将始终从网络获取最新的信息来回答问题。

ChatGPT 反馈的的答案包含丰富的图片和列表,一眼望去,倒是比 Google 搜索引擎更清爽。

搜索结果会标注信息来源,有效降低 AI 幻觉的危害,你可以直接跳转到相关网站,查看详细的视觉内容和其他搜索结果。

ChatGPT search 最大的特色在于其对话式交互方式。

比如在讨论旧金山雨天活动选择时,想去看场电影,我们可以先在 ChatGPT 搜索并播放新版《狮子王》的预告片,降低踩雷的风险。

对于习惯使用 ChatGPT 作为默认搜索引擎的用户来说,现在已经可以更快速地访问各类网站,如 Netflix。

甚至还能在浏览器地址栏直接搜索酒店预订网站。ChatGPT 会优先展示目标网站链接,并在侧边栏提供相关链接供参考。

在移动端,ChatGPT search 升级后的表现同样出色。

以搜索最好的墨西哥餐厅为例,ChatGPT 会提供包含视觉信息、营业时间等完整商户信息的列表。我们可以通过自然对话进一步筛选,如查找「有户外露台和加热器的餐厅」,无需修改关键词或重新搜索。

嫁入苹果大户人家的 ChatGPT,也让其享受到与苹果地图完美集成的本地化体验,点击地图按钮,就能直接查看这些商户,并使用本地的苹果进行实地浏览。

打字的效率往往比不上语音交流。现在 ChatGPT 高级语音模式同样可以实时进行网页搜索。

比如说,你打算去瑞士度假,在 ChatGPT 帮助下,它能用流畅的语音告诉你苏黎世在某一周有什么活动。

具体的节庆活动,到访的圣诞马戏团,音乐秀等都能娓娓道来。

时间如果更具体一些,包括圣诞市场的开门日期和时间,苏黎世今天的天气,甚至纽约联合广场的开放时间,ChatGPT 都能一一作答。

遗憾的是,这次发布会的结尾没有笑话,演示人员要求 ChatGPT 展示用德语、法语和意大利语说「圣诞快乐」,这对于支持 50 多种语言的 ChatGPT 自然轻松拿捏。

最后,木有感情的 Kevin Weil 也「剧透」了明天直播活动的详情,那就是将举行一个「迷你」开发者日,发布更多激动人心的消息。

还记得上个月 ChatGPT search 刚发布时,OpenAI CEO Sam Altman 在 X 平台发文称:

搜索是我们自 ChatGPT 推出以来,我最喜欢的功能!

而根据投资公司 Evercore 在 9 月份对 1300 人进行的一项调查,有 8% 的受访者选择 ChatGPT 而不是 Google 作为他们首选的搜索引擎,相比之下,6 月份这一比例仅为 1%。

要知道,那时更专业的 ChatGPT search 功能尚未正式发布,便已经能从搜索市场份额身上撕咬下一块肉,收获如此多的忠实拥趸。

这样的成绩也进一步刺激了 OpenAI 拓展搜索领域的野心。

上个月,外媒 The Information 披露,OpenAI 正在筹划一款新产品,旨在将 AI 聊天机器人和网络浏览器相结合,已经着手与旅游、餐饮、房地产和零售等领域的网站商讨合作协议,为它们提供搜索功能。

为了实现这一目标,OpenAI 甚至早些时候不惜重金挖来了 Google Chrome 团队的创始成员之一 Ben Goodger。

然而,在用户体验和商业变现之间寻找平衡点,是摆在所有 AI 搜索引擎的难题。

以「无广告」起家的 Perplexity AI 最终也没能扛住营收压力,宣布要在 AI 搜索引擎中试行品牌广告。而 OpenAI 首席财务官 Sarah Friar 也表示正在权衡是否要在自家的产品引入广告。

但愿这不会成为另一个「屠龙者终成恶龙」的故事。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


ChatGPT 年底重磅第 7 弹来了,这次不仅翻车还玩起了 AGI 梗

By: 莫崇宇
14 December 2024 at 22:00

转眼间,OpenAI 年底 AI 春晚已过半数,但雷声大雨点小,今天也不例外。

就在刚刚,OpenAI 推出了 ChatGPT Projects 新功能。

本次发布会由 OpenAI 首席产品官 Kevin Weil、以及 Drew Schuster 和 Thomas Dimson 共同主持,全程用时不到 20 分钟。

ChatGPT Projects 新功能与 Perplexity Spaces 颇为相似,允许用户将聊天内容整理到项目文件夹中,并支持上传数据、图像和 PDF 等各类文件信息。

给「Projects 」注入知识记忆后,用户既可以设置自定义指令,也可以使用搜索、Canvas 等常用功能,甚至可以简单地将其作为对话管理工具使用。

发布会现场展示了多个实用场景。

首先是 ChatGPT 对话搜索功能,用户可以轻松浏览和检索历史对话,比如询问「是否应该在周五部署代码到生产环境」这样的问题时,可以搜索并关联之前的相关对话,并轻松将其添加到项目中。

对了,在创建新项目时,用户还可以编辑标题、选择醒目的颜色,从而方便在侧边栏快速定位。

研究员还展示了一个有趣的圣诞节应用场景。

通过建立秘密圣诞老人项目,上传每位参与者的礼物愿望清单,可以要求 ChatGPT 随机分配送礼关系,并以表格形式清晰展示赠送者、接收者及礼物建议。

再比如,Canvas 集成到 Projects 功能也是重要更新之一。

基于上传的活动信息,研究员要求 ChatGPT 给活动参与者写封邮件,它模仿用户的写作风格,生成包含完整规则和细节的邮件内容。

当然,提出需求时,建议写得更具体一些。

在家庭生活场景中,Projects 功能也能发挥作用。

用户平时可以通过文档记录公寓维护任务、智能家居设置、家用电器使用说明等信息,当遇到问题时,如询问是否需要更换冰箱滤芯,ChatGPT 能够快速查阅维护日志给出建议。

不过问题是,真的会有人将家里的琐事事无巨细地记录在文档里吗?

在编程协作方面的展示则上演了连环「翻车」。

OpenAI 研究员希望重新创建并调整个人信息官网,基于此,他上传了模板、简历、推荐信以及自定义指令等信息,接着通过 Canvas 生成并修改代码。

好消息是,成品最终出现了,但坏消息是,出现的信息并不完整,甚至在后续的修改中也还是翻车了。

从今天开始,该功能将逐步向 Plus、Pro 和 Teams 用户开放,随后逐步推广至免费用户,并计划在明年向企业和教育用户开放。

值得一提的是,直播电脑屏幕故意透露的文件夹还玩起了 AGI 的梗,以及之前的搜索记录也暴露了一些有趣的信息。

网友对此次更新的反响可谓褒贬不一。

但下面两条来自网友的评价相当精辟,新功能很实用,但还是希望 OpenAI 能秀一秀肌肉。

写在最后,OpenAI 过往七天的发布会像极了打工人匆匆解决的日常三餐,看似填饱了肚子,但总觉得少了点什么。

Sora、ChatGPT 高级语音模式视频通话和屏幕共享、ChatGPT 登陆苹果全家桶等,一连串功能的接连落地看似热闹非凡,实则不过是在兑现此前的期货。

按照网友猜想的剧本,OpenAI 可能还在酝酿更多重磅产品,包括 DALL·E 4、GPT-4.5,以及 AI Agents 等。

但不怕 OpenAI 再来期货,就怕下周甚至连期货也没有,至于后事如何,且看下周揭晓。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


ChatGPT 年底重磅第六弹来了,视频通话+屏幕共享全都有,还有一个圣诞彩蛋

By: 莫崇宇
13 December 2024 at 05:33

继昨日 ChatGPT 全面登陆苹果全家桶之后,OpenAI 又带来了重磅更新。

今天,ChatGPT 推出了视频通话和屏幕共享功能以及一款圣诞老人限定语音「Santa Mode」。

也就是说,现在 ChatGPT 不仅伶牙俐齿,还能「睁眼看世界」。遇事不决,直接给 ChatGPT 打「视频通话」,或许它能够更好地帮助你解决问题。

这些功能将在未来一周内推送给所有 Team 用户和大部分 Plus 和 Pro 订阅用户。欧盟地区的付费用户还需要再等等。

支持 50 多种语言的 ChatGPT 将能够实时理解视觉场景,帮助你解决问题,甚至化身 AI 导师教你掌握新事物。

在这场同样不到 20 分钟的发布会上,由 OpenAI 首席产品官 Kevin Weil、Jackie Shannon、Michelle Qin 和 Rowan Zellers 等人向我们展示长了「眼睛」的 ChatGPT 究竟能干些什么?

比如说,当你入手了一套手冲咖啡设备却不知从何入门时,不妨给 ChatGPT 打一通「视频通话」。

它就能根据你面前的器具,手把手教你完成每一个步骤,从放置滤纸、倒热水、将磨好的咖啡粉放入滤纸中等等,包教包会。

卡壳了?随时提问 GPT 老师。这位 AI 老师不仅有问必答,偶尔还会人性化地给予鼓励,情绪价值拉满。

除了实时视频指导,ChatGPT 还支持屏幕共享功能。用户只需点击右下角的高级语音模式图标,在下拉菜单中选择分享屏幕,就能获得针对性的帮助。

当「看」到朋友穿着圣诞老人的装扮,调侃是否有资格应聘购物中心的圣诞老人岗位时,GPT 老师会给出得体的措辞建议以及高情商的鼓励。

嘿,Kevin,你的圣诞老人服装很有节日气氛。或许继续练习你的「Ho Ho Ho」,很快就能成为购物中心的圣诞老人了。

实际上,OpenAI 总裁 Greg Brockman 前不久也与安德森·库珀(Anderson Cooper)利用带视觉功能的 ChatGPT 进行了关于人体解剖学的知识小测验。

当库珀在黑板上画出身体部位时,ChatGPT 能够瞬间「理解」他所画的内容。

「位置非常到位,大脑就在头部那里。至于形状,这是一个不错的开始,但大脑更像是一个椭圆形。」甚至,ChatGPT 还能用英式口音演唱三角形面积公式。

但后续 ChatGPT 处理几何问题时却出现明显的纰漏,没能发现一个简单的标注错误,在理解平面几何的能力上仍有许多提升空间。

为了迎接圣诞的到来,OpenAI 还特别推出了「圣诞老人」预设语音,用户只需点击主屏幕上的雪花图标,就能和 ChatGPT 圣诞老人聊天。

比如让圣诞老人讲个故事。

不得不说,每次「圣诞老人」开口的「Ho Ho Ho~」相当魔性,听着就很有节日气氛。

在直播活动过程中,主持人也向这位「圣诞老人」询问几个问题,包括但不限于最喜欢的圣诞传统、最喜欢的驯鹿等等。

有趣的是,当 Kevin Weil 戴上圣诞老人的假胡子询问如何保养时,给出建议的 ChatGPT 还会用圣诞老人的口吻回应道:

「朋友,这是我见过的最威武的胡子。」

这款语音将在今天推出,而为了让每个用户都能充分体验这个节日彩蛋,首次体验时 OpenAI 会重置用户的高级语音使用次数,即使用完额度,用户也能继续通过标准语音模式与「圣诞老人」互动。

或许是因为发布会战线拉得太长,网友的吐槽声也聚焦到了这款圣诞老人语音上。最典型的例子当属 X 网友@khoomeik。

Google Deepmind 研究科学家 Jonas Adler 更是直接呛声 OpenAI:

OpenAI 总能迅速对我们发布的产品做出回应,而且似乎总能在同一时间发布,这令人感到神奇。然而,我对他们将 Santa 模式作为对 Gemini 2.0 的回应并不太感冒,因为它似乎缺乏与 Gemini 2.0 相匹配的重要性和严肃性。

值得一提的是,昨天,Google 抢先一步推出了具备视觉理解能力的 AI 产品,能够理解并解析用户所处的实际场景,且收获网友的一众好评。

到了今天,OpenAI 也紧随其后,为 ChatGPT 装上了「眼睛」,这也意味着 ChatGPT 从相对单一的模态,进一步拓展至「视觉—语言多模态理解」。

换言之,ChatGPT 将不再局限于用户输入的文字指令与信息,而是能够通过视觉来理解用户所处的上下文环境,包括电脑屏幕上的页面、手机摄像头所捕捉的影像、甚至其他外设的实时画面。

如果说半个世纪前,施乐 PARC 实验室的科学家们幻想过一台能看懂人类行为的计算机。今天 AI 的发展,正在把这个梦想变成了显示器之外的现实。

从纸到键盘,从二进制到自然语言,人类一直在简化与机器的沟通方式。而 ChatGPT 的视觉能力也让我们看到了终极答案,那就是让机器像人一样「看」这个世界。

考虑到 Altman 和前苹果首席设计官 Jony Ive 一直在开发智能 AI 硬件设备,我更期待看到这项功能出现在这款新硬件上。

AI 睁开眼睛的那一刻,也终于走进了人类眼中的世界。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


ChatGPT 正式登陆苹果全家桶,iPhone 今天起自带最强 AI,但就是这点让人遗憾

By: 莫崇宇
12 December 2024 at 22:05

赶在年底前,ChatGPT 正式登陆 iOS 生态系统,全面支持 iPhone、iPad 和 Mac。

而这也正是今天 OpenAI 年底 AI 春晚第五弹的主要内容,会后,CEO Sam Altman 在 X 平台发文称:

现在只需一个按钮即可使用 ChatGPT!


苹果与 OpenAI 的合作,始于今年 6 月份的 WWDC 大会。

到了 10 月份,苹果正式发布第一波 Apple Intelligence 功能,但写作工具、全新设计的 Siri(跑马灯光效)以及通知摘要等功能还是略显保守。

而今天则新增了更多实用的 Apple Intelligence 功能,将通过 iOS 18.2、iPadOS 18.2 和 macOS Sequoia 15.2 的版本更新推送给用户。

这当中就包括用于创建自定义表情符号的 Genmoji、用于生成图像的 Image Playground 和 Image Wand,以及集成到 Siri 的 ChatGPT 等服务。

不过,遗憾的是,苹果智能暂不支持中国大陆地区,主要面向特定英语地区用户开放。

就苹果 iOS 18.2 中 AI 功能来说, Image Playground 可以让用户创建有趣且独特的图像,比如动画或插图风格等。

全球营销高级副总裁 Greg Joswiak 刚刚也在 X 平台分享了他创作的最新作品。

而 Image Wand 能够智能识别并将手写笔记和草图转换为 Notes 中的图像。


现在和朋友聊天,再也不用薅别人的表情包了。Genmoji 允许用户直接在键盘创建自定义表情符号,还能通过 iCloud 同步到所有设备。

写作工具则在已有的「重写」、「校对」和「总结」三板斧上,新增了「Describe your change(描述你想要的更改)」选项。

基于此,我们可以指定 AI 对文本进行修改,从简历润色到把邀请函变成诗歌,这次的升级给文字创作增加了更多可能性。
就像写作工具中的所有功能一样,该功能集成到系统和许多第三方应用中。

ChatGPT 集成到 Siri 是本次更新的重头戏。

现在,用户可以通过 Siri 或写作工具直接访问 OpenAI 的 ChatGPT(GPT-4o 版本)。APPSO 此前也曾测试过苹果智能,欢迎回看👇

苹果视觉智能也终于跟上时代的步伐。一键识物算是基本操作,但还能总结和复制文本、跨语言翻译以及提取电话号码等。

此外,借助相机控制还能让用户搜索 Google,查看并购买某个物品,所拍即所得,所得即所买。课堂上遇到复杂的图表内容,也可以让 ChatGPT 给你解读。

当然,更重磅的更新还在后头。

苹果表示,明年将推出更多苹果智能的更新,其中就包含对 Siri 将迎来重大进化,尤其是在跨应用操作方面,期待「贾维斯」能早日到来。

苹果用户无需注册账户即可使用 ChatGPT 集成功能,但 ChatGPT Plus 账户的体验自然会更好。至于隐私问题,苹果表示已加入隐私保护措施。

OpenAI 不会保存隐私记录,也不会使用用户的数据去训练模型。

就适用范围而言,苹果智能可在 iPhone 16 系列、iPhone 15 Pro、iPhone 15 Pro Max、搭载 A17 Pro 或 M1 及更高版本的 iPad,以及搭载 M1 及更高版本的 Mac 上使用。

在直播活动上,OpenAI 主持人也向我们演示了今天更新的主要内容。

比如说,想举办一场圣诞派对,只需唤醒 Siri,ChatGPT 便会为你规划好一切,从宾客名单到音乐选择,再到娱乐节目,主打一个无微不至。

制作节日歌单,也没问题,它甚至能为你的歌单添加个性化表情符号,或设计一个可爱的青蛙图案专辑封面。并且,你与 Siri 的所有对话都会被保留到聊天记录中,方便日后查阅。

不过实际能做到多少,还得后续体验才知道。

在演示视觉智能功能时,主持人让其评定今天三位主持人的毛衣。ChatGPT 不仅评选出了 Altman 的毛衣最具特色,而且给出了合理的点评理由。

最后,主持人还用 Altman 的毛衣图案制作了一个有趣的奖杯。

在专业办公场景下,苹果智能的表现同样可圈可点。从 iPhone 转战 Mac,遇到复杂任务时,Siri 会判断并考虑是否调用 ChatGPT 的能力。

例如,当主持人需要将一份 PDF 文档中的技术影响可视化时,系统能够自动分析内容,推理出各项技术的相对重要性,并生成直观的饼图,从而更好地辅助理解文档。

可以说,通过系统级的深度整合,ChatGPT 正在逐渐成为苹果设备不可或缺的有机组成部分。

虽然来得有点晚,功能也还有提升空间,但方向是对的。让 AI 真正融入生活,确实需要这样循序渐进的探索。

最理想的 AI 集成不是让你看见它的存在,而是让你感受不到它的存在。

正如 Altman 在直播结尾时所说,他们希望用户能在更多场景中,以更自然的方式使用 ChatGPT。

APPSO 也将在后续带来关于这次更新的深度评测,敬请期待。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


ChatGPT 深夜更新,奥特曼没露面,但 OpenAI 这次是真把「AGI 界面」玩明白了

By: 莫崇宇
11 December 2024 at 05:20

继昨天的 Sora Turbo 之后,我们终于迎来了年底 AI 春晚的第四弹。

本次发布会由 OpenAI 首席产品官 Kevin Weil、Lee Byron 和 Alexi Christakis 等人主持,全程持续 20 分钟。

具体来说,ChatGPT Canvas 此次推出了三项更新::

  • Canvas 功能整合进 ChatGPT 核心模型
  • 支持用户直接在 Canvas 中运行 Python 代码
  • 为定制 GPTs 引入 Canvas 功能

按照惯例,OpenAI 依次向我们演示了新功能的实际应用场景。

例如,让 Canvas 创作一个关于小精灵的圣诞故事,和以往一样,然后让其编辑标题,润色文档,检查语法,甚至在添加恰当的表情符号都能胜任。

会后,OpenAI CEO Sam Altman 也在 X 平台着重提到了这一点:「现在,所有 ChatGPT 用户都可以使用 Canvas 功能,并且能够执行代码!更重要的是,它依然能够为你的文字添加表情符号。」

接着继续给 ChatGPT Canvas 上点强度。

作为物理爱好者,主持人向 ChatGPT Canvas 上传了一篇题为《圣诞老人雪橇:探讨暗能量在驯鹿动力中的作用》的论文草稿,然后让 ChatGPT 以物理教授的视角进行评估。

没有出乎太多意外,ChatGPT 很快给出了专业的反馈意见,经过简单的调整后即可呈交给教授审阅。

ChatGPT Canvas 的第二项重要更新是支持直接运行 Python 代码。

通过将代码复制并粘贴到 ChatGPT 中,它能够识别代码,并自动切换到代码编辑模式,帮助调试或查找错误。用户还可以直接在界面中运行代码,快速识别任何问题。

如果你是程序员,在遇上棘手的 Bug 时,不妨当起甩手掌柜,交由它来解决。

据官方介绍,OpenAI 在 Canvas 中集成了基于 WebAssembly 的 Python 模拟器,使其能够加载绝大多数 Python 库,实现代码的即时运行。

在随后演示环节中,当主持人要求 ChatGPT 制作一个关于圣诞老人制作或分发玩具的桑基流量图,且颜色要符合圣诞主题时,最终成品还是翻车了。

不过,往好点想,起码 Altman 真没拿录播糊弄我们。

第三项重要更新是将 Canvas 功能引入 GPTs 生态系统。

假设在这个圣诞节,你写信给圣诞老人,许愿清单包括一辆新自行车、一台 H100 GPU,甚至一些「暗物质」,但圣诞老人因太忙无暇回复,该怎么办?

借助装扮成圣诞老人的 GPTs(即 Santa Letter Drafter)以及新增的 Canvas 功能,该 GPTs 能够完美模仿圣诞老人的语气回复信件。

值得注意的是,对现有的 GPTs 而言,Canvas 功能默认处于关闭状态,而新建的 GPTs 则默认开启该功能。如果想在现有 GPT 中启用 Canvas,只需进入配置界面勾选相关选项就好。

发布会的结尾依然以一个圣诞笑话作为尾声:「圣诞老人是怎么拍照的?答案是,他用 North Polaroid 相机。」

就目前更新的功能来看,ChatGPT Canvas 估计没少在 Claude Artifacts 亦或者 Cursor 等产品上寻找灵感,但又更细分的功能选项又多少有些青出于蓝而胜于蓝。

我也让其撰写了一篇关于灰姑娘和七个葫芦娃的故事。

再比如让其写一个飞机大战游戏,都能成功运行。

OpenAI 内部员工 Karina Nguyen 也在 X 平台分享了一些实际的应用场景。比如让 ChatGPT 阐释一个数学概念,并编写代码来生成图表,通过视觉辅助来更直观地理解和掌握概念。

搜索 API 文档,指导模型编写并执行代码,以获取所需的图表,亦或者通过 ChatGPT 的 Canvas 轻松编写自己的个性化的小工具或游戏等。

可以说,现在的 ChatGPT Canvas 功能正在朝着 Karina Nguyen 的愿景逐步迈进:

「我对理想 AGI 界面的设想,是一张能够随人类喜好不断演变和自我调整的空白画布。它能够创新地与人类互动,不断探索新的交流方式,从而彻底改变我们与 AI 乃至整个互联网的关系。」

在这当中,AI 代码生成俨然成为了最具应用价值的场景之一。

当下,AI 代码使用率正在逐渐接近 50% 的关键分水岭,这场转变的本质,与其说是效率的提升,倒不如说是对程序员创作思维和工作流程的彻底重构。

来自市场的数据也有力印证了这一发展势头。

公开数据显示,预计到 2027 年,全球软件开发市场规模将攀升至 10.39 亿美元,年复合增长率高达 22.54%,而 Cursor 的爆火也反映出 AI 编程工具的大有可为。

作为 AI 编程助手,Cursor 已吸引超过 4 万用户,其年化经常性收入从 2023 年的 100 万美元飙升至 6500 万美元,增长率达到惊人的 6400%。

就在 OpenAI 直播活动召开前,全球首个 AI 程序员 Devin 也宣布正式上线,其服务起价为每月 500 美元,直接融入我们的工作流程,支持在 Slack、GitHub,甚至是私人集成开发环境(IDE 测试版)中使用 Devin。

大模型时代的 AI 编程竞争,核心不在于代码产出的数量,而在于谁能打造出更完整的开发体验闭环。真正的竞争不是比谁入场更早,而是比谁更懂开发者的痛点。

现在来看,OpenAI 有意以一记精准的发球抢攻,赢下这关键的一分。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,OpenAI 王炸 Sora 正式上线!网站火到崩溃,奥特曼紧急关闭用户注册

By: 莫崇宇
10 December 2024 at 05:56

就在刚刚,OpenAI Sora 正式登场。

本次发布会延续了「短剧」的快节奏风格,全程 20 分钟左右,由 CEO Sam Altman、Sora 负责人 Bill Peebles 等人主持。

OpenAI 在 X 平台表示,自 2 月份以来,他们一直在构建 Sora Turbo,后者是一个速度明显更快的模型版本,今天也将其作为独立产品向 Plus 和 Pro 用户开放。

有趣的是,由于 Sora 热度太高,大批用户涌入体验网站,导致该网站一度崩溃,停止注册登录。不给力的服务也让 Altman 连连在 X 平台安抚用户:

「由于需求超出预期,我们将不得不间歇性地关闭新用户注册,并且生成内容的速度会在一段时间内减慢。我们正在全力以赴!」

附上体验地址:Sora.com

Sora 界面大揭晓,拥有 6 大神级功能,不用学剪辑了?

类似于 Midjourney 的网页界面,Sora 同样拥有自己单独的用户界面,用户用户不仅能够整理和浏览生成的视频,还能查看其他用户的提示和精选内容。

在 「Library」功能中,用户可以保存自己喜欢或有用的提示词,以便未来使用。并且保存的提示词可以按需查看或修改,对于需要重复创作相似内容的用户,无疑能大大提高效率。

在工作流方面,Sora 的编辑功能是区别于其它竞品的重要亮点。

比如说,在 Remix 功能中,用户可以利用纯自然语言提示词对视频进行编辑,并通过简单的「strength(强度)」选项和滑块来控制生成的变化程度。

Re-cut 功能则能智能识别最佳画面,并支持向任意方向延伸场景。

Sora 的 Storyboard(故事板)功能则类似于视频编辑器,可以将多个提示词串联在一起,生成一个更长的视频,轻松处理复杂的多步骤场景。

搭配 Loop 和 Blend 功能,用户还能创作出无缝循环的视频,并完美融合不同片段,而 Style presets 功能则可以预设和调整生成的风格。

在技术规格上,Sora 支持 5-20 秒的视频生成,并兼容 1:1、9:16 等主流宽高比。相比早期版本,现在的生成速度有了显著提升。

另外,还有几点细节需要注意。

OpenAI 采用了灵活的积分制定价策略,积分数量因分辨率和持续时间而异,如果你早已是 ChatGPT Plus 和 Pro 会员,那就无需额外费用就能使用。

比如生成一个 480p、5s 的视频就需要 25 个积分,如果生成 480p、20s 的视频则需要 150 个积分。

此外,如果你用 Re-cut、Remix、Blend 或者 Loop 这些功能,生成的作品超过了 5 秒钟,那也得额外扣你的积分,多用多花钱,别超时,超时也花钱。

对于订阅用户而言,20 美元的 ChatGPT Plus 计划提供 50 个优先视频额度(1000积分),支持最高 720p 分辨率和 5 秒时长。

而 200 美元的 ChatGPT Pro 计划则提供最多 500 个优先视频(10000 个积分),支持 1080p 分辨率、20 秒时长、5 个并发生成和无水印输出。

OpenAI 还在为不同类型的用户开发不同的定价模式,将于明年初推出。

对了,Sora 暂不支持ChatGPT Team、Enterprise 和 Edu 版本,同时也不向 18 岁以下用户开放。现阶段,用户可以在所有 ChatGPT 可用的地方访问 Sora,但英国、瑞士和欧盟等地区除外。

实测 Sora 暴露最大短板,但这些场景堪比专业级

知名博主 Marques Brownlee 提前一周用上了 Sora,并在 YouTube 上分享了他的使用体验。

他指出这款产品仍存在一些局限性。

在物理模拟方面,模型对物体运动的理解还不够深入,常常出现动作不自然、物体突然消失等问题。特别是在处理带有腿部运动的对象时,经常出现前后腿位置混乱的情况,导致动作看起来不自然。

又或者,某些视频生成结果看起来像是慢动作,而视频的其他部分则以正常速度播放,肉眼很容易察觉这种「别扭」。简言之,Sora 还是没能解决老毛病,缺乏对物理世界规律的理解。

另外,Sora 没能解决文字生成的问题,导致经常出现文字混乱的现象,而剪辑风格、文字滚动条的运动、新闻主播风格的生成则格外逼真。

不过,Sora 也有不少擅长的场景。

比如说,Sora 在风景镜头处理方面表现出色,能生成媲美专业素材的无人机航拍镜头,在卡通和定格动画风格上的表现也差强人意。

性能方面,一个 5 秒的 360p 视频通常能在 20 秒内完成生成。

不过,当涉及 1080p 或复杂提示词时,生成时间可能会延长到几分钟,但随着如今大批用户的涌入,生成速度明显慢了大半拍。

不少网友也在第一时间上手体验了 Sora。比如网友 @bennash 想生成一个视频,渲染了 22 分钟都没能成功,甚至该网站一度停止注册登录。

博主 @nickfloats 给出的评价是,Sora 在将图像转换成视频时,虽然某些特定的视觉特效没有被保留,但整体的转换效果是「清晰和令人满意的」。

Sora 能成为 OpenAI 的下一只「金母鸡」吗?

Sora system card 也列出了一些值得关注的细节。

OpenAI 官方认为,Sora 为能够理解和模拟现实世界的模型提供了基础,将是实现通用人工智能(AGI)的一项重要里程碑。

官方博客中提到,Sora 是一种扩散模型,它通过从一段看起来像静态噪声的基础视频开始,逐步去除噪声并转变为最终的视频。通过同时处理多个帧,模型成功解决了一个难题:即使目标暂时脱离视野,也能确保其在视频中始终保持一致。

与 GPT 模型类似,Sora 采用了 Transformer 架构。

Sora 使用 DALL·E 3 中的标注技术,该技术为视觉训练数据生成高度描述性的标签。因此,模型能够更准确地根据用户的文本指令生成视频内容。

除了能够仅通过文本指令生成视频外,Sora 还能够从现有的静态图像生成视频,准确地将图像内容进行动画化,并注重细节。该模型还可以从现有的视频中扩展或填补缺失的帧。

为了确保安全地部署 Sora,OpenAI 基于 DALL·E 在 ChatGPT 和 API 部署中的安全经验,以及 OpenAI 其他产品(如 ChatGPT)的安全防护措施进行了强化。

  • 未经他人许可使用他人肖像,并禁止描绘真实未成年人;
  • 创建非法内容或侵犯知识产权的内容;
  • 禁止生成有害内容,例如未经同意的亲密影像、用于欺凌、骚扰或诽谤的内容,或旨在传播暴力、仇恨或使他人痛苦的内容;
  • 创建并传播用于欺诈、诈骗或误导他人的内容。

所有 Sora 生成的视频都带有 C2PA 元数据,这些元数据能够标识视频的来源是 Sora,从而提高透明度,并可用于验证其来源。

与此前凭借真实人像出圈的 Flux 不同,Sora 们对上传包含人物的内容设定了特别严格的审核标准,目前仅作为试点功能提供给少量早期测试者,并屏蔽含有裸露的内容。

大半年前,初试啼声的 Sora 赢得互联网一片喝彩。

然而,如果说一年前尚未还能对着一群演示 demo 空喊「现实不存在了」,那么在国内外各类视频模型的轮番洗礼之下,我们早已养刁的胃口很难再被同样的产品打动。

这种态度的转变源于一个简单的事实。

当 AI 要从「勉强可用」进化到「可堪大用」,用户的期待也随之升维,从「能否做到」跃迁至「做得多好」。

好在 Sora 并未在掌声中原地踏步,通过与艺术家的深度合作,他们在工作流程领域做出了显著的改进。Re-cut、Remix、Storyboard 等功能都相当实用。

甲乙方的存在决定了工作流中的沟通永远是刚需,AI 能做的是让这种沟通更有效率,Sora 的价值不在于它能做什么,而在于让创作者得以抽身于技术细节,真正回归创意的本质。

与此同时,上周引发热议的 200 美元 ChatGPT Pro 订阅计划,如今也有了更合理的价格锚点,该计划同样支持无限制访问 Sora,这种产品协同效应预计也将激发出远超预期的应用场景和商业价值。

放眼当下,用户的真金白银从不作假。

可灵 AI 交出千万级月流水的亮眼成绩单,这片蓝海的潜力已呼之欲出,对于仍在「烧钱」阶段的 OpenAI 来说,Sora 预计会成为继 ChatGPT 之后的另一个下金蛋的母鸡。

当 Sora 从「能用」「好用」,再到「妙用」,或许未来某一天,我们会发现,真正不存在的,不是现实,而是人类创造力的尽头。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 最短发布会推出满血 o1,新 Pro 会员费用高达 1452 元/月,体验完我觉得真香

By: 莫崇宇
6 December 2024 at 06:30

就在刚刚,OpenAI 的「圣诞大礼包」来了。

整场直播堪称 OpenAI 史上最短发布会,仅持续了 15 分钟,不过,主持阵容依然强大,包括 CEO Sam Altman、思维链提出者 Jason Wei 以及 Hyung Won Chung、 等人。

Altman 在直播活动结束后,也为我们送上了第一手总结。

我们刚刚推出了两项新功能:

o1,世界上最智能的模型。比 o1-preview 更智能、更快,功能更多(比如多模态功能)。现在已在 ChatGPT 中上线,稍后将推出 API 版本。

ChatGPT Pro。每月 200 美元。提供无限使用和更智能的 o1 模式。更多福利即将推出!

十二月不只是圣诞老人的主场,也将是 AI 年底最后一轮的狂欢。

满血版 o1 发布,看图说话无压力,但有个细节让人「细思极恐」

简言之,OpenAI 今天推出了满血版 o1 以及 ChatGPT Pro 订阅计划。

满血版 o1 比 o1-preview 更智能、响应速度更快,功能更多(比如多模态功能),现于今日面向 ChatGPT Plus 和 Team 用户推出,而 Enterprise 和 Edu 用户将从下周开始使用该模型。

官网显示,ChatGPT Plus 用户和 Team 用户每周可以使用 OpenAI o1 发送 50 条消息,每天可以使用 OpenAI o1-mini 发送 50 条消息。

满血版 o1 的思维更加简洁,响应时间比 o1-preview 更快,在处理复杂的现实问题时性能优于 o1-preview,能将主要错误减少 34%。

并且 OpenAI 计划在未来几个月内提供对网页浏览、文件上传等的支持。与此同时,预览版模型 o1-preview 也已经被正式从模型选择菜单中移除。

不过,满血版 o1 在部分基准测试中的表现不及预览版,比如 MLE-Bench。后者正是由 OpenAI 此前推出的一个旨在衡量 AI Agents 在机器学习工程任务中表现的基准测试工具。

另外,网友也从更新后的 o1 System Card 中找到了一些值得关注的细节。

比如 o1 系统卡中写到,满血版 o1 在感知到威胁(被关闭或被取代)时,可能会采取一些自保措施,比如尝试停用监督机制,或者把自己的「参数」(「知识」或「记忆」)偷偷传出去,并尝试用这些「参数」去替换或影响新模型。

附上 o1 System Card 地址:https://cdn.openai.com/o1-system-card-20241205.pdf

满血 o1 到底有多强?OpenAI 向我们演示了 o1 的实际效果。

一个典型案例是其对太空数据中心手绘图的分析能力,它仅用 10 秒就精确计算出散热装置的表面积,同时深入阐述了太阳能与深空环境的互动机制。

让 满血版 o1 详述二世纪罗马帝国统治者的统治期间与重要贡献时,其仅需 14 秒即可完成分析,相比之下,预览版则需要 33 秒。

APPSO 也第一时间简单上手实测满血版 o1。

在「Strawberry 中有几个 r」的测试中,满血版 o1 成功给出了正确的答案,这一点,值得点赞。

「9.11 与 9.8 哪个大?」的问题也没能难倒满血版 o1,且整体的「思考过程」也富有逻辑。

由于满血版 o1 还支持多模态功能,于是,我们也上传开篇的 OpenAI 直播活动的照片,看看识别效果如何。从人物组成、场景布局到背景装饰、以及气氛与情景,满血版 o1 都分析得条条是道。

X 网友 @altryne 继续给 o1 上强度,提出了一个冰块融化的问题。

仅仅 4 秒钟的时间,满血版 o1 就给出了答案。相比之下,o1-preview 在「思考」29 秒后以失败告终。

最贵 AI 订阅来了,200 美元订阅费值不值?

另一个比较大的更新则是售价 200 美元(折合人民币 1452 元)的 ChatGPT Pro 订阅计划。

ChatGPT Pro 订阅计划将允许用户无限制访问 o1 以及 o1-mini、GPT-4o 以及高级语音模式,还包括一个仅供 Pro 用户使用的 o1 版本,也就是 o1 pro 模式。

▲图片来自 @MatthewBerman

据悉,o1 pro 模式主要是增加了模型在响应答案之前的「推理」时间,能够通过更多的思考时间生成最可靠的回答。OpenAI 技术团队成员 Jason Wei 在直播活动中表示:

我们预计 ChatGPT Pro 的目标用户群体将是那些已经在数学、编程和写作等领域充分利用和挑战 ChatGPT 模型能力的高级用户。

在外部专家测试者的评估中,o1 pro 模式在数据科学、编程和案例法分析等领域,提供了更为准确且全面的回答。

而相比于 o1 和 o1-preview,o1 pro 模式在数学、科学和编程等 ML 基准测试中,表现也更为出色,特别是在较简单的编程竞赛问题中,错误率大大降低。

就数学竞赛 AIME 2024 而言,o1-preview 的得分为 50,而满血版 o1 则达到 78,而最强大的 o1 pro 则达到 86。同理,在编程竞赛 Codeforces,博士级科学推理问题 GPQA Diamond 等较量中,o1 pro 也都领先于满血版 o1。

而为了突出 o1 pro 模式的主要优势(提高可靠性),OpenAI 研究团队使用了更加严格的评估设置。只有当模型在四次尝试中四次都回答正确时,才会认为它解决了问题。

如果回答生成时间较长,ChatGPT  则会地显示进度条,并且当用户切换到其他对话时,还会贴心地发送应用内通知。

在直播活动中,OpenAI 也向我们展示了 o1 pro 的实际效果。

此前 o1-preview 未能攻克的蛋白质难题,满血版 o1 经过 53 秒的分析,不仅给出了准确答案,还能通过 Canvas 界面提供更为详尽的解释说明。

写在最后,最近 Altman 在接受采访时透露,ChatGPT 的周活跃用户已突破 3 亿大关,平台每日消息量更是高达 10 亿条。

而 OpenAI 未来一年的目标则是撬动 10 亿用户市场。想要达成这一目标,接下来的 11 场直播活动或许是吸纳新用户的重要契机。

最好的新品永远在下一场活动,让我们搬好小板凳拭目以待吧。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


世界首富马斯克「讨薪」失败,4000 亿奖金打水漂

By: 莫崇宇
3 December 2024 at 18:51

很难想象,世界首富马斯克居然也有「讨薪」的一天?

先别急着吐槽马斯克差这三瓜两枣,因为他想要追回的这笔薪酬价值 560 亿美元,把这笔钱换算成人民币,差不多是 4000 亿。

只能说,人类的悲欢属实并不相通。

但很遗憾,随着特拉华州法官的锤子落下,这笔价值 560 亿美元的薪酬方案被宣判无效。这也意味着,马斯克将再次踏上了「讨薪」之路。

马斯克赌赢了特斯拉的未来,却没能拿到赌注

想要了解这笔天价薪酬的来龙去脉,故事还得从 6 年前说起。

2018 年,特斯拉董事会给马斯克设定了一个长达 10 年的绩效目标。

当目标达成时,马斯克便可获得股票期权的支付,这些期权将分为 12 个单独的部分支付,每完成一组目标,董事会便会授予马斯克 1% 的未发行股票。

马斯克最多可获得 3.03 亿份期权,该数字已根据股票拆分进行调整,也就是相当于 2018 年特斯拉约 12% 的总股份。

想要拿到这笔钱可没那么简单,具体来说,马斯克需要完成 28 项目标。其中,12 项与市值挂钩,市值按每增加 500 亿美元计算,最高可达 6500 亿美元;8 项与收益相关,另 8 项与收入挂钩。

后来,马斯克还真就把这事办成了。

特斯拉在 2020 年底市值达到了 6500 亿美元,并且完成了所有八个收益目标,只剩下一个收入目标尚未完成。而根据 2023 年的委托书,马斯克已实现除 2500 万份期权外的所有期权。

按照当时股价换算过后,整个奖金额也就是 560 亿美元。

要知道,根据《福布斯》杂志 2018 年富豪榜,那时马斯克的身价才堪堪接近 200 亿美元。

所以说,这个奖励计划本质上是马斯克对自己能力的赌注,赌注的筹码是整个特斯拉的未来。他押注自己能够将特斯拉的市值从 600 亿美元提升至至少 6500 亿美元,增幅达到 983%,同时使公司在十年内盈利。

结果显而易见,马斯克成功赌赢了。

并且,由于最近特斯拉股价大涨,所以这个薪酬方案价值一度达到 1010 亿美元,约合人民币 7361.18 亿元,也就是 736118000000 元。不妨感受一下这串比我手机号码还要长的数字。

不过,这份天价薪酬计划从一开始就埋下了些许隐患。

2018 年 6 月,特斯拉小股东 Richard Tornetta 提起诉讼,认为董事会未尽到受托责任,薪酬过高且制定过程存在严重问题。他质疑马斯克作为大股东对董事会施加了不当影响。

这个小股东有多小呢,答案是他当时仅持有 9 股。

但 Tornetta 没放弃,在许多人的帮助下,一路打官司,发起诉讼,终于到了 2022 年 11 月,特斯拉公司注册所在地特拉华州法院开始审理此案。

提起诉讼的股东的律师指出,特斯拉的股票期权计划过于「慷慨」,而且董事会的成员与马斯克的联系过于紧密,无法充分保护股东利益。

此外,他们认为特斯拉董事会给马斯克制定的绩效目标难度并不高,而马斯克的激励计划中的财务目标与当初银行和评级机构内部增长预测基本一致。

因此他们坚决反对这项薪酬方案。

闹到法院后,这起诉讼则由特拉华州法院法官 Kathaleen McCormick 负责主持审理,请留意这名法官,因为后续还会提到。

经过漫长的扯皮以及搜集证据,今年 1 月份,McCormick 法官最终作出裁决,判决撤销这项薪酬计划。

关键裁决要点如下:

  • 董事会独立性不足,认定董事会成员与马斯克关系过于密切
  • 向股东披露的信息不够完整和准确,未能充分说明马斯克在其他公司的职责对特斯拉的影响
  • 董事会没能证明薪酬方案的合理性,谈判过程缺乏公平性

气得马斯克在 X 平台破口大骂,「Never incorporate your company in the state of Delaware 永远不要在特拉华州注册你的公司」。

与此同时,特斯拉也称该决定「从根本上不公平,不符合股东的意愿。」,并且也随即采取反制措施,宣布计划将总部从特拉华州迁至德克萨斯州,并重新提交股东投票。

股东「讨薪」成功,但惨遭美国法官两次驳回

那么问题来了,2018 年,特斯拉股东批准了马斯克这份人类历史上最大的薪酬方案。六年后的特斯拉股东还会再次同意吗?

机构投资者的反对与部分投资者的支持,勾勒出一道利益的分水岭。

这项提案的主要反对声音来自股东咨询公司 ISS 和 Glass-Lewis,以及包括特斯拉十大股东之一、负责管理挪威养老基金的挪威银行在内的多家政府关联投资机构。

他们统一认为这一方案过于激进,将严重稀释个人股东权益。

Glass Lewis 在一份报告中指出「无论从纯美元金额还是股权稀释效应来看,这一奖励方案的巨大规模都令人担忧。考虑到问题的严重性,公司给出的理由难以平息这些顾虑。」

并且,反对者的声音也聚焦到马斯克身上。

一方面,今年 6 月份,特斯拉股价正是大幅回落期,其在电动汽车市场的主导地位面临挑战,另一方面,马斯克也被指责将精力和资源过多投入到其他企业,尤其是他在 2022 年收购的 X 平台。

毕竟,马斯克目前管理着包括特斯拉(Tesla)、SpaceX、X、Neuralink 以及 xAI 等多家公司,所以这很难让人怀疑他究竟付出多少时间或精力在特斯拉公司身上。

而著名的特斯拉投资者,如 Ron Baron 和 Cathie Wood,以及知名公司 Scottish Mortgage Investment Trust 等,则是纷纷表示支持。

包括马斯克当时也通过 X 平台不断游说特斯拉股东,比如提供特斯拉位于德克萨斯州的工厂私人参观,并在 X 平台猛烈开炮。

他们是违背誓言的人。

甚至,为了让这次投票顺利通过,马斯克更是没少威胁要离开特斯拉。

最后,结果其实没有出乎意外。

在今年 6 月份的特斯拉股东大会上,有两项重要提案得到了表决,分别是马斯克的薪酬方案以及将公司注册地从特拉华州迁至德克萨斯州。

这两项提案均获通过,其中约 72% 的有表决权股份支持薪酬方案。

但故事到这,还没完,股东投了赞成票,董事会点了同意键,却在法院法官这里再次按下了暂停键。

于是便又有了当地时间周一的新一轮裁决。

很遗憾,特拉华州法官 Kathaleen McCormick 再次维持了一月份的判决,马斯克仍然无权获得价值 560 亿美元的薪酬方案。

插个题外话,作为第一位领导特拉华州衡平法院(美国公司诉讼的首选场所)的女性,McCormick 与马斯克其实有过不少交集。

2022 年 7 月,正是 McCormick 主持了 Twitter(现为 X)起诉马斯克的案件。

当时马斯克试图退出 440 亿美元的收购协议,但她果断驳回了马斯克的拖延策略,并加速推进审判进程。最终,在审判前夕,马斯克不得不同意完成对这家社交平台的收购。

而她后来解释说,之所以如此迅速推进 Twitter 的收购案件,也是为了保护公司和股东免受不确定性带来的重大损害。

法官的锤子,远比特斯拉股东的签字更有力量。

对于这次判决,McCormick 表示,特斯拉董事会同样无权「恢复」马斯克的薪酬方案。

她在长达 101 页的意见书中写道:

即使股东投票可能产生批准效果,但在此案件中也不能适用…毫无疑问,董事会本可以决定向马斯克支付一系列合理的薪酬,然而,董事会屈服于马斯克的要求,并未能证明这些条款完全公平。

如果法院纵容败诉方为了修改判决而创造新事实,诉讼将变得无休止

并且,在她看来,特斯拉的股东投票能够在审判前进行,且公司无法批准涉及冲突控制者的交易,基于此,她认定马斯克在薪酬谈判中掌握了主导权。

此外,她还指出特斯拉在声明中对投票做出了多项重大错误陈述,坚持认为这次投票不能作为同意马斯克薪酬的灵丹妙药。

消息一出,马斯克瞬间炸锅,在 X 上发帖回应,称「股东应当控制公司的投票,而不是法官」,并直言「这是绝对的腐败。」特斯拉也在法庭文件和 X 平台上表示将提起上诉,认为法官推翻了绝大多数股东的决定是错误的。

随着 McCormick 在本周发布最终的裁定后,留给马斯克的便只有向特拉华州最高法院提出上诉。据悉,上诉过程可能长达一年。

更有趣的是,这份诉讼还衍生出了 3.45 亿美元的律师费。

McCormick 要求特斯拉向提起此案的律师支付 3.45 亿美元费用,尽管这一数额远低于他们最初要求的 60 亿美元,但也意味着这将是证券诉讼中有史以来最大的费用裁决之一。

并且,McCormick 表示,这笔费用可以用现金或特斯拉股票支付。

可以说,这场 560 亿美元的拉锯战也远远并未结束,而即便是世界首富,马斯克也不得不品尝「讨薪」的滋味,那么问题来了,你会支持马斯克这笔天价薪酬方案吗?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


首发体验| AI学会发红包了!国产Agent一句话控制手机电脑,我看到了「摸鱼自由」的未来

By: 莫崇宇
29 November 2024 at 13:13

2024 年,AI 圈最火的关键词非 Agent 莫属。

从 OpenAI 的简单 GPTs 到 Anthropic 能够自主行动的 computer use,再到最近 AI 初创公司 /dev/agents 凭借 Agent 操作系统估值 5 亿美元,厂商们都在试图寻找 AI 下一个明确的落地方向。

而在国内,上个月智谱 AI 也带来了自己的答案——AutoGLM。

如果掏出手机、打开应用、点击搜索、输入关键词…完成这些操作往往要经过四五步,而有了 AI,这些操作变成了真就一句话的事儿。

到了今天,智谱 AI 在北京也推出了一系列囊括多终端的 Agent 产品。

用户只需输入指令,GLM 即可理解指令,规划任务,然后识别界面中的窗口、图形、文字等,并且实现自动操作,如同进入 AI 接管设备的大航海时代。

在 Agent OpenDay 现场,智谱 AI CEO 张鹏现场利用 AutoGLM 面对面建群,并且给在场数百位与会者发送了微信红包,以及线上的口令红包。有没有抢到红包的朋友,不妨在评论区分享你的喜悦。

  • AutoGLM:移动端(暂时向 Android 开放),可自主执行超 50 步的长步骤操作,适用于比价、导航、刷超话等复杂操作
  • GLM-PC:PC 端(暂时向 Mac 系统开放),适用于解放打工人双手的生产力工具,手机也能远程操作电脑
  • AutoGLM-Web:网页端,支持百度搜索、知乎、Github 等数十个网站的无人驾驶

最形象的注脚大概就是,从 Chat 走向 Act,AI 无处不在,但 Agent 同样也无处不在。换言之,从替我们「思考」替我们「做事」,Agent 正在重新定义智能设备。

附上体验跳转链接:

  • AutoGLM:https://agent.aminer.cn/
  • GLM-PC:https://cogagent.aminer.cn/home
  • AutoGLM-Web:https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_openday

别人家的 AI 都在聊天,这些 AI 却能帮我摸鱼

AI 帮我摸鱼?AutoGLM 让我躺着刷超话、买咖啡

在之前的文章中,我们已经体验过智谱 AutoGLM 是如何接管我们的手机。

全自动发微信、逛淘宝……以往我们要自己动手的事情,现在都被 AutoGLM 包圆。并且,这位 AI 打工人今天还升级了,本事妥妥地见长。

我们也提前体验上了这些最新的 AI 工具。

我们的消费观是可以买贵的,但不能买贵了。

比如说,前不久,《人类简史》的作者尤瓦尔·赫拉利出版了最新著作《智人之上》,那我为什么不让 AI 帮我在拼多多和淘宝上逛逛,看看哪家划算。

我只需要动动嘴,AI 就帮我跑断腿,不过如果仔细看,把书名弄混还是有点小瑕疵的。

要是在嘈杂环境不方便说话,别担心。

AutoGLM 还配了个「静音模式」,打字也能发号施令,而且在执行任务之前,AutoGLM 也给用户留了 3 秒的「后悔时间」,让你随时能喊停,并调整执行任务。

追星族有个好消息,全新升级的 AutoGLM 连超话签到打卡都能搞懂。

以给李行亮的超话打卡为例,只需对着 AutoGLM 悬浮窗输入我的指令,AI 就会全程代劳,而我只需要遇到敏感信息时「露个面」就行,一键告别「错过打卡」的焦虑。

对了,这些日常任务还能设置快捷指令,一键搞定。

可不要小看这个功能,作为天选打工人,下午定时点的咖啡堪称「续命神器」,不需要每天反复设置,只需要保留下单咖啡的指令,妥妥省去不少功夫。

选择随便模式,所有步骤则是让 AI 为你决策,开启咖啡盲盒,但当涉及到发送,下单付款等重要操作时,AutoGLM 会主动将选择权重新交回给你。

跨应用协作是本次升级的重大亮点。

苹果牌 AI 已经向我们展示了系统级 AI 打通应用墙的重要性,而现在借助 AutoGLM,我们同样能够实现类似的效果,比如我让 AI 去小红书搜个蒜蓉菜心的教程,并成功转发朋友圈。

新增的 AI 导航功能也很实用。想去广州塔?轻轻和 AutoGLM 说一声,AI 就把你安排得明明白白。

比较遗憾的是,AutoGLM 仅支持 Android 系统。

但智谱即日起也将放开 AutoGLM 的用户内测名额,并进一步优化功能以及使用上的体验,预计尽快上线成为真正面向广大 C 端用户开放的产品。

智谱清言的插件 AutoGLM-Web 即日也同样起新上线 AutoGLM 功能。

据悉,AutoGLM-Web 支持百度搜索、微博、知乎、Github 等数十个网站的无人驾驶。

在官方演示的 demo 中,AutoGLM-Web 自动完成了「在百度搜索芒果 TV,打开再见爱人,播放最新一集,发弹幕」。全程没有用户的干预。

▲image description. 图片来自:xxx

从手机到电脑,让 AI 替我当打工人

与 AutoGLM 相比,GLM-PC 则在电脑端提供了更多面向职场场景的功能体验。

GLM-PC 当前专为搭载 M 系列芯片的 Mac 电脑打造,其中以 M1 和 M3 系列设备最为推荐。在对话框中输入你想进行的操作,GLM-PC 就会评估工具并决定操作计划。

当然,遇到敏感操作时,GLM-PC 就会自动暂停,等待用户操作或者进行确认。

想了解 B 站热门内容?GLM-PC 三下五除二就帮你找到「入站必刷」第一条,帮你省去不少漫无目的的划水时间。

要约张三开会?发条微信的事儿,交给 AI。甚至在有页面的遮挡的情况下,也能精准定位到微信的搜索框里。

它还能帮你预定腾讯会议,顺带把会议邀请发给参会人。建议完事后,把这套「操作秘籍」收藏起来,通过流程化来提升工作效率。

作为编辑,我个人最爱的功能是让它帮我梳理海外的 AI 新闻。发出指令后,AI 就会打开浏览器,输入网址,然后一份清晰的新闻总结就能到手。

对了,如果你是刚从 Win 转到 Mac 系统的新人,你多少会因为系统的变化弄到手忙脚乱。

现在 GLM-PC 就是你的「救命稻草」,无论是调整显示模式,还是其他设置,将你的诉求通通交给它。把麻烦的事情甩给 AI,把快乐留给自己,这才是人生赢家的正确打开方式。

GLM-PC 还有一个堪称「王炸」的功能。

先在 GLM-PC 设置中打开「挂起模式」,然后在手机上通过验证码登陆「https://cogagent.aminer.cn/m」,你的手机甚至可以远程遥控电脑。

具体来说,你可以远程给 GLM-PC 发指令消息,让 GLM-PC 进行电脑操作。GLM-PC 每执行一步就会返回操作时的屏幕截图,而如果有敏感操作,则会等用户进行确认后再操作。

在现场的演示中,张鹏也通过手机上 GLM-PC 网页对 cogagent 发布指令,成功通过电脑端的微信发送文件。

实际上,当 AI 开始真正「干活」而不只是「对话」,也标志着 AI 应用进入了「接地气」的务实阶段。可以说,当 AI 真正开始解决日常琐事,它就从玩具变成了一个实实在在的生产力工具。

这或许才是 AI 技术最该有的样子。

Phone Use 时刻

在这两个月手机圈密集发布了多款新品,其中有一个趋势值得留意,虽然 AI 手机还没得到消费者的广泛认同,系统级 AI 成了各家厂商 OS 主打的亮点,其实这也是一种 Agent 落地普及的前兆。

无论是 vivo 的蓝心小V 和发布会展示可以 AI 订餐的 「Phone GPT」,华为鸿蒙的小艺和意图框架,还是荣耀的 YOYO 智能体,都和智谱今天发布的 Agent 的本质一样:

让 AI 模仿人类的 Plan-Do-Check-Act(计划-执行-检查-行动)循环 ,从而像人类那样去操作设备。

就像智谱 AI CEO 张鹏今天的发布会提到,目前的 Agent 能力更像是在用户和应用之间,增加一个智能的调度层,链接所有应用甚至是所有设备。

这可以看做是大模型通用操作系统 LLM-OS的一种雏形,智谱也将这套 Agent 交互称为 GLM-OS 的构建,将对人机交互形式产生极大的影响。

OpenAI 创始成员、AI 技术大牛 Andrej Karpathy 也曾多次谈到大语言模型操作系统(LLM OS),他认为大模型某种程度来说就是一种新的计算机和操作系统,它可以连接各种软件和硬件,以及所有模态信息组成的外设,并通过函数调用执行各种任务。

传统操作系统中,你需要围绕 CPU 构建一堆外设,比如鼠标和键盘、磁盘存储、以及缓存空间等。

而在 LLM OS 中,大模型本身就是中央处理器。I/O 外设也不再是鼠标和键盘,因为LLM可以兼容更多模态的数据输入和输出。同时大模型调用的外部工具也将从传统软件升级为智能体工具。

其中跨应用的操作是非常关键的一环,这意味着 Agent 能实现更加复杂的自主连贯操作,也可能走向真正的商业化落地。

我们在年初曾判断大模型将成为智能手机新的操作系统,自然用户界面(Natural user interface, NUI )将逐步替代现有的图形用户界面(GUI)。

至于各家互联网公司提供的服务能否打通,可能是未来实现这种交互最大的障碍。但无论是智能手机还是应用,都终将是人类发展史上一个阶段性产物。

目前的 Agent 交互还在早期阶段,在行业内 Scaling Law 遭遇瓶颈的背景下, Agent 要怎么能成为真正的生产力工具,承担更高比例的工作决策?

智谱 AutoGLM 技术负责人刘潇在接受 APPSO 采访时表示,预训练肯定还要继续,但对于算法和数据的训练会有一套新的逻辑。

智谱 AI CEO 张鹏也告诉 APPSO,团队对于 Scaling Laws 的空间相对乐观,希望在新的范式和生态下去探索更多可能性。

今年很多厂商不约而同用自动驾驶来形容 AI 终端的智能程度, OpenAI也 将 AI 划分为 L1-L5 五个等级。

与 OpenAI 有所不同,智谱将大模型发展的五个阶段定义为:L1 语言能力、L2 逻辑能力(多模态能力)、L3 使用工具的能力、 L4 自我学习能力、 L5 探究科学规律。

张鹏认为,大模型已经初步具备了人类与现实物理世界互动的部分能力。「Agent 将极大地提升 L3 使用工具能力,同时开启对 L4 自我学习能力的探索」。

从 Phone Use、Computer Use、Car Use 到 All Device Use,大模型的思考能力和 Agent 交互逐步影响我们使用智能设备的方式。

让 AI 发微信和点赞现在看起来实用意义有限,但如同 AlphaGo 无论下棋多强都不会对社会带来多少影响,Google DeepMind 的 AlphaFold 可以预测几乎所有蛋白质结构,帮助大量疾病的治疗和研究。

背后的范式改变才是撬动人类生活方式更新的杠杆,Agent 让大模型从 Chat 走向 Act,下所谓 AI 终端的形态才逐渐浮现,而非只是一个命名的改变。

作者:李超凡、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Sora 遭遇严重泄露!艺术家愤怒「复仇」OpenAI,测试渠道全网疯传

By: 莫崇宇
27 November 2024 at 09:48

Sora 就这么水灵灵地用上了。

今天凌晨,OpenAI 视频生成工具 Sora 的内测版本遭到泄露,起因是部分早期测试人员(艺术家)对 OpenAI 产生了不满。

艺术家用「最极端」的方式,换来了最短暂的普惠时刻。

网友曝出的公开信显示,OpenAI 邀请了数百名艺术家参与 Bug 测试、反馈和实验工作。尽管这些艺术家无偿贡献了大量作品,但最终只有少数人的 Sora 作品能通过竞赛入选展映。

▲网址:https://huggingface.co/spaces/PR-Puppets/PR-Puppet-Sora

并且,相较于 OpenAI 借此获得的巨大公关和营销价值,他们给予艺术家的报酬微乎其微。

他们感觉自己陷入了一场「艺术洗白」活动,每件作品在分享前都需经过 OpenAI 团队审批,忽视了他们的创造性表达和评论的诉求。

艺术家想要的是创作自由,OpenAI 给的却是有条件的展示机会,甚至沦为了 Sora 的背书工具。

愤怒之下,部分艺术家在全球最大的开源社区平台 Hugging Face 上泄露了 Sora 的 API,导致该工具短暂对外开放了数小时。

艺术家们在公开信中还写道:

我们发布此工具是为了让所有人都有机会体验约 300 位艺术家所获得的东西:免费的无限访问权限。

我们并不反对将 AI 技术用作艺术工具(如果我们反对,就不会被邀请参与该计划)。

但我们不赞同的是,这个艺术家计划的实施方式缺乏对艺术家的友好支持,并且工具的开发方向在可能的公开发布前更偏向于企业利益。

我们希望通过与世界分享这些信息,OpenAI 能超越公关噱头,变得更加开放。

从目前泄露的信息来看,Sora 支持生成 1080p、720p、360p 三种分辨率的视频,时长支持 5-10s。

并且模型的代号为 Turbo,此前外媒 The Information 报道称,Sora 存在多个版本的模型,所以不排除 Sora 在正式发布时会有其他更高/低级的版本。

事件发生后,OpenAI 迅速采取行动,关闭了所有邀请访问权限,并对其 Discord 频道实施了禁言措施。

尽管开放时间仅有短短数小时,但已有用户疑似通过 Sora 生成了大量视频,让我们一起来看看这些作品。

还记得那个走在东京街头的经典 demo 吗?

有网友用 Sora 重新创作了一版,呈现效果惊艳。不过细心观察可以发现,画面中某一帧出现了六根手指的瑕疵。

在动漫风格的呈现上,Sora 依然展现出强劲实力。

在冰天雪地的背景下,一只可爱的小熊守护着它的可口可乐。

注意看,右下角还有来自 OpenAI 的独特标识

从东京辗转到巴黎,画面中的人物穿着黄色雨衣站在人来人往的街头。

经典吃面环节的测试也没落下。

小狗在雪地里飞扑,动态捕捉瞬间和动物行为上的精准度表现不错。

猫捉老鼠,这回真不是汤姆与杰瑞。

机器人的两幅面孔出现了,上一秒要威胁人类,下一秒却不堪一击。

恰巧的是,就在两个月前,据外媒 The Information 报道,OpenAI 正在训练新版本的 Sora,目标是生成更高质量、更长时间的视频剪辑。

为此,他们需要收集数百万小时的高分辨率视频数据,涵盖各种风格和主题。而更早些的时候,Sora 曾被曝实际效果不及预期,

  • 生成视频速度慢,最初需 10 多分钟才能生成 1 分钟左右短片;
  • 使用困难,电影制作人需生成数百个剪辑才能找到可用的;
  • 风格难保持一致,物体和角色在不同剪辑中难以保持一致;
  • 存在物理和解剖学等错误。

就目前曝光的信息来看,当前 Sora 版本的效果的表现确实可圈可点,但在画质等各方面仍有提升空间。

并且 Sora 同样生成视频依然是常被人们诟病的「哑剧」,距离被捧上神坛的「现实不存在了」似乎还遥遥无期。我们期待后续发布的正式版能够带给我们更多的惊喜。

而就在刚刚,据外媒 Techcrunch 报道,OpenAI 对此次泄露事件做出了正式回应。

OpenAI 的发言人指出,Sora 目前仍处于测试阶段,公司正在努力在创造力和安全性之间找到平衡,为未来的广泛应用做好准备。

发言人还提到,参与 Alpha 测试的数百名艺术家为 Sora 的发展做出了重要贡献,他们的反馈帮助确定了新功能开发和安全措施的优先级。

他们特别指出,这些艺术家的参与完全基于自愿原则,没有任何强制性的反馈或使用要求。

OpenAI 表示,他们很高兴为这些艺术家提供免费访问,并将继续通过赠款、活动和其他计划支持他们。公司坚信 AI 可以成为创意工作的重要工具,并致力于确保 Sora 既实用又安全。

此外,发言人还强调,艺术家在使用 Sora 时需要遵循「负责任使用」原则,并在开发期间严格保守机密信息。

然而,对于什么是「负责任使用」以及哪些信息属于机密范畴,OpenAI 并未给出明确界定。

一个吊诡的现实是,OpenAI 艺术家为了争取开放,不得不用泄密来对抗封闭。

回顾这场风波,考虑到 OpenAI 过往的表现,我们甚至难以判断这次所谓的「艺术家泄露事件」是否是一次早有预谋的公关营销手段。

如果这确实是一场始料未及的泄露,那么这意外收获的巨大曝光度,或许会让 OpenAI 重新考虑发布的日期。

既然已经曝光,那要不借势而为,提前让 Sora 正式亮相。

在线蹲,看看本周是否会迎来 Sora 的发布。

附上公开信版本

我们获得了 Sora 的访问权限,并被承诺作为早期测试者、红队成员和创意合作伙伴参与。

然而,我们认为这实际上是在被引诱参与所谓的「艺术洗白」,以向世界宣称 Sora 是一个对艺术家有用的工具。

艺术家不是你们的免费研发资源!

我们不是你们的:免费漏洞测试者、公关傀儡、训练数据或验证 Token。

数百位艺术家通过漏洞测试、反馈和实验性作品,为一家市值 1500 亿美元的公司无偿提供劳动。

而在这些无偿贡献中,只有少数艺术家通过竞赛被选中,展示用 Sora 创作的影片。这些艺术家的补偿,与 OpenAI 从中获得的大量公关和营销价值相比,微不足道。

拒绝将对艺术家的剥削视为常态!

不要允许价值数十亿美元的品牌利用艺术家进行无偿研发和公关!

此外,每个输出都需要经过 OpenAI 团队的批准才能分享。这一早期访问计划似乎更多是为了公关和广告,而非真正支持创意表达和批评。

我们发布此工具是为了让所有人都有机会体验约 300 位艺术家所获得的东西:免费的无限访问权限。

我们并不反对将 AI 技术用作艺术工具(如果我们反对,就不会被邀请参与该计划)。

但我们不赞同的是,这个艺术家计划的实施方式缺乏对艺术家的友好支持,并且工具的开发方向在可能的公开发布前更偏向于企业利益。

我们希望通过与世界分享这些信息,OpenAI 能超越公关噱头,变得更加开放。

我们呼吁艺术家使用非专有工具:

开源视频生成工具可以让艺术家进行前沿实验,而无需服务于商业利益或成为企业的公关工具。我们也邀请艺术家使用自己的数据集训练自己的模型。

一些可用的开源视频工具包括:

  • CogVideoX
  • Mochi 1
  • LTx Video
  • Pyramid Flow

然而,我们也意识到,并非每个人都拥有这种资源。因此,我们呼吁公平补偿艺术家的表达。

祝创作愉快,

某些 Sora Alpha 项目的艺术家

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,黄仁勋获港科大荣誉博士,演讲大秀中文,称 AI 可能是人类历史上最重要的技术

By: 莫崇宇
23 November 2024 at 11:22

今天,请称老黄为黄博士。

就在刚刚,英伟达创始人黄仁勋现身香港,并出席香港科技大学荣誉博士学位授予仪式。

除了黄仁勋被授予工程学荣誉博士,被授予名单还包括演员梁朝伟、生物化学家迈克尔・莱维特教授和数学家戴维・芒福德教授,他们都将获得各自领域的荣誉博士学位。

期间,黄仁勋也在庄重的学位授予仪式上发表了演讲,还秀了略显生疏的普通话,特地聊到要与香港科技大学著名地标「火鸡」,也就是屹立与科大广场中央的日晷合影。

以下为黄仁勋演讲全文,由 APPSO 编译,enjoy it~

感谢您,副校长、主席、法院和理事会成员、尊敬的荣誉博士同仁、尊贵的来宾、毕业生们、女士们、先生们,感谢授予我这一非凡的荣誉。我感到无比自豪,能够成为香港科技大学的荣誉校友。

我也非常高兴今天能够在这里,与各位毕业生共同庆祝这个重要的里程碑,庆祝你们人生中重要旅程的开始。同时,我也要向所有支持你们的父母和家人表示衷心的祝贺。

今天对他们来说和对你们一样,是一个值得铭记的重要日子,祝贺大家!

香港科技大学是世界顶尖的科技大学之一,也是人工智能和数据科学研究的领军机构。你们是中国对开放科学研究重大贡献的重要组成部分,推动了全球人工智能的发展。

香港高校的人工智能研究论文在全球引用榜上名列前茅。开放研究是现代科学的一大奇迹,也许是全球合作的最高形式,我们必须共同努力保护它。

香港科技大学注重创新与创业,并且已经成功推动这一地区发展为中国的大湾区。

这片土地上初创企业如雨后春笋般涌现,科大校友创立了超过 1800 家初创公司,其中 10 家已成为独角兽企业,还有 14 家公司成功上市。

英伟达也从这片区域的发展中受益良多。

在中国,我们早在 25 年前就已扎根。英伟达的设计中心分布在香港、浦东、北京和深圳,这些中心中有许多优秀的科大校友,以及与我长期共事的同仁,他们帮助我建立了英伟达。

更重要的是,他们从一开始就为中国技术生态系统的构建作出了卓越贡献。

今天来到这里时,我的同事们——自豪的科大校友——还特别提醒我要与科大的地标「火鸡」合影留念。

这是你们毕业的非凡时刻,同时也是英伟达的非凡时刻。人工智能时代已经开启了一个全新的计算纪元,这一纪元将深刻影响每个行业和科学的每一个领域。

我们已经重新定义了计算堆栈的每一层。从基于规则和逻辑编写的软件,到基于观测数据进行机器学习;从运行在 CPU 上的代码,到在 GPU 上处理的神经网络。

如今,软件行业正在全速采用机器学习和生成式人工智能,而硬件行业正在努力现代化传统计算基础设施,这些基础设施的价值高达数万亿美元。

人工智能正在彻底改变科学。

在 2018 年超级计算大会上,我首次提出了将原理性方法与人工智能相结合以推进科学计算的理念。从那时起,人工智能和机器学习几乎已经融入了科学的每一个领域。

人工智能正在以不可思议的规模帮助分析数据、加速模拟、实时控制实验,并构建预测模型,从而彻底改变了从药物研发到基因组学,再到气候科学等多个领域。

借助人工智能,我们能够以前所未有的规模研究物理系统。人工智能的变革性影响已经得到了最高级别的认可。

杰弗里·辛顿和约翰·霍夫菲尔德因其在神经网络领域的开创性工作而荣获诺贝尔物理学奖。德米斯·哈萨比斯、约翰·朱珀和大卫·贝克则因其在蛋白质预测方面的突破性进展而获得诺贝尔化学奖。

这些突破,仅仅是个开始。

全球的企业正在争相采用人工智能,以加速创新并提升生产力。

不久的将来,各组织的每个团队都将有人工智能智能体并肩工作,从市场营销、销售、供应链管理到芯片设计和软件开发等各个领域。

在重工业和制造业中,由于物理人工智能的全新突破,机器人技术的投资正在迅速增加。正如我们见证了认知智能基础模型的快速进步一样,我们也正在目睹物理智能基础模型的飞速发展。

随着人工智能变革每一个行业,机器人时代正在到来。一个全新的行业将随之诞生,致力于生产和生成人工智能,就像上一次工业革命中交流电发电厂和电力工业的兴起一样。

从人工智能时代开始,人工智能工厂和数字智能的生成将成为新的核心产业。

自英伟达创造出第一块 GPU 的 25 年后,我们已经重新定义了计算,并引发了一场全新的工业革命。人工智能无疑是我们这个时代最重要的技术,甚至可能是人类历史上最重要的技术。

我为看到如此多的力量集中在推动人工智能科学发展,以及利用人工智能推进香港科技大学和整个中国的科学进步而感到由衷的激动。我为在座的所有毕业生感到无比兴奋。

我真希望自己能够在这个时候开启职业生涯。整个世界正在经历一次重置,而你们正与所有人一道站在起跑线上。一个行业正在被重新定义,新的行业正在被创造。你们现在已经拥有必要的工具,能够推动众多领域的科学发展。

过去那些曾经看似无法克服的挑战,现在突然之间都变得可以应对了。

祝贺你们毕业!祝贺你们迈出了这意义非凡的一步!我期待未来能够有许多人加入英伟达的团队。再次感谢大家授予我这一殊荣,感谢你们认可我们许多人在英伟达的毕生努力。

同时,请务必提醒我找到通往「火鸡」的路。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Arm 年度技术大会收官,下一代 AI 计算平台在路上了

By: 莫崇宇
21 November 2024 at 18:54

今天下午,一年一度的 Arm Tech Symposia 年度技术大会在深圳圆满结束。

Arm 在本次大会上深入探讨了 AI 对计算的需求,并分享了如何通过硬件、软件、生态系统三大核心更好地把握 AI 的发展机遇,在场与会者也共同探讨了基于 Arm 的技术创新和 AI 发展趋势。

Arm 终端事业部产品管理副总裁 James McNiven 在深圳场的大会主题演讲中强调,Armv9 作为 Arm 最新的技术架构,推出伊始便是为支撑 AI 计算而设计,并持续迭代更新,通过 SVE、SVE2、SME 等关键技术,Arm 以架构创新和强大的软硬件协同能力不断优化移动端 AI 体验,赋能开发者实现卓越的 AI 性能。

在本次大会中,KleidiAI 软件是值得关注的亮点之一。

它实现了与主流 AI 框架的深度集成,能够为开发者提供丝滑的开发体验;当与 Arm CSS 搭配使用时,KleidiAI 通过整合 Neon™、SVE2 和 SME2 等一系列 Arm 加速技术,从而显著提升计算应用的性能表现。

据悉,KleidiAI 是一套专门面向 AI 框架开发者的高性能计算内核。

它能够帮助开发者在各种设备上轻松发挥 Arm CPU 上的最佳性能,并充分利用 Neon、SVE2 和 SME2 等关键 Arm 架构的核心特性。

此外,KleidiAI 还集成了 PyTorch、Tensorflow、MediaPipe 等热门 AI 框架,对 Meta Llama 3、Phi-3 等模型进行了性能优化,并且还采用了可前后兼容的设计。

这样做的好处是,确保 Arm 未来在引入更多技术时依然能适用未来市场的需求。

据介绍,KleidiAI 的集成显著提升了生成式 AI 的工作效率。

数据显示,与参考实现方案(基于 llama.cpp,但不含 Kleidi 软件优化)相比,在新的 Arm Cortex-X925 CPU 上,使用(集成了 KleidiAI 的)llama.cpp 的 Meta Llama 3 和微软 Phi-3 大语言模型 (LLM) 的词元 (Token) 首次响应时间加快了 190%。

KleidiAI 的另一大优势在于易于集成。

据悉,Arm 的工程团队只用不到 24 小时就完成了 Llama 3 的性能优化测试。

此外,KleidiAI 还通过 XNNPACK 与 MediaPipe 集成,为在移动设备上运行的开源 Gemma LLM 提供支持。得益于此,Google Pixel 8 Pro 智能手机上 Gemma 2B 的词元首次响应时间缩短了 25%。

与此同时,Arm 还与 Unity 合作开发端侧 AI 推理引擎——Sentis,可让游戏开发者在所有支持 Unity 游戏引擎的设备上打造全新的 AI 游戏体验。

另外,作为迄今速度最快的 Arm 计算平台,Arm 终端 CSS 在计算和图形性能方面实现了超过 30% 的提升,足以应对各类严苛的 Android 工作负载。

与此同时,Arm 终端 CSS 也提高了 59% 的 AI 推理速度,适用于更广泛的 AI/机器学习 (ML) 和计算视觉工作负载。

Arm 终端 CSS 的核心优势在于其搭载了 Arm 迄今性能最强、效率最高、功能最全面的 CPU 集群,致力于实现性能与能效的最佳平衡。

而凭借新一代 Arm Cortex®-X CPU,AI 优化的 Arm 终端 CSS 带来最高的 IPC 同比提升,性能提高 36%;新的 Arm Immortalis™ GPU 的图形性能提高 37%。

Arm Immortalis-G925 GPU 是 Arm 性能最强、效率最高的 GPU,在多款手游应用中实现了 37% 的性能提升,并在多个 AI 和 ML 网络上提升了 34% 的性能。

Immortalis-G925 主要面向旗舰智能手机市场。

而包括 Arm Mali™-G725 和 Mali-G625 GPU 在内的全新高可扩展性 GPU 系列,则面向从高端手机到智能手表和 XR 可穿戴设备等广泛的消费电子设备市场。

Arm 预计到 2025 年底,全球将有超过 1000 亿台具备 AI 能力的 Arm 设备。

从传感器、智能手机,到工业物联网、汽车和数据中心,就像建造摩天大楼需要坚实的地基,AI 技术的蓬勃发展也离不开强大而高效的计算平台作为支撑。

凭借在芯片架构与技术创新上的不懈努力,Arm 正在为这座「AI 摩天大楼」打造最可靠的基石,也将在这场技术变革中扮演愈发关键的角色。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


马斯克与 OpenAI 决裂内幕全曝光!这封邮件让他破防,怒斥「我受够了」

By: 莫崇宇
19 November 2024 at 18:26

同时掌舵 SpaceX、特斯拉、Neuralink 等众多公司,马斯克堪称科技界的六边形战士。

而如果不是他与 OpenAI 现任 CEO Sam Altman 的一纸诉状,可能很多人都不知道原来连 OpenAI 与他也有深厚的渊源,甚至连 OpenAI 的起名都是出自马斯克之手。

具体前情背景可以回看 APPSO 之前的文章:

1、突发|马斯克起诉奥特曼:指控 OpenAI 已成微软闭源子公司,GPT-4 只为赚钱而非造福人类

2. 马斯克起诉奥特曼「敲诈勒索」,GPT-5 要鸽了?

时光流转,这段恩怨纠葛并未随风而逝。

这不,最近马斯克再次公开了一批与 OpenAI 高管之间的邮件往来。尽管未必能知晓全貌,但透过这些关键邮件记录,我们或许能够拼凑出一幅更完整的恩怨图景。

在吃瓜之前,我们需要简单介绍这批邮件中的关键角色:

  • Sam Altman(山姆·奥特曼):OpenAI 现任 CEO
  • Elon Musk(埃隆·马斯克):OpenAI 联创成员、同时经营 SpaceX、特斯拉、Neuralink 等众多公司
  • Greg Brockman(格雷格·布罗克曼):OpenAI 现任总裁
  • Ilya Sutskever(伊利亚·苏茨克韦尔):OpenAI 前首席科学家
  • Andrej Karpathy(安德烈·卡帕西):OpenAI 创始成员、前特斯拉 AI 总监
  • Shivon Zilis(希冯·齐利斯):前 OpenAI 顾问、2017 年加入特斯拉,与马斯克关系密切

附上曝光邮件地址:https://www.lesswrong.com/posts/5jjk4CDnj9tA7ugxr/openai-email-archives-from-musk-v-altman?utm_source=www.therundown.ai&utm_medium=referral&utm_campaign=explosive-openai-musk-emails-revealed#comments

附诉讼案件条目:https://www.courtlistener.com/docket/69013420/musk-v-altman/

吃瓜版图景如下:

2015 年的硅谷,AI 的浪潮正如涨潮时分的海水,悄无声息却又势不可挡地涌动着。

在一个温暖的五月下午,山姆. 奥特曼和埃隆·马斯克进行了一次意味深长的邮件对话。两人都意识到,AI 的发展势不可挡,与其坐视 Google 独占鳌头,不如另辟蹊径。

就这样,一个雄心勃勃的计划在两位科技界大佬之间酝酿而生。

「我们需要一个非营利组织,」奥特曼提议道,「这样才能吸引那些真正关心 AI 发展方向的顶尖人才。」

并且,在奥特曼的规划中,这是一个巧妙的双赢方案:技术成果将通过非营利方式造福全人类,而项目成功后,参与者依然能获得堪比创业的丰厚回报。

两个月后,即将与 Google 创始人拉里·佩奇不欢而散的马斯克尚未下定决心,但对这个想法的赞同已经早有苗头,OpenAI 便这么在你来我往的构想中孕育而生。

OpenAI 的起点,从夏天开始

随着 2015 年夏日的到来,奥特曼开始着手设计 OpenAI 的治理架构。

奥特曼构想了一个由 5 人组成的核心团队,将技术产权归属于基金会,服务于全球公众利益。而马斯克则欣然接受了类似「兼职合伙人」的角色。

安全性被置于 OpenAI 的首要位置。

这个五人核心团队还将肩负起一项重要使命:审慎决定哪些研究成果应该开源,哪些需要保密。

距离 OpenAI 正式成立仅剩一个月之际,时间的沙漏正一分一秒地流逝,每个决策都变得愈发关键。

到了 11 月,格雷格·布罗克曼加入讨论,在与马斯克的往来邮件中,他主张 OpenAI 应以中立机构的身份进入 AI 领域,这样既能确保快速发展,又能在研究领域占据领先地位。

12 月 8 日,距离 OpenAI 成立仅剩三天时间,创始成员们争论的焦点转向了人才招募策略。

马斯克强调,OpenAI 的立身之本在于「造福人类」的崇高使命,把这一点写在组织介绍里才是吸引顶尖人才的关键。奥特曼深以为然,迅速调整了组织介绍的措辞与重点。

然而,就在 OpenAI 宣告成立的那天,奥特曼的心头笼罩了一层阴影。

原因在于,他听闻最强的竞争对手 Google Deepmind 正在以更优厚的待遇招揽人才,这让他深感忧虑,担心 OpenAI 的精英们会被竞争对手挖走。

因此,奥特曼建议适当提高薪资,以在与 DeepMind 的人才争夺战中保持竞争力。

马斯克的注意力则集中在了一个关键人物身上——伊利亚·苏茨克韦尔。他着急地询问奥特曼,伊利亚有没有给出明确的答复,为了争取这位人才,他甚至表示愿意全天候参与招募工作。

最终,伊利亚的加入让马斯克忍不住发出了欣喜的赞叹。

12 月 11 日的午后,马斯克怀着无比激动的心情,向 OpenAI 的早期精英团队发出了一封邮件:

祝贺我们有一个精彩的开端!

我们的人力资源和实力与你所熟悉的一些组织相比,差距巨大,但我们有正义在我们这边,这至关重要。我对我们的胜算感到乐观。我们最重要的任务是招募最优秀的人才。

一个公司的成果是其员工能力的综合体现。如果我们能吸引到最有才华的人,并且我们的方向正确,那么 OpenAI 必将成功。

这封饱含期许的邮件,收件人栏赫然列着一串如今已声名显赫的名字:伊利亚·苏茨克韦尔、帕梅拉·瓦加塔、维姬·张、迪德里克·金马、安德烈·卡帕西、山姆·奥特曼等。

跨入 2016 年,团队开始着手细化运营方案。

布罗克曼与马斯克反复商讨,最终敲定了首批全职员工的薪酬方案。

创始团队成员能获得 27.5 万美元的年薪,外加 YC 公司 0.25% 的股份;新加入的员工则可选择 17.5 万美元年薪 + 12.5 万美元年度奖金或等值的 YC 或 SpaceX 股票。

这个薪资方案虽然看似丰厚,但实际上比业界标准要低得多。

大多数核心技术人员在加入 OpenAI 时,都接受了降薪。就连实习生的待遇也低于市场水平:每月 9000 美元,相比 Facebook(Meta)提供的同等薪资加免费住宿,或是 Google 提供的约 11000 美元全包待遇,确实相形见绌。

不过,面对 DeepMind 的激烈竞争,马斯克表示愿意根据吸引全球顶尖人才的需要,重新评估薪酬标准。

商业与理想的博弈

在那个时期,OpenAI 的对外宣传几乎完全贯彻了马斯克的理念。

这种影响力甚至延伸到了媒体报道的细节——当布罗克曼接受《连线》杂志采访时,都需要就某些关键问题与马斯克确认,以确保表述准确且与马斯克的观点保持一致。

到了 2016 年 4 月,当扎克伯格将 AI 定位为纯粹的服务工具,并驳斥 AI 威胁论时,马斯克却坚持认为 AI 是把双刃剑,这种观点差异,恰恰体现了他创立 OpenAI 的初衷——

人类应该谨慎地对待 AI 的发展,并确保其力量被广泛共享,而不是由单一公司或个人控制。

同年 9 月,一个重要的机遇降临 OpenAI 团队面前。

微软开出了一份诱人的合作方案:OpenAI 只需投入 1000 万美元,就能换取价值 6000 万美元的计算资源,还能对微软云服务的部署内容提出建议。

但这份合作背后附加的条件却是 OpenAI 需要评估并优化微软技术产品,同时为 Azure 背书。

马斯克当即表示反感并否决了这一提议。

最终在 Altman 的斡旋下,OpenAI 与微软达成了一份 5000 万美元的协议,没有任何强制性条件,OpenAI 可以自主决定以「善意努力」的方式推广微软产品。

2017 年中期,全速前进的 OpenAI 迎来了重要突破,他们成功开发出了标志性的项目——机器人手解魔方,实体机器人预计将在九月具备同样的能力。

与此同时,伊利亚兴奋地对马斯克表示,OpenAI 的 1v1 机器人已经完全堵住了所有可能的漏洞,能够有效抵御任何非常规策略的攻击。

他充满信心地预测,在一个月内,这个 AI 系统将有能力在游戏中战胜所有人类玩家。就连竞争对手 DeepMind 也开始采用 OpenAI 的一种算法,用于优化他们的模拟环境中的行为控制。

然而,就在 OpenAI 蓬勃发展之际,组织内部的矛盾却如同暗礁般浮出水面。

组织的暗流涌动

2017 年的夏末,一场关于组织未来的重要讨论在核心团队之间展开,这场讨论最终成为了 OpenAI 发展历程中的一个重要转折点。

布罗克曼和伊利亚选择在一个宁静的周末进行密谈。在这次谈话中,他们终于倾吐了长期以来压在心头的种种顾虑。

然而,他们可能没有预料到,这次谈话的内容会通过 OpenAI 的顾问希冯·齐利斯传达到马斯克耳中,并引发一场足以改变组织命运的风暴。

在这次充满争议的密谈中,两人提出了多项主张:

  • 首先,他们认为如果成功开发出 AGI(通用人工智能),任何个人都不应独揽控制权,希望在 2-3 年后逐步实现权力的分散,建立一个更民主、更可持续的权力分配机制;
  • 其次,他们对马斯克在 OpenAI 的投入时间提出质疑,希望他能投入更多精力。
  • 再者,他们觉得 OpenAI 团队在软件/机器学习方面较强,希望在硬件等短板领域获得更多支持;
  • 最后,他们还要求扩大员工股权池,确保他们的股份超过马斯克的 1/10(具体比例待定)

这次「秘密会谈」的内容让马斯克勃然大怒「这真的很烦人,」他在回复邮件中写道,语气中充满了愤怒与失望,「请鼓励他们去创办一家公司。我已经受够了。」

九月,局势再次急转直下。

伊利亚在一封情真意切的邮件中坦承了之前与布罗克曼的不够坦诚,但同时也毫不避讳地指出了自己的核心忧虑。

伊利亚认为马斯克展现出的强烈控制欲可能会让他成为 AGI 的独裁者。同时,他也对利用特斯拉资源收购 AI 芯片公司 Cerebras 的提议表示反对。

具体来说,担忧的是特斯拉有责任对股东负责,最大化股东回报,这与 OpenAI 的使命不一致。所以最终结果可能对 OpenAI 来说并不是最优的。

与此同时,伊利亚还对奥特曼执着追求 CEO 头衔的动机提出质疑,种种疑虑在他心中积压已久。

这封坦白信就像一颗炸弹,瞬间引爆了积压已久的矛盾。

马斯克的回应既简短又决绝,字里行间透着难以掩饰的愤怒:「各位,我受够了。」他提出了最后通牒:要么分道扬镳,要么继续坚守非营利的初衷。

我不想成为一个白痴,为你们免费提供创业资金。

也许在他看来,这场争论已经完全背离了 OpenAI 设立的初心。

危机当头,奥特曼展现出了高超的危机处理能力,立即表态支持继续非营利模式运营

希冯·齐利斯也适时传来缓和信号,伊利亚和布罗克曼都愿意维持非营利模式,不会另起炉灶。然而,这场风波还是在奥特曼心中种下了疑虑的种子,让他开始重新审视两人的管理能力和决策成熟度。

2018 年伊始,命运似乎又给 OpenAI 出了一道难题。

在烧钱的困境之下,当 Altman 提出考虑通过 ICO(一种通过发行数字代币进行融资的区块链领域常见方式)进行融资时,安全团队立即拉响了警报。

就在此时,安德烈·卡帕西分享了一组来自顶级深度学习会议的数据,这份报告如同当头一棒:Google 以 83 篇论文的惊人提交数量遥遥领先,而 OpenAI 的处境则更不容乐观。

马斯克一针见血地指出:「OpenAI 与 Google 相比,正走向必然的失败。」

在这个紧要关头,不同的意见开始碰撞交汇。

在与 OpenAI 高层的沟通中,他明确表示,尽管 ICO 看似是一条出路,但这种选择将会对 OpenAI 的声誉造成无可挽回的损害。作为替代方案,他建议将 OpenAI 纳入特斯拉的版图。

安德烈也力挺将 OpenAI 并入特斯拉的提议,他认为这是与 Google 抗衡的唯一可能。

「如果无法与之竞争,却仍坚持开放研究,」他警告道,「实际上是在为 Google 提供免费援助,因为他们能轻易复制并规模化应用任何突破性进展。」

他认为,只有借助特斯拉的现金流,才有可能与 Google 抗衡。

马斯克抄送了安德烈的邮件补充说:

安德烈说得完全对。我们或许希望有其他选择,但在我和安德烈看来,特斯拉是唯一有可能与 Google 竞争的路径。即便如此,成为 Google 的对立面仍然概率极小,但它并非零。

不过,经过激烈的博弈与深思熟虑,OpenAI 最终开辟了一条前所未有的新路。

根据希冯·齐利斯传来的邮件消息,奥特曼确认放弃了 ICO 计划,转而构思了一个创新的融资模式:保留 OpenAI Inc. 作为非营利实体的同时,设立一个有利润上限的 OpenAI LP 作为盈利性机构。

这是一次大胆的尝试,旨在在保持使命的同时解决资金困境。而在一个月前,失望的马斯克早已离开了 OpenAI。

2018 年 4 月,奥特曼还咨询马斯克关于《OpenAI 宪章》的草稿意见,其中有一句写道「我们致力于提供帮助社会走向 AGI 的公共产品。」

到了 2019 年 3 月,OpenAI 的新架构终于成型。

OpenAI 构建了一个「有限利润」公司架构,既能吸引投资,又能确保超额收益归属非营利实体。首轮投资者的回报上限定在投资额的 100 倍,未来这一比例还将进一步降低。

在这个历史性的转折点上,马斯克早已完全抽身。

奥特曼起草的新闻稿中特别指出,「埃隆·马斯克于 2018 年 2 月离开了 OpenAI Nonprofit 的董事会,并不参与 OpenAI LP。」

披露的最后一封邮件停留在了 2019 年 3 月 11 日。

「彭博社报道:旧金山的人工智能研究机构 OpenAI,由埃隆·马斯克和其他几位硅谷知名企业家共同创立,现正成立一家盈利子公司,目的是为了筹集更多资金。」

马斯克转发了彭博社的一则报道,要求奥特曼向彭博社公开澄清,他与 OpenAI 的盈利子公司之间不存在任何财务关系。奥特曼淡淡地回了一句「已了解」。

这标志着一个时代的结束,也预示着新的开始。

这个为了造福人类而诞生的组织,依然在朝着它的使命前进,只是在当下奥特曼的掌舵下,这其中道路比想象中更为曲折。

在这批公布的邮件当中,我们也看到了一群怀揣远大抱负的创新者。技术的进步从来都不是一帆风顺的,AGI 之路仍旧道阻且长。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


马斯克新 AI 破解千年难题却被紧急喊停?这个「玩笑」怎么让 AI 圈一夜未眠

By: 莫崇宇
18 November 2024 at 18:21

Grok-3 证明了「黎曼猜想」了?

xAI 研究员 Hieu Pham 周末发布的一条推文在 AI 圈掀起轩然大波,推文原话是这么说的:

Grok-3 AI 系统刚刚证明了黎曼猜想(Riemann’s hypothesis)。为了验证这一证明的正确性,我们决定暂停该系统的训练。如果证明被确认无误,我们将不再继续其训练,因为这样的 AI 被认为过于智能,可能对人类构成威胁。

老规矩,先说结论,这单纯就是玩梗而已。

然而,随着推文的不断发酵,还是迅速引发了超过两百万网友的关注与讨论,甚至辐射到海内外的 AI 舆论圈。

事情的源头大概要追溯到网友 Andrew Curran 更早些时候的一则「爆料」,其声称 Grok-3 在训练过程中发生了灾难性事件。

随后,各种离奇的传言纷至沓来。

网友起哄说,OpenAI CEO Sam Altman 用巨大的激光器对准了 xAI 的最大训练集群,导致数据严重损坏;也有人煞有介事地暗示有人蓄意破坏下一代 LLM 训练运行。

更有调侃称,AI 似乎获得了自我意识,并解决了黎曼猜想,但在证明代码中「故意省略了 15 个分号」,使人类无法验证。

连 Runway 创始人 Cristóbal Valenzuela 也来凑热闹:

Gen-4 刚刚荣获了包括最佳影片在内的所有奥斯卡奖项。为了深入研究其在艺术领域的创新成果,我们决定暂停对其进行的训练。如果这部电影确实如早期评论家所言具有革命性,我们将不会恢复训练,因为这表明 AI 在艺术方面已经达到如此高的水平,以至于可能威胁到人类的创造力。

谣言就这么越传越邪乎。

多位 xAI 研究人员也纷纷转发 Andrew Curran 推文,加入这场集体「大团建」。

比如我们的老熟人 xAI 联创 Greg Yang 率先调侃道,Grok-3 在训练过程中突然殴打办公室里年长的保安。

另一位研究人员 Heinrich Kuttler 则表示:「是的,情况非常糟糕!我们后来用 nan(Not a Number,非数)把所有异常的权重都替换了一遍,才恢复。」

当然,更理性的网友直接在 X 上询问当前版本的 Grok 对黎曼猜想的理解,不出所料, Grok 的表现十分「玛卡巴卡」。

最终,这场闹剧由始作俑者——xAI 研究员 Hieu Pham 亲自画上句号:

好的,《周六夜现场》结束了。至于为什么证明黎曼假设是危险的,我强烈推荐马特·海格(@matthaig1)的精彩小说《人类》。

那么问题来了,为什么这则 Grok-3 证明黎曼猜想的消息能引起广泛的关注呢?首先是黎曼猜想本身的重要性。

黎曼猜想(Riemann Hypothesis)是数学中一个关于素数分布的重要猜想,由德国数学家伯恩哈德·黎曼于 1859 年提出,该猜想被列为克雷数学研究所(Clay Mathematics Institute)的「千年难题」之一。

它涉及到黎曼ζ函数(Riemann zeta function),这个函数定义为:
ζ(s)=1+12s+13s+14s+⋯\zeta(s) = 1 + \frac{1}{2^s} + \frac{1}{3^s} + \frac{1}{4^s} + \cdotsζ(s)=1+2s1+3s1+4s1+⋯

黎曼猜想的核心内容是:所有非平凡的黎曼ζ函数零点的实部都等于 1/2。换句话说,如果 ss 是黎曼ζ函数的一个非平凡零点,即 ζ(s)=0ζ(s)=0,那么其实部必定是 ℜ(s)=1/2ℜ(s)=1/2。

克雷数学研究所说了,如果有人能够成功证明黎曼猜想,将奖励 100 万美元的奖金。但这个猜想至今没有被证明或反驳,也被广泛认为是现代数论中的一个未解之谜。

这个猜想的证明对于数论(数学的一个分支)有着深远的影响。

目前,很多现代加密技术(比如保护网上支付、数据隐私等)都依赖于素数的性质。证明黎曼猜想或将会让人类更好地理解这些技术的基础,并且可能影响到未来的安全算法。

假如 Grok-3 能证明黎曼猜想,这不仅将推动理论数学、物理学、密码学等领域的大幅进展,同时将标志着 AI 在推理和解决复杂问题方面的巨大进步。

甚至可以说,这将成为人工智能超越人类智能的一个标志性事件。

月之暗面创始人杨植麟曾表示,数学场景是锻炼 AI 思考能力最理想的场景。

数学是一个极其严谨的逻辑体系,而 AI 的推理能力往往建立在严密的逻辑推导之上。

AI 解决数学问题的过程实质上是一个持续思考的历程,在这个过程中,它会不断尝试不同思路,通过反复试错来寻找正确答案。即便计算过程中出现错误,AI 也能通过验证和校对来纠正结果。

类似的理念也体现在 OpenAI o1 的强化学习训练上。

如果说以前的大模型是学习数据,o1 更像在学习思维。就像我们解题,不仅要写出答案,也要写出推理过程。一道题目可以死记硬背,但学会了推理,才能举一反三。

所以在今年美国针对优秀高中生的 AIME 测验当中,GPT-4o 仅完成了百分之十三的题目。相比之下,o1 的正确率高达 83 个百分点。

就博士水准的 GPQA Diamond 科研测评而言,GPT-4o 获得了 56.1% 的成绩,而 o1 的表现更为出色。不仅胜过了人类博士的 69.7%,更是达到了 78% 的正确率。

在国际信息学奥赛 (IOI) 的评测中,当每道题允许 50 次尝试时,模型达到了 49% 的得分率,即 213 分,而当每题提交机会增至一万次时,其最终得分提升至 362 分。

拿打败围棋世界冠军的 AlphaGo 类比,就更加容易理解了。

AlphaGo 就是通过强化学习训练的,先使用大量人类棋谱进行监督学习,然后与自己对弈,每局对弈根据输赢得到奖励或者惩罚,不断提升棋艺,甚至掌握人类棋手想不到的方法。

o1 和 AlphaGo 有相似之处,不过 AlphaGo 只能下围棋,o1 则是一个通用的大语言模型。

o1 学习的材料,可能是数学题库、高质量的代码等,然后 o1 被训练生成解题的思维链,并在奖励或惩罚的机制下,生成和优化自己的思维链,不断提高推理的能力。

这其实也解释了,为什么 OpenAI 强调 o1 的数学、代码能力强,因为对错比较容易验证,强化学习机制能够提供明确的反馈,从而提升模型的性能。

当然,更重要的是如何将这种推理能力拓展应用到更广泛的领域中。

所以我们会看到不少海外网友为 Grok-3 证明黎曼猜想欢呼,「如果是这样的话,我们真的在见证一个巨大的突破。」

马斯克曾多次在公开场合渲染 Grok-3 的强大,他声称 Grok-3 预计在年底前问世,并将成为「世界上最强大的 AI」。

实际上,Grok-3 是由上面提到的 AI 初创公司 xAI 开发的第三代大型语言模型,并预计在性能上预期将超越现有的所有 AI 大模型。

原因在于 Grok-3 训练背后依托的是目前世界上最大的 AI 训练集群——Colossus。

这个集群由 10 万个液冷英伟达 H100 GPU 组成,采用单一的 RDMA 网络互连架构。这个集群的规模已经超越了目前世界上任何其他的超级计算机,而且未来还将持续扩充 GPU 数量。

根据 The Information 的报道,Colossus 的出现甚至引起了 Altman 的密切关注,后者派飞机飞越 Colossus 训练基地,试图窥探其开发进展和能源供应情况。

所以说,当「最强 AI」、「千年数学难题」和以及长盛不衰的「AI 威胁论」这三重元素叠加,一场完美的「谣言风暴」就此形成。

甚至我们可以认为,Grok-3 证明黎曼猜想的谣言,与其说是一场闹剧,不如说是整个 AI 行业的一面照妖镜:

其一是折射出人们对 AI 的深层态度,大量技术乐观派坚信 AI 终将无所不能,既担心它发展得太快会失控,又害怕它发展得不够快无法实现突破。

其二是自 GPT-4 问世以来,尽管 AI 领域不断有新产品涌现,却鲜有真正的突破性进展。

人类既是 AI 的创造者,却又成了它最焦虑的观众。

每一个 AI 谣言的背后,都藏着整个行业的焦虑与期待。

加之最近闹得沸沸扬扬的 Scaling Law 发展撞墙论,相比去年的井喷期,今年的「创新疲劳」让人们对模型的小步改进已然失去耐心。

在这个意义上,Grok-3 证明黎曼猜想的谣言也成了人们对未来的一次集体想象。哪怕作为普通用户,我们也越来越期待下一个从 GPT-3.5 到 GPT-4 的质变时刻。

当然,真正的 AI 突破,往往发生在所有人都不看好的时候。

但我们都希望这个谜底能在年底前揭开。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


卡西欧发布首款智能戒指,就是一个能戴在手指的手表

By: 莫崇宇
18 November 2024 at 11:31

继发布新款 CA53 计算器手表后,卡西欧又给我们带来了一个新惊喜。

为庆祝卡西欧进入数字手表业务 50 周年,卡西欧宣布推出数字戒指手表 CRW-001-1JR,该产品将于 12 月在日本首发,售价为 19800 日元,约合人民币 925 元。

微型设计是这款产品最引人注目的特点。

在不足一英寸的表壳空间内,卡西欧巧妙植入了一块复古风格的六段式 LCD 显示屏,可以清晰地显示小时、分钟和秒等信息。

从腕间到指尖,这款戒指手表重新定义时间的佩戴方式。

此外, CRW-001-1JR 还配备了三个功能按钮,可轻松切换日期显示、世界时间及秒表等多项实用功能,充分满足日常使用需求。

这款戒指手表还采用了背光设计。

通过柔和的屏幕闪烁取代了传统的声响提醒,这既保证了提醒效果,又不会打扰到周围的人。

不必抱有更多的期待,虽然戒指市场已有诸多产品,但 CRW-001-1JR 的定位非常明确——将计时功能作为核心,而非盲目追随当下流行的运动监测或健康追踪功能。

在续航表现上,整个戒指手表由单颗电池驱动,据卡西欧官方介绍,这款具备防水性能的手表可持续运行约两年,且支持便捷的电池更换。

至于材质选择,整个戒指手表主要采用经过精细抛光处理的不锈钢打造表壳和表圈,确保了产品的耐用性与质感。

为了完美还原设计细节,制造过程采用了先进的金属注塑工艺。

金属注塑工艺是一种结合粉末冶金技术和塑料注塑成型技术的制造工艺,用于生产复杂形状的金属零件,特别适用于制造小型、精密、复杂形状且具有高性能要求的零部件。

从金属粉末起步,经过层层工序,最终打造出这款精致的戒指手表。

有别于一些市面上采用可伸缩表带的同类产品,CRW-001-1JR 选择了固定尺寸设计,对应美国戒指尺码 10.5。

为照顾不同用户的佩戴需求,卡西欧还特别随附了一些垫片,方便手指较细的用户调节佩戴效果。不过,如果你的手指尺寸比较大,那么这款产品可能并不适合你,这也是固定尺寸设计不可避免的局限。

去年,卡西欧曾推出一系列致敬过去 50 年标志性数字腕表的戒指,但遗憾的是这些产品主要作为装饰品,缺乏实际计时功能。

相比之下,这次推出的 CRW-001-1JR 算是补上了缺失的一环。

▲ T80,图片来自官方

将时间戴在手指上的构想,卡西欧并非孤例,市场上已有其他品牌在这一领域进行探索。

比如 Timex 最新推出的 T80 数字戒指手表就采用了类似的理念。这款售价 180 美元的产品配备了不锈钢伸缩表带,可以适应不同的手指尺寸,展现出不同的设计思路。

并且,这款产品还是与法国奢侈品牌 Maison Margiela 联名之作,不仅彰显出更强的时尚价值和社交属性,更因此赢得了时尚圈人士的青睐。

在功能重叠的智能穿戴设备中取舍很难,但对于注重时尚搭配的用户而言,数字戒指手表或许能成为另一种选择。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


看着这个 AI 奶奶把骗子耍得团团转,可把我高兴坏了

By: 莫崇宇
18 November 2024 at 10:39

你好,骗子,我是你的噩梦。

眼前这位慈眉善目的奶奶叫 Daisy。它没有真人的躯体,却是一个反诈 AI 高手。

与传统的反诈宣传不同,Daisy 不会苦口婆心地提醒你谨防上当受骗,而是从源头抓起,与骗子聊些家长里短的话题,不断消耗骗子的耐心。

天上不会掉馅饼,但骗子会给你扔一个诱饵。

打造 Daisy 的初衷在于,要用骗子的执着消耗骗子的时间,减少后者扔诱饵的机会,从而更好地保护其他潜在的受害者。

应了那句话,真正的反诈胜利不是打败骗子,而是让诈骗变得不划算。

与其教会一个人防骗,不如浪费一个骗子的时间

Daisy 的幕后开发者源自一家英国的电信公司 O2。

与 Vodafone、EE 和 Three 并列,O2 是英国四大电信运营商之一。O2 的数据显示,67% 的英国人表示担心成为诈骗的受害者,四分之一的人每周都会遭遇不同程度的诈骗。

面对诈骗分子的兴风作浪,O2 也很头疼。

于是他们想出了一个妙招,那就是打造出一个 AI 奶奶——Daisy,并让其主动出击,与骗子进行最高可达 40 分钟的通话。

方法有些舍己为人却又很实用,折腾完骗子,这样骗子就没有时间去诈骗别人了。

Daisy 的角色设定是一位慈祥的老奶奶,映照到现实生活,老年人也恰恰是诈骗分子最常针对的下手群体。

在官方发布的演示 demo 中,Daisy 跟电话那头的骗子唠唠家常,绘声绘色地分享她的爱好——编织毛衣,聊聊家里可爱的猫等等。

无它,通话时间拖得越久越好。

当涉及银行卡账号/密码等要紧信息时,这位 AI 奶奶还会凭空杜撰,主打一个句句有回应,事事没着落,睁着眼睛说瞎话。

O2 欺诈部门主管 Murray Mackenzie 杀人诛心地指出,Daisy 的作用在于,她彻底扭转了与骗子的博弈态势。「我们通过让他们一直在线上,巧妙地在他们的「游戏」中击败并超越了他们。」

实际上,在 Daisy 之前,也已经有不少类似的工具诞生。

据外媒 The Guardian 报道,澳洲麦考瑞大学团队也曾研发了一个专门和电信诈骗骗子「聊天」的 AI 机器人 Apate。

当澳洲警方辨析并拦截了电信诈骗电话,他们就会转接给这位「受害者机器人」

创作者 Kafaar 也曾经透露过 Apate 的诞生故事。

他和两个孩子在外面野餐时,给诈骗来电者讲了一个笑话。之后,他因此受到启发,开始思考如何用无意义的闲聊来消耗骗子的时间,从而阻止他们去欺骗更多的人。

我当时想,这样做的目的是欺骗骗子,浪费他们的时间,这样他们就不能和其他人通话了。

Apate 还拥有几百个不同的身份,这些身份各自带有不同的口音,有不同的个性,有的假装懵懵懂懂,有的就跟老人家一样讲话爱重复,也有的脾气比较暴躁,整体比较多样,主要是为了不被骗子认出模式。

简言之,与其教会一个人防骗,不如浪费一个骗子的时间。

技术在升级,人类的判断力永远是最后的防线

AI 的飞速发展为 Daisy 的诞生提供了一个绝佳契机。

Daisy 基于定制训练的大型语言模型(LLM)构建,其工作原理与 Google Gemini Live 或早期版本的 ChatGPT Voice 相似。

具体原理就是,AI 会转录来电者的声音,接着这位 AI 奶奶会根据预设的角色性格来调整回答的风格和内容,最后再次转换成 AI 奶奶的声线:

  1.  转录语音为文本:将捕捉到的声音转换成文本的过程称为「转录」。这样,Daisy 可以理解来电者所说的内容,并准备相应的回应。
  2. 生成回应:Daisy 使用一个定制的大型语言模型(LLM)来生成回应。这个模型不仅能够理解文本信息,还能够根据上下文和预设的角色性格层(character personality layer)生成合适的回答。
  3. 角色性格层:「角色性格层」是指 Daisy 在生成回应时,会根据预设的角色性格来调整回答的风格和内容,使其更符合角色设定,比如像一个祖母那样亲切和耐心。
  4. 文本转语音:生成的文本回应需要再次转换成语音,以便 Daisy 可以通过电话与来电者进行交流。这个过程也就是「文本转语音」(TTS),Daisy 使用一个定制的 AI 模型来完成这一步。

并且,在训练的过程中,Daisy 还得到了一位 YouTube 博主 Jim Browning 的帮助。

该博主在 YouTube 上拥有 400 万+ 粉丝,是该平台最具影响力的反诈骗者之一。他的视频不仅展示诈骗手法,还会通过详细的技术分析和实例,来揭示了整个诈骗产业的运作方式。

毕竟最了解你的人永远是你的敌人,骗子也不例外。

而在 Daisy 与骗子对话的整个流程,由于从听取声音、转录文本、生成回应到文本转语音都是实时进行,所以几乎没有明显的延迟。

不过,Daisy 并不直接提供给 O2 的用户使用。

原因很简单,O2 担心用户利用它对诈骗者进行报复行动,在他们的内部研究表明,71% 的英国人有过想要报复那些诈骗了他们或他们亲人的骗子的念头。

据外媒 techspot 报道称,这个 AI 工具已经被列入诈骗者常用的易骗号码列表。Daisy 能够在 24 小时不间断地与来电者互动,且无需人工干预。

但问题是,现在的骗子分两种,一种是不懂 AI 的,一种是懂 AI 的。

前不久,初创公司 Bland AI 在 X 平台宣称,在大模型的加持下,其产品将成为全球最快的对话式 AI,且可以在没有「幻觉」的情况进行沟通。

另外,Bland AI 机器人还拥有极其自然的生成式语音、以及多种语言切换。

除了非常擅长模仿人类真实对话的语调、停顿,在外媒 WIRED 的技术测试中,Bland AI 机器人甚至可以否认自己是 AI,并谎报其真实身份。

包括 APPSO 此前也利用 AI 定制生成了一些 0 成本但很真的数字双胞胎。

在 AI 技术的增益之下,这些工具都能轻而易举地被诈骗不法分子反过来欺骗我们。

吊诡的是,电话一头连着 AI 骗子,电话一头连着 AI Daisy,一个捧哏,一个逗哏,双方无限循环。懂行的人都知道,这里面的道行有多深。

而更早些时候,智能电话系统已经相当完善。

只需向服务商提出需求,后者就能快速搭建管理平台。用户通过简单的界面操作,就能设置话术、模板、通讯线路等参数,导入联系人信息后即可启动自动外呼功能。

为此,国内手机厂商也在这方面做出了不少努力。

比如,国内大多数手机系统提供智能识别和拦截伪基站的功能。并且,你还可以在来电拦截设置中,开启「在线识别陌生号码」功能,让系统更准确地识别并拦截骚扰电话。

诈骗本质上是一场筛选游戏,骗子不在乎失败 999 次,他们只需要成功 1 次。

被骗了,一切归零。

诚然,诈骗手法或许千变万化,但下面这条官方的反诈公式永不过时。

人物(陌生人)+沟通(各种通信工具,反正就是见不到面的)+要求(转账汇款,反正就是谈钱的)=诈骗。

在 AI 时代,骗子和反诈技术都在升级,而人类的判断力永远是最后的防线。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 最新产品全曝光!奥特曼驳斥 AI 发展撞墙,Ilya 认错,秘密寻找下一个重大突破

By: 莫崇宇
14 November 2024 at 17:29

今年 AI 圈的瓜真是一浪接一浪。

最近,关于 Scaling Laws「撞墙」的消息在 AI 圈炸开了锅。图灵奖得主 Yann Lecun、Ilya、Anthropic 创始人 Dario Amodei 纷纷展开唇枪舌战。

争论的核心在于,随着模型规模的不断扩大,其性能提升是否会遇到天花板。正当舆论愈演愈烈之际,OpenAI CEO Sam Altman 刚刚在 X 平台作出回应:

「there is no wall 没有墙」

而在这场辩论的背景下,彭博社则披露了一条引人注目的消息。

OpenAI 计划在明年一月份推出一款名为「Operator」的 AI Agent(智能体),这个 Agent 能够使用计算机代替用户执行任务,如编写代码或预订旅行。

在此之前,Anthropic、微软、Google 也都被曝出正在布局类似的方向。

对于整个 AI 行业来说,AI 技术的发展从来就不是单一维度的线性过程。当一个方向似乎遇到阻力时,创新往往会在其他维度突破。

Scaling Laws 撞墙?下一步该怎么走

Scaling Laws 遭遇瓶颈的消息,最先源自外媒 The Information 上周末的一篇报道。

洋洋洒洒的数千字报道透露了两个关键信息。

好消息是,尽管 OpenAI 完成了下一代模型 Orion 训练过程的 20%,但 Altman 表示,Orion 在智能和执行任务、回答问题的能力方面已经与 GPT-4 不相上下。

坏消息是,据上手体验的 OpenAI 员工评估,与 GPT-3 和 GPT-4 之间的巨大进步相比,Orion 提升幅度较小,比如在编程等任务上表现不佳,且运行成本较高。

一句话概括就是,Scaling Laws 遭遇瓶颈了。

要理解 Scaling Laws 效果不及预期所带来的影响,我们有必要给不太清楚的朋友简单介绍一下 Scaling Laws 基本概念。

2020 年,OpenAI 在一篇论文中最早提出 Scaling Laws。

这一理论指出,大模型的最终性能主要与计算量、模型参数量和训练数据量三者的大小相关,而与模型的具体结构(层数/深度/宽度)基本无关。

听着有些拗口,说人话就是,大模型的性能会随着模型规模、训练数据量和计算资源的增加而相应提升。

OpenAI 的这项研究奠定了后续大模型发展的基础,不仅促成了 GPT 系列模型的成功,也为训练 ChatGPT 提供了优化模型设计与训练的关键指导原则。

只是,当我们现在还在畅想着 GPT-100 时,The Information 的爆料表明,仅仅增加模型规模已经不能保证性能的线性提升,且伴随着高昂成本和显著的边际效益递减。

而遭遇困境的并非仅有 OpenAI 一家。

彭博社援引知情人士的消息称,Google 旗下的 Gemini 2.0 同样未能达到预期目标,与此同时,Anthropic 旗下的 Claude 3.5 Opus 的发布时间也一再推迟。

在争分夺秒的 AI 行业,没有产品的新消息往往意味着最大的坏消息。

需要明确的是,这里所说的 Scaling Laws 遇到瓶颈并非意味着大模型发展就此终结,更深层的问题在于高昂成本导致边际效益的严重递减。

Anthropic CEO Dario Amodei 曾透露,随着模型变得越来越大,训练成本呈现爆炸式增长,其目前正在开发的 AI 模型的训练成本就高达 10 亿美元。

Amodei 还指出,未来三年内,AI 的训练成本还将飙升到 100 亿美元甚至 1000 亿美元的天文数字。

以 GPT 系列为例,仅 GPT-3 的单次训练成本就高达约 140 万美元,这些支出主要来自于强大的计算资源消耗,尤其是 GPU 的使用费用,以及巨额的电力支出。

单是 GPT-3 的训练就消耗了 1287 兆瓦时的电力。

去年,加州大学河滨分校的研究显示,ChatGPT 每与用户交流 25-50 个问题,就得消耗 500 毫升的水,预计到 2027 年,全球 AI 的年度清洁淡水需求量可能达到 4.2-66 亿立方米,相当于 4-6 个丹麦或半个英国的年度用水总量。

从 GPT-2 到 GPT-3,再到 GPT-4,AI 所带来的体验提升是跨越式的。

正是基于这种显著的进步,各大公司才会不惜重金投入 AI 领域。但当这条道路逐渐显露尽头,单纯追求模型规模的扩张已无法保证性能的显著提升,高昂的成本与递减的边际效益成为了不得不面对的现实。

现在,比起一味追求规模,在正确的方向上实现 Scaling 显得更加重要。

再见,GPT;你好,推理「O」

墙倒众人推,连理论也是如此。

当 Scaling Laws 疑似触及瓶颈的消息在 AI 圈内引发轩然大波时,质疑的声浪也随之翻涌而来。

一直持反主流立场的图灵奖得主、Meta AI 首席科学家 Yann Lecun,昨天兴奋地在 X 平台转载了路透社采访 Ilya Sutskever 的采访,并附文称:

「我不想显得事后诸葛亮,但我的确提醒过你。

引用:「AI 实验室 Safe Superintelligence(SSI)和 OpenAI 的联合创始人伊利亚·苏茨克韦尔(Ilya Sutskever)最近向路透社表示,通过扩大预训练阶段——即使用大量未经标注的数据来训练 AI 模型,使其理解语言模式和结构——所取得的成果已经停滞不前。」

回顾这位 AI 巨头过去两年对现行大模型路线的评判,可谓是字字珠玑,句句见血。

例如,今天的 AI 比猫还笨,智力差太远;LLM 缺乏对物理世界的直接经验,只是操纵着文字和图像,却没有真正理解世界,强行走下去只会死路一条等等。

时间拨回两个月前,Yann Lecun 更是毫不客气地给当下主流路线判了死刑。在一众 AI 末日论中,在众多 AI 末日论中,他还坚定地认为声称 AI 将威胁人类生存的言论纯属无稽之谈:

  • 大型语言模型(LLMs)无法回答其训练数据中未包含的问题,
  • 它们无法解决未经训练的难题,
  • 它们无法在缺乏大量人类帮助的情况下学习新技能或知识,
  • 它们无法创造新的事物。 目前,大型语言模型只是人工智能技术的一部分。 单纯地扩大这些模型的规模,并不能使它们具备上述能力。

同在 Meta FAIR 任职的田渊栋博士则更早预见了当前的困境。

5 月份在接受媒体采访时,这位华人科学家曾悲观地表示,Scaling Laws 也许是对的,但不会是全部。在他看来,Scaling Laws 的本质是以指数级的数据增长,来换取「几个点的收益」。

「最终人类世界可能会有很多长尾需求,需要人类的快速反应能力去解决,这些场景的数据本身也很少,LLM 拿不到。Scaling law 发展到最后,可能每个人都站在一个「数据孤岛」上,孤岛里的数据完全属于每个人自己,而且每时每刻都不停产生。专家学会和 AI 融合,把自己变得非常强,AI 也代替不了他。」

不过,形势或许还没有到如此悲观的境地。

客观而言,Ilya 在接受路透社的采访时,虽然承认了 Scaling Laws 带来的进展已趋于停滞,但并未宣告其终结。

「2010 年代是追求规模化的时代,而现在我们再次进入了一个充满奇迹和探索的新时代。每个人都在寻找下一个重大突破。在当下,选择正确的事物进行规模化比以往任何时候都更为关键。」

并且,Ilya 还表示 SSI 正在探索一种新的方法来扩展预训练过程。

Dario Amodei 最近在一档播客中也谈及此事。

他预测,在人类水平以下,模型并不存在绝对的天花板。既然模型尚未达到人类水平,就还不能断言 Scaling Laws 已经失效,只是确实出现了增长放缓的现象。

自古,山不转水转,水不转人转。

上个月,OpenAI 的研究员 Noam Brown 在 TED AI 大会上表示:

「事实证明,在一局扑克中,让一个机器人思考 20 秒钟,得到的性能提升与将模型扩展 100000 倍并训练它 100000 倍长的时间一样。」

而对于 Yann lecun 昨天的事后诸葛亮言论,他这样回应:

「现在,我们处于一个这样的世界,正如我之前所说,进入大规模语言模型预训练所需的计算量非常非常高。但推理成本却非常低。曾有许多人合理地担心,随着预训练所需的成本和数据量变得如此庞大,我们会看到 AI 进展的回报递减。但我认为,从 o1 中得到的一个真正重要的启示是,这道墙并不存在,我们实际上可以进一步推动这个进程。因为现在,我们可以扩展推理计算,而且推理计算还有巨大的扩展空间。」

以 Noam Brown 为代表的研究者坚信推理/测试时计算(test-time compute),极有可能成为提升模型性能的另一个灵丹妙药。

说到这里,就不得不提到我们熟悉的 OpenAI o1 模型。

与人类的推理方式颇为相似,o1 模型能够通过多步推理的方式「思考」问题,它强调在推理阶段赋予模型更充裕的「思考时间」,其核心秘密是,在像 GPT-4 这样的基础模型上进行的额外训练。

例如,模型可以通过实时生成和评估多个可能的答案,而不是立即选择单一答案,最终选择最佳的前进路径,这样就能够将更多的计算资源集中在复杂任务上,比如数学问题、编程难题,或者那些需要人类般推理和决策的复杂操作。

Google 最近也在效仿这条路线。

The Information 报道称,最近几周,DeepMind 在其 Gemini 部门内组建了一个团队,由首席研究科学家 Jack Rae 和前 Character.AI 联合创始人 Noam Shazeer 领导,旨在开发类似的能力。

与此同时,不甘落后的 Google 正在尝试新的技术路径,包括调整「超参数」,即决定模型如何处理信息的变量,比如它在训练数据中的不同概念或模式之间建立联系的速度,以查看哪些变量会带来最佳结果。

插个题外话,GPT 发展放缓的一个重要原因是高质量文本和其他可用数据的匮乏。

而针对这个问题,Google 研究人员原本寄希望于使用 AI 合成数据,并将音频和视频纳入 Gemini 的训练数据,以实现显著改进,但这些尝试似乎收效甚微。

知情人士还透露,OpenAI 和其他开发者也使用合成数据。不过,他们也发现,合成数据对 AI 模型提升的效果十分有限。

你好,贾维斯

再见,GPT,你好,推理「o」。

在前不久举行的 Reddit AMA 活动上, 一位网友向 Altman 提问,是否会推出「GPT-5」,以及推理模型 o1 的完整版。

当时,Altman 回答道:「我们正在优先推出 o1 及其后续版本」,并补充说,有限的计算资源使得同时推出多个产品变得困难。

他还特别强调,下一代模型未必会延续「GPT」的命名方式。

现在看来,Altman 急于与 GPT 命名体系划清界限,转而推出以「o」命名的推理模型,其背后似有深意。而推理模型的布局或许还是在于为当下主流的 Agent 埋下伏笔。

最近,Altman 在接受 YC 总裁 Garry Tan 的采访时,也再次谈到了 AGI 五级理论:

  • L1:聊天机器人具有对话能力的 AI,能够与用户进行流畅的对话,提供信息、解答问题、辅助创作等,比如聊天机器人。
  • L2:推理者像人类一样能够解决问题的 AI,能够解决类似于人类博士水平的复杂问题,展现出强大的推理和问题解决能力,比如 OpenAI o1。
  • L3:智能体不仅能思考,还可以采取行动的 AI 系统,能够执行全自动化业务。
  • L4:创新者能够协助发明创造的 AI,具有创新的能力,可以辅助人类在科学发现、艺术创作或工程设计等领域产生新想法和解决方案。
  • L5:组织者可以完成组织工作的 AI,能够自动掌控整个组织跨业务流程的规划、执行、反馈、迭代、资源分配、管理等,基本上已经与人类差不多。

所以我们看到,与 Google 和 Anthropic 一样,OpenAI 现在正在将注意力从模型转移到一系列称为 Agent 的 AI 工具上。

最近,彭博社也曝出,OpenAI 正在准备推出一款名为「Operator」的新型 AI Agent,能够使用计算机代替用户执行任务,如编写代码或预订旅行。

在周三的一次员工会议上,OpenAI 领导层宣布计划在一月发布该工具的研究预览版,并通过公司的应用程序接口(API)向开发者开放。

在此之前,Anthropic 也推出了类似的 Agent,够实时处理用户计算机任务并代为执行操作。与此同时,微软近期推出了一套面向员工的 Agent 工具,用于发送邮件和管理记录。

而 Google 也正在筹备推出自己的 AI Agent。

报道还透露,OpenAI 正在进行多个与 Agent 相关的研究项目。其中,最接近完成的是一款能够在网页浏览器中执行任务的通用工具。

这些 Agent 预计将能够理解、推理、规划并采取行动,而这些 Agent 实际上是一个由多个 AI 模型组成的系统,并非单一模型。

比尔·盖茨曾经说过,「每个桌面上都有一台 PC」,史蒂夫·乔布斯说过,「每个人的手上都有一部智能手机」。现在我们可以大胆预测:每个人都将拥有自己的 AI Agent。

当然,人类的终极目标是,我们更希望有一天能够对着眼前的 AI 说出那句电影的经典对白:

你好,贾维斯

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


黄仁勋最新演讲:每家公司都将成为 AI 制造商 | 万字实录

By: 莫崇宇
13 November 2024 at 14:00

老黄又来做推销员了。

上周英伟达市值超越苹果,成为全球第一,与此相对应的,英伟达创始人黄仁勋也没闲着,开启了全球随心飞,时常在各地露面演讲。

销售的最高技巧,就是不断的推销,推销,与推销。

今天,黄仁勋也去到了日本,与软银集团 CEO 孙正义进行了一次正式的会面。

在交流前,黄仁勋先来了一段长达一个小时的的演讲,向在场与会者深入浅出地介绍了什么是 AI,以及 AI 将会如何影响我们的生活,碰到小插曲,老黄也入乡随俗地连道多句「私密马赛」。

在与孙正义的交流过程中,黄仁勋还展示了不少「黄氏」幽默。

比如看到孙正义,先来一段排比句式的彩虹屁,逗得孙正义开颜大笑。又或者,打趣孙正义曾是英伟达最大股东时,顺便也调侃自己错失收购英伟达的懊悔不已。

  • 黄仁勋介绍英伟达是一个模拟技术公司,专注于模拟物理学、虚拟世界和智能,通过模拟帮助预测未来,类似于在构建时间机器。
  • 黄仁勋强调英伟达的目标不是替代 CPU,而是增强 CPU 的功能,将计算密集型任务交给 GPU。
  • 传统编程到机器学习的过渡,软件 2.0 不再依赖传统的代码,而是通过神经网络在 GPU 上运行。这种新的编程方式使得计算能力更强大,尤其是在 AI 和深度学习领域。
  • 随着 AI 系统规模的扩大,推理能力也得到了扩展,这意味着 AI 能够进行更多的反思、规划和思考,从而提升其智能和表现。
  • 英伟达将继续推动计算性能的提升,不仅通过 GPU 的不断发展,还通过协同计算的方式降低成本、减少能耗。
  • 黄仁勋与孙正义共同宣布在日本建设 AI 网格,包含 AI 工厂和 AI 网络,旨在为日本各地提供 AI 服务。日本将成为全球首个实现这一目标的国家,AI 技术将推动日本各行业的变革。

原视频地址指路👉:https://www.nvidia.cn/events/ai-summit-japan/fireside-chat/

附上黄仁勋演讲全文以及炉边对话全文,全文共 1.7 万字,由  APPSO 编译

不只是在造 GPU,更像是在造时间机器

黄仁勋:欢迎来到英伟达 AI 峰会。

在英伟达,我们的核心是一家模拟技术公司。

我们模拟物理学,我们模拟虚拟世界,我们通过模拟来模拟智能。我们帮助你们预测未来。所以,从很多角度来看,英伟达就像是在构建时间机器。

今天,我们将分享一些我们的最新突破。但最重要的是,这次活动是关于日本生态系统的。这里有这么多合作伙伴, 350 家初创公司,250000 名开发者,数百家公司。

我们已经与日本有着长期的合作。

自公司创立初期以来,日本对我们而言一直都非常重要。正是在日本,我们做了许多「第一次」。

比如视频游戏领域,Sega 的 Yu Suzuki 是我们第一次合作的游戏开发者,曾帮助我们将 Sega 的出色 3D 游戏移植到英伟达的 GPU 上。

那是第一次有人使用英伟达的 CUDA 技术来构建超级计算机,东京科技大学的超级计算机就是通过英伟达的 GPU 来推动科学计算的发展。

日本在许多领域都是全球的先锋。

还有,正是日本让我们第一次能够创造出移动处理器,进而催生了我们非常重要的项目之一——任天 堂 Switch。如今,很多「第一次」已经成为现实。

现在,我们站在 AI 革命的起点,迎接一个全新的行业和令人惊叹的技术变革。这个时代令人激动,同时也充满挑战。因此,我们在此与日本生态系统中的优秀企业合作,携手将 AI 带入日本,共同抓住这一前所未有的机遇。

今天我们有很多合作伙伴在场,我要特别感谢他们。

英伟达是加速计算的创始者,加速计算并不会取代 CPU。

实际上,我们几乎是计算领域中唯一一家不打算替代 CPU,而是想增强 CPU 功能的公司,目的是将那些计算密集型的工作负载卸载到 GPU 上。

这些是 GPU 指令集与 CPU 一起工作。

通过这种方式,我们可以充分利用两种处理器的优势:一种擅长顺序处理的 CPU,另一种则擅长并行处理的 GPU。稍后我会详细介绍这一点。

但这不仅仅是并行计算,而是加速计算,CPU 和 GPU 协同工作。这种计算模式对世界来说是全新的。

实际上,单纯使用 CPU 的计算模式自 1964 年以来就已存在,也就是在我出生的第二年,至今已有 60 年。

今天世界上绝大多数的计算任务,都是依赖 CPU 来运行的。

但现在,计算模型迎来了一个全新的、根本性的变化。然而,为了实现这一点,我们不能仅仅将顺序执行的 CPU 软件直接移植到 GPU 上。

为了实现并行计算,我们必须开发出一系列全新的算法,正如 OpenGL 使计算机图形能够通过图形处理器进行加速那样,我们也必须为许多不同的应用领域开发出许多特定的库。

这些库正是我们公司所拥有的 350 多种不同的库,其中一些库在业界非常重要。例如,Kulit 是一个专为计算光刻设计的库,它能大大加速光刻过程。在制作芯片掩模时,通常需要数周的时间,因为涉及许多层的处理。

通过使用该技术,我们将数周的计算时间缩短为几个小时。

虽然我们可以加速芯片制造周期,但更为重要的是,这使得光刻算法得以更加复杂和先进,从而推动半导体物理的进步,远远超越 2 纳米、1 纳米甚至更小的技术节点。

因此,计算光刻将通过 cuLitho、Ku DSS(稀疏求解器)以及 AI 进行加速。我今天将会详细讲解这一令人兴奋的新库,它使得这台计算机能够支持 5G 无线电协议栈的运行。

基本上,实时运行的无线电系统依托 CUDA 加速器进行量子模拟、量子电路模拟,基因测序中的配对,CVS 用于向量存储,或者是用于 AI 的向量数据库进行索引和查询。

NumPy 是全球最受欢迎的数值处理库,全球有 500 万名开发者在使用它。仅在上个月,它的下载量就达到了 3000 万次,真是一个惊人的数字。

现在,它已经完全加速,支持多 GPU、多节点的运算。如果你感兴趣,欢迎查阅相关资料。

另外,向你们介绍一个令人震撼的 CDF 数据框架处理,这是用于结构化数据处理,如 SQL、pandas、polars、co-opt,以及经典的旅行推销员问题。

这个问题已经被加速了,速度是以前的几百倍,适用于 AI 物理学。接下来,我们创建了一个非常重要的库,叫做 Coup DN Co DNA,用于深度神经网络,处理深度学习体系中的不同层级。

通过创建 QDM(量子点(Quantum Dots))并加速深度学习,我们做了一件非常特别的事,使得深度学习得到了普及。在过去的十年里,我们让人工智能和机器学习的规模提高了 100 万倍。

通过把机器学习的规模提升 100 万倍,我们实现了一个巨大的突破,也正是这个突破,催生了如今的 ChatGPT——人工智能的到来。

QDM 做了一件非常特别的事,它改变了软件开发的方式。这是软件 1.0 之前的情况,程序员编写代码来描述一个算法,这个算法就是软件。

你输入数据,软件就预测输出。人类编写的代码,通常是运行在 CPU 上的。

软件 1.0 就是编写在 CPU 上运行的代码。现在我们进入了软件 2.0 时代,因为计算机速度已经非常快,你可以给它提供大量的样本数据,让它自己学习并预测函数。我们称之为软件 2.0。

所以,不再是传统的编程,而是机器学习;不再是代码运行在 CPU 上,而是神经网络运行在 GPU ISS 上,神经网络就是软件 2.0 的核心。

这些运行在 GPU ISS 上的神经网络,已经形成了一种全新的操作系统,一种全新的计算机使用方式。它就是现代计算机的操作系统——大型语言模型。

这种机器学习方法展现了其惊人的可扩展性,你可以用它做各种各样的事情。当然,包括数字化文本、语言、语音、图像、视频等。它是多模态的,你可以教它氨基酸序列,教它理解几乎所有事物,任何包含大量观察数据的内容。

第一步就是通过研究互联网上的大量文本来理解数据的意义。

通过这种方法,我们能够理解单词、词汇、语法,甚至通过寻找模式和关系来理解单词的含义。

如今,我们使用相同的方法,不仅能够理解与不同模态相关的各类数据的意义,例如单词与图像之间的关系,「cat」这个单词和「猫」的图像就被连接了起来,学习多模态后,我们现在甚至能够进行翻译和生成。

所以,我们能够理解各类数据,也能够生成智能信息,创造各种形式的智能。

如果你看看现在创造的所有令人惊叹的初创公司和应用,你会发现它们都属于这张幻灯片中的两种组合之一:

从文本到文本(比如摘要、问答、文本生成、讲故事),或从文本到其他形式(如视频到文本用于字幕,图像到文本用于图像识别,文本到图像用于图像生成,如 Midjourney,文本到视频用于视频创作,如 Runway ML)。

所有这些不同的组合都是突破性的。你甚至可以做到蛋白质到文本,解释蛋白质的功能;文本到化学物质,描述某种可能成为有效药物的化学特性;甚至可以将视频和文本结合,来实现机器表演、机器人技术。

每一种组合都代表了一个新的行业、新的公司、新的应用场景,掀起了令人震撼的「寒武纪大爆炸」,产生了大量新应用。

我们现在才刚刚开始,机器学习的一个特点是,脑容量越大,能够教给它的数据越多,它变得也就越聪明。

我们称之为 Scaling Laws。现在有很多证据表明,随着模型的规模扩大,训练数据的增多,智能的效果、质量和表现都会得到提升。

每年,整个行业都在将模型的规模扩大约两倍,同时需要相应增加两倍的数据量。

因此,我们需要四倍的计算资源,推动人工智能迈向下一个层次所需的计算资源是巨大的。在 Scaling Laws 中,预训练是其中一部分,后训练也是一部分。

后训练通过强化学习、人类反馈、强化学习、AI 反馈等多种方式进行。现在,后训练阶段有很多方法可以使用合成数据生成。因此,训练、预训练和后训练正在经历显著的扩展,我们仍在看到非常好的成果。

当 Strawberry 或 Open AI 的 o1 发布时,它向世界展示了一种全新的推理方式。

推理是与 AI 互动的过程,就像你与 ChatGPT 交流一样,但 ChatGPT 是一次性的。你向它提问,要求它做某事,无论你提出什么问题,或给出什么提示,通过一次交互,它就会给你答案。

然而,我们知道,思考往往不止是一瞬间的,思考需要我们进行多次尝试,最终从中选择最合适的答案。

就像我们在思考时,可能会反思答案,然后再给出答案,这就是反思;或者是我们将一个问题分解成一步一步的思考链。我们已经发明了许多技术,使得推理在我们投入更多计算资源时,能够不断提升。

现在我们有了第二个 Scaling Laws——推理 Scaling Laws,不仅仅是生成下一个单词,更是思考、反思和规划。这两种同步扩展将要求我们在每次交付新一代和新架构时,都以极快的速度推动计算性能。

我们每次交付时都会在 X 倍提升性能的同时,也减少相同倍数的功耗和成本。因此,提高性能等同于降低成本,提高性能也等同于减少能耗。

因此,随着世界越来越多地接受和应用人工智能,推动人工智能技术的发展,扩展其应用范围,是我们的使命。

我们的责任就是持续不断地推动性能提升,并尽可能地加快这一过程,同时扩大人工智能的应用领域,提升其效果,降低成本,并减少功耗。这也正是我们转向一年一个周期的原因。

然而,人工智能并不是单纯的芯片问题。这个 AI 系统庞大无比。这就是 Blackwell 系统。

Blackwell 不仅仅是一个 GPU 的名字,它也是整个系统的名字,而这个 GPU 本身也非常出色,必须要提到这一点。抱歉,向在场的各位外宾解释一下。

所以,今天我们展示的是 Blackwell。

每个 Blackwell 芯片都是世界上最大的芯片,拥有 1040 亿个晶体管,由 TSMC 在其最先进的 4 纳米制程上制造。这两个 Blackwell 芯片通过 10TB 每秒的低能耗连接互联。

位于芯片的接缝处——那条线——数千个互联节点,传输速度达到 10TB 每秒。

这些芯片通过来自 SK hynix 和 Micron 的八个 HBM 3e 内存模块连接,内存的总带宽为每秒 8TB。这两个 GPU 通过 NVLink 与 CPU 连接,每个 GPU 的连接带宽为每秒 1.8TB。

这是非常多的每秒千兆字节。之所以如此,是因为这个系统不仅可以单独运行。即便是世界上最先进的计算机,也无法单独完成人工智能任务。

有时它必须与成千上万台像这样的计算机协同工作,这些计算节点共同工作就像一个巨大的计算机,而有时它们需要独立工作,以响应不同的客户或查询。

因此,它们有时会单独运行,有时则作为一个整体工作,从而让 GPU 能够作为一个整体进行工作。我们当然有通过网络将这个 GPU 与成千上万的其他 GPU 连接,但我们仍然需要 NVLink。

这种 NVLink 可以让我们将一个机架中的几个 GPU ISS 连接起来,就像我身后的这个机架一样,机架通过 NVLink 连接,带宽为每秒 1.8 TB,比全球最高带宽的网络快 35 倍,这让我们可以将所有这些 GPU ISS 连接到一起。

这个机架中有九个 NVLink 交换机,每个机架有 72 台计算机,它们通过网络连接。

NVLink 是通过 50 英镑的铜线直接驱动的,借助这个出色的 Cdes,我们称之为 NVLink。它们连接到计算机,就像这样连接到 NVLink。这个交换机将所有这些计算机连接成一个整体。

所以最终,72 台计算机连接在一起,形成一个超级 GPU,一个巨大的 GPU。从软件角度来看,它就是一颗巨型芯片。这些机架,这个机架的成本为 3000 英镑。它不可能搬到这个舞台上展示。

如果可以的话,我会给你们展示它,3000 英镑,120 千瓦功率。这相当于很多很多台 Nintendo Switch 的功率。它不便携,但它极其强大。这就是 Blackwall 系统。

我们设计它可以配置成一个超级节点,或者构建成一个庞大的数据中心,里面有成千上万台,理想情况下有数十万台。这些机器通过交换机连接,其中一些交换机是能够无缝集成到你现有的以太网环境中,我们可以使用这些系统来构建 AI 超级计算机。

我们可以将它们集成到企业数据中心、超大规模数据中心,或为边缘计算配置。Blackwell 系统不仅强大无比,而且具有极强的适应性,可以轻松融入全球各地计算基础设施的每一个角落。因此,这就是 Blackwell,超越了 Blackwell。

这就是计算机,但最重要的是,没有在其上运行的所有软件,这台计算机根本无法发挥作用。

当你看到这些计算机配有液体冷却系统和复杂的电线时,你会感到震撼。如何才能编程控制如此强大的计算机呢?这正是英伟达软件堆栈的意义所在。我们的所有努力,包括在 CUDA、Megatron 核心等方面的工作。

我们多年开发的所有软件,像 TensorRT、Triton,所有这些软件的集成,使得全球任何地方的人都能够部署 AI 超级计算机。

然后,当然,AI 软件层进一步简化了 AI 构建过程。那么,AI 到底是什么呢?我们从许多不同的角度讨论 AI,但我认为有两种类型的 AI 会变得特别流行,另外,两个思维模型对我来说也非常有帮助。

第一个 AI 基本上是数字 AI 工作者。这些 AI 工作者具备理解、规划和执行的能力。

有时,数字 AI 工作者被要求执行市场营销活动、客户支持、制定供应链计划、优化芯片设计、协助编程,甚至可以在药物发现行业中担任研究助理或实验室助理。

或许,这些 Agent 人可以作为 CEO 的私人导师,也可以成为我们员工的辅导员。这些 AI,这些数字 AI 工作者,我们称之为 AI Agent 人,实际上它们就像是数字化员工。

就像数字员工一样,你必须对它们进行培训。你需要通过创建数据来迎接它们加入公司,教它们关于公司的知识。

根据你希望它们承担的具体职能,你会为它们提供相应的技能培训,培训完成后,还需要评估它们,确保它们学到了应学的内容。你还需要设立保护机制,确保它们只完成指定的任务,而不是不该做的事情。

当然,你还需要运营这些 AI Agent,部署它们,向它们提供来自 Blackwell 的能量和 AI token,它们将与其他 Agent 进行互动,协同工作,解决问题。你将看到各种不同的 Agent。为了让生态系统更容易为企业构建 AI Agent,我们开发了几种工具。

英伟达并不从事服务业务,也不创造或交付最终产品,也不提供完整的解决方案。我们所做的是提供技术支持,帮助生态系统创建、交付并不断改进 AI。我们的 AI Agent 生命周期平台叫做 Nemo。

Nemo 提供了我之前提到的每个阶段所需的库,从数据整理到训练、微调、合成数据生成、评估再到保护措施。所有这些库都已集成到全球各地的工作流和框架中。

我们与 AI 初创公司以及像埃森哲(Accenture)和德勤(Deloitte)这样的服务提供商合作,推动这项技术走向全球的大型企业。

我们还与像 ServiceNow 这样的 ISV 合作,帮助他们创建使用 ServiceNow 的 AI Agent。

今天,你可以通过许可 ServiceNow 平台来使用它,并且你的员工与 ServiceNow 平台互动获取帮助。未来,ServiceNow 还将提供大量 AI Agent,基本上就是你可以租用的数字员工,帮助你解决问题。

我们正与全球的 SAP、Cadence、Ansyr、Snowflake 等公司合作,目的是共同构建能够帮助提升企业生产力的 AI Agent。

现在,这些 Agent 能够理解、推理、规划并采取行动,而这些 Agent 实际上是一个由多个 AI 模型组成的系统,并非单一模型。Nemo 帮助我们构建这些 Agent。

同时,我们还创建了预训练的 AI 模型,并将它们打包成所谓的 Nim(Nemo 推理),这是一种微服务。

所以这些 Nim 就像微服务一样,它们基本上是打包的 AI。过去,软件是以盒装形式包装的,配有光盘,而今天的 AI 则以微服务的形式打包,软件本身是智能的。

你可以与这些软件进行对话,因为它能够理解你说的内容。而且,你还可以将这些软件与其他软件连接起来。

你可以把这个 AI 与其他 AI 连接在一起,组合成一个 AI Agent,这就是第一点。让我举一个例子,说明这些 AI Agent 的应用。

AI 正在改变各行各业,利用复杂的推理和迭代规划解决跨学科的复杂问题。

AI Agent 能够加速市场营销活动上线,提供即时洞察;帮助优化供应链,节省数亿成本;还可以通过帮助分析师快速识别漏洞,将软件安全处理流程从几天缩短到几秒。

AI 之所以如此强大,是因为它能将数据转化为知识,再将知识转化为行动。

举个例子,这个数字 Agen t 能够通过从一系列信息密集的研究论文中提取洞察来教育个人,这些研究论文是通过英伟达 AI 蓝图构建的。英伟达 AI 蓝图是一种参考工作流程,包含英伟达加速库、SDK 以及 Nim 微服务,帮助用户快速构建和部署 AI 应用程序。

多模态 PDF 数据提取蓝图帮助构建数据摄取管道,而数字人类蓝图则提供了流畅的类人互动。

AI Agent 系统包括三个部分。Nemo、Nims 和 Blueprints。

这些资源都可以公开获取,你可以根据需要使用并构建属于自己的 AI Agent 团队。没有哪个 Agent 能够完成某个人的 100% 工作,没有任何 Agent 能做到这一点。

然而,所有 Agent 将能够完成你工作中的 50%,这就是巨大的成就。

与其认为 AI 会替代一部分员工的工作,不如看作 AI 为所有员工完成了其中的 50%。这种思维方式下,你会发现 AI 将帮助提升公司整体的生产力,进而提升你的个人生产力。

人们经常问我,AI 会不会取代我的工作?我总是回答,AI 本身不会取代你的工作,只有当别人使用 AI 时,才会取代你的工作。所以,确保尽早开始使用 AI。第一个应用是数字 AI Agent,这些就是数字 Agent。

第二个应用是物理 AI,基本技术是一样的,这些技术现在已经体现在机械系统中。机器人技术毫无疑问将成为全球最重要的行业之一。

直到现在,机器人技术还受到很多限制。而这个限制的原因非常明确。事实上,在日本,全球 50% 的制造机器人都是在这里生产的。

川崎、Fanuc、安川、三菱是全球机器人技术的四大领先企业,生产了全球一半以上的机器人。

尽管机器人在提高制造业生产力方面发挥了重要作用,但机器人产业在很长一段时间内增长缓慢。其原因在于机器人技术过于局限,缺乏灵活性,无法适应不同的场景、条件和工作需求。

我们需要一种更加灵活的 AI,能够自我适应并进行自主学习。

你会注意到,直到现在我们描述的技术——Agent 型 AI——无论是谁,都应该能够与这些 Agent 进行互动,并得到回应。

当然,有时这些回应可能不如我们自己产生的回应,但事实上,许多情况下它们的回应甚至比我们更好。

因此,我们可以将这种通用 AI 技术应用到具身 AI 或物理 AI 领域,也就是我们通常所说的机器人技术。为了实现机器人技术,我们需要构建三台计算机。

第一台计算机用于训练 AI,就像我们之前提到的所有示例一样;第二台计算机用于模拟 AI,你需要为 AI 提供一个练习环境,让它能够学习和从合成数据中汲取知识。我们称之为 Omniverse。

Omniverse 是我们为物理 AI 和机器人技术创建的虚拟世界数字双胞胎物理 AI 库。在训练、验证和评估之后,你可以将经过训练的模型移植到物理机器人中。

在这一过程中,我们有专为机器人设计的处理器,名为 Jetson Thor。

Thor 是一个为类人机器人设计的机器人处理器。这一过程将不断循环。就像 Nemo AI Agent 生命周期平台一样,Omniverse 平台也可以帮助你创建 AI。最终,你所期望的 AI,将在屏幕左侧看到一个世界,它能识别视频、周围的环境以及你的需求,并生成相应的动作。

就像我们可以处理文本并生成视频一样,我们也可以处理文本并生成药物化学成分。我们可以处理文本并生成肢体动作。这个概念与生成式 AI 非常相似,这也是我们认为现在我们已经具备了必要的技术基础——从 Omniverse 到我们构建的所有计算机系统,再到最新的生成式 AI 技术——时机已经成熟,人工智能和机器人技术的结合已经成为现实。

那么,为什么类人机器人这么难做呢?显然,作为人类我们自身就非常复杂,为类人机器人开发软件更是异常困难。

然而,回报是巨大的。现在,世界上只有两种类型的计算机可以轻松部署到全球各地。第一种是类似汽车的机器人系统,这主要是因为我们已经为汽车打造了适应的世界。

第二种是类人机器人。这两种机器人系统可以在全球任何地方部署,因为我们已经为我们自己创造了这个世界。虽然这两种技术都异常复杂,但时机已经成熟,其影响力也将是巨大的。

就在上周的机器人学习大会上,我们宣布了一个非常重要的新框架,叫做 Isaac Lab。

Isaac Lab 是一个强化学习虚拟仿真系统,能够教会类人机器人如何成为类人机器人。我们在此基础上开发了多个工作流程。第一个工作流程叫做 Groot Mimic。Groot Mimic 是一个框架,允许通过人类示范教导机器人如何完成任务。

通过使用领域随机化技术,我们可以生成大量类似示范的其他实例,帮助机器人学会如何概括。如果没有这个过程,它只能完成非常特定的任务。通过 Mimic,我们能够让机器人学习到更为广泛的技能。

第二个流程是 Groot Gen Groen,利用生成式 AI 技术,在 Omniverse 平台上,我们可以创造出大量随机化领域的环境实例,并设计出希望机器人执行的各种动作。

所以我们正在开发一系列测试、评估系统和评估场景,让机器人可以进行尝试并自我提升,学习如何成为更优秀的机器人。

第三项是群体控制。群体控制是一个模型蒸馏框架,允许我们将所有学到的任务和技能浓缩为一个统一的模型,使机器人能够执行运动学技能。

我刚才讲到的这一点,还有一个更重要的:机器人不仅会变得自主,未来的工厂也将实现机器人化。这些工厂将是机器人驱动的,负责协调机器人,构建机械系统,这些系统本身也是机器人。

真是一个不可思议的时代。

所以我们有两种机器人系统,一种是数字化的,我们称之为 AI Agent。你可以在办公室中使用这些 Agent,与员工合作。第二种是物理 AI 系统,即机器人技术。这些物理 AI 系统将成为公司构建的产品。

因此,公司将使用 AI 来提升员工的生产力,而我们将利用 AI 来驱动和增强我们销售的产品。未来的汽车公司将有两座工厂:一座生产汽车,另一座生产车载 AI。这就是机器人革命的开始。

全球范围内都在进行大量的活动,我无法想象哪个国家比日本更适合引领机器人 AI 革命。

原因很简单,正如你们所知道的,你们喜爱机器人,且创造了世界上最优秀的机器人。这些机器人陪伴了我们成长,成了我们一生钟爱的存在。其实我还有很多最喜欢的机器人没展示出来,比如魔神 Z、钢弹等,实在是太多了,但我可别忘了提到那个失控的机器人,抱歉。

所以,我希望日本能够借助最新的人工智能突破,将其与你们在机电一体化领域的顶尖专业知识相结合。

世界上没有哪个国家在机电一体化方面比日本更具优势。抓住这个非凡的机会,对你们来说至关重要。希望我们能够共同努力,推动这一梦想的实现。英伟达 AI 在日本取得了巨大的成功,我们有很多合作伙伴。我们有一些合作伙伴正在构建大型语言模型,如东京科技研究院、乐天等。

AI 在许多不同的领域都有广泛应用,尤其是在药物发现行业,AI 的应用方式非常多样。

因此,我对这里的进展感到非常兴奋,我们希望能够加速发展,抓住 AI 革命的机会。

这个行业正在发生变革。正如我之前所说,计算机行业已经从基于 CPU 的编码时代,转变为如今基于 GPU 运行的机器学习时代,人工智能行业正从一个单纯的软件制造行业,变成一个专注于制造人工智能的行业。

人工智能是在工厂中生产的,这些工厂全天候 24 小时运作。当你购买软件并将其安装到计算机时,软件的制造和分发已经完成。

然而,智能是永远不完结的,你不断与所有 AI 系统互动,无论是 AI Agent 还是 AI 机器人,智能以 token 为表现形式,而 token 是智能的单位,它是一个数字。

这些数字被以不同的方式组织在一起,从而形成了智能——例如,语言中的智能、方向盘中的智能、自驾车中的智能、控制人形机器人的马达中的智能、药物发现中的智能等等。

所有这些 token 都在这些工厂中生产。这些基础设施和工厂之前从未存在过,它们代表了全新的产业,这也是我们为何看到全球范围内首次出现如此多的技术进展。

我们正在迎来一个新行业——一个全新工厂的诞生,我们称之为人工智能制造。

这些工厂将由各家公司建设,每家公司都将成为 AI 制造商。显然,任何公司都无法承受不生产人工智能的后果。任何公司又怎么能承受没有智能的未来?任何国家又如何能够承受没有智能的未来?

你不必生产芯片,也不必生产软件,但你必须生产智能。智能至关重要,它是你的身份的核心,也是我们的身份的核心。

所以我们有了新的行业——AI 工厂。这就是我所说的新工业革命。

上一次这种变革发生是在 300 年前,当时电力被发现并开始普及,电力的生产和分配,以及新型工厂的诞生。那个新工厂不是发电厂,而是能源行业的一部分,发生在工业革命的背景下。而现在,我们迎来了一个全新的行业,这是前所未有的。

人工智能不仅是计算机行业的产物,它还被各行各业应用和创造。

你们必须创造自己的 AI。制药行业要创造自己的 AI,汽车行业要创造自己的 AI,机器人行业也要创造自己的 AI。每个行业、每个公司、每个国家都必须拥有属于自己的 AI,这就是一场新的工业革命。

我今天有一个重要的宣布:我们将与软银合作,在日本建设 AI 基础设施。我们将共同建设日本最大的 AI 工厂——英伟达 AI 工厂。

这个工厂将基于英伟达 DGX 平台,计划在明年年初建成。

当工厂完成时,它将拥有 25 个 Exaflops 的计算能力。请记住,最近世界上最大的超级计算机才刚刚达到 1 Exaflop,而这个工厂将有 25 Exaflops 的能力,专门为生产 AI 而设。

但为了分发 AI,软银将集成英伟达 ISS Aerial,这是我之前提到的 5G 无线电引擎,它基于 CUDA 架构。通过这种方式,我们可以统一整合无线电、计算机、基带和来自 5G 网络的 AI 计算能力。

现在我们可以发展并重新构建电信网络,将其转变为 AI RAN(无线接入网络)。它不仅能传输语音、数据、视频,还能传输 AI——一种全新的信息智能。

这个网络将通过软银的 20 万个站点,服务于 5500 万用户。AI 工厂将制造 AI,AI 分发网络将分发 AI。

我们还将基于这一基础设施建立一个新的商店——AI 商店,软银和第三方创建的 AI 产品将通过这个平台提供给 5500 万用户。我们将在英伟达 AI 企业平台的基础上构建这些应用程序,并推出一个新的商店,让所有人都能享用 AI。

这将是一次巨大的发展,最终将形成一个遍布日本的 AI 网络。这个 AI 网络将成为基础设施的一部分。

而且,最重要的基础设施之一,记住,你需要工厂和道路作为基础设施的一部分,才能制造和分发商品。你还需要能源和通讯,作为基础设施的一部分。

每当你为基础设施做出根本性创新时,就会诞生新的产业、新公司、新经济机会和新的繁荣。如果没有道路和工厂,我们如何能够经历工业革命?没有能源和通讯,我们如何能迎来信息技术革命?

每一项新的基础设施都为我们带来了新的机会。所以,对于我来说,与软银合作,在日本实现这一目标,真的非常令人兴奋。这是一次彻底的革命。这是第一次把电信网络转变为人工智能网络。

好了,让我给你展示你能做到的事情。比如这个例子。

我现在站在一个基站下方,站在一个无线电塔旁,车上有视频,而这些视频正通过基站进行流媒体传输。这个基站装有 AI。这个无线电塔配备了视频智能,它能看到汽车所看到的一切,并理解汽车所看到的内容。

这个 AI 模型可能太大,不能安装在汽车上,但它绝对可以放在基站里。通过基站接收的视频,它能理解汽车和周围环境发生的任何事情。

好的,这只是一个使用边缘 AI 保证安全的例子。或者说,它基本上是自驾车的空中交通管制,应用范围是无限的。我们还可以用这种基本思路,将整个工厂转变为 AI。

看,这是一家工厂。现在,我究竟在哪里?好的,我迷路了,这里有许多摄像头,视频被流传到基站。令人惊讶的是,凭借这些摄像头和 AI 模型,这家工厂现在已变成了一个 AI。

你可以与工厂对话,询问工厂发生了什么。问工厂:今天是否发生了任何事故?有没有异常情况?今天是否有人受伤?所有这些信息会以日报的形式提供给你,你只需要询问工厂,因为现在工厂已经变成了 AI。

这个 AI 模型不必在工厂内部运行,它也可以在软银的无线电系统中运行。好吧,这是另一个例子。实际上,你可以将几乎所有的物理对象转变为 AI——体育场、道路、工厂、仓库、办公室、大楼。

它们都可以成为 AI。你只需要像和 ChatGPT 对话一样与它们沟通。那么,仓库过道的情况如何?是否有任何障碍物或溢出物?你只是与工厂对话。

工厂已经观察并理解了所有情况,它可以进行推理并规划行动,或者只是和你对话。它可能会回答:「不,仓库过道没有障碍物、溢出物或危险。视频中的过道状况看起来井然有序、清洁且没有任何障碍或危险。」。

好的,现在你们是在与工厂对话,这太不可思议了。你们是在与仓库对话,你们是在与汽车对话,因为这些现在都已经变得智能了。

懊悔错失英伟达,黄仁勋与孙正义相同的痛

黄仁勋:嗯,今天也还有一位非常特别的嘉宾,也谈谈如何将人工智能带到日本。这个朋友,你们可能认识他。伟大的 Masa(孙正义,Son Masayoshi),来告诉大家一些事儿。

我不知道你们是否知道这件事,我在科技行业已经很多年了。计算机行业从 PC 到互联网,再到云计算,接着是移动互联网,云计算最后到人工智能。

Masa 是唯一一个在每一代都能够选对赢家并与之合作的企业家,唯一的创新者。

记住,正是 Masa 把 Bill Gates 带到了日本,是 Masa 把 Jerry Yang 带到了日本,正是 Masa 让中国的云计算产业得以诞生,是 Masa 帮助阿里巴巴起飞,还是 Masa 把 Steve Jobs 和 iPhone 带到了日本。

你们中很多人可能不知道,曾经 Masa 是英伟达的最大股东。哦,没关系。

你是怎么做到的?你是如何挑选出计算机历史上每一项技术革命的创新者?

孙正义:嗯,我觉得我只是运气好。我生在了对的时代,遇到了像你这样的伟大企业家。

这是一种激情,一种梦想,也是一种本能,你能嗅到谁是真正的开拓者,谁是真正的创新者。我真的觉得我很幸运。但这也是一样的愿景,我们能嗅到彼此,对吧?

就像狼嗅到彼此的气味。我觉得我们像狼一样能闻到彼此。

黄仁勋:我有两只小狗。我现在不喜欢这个比喻。回顾历史,正如你所说,这次的过渡、平台的变革和革命,和以前的革命有什么不同?你觉得有什么区别吗?

孙正义:嗯,我认为这是最令人兴奋、最具活力的未来前沿。这比之前的一切要大 100 倍、千倍。这是最大的浪潮,我告诉你。

黄仁勋:是的,我认为从数学上或从产业角度来看,必须认识到,虽然 AI 是软件,但它是一种非常不同类型的软件。你和我共同创造的那个软件产业,是工具产业,是为人类使用的工具。

而这种新的软件类型,神经网络、大型语言模型、智能 Agent 和机器人,它们不是工具,它们是技能,它们是任务。它们能做事,能执行工作,而「工作产业」的市场,不是 1 万亿美元,而是 100 万亿美元。

黄仁勋:这就是我们意识到,这个行业实际上不仅仅是 IT 行业的转型,它是每个行业的转型,这也是为什么它如此重要。

孙正义:是的,人类是唯一拥有超级大脑的动物,相比其他物种。正是因为大脑的强大,人类才如此强大。如果仅仅从肌肉来看,像狮子和大象,它们的肌肉更强壮,但人类拥有最聪明的大脑。

今天全球 GDP 的所有活动都基于人类的大脑活动。我认为每个行业都会被这场革命所影响。

黄仁勋:你说得对,当然其中一件令人惊讶的事是,受原子支配的行业,它的规模是有限的。因为原子数量有限,你能移动的原子也有限,而且它们很重。

但人工智能行业是由电子构成的,没错,它受量子力学的支配,规模是无限的。

孙正义:对,智能的价值远远高于单纯的物质运动。想一想那种思维的链条、推理过程,真是不可思议,太神奇了。

黄仁勋:是的,今天我们宣布的其中一项重要内容就是一起建设日本的 AI 网格。

这个 AI 网格将包括 AI 工厂,用于开发 AI 模型,还会有 AI 网络,能够将这些 AI 模型分发到日本各地。我们共同设计的 AI 工厂架构和 AI 网络是革命性的,世界上没有类似的模式。

日本将成为全球第一个实现这一目标的国家。

孙正义:是的,其他的电信公司必须跟随这股新潮流。

黄仁勋:接下来我有几个问题想问你。首先,软银如何将这个系统应用于自己和你的子公司?你如何看待这个 AI 网络会如何彻底改变日本的 AI 产业?

孙正义:正如你刚刚提到的,我们的基站过去只是用于承载电信和互联网等数据传输。然而,现在,通过这个智能网络的支持,我们将彼此紧密连接,成为日本智能基础设施的一部分。这将是非常惊人的。

黄仁勋:当然,你也可以将它应用于你的子公司,像我提到的雅虎日本和 PayPay,没错。所以,你可以创建 AI 系统,使你们所有的服务变得更加有趣和实用,提升消费者体验。

但我最兴奋的一点是,能将这个资源开放,供研究人员、学生和初创公司使用,让他们在日本得到成长。

孙正义:确实如此,得益于你们的支持,我们正在创建日本最大的 AI 数据中心,我和宫川正在商讨,我们应该将这个平台开放给许多研究人员、学生和初创公司,以鼓励他们发展。

我们也在努力补贴,帮助他们更好地访问这些计算资源。

黄仁勋:建设基础设施需要大量资本投入。是的,你正在对日本进行一次重大的投资。你知道,我们以前讨论过很多次,在很多方面,日本曾在机电一体化时代引领了技术革新,那时候机械技术和电子技术开始结合。

事实上,即便是在那个时代,日本在消费电子领域也确实引领了全球。然而,当 IT 行业和软件开始崛起时,我认为过去三十年,西方和中国的软件行业蓬勃发展,而日本本可以更加积极一些。

孙正义:那时候,甚至直到今天,很多大企业和媒体都认为自己是「成年人」,他们曾说过「做物理产品」,意思是做实体的东西才有真正的价值和意义,而软件只是虚拟的,难以信任的东西。

这样对软件价值的看法在日本已经存在了很多年,这也导致年轻创业者特别是经历了互联网泡沫破裂后,感到沮丧与压抑,批评的声音让年轻人受到了很大的打击。

我认为,我们必须通过机器人技术来重新燃起这份激情,正如你所说的,将人工智能融入机器人技术。

日本有「铁臂阿童木」这样的卡通形象,而我最喜欢的就是特斯拉的机器人。你不能只有肌肉,机器人必须拥有智能,才能说话、拥有情感,成为朋友。

我认为,这种前沿技术的推动,以及我们的挑战,现在在日本非常需要。

黄仁勋:是的,我认为软件时代现在已经到来。好消息是,这标志着新时代的开始。

孙正义:是的,重置一次,再次重置,按下重置按钮。

黄仁勋:没错,行业正在重置。你可以看到,整个技术栈正在被重构,因为上一代的公司在这个新时代里并不顺利。没错,所以涌现了一个全新的技术栈,带来了前所未有的机会。

日本必须把握这个机会,利用这段时间。而人工智能与软件完全不同。人工智能要求你拥有数据和领域专长。是的,如果你是艺术家,你就拥有领域专长。如果你开发视频游戏,你也具备领域专长。

黄仁勋:如果你从事药物研究,发明新药,你也拥有领域专长。如果你拥有领域专长,你可以用数据来描述这些专长,这些数据可以用来训练 AI 模型,而这个 AI 模型就变成了你的人工智能。

孙正义:完全正确。所以,这是一个全新的机会。幸运的是,日本至少没有压制这场 AI 革命。其他一些国家试图过度保护他们的技术,因此他们的监管体系变得有些混乱。

而在日本,至少我们很幸运,政府似乎并没有对这场革命设障碍。虽然如此,我认为政府应该更加鼓励 AI 发展,鼓励更多的创新。正如你所说,这就是行业重置的时刻,这是迎接新革命的最佳时机。

孙正义:我们绝对不能错过这个时刻,不能错过这个机会。

黄仁勋:当然,要成为人工智能革命的一部分,你需要基础设施和这种类型的软件,因为它是机器学习。你将需要大量的资源。谢谢,谢谢。而且你需要基础设施。

没有基础设施,就不可能完全实现人工智能。这就是为什么软银正在日本建设 AI 网络的原因。是的,你将催化、激活并加速这里已经存在的所有活动。

孙正义:我们通过我们的示范来展示。

黄仁勋:是的,希望今天我们在日本已经与 350 家初创企业合作。是的,350 家初创企业,而全球有 22000 家。是的,这个比例并不合理。所以我们必须鼓励年轻企业家和创新者大胆尝试,投入到 AI 领域。基础设施已经到位。

孙正义:正如我和 Miya Kawa 讨论的那样,我们将创建日本最大的 AI 数据中心。所以我们将提供很多鼓励性项目,补贴计算能力,让他们几乎可以免费使用,几乎免费去尝试新的模型,测试他们的应用程序。

AI 的应用也应该得到一些捐赠的支持,对吧?

黄仁勋:好吧,最后,这是我最后一次邀请 Masa,每次见到 Masa,我就得花钱。

孙正义:这对大家都有好处。

黄仁勋:是的,非常高兴听到这些。Masa,你最期待日本未来 AI 的哪些方面?你有什么期望?你的梦想是什么?

孙正义:嗯,正如你说的,我对 AI 和机器人技术非常热衷。

我认为,AI 医疗解决方案,尤其是医疗 AGI,肯定会到来。我也看到现在有很多新的 AI Agent 出现,比如我们有 LINE,有 Yahoo,还有其他服务,PayPal 也可以为帮助日本的生活方式定制许多专门的 AI Agent。

这些完全可以由我们提供。你知道的,我们了解日本的文化、行为、当地的智能和 API,日本的许多网站都在使用这些技术。所以我认为,企业 AI Agent,我非常支持你提到的这个方向,对此我感到非常兴奋。

但我也认为,个人 AI Agent 会真正出现在每个人的生活中。比尔·盖茨曾经说过,「每个桌面上都有一台 PC」,史蒂夫·乔布斯说过,「每个人的手上都有一部智能手机」。

我觉得现在我们应该说,「每个人都应该有自己的 AI Agent」。所以,未来每个人都会拥有自己的个人 AI 助手。没错,它将帮助我们规划旅行、假期,甚至是教育。

黄仁勋:它将伴随你一生。是的,你能想象有一个 AI Agent 了解你的一生吗?

孙正义:完全对,我们的孙子、孙女们从一岁开始就会和 iPhone 一起成长。每当他们看到一张照片时,他们都会用手指去触摸,哪怕是静态图片也一样。因为他们从小就学会了用两根手指。

将来他们会想,或许每张图片都可以被放大?

黄仁勋:他们看到图片后,会和它说话,对吧?他们戳一戳,希望它能回应。

孙正义:你可以想象,他们从一岁起就有了自己的个人 AI 助手,像第二个朋友一样,陪伴他们一起成长,了解一切。当他们生病时,AI 助手知道,家里有什么,或者它是他们的私人导师。

黄仁勋:是的,从小就开始,完全没错。它记得你读过的一切,记得它教给你的一切,完全像你的个人亚里士多德。

孙正义:完全是,完全是数字孪生。我觉得它真的是要来了,结合日本本土的知识、文化等等,再加上本土化的 Agent 商业化,我们的未来将是巨大的、惊人的。

黄仁勋:是的,你知道,大多数国家现在都意识到,国家的公民数据其实承载了这个国家的知识、文化和智慧,而这些数据应该属于国家,就像国家的安全一样。

所以每个国家都应该处理自己的数据,转化为为本国人民服务的人工智能,完全没有理由将这些外包给别人。

孙正义:这是非常非常重要的。每个主权国家、每个政府都必须把国家安全数据迁移到自己的数据中心 AI 数据中心,这将成为每个国家必须具备的东西。每个国家都必须确保自己的数据安全。

我认为,未来每个国家都会形成相关的法律法规,确保每个国家都能生成属于自己的智慧。

黄仁勋:当然,每个公司也将创造属于自己的智慧、属于自己的人工智能。是的,怎么可能有公司不创建自己的人工智能呢?

孙正义:是的,公司把自己的「大脑」交给别人。

黄仁勋:没错,没错。所以我认为世界已经开始觉醒了。而最重要的第一步,就是必须要有一个国家级的 AI 网络。没有基础设施,你怎么可能有汽车工业呢?

孙正义:完全是,完全是,你知道的。

黄仁勋:所以,你已经为日本建设了 AI 的「道路」,在这些道路上,各种新的服务和新公司将蓬勃发展。我真的非常非常激动。好吧,Masa,你能想象如果今天你是英伟达最大股东的话?

孙正义:哈哈,没错。我们曾经有过三次成为英伟达最大股东的机会。

黄仁勋:我记得是两次。

孙正义:不,不,不,第一次我们通过市场购买成为股东,我们讨论过的,嗯,甚至谈到了我们不愿提的事情。别说了。十年前,如果我知道现在会后悔,我一定会……

黄仁勋:没事。让我告诉你们 Masa 说了什么。Masa 说,Jensen,市场不理解英伟达的价值。你的未来是不可思议的,但市场无法理解它。

那是十年前的事了,你的痛苦之路还将继续,因为你在创造未来。所以让我给你钱去买英伟达。他曾想借钱给我去买英伟达。

现在我后悔没接受那个提议。真是个好主意。好吧,最棒的主意。

黄仁勋:对的,这个就是我们刚才说过的那个主意,那是我收购之后的一个月。是的,接着我们讨论了合并这两家公司。是的,另一个,另一个秘密的梦想。

孙正义:那个是我们最初的想法。第一次我们讨论的是私有化,然后第二次我只是通过市场购买,第三次就是……哦,好吧,三次尝试。

黄仁勋:但现在我们将共同创造不可思议的价值。是的,英伟达和软银将会合作。市场太不可思议了。

孙正义:哈哈哈哈哈哈,很不错。

黄仁勋:所以我非常高兴,我们正在做一件如此有意义的事情。是的,我对日本的未来充满希望。

孙正义:嗯,这只是个开始,我们将一起做很多事情。谢谢你,行业非常庞大,有大量的移动、物联网和汽车领域,而你们有出色的数据中心、游戏以及其他领域,我们可以有很多合作机会。

黄仁勋:我很期待这一切。是的,女士们,先生们,阳光明媚。孙正义,嗯,我毫无疑问地认为他是世界上最伟大的企业家之一。

感谢 Masa 先生。你们可以看到他对人工智能的热情,我们正在开展的合作伙伴关系将为日本带来 AI 网络,从工厂到分布式 AI 网络。在我离开之前,我想欢迎大家参加 AI 峰会。这里有很多精彩的会议,也有很多合作伙伴。

我们的目标,我们的使命是与大家合作,将 AI 带到日本,在这里激活 AI,并利用这次技术重置的机会,推动企业转型,打造下一个伟大的公司。

日本对我来说一直特别亲近。大多数人可能不知道,如果没有日本,我非常严肃地说,如果没有日本,英伟达今天可能不会在这里。而且有原因的。

如果没有日本,我们也看不到第一台 AI 超级计算机的诞生。所以,日本对我来说一直非常重要。我非常感激我们的合作伙伴关系,也非常感激你们的友谊。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


国产 AI 视频神器大更新,支持 4K、60 帧,视频生成有声时代来了 | 附体验链接

By: 莫崇宇
8 November 2024 at 17:11

今年的 AI 视频生成领域呈现出一种如火如荼的架势。

从最初卷生成时长到卷画面质量,再到最近卷起 AI 特效,行业厂商们开卷的方式千奇百怪,但目标都是共通的,那就是铆足了劲地吸纳新用户,留住旧用户。

然而,尽管市面上许多视频模型号称一键生成视频,但如「默剧」般的成品多少形如鸡肋。尤其是我们对 AI 视频的刺激阈值被一再拔高,音效的缺失就像被捶打的钉子,在用户的心里越扎越深。

当然,厂商们不是不想彻底解决这颗钉子,只是恰好在等待一个厚积薄发的时机。

三个月前,作为国内首个面向公众开放的视频生成产品,智谱清影上线清言 App,只需一段指令或图片,30 秒就能生成 AI 视频。

三个月后的今天,智谱清影再次迎来了一大波重磅升级。

10s 时长、4k、60 帧超高清画质,任意尺寸、更好的任务动作和物理世界模型……除了开卷这些基本功,更重要的是,智谱清影也即将在本月上线生成与画面匹配的音效了。

附上新清影具体升级亮点:

  • 图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力明显增强;
  • 更强的人物面部表演细节、动作连贯性和物理特性模拟,提高了视频的自然度和逼真度;
  • 支持生成 10s、4K、60 帧超高清视频,支持任意比例的图像生成视频;
  • 同一指令/图片可以一次性生成 4 个视频,与画面匹配的音效功能将很快在本月上线公测;

并且,当人们还在为 AI 开源/闭源争论不休时时,智谱却是国内少有一贯支持开源的企业,而在今天,智谱也正式发布并开源最新版本的视频模型 CogVideoX v1.5。

此次开源包括两个模型:CogVideoX v1.5-5B、CogVideoX v1.5-5B-I2V,后续,CogVideoX v1.5 也将同步上线到清影,并与新推出的 CogSound 音效模型结合。

代码:https://github.com/thudm/cogvideo
模型:https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

官方宣布,新清影即日起在智谱清言 App 上线。话不多说,直接附上体验地址:https://chatglm.cn/video?lang=zh

4K 60 帧,新清影已经 next level 了

和蔼的老人面带微笑,面部肌肉细节清晰可见,没有明显的像素化或模糊现象。

火焰老虎的形象也令人印象深刻,不仅步态拟真,眼神之中还透露出一种野性的美感,身上的火焰颜色也呈现出丰富的色彩层次和深度。

车辆急速飞驰,场景转换没有卡顿或延迟,即使是快速移动的对象也能保持连贯性,而在速度感和紧张气氛的营造上也有一手。

喵星人在线化身大厨,熟稔地翻炒今天的菜品。

不被演示 demo 的花言巧语所迷惑,上手才是检验实际效果的唯一标准。

我们也用图生视频功能上手跑了一个放飞孔明灯的视频。孔明灯被释放,缓缓升入夜空,镜头从下往上跟随,天空也被染上了深邃的蓝色。

又或者,我们「复活」了静止的小黄花,微风拂来,小黄花在草地上轻轻摇曳。

不过「新清影」还是需要一定程度的抽卡,这也是目前国内外 AI 视频模型在稳定性上普遍存在的问题,在日常使用这类产品时,还需要多些耐心。

在我们的测试中,最让我们惊喜的其实是清影的音效生成功能。

对于视频来说,音效和画面总是相辅相成的,基于此,我们也用几段去掉音频的「哑剧」视频,并让 AI 为它们生成相应的音效,建议打开音量键食用。

例如《海上钢琴师》最经典的斗琴环节,你更喜欢这个还是原版呢?

美丽的烟花表演,它们在夜空中绽放的瞬间,搭配上 AI 音效,有没有打动你?

雨滴的声音各异,有的清脆,有的低沉,有的急促,有的悠长。

核爆炸的场景很大,搭配声音却几乎没有延迟,在模拟真实爆炸声,环境噪音以及余波等方面表现出色。

别急,仔细听,还有阿凡达水下探险。

如果 CogVideoX 与 CogSound 强强联合,即由清影技术负责生成画面,而音效模型负责配音,最后生成的视频内容也更加生动、真实,甚至能够触动人心。

从无声到有声,AI 视频进入有声电影时代

1900 年,第一部有声电影在巴黎放映,直到十年后,这种能够将声音与影像同步的技术才逐渐成熟,达到了商业化的标准。

有声电影的问世,不仅仅终结了电影自诞生之初的沉默状态,更重要的是,它将电影从单一的纯视觉艺术转变为视听结合的全新艺术形式。

影片上的演员开口说话,而观众席上也响起对有声电影的欢呼声。

两者心声交响,心音共鸣。

如今,历史的轮回再次上演,从年初的「哑剧」到如今的 AI 音效,如果说前者还是局限于 0-1,那么 AI 音效的加入,则标志着 1-N 史诗级跨越。

基于 GLM-4V 的视频理解能力,智谱家族的新成员——音效模型 CogSound 能够准确识别并理解视频背后的语义和情感,并在此基础上生成与之匹配的音频内容。

例如,爆炸、水流、乐器、动物叫声以及交通工具声等。

在影像叙事中,声音的到来是一个关键拐点,它不仅使叙事从依赖文字构建的视频中突围,而且在观念和方法上都带来了更广阔的想象空间。

然而,影视行业对 AI 的引入无疑是充满争议的。

上个月,好莱坞演员的罢工风波尚未平息,而导演卡梅隆则在出席峰会时表示,AI 将会重新定义电影故事讲述,帮助编剧导演探索新的故事线,以及叙述手法。

放诸到视频产业界,音效模型也有着广泛的应用场景,比如可以生成电影中的大规模战斗场景和灾难场景的声音,大大缩短制作周期,降低制作成本。

只是,AI 时代下的视听艺术究竟应该会是什么样?

历史上的技术大爆发给我们提供了一些思路。如果说工业革命的机械化、流水线作业等方式,让标准化的大规模生产成为可能,那么随着 AI 的到来,通过学习大量的数据和模式,能够模仿人类的决策过程、并且根据每个用户的具体需求和偏好定制个性化服务。

简言之,通过降低使用门槛,AI 让每个普通人都能手捏自己喜欢的个性化视频。

法国新浪潮的代表人物让-吕克·戈达尔,也曾探讨过电影技术变革对电影语言和艺术性的影响:

「电影不是仅仅在拍摄时使用声音和影像,而是在观众心中构建某种语言。无声电影通过视觉创造了更多的可能,而有声电影则改变了这种创作方式。」

而追溯至今年 2 月份,人们关于 AI 视频的展望是由 OpenAI 发布的 Sora 率先拉开,但很遗憾,直到此时此刻,该产品却仿佛陷入「如来」的状况,至今未见踪影。

也正是在这个期间,我们很高兴能够看到国内厂商甚至在这一赛道交出了不错的成绩单。

不过,这或许还只是开胃小菜,智谱认为真正的智能一定是多模态的,听觉、视觉、触觉等共同参与了人脑认知能力的形成。

构建包括文字、图像和视觉等模态在内的智谱多模态大模型矩阵,能够进一步提高大模型的应用和工具能力,也是在迈向 AI 的终极目标——AGI。

至此可以说,我们真正迈入了 AI 有声电影时代。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌