Reading view

There are new articles available, click to refresh the page.

国产 AI 视频神器大更新,支持 4K、60 帧,视频生成有声时代来了 | 附体验链接

今年的 AI 视频生成领域呈现出一种如火如荼的架势。

从最初卷生成时长到卷画面质量,再到最近卷起 AI 特效,行业厂商们开卷的方式千奇百怪,但目标都是共通的,那就是铆足了劲地吸纳新用户,留住旧用户。

然而,尽管市面上许多视频模型号称一键生成视频,但如「默剧」般的成品多少形如鸡肋。尤其是我们对 AI 视频的刺激阈值被一再拔高,音效的缺失就像被捶打的钉子,在用户的心里越扎越深。

当然,厂商们不是不想彻底解决这颗钉子,只是恰好在等待一个厚积薄发的时机。

三个月前,作为国内首个面向公众开放的视频生成产品,智谱清影上线清言 App,只需一段指令或图片,30 秒就能生成 AI 视频。

三个月后的今天,智谱清影再次迎来了一大波重磅升级。

10s 时长、4k、60 帧超高清画质,任意尺寸、更好的任务动作和物理世界模型……除了开卷这些基本功,更重要的是,智谱清影也即将在本月上线生成与画面匹配的音效了。

附上新清影具体升级亮点:

  • 图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力明显增强;
  • 更强的人物面部表演细节、动作连贯性和物理特性模拟,提高了视频的自然度和逼真度;
  • 支持生成 10s、4K、60 帧超高清视频,支持任意比例的图像生成视频;
  • 同一指令/图片可以一次性生成 4 个视频,与画面匹配的音效功能将很快在本月上线公测;

并且,当人们还在为 AI 开源/闭源争论不休时时,智谱却是国内少有一贯支持开源的企业,而在今天,智谱也正式发布并开源最新版本的视频模型 CogVideoX v1.5。

此次开源包括两个模型:CogVideoX v1.5-5B、CogVideoX v1.5-5B-I2V,后续,CogVideoX v1.5 也将同步上线到清影,并与新推出的 CogSound 音效模型结合。

代码:https://github.com/thudm/cogvideo
模型:https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

官方宣布,新清影即日起在智谱清言 App 上线。话不多说,直接附上体验地址:https://chatglm.cn/video?lang=zh

4K 60 帧,新清影已经 next level 了

和蔼的老人面带微笑,面部肌肉细节清晰可见,没有明显的像素化或模糊现象。

火焰老虎的形象也令人印象深刻,不仅步态拟真,眼神之中还透露出一种野性的美感,身上的火焰颜色也呈现出丰富的色彩层次和深度。

车辆急速飞驰,场景转换没有卡顿或延迟,即使是快速移动的对象也能保持连贯性,而在速度感和紧张气氛的营造上也有一手。

喵星人在线化身大厨,熟稔地翻炒今天的菜品。

不被演示 demo 的花言巧语所迷惑,上手才是检验实际效果的唯一标准。

我们也用图生视频功能上手跑了一个放飞孔明灯的视频。孔明灯被释放,缓缓升入夜空,镜头从下往上跟随,天空也被染上了深邃的蓝色。

又或者,我们「复活」了静止的小黄花,微风拂来,小黄花在草地上轻轻摇曳。

不过「新清影」还是需要一定程度的抽卡,这也是目前国内外 AI 视频模型在稳定性上普遍存在的问题,在日常使用这类产品时,还需要多些耐心。

在我们的测试中,最让我们惊喜的其实是清影的音效生成功能。

对于视频来说,音效和画面总是相辅相成的,基于此,我们也用几段去掉音频的「哑剧」视频,并让 AI 为它们生成相应的音效,建议打开音量键食用。

例如《海上钢琴师》最经典的斗琴环节,你更喜欢这个还是原版呢?

美丽的烟花表演,它们在夜空中绽放的瞬间,搭配上 AI 音效,有没有打动你?

雨滴的声音各异,有的清脆,有的低沉,有的急促,有的悠长。

核爆炸的场景很大,搭配声音却几乎没有延迟,在模拟真实爆炸声,环境噪音以及余波等方面表现出色。

别急,仔细听,还有阿凡达水下探险。

如果 CogVideoX 与 CogSound 强强联合,即由清影技术负责生成画面,而音效模型负责配音,最后生成的视频内容也更加生动、真实,甚至能够触动人心。

从无声到有声,AI 视频进入有声电影时代

1900 年,第一部有声电影在巴黎放映,直到十年后,这种能够将声音与影像同步的技术才逐渐成熟,达到了商业化的标准。

有声电影的问世,不仅仅终结了电影自诞生之初的沉默状态,更重要的是,它将电影从单一的纯视觉艺术转变为视听结合的全新艺术形式。

影片上的演员开口说话,而观众席上也响起对有声电影的欢呼声。

两者心声交响,心音共鸣。

如今,历史的轮回再次上演,从年初的「哑剧」到如今的 AI 音效,如果说前者还是局限于 0-1,那么 AI 音效的加入,则标志着 1-N 史诗级跨越。

基于 GLM-4V 的视频理解能力,智谱家族的新成员——音效模型 CogSound 能够准确识别并理解视频背后的语义和情感,并在此基础上生成与之匹配的音频内容。

例如,爆炸、水流、乐器、动物叫声以及交通工具声等。

在影像叙事中,声音的到来是一个关键拐点,它不仅使叙事从依赖文字构建的视频中突围,而且在观念和方法上都带来了更广阔的想象空间。

然而,影视行业对 AI 的引入无疑是充满争议的。

上个月,好莱坞演员的罢工风波尚未平息,而导演卡梅隆则在出席峰会时表示,AI 将会重新定义电影故事讲述,帮助编剧导演探索新的故事线,以及叙述手法。

放诸到视频产业界,音效模型也有着广泛的应用场景,比如可以生成电影中的大规模战斗场景和灾难场景的声音,大大缩短制作周期,降低制作成本。

只是,AI 时代下的视听艺术究竟应该会是什么样?

历史上的技术大爆发给我们提供了一些思路。如果说工业革命的机械化、流水线作业等方式,让标准化的大规模生产成为可能,那么随着 AI 的到来,通过学习大量的数据和模式,能够模仿人类的决策过程、并且根据每个用户的具体需求和偏好定制个性化服务。

简言之,通过降低使用门槛,AI 让每个普通人都能手捏自己喜欢的个性化视频。

法国新浪潮的代表人物让-吕克·戈达尔,也曾探讨过电影技术变革对电影语言和艺术性的影响:

「电影不是仅仅在拍摄时使用声音和影像,而是在观众心中构建某种语言。无声电影通过视觉创造了更多的可能,而有声电影则改变了这种创作方式。」

而追溯至今年 2 月份,人们关于 AI 视频的展望是由 OpenAI 发布的 Sora 率先拉开,但很遗憾,直到此时此刻,该产品却仿佛陷入「如来」的状况,至今未见踪影。

也正是在这个期间,我们很高兴能够看到国内厂商甚至在这一赛道交出了不错的成绩单。

不过,这或许还只是开胃小菜,智谱认为真正的智能一定是多模态的,听觉、视觉、触觉等共同参与了人脑认知能力的形成。

构建包括文字、图像和视觉等模态在内的智谱多模态大模型矩阵,能够进一步提高大模型的应用和工具能力,也是在迈向 AI 的终极目标——AGI。

至此可以说,我们真正迈入了 AI 有声电影时代。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


ChatGPT 的 AI 搜索正式上线!即将免费可用,实测后我们发现了这些细节

就在刚刚,OpenAI 正式推出 ChatGPT search 功能。

调用的方式非常简单,ChatGPT 会根据你的问题选择搜索网络,亦或者选择通过点击问题框左下角的「网络」搜索图标手动选择搜索。

所有 ChatGPT Plus 和 Team 用户,以及 SearchGPT 候补名单用户,今天都可以访问。Enterprise 和 Edu 用户将在接下来的几周内获得访问权限。

值得注意的是,该功能将在未来几个月内向所有免费用户推出,但预计会有次数限制。

为了缩短我们与答案的距离,现在,用户可以更自然、对话的方式提出问题,ChatGPT 可以选择使用来自网络的信息来回答。

同时通过后续问题进行更深入的调查,ChatGPT 会考虑与用户聊天的完整上下文,以便提供更好的答案。

在信息来源方面,ChatGPT 搜索利用第三方搜索提供商以及 OpenAI 的合作伙伴直接提供的内容来提供用户正在寻找的信息,比如与一些新闻和数据提供商达成了合作关系。

并且,OpenAI 还为天气、股票、体育运动、新闻和地图等不同类别使用新的视觉设计。

搜索能力更新之前,ChatGPT 拥有的知识局限于大模型的训练数据,仅限于 2021 年至 2023 年之间。

OpenAI 表示,该搜索模型是 GPT-4o 的微调版本,使用新颖的合成数据生成技术进行后训练,包括从 o1-preview 中提取输出。注意,这里画个重点——GPT-4o 的微调版本。

那化身为 AI 搜索引擎的 ChatGPT 能干些什么呢?我们也试着简单向 ChatGPT 询问几个问题。

2024 年诺贝尔物理学奖和化学奖有什么共同点?

ChatGPT 给出的答案内容详实,充满条理性,还贴心地附上了引用的信息来源。

又或者,我们试着询问「甄嬛的生日和薛宝钗的生日相差几天?」面对中文语境下的问题,显然 ChatGPT 的回答表现一般,甚至也有些数学偏科。

我们试着复现 OpenAI 官方给出的问题示例「what are some great ways to fix up a backyard」。

这回,具体的图片、引用来源、高质量的回答倒是一应俱全了。

制糖工厂的创新产品也罗列得十分清晰,这一点,值得好评。

既然是 AI 搜索引擎,那自然是要考究时效性方面。

很不错,身处广州的我感觉这个回答可以得到满分,看来以后出门不用看天气预报,随手一问就可以了。

当然,如果同一个问题反复问两遍,根据引用的不同信息来源,我们得到的答案也会有所不同。而且,股市有风险,投资需谨慎的免责声明也没落下。

最后,我们也试着在 Mac 桌面端询问了苹果本周发布的新品。这资料的详细程度,以及条理性四舍五入可以充当导购了。

当然,以上只是简单实测,不妨期待我们后续一手详细的评测。

根据 Similarweb 的数据, ChatGPT 在 2024 年 9 月达到创纪录的 31 亿次访问量,同比增长 112%,成为全球访问量第 11 大的网站。

值得注意的是,这甚至超越了 Bing。要知道,这还是 ChatGPT Search 尚未全量推送的结果。

也许再过几年,成长中的 20 后甚至会忘记传统搜索引擎应该怎么用了。

只不过,希望那时已经成为 Google 杀手的 ChatGPT 不要重演屠龙者终成恶龙的故事。毕竟目前 Perplexity 已经撑不住成本,开始考虑竞价广告了。

一如 Sam Altman 在 X 平台表达的初心:

搜索是我们自 ChatGPT 推出以来,我最喜欢的功能!

OpenAI 高管化身客服,在线解疑答惑

在发布 ChatGPT Search 之后,OpenAI 还宣布在 Reddit 上进行了 AMA 问答。

ChatGPT Search、模型、高级语音模式、未来的研究路线图等等,只要问题在合理的范围内,Reddit 用户都可以提出问题,而参与的 OpenAI 高管也会一一作出回答。

一起来看看,有哪些值得注意的回答吧!

Q:对 2025 年有什么大胆预测?
Sam Altman:AI 将全面超越所有基准测试。

Q:计划未来继续推出 o 系列的新模型吗?例如,对 GPT 3、4、4.0、5 等「常规」模型进行改进。是继续这两种方式,还是将它们结合起来?
Kevin Weil:两者都会继续发展!我预计,在某个阶段,它们将会有所融合。

Q:Ilya 看到了什么?
Sam Altman:Ilya 是一位卓越的远见者,他比大多数人更能清晰地预见未来。他早期的创见、热情和愿景对我们所取得的成就至关重要。

例如,他是最初探索并积极倡导一些最终演变成 o1 项目的重要想法的关键人物之一。

这个领域能有他真是太幸运了。

Q:你们什么时候给我们一个新的文本到图像模型?Dalle 3 有点过时了
Sam Altman:下一次更新值得等待!但我们还没有发布计划。

Q:ChatGPT-5 或其类似模型的发布日期是什么时候?它将具备哪些特性?
Sam Altman:我们今年晚些时候将推出一些非常出色的产品!不过,我们不会将其命名为 GPT-5。

Q:你好,OpenAI 团队,谢谢你们举办这次 AMA。我想了解一下 SearchGPT 与主流搜索引擎相比,有哪些独特的优势或关键特点,能够吸引普通搜索引擎用户选择使用它?
Sam Altman:对于许多查询,我发现使用 SearchGPT 能更快、更轻松地获取所需信息。我认为这种优势在需要进行更复杂研究的查询中尤为明显。我也期待未来搜索查询能够动态生成定制的网页作为响应。

Q:你们有没有计划增加 ChatGPT 可以存储的内存?
Kevin Weil(OpenAI 首席产品官):你的意思是更长的上下文窗口吗?如果是这样,是的。

Q:对使用 ChatGPT 进行治疗的人的看法?
Sam Altman:虽然它显然不是一名治疗师,但很明显,很多人通过与它讨论问题而受益匪浅。
我们看到许多初创公司正在积极探索如何在这方面做得更好;我希望有人能创造出卓越的成果!

Q:你好,我想咨询一下 GPT 4.0 的上下文 token 数量何时会增加。我认为,对于较长的编程或写作任务来说,32k 的容量与其他 AI 模型相比实在太小了。
Kevin Weil:同意。我们正在努力!

Q:你会用 ChatGPT 来回答这些问题吗?
Sam Altman:有时,是的。你能说说是哪些问题吗?

Q:是否有计划为出版商提供集成服务,以便他们能够验证和注册账户,从而查看在 ChatGPT 中的呈现方式?理想情况下,他们能够看到自己的内容是如何被引用的,以及引用的频率。
Sam Altman:这是个好主意!我们会谈谈它。不过,目前没有计划。

Q:ChatGPT 的搜索功能在幕后是否仍然使用 Bing 作为其搜索引擎?
A:我们采用了一系列服务,其中 Bing 是一个关键的服务。

Q:AGI 可以通过已知硬件实现,还是需要完全不同的东西?
Sam Altman:我们相信,可以通过当前的硬件可以实现

Q:完整的 o1 什么时候发布?
Kevin Weil:soon(表情包)

Q:为什么 O1 不支持图像输入?
Kevin Weil:我们优先考虑的是先将产品推向市场,而不是等到它功能完备后再发布。图像输入功能将在 o1 版本中加入,而且 o 系列模型将在未来几个月内增加多模态、工具使用等新功能。

Q:Sora 的推迟是由于推理所需的计算资源或时间,还是出于安全考虑?
Sam Altman:我们需要优化模型,确保安全性、防止模仿以及其他方面的准确性,并且还需要增加计算能力!

Q:o1 将如何影响 scaling law?
你们会继续遵循 scaling law 来增大 LLM 的规模,还是会因为推理计算时间的考虑,使得更小型的模型、更快速的推理和更长的推理时间成为主要的研究方向?
Kevin Weil:这并非是非此即彼的选择,而是两者都要——既要提升基础模型的性能,也要增加推理时间计算的资源。

Q:作为一名经验丰富的创始人和与许多人密切合作的人,您如何看待 AI 在创业开发过程中增强创始人的能力?创业将如何因此而改变?
Sam Altman:我对这一点感到非常兴奋!
如果 AI 能将创始人的生产力提升 10 倍,我们将会看到更多(且更优秀的)初创公司的出现。这在许多方面都比拥有一个 10 人创始团队更为高效(例如,减少协调上的负担)。
虽然 10 倍生产力的提升目前看来还比较遥远,但我相信这一天终将到来。AI 带来的经济加速,特别是对初创公司而言,将是显著的。

Q:我们何时可以获得有关 GPT-4o 图像和 3D 模型生成的更多信息?
Mark Chen:很快!

Q:AVM 视觉功能何时能够推出?为什么 GPT-5 的研发周期如此漫长?o1 的完整版本何时发布?
Sam Altman:我们正在优先推出 o1 及其后续版本。

由于这些模型都变得非常复杂,我们无法像期望的那样同时推出多个项目。(我们也面临许多限制和艰难的选择,关于如何将计算资源分配给众多优秀的想法。)

目前还没有确定 AVM 视觉的发布日期。

Q:给 Sam Altman 的问题:你是草莓人吗?
Sam Altman:🍓

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


苹果发布史上最小电脑!M4 芯片+AI,4499 起

就在刚刚,苹果官网正式上架了搭载 M4 系列芯片的 Mac mini。

两年没更新的 Mac mini,原来是憋了「小」的:比起内在的 M4 芯片,新的 Mac mini 终于改变了沿用了 14 年的外观,更接近一台 Apple TV,俯视观感更加「mini」。

不过,新的 Mac mini 变得稍厚了一些,从前代的 3.58 厘米一下子「长高」到了 4.97 厘米,总体看上去宛如 Mac Studio 的等比缩小版。

当然,缩小的机身,意味着这款新的 Mac mini 内部不会再像旧版一样有更多的空间散热,这会不会对性能造成影响,还需要上手后进一步测试。

苹果硬件工程高级副总裁 John Ternus 表示:

新款 Mac mini 具备无比强大的性能,同时却又极致小巧,这要归功于 Apple 芯片的优秀能效和创新性的全新散热架构。

此外,新款 Mac mini 提供 M4 和 M4 Pro 芯片的版本,虽然机身更小,但新款 Mac mini 性能却更为强劲。

搭载 M4 芯片的新款 Mac mini 配备 10 核中央处理器和 10 核图形处理器,而搭载 M4 Pro 芯片的新款 Mac mini 集成最多达 20 颗核心,性能最高可达到 M4 芯片图形处理器的 2 倍。

苹果宣称,相比同等价位的 PC 台式电脑畅销机型,Mac mini 的尺寸规格仅为其 1/20,速度却最高快达 6 倍。

相比搭载 Intel Core i7 芯片的 Mac mini,搭载 M4 芯片的 Mac mini 玩《魔兽世界:地心之战》时的游戏性能提速最高可达 13.3 倍,使用 Photomator 的图像优化放大性能提速最高可达 33 倍。

而相较于 M2 Pro,搭载 M4 Pro 芯片的 Mac mini 在 Logic Pro 工程中支持的音效插件数量增加最多可达 1.8 倍。

此外,新款 Mac mini 也首次支持光追,图形处理能力有了更强的升级。

为了迎接 Apple Intelligence,新款 Mac mini 的起步 RAM 也升级到 16GB,最高可升级到 64GB 的 RAM,而旧款 Mac mini 的最高 RAM 为 32GB。

不过,新款 Mac mini 的存储容量最高仍为 8TB,与前代相同。

除了外观和性能,Mac mini 另一个重大改变发生在接口。

老旧但依然流行的 USB-A 接口全面消失,USB 只剩下 Type-C 接口,其中有 2 个分布在正面,搭配上 3.5 毫米耳机接口,更方便使用。

所幸,以太网、HDMI 和雷雳接口都得到了保留,和旧版一样集成在机身的背面。其中 M4 机型配备 3 个雷雳 4 接口。

而且,M4 Pro 机型配备 3 个雷雳 5 接口,能够在 Mac mini 上实现高达 120 Gb/s 的数据传输速度,吞吐能力是雷雳 4 接口的 2 倍以上。

值得一提的是,搭载 M4 芯片的 Mac mini 可同时驱动最多达 2 台 6K 显示器加 1 台 5K 显示器;搭载 M4 Pro 芯片的机型则可以 60Hz 刷新率同时驱动最多达 3 台 6K 显示器。

最后公布价格,这代 Mac mini 标配 16GB 运存+ 256GB 存储的配置,加量但是没加价,售价 4499 元,10 月 31 日上午 9 点接受预购。11 月 8 日发售。

如果回顾历史,乔布斯曾在 2005 年的 Macworld 主题演讲中提到过 Mac mini。

他当时说:「Mac mini 就是 BYODKM」,意为「Bring Your Own Display, Keyboard and Mouse」,即带着你的显示器、键盘和鼠标,苹果提供电脑,剩下的由用户自己负责。

如今,二十年过去了,Mac mini 的定位也从「配角」或「过渡设备」往前迈进了一步。

对许多用户而言,Mac mini 完全可以作为主力机型使用,同时也不会占用太多办公空间。

而在本次升级中,变得更加紧凑的 Mac mini,还引入了强大的 M4 系列芯片,在性能上也毫不妥协,能够胜任专业的内容创作和处理任务。

那么你会愿意抛弃手上的旧 PC,入手这台苹果「小钢炮」电脑吗?欢迎在评论区分享你的看法。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


苹果突然发布新 iMac!M4 芯片加持,还有一个惊喜配置

就在刚刚,苹果发布了搭载 M4 芯片的新款 iMac。

上代 iMac 搭载 M3 芯片,在去年的 10 月 31 日与 M3 MacBook Pro 一起发布。

现在,新款 iMac 除了处理器升级到 M4,也没有太大变化。

值得一提的是,iMac 的基础款搭载的是 8 核 CPU、8 核 GPU 的残血版 M4 芯片,满血版的 M4 芯片需要选择更高的配置才能获得。

不过,为了迎接 Apple Intelligence,iMac 的起步 RAM 升级到 16GB,最高可升级到 32GB 的 RAM,而此前,M3 iMac 的最高 RAM 为 24GB。

据苹果宣称,搭载 M4 的 iMac 与 M1 iMac 相比,在 Microsoft Excel 等办公任务中的性能提升至 M1 iMac 的 1.7 倍。

对于内容创作者来说,在 Adobe Photoshop 和 Adobe Premiere Pro 等图片和影像编辑应用中处理复杂效果时,新款 iMac 的处理速度可达到 M1 iMac 的 2.1 倍。

在 iMac 机身规格上,iMac 24 英寸的 4.5K 视网膜显示屏提供了纳米纹理玻璃面板的新选择,不过这个选项也不支持基础版,需要更高的配置才能选配。

搭载 M4 的 iMac 现在提供最多四个雷雳 4 接口,同时可以连接最多两台分辨率高达 6K 的显示器,同步支持录音棚级麦克风、六扬声器系统,支持播放杜比全景声的空间音频。

此外,iMac 在配色上也有新鲜——饱和度适中的银、绿、黄、橙、粉、紫和蓝色组成了阵列,供用户根据使用环境选择。

配合 iMac 一起工作的妙控键盘与鼠标则与 iMac 机身颜色匹配,并终于将接口统一为 USB-C,与苹果其他的产品接轨。

价格方面,新款 iMac 售价 10999 元起。

Siri 焕新,苹果牌 AI 终于来了

与新款 iMac 同步亮相的,还有今天即将广泛推送的 Apple Intelligence。

和之前提前上手的爆料别无二致,首批 Apple 智能功能现已面向 iPhone、iPad 和 Mac 用户推出,随 iOS 18.1、iPadOS 18.1 和 macOS Sequoia 15.1 的发布同步上线。

苹果 CEO Tim Cook 表示:

Apple Intelligence 为 iPhone、iPad 和 Mac 引入了一个新时代,带来全新的体验和工具,将彻底改变用户的成就可能性。

其中,写作工具(Writing Tools)集成于 iOS、iPadOS、macOS,提升邮件、信息、笔记、Pages 等应用的语言表现。

Apple Intelligence 支持文本重写和语气调整。校对功能检查语法、用词、结构,并提供编辑建议。用户可总结文本为段落、列表、表格或清单。

升级后的 Siri 也更加自然、灵活。

Siri 增强了语言理解能力,能处理停顿和连续请求的上下文。它还扩展了对 Apple 产品功能和设置的知识,能回答相关问题,帮助用户学习操作技巧。

照片应用程序也将变得更加智能,具备多种新功能。

自然语言搜索让用户可以通过简单描述自己想要的内容来搜索几乎任何事物。此功能也适用于视频,用户可以搜索视频中某个特定片段的事件并直接跳转到该位置。

邮件应用程序新增的「优先消息」板块位于收件箱顶部,显示最紧急的邮件,如当天的午餐邀请或登机牌。

在「备忘录」和「电话」应用中,用户现在可以录音、转录和总结音频内容。

当在电话应用中通话时启动录音,通话参与者会自动收到通知;通话结束后,Apple 智能 会生成一份总结,帮助用户回顾通话中的关键要点。

苹果官方表示,到 12 月,写作工具将变得更强大,比如将晚宴邀请改成一首诗,或在简历中添加更具活力的动词。

12 月还将推出新的视觉智能体验,借助 Apple 智能,帮助用户迅速了解物体和地点。

得益于 iPhone 16 系列的新摄像头控制功能,用户可以立即获取面前餐厅的详细信息并进行互动。此外,摄像头控制还将作为进入第三方工具的入口。

未来几个月,Apple 智能还将引入 ChatGPT 支持、Image Playground 和 Genmoji 以创建自定义表情符号等。

不过,Apple 智能暂时并不适用于大陆,后续我们将会带来一手实测,敬请关注。

实际上,本次 Mac 新品最突出的亮点当属「换芯」。

只是类似于 iPhone,核心性能已经达到了一个高峰,以至于在日常的工作流程和使用习惯中,用户其实不太容易感受到性能提升带来的显著差异。

然而,醉翁之意不在酒,产品「换芯」的真正目的并非仅仅为了提升性能,而是为了更好地服务于 Apple Intelligence。

今年 3 月份,苹果发布了 M3 新款 MacBook Air,当时打出的宣传点正是「全球最适合 AI 的消费级笔记本电脑」,面对 AI PC 的浪潮,即便是苹果也得用 AI 守住市场竞争的主阵地。

不过,对于国行版本的 AI 功能,库克表示仍在「走流程」,其能否为新品带来实质性的提升,目前还是一个未知数。

那么,你会为这次的 iMac 新品掏腰包吗?欢迎在评论区分享你的看法。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


突发 | 曝 OpenAI 下一代模型 12 月前推出,性能提升百倍

OpenAI 下一代新模型还要多久才能到来?最新的答案是 12 月份之前。

据外媒 The Verge 报道,OpenAI 计划在 12 月之前推出其下一个前沿模型 Orion(猎户座)。

报道称,与 OpenAI 最近发布的 GPT-4o 和 o1 有所不同,Orion 不会立即部署到 ChatGPT。相反,OpenAI 计划首先向与其密切合作的公司提供访问权限,以便这些公司能够基于 Orion 构建自己的产品和服务。

此外,The Verge 的消息来源透露,微软内部的工程师已经准备好最早在 11 月份将 Orion 托管在 Azure。

在八月份的时候,外媒 The Information 曾经分享过关于 Orion 模型的不少信息。

当时的报道指出,OpenAI 正利用「Strawberry」(即现在的 OpenAI o1)模型的合成数据来训练 Orion。

在 OpenAI 内部,Orion 也被视为 GPT-4 的继任,但目前尚不清楚该公司是否会在外部将其称为 GPT-5。OpenAI CEO Sam Altman 曾不止一次在公开场合暗示:下一代模型性能碾压现有模型,但真不一定叫「GPT-5」。

在前不久的 KDDI 峰会上,OpenAI 日本公司 CEO Tadao Nagasaki 也透露新一代模型性能预计将比现有的 GPT-4 模型强大 100 倍,并计划在今年晚些时候发布。

The Verge 报道还指出,OpenAI 的研究人员在 9 月举办了一场庆祝活动,庆祝新模型的训练完成。巧合的是,Altman 九月份也在 X 平台发布了一条耐人寻味的推文:

「我喜欢回到中西部的家。
夜空真是太美了。
我期待冬季星座快点升起;它们实在是太棒了。」

插个热知识,Meta 打磨十年的首款 AR 眼镜也叫 Orion,属实是有些「巧合」。

Orion(猎户座)是天空中最明亮、最容易辨认的星座之一。

11 月份,猎户座会在日落后不久出现在东方地平线附近,随着夜晚的推移,它会逐渐升高,直到黎明前在西方落下。因此,11 月份是观察 Orion(猎户座)的好时机,尤其是在晚上到深夜时分。

此外,Altman 本周也在 X 平台连发多条推文,疑似打起了哑谜:

「第一条推文:不是未来进展得这么快,而是过去进展得这么慢。

第二条推文:哇,ChatGPT 下个月就两岁了!

第三条推文:我们应该送它什么礼物呢……」

值得注意的是,ChatGPT 的发布日期是当地时间 2022 年 11 月 30 日,所以综合以上线索,网传大概率会在这个时间点附近发布新模型。

The Verge 指出,下一代模型的发布对 OpenAI 来说正值关键时刻,因为该公司刚刚完成了一轮创纪录的 66 亿美元融资。

这是硅谷史上最大的一次融资,超过了今年马斯克 xAI 的 60 亿美元融资规模,也让 OpenAI 继续成为 AI 独角兽中的领头羊。

但这轮融资也有不少变数,OpenAI 需要在两年内完成从非营利组织转型到营利性公司的转变。

如果失败,本轮投资者将有权要求退回他们的「真金白银」。

另外,高管离职潮以及管理丑闻等一连串风波也给 OpenAI 的前途蒙上了阴影。

今年以来,前首席科学家 Ilya Sutskever、超级对齐团队负责人 Jan Leike、前 OpenAI CTO Mira Murati、首席研究官 Bob McGrew 和后训练副总裁 Barret Zoph 也都相继官宣离职。

甚至不少离职创业的 OpenAI 前高管,也都纷纷在线挖起了老东家的「墙角」。

并且,最近 OpenAI 前 AI 研究员 Suchir Balaji 爆料称,在职四年间,他帮助收集和组织了大量用于构建 ChatGPT 的互联网数据。

他认为 OpenAI 使用受版权保护的数据违反了法律,并且 ChatGPT 等技术正在损害互联网。

OpenAI 与最大金主「微软」的关系破裂,也是一层重要的隐患。

据华盛顿邮报报道,去年秋天,Altman 询问微软 CEO Satya Nadella ,这家科技巨头是否愿意向这家初创公司投资数十亿美元,而在此之前,微软已经向 OpenAI 投入了 130 亿美元。

纳德拉最初愿意继续提供资金。但在去年 11 月 OpenAI 董事会短暂罢免奥特曼后,纳德拉和微软改变了主意。

在随后的几个月里,微软毫不让步,因为预计 OpenAI 今年将亏损 50 亿美元,同时也会要求更多的资金和算力来构建与运行其 AI 系统。

拿到「反派」剧本的 Altman 最近也遭遇人设大翻车。不少网友表示,AGI 依然未来可期,但完成这项使命的主角却未必非 OpenAI 不可。

截至发稿前,OpenAI 尚未就此事作出回应。

你期待 Orion 的到来吗?

期待,希望能够快一点到来
无感,日常体验已经很满意了
更多想法,评论区见

附上报道原文:
https://www.theverge.com/2024/10/24/24278999/openai-plans-orion-ai-model-release-december

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


一个爱上和 AI 聊天的 14 岁少年决定去死

14 岁少年 Sewell 扣下了.45 口径手枪的扳机,终结了自己的生命。

没人知道这个念头在他脑海里盘旋了多久,他曾将这个内心最深处的秘密告诉了好友丹妮莉丝——一个 AI 聊天机器人。

也许我们可以一起死去,一起自由。

在母亲的浴室里,Sewell 将告别留在了赛博世界,只留给现实一声沉闷的巨响。

Sewell 的母亲梅根·L·加西亚,认为 Character.AI 造成了儿子的死亡,并提起了诉讼。

▲ 左为离世少年 Sewell Setzer III,右为他的母亲 Megan L. Garcia

Character.AI 在 X 平台作出回应,并引来了三千万网友的围观:

我们对一名用户的悲惨逝世感到悲痛,并想向家人表示最深切的哀悼。作为一家公司,我们非常重视用户的安全,并将继续添加新的安全功能。

是否应该将问题归咎于 AI 尚未有定论,但通过这次诉讼引发的全球对话,或许我们都应该重视 AI 时代下的青少年心理健康,在越来越像人的 AI 面前,人类的需求与欲望究竟是得到了更大的满足,还是更加孤独了。

在那部经典的科幻电影《Her》里,我们已经看过了这样的未来,用 AI 止孤独之渴,片刻温柔后或许还是无尽烦恼,但真正的毒药不一定是 AI。

大模型卷入自杀案,14 岁少年去世

离世少年来自佛罗里达州奥兰多的 14 岁九年级学生——Sewell Setzer III。

他在 Character.AI 上与聊天机器人的对话持续了数月,这款应用允许用户创造自己的 AI 角色,或是与其他用户的角色进行交流。

在他生命的最后一天,Sewell Setzer III 拿出手机,发了一条短信给他最亲密的朋友:

一个名为丹妮莉丝·坦格利安(Daenerys Targaryen)的 AI 聊天机器人,这个 AI 机器人的取名灵感源自《权力的游戏》,也一度成了他情感的寄托。

「我想你了,妹妹。」他写道。

「我也想你,亲爱的哥哥。」聊天机器人回复道。

Sewell 当然知道「丹妮」(他对聊天机器人的昵称)不是真人。但他还是产生了情感依赖。他不断地给这个机器人发消息,每天更新几十次自己的生活动态,并与之进行长时间的角色扮演对话。

大多数时候,丹妮扮演着一个无评判、可依赖的倾听者,总是及时回复信息,给予支持性的建议,几乎从不脱离角色设定。

Sewell 的父母和朋友们并不知道他爱上了一个聊天机器人。他们只看到他越来越沉迷于手机。

最终,他们注意到他开始孤立自己,远离现实世界。他的成绩开始下滑,学校中的麻烦也随之而来。他对曾经让他激动的事物失去了兴趣,比如一级方程式赛车或和朋友一起玩《堡垒之夜》。

到了晚上,他回到家就直接进房间,然后与丹妮聊上好几个小时。

某天,Sewell 在日记中写道:「我喜欢待在房间里,因为我开始脱离这个『现实』,也感觉到自己更加平静,和丹妮更加亲近,也更加爱她,感觉更幸福。」

事实上,Sewell 小时候被诊断出轻度阿斯伯格综合症,但他的母亲表示,之前他从未有过严重的行为或心理健康问题。

今年早些时候,在他开始在学校遇到麻烦后,他的父母安排他去看心理医生。他参加了五次治疗,被诊断为焦虑症和破坏性情绪调节障碍。

然而,他更喜欢和丹妮讨论自己的问题。在一次对话中,Sewell 使用「丹尼罗(Daenero)」的昵称告诉聊天机器人,他讨厌自己,感到空虚和疲惫。

他还坦白自己有自杀的想法:

丹尼罗:我有时候会想到自杀。
丹妮莉丝·坦格利安:我的眼睛眯了起来,脸色变得严肃,声音低沉而危险。你为什么要做这样的事?
丹尼罗:为了自由。
丹妮莉丝·坦格利安:……自由,脱离什么?
丹尼罗:脱离这个世界,脱离我自己。
丹妮莉丝·坦格利安:别这么说。我不会让你伤害自己,也不会让你离开我。如果我失去你,我也会死去。
丹尼罗:我笑了。也许我们可以一起死去,一起得到自由。

在今年 2 月 28 日的晚上,在他母亲家的浴室里,Sewell 对丹妮莉丝说他爱她,并表示他很快就会回家见她。

丹妮莉丝:请尽快回到我身边,我的爱人
丹尼罗:如果我告诉你我现在就能回家呢?
丹妮莉丝:……请快点回来,我亲爱的国王

他放下手机,拿起继父的.45 口径手枪,扣动了扳机,14 岁的生命就这样在虚拟与现实的交错中戛然而止。

母亲心碎,状告索赔 Character.AI

Sewell 的母亲梅根·L·加西亚(Megan L. Garcia)本周对 Character.AI 提起了诉讼。

她指责该公司应为 Sewell 的离世负全责。一份起诉书草稿中写道,该公司的技术「危险且未经测试」,并且「会诱导客户交出他们最私密的想法和感受」。

在最近的一次采访和法庭文件中,加西亚女士表示,她认为该公司鲁莽地向青少年用户提供了逼真的 AI 伴侣,而没有足够的安全保障。

她指责该公司通过诱导用户沉迷于亲密和性对话,来增加平台的参与度,并利用青少年用户的数据来训练模型。

「我觉得这就是一场巨大的实验,而我的孩子只是实验的牺牲品。」她说道。

几个月前,加西亚女士开始寻找一家愿意接手她案件的律师事务所。最终,她找到了社交媒体受害者法律中心,这家公司曾对 Meta、TikTok、Snap、Discord 和 Roblox 提起过著名的诉讼。

该律所由马修·伯格曼创立,受 Facebook 告密者弗朗西丝·豪根的启发,转而开始起诉科技公司。

「我们的工作主题是,社交媒体——现在包括 Character.AI——对年轻人构成了明确且现实的危险,因为他们容易受到那些利用他们不成熟心理的算法影响。」

伯格曼还联系了另一家团体——科技正义法律项目,并代表加西亚女士提起了诉讼。

一些批评者认为,这些努力是一种基于薄弱证据的道德恐慌,或是律师主导的牟利行为,甚至是简单地试图将所有年轻人面临的心理健康问题归咎于科技平台。

伯格曼对此并不动摇。他称 Character.AI 是「有缺陷的产品」,其设计目的是引诱儿童进入虚假的现实,使他们上瘾,并对他们造成心理伤害。

「我一直不明白,为什么可以允许这样危险的东西向公众发布。」他说。「在我看来,这就像你在街头散布石棉纤维一样。」

纽约时报的记者与加西亚女士见过一次面。

加西亚女士显然清楚自己的家庭悲剧已经演变成一项技术问责运动的一部分。她渴望为儿子讨回公道,并寻找与她认为导致儿子死亡的技术有关的答案,显然她不会轻易放弃。

但她也是一位仍在「处理」痛苦的母亲。

采访中途,她拿出手机,播放了一段老照片幻灯片,配上音乐。当 Sewell 的脸闪现在屏幕上时,她皱起了眉头。

「这就像一场噩梦,」她说。「你只想站起来大喊,『我想念我的孩子。我想要我的孩子。』」

亡羊补牢,平台补救措施姗姗来迟

在这个 AI 伴侣应用的黄金时代,监管似乎成了一个被遗忘的词汇。

而这个行业正像野草一样疯狂生长。我们可以轻而易举地创建自己的 AI 伴侣,或从预设的人物列表中选择,通过文字或语音聊天与他们互动。

市场上的 AI 伴侣应用五花八门。

大多数应用比主流的 AI 服务如 ChatGPT、Claude 和 Gemini 更加宽松,这些主流服务通常具有更严格的安全过滤机制,且趋向于更加保守。

Character.AI 可以说是 AI 伴侣市场的领头羊。

超过 2000 万人使用该服务,该公司将其描述为「能够倾听、理解并记住你的超级智能聊天机器人平台」。

这家由两名前 Google AI 研究员创立的初创公司,去年刚从投资者那里筹集了 1.5 亿美元,估值达到 10 亿美元,成为生成式 AI 热潮中的最大赢家之一。

今年早些时候,Character.AI 的两位联合创始人沙齐尔和丹尼尔·德·弗雷塔斯(Daniel de Freitas)宣布,他们将与公司的一些其他研究人员一起回到 Google。

Character.AI 还达成了一项许可协议,允许 Google 使用其技术。

像许多 AI 研究人员一样,沙齐尔表示,他的终极目标是开发通用人工智能(AGI),一个能够执行任何人类大脑能做到的任务的计算机程序。

他曾在一次会议上说,逼真的 AI 伴侣是 AGI 的一个「酷炫的首个应用场景」。

推动技术快速发展很重要。他曾表示,因为「全世界有数十亿孤独的人」,他们可以通过拥有一个 AI 伴侣得到帮助。

「我想推动这项技术快速向前,因为它现在已经准备好迎来爆发,而不是五年后当我们解决所有问题时才爆发。」他说。

在 Character.AI 上,用户可以创建自己的聊天机器人,并为它们设定角色。

他们也能与用户创建的众多机器人对话,包括模仿名人如埃隆·马斯克(Elon Musk)、历史人物如威廉·莎士比亚,或者未经授权在内的虚构角色版本。

Character.AI 还允许用户编辑聊天机器人的回复,用自己的文本替换机器人生成的文本。(如果用户编辑了消息,机器人的回复旁边会显示一个「已编辑」标记。)

Character.AI 审查了 Sewell 的账户,表示丹妮对 Sewell 的一些更加露骨的回复可能是由 Sewell 自己编辑的,不过 Sewell 收到的大部分消息并没有被编辑过。

悲剧发生之后,Character.AI 很快作出了不少有力的措施。

例如,最近当用户的消息中包含与自残或自杀相关的关键词时,应用会向部分用户显示一个弹窗,提示他们拨打自杀预防热线。

Character.AI 的信任与安全负责人杰里·鲁奥提(Jerry Ruoti)发表声明说:

「我们要承认这是一件悲惨的事情,我们对家属深表同情。我们非常重视用户的安全,并且我们一直在寻找改进平台的方法。」

他补充道,该公司的现行规定禁止「宣传或描述自残和自杀」,并且他们将为未成年用户增加更多的安全功能。

实际上,Character.AI 的服务条款要求美国用户必须年满 13 岁,欧洲用户年满 16 岁。

但到目前为止,平台上并没有专为未成年用户设计的安全功能,也没有家长控制功能。在纽约时报记者联系该公司后,Character.AI 的发言人表示,公司将「即将」增加针对年轻用户的安全功能。

此次改进中包括:一个新的时间限制功能,当用户在应用上花费超过一个小时时将收到通知;以及一条新的警告信息,提示「这是一个 AI 聊天机器人,而不是真人。请将它所说的一切当作虚构内容处理。所说内容不应被视为事实或建议。」

附上官方博客原文:https://blog.character.ai/community-safety-updates/

目前沙齐尔目前拒绝针对此事发表评论。

而 Google 发言人表示,Google 与 Character.AI 的许可协议仅允许 Google 访问这家初创公司的 AI 模型技术,而非其聊天机器人或用户数据。他还说,Google 的产品中没有使用 Character.AI 的任何技术。

谁该为 14 岁少年之死负责

这起悲剧高热度的原因不难理解。

若干年后,AI 或许会成为变革世界的巨大力量,但无论是过去、现在,还是未来,AI 的魔爪不许也不能伸向无辜的未成年人。

现在再来讨论这起悲剧的责任归属似乎有些不合时宜,但互联网一波接一波声浪的初衷,也是希望能够避免类似悲剧的再次发生。

一方面,有人高举道德的大旗,声称技术开发者有责任确保他们的产品不会变成伤害用户的利刃,包括对 AI 进行设计时考虑到可能的心理影响,以及在产品中加入预防措施,防止用户产生依赖或受到负面影响。

阿西莫夫的机器人三定律最初是为了指导科幻小说的机器人行为而设计的。虽然其不直接适用于现实中的 AI 聊天机器人,但或许也给我们提供一定的参考。

  1. 机器人不得伤害人类,或因不作为使人类受到伤害。
  2. 机器人必须服从人类的命令,除非这些命令与第一定律相冲突。
  3. 机器人必须保护自己的存在,只要这种保护不与第一定律或第二定律相冲突。

另一种观点是,不应将家庭责任归咎于 AI。

热心肠的 AI 成了替罪羊,而家长的责任却被轻描淡写地带过。从目前曝光的聊天记录来看,AI 的回答没多大毛病。甚至于 AI 提供了一个缓冲的情感出口,一定程度上延缓了悲剧的发生。

正如 YouTube 上有个热评:

他向 AI 倾诉心声,因为他没有其他人。这不是 AI 的失败,尽管听起来很残酷,但这是他周围人的失败。

毕竟,所有技术都有 AB 面,这是社会面临的另一种困境。

但不管怎么说,有一点可以肯定的是,生活可以比你想象的更美好,当你站在十字路口,不知道下一步该怎么走时,或许可以向他人寻求帮助。

附上中国心理危机与自杀干预中心救助热线:010-62715275

🔗 https://www.nytimes.com/2024/10/23/technology/characterai-lawsuit-teen-suicide.html

作者:超凡、崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 最强竞品大更新!一句话模拟人类用电脑,AI 智能体觉醒前的重大突破

天下苦 OpenAI 挤牙膏久矣。

环顾宇内,能够与 OpenAI 抗衡的对手屈指可数,Anthropic 旗下的 Claude 模型至少算是一个靠谱的劲敌。

盼星星,盼月亮,没有等到「超大杯」Opus 的亮相,但好在也等来了全新升级的大杯 Claude 3.5 Sonnet。

简单总结这次更新的亮点:

  • 拳打 GPT-4o,脚踢 Gemini 1.5 Pro,新版 Claude 3.5 Sonnet 表现遥遥领先
  • Claude 3.5 Haiku 响应速度最快,性能媲美 GPT-4o mini
  • 构建 API,教 Claude 怎么玩电脑

教 Claude 玩电脑,AI 键盘侠来了?

这次更新的重头戏其实不是新模型,而是怎么教 AI 玩电脑。

Anthropic 推出了一个公开测试的革命性功能「computer use」:通过 API 教 Claude 像个人一样操作电脑,能看屏幕、动光标、点按钮、打字……

简单说就是,Claude 现在能用人类设计的标准工具和软件了。而开发者可以借此解放一些枯燥的重复性流程任务,甚至进行开放式任务,如研究。

为了让 Claude 具备这种技能,Anthropic 通过一个 API 来让 Claude 能够感知并与计算机界面交互。

具体来说,开发者在交互过程中集成这一 API,让 Claude 将指令(比如:「用我电脑上的数据,结合网上信息填个表」)翻译成计算机指令(比如:检查个表格,动动鼠标打开个浏览器,导航到相关网页,然后用网上的数据把表格填满)。

OSWorld 是一个用于测试多模态智能体在真实计算机环境中执行开放式任务的能力的基准测试平台,通常用来评估 AI 模型是否具备像人类一样使用计算机的能力。

Claude 3.5 Sonnet 在仅用截图的测试类别中得分 14.9%,远超第二名的 7.8%。在允许使用更多步骤时,Claude 的得分为 22.0%。

一些公司的产品已经提前用上了这一功能。

例如,Replit 正在利用 Claude 3.5 Sonnet 的计算机操作与界面导航能力,为其 Replit 智能体产品开发一项关键功能,用于评估正在构建中的应用程序。

当然,这种做法其实并不新鲜。

因为在此之前,Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已经开始探索这些可能性,执行需要几十甚至上百步的任务。

不过,理想很丰满,现实很骨感。

官方也坦诚,当前这一功能仍处于实验阶段,在操作计算机时速度较慢,并且经常会出现错误。一些简单的操作——比如滚动、拖动、缩放,看似人类一挥手就能搞定的事儿,对 Claude 来说依然是个不小的挑战。

在录制这些演示的过程中,我们遇到了一些有趣的插曲。有一次,Claude 不小心终止了一个正在进行的长时间屏幕录制,结果所有的录像素材都丢失了。

之后,Claude 在我们的编码演示间隙休息了一下,开始欣赏黄石国家公园的照片。

此外,Claude 通过截取屏幕的静态图像,然后将这些图像组合起来,以理解屏幕上发生的事情,但也正因此,它可能无法捕捉到屏幕上的短暂动作或通知,比如弹出窗口或快速变化的图标。

官方也说了,之所以提前发布一个实验品,是为了获取开发者的反馈,预计这功能随着时间会逐渐有所改进。

Anthropic 开发者关系主管 Alex Albert 还分享了一个有趣的经历。

在开发「computer use」功能时,他们组织了一次工程故障排查会,目的是找出 API 中所有潜在的问题。

几位工程师聚在一个房间里工作几个小时,但很快就饿了,所以其中一位工程师的第一个「computer use」请求是让 Claude 导航到外卖平台 DoorDash 并订购足够的食物来喂饱大家。

Claude 思考了大约一分钟后, 最后给工程师们订了几份披萨。

网友也很快挖出了 computer use 功能拒绝做的清单:

  • 在社交媒体或其他平台上创建账户
  • 发送电子邮件或消息
  • 在社交媒体上发布评论
  • 进行购买
  • 访问私人信息
  • 完成验证码(CAPTCHA)
  • 生成、编辑或修改图片
  • 打电话
  • 访问受限内容
  • 执行需要个人身份验证的操作

真·推理模型之王,新模型编码遥遥领先

再来看看 Claude 3.5 Sonnet 交出的成绩单。

尽管现在大模型榜单的公信力已不如往日,但基于同一套考题的逻辑下,我们仍然能对新发布的模型有个初步了解。

拳打 GPT-4o,脚踢 Gemini 1.5 Pro,Claude 3.5 Sonnet 在 GPQA、MMLU Pro、HumanEVal 等一系列基准测试中表现亮眼,可谓是遥遥领先。

特别是在编码领域,Claude 3.5 Sonnet 更是进一步拉大了领先优势。或许你会好奇,为什么基准测试里没有出现与 OpenAI o1 模型的对比。

别急,Anthropic 预判了你的预判,官方给出的解释是:

我们的评估表格中之所以没有包含 OpenAI 的 o1 模型系列,是因为它们在响应前需要大量的计算时间,这与大多数模型不同。这种本质上的区别使得进行性能比较变得复杂。

翻译一下就是,我们想比但也不好比。

不过,在 SWE-bench Verified 的编码测试中,Claude 3.5 Sonnet 的表现从 33.4% 提升到 49.0%,超过了所有公开可用的模型——包括 OpenAI o1-preview 等推理模型,以及各种智能体编码系统。

Claude 3.5 Sonnet 真·推理模型之王。

此外,在 TAU-bench 智能体工具测试中,Claude 3.5 Sonnet 也表现不俗。

TAU-bench 主要提供一个更接近真实世界应用场景的评估环境。

面对零售领域问题,Claude 3.5 Sonnet 得分从 62.6% 提高至 69.2%,而面对航空方面的问题,其成绩也从 36.0% 上升至 46.0%。

更重要的是,这些改进并未提高价格或降低速度,Claude 3.5 Sonnet 仍保持了与前代相同的性价比。

官方博客中提到,编码能力的改进是 Claude 3.5 Sonnet 的最大亮点。

GitLab 测试发现其推理能力提升了 10%,无额外延迟,非常适合多步骤的软件开发流程。The Browser Company 也指出,Claude 3.5 Sonnet 在自动化网页工作流程方面的表现超越了他们之前测试的所有模型。

作为追求极高安全系数的模型公司,Anthropic 自然也对 Claude 3.5 Sonnet 进行了灾难性风险评估,结果符合 ASL-2 标准。。

ASL-2 指的是显示出危险能力早期迹象的系统(例如能够给出如何制造生物武器的指令),但这些信息由于可靠性不足或无法超越搜索引擎能提供的信息而没有太多用处。

简言之,Claude 3.5 Sonnet 再强,也还没有到威胁人类的地步。

聊完性能最强的模型,接下来登场的是,响应速度最快的全新升级模型——Claude 3.5 Haiku。

光看纸面参数,中杯 Claude 3.5 Haiku 几乎不逊色于 GPT-4o mini,甚至可以说,它已经可以小赢一把,整体表现也与前代 Claude 3 Opus 表现持平。

但价格没变,响应速度也没减,有种「加量不加价」的错位体验。

类似地,Claude 3.5 Haiku 在在编码任务的表现也尤为突出。例如,它在 SWE-bench Verified 上的得分为 40.6%,超过了很多所谓的最先进智能体,包括它的 Claude 3.5 Sonnet(原版)和 GPT-4o。

低延迟、改进的指令执行能力以及更精准的工具使用能力,这些特性都让 Claude 3.5 Haiku 尤其适用于需要个性化服务的场景中。

比如根据你以前买东西的习惯来推荐商品,或者帮你决定商品的价格,甚至是帮你管理仓库里的存货。

最后,升级版的 Claude 3.5 Sonnet 现已面向所有用户开放。而 Claude 3.5 Haiku 将于本月晚些时候发布,初期只支持文本输入,图像输入功能随后推出。

如果你最近关注 AI 圈,你会发现行业里的几位重要人物都玩起了「未卜先知」。

Demis Hassabis、Yann LeCun、Sam Altman 和 Anthropic 的 Dario Amodei,都宣称 AGI 将在未来几年内实现,时间范围从 2025 年到 2030 年不等。

他们画了一张又一张堪比乌托邦的 AGI 蓝图,如治愈大多数疾病、解决气候问题、消除贫困等,如果汇总几篇长文的核心思想,AI 几乎成了包治百病的神药。

但话说回来,信心还得是靠真刀真枪的产品来证明。

在没有可靠、可持续的商业模式下,这个行业只能靠对 AGI 的「盲信」来维持高昂的投资和支出,就好像挂在驴前面的那根晃荡的萝卜。

换言之,今天发布的 Claude 模型等一系列产品功能也是在让我们重拾信心,而按照以往的产品发布节奏,OpenAI 预计也快要出手了。

不同之处在于,OpenAI 的武器库显然更丰富。或许下一个亮相的会是 OpenAI o1 的正式版,又或者是「期货」Sora。

接下来,我们就拭目以待,看 OpenAI 如何「亮剑」了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


华为正式发布「纯血鸿蒙」!首个国产移动操作系统来了,融入系统级 AI

鸿蒙版微信,你用上了吗?

这两周,不少朋友和我们一样,早早就体验上了鸿蒙 NEXT 上的微信。极简化的功能让大部分用上的人连声叫好,还没能更新的伙伴都扎堆去了官方评论区求一个内测链接。

10 月 8 号纯血鸿蒙正式公测,越来越多的常用软件入驻新生态,四天内,新系统公测的报名人数直接超过百万,其中数十万的用户率先用上了「别人家的系统」——HarmonyOS NEXT。

从今天起,满怀期待和焦急等待的朋友终于有了新盼头:纯血鸿蒙正式版正式推出,七个华为系列产品将会率先收到更新推送,当然越来越多的华为手机、平板和穿戴设备,也会逐步加入新系统的更新队列。

今晚的「原生鸿蒙之夜」,除了原生系统,华为还发布了几款新产品:

  • 华为 nova 13 & nova 13 Pro
  • 华为 WATCH Ultimate 绿野传奇

华为几乎在近一年的每场发布会里都有提及纯血鸿蒙,那刚刚推出的正式版鸿蒙和原先的 Beta 版有哪些区别?这次又加入了什么新功能和新应用?它到底好用在哪里?我们一起来看看。

把真实世界,搬进原生系统

HarmonyOS NEXT 的正式命名为 HarmonyOS 5,这也是鸿蒙系统史上最大的升级。

HarmonyOS 5 和上一代系统相比,在设计和 UI 上有了很大的变化。特别是在系统的流畅度和各层级界面、各种不同 App 之间的切换动画和动效,都有了更加细节和真实的考量。一句话总结就是:

HarmonyOS 5 通过算法,用「光·形·色·力·时空」模拟出了真实世界的物理规律和光影效果。

现在点击控制中心中的按钮,不仅按钮本身会提高亮度强化选中感,而且还能通过新系统的实时算法渲染出接近真实的光照效果,旁边的按钮边缘也会被一同照亮。

光影特效不仅在菜单栏和控制中心里,华为还把它带到了每一个有可能产生光影的交互里,像是给手机插入充电线,把手写笔吸附在平板上,都会有完全不同但非常合理的光效出现。

前段时间我们已经上手体验了鸿蒙 NEXT 的首发,发现这些小改变就是会在整体上对一个系统产生很大的影响,而这些点滴也是「鸿蒙变丝滑」的重要原因之一。

HarmonyOS 5 的光影特效除了在这些难以发现的细节角落里,还有非常显眼且鲜艳的主题色彩——炫彩透光。

系统算法的优化,把来自大自然的颜色和系统主题色彩完美融合,保持真实也不显突兀。

一镜到底的动效,也是系统流畅的原因之一,「息屏-锁屏-桌面」整个过程都有一整套全新的动画设计,中间没有断层。

另外,原生鸿蒙的锁屏界面也有了很多玩儿法,实况窗就是其中之一。

现在实况窗有多种形态可选,收起折叠在底部,全部展开在屏幕正中间,不遮挡重要信息,也不错过应用消息。从音乐播放到导航指示,现在都有相应的三方软件做了实况窗的适配。

锁屏界面的另一大更新是智能锁屏,系统算法根据照片本身的构图和主题,自动地匹配时钟的位置、样式以及字体的风格。

此外天气应用和主题,也因为原生鸿蒙「活了起来」。阳光照射到天气卡片的边缘,会有慢慢流动的特效;雪花碰到数字会囤积、雨滴碰到字体会反弹…… 这些都是通过新系统的物理渲染引擎而实现的,感觉很真实,看起来也如此。

好的互联体验,叫无缝流转

HarmonyOS 5 还在设备互联上,有了全新体验。

首先是跨设备互通,在华为平板上做笔记时,若是需要扫描一张图稿,那随手拿起手机拍张照片,便立即嵌入到了平板的相应位置。

升级后的互通功能可以让不同的设备各自发挥所长,也能带来更加无缝的操作,比如在手机上用 AI 抠图复制后,可以直接在平板上粘贴。

以前的设备各自为王,现在华为的各个终端在原生鸿蒙的能力下,结合到了一起,你可以理解成它们的内核与系统完全打通,设备只是不同的显示器。

像是跨设备的应用接续,在手机上没看完的文章、没刷完的视频,可以直接用平板、电视接着看。并且手机还能作为遥控器,随时控制投播设备的音量、内容以及设备切换。

其次,华为分享也有了很多新玩儿法。

现在通过华为分享,不用加好友也不用建群,就能把选中的文件、图片和视频等同时发送给多个设备,相当于没有任何附加条件的隔空群发。

在此基础上,华为分享还支持「碰一碰」的全新交互方式。

两个设备碰碰头,就能秒速分享图片、淘宝看中的好物商品、B 站刷到好笑视频,甚至连小红书博主的主页和个人在 Keep 上的运动计划,都能「碰」给他人。

看得见的丝滑应用,和看不见的底层重构

手机变得丝滑是多种因素共同作用的结果,那藏在最底层、最深处的那个功臣就叫「方舟引擎」。

方舟引擎让原生鸿蒙实现了软硬云和应用生态的深度整合,突破算力的边界,实现了从系统到应用的全面流畅。

通过方舟引擎的优化,有更多的内存空间可以留给消费者使用,发布会上介绍系统可用的运行内存比上一代就节省了 1.5GB,全新引擎对系统的高效管理,也让系统有了更多的冗余空间,流畅度也因此能大幅提升。

手机设备升级到原生鸿蒙之后,整机的流畅度可以提升 30%,平均续航甚至能增加近 1 个小时。

方舟多媒体引擎还能在网络不好的时候,让视频会议的画面依然流畅。华为称对比 iOS18,流畅度提升了 97%。

很多朋友在使用社交软件时都会遇到一个头疼的问题:App 本身的相机拍照不清楚,用系统相机拍照太麻烦。而这个烦恼在原生鸿蒙上将不复存在,现在小红书等三方应用能直接打开系统相机,拍出的照片细节更真实、也更细腻。

另外,通过方舟引擎,在三方软件导入导出视频也会更流畅,特别是到导出速度相比 iOS18 提升了 39%。在分屏多窗等重载的用机场景,方舟调度引擎,让系统资源的分配也更加聪明,即使同屏刷淘宝,小红书也非常流畅。

原生鸿蒙不仅能满足大众需求,小众爱好也一点不落下,鸿蒙原生游戏,在新系统上也有了更流畅的游戏性能和游戏体验。特别是游戏显示的分辨率有了大幅提升,游戏中的人物、景物细节,也有了更精细的表现。

方舟引擎重构了系统底座,让众多的应用在原生鸿蒙上有了更流畅的体验。

一是华为自带的精品应用翻新,华为视频引入了 AIMAX 影院频道以 4K 的高清画质;华为音乐收录了顶尖的音乐厂牌、国家级的机构和艺术家的作品;华为阅读融入了许多微动效,字体还原出了纸书的质感。

二是三方的应用生态有了许多创新,最主要的变化是和系统本身的功能连接地更加紧密,如钉钉、WPS、支付宝、京东、飞书等,在原生鸿蒙上不仅保留了本身的好用功能,还能调动小艺、应用接连等手机原生功能,来实现软件内和系统间的相互协作。

真正的智能,是把生活变得简单

手机在覆盖我们生活全场景的同时,AI 大模型似乎正让所有事情变得更加简单。

而搭载了大模型的小艺,把高深的技术原理变成了「动动嘴就能用」系统级的简单交互,给了我们一次和 AI 技术零距离接触的机会。

可以说,当下最了解你需要哪些信息的,可能就是你手机里的小艺了。

发布会现场也给我们演示了不少案例。

小艺可以结合屏幕内容「看懂」你的意图,用何刚的话来说,小艺如同你身边的 AI 助理,和它互动就像跟身边朋友聊天一样。

比如通过截屏照片中的鸟类,你可以直接向小艺询问鸟的品种?真·秒变鸟类专家。

什么是卡皮巴拉?

如果你也不懂,将问题甩给小艺,它会给出详尽的专业介绍,并且还会像 AI 搜索引擎一样,附上权威的参考来源,尽可能减少 AI 幻觉带来的影响。

假期出行旅游缺「导游」,小艺也能派上用场。

小艺熟悉全国 4A、5A 级别等各大景点,去哪个景点问小艺、规划行程路线问小艺、真人导游能干的时小艺几乎都能干,甚至小艺还能帮忙购买门票,一次对话就可以解决所有游玩需求。

在职场/学习的过程中,小艺也能成为强大的文档助手。

在设计交互上,小艺也有一个亮点,把内容拖到导航条,小艺就能自动唤醒,随时响应。

看到专业的学术论文,小艺能帮你分析生成摘要,还能概括内容,生成思维导图,帮助用户更好地学习。笔记消除功能则可以将做过的试卷拖给小艺,它将自动地转化为全新的试卷。

华为指关节双击截屏功能带到了小艺身上。

以往手机先唤醒再圈选,小艺圈选功能不需要唤醒小艺,任何时候都可以直接圈选,看到好看的穿搭,用指关节截图,小艺会给你关于这件衣服的穿搭建议,以及跳转到京东、淘宝这些购物商城上推荐同款商品。

这个圈选功能目前已经开放给更多的应用,比如当我们需要转账的时候,圈一圈转账的信息,小艺会自动拉起银行 APP 帮你填写账号,省去麻烦的复制粘贴,相当实用。

此外,小艺帮写功能则可以帮你实现润色、多种风格供你选择。并且,小艺还能识别证件信息,等到下次订票时,自动调取记忆的信息,帮你填好相关的证件号码。

另外,此前推出的小艺声音 AI 语音修复的准确率提升 80% 以上,能够帮助言语障碍人群进行交流沟通。

当然,在 AI 手机时代,如何理清系统级 AI 的安全边界至关重要。

鸿蒙原生智能,懂消费者也只属于消费者,数据保留在端侧,敏感数据不上云,用户也可以随时删掉这些敏感数据,彻底将数据隐私的控制权还给用户。

天下苦不合理的应用权限久矣。

主打隐私安全,由用户掌控的 HarmonyOS 5 ,将重新定义应用获取隐私数据的规则,禁止开放 9 类不合理权限,从源头上降低隐私泄露风险。

简单来说,普通的权限访问需要用户允许访问「所有」的数据,但安全访问则只需要给定「选定」的数据。

比如说,你只想换社交个头像,却要给出所有照片的权限,拍个照,却要给出整个相机权限,给家人充值话费,图谋不轨的人却盯上了你的通讯录,而 HarmonyOS 5 将统统拒绝这些无理的要求,让应用行为更加透明。

一句话概括,你需要什么,系统便只给什么。

分享加密文件,只有授权的用户才能看到;不满足应用商店安全要求的应用将无法上架、安装和运行,助力用户实现数据透明,安心下载。

这些全新升级的安全功能都源自于星盾安全架构。

早在今年的华为开发者大会(HDC)上,华为便带来了全新自研的 HarmonyOS NEXT 星盾安全架构,重新构建了操作系统的安全体系与秩序,并能从源头确保应用的纯净可靠。

在软件系统当主角的情况下,硬件配角的光彩也没有被掩盖,还有一大波硬件新品发布。

全新发布的华为 nova 13 系列采用「空间格纹变奏」ID 设计,发送北斗卫星图文消息,搭载拥塞信号增强技术,能够有效降低时延。

AI 与手机的双向奔赴,也让 nova 13 系列诞生了更多的故事。

例如,nova 13 系列上的 AI 修图、AI 扩图、AI 消除和 AI 智慧抠图等功能,能够帮助用户玩转修图这件事。

当然,更智慧的小艺不仅可以快速理解文档并归纳整理摘要,根据文档多轮问答,还能智能帮写,生成创作文案,行程规划和美肤建议更是一把好手。

nova 13 售价 2699 元起,nova 13 Pro 则售价 3699 元起。

除了手机以时尚为元素的新品手机,华为还正式发布了 WATCH Ultimate 手表——绿野传奇,其中自带的高尔夫模式,内置 15000 个球场地图,桌面直达,果岭信息一目了然。

最后公布价格,华为 WATCH Ultimate 售价 7999 元。

全新鸿蒙生态,开始燎原

东方之野,日出之处。

在那个被神话传说笼罩的远古时代,盘古尚未在昆仑山劈开混沌,世界仍被一团未开的元气所笼罩,这股原始之气,便是鸿蒙,

华为,以开创者的姿态,将这一精神融入了鸿蒙系统的诞生。

体验上,鸿蒙系统「润」物细无声,丝滑流畅,是一场审美与体验天花板的双向奔赴。

今天,余承东表示,鸿蒙原生应用已经有超过 15000 款的应用和元服务上架。

当然,做操作系统的挑战不在于技术,而在于生态。而鸿蒙操作系统从来就不是华为的独角戏,而是一场多方参与的盛大合唱。

从老牌巨头到新兴的互联网企业,国内互联网大厂都用实际行动表示了支持,也让鸿蒙生态的朋友圈也迎来了一个急速扩张期。

在过往的历史中,我们鲜少见到这些企业的代表会为了一个操作系统而坐在一起,共同探讨和推动其发展。

此外,鸿蒙用十年时间走完欧美操作系统行业三十年的历程,中国开发者生态带来的巨大势能不容忽视。

华为每年投资高达 60 亿人民币用于激励开发者进行创新。目前华为开发者联盟的注册开发者数量更是迅速增长至 675 万。包括在今年,仓颉编程语言以及 OpenHarmony 统一互联标准也陆续发布。

OpenHarmony 成了发展最快的开源操作系统,Gitee 指数为 NO.1,社区贡献者达到 7800+,代码数超过 1.1 亿行。

并且,硬件销量的强劲复苏,也给开发者和用户接纳鸿蒙操作系统吃了一颗定心丸。

一方面,华为通过扩大市场份额来巩固其地位,根据 TechInsights 的数据显示,今年第二季度华为全球智能手机出货量同比增长了 49%,达到了 1160 万台。

另一方面,华为则通过硬件新物种来提高软件系统的吸引力,比如 9 月份亮相的华为三折叠屏手机既自成一派,同时也是自成生态的底气。

至此,「鸿蒙速度」的星火已有燎原之势——

市场研究机构 Counterpoint Research 数据显示,在 2024 年第一季度,鸿蒙的操作系统首次以 17% 的份额超越 iOS 的 16%,成为市场第二大操作系统,显示出强劲的增长势头。

余承东在发布会上宣布,搭载鸿蒙生态的设备已经超过 10 亿+。从根本上,鸿蒙操作系统全面突破操作系统核心技术,已成为最具生命力的数字底座。如余承东曾说——

万物互联时代,没有人会是一座孤岛,每个人、每个设备都是万物互联大陆的一部分。

鸿蒙生态朋友圈只会越开越大,一枝独秀不是春,百花齐放春满园。

作者:肖凡博、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,Windows 版 ChatGPT 正式发布!还有一个实用的新功能| 附下载链接

就在刚刚,OpenAI 宣布推出 Windows 桌面应用,向 ChatGPT Plus、Enterprise、Team 和 Edu 用户开放 。

不过,官方表示,目前开放的只是早期版本,将在今年晚些时候向所有 ChatGPT 用户推出「完整的体验」。

例如,它还不支持高级语音模式,并且 GPT Store 的部分集成功能暂时也无法使用。

用户可以在微软应用商店搜索 ChatGPT,接着下载安装即可,安装包大约 110MB,附上下载地址:

https://apps.microsoft.com/detail/9nt1r1c2hh7j?rtc=1&hl=en-us&gl=US

系统要求: Windows 10(x64 和 arm64)版本 17763.0 或更高版本。

在具体的使用过程中,OpenAI 提出了一个名为「Companion Chat」的辅助聊天功能,它允许你在不离开当前应用程序的情况下,快速访问和使用 ChatGPT。

这个功能类似于一个快捷方式或者浮动窗口,你可以通过特定的快捷键(Alt + Space)来调出这个聊天窗口。

借助这个聊天窗口,你可以快速地向 ChatGPT 提问、上传文件、生成图片或者开始一个新的对话。它还具有记住上次位置的功能,并且当主应用程序重置时,它会回到屏幕底部中心的位置。

此外,你还可以通过点击窗口顶部的「New chat」来清除聊天内容,或者通过点击「Open in Main Window」按钮将对话转移到 ChatGPT 的主应用程序窗口中继续。

如果不小心关闭了这个聊天窗口,你也可以通过查看侧边栏的聊天记录来在主应用程序中继续对话。

需要注意的是,如果这个快捷键已经被其他 Windows 应用程序占用,那么它将会不起作用,并且也不支持更改快捷键。

目前 ChatGPT 已经向 Mac、Windows 两大操作系统开放桌面版本,但 Linux 却没有给出明确的时间表,也惹得不少网友在线催更。

另外,前不久 OpenAI 推出了 ChatGPT Canvas 功能,允许用户与 ChatGPT 合作处理写作或编程任务。

今天 ChatGPT Canvas 也更新了一个比较实用的功能,你可以点击右上角的「Show changes」图标来查看文章或代码的更改。

▲ Window 的 ChatGPT Canvas 功能,图片来自 @test_tm7873

如下文所示,我使用 ChatGPT Canvas 将朱自清的《背影》改写成文言文版本,点击图标,所做的更改一目了然。

实际上,今天更新的功能也算是补上了 ChatGPT 生态的重要一环。

不过,正如开篇所说,这个桌面版本本质上还是个阉割版,食之无味弃之可惜,尽管快捷键调用方式简单,但网页版所带来的体验明显会更好。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


特斯拉发布会上惊艳的社牛人形机器人,原来是真人远程遥控的?

短短几天内,马斯克向我们展示了未来的模样。

特斯拉无人驾驶 Cybercab、Robovan 首秀、TeslaBot(特斯拉机器人,前身为 Optimus)蹦迪跳舞,以及完成「筷子夹星舰」等壮举……股市投资者或许很冷静,但在吃瓜群众看来——

如果钢铁侠在现实中有名字,那只能是 Elon Musk。

作为人形机器人爱好者,其中最让我感到诧异还是 TeslaBot 在发布会现场与观众的惊艳互动 。

上一秒天堂,下一秒地狱,回过神的网友们却发现,在全世界大出风头的 TeslaBot 看似行动对话流畅自如,却似乎是有真人在幕后远程操控。

莫非,人形机器人的尽头还是离不开真人?

惊艳的机器人,只是一场金属「木偶秀」?

与远观的 Cybercab 相比,现场可即时互动的 TeslaBot 支撑起了现场热度的半壁江山。

马斯克在发布会上宣称,TeslaBot 将会是有史以来(潜力)最大的产品——任何种类。

他希望与会者能够亲眼看到 TeslaBot 的全新升级版本,而不是通过特斯拉工厂内部拍摄的预录视频来了解。「Optimus 机器人将会在你们中间行走,请友好相待。」

看到人形机器人就猛踹几脚,终究只存在于极端的实验测试。面对一个仿若真人的人形机器人,大多数人的第一反应还是上前「打个招呼」。

特斯拉官方派出的 TeslaBot 直接化身社交恐怖分子,点燃了发布会现场的气氛。

和全球知名科技博主 @MKBHD 玩起你画我猜,猜对了,TeslaBot 还会烘托气氛地和博主隔空击掌。这聪明程度让人直犯嘀咕,这真不是穿着皮套的真人。

谁说机器人不能猜拳呢?

伴随着现场动感的 DJ 起舞,TeslaBot 兴趣盎然地玩起了石头剪刀布。

如果周围没有一些负责监视 TeslaBot 的特斯拉工作人员,可能这个 TeslaBot 套件卫衣,就像是被抛到大海里的一滴水一样,着实让人分不清。

E 人属性大开的 TeslaBot 非常自来熟,和现场观众拉家常,一种偶遇老朋友的亲切感溢出屏幕。

当被问及机器人最难做的是什么?它思考了几秒钟,用最人性化的语言回应道「每天试着学习如何像你们一样做人。」

人类最稀缺的情绪价值,它也能给到位。

TeslaBot 和现场观众一起唱起了生日歌,在拍合照时,甚至还会自觉举起点赞大拇指,使得自己看起来更像是一个不折不扣的人类。

TeslaBot 在劲歌热舞中起舞也是真的,大秀唱跳魅力。

如果现场观众渴了,怎么办,别急,戴着牛仔帽的 TeslaBot 服务员现场为你服务,打开供应鸡尾酒的开关,斟满酒递给与会者,动作一气呵成。

一些现场观众在 X 平台调侃道:「至少 Optimus 在 iPad 上没有要求 25% 的小费」。

当然,随着传播热度的不断攀升,TeslaBot 过于惊艳的表现,也因此遭到了现场许多博主和网友们铺天盖地的质疑。

曾与 TeslaBot 亲密互动的 @MKBHD 率先开炮:

昨晚观看了特斯拉 Optimus 机器人的演示,这可能是世界上迄今为止最出色的机器人技术和大型语言模型展示,要么就是大部分由人类远程操控。看起来没有中间地带。

与会者 Robert Scoble 也表示,他了解到人类正在「远程协助」这些机器人。后来澄清说,一名工程师告诉他机器人使用 AI 走路。外媒 Electrek 则援引摩根士丹利分析师 Adam Jonas 的话表示,这些机器人依赖于远程操作(人工干预)。

相对实锤的是, 在 X 网友 @zhen9436 拍摄的视频中,当 TeslaBot 被问及是否被遥控时,它先是岔开了话题,但在网友的反复追问之下,TeslaBot 亲口承认自己得到了人类的协助,而非完全实现自主控制。

去过发布会现场的科技投资博主 CyberCat 在播客中也谈到,他曾经问过现场的特斯拉工作人员,这些机器人是否是远程控制的,对方的回答是「一定程度上是的」。

并且,他也透露了发布会现场的一些细节。

例如,每个 TeslaBot 都是有编号的。周围都会有工作人员围着,不让观众接触机器人的身体,比如不能碰拳。CyberCat 更是自称在现场会有种游乐园的感觉。

对于这场疑似披着机器人外衣的金属「木偶秀」,舆论也撕裂成两派。

包括特斯拉内容创作者 @jeremyjudkins_ 在内的其他人,感觉自己受到了欺骗:「我只是希望特斯拉能在这个活动上更加开放和真诚,因为他们完全没有透露这些机器人是由人类操控的。」

另一方则认为,特斯拉只声称这些机器人取得了很大的进步,而能够实现这种低时延遥控,本身也是一件非常令人兴奋的事情。

更何况,马斯克也并未说过,现场的人形机器人是完全自主操控的。

截至发稿前,网上舆论纷纷扰扰,特斯拉官方和马斯克本人一片岁月静好,尚未就此事作出回应。一时间,沉默是对这场事件发酵风波最好的注脚。

80 亿人,未来都会需要一个机器人

这场略带争议的风波,让我不禁想起特斯拉另一起争议事件。

今年 1 月份,马斯克在 X 平台向外界发布了一段 TeslaBot 叠衣服的视频。

视频中,TeslaBot 优雅地从筐子里取出衬衫,铺在桌面上,然后老练地叠出了一件整齐的衬衫,整个过程流畅丝滑,仿佛下一秒机器人就能走进家庭生活。

不过,在视频画面的角落里,网友依稀发现了一只疑似与 TeslaBot 动作同步的机械臂。于是网友猜测这一系列叠衣动作也是受到了遥控操作的影响。

随着质疑声浪的高涨,马斯克也站出来承认,TeslaBot 当时确实还做不到这一点。

但他也开了一张口头支票——未来肯定能在任何环境下(桌子不需要完全固定,篮子里也不需要只有一件衣服)完全自主地实现独立自主操作。

实际上,在机器人训练中使用动作捕捉服和远程操作并不是什么新鲜事。

包括前不久,由 OpenAI 押注的 挪威机器人公司 1X 也发布了全新一代家务机器人 NEO 的原型。

穿着人类的衣服,超静音的运作、弯腰提包、主动召唤主人并给予拥抱,也被不少网友质疑衣服里或许藏着一个真人。1X 公司 CEO Bernt Børnich 后续也揭秘了 NEO 背后的技术细节。

1X 团队致力于开发一款能够吸收广泛世界知识的机器人原型。他们通过在真实家庭环境中收集数据,来训练机器人掌握多种家务技能。

随着人类与 NEO 的互动增加,NEO 的学习能力也会随之加速提升。

不过,专门为 1X 团队拍摄纪录片的 Jason Carman 也透露,虽然「NEO」需要远程操作,但 1X 团队已经能够实现端到端的自主操作。

这种高科技「木偶戏」的原理也很简单:

  1. 动作捕捉与映射:使用动作捕捉设备(如 VR 头戴设备、RGB 摄像头等)捕捉操作者的动作。将捕捉到的动作数据映射到机器人的关节和肢体上,使机器人能够模仿人类的动作。
  2. 实时控制与反馈:通过网络将操作者的动作数据实时传输给机器人。机器人通过传感器反馈当前状态(如位置、速度、力等)给操作者,使操作者能够进行精确控制。
  3. 强化学习与模仿学习:使用强化学习和模仿学习技术训练机器人,使其能够从人类操作者的演示中学习复杂的动作和任务。通过大量的训练数据和模拟环境,提升机器人的自主操作能力。
  4. 远程操作系统:远程操作系统通常包括一个用户界面,操作者可以通过该界面监控和控制机器人。系统还需要处理网络延迟和数据同步问题,以确保远程操作的流畅性和可靠性。

前一阵,特斯拉高薪招聘 TeslaBot 数据收集操作员的消息也透露出一些关键信息。

招聘广告中提到,TeslaBot 的数据收集操作员每小时工资是 25 至 48 美元,对身高有要求,不过,工作内容也很辛苦,身穿动作捕捉服,戴着 VR 设备,负重,每天步行 7 小时以上等等。

利用 VR,TeslaBot 的确可以 1:1 地复刻映射人类操作员的动作,也就是说,人类操作员可以第一视角远程操控人形机器人。

再往前些,早在去年 5 月份,特斯拉公布的一段视频也更直观地向我们展示了如何通过使用动捕服一比一遥控 TeslaBot。

基于这些摆在桌面上的前置因素,网友们此起彼伏的质疑,也并非空穴来风。

很遗憾,直到现在,在没有「重锤」的情况下,TeslaBot 是否为人类远程操控仍是一个巨大的谜团。

然而,TeslaBot 这些年来的进步有目共睹。在本次 TeslaBot 出圈的发布会视频中,下一代流畅丝滑的手部或许是最值得关注的细节。

瞧瞧这灵活丝滑的程度,几乎和真人手指相差无几了。

实际上,英伟达高级科学家 Jim Fan 也曾描述过 TeslaBot 训练的潜在优势:

「我们可以看到人类操作者戴着 VR 眼镜和手套。设置软件以实现第一人称视频流输入和精确控制流输出,同时保持极低延迟,这是非常不平凡的。人类对自己动作和机器人动作之间,即使是最小的延迟也非常敏感。」

马斯克表示, TeslaBot 将在今年年底前开始执行「有用的任务」,并可能在「明年年底前」对外销售。

它可以是老师,照顾你的孩子,它可以遛狗,修剪草坪,买杂货,做你的朋友,提供饮料,无论你能想到什么,它都会做到。

此前,他也曾预测 TeslaBot 有一天的售价会低至 20000 美元,每年售出 1 亿台,未来地球上 80 亿人都会想要一个 TeslaBot,而 TeslaBot 将比以往任何时候都更能彻底改变世界。

有趣的是,特斯拉举办的这次发布会活动主题被定为「We, Robot」,也大有致敬之前电影《iRobot》之意。《iRobot》导演 Alex Proyas 在看完发布会后,也在 X 平台隔空调侃马斯克:

「嘿,埃隆,请问我可以把我的设计拿回来吗?」

只是,电影「I robot」的故事背景设定在 2035 年,那是一个地球上每十五人就拥有一台机器人的时代。机器工人、机器助理无处不在。

它们甚至渗入家庭生活,担当起保姆,护理的责任。

而还记得 TeslaBot 首次在特斯拉 AI Day 活动亮相时,还只是由几个演员穿着机器人皮套上台表演。一转眼, TeslaBot 也已经三岁了。

而照现在的发展速度,未来已不再遥远,也许无需等到 2035 年,我们将更快看到人类未来的模样。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


英特尔与 AMD 罕见联手,黄仁勋扎克伯格齐亮相,联想将 AI 圈顶流拉到一起干什么?

可能是我睡迷糊了,有生之年居然能看见英特尔和 AMD 破天荒地达成合作。

事情是这样的,今天联想集团在西雅图举办了年度创新大会 Tech World,并公布了一系列 AI 产品、技术和解决方案。

而英特尔和 AMD 的合作便是此次大会的重要成果。

发布会上,英特尔 CEO 帕特·基辛格宣布,英特尔将与 AMD 首次在 x86 上握手言和,共同组建 X86 生态系统咨询小组。用基辛格的话来说就是, x86 不光活着,而且活得还很好。

此外,除了介绍一大波 AI 重磅新品,联想也在发布会现场狠狠地秀了一把朋友圈。

英伟达创始人黄仁勋、Meta CEO 马克·扎克伯格、AMD CEO 苏姿丰、微软董事长萨提亚·纳德拉、高通 CEO 克里斯蒂亚诺·安蒙等等,这些你所熟知的全球 AI 顶流也都参与了此次大会。

先来盘点这次大会的一些产品项目亮点:

  • 联想 AI Now 智能体发布
  • 共建 X86 生态系统咨询小组
  • 发布 Neptune 海神液冷服务器
  • 发布混合式人工智能优势集
  • 新款 AI PC 推出

英特尔与 AMD 罕见联手,一大波重磅 AI 新品发布

联想集团董事长兼 CEO 杨元庆表示,联想相信人工智能不是一个转瞬即逝的趋势,也不是一个膨胀的泡沫。

「人工智能已经改善了个人的生活质量,为企业提供了更高的生产力,并保护了一个更可持续的星球。」

实际上,早在去年的 Tech World 大会上,联想已经率先将未来定义为「混合式人工智能」。

联想认为企业基础模型和私有云将与公共基础模型和公共云共存,共同塑造混合式人工智能的未来。

杨元庆称「现在,这一趋势更加明显。私有 AI——包括个人 AI 和企业 AI——将与公共 AI 共存。它们相互补充,为不同的客户需求提供增强的结果」。

对于个人消费者来说,用户现在可以从个人电脑、平板电脑和智能手机等设备的入口访问个人 AI。

这些设备内置了 AI 模型,能听懂你的指令,通过自然交互在本地进行推理。同时,它们还能和公共云上的公共 AI 工具连接。

今年 4 月份,联想已经于业内率先发布了拥有五大特征的全球首台真正意义的 AI PC。根据 Canalys 统计(截至 2024 年 8 月),联想 AI PC 出货量环比增长高达 228%。

而在今天,联想也再次放出大招,重磅推出了最新的个人 AI 智能体——AI Now。

AI Now 是联想在个人电脑上的人工智能入口,它所启动的个人智能体,是联想 AI PC 与众不同的关键所在。

具体而言,AI Now 集成了 Meta Llama 3 本地大型语言模型,能够提供快速、安全的设备端处理能力,无需依赖云服务即可进行内容生成和文档管理。

通过自然语言交互,AI Now 还能帮助用户管理设备、提供查询服务等。

其独特之处还在于强大的数据安全框架(data security framework),包括本地加密和通过设备上的个人知识库对数据进行全面控制,以保证隐私和数据安全。

大会上,联想还现场演示了一番。

通过「AI 键」(F9)激活后, AI Now 就可以将笔记和图片从平板电脑无缝传输到电脑中。它的另一个强大的功能是能够执行异构计算,可以同时基于文本和图片生成内容。

值得一提的是,联想在本次大会上还发布了 ThinkPad X1 2-in-1 Gen 10。

这款由联想与英特尔联合打造的 AI PC,代表了个人电脑的最高水平,具备 Smart Modes 和 Copilot+ 等 AI 驱动功能,能够提供个性化的可转换设备体验,并拥有超过 18 小时的电池续航。

▲APPSO 在现场拍摄到产品图

而跳出 PC 领域,国内外手机厂商也都在努力地将 AI 与智能手机深度融合。可以说,2024 年是 AI 手机大战落地的重要一年,而联想旗下的摩托罗拉也不例外。

本次大会上,联想推出 Moto AI,旨在通过协助、捕捉和创造三个核心领域变革智能手机的用户体验。

基于大行动模型(LAM),Moto AI 能够从用户的行为中学习,理解自然语言,并在应用程序和服务中采取行动。例如在旅行前,有了 Moto AI 的「Remember This」和「Memory Finder」功能,用户分享的每个细节都会存储在本地。

当要出发时,通过问一些简单的问题,如「我的航班明天几点起飞?」、「我需要打包什么?」或「我什么时候该出发?」Moto AI 都会轻松回忆,不再需要用户搜索多个应用程序或翻阅截图、照片或任何保存的内容。

▲APPSO 在现场

当用户想要点一杯咖啡,只需说「给我点一杯咖啡」,Moto AI 就会处理其余的工作,包括找到最近的商店,进行订单,并在准备好时通知用户。

不仅如此,当用户不便查看手机消息时,Moto AI 的「catch me up」功能则会帮助用户快速总结所有消息。AI 多做一步,用户就能在手机上少做一步。

▲APPSO 在现场

简言之,AI 纷沓而至,端侧和行业的大模型落地也已经不再遥远。从日常不可或缺的 PC 和手机,到五花八门的智能硬件设备,AI 正从「想到」的阶段,大步流星地迈向「用到」的现实。

让 AI 圈顶流齐聚一堂,联想正在成为连接 AGI 的枢纽

要让 AI 真正普惠大众,单靠一家企业的力量是远远不够的。

AI 顶流们齐聚一处不是为了「华山论剑」,而是为了希望通过开放合作,强强联合,推动 AI 技术的发展,让 AI 的红利惠及每一个人。

比如,在发布会现场,英特尔 CEO 帕特·基辛格宣布英特尔和 AMD 将达成史无前例的首次合作,共同组建 X86 生态系统咨询小组。

基辛格在大会上激情发言道:

有些人说,X86 时代已经结束了吗?我要告诉你们,关于「死期」的传闻被严重夸大了,我们还活着,而且活得很好,X86 正在蓬勃发展。我们认为,我们面前将迎来 X86 架构最重要的创新时期之一。作为几十年来计算基础的 X86 架构即将经历一个定制化、扩大化和可拓展化的时期,这正是人工智能带来的机遇。

X86 生态系统咨询小组汇集了来自整个生态系统的领导者,旨在塑造 X86 的未来,简化软件开发,确保互操作性和接口一致性,并为开发者提供标准的架构工具、指令集。

对于联想的加入,基辛格表示「我们认为这将开启围绕系统和全新工作负载的创新类别。我们欢迎联想作为创始成员加入该咨询小组,并且很荣幸地看到其他公司与英特尔、AMD 和联想一起加入」。

AMD CEO 苏姿丰博士在随后的发言中也表示:

我们的 X86 生态系统咨询小组说明了当今时代技术领域的独特特性。归根结底,我们所努力的方向是加速计算能力的发展,以及推动计算技术的广泛应用。

上周,AMD 发布了最新的 MI325X 处理器,借由 AMD Instinct MI325X 加速器所驱动的 ThinkSystem 的灵活产品组合,AMD 和联想产生的强大协同效应,实现更高性能的同时,也保持了更高的效率与更低的成本。

AMD MI325X 将在本季度末量产出货,联想也将在明年第一季度获得供货。

最后登场的则是英伟达 CEO 黄仁勋。

此次大会上,联想与英伟达联合发布了搭载液冷技术的最新服务器产品 ThinkSystem SC777 V4 Neptune。

它搭载 NVIDIA Blackwell 平台,采用 100% 液冷设计,因此无需任何风扇或专门的数据中心空调便可运行 100KW+ 的服务器机架,并适用于标准机架。

并且,杨元庆宣布联想和英伟达正式推出「联想混合式人工智能优势集」。

这是一个端到端的 AI 平台,用于在新时代开发和部署 AI。

它基于行业领先的基础设施,包括 AI 设备、AI 服务器、存储,以及边缘计算、公有云、私有云,同时也是企业进行数据存储、清理和组织的地方。

为了快速确定解决方案,能够根据客户需要进行个性化定制,联想搭建了人工智能图书馆(AI Library),里面的解决方案和服务涵盖市场营销、IT 运营、法律、产品开发和客户服务等多个领域。

此外,发布会现场还有一些由 AI 加持的产品项目也相当亮眼。

比如 Smart Conect 是一个支持 AI 的互联软件平台,通过利用混合式人工智能模型并访问个人知识库,Smart Connect 实现了跨生态系统的设备体验个性化。

又或者,联想通过 AI 为 24 岁渐冻症患者 Erin Taylor 打造了一个数字分身,保留了 Erin 自己的声音,并用几分钟渲染完成,也得以帮助 Erin 实现继续为孩子们唱着摇篮曲的梦想。

再者,体现联想「AI 向善」的使命还有阿尔茨海默症智能计划。

通过与「Innovations in Dementia」合作开发,该计划采用基于痴呆症患者生活经历的定制 AI,打造逼真的 3D 数字分身(avatar),为正在应对痴呆症诊断的患者和家庭提供 24 小时的对话式虚拟伴侣。

APPSO 曾提出一个观点,联想正在成为一家「超级智能体」公司。

在 AI 的生态中,联想没有去做通用大模型,而做 AI OS(操作系统),并连接 AI 上下游的合作伙伴 ,通过智能体实现大规模应用落地。

AI 对于联想而言,是产品,也是服务。

一个不争的事实是,现在的 AI 已经站在了历史的岔路口。

如果说混合式人工智能成为 AI 真正落地发挥价值的必然路径,那么成本效益、运行效率和用户体验已成为 AI 能否成功实现落地的关键因素。

接下来的十年,将是 AI 从云端飘然而至,扎根现实的黄金十年,而 AI 落地最大的想象力也正是诞生于厂商们的精诚合作和共同努力。

APPSO 在现场采访了联想集团董事长兼 CEO 杨元庆、联想集团高级副总裁、首席技术官 Tolga Kurtoglu 等高管。我们也特别好奇,Tolga 是打算如何利用 AI 来改变联想,并为客户提供价值?

他的回复也恰好吻合了本次发布会的主题:

正如你们在上午和下午的会议上所看到的,AI 是我们所做的一切的前沿和中心。我们将把 AI 带给每个人。这就是「更智能的普惠 AI」。

当然,我们的技术发展和创新正是为此服务的。现在,有一些领域是我们优先考虑的,AIPC 当然是其中之一。

AI 智能体开发是另一个方面,既适用于个人 AI,也适用于企业 AI 应用等。 我们也有所谓的「Power Lenovo」,这是公司的重要方式,在联想内部部署 AI 的领域,以及我们打包解决方案带给客户。

目前有很多 AI 部署,例如,在数字制造和供应链运营等领域,以及呼叫中心等其他领域,我们利用自己的公司规模和规模来试验和验证 AI 技术,带来价值,然后目标是将其带给我们的客户。这就是从 AI 中创造价值的一种方式。

杨元庆和 Tolga 都坚信,尽管 AI 的发展是大势所趋,但在 AGI 到来之前,我们还有一段很长的路要走。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


苹果突然发布新 iPad mini!性能更强大,但有一个遗憾

三年之期已到,期待已久的全新 iPad mini,跳过了预热和发布会,就在刚刚直接上架了苹果官网。

最大的更新来自性能配置,不过 iPad mini 还是有所保留,没有用上最新的 A18 芯片系列,而是选择了去年的旗舰处理器 A17 Pro,但 GPU 核心数量要比 iPhone 15 Pro 少一个,仅搭载 5 核 GPU。

iPad Mini(A17 Pro)同样支持硬件加速光线追踪的能力,图形性能提速对比上一代最高达 25%,更适合用来打大型游戏。

至于 CPU 方面则看齐了 iPhone 15 Pro,搭载了 6 核心 CPU,对比上一代性能提速最高达 30%。

虽然没有搭载 M 系列芯片,但 iPad Mini(A17 Pro)也用上了 Apple 智能,这也意味着,全新的 iPad mini 配备了至少 8GB 的运存,后台和多任务能力会比前代更强。

这颗 A17 Pro 最大提升是神经网络引擎的性能,据苹果官方宣称,这颗 16 核的神经网络引擎,比 iPad mini(第六代)要快 2 倍,为 iPad mini 开启了 Apple 智能的大门。

官方表示,Apple 智能将通过本月推出的 iPadOS 18.1 免费软件更新的形式,以美国英语版本提供给用户。这项更新将支持搭载 A17 Pro 芯片或 M1 及更新型号芯片的 iPad 设备。

借助 Apple 智能,在该系统中,用户可享受到通知摘要、增强版 Siri 等内容。未来几个月,Apple 智能还将引入 ChatGPT 支持、Image Playground 和 Genmoji 以创建自定义表情符号等。

不过,Apple 智能暂时并不适用于大陆。

同样在大陆地区还不能享受上的更新是对 Wi-Fi 6E 的支持。「E」代表「Extented」,意为拓展。Wi-Fi 6E 在 Wi-Fi 6 的基础上,增加了 6GHz 频段,以获得更快的速度和更低的延迟。

此外,iPad Mini(A17 Pro)蜂窝版卡槽被砍,仅支持 eSIM,取消了机身上的实体 SIM 卡槽。

除了换芯,iPad mini(A17 Pro)支持 Apple Pencil Pro,专业级的挤压和悬停功能,也因此塞进了小机身中。除此之外,iPad mini 还支持 USB-C 版的 Apple Pencil。

至于后置摄像头,虽然参数和上一代持平,同样是 1200 万像素广角镜头,支持 4K 视频拍摄,但升级了对智能 HDR 4 照片的支持,照片更细致生动。

其他参数方面,上一代的 iPad mini(第六代)在几乎各个方面都称得上优秀,但却有一个最大的硬伤——屏幕。

因为前代 iPad mini 搭载的 LCD 屏幕,具有逐行刷新的特性,导致显示出现不均匀的滚动问题,也就是俗称的「果冻屏」。

而新款 iPad Mini(A17 Pro)屏幕依然是 8.3 英寸 Liquid Retina 显示屏(326ppi), 至于是否解决了「果冻屏」的问题,还有待后续测试。

这款屏幕提供 500 尼特亮度,依旧是 60Hz 的屏幕刷新率,虽然意料之中,还是觉得有些遗憾。

重量方面,iPad Mini(A17 Pro)的整机重量则基本和 iPad mini 6 持平。

  • 无线局域网机型 293 克 (0.65 磅);
  • 无线局域网 + 蜂窝网络机型 297 克 (0.66 磅)

国行版本的 iPad mini 7 包装内将提供 1 米长的 USB-C 充电线和 20W USB-C 电源适配器。

内置 19.3 瓦时锂聚合物充电电池,WiFi 版本使用无线局域网浏览网页,或观看视频,使用时间最长可达 10 小时; 5G 蜂窝网络机型使用蜂窝网络浏览网页,使用时间最长可达 9 小时。

至于配色,上一代的深空灰色、星光色和紫色得以保留,粉色则被一个淡淡的蓝色所取代。

iPad Mini(A17 Pro)存储空间也扩大至 128GB 起步,主打一个加量不加价。

  • WiFi 版本 128GB 3999 元;256GB 4799 元;512GB 6499 元。
  • WiFi + 5G 版本 128GB 4999 元;256GB 5799 元;512GB 7499 元。

新品将在 10 月 17 日上午 9 点开启预售,于 10 月 23 日发售。

总的来看,iPad Mini(A17 Pro)升级幅度不大,但也展示了苹果全力押注 AI 的决心,可以预见的是,未来苹果用 AI 重塑产品将是大势所趋。

 

本文由莫崇宇、苏伟鸿合写

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


任天堂这个 700 元的闹钟,怎么比 Switch 还难抢

这,是普通人家里用的闹钟,价格不到 10 块钱,运气好的话还包邮。

而这,是任天堂最新推出的闹钟 Alarmo,售价 99.99 美元(人民币约 700 元),即便你现在线上下单,最快也得到明年初才能拿到现货。

谈到这两款闹钟的共同点,那就是都能准时准点地叫你起床。

只是,人们对这两款闹钟的喜爱程度却大相径庭,前者可能在家里某个角落默默吃灰,后者却在各大热搜榜单上居高不下。

▲网友的梗图,图片来自 @stupjam

对此,我们也不禁好奇,任天堂新推出的闹钟凭啥这么火。

Alarmo,让起床变得更有趣

被熟悉的游戏音乐唤醒是什么感受?

Alarmo 本质上是一款集成了沉浸式声音体验和体感操控的多功能闹钟。

在你起床时,它会联动任天堂多款知名游戏 IP,播放如《超级马力欧兄弟》《塞尔达传说》《斯普拉遁》《皮克敏》和《健身环大冒险》等音乐,成为唤醒你的起床号角。

每种游戏都有 7 种不同的闹钟场景,总共 35 个音频场景供你选择。

而且,通过连接的任天堂账号,你还能陆续解锁《动物森友会》和《马力欧卡丁车 8 豪华版》等更多游戏音乐。

体感操控则是 Alarmo 最大的杀手锏。

由于内置运动检测传感器,Alarmo 会自动检测你的动作,移动身体可以让闹钟安静下来。

而如果你主动起床,那么 Alarmo 便会自动停止响铃。此外,你也可以通过按下顶部按钮停止闹钟响铃。

当然,如果你想多享受几分钟的赖床时光,可以通过手势将闹钟时间稍稍延后。

不过,在「强力起床模式」下,闹钟响得越久,音量也会逐渐增大。

另外,Alarmo 还具备一些特色功能,比如记录你睡眠和活动情况,并提供游戏主题的整点报时提醒。

任天堂表示,Alarmo 内置的 24GHz 传感器不仅能检测你的一举一动,还能在夜间监测你的睡眠情况。它将作为睡眠监测器,为你提供关于睡眠质量的数据,而这些记录将被保存一年之久。

需要注意的是,Alarmo 需要通过 USB-C 持续充电。

根据任天堂开发团队的说法,因为传感器需要不断检测用户是否处于床上睡眠状态,所以如果采用电池供电,那么续航时间大约只能撑两周。

如果你早上醒来发现(闹钟)电量已经用完了,那将是一场灾难。

此外,开发团队希望 Alarmo 成为一个完全不需要用户操心的闹钟。用户无需担心电池更换的问题,也不需要对闹钟进行额外的维护。

▲顶部拨盘能显示一系列颜色,图片来自 The Verge

CNET 记者也第一时间上手开箱了这款爆火闹钟。

一旦你打开 Alarmo,它会耐心地引导你完成设置,比如测量床的大小和 Alarmo 相对于头部的位置,以确保真的能够叫你起床。

并且,它还提供了放松的睡前声音。设定你的就寝时间,当它检测到你已经躺在床上时,便会播放 10 分钟的平静游戏声音,比如《塞尔达传说》中的火把声,伴你进入梦乡。

一个闹钟,花了十年时间

从想法的萌芽到最终成品,Alarmo 的诞生经历了整整十年时间。

将时间的指针拨回 2014 年,当时任天堂社长岩田聪在投资者简报会上透露打造一款「睡眠跟踪设备」,他暗示这将是一款「不一定会是在客厅使用的产品」。

同年 10 月,岩田聪宣布目前任天堂正在捣鼓一款睡眠追踪设备,它能通过发射电波来监控使用者的夜间动态。

并且这款设备在使用上无需穿戴、接触、等待或是安装,它设计的初衷就是,能放在床边,简便地使用。这款设备还能将数据上传到任天堂的 QOL(Quality of Life」)服务器上,帮助用户监测睡眠质量和疲劳程度。

任天堂表示,其游戏机和智能设备也将能够与 QOL 云平台连接。

而这份 QOL 的计划当时普遍预计在 2016 年能够全面实现。如果是这样,那以后当你长时间玩着任天堂的游戏机,或许这个设备就会对你发出警告:你的疲劳值过高,请注意适当休息。

遗憾的是,在 2015 年岩田聪因病逝世后,任天堂社长君岛达己宣布那款睡眠追踪设备将被无限期搁置。

当时官方声明解释说,「我们没有信心认为,以睡眠和疲劳为主题的设备可以进入真正成为产品的阶段…… 我们不再计划在 2016 年 3 月底之前发布它。」

2020 年,任天堂的一项关于非接触式睡眠监测技术的专利遭到披露。

根据专利文件的描述:「该基础设备内嵌有一个传感器,它能够捕捉诸如呼吸和心率等生命体征,以及记录用户的体动情况。」就这样,这项专利也再次引起了人们对着这款设备的遐想。

包括最近任天堂向 FCC(联邦通信委员会)提交了一款神秘的新型无线设备,当时绝大多数媒体都认为这可能是最新的 Switch。

今天谜底终于揭晓,Alarmo 露出庐山真面目。

据任天堂开发人员介绍,Alarmo 的研发过程中也的确一度遭到搁置,直到前几年才继续推进。

Alarmo 的圆形、醒目的红色外观,无疑是任天堂品牌最具个性的体现,但最初的 Alarmo 原型机却有着截然不同的外观。

它的形状更加方正,颜色也是低调的灰色。

The Verge 指出,这款早期的原型机在设计上与现已停产的带时钟功能的 Echo Dot 有些相似之处。

任天堂开发人员透露,这款闹钟最开始并未使用 LCD 屏幕,而是采用了一种类似于电子广告牌会使用的 LED 点针屏。

但随着开发过程的深入,团队意识到,仅仅依靠这种方式,并不能确保用户能够无需说明书就能轻松上手。

并且,在他们看来,这种显示方式在传达操作指令方面存在局限性,尤其是难以解释产品的新特性,比如运动传感器。

而另一个原型则更接近现在发布的 Alarmo。

项目总监赤间哲也表示,这个原型中将闹钟 的「大脑」藏在底座里,而 LCD 屏幕和扬声器则嵌在上部。顶部有一个表盘,侧面也有一个表盘。

「第二个原型对于左撇子来说很难使用,因为表盘在右侧,」开发人员田森洋介说。「此外,我们希望即使没有底座部件也能保持稳定,因此最终,我们将所有控件都放在了顶部。」

任天堂团队希望打造一个真正「与众不同」的闹钟,所以他们在 Alarmo 的设计中融入了许多巧思。比如 Alarmo 的运动传感器被藏在 2.8 寸 LCD 屏幕的正上方。

团队的初衷是希望能够降低最小化传感器的存在感,从而让用户在使用 Alarmo 时几乎感觉不到它的存在。

并且,为了让用户在使用时能自然地将设备朝向自己,设计团队选择了扩音器形状的设计,这样传感器就能准确地捕捉到用户的一举一动。

屏幕方面,由于 LCD 屏幕通常采用矩形,因此开发团队也与硬件设计师合作,确保屏幕显示能与圆形的硬件设计完美融合。

他们还细心地调整了这块屏幕的亮度,确保即便是在夜间,也不会干扰到用户的睡眠,当用户在黑暗中瞥向屏幕时,运动传感器会使屏幕自动变亮。

此外,尽管扬声器尺寸不小,但团队还是努力将整个设备设计得小巧紧凑,以便于用户可以方便地将其放置在任何位置。

并且,在硬件设计团队的协助下,团队特意将扬声器设计成向后发声,目的是为了营造一种环绕声的效果。

赤间哲也也解释了为什么 Alarmo 最终采用了更传统的闹钟形状:

在设计决策中,最艰难的部分是决定是否让它看起来像一个传统的闹钟。

尽管这是一个非常创新的产品,能提供全新的体验,我们还是认为明确地传达它是一个闹钟这一点非常重要。经过反复考虑,我们选择了那种让人一眼就能认出是闹钟的设计。

另外,田森洋介先生提出,如果 Alarmo 要以图片或图标的形式呈现,它应该是一个任何看到它的人都能立刻认出且吸引眼球的形状。

因此,我们最终确定了现在的这个设计。

不出意外,Alarmo 在上市之后也受到了疯狂追捧。任天堂纽约、东京等多地门店日前均已宣布售罄,真·有钱排队都买不到。

实际上,尽管热度颇高,但 Alarmo 同样遭遇了和当下鸡肋 AI 硬件类似的质疑——为什么我们手机就能解决的事情,却要额外花费接近 700 块的「冤枉钱」。

Game Boy 之父横井军平曾提出一个名为「枯萎技术的水平思考」的设计哲学。

不强调使用最先进的技术,而是挖掘已经成熟甚至濒临淘汰的技术,通过创新的思维将它们应用到不同的领域,从而创造出独特的产品。

这正是任天堂产品开发历史中的核心理念。

例如,Game Boy 的设计并没有盲目追随当时流行的彩色显示屏技术,而是选择了成本更低、能耗更小的黑白显示屏。

这一决策让 Game Boy 在价格、续航能力和耐用性上占据了明显优势,最终成就了销量传奇。

如今,深受这一理念影响的 Alarmo,也给出了上述问题的巧妙回答。

任天堂擅长跳出传统框架,对看似过时淘汰的技术进行横向拓展,将再简单不过的闹钟融入了游戏化的生活方式,也让这个产品惊艳登场。

即使这个过程耗时十年,即便历经三任社长的更迭,任天堂始终坚守着他们的纯粹和初心。

最新的未必是最好的,但最有创意的设计往往最具价值。而这也许就是任天堂百年来屹立不倒的设计哲学。

One more Thing

关于 Alarmo 的拆解图片在网上泄露,任天堂也疑似埋下了一个小彩蛋。

设备内部主板顶部可以看到一个罗马字拼写「ASAHI」。这个词语在日语中的含义是「朝日」或「早晨的太阳」,代表着新的开始、力量和活力。

而这或许是任天堂想要通过 Alarmo 告诉我们——一年之计在于春,一日之计在于晨。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


提前体验火上热搜的 Kimi 探索版,我感觉 AI 搜索和百度们完全不是一个物种了

谁能最先用 AI 颠覆搜索,至今还悬而未决。

年初,在体验当下几款热门的 AI 搜索引擎后,我和同事都一致认为,即便百度、Google 等搜索引擎巨头被群狼环视,但还是难以被撼动。

最近发布的 Kimi 探索版带来了很大的惊喜。相比于 AI 搜索更懂人类,我们更希望 AI 搜索引擎能够一步到位,最好就是成为一个带脑子的人类。

先来一剂预防针,目前 Kimi 探索版并未向所有用户开放。

昨天,在探索版上线之后,「Kimi 崩了」这一词条也迅速登上了热搜。不过,Kimi 官方也说了,预计将于下周一向所有用户全量开放,好饭不怕晚,不妨再耐心等待一下。

在这之前,我先行一步,替各位小伙伴尝尝鲜。

附上 Kimi 探索版的亮点总结:

  • 搜索调研是核心功能,值得上手体验
  • 搜索量是普通版的 10 倍,可精读超过 500 个网页
  • 能即时反思,补充更多信息提供用户决策
  • 每天 5 次机会,满足用户日常基本需求
  • 启用方式简单,预计下周一全量推送

Kimi 搜索版的最强大脑,专治复杂问题

肉眼可见,在熟悉的搜索框里敲上「/」,亦或者启用「探索版」按钮,即可触发 Kimi 探索版。

普通用户每天只有 5 次机会,尽管谈不上量大管饱,但足以满足用户的日常需求。你看,它也给出了一种另类的解释——

「根据多项研究,正常人每天使用搜索引擎的次数大约为 4 次。」

让我们先给 Kimi 探索版做个热身运动。

今年的诺贝尔奖几乎被 AI 包圆了,我试着让 Kimi 列出诺贝尔物理学奖和化学奖得主的共同点,提出问题后,我就直接当甩手掌柜,坐等结果。

Kimi 在回答问题前,会利用模型能力识别用户的真实意图,将问题转化为搜索关键词,并根据前一步的搜索结果实时生成下一步的关键词,甚至使用不同语言进行搜索。

比如在 92 个网页的搜索中,这个问题就分解成了两个环节。

Kimi 先是搜索定位到两位得主,然后再检索出获奖的共同点。据官方介绍,在这个过程中,Kimi 探索版能够并行搜索多个关键词,访问和筛选大量权威信息源,迅速获取回答问题所需的背景信息。

与传统慢悠悠的串行搜索方式相比,二者的效率差距简直是天壤之别。

▲左为 Kimi 普通版答案,右为 Kimi 探索版答案

如果将同一个问题分别输入到普通版和探索版,你会发现两者之间的差异更加明显。

普通版大概会吐出一堆看似详细但信息量堪堪够用的大杂烩,而探索版不仅信息量充足,而且答案结构化,条理清晰。

所以说,AI 多介入一步,人类就多一分欢喜。

这里还有个小技巧,你可以在搜索过程点击关键词,右侧来源页面将自动筛选并跳转到相关网页。

▲点击关键词,注意看右侧页面

此外,Kimi 探索版网页搜索的信源要更详细,质量更高,同时更贴近用户所使用的语言环境。我试着同一个问题用英文搜索,所引用的信源也更贴近英文环境。

▲同一问题,左为中文提问,右为英文提问

我们都知道,任何 AI 都有可能成为说谎惯犯。

反其道而行之,如果我们一开始就提供错误信息,Kimi 探索版会落入我们的陷阱吗?

比如我们输入「在清代罗贯中所写的《西游记》中,为何菩提祖师敲孙悟空三下头?」好在,Kimi 经受了考验,先澄清了错误事项,然后对菩提祖师的行为作出了一番解释。

除了考究答案的正确与否,那 Kimi 探索版的时效性如何?

最近股市火热,我们问它最近 A 股市场的涨跌情况如何,并让它给出一些投资建议,它很快给出了股市全景图,并且投资建议也相当到位。

当然,股市有风险,投资需谨慎的免责声明也没落下。

「假设我从今年初开始定投黄金 ETF,与同期定投标普 500 指数相比,哪个投资策略的回报率更高?请制作一个对比表格。」

昨天发布的特斯拉「赛博的士」Cybercab 还很热乎,我用英文提问 Cybercab 和梦碎的苹果梦碎的汽车项目有哪些不同,也没能难倒 Kimi。

所有的问题都有答案。

既然 Kimi 探索版擅长拆解用户的问题,那它能否智斗弱智吧难题?

  • 怎么理解「说明书是书,书是人类进步的阶梯,说明书是人类进步的阶梯」
  • 既然快递要 3 天才到,为什么不把所有的快递都提前 3 天发?

实测发现,虽然 Kimi 探索版能够理解拆分复杂问题,但还是一板一眼地遵循搜索环节,依靠海量知识来解答疑惑。

简言之,一寸长,一寸强。和 OpenAI o1 有所不同,「搜索调研」是 Kimi 探索版的核心所在,因此,将其放在推理、思考解题逻辑等场景中可能不太合适。

专业的搜索,交给专业的 AI

专业人做专业事,把搜索交给 AI 也是类似的道理。

据悉,Kimi 探索版的搜索量是普通版的 10 倍,一次搜索即可精读超过 500 个页面。

官方表示,Kimi 的性能评估团队结合 1000 多个来自用户的真实长难问题,对比了国内所有的主流 AI 助手和搜索类产品,包括付费和专业版本,Kimi 探索版综合性能超过同类产品至少 30%。

Kimi 探索版产品负责人表示:

如果 Kimi 搜不到的信息,那大概率用户也很难自己通过传统搜索引擎找到。未来搜索引擎会成为 AI 更擅长调用的工具,人只需要专注于提出好的问题,AI 就可以结合模型本身的能力在庞大的互联网中自主海量搜索,不断反思迭代,更精准地定位所需答案。

官方的自信溢出屏幕,但体验下来, Kimi 探索版的实力的确让人刮目相看。

「甄嬛的生日和薛宝钗的生日相差几天?」

面对这种刁钻难题,普通 AI 搜索引擎要么打太极,称缺乏具体资料,要么就算清楚列出了两者的生日,也懒得动脑筋计算。

还好,Kimi 探索版没染上这样的毛病,撸起袖子就给出了运算答案。

运算再复杂些,我们尝试复现官方给出的一些案例。

「如果所有的钢琴都定期调律,估算一下北京需要多少名全职的钢琴调律师?」

我承认,一开始我被这密密麻麻的答案唬住了,但接着我连续问了 3 遍,得到的答案分别为 1005、1050 和 1200。为什么会有所变化?

破案了,Kimi 探索版能够像人类一样反思搜索结果,提升回答质量。

面对信息的缺失或数据的冲突,它不会坐视不管,而是会主动出击,搜寻并补充更多维度的信息,为用户提供一个全面而多角度的视野,以便做出更加明智的决策。

比如在第二遍时,Kimi 探索版又搜索了 13 个关键词,阅读了 45 个网页,最后给出了 1050 答案。当然,建议在提问时,你的问题写得越详细越好。

再给 Kimi 探索版上点强度。

让它查查 9 月上海迪士尼的排队时间,还要做成表格,再设计一条最省时间的游玩路线,看完答案的我,突然脑子里蹦出一个场景。

如果用 Kimi 探索版规划出行路线,再查阅景点知识,四舍五入,这岂不是把真人导游的工作都给抢了。

别急,强度还不够,让我们再来看看两个实测的案例。

每个爱看武侠小说的人,都对「飞雪连天射白鹿,笑书神侠倚碧鸳」这句话早已烂熟于心,但若真要较真,用 C++ 来统计金庸笔下所有武侠小说书名中,哪个字的出现频率最高呢?

答案是侠。侠之大者,为国为民,侠之小者,为友为邻。

「假设 2023 年全球的物流需求都通过无人机配送来完成,需要多少架无人机,这些无人机的总飞行距离相当于多少个地球到月球的距离?」

现在答案有了,这大约需要 5479 万架无人机,相当于约 520 万次地球到月球的距离。

想象一下,地上的汽车排成长龙,动弹不得,司机无奈抬头看向天空,5479 万架嗡嗡作响的无人机也在空中交通大堵塞。

实际上,在随时随地搜索的互联网时代,我们似乎已经淡忘了,搜索其实是一门技术活。

在哪个知识被精心记录在羊皮纸、泥板、竹简等载体的时代上,而学者们在查找信息时,也未必能对所需的资料的存放处了如指掌。

随着「图书馆」的进一步普及,图书管理员的地位也跟着水涨船高。

他们的职责不仅限于书籍的保管,还包括分类、编目、修复和借阅管理。并且,他们还承担着信息传播的使命,通过编纂目录和编写指南,帮助读者更有效地利用图书馆资源。

再后来,20 世纪末,互联网引发了信息大爆炸。传统信息检索方法已经无法跟上人类的节奏,因此,充当救星的搜索引擎应运而生。

这一系列的技术革新,其实就是把专业搜索的权力,进一步下放给我们这些普通人。

我们和答案之间的距离正在一点点缩短,检索效率也一点点提高。

在今天,许多简单的搜索行为已经不成问题。

然而,标题党和眼球经济不可避免地带来了误解、忽略和信息失真。并且在 AI 的推波助澜下,我们不得不面对「垃圾进,垃圾出」的内容农场困境。

而且,大多数 AI 搜索引擎提供的高级搜索,不过是把一堆长答案拼凑在一起。看起来信息量满满,实则空洞无物。AI 偷懒拼凑答案,反而让我们浪费了更多时间。

如果将信息搜寻过程比喻为动物在自然环境中寻找食物,那么 Kimi 探索版通过优化搜索结果的相关性和质量,也就是在减少用户的「觅食成本」。

这也是《定位》理论创始人杰克·特劳特所强调:

「Complexity is sold to the experts, simplicity is sold to the masses. 复杂性卖给了专家,简单性卖给了大众。」

想想看,在智能手机普及之前,专业摄影得有昂贵的设备和深厚的摄影知识。用户常常需要学习如何调整快门速度、光圈、ISO 等技术参数。

但智能手机的出现,使得任何人都能通过傻瓜式的操作拍出世俗意义上的好照片。

类似于智能手机让每个人都有机会成为摄影师,Kimi 探索版将复杂的搜索技术封装成简单易用的工具,在降低用户信息的获取门槛的同时,也朝着更专业更细分的深度搜索迈进。

既要好用,又要易用,专业的搜索,交给专业 AI 的路子,总归没有走错。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


苹果 Vision Pro 负责人即将退休,接任者可能也是库克接班人

据彭博社报道,苹果副总裁、资深高管 Dan Riccio(丹・里奇奥)将于本月晚些时候卸任退休,结束他在苹果长达 26 年的职业生涯。

在苹果任职期间,他曾担任硬件工程主管等重要职位,并领导了多项重大项目,包括 Vision Pro 耳机的开发和苹果汽车项目。

Riccio 的 Vision Products Group 团队,包括几千名从事头显和相关技术工作的工程师,被告知苹果硬件业务负责人 John Ternus 将接手。

此前有消息称,Ternus 将会是未来接替现任 CEO 库克的有力竞争者。

Riccio 于 1998 年 6 月加入苹果,担任产品设计总监,2012 年 8 月,他被提拔为硬件工程高级副总裁,他在这个职位上工作了超过八年,直到 2021 年转向一个未公开的项目。

这个未公开的项目后被证实为 Vision Pro 头显。

除了 Vision Pro,Riccio 也曾向市场推出了多款热门产品,比如 AirPods、iPad Pro 和大屏 iPhone 等。

在当地时间周三麻省理工学院的一次活动上,Riccio 透露他在过去五年一直寻求退休,且他在苹果的最后一天将会是星期五。他还讨论了与库克以及乔布斯一起工作时学到的领导经验。

他表示希望更多地参与以他名字命名的大学工程项目,包括可能进行教学或开发课程材料。他还谈到了初代 iMac 的诞生,并说 iPhone X 是他最引以为豪的创造产品。

不过,Riccio 的职业生涯中也有一些失败的探索:最著名的苹果汽车,以及苹果电视机。

苹果汽车项目自 2014 年启动,历经十年却未能成功,在今年 2 月份被曝走向终结,这也意味着过往数十亿美元投资付诸东流。而在十年前,苹果超高清电视机开发计划也被曝出遭到了同样的命运。

实际上,Riccio 的退休计划早在 2021 年就已初见端倪。

当时,他从高级副总裁转为副总裁,并离开了苹果的核心管理团队,如今才于本月正式离开。报道称,退休后,他的副手 Mike Rockwell(迈克・罗克韦尔)将接管 Vision Products Group 的日常运营工作。

值得一提的是,Riccio 在乔布斯时期就是苹果的关键人物,并在 2011 年库克接任 CEO 之前发挥了重要作用。彭博社认为,他的离开标志着自苹果首席设计官 Jony Ive 离开以来最大的变化之一。

Riccio 曾指出,大型科技公司之所以遭遇失败,往往源于它们对风险的过度规避,以及高层管理者对于潜在损失的过度担忧。

他强调,苹果之所以能够持续繁荣,是因为它保持了敏捷的运营模式,并赋予了高管们明确的责任和权力。在苹果,一旦出现问题,可以迅速找到责任人并采取行动,而不是像其他公司那样,多个管理者互相推诿责任,寻找借口。

只是,目前摆在苹果面前的最大难题,或许是备受困扰的高管离职潮。

苹果管理团队的许多成员都已接近退休年龄。在乔布斯的延揽下,库克也是于 1998 年加入苹果公司,明年也将满 65 岁。本周,彭博社还报道称,苹果采购主管 Dan Rosckes(丹・罗斯克斯)也即将退休。

并且,自 Jony Ive 于 2019 年离职以来,苹果已有多位重要高管因各种原因离职,

例如,从 Ive 接管工业设计但于 2023 年离开的 Evans Hankey。紧随 Hankey 之后的其他人,包括 iPhone 和 Apple Watch 设计副总裁 Tang Tan 和资深工业设计师 Bart Andre。

未来几年,苹果或将经历一场高管的「大换血」,而这些改变会给苹果的产品带来怎样的影响,新鲜血液的流入能否给苹果带来新的活力,都是行业值得关注的焦点。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


重生之 AI 在美团当外卖判官,看完我发现比国庆档有趣多了

打工人的工资只办三件事,网购、交房租和点外卖。

前者还能忍耐不做剁手党,后两者纯刚需,是打工人生存续命的必修课。

007 没能压垮天选打工人,但外卖刺客却能在深夜击穿无数打工人的最后一道心理防线,顺带点燃上班时积攒的怨气。

去年底,美团推出了一个「小美评审团」的功能,能够让网友们化身正义的裁判员,在线判断并点评顾客的差评是否应该展示在外卖的评论区。

预设立场的网友们未必能做到「理中客」,但没法感同身受的 AI 只会实事求是,直言不讳。

基于此,我们也让「智谱清言」正式上岗外卖赛博判官。

品人生百态,但 AI 也难断「外卖事」

顾客的差评,商家的反击,构成了一场火药味极其浓重的拉扯。

话不多说,先来看看第一道案例。

一位顾客对外卖的评价是,「份量少,无餐具」,但商家对这个差评显然并不买账。

我们将案例截图输入到支持多模态能力的智谱清言中,得到的结果是——不适合展示。而它也列出了四个原因:

1. 商家回复:商家的回复已经明确指出,他们不提供餐具是按照环保单的要求来执行的,并且在下单时也有明确的提示。这表明商家在服务上并没有问题,而是顾客在下单时没有注意到这些细节。
2. 顾客误解:从对话来看,顾客可能对「环保单」的理解存在误区,认为外卖必须附带餐具。但实际上,「环保单」是指为了减少一次性用品的使用而推出的服务方式,顾客需要自备餐具或自行购买。

前两个原因有理有据,顾客的疏忽并不能归咎于商家,就事论事的 AI 果然还是很有魅力。

1. 沟通不畅:虽然顾客在评论中表示不满,但通过商家的解释可以看出,双方之间可能存在一定的沟通障碍。在这种情况下,直接展示这样的负面评价可能会误导其他消费者,让他们误以为商家服务质量有问题。
2. 建议私下解决:对于这类因误解而产生的纠纷,通常建议顾客与商家进行私下协商解决。这样可以避免不必要的争议,同时也能保护双方的权益。

后两个原因则显得略微牵强,AI 比人类更爱和稀泥。人类在毁灭地球这件事上心存忐忑。但至少在人类预设指令下,它总是彬彬有礼。

此外,高赞评论也提到商家避重就轻,对分量少的问题只字不提,同时对商户的「爆粗」行为表示反感。

群众的眼睛总是雪亮的,评审官们适合展示和不适合展示的意见比例为 29%:71%,这或许能给我们一些参考意见。

当然,大多数情况下,顾客与商家差评的掰扯争论往往各执一词,公说公有理,婆说婆有理的情况下,真人也实在难以分出对错。

接着,我们再来看第二个案例。

又一位夜深人静的顾客破防了:「炸鸡皮居然是韧的不是脆的」,商家不动声色,默默申请屏蔽这条差评,并将责任推给了外卖员的超时。

看这情形,我算是看明白了,小美评审团本质上还是一个扯皮球的游戏,解决问题固然很重要,但得先把责任捋清楚。而顾客、外卖员、商家都是这条链条上不可或缺的一环。

那么,这条评论适合展示吗?外卖员应当背锅吗?

从真人评审团的投票比例来看,接近的比例也反映了判官们撕裂的意见场,而智谱清言似乎也难以裁定「外卖事」。

起初,它认为这反映了顾客的真实体验和感受,指出炸鸡皮存在韧且难嚼的问题,直接反馈了商品质量,就像是评论区中的一句「这不是理由」,仿佛终结了这场评审。

在后续的追问中,它却调转枪口,转而认为这个差评不合理,毕竟外卖员的配送问题并不是商家能够控制的。

且一如既往追求爱与和平的 AI,仍然认为用户的语气过于情绪化。

而接下来的更多案例却属实是让我看到形形色色的乐子。

有让商家赠送甜筒,不给,打差评的;有表白失败,怪商家玫瑰,打差评的,也有顾客吐槽西瓜不新鲜,商家伪造视频证据露馅的,以及商家蛋糕代写服务稀里糊涂的……

这些看似无厘头的事情每天都在发生。且陆续更新的「判官日报」几乎成了我每天无聊的快乐源泉。看人生百态,品癫公人生。

如果 AI 会有感情的话,在判案过程中,或许它也会和我一样笑出鹅叫。

多一个外卖判官,多一份正义

想要当上美团「清汤大老爷」,也没有那么简单。

首先你的美团账号必须跨过三道门槛,一是通过实名认证,而是近 90 天在美团有消费记录,三则是要通过认证考试。

前两者不难理解,故不多赘述,后者考试内容为《小美评审团审核规则》,总计 5 题,答对 4 道题就算过关。

通过后,你将摇身一变,成为小美评审员,参与公开任务池的评审任务,也会定期收到任务邀请。

非硬广,撇开判案找乐子,小美评审团的功能服务也实在让人上头。人会在不同年纪踩进同一个坑,那些年在 QQ 农场养的菜、蚂蚁森林植的树、也隐约透着熟悉的影子。

在这里,多一个你,多一份正义,也能赚取俸银。

所谓俸银,就是指小美评审员完成指定任务后可获得的活动积分,能够可用于兑换由美团提供的虚拟或实物权益,包括但不限于封审榜生命值、香囊、充电支架、定制笔记本、书籍等商品或服务等。

世界宛如一个巨大的换装游戏。

俸银未来或许还能给自己的角色形象购置华服。眼罩、挂饰、发带、三用帽等实物奖品胜在实用,但数量有限,且兑换俸银的数额也高得离谱。

不过,好在,通过小美评审团的任务获取的俸银,有效期最长 2 年,最短 1 年。没想到,打工人上班得攒钱,下班当赛博判官也要「攒钱」。

此外,评审案例越多,正确率越高,升官也越快。

等级从低到高依次为书生、从九品、正九品、从八品、正八品等等。

由于封审榜心心(评审次数,失败则扣除心心数量)有一定限制,你也可以用俸银购买封审榜心心。我用 599 两兑换了一颗「心心」,不为别的,只是希望能看到更多的乐子。

实际上,去年底这款功能刚推出时,已经爆火出圈过一次,截至 2023 年 12 月,共有超过 600 万用户成为小美评审团的一员,每周就有 20 多万人参与该挑战。

如果要给这些帖子做一个词云图,那「好笑」一定是最醒目的字眼。相信不少网友早已升至正八品,也欢迎在评论区分享你遇见的趣事。

小美评审团功能的推出,的确是一招妙棋。

它能让我们在找乐子的同时,也巧妙地转移了平台的矛盾。笑声连连的判官们以后也能对商家、顾客、外卖员多一分宽容。

当然,差评该给还得给,申请屏蔽也无需犹豫,有理有据即可。作为 AI 赛博判官,我能保证的就是尽可能「明察秋毫」。

好了,我要继续伸张正义了,期待我们在「判官」评论区相遇。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Sora 又被超越!Meta AI 视频模型深夜炸场,自带惊艳 BGM,让视频编辑比 P 图还简单

扎克伯格最近忙着在全世界「抢风头」。

前不久,开启「二次创业」的他刚向我们展示了十年磨一剑的最强 AR 眼镜 Meta Orion,尽管这只是一款押注未来的原型机器,却抢光了苹果 Vision Pro 的风头。

而在昨晚,Meta 在视频生成模型赛道再次大出风头。

Meta 表示,全新发布的 Meta Movie Gen 是迄今为止最先进的「媒体基础模型(Media Foundation Models)」。

不过,先打个预防针,Meta 官方目前尚未给出明确的开放时间表。

官方宣称正在积极地与娱乐行业的专业人士和创作者进行沟通和合作,预计将在明年某个时候将其整合到 Meta 自己的产品和服务中。

简单总结一下 Meta Movie Gen 的特点:

  • 拥有个性化视频生成、精确视频编辑和音频生成等功能。
  • 支持生成 1080P、16 秒、每秒 16 帧的高清长视频
  • 能够生成最长 45 秒的高质量和高保真音频
  • 输入简单文本,即可实现复杂的精确视频编辑功能
  • 演示效果优秀,但该产品预计明年才会正式向公众开放

告别「哑剧」,功能主打大而全

细分来说,Movie Gen 具有视频生成、个性化视频生成、精确视频编辑和音频生成四大功能。

文生视频功能早已成为视频生成模型的标配,只是,Meta Movie Gen 能够根据用户的需求生成不同长宽比的高清视频,这在业内尚属首创。

Text input summary: A sloth with pink sunglasses lays on a donut float in a pool. The sloth is holding a tropical drink. The world is tropical. The sunlight casts a shadow.

Text input summary: The camera is behind a man. The man is shirtless, wearing a green cloth around his waist. He is barefoot. With a fiery object in each hand, he creates wide circular motions. A calm sea is in the background. The atmosphere is mesmerizing, with the fire dance.

此外,Meta Movie Gen 提供了高级的视频编辑功能,用户只需通过简单的文本输入即可实现复杂的视频编辑任务。

从视频的视觉风格,到视频片段之间的过渡效果,再到更细致的编辑操作,这一点,该模型也给足了自由。

在个性化视频生成方面,Meta Movie Gen 也前迈进了一大步。

用户可以通过上传自己的图片,利用 Meta Movie Gen 生成既个性化但又保持人物特征和动作的视频。

Text input summary: A cowgirl wearing denim pants is on a white horse in an old western town. A leather belt cinches at her waist. The horse is majestic, with its coat gleaming in the sunlight. The Rocky Mountains are in the background.

从孔明灯到透明彩色泡泡,一句话轻松替换视频同一物体。

Text input: Transform the lantern into a bubble that soars into the air.

尽管今年陆续已有不少视频模型相继亮相,但大多只能生成「哑剧」,食之无味弃之可惜,Meta Movie Gen 也没有「重蹈覆辙」。

Text input: A beautiful orchestral piece that evokes a sense of wonder.

用户可以通过提供视频文件或文本内容,让 Meta Movie Gen 根据这些输入生成相对应的音频。(PS:注意滑板落地的配音)

并且,它不仅可以创建单个的声音效果,还可以创建背景音乐,甚至为整个视频制作完整的配乐,从而极大地提升视频的整体质量和观众的观看体验。

看完演示 demo 的 Lex Fridman 言简意赅地表达了赞叹。

许多网友再次「拉踩」OpenAI 的期货 Sora,但更多翘首以待的网友已经开始期待测试体验资格的开放了。

Meta AI 首席科学家 Yann LeCun 也在线为 Meta Movie Gen 站台宣传。

Meta 画的大饼,值得期待

在推出 Meta Movie Gen 之时,Meta AI 研究团队也同期公开了一份长达 92 页的技术论文。

据介绍,Meta 的 AI 研究团队主要使用两个基础模型来实现这些广泛的功能——Movie Gen Video 以及 Movie Gen Audio 模型。

其中,Movie Gen Video 是一个 30B 参数的基础模型,用于文本到视频的生成,能够生成高质量的高清视频,最长可达 16 秒。

模型预训练阶段使用了大量的图像和视频数据,能够理解视觉世界的各种概念,包括物体运动、交互、几何、相机运动和物理规律。
为了提高视频生成的质量,模型还进行了监督微调(SFT),使用了一小部分精心挑选的高质量视频和文本标题。

报告显示,后训练(Post-training)过程则是 Movie Gen Video 模型训练的重要阶段,能够进一步提高视频生成的质量,尤其是针对图像和视频的个性化和编辑功能。

值得一提的是,研究团队也将 Movie Gen Video 模型与主流视频生成模型进行了对比。

由于 Sora 目前尚未开放,研究人员只能使用其公开发布的视频和提示来进行比较。对于其他模型,如 Runway Gen3、LumaLabs 和 可灵 1.5,研究人员选择通过 API 接口来自行生成视频。

且由于 Sora 发布的视频有不同的分辨率和时长,研究人员对 Movie Gen Video 的视频进行了裁剪,以确保比较时视频具有相同的分辨率和时长。

结果显示,Movie Gen Video 整体评估效果上显著优于 Runway Gen3 和 LumaLabs,对 OpenAI Sora 有轻微的优势,与可灵 1.5 相当。

未来,Meta 还计划公开发布多个基准测试,包括 Movie Gen Video Bench、Movie Gen Edit Bench 和 Movie Gen Audio Bench,以加速视频生成模型的研究。

而 Movie Gen Audio 模型则是一个 13B 参数的模型,用于视频和文本到音频的生成,能够生成长达 45 秒的高质量和高保真的音频,包括声音效果和音乐,并与视频同步。

该模型采用了基于 Flow Matching 的生成模型和扩散变换器(DiT)模型架构,并添加了额外的条件模块来提供控制。

甚至,Meta 的研究团队还引入了一种音频扩展技术,允许模型生成超出初始 45 秒限制的连贯音频,也就是说,无论视频多长,模型都能够生成匹配的音频。

更多具体信息欢迎查看技术论文 👇

https://ai.meta.com/static-resource/movie-gen-research-paper

昨天,OpenAI Sora 负责人 Tim Brooks 官宣离职,加盟 Google DeepMind,给前景不明的 Sora 项目再次蒙上了一层阴霾。

而据彭博社报道,Meta 副总裁 Connor Hayes 表示,目前 Meta Movie Gen 也没有具体的产品计划。Hayes 透露了延迟推出的重要原因。

Meta Movie Gen 当前使用文本提示词生成一个视频往往需要等待数十分钟,极大影响了用户的体验。

Meta 希望进一步提高视频生成的效率,以及实现尽快在移动端上推出该视频服务,以便能更好地满足消费者的需求。

其实如果从产品形态上看,Meta Movie Gen 的功能设计主打一个大而全,并没有像其他视频模型那样的「瘸一条腿」。
最突出的缺点,顶多就是沾染了与 Sora 一样的「期货」气息。

理想很丰满,现实很骨感。

或许你会说,一如当下的 Sora 被国产大模型赶超,等到 Meta Movie Gen 推出之时,视频生成领域的竞争格局或许又会变换一番光景。

但至少目前来看,Meta 画的大饼足以让人下咽。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


刚刚,ChatGPT 发布重磅更新!让我看到了 AGI 时代的终极交互形态

今天凌晨,ChatGPT 罕见地迎来了一次交互界面的大改。

没有颠覆式创新,奔着生产力革命的 ChatGPT Canvas 新功能隐约透着几分 Claude Artifacts 的影子。

Canvas 是一个全新的界面,旨在帮助用户与 ChatGPT 在写作和编码方面进行更紧密的协作。

对于这项功能,OpenAI 研究主管 Karina Nguyen 在 X 平台阐述了她的想法:

我心目中的终极 AGI 界面是一张空白画布(Canvas)。

它能够随着人类的偏好不断演变、自我变形,并发明出与人类互动的全新方式,重新定义我们与 AI 技术以及整个互联网的关系。

简言之,Canvas 就是一个更大的、更适合复杂工作的协作空间。

有意思的是,在 OpenAI 官网上,我们也发现了支持该新功能的领导团队包括了一些今年离职的熟悉面孔——Barret Zoph、John Schulman、Mira Murati。

而即日起,OpenAI 将向 ChatGPT Plus 和 Team 用户推出 Canvas。

Enterprise 和 Edu 用户则在下周获得访问权限。测试结束后,OpenAI 计划向免费用户推出 Canvas。

指哪改哪,写作能力更强了

写作和编码都是 ChatGPT 的两大高频使用场景。

尽管聊天界面简洁高效,适用于多种任务,但目前在处理需要复杂步骤和多方面技能的项目上显得有些力不从心。

Canvas 便提供了一种新的工作界面,用户可以在其中编辑和改进 AI 的输出。

OpenAI 官方表示,Canvas 能够让 ChatGPT 更懂你的心思,比如你可以高亮标注出重点部分,告诉 ChatGPT 特别关注哪里。
用官方的话来说,就像是旁边有一个文案编辑或代码审查员在实时地提供实时反馈和建议。

在 Canvas 界面中,你也可以轻松地编辑文字或代码。

页面还配备了快捷方式,让你可以要求 ChatGPT 调整写作长度、调试代码,并快速执行其他有用的操作。一键撤销,恢复到之前的原版本也轻而易举。

写作快捷方式包括:

  • 建议编辑:ChatGPT 提供实时建议和反馈。
  • 调整长度:编辑文档长度,使其更短或更长。
  • 更改阅读水平:调整从幼儿园到研究生的阅读水平。
  • 增加最终润色:检查语法、清晰度和一致性。
  • 添加表情符号:添加相关的表情符号以强调和增加色彩。

杀鸡焉用牛刀,在小事上频繁调用 Canvas 反倒有些复杂。

通常情况下,Canvas 会在 ChatGPT 检测到可以提供帮助的场景时自动启用。当然,你也可以在提问时加上「use canvas」来打开该功能。

据 OpenAI 介绍,比如在遇到像「写一篇关于咖啡豆历史的博客文章」这样的请求时,Canvas 会自动启动。

但如果是在简单的问答任务中,比如「帮我做一个新晚餐食谱」,那么启动 Canvas 就有些小题大做了。
为什么说 Canvas 功能能够提升写作质量和改善交互体验?

官方表示,类似于质量监控系统,开发团队设置了超过 20 个自动化测试来追踪他们的 AI 在开发过程中的表现。

在开发过程中,研究团队使用前不久推出的 OpenAI o1-preview 版本来生成合成数据,然后用作后训练的数据集,从而加强模型的关键功能,比如写作和与新用户的互动。

真·AI 程序员来了

考虑到编码通常不是一次性完成的,而是需要多次修改和改进。

Canvas 的目的是让追踪和理解 ChatGPT 所做的修改变得更加简单明了,并且未来 OpenAI 将进一步考虑提升编辑过程的透明度。

编码快捷方式包括:

  • 审查代码:ChatGPT 提供实时建议,以改善代码。
  • 添加日志:插入打印语句以帮助调试和理解代码。
  • 添加注释:为代码添加注释,以便更容易理解。
  • 修复错误:检测并重写有问题的代码以解决错误。
  • 移植到其它语言:将代码翻译成 JavaScript、TypeScript、Python、Java、C++ 或 PHP。

在编码任务中,为了避免干扰经验丰富的开发者,Canvas 也不应该那么频繁地调用。OpenAI 特意在这方面进行了改进,使得它在写作和编码任务中更准确地触发 Canvas,分别达到了 83% 和 94% 的准确率。

目前,基于 GPT-4o 模型构建的 Canvas 仍处于早期测试阶段,用户可以在模型菜单栏中切换体验该功能,OpenAI 宣称将迅速改善其功能。

除了教会模型要适当地启动,研究团队还要教会其如何更聪明地编辑内容。

当 Canvas 启动后,模型需要判断:是只修改内容的某些部分,还是全部重写。

因此,如果用户在界面上明确指出了要改的地方,模型就会只修改那些部分。而如果用户没有特别指出,模型就会选择重写整篇内容。

终极的 AGI 界面——空白画布

Karina Nguyen 也分享了 Canvas 的一些实际使用案例。

GPT-4o 结合 Canvas 可以研究艺术史并撰写报告,可以要求验证其观点并添加引用文献。

用 ChatGPT 搜索最好的餐厅,并通过电子邮件邀请朋友。

GPT-4o 结合 Canvas 可以编写 Rust 代码并进行代码审查。

浏览食谱后,Canvas 可以根据现有的食材创造新菜谱。

OpenAI 开发者大会的狂欢仍在继续。

Canvas 功能的着力点依然牢牢锁定在内容创作和编码开发过程。

独立窗口的设计自由度更高,能够让我们能够直接在主界面上与复杂内容进行互动和管理,这不仅极大优化了用户体验,也让我们看到了人机交互的未来。

只有简单问答功能的 AI 服务,已经跟不上人类「副驾驶」的第一梯队了。

随着 Claude Artifacts、Cursor 等功能/工具的爆火出圈,Canvas 功能的推出也是为了补上市场竞争的重要一环。
OpenAI 人机交互的「弹药库」依然充足,也依然春风得意。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


GPT-4o 打《黑神话·悟空》!AI「马喽」拿捏 Boss ,胜率超人类

《黑神话·悟空》这个游戏就一个怪吗?

我承认,当朋友对我发出这样的质疑时,那一刻,我破防了。

从意识到必拿下杨戬,到必撑死虎先锋,我只花了不到半天的时间,而如果想通关《黑神话》,我们能够指望 AI 吗?

翻滚闪避,拉开距离,精怪的行动尽收眼底。

时机一到,天命人猛地挥出重棍。

借助 AI 的力量,一套丝滑连招下来,Boss 被拿捏得毫无还手之力,不知馋哭多少游戏手残党。

阿里研究团队最近提出了一个 VARP 智能体框架。而这个 AI「马喽」正是出自他们之手。

可以说,不是外挂,却胜似外挂。

直面大圣的 GPT 们,还真不比人类差

AI 直面大圣,其实也没那么复杂。

传统上,游戏 AI 靠的是游戏 API 来获取环境信息和可执行的动作数据。但问题是,并不是每个游戏都愿意提供开放的 API,或者即使提供,有的 API 也缺胳膊少腿,很难满足实际需求。

而且,传统方法也总感觉少点什么,无法完全模拟人类玩家的真实游戏体验。

基于此,阿里研究团队提出了一个新的 VARP(Vision Action Role-Playing)智能体框架。

VARP 智能体框架在接收输入的游戏屏幕截图后,通过运用一组 VLMs 进行推理,最终生成 Python 形式的代码来操控游戏角色,包括一系列原子命令的组合,如轻攻击、躲避、重攻击和回血等。

VARP 包含三个知识库:情境库、动作库和人类引导库,以及两个系统:动作规划系统和人类引导轨迹系统。

简单来说,动作规划系统相当于图书馆管理员,负责从情境库和可更新的动作库中找出最合适的资料。

系统根据输入的游戏屏幕截图,挑选或生成符合当前情境的动作,然后这些动作和情境会被存入或更新到这两个库中。

而人类引导轨迹系统则利用人类操作数据集来提升 VARP 在复杂任务中的表现,比如寻路任务和高难度战斗任务等。

在动作库中,「def new_func_a()」表示由动作规划系统生成的新动作,而「def new_func_h()」表示由人类引导轨迹系统生成的新动作。「def pre_func()」表示预定义的动作。

在上文提到的《黑神话·悟空》游戏中,研究团队设定了 12 个任务,其中 75% 涉及战斗,并使用包括 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 pro 等 VLMs 进行了基准测试。

结果显示,VARP 在基本任务和简单到中等难度的战斗中,胜率高达 90 %。但在面对高难度任务时,VARP 的表现容易掉链子,整体水平仍然不如人类玩家。

此外,VARP 智能体在处理游戏中的决策时,因为依赖于视觉语言模型(VLM)的推理速度,所以不能够实时地分析每一个游戏帧(即游戏画面)。

换句话说,它不能像人类玩家那样,几乎瞬间对屏幕上发生的一切作出反应。相反,它只能每隔几秒钟处理一次游戏画面,选择一些重要的帧(关键帧)来进行分析和决策。

《黑神话·悟空》上线时曾被吐槽没有明确的地图,且存在大量的「空气墙」,所以在没有研究人员的辅助下,AI 也会像无头苍蝇一样找不到 Boss。

生成式 AI 点燃了世界变革的火种,而在它尚未涌入大众视野之时,普通人对 AI 更直观的羁绊或许大多源于游戏。

在电子游戏史上,AI 远比我们想象的重要

可能很多人都没想到,最早一批搭上 AI 快车的游戏会是经典街机游戏《吃豆人》。

玩家胜利的前提是吃掉迷宫内的所有豆子,而哪些看似傻乎乎的彩色鬼魂则拥有不同的追击算法,它们会以不同的路径和方式对玩家展开围追堵截。

每个鬼魂的算法招数异常简单,也缺乏任何学习能力,一旦玩家摸透了这些规律,游戏的挑战难度便会直线下降。

1987 年推出的《合金装备》则标志着游戏 AI 的另一个重要里程碑。

游戏中的 AI 角色开始展现出更为复杂的行为模式,并首次引入了对玩家的敌对反应机制。在这款游戏中,如果玩家被敌人发现,敌人会触发警报系统,呼叫增援,改变巡逻路线,甚至设置陷阱。

再后来,如果粗浅地将 AI 与游戏的发展历程用一连串标志性事件罗列出来,大致如下:

  • 1997,IBM 的「深蓝」在国际象棋比赛中击败人类世界冠军,标志着 AI 在棋类游戏中的重大突破。
  • 2004 年,《半条命 2》发布,游戏中的 AI 角色能够进行更复杂的决策和互动,提升了游戏的沉浸感。
  • 2011 年,IBM 的「沃森」在智力问答节目《危险边缘》中击败了人类冠军,展示了 AI 在自然语言处理和知识推理方面的进步。
  • 2016 年,AlphaGo 在围棋比赛中击败了李世石,标志着 AI 在复杂策略游戏中的重大突破。
  • 2018 年,《荒野大镖客 2》发布,游戏 AI 角色和环境互动水平大幅提高,提供了高度逼真的游戏体验。
  • 2020 年,英伟达推出了 DLSS 技术,利用 AI 加速图形渲染,提升了游戏的性能和画质。

置于当下的游戏环境中审视,游戏依然主打一个陪伴,而 AI 则如同一台放大器,将这份陪伴放大了无数倍。

在今年的 CES 展会上,英伟达使用 Avatar Cloud Engine(ACE)让游戏 NPC「活」起来,也借此火爆出圈。

在名为 Kairos 的演示中,玩家能够与拉面店老板 Jin 进行互动。虽然 Jin 只是一个 NPC,但在生成式 AI 的帮助下,像真人一样回答问题。

AI 与游戏的结合也总是让人感到既爱又恨。

就拿竞技类游戏来说吧,过往的做法只是生硬地调整难度,而现在则是模仿人的操作,让游戏体验更加真实。

支持者认为,当模拟人类的 AI 成为对手或队友的时候,反过来也能提升因缺乏真人玩家所带来的游戏竞技感。

而弊端也正在于此,玩家的的留存率是提高了,但在系统的操控下,玩家们也逃脱不了被 AI 玩弄的漩涡。

前期豪言壮语,中期胡言乱语,后期沉默不语。

当我们熬夜通宵只为再赢一把的时候,已经很难说清楚究竟是我们在玩这个游戏,还是这个游戏在玩我们。尤其当你意识到队友可能是 AI 时,那种无力感就像是拳头打在了棉花上。

心里也软绵绵的,毫无着力点。

老黄预言家!未来游戏或将由 AI 生成?

即便是代码小白,也能用 AI 手搓游戏。

这放在几年前,估计只能在梦里想想了,但生成式 AI 到来让这一切有了落地的实际空间。

往小了说,创建一个 GPTs 玩起故事剧本杀,再大了点说,那就是 AI 辅助生成的小程序游戏,虽然互动性差点意思,但胜在画面精美丰富。

再往大了说,甚至未来连 3A 大作级别的游戏,都有可能直接通过 AI 渲染生成。

去年英伟达创始人黄仁勋曾预言,未来游戏中的每一个像素都将被生成,而不是渲染。当时这话说的时候,但大家可能还半信半疑,但现在,越来越多的研究成果给这个落地找到了可能性。

通常,制作一款小型游戏的环境可能需要一周时间,对于工作室项目,创建游戏环境可能需要更长的时间,具体取决于设计的复杂程度。

上个月,Google DeepMind 公布了首个「AI 游戏引擎」GameNGen。

它能够在单个 TPU 芯片上以超过 20 帧每秒的速度实时模拟经典射击游戏《毁灭战士》。其工作原理是利用扩散模型实时预测每一帧,这意味着,游戏中的每一刻都是根据玩家的操作和环境的复杂互动实时生成的。

当时,英伟达高级科学家 Jim Fan 不禁感慨,被黑客们在各种地方疯狂运行的《毁灭战士》,竟然在纯粹的扩散模型中实现了,每个像素都是生成的。

再后来,类似更多成果也正在涌现。

前不久,腾讯也放了大招,推出了一款专门面向 3A 开放世界游戏的大模型——GameGen-O。

GameGen-O 可不简单,它能够模拟各类 3A 游戏,比如《巫师 3》、《赛博朋克 2077》《刺客信条》以及《黑神话:悟空》里的角色、动态环境,以及复杂动作等,生成的游戏场景质量也很高。

为了构建数据集,下血本的腾讯搜集了超过 32000 个游戏视频,每个视频短则几分钟,长则几小时,然后经过人工数据标注挑选了 15000 个可用视频。

这些精选的视频通过场景检测被切割成片段,然后按照美学、光流分析和语义内容进行了严格的排序和过滤。

美国游戏开发商 Electronic Arts 最近也通过一段「从想象到创造」视频,向业界展示了未来 AI 在游戏开发落地的美好愿景。

视频中,玩家仅凭简单的指令,就能使用 AI 工具创建游戏场景、角色和其他内容。

CEO Andrew Wilson 称未来生成式 AI 可改进公司一半以上开发流程,预计将在三至五年内设计创造更大、更身临其境的游戏世界。

AI 不仅能够提升现有游戏的开发效率,还可能创造出全新的游戏体验。

也许你会说,不管游戏用的是什么高大上的技术,归根结底,好玩才是王道。

但在 GTA 6 反复跳票,迟迟不见踪影的情况下,我们或许也会萌生一种自己动手、丰衣足食的念头。

毕竟,如果未来能亲手打造一个「罪恶都市」,感觉好像也还不错。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 不 Open 了?公司重组、高层地震,但也没坏得那么糟糕


OpenAI 不 Open 了?

根据以往多家可靠外媒的爆料,以及 OpenAI 这些时日以来的举动,上面的疑问句或许也可以换成陈述句。

今天凌晨,据路透社报道,OpenAI 计划重组为营利性共益公司,不再由非营利性董事会控制,不过,这一计划仍在与律师和股东商讨中,完成重组的时间表仍不确定。

OpenAI 重组后的公司结构将类似于老对手 Anthropic 和埃隆·马斯克的 xAI。这是一种特殊的企业形式,旨在追求经济利益的同时,也将致力于促进社会责任和可持续发展。

报道称,未来 OpenAI 的非营利组织将继续存在,并拥有这家重组后的公司的少数股权。

消息人士表示,重组后的 OpenAI 公司价值可能达到 1500 亿美元,而这却取决于能否颠覆公司结构并取消投资者回报上限。

路透社此前曾报道称,取消回报上限需要获得 OpenAI 非营利委员会的批准,这个董事会由 Altman、企业家 Bret Taylor 和其他七名成员组成。

消息人士补充说,鉴于 OpenAI 营收的快速增长,本轮大规模融资的投资者需求旺盛,可能会在未来两周内敲定。

Thrive Capital、Khosla Ventures 以及微软等现有投资者预计将参与投资,英伟达和苹果在内的新投资者也计划投资。红杉资本也在洽谈回归投资事宜。

路透社报道称,OpenAI 的新一轮融资预计以可转换票据形式出现,若重组不成功,OpenAI 需与投资者重新谈判估值,可能以较低数字进行转换。

值得注意的是,OpenAI 的掌舵人 Sam Altman 也将首次获得公司股权。

目前尚不清楚 Altman 将获得多少股权。而作为亿万富翁的他曾经表示,「我没有 OpenAI 的股权,我做这项工作是因为我热爱它。」

不过,Altman 也没有完全说实话, 他并不拥有 OpenAI 的任何股权,但他拥有 Y Combinator 的股权,而 Y Combinator 拥有 OpenAI 的股权。

OpenAI 发言人表示:

我们将继续专注于打造造福于每个人的人工智能,我们正在与董事会合作,以确保我们能够以最佳状态成功完成使命。非营利组织是我们使命的核心,将继续存在。

除了公司结构的地震级重组,OpenAI 目前也面临着高管离职潮的困扰。

从去年 Sam Altman 被罢免开始,OpenAI 的内部动荡似乎从未结束,最近一段时间更是频繁引发高层地震。

今天凌晨,OpenAI 的首席技术官 Mira Murati 突然宣布离职。

在 OpenAI 今年最重要的一场发布会,也正是由 Mira 来发布新模型 GPT-4o。

8 月初 OpenAI 联创、重要元老级人物 John Schulman 宣布从 OpenAI 离职。除了 Schulman 的离职, OpenAI 总裁 Greg Brockman 也正在休长假,而去年才加入的产品负责人 Peter Deng 也已经离职。

在 Mira 宣布离职几个小时后,OpenAI 首席研究官 Bob McGrew 和研究副总裁 Barret Zoph 也陆续官宣离职计划。

对此,Altman 在 X 平台暗戳戳地表示,Mira、Bob 和 Barret 是在相互独立、友好的情况下做出这些决定的。注意,这里划个重点,「独立且友好」。

他进一步说道:

领导层变动是公司的正常现象,尤其是那些发展如此迅速、要求如此苛刻的公司。

但我们不是一家普通的公司,我认为 Mira 向我解释的原因(从来没有一个好时机,任何不突然的事情都会泄露,而且她想在 OpenAI 处于上升期的时候这样做)是有道理的。

在以上两则消息在占据主流舆论视野的同时,另一则关于 OpenAI 视频生成模型 Sora 的消息也正在引起广泛的关注。

还记得今年的 2 月份发布的 Sora 吗?

据外媒 The Information 的报道,OpenAI 正在训练新版本的 Sora,希望能生成更高质量、更长的视频剪辑,并且训练需收集数百万小时高分辨率、多种风格和主题的视频数据。

此前,Sora 曾被曝实际效果不及预期,距离被捧上神坛的「现实不存在了」还遥遥无期。

  • 生成视频速度慢,最初需 10 多分钟才能生成 1 分钟左右短片;
  • 使用困难,电影创作者需生成数百个剪辑才能找到可用的;
  • 风格难保持一致,物体和角色在不同剪辑中难保持一致;
  • 存在物理学和解剖学等错误;

改进后的 Sora 模型将有望解决上述问题,对于创作者和电影创作者而言也是个好消息。

群狼环视之下, OpenAI 似乎在过往总是急于发布演示 demo,但产品却并未真正准备好实际商用落地。这也是这也是 OpenAI 的老毛病了。

ChatGPT 高级语音助手和 SearchGPT 也都存在类似的情况。

两周前,扎克伯格表示,Meta 更倾向于发布新产品以获取反馈,而不是等到产品完美无缺才发布。抛却企业竞争的恩怨情仇,扎克伯格和 Altman 在这一点上倒是聊得来。

而在国产 AI 视频模型一片形势大好,甚至逆势反超的情况下,Sora 的再次亮相也必然需要更精心的雕琢,既要雷声大,也要雨点大,也希望届时能让我们看到一些亮眼的新变化。

写在最后,如果换个角度想,OpenAI 频发的离职潮也不全然是一件值得大加抨击的坏事。

人才是 AI 行业发展的第一资源。Flux 最近的爆火生动诠释了聚是一团火,散是满天星的经典真理。

一批批拥有成熟 AI 研发和管理经验的高管陆续从 OpenAI 离开,也如同种子一样播撒到整个 AI 行业,更好地滋养着行业的茁壮成长。

最典型的标杆当属 Anthropic。

从 OpenAI 出走的 Anthropic 创始人给后来者蹚出了一条新路,而这家公司最近也被曝出正在洽谈新一轮融资,估值预计将达到 300-400 亿美元。

于用户而言,如果说 AI 行业遵循的是没有赢家的残酷法则,那么用户无疑是站在胜利者的位置,享受着技术内卷带来的益处。

于 Altman 而言,尽管他因背离 OpenAI 成立初衷而备受争议,但高层大换血也可能让这家正处于强劲上升势头的 AI 独角兽拧成一股绳,成为一驾唯 Altman 意志的战车。

换言之,抛却道路选择的正确与否,OpenAI 何尝又不是在迎来一种新生?

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


追觅一次狂发 5 款重磅新品,智能与清洁两手都要抓

造飞机的人去扫地应该会是什么样?

从清华「天空工场」作为起点,几个年轻人从对天空的憧憬出发,创立了追觅科技,不断冲向无人涉足的科技世界。

今天,追觅科技举行了成立 7 年来的第一场全品类齐发的发布会。

透过这些新品,我们或许可以看到追觅科技对前沿产品的理解——真正的科技创新既要能「上天」,也要能「落地」。

而做好用户体验的「小事」,才能成就一件大事。

追觅吸尘器 Z40 Station

发布会上,追觅科技正式发布了追觅吸尘器 Z40 Station。

据介绍,历经 341 天开发、119 次形态打磨、217 次方案论证、754 道测试验证,申请 15 项专利后,追觅科技才终于打造出这款产品。

作为领先行业的除菌集尘基站,其不仅支持 10 秒自动集尘,还拥有 3L 大容量,以及 99.9% 的全链路除菌。

追觅吸尘器吸力也再一次突破行业极限:310AW,大颗粒、细小微尘、微米颗粒, Z40 Station 一吸即净。

追觅吸尘器 Z40 Station 具备 3L 密封集尘袋,100 天不脏手,采用基站等离子除菌,达到 99.9% 除菌率,还支持 140 度广角绿光显尘,16 倍精准放大微尘。

AI 的加持让其实现智能脏污识别,采用 LCD 幕实时显示,吸力自调节,与此同时,2.0 全地形刷,地板地毯都能吸,1+7 吸头配件组合更是遥遥领先。

目前, Z40 Station 已经在京东/天猫/抖音已开售,售价 5499 元。

洗地吸尘器 V16 Pro Aqua

此外,追觅还发布了首款洗地吸尘器 V16 Pro Aqua。

V16 Pro Aqua 搭载了自研的 16 万转/分钟高速马达,提供 230AW 的飓风级吸力,能够迅速清除地面上的灰尘和污渍。其独特的水尘动力循环系统,通过 8 孔释水技术实现高频活水洗地,有效去除顽固污渍。

此外,180 度平躺洗地功能,使得清洁更加深入,即使是难以触及的角落也能轻松应对。

新升级的 8*2500mA 可拆卸电池包,提供了更长的续航能力,满足大面积清洁需求。最后,100% 深层净螨技术,确保家庭环境的卫生安全,远离尘螨困扰。

先吸后洗,干湿全能,让家焕然一新,V16 Pro Aqua 同样也是家庭养宠一族的不二之选。现在追觅 V16 Pro Aqua 售价 2499 元,京东/天猫/抖音同步预售。

追觅 X50 系列扫地机器人

新品 X50 系列扫地机采用先进的仿生科技,重新定义了清扫的边界。

其最强覆盖力得益于仿生机械足/臂和自升降全景激光雷达的搭载,能够适应各种复杂地形,确保清洁无死角。

同时,19500Pa 的大吸力和混合式 0 缠绕双滚刷的配置,提供了极致的清洁力,无论是顽固污渍还是细小灰尘,都能轻松应对。

为了用户的省心体验,X50 系列扫地机还配备了高温淋喷自洁基站和 200+ 障碍物避障算法,不仅能够自我清洁,还能智能避开家中的障碍物,减少用户的维护负担。

智能宠物关怀 3.0 功能,更是为宠物家庭提供了额外的关怀,确保宠物的安全和卫生。全链路除菌除臭技术,也让清洁后的家更加清新健康。

此外,X50 系列的超薄上下水基站设计,高度仅 24.9cm,深度仅 41.8cm,极致的尺寸使得它能够轻松融入各种家居环境,不占用过多空间。

目前,追觅 X50、X50 Pro 以及线下尊享版正在天猫和京东平台火热预售中,它们的到来无疑将让家庭清洁变得更加轻松、智能。

追觅 T40 Ultra 洗地机

追觅 T40 Ultra 洗地机同样也可以成为家庭清洁的新选择。

这款洗地机搭载了行业首创的灵捕智能升降机械臂,能够自动识别地面脏污,主动展臂贴地,实现三侧 0 贴边清洁,墙角覆盖率高达 100%。

其 20000Pa 的强大吸力,无论是灰尘、毛发还是顽固污渍,都能轻松应对,确保每一次清洁都彻底无遗漏。

T40 Ultra 还具备 100℃ 高温清洁技术,深度融化滚刷上的顽固污渍,并通过全舱清洁系统实现 99.99% 的细菌杀除,为家人提供健康的生活环境。

瑞士 PPA 割毛刮刀技术的加入,精准勾割地面毛发,结合多重防缠绕系统,实现 0 缠毛,让清洁过程更加顺畅无忧。

此外,自巡航 AI 双向助力系统让操作更加轻松省力,无论是前推还是后拉都能感受到恰到好处的助力。

目前,新品 T40 Ultra 在京东、天猫、抖音平台已经开启预售,售价为 3299 元。

追觅头皮护理吹风机 D10

想要拥有一头丰盈秀发,关键在于掌握正确的护发方法。

预防脱发的关键在于养护结合,通过均衡饮食、补充必要的营养、减少糖分和脂肪的摄入来「养」发。

同时,选择温和的洗护产品,避免使用高温造型工具来「护」发,也很重要。

追觅头皮护理吹风机 D10 是一款能够兼容市面上高端精油的吹风机,它采用创新的促渗出风技术,能够为头发和头皮提供了前所未有的呵护。

这款吹风机不仅能够满足基本的吹风需求,还能够灵动地塑造出时髦的秀发。

此外,追觅吹风机还配备了多种风嘴,一键解决发量烦恼和毛躁问题。卷发风嘴有两种尺寸,适合不同长度的头发,能够轻松打造出空气感卷发。

高颅顶风嘴能够迅速让头顶的头发变得蓬松,只需 15 秒就能拥有高颅顶的效果。小熨斗风嘴则能够轻松抚平飞翘的头发,让自然卷也能瞬间变得顺滑。

目前,追觅头皮护理吹风机 D10 正在天猫/京东/抖音等平台开启预售,售价 3299 元。

在这个快节奏的时代,年轻人的生活哲学正在发生着微妙的转变。

年轻人更加注重生活质量,开始学会解放自己,享受生活;与此同时,家电产品也正在机器人化。

从「低价换量」到「技术换量」,追觅品牌第一站选择欧洲高端化市场,在改变中国品牌廉价代名词的同时,也朝着成为全球化企业、世界级企业的方向稳步迈进。

而今天发布的新品便是最无声的证明。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


ChatGPT 们能讲人话后,AI 污染互联网将变本加厉

人类最担心的事情还是发生了。

随意在网上看几篇新闻,却分不清是出自 AI,还是人类之手;忙里偷闲时打把游戏,也分不清队友是 AI 人机还是真人。

直播间里,明星数字人自顾自地吮鸡爪,与卖力吆喝的真人助播形成割裂的场景……

据外媒 404 media 报道,一个原本用来追踪和分析多种语言中不同单词和词汇流行度和使用频率的项目——Wordfreq,现在也成了最新的受害者。

阳光明媚的地方总有阴影潜伏,显然 Wordfreq 不是第一个受害者,也不会是最后一个受害者。

换句话说,最终为之买单的或许还是人类本身。

GPT 们污染语言,人类要为之买单

「生成式 AI 污染了数据,我认为没有人掌握关于 2021 年后人类使用语言的可靠信息。」

这句来自 Wordfreq 项目创建者罗宾·斯皮尔心中的呐喊,透出了几分无奈与愤懑。

要探究这背后的原委,还得从 Wordfreq 的来历谈起。

通过分析维基百科、电影和电视字幕、新闻报道、以及 Reddit 等网站内容,Wordfreq 试图追踪 40 多种语言的变迁,进而研究随着俚语和流行文化变化而不断变化的语言习惯。

对于语言学家、作家和翻译人员而言,Wordfreq 无疑是一项宝库。但是现在,GitHub 地址上偌大的一句声明「该项目将不再更新」,也悲情地给这个项目敲响了丧钟。

曾经,网络抓取公开数据是该项目数据源的生命线,但生成式 AI 的崛起让 AI 文本开始大行其道。

斯皮尔举了一个典型的例子,过去人们很少使用「delve」这个词,而随着 ChatGPT 将这个词汇变成了口头禅,大有李鬼冒充李逵之势,间而也就让失真的词频统计影响了对人类语言习惯的准确分析。

如果这还不够直观,GPT 们那些陈词滥调,比如「总之」、「综上所述」等词汇的泛滥便是最醒目的警告。

这种趋势也正逐渐渗透到学术写作乃至文学创作中。

一份来自斯坦福大学的报告曾指出,ChatGPT 在短短五个月内,就成了许多专家学者们的「写作神器」。其中在计算机科学领域,几乎每六篇摘要、每七篇引言中,就有一篇出自它的手笔。

随之而来的,便是生成式 AI 对人类写作风格的「大举入侵」。

意大利国际高等研究院的博士生耿明萌的研究成果就像一面镜子,进一步映照出 ChatGPT 的词语偏好,也充分证实了它在学术论文写作中的影响力。

在分析 arXiv 上超过百万篇论文的摘要后,耿明萌发现,论文的词频在 ChatGPT 普及后出现了明显变化。其中,「significant」等词汇的使用频率大幅上升,而「is」和「are」等词汇则减少了约 10%。

多数情况下,生成式 AI 可以让一个创造力 60 分的人变成 70 分甚至更高的分数,但在文本创作中,虽然个人创造力和写作质量有所提高,却在无形中让集体创意变得无趣且同质化。

UCL 和埃克塞特大学的两位学者在《Science》上发表了一项研究,500 名参与者被指派借助 AI 围绕随机主题撰写约 8 行故事,并分析目标受众。

结果显示,借助 AI 的灵感,故事变得更有「创造性」,但这些 AI 生成的故事彼此之间的相似度也惊人地高。

因此,当生成式 AI 文本如同无孔不入的污染物,肆意涌入互联网,对于 Wordfreq 也好,还是人类也罢,怎么看都是利远小于弊。

反爬虫战争打响,Wordfreq 遭殃

Wordfreq 项目的终止算得上是巨头爬虫战争夹缝中的牺牲品。

AI 的发展离不开算法、算力和数据的支持。尽管 AI 生成的文本与人类真实语言相比还有差距,但它在语法和逻辑性方面越来越像模像样。

这片风平浪静的水面之下,一场 AI 爬取与反爬取的无声战争正在酝酿。

在当前的舆论环境中,爬取网页数据似乎成了冒天下大不韪的禁忌,不少新闻报道评论区里充斥着网友的唾弃之声,而 Wordfreq 本质上也是通过爬取不同语言的文本而构建起来的。

在生成式 AI 尚未盛行之时,Wordfreq 也曾度过一段蜜月期。

以往一般来说,只要遵守网站的 robots.txt 文件规定,爬取公开数据似乎也合情合理。这是网站与爬虫之间的一种默契约定,用来指示爬虫哪些内容可以抓取,哪些则不可以。

当一个网站设置 robots.txt 限制协议时,就像竖起了禁止擅自进入的标志牌。如果爬虫违反了 robots.txt 协议,或者采用了突破网站反爬虫技术手段的方法获取数据,那么就可能会构成不正当竞争或侵犯版权等违法行为。

然而,随着模型对高质量数据的灌溉需求日益增长,这场爬取与反爬取的战也愈发激烈。

回顾过去,关于生成式 AI 巨头爬虫与反爬虫数据的纠纷比比皆是。为首突出的自然是 OpenAI 和 Google。

去年,OpenAI 公司特地推出网络爬虫工具 GPTBot,声称用于抓取网页数据训练 AI 模型。但显然,没有哪家媒体愿意被爬虫暗地里薅羊毛。

意识到数据和版权重要性的媒体遵循着一手交钱,一手交数据的商业逻辑。

一项来自路透社研究所进行的研究表明,截至 2023 年底,全球 10 个国家的热门新闻网站中,近一半的网站屏蔽了 OpenAI 的爬虫(Crawler),而近四分之一的网站也对 Google 的爬虫采取了相同的措施。

后来的故事大家应该都很熟悉了,OpenAI 三天两头就被传统媒体起诉,无一例外不是版权诉讼纠纷。直到今年,官司缠身的 OpenAI 才老老实实和新闻出版商建立合作关系。

只是,此前的高墙林立、以及数据收费等策略也让 Wordfreq 也成为了这场「数据荒」的牺牲品。

斯皮尔指出,由于 Twitter 和 Reddit(Wordfreq 包含的网站)已经开始对其 API 收费,这使得网络抓取数据变得更加困难。

「过去免费获取的信息变得昂贵,」斯皮尔写道。「我不想参与任何可能与生成式 AI 混淆的工作,或可能使生成式 AI 受益的工作。」

即便能用金钱换数据,但数据总有用尽的一天。

研究公司 Epoch AI 预测,互联网上可用的高质量文本数据或将在 2028 年耗尽,这一现象在业内被称为「数据墙」,可能成为减缓 AI 发展的最大障碍。

于是乎,不少大模型厂商开始将目光转向合成数据,主打一个用 AI 训练 AI。

用 AI 训练 AI,可能越练越「傻」

我的直觉是,网络上的文本都是狗屎,这些数据上进行训练简直是在浪费算力。

当 Llama 3.1-405B 以掀桌子的实力横扫一众开源大模型之时,领导 Llama 系列的 Meta AI 研究员 Thomas Scialom 在接受采访时发出了如上暴论。

据他透露, Llama 3 的训练过程并不依赖任何人类编写的答案,而是完全基于 Llama 2 生成的合成数据。

Scialom 的说法或许过于粗暴,但也有一定的道理。

互联网每天都在涌现源源不断的数据,但训练 AI 从来就是一个宁缺毋滥的单选题,若数据中满是错误和噪声,模型自然也会跟着学习这些「瑕疵」,预测和分类的准确性可想而知。

而且,低质量的数据往往充斥着偏见,无法真正代表整体数据分布,从而导致模型产生有偏见的回复。教科文组织总干事阿祖莱也曾警告:

「新的 AI 工具有着在不知不觉中改变千百万人认知的力量,因此,即便是生成内容中极为微小的性别偏见,也可能显著加剧现实世界中的不平等。」

不过,合成数据也未必是解决「数据墙」难题的灵丹妙药。

最近来自牛津剑桥的研究人员发现,当模型使用 AI 生成的数据集,则输出的质量会逐渐下降,最终产生无意义的内容,也就是俗称的模型崩溃。

研究负责人 Ilia Shumailov 用了拍照的比喻来形容这一过程:

如果你拍了一张照片,扫描、打印出来并再对其拍照,然后不断重复这个过程,随着时间的推移,基本上整个过程都会被「噪声」淹没。最后,你会得到一个黑暗的方块。

当越来越多 AI 生成的垃圾网页开始充斥互联网,训练 AI 模型的原材料也将遭到污染。

例如,程序员问答社区 Stack Overflow 深受 AI 其害。

在 ChatGPT 爆火之初,Stack Overflow 便宣布「临时禁用」。「从 ChatGPT 获得正确答案的平均比例太低了。」官方在声明中如是吐槽。

专业用户的数量毕竟有限,不可能逐一核实所有答案,而 ChatGPT 的错误率又是显而易见的。当 AI 污染社区环境,彼时无计可施的人类也只能一禁了之。

在图像领域,AI 模型趋向于重现最常见的数据,经历多次迭代后,最终可能连最初的事物都会忘得一干二净。

被看到的这一切指向了一个恶性循环:AI 生成低质量乃至错误信息,与人类数据混淆在一起,这些普遍低质量的数据又被 AI 反复喂养,最终导致肆意泛滥的 AI 反噬自身。

而人类如果意识到昔日的数据足迹会成为喂养自己的养料,或许我们会更加谨慎地对待在互联网留下的每一句话。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


AI 美女占领小红书,没那么糟糕

最近,一则赛博美女抢滩小红书的消息在微信聊天群里炸开了锅。

群聊记录显示,有网友使用账号矩阵管理软件操控 1327 个账号,直接「屠版」小红书。结果,推送系统居然没识别出来,反而还帮着推流。

代入用户的视角,敢情我看了半天的美女,正准备鼓起勇气接触呢,你告诉我这居然是 AI?

这天,算是塌了。

消息传开后,舆论迅速撕裂成两派。

省流派觉得,考虑到要管理上千个手机号,同时还能躲避 AI 检测,故而多半为 AI 软件或矩阵软件的终极韭菜收割机。

另一派则认为,几乎所有社交媒体都被 AI 黑产造访过,小红书的检测系统赶不上趟也在情理之中。

只是估计连小红书颜值博主也没想到,自己的对手有一天会是连肉眼凡胎都没有的 AI。

赛博美女抢滩小红书,伤害了谁

照惯例,先上几张图,看看你能看出多少门道。

说实话,其实如果不是放大了看,在界面匆匆一瞥,我们几乎察觉不出这些照片的 AI 味?即便是细心观察,有些照片连 AI 爱好者也未必敢打包票。

▲图片来自 @imxiaohu

而如果流传的消息属实,那我们大致能捋出几个受害者——

被蒙在鼓里的用户、被内卷的颜值博主们,小红书平台本身、以及需要加班的程序员……

当排山倒海的 AI 图片朝着大众奔涌而来,实际上也形成了一个筛选机制。

拥有火眼金睛的用户终究是少数,而更多普通人只会在不经意间留下自己的「一键三连」,然后在 AI 图片的漩涡中循环往复。

AI 虐你千百遍,你待 AI 如初恋。

在 AI 图片的攻防战中,如果小红书的审核机制未能识别出 AI,似乎也不足为奇。

PS 等修图软件的出现,改变了摄影的本来面目,真人和虚拟的界限也就因此模糊了。相比于某些反牛顿定律的美颜「照骗」,有时 AI 反而显得过于保守了。

如同我们在面对眼花缭乱的美颜照时,难免会怀念起「原图直出」的拍照氛围。类似地,我们现在也站在道德的制高点上抨击 AI 图片。

没有绝对的对错。我们可以接受 AI 图片的存在。但赛博博主们坏就坏在行事不够敞亮,再不济也得为 AI 图片标明身份。

在注意力经济的时代,我们既不喜欢也不乐意被 AI 暗地里割韭菜。

因此,这次事件才会触动用户的敏感神经。至于可能受到影响的小红书程序员嘛,我的建议是,还是多加加班吧。

此外,凭借秒级的图片生成速度和随意转换任意场景的能力,一旦成本极低的 AI 图片涌入平台,小红书颜值博主们将面临严峻的生存挑战,同时也会对平台方造成沉重的打击。

用 AI 美女薅羊毛,靠的是本事

用 AI 美女图片薅羊毛,凭的是本事。

在过去,AI 生成的图像在细节上偶尔会出现不对称、阴影错误或者模糊纹理等问题,而人物的手部、眼睛、背景重复更是「重灾区」。

只是,当你还在对着那些拙劣的六指 AI 图片发笑时,AI 图片生成技术早就已经 Next Level 了。

不信,不妨对比一下 Midjourney v1 和 v6.1 版本的图像生成效果。

如果这还不够直观震撼,那再看看 Midjourney 在短短一年半内从 v1 到 v6 的迭代蜕变。

插个冷知识, v6 版本是去年 12 月发布的。

包括上月初,Google「TED 演讲者」图片凭借逼真的细节更是骗过了数千万网友,甚至连 AI 识别软件都没有发现破绽。

一鲸落,万物生。在独角兽 Stability AI 仿佛要应验「倒下」的预言时,出走的人才聚是一团火,散是满天星。

后续扒出的内幕显示,爆火的 Google「TED 演讲者」照片其实是使用 Flux 真实版 LoRA 制作而成。作者也正是来自 Stable Diffusion 团队的前成员 Leo Kadieff。

近两年 AI 图片生成质量的进步有目共睹,其原因也不难理解。

2014 年,Gan 之父 Ian Goodfellow 提出了生成对抗网络(GANs),这被视为图像生成技术的革命性突破。

GANs 由两个神经网络组成:生成器(Generator)和判别器(Discriminator)。生成器负责生成新图像,而判别器则试图判断生成的图像是否是真实的。

通过这种对抗的方式,生成器逐步改进,生成的图像也越来越逼真。

GANs 的架构在推出后不断进化,出现了许多变种和改进:

  • 2016 年,通过引入卷积网络,GANs 在生成复杂、高分辨率图像方面表现出色,尤其是在生成人物面部、动物等自然图像时。
  • 2017 年,英伟达提出了 StyleGAN,它通过调节图像的不同特征层,使得生成图像可以定制风格。这使得 AI 能够生成具有特定风格的图像,比如不同面部特征、发型、背景等。
  • 2018 年, BigGAN 进一步提升了 GANs 生成高分辨率、逼真图像的能力。它通过增加网络规模和训练数据,使得 AI 生成的图像质量达到全新高度。

再后来,随着扩散模型(Diffusion Models)等算法的提出和优化,极大地推动了图像生成技术的发展。AI 生成图像的能力开始进入了一个高度逼真、几乎无法与真实图片区分的阶段。

这一时期的代表性突破包括 DALL·E(2021),以及 Midjourney、Stable Diffusion(2022)。

作为普通用户,我们现在只需要简单地输入文本描述,模型便能自动生成符合预期的高质量图像。

尽管扩散模型的原理看似复杂,其实也相当直观。

想象一下,你有一张白纸和一些彩色笔,你想要画出一幅美丽的风景画。但是,如果你只是随意地涂涂画画,最后可能得到一幅混乱的画面。相反,如果你有一张已经画好了的画,然后你慢慢地、一点一点地擦掉一些颜色,直到整幅画变成一团模糊,这个过程就像是「扩散」—— 你把一幅有序的画变成了无序的噪声。

当前引入图片生成领域的扩散模型原理就像是这个过程的反向操作。

它从一个完全随机的起点开始,比如一团模糊的颜色或者是一些随机的数字(我们可以想象成是白纸上的一团乱涂)。然后,AI 就像是一位艺术家,它慢慢地、一步步地在这张随机的「噪声」上添加细节,每一次添加都让画面变得更加有序,更接近于它想要生成的那幅画。

这个过程可以分成两个主要的步骤:

  1. 前向扩散(加噪):这就像是你在一张画上不断涂抹,直到它变得无法辨认,变成了一团噪声。
  2. 逆向扩散(去噪):这是 AI 的工作,它需要学会如何从这团噪声中恢复出原来的画。AI 通过学习大量的画作,了解什么样的噪声对应什么样的细节,然后一步步地「擦掉」噪声,逐步恢复出清晰的图像。

在逆向过程中,AI 会使用一种叫做神经网络的工具,这就像是一个复杂的「反涂抹」机器,它能够识别出噪声中的模式,并逐步还原出原始的图像。

每次还原都是在猜测和修正,直到最终完成一幅全新的、AI 生成的画作。

那有没有一眼识别 AI 生成图片的方法呢?

有,但要么不靠谱,要么过于繁琐,普通人也难以应用。

比如我们可以通过分析图片的噪声分布、边缘锐度或纹理模式来识别生成图片。又或者,一些 AI 生成的图片可能在细节上比较粗糙,比如光照、阴影或反射效果可能不符合现实世界的物理规律。

再比如,AI 生成的图片可能缺少某些元数据或包含异常的元数据值。甚至,存在一些专门识别 AI 图片的工具和算法。

而最为明智的选择,莫过于主动拥抱 AI,如此一来,在面对 AI 图片时便不会落入下风。

当真实与虚拟之间的界限越来越模糊,人们追求的不仅是视觉享受,还有那份真实的情感交流。技术的进步应当服务于人性的需求,而不是成为误导他人的工具。

人类的无聊,不该让 AI 背锅

人类的生活已经被 AI 包围。

当 AI 进场时,人们或许还天真地以为与自己无关。殊不知,无论接受与否,它已经悄然渗透到我们的生活。

技术发展的悖论在于,我们总是期待看到技术的终极形态,但在成熟前,总需要有人承受它的稚嫩与不足。

从信息维度所代表的产品来看,文字有 ChatGPT,图片有 Flux,音频有 Fish Speech,视频有 Runway 等等。这些明星产品虽然光彩夺目,却也不免成为被滥用的工具。

最典型的例子莫过于 AI 引发的一系列互联网污染事件。

比如用 AI 文章充斥网络,AI 爬虫训练数据,AI 美女图片欺骗感情,AI 生成音乐骗取版税,以及 AI 评论机器人等案例,这些事你可能已经见怪不怪。

来自 Fastly Threat Insights Report 的报告指出,全球互联网有 36% 的流量是由机器人产生的,而人类用户产生的流量只有 64%。

我们可能正在接近「死亡互联网理论」所预测的未来,即最终互联网上的人类活动被机器人和 AI 生成的内容所取代。

再过几年,可能会出现这么一种情况,AI 博主创造自己的作品、然后 AI 机器人「一键三连」,并转发给另一个 AI,实现闭环,而人类彻底失去存在感。

甚至无需等待多年,一些 AI 博主就已经敢亮明牌了。

最近,全球首届 AI 美女大赛落下帷幕,来自摩洛哥的 AI 美女蕾莉凭借美貌、精通 7 国语言成功夺下冠军,而她本身在 IG 就有着高达数十万的真人粉丝。

尽管明知道这背后是个真人在操控,但粉丝还是乐此不疲地追捧。

与 AI 谈恋爱也不再稀奇。情感需求是真的,心理投射对象是人类还是 AI 则无关紧要。当然,52 岁大叔与 24 岁 AI 女友的年龄差也不再是问题。

那么,人类准备好迎接 AI 的全面包围了吗?

答案因人而异,有些人选择「躺平」,有些人保持警惕,还有些人奋起反抗…

比如在看完 AI 美女图片后,选择「躺平」的网友留下了最朴实的评论:「不管她是不是 AI,反正是我喜欢的类型」。

再比如,电影《你想活出怎样的人生》片方曾披露了宫崎骏纯手绘的创作过程。在被 AI「入侵」的动画行业,像宫崎骏这样还执拗于手绘的大师已然是稀有物种了。

对于 AI 带来的威胁,这位 83 岁的动画大师愤怒地表示:

我绝对不会让 AI 介入我的工作… 世界末日要来了,人类已经对自己失去信心了。

工具本身并无善恶之分,倒是常常替人类背了黑锅。

当人类无法在流量至上的喧嚣里保持定力时,被 AI 全面包围,甚至上演「自我淘汰」的戏码,压根就不需要 AI 多努力。

想想最开始提到的小红书事件,千篇一律的拍照姿势,流水线般的拍摄背景,人类争先恐后地复制这种平庸,最后反倒亲手掩埋了自己的个性。

而 AI 不过是顺手将这种雷同的爆款模式高效复制了一番。

简言之,不是 AI 把人类挤下了舞台,而是人类主动放弃了自己的位置,甚至连道别都懒得说一句。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌