Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

Sora 又被超越!Meta AI 视频模型深夜炸场,自带惊艳 BGM,让视频编辑比 P 图还简单

By: 莫崇宇
5 October 2024 at 07:23

扎克伯格最近忙着在全世界「抢风头」。

前不久,开启「二次创业」的他刚向我们展示了十年磨一剑的最强 AR 眼镜 Meta Orion,尽管这只是一款押注未来的原型机器,却抢光了苹果 Vision Pro 的风头。

而在昨晚,Meta 在视频生成模型赛道再次大出风头。

Meta 表示,全新发布的 Meta Movie Gen 是迄今为止最先进的「媒体基础模型(Media Foundation Models)」。

不过,先打个预防针,Meta 官方目前尚未给出明确的开放时间表。

官方宣称正在积极地与娱乐行业的专业人士和创作者进行沟通和合作,预计将在明年某个时候将其整合到 Meta 自己的产品和服务中。

简单总结一下 Meta Movie Gen 的特点:

  • 拥有个性化视频生成、精确视频编辑和音频生成等功能。
  • 支持生成 1080P、16 秒、每秒 16 帧的高清长视频
  • 能够生成最长 45 秒的高质量和高保真音频
  • 输入简单文本,即可实现复杂的精确视频编辑功能
  • 演示效果优秀,但该产品预计明年才会正式向公众开放

告别「哑剧」,功能主打大而全

细分来说,Movie Gen 具有视频生成、个性化视频生成、精确视频编辑和音频生成四大功能。

文生视频功能早已成为视频生成模型的标配,只是,Meta Movie Gen 能够根据用户的需求生成不同长宽比的高清视频,这在业内尚属首创。

Text input summary: A sloth with pink sunglasses lays on a donut float in a pool. The sloth is holding a tropical drink. The world is tropical. The sunlight casts a shadow.

Text input summary: The camera is behind a man. The man is shirtless, wearing a green cloth around his waist. He is barefoot. With a fiery object in each hand, he creates wide circular motions. A calm sea is in the background. The atmosphere is mesmerizing, with the fire dance.

此外,Meta Movie Gen 提供了高级的视频编辑功能,用户只需通过简单的文本输入即可实现复杂的视频编辑任务。

从视频的视觉风格,到视频片段之间的过渡效果,再到更细致的编辑操作,这一点,该模型也给足了自由。

在个性化视频生成方面,Meta Movie Gen 也前迈进了一大步。

用户可以通过上传自己的图片,利用 Meta Movie Gen 生成既个性化但又保持人物特征和动作的视频。

Text input summary: A cowgirl wearing denim pants is on a white horse in an old western town. A leather belt cinches at her waist. The horse is majestic, with its coat gleaming in the sunlight. The Rocky Mountains are in the background.

从孔明灯到透明彩色泡泡,一句话轻松替换视频同一物体。

Text input: Transform the lantern into a bubble that soars into the air.

尽管今年陆续已有不少视频模型相继亮相,但大多只能生成「哑剧」,食之无味弃之可惜,Meta Movie Gen 也没有「重蹈覆辙」。

Text input: A beautiful orchestral piece that evokes a sense of wonder.

用户可以通过提供视频文件或文本内容,让 Meta Movie Gen 根据这些输入生成相对应的音频。(PS:注意滑板落地的配音)

并且,它不仅可以创建单个的声音效果,还可以创建背景音乐,甚至为整个视频制作完整的配乐,从而极大地提升视频的整体质量和观众的观看体验。

看完演示 demo 的 Lex Fridman 言简意赅地表达了赞叹。

许多网友再次「拉踩」OpenAI 的期货 Sora,但更多翘首以待的网友已经开始期待测试体验资格的开放了。

Meta AI 首席科学家 Yann LeCun 也在线为 Meta Movie Gen 站台宣传。

Meta 画的大饼,值得期待

在推出 Meta Movie Gen 之时,Meta AI 研究团队也同期公开了一份长达 92 页的技术论文。

据介绍,Meta 的 AI 研究团队主要使用两个基础模型来实现这些广泛的功能——Movie Gen Video 以及 Movie Gen Audio 模型。

其中,Movie Gen Video 是一个 30B 参数的基础模型,用于文本到视频的生成,能够生成高质量的高清视频,最长可达 16 秒。

模型预训练阶段使用了大量的图像和视频数据,能够理解视觉世界的各种概念,包括物体运动、交互、几何、相机运动和物理规律。
为了提高视频生成的质量,模型还进行了监督微调(SFT),使用了一小部分精心挑选的高质量视频和文本标题。

报告显示,后训练(Post-training)过程则是 Movie Gen Video 模型训练的重要阶段,能够进一步提高视频生成的质量,尤其是针对图像和视频的个性化和编辑功能。

值得一提的是,研究团队也将 Movie Gen Video 模型与主流视频生成模型进行了对比。

由于 Sora 目前尚未开放,研究人员只能使用其公开发布的视频和提示来进行比较。对于其他模型,如 Runway Gen3、LumaLabs 和 可灵 1.5,研究人员选择通过 API 接口来自行生成视频。

且由于 Sora 发布的视频有不同的分辨率和时长,研究人员对 Movie Gen Video 的视频进行了裁剪,以确保比较时视频具有相同的分辨率和时长。

结果显示,Movie Gen Video 整体评估效果上显著优于 Runway Gen3 和 LumaLabs,对 OpenAI Sora 有轻微的优势,与可灵 1.5 相当。

未来,Meta 还计划公开发布多个基准测试,包括 Movie Gen Video Bench、Movie Gen Edit Bench 和 Movie Gen Audio Bench,以加速视频生成模型的研究。

而 Movie Gen Audio 模型则是一个 13B 参数的模型,用于视频和文本到音频的生成,能够生成长达 45 秒的高质量和高保真的音频,包括声音效果和音乐,并与视频同步。

该模型采用了基于 Flow Matching 的生成模型和扩散变换器(DiT)模型架构,并添加了额外的条件模块来提供控制。

甚至,Meta 的研究团队还引入了一种音频扩展技术,允许模型生成超出初始 45 秒限制的连贯音频,也就是说,无论视频多长,模型都能够生成匹配的音频。

更多具体信息欢迎查看技术论文 👇

https://ai.meta.com/static-resource/movie-gen-research-paper

昨天,OpenAI Sora 负责人 Tim Brooks 官宣离职,加盟 Google DeepMind,给前景不明的 Sora 项目再次蒙上了一层阴霾。

而据彭博社报道,Meta 副总裁 Connor Hayes 表示,目前 Meta Movie Gen 也没有具体的产品计划。Hayes 透露了延迟推出的重要原因。

Meta Movie Gen 当前使用文本提示词生成一个视频往往需要等待数十分钟,极大影响了用户的体验。

Meta 希望进一步提高视频生成的效率,以及实现尽快在移动端上推出该视频服务,以便能更好地满足消费者的需求。

其实如果从产品形态上看,Meta Movie Gen 的功能设计主打一个大而全,并没有像其他视频模型那样的「瘸一条腿」。
最突出的缺点,顶多就是沾染了与 Sora 一样的「期货」气息。

理想很丰满,现实很骨感。

或许你会说,一如当下的 Sora 被国产大模型赶超,等到 Meta Movie Gen 推出之时,视频生成领域的竞争格局或许又会变换一番光景。

但至少目前来看,Meta 画的大饼足以让人下咽。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


全方位超越 Sora,Meta 最新的 AI 视频模型到底强在哪里?

By: 肖凡博
7 October 2024 at 01:11

这两天,视频生成模型领域因为 Meta Movie Gen 的发布,又炸开了锅。

行业内外感叹最多的地方,无外乎两点,一是生成效果自然逼真,还能同步生成与画面匹配的声音,很像当时 Sora 发布后引起的讨论和轰动;二是 Meta AI 的新模型自定义性很强,无论是视频画面比例,还是视频元素与细节,都能根据用户的需求进行调整。

所以,可能会引领视频生成新变革的 Meta Movie Gen 到底有哪些细节?这些在官网和演示视频里的惊艳效果是怎么炼成的?Meta AI 的视频模型负责人 Andrew Brown 专门为 Meta Movie Gen 的理论技术做了解读:

  • Movie Gen 在整体质量和一致性方面显著优于 Sora。真实性和美观性考验照片写实性,Movie Gen 全面获胜。
  • Meta Movie Gen 是一组可以进行文本到视频生成、文本到图像生成、个性化、编辑和视频到音频生成的模型。
  • 扩展数据、计算和模型参数非常重要,将其与流匹配相结合,并转向简单的常用 LLM 架构 (Llama),从而实现了 SOTA 视频生成质量。
  • 我们(Meta AI)是第一个使用 Llama arch 进行媒体生成的人。
  • Movie Gen 是一个 30B 参数转换器,可生成不同宽高比和同步音频的 1080p 视频,最大持续时间为 16 秒(16fps)。
  • 我们(Meta)为 T2V 模型提供了多阶段训练方案。T2I + T2V 联合训练,导致收敛速度慢得多且质量更差。
  • 文本到视频的评估很困难。自动化指标非常差,并且与人类评估没有很好的相关性。

视频生成的「超级个体」

Meta Movie Gen 首发当天,APPSO 在第一时间报道解读了这个最新的视频生成模型,总体来说,Movie Gen 具有四种功能:视频生成、个性化视频生成、精准编辑和音频生成。

先看最基础的视频生成 Movie Gen Video,多模态的能力使得新模型可以胜任多种不同的输入方式,用户不仅可以通过简单的文本、少许提示词生成相应的视频,还能直接把需要处理的图片放到模型里,根据文字要求,让静态的图片变成动态的视频。

▲ 提示文本:一个女孩正在海滩上奔跑,手里拿着一只风筝;她穿着牛仔短裤和一件黄色 T 恤;阳光照耀着她。

你甚至还能让 Movie Gen 帮忙重新生成或者优化一段视频。不管选择哪种输入方式,Movie Gen 目前在官网的演示视频,效果都非常好,人物表情自然,画面细节到位,也能比较准确地按照提示词或文本的要求来生成相应结果。

Andrew Brown 介绍到,在视频生成的过程中,扩展数据、计算和模型参数非常重要,将其与流匹配相结合,并转向简单的常用 LLM 架构 (Llama),从而实现了 SOTA 视频生成质量。

而且,新模型中的 T2V、个性化和编辑模型都来自相同的培训方案。在预训练期间,Meta 首先训练 T2I,然后训练 T2V。使用该模型作为初始化,然后进行 T2V 后期训练,并训练个性化 T2V 和 V2V 编辑的能力。

另外,模型的训练也按照分辨率的高低进行,先是低分辨率(256px)训练,然后是高分辨率训练(768px)。Meta AI 尝试联合训练 T2I + T2V,但这导致收敛速度慢得多且质量比之前的还要差劲。

Movie Gen Video 之所以能够做到逼真的生成结果,本质上还是因为高达 30B 参数转换器模型的卓越能力,这个模型能够以每秒 16 帧的速度生成长达 16 秒的视频,而且最长能够生成 45 秒的高质量和高保真音频。

Meta 官方还在论文中透露:

这些模型可以推理物体运动、主体与物体之间的相互作用和相机运动,并且可以学习各种概念的合理运动。

这句话一共有三层意思,首先是模型本身可以几乎还原出现实世界的物理运动,以及各种「合乎常理」的物理规律,而对于用户而言,看上去「自然且逼真」就是模型技术最成功的地方。

Movie Gen Video 能够准确理解物理世界的运动规律,Meta AI 是下了大功夫的。该团队在数亿个视频和数十亿张图像上,对全新的模型进行了大量的预训练。通过不停的重复、学习、总结、推理和运用,Movie Gen Video 才有了在官网里的优异表现。

接着,模型还能主动模仿学习专业电影的运镜、画面、蒙太奇等。也就是说,通过 Movie Gen Video 生成的视频,还有了类似电影拍摄的专业性和艺术性。

不过 Andrew Brown 提到,文本到视频的评估很困难。因为自动化指标非常差,并且与人类评估没有很好的相关性。也就是说,在视频生成模型研制的早期,生成结果和人们印象中和观察中的真实物理世界差别太大,最后 Meta 还是决定这种真实性的判断,完全依赖人类的评估。

我们花费了大量精力将视频评估分解为多个正交质量和对齐轴。

结果 Movie Gen 在和 1000 个提示评估集上的模型进行比较时,在质量和一致性方面获胜或全面处于同等水平。

最后,模型能在此基础上,推理和创作出接下来的内容,它就像一个专业的导演,指挥着画面里的一举一动;也像一个经验丰富的拟声师,根据视频内容或者文本提示,实时生成和画面一一对应的配乐。

▲ 烟花爆炸瞬间的音效

同步生成音频的能力,依靠得是 Movie Gen Audio。这是一个 13B 参数转换器模型,可以接受视频输入以及可选的文本提示,以实现可控性生成与视频同步的高保真音频。

和 Movie Gen Video 一样, Movie Gen Audio 也进行了「海量」练习,Meta AI 将数百万个小时的音频参考投喂到模型的训练里。经过大量的对比总结,目前模型已经掌握了声音和画面之间的对应关系,甚至还能了解不同的 bgm 会带给观众哪些不同的感受。

因此在遇到有关情绪和环境的提示词时,Movie Gen Audio 总能找到和画面完美契合的音乐。

同时,它可以生成环境声音、乐器背景音乐和拟音声音,在音频质量、视频到音频对齐和文本到音频对齐方面提供最先进的结果。

这使它们成为同类中最先进的模型。

虽然我们不敢就此和官方一样,下一个如此自信的定论,但无论是从官方的视频长度、画面质量,还是背景音乐的贴合程度,Movie Gen Video 相较于以往的视频生成模型,有了非常明显的进步。

而且,和先前的偶像实力派 Sora 相比,Movie Gen 在整体质量和一致性方面都有着比较明显的领先,Andrew Brown 毫不掩饰地说到在这场与 Sora 的比赛中:

Movie Gen 全面获胜。

视频编辑的「全能专家」

在 Movie Gen Video 和 Movie Gen Audio 的协同配合下面,Meta AI 全新的视频生成模型有了全新的能力,不过上述的进步还只是技术基础,同时具备音视频生成能力后,Meta 还继续扩展了全新模型的适用范围,使它能够支持个性化视频的生成。

个性化顾名思义,就是结合用户需求,根据要求生成指定的视频内容。

虽说先前的视频模型也能做到个性化生成结果,但这个结果总是不尽人意,要么是不能更改细节,只能重新来过,要么是在连续更改细节时,画面里的其他元素无法保持一致性,总是会因为新视频的生成而多少受到点影响。

Movie Gen Video 在官网的演示中,很好地展现了他们在这方面的优势。新模型不仅可以按照提示词/参考图像的要求,生成个性化的视频,还能在该视频的基础上,继续优化调整细节,并且保证其他的生成内容不受干扰,也就是「精细化修改」。

与需要专业技能或缺乏精确度的生成工具的传统工具不同,Movie Gen 保留了原始内容,仅针对相关像素。

在创建保留人类身份和动作的个性化视频方面,我们的模型取得了最先进的成果。

这项功能,对于很多自媒体工作室,或有视频编辑需求的人,非常有用,它可以对更改对象进行全局修改,或者细节修改。大到根据文本重新生成整个画面,小到只改变人物的发色、眼镜的样式等。比如可以通过模型来消除背景当中的无关杂物。

或者给原视频换上新的背景,不管是样式还是颜色,都能随时改变,而且还可以把白天秒变成黑夜。

另外 Movie Gen Video 还能针对很多细节做出细微的调整,在保证视频构图、画整体不变的同时,改变人物的衣服颜色、眼镜佩戴样式,主体穿着和宠物毛色等。

比如去除视频里的无关杂物、更换画面背景样式,增加视频细节,改变主体衣着颜色等方面,都是他的强项。

不过这还只是一种畅想,因为 Movie Gen Video 目前只支持 1080P、16 秒、每秒 16 帧的高清长视频,或者最长 45 秒的高质量和高保真音频。这样的画面分辨率以及视频长度,对于一个有创作需求的个体或公司来说,好像都不太够用。

但这种技术的突破,使得 AI 拥有了对视频文件无级调节的编辑能力,个性化定制、精准调节,加上 Movie Gen Audio 打开了视频配音的大门,Movie Gen Video 虽然要等到明年才会和公众正式见面,但以目前官方的演示结果来看,它真有可能为视频、影视和 AI 行业注入新的动力,甚至带来一场新的变革。

包括 Movie Gen Video 在内的最新、最前沿的工具,正在试图打破这种 AI 在视频生成领域的刻板印象,虽然目前以他们的能力,这一天的到来还有很久。

对于视频生成模型来说,一开始很难直接影响,甚至触及到普通人的日常生活,直到有了某部由 AI 创作的电影,可能才会在新鲜感上,引起大众的注意。当下用 AI 做出的电影、番剧、动漫,多少都有些画面不真实、动作很违和的缺点。

Meta AI 也在官网表示,随着模型技术的改善与发展,他们将会与电影制作人和创作者密切合作,整合他们的反馈。当下,无论是 Runway、Sora,还是最新的 Meta AI,都在飞速发展,起码和一年前的生成效果比较起来,可以看到肉眼可见的进步。

AI 技术对人们生活的影响,不一定会在第一时间显现出来,当大家还都在探讨 AI「有什么用」的时候,那它对于大多数人的最大意义,就是多了一个好用的工具、一个好玩儿的玩具:

无论一个人是希望在好莱坞大展身手的电影制作人,还是喜欢为观众制作视频的创作者,我们都相信每个人都应该有机会使用有助于提高创造力的工具。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


创新 vs 混乱:iPhone 在 AI 时代下的牙膏和迷茫_10.ylog

By: Steven
1 October 2024 at 08:01

这是一期 荒野楼阁 WildloG 和 皮蛋漫游记 的串台节目,由我和零号、初号一起,聊聊今年 Apple 发布的新产品以及一些周边的信息,作为 设以观复x两颗皮蛋 合作的那期视频内容的一些补充。

今年 iPhone 16 系列着实挺闹心的,一方面是 Apple Intelligence 的大饼迟迟未能落地,另一方面 Camera Control 独立按键加得有点莫名其妙。但我们还是决定在深入体验和使用 iPhone 16系列之后,能够匹配我们的深度测评内容一起,跟大家聊聊今年库克又挤出来了多少牙膏?

2:03 关键词:初号「过山车」苏志斌「意料之中」零号「Ridiculous」

8:10 AirPods 4 代很值得购买,刀法也足够精准

11:01 AirPods 助听器功能的背后

17:32 中文字体字重的调整

20:11 Siri 物理意义上变快了

22:31 相机控制按键:理想很丰满,现实…….

31:53 Mac 预览和 shownotes 支持 HDR 视频的延伸和补充

36:55 色彩风格+魔改 RAW

40:44 App Intents:让系统 应用互相直接能联动

45:57 Apple Watch:9 代到 10 代减薄的背后,11 代可预期的更大显示尺寸

54:55 相机按键如果是 AI 的视觉按键成立吗?

1:00:40 加了这个按键之后到处都是混乱和矛盾

1:06:25 手机为啥(暂时)不能 edge(显示)to edge(中框)

1:12:19 什么是产品的核心体验?

1:23:34 苹果会做折叠屏吗?

1:34:00 Meta Orion 是否是比 Apple Vision Pro 更正确的验证路线

1:41:54 为什么最好的虚拟现实 AI 设备一定是眼镜?

|登场人物|

苏志斌:从业 15 年的工业设计师,车联网智能硬件企业联合创始人及产品经理

零号:两颗皮蛋的零号,前手机行业产品经理,主管运营和项目管理

初号:两颗皮蛋的初号,前手机行业产品经理,主管内容创作和出镜

|更多皮蛋|

B站@两颗皮蛋 微博@两颗皮蛋 小红书@两颗皮蛋

|拓展阅读|

录这期播客时遗漏的话,聊一聊苹果的设计团队「怎么了」

视频:设以观复 x 两颗皮蛋 联合深度解析 iPhone 16 系列

|相关链接|

若你所使用的播客客户端未能完整显示插图,或遇网络问题未能正常播放,请访问:

荒野楼阁 WildloG 的地址:https://suithink.me/zlink/podcast/

阅读设计相关的各类文章:https://suithink.me/zlink/idea/

|其他社交网络媒体|

苏志斌 @ 知乎|SUiTHiNK @ 即刻 / 微博

苏志斌SUiTHiNK @ Bilibili / YouTube / 小红书

|联络邮箱|

suithink.su@gmail.com

欢迎在 小宇宙、Spotify、YouTube、Apple Podcast 收听本节目,期待你的留言。

Meta 十年秘密研发的全息眼镜,凭什么叫板智能手机

By: 张成晨
26 September 2024 at 23:37

复联 3《无限战争》里有这样一幕,钢铁侠离开圣所上街查看情况,人群四散,他戴上黑框眼镜问助手「星期五」:「我在看什么?」

当他的右手将眼镜取下并变装,眼镜又能自然地融入纳米战甲之中。

这承载着我们对智能眼镜的一种期待,它应当成为洞若观火的「眼睛」,提供周围环境的信息并实时应答,以融入日常穿搭的形态低调存在。

今天凌晨发布的 Meta 首款 AR 眼镜 Orion,至少在概念上很接近了。

与其说它是 AR 眼镜,我们认为更应该称 Meta Orion 为「全息眼镜」。

Meta 希望让用户多种体态、姿势都能成为一种体势语言,全方位参与到交互中。

在扎克伯格的蓝图里,全息影像+眼镜将成为一种无处不在的产品,全息眼镜也是新一代计算终端。

首先,Meta 想要说服你,用智能眼镜取代智能手机,不是天方夜谭。

请问你用 AR 眼镜看到了什么

十年前,当造型奇怪的 Google Glass 面世,大家最好奇的问题主要有三个:

你脸上戴的东西是什么?这个东西有什么用?你戴着它时看到了什么?

Orion 不需要回答第一个问题,它看起来就是一款普通的黑框眼镜,有点像化名克拉克·肯特的超人戴的那种。

扎克伯格希望你可以一直戴着它,平平无奇的设计或许是一个理由,更起决定作用的是,眼镜的重量。

镜框用了更轻的镁材料,镜片由碳化硅而非塑料或玻璃制成,本体只有 98 克,比普通眼镜重,但比 Quest 和 Vision Pro 轻得多。

至于它能做什么,我们可以看到什么,围绕两个关键词展开:AR 加 AI。

先说 AR,AR 的核心是在现实世界中叠加数字信息,扎克伯格称之为「全息图」。

Orion 的特别之处在于,视场角高达 70 度,可能是行业内拥有最宽视野的 AR 眼镜。

较窄的视场角,会限制用户的视觉范围,沉浸感大打折扣。

反之,Orion 可以实现大屏幕娱乐,打开多任务窗口工作,和某人视频通话时像在面对面。

按扎克伯格的话说,这叫「真实的临场感」,无论身在何处,都能和想见的人在一起。

你随时可以调出体育游戏和朋友比赛,或者坐在咖啡店里打开虚拟办公桌,或者在飞机上全屏看电影。

不过,刷网页可以,想看电影的话分辨率还有点低,视频通话比 Vision Pro 的 Persona 少了点沉浸感。

在真机体验中,The Verge 的编辑 Alex Heath ,通过 Orion 上的即时通讯软件 Messenger 和他人视频通话,对方漂浮在一个 2D 窗口里。

然而,这个功能还不成熟,对方看不到 Alex Heath,未来,Meta 计划呈现一个追踪佩戴者面部动作的 avatar(数字化身),可能会是一个卡通全身形象。熟悉的感觉回来了,梦回两年前的元宇宙。

当然,Orion 还保留了 Meta 的基因——社交。两个佩戴 Orion 的人,可以和相同的全息图交互。

Alex Heath 和扎克伯格一起玩了 3D 乒乓球游戏,他们先用扫描二维码的形式配对眼镜,然后使用手部追踪打球,游戏中几乎没有延迟。

至于 AI,可以看我们所看,并帮我们解决问题,像是我们的又一双眼睛和外挂大脑。

比如,用 Orion 的 AI 助手 Meta AI 识别桌子上摆放的食材,然后让 AI 给出一个制作冰沙的食谱。

AI 会先给食材们贴上数字标签,再在上方的浮动窗口中给出食谱。不过,这个食材也摆放得太整齐了,给 AI 降低难度,但不够接地气。

回答了三个问题后,Meta 看好 AR 眼镜的理由,可以总结为三点:

  • 不受智能手机的屏幕限制,物理世界就是画布,满足 2D 和 3D 体验。
  • 集成 AI 功能,感知和理解我们周围的世界,解决我们的需求。
  • 重量轻,适合随时使用,戴着也能看到别人的脸和表情,不影响社交。

不是马上取代手机,而是慢慢让眼镜代劳更多事情

这次的发布会,Meta 的另一款智能眼镜,和雷朋合作的 Meta Ray-Ban,也发布了很多更新功能,接入 Llama 3.2 模型,拥有了更强的视觉能力。

「免提」加「长眼睛」,你走到哪里,它也可以看到哪里,帮你记录车位号码、扫描宣传册二维码、搭配日常穿搭……

▲Meta Ray-Ban

之所以把 Meta Ray-Ban 拎出来说,是因为它也是 Orion 取代智能手机路上的重要一环。

Meta 认为,AR 眼镜的发展路线是渐进的,而非异军突起。

首先是没有显示屏的 AI 智能眼镜,比如 Meta Ray-Ban,主打两方面的功能,一是拍照、拍视频甚至开启直播,可以看成另类的 Go Pro,二是 AI 助手 Meta AI。

它仍然是比较传统的可穿戴设备,使用完整的功能,需要用智能手机将眼镜与 Meta View 应用程序配对。

再是带有小显示屏的眼镜,比如 Meta 明年可能推出的 Hypernova,配备 HUD,而非 AR,可以显示通知、扫描二维码、实时翻译文本等,也需要和附近的手机配对。

Orion 代表了终极形态:成熟的 AR 眼镜,算力足够,让我们出门可以不带智能手机。

Orion 的完全态分成三个部分:眼镜本体,一个手势追踪腕带,以及一个遥控器大小的「计算模块」,三者无线连接。

所以,这款眼镜不需要连接手机或者笔记本电脑就能正常运行,但不能离开计算模块超过 12 英尺(约 3.7 米)。

在 Alex Heath 的体验中,Orion 的多个功能还没有被启用,包括可以拍视频的前置摄像头、计算模块中的 GPS,以及让电子设备通过蜂窝网络通信的蜂窝数据调制解调器。

可以看出,每次智能眼镜形态的升级,都是在封装更多的技术,花费更多的成本,对外形尺寸的限制也更大。

2021 年,扎克伯格将开发 AR 眼镜的难度形容为:

将超级计算机安装到眼镜框内。

从 Orion 目前的原型来看,还有不少问题需要克服,远远达不到理想状态。

它的续航只有 2 小时,虽然已经算很大的突破,但连大电影都看不到结局,有些劝退。

更别说每台的造价大概一万美元,大部分成本在碳化硅透镜上,目前 Orion 只有 1000 副,用于内部开发和外部演示。

总之,在真的加购物车之前,Orion 需要更小,亮度更高,分辨率更高,价格更便宜…… 这些都是工程问题,可以逐步解决。未来,这款眼镜或者还能用腕式可穿戴设备供电。

Meta 表示,第二代 Orion 还要等待几年,预计价格和智能手机、笔记本电脑相当。

但作为用户,我们需要一款 AR 眼镜的理由是什么?

目前来看,相比手机,AR 眼镜主要强在 AR 体验和解放双手,但很多 AI 功能,手机也可以做到。基于我们被手机养成的使用习惯,它更像辅助,而非主力。

扎克伯格清楚,AR 眼镜不会很快把手机赶下舞台,就像当手机成为主流计算设备时,我们并没有把电脑彻底束之高阁。

但他相信,未来我们可以用眼镜做更多的事情,更经常地把手机放在一边。

扎克伯格分享了一段自己的经历,2010 年代初,当他坐在电脑前时,会不自觉地掏出手机做事。

也许十年后的某一天,风水轮流转,眼镜就成为了主角,我们压根不需要随身携带手机,把它留在家里也不会焦虑得满头大汗。

甚至,那些本来不戴眼镜的人,也会需要一副智能眼镜。但颜值即是正义,在这之前,可以把 Orion 设计得更时尚点。

错过了移动互联网时代,所以想定义下一代计算设备

虽然 Quest 头显在游戏玩家群体评价不错,雷朋眼镜也卖得超出预期,在主流的印象里,Meta 仍然是一个做社交、烧钱搞元宇宙的互联网公司,还称不上一家主流硬件公司。

最近用精致穿搭改头换面、不再像机器人的扎克伯格,也想重新定义 Meta。

选择 AR 眼镜,是扎克伯克错过移动互联网时代的亡羊补牢,说是他的二次创业也不为过。

Meta 的事业从 Facebook 开始,Facebook 最初基于网页开发,移动平台的兴起和社交媒体的早期发展又几乎是同时进行。

这意味着,Facebook 在移动互联网的转型中就是个小透明,当时没有参与感和话语权的扎克伯格,在建立自己的社交帝国之后,决定把目光放在未来。

通过争抢下一代通用计算设备的定义权,扎克伯格也有意摆脱对智能手机的依赖,不再受 Google 和苹果的控制,尤其是苹果。

比如,苹果的隐私设置——应用程序跟踪透明度(ATT),规定应用程序在跟踪用户行为、提供个性化广告之前,必须获得许可,一度打击了 Meta 的广告业务。

且不论扎克伯格的愿望能否兑现,Orion 这种 AR 眼镜,确实也让我们看到了新的交互可能。

在手机触摸屏统治世界之后,事情终于再次变得有趣起来了。

控制 Orion 的方式有很多,支持眼动追踪、手部追踪、语音交互,配套的腕带通过肌电图(EMG),实现更加精细的手势操控。

拇指捏住食指,选择内容;捏中指和拇指,调用或隐藏应用程序启动器;用拇指抵住合拢的手掌做出抛硬币的手势,向上或向下滚动。

总之,都挺好记的,有点像掐指一算,忍不住照着学。

相比眼镜上的传感器和摄像头,腕带还有一个明显的好处:我们不必在大庭广众之下手舞足蹈。把手放在背后或者插在口袋里,手势也可以起效。

眼睛、手势、声音,Orion 让我们全方位、全身心地参与到交互中,不动声色,却又自在和自然。

它展现了一种新的数字生活方式:把传感器戴在脸上、绑在手上,它可以为你收集环境信息,提供额外信息,和你多种方式沟通,让你不用双手也能完成很多事情,不刻意交互,又无处不交互,不会与周围环境和他人断联。

Meta 发家的社交,核心是以技术连接人,而 AR 眼镜延续了这一点,连接的是人与人,也是人与环境,让我们看到更多的信息,丰富固有的现实,又不失去真实的世界。

利若秋霜,辟除凶殃。 工作邮箱:zhangchengchen@ifanr.com

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


最强 AR 眼镜来了!Meta 十年绝密项目,你的下一台手机可能是眼镜

By: 肖凡博
26 September 2024 at 06:39

未来的眼镜会长成什么样子?不知道有多少人设想过。

和现在的体积差不多,导航时变成移动的 HUD,视频通话时对方的动态形象悬浮在空中,镜片能显示所有你需要的内容…… 反正就和贝吉塔、钢铁侠戴的那种差不多。

今天凌晨,Meta 发布的首款 AR 智能眼镜 Orion,让我们离这个理想中的产品更近了一点。虽说过去的几年陆续有 AR 眼镜发布,但共性也很明显:要么功能单一只是个移动投影仪,要么体积笨重价格昂贵,完全不适合大众市场。

和先前的产品相比,Meta Orion 不厚重的外观和集成的 AR 功能,让大家再次看到了 AR 眼镜落地的希望。

而且 Meta Connect 2024 作为发布会十周年的重要节点,扎克·伯格还带来了其他新玩意儿:

  • Meta Orion 智能眼镜惊艳登场,AR 体验领先行业;
  • Meta Quest 3S 头显 MR 眼镜发布,Quest 3 的「青春版」没新意但更便宜;
  • Meta AI 继续升级,助力头显硬件有更好的使用体验;
  • Meta Ray-Ban 的 AI 新功能:实时翻译、个性穿搭建议,还能帮你记车位
  • Meta 首个开源大模型 Llama 3.2 亮相,拥有多模态能力。

AI +硬件是今年所有消费电子品绕不过去的话题,那 Meta 究竟是如何将自家的大模型与新品硬件相结合?万众瞩目的 Meta Orion 智能眼镜究竟长什么样子?我们一起来看看。

Meta 首款 AR 眼镜惊艳亮相,花十年「all in」的明日产品

在扎克伯格的构思中,眼镜应该是最佳的「未来派」设备。

在此之前,已经走入大众市场并且取得了不错战绩的联名眼镜 Ray-Ban Meta,成功验证了市场对智能眼镜的接受程度。

但这个产品,只能说完成了 Meta 目标的一半:Ray-Ban Meta 主要提供音频、摄影和部分 AI 功能,简单来说还是一个戴在眼睛上的传统设备。

而被扎克伯格称为「无可挑剔」的完全体,也就是 Meta 首款 AR 智能眼镜 Orion,秘密研发了十年,投入了几十个亿美元,今天终于从保密箱中被取出,露出了庐山真面目。

对这款眼镜的第一印象,自然是这个极其接近普通太阳眼镜的外观设计,马上和市面上现有的「大老粗」竞品拉开了不小差距。

因为眼镜也必须要好看。

当然,这也是因为 Meta 并没有选择将所有的组件集成到一个眼镜的形态上。Meta Orion 一共由三个部分组成:眼镜本体,一个手势追踪腕带,以及一个遥控器大小的「计算模块」,三者无线连接。

这种「分体式」的方案,加上机身采用了更轻的镁材料,Orion 眼镜本体实现了惊人的 98 克重量。作为对比,Snap 上周发布的全新 AR 眼镜 Spectacles 重达 226 克。

▲ 上:Meta Orion;下:Snap Spectacle

更让人印象深刻的是,拥有轻薄机身的 Orion 能够实现 2 小时左右的续航,更粗更重的 Spectacles 只有短短的 45 分钟。

眼镜最核心的 AR 投射能力,Orion 在不少方面做到了「遥遥领先」。

Orion 的镜片并非是玻璃显示屏,而是碳化硅透镜,镜框上微型的投影仪会将光发射在波导中,而波导投射在透镜上,从而显示出具有不同纵深和大小的 AR 虚拟内容(扎克伯格称其为「全景图」)。

据 The Verge 的测试,Meta Orion 的视场角高达 70 度,可能是行业内拥有最宽视野的 AR 眼镜。

根据现有的演示视频,用户可以戴着眼镜打开多个 Meta Horizon App 窗户进行多任务,或者用 Meta AI 对现实世界的事物进行识别、标注。

即使用户的视角从这些窗户上面移开,这些虚拟的投射会一直「存在」,静候用户的目光再次回归。

至于投射的画质和清晰度,用来看图文不是问题,但你暂时不会想用这个眼镜看电影。

Meta 擅长的社交能力也和 AR 眼镜碰撞出了新的花样,通话中的好友会以一个全息投影的形象出现在你的面前,不过目前还比较粗糙。

Orion 也有一个朝内的摄像头用于扫描佩戴者的脸部,生成一个实时的建模,用于和手机用户的视频通话画面。

交互方面,Meta Orion 支持眼动追踪、手势操控和 AI 语音操作,佩戴配套的腕带能够实现更精细的手势操作。

这个腕带可以识别一些手势:拇指捏住食指可以选择内容;捏中指和拇指可调用或隐藏应用程序启动器;用拇指抵住合拢的手掌做出抛硬币的手势,即可向上或向下滚动,总体来说非常自然。

值得一提的是,腕带还提供了触觉反馈,让你知道手势有没有被成功识别,解决了目前 MR 交互的一个痛点。

这个腕带的原理是通过肌电图,来读取与手势相关的神经信号,The Verge 甚至评价它「有点像在读心」。

▲ 图源:The Verge

有了这个腕带,用户可以把目光当作 Orion 界面的指针,捏合当作点击,整体体验非常自然,更重要的是,如果要在公众场合用 AR 眼镜,不用再尴尬地对着空气「发号施令」或者「指手画脚」,双手插兜也能完成交互。

在 Ray-Ban 眼镜上已经初露锋芒的 Meta AI,和 AR 也结合出了新玩法,现在能够进一步和现实世界进行交互。

在实机体验中,The Verge 用 Orion 快速识别、标注了桌上放着的食材,并让 Meta AI 根据这些材料生成了一个奶昔的食谱。


虽然扎克伯格表示,Meta Orion 是一款面向消费者打造的产品,但目前的 Orion 设备还是原型机,只面向部分开发者和体验人员提供,其中包括老朋友黄仁勋。

Meta Quest 3S,平价版 Vision Pro 的样子?

扎克伯格登场不到十秒,就公布了 Quest 3S 的价格,这在一众电子产品的发布会中实属罕见,不过还是得感叹一句,开门见山、只讲重点的感觉,真的很棒。

总的来说,Meta Quest 3S 其实是 Quest 3 的「青春版」,128GB 起售价为 299.99 美元(约合人民币 2108 元),256GB 起售价是 399.99 美元(约合人民币 2810 元)。

从配置来看,Quest 3S 搭载了 Snapdragon XR2 Gen 2 处理器,也就是 Quest 3 的同款,而且也同样支持手部追踪。

看完发布会,我感觉比起 Quest 3S 这个命名,其实叫它 Quest 2 改良版会更合适。先前有消息称,作为更加「性价比」的选择,Quest 3S 还是使用了与 Quest 2 相同的透镜,机身整体会比 Quest 3 更厚重一些。

虽然在硬件配置方面 Quest 3S 不及 Quest 3,但在软件生态的体验上,却和老大哥基本持平,Quest 3S 同样可以在 HorizonOS 中获得丰富的娱乐以及办公功能。

去年 Quest 3 发布后,评价一直褒贬不一,其中最被人诟病的是启用视频透视后,延迟过高和畸变严重,扎克伯格称,经过了一年的优化改进,现在的体验有了很大的升级,特别是在 VR 功能、手部追踪和软件适配这三个方面。

用户现在可以在两款产品上,把 2D 网页直接转变为沉浸式办公,就像 Vision Pro 那样,把在设备中打开的界面放在空间的任何位置。

另外,在 Quest 3S 上的剧院模式,可以把单独的界面扩展成一个巨幕影院,屏幕范围能扩充到整个空间里。沉浸式观影在头显设备上已经不是什么新鲜玩意儿了,能适配多少片源和平台,才是拉开各家产品体验的核心。

Quest 3S 支持目前各大欧美主流的媒体平台,Netflix、YouTube 和 Amazon Prime 等都能使用剧院模式观影。

电影和游戏是 VR 头显的娱乐必备,在此基础上的附加功能,往往也能体现出产品本身的性能,这次发布会还公布了 Quest 3S 的新功能——Hyperscale。

用户通过手机扫描房间的轮廓细节,以及家具摆放的位置,接着就能在 Quest 3S 重新构建出一个接近 1:1 的复原场景。

从发布会的演示来看,场景还原度真的不错,毛边和扭曲不是太多,以后线上沉浸式看房,或者足不出户地游玩博物馆或者名胜古迹,又多了一个可以实现的平台。不过除此之外,场景复原的实用性究竟还有哪些?要如何结合每个地区不同的情况将技术落地,是 Meta 和 Quest 今后需要回答的难题。

Meta 的全称是 metaverse,即元宇宙。Facebook 当年改名 Meta 表明了扎克·伯格对新技术探索的决心,而 Meta 也成了最先一批向元宇宙进军的科技巨头。所以「元宇宙」也就成了每次 Meta 新品发布必提及的部分,尽管他们已经在这个领域碰了很多壁。

扎克·伯格在发布会上介绍,Meta Quest 3S 推出了沉浸式社交的增强功能,Quest 的用户现在可以在设备中创建虚拟形象,和彼此一起通关游戏,或者组队进行健身,又或者去听一场线上的演唱会。

随着 Quest 3S 的发布,Quest 2/Pro 也宣布彻底停产,另外 Quest 3 的价格也从 649 美元降至 499 美元,新产品将在 10 月 15 日后发货。

Llama 3.2 发布,多模态能力让眼镜拥有眼睛

比起几乎没变化、甚至还减配的 Meta Quest 3S,Meta AI 的新功能就被衬托得更有新意。

扎克·伯格在发布会上宣布,Meta AI 正式上线语音功能,用户可以通过 Messenger、Facebook、WhatsApp 和 Instagram 向 Meta AI 提出问题或以其他方式聊天,并获得模拟语音回复。

不仅如此,AI 语音的音色还能自主选择,你可以使用包括朱迪·丹奇、约翰·塞纳、奥卡菲娜、克里斯汀·贝尔等名人在内的 AI 声音。

扎克·伯格还在现场演示了语音功能,总体来说对话响应速度还挺快,回答的内容也比较准确,语音语调听起来又向真人问答更近了一步,而且还能随时打断对话插入新的话题或问题。

虽说中间出现了几次失误,不过作为正在探索和发展中的技术这也正常,扎克·伯格本人多次也毫不避讳,就像他本人说的一样:这是 demo 经常会出现的情况。

另外,通过 AI Studio 功能,用户还能根据自身的需求、爱好等,自主创建相应的 AI 角色,它可以帮助我们生成表情包、提供旅行建议,当然也能进行日常的对话。

不过从效果来看,接下来的 AI 翻译功能则更加实用。目前,搭载了 Meta AI 的终端,都能支持实时语音翻译功能,发布会上的两位发言人,通过佩戴 Meta Ray-Ban 完成了一次即时的跨语种(英语-西班牙语)对话。

Meta Ray-Ban 可以通过麦克风采集对方的语音,并迅速翻译成机主的母语,虽说每种语言的翻译响应速度都不算慢,但句子稍微长一点,中间等待的时间还是略显尴尬,而且 Meta AI 有时候还会抢话。

另一个线上视频的语音翻译效果会更上一层楼,比起上面的实时翻译,我愿称之为「高阶版翻译功能」。Meta AI 可以把线上视频的语音翻译成另一个语种的语音,更厉害的是,它能把原视频说话人的语气、音色,甚至于不同国家读英语时的口音都完美还原。

Meta AI 在发布会上一系列的更新功能,其实都有一个共同的驱动核心:Llama 3.2。

今年七月份,Meta 才刚刚公布了 Llama 3.1 模型,简单来说,超大杯 Llama 3.1 405B 是 Meta 迄今为止最强大的模型,也是全球目前最强大的开源大模型,更是全球最强的大模型。

没想到短短两个月 Llama 3.2 就来了。

Llama 3.2 是 Meta 的首个开源 AI 模型,包括两个视觉模型(11B 和 90B)和两个轻量级的纯文本模型(1B 和 3B),这意味着它具备了多模态的能力,也就是可以同时处理文本和图像,其中轻量级的纯文本模型可以直接在本地理解用户输入的内容。

依靠 Llama 3.2 全新的能力,许多搭载大模型的设备也有了更加广泛的实用场景。除了上文提到的 AI 翻译功能, 有了视觉能力的 Meta Ray-Ban 现在能更深入地协助人们的工作生活,日常起居。

你可以直接咨询 Meta Ray-Ban 可以用牛油果做点啥好喝的饮料,你甚至都不需要在句子里提到牛油果,直接用「这个」等代词就行,因为它看得见。

不知道有多少人有过忘记车停在商场哪里的情况,如果你也是忘记车位编号的常客,那现在 Meta Ray-Ban 就能帮你记下车位号码,以便你忘记时随时调取相应的信息。

拨打海报上的号码,扫描宣传册上的二维码,帮你搭配日常穿搭…… 总之通过眼镜上的摄像头,加上全新升级的视觉大模型等 AI 能力, Meta Ray-Ban 几乎能出现在你生活的每个角落。

也正是因为这颗摄像头的存在,Be My Eyes 和 Meta 的这次联姻才成为了可能。Be My Eyes 是一家通过实时视频和人工智能,将盲人或视力低下的人,与视力正常的志愿者和公司联系起来的公益平台,通过线上实时的视频通话,志愿者/组织可以帮助智障人士解决眼前的困难。

技术的发展不仅在为绝大多数人的生活增值,也极大程度上弥补了特殊群体中,缺失的那一部分,从而让所有人的生活都能更加方便,技术的意义也就在这里展开。

下一代计算设备的曙光已至

虽然早已对 Meta Orion 眼镜有所预期,但当扎克伯格拿出真机的时候,还是给我们带来了科技新品久违的「惊艳感」。

这种惊艳感不仅是因为 Meta 勾勒的未来蓝图足够吸引,更是因为这个产品的实际效果非常接近愿景,The Verge 在体验过后的评价非常精辟:

它不是虚幻的海市蜃楼,也不是实际的产品。它介于两者之间。

这也是 Orion 和许多 Meta 曾经探索过的奇思妙想不同之处:它不是一个难以走出实验室的概念,而是 Meta 选择「all in」的明日产品,是 AI 和 MR 的完美结合。

它是最佳的 AI 设备:可以看用户所看,听用户所听,能结合用户的现实场景,因此能给出更有效的回答。

它也是终极的交互和联系方式:不需要局限于小屏幕,也不必借助厚重的头显,虚拟和现实世界彼此紧密交融,随时可交互,处处是交互。

手机这种计算设备形态已经走到了生命周期的末尾,这已经是行业的共识;而下一代的计算设备,苹果、Meta,甚至 OpenAI 都正在探索。

尽管还是原型机, Meta 给出的答卷 Orion 目前看来确实不赖,至于是否成为手机之后的下一个主流智能终端,还有很多未知数,但扎克伯格对此倒是信心十足。

眼镜和全息影像将会成为一种无处不在的产品。如果我们能让世界上已经拥有眼镜的人,都升级到拥有 AI 和 MR 的眼镜,那么这将成为世界历史上最成功的产品之一,而且我认为它会走得更远。

*苏伟鸿对本文亦有贡献

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


扎克伯格新访谈:智能眼镜是最完美的 AI 助手,也是最终极的数字社交

By: 苏伟鸿
21 September 2024 at 12:22

编者按:

Meta Connect 2024 大会即将在下周举办,科技巨头 Meta 将带来他们在人工智能、增强现实(AR)、虚拟现实(VR)领域的最新进展。

其中,被 CEO 马克·扎克伯格用「无可挑剔」形容的全新 AR 眼镜 Orion,也有望在这场大会上迎来首秀。

本周,扎克伯格作客 Acquired 播客,进行了一场将近 90 分钟的访谈,除了一些创业故事外,还谈到了对 AI、VR、AR 技术未来的看法。

这仿佛是 Meta Connect 大会的「正餐」之前,小扎特意准备的一道「小菜」——访谈中,他详细讲述了对于「智能眼镜」和未来平台的构思,以及 Meta 平台接下来的重点。

以下为访谈的节选,内容经过编辑:

智能眼镜:终极数字社交体验和终极 AI 化身

Q:请告诉我们(智能眼镜)如何诞生的故事

扎克伯格:在 Meta,我们构建社交体验有 20 年了,最初它采用的是网站的形式,然后是移动 App。但我从未想过我们是一家「社交媒体公司」,我们是一家「社交联系公司」,我们正在做的是建设人类联系的未来。

我认为我们的下一章节的重要主题之一是,构建我认为最理想的体验,而不仅仅只是在别人的平台上打造的体验。

我认为你需要的不是一部让你低头看的手机,它会让你的注意力从周围的事物和人身上移开。我认为理想的形式是「眼镜」。

眼镜可以看你所看,听你所听,因此可以成为完美的 AI 助手,因为它们知道你正在做什么事情。

除此之外,眼镜还能将全息影像投射到世界上,这样你与其他人的社交体验就不会局限于手机屏幕上的那些小互动。

可以想象一下,遥远的未来,我们正在进行这样的对话,但也许我们其中的一个人甚至不在现场,就像全息影像。

人们喜欢把一切知识化,但我们很多经验都是非常「身体」的体验。通过全息影像和眼镜,你就能在物理世界中与另一个人一起做事情,这种身体上的临场感不会让你离开正在做的任何事情。

我认为这就是终极的数字社交体验,也是人工智能的终极化身。

这是一个巨大的项目,我们已经为此努力了 10 年。我们需要为全息显示屏创造新的显示堆栈,再进行小型化,才能放入眼镜中。

除此之外,眼镜还需要安装芯片、麦克风、扬声器、相机、眼动追踪等等来了解用户在做什么,电池需要持续一整天。

我们已经为此努力了一段时间,我们非常接近能够展示我们所拥有的第一个原型机器,我对此感到非常兴奋。

我们开发了很多新技术,但在外形上也需要考虑很多因素,因为眼镜也必须要好看。我们和 Ray-Ban 眼镜的生产商 EssilorLuxottica 合作,一起探索究竟能够把什么样的功能都塞进眼镜里,让它们尽可能有用。

▲ Ray-Ban Meta 智能眼镜

当我们实际上开始制作这些眼镜时,我觉得这几乎就是终极 AR 的一个实践项目。

Q:所以在你们最初推出这些(Ray-Ban)眼镜时,ChatGPT 机器人和大模型还不是公众的热点,因此这些产品一开始并不是作为 AI 设备制造和推出的?

扎克伯格:是的,几年前我预测 AR 全息影像会先于全面的 AI 出现,现在我认为可能会是另一种情况。

我记得我打给了智能眼镜的运营负责人,我当时想,我们应该让这个产品做得更好,让 Meta AI 成为它的主要功能。然后我下周就去了他们的小组,他们做出了一个原型,我当时想,这将是一个非常成功的产品。

Q:您认为贯穿公司始终,让公司不断获胜的 DNA 是什么?

扎克伯格:我认为我们是一家专注于人际关系的科技公司,而不是特定类型的应用程序,所以我们从来没有把自己看作是一个网站或社交网络或类似的东西。

对我来说,打造这种眼镜,让人们无论身在何处,都能感受到与另一个人在一起的感觉,是我们今天构建的那种应用程序的自然延续。

开放和闭源

Q:我想谈谈开源和开源技术对你们的重要性。我很好奇你是否会同意「Meta 一直是现代开源技术最大的受益者」。

扎克伯格:我认为目前几乎所有的主要科技公司都主要使用开源堆栈,所以,是的。我的意思是,如果没有开源,我们不可能进行构建。

我想,自上世纪 90 年代以来,这对于任何一家新公司都是如此,对我们来说,开源一直都很重要,也很有价值。

Q:我的意思是,你们是第一家建立在 LAMP 堆栈上的大公司
(LAMP 堆栈:一个开源软件平台,常用于构建动态网站和应用。)

扎克伯格:它很棒,使快速开发和快速迭代变得容易。我们和它的关系也很有趣,因为从顺序上看,我们排在 Google 之后,Google 是第一家建立这种分布式计算基础设施的伟大公司,这对我们来说不是有优势,因为 Google 已经有了,所以我们还不如开放它。开放之后,整个社区的人都会围绕它展开工作。

我们开放计算,让它成为行业标准,现在其他所有云服务平台基本上都在用开放计算,供应链围绕着我们的设计实现了标准化,这意味着供应量更大,生产成本更低。我们节省了数十亿美元,我们使用的产品的质量也会提高。所以,这就是双赢。

我们希望确保我们能够使用领先的 AI 模型,我认为,就像我们想要构建硬件一样,这样我们就能在未来 20 年打造最好的社交体验。

我认为,我们已经在其他平台上经历了太多,不可能完全依赖别人,而且我们现在已经是一家足够大的公司,也不必再依赖他人。我们可以建立自己的核心技术平台,不管是 AR 眼镜、混合现实还是人工智能,所以我认为我们必须这样做。

但这些东西并不像软件那样是单一的,它们是生态系统,当别人使用它们时,它们也会变得更好,这对我们来说也很有好处。

从哲学角度出发,这也符合我们的定位。我们有太多亲身经历,当我们试图在移动平台上构建东西时,平台会禁止我们,这非常让人沮丧。

▲ Meta Llama 3.1 开源模型

Q:谁是你们的竞争对手?

扎克伯格:我们面临着很多竞争,我们所做的事情有很多方面。我的意思是,我们有社交媒体的竞争对手,有平台的竞争对手。

我认为苹果会是我们一个比人们印象中更大的竞争对手。他们也在做很多不同的事情,但我并不清楚。我认为在接下来的 10 年、15 年里,那将是一种意识形态的战斗。

下一组平台的架构会是什么?它们是否会成为苹果一直以来的封闭式、集成化的苹果模式?我的意思是,其实有很多种构建事物的好办法。

我认为,如果你看一下不同时代的计算机、个人电脑、移动设备,它们都有某种封闭的集成版本和开放版本。iPhone 基本已经赢了,我知道现在市面上有更多的 Android 手机,但 iPhone 就像是智能手机的领导者。

我认为存在一种「近因偏差」:可能因为这里几乎每个人都有一台 iPhone,就有一种观点认为这是更好的方式(指封闭)。但我并不认为这是理所当然的。

在 PC 时代,开放生态系统的 Windows 是领导者。我在未来 10 年到 15 的目标是,构建下一代的开放平台,并让其获胜。我认为这将会带来一个更加充满活力的科技行业。

这不仅仅是一场产品竞争,我认为在某些方面,这就像一场非常深刻的价值观驱动和意识形态竞争,围绕着科技行业的未来应该是什么,以及这些平台应该如何开放。

无论是 Llama 大模型人工智能,还是智能眼镜或者其他东西,都应该让开发者,特别是个人,例如我这种在宿舍里起步的人,不需要征得允许就能打造出很棒的东西。

关于未来:虚拟现实和 AI

Q:你在 Reality Labs(Meta 的虚拟现实部门)上花了一大笔钱,让这么多人和资源去做这个项目,肯定是不合适的,我这里有点开玩笑。不过我很好奇,你为什么要如此特殊对待它?

扎克伯格:当你达到我们现在的规模时,你会想,在未来的 10 到 20 年,做什么会是重要的?我们正在讨论如何创造自己的运气,我们可以对事情的发展有一个感性的认识。

我敢肯定,眼镜和全息影像将会成为一种无处不在的产品。就像是以前每个人有手机,后面都换成了智能手机。如果我们能让世界上已经拥有眼镜的人,都升级到拥有 AI 的眼镜,那么这将成为世界历史上最成功的产品之一,而且我认为它会走得更远。

一些早期的 Oculus(Meta 早期的 VR 头显设备)用户跟我说:「创造好(good)的东西和创造棒(awesome)的东西是不同的。」

好的东西就是好的,是有用的,是人们每天使用的东西,因为它为他们的生活增添了什么。但「awesome」是不同的,awesome 令人振奋和鼓舞人心,只会让你对未来更加乐观。

所以我认为到目前为止,我们在社交媒体上所做的东西都非常「好」,超过 30 亿人几乎每天使用他们。

而我现在考虑公司下一个阶段,未来 15 年,我希望我们除了好的东西之外,能够建造更多「棒」的东西,我认为它们都很重要。

所以我认为,我们正在做的很多 Reality Lab 的工作都属于「棒」这个类别我们正在做的很多 AI 的工作都将属于这个类别。应用程序中很多东西也会进入这个类别,但我不知道。

 

完整播客地址:https://www.acquired.fm/episodes/the-mark-zuckerberg-interview

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌