Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

曝 Meta 正开发眼镜版 Vision Pro,将于 2027 年亮相

By: 周奕旨
29 August 2024 at 17:00

上一次,新的科技落地于眼镜,还是 2012 年 Google I/O 大会上发布的 Google glass。

时隔十一年,Apple Vision Pro 的横空出世,再度掀起了一阵头戴可穿戴设备的风潮,受到越来越多的科技厂商关注。

在聚光灯下,眼镜作为日常生活中常见的物品,引起了 Meta 的注意。

据 The Information 近日的一份报告称,Meta 正在研发一个代号为 Puffin 的混合现实(MR)眼镜,Puffin 可以看见显示器之外的环境,并对手部与眼球动作进行跟踪,用于交互。

Puffin 采用「煎饼镜片」(Pancake Lens),这在各种智能眼镜中越来越常见,相比传统的光学系统需要较长的光路来投射图像的方案,煎饼镜片通过使用多次反射和折射来折叠光路的方式,以达到有效减轻镜片重量和厚度,在它的加持下,Puffin 的重量可能在 110g 上下。

这台眼镜的外型还未确定,由于要满足功能需求,Puffin 有一个安装着电池和处理器的外部部件——类似于 Apple Vision Pro 的有线电池组,这个部件也许还需要进行一定的调整。

如果研究顺利,Puffin 有望在 2027 年落地。

Meta 对智能眼镜的痴迷其实早就有迹可循。

早在 2021 年 9 月,Meta 就推出了 Ray-Ban Stories 眼镜,眼镜的边缘安装了一颗 5MP 摄像头,这个「可怜」的参数让它更像一个噱头和玩具,拍摄质量远远比不上同期的手机,这样的表现直接反馈到数据上——直到 2023 年 2 月,该设备月活只有 2.7 万,不到售出总量的 10%。

不过惨淡的销量并没有影响 Meta 的决心,在 2023 年 9 月,Meta 又推出了它的继承者 Ray-Ban Meta。

Ray-Ban Meta 的确像样很多,首先就是升级到 12MP 的镜头终于带来了可用的照片和视频质量,扬声器和存储空间也得到了升级,最重要的是——Meta AI 加入其中。

一个在大模型的加持下,能与你语音互动的眼镜,这个概念有够意思,Ray-Ban Meta 总算是为 Meta 挽回了颓势,在推出以后的 2023 年 Q4 的出货量就超过 30 万副,几乎赶上第一代的全周期销量。

Ray-Ban Meta 的成功甚至引起了 Google 的青睐,并试图于 Ray-Ban 的母公司 EssilorLuxottica 洽淡,将 Gemini 助手引入眼镜中。

在第二代 Ray-Ban Meta 智能眼镜大获成功与 Google 试图搅局的态势下,Meta 并没有躺在功劳簿上偷懒,而是选择抓紧研发并推出更多类型的眼镜,持续扩大 Meta 在头部可穿戴领域的影响力和优势。

扎克伯格早在今年七月接受视频采访的时候就透露了 Meta 的新设备:

我几乎准备好展示一副「无可挑剔」的 AR 眼镜了。

而有消息称,在 9 月底即将到来的 Meta Connect 2024 大会上,Meta 将展示一款内部代号为「Orion」的增强现实(AR)眼镜。

不出意外,扎克伯格讲的那台「无可挑剔」的 AR 眼镜,就是 Orion。

根据多篇报告显示,Orion 眼镜已经开发了近十年,尽管目前看来,想大规模生产还需要几年时间,但 Meta 似乎对它充满信心,Meta 的首席技术官 Andrew Bosworth 直言不讳地讲道:

这是地球上最先进的技术,在消费电子产品领域,这可能是我们有史以来生产的最先进的东西。

至此,Meta 在头戴式智能设备的布局蓝图已经全面展开,并陆续落地:

在纯辅助性智能设备上,有 Ray-Ban Meta 系列智能眼镜;
在增强现实(AR)设备上,即将到来的 Orion 眼镜蓄势待发;
而虚拟现实领域,Meta 的 Quest 头显正在稳步更新;
最近爆料的 Puffin 眼镜,则是精确瞄准了混合现实(MR)领域。

Meta 对智能眼镜如此执着,离不开其 CEO 马克·扎克伯格的影响,他在 2021 年将 Facebook 改名为 Meta 后,就强调了「元宇宙」的概念,并为此大力发展头戴智能设备。

在 SIGGRAPH 2024 大会与英伟达 CEO 黄仁勋的对话中,扎克伯格也再次表达了对智能眼镜极高的期望:

我对 AI 与现实世界通过各种智能眼镜结合感到非常乐观,这将彻底改变教育、娱乐和工作的方式。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


最可能做出 AI 超级应用的,不是 OpenAI

By: 莫崇宇
1 August 2024 at 13:42

换了发型的扎克伯格越来越不像机器人了。

这是网友们对扎克伯格最近形象转变的普遍评价,但看顺眼的网友更多是对他旗下 Meta 公司的认可。时间往回倒退 3 年,当时的「Facebook」或许还指望着改名转运。

改变这一切的根由,不是扎克伯格烧了数百亿美元打造的乌托邦——元宇宙,而是当下科技圈最热的词汇——AI。只不过,从一众巨头脱颖而出的 Meta 仅凭一招「开源」,便在人们心中树立起极大的声誉。

昔之 Linux,犹如今之 Meta。

独一档的 Meta AI 大模型,走上了开源之路

今天,Meta 发布了该公司 2024 财年第二季度未经审计的财报。数据显示,Meta 第二季度营收为 390.71 亿美元,同比增长 22%。净利润为 134.65 亿美元,同比增长 73%。

蒸蒸向上的业绩背后,靠的不是前文所述的 AI,其直接收入来源还是老本行——广告业务,这部分收入占其总收入的 98% 以上。

这也揭示了当前 AI 行业所面临的困境,一眼望不到头的烧钱投入,以及一眼望不到头的利润回笼。

财报电话会议上,Meta CFO Susan Li 也向投资者坦言,公司近期在 AI 领域的投资回报的需要较长时间才能显现。扎克伯格也就投入数十亿美元购买英伟达硬件和其它基础设施等问题直言不讳:

「虽然很难预测 AI 将如何在未来几代人中发展,但现阶段,我更愿意在需求到来之前冒险进行产能建设,而不是等到太迟才入局。」

调侃 Meta 为英伟达优质客户的扎克伯格此前也透露,Meta 计划在 2024 年底向英伟达购买 35 万个 H100 GPU 芯片,预计 Meta 的 GPU 总量将达到约 60 万个。

作为对比,全球 Top 5 的机器学习博士曾发帖自曝,自己实验室里的 H100 数目为零的场景,一下子道出了 GPU 之间的「贫富差距」。

Meta 的高投资换来了 Llama 2 、Llama 3、再到上周深夜发布的最强开源 AI 大模型 Llama 3.1 系列模型的横空出世。Llama 系列模型刷新一次又一次的性能记录,并跻身于当今 AI 大模型的第一梯队。

其中,Llama 3.1 系列模型最大尺寸版本 405B 在多个基准测试中展现了卓越的性能,甚至在某些领域中超越了当前 AI 领域的顶尖模型,如 GPT-4o 和 Claude 3.5 Sonnet。

更重要的是,Llama 3.1-405B 模型的发布也用无可辩驳的实力证明了开闭源只是路线之争,并非影响最终的技术成果。对此,马斯克也在线点赞。

与许多科技巨头不同,Meta 有着投资开源项目的历史,从机器学习库 PyTorch 到 JavaScript 库 React,再到数据查询语言 GraphQL ,包括当下的 Llama 3.1 系列模型都是 Meta 最佳的案例。

扎克伯格所写的长文《开源 AI 是未来之路》也回答了 Meta 选择开源路线的意义。

在他看来,Llama 3.1 的发布将成为行业的一个转折点,大多数开发者将开始主要使用开源模型。而 Meta 有机会做大模型时代的 Linux,成为开源 AI 的领头羊。

全力押注开源的 Meta 也逐步扩大开放性,允许开发者进行模型微调、蒸馏到其他模型以及在任何地点部署。唯一的要求是前缀加上 Llama 前缀,合情合理。

而经过蒸馏的 8B 和 70B 尺寸则印证了模型的另一条路,比起把大模型越做越大,懂得怎么将大模型越做越小也是一门本事。

另外,扎克伯格最近也透露,Llama 4 已经正在训练中,该模型在明年发布时将成为业内最先进的模型,训练过程所需的算力将是其前代 Llama 3.1 的近十倍。

如此看来,或许扎克伯格还得与黄仁勋多交换几次皮衣。

用 AI 重塑一切,Meta 押注下一个未来

Llama 系列底层模型推动了 Meta 在应用层面的全面开花,多点布局。

手握 Facebook、instagram 等社交软件,扎克伯格不止一次谈到社交技术的终极梦想「真正感受与另一个人在一起」。

为此,他耗资数百亿美元豪赌元宇宙,但结果却是当头一棒,而 AI 成了拯救这个未竟梦想的灵丹妙药。几天前,在与黄仁勋的聊天中,他也表示:

我梦想有一天,你可以想象整个 Facebook 或 Instagram 都像一个 AI 模型,将所有不同的内容类型和系统统一在一起,这些内容类型和系统实际上在不同的时间范围内有不同的目标。

因为其中一些只是向你展示,比如你今天想看哪些有趣的内容。但还有一些内容是在帮助你构建你的长期社交网络,对吧?比如你可能认识的人或者你可能想要关注的账户。

扎克伯格希望提供一个可以帮助用户完成不同任务的 AI 助手,每个创作者都可以构建自己的 AI 版本。

话糙理不糙,尽管那场 QA 采访被办成了 Meta 产品的推介会,但 Meta AI 成为最广泛使用的 AI 助手的愿景也在 AI 的加持下曙光乍现。

而在当下的最热门的 AI 硬件领域,Meta 也有所涉猎。

从「iPhone 杀手」Ai Pin 寻求卖身到当红炸子鸡 Rabbit R1 被曝套壳,AI 智能穿戴设备市场在用户严苛审视之下,短短数月便逐渐哑火。

经过几轮淘汰后,不少行业内外人士达成的共识是,智能眼镜或许才是 AI 智能穿戴设备的最理想的形态。

如果说天下 AI 智能眼镜共分十斗,那么 Meta 旗下的 Ray-Ban Meta 智能眼镜至少独占五斗以上,第三方数据显示,起售价为 299 美元的 Ray-Ban Meta 在发布两年后,销量突破百万大关。

不久前,扎克伯格在接受采访时曾放言:

如果我们只采用今天最好的眼镜形式,我们能在不影响形式因素、重量等方面的情况下,塞进多少技术。这就是我们得到的 Ray-Ban Meta。

甚至他也曾预言道,基于我们现在看到的雷朋智能眼镜,300 美元的价格、无显示屏的 AI 眼镜将会成为一个非常热门的产品。未来可能会有数千万人、甚至数亿人拥有这些眼镜,用户能与一个互动能力超级强的 AI 对话。

拥有先发优势的 Meta,下一个目标是理想中的全息 AR 眼镜。

扎克伯格认为,下一个计算平台将主要围绕智能眼镜和 VR/MR 头显展开。你的下一台手机何必是手机将不再是空话,智能眼镜将成为下一代智能移动设备的开端。

而 VR、MR 头显将执行更高强度的计算任务,Meta 也已经启动研发理想中的全息 AR 眼镜,这款眼镜将集成超级交互式 AI,同时在设计上也追求时尚美学。

出于对智能眼镜的看好,The Verge 报道称,Meta 还计划斥资数十亿美元收购雷朋眼镜制造商 EssilorLuxottica 约 5% 的股份。

随后又有消息传出,智能眼镜老祖宗 Google 也在和 EssilorLuxottica 洽谈,商讨要将 Gemini AI 助手纳入未来的智能眼镜中,并可能将 Meta 排除在合作之外。

尽管扎克伯格并未上述传闻作出评论,但他在今天财报电话会议上也表示,在 Meta Ray-Bans 取得初步成功后,他对于开发未来几代 AI 眼镜感到兴奋。这可能预示着 Supreme 和 Meta 合作开发的智能眼镜即将问世。

除了智能眼镜,扎克伯格也在财报会议上提到,Quest 3 的销量超出了公司的预期,尽管具体预期未明。据悉,Meta 将在 9 月份推出更便宜的版本。

当然,目前整个 AI 行业都处在赔钱赚吆喝的阶段,Meta 也不例外。

但幸运的是,论技术,Meta Llama 3.1 位列 AI 大模型的第一梯队,论落地应用,雷朋智能眼镜是目前公认比较正确的形态,甚至 Meta 还借着开源的旗号扭转声誉。

与此同时,两代最大的热点元宇宙和 AI 都被 Meta 牢牢抓住,因此,可以说,同时踩中 AI 大模型、AI 硬件、元宇宙等多个大火热点的 Meta 占据了应用端的有利位置。

另外,押注开源的 Meta 不仅仅是 AI 路线的另一种选择,也成了整个 AI 行业极佳的观察窗口。

这种策略与一向封闭的 Google 要用大模型生态占住搜索端和云服务端的布局,有着异曲同工之妙,都是服务于其商业目的的手段。

简言之,我们甚至可以简单下个暴论:

Meta 不是世界上技术最强的 AI 公司,但它可能是布局最成熟的 AI 公司。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


赶超 GPT-4o,最强大模型 Llama 3.1 405B 一夜封神,扎克伯格:开源引领新时代

By: 莫崇宇
24 July 2024 at 04:45

就在刚刚,Meta 如期发布了 Llama 3.1 模型。

简单来说,最新发布的 Llama 3.1 405B 是 Meta 迄今为止最强大的模型,也是全球目前最强大的开源大模型,更是全球最强的大模型。

从今天起,不需要再争论开源大模型与闭源大模型的孰优孰劣,因为 Llama 3.1 405B 用无可辩驳的实力证明路线之争并不影响最终的技术实力。

先给大家总结一下 Llama 3.1 模型的特点:

  • 包含 8B、70B 和 405B 三个尺寸,最大上下文提升到了 128K,支持多语言,代码生成性能优秀,具有复杂的推理能力和工具使用技巧
  • 从基准测试结果来看,Llama 3.1 超过了 GPT-4 0125,与 GPT-4o、Claude 3.5 互有胜负
  • 提供开放/免费的模型权重和代码,许可证允许用户进行微调,将模型蒸馏到其他形式,并支持在任何地方部署
  • 提供 Llama Stack API,便于集成使用,支持协调多个组件,包括调用外部工具

附上模型下载地址:

https://huggingface.co/meta-llama
https://llama.meta.com/

超大杯登顶全球最强大模型,中杯大杯藏惊喜

本次发布的 Llama 3.1 共有 8B、70B 和 405B 三个尺寸版本。

从基准测试结果来看,超大杯 Llama 3.1 405B 全方位耐压了 GPT-3.5 Turbo、大部分基准测试得分超过了 GPT-4 0125。

而面对 OpenAI 此前发布的最强闭源大模型 GPT-4o 和第一梯队的 Claude 3.5 Sonnet,超大杯依然有着一战之力,甚至可以仅从纸面参数上说,Llama 3.1 405B 标志着开源大模型首次追上了闭源大模型。

具体细分到基准测试结果,Llama 3.1 405B 在 NIH/Multi-needle 基准测试的得分为 98.1,虽然比不上 GPT-4o,但也表明其在处理复杂信息的能力上堪称完美。

并且 Llama 3.1 405B 在 ZeroSCROLLS/QUALITY 基准测试的得分为 95.2,也意味着其具有强大整合大量文本信息的能力,这些结果表明,LLaMA3.1 405B 模型在处理长文本方面出色,对于关注 LLM 在 RAG 方面性能的 AI 应用开发者来说,可谓是相当友好。

尤为关注的是,Human-Eval 主要是负责测试模型在理解和生成代码、解决抽象逻辑能力的基准测试,而 Llama 3.1 405B 在与其他大模型的比拼中也是稍占上风。

除了主菜 Llama 3.1 405B,虽为配菜的 Llama 3.1 8B 和 Llama 3.1 70B 也上演了一出「以小胜大」的好戏。

就基准测试结果来看,Llama 3.1 8B 几乎碾压了 Gemma 2 9B 1T,以及 Mistral 7B Instruct,整体性能甚至比 Llama 3 8B 都有显著提升。Llama 3.1 70B 更是能越级战胜 GPT-3.5 Turbo 以及性能表现优异的 Mixtral 8×7B 模型。

据官方介绍,在这次发布的版本中,Llama 研究团队在 150 多个涵盖多种语言的基准数据集上对模型性能进行了评估,以及团队还进行了大量的人工评估。

最终得出的结论是:

我们的旗舰模型在多种任务上与顶尖的基础模型,如 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 等,具有竞争力。同时,我们的小型模型在与参数数量相近的封闭和开放模型相比时,也展现出了竞争力。

Llama 3.1 405B 是如何炼成的

那 Llama 3.1 405B 是怎么训练的呢?

据官方博客介绍,作为 Meta 迄今为止最大的模型,Llama 3.1 405B 使用了超过 15 万亿个 token 进行训练。

为了实现这种规模的训练并在短时间内达到预期的效果,研究团队也优化了整个训练堆栈,在超过 16000 个 H100 GPU 上进行训练,这也是第一个在如此大规模上训练的 Llama 模型。

团队也在训练过程中做了一些优化,重点是保持模型开发过程的可扩展性和简单性:

  • 选择了仅进行少量调整的标准解码器 Transformer 模型架构,而不是混合专家模型,以最大限度地提高训练稳定性。
  • 采用了一种迭代后训练程序,每一轮都使用监督微调和直接偏好优化。这使得研究团队能够为每轮创建最高质量的合成数据,并提升每项功能的性能。
  • 相较于旧版 Llama 模型,研究团队改进了用于预训练和后训练的数据数量和质量,包括为预训练数据开发更预处理和管理管道,为后训练数据开发更严格的质量保证与过滤方法。

Meta 官方表示,在 Scaling Law 的影响之下,新的旗舰模型在性能上超过了使用相同方法训练的小型模型。

研究团队还利用了 405B 参数模型来提升小型模型的训练后质量。

为了支持 405B 规模模型的大规模生产推理,研究团队将模型从 16 位(BF16)精度量化到 8 位(FP8)精度,这样做有效减少了所需的计算资源,并使得模型能够在单个服务器节点内运行。

Llama 3.1 405B 还有一些值得发掘的细节,比如其在设计上注重实用性和安全性,使其能够更好地理解和执行用户的指令。

通过监督微调、拒绝采样和直接偏好优化等方法,在预训练模型基础上进行多轮对齐,构建聊天模型,Llama 3.1 405B 也能够更精确地适应特定的使用场景和用户需求,提高实际应用的表现。

值得一提的是,Llama 研究团队使用合成数据生成来产生绝大多数 SFT 示例,这意味着他们不是依赖真实世界的数据,而是通过算法生成的数据来训练模型。

此外,研究团队团队通过多次迭代过程,不断改进合成数据的质量。为了确保合成数据的高质量,研究团队采用了多种数据处理技术进行数据过滤和优化。

通过这些技术,团队能够扩展微调数据量,使其不仅适用于单一功能,而是可以跨多个功能使用,增加了模型的适用性和灵活性。

简单来说,这种合成数据的生成和处理技术的应用,其作用在于创建大量高质量的训练数据,从而有助于提升模型的泛化能力和准确性。

作为开源模型路线的拥趸,Meta 也在 Llama 模型的「配套设施」上给足了诚意。

  • Llama 模型作为 AI 系统的一部分,支持协调多个组件,包括调用外部工具。
  • 发布参考系统和开源示例应用程序,鼓励社区参与和合作,定义组件接口。
  • 通过「Llama Stack」标准化接口,促进工具链组件和智能体应用程序的互操作性。
  • 模型发布后,所有高级功能对开发者开放,包括合成数据生成等高级工作流。
  • Llama 3.1 405B 内置工具大礼包,包含关键项目,简化从开发到部署的流程。

值得注意的是,新开源协议里,Meta 不再禁止用 Llama 3 来改进其他模型了,这其中也包括最强的 Llama 3.1 405B,真·开源大善人。

附上 92 页论文训练报告地址:

https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

一个由开源引领的新时代

网友 @ZHOZHO672070 也火速在 Hugging Chat 上测试了一下 Llama 3.1 405B Instruct FP8 对两个经典问题的回答情况。

遗憾的的是, Llama 3.1 405B 在解决「9.11 和 9.9 谁更大」的难题上遭遇翻车,不过再次尝试之下,又给出了正确答案。而在「我一把把把住了」的拼音标注上,其表现也尚可。

网友更是只用了不到 10 分钟的时间,就使用 Llama 3.1 模型快速构建和部署了一个聊天机器人。

另外,Llama 内部科学家 @astonzhangAZ 也在 X 上透露,其研究团队目前正在考虑将图像、视频和语音功能集成到 Llama 3 之中。

开源和闭源之争,在大模型时代依然延续着,但今天 Meta Llama 3.1 新模型的发布为这场辩论画上了句号。

Meta 官方表示,「到目前为止,开源大型语言模型在功能和性能方面大多落后于封闭式模型。现在,我们正迎来一个由开源引领的新时代。」

Meta Llama 3.1 405B 的诞生证明了一件事情,模型的能力不在于开或闭,而是在于资源的投入、在于背后的人和团队等等,Meta 选择开源或许出于很多因素,但总会有人扛起这面大旗。

而作为第一个吃螃蟹的巨头,Meta 也因此收获了首个超越最强闭源大模型的 SOTA 称号。

Meta CEO 扎克伯格在今天发布的长文《Open Source AI Is the Path Forward》中写道:

「从明年开始,我们预计未来的 Llama 将成为业内最先进的。但在此之前,Llama 已经在开源性、可修改性和成本效率方面领先。」

开源 AI 模型或许也志不在超越闭源,或出于技术平权,不会让其成为少数人牟利的手段,或出于众人拾柴火焰高,推动 AI 生态的繁荣发展。

正如扎克伯格在其长文末尾所描述的愿景那样:

我相信 Llama 3.1 版本将成为行业的一个转折点,大多数开发人员将开始转向主要使用开源技术,我期待这一趋势从现在开始持续发展……共同致力于将 AI 的福祉带给全球的每一个人。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌
❌