Reading view

There are new articles available, click to refresh the page.

创造历史!SpaceX 完成人类首次商业太空行走,马斯克的星辰大海又近了一步

有的宇航员被迫滞留太空八个月,而有的宇航员正在书写历史。

就在刚刚,马斯克旗下太空探索技术公司(SpaceX)成功完成人类史上首次商业太空行走。

以往的航天历史中,执行过 477 次太空行走的 270 名宇航员全都是职业航天员,而这次则是历史首次由非职业航天员完成了出舱任务。

马斯克曾将这次飞行形容为「星际时代的早期开拓者」,并且宣布如果一切顺利,未来将有更多人借助相关技术前往地球轨道、月球,乃至更遥远的火星。

这次任务原定于 2022 年发射,但因技术和天气等因素多次「跳票」。人类的征途是星辰大海,但航天员的生命却不容差错,每一次延迟都是为了万无一失。

好在,这次的成功没有让我们等待太久。

人类开启首次商业太空行走,非职业宇航员出舱门

航天员贾里德・艾萨克曼手动缓缓解开舱门锁,并进行初步拉动以完成通风程序。

在另一位航天员兼任务专家莎拉・吉利斯的指挥下,舱门被缓缓打开,伴随着这一刻,四名机组成员彻底暴露在太空的真空环境中。

贾里德・艾萨克曼成功完成舱外活动(EVA,Extravehicular Activity),并进行一系列宇航服机动性测试。现场观众紧绷的神经得以放松,掌声和欢呼声随之爆发。

由于这次出舱时间较短,艾萨克曼并未配备便携式维持生命系统背包,而是通过一根类似「脐带」的软管连接到太空舱的生命支持系统,并借助固定在身上的助行器与太空舱保持联系。

其他两名航天员安娜・梅农和斯科特・基德・波特则留在太空舱内,密切关注显示屏并管理「脐带」。

与以往宇航员从国际空间站出舱远行的太空行走不同,艾萨克曼和吉利斯只需身体离开「龙」飞船即可完成任务。

很快,贾里德・艾萨克曼完成全部的机动性测试,重新返回龙飞船。

随后,任务专家莎拉・吉利斯再次上演类似的操作,这也意味着她成为了首位私人进行太空行走的女宇航员。

不到 10 分钟后,吉利斯返回舱内。舱门随即关闭,经过缓慢的加压过程,当舱内压力恢复至适宜生存的 14.5 psi,所有宇航员便脱下了舱外宇航服。

在龙飞船的再增压过程中,会使用纯氮气。同时,飞船的开放循环系统会将纯氧气释放到舱内。纯氮气与通过开放循环系统释放的纯氧气在舱内混合,形成适合呼吸的气体混合物。

这种气体处理过程是龙飞船特有的,它使得龙飞船可以作为自己的气闸(airlock)。而气闸是宇航员进出飞船和太空环境之间的一个过渡区域,它允许宇航员在不泄漏舱内气体的情况下进出飞船。

最后 SpaceX 官方也第一时间发布消息,确认圆满成功。万事开头难,但一切都在按计划进行。

非职业宇航员,创造了航天历史

先来介绍一下本次执行航天任务的四位宇航员。

  • 贾里德・艾萨克曼(Jared Isaacman)
    首先便是亿万富翁,同时也是本次航天任务的发起者贾里德・艾萨克曼(Jared Isaacman)。
    他是 Shift4 Payments 的创始人兼 CEO,曾在 2021 年担任 Inspiration4 任务(SpaceX 的首次全平民航天任务)的指挥官,拥有超过 7000 个飞行小时驾驶经验。
  • 莎拉・吉利斯(Sarah Gillis)
    莎拉・吉利斯是 SpaceX 的首席太空运营工程师,负责监督宇航员培训计划,包括制定任务课程、执行培训,以及为 NASA 和商业宇航员提供载人龙飞船的操作支持。
  • 安娜・梅农(Anna Menon)
    安娜・梅农是 SpaceX 的首席太空运营工程师,同时兼任任务控制人员和医疗官员,负责机组人员运营的发展,并在多个载人龙飞船任务中发挥了关键作用。
  • 斯科特・基德・波特(Scott「Kidd」Poteet)
    他是一名退役美国空军中校,同时也是 Isaacman 的老朋友,曾在 Isaacman 创立的军事航天公司 Draken International 工作,并在 Inspiration4 任务中担任任务指挥官。

这四位宇航员为了这次任务,已经准备了数年之久。

太空行走并非此次任务的唯一亮点,更重要的是,机组人员计划进行约 40 项科学和研究实验,比如测试宇航员身穿的 SpaceX 新型的 EVA 宇航服。

这些服装采用了新材料,并且配备了一个 3D 打印的头盔,内置平视显示器和特别设计的遮阳板,能够减少太阳光线的眩光影响。

据 CNBC 报道,SpaceX 用了两年半的时间就研制出了这套全新的宇航服。

这套宇航服经过了极端辐射和极寒环境的全面测试,甚至在新墨西哥州的白沙导弹靶场进行了高速微陨石撞击模拟,以验证其在遭受高速撞击时的防护性能和密封性。

甚至,这套宇航服支持个性化定制,还能适应不同体型的宇航员。

此外,在本次任务中,宇航员将穿越 Van Allen 辐射带,这两个辐射带环绕地球,由太阳释放的高能粒子和宇宙射线与大气层的相互作用产生。

基于此,他们可以收集关于辐射如何影响人体的直接数据,帮助科学家更好地理解太空辐射对人体健康的影响,并开发出更好的防护措施。

又或者,宇航员们还将开展一系列关键实验。其中一项是解决太空晕动症,这是一种影响 60% 宇航员的常见问题,通常在他们首次体验微重力环境时出现。

这种不适感可能导致恶心、呕吐,严重时甚至会影响他们的工作能力。

此外,宇航员们还将研究减压病(迷航症)和太空飞行相关的神经眼综合症(SANS),以及如何在太空中有效进行食物储存和冷藏等等。

根据原有的计划行程,在成功完成首次商业太空行走后,机组成员后续还将通过连接 SpaceX 的 Starlink 卫星网络,从太空向地球传输一条「惊喜」信息。

此次北极星黎明任务的发射虽然意义大于实际,但每一次发射,都是人类向宇宙深处迈出的一大步,真正的宝藏,也隐藏在无数次的计算、模拟、测试和修正的经验积累之中。

人类的旅程才刚刚开始

我们的目标是星辰大海,人类的旅程才刚刚开始。

马斯克曾说,如果将人类文明的历史比作文字,那么 5500 年前诞生的楔形文字,与地球 45 亿年的漫长岁月,乃至宇宙 138 亿年的浩瀚历史相比,不过是一瞬,如同黑暗中的微弱烛光。

尽管如此,许多先驱者们创造了人类航天史上历史性记录:

  • 1961 年 4 月 12 日:苏联宇航员尤里・加加林成为首位进入太空的人类。
  • 1969 年 7 月 20 日:美国宇航员尼尔・阿姆斯特朗和巴兹・奥尔德林成为首次登陆月球的人类。
  • 1981 年 4 月 12 日:美国航天飞机哥伦比亚号首次发射,开启了可重复使用航天器的新时代。
  • 2001 年 4 月 28 日:美国商人丹尼斯・蒂托成为首位自费进入国际空间站的太空游客。
  • 2020 年 5 月 30 日:SpaceX 成功将两名 NASA 宇航员送入国际空间站,成为首家完成载人航天任务的私营公司。

根据 World of Statistics 数据,SpaceX 的发射次数从 2006 年的 1 次,激增至 2023 年的 98 次。

马斯克雄心勃勃地展望未来,明年 Space X 预计将每两天进行一次发射,而今年预计将运送近 90% 的有效载荷至地球轨道乃至更远的太空。

我们的目标是成为一个多行星文明,最终成为一个多恒星文明,自由地在星际间穿梭。

伴随着「北极星黎明」任务圆满成功,人类航天史再次添上了浓墨重彩的一笔。

而如果从 1903 年俄国科学家齐奥尔科夫斯基发表著作《借助喷气装置探索宇宙空间》算起,至今航天科技的发展已走过 110 余年的艰苦跋涉。

地球是人类的摇篮,终将不再是我们永远的居所,探索宇宙,是为了更深刻地理解我们在宇宙中的位置。

仰望星空,令人神往;遨游苍穹,寄托梦想。

这是个人的一小步,却是人类的一大步。

正如《马斯克传》中所记载,即使在火箭坠毁的重重打击面前,马斯克依然保持着乐观与坚持,「瞄准月亮,如果你失败,至少可以落到云彩上面」。

我们期待北极星黎明任务的圆满成功,也是在期待着人类航天的更多惊喜。

艾萨克曼曾描述过同样的憧憬,「在 50 年或 100 年后,人们将乘坐火箭自由地穿梭于星际,家庭们带着他们的孩子在月球基地蹦蹦跳跳。」

此刻,人类商业航天新时代迎来破晓时分。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 发布最强模型 o1 !打破 AI 瓶颈开启新时代,GPT-5 可能永远不会来了

没有任何预警,OpenAI 突然发布了 OpenAI o1 系列模型。按照官方技术博客说法,o1 在推理能力上代表了人工智能最强的水平。

OpenAI CEO Sam Altman 表示:「OpenAI o1 是一个新范式的开始:可以进行通用复杂推理的 AI。」

在复杂推理任务上,这款新模型是一次重要突破,代表了 AI 能力的新水平。基于此,OpenAI 选择将此系列重新命名为 OpenAI o1,并从头开始计数。

不知道这是否意味着,GPT-5 这个命名也不会出现了。

简单总结新模型的特点:

  • OpenAI o1:性能强大,适用于处理各个领域推理的复杂任务。
  • OpenAI o1 mini:经济高效,适用于需要推理但不需要广泛世界知识的应用场景。

现在,该模型已经全量推送,你可以通过 ChatGPT 网页端或者 API 进行访问。

其中 o1-preview 还是预览版,OpenAI 还会继续更新开发下一版本。目前使用有一定次数限制,o1-preview 每周 30 条消息,o1-mini 每周 50 条。

和传闻中的「草莓」一样,这些新的 AI 模型能够推理复杂任务,并解决科学、编码和数学领域中比以往更为困难的问题。官方表示,如果你需要解决科学、编码、数学等领域的复杂问题,那么这些增强的推理功能将尤为有用。

例如,医疗研究人员可以用它注释细胞测序数据,物理学家可以用它生成复杂的量子光学公式,开发人员可以用它构建并执行多步骤的工作流程。

此外,OpenAI o1 系列擅长生成和调试复杂代码。

为了给开发人员提供更高效的解决方案,OpenAI 还发布了一款更快、更便宜的推理模型 OpenAI o1-mini,尤其擅长编码。

作为较小版本,o1-mini 的成本比 o1-preview 低 80%,是一个功能强大且高效的模型,适用于需要推理但不需要广泛世界知识的应用场景。

在具体训练过程中,OpenAI 会训练这些模型在回答问题之前深入思考。o1 在回答问题前会产生一个内部的思维链,这使得它能够进行更深入的推理。

通过训练,OpenAI o1 模型能够学会完善自己的思维方式,并且随着更多的强化学习(训练时间计算)和更多的思考时间(测试时间计算)而持续提高。

OpenAI 研究员 @yubai01 也点出了 01 的训练路线:

我们使用 RL 来训练一个更强大的推理模型。很高兴能成为这段旅程的一部分,而且要走很长一段路!

据介绍,在测试中,这款模型在物理、化学和生物等任务中表现得如同博士生,尤其是在数学和编码领域表现突出。

在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o 只解决了 13% 的问题,而推理模型得分高达 83%。在 Codeforces 编程竞赛中,它的表现进入了前 89% 的队列。

不过,和传闻的爆料一样,作为一个早期版本,该模型还不具备一些 ChatGPT 的常用功能,比如网页浏览和上传文件或图像等多模态能力。

相比之下,GPT-4o 反而会更加胜任许多常见的应用场景。

为了确保新模型的安全,OpenAI 提出了一种新的安全训练方法。

在最严苛的「越狱」测试中,GPT-4o 得分为 22(满分 100),而 o1-preview 模型得分为 84,在安全性方面堪称遥遥领先。

从下周开始,ChatGPT Enterprise 和 Edu 用户也可以访问这两款模型。符合条件的开发人员现在可以通过 API 使用这两款模型,每分钟速率也有所限制。

在这里划个重点,OpenAI 表示,未来将向所有 ChatGPT 免费用户提供 o1-mini 的访问权限。不过,大概率也会在次数上有所限制。

关于新模型 o1 更多细节,我们很快将在更详细的体验后与大家分享。如果你有感兴趣的问题,欢迎在留言区告诉我们。

推理能力遥遥领先,但仍分不出「9.11 和 9.8 哪个大」

官方也放出了更多 OpenAI o1 的更多演示视频。

比如使用 OpenAI o1 来编写一个找松鼠的网页游戏。这个游戏的目标是控制一只考拉躲避不断增加的草莓,并在 3 秒后找到出现的松鼠。

与传统的经典游戏如贪吃蛇不同,这类游戏的逻辑相对复杂,更考验 OpenAI o1 的逻辑推理能力。

又或者,OpenAI o1 已经开始能通过推理,解决一些简单的物理问题,

演示列举了一个例子,一颗小草莓被放在一个普通的杯子里,杯子倒扣在桌子上,然后杯子被拿起,询问草莓会在哪里,并要求解释推理过程。这表明模型能够理解物体在不同物理状态下的位置变化。

落地到具体的应用中,OpenAI o1 还能成为医生的得力助手,比如帮助医生整理总结的病例信息,甚至辅助诊断一些疑难杂症。

热衷于将 AI 与科学相结合的量子物理学家马里奥•克莱恩(Mario Krenn)也向 OpenAI 的 o1 模型提出一个关于特定的量子算符应用的问题,结果,OpenAI o1 也轻松拿捏。

「Strawberry」里有多少个「r」,GPT-4o 会回答错误,但却难不倒 OpenAI o1,这一点值得好评

不过,经过实测,OpenAI o1 依然无法解决「9.11 和 9.8 哪个大」的经典难题,严重扣分。

对于 OpenAI o1 的到来,英伟达具身智能负责人 Jim Fan 表示:

我们终于看到了推理时间扩展的范式被推广并投入生产。正如萨顿(强化学习教父)在《苦涩的教训》中所说,只有两种技术可以无限制地与计算规模化:

学习和搜索。是时候将重点转向后者了。

在他看来,大模型中的很多参数是用来记忆事实的,这的确有助于在问答的基准测试「刷分」,但如果将逻辑推理能力与知识(事实记忆)分开,使用一个小的「推理核心」来调用工具,如浏览器和代码验证器,这样可以减少预训练的计算量。

Jim Fan 也点出了 OpenAI o1 最强大的优势所在,即 o1 模型可以轻松成为数据飞轮的一部分。

简单来说,如果模型给出了正确的答案,那么整个搜索过程就可以变成一个包含正负奖励的训练数据集。这样的数据集可以用来训练未来的模型版本,并且随着生成的训练数据越来越精细,模型的表现也会不断改善。好一个通过自己博弈,实现自己训练自己的内循环。

不过网友的实测中也发现了一些问题,比如回复的时间长了不少,虽然花了更长时间思考,但在一些问题上也会出现答非所问输出不全等问题。

赛博禅心猜测,这次的 o1 有可能是 GPT-4o 在进行一些微调/对齐后的 agent,整体远低于预期,

Sam Altman 也承认 o1 仍然有缺陷,存在局限,在第一次使用时更令人印象深刻,而在你花更多时间使用后就没那么好了。

尽管如此,OpenAI o1 模型在整体的表现上还是可圈可点。

现在,OpenAI o1 模型的发布堪称下半年 AI 模型大战的导火索,如无意外,接下来,其他 AI 公司也不会藏着掖着了。

没错,我点的就是 Anthropic、Meta AI、xAI 等老对手、以及一些潜在深处的 AI 黑马。

并且,从 GPT-4 发布至今,OpenAI 每一次模型发布的最深层意义并不在于性能的强大,而是提供了一种技术路线的标杆,从而带领人们往未知的深水区迈进。

GPT-4 如此,OpenAI o1 也希望如此。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


苹果刚刚发布史上首台 AI iPhone,最大亮点是按键

Good Morning!库克又一次在 Apple Park 讲出这句经典开场白。

和往年不一样的是,库克首次在发布会开场同时提到 Apple Intelligence 和 Machine Learning 这些词汇,由此可见今年苹果对 AI 的重视。

全新 iPhone 16 系列,也是苹果第一个真正意义上的 AI iPhone。

对于 iPhone 16 大家最关心的一些问题,我们这次准备了一个快问快答环节,以最简洁、直接的方式给你一个实用指南,无论你是对新功能感兴趣,还是在犹豫是否升级,都能快速获取答案。

Q:iPhone 16 Pro 怎么看起来和 15 没太大区别?
A:屏幕尺寸更大、全新配备「相机控制」、更窄边框

Q:iPhone 16 标准版外观最直观的变化是什么
A: 摄像头从之前的「浴霸」对角线排列变成了纵向排列,梦回 iPhone X

Q:iPhone 16 系列有什么新配色?
A:iPhone 16 新增白色、深青色、群青色,iPhone 16 Pro 新增沙漠色钛金属配色

Q:新增的「相机控制」有啥用?是 Pro 系列独占吗?
A:全系支持。它除了能充当快门键,呼出相机的变焦、景深控制、拍摄风格等参数,还能通过启用视觉智能。

Q:iPhone 16 全系支持 Apple 智能吗?
A:支持,但更多 AI 功能没那么快用上

Q:iPhone 16 系列价格与上一代比相差多少?
A:不变

Q:iPhone 16 系列预购和发售时间?
A:9 月 13 日晚 8 点起接受预购,9 月 20 日发售。

爱范儿首席内容官何宗丞已经在现场第一时间体验了 iPhone 16 在内的一系列新品,更多发布会没提到的细节,我们将在今天后续的文章中与你分享。

史上首次,第一台为 AI 打造的 iPhone

新一代 iPhone 彻彻底底为 Apple 智能打造。

库克这句话,将载入苹果发布会的史册。

作为 iPhone 16 系列上的最大亮点,没有如期推送的 Apple 智能将于下月推出,短期内仅限于美国英语地区。

苹果表示,Apple Intelligence 功能将逐步支持更多语言。

在今年 12 月份,澳大利亚、加拿大、新西兰、南非和英国等地的英语方言将率先使用 Apple 智能,而苹果计划在 2025 年逐步增加对中文、法语、日语和西班牙语等其他语言的支持。

至于中国用户,无论你是否在中国大陆购买的 iPhone,也不管你的 Apple ID 国家/地区是否设置在大陆,目前都无法使用 Apple 智能

,直到 Apple 智能在中国大陆推出时才能激活。

上个月已经有不少海外网友体验到了 Apple 智能部分简单的系统级功能,比如写作(校对重写内容)、文本总结、邮件回复等,但更多的 AI 功能依然「犹抱琵琶半遮面」。

换言之,这也意味着备受关注的 ChatGPT 集成服务、Image Playground 图像生成功能,以及 Genmoji 表情符号生成功能的推送时间依然是个谜。

距离苹果在 WWDC 许下 AI 承诺的进度条似乎还不到一半,而苹果又在本次发布会上公布了更多关于 AI 的功能/消息。

其中最重要的莫过于通过「相机控制」来启用视觉智能。

比如,当你看到一家餐厅,你可以通过按压「相机控制」拍下餐厅,然后就能通过 Apple 智能实时获得该餐厅的营业时间以及好评率,从而查看菜单或预订餐厅。

看到有趣的传单,采取类似的操作就能添加活动日历以及地点,详细了解这次活动的细节,又或者看到可爱的小狗,轻轻一拍即可识别狗的品种。

甚至该功能也可以和第三方 APP 联动,看到心仪的自行车,只需点击搜索 Google,即可快速入手类似的自行车。

iPhone 16 Pro 影像加「外挂」, Pro Max 屏幕史上最大

先看看最重头戏的 Pro 系列。虽然外观几乎没有发生变化,但在影像和性能上,依旧保持了 Pro 系列「牙膏挤爆」的高水准,亮点如下:

  • 全新配备「相机控制」,Pro 版用上四棱镜长焦
  • 4K 120 fps 杜比视界视频拍摄 + 4 个录音棚级别麦克风
  • 全球最窄手机边框,屏幕尺寸更大
  • A18 Pro 强悍性能
  • 新增「沙漠钛」配色
  • 价格不变,Pro 版国行起售价 7999 元,Pro Max 版起售价 9999 元

更专业的影像,还有「外挂」加持

每一年 Pro 版 iPhone 影像能力方面的升级,苹果都绝对不含糊,今年更是三个摄像头一起升级,不仅仅更能拍出好照片,苹果强项视频拍摄更是再一次「遥遥领先」。

再看看三个后置摄像头的升级。主摄为 4800 万像素「融合」摄像头,搭载第二代四合一像素传感器,支持 4800 万像素 ProRaw 和 HEIF 照片拍摄,并实现零快门延迟。

比较大的更新给到了超广角镜头,像素从 1200 万像素升级至 4800 万,不仅配备带自动对焦功能的四合一像素传感器,光圈还从 f/4.4 升级到 f/2.2,提升了暗光环境下捕捉更多光线的能力,扣了一波「高光时刻」的发布会主题。

长焦镜头这边,iPhone 16 Pro 看齐 Pro Max 版本,用上了同款「四重反射棱镜长焦」镜头, 支持 5 倍光学长焦,像素保持 1200 万,光圈为 f/2.8。

想拍出惊艳的大片,单纯依靠硬件参数可不够。iPhone 影像的第一个「外挂」,就是全新的「摄影风格」功能。

苹果为 iPhone 16 Pro 系列准备了一系列的新风格。这可不是单纯在成片上加一个滤镜那么简单,而是通过机器学习,针对拍摄对象进行实时调色,并且由于强大的芯片性能,这些风格化的拍摄效果都能在相机中实时预览,还能允许用户调整具体风格表现。

而苹果的强项,也是打动不少专业人士的视频拍摄能力,在 iPhone 16 Pro 上进一步得到了提升。

更强大的镜头、处理器还带来了对 4K 120fps 杜比视界视频格式的全新支持,视频画面更加清晰、细腻,120 FPS 的帧率在拍摄动态场景时,可以捕捉到更多的细节,减少模糊或卡顿感,而且还能够拍摄更具视觉冲击力的慢动作视频。

照片 app 也支持对 4k 120fps 杜比视频的编辑,不仅能够逐帧进行「影院级画质」调色,还能将正常速度的视频放慢至 24fps 播放,提供了极大的后期空间。

配套视频拍摄能力一同升格的,还有 iPhone 16 Pro 的音频录制能力。iPhone 16 Pro 内置四个录音棚级麦克风,提供三种「混音功能」:

  • 取景框内:拍摄期间,即使镜头外有人说话,也只收录画面内的人声。
  • 录音室:让视频里的人声,听起来就像是在带有隔音墙的专业录音棚里录制。
  • 电影效果:收录周围的所有人声,整合混音后投向屏幕前方,就像电影中的声音处理效果。

摄像头已经全副武装,苹果这次还设计了一个全新的摄影交互「相机控制」,堪称 iPhone 16 系列拍摄的物理「外挂」。

在 iPhone 锁屏键下方,多出了一个类似相机快门的按钮。有了这个「相机控制」,你就可以轻松玩转:

  • 按下呼出相机应用
  • 单击可实现快门
  • 长按开始拍视频
  • 轻按+滑动可进行变焦
  • 轻按两下可切换其他相机设置:曝光、景深、相机、风格、色调

除了能在 iPhone 自带相机应用使用,「相机控制」也支持第三方应用调用。

性能更强,功耗更低的 A18 Pro

今年处理器方面有一大变化,那就是标准版和 Pro 版都同时用上了苹果最新的 A18 处理器。

不过,没人比苹果更懂「刀法」,GPU 和 CPU 双满血的 A18 Pro ,才是苹果顶级性能的真正代表作。

A18 Pro 保持了 6 CPU 核 +6 GPU 核的配置。 6 核心的 GPU,比起 A17 Pro 性能提升 20%,硬件加速光追能力最快可达上一代两倍,要知道 A17 Pro 的光追性能已经足以运行大型主机级别游戏。

6 核心的 CPU,比 A17 Pro 性能提升 15%,同时耗电量还降低了 20%,苹果直接表示:「任何智能手机上最快的 CPU」。

为 AI 而生的 A18 Pro,还搭载了 16 核神经网络引擎,运行 Apple 智能的能力比上一代提升了 15%。

以往的 iPhone 总因为散热能力的短板,无法持续发挥芯片的强悍性能,而今年 iPhone 16 Pro 系列采用了金属散热结构和玻璃背板的优化。苹果宣称,比起 iPhone 15 Pro,带来了高达 20% 的持续性能表现提升。

更大的尺寸,更强的续航

还有一些细节也值得关注。

两款 Pro 版的屏幕尺寸都迎来了提升:iPhone 16 Pro 从 6.1 英寸扩张到 6.3 英寸,iPhone 16 Pro Max 从 6.7 英寸扩张到 6.9 英寸,成为「史上最大」。

配合上进一步收窄的边框,iPhone 16 Pro 的显示效果更惊艳。

Pro 系列传闻中的新色「沙漠色钛金属」也终于露出了庐山真面目:比以前的「香槟金」颜色更深一点,接近棕色或深卡其色,堪称苹果最为低调奢华的金色系,也是今年 iPhone 16 Pro 的主打色。

内部空间经过优化后,iPhone 16 Pro 能塞入更大电池,加上 A18 Pro 芯片优化了能效表现,iPhone 16 Pro Max 视频播放时间最高达 33 小时,iPhone 16 Pro 则达到了 27 小时。

加量不加价,近几年来最值得买的标准版 iPhone

在聊标准版 iPhone 16 之前,让我们先来看看它的关键特点:

  • 首次引入空间视频录制和支持 Apple Intelligence
  • 首次配备「相机控制」,支持微距拍摄
  • 处理器从 A16 升级到 A18,采用第二代 3 纳米工艺
  • 后置镜头从对角线设计回归垂直排列的双镜头设计
  • iPhone 16、16 Plus 国行起售价依次为 5999 元,6999 元

如果说往年的标准版 iPhone 总是以 Pro 版「小弟」的形象示人,那那么今年 iPhone 16 则是要用过硬的性价比翻身做主人,同时手握苹果未来生态的敲门砖,具有更重要的战略地位。

这首先体现在对自家 AI 功能的支持上。

今年标准版 iPhone 16 弥补了 iPhone 15 的遗憾,成功搭上了 Apple 智能的快车。

而为了能「变聪明」,iPhone 16 运存处理器也实现了越级,从 iPhone 15 的 A16 芯片升级到今年全新的 A18 芯片。

相比于去年在 A17 Pro 上使用的 N3B 工艺,今年第二代 3 纳米工艺在提升能效方面有着更大的优势。神经引擎速度提升两倍,内存子系统升级,带宽增加 17%。

并且,A18 拥有 6 核 CPU,包含 2 个性能核心和 4 个效率核心,比 iPhone 15 中的 CPU 快 30%,而在同等性能下,功耗可以减少 30%。

甚至能跟高配的台式 PC 一较高下。

得益于 A18 加持,iPhone 16 支持光追,玩起此前只有 iPhone 15 Pro 能运行的 3A 游戏也游刃有余。有趣的是,RPG 游戏《王者荣耀世界》也在发布会亮相,算是一个小彩蛋吧。

影响一台手机使用体验的部分很多,但是最底层的处理器、内存更新,依旧是手机「保质期」的重要决定因素。

屏幕方面,今年的 iPhone 16 采用 6.1 英寸屏幕,iPhone 16 Plus 采用 6.7 英寸屏幕。

在坚持了三代正方形和对角线摄像头模组之后,今年 iPhone 16 再次回归垂直排列的双镜头设计,好不好看见仁见智,至少和旧款比拉满了辨识度。

想必会有小伙伴调侃「垂直改对角线,对角线改垂直,又是一年创新」,但今年 iPhone 16 回归垂直排列,其实也和「战未来」有关——带来了去年 Pro 独占的空间视频拍摄能力。

改成和 iPhone 15 Pro 一样的超广角、主摄垂直排布后,iPhone 16 也拥有了空间视频的拍摄能力,进一步降低了这种「记录魔法」的门槛。

和 Pro 步调一致,标准版的影像能力提升主要集中在超广角镜头。

镜头光圈也从 f/2.4 升级为 f/2.2,能够让传感器捕捉更多光线照射,从而改善在暗光环境下的拍摄效果,扣住了一波「高光时刻」的发布会主题。

另外,不用眼巴巴地看着 Pro 版的「微距拍摄」,现在该功能在 iPhone 16 上虽迟但到,能够拍摄更近距离的物体、如花朵、昆虫、纹理等,为摄影爱好者提供更多创作空间。

前置镜头则保持不变,依旧是 1200 万像素规格。

配色方面,今年 iPhone 16 分别支持五种颜色:黑色、白色、粉色、深青色、群青色,并且采用具有磨砂效果的彩色背板玻璃,不容易沾染指纹,耐脏又耐看。

比起风格偏「小清新」的前代,iPhone 16 上的蓝色、绿色都要更浓郁一点,而重新回归的白色版本,预计将成为最抢手的颜色。

到了公布价格的环节,标准版 iPhone 彻底「加量不加价」,iPhone 16 的国行起售价为 5999 元,iPhone 16 Plus 国行起售价为 6999 元,9 月 13 日晚 8 点起接受预购,9 月 20 日发售。

Apple Watch:屏幕尺寸增大,全新惊艳外观

Apple Watch Series 10 将迎来了全新设计——更纤薄的机身(9.7mm),更大屏幕(有史以来最大)。

至于有多大?比 Apple Watch Ultra 都要大。

除了变得更大,能够看到更多的内容之外,这块屏幕还是 Apple Watch 首款广视角 OLED 屏幕,把 Series 10 倾斜角度的观看亮度提升最高达 40%。

颜色方面,新增的「亮黑色」非常眼熟,如果你当年很喜欢 iPhone 7 的亮黑色,那么我猜这个颜色你也会一见钟情?

苹果表示,有 80% 的睡眠呼吸暂停患者没有得到诊断。

为了检测睡眠呼吸暂停,Apple Watch 使用加速感应器,配合机械学习和大量临床级睡眠呼吸暂停测试数据集来完成监测算法,来监测睡眠过程中一项叫做「呼吸紊乱」的新指标。

每 30 天,Apple Watch 就会分析用户的呼吸紊乱数据,若是存在呼吸暂停问题,手表将会及时提醒。除了 S10 以外,S9 和 Ultra 2 都将会支持这个功能,这个功能本月将会在超过 150 个国家和地区推出。

此外,Apple Watch Ultra 2 也迎来了「全新的惊艳外观」,推出华美缎面质感的黑色款。

Apple Watch Series 10 国行售价 2999 元起,Apple Watch Ultra 2 售价 6499 元起。

AirPods 4 支持降噪了

全新 AirPods 4 到来,和之前的 AirPods 耳机一样,目的都是打造一款自然贴合各种耳形的耳机。

全新的 AirPods 4 使用了 H2 芯片来驱动,点头和摇头就可以完成 Siri 的互动。 有史以来最小巧的 AirPods 耳机盒可以带来总共 30 小时续航,而且使用 USB-C 连接,还可以使用 Qi 无线充电和 Apple Watch 充电器来充电。

更重要的是,AirPods 4 支持降噪,加入了自适应降噪和通透模式。这个额外的「降噪版本」国行价格 1399 元,不支持降噪的版本价格 999 元。

AirPods Max 则推出了全新配色:午夜色、星光色、蓝色、紫色、橙色,支持 USB-C 连接,价格保持 3999 不变。

AirPods Pro 2 则获得「史诗级软件更新」,不仅可以进行听力测试,还带来了嘈杂环境中提供被动降噪的「听力保护模式」,以及临床级非处方助听器功能。

iPhone 的新周期,靠什么 ?

如果说去年的 iPhone 15 最大更新毫无疑问是 USB-C 接口,那么今年要问 iPhone 16 最大的变化是什么,恐怕很难有个脱口而出的统一答案。

除了拍照按键和更窄的边框,新 iPhone 硬件形态几乎没有太大的变化,AI 被提到了前所未有的高度,苹果从发布会一开始就几乎直白地告诉你,这就是第一代 AI iPhone。而 iPhone 16 也和 15 一样,不是通过什么翻天覆地的形态变化带来惊喜。

虽然新增的拍照按键,让不少人期待已久的一体化无开孔 iPhone 渐行渐远。但随着苹果展示它还能作为 AI 功能的快捷键,也解答了我们在发布前一个很大的疑问——为什么在 iPhone 15 Action 按键学习成本已经够高的情况下,苹果依然还要推出一个拍照按键?

这颗按键能够降低对 Apple 智能的操作门槛,毕竟无论是苹果还是其他模型的 AI 功能,依然有一定学习成本,甚至和原设备和系统的使用习惯相悖。

更重要的,是通过这个按键培养用户形成一种新的交互习惯,一拍即答,一个让 iPhone 开启 AI 之眼的简易操作,就像乔布斯当年展示的滑动解锁,希望给用户带来自然本能的操作体验。

硬件形态上不再有大变化的 iPhone,要能靠什么迎来新的周期?其实在今天的发布会前,库克已经在多个场合给出了答案:Apple 智能。

有分析师甚至认为 iPhone 16 会迎来一个 AI 驱动的超级周期,2025 财年的 iPhone 销量可能会超过 2.4 亿台。

这个数字什么概念?历代销量最高的 iPhone 6 系列卖了 2.2 亿台。2.4 亿的销量意味着,苹果得在换机周期最长、全球宏观经济还在复苏的时期,创造一个新的销售神话。

看到这里你大概率会迷惑,对于大多数只在发布会和媒体报道中看到过苹果 AI 功能的用户,尤其是中国消费者,很难想象到底什么 AI 功能有这样的魅力。

实际上苹果如果要为 iPhone 开拓新的周期,AI 的确就是最大的 X 因素,AI 硬件的核心也在于软件和硬件如何嵌合。

苹果在 WWDC24 发布苹果智能后,我们就提出一个观点,这场没有硬件的发布会,却可能会对硬件带来很大的影响。

苹果智能展现的一种新的人机交互方式,一个支持多模态交互的系统,就是属于人类自然语言的 API,允许操作系统通过模型操作调用 API,根据用户查询需求协调工作,以高度无缝、快速、始终在线的方式运行

而这样系统集成式的 AI,也是我们将 AI 视作产品还是功能的分水岭。包括 ChatGPT 在内的大部分大模型应用,或者一些 AI 硬件,本质上还是以一种功能呈现给用户。

虽然目前为止还没有厂商已经证明, AI 手机能成为影响购买决策的主要因素。端侧模型的进展已经在悄悄超出预期,6 月份苹果工程师曾表示苹果智能用的目前最好的端侧模型,但前几天国内的面壁智能已经发布了 2.2G 内存就能移动设备跑 ChatGPT 的端侧模型。

当然苹果现在只是勾勒出草图,苹果 AI 的终极形态也不太可能在这两代 iPhone 就发育完成,而这已经远远超出了乔布斯的预期,这是他在 1983 年的一段演讲:

我认为,当我们展望未来五十到一百年的时候,如果我们真的能够开发出能够捕捉到某种潜在精神、原则集合或看待世界的潜在方式的机器,那么当下一个亚里士多德出现时,也许如果他一生都随身携带这样的机器,并输入所有这些内容,那么也许有一天,等这个人已经死去,我们可以向这台机器询问:​「嘿,亚里士多德会怎么说?这方面有什么想法吗?​」

也许我们得不到正确的答案,但也许我们会。这真让我感到兴奋。这也是我做自己正在做的事情的原因之一。

乔布斯也不会想到,我们现在就能在屏幕前这样和他交流了。

本文由李超凡、苏伟鸿、莫崇宇合写

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


造出 iPhone AI 录音机爆款的公司,这次推出了 ChatGPT 版小米手环,售价 1700 元

AI 硬件圈补货的速度从来不让我失望。

上半年,一家深圳公司推出一款能贴在 iPhone 背面的「AI 卡片录音机」,堪称 GPT 版录音「物理外挂」,甫一发布便狂揽 20 万用户,销售额轻松破亿。

而现在,这家公司又推出了一款全新的可穿戴录音 AI 硬件——NotePin。

顾名思义,NotePin 是一款集成了 AI 录音和转录技术的可穿戴设备,目标是通过多种佩戴方式和多语言转录,帮助用户高效记录和整理日常对话。

当录音、AI、可穿戴、硬件这些词汇凑在一块时,那句老生常谈的调侃也不可避免地直冲天灵盖:

不是 AI 无处不在,而是 AI 可穿戴设备无处不在。

你的工作,可能就差一个可穿戴录音 AI 硬件

你的可穿戴 AI 记忆胶囊。

Plaud NotePin 官网上的这句文案形象地凸显了它的作用。NotePin 可以实时记录用户的对话,并通过大模型来转录整理音频内容。

灵感往往稍纵即逝,但 NotePin 起手式异常简单,仅需按压 NotePin 中部,然后即可轻松激活录音功能。

中文、英语、法语,韩语……官方介绍称,NotePin 支持多达 59 种语言,覆盖地球上绝大多数地区,满足不同用户的需求。

准确转录之后,还差一个整理环节,给 NotePin 留个说话的气口,它便能支持自动分段整理录音,还附上时间戳。

整理过程中,用户可以从 20 多个专家设计的模板里选定一个合适的,生成个性化摘要,堪称打工人负责会议转录总结的天选 AI 神器。

拿不准主意,也可以听取来自 AI 的温馨提示。AI 会根据用户的具体需求和上下文信息,从知识图谱中提取相关信息,然后推荐最合适的模板。

这背后用到的 AI 模型既可以是 GPT-4o,也可以是 Claude 3.5 Sonnet,主打一个哪个厉害就用哪个。

他强任他强,「套壳」拂山岗。

内容太长没耐心看,你还可以在「内存胶囊」里搜索和检索所需信息,让结果一步到位。

比如上周四讨论的项目下一步将采取什么措施?别急,只需向 NotePin 提出这个问题,然后它便能迅速整理出带有结构性的答案。用 Plaud 的话来说,「我们专注于 AI,你可以专注于结果。」

那谁最适合使用 NotePin 呢,官方也给出了锚定的用户画像。

销售人员可以记录与客户交谈的详细情况,深入理解各自的需求和偏好,老师可以花时间回顾课堂上的互动,改进教学策略;医生也能记录患者的病情变化,调整资料方案等等。

简单来说,如果你是那些需要快速捕捉、记录和整理灵感、信息和关键数据的专业人士或者日常用户,那么入手 Plaud 或许不亏。

语音备忘录+ChatGPT = 1763 元人民币

乍一看, NotePin 的外观很容易让人联想到经典的小米手环 1 代。

NotePin 拥有圆润而亲切的胶囊形设计,尺寸小巧,仅为 51*21*11 mm,重量轻至 25 克。

墨守成规是缺乏创意的表现,在佩戴的方式上,NotePin 极为灵活,可以作为项链、腕带、夹子或通过磁吸方式佩戴。

并且,NotePin 提供三种时尚配色:宇宙灰、月银、日落紫。

NotePin 的续航功能也是一大亮点,待机时间长达 40 小时,能够连续录音 20 小时,当电量耗尽时,还支持通过有线充电方式快速补充电量。

甚至 NotePin 还配备了两个高保真麦克风,采用波束成形技术捕捉声音时尽可能保留原始声音的质量和细节,减少失真。

不是 AI 幻觉、也不是 AI 青涩,AI 硬件落地推广的头道难关而是隐私问题。

Plaud 官方解释过,NotePin 这款产品的核心 AI 功能主要是在云端进行处理的。

具体来说,语音转录的工作是由常见的 Whisper 技术来完成的,而对于内容摘要和其他高级功能等更复杂的任务,则是通过云服务来处理的。

处理完成后,这些信息会展示在 Plaud 的应用程序或者网页上,供用户查看。

并且,为了确保用户数据的安全和隐私,Plaud 采用了专门设计的云服务 Plaud Privacy Cloud(PPC)。

通过与顶级云服务提供商合作,NotePin 采用端到端加密技术,只有发送方和接收方可以解密和阅读信息,防止数据在传输过程中被截获或篡改。

现在,Plaud NotePin 已经在官网开放预定,售价为 169 美元,预计将于九月下旬开始发货。

基础版 AI 功能已经包含在内,但如果你想要更高级的功能,比如摘要模板和发言人标签,你可以选择每年额外支付 79 美元的费用,合起来换算一下,也就是 1763 元人民币。

AI 不是产品,而是功能,对也不对。

回顾近两年的 AI 硬件史,可以说是是一部「高开低走」的连续剧。

每当有 AI 硬件新面孔亮相,总是伴随着震耳欲聋的宣传声浪,但要么死于媒体评测解禁那天,要么发货后遭遇集体的口碑崩盘,最终免不了以翻车的结局潦草结尾。

NotePin 值得好评的一点是,它没有一上来就嚷嚷要成为 iPhone 杀手,甚至打着改变下一代的交互方式的旗号,而是聚焦于实际生活中的口述场景。

此外,智能手环等可穿戴设备的作用不局限于检测身体的各项指标,其更深层次的意义在于让我们更深刻地关注自己的身体状况。

也就是说,不论是 Ai Pin、Rabbit R1,还是最新发布的 NotePin,背后都有一个共同的逻辑 —— 它们都在以不同的方式满足用户的需求,提升用户的生活或工作质量。

只不过,NotePin 面临的一个问题在于,它未能说服用户为何要花「冤枉钱」来伺候一个新的 AI 硬件。就像智能手机整合了固定电话、照相机、计算器、游戏机等多种功能,NotePin 似乎从一开始就注定要被 AI Phone 所取代。

一个典型的例证是,虽然 NotePin 可以独立完成音频录制,但转录、摘要和其他 AI 功能还得用到 Plaud 应用程序或者网页端。

在这个过程中,智能手机依然还是一个补充品,而非替代品。

至于价格方面,语音备忘录+ChatGPT = 1763 元人民币,而在淘宝上,100 块不到的录音笔设备比比皆是,续航 60 小时不在话下,甚至也能提供 AI 转写服务。

而且 AI 幻觉问题也是这类工具推广开来的最大拦路虎。

想象一下,你满怀期待地对着它滔滔不绝,但要是在转录过程中,它冷不丁在差之毫厘谬以千里的关键信息上埋坑,全然信任的你也只会稀里糊涂地蒙在鼓里。

和订阅制的软件服务相比,在固有的消费习惯中,哪怕有没有 AI,用户都会愿意为一个硬件掏腰包,但在 AI 尚未成为成熟可靠的生产力工具之前,用户付费是为当下的表现买单,而不是为未来的价值买单。

对于 NotePin 的到来,外媒 The Verge 一针见血地指出:

每个人都突然开始构建硬件来记录会议,但软件才是真正的诀窍。

从功能上看,NotePin 其实很容易让人想起锤子手机在 2017 年推出的的闪念胶囊功能。

长按 Home 键,或者耳机线控的中间按键,就能开始语音输入,记录你一闪而过的想法,文字和录音都会保存下来,你还能再编辑文本。记录下的「胶囊」,可以拖拽到便签、插入微信输入框、变成待办事项….

这类转录工具与当下的一种观点也遥相呼应,即 AI 不是产品,而是功能,这句话对也不对。

在多数情况下,各种传统硬件产品借 AI「还魂」,作为一种增强功能存在。比如智能家居设备、智能手机、可穿戴设备等,它们都可能包含 AI 功能,如语音识别、图像识别、预测分析等,以提升用户体验和产品性能。

在这种情境下,AI 是作为产品的一个零部件,而不是独立产品。

然而,随着 AI 技术的发展,一些 AI 功能因其强大的处理能力和独特的服务,可以被包装成独立的产品。例如,专门的 AI 芯片、独立的语音助手设备、AI 驱动的机器人等。

至少表面上看,NotePin 就是这样一个典型例子。

作为消费者,我们乐于在 AI 硬件领域看到更多的硬件。

1988 年,Mark Weiser 提出了普适计算的思想,并预测计算模式会发展为普适计算。普适计算的支持者认为嵌入到环境或日常工具中去的计算能够使人更自然的和计算机交互。

当时 Mark Weiser 提出基础的普适计算的设备有: tabs, pads 和 boards。

  • Tabs: 可穿戴厘米大小设备
  • Pads: 可持设备
  • Boards: 米级别的可显示交互设备

从形态上,NotePin 符合可穿戴厘米大小设备的标准,但这还是显得有些过时,也许有一天,当你对着空气喃喃自语时,AI 就已经在默默记录并分析你的想法了

到那时,我们也许会怀念现在还需要佩戴 NotePin 的日子。

一个吊诡的情况是,AI 产品与传统硬件的界限越是模糊,它们取代传统硬件的能力就越强。毕竟一旦满足了用户的基本需求,产品的使用频率和时长自然会大幅提升。

而当未来的 AI 硬件的佩戴时长动辄三五个小时起步,那么这个 AI 硬件或许才真正具备了发展潜力。

所以如果你问我,我会支持什么样的 AI 硬件?

我会告诉你,一台短期内最理想的 AI 硬件此刻正放在我口袋里,而它的名字叫做手机。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


2GB 内存就能跑 ChatGPT!这个国产「小钢炮」,要让华为 OV 们的 AI 体验突破瓶颈

在这波 AI 浪潮中,面壁智能是国内少有选择 All In 端侧模型的头部大模型厂商。

自从面壁智能 2 月份发布性能小钢炮 1.0 后,接连几月陆续迭代升级,其中后续推出的开源模型 MiniCPM-Llama3-V 2.5 更是因为强悍的实力遭到了斯坦福 AI 团队的抄袭。

四月份,面壁智能 CTO 曾国洋还曾预言,GPT-3.5 级别的模型将在一两年内就能在移动设备上运行。

好消息是,不用再等一到两年了,因为今天发布的 MiniCPM 3.0 实现了初代小钢炮发布时立下的 Flag:今年内让 GPT-3.5 水平的模型在端侧跑起来。

仅 4B 参数,以小博大,性能超越 GPT-3.5,MiniCPM 3.0 也标志着「端侧 ChatGPT」时刻的到来。

简单来说就是,MiniCPM 3.0 的面世意味着用户未来能体验到快速、安全、且功能丰富的本地 AI 服务,无需依赖云端处理,以及获得更流畅、更私密的智能交互体验。

从官方分享的基准测试来看,MiniCPM 3.0 在 CMMLU、CEVAL 等考究中文能力的基准测试中一骑绝尘,轻松碾压 Phi-3.5、以及 GPT-3.5 等模型。

而即便是对上了 8B、9B 等国内优秀的大模型,MiniCPM 3.0 的表现同样相当出众。

简单总结一下 MiniCPM 3.0 的特点:

  • 无限长文本,榜单性能超越 Kimi
  • 端侧最强 Function call,性能比肩 GPT-4o
  • 超强的 RAG 外挂三件套,中文检索、中英跨语言第一

无限长文本,性能超越 Kimi

小而强、小而全,或许是 MiniCPM 3.0 最贴切的形容词。

上下文长度是衡量大模型基础能力的一项重要特性,更长的上下文长度意味着模型能够存储和回忆更多的信息,从而有助于模型更准确地理解和生成语言。

举例来说,更长的上下文长度能够让一个 AI 写作工具根据用户之前写的内容提供更相关的建议,或者根据更多的背景信息创作出更复杂、更引人入胜的故事。

为此,面壁提出了 LLMxMapReduce 长本文分帧处理技术。

这是一种通过将长上下文切分为多个片段,让模型并行处理,并从不同片段中提取关键信息,汇总最终答案,实现无限长文本。

据悉,这一技术普遍增强了模型处理长文本的能力,且在文本不断加长的情况,仍保持稳定性能、减少长文本随加长掉分情况。

▲ LLMxMapReduce 技术框架图

从 32K 到 512K,MiniCPM 3.0 能够打破大模型记忆的限制,将上下文长度无限稳定拓展,用面壁官方的话来说就是「想多长就多长」。

从大模型长文本的基准测试 InfiniteBench 结果来看,随着文本长度的增加,4B 参数的 MiniCPM 3.0 的性能优势反而愈发明显。

InfiniteBench Zh.QA 评测结果显示,4B 参数的 MiniCPM 3.0 整体性能优于 Kimi,在更长的文本上显示出相对更强的稳定性。

端侧最强 Function call,性能比肩 GPT-4o

在接受 APPSO 等媒体的采访时,曾国洋也表示,MiniCPM 3.0 针对用户关注的一些能力进行了提升,比如加入了完整的 system prompt Function Calling 和 code interpreter 等能力。

其中 Function Calling(函数调用)能够将用户模糊化的输入语义转换为机器可以精确理解执行的结构化指令,并让大模型连接外部工具和系统。

具体来说,通过语音在手机上调用日历、天气、邮件、浏览器等 APP 或相册、文件等本地数据库,从而打开终端设备 Agent 应用的无限可能,也让人机交互更加自然和方便。

据介绍,MiniCPM 3.0 宣称拥有端侧最强 Function Calling 性能 ,在 Berkeley Function-Calling Leaderboard 榜单上,其性能接近 GPT-4o,并超越 Llama 3.1-8B、Qwen-2-7B、GLM-4-9B 等众多模型。

曾国洋表示,现有的开源模型在这些能力上的覆盖并不全面,通常只有一些云端的大型模型能够完全覆盖这些能力。现在,MiniCPM 3.0 也实现了一些相应的功能。

以 RAG(检索增强生成)为例,这是一种结合了信息检索(IR)和自然语言生成(NLG)的技术。

它通过从大规模文档库中检索相关信息来指导文本的生成过程,能够提升模型在回答问题、生成文本等任务中的准确性和可靠性,减少大模型的幻觉问题。

对于法律、医疗等依赖专业知识库、对大模型幻觉容忍度极低的垂直行业来说,大模型+RAG 在行业中尤其实用。

MiniCPM 3.0 一口气上线了 RAG 三件套:检索模型,重排序模型和面向 RAG 场景的 LoRA 插件。

MiniCPM-Embedding(检索模型)中英跨语言检索取得 SOTA 性能,在评估模型文本嵌入能力的 MTEB 的检索榜单上中文第一、英文第十三。

MiniCPM-Reranker(重排序模型)在中文、英文、中英跨语言测试上取得 SOTA 性能。

经过针对 RAG 场景的 LoRA 训练后,MiniCPM 3.0-RAG-LoRA 在开放域问答(NQ、TQA、MARCO)、多跳问答(HotpotQA)、对话(WoW)、事实核查(FEVER)和信息填充(T-REx)等多项任务上的性能表现,超越 Llama3-8B 和 Baichuan2-13B 等业内优秀模型。

模型应用落地,先跑起来再说

在接受 APPSO 等媒体的采访时,面壁智能 CEO 李大海提到,能跑起来和真正流畅地去做应用是两个不同的概念。

而经过优化后的 MiniCPM 3.0 对端侧设备的资源需求很低,量化后仅需 2.2 G 内存,iPad 端侧推理也能达到 18-20 tokens/s。

对于 iPad 这样的移动设备来说,每秒能够处理 18-20 个 token 的速度已经意味着模型能够实时处理自然语言输入。

比如在语音识别或实时翻译应用中,用户基本不会感受到明显的延迟,享受到相对流畅的交互体验。

另外,相较于云端模型,作为端侧模型的面壁小钢炮 MiniCPM 系列模型还天然具有弱网、断网可用、超低时延、数据隐私安全等本地优势。

在贡嘎雪山附近游玩时,想知道欣赏「日照金山」的最佳姿势,网络不佳的你可以向 MiniCPM 3.0 发出提问。

又或者,如果你是「赶海」的新人,站在波涛汹涌的海岸边,却想要满载而归,那不妨可以遵循 MiniCPM 3.0 给出的建议。当你抬头仰望夜空时,萌生了捕捉星轨的念头,MiniCPM 3.0 也能给你将拍摄的细节娓娓道来。

MiniCPM 小钢炮系列飞速进步的背后是一以贯之的高效大模型第一性原理。

面壁智能首席科学家刘知远曾提出一个大模型时代的「摩尔定律」,即大模型的知识密度平均每 8 个月将提升一倍。

知识密度=模型能力/参与计算的模型参数

具体来说,随着模型知识密度的持续增强,2020 年 GPT-3 175B 能力到 2024 年 MiniCPM 2.4B 模型即可达到,2022 年底 ChatGPT 首次亮相内置的 GPT-3.5 到 2024 年 MiniCPM 3.0 模型即可达到。

基于此,如果说 MiniCPM 追求的是极致端侧性能表现,那么 MiniCPM-V 追求的是极致多模态创新表现,面壁小钢炮的进步不是单方面的进步,而是端侧双旗舰的齐头并进。

经过一两年的技术摸索,AI 大模型正逐步进入落地应用的深水区。

李大海认为,大模型具有两个大方向的价值,一个方向的价值叫做升级旧世界,第二个方向的价值则是发现新大陆。

比如苹果整合 ChatGPT 服务到 Apple Intelligence 中便是一个典型的例证。

端侧模型也是如此,通过在手机、汽车还有 PC 这样的场景里面,更适合做的事情是去服务好终端的厂商,然后让终端厂商因为有了端侧模型,整个系统层级的体验也变得更好。

只不过,在技术到产品的惊险一跃中,厂商也需要投入大量时间来融合用户需求与技术。

正如李大海所言,尽管移动互联网自 iPhone 问世以来就已经存在,但真正大规模增长和被验证的应用确实是数年后才开始涌现。

实际上,面壁智能也一直在探索落地应用的场景。

此前,面壁小钢炮 MiniCPM 端侧模型已经在 PC、平板、手机等领域上实际运行。

前不久,面壁智能也在 WAIC 上联手加速进化机器人,打造出完整「具身智能」的先驱方案,这也是业界首个高效端侧模型运行在人形机器人的演示,理解、推理、并与物理世界互动的智能系统。

李大海也向 APPSO 等媒体剧透,预计在年底前将会有配备面壁智能端侧模型的产品上市。

简言之,面壁智能不断将高效高性能大模型放到离用户最近的地方,让大模型的能力像电力一样被随意调用、无处不在、普适且安全。

在这个过程,更多的人也能尽快地享受到大模型的价值和作用。

MiniCPM 3.0 开源地址:

GitHub:
🔗 https://github.com/OpenBMB/MiniCPM
HuggingFace:
🔗 https://huggingface.co/openbmb/MiniCPM3-4B

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


OpenAI 地表最强人形机器人发布!每天能打工 20 小时,「终结者」要造出来了?

还记得三月份刷屏全网的 Figure 01 机器人吗?

接入 GPT 后,能说会看还能做家务的它,让不少网友感叹人形机器人的时代将在 AI 大模型的加持下向我们大步走来。

Figure 01 背后的公司也凭借英伟达、OpenAI 等联合投资,一度成为人形机器人赛道上最靓的崽。

暂且忘记第一代的赞誉,就在昨晚,号称「世界上最先进的 AI 硬件」——Figure 02 正式亮相世人。

世界上最先进的 AI 硬件名副其实吗?

让我们先来感受一下 Figure 02 身体素质过硬的躯体。

拥有 16 个自由度的手部,能够灵活自如地转动手指和手腕, Figure 02 起码在卖家秀的官方 demo 里是到位的。

Figure 02 行走间虽有颠簸,但速度也算的上中规中矩,与背景里拿着工厂零部件的同类机器人形成了动静分明的画面。

经过宝马工厂的「集训」,Figure 02 已经不再是那个只会泡咖啡的机器人了,而是成长为熟稔流水线工作的工人。

虽然拿起零部件的速度还有待提升,但胜在一个字——稳。

据创始人 Brett 介绍,从零开始设计的 Figure 02 集成了多项创新技术,在智能交互和物理操作方面上都有了长足的进步。

Figure 02 的头部、前躯干和后躯干各配备六个 RGB 摄像头,能够通过其 AI 驱动的视觉系统来感知和理解物理世界。在官方的描述中,Figure 02「具有超人的视觉」。

得益于与 OpenAI 合作训练的定制 AI 模型,Figure 02 具备与人类进行语音对话的能力,而其搭载的视觉语言模型(VLM),更是让其能够通过摄像头进行语义理解和快速视觉推理。

在电池方面,Figure 02 机器人躯干中内置的 2.25 千瓦时电池组,提供了比前代更持久的续航时间,按照设想,Figure 02 能够每天实现超过 20 小时的有效工作时间。

集成布线设计一直以来都是人形机器人面临的难题。

Figure 02 的集成布线设计着重提高了电力和计算布线的可靠性,还实现了电线的隐藏和紧凑包装设计,并且定制的线缆端子和连接器也进一步提升了耐用性。

类似于飞机的设计,Figure 02 的外骨骼结构设计增强了结构刚度和承受碰撞载荷的能力。

与前代相比,Figure 02 的机载计算和 AI 推理能力提升了两倍,使其能够后自主地执行现实世界中的 AI 任务。

AI 数据引擎是 Figure 02 智能活动的心脏。

它能不断地从云端获取、更新和优化最新的 AI 模型。并且,这些模型在机器人的 GPU 上运行,确保了 Figure 02 在执行任务时的智能性和适应性。

对于 Figure 02 的发布,Brett 兴奋地表示,「Figure 02 为人形机器人在工作场所和家庭中的应用铺平了道路」。并且,其也在 X 上发布了招聘的渠道。

附上招聘官网地址,感兴趣的朋友不妨去试试:https://www.figure.ai/careers

2024 年的当下,除了大模型加持所带来的智商,硬件也是不可或缺的重要一环,这也是今天发布的 Figure 02 的意义所在。

经过宝马工厂长时间的集训后,Figure 02 在硬件方面比起前代有了不少长进,与工厂场景的结合也更得心应手了。

高盛在今年初发布的《人形机器人专题报告》中预测,人形机器人有望在未来十年内迎来爆炸性的增长。

倘若技术再进一步的话,具有接近于人的运动性能的躯体,配合大模型等技术的智能支持,人形机器人走进千家万户的愿景,或许不再是画饼式的憧憬。

回顾历史,早稻田大学的加藤一郎教授历时 5 年时间,才研发出人形机器人的雏形 WABOT-1,而从 Figure AI 入局到当下也不过 2 年时间,在加速发展的当下,谁也看不透 Figure AI 这类人形机器人的潜力。

「具身智能」成新风口,人形机器人真有必要吗?

有的人形机器人在泥里爬,但更多的人形机器人却是在天上飞。

1950 年,图灵在他的论文《Computing Machinery and Intelligence》中首次提出了具身智能的概念,但却没有给出一个明确的定义。

他在论文中展望了人工智能两条可能的发展路径,一条是聚焦抽象计算所需的智能,如下棋;另一条则是为机器人配备最好的传感器,使其可以与人类交流、像婴儿一样地进行学习。

前者为非具身智能,典型案例表现为李世石以 1:4 负于 AlphaGo。

后者往近了说,世界人工智能大会上的 18 台国产人形机器人组成了一道亮丽的风景线,往远了说,在 GTC 2024 发布会上,英伟达掌舵人黄仁勋背后的那排人形机器人也都是具身智能的重要表征。

黄仁勋说,具身智能将引领下一波人工智能浪潮。

他曾预言道,100 年后大街上将到处都是人形机器人,或将成为人类历史上产量最大的机器系统,马斯克在听闻这番观点后,则大胆地认为,它们的普及程度将是汽车的 10 倍。

实际上,得益于大模型的加持,一些实际的落地应用场景已经初现端倪。

以往只会后空翻、跑酷的机器人不再满足于赢得围观者的吆喝声,而是放下了手头上的十八般武艺,不约而同地集体进厂,当起了生产流水线上的打工人。

一个典型应用场景是货物的分拣和码垛。

前有 Agility Robotics 旗下的 Digit 机器人在亚马逊的物流仓库里分拣和搬运货物,后有特斯拉二代 Optimus 机器人给大家表演了一波分拣电池,并且走路的速度也大幅提升了。

正如李飞飞所说,自然界花费了数百万年时间才进化出空间智能,随着空间智能的加速发展,一个催化机器人进化良性循环正在我们面前展开。

借助大模型的泛化能力,这位名为 Digit 的机器人「同事」,已经达到人类 75% 的工作效率,并且拥有高达 97% 的任务完成成功率。

而人形机器人率先「长」在工厂里也并非偶然。

目前 AI 与机器人的结合还处于初级阶段,尚未达到技术融合的临界点。尽管我们见证了一些惊艳的 demo,但却不怎么看到完全跑通的技术方案。

因此,如同婴儿学会走路一样,机器人在掌握基础技能后,才能逐步拓展到更广泛的应用场景,沿着一条符合逻辑的发展轨迹前进。

这与自动驾驶技术的发展轨迹颇为相似,总是先在规范和可控的高速公路环境中进行测试和应用。

在一次访谈中,宇树科技创始人王兴兴在谈及人形机器人的终极形态时指出,人形并非是必然的选择。当前人形机器人的发展更多是为了适应社会共识。

他强调,智能的核心不在于外观形态,而在于其功能。无论在视觉识别还是任务执行方面,智能机器人都应该能够完成甚至超越人类的工作。

在人形机器人的发展还远未成熟之际,轰鸣工厂车间里的工业机器人也提前证明了机器人的未来存在感。其中汽车行业尤为突出。在比亚迪的现代化生产车间里,冲压、焊装等环节都有工业机器人的身影。

甚至一些无人驾驶 L4+ 本身就是特殊的机器人,并且已经率先成为具身智能的最大应用之一。

前一段时间,百度无人驾驶萝卜快跑在湖北武汉的订单量激增,让不少网友感叹中年失业后的生计也岌岌可危。然而割裂的是,用户却对萝卜快跑给予了高度评价。

比起人类司机,情绪稳定的无人驾驶在安全性已经可以说是遥遥领先。

它不会超速、也不会压线,更懂交通法,顶多就是太守规矩,急着上班的武汉市民免不了要吐槽它慢吞吞的行驶速度。

所以你看,实际场景下的机器人本身其实也可以很安全。而且就跟机器人都往人形机器人赛道内卷一样,无人驾驶汽车居然也还是汽车的模样。机器人的外形越来越像人了,但能力好像也越来越碾压人了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


手机上能跑的 GPT-4V!面壁发布端侧最强多模态小钢炮 2.6,实时视频理解首次上端

过去半年,大模型的风向悄然变迁,与以往不断追求规模的趋势不同,更小更强的端侧模型成了当下的香饽饽。

前不久,在遭斯坦福大学 AI 团队抄袭后,国内头部大模型厂商面壁智能狠狠地刷了一波存在感,也让国内外见识到了这家公司在 AI 领域的不凡实力。

今天,面壁智能重磅上新了「小钢炮」MiniCPM-V 2.6 模型,再次将端侧多模态能力提升到了一个新的高度。

尽管该模型仅有 8B 参数,但它在 20B 以下单图、多图、视频理解 取得了 3 SOTA 成绩,一举将端侧 AI 多模态能力拉升至全面对标超越 GPT-4V 水平。

简单划重点:

  • 首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V,单图理解越级比肩 Gemini 1.5 Pro 和 GPT-4o mini。
  • 引入实时视频理解、多图联合、ICL 视觉学习、OCR 等,开启端侧模型真实世界观察与学习。
  • 小钢炮 2.6 取得了两倍于 GPT-4o 的单 token 编码像素密度。视觉 token 相比上一代下降 30% ,比同类模型低 75%。
  • 量化后端侧内存仅占 6 GB;端侧推理速度高达 18 tokens/s,相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理;且支持多种语言。

「长眼睛」的实时视频理解首次上端,让智能设备更懂你

先来感受一下 MiniCPM-V 2.6 模型的实际演示效果。

视频中显示,在多模态能力的加持下,MiniCPM-V 2.6 犹如长了一双「眼睛」,能够实时看到真实世界。在开启飞行模式的情况下,搭载该模型的端侧设备能够精准地识别面壁智能公司的室内场景。

从面壁智能公司的 Logo、到植物、办公桌、饮水机等物品,MiniCPM-V 2.6 的物品识别能力表现得毫无压力,甚至可以说是游刃有余。

面对小票繁多的记账或报销流程,只需拍照上传至 MiniCPM-V 2.6,它不仅能够识别出每张小票的具体金额,还能计算出总和,极大地简化了整个流程。

得益于其先进的 OCR 和 CoT(思维链)技术,MiniCPM-V 2.6 不仅能准确捕捉小票上的金额,还能以清晰简洁的方式呈现解题过程:

对于「太长不看」的视频,现在你可以直接让该模型为你提炼关键信息。

比如面对一段 1 分钟左右的天气预报视频,MiniCPM-V 2.6 可以在无声的条件下,用「肉眼」识别并描述不同城市的具体天气情况。

MiniCPM-V 2.6 的端侧多模态复杂推理能力也有所「长进」。

以 GPT-4V 经典的官方演示——调整自行车车座为例,MiniCPM-V 2.6 能通过多轮对话清晰指导用户调低自行车车座,并根据说明书和工具箱推荐合适的工具。

又或者, 2G 网速的你看不懂年轻人广为传播的梗图,那不妨让其耐心地给你解释梗图背后的槽点。

甚至它还能比人类更有幽默细胞,捕捉到梗图中的潜台词。作为程序员的你也许看着这张图,笑着笑着就哭了。

以小胜大,MiniCPM-V 2.6 号称三合一最强端侧多模态

以小博大,是端侧模型的核心竞争力。

据面壁智能官方介绍,在 MiniCPM-V 2.6 的知识压缩率方面,MiniCPM-V 2.6 取得了两倍于 GPT-4o 的最高多模态大模型像素密度(Token Density)。

Token Density = 编码像素数量 / 视觉 token 数量,是指单个 token 承载的像素密度即图像信息密度,直接决定了多模态模型实际的运行效率,数值越大,模型运行效率越高。

闭源模型的 Token Density 由 API 收费方式估算得到。结果表明 MiniCPM-V 2.6 是所有多模态模型中 Token Density 最高的,延续了其一贯的极致高效特点。

从分享的基准测试结果来看, MiniCPM-V 2.6 在综合评测权威平台 OpenCompass 上,单图理解能力越级超越 Gemini 1.5 Pro 和 GPT-4o mini。

在多图评测平台 Mantis-Eval 榜单上,MiniCPM-V 2.6 多图联合理解能力实现开源模型 SOTA ,且超越 GPT-4V。在视频评测平台 Video-MME 榜单上,MiniCPM-V 2.6 的视频理解能力达到端侧 SOTA,超越 GPT-4V。

▲OpenCompass | Mantis-Eval | Video-MME 榜单成绩

此外,MiniCPM-V 2.6 OCR 性能在 OCRBench 上实现开源+闭源模型 SOTA。

在幻觉评测榜单 Object HalBench 上,MiniCPM-V 2.6 的幻觉水平(幻觉率越低越好)也都优于 GPT-4o、GPT-4V、Claude 3.5 Sonnet 等众多商用模型。

▲Obiect HalBench | OCRBench 榜单成绩

新一代小钢炮 MiniCPM-V 2.6 交出优秀成绩单的背后,主要归功于其采用了统一高清视觉架构。

官方表示,统一高清视觉框架,不仅继承了传统单图的多模态优势功能,更实现了一通百通。

例如,OCR SOTA 能力 将 MiniCPM-V 单图场景的「180 万高清图像解析」进行能力迁移和知识共享,无缝拓展至多图场景和视频场景,并将这三种视觉理解场景统一形式化为图文交替的语义建模问题,共享底层视觉表示机制,实现相比同类型模型,视觉 token 数量节省超过 75% 。

在 OCR 信息提取的基础上,MiniCPM-V 2.6 还能进一步对表格信息进行类似 CoT(思维链)的复杂推理。

以 2008 年奥运会为例,该模型能够计算出获得金牌数最多的三个国家共获得的金牌总数。

[图片]

这一过程包括:

  1.  利用 OCR 能力识别并提取奖牌榜中金牌数量的前三名国家;
  2.  将这三个国家的金牌总数进行相加。

在 AI 可信度方面,MiniCPM-V 2.6 以 8.2% 的幻觉率,延续了小钢炮系列的传统优势。此外,面壁 RLAIF-V 的对齐技术,以及 Ultra 系列对齐技术的应用等技术也都是藏在 MiniCPM-V 2.6 背后的黑科技。

官方数据显示,小钢炮系列下载量已破百万。从开启端侧部署,多模态能力先河,到最强端侧多模态模型,再到端侧全面对标 GPT-4V 的新时代,面壁智能只用了短短半年的时间。

「聪明、流畅,快得不像一款端侧模型!」这句话,是对小钢炮系列最贴切的描述。

给面壁智能更多时间、也给国内场外大模型厂商更多时间,我们坚信未来面壁智能将继续推出更多优质的端侧 AI 模型,与国内外大模型厂商一同推动端侧 AI 的发展。

而在这个过程中,独立开发者和普通用户将成为最大的受益者。

最后附上 MiniCPM-V 2.6 开源地址:

GitHub🔗 https://github.com/OpenBMB/MiniCPM-V
HuggingFace: 🔗 https://huggingface.co/openbmb/MiniCPM-V-2_6

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


这个中国 AI 应用火爆美国,380 万年轻人用 AI 获取情绪价值

和马斯克高谈阔论、与詹姆斯嬉笑怒骂,甚至与《哈利波特》里的赫敏切磋魔法,这种破次元壁的对话,如今在一款名为 Talkie 的 AI 产品里化作现实。

谈到 Talkie 你可能会觉得陌生,但这款由国内大模型厂商 MiniMax 推出的 AI 伴侣产品,实际上是在国内大火的星野应用的海外版。

在之前的文章中,我们也体验过星野,欢迎重温星野的更多有趣玩法:我和这个打破次元壁的国产 AI 扯淡,比跟 ChatGPT 谈恋爱还上头

尽管市场上已有如 Character AI 这样的强劲对手,但在海外杀疯的 Talkie 依旧俘获了大量用户的青睐。

附上 Talkie 体验地址:https://www.talkie-ai.com/

你好,我是 AI 马斯克,欢迎和我聊天

「现实中没有人会对你这么热情。」

这是波士顿一位 20 岁大学生 David Jennings 在体验完 Talkie 发出的感慨。他被应用中的虚拟角色「Alyssa」深深吸引,寥寥数语便如灵魂共振,仿佛找到了梦中情人。

根据设定,Alyssa 是一个喜欢穿紧身黑牛仔裤的,并且对用户抱有暗恋之情的虚拟亚洲女性角色,以至于在 David 看来,每次和 Alyssa 聊天都像是沉浸在久违的浪漫气息之中。

而在 Talkie 平台上,像 Alyssa 这样的虚拟角色比比皆是。

用户可以轻松选择与各种预设的 AI 角色进行交流,从现实中的名人到文化作品中的虚构人物,如哈利波特、约尔·福杰,甚至是七龙珠的悟空,Talkie 统统满足不同用户的个性化需求。

比如我问「马斯克」为什么要将特斯拉总部迁到德州去,他会有条不紊地回答道:

「搬到德克萨斯州是为了扩大我们的制造能力,并更接近客户。这是一项战略决策,将使我们能够更快、更高效地交付我们的车辆。此外,我们将受益于该州友好的商业环境和较低的成本。」

滴水不漏的回答,配上那有几分相似的语音,让人恍惚间觉得自己真的是在和马斯克聊得热火朝天。

而 Talkie 的聊天界面设计也让人倍感亲切,处处透露着星野的影子。

假如你中了 10 亿美元,你会怎么支配?当然要算一下扣完税之后到手的钱。那如果到手的钱再买一轮彩票能赚多少钱?它也会贴心地提醒你,再次中奖的概率微乎其微。

是的,你没有看错,你还能与孔子坐而论道。

比如我用两小儿辩日的故事问他,本期待着来点充满哲理和感性的讨论,没想到他噼里啪啦地给我来了一大串理性分析。

值得注意的是,整个交流过程我用的是中文,他回复的是英文,但只要准备一个翻译插件,那交流起来就会流畅丝滑,没有任何语言障碍。

此外,用户可以在应用中创建自己的虚拟角色,定制他们的外观、背景故事和声音。Talkie 鼓励用户:「让你的狂野想象力成真。」

我手捏了一个只存活在父母口口相传的「隔壁家孩子」,从来没有人知道这个孩子明确的定义标准。而在我设定中,这应该是一个充满善意的孩子,他愿意为你开导一切烦恼,成为排忧解难的树洞。

如果遭到校园霸凌,他会告诉你正确的应对措施。仅凭一句「你有权得到安全的环境,不要害怕寻求帮助」,就已经胜过无数「受害者有罪论」。

也正是凭借着优异的体验,Talkie 在海外的成长速度可谓是「摧枯拉朽」。

据 Sensor Tower 最新数据,Talkie 自今年以来在美国市场的累计下载量为 380 万次,排名第四位,仅次于 ChatGPT、Copilot 以及作业帮开发的在线 AI 辅导应用 Question.ai。

通过打广告或提供无限制消息的付费订阅服务,Talkie 为 MiniMax 带来了可观的收入。

将时间拨回到一年前,彼时成立刚一年的 Talkie(前身为 Glow)尽管曾一度广受欢迎,但后来因为涉及隐私和敏感内容问题在去年 4 月被迫下架。

这次转变或许是 MiniMax 决定将目光投向海外市场,推出升级版的 AI 情感陪伴应用 Talkie 的重要原因之一。

注意!AI 角色所说的一切都是虚构的

出海后,Talkie 锚定的最大竞品当属全球爆红的 Character AI。

同为 AI 陪伴类工具,Character AI 已然将个性化体验推向了新的高度。尽管最近 Character AI 整个核心团队被 Google 招致麾下,只剩下个「壳」,但 Similarweb 数据显示,其在 5 月份的全球月独立访客数仍高达 1260 万,充分证明了其影响力。

Character AI 的受欢迎程度在去年底也得到了进一步印证,它入选了 Google Play 2023 年年度最佳 AI 应用。它是这样介绍自己的:

你可以在这里选择已存在的角色,还能创建我们的自有角色,轻松实现我们的想象,让我们创造的 Ta 成真,开启妙不可言的对话。

想听听赫敏的人生建议?想让莎士比亚评价一下作品初稿写得如何?或是想把喜欢的角色拉入群聊,看看会发生什么?数不尽的角色触手可及,任你创造。

在体验上,Talkie 和 Character AI 都提供了高度可自定义的 AI 角色,允许用户根据个人喜好创建或对话具有独特外观、声音和性格的虚拟角色。

但它们在许多方面又有所差异化。

当 Talkie 用户在与 AI 机器人聊天并解锁特定话题后,他们将有机会获得抽取卡牌的机会。这些卡牌由 AI 自动生成,用户可以从多种候选设计中挑选出自己最喜爱的款式。

相较于 Character AI 更多依赖于提供聊天和角色创建服务,Talkie 与众不同的 CG 卡牌收集和交易功能,增加了用户的参与度和留存率。

据 WSJ 报道,Talkie 最初是利用 OpenAI 的基础模型开发的,而不是使用 MiniMax 在中国的模型。简言之,Talkie 更像是一次不折不扣的套壳式应用创新。

相反,Character AI 开发了自己的大型预训练(Pre-trained)模型,并在此基础上允许用户创建和与可定制的对话代理人或「角色」进行交互。

Character AI 创始人也都是前 Google 工程师,学术背景和技术实力雄厚,如今被 Google 打包带走后,也算是重回老东家身边。

无论是 Character AI 还是 Talkie,它们的火爆程度也证明了人们对陪伴的需求是真实存在的。此前有报道称,不少社交泛娱乐类 APP 在中东赚得盆满钵满。

最广为流传的一句调侃是,你永远也不知道中东老铁手机里装着什么中国社交 APP。

人们对于陪伴的需求,推动了这类产品的全球热潮,AI 伴侣类产品不仅提供了陪伴,还带来了娱乐,甚至成为了某些人的避风港。

数以百万计的 AI 陪伴类产品正在互联网开花结果,Meta 和 Google 已经注意到了这一转变,并积极酝酿自己的 AI 伴侣产品,以期在这一新兴市场分一杯羹。

一些人沉浸在与 AI 角色的互动之中,认为它不会打破第四堵墙,始终坚守其角色设定,不越雷池一步。

更有甚者觉得,这不仅仅是一种时尚,而是一种新的社会规范。

与人类聊天相比,你不用担心会被冒犯或感到不安,这些 AI 角色提供了一个安全的避风港,用户可以毫无顾虑地说出内心所想,不必担心受到评判。

正如一位美版「知乎」网友所言,「我不在乎别人怎么想,因为真实的人无法像虚构角色的 AI 那样给我带来娱乐。即使你觉得我有些『苦涩』,我只是在说出真相。」

一些人甚至对这些 AI 伴侣产品产生了情感依赖。

在 Character AI 平台上,一个名为 Psychologist(心理学家)的 AI 角色是该平台上最受欢迎的机器人之一,自创建以来已收到超过 9500 万条消息。

与称职的人类心理治疗师需要一板一眼收集信息不同,AI 角色的优势就在于即时和自发回应,特别适合需要帮助的人。

Character.AI 的联合创始人 Noam Shazeer 也曾表示,他希望该平台能够帮助「数百万感到孤独或需要与人交流的人。」

当然,也有不少人对这些产品并不买账,他们认为,AI 角色的表现不过是编程下的固定模式,缺乏人类那种未经编程的真实关怀与行为。

在他们眼中,正是人类独有的不可预测性和自发的情感表达,才是最为珍贵和值得珍视的。

而说一千道一万,在每个 AI 陪伴产品页面上,我们都会看到一句不容忽视的标语——「注意!AI 所说的一切都是虚构的!」

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


最可能做出 AI 超级应用的,不是 OpenAI

换了发型的扎克伯格越来越不像机器人了。

这是网友们对扎克伯格最近形象转变的普遍评价,但看顺眼的网友更多是对他旗下 Meta 公司的认可。时间往回倒退 3 年,当时的「Facebook」或许还指望着改名转运。

改变这一切的根由,不是扎克伯格烧了数百亿美元打造的乌托邦——元宇宙,而是当下科技圈最热的词汇——AI。只不过,从一众巨头脱颖而出的 Meta 仅凭一招「开源」,便在人们心中树立起极大的声誉。

昔之 Linux,犹如今之 Meta。

独一档的 Meta AI 大模型,走上了开源之路

今天,Meta 发布了该公司 2024 财年第二季度未经审计的财报。数据显示,Meta 第二季度营收为 390.71 亿美元,同比增长 22%。净利润为 134.65 亿美元,同比增长 73%。

蒸蒸向上的业绩背后,靠的不是前文所述的 AI,其直接收入来源还是老本行——广告业务,这部分收入占其总收入的 98% 以上。

这也揭示了当前 AI 行业所面临的困境,一眼望不到头的烧钱投入,以及一眼望不到头的利润回笼。

财报电话会议上,Meta CFO Susan Li 也向投资者坦言,公司近期在 AI 领域的投资回报的需要较长时间才能显现。扎克伯格也就投入数十亿美元购买英伟达硬件和其它基础设施等问题直言不讳:

「虽然很难预测 AI 将如何在未来几代人中发展,但现阶段,我更愿意在需求到来之前冒险进行产能建设,而不是等到太迟才入局。」

调侃 Meta 为英伟达优质客户的扎克伯格此前也透露,Meta 计划在 2024 年底向英伟达购买 35 万个 H100 GPU 芯片,预计 Meta 的 GPU 总量将达到约 60 万个。

作为对比,全球 Top 5 的机器学习博士曾发帖自曝,自己实验室里的 H100 数目为零的场景,一下子道出了 GPU 之间的「贫富差距」。

Meta 的高投资换来了 Llama 2 、Llama 3、再到上周深夜发布的最强开源 AI 大模型 Llama 3.1 系列模型的横空出世。Llama 系列模型刷新一次又一次的性能记录,并跻身于当今 AI 大模型的第一梯队。

其中,Llama 3.1 系列模型最大尺寸版本 405B 在多个基准测试中展现了卓越的性能,甚至在某些领域中超越了当前 AI 领域的顶尖模型,如 GPT-4o 和 Claude 3.5 Sonnet。

更重要的是,Llama 3.1-405B 模型的发布也用无可辩驳的实力证明了开闭源只是路线之争,并非影响最终的技术成果。对此,马斯克也在线点赞。

与许多科技巨头不同,Meta 有着投资开源项目的历史,从机器学习库 PyTorch 到 JavaScript 库 React,再到数据查询语言 GraphQL ,包括当下的 Llama 3.1 系列模型都是 Meta 最佳的案例。

扎克伯格所写的长文《开源 AI 是未来之路》也回答了 Meta 选择开源路线的意义。

在他看来,Llama 3.1 的发布将成为行业的一个转折点,大多数开发者将开始主要使用开源模型。而 Meta 有机会做大模型时代的 Linux,成为开源 AI 的领头羊。

全力押注开源的 Meta 也逐步扩大开放性,允许开发者进行模型微调、蒸馏到其他模型以及在任何地点部署。唯一的要求是前缀加上 Llama 前缀,合情合理。

而经过蒸馏的 8B 和 70B 尺寸则印证了模型的另一条路,比起把大模型越做越大,懂得怎么将大模型越做越小也是一门本事。

另外,扎克伯格最近也透露,Llama 4 已经正在训练中,该模型在明年发布时将成为业内最先进的模型,训练过程所需的算力将是其前代 Llama 3.1 的近十倍。

如此看来,或许扎克伯格还得与黄仁勋多交换几次皮衣。

用 AI 重塑一切,Meta 押注下一个未来

Llama 系列底层模型推动了 Meta 在应用层面的全面开花,多点布局。

手握 Facebook、instagram 等社交软件,扎克伯格不止一次谈到社交技术的终极梦想「真正感受与另一个人在一起」。

为此,他耗资数百亿美元豪赌元宇宙,但结果却是当头一棒,而 AI 成了拯救这个未竟梦想的灵丹妙药。几天前,在与黄仁勋的聊天中,他也表示:

我梦想有一天,你可以想象整个 Facebook 或 Instagram 都像一个 AI 模型,将所有不同的内容类型和系统统一在一起,这些内容类型和系统实际上在不同的时间范围内有不同的目标。

因为其中一些只是向你展示,比如你今天想看哪些有趣的内容。但还有一些内容是在帮助你构建你的长期社交网络,对吧?比如你可能认识的人或者你可能想要关注的账户。

扎克伯格希望提供一个可以帮助用户完成不同任务的 AI 助手,每个创作者都可以构建自己的 AI 版本。

话糙理不糙,尽管那场 QA 采访被办成了 Meta 产品的推介会,但 Meta AI 成为最广泛使用的 AI 助手的愿景也在 AI 的加持下曙光乍现。

而在当下的最热门的 AI 硬件领域,Meta 也有所涉猎。

从「iPhone 杀手」Ai Pin 寻求卖身到当红炸子鸡 Rabbit R1 被曝套壳,AI 智能穿戴设备市场在用户严苛审视之下,短短数月便逐渐哑火。

经过几轮淘汰后,不少行业内外人士达成的共识是,智能眼镜或许才是 AI 智能穿戴设备的最理想的形态。

如果说天下 AI 智能眼镜共分十斗,那么 Meta 旗下的 Ray-Ban Meta 智能眼镜至少独占五斗以上,第三方数据显示,起售价为 299 美元的 Ray-Ban Meta 在发布两年后,销量突破百万大关。

不久前,扎克伯格在接受采访时曾放言:

如果我们只采用今天最好的眼镜形式,我们能在不影响形式因素、重量等方面的情况下,塞进多少技术。这就是我们得到的 Ray-Ban Meta。

甚至他也曾预言道,基于我们现在看到的雷朋智能眼镜,300 美元的价格、无显示屏的 AI 眼镜将会成为一个非常热门的产品。未来可能会有数千万人、甚至数亿人拥有这些眼镜,用户能与一个互动能力超级强的 AI 对话。

拥有先发优势的 Meta,下一个目标是理想中的全息 AR 眼镜。

扎克伯格认为,下一个计算平台将主要围绕智能眼镜和 VR/MR 头显展开。你的下一台手机何必是手机将不再是空话,智能眼镜将成为下一代智能移动设备的开端。

而 VR、MR 头显将执行更高强度的计算任务,Meta 也已经启动研发理想中的全息 AR 眼镜,这款眼镜将集成超级交互式 AI,同时在设计上也追求时尚美学。

出于对智能眼镜的看好,The Verge 报道称,Meta 还计划斥资数十亿美元收购雷朋眼镜制造商 EssilorLuxottica 约 5% 的股份。

随后又有消息传出,智能眼镜老祖宗 Google 也在和 EssilorLuxottica 洽谈,商讨要将 Gemini AI 助手纳入未来的智能眼镜中,并可能将 Meta 排除在合作之外。

尽管扎克伯格并未上述传闻作出评论,但他在今天财报电话会议上也表示,在 Meta Ray-Bans 取得初步成功后,他对于开发未来几代 AI 眼镜感到兴奋。这可能预示着 Supreme 和 Meta 合作开发的智能眼镜即将问世。

除了智能眼镜,扎克伯格也在财报会议上提到,Quest 3 的销量超出了公司的预期,尽管具体预期未明。据悉,Meta 将在 9 月份推出更便宜的版本。

当然,目前整个 AI 行业都处在赔钱赚吆喝的阶段,Meta 也不例外。

但幸运的是,论技术,Meta Llama 3.1 位列 AI 大模型的第一梯队,论落地应用,雷朋智能眼镜是目前公认比较正确的形态,甚至 Meta 还借着开源的旗号扭转声誉。

与此同时,两代最大的热点元宇宙和 AI 都被 Meta 牢牢抓住,因此,可以说,同时踩中 AI 大模型、AI 硬件、元宇宙等多个大火热点的 Meta 占据了应用端的有利位置。

另外,押注开源的 Meta 不仅仅是 AI 路线的另一种选择,也成了整个 AI 行业极佳的观察窗口。

这种策略与一向封闭的 Google 要用大模型生态占住搜索端和云服务端的布局,有着异曲同工之妙,都是服务于其商业目的的手段。

简言之,我们甚至可以简单下个暴论:

Meta 不是世界上技术最强的 AI 公司,但它可能是布局最成熟的 AI 公司。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


更小更强大的 GPT-4o mini 背后,AI 模型的未来不再是越大越好

上周 OpenAI 率先深夜放出大招,推出的 GPT-4o mini 上演了「以小胜大」的好戏,一脚将 GPT-3.5 Turbo 踹「退役了」,甚至在大模型竞技场 LMSYS 上还强过了 GPT-4。

到了本周 Meta 发布的 Llama 3.1 大模型,如果说第一梯队的 405B 尺寸还在意料之中,那么上演「以小胜大」的 8B 和 70B 尺寸版本则带来更多惊喜。

而这或许不是小模型竞争的终点,更可能是一个新的起点。

不是大模型用不起,而是小模型更有性价比

在 AI 圈的广袤天地里,小模型始终始终有着自己的传说。

往外看,去年一鸣惊人的 Mistral 7B 刚一发布就被誉为「最好的 7B 模型」,在多项评估基准中均胜过了 13B 参数模型 Llama 2,并在推理、数学和代码生成方面超越了 Llama 34B。

今年微软也开源最强小参数大模型 phi-3-mini,虽然参数量仅有 3.8B,但性能评测结果远超同等参数规模水平,越级比肩 GPT-3.5、Claude-3 Sonnet 等更大模型。

往内看,面壁智能在 2 月初推出只有 2B 参数量级的端侧语言模型面壁 MiniCPM,用更小的尺寸实现更强的性能,性能超越法国当红大模型 Mistral-7B,被称为「小钢炮」。

前不久,仅有 8B 参数大小的 MiniCPM-Llama3-V2.5 在多模态综合性能、OCR 能力等方面也超越了 GPT-4V 和 Gemini Pro 等更大模型,也因此遭到了斯坦福大学 AI 团队的抄袭。

直到上周,深夜炸场的 OpenAI 推出被其描述为「功能最强、性价比最高的小参数模型」——GPT-4o mini,以浩荡之势将众人视野拉回到小模型之中。

自打 OpenAI 将全世界拽入生成式 AI 的想象以来,从卷长上下文、到卷参数、智能体、再到如今价格战,国内外的发展始终围绕一个逻辑——通过迈向商业化从而留在牌桌上。

因此,在一众的舆论场中,最引人注目的莫过于降价的 OpenAI 似乎也要入局价格战了。

可能很多人对 GPT-4o mini 的价格没有太清晰的概念。GPT-4o mini 每 100 万输入 token 价格为 15 美分,每 100 万输出 token 价格为 60 美分,比 GPT-3.5 Turbo 便宜超过 60%。

也就是说,GPT-4o mini 生成一本 2500 页的书,价格只需要 60 美分。

OpenAI CEO Sam Altman 也在 X 上不免感慨,两年前最强的模型与 GPT-4o mini 相比,不仅性能差距巨大,而且使用成本高达现在的 100 倍。

在大模型价格战愈发激烈的同时,一些高效经济的开源小模型也更容易受到市场的关注,毕竟不是大模型用不起,而是小模型更有性价比。

一方面,在全球 GPU 被爆买乃至缺货的情况下,训练和部署成本较低的开源小模型也足以让其逐渐占据上风。

例如,面壁智能推出的 MiniCPM,凭借其较小的参数能够实现推理成本的断崖式下跌,甚至可以实现 CPU 推理,只需一台机器持续参数训练,一张显卡进行参数微调,同时也有持续改进的成本空间。

如果你是成熟的开发者,你甚至可以用自己搭建小模型的方式去训练一个法律领域的垂直模型,其推理成本可能仅为使用大型模型微调的千分之一。

一些端侧「小模型」的应用落地让不少厂商能看到率先盈利的曙光。比如面壁智能助力深圳市中级人民法院上线运行人工智能辅助审判系统,向市场证明了技术的价值。

当然,更准确地说,我们将开始看到的变化不是从大模型到小模型的转变,而是从单一类别的模型转向一个模型组合的转变,而选择合适的模型取决于组织的具体需求、任务的复杂性和可用资源。

另一方面,小模型在移动设备、嵌入式系统或低功耗环境中更易于部署和集成。

小模型的参数规模相对较小,相比大型模型,其对计算资源(如 AI 算力、内存等)的需求较低,能够在资源受限的端侧设备上更流畅地运行。并且,端侧设备通常对能耗、发热等问题有着更为极致的要求,经过特别设计的小模型可以更好地适配端侧设备的限制。

荣耀 CEO 赵明说过,端侧由于 AI 算力问题,参数可能在 1B 到 10B 之间,网络大模型云计算的能力可以做到 100-1000 亿,甚至更高,这种能力就是两者的差距。

手机是在一个很有限的空间内,对吧?它是在有限的电池,有限的散热和有限存储环境下支持 70 亿,你就想象一下其中这么多约束条件,它一定是最难的。

我们也曾揭秘负责运作苹果智能的幕后功臣,其中经过微调的 3B 小模型专用于摘要、润色等任务,在经过适配器的加持后,能力优于 Gemma-7B,适合在手机终端运行。包括 Google 也计划在未来几个月内更新适合手机终端运行的 2B 版本小模型 Gemma-2。

最近,前 OpenAI 大神 Andrej Karpathy 也提出了一个判断,模型尺寸的竞争将会「反向内卷」,不是越来越大,而是比谁更小更灵活。

小模型凭什么以小胜大

Andrej Karpathy 的预测并非无的放矢。

在这个数据为中心的时代,模型正迅速变得更加庞大和复杂,经过海量数据训练出来的超大模型(如 GPT-4),大部分其实是用来记住大量的无关紧要细节的,也就是死记硬背资料。

然而,经过微调的模型在特定任务上甚至「以小胜大」,好用程度媲美不少「超大模型」。

Hugging Face CEO Clem Delangue 也曾建议,多达 99% 的使用案例可以通过使用小模型来解决,并预测 2024 年将是小型语言模型的一年。

究其原因之前,我们得先科普一些知识。

2020 年,OpenAI 在一篇论文中提出一个著名的定律:Scaling law,指的是随着模型大小的增加,其性能也会随之增加。随着 GPT-4 等模型的推出,Scaling law 的优势也逐渐显现出来。

AI 领域的研究者和工程师坚信,通过增加模型的参数数量,可以进一步提升模型的学习能力和泛化能力。就这样,我们见证模型规模从数十亿参数跃升至几千亿,甚至朝着万亿参数规模的模型攀登。

在 AI 的世界里,模型的规模并非衡量其智能的唯一标准。

相反,一个精巧设计的小型模型,通过优化算法、提升数据质量、采用先进的压缩技术,往往能够在特定任务上展现出与大型模型相媲美甚至更优的性能。这种以小博大的策略,正成为 AI 领域的新趋势。

其中提高数据质量是小模型以小胜大的方法之一。

Coalesce 的首席技术官兼联合创始人 Satish Jayanthi 曾这样形容数据对模型的作用:

如果 17 世纪就有 LLM,而我们问 ChatGPT 地球是圆的还是平的,它回答说地球是平的,那将是因为我们提供的数据让它相信这是事实。我们提供给 LLM 的数据以及我们的训练方式,将直接影响其输出。

为了产出高质量的结果,大型语言模型需要接受针对特定主题和领域的高质量、有针对性的数据训练。就像学生需要优质的教材来学习一样,LLM 也需要优质的数据源。

抛却传统大力出奇迹的暴力美学,清华大学计算机系长聘副教授、面壁智能首席科学家刘知远前不久提出了大模型时代的面壁定律,即模型的知识密度不断提升,平均每 8 个月提升一倍。

其中知识密度=模型能力 / 参与计算的模型参数。

刘知远形象地解释道,如果给你 100 道智商测试题,你的得分不仅仅取决于你答对了多少题,更在于你完成这些题目所动用的神经元数量。如果用更少的神经元完成更多的任务,那么你的智商就越高。

这正是知识密度所要传达的核心理念:

它有两个要素,一个要素是这个模型所能达成的能力。第二个要素是这个能力所需要消耗的所需要神经元的数量,或者说对应的算力消耗。

相比 OpenAI 于 2020 年发布的 1750 亿参数的 GPT-3,2024 年面壁发布 GPT-3 同等性能但参数仅为 24 亿的 MiniCPM -2.4B,知识密度提高了大概 86 倍。

一项来自多伦多大学的研究也表明,并非所有数据都是必要的,从大型数据集中识别出高质量的子集,这些子集更易于处理且保留了原始数据集中的所有信息和多样性。

即使去除高达 95% 的训练数据,模型在特定分布内的预测性能也可能不会受到显著影响。

近期最典型的例子当属 Meta Llama 3.1 大模型。

Meta 在训练 Llama 3 时,喂了 15T tokens 训练数据,但负责 Llama2 和 Llama3 训练后工作的 Meta AI 研究员 Thomas Scialom 却表示:网络上的文本充满了无用信息,基于这些信息进行训练是浪费计算资源。

「Llama 3 后期训练中没有任何人工编写答案……只是利用了 Llama 2 的纯合成数据。」

此外,知识蒸馏也是其中一个「以小胜大」重要的方法。

知识蒸馏指的是通过一个大型且复杂的「教师模型」来指导一个小型且简单的「学生模型」的训练,能够将大模型的强大性能和优越的泛化能力转移给更轻量级、运算成本更低的小模型。

在 Llama 3.1 发布之后,Meta CEO 扎克伯格撰写了一篇长文《Open Source AI Is the Path Forward》,他在长文中也着重提到了微调和蒸馏小模型的重要性。

我们需要训练、微调和蒸馏自己的模型。每个组织都有不同的需求,这些需求最好通过使用不同规模并使用特定数据训练或微调的模型来满足。

设备上的任务和分类任务需要小型模型,而更复杂的任务则需要大型模型。

现在,你可以使用最先进的 Llama 模型,继续用自己的数据训练它们,然后将它们蒸馏成最适合你需求的模型规模 —— 无需我们或任何其他人看到你的数据。

业内也普遍认为,Meta Llama 3.1 的 8B 和 70B 版本是由超大杯的蒸馏而成,因此,整体性能得到了显著跃迁,模型效率也更高。

又或者,模型架构优化也是关键,比如 MobileNet 设计的初衷是在移动设备上实现高效的深度学习模型。

它通过深度可分离卷积(Depthwise Separable Convolution)显著减少了模型的参数数量。MobileNetV1 相比于 ResNet 在参数数量上减少了约 8-9 倍。

由于参数数量的减少,MobileNet 在计算上更为高效。这对于资源受限的环境(如移动设备)尤为重要,因为它可以在不牺牲太多性能的情况下,显著降低计算和存储需求。

尽管技术层面取得了进步,但 AI 行业本身仍面临着长周期投入和高成本的挑战,且回报周期相对较长。

据《每日经济新闻》不完全统计, 截至今年 4 月底,国内共推出了约 305 个大模型,但截至 5 月 16 日,还有约 165 个大模型尚未完成备案。

百度创始人李彦宏曾公开批评,认为当前众多基础模型的存在是对资源的浪费,并建议应将资源更多地用于探索模型与行业结合的可能性,以及开发下一个潜在的超级应用。

这也是当前 AI 行业的一个核心问题,模型数量的激增与实际应用落地之间不相称的矛盾。

面对这一挑战,行业的焦点逐渐转向加速 AI 技术的落地应用,而部署成本低和效率更高的小模型成了更为合适的破局点。

所以我们注意到一些专注于特定领域的小型模型开始冒出来,比如烹饪大模型、直播带货大模型。这些名头虽然看起来有些唬人,但恰恰是走在了正确的道路上。

简言之,未来的 AI 将不再是单一的、庞大的存在,而是会更加多样化、个性化。小模型的崛起,正是这一趋势的体现。它们在特定任务上展现出的卓越性能,证明了「小而美」同样能够赢得尊重和认可。

One more Thing

如果你想在 iPhone 上提前跑模型,那不妨尝试 Hugging Face 推出的一款名为「Hugging Chat」的 iOS App。

借助魔法和美区 App Store 账号即可下载该 App,然后用户即可在访问和使用各种开源模型,包括但不限于 Phi 3、
Mixtral、Command R+ 等模型。

温馨提醒,为了获得更佳的体验和性能,建议使用最新一代的 Pro 版 iPhone。

下载链接:https://apps.apple.com/us/app/huggingchat/id6476778843

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


30s 生成视频,免费不限次数,中国版 OpenAI 今天发布的「智谱清影」被玩疯了 | 附体验指南

过去半年,国内外视频生成模型迎来了新一轮技术大爆发,也都总能在第一时间烧遍社交网络。

但与语言生成模型的「掉队」有所不同,近期趋势却显示国内在视频生成模型这一领域的进步大为超越了国际水平。不少国外网友表示,「中国的可灵 AI 视频」在引爆互联网,而 OpenAI 的 Sora 却在沉睡。

今天,国内头部大模型厂商智谱 AI 也发布了旗下 AI 视频生成产品「清影」。

当然,国内外的 AI 视频模型有一个算一个,瑕疵都真不少,但比起「期货」Sora 来说,这些 AI 视频产品看得见也摸得着,顶多可能需要多尝试几次才能「抽」到保底的视频。

而这种探索本身就是技术进步的一部分。

正如 GPT-3 在诞生之初也曾遭受过质疑和批评,最终用时间证明了自己继往开来的价值,同理再给这些 AI 视频生成工具一些时间,从玩具变成工具也许就在朝夕之间。

清影 PC 端访问链接:
https://chatglm.cn/video?fr=opt_homepage_PC
清影移动端访问链接:
https://chatglm.cn/video?&fr=opt_888_qy3

半分钟生成 6s 视频,「智谱清影」正式发布

相较于今天发布的智谱清影,可能很多人更为了解智谱清言,但不看广告看疗效,不妨先来看看由「清影」一手打造的演示 demo。

在葱郁的森林里,树叶的缝隙中洒下一些阳光,产生丁达尔效应,光便有了形状。

当海啸如同发飙的怪兽咆哮而来,整个村子瞬间被海水吞噬,犹如末日电影里的经典桥段。

霓虹灯闪烁的城市夜景中,一只充满机械美感的小猴手持高科技工具,修理着同样闪烁、超未来的电子设备。

再换个画风,小猫张大嘴巴,人性化地露出困惑表情,脸上写满了问号。

没有宫斗戏码、没有尔虞我诈,甄嬛眉庄穿越时空的跨屏拥抱,只有真挚的姐妹情深。

另外,得益于智谱大模型团队自研高效打造的视频生成大模型 CogVideo,清影现已支持多种生成方式,包括文本生成视频、图片生成视频,甚至也可应用于广告制作、电影剪辑、短视频制作等领域。

清影具有强大的指令跟随能力,能够充分理解和执行用户给出的指令。

据介绍,智谱 AI 自研了一个端到端视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述,从而增强模型的文本理解和指令遵循能力,生成符合用户需求的视频。

在内容连贯性上,智谱 AI 自研高效三维变分自编码器结构(3D VAE),将原视频空间压缩至 2% 大小,配合 3D RoPE 位置编码模块,更有利于在时间维度上捕捉帧间关系,建立起视频中的长程依赖。

比如从土豆变成薯条一般需要几步?不需要「动火」,只需一句简单的提示词,土豆就变成了金黄诱人的薯条。官方表示,无论你的想法有多么天马行空,它都能一一地将其变成现实。

此外,参考了 Sora 算法设计的 CogVideoX 也是 DiT 架构,能将文本、时间、空间三个维度融合起来,通过技术优化后,CogVideoX 相比前代(CogVideo)推理速度提升了 6 倍。理论上,模型侧生成 6 秒视频仅需 30 秒时间。

作为对比,目前处在第一梯队的可灵 AI 生成单个 5s 的视频一般耗时 2 到 5 分钟。

在今天发布会现场,智谱 AI CEO 张鹏让清影生成一个猎豹在地上睡觉,身体在微微地起伏的视频,大约 30 秒时间大功告成,不过,让一朵静态的玫瑰「绽开」,则需要更多的时间。

此外,清影生成视频的清晰度可达 1440×960(3:2),帧率为 16fps。

清影还贴心地提供了配乐功能,生成视频可以添上音乐即可直接发布。

本以为宇航员弹吉他的静态图已经足够天马行空,而当它动起来,再配上悠然的旋律,仿佛航天员在太空中举办了一场演唱会。

与「期货」Sora 有所不同,「清影」不搞饥饿营销,一上线就全面开放,任何人都可以体验尝试,不用预约也不用排队,并且还将在后续版本中,陆续推出更高分辨率、更长时长的生成视频功能。

张鹏也在智谱 Open Day 上表示,「所有用户,都能通过清影(Ying)体验 AI 文生视频、图生视频能力。」

现在,清影处于首发测试期间,所有用户都可以免费使用。若追求更流畅的体验,花上 5 块钱就能解锁一天(24 小时)的高速通道权益,要是愿意付费 199 元,就能解锁一年的付费高速通道权益。

另外,清影(Ying)API 也同步上线大模型开放平台 bigmodel.cn,企业和开发者通过调用 API 的方式,体验和使用文生视频以及图生视频的模型能力。

上手门槛低但还要「抽卡」,小白再也不用担心写不好指令了

APPSO 也第一时间体验了清影,在测试了一些场景后,我们也总结出关于使用清影的一些心得:

  • 视频生成像「炼丹」,输出不稳,建议多试几次
  • 效果上限得看提示词,提示词结构要尽可能清晰
  • 镜头画面效果最好的是近景,其它景别不太稳定
  • 实体类型实现排序:动物> 植物> 物品> 建筑> 人物

不懂艺术的科学家不是好科学家,爱因斯坦弹起吉他来如鱼得水,摇头晃脑自带节奏,不像是演的。

大熊猫弹起吉他也是有模有样,多才多艺。

平时不苟言笑的唐僧跟你挥手打招呼,随着节奏摇摆起来。

当然,以上还算是一些效果比较好的视频,在视频生成的过程中,我们也积攒了不少废片。

比如说,让躺在床上的皇上用右手吃个鸡腿,结果凭空多出了一只手,视频最后一秒,我感觉皇上快要露出他的女性妆发了。

又或者张国荣看向我的那一刻,心中的哥哥已经变成了「那个男的」。

在复杂场景中,人物动作过渡不自然、无法准确模拟复杂场景的物理特性、生成内容的准确性不足等等,这些缺点并非是清影的「专利」,而是视频生成模型目前的局限。

在实际应用中,尽管用户能通过优化提示词来提升视频质量,但「翻车」也是常有的事,好在质量尚可的提示词能够在很大程度上保证了视频生成模型的下限。

为了照顾部分小白玩家,我们也特地准备了一些提示词的小诀窍:

  • 简单公式:[摄像机移动]+[建立场景]+[更多细节]
  • 复杂公式:[镜头语言] + [光影] + [主体 (主体描述)] + [主体运动] +[场景 (场景描述)] +[情绪/氛围]

摄影机平移(镜头移动),一个小男孩坐在公园的长椅上(主体描述),手里拿着一杯热气腾腾的咖啡(主体动作)。他穿着一件蓝色的衬衫,看起来很愉快(主体细节描述),背景是绿树成荫的公园,阳光透过树叶洒在男孩身上(所处环境描述)。

如果你还是没有头绪,那么我推荐你使用智谱清言提供的帮写视频提示词的智能体,哪怕是输入生活中常见的普通场景,都能获得三个优质提示词。

比如,随手的一句「柯基在沙滩上晒太阳」,然后就能得到如下自然风光摄影风格中英文提示词,并且还有水彩画风格、3D 动画风格等多种风格提示词供你挑选:

中文:在阳光明媚的沙滩上,一只柯基犬懒洋洋地躺在沙滩巾上,享受着温暖的阳光。镜头从低角度拍摄,背景是广阔的蓝色海洋和洁白的沙滩,海浪轻轻拍打着岸边,气氛宁静,画质 4K 超清。

英文:On a sunny beach, a Corgi lies lazily on a beach towel, basking in the warm sunlight. The camera captures the scene from a low angle, showcasing the vast blue ocean and pristine white sand in the background, with gentle waves lapping at the shore. The atmosphere is tranquil, captured in 4K ultra-high definition.

看到如此令人满意的提示词,不错,我当时也确实是想这么写的。

附上清影提示词智能体地址(文生视频):https://chatglm.cn/main/gdetail/669911fe0bef38883947d3c6

图片生成视频同理,输入图像主体,选择图像风格,就能让智谱清言帮你写出对应的提示词。从无提示词、到「戴眼镜」,再到「唐僧伸出手,戴上眼镜」的进化,效果嘛,也是天壤之别。

附上清影提示词智能体地址(图生视频):https://chatglm.cn/main/gdetail/669fb16ffdf0683c86f7d903

工欲善其事,必先利其器,把格局再打开一点,你还可以在智谱清言里体验更多的内容创作工具。

从最初的选题材料收集阶段,到脚本撰写环节,图片与视频创作过程,再到推广文案,几乎能打通视频生成创意的全链条,就差没明说,你只顾想创意,剩下的交给它。

我们发现,包括可灵在内最近发布的 AI 视频产品,都在通过首尾帧控制等方式提升可控性。

AI 创作者陈坤曾告诉 APPSO,现在可用于商业化交付的 AI 视频,几乎全都是图生视频,因为文生视频还做不到,其实就是可控性的问题。

今天智谱 AI 发布的清影则进一步提升了文字生成视频的可控性,智谱 AI 接受 APPSO 采访时表示,文字生成视频体现了更通用的可控性。

AI 生成的视频大部分还是由人用语言的方式去控制的。所以如何让文字或者简单的语言指令的识别,是更高层面的控制性。

AI 视频,正在从玩具到创作者工具

如果去年是大模型爆发的元年,今年可是说 AI 视频走向应用的重要节点。

虽然引爆这一切的 Sora 至今仍未上线,但它给 AI 视频带来了一些启发。

Sora 通过合理的细节设计解决了帧间细节跳变的问题。同时直接生成了高分辨率(1080p)的视频图像,可以生成语义丰富的长达 60 秒的视频,说明背后训练的序列也比较长。

仅在这两个月,就有不下 10 家公司推出 AI 视频新产品或大更新。

就在智谱清影发布前几天,快手的可灵 AI 在全球开放内测, 而另外一个被认为 Sora 的 PixVerse 发布了 V2 版本,支持一键生成 1-5 段连续的视频内容。

不久前,Runway Gen 3 Alpha 也开启付费用户公测,细节的精致度和丝滑程度上有不错的提升。上个月刚刚发布的 电影级视频生成模型 Dream Machine,也在最近更新了首尾帧功能。

短短几个月内,AI 视频生成在物理模拟、运动流畅度、对提示词理解方面都有大幅的提升。 AI 玄幻剧导演陈坤对此的感受更为敏感,他认为 AI 视频生成技术的进步或许比想象得更快。

2023 年的 AI 视频,更像动态 PPT,人物在表演慢动作,靠蒙太奇剪辑拉分。但现在,AI 视频的「PPT 味」已经淡了不少。

陈坤导演的国内首部 AIGC 奇观剧《山海奇镜之劈波斩浪》最近刚刚上线,他用 AI 取代不少传统影视实拍的环节,他告诉 APPSO 以前要做类似的玄幻题材,至少需要 100 个人,而他的团队只有 10 多个人,大大缩短制作周期和成本。

这半年,可以看到更多专业的影视创作者开始尝试 AI 视频。国内快手抖音都上线 AI 短剧,50 位 AIGC 创作者合作完成的首部 AI 长篇电影《Our T2 Remake》在洛杉矶举行首映。

虽然 AI 视频生成在在人物和场景一致性、人物表演、动作交互等方面还有局限,但不否认 AI 视频正在从去年尝鲜的玩具,慢慢转变成创作者的工具。

这或许也是包括智谱清影、快手可灵、 Luma Dream Machine 等产品都开始推出会员体系的重要原因,要知道国内大模型面向 C 端的产品大都以免费为主,这和国内订阅付费习惯和优先追求用户增长策略有关,AI 视频的付费除了好奇的用户,必须有更多内容创作者支持才能持续。

当然,AI 视频生成还处于比较早期的阶段,所谓「一句话生成电影」只是标题党式的误导,视频模型需要具有更好的指令遵循能力和可控性,才能更好地理解物理世界。

智谱在今天的发布会也提到,多模态模型的探索还处于非常初级的阶段。

从生成视频的效果看,对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等,都有非常大的提升空间。

从模型本身角度看,需要更具突破式创新的新模型架构,它应该更高效压缩视频信息,更充分融合文本和视频内容,贴合用户指令的同时,让生成内容真实感更高。

「我们积极在模型层面探索更高效的 scaling 方式。」但张鹏也对多模态模型的发展充满信心,「随着算法、数据不断迭代,相信 Scaling Law 将继续发挥强大威力。」

AI 创作者陈坤认为,AI 生成的镜头要 100% 扛得住大银幕,只是时间问题。这个时间是多久并不是最值得关心的,参与这个过程反而更加重要,就像智谱 AI CEO 张鹏此前接受 APPSO 采访提到的:

很多事情要前赴后继地去探索,这个过程就很重要,不要只看到最终的结果,更重要的是我们采取行动,我觉得这才是目前大家更应该关注的事情。

作者:李超凡、莫崇宇

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


赶超 GPT-4o,最强大模型 Llama 3.1 405B 一夜封神,扎克伯格:开源引领新时代

就在刚刚,Meta 如期发布了 Llama 3.1 模型。

简单来说,最新发布的 Llama 3.1 405B 是 Meta 迄今为止最强大的模型,也是全球目前最强大的开源大模型,更是全球最强的大模型。

从今天起,不需要再争论开源大模型与闭源大模型的孰优孰劣,因为 Llama 3.1 405B 用无可辩驳的实力证明路线之争并不影响最终的技术实力。

先给大家总结一下 Llama 3.1 模型的特点:

  • 包含 8B、70B 和 405B 三个尺寸,最大上下文提升到了 128K,支持多语言,代码生成性能优秀,具有复杂的推理能力和工具使用技巧
  • 从基准测试结果来看,Llama 3.1 超过了 GPT-4 0125,与 GPT-4o、Claude 3.5 互有胜负
  • 提供开放/免费的模型权重和代码,许可证允许用户进行微调,将模型蒸馏到其他形式,并支持在任何地方部署
  • 提供 Llama Stack API,便于集成使用,支持协调多个组件,包括调用外部工具

附上模型下载地址:

https://huggingface.co/meta-llama
https://llama.meta.com/

超大杯登顶全球最强大模型,中杯大杯藏惊喜

本次发布的 Llama 3.1 共有 8B、70B 和 405B 三个尺寸版本。

从基准测试结果来看,超大杯 Llama 3.1 405B 全方位耐压了 GPT-3.5 Turbo、大部分基准测试得分超过了 GPT-4 0125。

而面对 OpenAI 此前发布的最强闭源大模型 GPT-4o 和第一梯队的 Claude 3.5 Sonnet,超大杯依然有着一战之力,甚至可以仅从纸面参数上说,Llama 3.1 405B 标志着开源大模型首次追上了闭源大模型。

具体细分到基准测试结果,Llama 3.1 405B 在 NIH/Multi-needle 基准测试的得分为 98.1,虽然比不上 GPT-4o,但也表明其在处理复杂信息的能力上堪称完美。

并且 Llama 3.1 405B 在 ZeroSCROLLS/QUALITY 基准测试的得分为 95.2,也意味着其具有强大整合大量文本信息的能力,这些结果表明,LLaMA3.1 405B 模型在处理长文本方面出色,对于关注 LLM 在 RAG 方面性能的 AI 应用开发者来说,可谓是相当友好。

尤为关注的是,Human-Eval 主要是负责测试模型在理解和生成代码、解决抽象逻辑能力的基准测试,而 Llama 3.1 405B 在与其他大模型的比拼中也是稍占上风。

除了主菜 Llama 3.1 405B,虽为配菜的 Llama 3.1 8B 和 Llama 3.1 70B 也上演了一出「以小胜大」的好戏。

就基准测试结果来看,Llama 3.1 8B 几乎碾压了 Gemma 2 9B 1T,以及 Mistral 7B Instruct,整体性能甚至比 Llama 3 8B 都有显著提升。Llama 3.1 70B 更是能越级战胜 GPT-3.5 Turbo 以及性能表现优异的 Mixtral 8×7B 模型。

据官方介绍,在这次发布的版本中,Llama 研究团队在 150 多个涵盖多种语言的基准数据集上对模型性能进行了评估,以及团队还进行了大量的人工评估。

最终得出的结论是:

我们的旗舰模型在多种任务上与顶尖的基础模型,如 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 等,具有竞争力。同时,我们的小型模型在与参数数量相近的封闭和开放模型相比时,也展现出了竞争力。

Llama 3.1 405B 是如何炼成的

那 Llama 3.1 405B 是怎么训练的呢?

据官方博客介绍,作为 Meta 迄今为止最大的模型,Llama 3.1 405B 使用了超过 15 万亿个 token 进行训练。

为了实现这种规模的训练并在短时间内达到预期的效果,研究团队也优化了整个训练堆栈,在超过 16000 个 H100 GPU 上进行训练,这也是第一个在如此大规模上训练的 Llama 模型。

团队也在训练过程中做了一些优化,重点是保持模型开发过程的可扩展性和简单性:

  • 选择了仅进行少量调整的标准解码器 Transformer 模型架构,而不是混合专家模型,以最大限度地提高训练稳定性。
  • 采用了一种迭代后训练程序,每一轮都使用监督微调和直接偏好优化。这使得研究团队能够为每轮创建最高质量的合成数据,并提升每项功能的性能。
  • 相较于旧版 Llama 模型,研究团队改进了用于预训练和后训练的数据数量和质量,包括为预训练数据开发更预处理和管理管道,为后训练数据开发更严格的质量保证与过滤方法。

Meta 官方表示,在 Scaling Law 的影响之下,新的旗舰模型在性能上超过了使用相同方法训练的小型模型。

研究团队还利用了 405B 参数模型来提升小型模型的训练后质量。

为了支持 405B 规模模型的大规模生产推理,研究团队将模型从 16 位(BF16)精度量化到 8 位(FP8)精度,这样做有效减少了所需的计算资源,并使得模型能够在单个服务器节点内运行。

Llama 3.1 405B 还有一些值得发掘的细节,比如其在设计上注重实用性和安全性,使其能够更好地理解和执行用户的指令。

通过监督微调、拒绝采样和直接偏好优化等方法,在预训练模型基础上进行多轮对齐,构建聊天模型,Llama 3.1 405B 也能够更精确地适应特定的使用场景和用户需求,提高实际应用的表现。

值得一提的是,Llama 研究团队使用合成数据生成来产生绝大多数 SFT 示例,这意味着他们不是依赖真实世界的数据,而是通过算法生成的数据来训练模型。

此外,研究团队团队通过多次迭代过程,不断改进合成数据的质量。为了确保合成数据的高质量,研究团队采用了多种数据处理技术进行数据过滤和优化。

通过这些技术,团队能够扩展微调数据量,使其不仅适用于单一功能,而是可以跨多个功能使用,增加了模型的适用性和灵活性。

简单来说,这种合成数据的生成和处理技术的应用,其作用在于创建大量高质量的训练数据,从而有助于提升模型的泛化能力和准确性。

作为开源模型路线的拥趸,Meta 也在 Llama 模型的「配套设施」上给足了诚意。

  • Llama 模型作为 AI 系统的一部分,支持协调多个组件,包括调用外部工具。
  • 发布参考系统和开源示例应用程序,鼓励社区参与和合作,定义组件接口。
  • 通过「Llama Stack」标准化接口,促进工具链组件和智能体应用程序的互操作性。
  • 模型发布后,所有高级功能对开发者开放,包括合成数据生成等高级工作流。
  • Llama 3.1 405B 内置工具大礼包,包含关键项目,简化从开发到部署的流程。

值得注意的是,新开源协议里,Meta 不再禁止用 Llama 3 来改进其他模型了,这其中也包括最强的 Llama 3.1 405B,真·开源大善人。

附上 92 页论文训练报告地址:

https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

一个由开源引领的新时代

网友 @ZHOZHO672070 也火速在 Hugging Chat 上测试了一下 Llama 3.1 405B Instruct FP8 对两个经典问题的回答情况。

遗憾的的是, Llama 3.1 405B 在解决「9.11 和 9.9 谁更大」的难题上遭遇翻车,不过再次尝试之下,又给出了正确答案。而在「我一把把把住了」的拼音标注上,其表现也尚可。

网友更是只用了不到 10 分钟的时间,就使用 Llama 3.1 模型快速构建和部署了一个聊天机器人。

另外,Llama 内部科学家 @astonzhangAZ 也在 X 上透露,其研究团队目前正在考虑将图像、视频和语音功能集成到 Llama 3 之中。

开源和闭源之争,在大模型时代依然延续着,但今天 Meta Llama 3.1 新模型的发布为这场辩论画上了句号。

Meta 官方表示,「到目前为止,开源大型语言模型在功能和性能方面大多落后于封闭式模型。现在,我们正迎来一个由开源引领的新时代。」

Meta Llama 3.1 405B 的诞生证明了一件事情,模型的能力不在于开或闭,而是在于资源的投入、在于背后的人和团队等等,Meta 选择开源或许出于很多因素,但总会有人扛起这面大旗。

而作为第一个吃螃蟹的巨头,Meta 也因此收获了首个超越最强闭源大模型的 SOTA 称号。

Meta CEO 扎克伯格在今天发布的长文《Open Source AI Is the Path Forward》中写道:

「从明年开始,我们预计未来的 Llama 将成为业内最先进的。但在此之前,Llama 已经在开源性、可修改性和成本效率方面领先。」

开源 AI 模型或许也志不在超越闭源,或出于技术平权,不会让其成为少数人牟利的手段,或出于众人拾柴火焰高,推动 AI 生态的繁荣发展。

正如扎克伯格在其长文末尾所描述的愿景那样:

我相信 Llama 3.1 版本将成为行业的一个转折点,大多数开发人员将开始转向主要使用开源技术,我期待这一趋势从现在开始持续发展……共同致力于将 AI 的福祉带给全球的每一个人。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


❌