Reading view

There are new articles available, click to refresh the page.

Meta AR 眼镜前主管加入 OpenAI，曾负责苹果 MacBook 设计

6 November 2024 at 18:11

OpenAI 近日来在 AI 硬件领域的动作不断：先是要自主「造芯」，昨日又将 Meta 公司 Orion AR 眼镜的前硬件主管凯特琳·卡利诺夫斯基（Caitlin Kalinowski）招入麾下，并让她领导机器人技术和消费硬件。

▲凯特琳·卡利诺夫斯基（图源：NewsBytes）

凯特琳·卡利诺夫斯基是一名硬件高管，于 2022 年 3 月开始领导 Meta 的 AR 眼镜团队。Meta 在 Connect 大会上所展示的令人印象深刻的 Orion 智能眼镜的原型机就出自她的督导。

▲图源：Meta

在此之前，她还领导了 Meta 的虚拟现实护目镜「Oculus VR」背后的硬件团队九年之久。

▲图源：Techradar

再早些时候，凯特琳·卡利诺夫斯基曾在苹果任职，为 MacBook 设计硬件。

▲图源：Apple

在加入 OpenAI 后，凯特琳表示「首先将专注于 OpenAI 的机器人工作和合作伙伴关系，以帮助将人工智能带入物理世界，并且为人类带来好处」。

巧合的是，近日「纽约时报」的一篇报道称凯特琳的前任老板，前苹果高管、传奇设计师乔尼·艾维（Jony Ive）也正在与 OpenAI 的 CEO 奥特曼联合创建一家新的初创公司。

艾维是一位来自英国的工业设计师，在苹果任职期间，主导设计了第一代 iPhone，iPod 等经典产品。他甚至参与了苹果的新总部大楼 Apple Park 的建筑设计和园区规划。

▲Apple Park

离开苹果后，他创立了自己的设计公司 LoveFrom，并继续与苹果合作。艾维和 OpenAI 的合作初创公司很可能会以 LoveFrom 为起点，并且凯特琳将会加入其中，他们将共同构建一款「使用 AI 创造计算体验，社会破坏性比 iPhone 更小」的硬件产品。

▲乔尼·艾维（图源：dezeen）

除这两员大将之外，OpenAI 最近还开始为一个机器人团队招聘研究工程师。招聘公告上写着「我们正在寻找具有强大研究背景以及人工智能应用交付经验的人才」。

OpenAI 希望机器人工程师能够调试端到端的机器学习问题，并且希望他们开发与机器人相关的机器学习架构，应用于其「核心模型」中。

正如 OpenAI 所说，这个研究团队旨在「为合作伙伴的机器人解锁新功能」，也就是帮助 OpenAI 的合作伙伴将其多模态人工智能整合到他们的硬件中。

目前，机器人公司 Figure 推出的人形 01 机器人已经利用 OpenAI 的软件进行自然语音对话；挪威公司 1X 也在其 Eve 机器人中使用 ChatGPT 的修改版本来处理和响应命令。

▲人形 01 机器人（图源：techbsb）

实际上，这并不是 OpenAI 首次启动硬件研究。早在 2018 年，OpenAI 就开发了名为「Dactyl」的机器人手，能够以人类手部相似的方式灵活操作物体，还成功地用一只手解决了「魔方问题」（Rubik’s Cube）

2020 年，在 GPT-3 发布之后，OpenAI 解散了其机器人研究团队，将重点转向了早期生成式 AI。

▲图源：OpenAI

未来，OpenAI 表示其机器人团队将「与机器人行业的合作伙伴合作，专注于构建一套模型以实现前沿机器人应用」。

在几乎引领了生成式 AI 的技术浪潮之后，OpenAI 又将重新出发，向 AI 硬件领域进军。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

Meta AI 的这些新技术，让机器人拥有「触觉」

爱范儿

范津瑞

6 November 2024 at 14:20

人工智能机器人发展到今天，其拥有「视觉」或者「听觉」早已经见怪不怪。毕竟，这两种感官几乎是人类感知物理世界最重要的渠道。

而 Meta AI 的基础人工智能研究团队（FAIR）近日公布的新技术，则为机器人赋予了「触觉」。对此，Meta 的愿景是使 AI 能够「更丰富地了解世界」并「更好地理解和模拟物理世界」。

毫无疑问，这些新技术让机器人又多了一种与世界互动的方式，也让其在「类人」的道路上又向前了一步。

▲图片来自：NewsBytes

Meta 正在与美国传感器公司 GelSight 和韩国机器人公司 Wonik Robotics 合作，开发了一系列新技术，致力于将触觉传感器商业化，并将其用于人工智能当中。

这些新技术包括三个研究工具——「Sparsh」、「Digit 360」和「Digit Plexus」，专注于触觉感知、机器人灵巧性和人机交互。此外，Meta 还引入了「PARTNR」，这是一种新的基准测试，用于评估人机协作中的规划和推理。

需要注意的是，这些新技术目前并未为消费者推出，而是面向科学家和研究人员的。

▲图片来自：Techopedia

Sparsh 是第一个用于基于视觉的触觉感知的通用编码器模型，由华盛顿大学和卡内基梅隆大学合作开发。

听起来似乎有些抽象，既然是「触觉」，为什么又「基于视觉」呢？

实际上，传统方法依赖于特定任务和传感器的手工模型，其需要将物体的「触摸参数」（例如力量、摩擦等等）打包成「感觉标签」喂给机器人，相当于告诉机器人什么是「轻轻地拿」或者「用力地推」。

然而这种方法比较麻烦，因为需要为每个不同的任务和不同的传感器收集很多这样的标签数据。

Sparsh 则通过自我监督学习（SSL）从经验中自主学习，不需要告诉它每个动作对应的标签。其在一个包含 460000 多个触觉图像的大型数据集上进行预训练，这就像是让机器人看很多不同的物体和场景，然后自己学习如何识别和处理这些物体。

简单来说，Sparsh 就像是让机器人通过看大量的图片和视频来自学如何「感觉」物体，而不是通过人工给它的「感觉」打标签。这样，机器人就更容易学会如何在不同的任务中使用不同的触觉传感器了。

有趣的是，「Sparsh」这个名字源自梵语，意为「触摸或接触感官体验」，这与它处理数字化触觉信号并实现触摸感知的功能非常贴切。

▲图片来自：Meta

Digit 360 是由 Meta 与 GelSight 公司联合开发的一种人造手指形状的触觉传感器，它通过以人类级别的精度对触摸进行数字化，能够提供丰富而详细的触觉数据。

Digit 360 配备超过 18 种传感功能，允许研究人员结合各种传感技术或者分离单个信号以深入分析每种模式。

它可以检测空间细节的微小变化，能够捕获小至 1 毫牛顿的力，并且包含多种传感模式，可以感知振动、热量甚至气味，性能明显优于以前的传感器。

▲Digit 360 触觉传感器（右）. 图片来自：Meta

Meta AI 团队还为其开发了一种宽视场的触摸感知专用光学系统，由超过 800 万个传感器单元（taxels）组成，用于捕捉指尖表面的全向变形。

此外，借助设备上的人工智能加速器，Digit 360 能够快速处理信息，对触摸刺激做出反应，可以充当机器人的周围神经系统。这一设计的灵感来源于人类和动物的反射弧。

显然，除了提高机器人的灵活性以外，这款传感器在医学、假肢、虚拟现实和远程交互等领域都有广阔的应用前景。

▲图片来自：Meta

Meta 在博客中说道：

人手非常擅长向大脑发出从指尖到手掌的皮肤触摸信息，这使得其在做出决定时能够激活手部肌肉，例如如何在键盘上打字，或者与过热的物体交互。实现嵌入式人工智能需要机器人手上的触觉传感和电机驱动之间的类似协调。

基于这个理念，Meta AI 与 Wonik Robotics 合作，提出并建立了一个标准化软硬件平台 Digit Plexus。

它允许将各种指尖和皮肤触觉传感器（例如 Digit、Digit 360 和 ReSkin）集成到一个机器人手中，并通过一根电缆将触觉数据编码并传输到主机计算机中，以实现无缝数据收集、控制和分析。

Plexus 系统的设计旨在简化机器人应用的开发，特别是对于那些需要精细触觉反馈的应用。通过使用 Plexus，开发者可以更容易地将触觉传感器技术集成到他们的机器人项目中，从而提高机器人的灵巧性和对物理世界的感知能力。

▲图片来自：Techcrunch

值得一提的是，Meta 与 Wonik 的下一步合作重点是开发 Wonik 的新一代 Allegro Hand，这是一款配备 Digit 360 等触觉传感器的机器人手，它将在 Digit Plexus 平台上运行。

▲图片来自：XELA

为了研究家庭活动中的人机协作，Meta 在 Habitat 3.0（一个用于研究家庭环境中人机协作任务的模拟平台）的基础上，发布了人机协作规划和推理任务基准 PARTNR。

PARTNR 是同类中最大的基准，包含 100000 个自然语言任务，涵盖 60 栋房屋和 5800 多个独一无二的对象。该基准的目标是评估大型语言和视觉模型（LLMs / VLM）通过人机交互工具与人类协作的性能。

通过提供标准化基准和数据集，Meta 表示「希望它能使机器人的研究不仅能够独立运行，而且能够围绕人类运行，使它们更加高效、可靠，并且适应每个人的喜好」。

▲图片来自：LinkedIn

让机器人拥有「触觉」，并不是一座「空中楼阁」。

这些机器人对外界变化拥有远超人类的敏感度，配合高效的软硬件协作系统，他们将会在外科手术或者精密仪器制造场景中大有用武之地。

其实，不仅「视觉」、「听觉」和「触觉」，宾夕法尼亚州立大学的研究人员已经在人工智能模型模拟出了「味觉」；同时，一家名为 Osmo 的公司已经教会人工智能模型如何模仿远优于人类的「嗅觉」。

也许未来的机器人能够在感官方面完全「复刻」人类。只是他们最好不要再拥有逼真的「人形」，否则，恐怖谷效应要犯了。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博

创新 vs 混乱：iPhone 在 AI 时代下的牙膏和迷茫_10.ylog

SUiTHiNK

Steven

1 October 2024 at 08:01

这是一期荒野楼阁 WildloG 和皮蛋漫游记的串台节目，由我和零号、初号一起，聊聊今年 Apple 发布的新产品以及一些周边的信息，作为设以观复x两颗皮蛋合作的那期视频内容的一些补充。

今年 iPhone 16 系列着实挺闹心的，一方面是 Apple Intelligence 的大饼迟迟未能落地，另一方面 Camera Control 独立按键加得有点莫名其妙。但我们还是决定在深入体验和使用 iPhone 16系列之后，能够匹配我们的深度测评内容一起，跟大家聊聊今年库克又挤出来了多少牙膏？

2:03 关键词：初号「过山车」苏志斌「意料之中」零号「Ridiculous」

8:10 AirPods 4 代很值得购买，刀法也足够精准

11:01 AirPods 助听器功能的背后

17:32 中文字体字重的调整

20:11 Siri 物理意义上变快了

22:31 相机控制按键：理想很丰满，现实…….

31:53 Mac 预览和 shownotes 支持 HDR 视频的延伸和补充

36:55 色彩风格+魔改 RAW

40:44 App Intents：让系统应用互相直接能联动

45:57 Apple Watch：9 代到 10 代减薄的背后，11 代可预期的更大显示尺寸

54:55 相机按键如果是 AI 的视觉按键成立吗？

1:00:40 加了这个按键之后到处都是混乱和矛盾

1:06:25 手机为啥（暂时）不能 edge（显示）to edge（中框）

1:12:19 什么是产品的核心体验？

1:23:34 苹果会做折叠屏吗？

1:34:00 Meta Orion 是否是比 Apple Vision Pro 更正确的验证路线

1:41:54 为什么最好的虚拟现实 AI 设备一定是眼镜？

｜登场人物｜

苏志斌：从业 15 年的工业设计师，车联网智能硬件企业联合创始人及产品经理

零号：两颗皮蛋的零号，前手机行业产品经理，主管运营和项目管理

初号：两颗皮蛋的初号，前手机行业产品经理，主管内容创作和出镜

｜更多皮蛋｜

B站@两颗皮蛋微博@两颗皮蛋小红书@两颗皮蛋

｜拓展阅读｜

录这期播客时遗漏的话，聊一聊苹果的设计团队「怎么了」

视频：设以观复 x 两颗皮蛋联合深度解析 iPhone 16 系列

｜相关链接｜

若你所使用的播客客户端未能完整显示插图，或遇网络问题未能正常播放，请访问：

荒野楼阁 WildloG 的地址：https://suithink.me/zlink/podcast/

阅读设计相关的各类文章：https://suithink.me/zlink/idea/

｜其他社交网络媒体｜

苏志斌 @ 知乎｜SUiTHiNK @ 即刻 / 微博

苏志斌SUiTHiNK @ Bilibili / YouTube / 小红书

｜联络邮箱｜

suithink.su@gmail.com

欢迎在小宇宙、Spotify、YouTube、Apple Podcast 收听本节目，期待你的留言。