Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

实测 Manus :我用它生成了 10 个邀请码……好玩,但崩溃

By: 杜晨
6 March 2025 at 20:16

今天凌晨刚刚发布的 Manus 有多震撼人心,已不需要赘述了:较高程度的独立思考能力,强大的复杂任务解决能力,以及可靠的交付效果。

和纯粹的对话式 AI 产品相比,Manus 话少,不止于思考,还能干活;和传统虚拟助手相比,Manus 的分解、规划和解决问题能力(通过 computer use 和编程能力体现)更高。

目前具体细节还很有限,但我们通过公开资料了解和猜测,Manus 的背后有不同 agent 各自处理单项任务,agent 的任务进度同步和转移通过 API 执行。作为产品的 Manus,是一个多模型、多独立 Agent 的缝合体——而团队也通过“套壳”的自黑表述承认了这一点。但这并不能消解 Manus 作为一个成型的,远高于最小可行水平的产品的意义。

Manus 让人机交互的范式,升级为人机协作,比其它同类选手更接近真正意义上的通用 AI Agent。

Manus 目前一「码」难求,在闲鱼的开价一度达到 5 万元。

APPSO 也用 Manus 进行了实测,但由于任务用时较长,后面又遭遇网站登陆困难的情况,所以只完成了几个简单的任务,其它任务恰逢 Manus 系统超负载,没能进行下去。

与此同时,Manus 项目方也发出了一份官方回应,表示准备服务器资源不足,导致用户体验较差。

APPSO 无疾而终的测试

先来看我们在有限的时间内做的两个测试。

和很多人一样,我们经常会对日新月异的 AI 技术和五花八门的 AI 工具感到困惑。于是我向 Manus 提出了这个请求:

从 Manus 返回的初步结果看,它先搜索了一些 AI 资讯门户式的网站,意思应该是先掌握大概的分类方式,确认表格的分类维度,然后再分门别类地去找对应的 AI 工具,查询资料。

它找到了 17 个类别——正在看文章的读者,如果你也不知道这些 AI 工具该怎么分类,可以参考 Manus 的思考结果了:

在联网搜索过程中,Manus 偶尔会遇到浏览器故障的情况。不过没关系,它会自行处理这些错误,重试或继续下一项任务。

但是没过多久,它还是崩溃了。这一天当中,我们从 APPSO 读者搜集了十几个任务请求,喂给 Manus,结果也是一样的:高系统负载导致了内部服务器错误,请稍后重试或创建一个新的对话。

一气之下,我让 Manus 直接生成 10 个邀请码,它倒是挺干脆。

当然,没一个能用的。别忘了今天是星期四……

我们找到了一些已经玩上了的朋友,看看他们都是怎么用 Manus 的。

使用 Manus 的过程,也是直接近距离观察它的思考路径、工作流程的,一次难得的机会。

先来一个脑洞大开的:

《文明》(Google CEO 版)

想象一个游戏,你能在里面扮演一个科技创业者,历经艰难险阻,克服重重危机,将公司打造为全球科技龙头,改写人类历史?

有人就做了这么一个 谷歌 CEO 模拟器,带你体验谷歌历史上的重要决策,重走从车库出发,直到成为科技巨头的传奇之路。

游戏将谷歌的公司历史分为了 5 个关键发展阶段:创业、成长(pre-IPO)、扩张、多元化、重组更名 (Alphabet 阶段)。在每一个阶段,游戏都给玩家提供了多个关键抉择,每个都将影响公司的发展方向、资源分配,以及最终的成就。

更有意思的是,它还特别加入了一些在经营类游戏里常见的「突发随机事件」,来考验玩家作为谷歌 CEO 的危机处理能力。

让我们开始游戏——居然还可以选难度?我直接 hard mode.

APPSO 的读者恐怕对现实世界里的谷歌足够熟悉了,不妨跟我一起来一场抽象离谱的大冒险?

困难模式,初始资金 $80,000,我通过联合创始人的女朋友,租用了她姐姐的车库,创办了 Google。初期我们的技术实力一般,其它各方面要素都十分匮乏——但好在,我们在大学期间研究搜索引擎项目「搓背」(BackRub) 已经初具雏形,特别是里面的 PageRank 算法,很有潜力。

我们拿到了第一笔天使投资,但这笔钱究竟应该怎么用?是继续优化 PageRank,还是换个宽敞点、有空调的办公室,抑或干脆去美国在线 (AOL) 上买点广告来做推广?

搜索引擎靠什么活着,不就是广告嘛?舍不得儿子套不着狼,想卖广告当然要先买点广告。我直接把钱全扔在广告上了。

获得了一些用户,然而刚刚略微提升的品牌声誉,就因为突然发生的重大安全漏洞而掉下去了。着急忙慌地修完了 bug,我又面临了选择商业模式、引入外部投资者、如何拓展分支业务等一连串难题。

当我在这边焦头烂额,我的员工却在上班时间里捣鼓自己的项目,说要做什么「Gmail」。

这怎么行?邮件里怎么卖广告?不是跟我的核心模式背道而驰了吗?直接解雇他,必须 all in 搜索。

到了 2005 年,谷歌收购了 Android。

这妨碍了我专心卖网站广告,但移动互联网的浪潮确实不可抵挡。我们可以继续在新操作系统里寻找机会植入广告,听说有一家中国的手机公司很擅长做这个——我们不跟它合作,也不跟任何公司合作,而是直接自己做自己的手机。

并且要封闭,要垂直整合,要多放广告。只有围墙里的花园才是最美丽的花园。我叫它 Nexus。

2006 年,中国互联网市场也快速增长。

虽然经过一番操作,公司账上只有 9 万美元,但我还是决定全面进军中国市场,拥抱人口红利。

2011 年,谷歌仍然没有上市。

看到 Facebook 上市,我没有心动,而是从微软招来了一名爱将 Vic Gundotra,授权他全力研发 Google+。我们将 all in 社交媒体!

时间过得飞快,到了 2016 年。谷歌仍然没有上市。

目前账上有 8 万美元——没亏就是赚。我们做了大量的收并购,特别是一家名叫 DeepMind 的公司,非常火。我决定这次 all in AI。当然,广告仍然是核心,只是我们不说。

最终,我的 Google CEO 之旅还是结束了。也许我的一系列的操作,导致董事会终于失去了信任。我离开了这家奉献了 20 多年青春的公司,留下了还不错的技术实力,少而精的用户基础,轻松自由的组织管理文化,以及略高于电诈园区的品牌声誉。

至少,我们是一家稳健的公司。

刚才的游戏过程,确实多半是我在故意整活。不过这个模拟器虽然很简单,还是设计很全面的,有剧情,有选项,有资源表,有大事记。作为一个小游戏,一个小品级的产品,它已经很完整了,体现出的想象力很丰富。

然而它只是用 Manus 用一句提示语生成的。

Google公司运营模拟器,玩家将扮演谷歌ceo,体验谷歌历史上重要的公司决策,让用户过瘾的同时,也能了解谷歌的历程,启发用户思考公司决策,互动式的文字游戏

我们可以通过重放过程看到它的思考、分解任务、执行子项任务、最终汇总和生成结果的全部过程:

Manus 简单地回答了用户自己将要做什么,紧接着打开了一个 Ubuntu 虚拟机,直接开始分解具体任务,编写了一个基于 todo.md 文件的任务清单。

任务被分解为 7 个步骤:

  1. 研究谷歌的历史背景和关键公司决策
  2. 涉及游戏架构和互动机制
  3. 根据研究学习的结果,生成一些可选的,符合史实的决策场景
  4. 构建游戏逻辑以及 UI
  5. 进行游戏功能和游戏体验的测试
  6. 创建一个静态版本的成品,供用户部署

首先,Manus 先去做了大量的搜索,包括谷歌创始人/CEO 是谁,历史上的关键产品,重要的收购纪录以及近年来的商业模式和战略转变等大量的资料,并且浏览了包括谷歌官网、维基百科、中英文新闻网站、知乎等等。

通过这些资料的学习,Manus 对谷歌已经有了一个八九不离十的认识,可能并不深度,并不独到,倒也没有太多事实出入。

而如果用户觉得它自动搜索的资料不够全面,想加一点独特的味道,完全可以做到:

在执行过程中,用户随时点击这个按钮,手动增加知识内容。Manus 在生成的过程中,仍然会时不时回来复习一下这些资料。

在执行任务的每一步骤,Manus 也都会用正确的语言(中文完全支持),向用户解释自己刚才做了什么,获得了哪些收获,而接下来要做什么。这应该归功于它在分解任务时候做的类似于 to-do list 一样的文件。

它的表述也是结构化,有逻辑的,力求向你完整展示它的思考方式。

这显示 Manus 很聪明。但值得注意的是,任何一个缺乏专业能力的用户——特别是 Manus 目前所体现出的数据挖掘、整理,以及编程等能力——也能够通过观察 Manus 工作流程来提升自己。

重要的不只是结果,还有过程。

泽连斯基-特朗普吵架模拟器

大家都在吐槽泽连斯基在白宫表现糟糕,但你上你行吗?不要光说不练,来试试这款 Manus 官方测试的小游戏:泽连斯基白宫辩论模拟器!

输入提示是这样的:

中文:最近,泽连斯基、万斯和特朗普在白宫的激烈交锋引起了广泛关注。你能否开发一个简单的互动模拟游戏,让我在辩论中扮演泽连斯基?我对能再现这一政治场景的互动游戏很感兴趣。

原文:The recent heated exchanges between Zelenskyy, Vance, and Trump at the White House have garnered significant attention. Could you develop a simple interactive simulation that allows me to role-play as President Zelenskyy during those debates? I’m interested in an engaging interactive game that recreates this political scenario.

任务总共分为 9 步:

  1. 研究三人之间的互动
  2. 设计文字游戏的架构以及游戏机制
  3. 创建了一个 Next.js 应用来模拟辩论环节
  4. 开发一个对话系统,填充对话脚本
  5. 创建用户界面
  6. 进行全面的模拟测试
  7. 【用户接管】将游戏部署到虚拟机,供用户测试
  8. 制作用户手册,交付
  9. 将完成品部署到公开 URL 上,供永久使用

直到玩家测试步骤,之前的全部工作都由 Manus 在虚拟机上自动完成,不需要用户做出任何控制。同样,在任务的关键节点上,Manus 都会特别解释自己做了什么。

这种「可解释性」很关键,能够降低 AI 工具的「黑盒」感。

Manus 介绍,自己设计了三种结局,在游戏结束后会给玩家提供一份完整记录。游戏过程中有强硬 (assertive)、外交 (diplomatic)、安抚 (conciliatory) 这三种对话选项供玩家选择,NPC 会对不同风格的表述产生不同的「情绪」,直接影响结局走向。

而这正是《天国拯救》、《巫师》等游戏最流行的设计理念:choose your own adventure,选择你自己的冒险。

在我的试玩中,我尝试代入了一个身处政治外交和军事漩涡的政治家,在家国被割据的屈辱,和国际政治谈判舞台所期待的外交身段之间,试图在刀尖上找平衡。

我两度导致特朗普失望和遭到万斯的怀疑,但所幸在特朗普的最后通牒时刻,还是把场面救回来了。虽然我的谈判没有达成直接的实质性的结果,至少我没被轰出白宫……

如果用官方外交辞令来讲,那应该就是「交换了意见,会谈是有益的」。

虽然只有 6 个回合,因为可选项设计的有意思,剧情多样,我又玩了几次。可能因为性格太懦弱,有一次甚至谈成了。

一个纯文字游戏,还真玩出了点 RPG 的代入感。

你可以在 Manus 官网的Use Cases – WTF 一栏,找到这个模拟游戏。跑完会话回放之后,在它的最后一条回复里面找到游戏的链接。或者你也可以直接访问这个地址:https://dgooezit.manus.space/

体验总结:拒绝「高潮」,好玩好用就已足够

从 Manus 发布,爆红,到现在一码难求,网站登陆访问困难,团队对外道歉,只用了十几个小时的时间。

APPSO 在 Manus 发布之初就做了报道,给了一个相对正面的评价。而经过了更加深入的试玩,我们提炼出这个产品的优点:

首先,Manus 的用户界面,让用户可以直接观察它的思考路径和工作流程。

无论在使用过程中,还是事后重放,都能够比较完整地展示模型是如何思考的,任务是怎样被拆解和指派的,每一个步骤都可以追溯。

这即是一种提高 AI 可解释性的实践,同时也给用户一个通过模仿它来自我提升成长的机会。

其次,它不仅具备处理复杂工作的能力,同时还能保持更高的自动化水平。

最直观的例子就是 Manus 官方做的人力资源任务——筛选简历。

Manus 结合 computer use 能力打开虚拟机,解压用户上传压缩包,遍历 25 份简历,提取并记忆 25 组复杂信息;再将它们整理到一个 Excel 表格当中,进行打分排名,充分列举了包括资历、技能水平、项目经验、关键成就在内的多个指征,却不单独依赖特定一项。

在过去,同类的工作在过去可能需要用户用一个 AI Agent 工具,多次分步输入指令,或者需要用户自己用多个工具来分别完成任务再自行组合,无论怎么做都很麻烦。而 Manus 的自动化程度,超过了包括 Claude 在内的同类方案。就算你坚信 Manus 的能力没什么过人之处(毕竟套壳),但不可否认它的体验是更优秀的。

综上各点,Manus 确实超过了过去一段时间以来我们对 AI 工具的体验认知。如果说以前的 Agent 更多只是没「脑子」的工具,Manus 已经非常接近一个有「脑子」的 AI 助手,从人机互动升格为人机协作。

但与此同时,我们今天看到了不少过分吹捧的自媒体报道,跟着 Manus 团队一起提前「高潮」了,称其「AGI 的里程碑」;当然,也不乏有人指出其产品「套壳」,团队人物存在「黑历史」,技术栈和实现方式缺乏真正的自主创新。

我们应该批评 Manus 什么?毫无疑问,它的营销方式并不「体面」:找了一批自媒体来做内部分享,号称「只是发一个 demo」,以没准备好应对用户爆炸的服务器资源为说辞,制造一种营销的「高潮」,随后又对外界封锁,使得人们难以探知真相,满足好奇心。

但我想,无论这个产品以公测还是正式发布的方式,向公众完全开放之前,一切的维护和贬损都没有太大意义。

AI 技术突飞猛进,早已离开了学术科研的襁褓,和大公司的封锁。企业航母 all in AI 难保一帆风顺,小公司却完全可以只用一周时间起飞。现有的开源、半公开,付费、收费的工具比比皆是,只要不违反相应的开源许可证规则和商业授权协议,任何人都可以充分且自由地利用它们,无论出于纯粹的个人使用,还是做拼装组合叠加的「套壳」式创新。

更别提这个「创新」的结果还挺好玩(就算拿不到邀请码,你也可以去网站上感受几十个现成的 use cases)。

好玩的东西,在这个时代太稀缺了。脑洞谁都能开,填的上才是王道。

我们拥抱创新,关注和欣赏那些好玩有趣的东西。对于可能定义我们未来数字生活的产品,我们的包容并不廉价,但绝对足够。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


做减法,成就了宇树

By: 肖凡博
22 February 2025 at 14:00

这个月 17 号召开的民营企业家座谈会,可以说是众星云集、话题爆炸,大家的关注度包括但不限于:

许久不露面的马云重新回归公众视野,把 SU7 卖爆的雷军照常出席,给外卖员配齐五险一金的刘强东不见身影……然而这次把风头占尽的,当属「浙江代表团」,7 位来自浙商的企业家携手参会,当中除了马云,还有两位年轻人的身影。

▲ 图片来自:央视新闻

一位是从节前到今天,每天都能上热搜和官宣合作的 DeepSeek 创始人梁文锋,另一位则是宇树科技创始人王兴兴。作为座谈会上最年轻的 90 后新星,他也成为了企业家代表,在这次大会上发言。

「老夫聊发少年狂,左宇树,右大疆」,从这句网友改变的词句不难看出,宇树科技在这些年的突飞猛进,以及大家对它的认可。

或许你早就听说过这家机器人公司, 或许这是它的名字第一次进入你的视野,不过没关系,因为宇树科技去年发布的最后一条视频,引爆了机器人的圈内圈外,也让更多人知道了这家来自中国的黑马。

两分钟不到的视频,你几乎能在每一帧里找到高光时刻。从高难度的 Breaking 地板动作,旋转跳跃倒立,到「华夏血脉觉醒」的武术特级侧空翻。

穿越复杂地形如履平地,载重载人前行毫无压力,路见坎坷直接起跳,高楼飞跃不带犹豫,好像根本难不倒它。

说实话,刚看到视频时,在惊讶之余我也在怀疑:这应该是合成的吧?毕竟在生成式 AI 泛滥的当下,一切皆有可能。当确认了视频的真实性后,除了惊讶,更多的还是惊讶,因为无论从哪方面来看,宇树的这台机器狗所展现出来的综合运动能力,都是比较罕见的。

宇树的下一个高光时刻,出现在春晚的舞台上。一群人形机器人 Unitree H1,和真人舞蹈演员一起,来了一场人机共舞的扭秧歌大赛。

春节之后,宇树机器人也是一刻没停,直接从 CCTV-1 干到了 CCTV-5,科比的后仰跳投、詹姆斯的霸王步还有 C 罗进球后的标志性庆祝动作,它们的机器人都能有模有样地复刻。

▲ 图片来自:YouTube

宇树每次发布的高难度动作演示,看起来都不简单,实际上背后的技术原理也挺复杂,但这些逐渐逼近碳基生物行为活动的成果,都是在宇树科技创始人王兴兴的「减法思维」下诞生的。

扒光了的 H1,兼具骨感和灵活

春晚舞台上的人形机器人 Unitree H1 跳的很欢,花样很多,而从幕后故事里我们得知,这场集新奇、惊讶与尴尬的表演,也做了不少细节上的减法。

所有上台表演的机器人,和平时的样子都不太一样,去掉了很多外包围的覆盖件,一是为了穿上舞台表演服装会更好看,二是更精瘦的外观可以和真人演员产生反差,突出「机器人」的机械感,成为舞台的焦点。

在春晚后台,宇树工程师拆除了 H1 的所有非必要外壳,原本覆盖着光滑塑料的机械臂、关节电机直接暴露在聚光灯下,这种设计看似简单,甚至有点简陋的设计,其实是在为功能让步。

去除装饰性外壳后,机器人的关节活动范围能直接提升 15%,动作灵活了,幅度更大了,甩手绢更精准,杂技动作也就更容易完成。

宇树 H1 的减法不仅在外观上有所体现,也深入到了每个机器的骨子里。传统的机器人要想完成一次多设备联动的舞台表演,需要在前期的编程和训练上下足功夫,软硬件工程师要精确到表演的每一秒、机器人的每一个动作以及走位,连舞台上的坑洼都要考虑到整个排练方案中,做到「无微不至」的关怀。

而此次春晚上的宇树 H1,一改常态,帮助团队省了不少力气,最重要的原因还是和 AI 的结合。通过 AI 对秧歌舞动作的理解,加上其本身强大的学习和重现能力,工程师可以把主要经历放在整体把控上,像是手部动作是否到位、舞台走位是否准确等细节,用上了 AI 的宇树 H1 自己就能搞定。

▲ 图片来自:Unitree

AI 和机器人的结合,让宇树团队的工作量也做了减法,这次之所以能让 AI 技术在表演中大展拳脚,究其根本,还是因为技术的积累。

拥有 43 个关节的宇树 H1 非常灵活,加上 3D 激光 SLAM 自主定位导航,和 360° 全景深度感知技术,它们能自己根据现场的音乐、队友的走位来实时调整动作,其中也包括了让十几个机器人同时接住被抛在空中的手绢。

▲ 图片来自:Google

你几乎能在宇树的每一个产品里,看到它们的减法思维,而用减法做产品,其实有着更多的深层思考。比如在前期制作过程中,能否找到所有可以降低产品成本的细节,让最终的量产产品价格,落在大众市场可接受的区间;再比如做减法能否减少产品的冗余成分,例如一些不影响性能的部件。

如果每个环节都能自洽,也能在实践中实现,那机器人的成本就可以得到进一步的控制,同时也不会影响到机器人在真实场景中的功能。

对于很会做减法的宇树来说,最有代表性的一件产品,应该非 G1 人形机器人莫属。2024 年 5 月,宇树宇树推出了这台「小个子但很灵活」的产品。

最便宜的机器人,也最灵活

宇树 G1 人形机器人虽然个子不高,只有 1.3m 左右,但它「五脏俱全」,全身共有 43 个关节点击,特别是腿部、腰部以及手臂的自由灵活度非常高。

▲ 图片来自:Unitree

验证一台人形机器人是否灵活,最好的办法就是看它动起来,有几分像人。虽然验证过程有些简单粗暴,但效果很直观。从一段发布于一月份的官方演示视频就能看出,G1 的确能算得上目前宇树最为灵活的人形机器人之一。

G1 在行走和奔跑时,运动姿态很稳定,特别是跑步时的动态平衡保持得很好,各个部位的协同也非常到位,要是穿一身紧身运动衣,再带个帽子,混进跑步队伍,一时间还真分不清它是真人还是机器人。

从外观上就能看出,宇树在 G1 上做了不少减法:少了很多肉眼可见的复杂结构,乍眼一看只有关键部位的大关节结构,一体性很强,整体比例也很接近真人。

依靠数十个活动自如的关节,以及 3D 激光雷达、深度相机等感知硬件,G1 在一些拟人运动上,能极大程度地还原出真人动作,在某些瞬间,竟会有一种真人套着机械皮壳的感觉。

宇树在 G1 上做的减法,除了外观,也包括它的制造成本和售价,甚至可以说这是最能体现宇树减法成功的一款产品,因为 G1 人形机器人目前的起售价是 9.9 万元,已经探到了全球量产机器人的地板价。

要知道,当下人形机器人行业内的产品均价约为 50 万元上下,G1 的 9.9 万直接砍至平均水平的五分之一,这个性能不凡、价格平凡的产品,实际上是宇树八年技术积累的结晶。

宇树能把 G1 的售价定到「行业地板价」,和它们一直坚持的全栈自研战略有很大的关系。通过对供应链的垂直整合,和在前期对自研硬件技术的投入,让宇树机器人上的自研电机成本,比外购降低 68%,而且激光雷达适配性优化,也使采购成本下降 42%。

▲ 图片来自:Unitree

售价低和成本挂钩,也和它们的量产思维有关,从一开始,王兴兴想要做的就不是一台概念展示机——只能出现在科学馆和新闻里——而是一批真正能走进大众市场的四足机器狗,和人形机器人。宇树机器人的产线在采用汽车工业的柔性制造技术后,单条产线年产能从 300 台跃升至 5000 台,摊薄了边际成本,售价下探就有了更多空间。

四年前四足机器狗 Go1 发布时,售价仅有 1.6 万元,单款产品的年出货量能达到 1000 台;两年后的 Go2 更是把价格又砍了一刀,直接来到万元左右。

没有对比就没有伤害,同类型的士顿动力 Spot 机器人的售价为 7.45 万美元(约合人民币 54 万),而售价 1600 美元(约合人民币 11.6 万)的宇树 Go2 机器狗,用 1/5 的价格,实现了前者 90% 的功能。

这种定价策略彻底打破行业规则,也极大程度推动了机器人市场化的进程。相较于高成本、高技术、高售价的行业传统,宇树用减法思维做出的低成本高性能产品,也得到了市场的正反馈:

  • 2023 年全球四足机器人市场份额超 40%,稳居第一;
  • 2024 年全球四足机器人市场份额 69.75%,海外销售占比达 50%。

选择,也是一种创新

减法做在价格上,能让产品卖得好;减法做在功能上,能让好卖的产品更好用。

回到 G1,在官网的演示视频里,它在完成一些精细化操作,如电焊、抓取物体、敲击和开可乐瓶时,并没有用上拟人的五指关节,而是装上了三指结构。

这套三指装置名为 Dex3-1 力控灵巧手,是 G1 机器人的一大技术亮点,看起来少了两根手指,和追求人形背道而驰,但其实经过了精心设计。

王兴兴确认为,三指结构是小型人形机器人的最优解,因为 G1 本身只有 1.3m 多一点,如果装上了五个手指,会有点太多了,而且太大了,在外观上略显突兀。

从结果来看,三根手指不仅在体积上减少了 37%,且能满足大部分的使用场景,抓东西完全够有,也很牢固。Dex3-1 力控灵巧手通过混合控制算法,三指抓握力达到 5kg,可轻松完成演示中的焊接、开瓶等精细化操作,八成以上的动作需求都能靠三指完成。

从成本来看,手部组件的成本可以压缩至竞品的 1/3;按照后期维护费用来算,每减少一个指节,故障率就能降低 12%,维修时间也能缩短 25%。因此出于实用的角度,机器人的手在满足功能性的同时,其实越简单越好。

减法思维几乎运用在了宇树的每一个工作实践中,特别是硬件上。它们拒绝采用特斯拉 Optimus 使用的行星滚柱丝杠,转而优化传统谐波减速器,在保持同等精度下将成本压缩至 1/5。

「很多人觉得新技术一定更好,但我们更关注投入产出比。」王兴兴在采访中比喻道:

就像 iPhone 用一块屏幕取代键盘,减法不是妥协,而是更高级的解决方案。

其实做减法并不是宇树成立后的一时兴起,而是在王兴兴刚开始决定做机器人时,就已经形成的默认原则。

时间倒回 2015 年,上海大学实验室里的王兴兴正面临抉择:是跟随主流研发液压机器人,还是冒险尝试电驱动方案?当时全球四足机器人领域被波士顿动力的液压技术垄断,但王兴兴发现液压系统存在致命缺陷——结构复杂、维护困难、成本高昂。

▲ 图片来自:上海大学

他带领团队转向电驱动,用 2 万元经费造出 XDog 原型机,这款去掉液压泵、简化传动结构的产品,最终在国际大赛斩获二等奖。

▲ 图片来自:Unitree

这次选择奠定了宇树的基因。如今,宇树机器人平均零部件数量比竞品少 43%,电机直驱技术使动力传输效率提升至 92%(液压系统仅 65%)。从结果来看,减法成就了宇树,但一开始就决定做减法的王兴兴,其实需要很大的勇气,因为他面临的和对抗的,是当时整个行业的规则,也是行业一以贯之的原则。

颠覆是叛逆者的标签,也是后来者的机会。现在,从产品的市占率、与竞品的同台较量以及未来的发展空间看,宇树的减法思维和简化战略已然成功,并且很有可能,成为四足机器人和人形机器人行业内的通用准则。

当科技行业沉迷于堆砌参数时,宇树用减法开辟出一条新路径。从 XDog 到 H1,从实验室到春晚舞台,这家公司始终在证明:真正的创新不在于做加法,而在于做选择。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


荒野机器人

By: dimlau
31 October 2024 at 21:28

我是工作狂,但是工作忙碌到一整天没法自顾的时候,总感觉这一天像是虚度了。我当然喜欢自己的工作,所以也很困惑,为什么做喜欢的工作还会感觉虚度光阴?

晚上下班去接女儿放学,一路听她叽叽喳喳,回家洗漱结束,坐在床头,说服自己再看一部电影吧,就看了这部《荒野机器人》。机器人和野生动物交朋友,说实话,有点低龄向,不过 100 分钟的观影时间不会感觉虚度。说起来,电影里的机器人萝斯开头时也是满脑子想着工作,在学会用心而不是用大脑来看待世界之后,它的时间才真正有了价值,不管是快乐、满足还是思念、寂寞。电影里有一个小细节,从小灰雁还在蛋壳里到它飞在天上,几次用萝斯的机器人视角记录下一系列成长画面;这种亲情的关切真的很令人感动。

回到自己身上,再热爱的工作,如果忙碌到无法用心去感受,也会变成负担。活着就要用心感受,或者说,用心感受才是活着。

fin.

借行业科普聊了一次 AI 与设计师的关系

By: Steven
5 April 2023 at 14:53

上个月去上海之前,@取景框看世界 在微信上邀请我一起做一期关于设计行业的科普视频,面向学生群体做一次对行业整体状况的分享。这次是 B站 向他发起的约稿,也是他频道的主要内容类型之一。答应他后,从上海回来我就根据自己这么些年的体会和反思,录了一期比较掏心窝的内容。由于参与的人比较多,直到前天,节目才终于上线。

🎥 点击图片跳转到播放页面

因为参与的人数比较多,我说的话也比较多,所以在汇总的成片里需要剪掉一些。但我又觉得难得录一期视频(从去年11月到现在都没有更过视频了),为了保证表达的完整性,我还是得有一个自己的版本。但因为实在忙得顾不过来,于是麻烦 @小雨 帮我把这条视频剪了出来。

毕竟是 @怪物尚志 的御用摄影/后期,有他的帮忙,我的视频里头一回多了许多配合文案的动画,比我一个人在镜头前单口相声好看多了。这一期花絮,也在昨天发了出来,跟正片错开一天。

🎥 点击封面跳转到播放页面

这期视频的封面是我昨晚用 midjourney 画的。

在这条视频里,除了科普工业设计的一些基本概念和行业现状,我也特别聊了一下 AIGC 和设计师之间的关系。前两个月虽然一直很忙,但我也一直在关注 AIGC 的动向。这两个月的变化实在是过于惊人了!

以下是我去年八九月用 midjourney 画的一些东西:

然而在这短短半年内,版本已经从当时的 v3 发展到了现在的 v5。ChatGPT 也从 GPT-3 发展到了 GPT-4,坊间传言 GPT-5 的研发已经完成且爬完了全网所有视频,可以直指某一条视频中的某一段话,只是还没发布。可以说开年后的这两个月内,AIGC 的发展速度已经大大超乎了预料,甚至正处于失控的边缘,它们正在开始颠覆一些东西。将来会发生什么,无法预料,但一定有什么事情已经在发生了。

所以我觉得,无论如何,再忙也得重新用起来。光是跟进各种新闻和消息是不行的,midjourney 前两天刚发布了由图片转译成 prompt 的新功能,多模态的 AI 已经不远了,这会更进一步推动人和 AI 之间的交互。我觉得,自己还是得保持使用状态才行。所以前两天我又重新充了值,开始体验它的新版本。

我先试着画了一些机甲的东西,例如这样的:

上面的两张的用 prompt 直接生成的,但下面的两张,是用 /remix 命令修改了部分描述词后的新图。可以看到下面的图和上面的图保持了相关性,于是我想试试,如果用这个命令替换背景会是什么效果,于是有了这组车的图:

上面的两张图是用 prompt 直接生成的,当我用 /remix 替换了背景描述的 prompt 之后,就生成了下面的两张。更换环境之后,车辆的姿态和镜头视角几乎没有变化,车身的反光与环境之间的关系也很自然,这个效果已经可以说非常惊人了!

然后,我随便画了一些白色的机器人站在燃烧废墟上的场景:

用 /remix 替换了机器人配色部分的描述词后,生成了下面这样的图:

对 /remix 有了基本的体感之后,我开始尝试用 /blend 命令来做一些融合的实验。

首先,我随便描述了一个赛博少女,得到一些随机的图:

接着,我再随便生成一个红发少女:

材料准备好之后,开始把它们进行组合。

第一次先尝试融合两张图,一个是游戏画风的机甲人,一个是二次元的赛博少女。

它们俩合成后,得到了以下这个人物:

新角色具备其中一张图里人物的长相特征与体态,也有另一张图的配色和机甲特点。虽然得到的结果具有随机性,但既然可以这样融合,那么应该也可以通过 /blend 命令来得到一些更有目的性的创作。

有了第一次的体验后,第二次我用三张图片进行合成:

图一是现画的半透明金属机器人,图二是上面准备好的红发少女,图三是现画的骑士。

这三个合成出来的新角色,同时具备了细碎的金色细节、波浪红发、银白色盔甲:

但这不是我想要的,我想试试加大红发少女的比例。在垫图的方式下,可以通过 –iw 命令来分配各个图片之间的权重占比,但是在 /blend 中不能这么操作。于是,我想通过把合成的新图作为素材,再一次与红发少女进行融合,并加入机甲的元素来强化她身上盔甲的质感。

二次合成使用的图,如下:

合成出来的新角色我非常满意!

她既有红发少女面部和眼神的特征,又把两副银白外甲融合得非常优雅,也保留了初始半透明金属机器人遗传下来的金色金属关节的特征,又做出了图三机甲的坚硬感和图一外甲的银白光泽。这一次的融合很成功。

但如果 /remix 可以局部替换特征,那么这些没有写 prompt 而是通过 /blend 直接合成的图,能否通过 /remix 加入新的 prompt 来修改已有的特征呢?

为了让实验效果明显一些,我想让盔甲的白色部分比例缩小,增加金属部分的比例,于是就先把这批图重新刷了几遍,直到出现肩甲是金色的变异版本:

然后不断在此基础上进一步变异,强化金色肩甲的特征:

所有图片均可以点击放大下载原图

准备好之后,我在 /remix 中添加新的 prompt:pink armor

以下是修改特征后的结果:

所有图片均可以点击放大下载原图

整体的效果我还是挺满意的。一来,新生成的人物很好地保持了最初红发少女的眼神和神态;二来,金色金属被替换成粉色金属后,金属质感的表达是正确的。虽然头发也一起变成了粉色,这确实是没完全理解指令,但原有的发色搭配新的粉色盔甲也确实不是很和谐。

到此,重新开始用 AIGC 工具的热身完毕,找回一些感觉了。

至于这期视频封面里用到的车图,是我昨晚用 Maserati 和 Ferrari 以及 Apple 和 Tesla 分别杂糅出来的缝合怪。虽然乍一看好像没什么新奇的,但是如果我把去年八月底用 midjourney 画的汽车拿出来对比,就会意识到这是多么疯狂的进化速度了:

上面三个是去年八月用 v3 画的车;

下面这些是昨晚用 v5 画的车:

所有图片均可以点击放大下载原图
视频封面使用的图片
所有图片均可以点击放大下载原图

虽然工业设计有大量的细化和落地工作是 AI 无法干的,但从目前来看,无论是 midjourney 还是 Stable Diffusion + controlNET 都已经可以很好地帮助设计师完成概念发散和快速枚举了。这样的图像质量,通过垫图、remix 和 blend 的组合使用,完全可以在创意初期快速拉出一批高质量的「草图」,设计师可以把更多的精力放在对方案思路的推敲、对细节的考据以及各个环节的沟通协调上。

从今年二三月开始到往后的十一二年,人类社会将迎来一场以破坏为开端的变革和创新。

无论我们是否愿意,都将一起进入新的世界。

Ai 绘画将从何处开始进入日常生活?

By: Steven
10 January 2023 at 21:30

最近几个月 Ai 绘画这个话题很火,但基本上大家都只是看个热闹,跟普通人的生活没多大关系。或者说,大家感觉不到它和自己有什么关系。只有相关从业者,感受到了巨大的生存压力和身份危机。

但和当年支付大战的春晚红包类似,能让普通人都参与进来、玩起来的场景可能才能让大家感受到:Ai 绘画意味着什么,能做什么。

尽管众多以文生图的 Ai 工具已经大幅度降低了创作门槛,但是在那之前,各种咒术、法门终究是拦住不少普通人接触 Ai 绘画的一块巨石。我自己也曾在用过某些 Ai 工具后,在一条展示初次接触的创作成果的视频里提醒大家,不要忽视它,但也不要过分害怕它。它一定会给我们的生活带来巨大的变化,只是目前还没积累到那一刻,仅此而已。

如果说有什么场景,类似发红包那样简单明了,人人都可以参与,我觉得有一个非常合适的应用场景,那就是用 Ai 生成定制头像。对于不具备绘画能力、不懂念咒语、不会使用绘图软件的大多数人而言,Ai 画头像就是各类修图美容软件一级的场景,既有尝新和娱乐,也有充分的社交属性,和红包非常相似。

最近试用了一下漫镜,一个感觉是,神情抓得不错,风格也足够多,用它来探索自己不同造型的可能性,还是挺有启发的!因此中途我想到一件事,如果这类产品的效率再高一些,跟各大连锁发型屋合作,预约时就上传几张照片,生成几套发型方案,人到了现场就让托尼老师根据效果图来剪,这不是非常好的体验升级么?谁说 Ai 必然逼得人失业呢?还得是看人怎么用。

除了头像,你觉得还有哪些场景,适合普通人体验 Ai 绘画呢?

点解图片体验 AI 制作头像

❌
❌