Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

追求

By: dimlau
2 September 2024 at 11:00

年轻时总羡慕别人——某君读了很多书,学富五车太有魅力了;某君弹得一手好吉他,才华横溢令人着迷;……于是为了这些不太纯粹的目的而去读书、学琴。倒不觉得这是坏事,但彼时总会因为追求了却没成效而慌张、失落。过去不愿承认的,现在可以坦然说出口:天赋上的确差得多了。但重点却又不在于此。如果所求的在所做的之外,即便有些收获总还是会怅然若失。某君的魅力或许就来自于读书不为展示魅力,某君的迷人也正是因为醉心于弹琴而全然不知已然迷倒了众生。能做自己喜欢的事情已经足够,把这些事情做到自己满意就更是幸福;幸福的人总是值得羡慕的吧,但愿每个人都可以幸福。

fin.

华为 ADS3.0 智驾体验:「端到端」是新的技术墙

By: 谢东成
21 August 2024 at 11:05

智能辅助驾驶的「智能」表现,正伴随着新能源汽车渗透率的快速提升而变得日新月异。

在领航辅助驾驶确立了从「有图」到「无图」的技术路线迭代之后,「端到端」成为了智驾领域的新目标。

今年年初,特斯拉推送了首个搭载「端到端神经网络模型」的 FSD v12 Supervised 版本,紧接着包括鸿蒙智行、理想、小鹏在内的一众走在智驾前列的主机厂,都将量产推送「端到端」智驾作为了下半年的重要目标之一。

最近,董车会也在公开道路上,体验了最新的华为 ADS 3.0 的「端到端」智驾表现。

事实上,它的确令人印象深刻。

华为 ADS3.0「端到端」的实际表现:从一个车位智驾到另一个车位

不看广告,看疗效。

「端到端」的 ADS3.0 在路上开起来会有怎样的表现,应该才是用户们最为关心的事情。在实际的应用层面上,华为 ADS 3.0 实现了 「从车位到车位」的物理端到端

在稍早前,我们提前试驾了首发搭载华为 ADS3.0 的享界 S9。得益于「端到端」的仿生神经网络模型,享界 S9 在「全国都能开」的基础上,获得了车位启动、路边启动、路边临停、目的地随时变更、自主过闸机等一系列智驾能力的升级,力求做到用智能辅助驾驶来贯通全场景,实现「有路就能开」

官方规划的试驾路线也比较有趣,我们从苏州四季酒店的地库直接出发,目的地是太湖万丽酒店的地库,全程超过了 40 公里,耗时大约 1 个小时。

因为两地的地下停车场都已经被扫描过,都可以被导航识别为「常用车位」了,所以我们可以在四季酒店地库的静止停车位上,设定好到万丽酒店地库车位的导航,然后直接点下方向盘上的智驾按钮,享界 S9 就会智驾泊出车位,自己开出四季酒店的地库。

即便四季酒店的地库出入口是一个很窄的直角弯,但也没有难倒享界 S9,它自己紧贴着墙就熟练地开出去了。识别闸机也能做到自动减速,等抬杆之后再加速驶出。

酒店园区内的道路本来没有在导航地图上显示,但享界 S9 的环境感知和决策能力都有升级,不仅可以避让快递车辆,也能避让临时设立的障碍物。

面对环岛也很从容,以较快的车速就完成了绕环岛通行,方向盘也打得很迅猛。

以往需要接管的掉头场景,现在用 ADS3.0 也无需接管,智驾将方向盘丝滑一打,掉头弯就过去了。

识别红绿灯的感觉也变得更加敏锐,在绿灯闪烁的时候,车辆就已经捕捉到了,提前进行了预判并且自动地实现了舒缓减速,稳稳地停在红灯之前。

在面对一些复杂场景时,ADS 3.0 端到端的优势就体现出来了。在一个需要走最右侧车道的场景里,所需车道被占用,而且道路划线不清晰的情况下,享界 S9 很果断就取消了变道,选择了加速绕行,丝滑程度堪比真人老司机一样提前做了预判。

在高速路上,享界 S9 现在在上下匝道的时候也无需接管了,即便是连续变道也能快速响应。

唯一的缺点,就是变道一如既往地积极,即便是在标准状态下,我感觉有很多时候其实它都不需要特意变道的,变道过去还是得变道回来。考虑到享界 S9 的后排经常坐着老板,这样子的变道体验,应该会受到老板们的批评吧?

也许,享界 S9 可以考虑出一版不那么激进变道,稳妥驾驶的智驾特调版本?目前想要缓解这个情况,我们可以试着将 NCA 的变道偏好默认设置为「柔和」,这样它会降低变道超车的频率,也可以考虑将智驾的变道策略改成人工确认。但这样,就不太能实现完全零接管的智驾表现了。

最终,我们顺利抵达了导航目的地万丽酒店的门口,然后享界 S9 紧接着无缝地自动驶入了地下车库,并且自己找到了目标车位并自行泊入。在全程 NCA 且完全零接管的情况下,实现了从车位到车位的端到端智驾。

用车位到车位的这种物理端到端表现来衡量端到端智驾的含金量,我觉得是比较易于理解也比较全面的。

有了「端到端」模型加持,ADS 3.0 的智驾表现更加符合我们对智能驾驶的主观想象,它开起来更像人类司机,通行效率也有了长足的进步。

此时,若是余总再说一遍「(华为 ADS)无限接近于 L3」的话,质疑声音也应该会少了许多。

华为 ADS 3.0「端到端」的技术路线,有何不同?

在华为 ADS 2.0 智驾解决方案中,华为提出了基于激光融合的 GOD 网络,配合 RCR 道路拓扑推理网络来实现「有图无图都能开」的智驾表现,让车辆能够自行识别真实世界的通用障碍物,基本做到类人的感知能力,最终量产实现「全国都能开」的无图 NCA 智驾能力。

▲ 华为 ADS 2.0 BEV+GOD+RCR 网络

其中,GOD 网络(General Obstacle Detection,通用障碍物检测网络)可以通过激光雷达+摄像头,来识别通用障碍物白名单外的异形物体,像游戏《我的世界》那样,用 3D 像素块来构建出障碍物的轮廓,从而对路上的障碍物进行精细识别,不但能够识别障碍物的动静态,而且也能匹配区分出救护车、警车、行人等等。

▲ GOD 感知算法示意(图片来自:华为官网)

有了 GOD 网络,智驾系统对路上障碍物的识别不再存在上限,真正地做到了 「看得懂物」

▲ 异形障碍物「世界」(图片来自:华为官网)

而 RCR 网络(Road Cognition & Reasoning,道路拓扑推理网络)是为了进一步让智驾摆脱高精地图的依赖,结合普通导航地图来与现实进行匹配和印证,再实时通过传感器来拓补绘制一幅可用的行车地图。

有了 RCR 网络,智驾系统能够做到「具体路况具体分析」,真正地做到了 「看得懂路」

可见,以往的智驾都是基于「感知 — 规划(决策)— 控制」的研发逻辑,就是将感知数据传输到规控进行匹配识别,再输出控制指令来操控车辆驾驶。

如果传感器感知到的「这道题」(路况信息)是题库里面有做过的(训练过的特征信息),那么控制端就能给出一个「正确答案」(正确的决策方案),让车辆完美地应对好当前的路况。

毕竟道路千万条,安全第一条。路面状况瞬息万变,遇到一些未曾训练好的场景,智驾系统就会手足无措,只能提示人类驾驶者去接管车辆了。

要想提升智驾的控制表现能力,让智驾能像人类一样开车,就需要智驾系统能够像人类一样思考

由此,智能驾驶开始引入了像 ChatGPT 这样,基于庞大神经网络而构建的大语言模型,智驾系统直接由一个「端到端模型」来全流程地处理从传感器接收到的感知数据,并完成判断和决策,最终输出控制指令。

在 ADS 3.0 当中,华为将 GOD 和 RCR 都神经网络化,并将这部分算法纳入到一个完整的 GOD 感知神经网络之中,而后再将感知数据交由 PDP 决策神经网络来规划行车路线,输出「思考」结果。

构建好的 GOD+PDP 神经网络模型之后,华为再利用自己的云端 AI 训练平台进行大量的数据训练,让模型得以快速迭代升级。

ADS3.0 提升了 GOD 大网的多维立体感知能力并使用「端到端」决策的 PDP 之后,就能实现去 BEV 化,从原来的「看得懂物」升级到「看得懂路」,让智驾系统更高效且精准地「理解驾驶场景」,以低延时的决策速度,自主地处理好复杂路况,更多时候会给用户带来一种平稳、放心、无需接管的智驾体验。

只不过按照目前的初见成效的训练效果来说,让 AI 直接坐在驾驶位去开车,还是过于激进。目前华为的端到端模型之中,还加入了一个 「本能安全网络」进行智驾的下限兜底,确保决策神经网络不会逾越安全红线。

吴新宙曾经提到,端到端将在长期与传统自动驾驶堆栈并行运行,最初端到端模型将在影子模式下运行,以便在相同的场景下比较人类驾驶、传统堆栈和端到端算法三者输出的行为差异,并根据人类反馈进行微调;之后端到端可以和传统技术堆栈并行,两者形成互补;成熟之后则可以逐步淘汰传统堆栈。

端到端算法像襁褓里的天才少年,尽管未来可能成为博士,但成长过程中需要小学、初中老师去带教,这便是当前传统堆栈起到的作用,随着时间的推移,端到端将最终成长成为强大的可以独挡一面的「专家」。

所以,无论是华为 ADS3.0 的端到端仿生大脑,还是理想 AD 的快/慢系统,以及小鹏的 Xnet+Xbrain+Xplanner 架构,都在端到端决策和车辆控制之间,做了相当多的约束和冗余措施。

普遍来看,当下端到端智驾的目的,就是为了简化智驾系统架构,通过单一的神经网络模型来完成整个智驾系统的感知和决策任务,减少对海量场景规则代码的依赖,从而提升智驾的实际效果,满足用户真正的智驾需求。

换作是之前的智驾策略,别说从一个车位到另一个车位的智驾零接管,单拎绕环岛通行和掉头场景来说,智驾甚少能够正常自主行驶的,大多数时候都得提醒人类驾驶员去接管行驶。

简单来说,结合 ADS 3.0 端到端的实际体验来看,用大模型来将智驾变得更类人化。从全国都能开,升级到有路就能开。

大势所趋的端到端智驾,车企争先恐后迎头而上

中国汽车在电动化和智能化方面的一日千里,正在重塑消费者对汽车的偏好与选择。其中,智驾已成为新能源汽车智能化的显著特征,消费者对于汽车智驾的了解程度、价值感知正日益提升。

消费市场的需求选择,也反过来促使车企更加紧密地拥抱电动化和智能化,唯有做好智能座舱和智能驾驶,才能在智能化的下半场站稳脚跟。

所以,那些在智驾方面竞争优势不太突出的车企,正在使出浑身解数,试图补齐智驾短板。

就像近期饱受争议的极氪,在 2024 款极氪 001 上市数月之后,马上就迫不及待推出了 2025 款车型,新款计算平台由双 Mobileye EyeQ5H 升级到了双英伟达 OrinX。两者相比之下,24 款只有 48Tops 的算力, 25 款的算力则达到了 508Tops,足足强了十倍。

虽然此举引发了不少老车主的不满,但对于极氪来说却是不得已而为之。

按照极氪的回应,此时就推出 2025 款极氪 001,是为了满足更多的潜在用户:

极氪 007 搭载的浩瀚智驾受到了广泛的用户和行业好评,很多极氪 001 的潜在用户呼吁能够选择浩瀚智驾方案,同时我们自己的品牌 NPS(Net Promoter Score,净推荐值)调研也发现,智驾是影响用户选择极氪 001 的一个因素。因此,内部决策立项自研智驾方案上车,给用户多一种选择。

相较于 Mobileye 的智驾方案,自研的浩瀚智驾方案显然能够在智驾体验上挽回一些用户口碑,只是恐怕切换成自研智驾还是来得太晚,加上这样的换代更新频率,势必会从保值的角度影响到潜在用户的信心。

正当成绩偏科的同学在决心勤能补拙,而排名靠前的优等生们已经开始研读新学期的课题了。

对于那些已经将「智驾」做成品牌显著标签的车企,像是鸿蒙智行、小鹏、理想等等,都已经量产推送了「全国都能开」的无图智驾,现在更是着手布局端到端的大模型智驾方案。

他们都有一个相近的目标,就是完全覆盖用户从出门到进门之间的通勤,完全交给 AI 智驾来开车。与循规蹈矩的传统智驾方案相比,端到端的智驾方案,将推动智驾从算法工程转变为数据工程。

要坐到端到端智驾的牌桌上,需要足够多的筹码

从 ADS1.0 迭代到 ADS2.0 的时候,华为 ADS 团队就曾经披露过他们全栈自研的 AI 训练体系。

构建智驾大模型最坚实的基础和底气,来自于华为拥有自己的云端 AI 训练平台。彼时他们就已经用领先于大多数同行的超高算力,24 小时不间断地进行模型训练,实现了五天迭代一次的升级速度。

来到 ADS3.0 的端到端,学习训练的算力已经从半年前公布的 3.5E FLOPS 更新到 5E FLOPS(余总还说 3.5E 算力当时已经是中国第二名和第三名的总和),模型每天训练的里程数达到了 3500 万公里。而且这个算力数字对于华为 ADS 来说并非一个终点,而是会继续去加大投入,持续提升。

随着智能驾驶步入深水区,智驾 AI 大模型的训练离不开海量的、多样化的优质数据,同时自动化、高水平的数据处理体系也至关重要。可以说数据,将会占据端到端智驾开发中高达八成的研发成本。

正如大语言模型之前已经强调过参数量之大那样,端到端的多模态模型也对数据有着旺盛需求。特斯拉在 FSD V12 上率先实用了端到端模型,马斯克曾经对此说过:

用 100 万个视频切片训练,勉强够用;200 万个,稍好一些;300 万个,就会感到 Wow(惊叹);1000 万个,那就难以置信了。

所以,车企量产的智能驾驶车辆正成为最佳的数据采集工具。当足够多的量产智驾车辆在道路上行驶时,它们所收集的真实数据将成为智驾算法不断优化和迭代的关键资源。

▲ Tesla Fleet. 图片来自:特斯拉北美官网

根据车企公布的数据,特斯拉在北美拥有约 300-400 万辆车组成的用户车队;预计到 2024 年年底,搭载华为智能驾驶系统的车辆数量将超过 50 万辆;截至 2024 年第一季度,理想已累计交付超过 70 万辆汽车,所有车型均标配 AD 智能驾驶功能;截止 2024 年 4 月份,蔚来智能驾驶总用户数达 49.53 万人,NOP+ 总用户数达 24.58 万人。

所以说,浩瀚的算力背后,是自研实力和充沛资金以及高额市占率的相辅相成。

华为 ADS3.0 的量产,足以证明一个可以量产商用的端到端智驾大模型,是需要掌握数据资源、充裕资金、技术积累的头部厂商,坚定正确的技术路线并付诸长期投入才能实现。

从这个角度来看,软硬实力一体构建起来的「端到端」智驾模型,将会成为智能驾驶的一道「AI 技术墙」。

有路就能开的端到端智驾,显然是智驾领域的新标杆,但在技术墙之外,其实仍有大量车企的车型,无法如期兑现全国都能开的智驾承诺。

最终能够下场「端到端智驾」牌桌竞争的玩家,非但需要前瞻的勇气,也需要足够多的筹码,短期内也只会有寥寥数家。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


对话理想智驾团队:什么是自动驾驶的「终极答案」?

By: 刘学文
8 August 2024 at 11:00

2013 年的时候,自动驾驶还是一个非常前沿和性感的概念,一如当下的 AGI,前几年的元宇宙,在互联网公司如火如荼的时代,腾讯每年都会举办一场 WE 大会,来聊一聊那一些星辰大海的话题,比如基因编辑、脑机接口、宇宙探索等等。

我第一次接触「自动驾驶」的概念,就是在 2013 年第一届腾讯 WE 大会上,当时有嘉宾抛出了如下观点:

  • 技术问题不难解决,难以解决的是法律问题。
  • 在十年之内,消费者是可以买到无人驾驶汽车的。
  • 如果机器它做的判断正确率达到 95%,那可能还是要比人好、比人快。

十年之期已到,这些话算是大致应验,当萝卜快跑已经在多个城市大规模上路,主流新势力品牌的高端车型具备高阶智能驾驶能力,以及特斯拉 FSD V12 版本的推送,还有特斯拉 RoboTaxi 即将发布,自动驾驶技术正从 L2+ 级别往 L4 级别迈进,「车坐不开」变得并不遥远。

等一下,当我拿出这张图,阁下该如何应对?

这是广州城区日常交通状况的一个普通场景:机动车道不仅跑着海量乱窜的两轮电瓶车,甚至龟速的电动轮椅也跑在机动车道上。

此时,智能驾驶的优势和挑战就一起体现:优势是智能驾驶没有情绪,不会生气不会路怒;挑战是龟速电动轮椅和乱窜侵入机动车道的两轮电瓶车对于智能驾驶来说,是很不好预测和处理的场景。

实际上,十年前预测自动驾驶发展大多基于一个逻辑:路上的车和人都遵守交规,红灯停绿灯行,机动车道不会出现害人精。

但当厂商们交付带智能驾驶功能的汽车到消费者手上时,汽车面对的情况就是上面这张图:马路是我家,交规去 TM。

经典智驾逻辑:「感知 — 规划 — 控制」

当下主流的智能驾驶方案,无论是高精地图方案,还是无图方案,都依赖于大量工程师根据各种各样的道路场景去编写规则,以期实现穷举所有道路状况和对应措施,实现尽可能的智能驾驶行为。

不过现实道路情况不仅错综复杂,不可能被穷举,同时现实世界也在不断变化,随时有新的道路场景出现。因而,此前智能驾驶研发是一场「无限战争」。

比如说,环岛进出这个场景,在 7 月份之前,还没有几家车企能够攻克,因为场景复杂,感知受限,规划决策困难。

简单来讲,在特斯拉 FSD V12 版本采用「端到端」技术方案之前,几乎所有的智驾方案都可以归结为「感知 Perception — 规划 Planning — 控制 Control」三个大模块,这一套流程覆盖各种各样的场景,比如经典的三分法:高速场景,城区场景和泊车场景。

这几个大场景又可以细分细分再细分,智驾工程师们针对场景来编写规则代码,汽车的激光雷达、毫米波雷达和摄像头还有定位系统一起协作,感知和记录道路、环境和位置信息,然后 BEV(Birds-Eyes-View)技术或者 OCC(Occupancy Network)技术或者其他的技术来把这些传感器获取的信息形成能被智驾系统理解的「真实世界的虚拟投影」,智驾系统再根据这种「世界投影」规划出合理的行进路线和运动规划,进而得出控制决策,最后汽车响应决策,就形成了「减速,左侧变向,提前走左侧掉头车道,紧急刹车躲避路中间乱入的两轮电瓶车,继续前进,调头」这种智能驾驶行为。

▲ 极越汽车 OCC 占用网络示意图

如果智能驾驶使用到了 OCC 占用网络技术,那么我们就可以打个比方,在智驾系统里,外部世界就像《我的世界》那样,是由一个个方块(体素)组成的,如果道路前方一片坦途,那理论上路上就没有方块,车就可以大胆往前走,如果前方有一个静止的小方块,那可能是雪糕桶跑到路中间了,如果右侧有缓慢移动的长条,可能就是行人,如果是左边车道快速移动的超大长方形块,那可能是大货车……

在这个「感知 — 规划(决策)— 控制」的大逻辑下,不管是此前的基于高精地图的方案,还是后续更依赖于多种传感器融合和高本地算力的无图 NOA(自动导航辅助驾驶)方案,都没有脱离这个基本逻辑,研发的框架和工程师的工作,也都是在各个模块里各司其职。

直到,「端到端」的出现。

什么是「端到端」?

印象中有三次人工智能的标志性事件,引起了广泛的社会讨论。

第一次是 1997 年 IBM 的国际象棋机器人「深蓝」战胜了国际象棋大师卡斯帕罗夫,但站在如今的时间点看「深蓝」,就会觉得它并非那么智能,它只不过是存储了巨量的开局和残局棋谱,然后搭配高效的搜索算法和评估体系,选出最合适的下法。

也就是说,深蓝在下棋的时候,中间的决策对于人类来说是可解释的,逻辑清晰的。

接着就是在比国际象棋更复杂的围棋领域,DeepMind 的 AlphaGo 赢了李世石和柯洁,宣布人工智能的水平远超所有人类棋手。

AlphaGo 的逻辑不是搜索匹配棋谱,毕竟围棋的棋盘格子数和棋子数量远超国际象棋,蕴含的可能性太高,现在的计算机没法算出其中所有的可能性。但基于神经网络的深度学习,AlphaGo 一来可以自我学习自我进化,二来可以知晓下一步怎么下更接近胜利,对于人类来说,AlphaGo 的下法和人类思考逻辑完全不同,但中间发生了什么,人工智能专家是知晓其逻辑的。

接着就是 ChatGPT 的出现,大语言模型技术在输入和输出之间,存在着人工智能专家都难以解释的「黑盒子」,人类无法准确解释问问题和 ChatGPT 回答之间,具体发生了什么。

以此做个比喻,智能驾驶技术此前基于「感知 — 规划(决策)— 控制」的研发逻辑,类似于 AlphaGo ,AlphaGo 的卷积神经网络(CNNs)能够处理棋盘的二维结构,提取空间特征;而价值网络和策略网络能够提供规划和决策,此外还有强化学习和蒙特卡洛树搜索技术能优化决策。

▲ 理想智驾端到端架构图

而智能驾驶技术里的「端到端」,就类似于 ChatGPT 背后的大语言模型技术,从原始传感器数据(如摄像头、毫米波雷达、激光雷达等)到最终的控制指令(如加速、刹车、转向等)的全流程处理。当然,现阶段这种直接控车的方式还是太激进,所以像是理想的端到端就只输出轨迹,没到控制,到车辆控制之前还是有很多约束和冗余措施。这种方法的目标是简化系统架构,通过一个单一的神经网络或模型完成整个任务,背后不再依赖海量的场景规则代码,是完全不同的技术方向。

正如大语言模型之前强调的是参数量的大一样,端到端背后的多模态模型也存在这样一个量变产生质变的过程,特斯拉在 FSD V12 上率先使用了端到端技术,马斯克就这么说:

用 100 万个视频切片训练,勉强够用;200 万个,稍好一些;300 万个,就会感到 Wow(惊叹);1000 万个,那就难以置信了。

但经常使用 ChatGPT 或者其他生成式 AI 工具的人就会发现,这些工具并不可靠,经常信誓旦旦地输出错误答案,谓之「幻觉」。

电脑上的 AI 工具瞎回答问题一般没啥灾难性后果,但智能驾驶事关生命安全,一个「端到端」搞定驾驶行为,还需要更多的验证和保险措施,这是个技术问题,更是个工程问题。

对话理想智驾团队:「端到端」才是真正用 AI 做自动驾驶

经历了前面长篇累牍的背景介绍之后,终于可以切入正题:借着采访理想智驾团队的机会,来聊一聊「端到端」如何从理论,到上车?

理想智驾研发副总裁郎咸朋告诉爱范儿和董车会:

我们今年春季战略会上有一个重要反思,就是我们太过于追求竞争,比方说老是盯着华为什么的,它开多少城,它的指标是多少,其实单纯的盯指标,比如说我比华为好一点,或比华为差一点,并不能代表用户真正的需求。

 

回归到用户的开车需求上来看,真正的用户需求不是接管率指标低到多少,用户需要的是智驾像老司机那样去开车,而这种拟人化的需求依靠原来规则化的模块化的研发架构很难实现。但理想内部预研的「端到端」会做得更好。

基于此,在一年之间,理想的智驾技术方案经历了三代调整:从有图到 NPN(神经先验网络)到无图,再到端到端。

郎咸朋这么解释端到端本质上的不同:

端到端它表面上看是一个大模型替代几个小的模型,其实它是一个分水岭,从端到端开始,才是真正地用人工智能的方式来做自动驾驶,前面其实还不是。

因为它是数据驱动的,由算力配合上数据,配合上模型,是高度自动化的自我迭代过程,这个过程迭代的是模型或系统自己的能力。那么之前我们做了什么呢?我们做的都是系统各种各样的功能,上下匝道的功能或过收费站的功能。

功能和能力,是有很大区别的。

但实际上,理想智能驾驶夏季发布会上发布的下一代自动驾驶系统是「端到端+ VLM(视觉语言模型)」双系统方案。

既然前提是要把智驾做得像老司机驾驶,尽可能拟人化,那就得考虑人究竟是怎么做事儿的,这里的理论依据是诺贝尔奖获得者丹尼尔·卡尼曼在《思考,快与慢》中的快慢系统理论:

人的快系统依靠直觉和本能,在 95% 的场景下保持高效率;人的慢系统依靠有意识的分析和思考,介绍 5% 场景的高上限。

理想「端到端+ VLM」双系统里的端到端就是快系统,有日常驾驶场景里快速处理信息的能力,而 VLM 视觉语言模型有面对复杂场景的逻辑思考能力。

这个快系统的究竟有多快呢?

理想智驾技术研发负责人贾鹏说:

现在我们端到端延迟相当于是传感器进来到控制输出 100 多毫秒,不到 200 毫秒,以前分模块大概得到 300 多将近 400 毫秒。

这个慢系统为什么又是必要的呢?

郎咸朋解释说:

我们现在正在探索它(VLM)的一些能力,它至少在刚才说的主路、辅路车道选择这块有一些价值,如果没有它,也不会出安全问题。我们在 L3 级别智能驾驶起主要的支撑作用还是端到端,代表这个人正常的行为下的驾驶能力。

 

但到了 L4 级别智能驾驶一定是 VLM 或者大模型在这里面起到更重要的作用,可能 90% 以上的时间它不起作用,但它起作用这些内容,是决定这个系统到底是 L3 级别还是 L4 级别的一个关键点,VLM 是能真正的能去应对这种未知的场景。

理想并不是一个端到端模型就完事儿,而是采用了更稳妥的双系统方案来覆盖全场景,端到端负责让驾驶行为更拟人,更像老司机,而 VLM 视觉语言模型托住下限,更能拔高上限,有望达到更高级别的自动驾驶。

再深究一下,和原教旨主义的端到端最后还要负责汽车控制不同,理想的端到端其实也没有直接能控车,而是到了输出轨迹这一层级。

贾鹏说:

我们的端到端模型是到了轨迹,轨迹之后加一些安全兜底,因为在模型没有达到上限之前,还是要有一些处理的东西,比如说猛打方向盘这样的事,给他兜掉。

而在实际的智能驾驶过程中,两个系统也是同时工作的,贾鹏具体解释了两个系统如何共同协作:

这俩系统一直都在实时运行,一块跑是端到端,因为模型小一些,它的频率比较高,比如跑个十几赫兹。另外那个模型规模参数量就大的多,是 22 亿参数,目前能跑到大概 3~4 赫兹之间,其实也是一直在跑。

 

VLM 发决策结果给参考点,比如说在 ETC 进高速的时候,其实车很难判断要走哪个道,我要走人工还是走 ETC?这个时候 VLM 也一直都在,如果想去选 ETC 可以走 ETC 这条道,如果想走人工可以走人工这条道,只不过它是把决策结果和参考的轨迹扔给端到端模型,端到端模型推理后,再采用这个信息。

 

其实 VLM 视觉语言模型是个辅助信息,最终的轨迹结果是模型推理的结果,它是有一定概率被采纳的。

为什么端到端能够在智能驾驶领域掀起如此大的浪潮?还是因为它背后巨大的可能性,以及在找「终极答案」上的指向性意义。

简言之,在这套方案上,大家都还远远没有摸到能力的天花板,技术探索和工程实践,进入到了旷野区。

贾鹏进一步解释双系统的原理,以及可能性:

其实人就是双系统,虽然物理结构上并不是那么明确的双系统,但是人的思维方式就是双系统,所以我们当时有一个想法是在端到端的基础上再加一个真正有泛化能力,有逻辑思考能力的一套系统,自然而然就想到了 VLM。

 

虽然 VLM 不直接控车,但是会提供决策。

 

再朝后这套东西怎么发展?可能随着算力的增加,比如特斯拉 FSD 12.3 到 12.5 版本,参数提高了 5 倍,可以支撑足够大的模型。

 

我觉得以后两个趋势,第一是模型规模变大,系统一和系统二现在还是端到端加 VLM 两个模型,这两个模型有可能合一,目前是比较松耦合,将来可以做比较紧耦合的。

 

第二方面也可以借鉴现在多模态模型的大模型发展趋势,它们就朝这种原生多模态走,既能做语言也能做语音,也能做视觉,也能做激光雷达,我觉得这是将来要思考的事情。

 

我们这套范式应该能够支撑我们做到(L4 级自动驾驶),因为在机器人具身智能上我们已经看到它的应用雏形,参考人的思维过程,这套东西可能就是我们心目中想追求的终极答案。

 

终极答案的意思是我们用这套理论和这套框架去做真正的人工智能。

不过在聊终极答案之前,贾鹏解释了为什么只有端到端能够解决「环岛进出」的智驾难题:

如果是分段式的(智驾方案),前面是个感知,要给规控去做各种假设,做个掉头,还得把掉头线拟合出来,不同的路口的掉头还不太一样,曲率都不太一样,所以你很难做到一套代码就可以把所有环岛掉头搞定,种类太多了。

 

关于环岛这件事,也有一个好玩的故事,在我们(模型数据包含)大概 80 万 clips(视频片段)的时候,还过不了环岛,后来突然发现一天我们(喂了)100 万 clips 它自己能过环岛,我觉得是 100 万(视频片段)里头刚好有一些环岛数据放在里面了。

 

模型确实很厉害,你喂了什么数据他就能学会,这是模型的魅力所在,就像 ETC,我觉得如果你开我们现在端到端的版本,会发现其实 ETC 它自己能过,但是问题是它现在不知道我要走哪条道,到底是走 ETC 道还是走人工道,他自己会随便乱选一个,会让你觉得不太安全,我们后面想做的就是 VLM 可以给他这个指引,因为 VLM 是可以理解语文字,理解 LED 指示灯的。

关于端到端理论部分的 What 和 Why,至此也有了大概的轮廓,有了数据和模型之后,就是真正地上车了,也就是 How,这才是真正的大考环节。

▲ 理想汽车制造车间

「训练端到端模型,跟炼丹没什么区别」

郎咸朋给爱范儿和董车会讲了一个训练端到端模型里很离奇的小故事:

今年比较早期的时候,刚开始做项目,我们发现模型训练出来,平时开着还都 ok,但等红灯的时候,车的行为就比较怪异,它总是想变到旁边的车道,我们不知道为什么。

 

后来明白我们在训练端到端模型的时候,删除了很多在红灯之前等待的数据,我们觉得等了几十秒或者一分钟,这样数据没有用。但后来发现这份数据非常重要,它教会了这个模型,有的时候是需要等待的,不是一旦你慢下来就要插空,就要变道。

这个小故事说明了,数据很大程度上决定了模型的质量,但模型的大小是有一定限制的,所以喂哪些数据去训练模型,实际上就是最核心的工作之一。

郎咸朋打了个比喻:

训练端到端模型,跟古代炼丹没什么区别。古代炼火药讲究一硝二磺三木炭,做出来的炸药威力比较大。其他配比,可能也能点个火起来。

不过对于想要训练端到端模型的车厂来说,「炼丹」只是形象地比喻,而非具体的工程落地方法,数据怎么来,怎么选,怎么训练,都是科学问题。

好在理想有一些先天优势,比如车卖得不错,销量在新势力车企里经常位居第一,路面上有 80 多万辆理想汽车在跑,每个月还能新增四五万辆,这些车提供了十几亿公里的数据。

另外,理想很早就意识到数据的重要意义,打造了关于数据的工具链等基础能力,比如理想的后台数据库实现了一段话查找当时,写一句「雨天红灯停止线附近打伞路过的行人」,就能找到相应的数据,这背后是一些云端的小模型,比如数据挖掘模型和场景理解模型。

郎咸朋甚至认为,这些数据库的工具链和基础建设能力,某种意义上(重要性)甚至大于模型的能力,因为没有这些良好的基建和数据,再好的模型也训练不出来。

底层技术方案转向,也意味着工作方式转向,当发现一个 badcase 之后,理想内部的「分诊台」系统里的模型会自动分析这属于哪一类的场景问题,给出「分诊建议」,然后回归到模型训练上来解决问题。

这里也涉及到工作方式的转变,原来解决具体问题的人,现在变成了设计解决问题工具的人。

为了提高「诊疗」效率,理想内部会同时训练多个模型,这个过程又回到了「炼丹」的概念,贾鹏解释说:

模型训练主要两个方面,一是数据的配方,类似的场景到底要加多少,能把 case 解决掉,这是一个 know-how,不同的场景对数据的要求不一样。第二点是模型的超参,加入新的数据后,模型参数如何调整,一般情况下有 5-6 版模型会同时提交训练,然后看哪一版解决了问题,同时得分也高。

同时训练多个模型,对数据库的基础建设提出了要求,也对算力有巨大要求,这个时候就该「钞能力」上场。这里理想的优势依旧是车卖得多且贵,有这新势力车企里最好的营收和正向现金流,能够支撑背后巨大的算力支出。

郎咸朋说:

我们预计,如果做到 L3 和 L4 自动驾驶,一年的训练算力花销得到 10 亿美金,将来我们拼的就是算力和数据,背后拼的是钱,还是盈利能力。

当端到端模型替代了传统智驾逻辑「感知 — 规划 — 控制」里的大部分工作时,理想相关智驾团队的最花力气的工作也集中在了「一头一尾」,头是数据,尾是验证。

除了端到端模型和 VLM 视觉语言模型这两个快慢系统之外,理想内部还有一个系统三,称之为试验模型或者世界模型,本质上这是个考试系统,来考核整个智驾系统的水平和安全性。

郎咸朋把这个考试系统比喻成三个题库的集合:

  • 真题库:人在路上驾驶的正确行为
  • 错题库:正常的测试和开车过程中,用户的接管,用户的退出等行为
  • 模拟题:根据所有的数据,举一反三,针对特定重复问题,生成虚拟类似场景测试

比如前面提到,想要智驾开车拟人化,像老司机,那么这个真题库的驾驶行为,就得是老司机的驾驶行为,理想试验模型里的「真题库」选取了内部评分 90 分以上的司机驾驶行为,这个群体只占理想汽车司机里 3% 的比例,会看他们驾驶的平顺性,驾驶的危险程度等等,比如司机经常开出 AEB 自动紧急刹车,那他的驾驶行为就太激进了。

经过了试验模型的大量测试之后,还会有一个「早鸟用户」的测试版本,这就是有上千辆用户车获得新的智驾系统版本,以无感知的「影子模式」在真实场景和道路里去做真实的验证和测试,这比任何车厂的测试车队规模都大。

这些千人早鸟用户测试验证的数据,又会自动回传,自动分析,自动迭代训练,进行新一轮的测试和交付。

也就是说,数据获取,模型训练,试验考试和用户交付是一个充满了自动化循环逻辑的过程,人的参与度其实非常少。

按照郎咸朋和贾鹏说法,上到「端到端+VLM」之后,行业到了一个接近无人区的地方,这里既有暂时看不到这套系统能力上限的兴奋感,当然也有必须要务实的部分,比如目前只让端到端模型输出轨迹,轨迹之后的控制还需要安全兜底,再比如关于算力的思考:之前需要堆工程师数量,往后得堆显卡的数量。

没有算力,都是空想。

没有利润,算力也是空想。

再聊一下「终极答案」:理想,特斯拉和 OpenAI 的殊途同归

正如马斯克一再强调「特斯拉是一家 AI 和机器人公司,而不仅是一家汽车公司」一样,在采访中,郎咸朋和贾鹏也把理想汽车比喻成装在轮子上的机器人,也聊到了人形机器人等具身智能载体在用「端到端+VLM」的框架的应用雏形。

特斯拉的 Optimus 机器人承载了马斯克更大的愿景,当然也是 FSD 的另一种载体,因为 Optimus 机器人释放出的信息还相对较少,但它确实拥有「端到端」模型,依靠本机的摄像头和传感器输入环境信息,然后直接输出关节控制序列。

另外,OpenAI 和英伟达投资的 Figure 机器人刚刚发布了旗下的第二款人形机器人 Figure 02,并声称这是「世界上最先进的 AI 硬件」,其中 VLM 视觉语言模型是其重要能力。Figure 02 的头部、前躯干和后躯干各配备六个 RGB 摄像头,能够通过其 AI 驱动的视觉系统来感知和理解物理世界。在官方的描述中,Figure 02「具有超人的视觉」。

当然,它自然也有 OpenAI 提供的大语言模型来和人类交流。

颇为类似的是,Optimus 机器人在特斯拉的车厂里开始打工(也是训练),而 Figure 02 也在宝马的车厂里进行测试和训练,都能够完成一些简单的工作,并且都在不断进化。

虽然理想汽车,特斯拉 Optimus 机器人以及 Figure 机器人看起来相关性不大,但一旦深究起来,底层的技术逻辑,以及关于 AI 的思考,确实殊途同归,这也是「终极答案」的由来。

我们谈了几十年的人工智能,重点终于从人工,转移到了智能。

在命运的塑料大棚里,每棵被喷了过多农药的白菜心中,都曾经有一个成为无公害有机蔬菜的梦想。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


理想的生活

By: dimlau
10 July 2024 at 16:27

小时候看电视剧,里面各行各业的角色,都对自己正在做的事情特别当回事。比如说片儿警吧,总见他们一边说话一边整理警服,一刻也不愿多耽搁似的,东街转一圈西家回个访;还有老师,不光是电视剧里,现实中成绩不错但有些顽劣的我,也真的被老师叫到办公室去从头至尾被监督着写过作业。可如今,少见把工作当志业的人了。

可能有人会因此得出错误结论,认为过去人们都穷的时候,生活得才能那样淳朴。我不想用什么地方的人既富裕又生活得恬静来反驳——因为这样就难免要陷入爱不爱国、是不是外国走狗的无聊争辩当中去了。过去之所以有那种生活状态,难道不是因为人们心中有希望吗?每个人都不单相信,而且眼见着自己和身边的人,通过踏踏实实地生活和工作,越来越好了起来。而如今,人们心中的希望减弱了,如果不是已经绝望的话。

所以,当我在网上看到几乎全体中国人每天都要吃的食用油出了问题,却还有人悠哉悠哉地评论说「中储粮的油本身又没问题」,仿佛是在讨论远在天边和自己毫无关系的事,我在出离愤怒的边缘突然又释然了。这些人,如果有权利去为自己的健康讨要说法,如果有权利要求涉事企业,即便是央企,站出来低头认错、道歉并接受法律制裁,甚至有权利要求获得经济赔偿,他们是不会对自己的受伤害如此淡定的,他们也不会故作理性实则冷漠地说责任在运输司机。然而,现实是,他们已经在过往的经历当中消磨掉了这些原本正常的、支撑着人之为人的、被叫做希望的东西。虽然是自己的生活,但却又好像全都是束手无策的事情,那就冷眼看吧——这些人大抵如此。

虽然都是可怜人,但我还要说,这就是人们经常提及的:平庸之恶。洞庭湖堤坝的溃烂又何尝没有平庸之恶的影响?上游强降雨不是没有天气预报,堤坝防护在这个季节理应有应急预案,可现实情况是,身在其职的人似乎并没着急,堤坝孔眼冒水还是放牛的人发现的,而所谓的应急措施,即便我这种非专业人士也一眼就能看出缺乏常识之处……这是有多少人在冷眼看啊!

多想象一下自己心里的简单的理想生活吧,或许只是踏实工作换得衣食无忧、体面有尊严,或许只是人与人之间相互关照……到底,是什么让我们对自己的生活束手无策呢?是什么挡在我们和理想生活之间呢?

fin.

「也许,去拍纪录片吧?」

By: Steven
11 December 2023 at 19:22

昨晚,跟筱烨从宠物医院回来,走到楼下时她问我:「假如不需要为钱发愁了,你会去做什么?」我脑海里先是划过各种不确定的数字,一千万?八千万?三个亿?还是 5000 亿?

多少钱能算自由?拥有多少不用发愁?

我一直觉得自己这辈子的目标,是做出一些能对人有益的东西。作为工业设计师,我觉得我的这个身份是充分满足了我从小到大的愿望的。但是,这个愿望在成为设计师之后,就停滞不前了。我至今也没有做出能令自己满意的,能够称之为「好作品」的对世界有益的东西。

我其实清楚,这不全是我的问题。

能力我当然自信是没问题的,但远不够出类拔萃到可以被称为天才的程度;时代的机会其实并不少,我亲眼见证过的都不胜枚举,设计师的机遇是多的,即便不是我,我也不会否认这个时代是对设计师友善的;个人的运气不是可以评价的部份,我认同王德峰教授的观点,人到三十得知命认命,这不是说要被生活锤打成老牛,是知道自己寸长寸短在哪里。

曰「六亲无靠,大器晚成」,便不强求。

但无论何时,如果以不愁开销为前提考虑未来想做的事,我冒出的总是「回到舞台」「专心写作」「做慈善性质的设计」这一类事情。因为,我觉得那是我的「欲望」所在。

「也许,去拍纪录片吧?」

这句话说出来时,我自己也惊愕了。

我知道我考虑过这件事,但我从来没有把它上升到「后半辈子的目标」这样的高度。筱烨问我是不是想给自己留下点什么,我说:「不是的,我不是想给自己留下点什么,我是想给这个世界留下点什么。」这三四年间,我渐渐地把「自己」从欲望和野心中拿出来了。前几个月,@两个皮蛋的初号来找我聊天,席间,我说了一段话,大意是:

我现在只在乎我那些想法是否传播出去了,是否影响到了那些真正有影响力的人,大的媒体机构也好,数码科技博主也好,人文艺术博主也好,只要他们能从我这里了解到真正的设计是什么样子的,不是陈词滥调的刻板印象,不是动辄灵感来源和像这个像那个,那么,我写的文章和做的视频就有意义。我作为个体是否有足够大的影响力,没那么重要,但我能作为一把种子撒向远处,这比我短暂的一生本身重要得多。

这不是浪漫化,而是彻底的实用主义。

作为工业设计师从 05 年工作到现在,设计和制造了多少东西,它们的生命周期是多长,归属何在,我大概是知道的。造物是人类的特权,因此敢称万物灵长。可人造之物不永恒,要么是在岁月中破败的石块建筑,要么是长久不化的塑料垃圾,都是昙花一现,不得善终。但凡是实体,都有消亡的时候。这个周期,绝大多数时候是比人类个体的平均生命周期短的。

但文明可以绵延数千年,通过记录和记忆。

因此才会有那个笑话:如何成为百万富翁?去拍纪录片。你会从千万富翁成为百万富翁。纪录片就是很烧钱,不管是记录人类还是地球的故事,这种记录形式一定是需要耗费巨大劳动价值的。正如人类练习内观,从亿万斯年的衍化中诞生的智能生命,觉察到自身的存在,并对自身进行观测和记录,这也同样耗费了巨大的资源。只是,我们作为人类的个体,通常难以察觉到这一现象。但你察觉到时,就是一次生命的奇迹。

假如我们是另一些生命创造出来的,那就是更大的奇迹。

当然,我并没有要拔高自己想拍纪录片的想法,只是在陈述其拥有远高于「设计」「话剧」「写作」之类个人私心的观点。在我能力和命运的射程内,大体上只能追寻上述三者,并且大概率在有生之年都难以企及我所认为的高峰,但如果让我以「无须在意代价」为前提来畅想的话,那句不经意透露的想法向我指出了更高的云上有什么。

我可以化归尘土,但尘土上会有万物。

❌
❌