7月27号,蔚来举办了一场技术发布会,有芯片亮相,也有整车操作系统发布,有Nio Phone的正式上市,也有智能驾驶世界模型NWM的展示。发布会后的第二天,虎嗅汽车来到蔚来位于上海漕河泾的办公室,和蔚来智能驾驶副总裁任少卿聊了两个小时。
除了最近热门的端到端技术以外,任少卿从自动驾驶的本质出发,分享了很多源头上的思考。以下为虎嗅汽车与任少卿的对话:
虎嗅汽车:去年NIO IN发布会就展示了端到端技术,而今年发布了NWM世界模型,那这个模型具体是怎么搭建的?意义何在?
任少卿:我觉得解释这些问题之前,可能要先说一下,为什么会有端到端这件事。因为我是做智能驾驶行业的,就发现行业里所有人都在说端到端。但如果你换一个别的行业就会发现,没有人说这个事。比如说机器人行业,就没有人讲这个事对吧,因为机器人必然是端到端,端到端的本质就是我用一个模型去解决一个问题嘛。
那为什么自动驾驶有端到端和非端到端的问题呢?因为智能驾驶本身比AI开发得早,很多年前的模型还没有现在这么成熟,一个模型解决不了这么复杂的问题。举个例子:就和流水线造车一样,过去造一个车尾部的铸造件,因为没有那么大的一体压铸机,那就把它拆成一个个零件。先做一个零件A,然后再做零件B,最后再把A和B拼起来。智能驾驶也一样,过去如果没有办法把这个复杂的问题一次性解决,那我们就把它变成了流水线,变成了一个一个工序。但就像压铸机一样,你就要定义,A和B如何拼接起来?非端到端就是这个原理。
那为什么现在又要做端到端呢?其实跟压铸机也很像,现在有能力做成一体式的了。过去分成两个件,其实会产生一些问题,比如说中间有接口,其实从铸造的角度来说,你接口的强度就没有一体压铸的那么强,还会有额外的损耗。那从模型的角度是什么呢?你如果有接口,这个接口就要定义得相对更清晰。一体式压铸,不是只把零部件压上就结束了,还要定义接口有几个焊点。模型大概意思也是这样,我要定义两个部分之间有多少个“焊点”,这个过程中实际就会造成信息的损失,压铸的话就是造成强度的损失,模型上也会造成信息的损失。
任少卿:什么叫信息的损失呢,举个例子,一个最简单的开车场景下,智能驾驶的工作逻辑是怎么样的呢?前方遇到一辆车。首先要有一个感知的模块,这个感知的模块要定义前面这辆车,那怎么描述它的位置、速度?最简单的方式大家都能理解,就是画个框,然后有距离、长宽高、速度。第二步再写一个规划的模块,比如说当前方车辆距离我只有10米时,如果速度比我低,那我就要减速制动了,大概是这个逻辑。
但实际研发时,一定比上述描述要复杂得多,当视线足够清晰也就是你能看清前方的时候,这件事情可能问题不大。但如果遇上下雨天气,实际上你也看不清楚前面的车到底距离有多远,可能是 5 米,也可能是 10 米,此时一定要定义模型给出个结果,那它怎么给呢?可能给个平均值或者给个中位数,也许是 7 米。如果实际距离是5米,但此时可能就离前车很近,很不安全。而如果实际距离是10米,那就造成跟车距离很长,影响体验。这里面,很多都是不确定性的信息。
位置的一阶量距离,位置的二阶量速度,位置的三阶量加速度,这些不确定因素还会叠加起来,高阶量因素从简单统计上来说,没有办法描述,所以就产生了信息流失。而非端到端的中间需要有人工的处理。就跟前面举例的铸造件一样,中间两个件可能要靠个机器人或靠个人把它焊起来,这个过程中就产生了额外的工序和人工消耗。放在制造业来说,倒还好,可能工人培训一段时间后,比较容易把产能提升上去。但是自动驾驶算法需要的算法工程师,本身很难规模化。
所以会有这么两个问题,就是非端到端,第一有信息损失,第二个要加人工处理的逻辑在里面,整体的开发效率就会降低。如果是AEB的问题,处理一些标准 case 还好。但如果是真实场景,就会有无穷无尽这种 case,人工根本处理不过来。
自动驾驶很多年前没有能力去做一个模型,所以做了这个流程的拆分,因为做了流程的拆分,所以引入刚才第一个信息损失的问题。第二个难点,就是解决人员去做针对 case 的开发,很难规模化,分工冲突就是问题。而到了最近这几年,模型的能力也变强了,那大家就想说,当时因为模型能力不够,所以有了这些历史的包袱,现在可以扔了。
比如现在很多其他科技领域的项目,上来就是一个端到端,因为能用一个模型去解决一个事情,没有什么比这个更 fancy 了。端到端和非端到端,本质的差异和逻辑,就是这样。
虎嗅汽车:我们体验了最新版本的智能驾驶,升级之后跟车距离会调得非常长,会影响用户实际体验。蔚来基于一个怎样的考虑出发来这样设计,是由研发同事定义,还是产品同事定义的?
任少卿:每个版本都有微小的变化,但每个人的感觉其实差别会很大。比如说我们感觉可能就没什么特别大的变化,那有些用户就比较敏感一些。实际上现在也是数据驱动的去做迭代,数据驱动之后会有一些微改,基本逻辑就是传达这个数据。但我们也在不停地在加新的数据,每一个版本出来可能都会有些场景进行微调。
过去的智能驾驶,都是固定的逻辑,其实比较容易。前车是什么速度距离,我就保持多少速度和距离。无论什么场景,都是很机械的反应。
现在的做法其实是 motion plan,数据驱动,丢进去各种各样的场景,让它去学习对于距离还有速度的掌控。我们会从中挑开得比较好的专业数据,把数据放进去让模型继续去学。但某种情况下,不同的场景可能体现的结果差距就多了。可能周围车多一点,就跟得近一点,周围车少一点,就能跟远一点。所以这个过程中,数据还会持续往里加,持续调优。
虎嗅汽车:NIO IN展示这个世界模型,可能是基于前三秒去想象未来两分钟发生的事情,你怎么能够确定他思考出来或想象出来的东西是合理的?
任少卿:关于预测,传统的方法其实有很多种,第一种就是短时间预测,比如我输出一个接下来几秒钟的可能轨迹。就像我们的模型里面,最后输出一个规划轨迹,其他车也输出一个预测轨迹。这个模型要解决的,就是在当前时间点,自己的车在接下来 3 秒钟或者 7 秒钟怎么开。其他的车接下来 3 秒钟或者 7 秒钟怎么开。但它是一个独立时刻,在某种程度上,就只有这个独立时刻的信息。但现在我们希望能够推演的更长,而且希望推演的这个过程是有交互的。
比如说其他车,我预测它有可能cut in(切入变道),如果它 cut in 的话我就变道,如果它不 cut in,我就不变道,就会有这样一些交互的逻辑。实际上,现在有两种做法去做这些交互和预测。第一种做法是我们去年做的,跟下棋一样,你可以理解成那个AlphaGo。它的逻辑就是,如果我的白子落这,(对面)黑子落这,那我下一步白子再落哪,它黑子再落哪。我下一步落白子有 200 种可能性,它黑子也有 200 种可能性。如果都看未来三步棋,就有 200* 200* 200种可能,这是第一种方式。
另外一种,就是期望模型自己去学习弈棋能力。刚才说的第一种点,你自己想 200 种可能性,别人再想 200 种可能性,这相乘起来是4万,但其实这4万种可能性里面,有绝大多数是根本不可能存在的。所以4万种可能性就要把它压掉,把99%的可能都干掉。这实际上是一个收缩的过程,有一个树分枝的过程,然后有一个砍树枝的过程,接着有个再分枝然后再砍树枝的过程,这两件事情让模型一起做了。那我们说模型做这个想象和砍树枝的过程,就是要模型得想得对,想得合理,把那些不合理的干掉。
还有一点我们想分享的就是:我们在城区里面开车往往都会遇到很有意思的事情,大家都知道有绿波带这个东西。连续碰到两个红灯之后,当你看到前方第三个红灯的时候,起步就不会开那么快了。因为开快了,一脚油门上去,然后你还得一脚刹车下来,自己给自己找罪受。目前还没有任何一个自动驾驶的算法可以做到这种长时间预测(未必是预测红灯,也可能是前方出现的未知拥堵),这里需要一个持续几分钟的逻辑。那怎么让模型干,这就需要拟人性。
虎嗅汽车:世界模型展示的更多是我们观察它的一个过程,但是怎么去用人工干预去训练它?
任少卿:回到世界模型这个训练过程,先说我们希望他干嘛?第一个他能想象,第二个他能推演。关于推演,新手一开始学开车的时候,从一个辅路进来,那离前面的路口可能 有100 米,但是要左转,需要横跨四个车道。老司机的反应就是直接开过去得了,但新手一定会思考很多:后面的车速快不快,这么过去行不行?能不能变道?这就是推演的过程。
那模型也需要这么做,只是现在模型用比较显性的方式,给大家展现了这个过程。前面说的端到端,非端到端,这都是局限于自动驾驶这一件事情上。但我想说:世界模型不局限于自动驾驶,我们实际上就想让一个模型,它无论是开车也好,还是一个机器狗在工厂里溜达也好,还是一个机器人在家里干活也好。实际上就是希望有一个模型,具备通用能力,去学会怎么在真实的四维时空里面去高效、安全地运动。
虎嗅汽车:李斌接受采访的时候,讲了Robotaxi 这个商业模式不是那么 make sense。在他看来,自动驾驶更大的意义应该是两点:让驾驶更安全、更加舒适。你怎么看自动驾驶的终极形态和商业化落地?
任少卿:对,我们很早就认定了自动驾驶真正的两个价值:第一个是解放精力,第二是减少事故。就像你说的,第一个是让人开得更轻松,第二个是开得更安全。
这两点,都需要有新的价值来支撑,开得更轻松的价值,就是说我城区开得更好,当然这个对于宣传口来说,其实也比较难传播。所以解放精力这个事和开得更轻松这事,可能就是接下来的L3智能驾驶更能体现出来。
开得更安全这个角度,就是减少事故。之前大家都是各种发小作文发视频,说白了发了那么多视频,那真实案例到底怎么样?demo 肯定都能做,都能找出来好的视频。但我觉得关于安全,我们自己的追求一定是实质性减少交通事故。什么叫实质性减少事故?比如说,我们几十万车主,去年事故率降低了70%,全量的线%。这个数据是要有 solid 的,能被证明的数据。
任少卿:从去年就开始,我们已经详细地去做事故的分析,这不是一件容易的事。首先,第一个事情是:你想知道事故细节其实不容易,我们有气囊报警提示,但是气囊报警只占所有事故的0.3%。第二个是:我们去做 IMU 的检测,座舱不是有那个自动传感器,车如果产生撞击,那我去看看它是不是事故。但传感器监测,也只能获取15%的事故数据,还有85%的事故你不知道。IMU检测传感器需要有一个阈值,不能说人在车上踩一脚产生震动,我们就拿出来看一看。所以我们把最新的OCC 感知加进去,这个能把事故监测提升到 95% 以上。
首先得先知道事故的发生,第二步要知道事故的类型,我们实际能对所有全量的事故去分析类型。第三步当分析完事故类型后,需要判断它的损伤有多大,这里又包括单方事故损失和三方事故损失。
有了这些系列分析后,我们才知道还需要做哪些功能,怎么能实质性地减少事故?实际上,最新版本的智能安全辅助功能上线后,我们从保险端数据来看,事故已经往下走了。当然目前时间还比较短,我们会累计足够多的数据后,再跟大家说这个具体数字。这就是我们想做的事,必须看到群体的事故报险数在往下走。关于驾驶安全这个事,我们自己的认知就是:大家要拿出实际数据,你到底减少了多少事故。
和记平台
虎嗅汽车:蔚来这家公司,芯片、操作系统、自动驾驶等等很多事情都自研。在你看来,自动驾驶时代,OEM 和 Tier 1 (一级供应商)之间的关系会被重构吗?到底是每家 OEM 全都自研,还是多数去依赖 Tier 1,还是这两种方式兼而有之?
任少卿:短期内可能会是最后一种,对于自动驾驶的研发,有的 case 需要 1, 000 小时、1万小时的测试。作为一级供应商,肯定不如车企更容易搞到这么多辆车,我们可以让量产车去反馈问题。而智驾的供应商几乎没有拿到最新数据,即使最大的几个公司也一样,这里就会有它的瓶颈在。而智驾的研发越往后,越不可逆转的趋势就是数据化,数据越多,越能产生新的体验。
其实对于主动安全的开发也一样,100万公里的测试很正常,一公里三五块钱的成本也很正常,这都算比较低的,在国外更要高很多。所有这些数据,还要上传到云端硬盘保存,又是一笔很大的成本。所以很多传统的主动安全供应商,是没有更新逻辑的,就是因为策略成本太高。最后就只做标准场景,多余的场景别做,做了没法验证,没法迭代。其实这个过程中,实质性的事故还是没有减少。
我还想分享一个点就是:中国车企今后想做全球化,技术含量越来越高,数据要求越多,其实成本也会越来越高,不见得会有这么多玩家在智能驾驶这个领域了。我认为智驾这个领域肯定是要相对更规模化,然后要收敛,只是说最后收敛到什么程度。最后比拼的是:大家在新的基于模型、基于数据的这种范式下,谁能跑得更快、做得更好、成本更低,最后逐渐整合。
虎嗅汽车:对于能源战略,蔚来开放换电联盟给其他车企。蔚来的智驾方案,以后也会考虑类似的策略开放给其他玩家吗?
任少卿:我觉得会有这个过程,如果有主机厂对我们的新方案感兴趣,我们其实是有多套方案的。4orin芯片,单orin芯片的,纯视觉做城区等等方案。单orin纯视觉做城区的方案,应该目前市面也没有,我们会是第一个。那相对来说,性价比就比较高,后面我们还会有神玑NX9031。
我为什么愿意做这个事?回到前面说的,自动驾驶一定会向大数据驱动发展,有更多的车,有更好的数据闭环,那你就有更好的竞争优势。基于蔚来体系,我们的数据闭环绝对是全球顶级,那就可以去赋能更多车型。