数千行代码实现端到端智驾 留给传统自动驾驶公司时间不多了

热热闹闹的2024北京车展期间,商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚,给出了这样的新判断。

今年,高阶智驾到了普及时刻。自动驾驶也到了“淘汰赛”阶段:功能上卷“无图”,成本层面卷“千元级”,并且还要“标配”,技术上则竞争“端到端”、“数据驱动”。

王晓刚认为,行业热议的这些概念不是突然流行的,这一切不过是AI技术演进的必然结果。

而商汤早在2018年,就已经在如今的竞争局面做储备。

现象和体验:车展上商汤绝影的新产品新技术

北京车展今天刚刚开幕。智能车参考粗略统计了一下,整个车展上,大约有八九十款不同的品牌、车型,都搭载了商汤绝影的技术或方案。

在整整一年前的上海车展,这个数字还是三四十款。

这些技术和方案,都是已经量产交付给用户的。

比如大热的小米SU7,之前官方展示过一个引起热议的交互场景:

用户指着前方的一辆车,询问语音助手这是什么品牌什么车型,车机立刻做出了准确的回答。

实际上,背后是绝影的一系列大模型协作展现出的能力。比如大语言模型准确理解用户指令及给出相应回答;多模态大模型则将视频、声音、图像等等数据相关联,形成环境理解、逻辑思维和内容生成能力。

智能驾驶方案上,广汽埃安旗下主打实用性的中型SUV LX Plus,搭载具备高速领航辅助能力的ADAS系统,背后的支持,是商汤绝影的环视BEV感知能力和通用目标感知能力。

而商汤绝影的高速领航全栈智能驾驶能力,搭载在新势力哪吒的轿跑新车S上。

已交付量产的成熟方案产品之外,绝影还在北京车展上展示出了更多即将量产上车的“黑科技”。

比如今年苹果的Vision Pro大热,让人们领略到了3D交互的魅力。绝影则推出了两大全新座舱3D交互,包括3D Gaze高精视线交互和3D动态手势交互。

其中3D Gaze高精视线交互将让用户通过眼神控制中控图标;3D 动态手势交互是行业领先的支持动态手势和手部微动作识别的智能座舱技术,能让用户通过手势“隔空”进行各类座舱交互。

两个功能配合,体验几乎就是“Vision Pro”裸眼上车,智能座舱的交互更加符合人类直觉,更自然。

2022年末,商汤提出了行业首个感知决策一体化自动驾驶通用模型UniAD,次年,这篇论文获得了计算机顶会CVPR 2023年的最佳论文。

刚刚在北京车展,商汤绝影宣布这篇最佳论文要“上车”了!

体验方面,潮汐车道对于传统智驾方案来说是很大的挑战,但是端到端大模型在经过相关数据的训练之后,可以对指示文字、图标以及车流变化等外部数据进行解读并理解这些信息,从而主动变更路线,驶入或离开潮汐车道。

又比如乡村道路上经常碰到这样的场景:在对向来车的情况下,前方有行人在跑步:

在确保安全的情况下,搭载UniAD的测试车先加速向左行驶绕开行人,而后快速向右打方向避开对向来车,顺利通行。

之前的智驾产品在有地图信息的情况下也能机会能通过,但成功率不敢保证,因为背后是一套复杂规则定义的“被动触发”机制,但路上情况稍有不同,系统就无计可施。

UniAD不再依赖人工穷举的感知“白名单”,规控层面也不再是传统手写规则,通过数据学习和驱动,AI司机仅凭摄像头的视觉感知,能够应对城区甚至是无标线和交通标识的乡村道路等复杂环境。

智能驾驶今年开启了铺天盖地的时代,功能上高速NOA成了标配门槛,价格也下探到了15-20万元的车型。

但热闹之下,最近却有不少行业技术大牛都发出了相同的警告:

必须要认真考虑技术路线了,以前基于规则的技术栈能走多远,是个问题。

这背后是智能驾驶算法,从以往模块化、规则驱动,向端到端的一体化模型、数据驱动演变。

所以,比“上了多少车”更加重要的,是商汤绝影的端到端模型的率先上车,代表着中国智能车行业发展趋势和今后新技术范式。

技术:绝影端到端,「真」在哪?

商汤绝影提出的UniAD,是国内玩家中首个端到端自动驾驶大模型。

而且令人吃惊的是,量产上车的进度,也是最快的。

除了刚才提到的体验优势,UniAD还有4个关键点:

高效开发迭代“纯视觉、纯无图”高阶智驾与生俱来感知决策一体化的真·端到端体量轻,代码量数千行

分别来看,端到端模型能够通过完全数据驱动的模式,将其学到的驾驶能力和技巧迁移泛化到其他场景当中,自主且高效解决行泊场景中新出现的各类长尾问题,具备更快的迭代效率,可以有效降低开城成本,帮助车企更快速实现“全国都能开”的目标。

而现在大家都在卷的“无图NOA”功能,以及很多玩家都在积极推进的纯视觉城市NOA能力,这些都将是端到端模型与生俱来的天赋,因为它只需要导航信息就能把车驾驶到目的地。

这种“纯无图”、“纯视觉”的能力,自然就可以帮助车企降低软硬件成本,彻底告别高精度地图覆盖低、更新慢,以及需要靠激光雷达等传感器冗余才能解决各种Corner case带来的成本难题。

更重要的是,从UniAD的描述中可以看出,其最大的不同就是和人类驾驶思维模式无限接近,主动学习、思考和推理,理解复杂的交通环境,而不是根据不同场景被动触发对策。

怎么做到的?

其实,所谓“端到端”是针对传统技术范式而言的,其中自动驾驶的感知、决策、规控等等互相独立。传感器采集到的数据,需要通过这一系列不同的算法模块,最终才能“变成”操作指令。

并且这样的技术体系中,通常只有感知模块应用AI模型,其余模块都是基于人为定义的手写规则。

每个独立模块之间的信息是逐级传递的,在这个过程中必然会存在信息的丢失和误差,而且前一个模块的误差会影响到下一个,多个模块之间的信息误差会不断累积,进而影响到自动驾驶方案的整体效果。

其次,规则主导的智驾功能,行为上刻板僵硬,面对不同路况不能采取灵活应对措施,导致整个产品不好用、不敢用。

王晓刚表示,Waymo、特斯拉,包括商汤绝影在内,都尝试过对基于规则的传统智驾方案进行优化和迭代,但都无法突破这套算法框架的局限性。

想要从感知开始就实现信息的无损传递,必须要有一个全新的算法范式——端到端算法模型。

目前,市面上不少端到端方案是在感知和决策两个模块分别搭建一个大模型框架,因为这样更容易实现落地。但“两段式”方案的两个模型之间传递的依然是人为定义的显性信息,避免不了信息损失和误差,降低了难度,也拉低了它能力的上限。

商汤绝影UniAD方案则是将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型,实现感知决策一体化,不需要对感知数据进行抽象和逐级传递,“所见即所得”:

将传感器采集的原始信息输入到模型中,然后以自车轨迹规划为准进行指令输出。

返回顶部