首页
搜索 搜索
当前位置:首页 > 快讯

「开发者说」第二期|视觉感知——从2维到N维

2023-08-30 12:15:46 哔哩哔哩

介绍


(资料图片仅供参考)

本次内容将会用大致三个部分来介绍视觉感知算法团队在视觉感知领域的一系列探索、思考以及对未来的展望,第一部分介绍视觉感知和计算机视觉的基本概念以及它们在自动驾驶领域中扮演的角色,第二部分则会重点介绍从方案到BEV感知方案的演化以及各个方案的特点,第三部分则会阐述我们正在尝试以及未来将会探索的一些方案。

01 视觉感知与自动驾驶

视觉感知是利用接受到的周围世界反射的可见光来理解和解释世界的能力,比如:区分、定位、识别周围环境的物体;自然界的大多数动物都具备类似的能力。我们使用计算机视觉,利用计算机算法与软件去(模仿人类/动物)进行视觉感知,从而达到可以将视觉感知能力迁移至自动驾驶等工业应用领域。

自动驾驶对周围有着极强的感知需求,需要感知包括但不限于:动/静物体(类别/位置/大小/姿态/速度等)、路面标识(车道线/路面标识等)、交通标识(交通灯/标志牌/其他交通参与者的信号等)、地形样貌(路沿/曲率/坑洼/占有等)等等。视觉感知相比其他感知方法则更贴合车辆驾驶原本的设计初衷,并且摄像头作为一种便宜、耐用的元件可以提供大量丰富的信息以支持车辆对周围的全方位感知。但图片因为对深度信息天然缺失的特点,导致我们从图像中恢复出完整3D信息的难度很大,因此纯视觉感知系统需要更加强大的算法与更多的数据去支持相应功能。

02 从2D到BEV视觉感知

我们的第一代方案的直接感知空间在2D图像上,我们使用神经网络感知目标在2D图像中的位置并预测对应的细节属性,使用这些在图像上的感知结果来结合人为设计的先验推理得到目标在3D空间的位置,这种方案有着数据标注获得难度低、数据可复用性高、可迁移性强等特点,但是因为从2D到3D的转换以及多个视角的融合大量依赖人工设计,所以此方案有着3D感知精度低、corner case难以解决等问题。

为了移出2D到3D的人工设计从而提高3D信息的估计精度,我们的第二代方案使用神经网络直接估计单个镜头下目标的3D信息从而提高我们的3D感知精度,因此这一代方案基本解决了单个视角下3D信息感知的精度问题,但是多个视角之间感知结果的融合依然依赖人工规则并且对相机标定精度的鲁棒性有限。

为了进一步克服这两个明显的缺点,我们将融合多视角的过程进一步融入神经网络让感知模型具备直接在环绕车身的BEV空间下表示这个世界的能力,在成功构建出BEV表示后,我们用得到的BEV表示进行包括但不限于:目标检测、目标跟踪、车道线检测、空间占有预测、多模态融合等一系列可以直接在BEV空间下输出结果的感知任务以更好地提供丰富与精确的感知来满足下游使用。从2维图像空间到环绕车身的3维BEV空间,我们的方案在进化中一步步将感知空间的维度提高,并不断移除中间各个环节人工设计带来的偏置。

03 更高维度

我们可以继续提升感知的维度吗?

一个正在探索的方向则是用模型融合多帧过去时刻的3D感知表示,从而形成更加鲁棒的4D时空感知,在提升模型当前感知能力的情况下赋予感知模型估计速度、加速度、跟踪、轨迹预测等高阶感知能力,从而减少我们在时间这个维度融合信息所带来的人工设计偏差;另一个我们正在迈向的目标则是在当前的感知基础上进行更加抽象的推理,我们可以尝试让模型学习周围交通环境中道路目标之间的拓扑关系,这些目标通常包括但不限于:车道线、路沿、地面标识、交通标识、交通信号灯等,这些目标在交通环境常常会与其他周边的物体形成复杂的关系进而向交通参与者提供必要信息,如果模型能在感知这些物体独立存在的基础上能更进一步估计他们之间的关系,那将会极大的减少人工设计相关规则的复杂度与误差。

从我们一路摸索过来的经历来看,不断地将人工设计环节转换为可学习模型的一部分从而进行数据驱动的方案迭代是一种趋势,我们也相信数据驱动是迈向端到端自动驾驶的一条可行道路,结合在自然语言处理与计算机视觉领域冉冉升起的大模型潮流来看,大量无标签数据自监督预训练结合少量有标签特定任务数据的有监督微调是一种主流范式;其中自监督预训练是这套范式的难点,它的最终目的是为我们提供一个无偏的通用表征来表示我们周围的世界,我们将它称为世界模型,我们希望世界模型可以通过预测世界本身来获得这种通用的表征从而避免各种具体任务带来的先验偏置,当我们得到一个强大完备的世界模型时,我们可以使用它作为基础模型进而微调具体任务,从而得到更加鲁棒、泛化、准确的性能。

参考

[1]Stanford CS131: /teaching/cs131_fall1314/lectures/lecture1_introduction_

[2]Hu, Hou-Ning, et al. “Joint monocular 3D vehicle detection and tracking.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.

[3]Xie, Enze, et al. "M $^ 2$ BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified Birds-Eye View Representation." arXiv preprint arXiv: (2022).

[4] Wang, Shihao, et al. "Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection." arXiv preprint arXiv: (2023).

[5] Wang, Huijie, et al. "Road genome: A topology reasoning benchmark for scene understanding in autonomous driving." arXiv preprint arXiv: (2023).