CVPR 2021 自动驾驶相关论文解读

论文列表来源：https://zhuanlan.zhihu.com/p/382419598

场景生成

NOTES：在自动驾驶研发过程中，大量的测试不可避免；然而，昂贵的实车测试使得许多的研究人员纷纷关注于仿真测试。传统的仿真测试的基本思路是依据真实数据和人工规则来生成，但是工作量巨大而难以成规模，依赖于机器学习方法的场景生成称为研究热门。场景生成的要点仍是基于真实数据的挖掘，提取出交通参与者的特征，然后采用机器学习方法（概率模型、NN模型等）来自动生成交通要素，其中重要的环节还在于使用有效的评估手段来判定生成内容的有效性和合理性

SceneGen: Learning to Generate Realistic Traffic Scenes
by Uber ATG、中山大学、多伦多大学

基于神经自回归模型的场景生成器SceneGen
考虑车辆状态、高精地图，添加场景元素
采用传感器仿真器可以模拟真实世界场景

Introdution

ego-vehicle：自主车辆
SDV：Self-driving Vehicle，自动驾驶车辆
HD Map：High definition Map，高精地图/高清地图
Traffic sumulation：交通仿真，微观交通流、密度、速度，采用跟车模型，SUMO、CORSIM、VISSIM、MITSIM，仿真模型简单，难以满足要求

仿真交通场景构建可以用来提高和验证自动驾驶车辆的安全和性能(依赖HD Map)
模拟Lidar：扫描真实场景+动态物体添加+合成生成模拟点云
procedural models by inserting rules：“pedestrians should stay on
the sidewalk”(行人走人行道) or “vehicles should drive along lane centerlines”（车辆沿着中心线行驶）, …
procedural models（程序式模型）采用规则来生成交通场景，需要大量人为参数的手动调整，而生成的场景与现实仍然存在content gap
基于机器学习的参数自动调整来生成交通场景：Factor graph
scene distributions（2015）、Bayesian networks（2019）、 neural network（2019）、Unsupervised learning（2020）…
仍然离不开先验知识，难以模拟复杂和多样化的现实交通场景

neural autoregressive model：神经自回归模型，采用因式分解将复杂的联合分布转化为多个简单的条件分布的乘积

Contribution

SceneGen—a traffic scene generation model that eschews the need for hand-crafted rules and heuristics （避免手工规则和启发式算法）

deep generative modeling：深度生成模型，估计各种数据分布

根据SDV当前状态和周围区域的HD Map
SceneGen与传感器模拟进行耦合，生成现实标签数据

输入是车辆状态和HD Map，根据概率模型生成周围交通参与者，包括8个维度信息：类型c（车辆、行人、自行车），二维loc的x和y，边界大小box的w和l，方向角θ，速度vx和vy

生成模型是依次串联生成，后生成的actors依赖于前面生成的actors

模型结构使用RNN（Recurrent neural network），ConvLSTM architecture是LSTM的扩展，两层ConvLSTM和5层的CNN

Learning and Inference

sampling，采样避免交通场景退化，同时拒绝出现collide的actors
training，最大化生成概率模型

实验：选用Argoverse和ATG4D数据集
ATG4D: ATG4D [54] is a large-scale dataset collected by a fleet of SDVs in cities across North America. It consists of 5500 25-seconds logs which we split into a training set of 5000 and an evaluation set of 500. Each log is subsampled at 10Hz to yield 250 traffic scenes, and each scene is annotated with bounding boxes for vehicles, pedestrians, and bicyclists. Each log also provides HD maps that encode lane boundaries, drivable areas, and crosswalks as polygons, and lane centerlines as polylines. Each lane segment is annotated with attributes such as its type (car vs. bike), turn direction, boundary colors, and traffic light state.

Argoverse: Argoverse consists of two datasets collected by a fleet of SDVs in Pittsburgh and Miami. We use the Argoverse 3D Tracking dataset which contains track annotations for 65 training logs and 24 validation logs. Each log is subsampled at 10Hz to yield 13,122 training scenes and 5015 validation scenes. As in ATG4D, Argoverse provides
HD maps annotated with drivable areas and lane segment centerlines and their attributes; e.g., turn direction. However, Argoverse does not provide crosswalk polygons, lane types, lane boundary colors, and traffic lights.

baseline包括 probabilistic scene grammars and graphs，MetaSim
Metrics: the negative loglikelihood(NLL)、maximum mean discrepancy (MMD)
真实场景比较：Real Scenes is simulated LiDAR from ground truth placements

额外信息：交通场景是80m×80m，mixture components的数量是10，Adam optimizer，学习率是1e−4，batch size是16，重复采样10次保证样本具有最大概率

Projecting your view attentively: Monocular road scene layout estimation via cross-view transformation
by 福大、上科大、华南理工、港大

基于单目前视图生成具有道路布局和车辆占用的鸟瞰图
视图转换和场景理解
考虑车辆和道路关联性，设计基于内容感知的判别器

Introduction

相关工作：场景布局估计、3D目标检测、车辆行为预测、车道检测等
HD Map的重建需要预估道路布局和车辆占用情况
HD map重建十分关键，基于Lidar的方法费钱费时，基于视频的方法需要道路分割时视图转换容易失真和内容缺失

BEV：Bird’s-eye view，鸟瞰图，根据透视原理，用高视点透视法从高处某一点俯视地面起伏绘制成的立体图。简单地说，就是在空中俯视某一地区所看到的图像，比平面图更有真实感。

传统做法是进行透视变换、坐标转换
深度学习方法可以采样深度CNN来推断不可见的区域

Contribution

输入是单目前视图，需要进行分割和映射
GAN-based 框架估计道路布局和车辆占用
cross-view transformation在生成网络中发挥作用，包括Cycled View Projection (CVP)模块来关联表示域之间的视图特征，Cross-View Transformer (CVT)处理映射后的特征

AdvSim: Generating Safety-Critical Scenarios for Self-Driving Vehicles
by 多伦多大学

adversarial 框架AdvSim来生成面向Lidar自治系统的安全场景
AdvSim以一种物理上合理的方式修改参与者的轨迹，并更新激光雷达传感器数据以匹配受扰动的世界
模拟传感器数据，获得safety-critical（安全性至关重要）对抗场景

Introduction

辨识SDV系统的失效场景十分关键
依靠穷尽搜索所有可能性场景来辨识的方法是需要大量计算，不太现实
场景变量包含车道拓扑、参与者配置、轨迹、速度、背景等组成要素
传统做法是依赖人工的半自动化场景生成，包含1到2个与SDV交互的actor，往往不涉及并道和左转
依赖人工费时费钱，难以规模化

传统方法根据真实actors来考虑运动规划，而实际上很多对抗场景涉及的actors的位置和轨迹是难以确定和预估的
采用基于图像方法来实现end-to-end自动系统，其生成的对抗场景往往是小规模且简化的，无法精细控制轨迹

Self-Driving System: ALVINN、scalable learning methods、interpretable neural motion planners

Safety-Critical Scenario Generation:场景参数优化、搜索算法来辨识参数、评估方法来设置参数

Physically Realizable Adversarial Examples: image space、color distortion、