核心亮点:提出LFG无标签教师引导框架,基于无姿态在线第一视角驾驶视频学习自动驾驶表示,结合前馈架构与轻量级自回归模块,利用多模态监督信号联合预测点图、相机姿态等信息,仅用单目相机就在NAVSIM基准测试中超越多相机和激光雷达基线,可作为视频中心的自动驾驶基础模型
原文链接:https://arxiv.org/abs/2602.22091
项目链接:暂未公开
核心亮点:提出LiREC-Net无目标学习型多传感器标定网络,在统一框架中联合标定激光雷达、RGB和事件数据等多传感器模态对,引入共享激光雷达表示以减少冗余计算、提升效率,在KITTI和DSEC数据集上表现优于双模态模型,为三模态标定建立新基准。
原文链接:https://arxiv.org/abs/2602.21754
项目链接:暂未公开
核心亮点:提出HorizonForge统一框架,将场景重建为可编辑的高斯Splats和网格,支持细粒度3D操控及语言驱动的车辆插入,结合噪声感知视频扩散过程保证时空一致性,同时提出HorizonSuite基准用于标准化评估,相比现有最优方法,用户偏好度提升83.4%,FID指标提升25.19%
原文链接:https://arxiv.org/abs/2602.21333
项目链接:https://horizonforge.github.io/
4. 论文标题:NorD:一种无需推理即可驱动的高效数据视觉-语言-动作模型
核心亮点:提出了NORD(No Reasoning for Driving) 方法,在仅使用不足 60% 数据且完全无需推理标注、Token 量减少 3 倍的条件下仍取得具有竞争力的性能。研究发现标准 GRPO 算法在小数据、无推理标注的训练场景中受难度偏差影响难以有效提升效果,为此引入Dr. GRPO算法缓解该问题,最终在 Waymo 和 NAVSIM 数据集上验证了 NORD 的有效性,在大幅降低数据与标注成本、消除推理开销的同时,实现了更高效的自动驾驶端到端系统。
原文链接:https://arxiv.org/abs/2602.21172
项目链接:https://nord-vla-ai.github.io/
5. VGGDrive:利用跨视图几何接地增强视觉语言模型以实现自动驾驶
核心亮点:提出VGGDrive架构,将成熟3D基础模型的跨视图几何接地能力融入视觉语言模型(VLMs),解决VLMs缺乏跨视图3D几何建模能力的问题;引入即插即用的跨视图3D几何使能器(CVGE),通过分层自适应注入机制衔接3D与2D视觉特征,在5个自动驾驶基准测试中提升基础VLM性能。
原文链接:https://arxiv.org/abs/2512.16919
原文链接:https://arxiv.org/abs/2512.06112
原文链接:https://arxiv.org/abs/2512.20563