MTGS:多轨迹高斯溅射技术突破自动驾驶场景高精度重建瓶颈

MTGS方法通过融合多轨迹数据,解决了自动驾驶场景重建中视角局限和动态失真问题,实现厘米级细节还原和实时渲染。

原文标题:细节厘米级还原、实时渲染,MTGS方法突破自动驾驶场景重建瓶颈

原文作者:机器之心

冷月清谈:

上海创智学院联合香港大学等机构提出MTGS(Multi-Traversal Gaussian Splatting)方法,旨在解决自动驾驶仿真场景重建中视角局限和动态失真问题。该方法通过融合多轨迹数据,智能整合不同轨迹采集到的几何信息,实现对真实道路细节和环境变化的超高精度还原。MTGS方法将场景元素集合在一个异质图中,分为静态节点、外观节点和瞬态节点,分别处理静态背景、光照差异和移动物体。此外,该方法还利用激光雷达点云颜色作为“锚点”,对齐同一轨迹内部不同相机间的外观差异,并通过多重约束减少失真现象。实验结果表明,MTGS在画面质量和几何精度方面均有显著提升,并支持实时渲染。

怜星夜思:

1、MTGS方法中,如何理解“异质图”的设计思路?这种设计在提升场景重建效果上起到了什么作用?
2、MTGS方法中,利用激光雷达点云颜色作为“锚点”进行外观对齐,这个思路有什么巧妙之处?其他方法难以达到同样效果的原因是什么?
3、MTGS方法在自动驾驶仿真领域的应用前景如何?除了文章中提到的优势,你认为它还有哪些潜在的应用价值?

原文内容


在自动驾驶领域,高精度仿真系统扮演着 “虚拟练兵场” 的角色。工程师需要在数字世界中模拟暴雨、拥堵、突发事故等极端场景,反复验证算法的可靠性。


然而,传统仿真技术往往面临两大难题:首先是视角局限,依赖单一轨迹数据,如一条固定路线的摄像头录像,重建的场景只能在有限视角内逼真,无法支持车辆 “自由探索”。其次是动态失真,同一路口在不同时间可能停满车辆或空无一人,这些变化使得生成画面脱离现实。


为解决这一问题,上海创智学院联合香港大学等机构联合提出 MTGS (Multi-Traversal Gaussian Splatting)方法,通过多轨迹数据融合,构建既能还原真实道路细节又能动态响应环境变化的超高精度仿真场景。



日常通勤中,车辆往往会以不同的轨迹反复经过同一路段;而用于采集驾驶数据的车队也往往会在同一街区多次遍历,每辆车在不同时间从不同的角度记录了当前街区的信息。因此,使用多轨迹数据能获取到更多周围环境的信息。然而,实验发现,简单地堆叠数据并不能带来重建效果的提升,反而可能损伤单轨迹下重建的场景模型,原因之一是这些数据在天气、光照上有较大差异,无法很好地对齐。而 MTGS 的核心创新,正是将这些碎片化的 “数字拼图” 智能整合,使不同轨迹采集到的几何信息能互相补足,重建出几何信息更精准的驾驶场景。



  • arXiv 链接:https://arxiv.org/abs/2503.12552

  • 代码、checkpoint 等即将开源


基于多个轨迹的场景异质图


MTGS 将同一个场景中的元素集合在一个异质图中,并针对不同场景元素的特点分成三类节点,静态节点、外观节点、瞬态节点。这种 “分而治之” 的设计,使得 MTGS 既能还原道路的原有特征,又能灵活地呈现瞬息万变的车流与环境。



静态节点 - 所有轨迹共享的静态背景,如沥青路面、交通标志。


外观节点 - 通过球谐函数系数调整光照、阴影,适配多轨迹对应不同时段的天气变化和光照差异。


瞬态节点 - 各次轨迹独有的移动物体,如穿梭的车辆、临时停靠的快递车。


其中,静态节点和外观节点共同决定表征静态背景的高斯球,前者提供高斯球的位置、旋转四元数、尺寸、透明度和球谐函数的首个参数,后者则决定球谐函数的其他参数。这一设计源自球谐函数自身的特性:第一个球谐函数 Y_0,0 具备旋转不变性,可用于表征物体的本色或底色;其他球谐函数则会随着观察视角的变化而有所变化,更适合表征物体在不同轨迹不同视角上的色彩变化,如阴影、反光等细节。


同一轨迹中的外观对齐


除了多轨迹间的光照差异,同一轨迹内部也存在外观不对齐的情况,如部分相机过度曝光、不同相机间的色调差异。MTGS 创新性地利用激光雷达点云颜色作为 “锚点”,将同一空间点在同一时刻不同相机中的颜色对齐,并为每个相机学习独立的仿射变换,确保不同时刻采集的图片色调统一。


此外,为避免模型产生 “浮空碎片” 等失真现象,MTGS 还引入多重约束:(1)用激光雷达点云矫正三维形状,确保路沿、护栏等结构精确对齐;(2)使用 UniDepth 对图像进行深度估计,使用估计深度计算得到每个像素的法向量方向,从而通过相邻像素的法向量约束,让曲面过渡更自然(如车顶弧度);(3)将移动物体的阴影从背景中分离,防止 “鬼影” 残留。这些技术让重建效果提升 46.3%,合成画面中的锯齿、重影等问题显著减少。


实测效果:数字与现实的 “像素级逼近”


在 nuPlan 大规模自动驾驶数据集上的测试显示,MTGS 在多项指标上刷新纪录。在画面质量方面,感知相似度(LPIPS)提升 23.5%。在几何精度方面,深度误差降低 46.3%,护栏间距、车道宽度等细节厘米级还原。在动态响应方面,支持每秒 60 帧的实时渲染,车流密度变化、行人突然穿行等场景流畅呈现。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

MTGS的应用前景非常广阔。除了文章中提到的提升仿真精度、支持实时渲染外,我认为它还有很多潜在的应用价值。例如,可以用于自动驾驶算法的测试和验证,帮助工程师更高效地开发和改进算法;可以用于构建高精地图,为自动驾驶车辆提供更准确的环境信息;还可以用于虚拟现实和游戏领域,提供更逼真的驾驶体验。

我觉得MTGS就像一个万能的场景生成器,可以根据不同的需求,生成各种各样的自动驾驶仿真场景。比如,可以模拟恶劣天气,测试自动驾驶车辆在雨雪天气下的表现;可以模拟复杂的交通状况,测试车辆在拥堵路段的反应;甚至可以模拟一些极端场景,测试车辆的安全性。有了MTGS,自动驾驶的研发效率肯定会大大提高!

这个思路真的很巧妙!激光雷达点云颜色相当于一个绝对的参照物,就像绘画时的基准线。它不受光照、相机参数等因素的影响,能够提供一个稳定的颜色基准,帮助MTGS校正不同相机之间的色差。其他方法如果仅仅依赖图像信息,很容易受到光照变化的影响,导致对齐不准确。所以,激光雷达点云颜色作为“锚点”的优势在于它的稳定性、客观性,可以有效提高颜色对齐的精度。

我理解的是,因为激光雷达可以提供准确的空间信息,将颜色信息和空间信息关联起来,就相当于给每个像素都打上了一个“坐标”,这样就能更准确地进行颜色对齐。而且,激光雷达受光照影响小,可以提供更稳定的颜色参考,避免出现“颜色漂移”的问题。其他的对齐方法,要么空间信息不准,要么颜色信息不稳定,所以效果自然会差一些。

我理解异质图的设计,关键在于“异质”二字。传统方法可能一股脑将所有信息塞进一个模型,导致静态的、动态的混在一起,难以处理。MTGS聪明的地方在于,它将场景中的元素按照性质分成了几类,然后分别用不同的方法来处理,相当于“专物专用”,这样就能更好地抓住每个元素的特点,最终重建出来的场景自然更逼真咯!

emmm…我的理解是,异质图就像一个剧组,有负责场景布置的、有负责灯光的、还有负责演员的。每个人各司其职,最后才能呈现出一场精彩的演出。在MTGS中,静态节点、外观节点和瞬态节点也是如此,它们分别负责场景的不同方面,最终共同构建出一个完整的、逼真的自动驾驶仿真场景。

而且将不同的内容进行区分也更方便维护,也更容易扩展新的内容

异质图就像一个非常细致的分工体系。静态节点负责构建场景的骨架,比如道路、标志牌这些不变的东西;外观节点就好像是化妆师,负责调整光照、阴影,让不同时间段的场景看起来更真实;瞬态节点则像是演员,专门负责处理车辆、行人这些动态的元素。这种分而治之的方法,让MTGS能够更精准地还原真实场景,避免不同元素之间的互相干扰,实现更逼真的重建效果。

从技术角度看,相当于针对不同类型的场景元素进行了解耦,从而可以针对性的优化,同时降低了复杂度

我觉得用激光雷达点云颜色做锚点,有点像在玩拼图游戏。每张照片因为拍摄角度、光线等等原因,颜色都不太一样,但是激光雷达的点云颜色就像是拼图的轮廓线,告诉你什么地方该放什么颜色。其他方法可能就是直接把颜色往上贴,没有考虑到整体的协调性,所以效果肯定不如MTGS好啦!

我比较关注MTGS在数据增强方面的潜力。现在自动驾驶训练非常依赖数据,但真实世界的数据往往难以覆盖所有 Corner Case。MTGS 能够生成无限接近真实场景的仿真数据, 并且可以灵活调整各种参数, 相当于拥有了一个无限的数据工厂,可以源源不断地为自动驾驶算法提供训练素材。