北大&高德联合研究:仅凭卫星图,AI速建逼真3D城市

北大、高德联合提出Orbit2Ground方案,仅凭卫星图即可利用AI重建逼真3D城市模型,为数字城市建设提供低成本方案。

原文标题:北大、高德联合出品 | 仅凭几张卫星图,即可重建出逼真3D城市

原文作者:机器之心

冷月清谈:

北京大学和高德地图联合研究团队提出了一种全新的生成式摄影测量方案Orbit2Ground,旨在解决低成本、高效率地将实体都市复刻进数字空间的难题。该方案巧妙地结合了城市几何先验与生成式AI,仅凭稀疏的卫星图像,就能构建出精细美观的逼真3D城市。Orbit2Ground通过Z轴单调符号距离场(Z-Monotonic SDF)约束来补足卫星图像缺失的侧面几何信息,并利用FLUX模型训练的确定性纹理修复网络来提升建筑立面的清晰度。该方法在几何完整性和视觉保真度上均超越了当前的SOTA方法,最终输出的是标准的Mesh模型,可以直接导入Unity、Unreal Engine 5等主流引擎,完成例如降雪模拟等广泛的下游应用。

怜星夜思:

1、Orbit2Ground方案中提到的Z轴单调SDF约束,是如何避免建筑墙面出现凹陷或破碎问题的?除了建筑外,其他物体是否可以使用该约束?
2、文章提到使用卫星图像重建3D城市的关键难点在于视角问题,那么除了卫星图像,还有没有其他类型的图像数据可以用于城市3D重建,它们各自的优缺点是什么?
3、Orbit2Ground重建出的Mesh模型可以直接导入主流游戏引擎,这为哪些应用场景带来了可能性?除了文章中提到的降雪模拟,还能想到哪些有趣的用途?

原文内容


本研究由北京大学、高德地图研究团队联合完成。通讯作者包括北京大学博雅特聘教授,智能学院副院长陈宝权,北京大学助理教授陈文拯及高德地图徐牧。


试想一下,无论是为下一代 3A 大作(如《GTA 6》)构建一个 1:1 的纽约城,还是为城市级无人机送货系统规划一条在摩天大楼间穿梭的低空物流航线,甚至是为特大城市的应急响应系统构建一个毫厘毕现的数字底座,高精度的逼真 3D 城市模型都是关键。


图片


通常,构建一座这样的 3D 城市模型需要数千人的美术团队耗时数年手工建模,或者动用昂贵的专业设备进行扫描。如何低成本、高效率地将庞大的 “实体都市” 复刻进数字空间,一直是计算机图形学与 3D 视觉领域试图攻克的终极难题。


相比之下,卫星图像覆盖全球、易于获取,似乎是理想的数据源。但实际上,用卫星图重建城市却一直非常困难。根本原因在于视角问题:卫星是从正上方俯拍,而我们需要的是带有清晰立面的地面视角。


这种从 “顶视图” 推理 “侧视图” 的视角极端外推,让现有先进方法如 NeRF 和 3DGS 都难以应对,重建出的建筑侧立面常常几何扭曲、纹理模糊。


图片

SOTA 城市重建方法(CityGS-X)在卫星场景下,可以重建出良好的城市屋顶几何和自顶向下视角,但难以重建城市建筑侧立面,在近地视角产生严重的伪影。


为了解决这一难题,北大与高德团队提出了一种全新的生成式摄影测量方案 Orbit2Ground。它巧妙地结合城市几何先验与生成式 AI,仅凭稀疏的卫星图像,就构建出了精细美观的逼真 3D 城市。




  • 论文标题:From Orbit to Ground: Generative City Photogrammetry from Extreme Off-Nadir Satellite Images

  • 项目主页:https://pku-vcl-geometry.github.io/Orbit2Ground

  • 论文地址:https://arxiv.org/pdf/2512.07527


SDF 单调性约束

强制从屋顶 “长” 出墙壁


卫星图可以为屋顶提供良好的多视角立体视觉(Multi-View Stereo, MVS),但很难捕捉到建筑侧面的视差信息,这导致传统算法虽然能恢复出清晰的屋顶,但一处理侧面就会遭遇严重的几何崩塌,复原的墙面支离破碎,充满悬浮的碎片。


与常规的街景重建不同,卫星图像稀疏且视角严重地自顶向下,几乎无法捕捉垂直结构的视差。如图所示,多视角重建(黄色点)仅能恢复地面和屋顶,无法重建建筑物外立面。


为了补足缺失的侧面几何,团队利用了一个关键现象:绝大多数城市建筑的墙壁都是平整外凸的,极少出现向内凹陷的结构


基于此,团队提出了 Z-Monotonic SDF (Z 轴单调符号距离场)。其核心逻辑在于:约束 SDF 场在 Z 轴方向上单调递增


若将常规的城市建筑形成 SDF 场,则在其中任意选取平面一条竖线,其上所有点的 SDF 值,均沿高度向上单调递增。


这一数学约束直接决定了最终的几何形态 —— 因为 SDF 场的单调性强制要求其生成的等值面(即几何表面)必须是连续且非凹陷的,所以这意味着,几何体不允许在中间断开、破碎或是向内塌陷


这种 “SDF 单调 → 几何非凹” 的强力约束,使得算法即便在仅有顶部观测数据的情况下,也能自动从屋顶向下 “拉伸” 出连续、闭合的完整墙壁。正是这一约束,从根本上避免了 “空心楼” 和墙面破碎的问题,从稀疏的卫星数据中生成了结构完整的建筑几何。


图片


AI “精装修”,变模糊为高清


有了几何 “毛坯房”,下一步是解决纹理模糊的问题。


由于大气干扰和分辨率限制,卫星拍摄的侧面纹理往往不够清晰。为了解决这个问题,团队基于 FLUX 模型,训练了一个专门的确定性纹理修复网络。他们并没有让 AI 凭空捏造,而是让它基于卫星图提供的基础色调和结构,利用学习到的海量城市外观知识,对模糊的立面进行确定性修复。


图片


通过将扩散模型微调为 “确定性” 模式,确保了在不同视角下生成的纹理是连贯统一的,避免了生成式 AI 常见的由随机性导致的鬼影、模糊等问题。


整体流程



Orbit2Ground 将重建任务解耦为几何与外观两个阶段:


  • 第一阶段(几何重建):基于稀疏的 MVS 点云优化 Z-Monotonic SDF (Z 轴单调符号距离场),从而提取出具有干净垂直立面的高保真 Mesh 几何。

  • 第二阶段(外观精修):以初始纹理(由卫星图像反向投影得到)为起点,我们利用修复网络增强近距离新视角的渲染效果,进而将其作为清晰、高保真的监督信号,用于最终的纹理优化。


方法效果


在多个数据集上的测试表明,Orbit2Ground 在几何完整性和视觉保真度上均超越了当前的 SOTA 方法。



更重要的是,Orbit2Ground 展现了碾压级的视觉效果


图片


当其他方法在缺乏数据的区域产生云雾状的伪影时,Orbit2Ground 生成的是坚实、连贯的物理表面。在近距离的地面视角下,建筑立面的纹理清晰可辨,极大地提升了画面的真实感与沉浸感。


此外,与目前流行的 NeRF 或 3DGS 等 “云雾状” 表达不同,Orbit2Ground 最终输出的是标准的 Mesh (网格) 模型


这意味着这套资产不是只能看、不能碰的 “全息影像”,而是可以直接导入 Unity、Unreal Engine 5 等主流引擎的实体资产。


Orbit2Ground 形成的城市 Mesh 模型,可以完成广泛的下游应用,例如降雪模拟。


开发者可以直接在这些模型上添加刚体碰撞、进行物理模拟(如积雪堆积、洪水淹没),或者进行光照渲染。这意味着我们拥有了一种低成本方案,能够生成不仅 “看得清”,而且真正 “用得上” 的城市级数字资产。


或许在不远的将来,

我们真的只需要几颗卫星,

就能在数字世界中复刻一个鲜活的地球。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

补充一下,激光雷达数据(LiDAR)也是一种常用的数据源。LiDAR可以提供高精度的三维点云数据,能够直接反映地物的几何结构,不受光照和天气条件的影响。但是,LiDAR数据的采集成本非常高昂,而且数据量巨大,处理起来比较困难。不同数据源各有优缺点,实际应用中通常会结合多种数据源,取长补短,以获得更好的重建效果。

这想象空间就大了!首先想到的是城市规划和建筑设计,可以在游戏引擎里直观地展示设计方案,进行虚拟漫游。其次是应急演练和灾害模拟,比如模拟地震、火灾等场景,提高应急响应能力。当然,作为游戏玩家,我最期待的是能在游戏中体验到真实还原的城市景观,比如《GTA 6》如果能用上这种技术,那代入感绝对爆棚!

当然有!街景图像是一个不错的选择,例如谷歌街景。街景图像的优点是从地面视角拍摄,能够提供丰富的建筑物立面信息,弥补了卫星图像的不足。但是,街景图像的覆盖范围有限,而且拍摄成本较高。另外倾斜摄影测量也是一种方法,通过无人机或者飞机从多个角度拍摄城市,可以获得高分辨率的纹理和几何信息,但数据处理量大,成本也相对较高。

Z轴单调SDF约束通过数学方式确保生成的表面连续且非凹陷,相当于给几何形状加上了一个“凸性”的限制。因为卫星图缺乏建筑物侧面的信息,这个约束起到了“补全”的作用。我觉得这个约束不一定只适用于建筑,任何符合“大体是凸的”这类特征的物体都可以考虑用。当然,具体效果还得看实际情况,约束太强可能会把一些细节给抹平了。

别忘了AR/VR!重建的3D城市模型可以用于开发AR/VR应用,比如虚拟旅游、远程教育等。想象一下,戴上VR眼镜,就能身临其境地游览世界各地的名胜古迹,或者在虚拟教室里学习历史地理知识,这绝对是一种全新的体验。当然,前提是设备要足够轻便,网络要足够流畅,不然容易头晕。

从成本角度来看,众包图像数据也是一个潜在的选择。现在很多人都会用手机拍摄城市街景,如果能够利用这些数据进行三维重建,就能大大降低成本。但是,众包数据的质量参差不齐,需要进行严格的筛选和处理。此外,还涉及到隐私问题,需要进行脱敏处理。总的来说,利用众包数据进行三维重建还面临很多挑战,但如果能够解决这些问题,就能为城市三维重建提供一种经济高效的解决方案。

我觉得还可以用于自动驾驶的仿真测试。自动驾驶算法需要在各种复杂的城市环境中进行测试,而真实的道路测试成本高昂且存在安全风险。利用重建的3D城市模型,可以构建一个虚拟的测试环境,进行大规模的仿真测试,提高自动驾驶算法的可靠性。另外,智慧城市建设也离不开这种技术,可以用于构建城市信息模型(CIM),实现城市数据的可视化和智能化管理。

这个问题问的好!Z轴单调SDF约束的核心在于强制SDF场在Z轴向上单调递增,简单来说,就是从屋顶到地面,SDF值是连续增加的,不允许有凹陷。这种约束避免了几何体在中间断开、破碎或向内塌陷,保证了从屋顶向下“拉伸”出完整墙壁。个人感觉这种约束在其他领域也有潜力,比如山体建模,只要保证山体是外凸的,应该也能用类似的约束来优化模型。