D2AR生成式压缩框架:用国产E级超算训练全球遥感数据“历史先验”

D2AR用生成式历史先验实现全球遥感数据万倍级压缩,并在国产E级超算上完成训练。

原文标题:国产超算生成式压缩模型训练性能突破2.16 EFLOP/s,支撑全球遥感数据万倍级压缩

原文作者:机器之心

冷月清谈:

清华大学、中山大学、新加坡国立大学、国家超级计算深圳中心等团队提出面向全球地球观测数据的生成式压缩框架 D2AR,并在国产灵晟超级计算机上完成 E 级规模训练。D2AR 不再只依赖单张遥感图像的像素冗余压缩,而是利用多年、多源、多光谱遥感数据中的地理位置、时间周期、地表覆盖和光谱响应规律,学习可用于重建的历史先验。其前端仅保留极少量控制信息,后端结合地理与时间条件,通过生成式模型恢复遥感影像。系统层面,团队针对国产 Armv9 CPU 超算的矩阵扩展、NUMA、层级内存和高速互连进行训练优化,在 20,480 个节点上实现 BF16 精度下 1.54 EFLOP/s 端到端持续性能和 2.16 EFLOP/s 训练峰值。实验显示,D2AR 在最高 10000× 压缩场景下仍能改善重建质量,并保留一定下游土地覆盖分类效用,为遥感数据存储、传输和按需分析提供了新思路。

怜星夜思:

1、遥感数据做“万倍压缩”听起来很猛,但这种生成式重建会不会把不存在的地物“脑补”出来?
2、这项工作把训练放在国产 CPU 超算上,而不是 GPU 集群上,意义到底大不大?
3、如果遥感档案未来变成“先验模型 + 少量控制信息”,原始数据还有必要长期保存吗?
4、D2AR这类生成式压缩会不会改变遥感应用的商业模式,比如从“卖数据”变成“卖按需重建服务”?

原文内容


清华大学张金潇、中山大学董润敏、清华大学深圳国际研究生院吴羲勇为本文共同第一作者。清华大学深圳国际研究生院付昊桓教授和中山大学人工智能学院副教授董润敏为本文通讯作者。付昊桓教授于 2016 年、2017 年和 2021 年三次获得国际高性能计算应用领域最高奖 “戈登・贝尔” 奖。作为负责人承担国家自然科学基金委交叉学部杰出青年基金项目、科技部重点研发计划项目等,并于 2025 年获评为 IEEE Fellow


随着全球遥感卫星持续运行,地球观测数据正在快速增长。多源、多时相、多光谱遥感影像为国土监测、生态评估、灾害预警、气候变化研究等任务提供了重要数据基础,但也带来了显著的存储、传输和计算压力。对于长期连续观测形成的全球遥感影像档案,传统压缩方法主要面向像素级冗余消除,难以充分利用地表目标在地理位置、时间变化和光谱响应上的长期规律。


近日,来自清华大学、中山大学、新加坡国立大学、国家超级计算深圳中心等单位的研究团队提出面向全球地球观测数据的生成式压缩框架 D2AR,并在灵晟超级计算机上完成 Exascale 级训练。



  • 论文:《Transforming the Use of Earth Observation Data: Exascale Training of a Generative Compression Model with Historical Priors for up to 10,000x Data Reduction

  • 论文地址:https://arxiv.org/abs/2605.08633


用历史先验重构极端压缩数据


D2AR 的核心思路是将地球观测数据压缩从传统的 “单张图像冗余消除” 推进到 “历史先验建模与生成式重建”。与普通视觉图像不同,遥感数据是在多年尺度上对同一个地球系统的持续观测。地理位置、季节周期、地表覆盖、城市结构和多光谱响应之间存在长期规律,这些规律可以被大规模生成式模型学习,并用于极低码率条件下的数据恢复。


在框架设计上,D2AR 采用 Dual-Decoupled Asymmetric Compression and Reconstruction 思路,将前端压缩与后端重建解耦。前端只保留极少量关键表征,将多源遥感数据压缩为中间比特流,并映射为控制 token;后端则将控制 token 与地理位置、观测时间等条件信息注入生成式重建模型,在统一的多光谱潜空间中恢复观测数据。


这一设计的关键在于,压缩器不再承担完整重建任务,而是只负责提取极低码率下的控制信息。真正的重建能力来自后端生成式模型对全球历史遥感数据的学习。D2AR 基于 EQ-VAE 构建统一潜空间,并结合 Flow Matching 逐步恢复遥感影像,使模型能够利用空间、时间和光谱维度上的历史规律,提升极端压缩条件下的重建质量和下游可用性。


面向地球观测的历史先验生成式压缩框架概览。(a)算法设计:将全球历史观测档案压缩为具有地理与时间条件约束的生成式先验。(b)重建流程:面向下游应用,从压缩表示中按需恢复观测数据。(c)系统设计:基于灵晟 Armv9 CPU 超算实现生成式模型的超大规模训练。


面向层级内存与 NUMA 架构的 CPU 超算训练优化


为了训练这一生成式重建模型,研究团队在灵晟超级计算机上构建了面向大规模遥感生成式模型训练的软件系统。灵晟是中国国产 E 级超级计算机系统,近期在国家超级计算深圳中心国产算力应用对接会暨全球样板点发布会上亮相,其 FP64 精度持续浮点运算性能超过 2EFlops。研究团队围绕该国产 Armv9 CPU 架构的计算单元、矩阵扩展、层次化内存和高速互连特点,对并行策略、算子内核、通信后端和运行时调度进行了协同优化,支撑模型在 CPU 超算上高效稳定训练。


在系统优化方面,团队针对大模型训练中的计算、通信和内存瓶颈,设计了层次化并行策略与内存放置机制,并对关键算子进行面向国产 CPU 矩阵扩展的优化。同时,通过通信与计算重叠、运行时调度优化和分布式训练软件栈适配,降低了大规模训练中的同步等待和数据搬移开销。单节点实验表明,基于 Armv9 LX2 和 SME 的训练效率已经达到与单张 NVIDIA A100 GPU 相当的水平,并显著优于支持 AMX 的 Intel Xeon 8558P 平台,验证了国产 CPU 架构在大模型训练中的性能潜力。


Intel Xeon 8558P(支持 AMX)、NVIDIA A100(支持 Tensor Core)和 LX2(支持 SME)平台上单层运算各模块的前向和反向延迟。


更重要的是,这套优化能够扩展到全机规模。在 20,480 个节点的大规模弱扩展实验中,D2AR-rec-6B 实现了 BFloat16 精度下 1.54 EFLOP/s 端到端持续性能和超过 2.16 EFLOP/s 的训练峰值性能 [1],展现出良好的弱扩展能力。


对于历史先验生成式压缩而言,这种扩展能力不仅意味着训练速度提升,也意味着模型能够纳入更大范围、更长时间跨度的全球历史观测数据,从而学习更完整的地球观测先验。


系统在三种模型规模下的弱扩展性能。


从极端压缩走向任务自适应数据服务


从应用角度看,D2AR 并不是简单减少遥感影像存储体积,而是尝试建立一种新的地球观测数据使用方式:将全球历史遥感档案转化为可调用的生成式先验,在极低码率下按需恢复对科学分析有价值的信息。实验结果表明,D2AR 能够在高达 10000× 的极端压缩场景下提升重建质量,并在感知质量、结构一致性和 NDVI 等遥感相关指标上取得改进。进一步的下游土地覆盖分类实验也显示,重建数据仍能保留较强的任务效用,说明该方法不仅压缩倍率高,也能够支撑后续分析任务。


不同压缩比下的可视化对比及对应光谱曲线。


这项工作也验证了国产超算在 AI for Science 场景中的系统支撑能力。通过算法、模型和系统软件栈的协同设计,国产 CPU 超算不仅能够支撑传统科学计算任务,也能够承载大规模生成式 AI 训练。对于遥感应用而言,这意味着数据价值不再只取决于 “采得更多、存得更全”,也取决于能否更高效地存储、传输和使用。D2AR 为遥感基础模型、科学数据智能压缩和国产高性能计算生态建设提供了新的实践路径。


[1] 峰值训练性能按完整前向与反向传播的模型计算量及其在全机训练中的实测执行时间计算,包含运行时调度和 kernel launch 等实际开销;端到端持续性能则进一步计入数据加载、通信同步和优化器更新等完整训练流程开销。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我感觉以后遥感平台可能会多一个按钮:“给我恢复一版适合做NDVI分析的”“给我恢复一版适合看城市扩张的”。听起来很爽,但也有点像点外卖备注:少油少盐不要香菜,最后厨师是个扩散模型。

2 个赞

我觉得意义挺大,但别理解成“CPU 打败 GPU”。文章里更像是展示国产超算生态的工程能力:Armv9、SME、NUMA、通信重叠、分布式训练栈这些都打通了。对 AI for Science 来说,很多数据和模拟任务本来就在超算中心,能直接在超算上训练模型会方便很多。

1 个赞

关于“原始数据还有没有必要保存”:我认为仍然必须保存。生成式压缩适合降低访问、传输和部分存储压力,但原始遥感数据具有档案和证据属性。未来算法更新、科学问题变化、误差追溯,都需要原始观测作为基准。模型可以是服务层,原始数据应该是底座。

3 个赞

我觉得这个问题要分用途看。如果只是做宏观土地覆盖、植被趋势、气候研究,生成式重建可能够用;但你要拿它判断“某栋楼是不是新建了”“某条河堤有没有裂”,那就危险了。万倍压缩不是魔法,省下来的存储成本,可能会以细节可信度的形式还回去。

1 个赞

我不赞成完全用模型替代原始档案。遥感数据经常会被多年后重新分析,比如气候变化研究会回看几十年前的观测。如果只剩模型重建版本,就相当于把历史交给了某一代算法解释,科学上不太稳。

2 个赞

回答“商业模式会不会变”:很可能会。传统遥感商业模式偏向出售影像、瓦片或订阅数据源,而生成式压缩如果成熟,服务商可以提供按区域、时间、任务重建的数据接口。用户不一定下载完整影像,只请求某个下游任务需要的特征或重建结果。

3 个赞