清华大数据能力提升项目成果展:气候变化下青藏高原径流预测研究

清华学生利用大数据技术,构建高精度青藏高原径流预测模型,为气候变化下的水资源管理提供科学依据。

原文标题:大数据能力提升项目|学生成果展系列之六

原文作者:数据派THU

冷月清谈:

清华大学大数据能力提升项目旨在培养具备大数据思维和应用创新能力的跨学科人才。该项目通过课程体系建设和实践应用,帮助学生提升大数据分析能力。

水利系钟亮金同学的成果展示了项目在实际科研中的应用。他聚焦气候变化下的青藏高原径流问题,利用深度学习方法结合物理模型,开发了高精度径流预测模型。

传统模型在青藏高原径流模拟中存在精度有限和参数化困难等问题。钟亮金同学针对这些问题,引入深度学习方法,并从两个方面进行创新研究:

1. 开发了考虑冰冻圈过程的物理引导的深度学习模型,该模型能够更好地捕捉径流对气候变化的响应,并揭示了耦合流域主导水文过程的物理机制可以增强深度学习在气候变化等非稳态情景下的应用的可靠性。

2. 开发了基于物理过程与深度学习耦合的分布式模型,该模型能够提高对子流域时空数据信息模式的利用效率,并充分利用流域内的所有可用径流观测进行约束,实现对物理过程模块的自动参数化和对机理认识不充分的冰冻圈过程的智能概化。

这些研究成果发表于Water Resources Research和Journal of Hydrology等期刊,并获得软件著作授权和专利申请。该模型对青藏高原水资源预测和缺资料地区径流模拟具有重要应用价值。

怜星夜思:

1、深度学习方法在水文模型中应用的优势和局限性是什么?
2、如何评价模型在数据稀疏地区(如青藏高原)的应用效果和可靠性?
3、除了径流预测,该研究成果还能应用于哪些领域或解决哪些实际问题?

原文内容


导读


为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。



回首2024年,清华大学大数据能力提升项目取得了丰硕的成果,同学们将课程中学到的数据思维和技能成功地应用在本专业的学习和科研中,在看到数据科学魅力的同时,也将自己打造成为了交叉复合型的创新型人才。下面让我们通过来自8个院系的8位同学代表一起领略他们的风采吧!




代表性成果




变化气候下的青藏高原径流机理认识与高精度径流预报


水利系 钟亮金


1.  学术成果


青藏高原作为亚洲水塔,在气候变化下出现固态水加速液化的现象,冻土、积雪和冰川等冰冻圈过程严重退化,显著改变了该地区生态水文响应机制。传统基于物理的生态水文模型在揭示该地区径流响应气候变化的机理方面存在局限性,径流模拟的精度有限,其中的关键难题在于:(1)冰冻圈过程十分复杂,机理认识尚不充分;(2)青藏高原是全球实测资料最缺乏的区域之一,导致模型参数化困难。


针对问题(1),申请人引入深度学习方法对机理认识不充分的过程进行智能概化,开发了一个考虑冰冻圈过程的物理引导的深度学习模型。相较于集总式水文模型、分布式水文模型和纯粹的深度学习模型,本模型最能捕捉径流对于气候变化的响应。本研究还揭示了耦合流域主导水文过程的物理机制可以增强深度学习在气候变化下的可靠性,为深度学习方法在气候变化等非稳态情景下的应用提供了思路。


研究成果发表于行业旗舰期刊 Water Resources Research(中科院 Q1 TOP ,第一作者),获 2023 WRR Editors ’ Choice Award (Top ~1%)。


针对问题(2),申请人从两个方面开展了创新性研究:


第一,针对传统方法在数据稀疏区域的径流模拟精度受限的难题,申请人通过引入河道汇流的分布式结构,开发了一个基于物理过程与深度学习耦合的分布式模型。该模型能够基于深度学习方法提高了对子流域时空数据信息模式的利用效率,并充分利用流域内的所有可用径流观测进行约束,实现对物理过程模块的自动参数化和对机理认识不充分的冰冻圈过程的智能概化。相较于传统的分布式模型和迁移学习方法,该模型对实测径流数据的要求更低,但具有显著更优的模拟精度和时空泛化性能。研究成果发表于行业旗舰期刊 Water Resources Research(中科院 Q1 TOP ,第一作者),获得软件著作授权一项;


第二,针对实测径流数据不足、难以准确约束多过程模拟的难题,通过耦合了碳同化、碳分配和植被生长等生态过程,开发了一个基于多系统过程机理与深度学习耦合的分布式生态水文模型,使得该模型能够在实测径流数据的基础上进一步引入遥感 LAI 数据对模型进行训练。该模型使用耦合了生态水文多过程机理,利用站点实测和遥感多源观测数据进行约束,有效提高了少资料流域的径流模拟精度和鲁棒性,且能准确捕捉其他过程(如 LAI 和ET)的时空动态变化,能够为复杂冰冻圈流域的过程诊断和机理认识提供新视角。研究成果发表于行业权威期刊 Journal of Hydrology(中科院 Q1 TOP ,第一作者),申请发明专利一项(实质审查阶段)。


2.  实际应用价值


(1)申请人针对变化气候下、缺资料冰冻圈流域的径流模拟难题,开发了基于多系统过程机理与深度学习耦合、使用多源观测约束的分布式生态水文模型,大幅提高了现有径流模拟的精度,能够应用至整个青藏高原流域,对该区域内历史和未来的水资源做出准确预报,为下游国家和地区的水资源管理提供科学依据。同时,申请人开发的模型能够借助深度学习从大数据中智能学习机理认识不充分的过程,有望为青藏高原冰冻圈响应变化气候的过程诊断和机理认识提供新的视角。


(2)缺资料流域的径流模拟作为国际水文科学学会提出的十年计划之一,一直以来是水文水资源研究的难点。申请人开发的基于多系统过程机理与深度学习耦合、使用多源观测约束的分布式生态水文模型,相较于传统基于物理的模型和深度学习方法,能够在使用更少径流观测约束的情况下,取得精度更高、鲁棒性更强、时空泛化性能更强的径流预报结果,可为其他缺资料地区的径流模拟和水旱灾害预报提供新的解决方案。相关研究成果与中央气象台和智慧水利科技公司四信集团举办模型培训,并就后续落地应用进行洽谈。

编辑:文婧

校对:林亦霖





关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。



新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


我觉得深度学习在水文模型中的应用就像一个双刃剑。它可以帮助我们处理传统方法难以解决的复杂问题,提高预测精度。但是,深度学习模型的可解释性较差,可能导致我们对其预测结果的理解不够深入,难以应用于实际的决策。

深度学习就像一个强大的黑盒子,可以拟合各种复杂关系,预测效果有时好得惊人。但它缺乏物理机制的支撑,解释起来比较困难,也难以保证在不同流域的普适性。 数据的质量和数量也至关重要,garbage in, garbage out嘛。

数据稀疏地区的模型评估确实是个难题。除了文中提到的时空泛化性能外,我觉得还需要考虑模型的稳定性。万一哪天某个传感器坏了,或者某个站点的数据缺失了,模型还能不能正常工作? 这也是实际应用中需要考虑的关键问题。

针对“除了径流预测,该研究成果还能应用于哪些领域或解决哪些实际问题?”这个问题,我认为可以拓展到其他水文变量的预测,例如蒸散发、土壤含水量等。此外,该研究成果还可以应用于水资源管理、旱涝灾害预警等领域,为制定更科学的应对策略提供支持。例如,可以利用该模型预测未来一段时间内的径流量,为水库调度提供决策依据;或者利用模型预测可能发生的洪涝灾害,提前做好防灾准备。

对于“如何评价模型在数据稀疏地区(如青藏高原)的应用效果和可靠性?”这个问题,我认为需要考虑以下几个方面:1. 模型的泛化能力,即模型在少量数据下训练后,能否在未见数据上表现良好;2. 模型的鲁棒性,即模型在输入数据存在噪声或误差时,预测结果是否稳定;3. 模型的可解释性,即模型的预测结果是否符合物理规律,以及模型参数的意义是否明确。此外,还可以通过与其他模型的对比,以及实地观测数据的验证来评估模型的性能。

除了径流,我觉得还可以用来预测其他跟水循环相关的变量,比如地下水位、土壤湿度等等。 还可以应用到农业灌溉、水力发电等领域,优化水资源配置,提高效率。 甚至可以用来评估气候变化对水资源的影响,为制定适应策略提供参考。

我觉得这个成果的应用前景很广。除了径流预测,还可以扩展到其他水文变量的模拟,比如蒸散发、土壤水分等等。 还可以结合气候模式,预测未来气候变化对水资源的影响,为水资源规划和管理提供科学依据。 甚至可以应用到其他缺资料地区,比如一些发展中国家,帮助他们更好地管理水资源。

在数据稀疏地区,模型的可靠性是个大问题。除了常规的精度指标外,我觉得更要关注模型的泛化能力,也就是能不能在没见过的数据上也表现良好。交叉验证、独立测试集评估、甚至迁移学习都是常用的方法。当然,实地验证也很重要,毕竟理论和实际总是有差距的。

优势在于可以处理复杂的非线性关系,弥补传统物理模型在机理认识不足方面的缺陷,并能从大数据中学习潜在规律。局限性在于深度学习模型的可解释性较差,结果的物理意义不够明确,泛化能力也需要进一步提升。另外,高质量训练数据的获取也是一个挑战。