清华博士生李浩然:大数据赋能化工之路

清华博士生李浩然分享了其如何利用大数据技术提升化工生产效率,并介绍了他在乙烯智能化生产方面的研究成果。

原文标题:李浩然:从大数据能力提升项目出发,探索化工大数据之路 | 提升之路系列(一)

原文作者:数据派THU

冷月清谈:

清华化工系博士生李浩然分享了他如何通过大数据能力提升项目,将大数据技术应用于化工领域的研究经历。

他首先选修了《大数据分析(B)》《统计学习理论与应用》《深度学习》和《大数据实践》四门课程,建立了大数据思维,掌握了机器学习和深度学习等方法,并通过实践项目积累了经验。

随后,他将所学知识应用于化工生产实践,参与了基于工业互联网平台的流程行业生产线数字孪生系统项目,以柳州钢铁集团的炼铁生产线为对象,建立了基于因果分析的烧结生产状态预测模型。

之后,他的研究重点转向乙烯智能化生产,提出了创新的蒸汽裂解图网络(SCGN)用于产品预测,并利用深度强化学习构建了动态乙烯调度框架以应对供应链波动,提高生产效益。

怜星夜思:

1、文中提到的SCGN模型在预测精度和计算速度上都表现出色,但实际工业环境中数据复杂度更高,噪声也更多,SCGN模型的鲁棒性如何?在实际应用中需要考虑哪些因素?
2、文章提到利用深度强化学习进行乙烯动态调度,取得了不错的效果。但强化学习的训练通常需要大量的样本和计算资源,在化工生产这种高风险、低容错的场景下,如何保证强化学习模型的安全性和稳定性?
3、李浩然的研究主要集中在石化行业,化工行业的其他细分领域,例如精细化工、制药等,大数据技术的应用前景如何?有哪些潜在的挑战和机遇?

原文内容

图片


导读


为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。


我是来自化工系过程系统工程研究所和工业大数据系统与应用北京市重点实验室的四年级博士研究生李浩然,导师是邱彤教授。作为化工与大数据交叉方向的研究生,我在2020年秋季学期研究生入学时选修了大数据提升项目,而大数据项目也成为了我的研究生科研之路的起点。

图片

李浩然个人生活照


在大数据项目中,我共选修了4门课程。《大数据分析(B)》是我选修的第一门课程,由计算机系朱文武老师授课。在这门课上我对数据统计分析的数学基础、大数据的分析方法以及大数据分析系统和平台等知识有了较为初步的认识,在课程最终的大作业中我们小组完成了一个企业非法集资风险预测的项目,通过集成学习模型LightGBM和CatBoost进行训练,最终的F1-score达到0.83,尽管这一成绩离最高成绩还有差距,但是通过这个项目我也逐渐感受到了大数据分析的魅力。在这门课程结束之后,我对于机器学习和深度学习产生了更加浓厚的兴趣,所以又分别选修了计算机系朱军老师授课的《统计学习理论与应用》和软件学院龙明盛老师授课的《深度学习》,这两门课程也让我更加深入的掌握了机器学习和深度学习的方法,特别是对于卷积神经网络、图神经网络、因果推断、强化学习等主题的学习直接推动了我自己此后的科研进展。完成了这三门之后,在《大数据实践》课程中,我们小组参与了网帅科技(北京)有限公司的课题“基于浮动车数据的城市交通运行特征分析”,通过浮动车速度数据分析确定各等级道路阈值,对路网速度进行时空特征分析、城市交通运行状态分析、使用交通运行状态数据,挖掘城市道路交通状态的潜在规律。可以说,这四门课程为我打开了大数据和人工智能的大门,也指引着我结合自身的化工专业知识对于化工大数据进行更加深入的探索。


完成大数据能力提升项目的全部课程之后,我开始结合自己的科研方向进行思考。化工行业是一个拥有海量工业数据的行业,以石化行业为例,企业在生产过程中会在分布式控制系统(DCS)和制造执行系统(MES)中存储反映生产状态的数据,从这些数据中中开展数据挖掘、建模工作能够帮助我们监测系统运行状态、进行故障预警与诊断、对于关键指标进行优化。因此,我选定了流程制造行业的大数据建模作为我的科研初探方向。


我参与的第一个与大数据相关的工业项目是基于工业互联网平台的流程行业生产线数字孪生系统(科技创新2030—“新一代人工智能”重大项目)。这个项目旨在针对柳州钢铁集团的炼铁生产线开展数字孪生建模,建立从高炉、烧结机等物理实体到信息实体的映射,从而对炼铁设备进行全生命周期的健康监控。我所关注的生产单元是烧结,也是高炉炼铁系统中的重要生产单元,其生产水平高低直接关系炼铁企业的生产效益。烧结过程具有时滞性和非线性特征,为了实现对烧结生产状态的准确预测,我综合了自相关分析、收敛交叉映射和误差反向传播神经网络等方法,融合因果性机理和黑箱模型,建立了基于因果分析的烧结生产状态预测模型。该模型通过因果分析层选取解释变量集、自相关窗口和因果性窗口,并通过神经网络层实现对6个烧结生产状态关键变量的准确预测。经过工业数据测试,该模型预测平均误差控制在0.5%~3.1%之间,能够有效辅助工厂进行烧结状态调整。

图片 

图片
柳州钢铁集团烧结厂中控室采集工业数据


柳州钢铁的项目让我真正体会到了大数据在工业实践中能够发挥的巨大作用,也坚定了我继续开展交叉研究的信心。此后,我的研究工作主要围绕石化行业中最重要的产品-乙烯的智能化生产展开,主要开展了基于大数据的乙烯生产建模与优化研究。


在目前和可预见的将来,蒸汽裂解是生产乙烯和其他烯烃产品的主要工艺。因此,蒸汽裂解的实时优化对提高原料利用率至关重要,其瓶颈在于预测精度和计算速度。近年来,深度学习以其强大的拟合能力和快速的计算速度应运而生。然而,目前还缺乏一种合理的神经网络,可以结合乙烯裂解反应(ECR)网络进行有效的特征提取。结合在深度学习课程中学习的图神经网络,我和课题组同学共同提出了一种创新的蒸汽裂解图网络(SCGN),该网络在ECR网络上应用图卷积网络来提取有效的特征用于产品预测。SCGN在模拟数据集(0.05wt%)和工业案例(0.13wt%)上实现了很小的平均绝对误差,以及较短的计算时间(~0.02s),显示了在线应用的巨大潜力。此外,SCGN可以精细地可视化原料组成和操作条件对产品的影响,从数据驱动的角度直观地了解蒸汽裂解过程。


由于供应链波动的存在,乙烯生产可能出现原料供应不足、产品分配不合理等问题,降低了生产的稳定性和经济效益。在这种情况下,乙烯裂解炉系统的动态调度对乙烯的安全高效生产至关重要。乙烯生产是由焦化引起的多裂化装置的半连续过程,因此乙烯裂解炉系统的调度问题本身就是一个复杂的混合整数非线性优化问题。如果进一步考虑原料(乙烷、石脑油、轻烃等)的供应和价格以及产品(乙烯、丙烯等)价格等供应链参数的波动,问题的复杂性将显著增加,使用常规优化方法难以解决。


为了解决这一问题,我将深度强化学习引入乙烯动态调度问题,提出了一个基于深度强化学习的动态乙烯调度框架,包括乙烯调度马尔可夫决策过程(MDP)环境和深度q-网络(DQN)决策网络。通过与文献案例的比较分析,该框架显示出每日收入显著提高5.7%,显示出对供应链波动的强大抵御能力。


大数据能力项目为我的科研之路奠定了良好的基础,未来我也将继续开展化工与大数据的交叉研究,为化工行业智能化转型升级贡献力量。


图片
课题组师生共同参加第33届欧洲计算机辅助过程工程研讨会(ESCAPE33)

编辑:于腾凯
校对:梁锦程


引用一下问题:SCGN模型的鲁棒性如何?我觉得任何模型从实验室到实际应用都有一个适应过程,SCGN应该也不例外。工业数据噪声大,需要考虑数据预处理、模型参数调整等问题,甚至模型本身的结构可能也需要根据实际情况进行改进。实际应用中,除了数据质量,还需要考虑计算资源、实时性要求等等。

SCGN模型鲁棒性确实是个问题。我猜想,可能需要结合一些领域知识来做特征工程,或者在模型中加入一些物理约束,这样才能更好地应对工业数据的复杂性和噪声。另外,工业环境中数据的实时获取和处理也是个挑战,这需要高效的数据采集和处理系统来支撑。

关于强化学习模型安全性和稳定性,我想到的是不是可以用数字孪生技术?先在虚拟环境中充分训练和测试模型,确保安全可靠后再应用到实际生产中。另外,可以考虑结合一些专家经验或规则,对强化学习模型的输出进行约束和调整,降低风险。

关于大数据在化工其他细分领域的应用,我感觉精细化工和制药对数据质量要求更高,数据获取也更难。但如果能有效利用大数据,可以优化反应路径、提高产品质量、加速新药研发等等,潜力巨大。

其他细分领域,比如制药,我觉得大数据可以用来做药物筛选、个性化医疗等等。挑战在于数据的隐私保护和安全性,以及模型的可解释性。机遇在于,如果能突破这些挑战,可以为行业带来革命性的变化。

精细化工和制药领域,数据量可能不如石化行业那么大,但数据的多样性和复杂性更高。这需要更精细的数据处理和分析方法,以及更专业的领域知识。我觉得,迁移学习或许是一个不错的方向,可以利用石化行业的大数据模型来辅助其他细分领域的研究。

针对“SCGN模型的鲁棒性如何”这个问题,我认为可以从模型的泛化能力和抗噪声能力两方面来考虑。泛化能力方面,可以考虑采用交叉验证、留一法等方法来评估模型在不同数据集上的表现;抗噪声能力方面,可以尝试添加一些噪声数据进行训练,或者采用一些抗噪声的训练技巧,比如dropout、正则化等。另外,实际应用中还需要考虑模型的可解释性,以便更好地理解模型的预测结果。

对于“如何保证强化学习模型的安全性和稳定性”这个问题,我的想法是,可以采用一些安全的强化学习算法,例如约束型强化学习,在训练过程中就加入安全约束。此外,可以先用历史数据进行离线训练,再结合在线学习逐步优化模型,这样可以降低在线学习的风险。

我觉得这个问题很关键。强化学习在化工生产中的应用,安全是第一位的。除了数字孪生和专家经验,还可以考虑多智能体强化学习,让多个智能体协同控制生产过程,提高系统的容错性和稳定性。当然,这需要更复杂的模型和算法。