化工博士的大数据能力提升之路:理论、科研与实践的融合

清华化工博士分享如何通过大数据项目提升自身能力,并在科研和工业实践中应用大数据技术,助力化工行业智能化转型。

原文标题:许文乐:我的大数据能力提升与复合型科研成长之路 | 提升之路系列(一)

原文作者:数据派THU

冷月清谈:

本文作者分享了其作为清华大学化工系博士生,如何通过参与“大数据能力提升项目”弥补自身在数据处理和计算机科学方面的短板,并提升大数据思维和实战能力的过程。主要从以下三个方面展开:

1. **理论学习:** 通过《大数据分析(B)》和《深度学习》等课程,构建了大数据和深度学习技术的系统性知识体系,掌握了数据清洗、特征工程、模型构建等全流程,并深入理解了CNN、RNN、Transformer等算法背后的原理。
2. **科研创新:** 依托项目技术视野,探索人工智能在化工领域的应用。例如,针对微化工场景中液滴/气泡分析的痛点,开发了MicroFlowSAM算法,实现了零标注下的液滴高精度分割;针对炼油工业催化裂化过程优化问题,提出了融合机理模型梯度信息的神经网络训练方法,实现了机理可解释性与深度学习计算高效性的统一。
3. **实践与工业项目:** 将大数据能力应用于实际工程中,例如在宝洁公司开发ImageRAG系统,将科学图像创作周期从数周缩短至分钟级;参与合成氨装置关键变量数值建模项目,构建时序预测框架,实现了对关键工艺指标的高精度实时预测。

作者强调,通过该项目,其已能熟练运用大模型、机器视觉和时序预测技术解决科研与工程难题,未来将继续深耕智能过程系统工程(iPSE)领域,为中国化工行业的智能化转型贡献力量。

怜星夜思:

1、文章中提到的“AI+PSE”深度应用阶段和最终向智能过程系统工程(iPSE)的全面融合创新转变,具体会给化工行业带来哪些颠覆性的改变?
2、MicroFlowSAM算法在“零人工标注、零训练”模式下实现液滴高精度分割,这个技术突破的意义在哪里?如果想进一步提升该算法的精度和泛化能力,可以从哪些方面入手?
3、文章提到将大模型应用于“去污原理”等特定场景时存在“幻觉”问题,为什么通用文生图模型在这种场景下会失效?从技术角度看,ImageRAG动态参考引导图像生成系统是如何解决这个问题的?

原文内容

图片


导读

为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。



当前,新一轮科技革命和产业变革突飞猛进,作为国民经济支柱的化学工业正面临着数字化、智能化的深刻转型。在进入清华大学化学工程系过程系统工程(PSE)研究所攻读博士学位之初,我便深刻意识到,传统的化工研究范式正在经历剧变。新一代人工智能技术正在推动PSE从过去的“PSE+AI”的点状探索阶段,迈向“AI+PSE”的深度应用阶段,并最终将实现向智能过程系统工程(iPSE)的全面融合创新转变。


然而,作为一名传统化工背景的学生,面对汹涌而来的数据浪潮,我深感自身的知识储备存在“短板”:既有的工程思维虽然严谨,但缺乏处理海量高维数据的手段;对计算机科学的理解往往停留在表面,难以触及算法的内核。而“大数据能力提升项目”的学习历程,不仅弥补了我计算机基础的薄弱环节,更重构了我的认知体系,提升了我的大数据思维,锻炼了我运用数智技术解决复杂工程问题的实战能力。以下,我将从理论构建、科研创新、工程实践三个维度,汇报我的成长之路。



1. 学习


大数据项目带给我最为直观且基础的提升,当属构建了大数据和深度学习技术的系统性知识体系。在《大数据分析(B)》课程上,我第一次系统地接触了数据清洗、特征工程、模型构建到评估验证的全流程,学会了如何用统计学的眼光去审视数据,理解数据背后的分布规律。随后的《深度学习》课程更是让我从底层算法角度触碰到了智能的本质。课堂上,老师不仅抽丝剥茧地解析了CNN、RNN、Transformer等基础网络架构,更引导我们深入思考算法背后的数学原理与优化逻辑。这一阶段的学习充满了挑战,但也伴随着巨大的成就感。在课程的大作业项目中,我们团队选择了微化工场景中的气泡/液滴识别作为切入点,该课程作业的初步成果,也为我后续的高水平论文发表奠定了坚实基础。


2. 科研


依托大数据项目构建的技术视野,我致力于探索人工智能在化工领域的深度应用,首个突破集中在微化工场景。针对传统微化工设备中液滴/气泡多相流视频分析严重依赖人工标注、效率低下的痛点,我结合项目中所学的计算机视觉技术,创新性地提取液滴运动特征作为提示(Prompt),开发了MicroFlowSAM算法。该算法实现了在“零人工标注、零训练”模式下对高速视频流中液滴的高精度自动分割。相关成果于2024年在国内过程系统工程年会(CPSE)作口头报告,荣获优秀论文奖二等奖,并被推荐至SCI期刊发表。目前,该算法已被推广应用至实验室多个后续科研项目中。



我还将研究范畴拓展至实际的炼油工业核心装置,针对现有催化裂化过程实时优化过程中机理模型计算负荷大、纯数据模型泛化能力弱的现状,我利用主动学习采样方法构建了机理数据集,并创新性地提出将机理模型的梯度信息融入神经网络训练。这种“物理信息感知”建模策略,成功实现了机理可解释性与深度学习计算高效性的统一,相关成果已在过程系统工程领域国际会议《ESCAPE35》上作口头报告。



3. 实践与工业项目


依托项目构建的技术底座,我在博士二年级暑期赴宝洁公司(P&G)开展实践,负责“动态图片查询与生成”课题。针对通用文生图模型在“去污原理”等特定场景下存在严重“幻觉”的痛点,我主导开发了ImageRAG动态参考引导图像生成系统。技术上,我构建了“生成-评估-修正”的自动化闭环:利用大语言模型将抽象的商业需求转化为精确的工程Prompt,并引入视觉语言模型作为智能判别器进行校验。此外,我完成了系统前端的可视化部署,使得设计团队能够通过简单交互,将高精度科学图像的创作周期从数周缩短至分钟级,该成果显著提升了企业研发与营销的生产力。


为响应“把论文写在祖国大地上”的号召,我进一步将大数据能力应用于工程一线,深度参与了某合成氨装置关键变量数值建模技术开发项目。针对工业现场数据高噪声、非平稳的特征,我构建了涵盖数据清洗、变量筛选、特征工程到模型验证的系统性时序预测框架。该方案成功实现了对装置关键工艺指标的高精度实时预测,为操作人员提供了可靠的超前工况调整依据,在优化生产效率的同时,有效降低了潜在运行风险与经济损失。


4. 总结与展望


回顾这一段“能力提升之路”,从最初面对算法推导时的迷茫,到如今能够熟练运用大模型、机器视觉和时序预测技术解决科研与工程难题,我的每一步成长都离不开“大数据能力提升项目”的滋养。未来,我将继续深耕在智能过程系统工程(iPSE)这一前沿领域,进一步探索基于大数据的化工过程自主优化与智能决策,致力于打破数据与机理之间的壁垒。我将带着大数据项目赋予我的力量,不忘初心,砥砺前行,努力成长为一名既懂化工工艺、又精通人工智能的复合型拔尖创新人才,为中国化工行业的智能化转型贡献自己的一份力量。

编辑:文婧
校对:龚力

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


我觉得这个问题的本质是知识的迁移。通用模型虽然强大,但在特定领域,还需要针对性地进行训练和优化。ImageRAG提供了一个很好的思路,即如何利用外部知识来提升模型的表现。但是,如何构建高质量的参考数据库,仍然是一个挑战。

我觉得最直接的影响就是人才需求的变化。未来的化工工程师可能需要掌握更多的数据分析和机器学习技能,才能在AI主导的工厂里发挥作用。那些不具备这些技能的人可能会面临被淘汰的风险。

ImageRAG的核心在于“动态参考引导”。具体来说,它可能通过以下方式实现:1. 构建一个包含大量相关图像的数据库。2. 在生成图像时,根据Prompt,从数据库中检索相似的图像作为参考。3. 利用参考图像的信息,约束生成过程,确保生成的图像符合科学原理。这个思路其实有点像“开卷考试”,让模型在已有知识的基础上进行创作。

这个问题很有意思!“AI+PSE”和iPSE的融合,不仅仅是效率提升,更可能是整个化工行业的重新定义。想象一下,未来的化工厂可能完全由AI控制,自主优化生产流程,甚至可以根据市场需求,自动调整产品配方。这简直是科幻电影里的场景!

从技术角度分析,进一步提升精度和泛化能力,可以考虑以下几个方面:1. 引入更先进的图像处理技术,例如对抗生成网络(GAN),用于生成更多样化的训练数据。2. 结合物理模型,利用先验知识约束分割结果。3. 探索自监督学习方法,让算法能够从无标注数据中学习特征。

这个突破的关键在于降低了对人工标注数据的依赖,要知道,在工业领域,标注数据往往是成本最高、最耗时的环节。零标注意味着可以更快地部署算法,加速科研和工程进度。不过,我更好奇的是,这个算法在复杂光照条件或者液滴形态多变的情况下,表现如何?

“幻觉”问题是大模型的一个通病,尤其是在面对训练数据不足或者分布不均匀的场景时。在“去污原理”这种专业领域,大模型可能缺乏相关的知识,导致生成不符合科学事实的图像。ImageRAG的思路是通过引入动态参考,给模型提供更明确的引导,避免它胡编乱造。