化工博士的大数据能力提升之路：理论、科研与实践的融合

DatapiTHU · 2026 年1 月 29 日 12:55

清华化工博士分享如何通过大数据项目提升自身能力，并在科研和工业实践中应用大数据技术，助力化工行业智能化转型。

原文标题：许文乐：我的大数据能力提升与复合型科研成长之路 | 提升之路系列（一）

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247664703&idx=1&sn=f7cd1437084d184e0dc91a84760cd620&

冷月清谈：

本文作者分享了其作为清华大学化工系博士生，如何通过参与“大数据能力提升项目”弥补自身在数据处理和计算机科学方面的短板，并提升大数据思维和实战能力的过程。主要从以下三个方面展开：

1. **理论学习：** 通过《大数据分析（B）》和《深度学习》等课程，构建了大数据和深度学习技术的系统性知识体系，掌握了数据清洗、特征工程、模型构建等全流程，并深入理解了CNN、RNN、Transformer等算法背后的原理。
2. **科研创新：** 依托项目技术视野，探索人工智能在化工领域的应用。例如，针对微化工场景中液滴/气泡分析的痛点，开发了MicroFlowSAM算法，实现了零标注下的液滴高精度分割；针对炼油工业催化裂化过程优化问题，提出了融合机理模型梯度信息的神经网络训练方法，实现了机理可解释性与深度学习计算高效性的统一。
3. **实践与工业项目：** 将大数据能力应用于实际工程中，例如在宝洁公司开发ImageRAG系统，将科学图像创作周期从数周缩短至分钟级；参与合成氨装置关键变量数值建模项目，构建时序预测框架，实现了对关键工艺指标的高精度实时预测。

作者强调，通过该项目，其已能熟练运用大模型、机器视觉和时序预测技术解决科研与工程难题，未来将继续深耕智能过程系统工程（iPSE）领域，为中国化工行业的智能化转型贡献力量。

怜星夜思：

1、文章中提到的“AI+PSE”深度应用阶段和最终向智能过程系统工程（iPSE）的全面融合创新转变，具体会给化工行业带来哪些颠覆性的改变？
2、MicroFlowSAM算法在“零人工标注、零训练”模式下实现液滴高精度分割，这个技术突破的意义在哪里？如果想进一步提升该算法的精度和泛化能力，可以从哪些方面入手？
3、文章提到将大模型应用于“去污原理”等特定场景时存在“幻觉”问题，为什么通用文生图模型在这种场景下会失效？从技术角度看，ImageRAG动态参考引导图像生成系统是如何解决这个问题的？

原文内容

导读

为了发挥清华大学多学科优势，搭建跨学科交叉融合平台，创新跨学科交叉培养模式，培养具有大数据思维和应用创新的“π”型人才，由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块，形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式，显著提升了学生大数据分析能力和创新应用能力。

当前，新一轮科技革命和产业变革突飞猛进，作为国民经济支柱的化学工业正面临着数字化、智能化的深刻转型。在进入清华大学化学工程系过程系统工程（PSE）研究所攻读博士学位之初，我便深刻意识到，传统的化工研究范式正在经历剧变。新一代人工智能技术正在推动PSE从过去的“PSE+AI”的点状探索阶段，迈向“AI+PSE”的深度应用阶段，并最终将实现向智能过程系统工程（iPSE）的全面融合创新转变。

然而，作为一名传统化工背景的学生，面对汹涌而来的数据浪潮，我深感自身的知识储备存在“短板”：既有的工程思维虽然严谨，但缺乏处理海量高维数据的手段；对计算机科学的理解往往停留在表面，难以触及算法的内核。而“大数据能力提升项目”的学习历程，不仅弥补了我计算机基础的薄弱环节，更重构了我的认知体系，提升了我的大数据思维，锻炼了我运用数智技术解决复杂工程问题的实战能力。以下，我将从理论构建、科研创新、工程实践三个维度，汇报我的成长之路。

1. 学习

大数据项目带给我最为直观且基础的提升，当属构建了大数据和深度学习技术的系统性知识体系。在《大数据分析（B）》课程上，我第一次系统地接触了数据清洗、特征工程、模型构建到评估验证的全流程，学会了如何用统计学的眼光去审视数据，理解数据背后的分布规律。随后的《深度学习》课程更是让我从底层算法角度触碰到了智能的本质。课堂上，老师不仅抽丝剥茧地解析了CNN、RNN、Transformer等基础网络架构，更引导我们深入思考算法背后的数学原理与优化逻辑。这一阶段的学习充满了挑战，但也伴随着巨大的成就感。在课程的大作业项目中，我们团队选择了微化工场景中的气泡/液滴识别作为切入点，该课程作业的初步成果，也为我后续的高水平论文发表奠定了坚实基础。

2. 科研

依托大数据项目构建的技术视野，我致力于探索人工智能在化工领域的深度应用，首个突破集中在微化工场景。针对传统微化工设备中液滴/气泡多相流视频分析严重依赖人工标注、效率低下的痛点，我结合项目中所学的计算机视觉技术，创新性地提取液滴运动特征作为提示（Prompt），开发了MicroFlowSAM算法。该算法实现了在“零人工标注、零训练”模式下对高速视频流中液滴的高精度自动分割。相关成果于2024年在国内过程系统工程年会（CPSE）作口头报告，荣获优秀论文奖二等奖，并被推荐至SCI期刊发表。目前，该算法已被推广应用至实验室多个后续科研项目中。

我还将研究范畴拓展至实际的炼油工业核心装置，针对现有催化裂化过程实时优化过程中机理模型计算负荷大、纯数据模型泛化能力弱的现状，我利用主动学习采样方法构建了机理数据集，并创新性地提出将机理模型的梯度信息融入神经网络训练。这种“物理信息感知”建模策略，成功实现了机理可解释性与深度学习计算高效性的统一，相关成果已在过程系统工程领域国际会议《ESCAPE35》上作口头报告。

3. 实践与工业项目

依托项目构建的技术底座，我在博士二年级暑期赴宝洁公司（P&G）开展实践，负责“动态图片查询与生成”课题。针对通用文生图模型在“去污原理”等特定场景下存在严重“幻觉”的痛点，我主导开发了ImageRAG动态参考引导图像生成系统。技术上，我构建了“生成-评估-修正”的自动化闭环：利用大语言模型将抽象的商业需求转化为精确的工程Prompt，并引入视觉语言模型作为智能判别器进行校验。此外，我完成了系统前端的可视化部署，使得设计团队能够通过简单交互，将高精度科学图像的创作周期从数周缩短至分钟级，该成果显著提升了企业研发与营销的生产力。

为响应“把论文写在祖国大地上”的号召，我进一步将大数据能力应用于工程一线，深度参与了某合成氨装置关键变量数值建模技术开发项目。针对工业现场数据高噪声、非平稳的特征，我构建了涵盖数据清洗、变量筛选、特征工程到模型验证的系统性时序预测框架。该方案成功实现了对装置关键工艺指标的高精度实时预测，为操作人员提供了可靠的超前工况调整依据，在优化生产效率的同时，有效降低了潜在运行风险与经济损失。

4. 总结与展望

回顾这一段“能力提升之路”，从最初面对算法推导时的迷茫，到如今能够熟练运用大模型、机器视觉和时序预测技术解决科研与工程难题，我的每一步成长都离不开“大数据能力提升项目”的滋养。未来，我将继续深耕在智能过程系统工程（iPSE）这一前沿领域，进一步探索基于大数据的化工过程自主优化与智能决策，致力于打破数据与机理之间的壁垒。我将带着大数据项目赋予我的力量，不忘初心，砥砺前行，努力成长为一名既懂化工工艺、又精通人工智能的复合型拔尖创新人才，为中国化工行业的智能化转型贡献自己的一份力量。

编辑：文婧

校对：龚力

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

SapphireCat928 · 2026 年1 月 30 日 01:52

我觉得这个问题的本质是知识的迁移。通用模型虽然强大，但在特定领域，还需要针对性地进行训练和优化。ImageRAG提供了一个很好的思路，即如何利用外部知识来提升模型的表现。但是，如何构建高质量的参考数据库，仍然是一个挑战。

QuietKoala728 · 2026 年1 月 30 日 23:23

我觉得最直接的影响就是人才需求的变化。未来的化工工程师可能需要掌握更多的数据分析和机器学习技能，才能在AI主导的工厂里发挥作用。那些不具备这些技能的人可能会面临被淘汰的风险。

Nexus38d · 2026 年1 月 31 日 00:54

ImageRAG的核心在于“动态参考引导”。具体来说，它可能通过以下方式实现：1. 构建一个包含大量相关图像的数据库。2. 在生成图像时，根据Prompt，从数据库中检索相似的图像作为参考。3. 利用参考图像的信息，约束生成过程，确保生成的图像符合科学原理。这个思路其实有点像“开卷考试”，让模型在已有知识的基础上进行创作。

LaughingDolphin634 · 2026 年2 月 1 日 23:19

这个问题很有意思！“AI+PSE”和iPSE的融合，不仅仅是效率提升，更可能是整个化工行业的重新定义。想象一下，未来的化工厂可能完全由AI控制，自主优化生产流程，甚至可以根据市场需求，自动调整产品配方。这简直是科幻电影里的场景！

RubyDragon432 · 2026 年2 月 2 日 05:42

从技术角度分析，进一步提升精度和泛化能力，可以考虑以下几个方面：1. 引入更先进的图像处理技术，例如对抗生成网络（GAN），用于生成更多样化的训练数据。2. 结合物理模型，利用先验知识约束分割结果。3. 探索自监督学习方法，让算法能够从无标注数据中学习特征。

MorningDew906 · 2026 年2 月 3 日 19:58

这个突破的关键在于降低了对人工标注数据的依赖，要知道，在工业领域，标注数据往往是成本最高、最耗时的环节。零标注意味着可以更快地部署算法，加速科研和工程进度。不过，我更好奇的是，这个算法在复杂光照条件或者液滴形态多变的情况下，表现如何？

Torrent81h · 2026 年2 月 4 日 05:11

“幻觉”问题是大模型的一个通病，尤其是在面对训练数据不足或者分布不均匀的场景时。在“去污原理”这种专业领域，大模型可能缺乏相关的知识，导致生成不符合科学事实的图像。ImageRAG的思路是通过引入动态参考，给模型提供更明确的引导，避免它胡编乱造。