清华化工博士分享如何通过大数据项目提升自身能力,并在科研和工业实践中应用大数据技术,助力化工行业智能化转型。
原文标题:许文乐:我的大数据能力提升与复合型科研成长之路 | 提升之路系列(一)
原文作者:数据派THU
冷月清谈:
1. **理论学习:** 通过《大数据分析(B)》和《深度学习》等课程,构建了大数据和深度学习技术的系统性知识体系,掌握了数据清洗、特征工程、模型构建等全流程,并深入理解了CNN、RNN、Transformer等算法背后的原理。
2. **科研创新:** 依托项目技术视野,探索人工智能在化工领域的应用。例如,针对微化工场景中液滴/气泡分析的痛点,开发了MicroFlowSAM算法,实现了零标注下的液滴高精度分割;针对炼油工业催化裂化过程优化问题,提出了融合机理模型梯度信息的神经网络训练方法,实现了机理可解释性与深度学习计算高效性的统一。
3. **实践与工业项目:** 将大数据能力应用于实际工程中,例如在宝洁公司开发ImageRAG系统,将科学图像创作周期从数周缩短至分钟级;参与合成氨装置关键变量数值建模项目,构建时序预测框架,实现了对关键工艺指标的高精度实时预测。
作者强调,通过该项目,其已能熟练运用大模型、机器视觉和时序预测技术解决科研与工程难题,未来将继续深耕智能过程系统工程(iPSE)领域,为中国化工行业的智能化转型贡献力量。
怜星夜思:
2、MicroFlowSAM算法在“零人工标注、零训练”模式下实现液滴高精度分割,这个技术突破的意义在哪里?如果想进一步提升该算法的精度和泛化能力,可以从哪些方面入手?
3、文章提到将大模型应用于“去污原理”等特定场景时存在“幻觉”问题,为什么通用文生图模型在这种场景下会失效?从技术角度看,ImageRAG动态参考引导图像生成系统是如何解决这个问题的?
原文内容

导读
导读
为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。
当前,新一轮科技革命和产业变革突飞猛进,作为国民经济支柱的化学工业正面临着数字化、智能化的深刻转型。在进入清华大学化学工程系过程系统工程(PSE)研究所攻读博士学位之初,我便深刻意识到,传统的化工研究范式正在经历剧变。新一代人工智能技术正在推动PSE从过去的“PSE+AI”的点状探索阶段,迈向“AI+PSE”的深度应用阶段,并最终将实现向智能过程系统工程(iPSE)的全面融合创新转变。
然而,作为一名传统化工背景的学生,面对汹涌而来的数据浪潮,我深感自身的知识储备存在“短板”:既有的工程思维虽然严谨,但缺乏处理海量高维数据的手段;对计算机科学的理解往往停留在表面,难以触及算法的内核。而“大数据能力提升项目”的学习历程,不仅弥补了我计算机基础的薄弱环节,更重构了我的认知体系,提升了我的大数据思维,锻炼了我运用数智技术解决复杂工程问题的实战能力。以下,我将从理论构建、科研创新、工程实践三个维度,汇报我的成长之路。
1. 学习
大数据项目带给我最为直观且基础的提升,当属构建了大数据和深度学习技术的系统性知识体系。在《大数据分析(B)》课程上,我第一次系统地接触了数据清洗、特征工程、模型构建到评估验证的全流程,学会了如何用统计学的眼光去审视数据,理解数据背后的分布规律。随后的《深度学习》课程更是让我从底层算法角度触碰到了智能的本质。课堂上,老师不仅抽丝剥茧地解析了CNN、RNN、Transformer等基础网络架构,更引导我们深入思考算法背后的数学原理与优化逻辑。这一阶段的学习充满了挑战,但也伴随着巨大的成就感。在课程的大作业项目中,我们团队选择了微化工场景中的气泡/液滴识别作为切入点,该课程作业的初步成果,也为我后续的高水平论文发表奠定了坚实基础。
2. 科研
依托大数据项目构建的技术视野,我致力于探索人工智能在化工领域的深度应用,首个突破集中在微化工场景。针对传统微化工设备中液滴/气泡多相流视频分析严重依赖人工标注、效率低下的痛点,我结合项目中所学的计算机视觉技术,创新性地提取液滴运动特征作为提示(Prompt),开发了MicroFlowSAM算法。该算法实现了在“零人工标注、零训练”模式下对高速视频流中液滴的高精度自动分割。相关成果于2024年在国内过程系统工程年会(CPSE)作口头报告,荣获优秀论文奖二等奖,并被推荐至SCI期刊发表。目前,该算法已被推广应用至实验室多个后续科研项目中。
我还将研究范畴拓展至实际的炼油工业核心装置,针对现有催化裂化过程实时优化过程中机理模型计算负荷大、纯数据模型泛化能力弱的现状,我利用主动学习采样方法构建了机理数据集,并创新性地提出将机理模型的梯度信息融入神经网络训练。这种“物理信息感知”建模策略,成功实现了机理可解释性与深度学习计算高效性的统一,相关成果已在过程系统工程领域国际会议《ESCAPE35》上作口头报告。
3. 实践与工业项目
依托项目构建的技术底座,我在博士二年级暑期赴宝洁公司(P&G)开展实践,负责“动态图片查询与生成”课题。针对通用文生图模型在“去污原理”等特定场景下存在严重“幻觉”的痛点,我主导开发了ImageRAG动态参考引导图像生成系统。技术上,我构建了“生成-评估-修正”的自动化闭环:利用大语言模型将抽象的商业需求转化为精确的工程Prompt,并引入视觉语言模型作为智能判别器进行校验。此外,我完成了系统前端的可视化部署,使得设计团队能够通过简单交互,将高精度科学图像的创作周期从数周缩短至分钟级,该成果显著提升了企业研发与营销的生产力。
为响应“把论文写在祖国大地上”的号召,我进一步将大数据能力应用于工程一线,深度参与了某合成氨装置关键变量数值建模技术开发项目。针对工业现场数据高噪声、非平稳的特征,我构建了涵盖数据清洗、变量筛选、特征工程到模型验证的系统性时序预测框架。该方案成功实现了对装置关键工艺指标的高精度实时预测,为操作人员提供了可靠的超前工况调整依据,在优化生产效率的同时,有效降低了潜在运行风险与经济损失。
4. 总结与展望



