数据要素:驱动制造业智能升级与场景应用持续演化的核心引擎

清华讲座洞察数据要素驱动数字化转型,统一治理、敏捷应用与AI融合赋能企业业务智能生长。

原文标题:干货 | 清华大数据智能讲堂:以数据要素驱动场景应用持续生长

原文作者:数据派THU

冷月清谈:

中冶赛迪信息CTO李强博士在清华大数据智能讲堂上,深入探讨了数据要素在企业数字化转型中的核心作用及面临的挑战。文章首先阐释了数据从符号演变为重要生产要素的价值,并指出数据规模复杂性提升、业务应用场景极大丰富化、潜藏价值挖掘困难是数字化转型中的三大挑战。为应对这些挑战,报告分享了清华与中冶赛迪的实践经验:通过构建扁平化的工业互联网平台,实现IT/OT数据的统一汇聚和治理,形成可运营的数据资产,确保数据“找得到、看得懂、用得上、控得住”。同时,为应对业务场景的快速变化,企业构建了敏捷工具平台,赋能业务人员快速开发迭代各类应用。在智能应用方面,结合钢铁行业的具体案例(如转炉火焰识别、车间除尘),报告演示了如何通过预训练的行业垂直AI大模型,结合迁移学习和知识蒸馏,实现智能应用的广泛落地。讲座总结认为,数字化转型的核心在于实现“数据业务化”,即以数据来推进业务发展,重塑传统模式,最终构建一个全感知、全链接、全场景、全智能的数字世界。

怜星夜思:

1、文章提到了他们扁平化的新架构比传统的ISA95多层次架构更适应数字化转型。那在实际推广中,这种新架构会遇到哪些阻力或者挑战?是技术兼容问题、成本考量还是组织文化阻碍呢?
2、文章里提到数据治理的目的是形成数据资产,可以“找得到、看得懂、用得上、控得住”。但在很多企业,数据孤岛和数据质量问题很普遍,甚至数据权限管理一团糟。具体有哪些实用的方法或工具,能帮助企业更好地实现数据资产化,不仅仅是技术上,还包括管理和制度层面?
3、报告里提到了为钢铁行业预训练视觉大模型,再通过迁移学习和知识蒸馏落地到具体场景。这种“行业垂直大模型”的模式,在其他流程工业(比如化工、能源)或者离散制造(比如汽车、家电)领域,是否也同样适用?或者说,不同行业在构建这类大模型时,最大的差异点会在哪里?

原文内容

图片


下文整理自中冶赛迪信息CTO李强博士在清华大数据智能讲堂做的主题报告以数据要素驱动场景应用持续生长

大家好,今天的主题内容主要有四个部分。首先是数据要素的机遇和挑战。数字的本质是人类实践和劳动过程当中逐渐发明的一种记数符号。随着科学和实践的发展,数字已经成为了客观世界和人的实践的一种符号化表达。而数据是含有业务色彩的数字,是一种被业务定义了的数字。数据及其计算应用已经成为人类认识研究丰富而复杂的客观世界及其运动规律、人类实践规律的新方法和新模式。

从实践和经验中归结为:数据的价值体现于作为重要生产要素,不断持续卷入到再生产的循环过程当中。进入到数字化智能化时代,数据作为生产要素,不断卷入到再生产的循环过程当中,本身就应该催生更多元、更丰富的业务,不断去演化革新,产生更大的价值。

在数字化转型过程当中,我们总结出由数据要素引出的三大挑战。相比过去,数字化程度提升带来最直接的结果是数据的规模和复杂程度的显著提升,由此带来数据应用场景的极大丰富化。数据正在快速增长,类型更丰富,复杂度也更高,管理数据的难度指数级提升。

第一个挑战是数据应用场景极大丰富化。过去在工业领域,能够比较清晰地罗列出需要通过信息化系统解决的生产管理问题。但进入数字化转型时代,数据要推动业务发展,业务应用场景相较于过去几乎能够穷举的系统,会极大的丰富化。而如何在数据应用中应对业务场景的极大丰富化是第二大挑战。数据还潜藏了很多待挖掘的价值,这些价值无法通过局部数据直接识别出人类的认知与理解能力。随着人工智能大模型等技术的发展,智能应用场景的迸发已经成为必然趋势。第三个挑战是如何更好更多挖掘出数据的潜藏价值,实现智能应用场景的极大丰富化。

而应对这三大挑战,总结的经验是用统一数据治理,用数据和业务的适配来应对业务应用场景极大丰富化的挑战。最后把领域知识、工艺知识、机理知识和人工智能大模型做深度融合。

接下来对应三个方面的挑战来谈一谈探索和实践。

第一个方面是制造全流程,在数据融合治理方面的探索和实践。在制造业领域一直都是采用相对传统的ISA95的多层次架构,由底到上,分别有设备层、过程控制层、生产管理层、公司的运作及公辅层、运营管理层等等。在过去很长一段时间内,这个结构为制造型企业提供了很大的价值,它为流程工业的基地建设自动化、信息化提供了一个很好的架构蓝图。

随着数字化转型的推进,算力存储能力大幅提升,网络能力也在不断发展。在这个过程当中,是否依旧应该沿用过去的传统多层架构来构建整个工厂的自动化信息化?答案是可以创新。数字化转型时代,用数据推动业务的更新迭代和发展,传统多层架构的问题逐渐显现。原来的架构各环节聚焦点割裂,设备只关注于自身,过程控制只关注于局部的工序和过程,从工厂的整个计划排产管理再到经营,与整个制造过程相对脱节,数据孤岛很多,各层次之间工序横向之间很难协同,在这个状态下去推进数字化转型显然不现实

在探索和实践的过程当中,我们推动构建了一种新的扁平化架构,底层以工业互联网平台为核心,通过统一采集、汇聚和治理数据,形成提供数据服务的统一底座;这些经过治理的数据转化为数据资产,以供上层调用。在上层面向丰富的业务和智能应用场景,动态迭代构建越来越多的业务型APP或者智能型应用,让应用有生长的土壤,不断发展丰富,最大程度发挥数据要素本身的价值。

在过程当中,数据本身产生的众多关联以及面向业务工艺的建模,是上层业务应用智能应用更加丰富、发挥更大作用和价值的前提和基础。打造工业互联网平台,也是为了发挥好数据底座的核心作用,推动数据的价值释放。

在刚才提到的过程中,数据的汇聚并统一治理就显得格外重要,这是所有工作的基础。我们把企业的IT与OT数据汇聚融合并统一治理。在这个过程中涵盖了数据接入、数据资产的加工清洗以及资产管理、最终形成完整数据服务目录,使得应用能够方便地关联各种类型相关数据,让业务应用、智能应用能够发挥更大的价值。IT和OT数据分别对应制造型企业生产过程中产生的各种数据,通常叫做OT数据,大部分来自于设备传感器以及过程控制模型等等。IT数据通常指的是制造型企业的经营管理运营数据,包括企业订单、采购、计划、调度等等。IT数据以结构化数据为主,而 OT 数据则随着数字化转型(尤其是工业领域的数字化转型)的推进,现在变得越来越丰富。最主要的是生产时序数据,另外也有生产过程中的非结构化数据。OT数据是多模态的,这些数据要放在一起治理,面向整个工厂制造全流程,无论是数据量、复杂度,还是与业务本身的关联融合,是非常大的挑战。当中既有很多技术难题,也有需要深入进去才能够解决好的业务难题。

这涉及到数据治理。治理目的是形成数据资产,让企业灵活运营,总结为“找得到、看得懂、用得上、控得住”。在过程中,面向完整的制造流程,从原料进厂到成品出厂实现数据资产的管理和运营。总结经验是先标准设计,再建模开发,这是前提。规范设计里涵盖了基本的共性数据标准,还有命名规范、业务术语等等,更重要的是数据模型的设计以及指标体系的设计。它和具体的行业甚至是具体的企业关联度非常高。数据模型的设计涉及到主题域,不同的行业、企业,主题域都会有差别。以钢铁生产里的钢卷为例,钢卷本身是一个物理模型,围绕物理模型,如何把前续后续整个生产制造流程相关的 OT、IT数据做关联建模,实现模型数据的全面性和完整性,是整个资产开发过程中非常难的事情。在过程中需要和具体的业务工艺深度融合,跟具体企业的生产经营管理模式甚至是文化都有高度的关联性。需要深入调研以及共创的工作,才能让资产开发真正符合具体企业真实生产管理需要。在资产开发之后形成众多模型,这些模型从数字化的角度描绘了制造型企业的全局,针对这些模型和对象形成资产服务。资产服务涵盖开发、定义、管理、编排等等功能,目的是能够看得懂、用得上,实现数据资产的应用。最后一步是资产本身的应用,面向各种应用,让数据资产真正循环流入到生产过程当中。

做整个业务数据的建模,到底起什么作用?如果能够将数字化程度提高,并且把刚才提到的资产开发、业务建模做好,就可以创造很多的价值。它为我们提供了一种从数字化视角观察物理过程、对象活动的一种新的、全局化视野,本身就能创造很多的价值。拿数字钢卷举例,钢卷涉及到炼钢连铸、热轧、冷轧多个工序,但是传统多层架构工序相对局限,炼钢厂比较关注炼钢,轧钢厂比较关注轧钢,各自相对独立开展管理和工作,在过去信息化自动化时代,可能数据互通很难协同。

数据资产的开发和建模,目的是跨界面、跨工序、跨系统实现关联和整合。同时多元异构的数据也能在资产开发过程做关联建模。关联出来之后,对于日常生产的分析、监控以及降本增效,找到更多的优化点改进提升提供了很好的基础。

对于数据资产运营来讲,找得到、看得懂、用得上、控得住,是面向实际应用场景以及客户诉求期望达到的效果。在过程中,数据资产的汇聚形成的资产开发、加工之后的多主题目录,以及面向使用侧构建资产的服务目录,都是基础工作。现在有的工厂甚至因为数据资产的运用已经构建了专门部门以及专业岗位(数据角色),专门面向企业的数据资产开展价值挖掘工作。同时对于资产本身,也需要相应的管理。对于一个制造型企业来讲,如果能把IT和OT的全要素、全量、全流程数据进行统一的汇聚治理资产化,然后投入到循环应用当中,数字化转型的数据基础是非常扎实的。

第二个挑战是面向业务应用场景的极大丰富化。数据治理好需要使用,涉及到数据和业务的动态适配。以全流程智能工厂为例,智能工厂从原料进厂到成品出厂所有数据汇聚到一个平台,涉及到了20多万点的数据点位,覆盖3.5万台左右的设备。一个统一平台支撑了12大类的业务和智能的应用,目前已经迭代到了超过4000个具体的数据、业务或者智能应用。刚刚开始建设工厂的时候,我们能够认知到的基地所需要应用数量不足1000。但是随着投产上线,随着数据的汇聚,不断投入到再生产应用,有了越来越多的数据、业务或者智能型应用的需求。如果按照传统软件开发的模式和理解,一个应用就要花上几个月,但是在数字化转型时代,因为业务应用要极大丰富化,而极大丰富化是一个很快速的过程,无法容忍较慢的应用构建开发。

通过在平台上构建一系列的能力,比如通用集成组件,工业报表,还有掌上工厂移动端的应用,再到PC端或者现在中控室的大屏端,以及自主交互式分析等等,这些能力的构建都是为了面向不断变化的业务需求,提供各种称手适用的敏捷工具赋能业务人员和开发人员,基于需求快速构建各种智能应用持续改进。数字化时代的特点,相比于信息化的工具思维,它是一种迭代螺旋提升的思维,需要不断的持续迭代和改进。

举一些具体的例子,比如交互式分析,有了数据资产基础,相比于过去最大的提升在两方面。第一方面是工具能够让事前或者事后分析变得更加方便快捷。第二方面是因为数据做了全量的汇聚治理和关联,对于整个生产基地数据模型是完整的,在使用交互式分析时,数据输入相比于过去丰富了很多,从而可以帮助快速形成分析报告,都是在过程中将工具和数据资产进行联动融合,实现领域知识和数字技术的融合,而且数据维度更加全面,对于分析结果也有更好的保障。

再比如掌上工厂的构建,手机是工厂里的操作工人、组长等等各种角色日常工作当中随身携带并且高频使用的工具,除了非常特殊的操作环节,掌上工厂都能够帮助快速了解生产的方方面面。在当前需求下,掌上工厂的应用构建就需要变得非常敏捷高效。有了数据基础,又为企业在平台上构建了掌上工厂作为引擎。引擎里会自定义很多企业以及行业需要用到的各种组件,通过快捷交互式操作,形成面向不同岗位角色所需要的各种功能。而这些应用也在手机载体里不断生长和持续迭代。

再比如工业组态,过去也大量应用在整个生产过程中。现在有了更完整的数据链,能够想象到跨工序、跨界面的监视和控制需求,这些需求基于组态工具和数据资产,能够快捷地在平台上进行构建。

再比如报表,原来人工介入较多,数据质量不佳,数据收集整理繁琐。有了平台全量数据资产的支撑,再加上称手的工业报表引擎工具,比原来高效很多。

通用开发组件的主要作用是不断构建出业务型、智能型应用,快捷融入到整个统一平台上,通过平台统一管理。通用组件就是为了让任何一个新构建出来的应用在上线时就能与平台形成一体化联动体系。

最后是集成连接,各个基地里都会存在现有用途的各种系统,并不是要把基地过去建设的所有系统都推翻,这显然不现实,也不经济。那么必须考虑一个问题:现有的老旧的各种环节的系统工具如何能够和统一平台进行关联?我们构建了集成连接模块,通过各种方式把过去的系统进行连接,把所有的API进行纳管,纳管之后在统一平台上实现在业务应用编排过程当中调用或访问过去已有的各种类型的系统产生的数据,实现数据资产的完整。同时为整个应用构建提供一个兼容性更好,包容性更好的生态。

过去缺少在整个制造流程维度下的完整数字化,限制了钢铁企业生产技术和管理人员的想象力。原来模式下碎片化的数据孤岛,很难做到跨工序、跨界面、跨系统实现全局优化。

第三个挑战是智能应用场景极大丰富化的挑战,主要分享一下在融合领域知识的AI大模型方面做的探索和实践。以机器视觉来举例,第一个例子是面向炼钢过程当中的转炉火焰的识别。原来工厂里靠人眼做火焰识别,通过肉眼持续观察火焰,基于知识经验识别出转炉火焰的多种状态,比如跳闸、反干、喷溅等等,识别之后,再影响操作控制。这个过程可以改进,一方面是观察火焰对于人眼伤害很大,同时人总会有各种疏漏或者经验判断失误等等情况从而影响生产。通过机器视觉技术用智能相机持续观察火焰,并把画面实时传递到电脑屏幕上,操作工人只需要对着屏幕观察,或者收到提示的时候去看即可。相机本身内置了机器视觉算法,能够识别火焰的各种状态,识别准确率已经训练到非常不错的程度,识别到相应的状态之后,相应的分析数据还会传导到控制模块,实现相应的控制联动。这是抗火的例子,叫做转炉抗火,这个机器视觉的产品叫做金睛。目前转炉抗火的产品已经在10多个钢铁企业的转炉投入使用,效果比较显著。

第二个例子是炼钢车间除尘,对于制造型企业来讲,环保是非常重要的。原来在炼钢车间里面,工人是识别到扬尘之后,才做处理。为了规避时间延迟,会把炼钢车间里风机组功率调到比较大的程度。不管扬尘是什么状态,总能够被风机组快速吸收,但是这样的方式下有优化空间,这就是智能应用场景的需求。能否做到既节电又环保。我们通过机器视觉技术动态监测扬尘变化,非常精准识别到扬尘变化。然后通过变化分析,结合工艺控制模型,动态调节风机组的工作功率,既实现环保达标,同时又实现电耗降低。

在这些场景背后,我们为机器视觉技术构建了一整个技术体系。在最底下的边缘端,我们构建了一些硬件产品,比如钢铁,它的环境是非常复杂的,需要对整个硬件设备有更多的设计考量,才能够满足生产环境下稳定运行的需要。同时在中心端有面向设备和模型算法的管理,技术人员更多与中心端的系统打交道。在应用端机器视觉主要解决4类型的问题,定位、识别、测量和检测,在像钢铁这样的复杂的流程工业里面,这4类场景是非常丰富的,也奠定了智能应用场景极大丰富化的基础。

但是在过去做机器视觉效率比较低,都是单一场景去做机器视觉AI的小模型,从数据收集到最后模型上线调优达标,过程很漫长,效率很低,所以我们采用预训练的方式,预训练一个视觉大模型。我们总结了一个研发模式,通过大量高质量的样本数据采集,来预训练一个面向钢铁行业全流程多场景的行业垂直大模型。在大模型基础上,通过迁移学习构建形成专家模型,非常擅长某一类场景,具体到边缘端的具体场景落地,通过知识蒸馏形成边缘模型,这个边缘模型就是一个轻量化的模型,能够很便捷高效部署在智能相机里,稳定地在边缘端具体场景现场开展相应工作,帮助促进效率提升。同时大模型本身不断迭代的训练优化,又为精度带来了很大的促进作用。

我们讲到了数据要素带来的三大挑战,分别是数据、业务和智能应用场景的极大丰富化的挑战,以及应对这三大挑战层面的探索和实践。对比信息化时代,从核心点、对数据、定位,都有翻天覆地的变化。总结来讲,信息化时代业务数据化,数据实际上是工具系统的副产品,而数字化和智能化时代,数据业务化是要以数据来推进业务的发展。数字化转型,就是通过新一代数字技术的深入融合运用,来构建一个全感知全链接全场景全智能的数字世界,进而优化再造物理世界的业务,对传统管理模式、业务模式、商业模式进行创新和重塑,最终实现客户的业务成功。

视频末尾有完整PPT获取方式~


编辑:文婧

校对:李艳莉





欢迎大家扫码加入粉丝群




关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

回答“新架构切换阻力”:从战略层面看,最大的阻力往往源于组织惯性与既得利益的再分配。传统ISA95架构下各层级部门已形成固定的职责边界和运行模式,扁平化可能打破现有权力结构,引发部门协调与职责重塑的挑战。技术兼容性问题固然存在(如遗留系统集成),但往往可以通过技术手段解决;而变革管理与人才培养的成本(包括新技能学习和旧思维转换)才是更深层次、更难量化的隐性成本。

唉,“专科医生”和“全科医生”的区别呗!预训练大模型就像医学博士,啥都懂点但不够精;行业垂直大模型就像某个领域的专家医生,比如钢铁行业的“钢铁大夫”,专门看钢材的“病”。至于适用性,当然能用啊!你让一个“农业大夫”去治“航空病”,那肯定抓瞎。但如果数据量够、场景够典型,像化工、制药这些,也能搞出自己的“化工大夫”、“制药大夫”。最大的差异就是“病灶”不同,需要针对性地收集“病历数据”和“诊断经验”呗!

关于“行业垂直大模型的适用性”,这种模式在数据模态相似且行业know-how壁垒高的流程工业(如石油石化、制药)和部分具备高度自动化、标准化生产线的离散制造(如集成电路制造、高端装备)中具有极强的适用性。差异点主要在于:数据复杂性和多样性(流程工业通常是时序数据为主,离散制造涉及更多几何、结构和事件数据);领域知识的显性化程度(工业机理模型在流程工业中更普遍);以及数据标注的难度和成本(特别是涉及到故障、异常等稀疏事件)。本质上,是“领域知识+数据”的融合深度,决定了模型定制化与普适性的平衡。

想让数据变成资产?我觉得最直接的就是先解决“数据到底在哪儿”和“它有啥用”这两个问题。很多时候,数据就在那儿躺着,没人知道。所以,先搞个“数据地图”,标清楚哪片数据是什么属性,谁能访问。然后就是强制性地推广“数据共享”,打破部门壁垒。别光想着技术,有时候一个企业内部的“数据共享激励机制”比啥都管用!比如,哪个部门贡献的数据被用得好,就给绩效加分,这样大家就有动力把数据“晒”出来了。

关于“实现数据资产化”,我认为核心在于“数据治理框架”与“元数据管理”。企业应首先建立清晰的数据战略和组织,明确数据所有者、管理者和使用者职责。技术上,结合数据湖/数据中台等架构,通过数据目录工具(如Apache Atlas, Collibra)对数据进行梳理、分类、打标签,确保元数据准确性和可发现性。此外,推行数据质量管理体系数据安全与隐私保护机制,从制度上保障数据“可用”和“可控”。数据Ops理念的引入也能加速数据资产的流转与变现。

哈哈,换新架构?那不就是“动了别人的奶酪”吗!你想想,以前大家各管各的一亩三分地,现在数据都汇聚到一起了,谁的数据有问题,谁的流程不合理,是不是一目了然?那肯定有人不乐意啊。所以我觉得,最大的阻力是“不想被看透”和“多一事不如少一事”的心态,说白了,就是人性。技术问题好解决,人心的“兼容性”才最难搞。

问到“行业大模型适用性”,我觉得能用,但“数据多寡和质量”是关键!钢铁行业数据量大,而且很多场景比较标准(比如火焰),所以好训练。化工、能源这些流程工业肯定也可以,它们很多设备也是连续运行产生大量时序数据。汽车制造这些离散制造可能就复杂点,因为它涉及的零部件种类太多,每种零部件、每个工序的差异都很大,数据收集和标注难度更大。不过核心思路都是一致的,就是用行业特有的数据去“喂”大模型,让它更懂这个行业

说到“新架构阻力”,我觉得ROI(投资回报率)的早期不确定性是个大问题。老板们总想看到立竿见影的效果,但这种架构改造周期长、投入大,短期内可能看不到明显收益,就会让人犹豫。还有就是技术人才储备不足,很多老员工习惯了传统那一套,新的工业互联网平台、数据底座,学起来上手慢,甚至没兴趣学,这就是很实际的“人为”阻力了。

讨论“数据资产化方法”,从技术角度来说,除了建数据中台,还得有好的ETL(Extract, Transform, Load)工具,把各种格式的数据清洗规整好。然后像数据血缘(Data Lineage)和数据目录(Data Catalog)工具必须上!不然数据来源哪里、经过了什么处理,谁知道?最后,API管理平台也很重要,把数据封装成标准服务接口,方便大家调用,不然“看得见用不上”还是白搭。