AI时代工业数据新范式:清华王建民教授论采集、利用与未来

清华王建民教授探讨AI时代工业数据应用,强调从多源数据采集到深度价值挖掘,并介绍IoTDB如何赋能产业智能化,实现数据驱动的未来工业。

原文标题:清华大学软件学院院长王建民教授:AI?时代,如何从采数到用数?

原文作者:数据派THU

冷月清谈:

清华大学软件学院院长王建民教授深入探讨了AI时代下软件开发范式的革新,以及工业领域如何高效实现从数据采集到价值挖掘的跨越。他指出,软件开发已从传统编程(1.0)演进至大模型驱动(2.0),并最终达到通过自然语言生成软件(3.0)的阶段,这种共生而非替代的演进格局,正使得“人人都是程序员,人人都是创造者”成为现实。在工业领域,智能化趋势正驱动终端设备实现计算与通信的深度融合,打破传统产业边界,预示着一、二、三产业的深度融合。

关于工业数据的“采”与“用”,王建民教授详细梳理了三大核心数据来源:智能终端数据、企业信息化数据与互联网跨界数据,强调IT与OT融合是数据整合的关键。在“用数”层面,他将数据应用分为产业数字化(基础功能)和数字产业化(BI与AI赋能,实现“数据控制设备”)两个阶段,并提出了“以终为始”的方法论,强调软件工具、领域知识和数学方法三要素的乘积效应,以业务需求为牵引,避免技术空转。

面对AI与工业智能化趋势,王建民教授重点介绍了时序数据库IoTDB的技术创新。IoTDB通过整合采集与训练推理节点,并在底层采用TsFile格式,旨在实现从设备端数据采集到智能应用的全流程无缝衔接,降低数据转换成本。尤其值得关注的是,IoTDB能够激活“沉睡”的历史时序数据,通过“AI in DB”能力,允许用户直接通过SQL语句完成模型后训练与预测,使得非专业人士也能进行数据分析和模型调优。未来,工业数据应用将迈向终端高度智能化、云端模型知识提炼以及多源数据融合下时空大模型的广泛应用,最终实现“人机共融”的智能工业系统。

怜星夜思:

1、文章里提到软件开发正在进入“人人都是程序员,人人都是创造者”的软件3.0时代,大家觉得这真的会让编程门槛彻底消失吗? 对我们普通人来说,是机会大于挑战,还是挑战更棘手一些?
2、文章提到工业领域数据的采集中,IT和OT的融合非常关键。在我们日常接触的工业企业里,大家觉得IT和OT融合最难的点在哪里?有没有什么典型的“老大难”问题?
3、文章提到IoTDB激活“沉睡”历史数据,并且通过“AI in DB”实现SQL驱动模型训练和预测。这对传统工业企业的数据工程师和AI工程师的角色会带来哪些颠覆性变化?他们未来的主要工作重心会转向哪里?

原文内容

图片
本文约2500字,建议阅读5分钟
AI 时代带来软件开发范式革命。


图片

目录


  • AI 时代带来软件开发范式革命

  • 工业终端的智能化趋势

  • 采数:工业大数据的多源体系

  • 用数:从产业数字化到数字产业化

  • 时序数据库 IoTDB 的技术创新

  • 未来展望



01

AI 时代带来软件开发范式革命


王建民教授指出,当前 AI 时代数据库面临的核心挑战是如何实现从数据采集到数据价值挖掘的跨越式发展,引用大会上孙院士(中国工程院孙家广院士)的观点,认为评判一个产品成功与否的关键在于“用户用得好不好”,这一观点为后续演讲奠定了基调。

王建民教授提到 OpenAI 创始成员、特斯拉前 AI 总裁安德烈·卡帕斯的观点,深入剖析了 AI 时代软件开发的三大演进阶段。软件 1.0 时代以传统编程语言为基础,从汇编到 C、Java、Python 等高级语言,完全依赖程序员编写算法;软件 2.0 时代则以大模型为核心,通过数据训练和参数化实现智能推理;而软件 3.0 时代,则实现了用自然语言提示词直接生成软件的革命性突破。


王建民教授特别强调,这三个阶段并非简单的线性替代,而是呈现出并存共生的生态格局,指出这种变革使得"人人都是程序员,人人都是创造者"正在成为现实,极大地拓展了软件创新的可能性边界。


在探讨 AI 对计算机学科的影响时,王建民教授提到了 MIT 教授塞缪尔·马登的研究成果,指出虽然计算机科学的基础架构(如硬件设备、系统类型等)保持相对稳定,但应用层面正在发生深刻变革:计算范式从 CPU 向 GPU 迁移,操作系统从单进程向并行集群演进,AI 技术正在重塑整个应用开发生态。王建民教授认为,这种变化不是简单的技术迭代,而是整个学科范式的重构,将为计算机科学带来全新的发展机遇。


02

工业终端的智能化趋势


而在工业领域的发展方面,王建民教授特别强调了工业终端设备的智能化发展趋势。他指出,智能制造的核心变革正发生在终端设备层面,现代工业终端已经实现了计算能力和通信能力的深度融合。试飞场景中,国产大飞机内部大量采用智能联网设备;在军事装备和储能行业,终端设备的智能化升级正在带来战斗力和业务模式的本质性改变。


王建民教授认为,这种终端变革将引发更深层次的产业重构。当工业终端完成智能化转型后,将打破传统产业边界,推动第一、二、三产业的深度融合


03

采数:工业大数据的多源体系


王建民教授系统梳理了工业数据的三大核心来源:首先是智能终端数据,如飞机、储能设备等物联网设备产生的时序数据;其次是企业信息化数据,包括 CAD 系统数据、客户终端数据等;第三类是互联网跨界数据,涵盖气候、地理、环境等方向。

他特别以波音公司的理念为例,强调数据在制造流程中的核心地位,数据能够支撑赋能生产、管理流程,并指出工业数据来源广泛,通过 IT 和 OT 的融合,多源异构数据能够有效整合,为生产优化、质量管控等关键业务场景提供数据支撑。



04

用数:从产业数字化到数字产业化


多源数据构成了现代工业的"价值图谱",但关键在于如何将这些数据资源转化为实际生产力。王建民教授提出了数据应用的两个阶段:产业数字化阶段实现基础的数据查询、监测、预警等功能;数字产业化阶段通过商务智能(BI)与人工智能(AI),实现“数据控制设备”,让数据价值真正赋能业务系统,优化工业流程。


同时,王建民教授深入剖析了数据应用落地的关键成功要素,强调成功的数字化转型需要软件工具、领域知识和数学方法的深度融合。这三个要素不是简单的叠加关系,而是乘积效应——任何一个要素的缺失都会导致整体效果归零。他特别提出“以终为始”的方法论:首先要明确数据解决方案如何嵌入实际业务流程形成闭环,然后逆向推导所需的业务支持,最后才考虑数据和技术实现,以需求牵引、业务驱动为思路,避免陷入"为技术而技术"的误区。



05

时序数据库 IoTDB 的技术创新


王建民教授重点介绍了时序数据库 IoTDB 面向 AI 与工业智能化趋势的突破性实践。IoTDB 不仅是一款数据库管理系统,通过合并嵌入式终端 IoTNode 与训练推理节点 AINode,并将 TsFile 作为建立工业数据集的底层文件格式,用户能够实现从设备数据采集到智能应用的全流程无缝衔接。


这一架构使得工业数据在源头即可按标准化格式存储,避免了繁琐的数据转换过程,同时用户能够通过内置的 AI 能力,低成本地完成时序数据分析、模型训练和实时推理



目前,IoTDB 已实现 MCP 功能,可以通过提示词直接实现时序数据的查询与分析,该功能已被 MCP 官网收录。



时序大模型应用方面,王建民教授强调,数据质量和算法同等重要,算法确定以后,数据决定了模型的高度。时序数据体量庞大,历史数据往往无法有效使用,存储即“沉睡”。王建民教授认为,这些历史数据能够参与形成时序大模型的底层数据集,提升大模型训练与预测质量,IoTDB 也能够更好地激活"沉睡"的历史数据,挖掘其潜在价值。



结合时序大模型,IoTDB 实现了“AI in DB”的能力,使得用户可以直接通过 SQL 语句完成模型的后训练工作。这意味着在未来,只要掌握 IoTDB,任何使用者都能胜任数据分析和模型调优的工作。



IoTDB 也实现了通过 SQL 语句完成数据推理与预测的能力。王建民教授认为,从商业智能(BI)到人工智能(AI)的范式转变,其本质是从历史数据分析转向未来态势预测,这种转变正在推动业务系统逐步实现预测性控制和智能决策



06

未来展望


展望未来,王建民教授描绘了工业数据应用的三大发展趋势:终端设备将具备更强的智能化水平;云端功能将从单纯的数据存储进化为模型知识提炼;伴随多源数据的智能融合,时空大模型将在工业领域得到广泛应用。未来的工业系统将实现真正的“人机共融”,数据必将成为推动工业转型升级的核心动能。



编辑:文婧





欢迎大家扫码加入粉丝群







关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


从我的角度看,这更像是一种生产力范式的变革。软件3.0并非意味着传统编程的消亡,而是将编程能力以更普适、更易用的方式赋能给大众。其核心价值在于去中心化地激发创新。对于普通人而言,机会体现在赋能创新和效率提升:你可以更低成本地将想法变为原型,或优化现有工作流程。挑战则在于,这种能力普惠化可能导致对基础概念理解的缺失,以及更深层次的伦理、版权、安全问题。此外,真正的“创造者”不仅停留在实现层面,更在于定义问题、构建复杂系统以及在不确定性中做出决策的能力,这仍需要专业训练和经验积累。所以,是机会与挑战并存,关键在于我们如何适应并利用这种新能力。

呃,要我说,普通人要是真能“人人都是程序员”,那也就没人想写代码了呗?哈哈。我觉得这更多是一种趋势和愿景吧,就像Word普及了也不代表人人都能写出《红楼梦》。对于多数人来说,能用自然语言去“指挥”AI完成一些原来需要编程的工作,那当然是好事,可以提升效率。但专业领域的复杂开发、系统架构、性能优化、以及最关键的——创新性的解决问题,这些可能还是需要专业人士。挑战嘛,可能是失业焦虑,以及大家会不会变得更依赖工具,而不是独立思考?机会当然是让我们的想法实现起来更容易了,但别指望躺平就能当程序员,核心竞争力永远是解决问题的能力。

如果IoTDB真能实现“AI In DB”这么丝滑,那对数据工程师来说,意味着大量繁琐的数据清洗、转换和ETL工作会被大大简化,甚至自动化。他们可能就不再是数据的“搬运工”或“管道工”,而是更偏向于数据治理的架构师和质量管理者,确保数据源头的标准化和高可用性。而AI工程师,他们的重心会从模型底层代码的编写和调优,转向更高级的任务,比如:1. 如何设计更高效的SQL语句来驱动模型;2. 如何更好地结合业务知识来选择合适的模型和特征;3. 更多地投入到模型效果的评估、解释和持续优化上,变成“领域AI专家”,而不再是纯粹的算法实现者了。

嗯,这个问题很尖锐。传统上,数据工程师是数据管道的搭建者和维护者,AI工程师是算法模型的设计者和实现者。如果“AI in DB”普及,我认为:
1. 数据工程师的角色会向“数据产品经理”或“数据架构师”转变,他们需要更理解业务需求,设计数据如何结构化存储以最大化AI应用价值,并负责数据资产的整体管理和安全。
2. AI工程师可能面临更剧烈的角色重塑。原先的基础模型开发工作可能被数据库内置功能替代,他们需要向上发展,成为“Prompt工程师”或“领域知识专家”,专注于如何通过优化输入、结合业务经验来提升AI应用的实际效果;或者向下深挖,从事数据库底层的AI算法优化,甚至成为AI芯片和系统架构的设计者。
这种变化意味着,通用型的AI/数据技能会贬值,真正具备领域专长和跨学科理解能力的人才需求会更旺盛。

要说IT和OT融合最难的地方,那绝对是“人”和“文化”!我接触过不少传统工厂,他们IT部门和OT部门简直是两个世界的人。IT觉得OT设备老旧、不规范、不安全,OT觉得IT搞的东西太复杂、不接地气、会影响生产稳定。部门墙、思维定式、甚至利益之争,这些才是最大的“老大难”问题。技术上,协议不兼容、数据格式不统一、网络安全等等都是挑战,但这些都能通过方案解决,人的问题才是最难啃的骨头。所以,想要真正融合,先得从组织架构和人才培养上想办法,打破这些无形的壁垒。

问到点子上了!IT和OT融合,除了技术上的通讯协议、数据格式不兼容,最大的问题就是“历史包袱”和“安全顾虑”。很多老工厂的设备用了几十年,根本不支持联网,想采数据就得额外砸钱改造。而且,OT这边特别担心联网后生产系统被黑客入侵,引起产线停摆甚至安全事故,毕竟和写个代码出bug不一样,工业系统出问题可能就是巨额损失甚至人员伤亡。所以很多人宁愿维持现状,也不愿冒这个险。这就导致很多数据是“孤岛”,想整合起来难上加难。

我觉得这会是真正的“解放生产力”啊!对于数据工程师,以前很多时间都在做数据管道和ETL,累死累活。有了AI in DB,他们就能把更多精力放在数据质量、数据治理和价值分析上,从“体力劳动者”变成“脑力劳动者”。AI工程师呢,以前要花不少时间处理数据、跑模型,现在这些基础工作数据库帮你搞定,他们就能更专注于算法创新或者更高层次的模型优化,比如如何把通用模型适配到具体场景,或者去探索新的算法范式。总之,就是从关注“怎么做”,更多地转向“做什么”和“做成什么样”,更靠近业务价值了。

我认为IT和OT融合最典型的“老大难”问题在于其核心关注点和生命周期的根本差异。IT系统追求快速迭代、灵活性和数据安全,而OT系统则强调高实时性、稳定性和安全性(指人员和设备安全)。这种差异导致了技术选型、维护策略、甚至故障处理逻辑的巨大分歧。比如,IT习惯于打补丁更新,但OT设备(如PLC)的固件更新可能需要停机,影响生产,甚至可能导致操作风险。此外,传统OT专家的技能栈与IT完全不同,人才的复合培养也是一大难题。这种底层逻辑和人员技能的差异,远比单纯的数据接口打通要复杂得多。

关于“人人都是程序员”这个话题,我觉得门槛肯定会大大降低,但“彻底消失”有点夸张了。就像摄影普及了,但专业的摄影师依然吃香。AI会是生产力工具,让更多非技术背景的人能通过提示词或者简单操作实现想法,这无疑是巨大的机会。打个比方,以前你要盖房子得自己搬砖砌墙,以后可能你只要说出你的理想户型,AI就能帮你生成设计图甚至模拟建造过程。挑战在于,大家需要学习如何更好地“问”AI,如何辨别AI生成内容的质量,以及核心的创造力、逻辑思维能力依然是不可替代的。所以我觉得机会更大,但需要我们升级自己的能力栈。