FISHER:多模态工业信号基座模型,统一异质数据高效分析

清华上交发布FISHER,首个多模态工业信号基座模型,解决M5难题,现已开源赋能工业智能运维。

原文标题:首个多模态工业信号基座模型FISHER,权重已开源,来自清华&上交等

原文作者:机器之心

冷月清谈:

清华大学、上海交通大学等高校和公司联合发布了首个多模态工业信号基座模型FISHER,该模型旨在通过“搭积木”的方式,对异质工业信号进行统一建模。面对工业领域常见的“M5问题”(即多模态、多采样率、多尺度、多任务和少故障),现有方法往往局限于分析小范围信号,且多采用在小数据集上训练的小模型,未能充分利用大数据训练和跨模态信息的优势。

研究团队发现,尽管工业信号表面差异巨大,但在其内在特征、语义信息、产生机理和分析手段上却存在诸多相似之处,这为构建统一模型提供了可能。FISHER模型以此为切入点,创新性地采用子带作为建模单元,利用短时傅里叶变换(STFT)处理信号特征,并且能够直接应对不同采样率的工业信号,避免了传统重采样可能导致的高频信息丢失。其核心架构包含一个ViT Encoder和CNN Decoder,并采用“老师-学生”自蒸馏预训练模式,有效提升了模型的表征能力和泛化性。

为全面评估模型性能,研究团队还提出了RMIS基准,涵盖了多种模态下的异常检测和故障诊断任务。实验结果表明,FISHER模型在RMIS基准上表现卓越,其不同尺寸版本相较于现有基线模型均获得了显著提升。特别是在故障诊断任务上,FISHER凭借能利用完整频带的优势,大幅超越了多数基线模型。 此外,模型在不同模型尺寸下的Scaling效果也验证了其预训练模式的优越性,即使是最小的FISHER-tiny模型,也能超越所有基线系统,展现了强大的泛化能力和数据利用效率。研究者指出,未来在训练更大规模工业信号基座模型时,数据的配比和清洗将是关键。

怜星夜思:

1、FISHER模型虽然厉害,但它提到数据清洗和Test-Time Scaling是未来方向。在实际工业环境中,部署和持续优化像FISHER这种大规模AI模型,除了文中提到的数据挑战,还有哪些潜在的工程和管理上的难题?
2、文章里提到语音模型的效果普遍偏差,所以没有对比。那么,工业信号和语音信号在特性上到底有哪些根本区别,导致针对工业信号的模型需要有如此特别的设计?未来它们有没有可能在某种程度上相互借鉴甚至融合呢?
3、FISHER模型的目标是统一异质工业信号的建模,这听起来对企业是好事。实际应用中,这种统一建模能带来哪些具体的经济效益或潜在的商业模式创新?比如,真的能大幅降低运维成本,还是能开辟新的服务领域?

原文内容


近期,来自清华大学、上海交通大学、北京华控智加科技有限公司和华北电力大学的研究者联合发布首个多模态工业信号基座模型 FISHER,采用搭积木的方法对异质工业信号进行统一建模。目前技术报告和权重均已开源,欢迎使用!



  • 论文链接:https://arxiv.org/abs/2507.16696

  • GitHub 仓库:https://github.com/jianganbai/FISHER


研究背景


近年来,越来越多的工业设备被安装上传感器以监控工作状态。然而安装传感器容易,如何高效分析工业信号却很难,因为不同传感器采集的工业信号具有极大的异质性。本文中,我们将其总结为 M5 问题:多模态、多采样率、多尺度、多任务和少故障。


受到 M5 问题影响,现有方法大多只分析小范围的工业信号,例如基于振动的轴承故障诊断,所采用的模型也均为在小数据集上训练的小模型。然而这些模型未能发掘大数据训练的优势,也未能利用不同模态之间的互补性。另一方面,对于工业运维的每个子问题,都需要单独开发和部署专门的模型,大大增加了实际应用的复杂度。


研究动机


尽管工业信号表面上差异大,其内在特征和语义信息却很相似:


  • 语义信息相同:信号都反映了相同的健康状态。

  • 产生机理相似:声音(鼓膜震动)和振动同根同源。

  • 分析手段相似:基本都采用谱分析方法。

  • 故障模式相似:设备由零件组成,不同设备之间有借鉴性。

  • 任务特征共享:一个特征向量可表征多个健康管理任务。


基于此,我们认为是可以使用单一模型对异质工业信号进行统一建模。由于信号内部存在相似性,通过 scaling,可以让模型逐渐学会这些相似性,进而迸发出更为强大的表征能力,实现里程碑式提升。由此我们开发了 FISHER 模型。


FISHER 模型介绍



FISHER 模型是首个面向多模态工业信号的基座模型。它以子带为建模单元,通过堆积木的方式表征整段信号,可处理任意采样率的工业信号。详细介绍如下:


子带建模


谱分析是语音和信号分析常用的手段。与语音模型常采用的 Mel 谱不同的是,FISHER 采用短时傅里叶变换(STFT)作为信号输入特征,这是由于 1)故障分量往往出现在高频 2)对于旋转类机械,倍频关系往往很重要。为保证不同采样率下时频分辨率相同,FISHER 中的 STFT 采用固定时长的窗长和帧移。


当数据量增大时,多采样率是模型必须要应对的问题。之前方法将信号全部重采样至固定采样率(例如 16 kHz),从而丢失了关键的高频信息,特别是对于 44.1 kHz 及以上的高带宽信号。在 FISHER 中,我们不再进行重采样,而是利用信号在不同采样率下的特点进行建模。


如下图所示,对同一信号源使用不同采样率进行观测时,共有频带基本一致,而高采样率会有额外的高频子带,也就是说高采样率的增益来源于更多子带信息。而另一方面,工业信号常见的采样率有 16 kHz,32 kHz,44.1 kHz 和 48 kHz,这些采样率近似存在公约数(如 2 kHz 和 4 kHz),故 STFT 谱可视作多个固定宽度子带的拼接。



因此 FISHER 采用固定宽度的子带作为建模单元,将子带信息用搭积木的方式拼接成整段信号的表征。具体而言,STFT 谱被切分为固定宽度的子带,每个子带被模型单独处理。最终的信号表征是每个子带表征的拼接。


模型架构


FISHER 包括 1 个 ViT Encoder 和 1 个 CNN Decoder,采用老师 - 学生自蒸馏预训练。具体而言,老师 Encoder 是学生 Encoder 的指数滑动平均(EMA),仅学生 Encoder 和学生 Decoder 具有梯度。切分后的子带的 80% 被 mask,未被 mask 的 20% 送入学生 Encoder,处理后再与被 mask 部分按原位置拼接,送入学生 Decoder。老师 Encoder 则输入整个子带,输出则作为蒸馏的目标。自蒸馏过程分别在 [CLS] 层次和 patch 层次进行监督。预训练结束后,仅保留学生 Encoder 用于后续评估。


我们目前开源了 FISHER 的 3 个不同尺寸:tiny(5.5M),mini(10M)和 small(22M)。所有模型均在 1.7 万小时的混合数据集上进行预训练。


RMIS 基准介绍



为评估模型在各种健康管理任务上的性能,我们提出了 RMIS 基准。RMIS 基准包含 5 个异常检测数据集和 13 个故障诊断数据集,涵盖 4 个模态。这里异常检测为正常 / 异常 2 分类问题,但训练集不包含异常;故障诊断为多分类问题,训练集和测试集均包含所有类别。为检验模型固有的性能,模型在所有数据集上均使用相同的 KNN 配置进行推断,不进行微调。


实验结果


我们先在 RMIS 基准上对常见预训练模型进行筛选,然后采用 5 个最好的模型作为基线,涵盖了 5M 到 1.2B 的多个尺寸。由于语音模型的效果普遍偏差,故我们并未对比。


基准得分



在 RMIS 基准上,FISHER 的 3 个版本分别较基线至少提升了 3.91%,4.34% 和 5.03%,展现出强大的泛化能力。按任务分析,在异常检测任务上,FISHER 仅略低于 BEATs;而在故障诊断任务上,FISHER 大幅超过 BEATs 在内的所有基线,这主要得益于 FISHER 能利用完整的频带,而基线模型只能利用到 16 kHz。此外,目前开源的 FISHER 模型最大也只有 22M,远小于基线常见的 90M。



Scaling 效果



上图对比了各个模型的 RMIS 得分随模型大小变化的曲线。可以看到 FISHER 的曲线远高于基线系统的曲线,即使是最小的 FISHER-tiny 也能超过所有基线系统。这说明 FISHER 的预训练模式更优越,scaling 更有效。


另一方面,我们观察到 100M 似乎是 scaling 曲线的分界点。我们猜测这是由于工业信号重复度较高,现有大规模数据集中的工业信号去重后至多支持 100M 模型的训练。因此训练信号基座模型时,数据的配比需要增大,数据清洗将是 scaling up 的关键。此外,考虑到 FISHER 的成功,Test-Time Scaling 似乎也是可行的方向。


变切分比



对于 12 个不提供官方切分的数据集,我们首先绘制了模型在变切分比场景下的工作曲线,然后估计了曲线下面积。如上表所示,FISHER 具有最大的曲线下面积,说明其在变切分比场景下依旧具有卓越的性能。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

哈哈,说到部署,我第一个想到的就是IT基础设施能不能跟得上。这种大模型对算力、存储、网络的要求肯定不低,很多传统工厂的基础设施可能还在追赶阶段呢。而且,模型的版本管理、更新频率、与现有SCADA或MES系统的集成,这些都是实打实的工程难题。更别说,如果模型在边缘侧运行,那对设备性能要求更高了。—— 来自一位IT运维工程师的吐槽。

哈哈,这就像问为什么不能用听诊器听发动机的声音就能诊断出是哪个螺丝松了一样。语音信号,大家说话都是一套发声系统、一套语法,比较“统一”。但工业信号,可能机床的振动和泵的压力信号完全就是两回事儿,背后的物理机理差很多,甚至同一台设备在不同负载下信号特性也变了。所以,工业信号更强调“精准定位”和“物理意义”,得知道不同频率代表啥。融合嘛,我觉得深度学习框架可以共享,但底层特征抽取和领域知识结合肯定还是要有区别的。除非未来AI能真的“理解”物理定律,那才有真正的融合可能。

在实践层面,除了技术挑战,管理和人员培训也是大问题。首先,让一线操作人员信任并接受AI的诊断结果需要一个过程,如果AI时不时‘犯错’,那信任度就会大打折扣。其次,企业文化是否支持这种创新,以及如何培养具备AI运维知识的复合型人才,这些都直接影响模型的ROI。最后,数据隐私和安全合规性也不可忽视,工业数据通常敏感,如何在满足合规要求的前提下使用和传输数据,是必须要考虑的。

我认为工业信号有一个非常重要的特点,就是它往往与设备的物理结构和运行模式强相关,故障通常会以特定的频率成分(如倍频、边频)或时域波形(如冲击)体现,这些都是有明确物理意义的。而语音信号是人类交流的载体,更强调语意和情感。所以,对工业信号建模需要更强的物理先验知识和领域专家经验。FISHER的子带建模就是抓住了工业信号在不同频段的重要物理信息。未来要融合,可能需要在更高层抽象出更通用的“信息压缩”和“模式识别”能力,让模型自己去学习不同信号的内在物理属性和关联,这还有很长的路要走。

要我说,这不光是钱的问题,更是效率和决策的提升。一个统一模型意味着数据的‘孤岛’被打破了,不同类型、不同来源的工业信号可以汇总起来统一分析,这能让企业对整个生产线的健康状态有一个更宏观、更准确的认知。以前可能某个设备出了问题,只能看它自己的数据,现在能结合周边设备的振动、温度、电流等信息一起推理,诊断精度自然更高。这最终体现在生产效率的提高、产品质量的稳定性,以及管理决策的优化上。对中小企业来说,也可能意味着他们能够以更低的成本享受到以前只有大企业才有的先进运维技术,这不就是一种普惠吗?

我认为最直接的效益就是运维成本的显著降低。你想啊,以前每种设备、每种故障模式都可能需要单独开发和部署模型,费时费力。现在有个统一的基座模型,学习成本和开发周期都大大缩短了,研发投入省下来了。而且,由于模型能处理多模态数据,故障诊断的准确率和预警的及时性都会提高,避免了小故障拖成大事故,从而减少了停机时间,这就是实打实的经济效益。长远来看,还能优化备件库存管理,因为你对设备健康状况更了解了,可以更精准地预测维修需求。

这个问题问到点子上了!简单来说,语音信号是承载着语言信息的,有其独特的发音器官和语谱结构,比如音素、词汇、语法等。而工业信号,比如振动、电流,它们承载的是物理世界的运行状态和潜在的故障模式,其规律性往往体现在谐波、边频带、冲击脉冲这些物理特征上。工业信号的噪声通常也更复杂、更难去噪。所以,语音模型可能更侧重于序列建模和语义理解,而工业信号模型则更关注频率成分、能量分布及异常模式的捕捉,FISHER采用STFT和子带建模就是基于这些特性。至于融合,我觉得短期内是领域专用模型会更吃香,但一些通用的自监督学习、transformer架构等技术是可以相互借鉴的,未来也许能有更通用的“感官智能”模型出现?

嗯,这个问题很实际。从工程角度看,我觉得可能还会遇到以下一些挑战:一是模型的鲁棒性和泛化能力在面对未见过的新工况或突发情况时的表现,这需要持续的反馈和再训练机制。二是能耗问题,大规模模型在持续运行时能源消耗可能不小,如何在性能和能耗之间取得平衡是个问题。三是故障可解释性,当模型诊断出问题时,能否提供足够的可解释信息帮助工程师定位和解决问题,而不是简单地给出一个“故障”的标签。Test-Time Scaling听起来很酷,但如何在不影响实时性的前提下进行动态调整,也是个精巧的设计活儿。

这玩意儿如果真给力,那简直是企业数字化转型的大杀器啊!除了降低运维成本,我觉得更厉害的是能催生新的商业模式。比如,设备制造商可以不再只是卖设备,而是打包提供“智能运维服务”,基于FISHER模型给客户提供全生命周期的健康管理和预测性维护,甚至可以按效果收费,这不就从卖产品转型卖服务了吗?还能帮助企业将碎片化的工业数据进行整合,形成更有价值的“数字资产”,这就像工业领域的“数据银行”了,未来数据本身也能创造价值。