北大提出LSTKC++:解耦与巩固长短期知识,驱动终身行人重识别

北大提出LSTKC++框架,用于解决终身行人重识别中的灾难性遗忘问题,实现新旧知识的有效平衡,相关代码已开源。

原文标题:IEEE TPAMI 2025 | 北京大学提出LSTKC++,长短期知识解耦与巩固驱动的终身行人重识别

原文作者:机器之心

冷月清谈:

北京大学的研究团队在IEEE TPAMI上发表了关于终身行人重识别(LReID)的最新成果——LSTKC++框架。该框架旨在解决LReID中存在的灾难性遗忘问题,通过长短期知识解耦与动态纠正及融合机制,保证模型在学习新知识的同时, сохраняет识别旧知识的能力。LSTKC++对之前的LSTKC框架进行了升级,包括模型解耦、长短期互补知识迁移和基于新数据的知识权衡参数优化。实验结果表明,LSTKC++在已知域和未知域上均优于现有方法, 并在计算和存储效率方面展现出明显优势。该研究提出的终身学习机制适用于动态开放环境、隐私保护以及高效学习快速部署等场景,并具备向预训练视觉大模型、多模态感知以及通用类别域增量识别任务拓展的潜力。

怜星夜思:

1、LSTKC++框架中,长短期知识解耦的具体方式是什么?这种解耦方式如何帮助模型更好地进行知识迁移和融合?
2、LSTKC++在实际应用中,例如智慧城市、无人安防等场景,会面临哪些挑战?如何进一步优化该框架以适应这些复杂环境?
3、文章提到LSTKC++可以推广至通用类别的域增量识别任务,那么从行人重识别到通用物体识别,最大的技术难点是什么?

原文内容


本文的第一作者为北京大学博士二年级学生徐昆仑,通讯作者为北京大学王选计算机研究所研究员、助理教授周嘉欢。


近日,北京大学王选计算机研究所周嘉欢团队在人工智能重要国际期刊 IEEE TPAMI 发布了一项最新的研究成果:LSTKC++ 。


该框架引入了长短期知识解耦与动态纠正及融合机制,有效保障了模型在终身学习过程中对新知识的学习和对历史知识的记忆。目前该研究已被 IEEE TPAMI 接收,相关代码已开源。



  • 论文标题:Long Short-Term Knowledge Decomposition and Consolidation for Lifelong Person Re-Identification

  • 论文链接: https://ieeexplore.ieee.org/abstract/document/11010188/

  • 代码链接: https://github.com/zhoujiahuan1991/LSTKC-Plus-Plus

  • 接收期刊:T-PAMI(CCF A 类/中科院一区 Top)

  • 单位:北京大学王选计算机研究所,华中科技大学人工智能与自动化学院


行人重识别(Person Re-Identification, ReID)技术的目标是在跨摄像头、跨场景等条件下,根据外观信息准确识别行人身份,并在多摄像头监控、智能交通、公共安全与大规模视频检索等应用中具有重要作用。


在实际应用中,行人数据分布常因地点、设备和时间等因素的变化而发生改变,使得新数据和训练数据呈现域差异,导致传统的「单次训练、静态推理」ReID 范式难以适应测试数据的长期动态变化。


这催生了一个更具挑战性的新任务——终身行人重识别(Lifelong Person Re-ID, LReID)。该任务要求模型能够利用新增域的数据进行训练,在学习新域数据知识的同时,保持旧域数据的识别能力。


图 1 研究动机


LReID 的核心挑战是灾难性遗忘问题,即模型在学习新域知识后,对旧域数据的处理性能发生退化。为克服该问题,多数方法采用知识蒸馏策略将旧模型的知识迁移到新模型。然而,这些方法存在两个关键隐患:


  • 错误知识迁移:由于数据偏差等因素,旧模型中不可避免地包含一些错误知识。在知识蒸馏过程中,不仅会引发错误知识的累积,还会对新知识的学习产生干扰,造成模型的学习能力受限;


  • 知识损失:新旧域之间的分布差异导致部分旧知识无法被新数据激活,使得这些知识无法通过知识蒸馏有效地迁移到新模型中。


为破解上述难题,北京大学王选计算机研究所团队在 T-PAMI 2025 上提出了 LSTKC++ 框架。该框架引入了长短期知识解耦与动态纠正及融合机制,在有效保障新知识学习的同时,增强了旧知识的保留能力。


一、基础框架:LSTKC 长短期知识纠正与巩固


LSTKC 是作者团队在 AAAI 2024 上提出的终身行人重识别框架。LSTKC 引入了「短期-长期模型协同融合」的思想,将终身学习所涉及的模型划分为短期模型和长期模型。前者指利用特定域数据训练得到的模型,后者指积累了所有历史域知识的模型。


在新域数据训练时,LSTKC 引入一个基于知识纠正的短期知识迁移模块(Rectification-based Short-Term Knowledge Transfer, R-STKT)。R-STKT 从长期模型中提取判别性特征,并基于新数据的标注信息识别并纠正其中的错误特征,进而利用知识蒸馏策略将校正后的正确知识迁移到新模型中。


在新域数据训练结束后,LSTKC 引入了基于知识评估的长期知识巩固模块(Estimation-based Long-Term Knowledge Consolidation, E-LTKC),根据长期模型和短期模型生成的特征,估计长期知识与短期知识之间的差异,进而实现长短期知识的自适应融合,实现了新旧知识的权衡。


图 2 LSTKC 模型


二、升级框架:LSTKC++ 长短期知识解耦与巩固


尽管 LSTKC 中基于知识差异的长短期知识融合策略在一定程度上促进了新旧知识权衡,但是由于模型间的知识差异无法直接反映融合模型的实际性能,导致 LSTKC 的模型融合策略难以实现新旧知识的最优权衡。


图 3 LSTKC++ 框架


为解决上述问题,作者在 T-PAMI 版本提出了 LSTKC++,从三个方面进行了方法升级:


  • 模型解耦 将原有的长期旧模型图片解耦为两个部分:一个代表更早期历史知识(前图片个域)的长期模型图片和一个代表最近历史知识(第图片域)的短期旧模型图片


  • 长短期互补知识迁移。 首先,针对长期旧模型和短期旧模型进行互补纠正:根据样本亲和度矩阵(affinity matrix)分别筛选出长期旧模型图片和短期旧模型图片中的正确知识。然后,对于二者均正确的知识进行融合;对于一方正确、另一方错误的知识,仅保留正确知识;对于二者错误的知识,根据新数据标签进行纠正。通过上述互补纠正过程,得到融合了长短期模型的互补知识纠正矩阵。随后,纠正矩阵基于知识蒸馏损失指导新模型学习。


  • 基于新数据的知识权衡参数优化。 为了优化 LSTKC 中用于融合长期历史知识和短期历史知识的权衡参数图片,作者将新增的图片域训练数据作为验证集,进而搜索得到最优的长短期历史知识权衡参数图片,用以获得更新的长期旧模型图片



相比于使用已学习过的数据作为优化基准,新增数据尚未被长期和短期历史模型学习过,避免了过拟合问题,因此对知识权衡性能的评估更为可靠。


  • 样本关系引导的长期知识巩固。 为了使模型在学习新域后能够直接利用长期知识和短期知识进行推理,作者引入了更新后的长期历史模型图片与短期模型图片的融合机制。具体地,利用图片图片提取的样本间相似性矩阵图片图片计算融合权重:



其中,图片为用于测试的模型。


三、实验分析


数据集与实验设置


论文的实验采用两个典型的训练域顺序(Order-1 与 Order-2),包含五个广泛使用的行人重识别数据集(Market1501、DukeMTMC-ReID、CUHK03、MSMT17、CUHK-SYSU)作为训练域。分别评估模型在已学习域(Seen Domains)上的知识巩固能力和在未知域(Unseen Domains)上的泛化能力。评测指标采用行人 ReID 任务的标准指标:平均精度均值(mAP)和 Rank-1 准确率(R@1)。



实验结果


  • 综合性能分析: 在两种不同的域顺序设定下,LSTKC++ 的已知域平均性能(Seen-Avg mAP 和 Seen-Avg R@1)相比于 CVPR 2024 方法 DKP 提升 1.5%-3.4%。同时,LSTKC++ 在未知域的整体泛化性能(Unseen-Avg mAP 和 Unseen-Avg R@1)上相比于现有方法提升 1.3%-4%。


  • 子域性能分析: 在不同的域顺序设定中,虽然 LSTKC++ 在第一个和最后一个域的性能并非最优,但是其在中间三个域的性能均显著优于现有方法。这是因为部分现有方法对模型施加较强的抗遗忘约束,因而有效保持了初始域的性能,但其对新知识的学习能力大幅受限。其次,部分方法则采用较弱的抗遗忘约束,增强了模型对新知识的学习能力,但其对历史域性能的保持能力受限。与上述方法相比,LSTKC++ 综合考虑了知识遗忘和学习的自适应平衡,因而在中间域呈现明显的性能优势,并在不同域的整体性能上实现稳定提升。


  • 计算与存储开销分析: 现有方法(如 PatchKD、AKA、DKP)通常通过引入额外的可学习模块来提升抗遗忘性能,这些模块往往会增加额外的训练时间、模型参数量、存储空间占用和 GPU 显存消耗。与之相比,LSTKC 和 LSTKC++ 仅在特征提取器和身份分类器中包含可学习参数,因此在模型参数量(Params)上具有明显优势。其次,LSTKC 在训练时间(Batch Time)、模型存储(Model Memory)和 GPU 显存消耗(GPU Memory)方面均最为高效。尽管 LSTKC++ 引入了一个额外的旧模型,但由于该旧模型被冻结且不参与梯度计算,其带来的额外开销仅为约 30% 的训练时间和约 818MB(占总显存的~7.4%)的 GPU 显存。总体而言,与最新的 CVPR 2024 方法 DKP 相比,LSTKC++ 在综合性能(TABLE I 和 TABLE II)以及计算和存储效率方面均展现出明显优势。



四、总结与展望


技术创新


本项被 T-PAMI 2025 接收的工作聚焦于终身行人重识别(LReID)任务,面向新知识学习和历史知识遗忘的挑战,提出了以下创新性设计:


  • 解耦式知识记忆体系: 提出将终身学习中的知识解耦为长期知识和短期知识,通过长短期知识的针对性处理保障短期新知识学习和促进长期历史知识与短期新知识间的平衡;

  • 语义级知识纠错机制: 将知识筛选与纠正机制引入基于知识蒸馏的持续学习,有效克服错误历史知识对新知识学习的干扰;

  • 长短期互补知识提炼: 挖掘并融合长短期模型间的互补知识,提升知识蒸馏过程中知识表达的鲁棒性,提升历史知识在新知识学习中的引导作用。

  • 遗忘-学习主动权衡: 摒弃固定抗遗忘损失的策略,提出主动搜索最优的新旧知识权衡参数的方法。


应用价值


LSTKC++ 所提出的终身学习机制具备良好的实用性和推广潜力,特别适用于以下典型场景:


  • 适应动态开放环境,构建「终身进化」的识别系统。 在实际应用中,摄像头部署环境常常发生变化,例如视角变换、光照变化、图像分辨率波动等,传统静态训练的模型难以持续适应。LSTKC++ 具备长期知识保持与新知识快速整合能力,可持续应对环境迁移,适用于智慧城市、边缘计算终端、无人安防等场景,助力构建「可持续演进」的识别系统。


  • 满足隐私保护需求,避免历史样本访问。 在公共安全、交通监控、医疗影像等高度敏感的应用场景中,受限于数据安全与隐私法规,系统通常禁止长期存储历史图像或身份数据。LSTKC++ 在整个持续学习过程中无需访问任何历史样本或缓存数据,具备天然的隐私友好性。


  • 高效学习,快速部署。 LSTKC++ 无需保存图像或额外身份原型等,在多轮更新中也不会引入显存负担或冗余参数。同时,相比现有方法(如 DKP),该方法大幅减少了参数规模与显存占用,训练过程高效,可快速完成模型更新,满足资源受限设备上的持续学习需求。


未来展望


LSTKC++ 为无样本持续学习提供了结构化解决方案,未来仍具备多维度的研究与拓展空间:


  • 向预训练视觉大模型拓展。 当前终身学习方法多数基于 CNN 架构设计,然而预训练视觉大模型在视觉任务中已展现出强大表达能力。如何将 LSTKC++ 的知识解耦与巩固机制迁移至大模型框架,并结合其先验语义进行持续学习,是一个具有理论深度与实际价值的重要方向。


  • 研究多模态感知下的持续学习机制。 现有终身行人重识别研究主要基于可见光图像,尚未充分考虑红外、深度图、文本描述等多模态信息。在传感设备普及的背景下,融合多模态数据以提升持续学习的稳定性、抗干扰能力,将是推动算法实用化的重要路径。


  • 推广至通用类别的域增量识别任务。 LSTKC++ 当前聚焦于「跨域+跨身份」的行人检索问题,然而在现实应用中,物品、交通工具、动物等通用类别同样面临动态领域变化现象。将本方法推广至通用类别的域增量学习场景,有望提升大规模视觉系统在开放环境下的适应性与扩展能力。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


实际场景中,光照、角度、遮挡等因素会带来很大的干扰,这会影响行人重识别的准确率。LSTKC++可能需要结合更强的图像增强技术,或者引入多模态信息(比如红外、深度信息)来提升鲁棒性。

LSTKC++框架将原有的长期旧模型解耦为代表更早期历史知识的长期模型和代表最近历史知识的短期旧模型。个人理解,这种解耦降低了长期知识对于新知识学习的干扰,使得新模型可以先专注于学习短期知识,然后再逐步融合长期知识,从而避免了灾难性遗忘。

从论文的角度看,解耦的关键在于互补纠正。长期和短期模型分别筛选正确知识,然后进行融合、修正,保证知识的准确性,并最终指导新模型学习。感觉有点像“三人行,必有我师焉”,通过对比,提取精华,去其糟粕。不过,这种方法对计算资源的要求会不会比较高?需要维护两个旧模型。

我觉得最大的挑战还是计算资源。LSTKC++需要维护多个模型,这在边缘计算设备上可能会有困难。未来的研究可以考虑模型压缩或者知识蒸馏的方法,在保证性能的前提下,降低计算复杂度。

我觉得最大的难点在于特征的泛化能力。行人重识别关注的是人的穿着、体态等特征,这些特征在其他物体上可能就没有意义了。通用物体识别需要学习更抽象、更具有泛化能力的特征。

这让我想到了心理学上的工作记忆模型,把记忆分成不同的模块处理,可以更高效。LSTKC++是不是借鉴了类似的思路,把知识也分成长短期记忆,分别处理,最后再整合?

除了环境因素,数据也是一个挑战。真实场景中的数据分布可能非常不均匀,某些场景或人群的数据可能很少,导致模型在这些情况下的表现很差。可以考虑使用一些数据增强或者迁移学习的技术来解决这个问题。

数据标注也是个问题。行人重识别的数据集相对来说比较规范,但是通用物体识别的数据集种类繁多,标注质量参差不齐。如何处理这些噪声数据,也是一个很大的挑战。