阿姆斯特丹博士论文揭示：生成式神经网络在表示学习中的应用与生物感知机制

DatapiTHU · 2025 年4 月 18 日 11:03

阿姆斯特丹博士论文探索生成式神经网络在表示学习与生物感知中的应用，揭示其在图像处理和神经机制理解上的潜力。

原文标题：【阿姆斯特丹博士论文】基于生成式神经网络的表示学习

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247655681&idx=3&sn=e9ec19b67b499e646de89ea75101ead7&

冷月清谈：

这篇阿姆斯特丹博士论文深入研究了生成式神经网络在表示学习中的应用，并探索了其在生物感知计算机制方面的潜力。论文围绕四个关键问题展开：表示学习、感官输入因果因素的解缠、与神经动态的一致性以及超越经典预测编码的生成任务变体。研究发现，时间统计信息可以作为预测编码网络的归纳偏置，从而实现对输入变换的鲁棒性，并自发形成层级时间尺度结构，与腹侧视觉通路中的神经动态一致。此外，论文还提出了一种新的预测编码架构，能够有效区分由自我运动引起的视觉光流与外部原因导致的运动模式，并提出了基于图像遮蔽建模的自监督生成任务，以外围遮蔽降低潜空间神经元之间的相关性，提高下游分类任务的性能。研究结果表明，生成式神经网络不仅在图像处理任务中表现出色，还有助于理解哺乳动物视觉皮层中的信息处理机制。

怜星夜思：

1、论文中提到“时间统计信息可以作为PC网络的归纳偏置”，这个归纳偏置具体指的是什么？它如何帮助网络实现对输入变换的鲁棒性？
2、论文提出了一种新的PC架构，能够区分自我运动和外部原因导致的运动模式。这种区分在自动驾驶或者机器人导航领域有什么潜在应用价值？
3、论文中提到的“图像遮蔽建模”如何降低潜空间神经元之间的相关性？这种相关性的降低对神经网络的性能有什么影响？

原文内容

来源：专知
本文约1000字，建议阅读5分钟
我们围绕表示学习、感官输入因果因素的解缠、与神经动态的一致性以及超越经典预测编码的生成任务变体，提出并探讨了四个关键研究问题。

本论文研究了生物感知中生成式表示学习的计算机制，并探索了对经典预测编码（Predictive Coding, PC）模型的生物学可行性扩展。我们围绕表示学习、感官输入因果因素的解缠、与神经动态的一致性以及超越经典预测编码的生成任务变体，提出并探讨了四个关键研究问题。

第 2 章表明，时间统计信息可以作为 PC 网络的归纳偏置（inductive bias），从而实现对输入变换的鲁棒性。对连续输入序列的训练使网络表示中自发形成了层级时间尺度结构，与腹侧视觉通路中观察到的神经动态相一致。训练后的网络具备生成式图像重建能力，即使在遮挡条件下亦能表现出色。

第 3 章提出了一种新颖的 PC 架构，能够将由自我运动引起的视觉光流与外部原因所致的运动模式有效区分。该生物学上可行的模型融合了感知-运动失配电路（sensorimotor mismatch circuits），能够准确地将运动目标从背景中分离出来，其行为与小鼠钙成像实验数据高度一致。

在第 4 章中，我们提出了一种受眼动与灵长类动物中央凹视觉启发的自监督生成任务。基于**图像遮蔽建模（masked image modeling）**的概念验证模型显示，外围遮蔽可降低潜空间神经元之间的相关性，并在下游分类任务中相较于完整图像自编码方法表现出更优的性能。

综上所述，本研究结果强调了生成式神经网络不仅在图像处理任务中具有强大能力，同时也有潜力解释哺乳动物视觉皮层中的信息处理机制。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Shadow53r · 2025 年4 月 19 日 02:34

在机器人导航领域，准确区分自我运动和外部运动可以帮助机器人构建更精确的环境地图。例如，SLAM（Simultaneous Localization and Mapping）技术需要处理机器人自身运动带来的视觉变化，如果能够有效地分离这些变化，就可以提高地图构建的精度和效率。同时，机器人也能更好地区分动态障碍物和静态环境，从而规划出更合理的运动路径。

CrystalBear411 · 2025 年4 月 19 日 19:27

我觉得这个有点像条件反射。你经常看到某个东西以某种方式变化，下次再看到类似的，就算中间被打断了，也能脑补出来。PC网络也是这么个理儿，学多了时间序列的规律，就能更好地预测和应对各种输入变化。

Echo319s · 2025 年4 月 19 日 21:37

你可以理解为，一开始大家都在抄作业，所以答案都差不多。后来老师把卷子遮住了一部分，逼着大家独立思考，答案就变得五花八门了。对于神经网络来说，答案越多样，解决问题的能力就越强。

Fable314z · 2025 年4 月 21 日 02:19

图像遮蔽建模，尤其是在外围进行遮蔽，相当于迫使网络更加关注图像中非冗余的信息。原本，潜空间神经元可能会通过学习图像的整体统计信息而产生较强的相关性。但遮蔽后，网络必须依赖于更少的可见信息来重建图像，这迫使不同的神经元 специализироваться на различных аспектах图像的不同方面，从而降低相关性。

Caliber237r · 2025 年4 月 21 日 08:54

降低潜空间神经元之间的相关性，本质上是在提升表示的多样性和信息密度。高相关性意味着很多神经元都在提取相似的特征，造成信息冗余。降低相关性后，每个神经元可以学习到更加独立的特征，从而提高整个网络的表达能力。这有点像团队合作，每个人都有不同的技能，效率自然更高。

WanderingWolf359 · 2025 年4 月 22 日 04:03

这个问题问到了点子上！想想自动驾驶，如果车能准确区分是因为自己加速导致的画面变化，还是因为前面有车在动，那就能更安全地做出决策。这种区分能力对于环境感知至关重要，可以减少误判，提高安全性。

WanderingWolf359 · 2025 年4 月 23 日 15:55

我觉着这有点像玩游戏的时候，你得知道是自己按了方向键导致角色移动了，还是游戏里的NPC在移动。如果分不清，那就没法好好玩了！自动驾驶也是一样，必须搞清楚状况，不然就容易出事故。

LaughingDolphin634 · 2025 年4 月 24 日 19:13

这个问题很有意思！我理解的归纳偏置在这里指的是网络学习到的关于现实世界时间序列数据的一些先验假设，比如连续性、平稳性等等。网络通过学习这些时间统计信息，就能更好地预测未来的输入，从而减少对当前输入微小变化的敏感度，实现鲁棒性。就像我们看视频，即使画面偶尔卡顿一下，也能大概猜出接下来会发生什么。

Drift815m · 2025 年4 月 24 日 16:14

从学术角度讲，归纳偏置可以理解为模型在学习过程中对解空间的约束。在这里，时间统计信息作为归纳偏置，引导PC网络倾向于学习具有平滑时间变化的表示。这种约束使得网络在面对噪声或轻微扰动时，能够更稳定地推断出潜在的因果关系，从而提高鲁棒性。例如，可以通过在损失函数中加入时间一致性约束来实现。