斯坦福AI新算法模拟大脑视觉理解机制

斯坦福AI新算法TDANN模拟大脑视觉理解机制,或助力更高效AI及神经系统疾病治疗。

原文标题:为虚拟神经科学开辟新领域,斯坦福AI新算法模拟大脑如何理解视觉世界

原文作者:数据派THU

冷月清谈:

斯坦福大学的研究团队开发了一种名为拓扑深度人工神经网络(TDANN)的AI算法,该算法模拟了灵长类动物视觉系统中多个皮质区域的功能组织。与传统神经网络不同,TDANN 引入了空间约束,将虚拟神经元排列在二维“皮质片”上,并要求相邻神经元对感官输入有相似反应。通过这种方式,TDANN 在处理图像时形成了空间地图,复制了大脑中神经元对视觉刺激的反应和自组织方式。

研究人员利用自监督学习方法训练 TDANN,使其能够更准确地模拟大脑的学习过程。结果表明,TDANN 成功预测了人类大脑视觉系统多个部分的感官反应和空间组织,包括初级视觉皮层(V1)中的“风车”结构和高级腹侧颞叶皮层(VTC)中对面部或地点等类别做出反应的神经元簇。

这项研究对神经科学和人工智能领域都具有重要意义。 TDANN 为神经科学家研究视觉皮层的发育和运作提供了新的视角,并可能改进神经系统疾病的治疗方法。 对于人工智能领域,从大脑组织中获得的见解可以帮助开发更复杂的视觉处理系统,使计算机更像人类一样“看”。 此外,TDANN 的高能效特性也为开发更节能的人工智能系统提供了启示。

怜星夜思:

1、TDANN算法的“空间约束”特性如何体现在实际代码实现中?
2、除了视觉,TDANN 还可以应用于其他感官信息的处理吗?例如听觉、嗅觉等?
3、TDANN 的能效优势如何转化为实际应用?例如,能否用于开发更低功耗的边缘计算设备?

原文内容

来源:ScienceAI
本文约1600字,建议阅读5分钟
近日,斯坦福大学团队在利用 AI 复制大脑如何组织感官信息来理解世界的方式方面取得了重大进展,为虚拟神经科学开辟了新的领域。


当我们看着时钟的秒针移动时,我们的大脑会激活一系列的神经元,这些神经元对特定的视觉角度敏感。这些细胞形成美丽的「风车」图,每部分代表不同角度的视觉感知。
大脑的视觉区域还包含更复杂和抽象的视觉特征图,如面孔识别和场景理解等。
这样的功能图遍布整个大脑,让神经科学家既高兴又困惑,他们长期以来一直想知道,为什么大脑应该进化出只有现代科学才能观察到的地图式布局。
近日,斯坦福大学团队在利用 AI 复制大脑如何组织感官信息来理解世界的方式方面取得了重大进展,为虚拟神经科学开辟了新的领域。
研究人员开发了一种新的人工智能算法——拓扑深度人工神经网络 (Topographic Deep Artificial Neural Network,TDANN),这是第一个预测灵长类视觉系统中多个皮质区域功能组织几个方面的模型。
TDANN 只使用两个规则:自然感官输入和连接的空间约束;它成功预测了人类大脑视觉系统多个部分的感官反应和空间组织。
经过七年的深入研究,该研究成果以《A unifying framework for functional organization in early and higher ventral visual cortex》为题,于 5 月 10 日发表在《Neuron》杂志上。
论文链接:https://doi.org/10.1016/j.neuron.2024.04.018
与传统神经网络不同,TDANN 结合了空间约束,将其虚拟神经元排列在二维「皮质片」(cortical sheet)上,并要求附近的神经元对感官输入有相似的反应。
图示:TDANN 架构。(来源:论文)
当模型学会处理图像时,这种拓扑结构使其形成空间地图,复制大脑中的神经元如何响应视觉刺激而自我组织。具体来说,该模型复制了复杂的模式,例如初级视觉皮层 (V1) 中的风车结构和高级腹侧颞叶皮层 (VTC) 中对面部或地点等类别作出反应的神经元簇。
图示:TDANN 对 V1 拓扑的预测。(来源:论文)
图示:TDANN 对高级视觉皮层拓扑结构的预测。(来源:论文)
该团队使用自监督学习方法来提高模拟大脑的训练模型的准确性。
论文一作 Eshed Margalit 博士说:「这可能更像婴儿学习视觉世界的方式,我认为我们最初并没有预料到它会对训练模型的准确性产生如此大的影响,但你真的需要正确地完成网络的训练任务,才能让它成为一个好的大脑模型。」
完全可训练的模型将帮助神经科学家更好地理解大脑如何组织自身的规则,无论是视觉还是其他感官系统(如听觉)。
这种创新方法对神经科学和人工智能都有重要意义。对于神经科学家来说,TDANN 提供了一个研究视觉皮层如何发育和运作的新视角,有可能改变神经系统疾病的治疗方法。对于人工智能来说,从大脑组织中获得的见解可以带来更复杂的视觉处理系统,类似于教计算机像人类一样「看」。
这些发现还可以帮助解释人类大脑如何以如此高的能量效率运作。例如,人类大脑仅用 20 瓦的功率就可以计算出数十亿次数学运算,而超级计算机则需要多一百万倍的能量才能完成同样的数学运算。
新的发现强调,神经元图谱——以及驱动它们的空间或拓扑约束——可能有助于使连接大脑 1000 亿个神经元的线路尽可能简单。这些见解可能是设计受大脑启发的更高效人工系统的关键。
更节能的人工智能可以帮助发展虚拟神经科学,从而可以更快地进行更大规模的实验。在他们的研究中,研究人员证明了他们的 TDANN 可以对广泛的自然视觉刺激产生类似大脑的反应,这表明这种系统将来可以用作快速、廉价的神经科学实验原型的「游乐场」,并为未来的测试快速确定假设。
虚拟神经科学实验还可以促进人类医疗保健。例如,更好地训练人工视觉系统(就像婴儿通过视觉了解世界一样)可能有助于人工智能像人类一样看待世界,在人类眼中,视线的中心比视野的其他部分更清晰。另一个应用可以帮助开发视觉假肢,或准确模拟疾病和伤害如何影响大脑的各个部分。
「如果你能做一些事情,比如做出预测,这将有助于为失明的人开发假肢设备,我认为这将是一件了不起的事情。」斯坦福大学心理学教授 Grill-Spector 说。
参考内容:https://medicalxpress.com/news/2024-05-neuroscientists-ai-simulate-brain-visual.html
编辑:文婧

关于TDANN算法“空间约束”的代码实现,我理解的是在神经网络结构的设计上有所体现。应该是在定义网络层的时候,不仅仅考虑神经元之间的连接权重,还需要加入神经元空间位置信息。比如,可以构建一个二维矩阵来表示“皮质片”,然后将神经元映射到矩阵的不同位置。在计算神经元激活值的时候,除了常规的输入和权重,还要考虑周围神经元的影响,距离越近影响越大。具体实现可能需要参考论文的补充材料或者GitHub上的开源代码。

我猜想可能是通过某种距离函数来实现的,例如在损失函数中添加一个惩罚项,用于衡量相邻神经元输出的差异性。如果相邻神经元输出差异较大,则惩罚项的值会增加,从而促使模型学习到更符合空间约束的表示。当然,这只是我个人的猜测,具体实现细节还需要进一步研究。

空间约束的实现方式可能有很多种,除了楼上提到的方法,还可以考虑使用卷积神经网络(CNN),CNN本身就具有局部连接和权值共享的特性,可以很好地模拟神经元的空间组织。此外,还可以参考一些图神经网络(GNN)的实现方法,将神经元之间的空间关系建模成图结构,然后在图上进行学习。

TDANN 的低功耗特性确实很有潜力。如果能将 TDANN 的算法原理应用于边缘计算设备,例如智能手机、可穿戴设备等,可以显著降低这些设备的功耗,延长续航时间。当然,这还需要解决一些技术难题,例如如何将 TDANN 适配到不同的硬件平台,如何优化算法的计算效率等。

将 TDANN 应用于边缘计算设备的一个挑战是如何在资源受限的设备上实现高效计算。TDANN 的计算复杂度可能比较高,需要大量的内存和计算资源。因此,需要对算法进行优化,例如使用量化、剪枝等技术来减小模型的规模和计算量。

应用于其他感官信息处理的关键在于如何定义和表示这些感官信息的“拓扑结构”。例如,对于嗅觉,可能需要考虑不同气味分子与嗅觉受体的结合模式;对于触觉,则需要考虑皮肤上不同感受器的分布和相互作用。如果能找到合适的表示方法,相信TDANN也能在这些领域取得不错的效果。

我觉得理论上是可以的。TDANN 的核心思想是利用空间约束来模拟大脑的拓扑结构,而这种拓扑结构并不局限于视觉系统。听觉、嗅觉等感官系统在大脑中也有相应的拓扑组织,因此可以尝试将 TDANN 应用于这些领域。当然,具体的实现方式可能需要根据不同感官信息的特性进行调整。

我觉得除了边缘计算,TDANN 的能效优势还可以应用于其他领域,例如数据中心、云计算等。这些领域对能耗的需求非常大,如果能够借鉴 TDANN 的设计思路,开发更节能的计算系统,将具有巨大的经济和社会效益。