近日,中科院自动化所听觉模型与认知计算团队面向嘈杂背景下的视觉感知问题,提出具有同层侧向激励和抑制的卷积脉冲神经网络模型,在多个标准数据集上表现出较好地识别性能和噪音鲁棒性。该论文已被IJCAI 2020大会接收。
如果有人朝你扔过来一个球,通常你会怎么办?——当然是马上把它接住。
这个问题是不是很简单?但实际上,这一过程是最复杂的处理过程之一:首先,在复杂的背景环境下,球进入人的视野,被视网膜捕捉到后,经视觉通路发送到大脑处理视觉信息的脑区,进行更加彻底的图像分析。同时视皮层与其他脑区协作,判断物体的种类,预测它的行进轨迹,最终通过传出神经控制肌肉的运动,决定人的下一步行动:举起双手、接住球。上述过程只在零点几秒内发生,几乎完全是下意识的行为,也很少会出差错。
为了让计算机模仿这一过程,首先需要让计算机做到像人类那样“看”,尤其是在嘈杂背景下像人类那样快速准确地“看”,成为了近年来视觉感知这一研究领域备受关注的关键问题之一。
近年来,基于梯度反向传播的脉冲神经网络(SNN)训练方法逐渐兴起。在这种训练方法下,SNN能够在保留神经元内部动力学的同时获得较好的性能。
在此基础上,自动化所听觉模型与认知计算团队模仿刻画视听觉系统神经元侧向作用的数学模型动态神经场,提出了具有侧向作用的SNN——LISNN,用于图像识别任务。并且在测试中,根据侧向作用的动力学特点,人为加入噪声以验证侧向作用对网络鲁棒性的提升。
在生物神经系统的感受器中存在着临近神经元间的相互抑制和相互激励。其中,侧向抑制最初为解释马赫带效应而提出,即人们在明暗变化边界上常常会在亮处看到一条更亮的光带而在暗区看到一条更暗的线条(见图1)。这种侧向作用后来在鲎、猫等多种动物的不同感觉系统中被证实并应用在仿生的计算模型中。
图1. 马赫带效应示意(图引wiki)
LISNN的结构如图2所示,前端是两层具有卷积感受野的脉冲神经元层,每层后面有一层平均池化层,后端是两层全连接的脉冲神经元层。具有卷积感受野的脉冲神经元在模型中承担特征提取的功能,类似于感受器的作用,因此只在这层结构中使用侧向作用。在侧向作用机制下,每个脉冲神经元的膜电位都额外受邻域内的其他神经元上一时刻状态的影响。在目前已有的使用侧向作用的计算模型中,侧向作用系数往往是固定的和神经元间距离相关的函数,而LISNN中的侧向作用系数则可以通过反向传播进行学习。
图2 LISNN模型结构示意图
该研究工作分别在静态数据集MNIST与Fashion MNIST、动态数据集N-MNIST上对LISNN的性能进行了验证。输入数据以特定方式编码为一定长度的脉冲序列,每个时刻的序列规模与原图像(或事件点坐标范围)相同。模型在MNIST和N-MNIST数据集上均取得了和已有最好性能相近的结果;在Fashion-MNIST数据集上则取得了SNN中的最好性能。本模型与已发表模型的性能对比见表1-3。
除此之外,团队还选择在MNIST和Fashion MNIST的测试集中加入不同水平的高斯噪声和脉冲噪声,以进一步测试侧向作用对网络鲁棒性的提升。图3展示了部分原始图片和加噪后的图片。
图3 (a)三行依次为原始MNIST测试集图片、加入高斯噪声后的图片、加入脉冲噪声后的图片
(b)三行依次为原始Fashion MNIST测试集图片、加入高斯噪声后的图片、加入脉冲噪声后的图片
图4中,灰线和蓝线分别代表LISNN和没有侧向作用的SNN在添加了高斯噪声的测试集上的准确率;黄线和橙线分别代表LISNN和没有侧向作用的SNN在添加了脉冲噪声的测试集上的准确率。在大部分情况下,LISNN的性能损失都小于没有侧向作用的SNN,尤其是在训练集中没有添加噪声数据的情况下。
图4 (a)模型在无噪声的MNIST训练集上训练。(b)模型在无噪声的Fashion MNIST训练集上训练
(c)模型在有高斯噪声的MNIST训练集上训练。(d)模型在有高斯噪声的Fashion MNIST训练集上训练
与传统的神经网络算法相比,所提算法能取得较好的性能并自然地实现对噪声干扰的抗性,具有一定理论研究价值和工程实用价值。
机器人公司 机器人应用 智能医疗 物联网 机器人排名 机器人企业 教育机器人 机器人开发 独角兽 消毒机器人品牌 消毒机器人 |