Neocognitron一种不受位置变化影响的模式识别机制的自组织神经网络模型

Posted on 2021-06-13 Edited on 2021-06-14

经典论文| Neocognitron:一种不受位置变化影响的模式识别机制的自组织神经网络模型

论文概述

该论文提出了一种用于视觉模式识别的无监督神经网络模型。该网络不受识别对象位置的影响，通过几何相似度的方法完成识别。论文中把这样的网络称为neocognitron。

大多数神经网络模型受到输入模式的位置偏移和形状扭曲的严重影响，也就是说，相同的模式在不同的位置呈现或者相同样式的圆滑程度不同，被传统的神经网络视为不同的模式。然而，本文提出的自组织神经网络模型中，网络的响应几乎不受刺激模式位置的影响。

神经网络结构

在这里插入图片描述 Hubel 和 Wiesel曾对细胞进行过一个分类：LGB (lateral geniculate body)→simple cells →complex cells →lower order hypercomplex cells →higher order hypercomplex cells

如图1所示，neocognitron由一系列模块化结构级联连接构成，在所有结构之前的是一个输入层U0。每个模块结构是由两层细胞级联连接。模块的第一层由“S细胞(S-cells)”组成，S-cells对应于 simple cells或lower order hypercomplex cells, 我们称它为s层，并将第l个模块中的s层表示为Usl。该模块的第二层由“C细胞(c-cells)”构成，对应于complex cells或higher order hypercomplex cells。我们称它为c层，并将第l个模块中的c层表示为Ucl。在该神经网络中，只有s层细胞的输入突触具有可塑性和可修改性。

一层中的s细胞或c细胞根据其对上层输入刺激的最佳感受部位的不同，被分成子群(subgroups)。由于每个子群中的细胞都可被圈定为一个二维平面图形，所以我们称这个子群为“细胞平面(cell-plane)”。S-plane和C-plane分别表示由s细胞和c细胞组成的细胞平面。

图2是层间相互连接的示意图。每一个用粗线画的四角形代表一个s平面或一个c平面，每一个用细线画的竖直四角形代表一个s层或c层，其中s层或c层是封闭的。

每个细胞平面的细胞总数随着网络中细胞平面深度的增加而减少。在最后一个模块中，每个C-cell的接受域变得非常大，以至于覆盖了整个输入层的面积，并且每个C-plane被确定为只有一个C-cell。

网络的自组织过程

首先，每次刺激模式出现时，从每个s层中选择几个“代表性(representative)”的S细胞。具有代表性的S细胞是从产生大量输出的S细胞中选出来的，每一个平面至多选取一个代表。选S细胞的过程类似于传统的在认知单元(conventional cognitron)中选择增强细胞的过程。

具有代表性的S细胞的输入突触以与r.m.s-type相同的方式被加强。在S平面上，如果有细胞被选中，则该S平面上的其他细胞的输入突触也会以相同的方式被加强。如果在S平面上没有细胞被选中，则S平面中的所有细胞的输入突触不会被加强。

网络的工作原理

在该网络中，输入模式与之前自学习得到的标准模式进行比较。这种比较不是通过在一个大的窗口中直接进行模式匹配来进行的，而是通过在一些小的窗口中分段模式匹配来进行的。只有当两种模式之间的差异在任何一个小的窗口中都不超过一定的限度时，该网络才会判断出这些模式与其他模式是一致的。

在每一阶段的比较中，模式位置变化的容差逐渐增大。进行比较的窗口的大小在更高的阶段将会变得更大。在最后一个阶段，窗口足够大，可以同时观察整个输入模式的信息。由于第一阶段的模式匹配是在多个小的窗口中并行测试的，所以只要通过了第一阶段的小误差筛选就可以认为他们是匹配的。因此，即使输入模式在形状上有一定的失真，该网络也能够做出正确的模式识别。