人群计数
今天我们介绍计算机视觉领域的一个应用方向:人群计数。
任务介绍
人群计数任务就是给定一张图片,需要给出图中的人数。

图1.沙滩上拥挤人群的照片。图中有多少人呢?
一些传统算法包括:基于检测框的方法和基于回归的方法。前者在拥挤的场景下,由于遮挡比较严重,表现不如后者。而后者的表现也不尽如人意。现在主流的基于深度学习的方法是用密度图估计。也就是说,对于图片生成人群密度分布,对整张图上的密度进行求和就可以得到图中的总人数。除了人数信息,基于密度图的方法还能给出人群分布信息。

图2.密度图估计。从Ground Truth生成密度图,与网络估计的密度图计算MSE和MAE,一般认为均方误差越小性能越好;平均绝对误差越小,鲁棒性越好。
数据集
数据集大体可分为三个视角:自由视角,监控视角和航拍视角。
以shanghaitech partA为例:

图3.数据集中的人群图像

图4.标注文件,在对应图片的人头中心标注一个点

图5.标注看起来的效果。图片来自WorldExpo'10
经典工作介绍
MCNN:Multi-Column Convolutional Neural Network
设计思路:由于同一张图中人群的密度变化、尺度变化很大,但是卷积核大小是固定的,因此作者考虑用不同大小的卷积核来提取不同尺度的特征。

图6.MCNN的pipeline
我们下次再会。