尺度不变的全卷积神经网络:高效的人手检测.pdf
中国科学院软件研究所学术年会’2019 暨计算机科学国家重点实验室开放周 学术论文 尺度不变的全卷积神经网络:高效的人手检测 Scale Invariant Fully Convolutional Network: Detecting Hands Efficiently 会议:AAAI 2019 通讯作者:张立波 联系方式: 18655882017 libo@iscas.ac.cn 刘丹1, 独大为2, 张立波3,*, 罗铁坚1, 武延军3, 黄飞跃4, Siwei Lyu2 1中国科学院大学, 中国 2纽约州立大学奥尔巴尼分校, 美国 3智能软件研究中心,中国科学院软件研究所, 中国 4腾讯Youtu实验室, 中国 问题: 高效的人手检测 应用: 虚拟现实、人机交互、驾驶监控等 贡献 f1 动机 Conv5_x f1 Conv5_x f2 f2 Fusion_1 代表性方法 传统方法: 人工提取特 征 + 分类器 基于深度学 习的方法: CNNs Conv4_x 不足 皮肤特征 (Dardas and Georganas 2011) 手的形状和背景信息 (Mittal, Zisserman, and Torr 2011) 方向梯度直方图(HOG) (Betancourt et al. 2015) 候选区域 + CNN (Bambach et al. 2015) FCN + 分类 (Le et al. 2017) 旋转 & 解旋转 (Deng et al. 2018) Conv4_x f3 f3 Concatenate Conv3_x f4 Conv2_x • 特征提取的时间和精力开销大 • 非端到端优化过程 • 特征的局限性 Fusion_2 Conv3_x f4 Fusion_3 Conv2_x ... ... Conv1 θ Conv1 Image Predict Image Simultaneously (Yan et al. 2017) Predict Derotation and Rotation Layers (Deng et al. 2018) Iteratively (Ours) Rotation Map (Ours) 提出尺度不变的全卷积神经网络,补充加权特征融合模块(CWF block)可以学习每个 尺度特异与其他尺度的特征,并以一种迭代的方式融合多个尺度的特征进行最后的预测 提出多尺度损失函数,对网络的中间层也加入了监督,加快了模型收敛的速度 与当前最好的方法相比,在保证精度的同时检测速度更加快 • 小的手部区域漏检率大 • 网络结构复杂,训练和测试时间 长,不能达到实时检测 尺度不变的全卷积神经网络 1. 特征提取 取VGG16网络pooling-2到pooling-5的特征图;ResNet50网络conv2_1,conv3_1,ff conv4_1,conv5_1的特征图 i-1 特征大小分别是输入图像的 , , , Upsample ui-1 ffi-1 2. 特征融合 1×1 Conv, BN, Relu 在unpooling层,上一层(较高层次)特征图上采样到 当前特征图相同大小,记为 (CWF)对当前特征图 进行加权: ∗ 1 , Upsample 1 ui-1 Concatenate Subtract C(ui-1) fi Multiply W(fi) 1×1 Conv, BN, Relu Concatenate . 3×3 Conv, BN, Relu 将上面得到的两层的特征图在通道维度上进行连接 经过1 1卷积减少输出通道数 经过3 3卷积融合不同层次的特征 融合后的特征图作为下一个融合模块(UF或CWF) 的基本特征图进行下一步的迭代融合 3. 输出 输出包括三部分:得分图,角度图和距离图,分别记 录预测手型区域的置信度、旋转角度和几何信息。 1×1 Conv, BN, Relu 以VGG16为骨干网络的SIFCN网络结构。主要包含三部分: (a) 特征提取部分, (b) 特征融合部分, 和 (c) 输出部分. ffi Unweighted Fusion 3×3 Conv, BN, Relu ffi Complementary Weighted Fusion s : the current scale : the current scale feature maps : the weighted feature maps : the complementary feature maps ∗ : element-wise multiplication 4. 多尺度损失函数 ∑∈ , 1, 2, 3, 4 2∑ 1 cos log 实验 多尺度损失函数增加了对网 络中间层的监督,加快了模 型收敛的速度 ∑ ∑ ∩ ∪ 消融研究 VIVA人手数据集(Das, OhnBar, and Trivedi 2015) Train: 5,500 images Test: 5,500 images 真实的驾驶场景 标注为轴对齐的边界框 得分图和角度图的作用 在Oxford人手数据集上平均准确率(average precision)随α 和 β 的变化趋势. (a) 平均准确率 vs. α (β = 20). (b) 平均准确率 vs. β (α = 0:01). Oxford人手数据集(Mittal, Zisserman, and Torr 2011) Train: 2,250 images Test: 436 images 多种场景 标注为带有旋转角度的边界框 多尺度损失函数的效果 补充加权特征融合(CWF)模块的作用 无论使用VGG16还是ResNet50作为骨干 网络,使用补充加权特征融合模块(CWF) 的性能都优于非加权模块(UF) 使用补充加权特征融合模块(CWF) 相较 于非加权模块(UF) 产生的假负例更少, 更好的利用了不同尺度的特征. Code here 结果对比:SIFCN (青色,我们的) 和 Multi-scale fast RCNN (红色,Yan et al. 2017) 。(a) VIVA 数据集 (b) Oxford 数据 集 Training time and AP score vs. different numbers of scales for the Oxford dataset.

尺度不变的全卷积神经网络:高效的人手检测.pdf