高效深度神经网络综述
发布时间:2021-06-30 07:51
近年来,深度神经网络(DNN)在计算机视觉、自然语言处理等AI领域中取得了巨大的成功。得益于更深更大的网络结构,DNN的性能正在迅速提升。然而,更深更大的深度神经网络需要巨大的计算和内存资源,在资源受限的场景中,很难部署较大的神经网络模型。如何设计轻量并且高效的深度神经网络来加速其在嵌入式设备上的运行速度,对于推进深度神经网络技术的落地意义巨大。对近年来具有代表性的高效深度神经网络的研究方法和工作进行回顾和总结,包括参数剪枝、模型量化、知识蒸馏、网络搜索和量化。同时分析了不同方法的优点和缺点以及适用场景,并且展望了高效神经网络设计的发展趋势。
【文章来源】:电信科学. 2020,36(04)
【文章页数】:10 页
【部分图文】:
参数剪枝
低秩分解通过对网络的参数矩阵进行张量分解,利用其分解得到的低秩矩阵对元参数矩阵进行近似,减少网络的参数量,主要包括奇异值分解(SVD)、Tucker分解[39]、块分解(block decomposition)[34]。这一过程如图2所示。低秩分解出现的时间较早,在未广泛应用卷积网络之前,网络主要是由多层的全连接层构成的。虽然全连接运算量就少,但是所需要的参数量非常多。例如,对于一个秩为r的全连接层的参数矩阵W,其大小为m×n(通常r远小于m或n)。将W分解一个m×r矩阵W_1和一个r×n矩阵W_2之积,W_1和W_2所占用的存储空间为r×(m+n),远小于W所需的存储空间m×n。为了减小全连接层的参数量,大幅度压缩含有全连接层的CNN模型,Alexander等[40]针对全连接层提出了Tensor Train分解方法,该方法能对VGGNe的全连接层压缩至原来的1/20 000,极大降低了VGGNet的参数量。
通常大型网络相对于小网络具有更高的性能。一个预训练好的大网络,其输出的结果可以表示模型预测的类别分布概率,这一过程如图3所示。与one-hot类别标签相比,网络的预测结果所包含的信息更加丰富。知识蒸馏[48]就是将已训练好的大模型(通称教师网络)输出值(soft-label,通称软标签)作为额外的监督信号,辅助小模型(通称学生网络)的训练过程。其本质是将大网络学到的知识迁移到小网络中,具体的做法是让小网络模仿大网络的预测结果,从而提升小型网络性能。知识蒸馏由Bucilua等[49]提出,其主要目的是对模型进行压缩。然而,在当时知识蒸馏只局限于浅层网络,影响力较小。直到2014年Hinton等[48]通过最小化教师网络和学生网络输出值的KL散度来训练学生网络,使得学生网络可以接近甚至超过教师网络的精度。同时,文章也引入了一个超参数“温度”来松弛教师网络的输出值。此后,知识蒸馏成为提升小网络性能的主流方法之一。Ba[50]则直接利用优化教师网络和学生网络logits之间的L2距离,将较深较大的网络进行压缩,得到较浅较小的网络。
本文编号:3257352
【文章来源】:电信科学. 2020,36(04)
【文章页数】:10 页
【部分图文】:
参数剪枝
低秩分解通过对网络的参数矩阵进行张量分解,利用其分解得到的低秩矩阵对元参数矩阵进行近似,减少网络的参数量,主要包括奇异值分解(SVD)、Tucker分解[39]、块分解(block decomposition)[34]。这一过程如图2所示。低秩分解出现的时间较早,在未广泛应用卷积网络之前,网络主要是由多层的全连接层构成的。虽然全连接运算量就少,但是所需要的参数量非常多。例如,对于一个秩为r的全连接层的参数矩阵W,其大小为m×n(通常r远小于m或n)。将W分解一个m×r矩阵W_1和一个r×n矩阵W_2之积,W_1和W_2所占用的存储空间为r×(m+n),远小于W所需的存储空间m×n。为了减小全连接层的参数量,大幅度压缩含有全连接层的CNN模型,Alexander等[40]针对全连接层提出了Tensor Train分解方法,该方法能对VGGNe的全连接层压缩至原来的1/20 000,极大降低了VGGNet的参数量。
通常大型网络相对于小网络具有更高的性能。一个预训练好的大网络,其输出的结果可以表示模型预测的类别分布概率,这一过程如图3所示。与one-hot类别标签相比,网络的预测结果所包含的信息更加丰富。知识蒸馏[48]就是将已训练好的大模型(通称教师网络)输出值(soft-label,通称软标签)作为额外的监督信号,辅助小模型(通称学生网络)的训练过程。其本质是将大网络学到的知识迁移到小网络中,具体的做法是让小网络模仿大网络的预测结果,从而提升小型网络性能。知识蒸馏由Bucilua等[49]提出,其主要目的是对模型进行压缩。然而,在当时知识蒸馏只局限于浅层网络,影响力较小。直到2014年Hinton等[48]通过最小化教师网络和学生网络输出值的KL散度来训练学生网络,使得学生网络可以接近甚至超过教师网络的精度。同时,文章也引入了一个超参数“温度”来松弛教师网络的输出值。此后,知识蒸馏成为提升小网络性能的主流方法之一。Ba[50]则直接利用优化教师网络和学生网络logits之间的L2距离,将较深较大的网络进行压缩,得到较浅较小的网络。
本文编号:3257352
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3257352.html