深度神经网络解释与语义特征提取
发布时间:2021-03-30 10:37
深度神经网络技术在近年内发展迅速,在诸多认知相关问题(如图像识别,语音识别,自然语言理解等)上达到接近人类的精度,已被广泛投入实际应用中。然而神经网络的理论基础,却尚未有公认的解释,仍然是一个悬而未决的难题。本文从消除语义鸿沟这一思路展开此命题,首先介绍了多种常用的神经网络解释算法,完善理论基础。随后对传统及深度特征提取方法进行了阐述,揭示了它们在语义信息表现方面的不足。基于这些问题,我们将神经网络解释应用在语义特征提取上,以提高特征的语义表征能力,进而提高检索系统的性能,并增强其可交互性与可解释性。在神经网络解释部分,我们说明了消除语义鸿沟是神经网络理解的最终目标,也是其本质所在。并从消除语义鸿沟和神经网络解释两个角度提出了解决问题的方法路线。依照方法路线,我们提出了一种新的算法ICL-CNN,将神经网络各层的卷积类比成稀疏编码,将显著性算法施加在神经网络的各个卷积层中,结合了CNN与ICL的优势,合并成物体级别的显著性图。在此基础上,我们用统计方法引入了物体的概念作为显著性的条件,从而结合了自顶向下显著性检测的优势。我们用此方法揭示深度网络各个层次或整体的处理过程。在语义特征提取部...
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
–1Dropout的示意图
可能地接近输入值。反向激活函数:大多数神经网络采用 ReLU 激活函数,其逆函数可直接使用 ReLU 近似。如图2–4,分别为 AlexNet 和原作者提出的 ZFNet 两种网络结构前两层的可视化。通过可视化展示,作者发现了 AlexNet 的缺陷,调整其网络结构提出了 ZFNet,可见这一方法在模型迭代更新方面有很重要的作用。图 2–4 逆卷积网络可视化结果[26]Fig 2–4 Visualization of DeConvNet2.2.1.2 逆函数优化法逆函数优化法[27]的思路是通过优化,得到使待解释特征图表征误差最低的输入图像。对特征提取函数Φ : R R,和目标特征 Φ0,优化方法的目标是找到使误差最低的输入 xx = argminx RH W C(Φ(x) Φ0) + ( ) (2–13)其中: R R
2范数用于约束原图能量值的大小。对每个卷积核,我们可以根据神经网络的拓扑结构计算出它们与原图之间的梯度关系,进而使用梯度下降法计算出 的大小。如图2–6,从前向后依次是 VGG16 网络从浅层到中间层到深层特征图的响应最大化可视化结果。在较浅的层次里,可视化图表示的是边缘识别的卷积核。逐渐地,图像变化为细纹理,简单图案,复杂图案,最后出现物体的结构等,表示的卷积核功能越来越复杂。这种可视化方法侧面呈现了神经网络计算逻辑由浅入深的演化过程,即从简单的底层图像处理到机器语义与知识概念。2.2.3 类别响应映射类别响应映射 (Class Activation Mapping, CAM) 是一种非常直观简便的推导待解释类在原图尺度热度图的方法,可用于决策可视化和弱监督图像分割,包括原始算法 CAM[30]和延伸算法 Grad-CAM[31]。从消除语义鸿沟上讲,CAM 系列方法通过建立机器语义和概念之间的联系来解释它们。2.2.3.1 原始 CAM 算法对于原始 CAM 算法
本文编号:3109369
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
–1Dropout的示意图
可能地接近输入值。反向激活函数:大多数神经网络采用 ReLU 激活函数,其逆函数可直接使用 ReLU 近似。如图2–4,分别为 AlexNet 和原作者提出的 ZFNet 两种网络结构前两层的可视化。通过可视化展示,作者发现了 AlexNet 的缺陷,调整其网络结构提出了 ZFNet,可见这一方法在模型迭代更新方面有很重要的作用。图 2–4 逆卷积网络可视化结果[26]Fig 2–4 Visualization of DeConvNet2.2.1.2 逆函数优化法逆函数优化法[27]的思路是通过优化,得到使待解释特征图表征误差最低的输入图像。对特征提取函数Φ : R R,和目标特征 Φ0,优化方法的目标是找到使误差最低的输入 xx = argminx RH W C(Φ(x) Φ0) + ( ) (2–13)其中: R R
2范数用于约束原图能量值的大小。对每个卷积核,我们可以根据神经网络的拓扑结构计算出它们与原图之间的梯度关系,进而使用梯度下降法计算出 的大小。如图2–6,从前向后依次是 VGG16 网络从浅层到中间层到深层特征图的响应最大化可视化结果。在较浅的层次里,可视化图表示的是边缘识别的卷积核。逐渐地,图像变化为细纹理,简单图案,复杂图案,最后出现物体的结构等,表示的卷积核功能越来越复杂。这种可视化方法侧面呈现了神经网络计算逻辑由浅入深的演化过程,即从简单的底层图像处理到机器语义与知识概念。2.2.3 类别响应映射类别响应映射 (Class Activation Mapping, CAM) 是一种非常直观简便的推导待解释类在原图尺度热度图的方法,可用于决策可视化和弱监督图像分割,包括原始算法 CAM[30]和延伸算法 Grad-CAM[31]。从消除语义鸿沟上讲,CAM 系列方法通过建立机器语义和概念之间的联系来解释它们。2.2.3.1 原始 CAM 算法对于原始 CAM 算法
本文编号:3109369
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3109369.html