复数神经网络研究
发布时间:2020-08-26 08:50
【摘要】:目前大多数深度学习技术、模块以及框架都是基于实数操作和表示,经过研究发现复数具有实数不可比拟的优势,比如丰富的表示能力、具有相位信息以及对噪声具有鲁棒性等。尽管复数网络具有杰出的优势,但缺乏构建复数网络的模块,因此很少有人研究复数域神经网络。本文研究了实数域神经网络的构建方法,并细致分析了复数域神经网络的构建方法,从而将神经网络扩展到复数域。本文主要研究了卷积神经网络和递归神经网络,并将其扩展到复数域。为了研究复数神经网络,本文对深度学习中的卷积神经网络和递归神经网络分别作了深入分析,包括递归神经网络为何出现梯度消失与爆炸问题、卷积神经网络中的各个网络层的实现原理,并基于这些研究内容来构建复数神经网络。主要研究内容包括:(1)研究基于酉矩阵的递归神经网络实现机理:反向梯度传播时递归神经网络存在的梯度消失或爆炸现象会导致网络无法继续训练。本研究重点从数学理论角度对基于酉矩阵的递归神经网络解决梯度消失或爆炸问题的原理进行分析,并对比了目前典型的三种参数化酉矩阵的方法:UERNN、Tunable和FFT。对比分析发现三种分解方式能够覆盖的空间均为酉空间的子空间,但只有Tunable可以通过修改参数来调整子空间的大小。(2)研究基于复数的深度残差神经网络构建方法:研究分析了复数在参数表示和网络深度方面的优势,以及复数残差神经网络的构建方法。为了在深度残差神经网络基础上实现复数域的数据处理,构建了复数卷积、复数池化、复数权重初始化、复数批量归一化以及复数激活函数等5个残差网络中的关键模块,并利用这5个模块构建复数残差网络。为了验证复数神经网络的优势,本文设计多组实验,分别验证复数递归神经网络和复数残差网络的性能。具体包括:(1)基于酉矩阵的递归神经网络的实验结果与分析:针对复制任务、去噪任务和括号任务,本实验将UERNN、Tunable、FFT三种参数化酉矩阵方法分别应用到递归神经网络中,在这三个任务上分别测试其与LSTM、GRU和GORU等6个网络的性能。实验表明Tunable分解酉矩阵方式构成的递归神经网络在复制任务上表现最好,而GORU在去噪任务和括号任务上表现最佳。(2)基于实数域和复数域残差网络的实验结果与分析:实验设计了基于CIFAR-10和CIFAR-100的两个图像分类任务以及基于MusicNet的音乐转录任务。实验表明复数残差网络在图像分类任务上表现不佳;而复数残差网络在音乐转录任务上精度超过实数域残差网络3.3%。在图像分类任务上,经过非局部连接网络优化后的复数残差网络性能比未经过非局部连接网络优化的复数残差网络也提高了0.1%。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP183
【图文】:
( )in outn n ,因此单参数 的值为in outn n导,可知在复数初始化时只需要利用输入和输出来指权重满足均值为 0,方差为 22 。数批量归一化是对权重初始化的补充。在训练神经网络时,若权重改变使后续输入的分布也发生变化,就需要修改网络分布变化。这样操作代价太大,因此将每层的输出做输入当作下一层的输入。做归一化目的是让输入数(0,1)。但是归一化后会使得网络表达能力弱化不少,数时,如果将数据进行上述归一化操作,会使得大部近,这些数据在经过激活函数时,只使用了激活函数激活函数的饱和部分,使网络模型的表达能力降低。
=rr riir ii 前同样需要初始化 和 。为了方便训练,令批量归,需将缩放参数 中的rr ii 和 均初始化为1 2 ,i 均初始化为 0。量归一化的理论推导完毕,在代码实现时需要将输入阵、缩放矩阵以及偏移向量,其余与在实数域构建批数激活函数引入激活函数目的是为了给网络引入非线性因子。激,将冗余的数据过滤。目前卷积神经网络中使用的激变体居多。校正线性单元(Rectified Linear Unit, Re图如图 4.3 所示。
将 UERNN、Tunable、FFT 构成的 RNN 网络与 GRU、LSTM 以及 GORU 等六个网络分别在该复制任务上进行性能测试,网络收敛结果折线对比图如图 5.1 所示。图5.1 复制任务在 5 个网络上的精度比较折线图图 5.1 中纵轴是网络的损失值,横轴是迭代次数。从图 5.1 可以看出在复制任务中收敛最快的,即损失值下降最快的是 UERNN 构成的 RNN 网络;最终损失值最低即精度最高的是 Tunable 和 FFT 构成的 RNN 网络。LSTM、GRU 以及 GORU 相比较前三者而言收敛速度较慢,且最终损失值较高,因此在该任务中 LSTM、GRU 以及GORU 的性能都比较差。下面对本任务的测试结果进行对比和分析。复制任务是一个纯记忆性任务,因此记忆型网络更适合该任务。GRU、LSTM 以及 GORU 具有过滤信息的门控机制,因此在该任务上表现差。UERNN 构成的 RNN 网络只能够覆盖酉空间中固定大小的子空间,因此只能找到该子空间内的最优解,而非全酉空间的最优解。在子空间上修改参数,并通
本文编号:2804967
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP183
【图文】:
( )in outn n ,因此单参数 的值为in outn n导,可知在复数初始化时只需要利用输入和输出来指权重满足均值为 0,方差为 22 。数批量归一化是对权重初始化的补充。在训练神经网络时,若权重改变使后续输入的分布也发生变化,就需要修改网络分布变化。这样操作代价太大,因此将每层的输出做输入当作下一层的输入。做归一化目的是让输入数(0,1)。但是归一化后会使得网络表达能力弱化不少,数时,如果将数据进行上述归一化操作,会使得大部近,这些数据在经过激活函数时,只使用了激活函数激活函数的饱和部分,使网络模型的表达能力降低。
=rr riir ii 前同样需要初始化 和 。为了方便训练,令批量归,需将缩放参数 中的rr ii 和 均初始化为1 2 ,i 均初始化为 0。量归一化的理论推导完毕,在代码实现时需要将输入阵、缩放矩阵以及偏移向量,其余与在实数域构建批数激活函数引入激活函数目的是为了给网络引入非线性因子。激,将冗余的数据过滤。目前卷积神经网络中使用的激变体居多。校正线性单元(Rectified Linear Unit, Re图如图 4.3 所示。
将 UERNN、Tunable、FFT 构成的 RNN 网络与 GRU、LSTM 以及 GORU 等六个网络分别在该复制任务上进行性能测试,网络收敛结果折线对比图如图 5.1 所示。图5.1 复制任务在 5 个网络上的精度比较折线图图 5.1 中纵轴是网络的损失值,横轴是迭代次数。从图 5.1 可以看出在复制任务中收敛最快的,即损失值下降最快的是 UERNN 构成的 RNN 网络;最终损失值最低即精度最高的是 Tunable 和 FFT 构成的 RNN 网络。LSTM、GRU 以及 GORU 相比较前三者而言收敛速度较慢,且最终损失值较高,因此在该任务中 LSTM、GRU 以及GORU 的性能都比较差。下面对本任务的测试结果进行对比和分析。复制任务是一个纯记忆性任务,因此记忆型网络更适合该任务。GRU、LSTM 以及 GORU 具有过滤信息的门控机制,因此在该任务上表现差。UERNN 构成的 RNN 网络只能够覆盖酉空间中固定大小的子空间,因此只能找到该子空间内的最优解,而非全酉空间的最优解。在子空间上修改参数,并通
【参考文献】
相关期刊论文 前1条
1 程静;何承源;;广义酉矩阵与广义Hermite矩阵的一些性质[J];重庆师范大学学报(自然科学版);2010年03期
本文编号:2804967
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2804967.html