基于稀疏分布激活的增量式LSTM研究

发布时间:2022-01-05 15:24
  近年来,随着新型人工智能技术的不断发展以及海量数据的爆炸式增长,如何借助新技术高效、准确地处理并分析不断增长的数据流是一项具有挑战性的任务。现有的深度神经网络通常采用基于批量(batch)数据的训练方法,无法有效处理数据的动态增长;保留所有历史数据虽然可以保证学习的效果,但会给存储及计算带来巨大压力。循环神经网络(Recurrent Neural Networks,RNNs)是一种适合于数据流分析与建模的深度学习模型,能够挖掘数据流中的时序关联,其变种长短时记忆网络(Long Short-term Memory,LSTM)已经成功应用于机器翻译、语音识别等多种流数据处理任务中,是使用最广泛的循环神经网络结构。但现有的LSTM模型无法有效适应数据流的动态增长,常规训练方法会导致“灾难性遗忘”(Catastrophic Forgetting,CF)问题。为了提高对不断增长的海量数据分析、处理能力,增强LSTM模型在真实场景下的可用性,本文在现有LSTM模型的基础上,针对数据流增量学习中记忆遗忘问题,研究了基于稀疏分布激活的增量式LSTM。本文主要研究内容如下:(1)首先分析增量学习面临的主... 

【文章来源】:江苏大学江苏省

【文章页数】:73 页

【学位级别】:硕士

【图文】:

基于稀疏分布激活的增量式LSTM研究


LSTM单元结构

增量


江苏大学硕士学位论文11实数据,而是使用生成对抗网络(GenerativeAdversarialNetworks,GANs)在必要时生成所需的历史数据。虽然达到相同目的,但是引入了额外的训练开销,因此本文选择压缩保留部分重要的历史数据以防止信息遗忘。同时,由于数据流的学习具有时序关联性,将已完成训练中的重要参数一并用于新数据的学习有利于保持时序连续,对于非独立的序列数据学习具有重要意义。与前馈网络有所不同,由于LSTM网络中存在输出到输入的反馈连接,LSTM训练方法采用基于时间的BP算法(BackPropagationThroughTime,BPTT),梯度会沿时间轴反向传递,故每一步参数的更新实际上使用了之前所有各时间步的梯度总和。但是在实际操作中,算法往往设置一个反向传播的步长(一般为4或5),只保留步长内的各梯度,所以历史数据的信息可能在训练中丢失,因此需要改进BPTT算法,使历史梯度信息能够传递到并作用于新数据产生的梯度上,巩固已有的记忆。鉴于以上论述,本文从LSTM网络结构和训练方法两个角度出发,研究并实现适合于数据增量学习的新型LSTM系统。2.2基于稀疏分布激活增量式LSTM系统的结构本文设计的基于稀疏分布激活的增量式LSTM系统包含基于稀疏分布的LSTM模块和基于压缩和记忆巩固的增量式训练方法模块,整个系统的结构示意图如图2.1所示。图2.1基于稀疏分布激活增量式LSTM系统的结构图2.1给出了系统的整体架构,整个系统建立在不断增长的数据流上。在基

示意图,半径,神经元,示意图


江苏大学硕士学位论文193.3K-Winner-Take-All神经元激活策略为了缓解增量学习中“灾难性遗忘”问题,神经网络不能依赖于网络各层所有神经元的行为模式。因此,在LSTM隐藏层和神经元分组之后,在每个分组中引入神经元竞争、抑制机制,提高对动态增长的数据流连续学习的能力。具体来说,在每个分组中,采用K-Winner-Take-All神经元激活策略,当一个输入模式进入LSTM网络后,同组内的各神经元根据各自激活值的大小进行竞争,取激活值最大的前K个神经元将其激活响应输入。在神经元竞争激活的同时,考虑激活神经元对其附近神经元的抑制作用。设置抑制半径r,当某一神经元按照K-Winner-Take-All策略被激活后,其抑制半径r内的其它神经元均被抑制。图3.2给出了分组内神经元竞争、抑制示意图。(a)(b)图3.2抑制半径示意图图3.2中阴影区域表示抑制半径作用范围,蓝色神经元表示竞争激活的神经元,白色神经元表示被抑制神经元,图(a)抑制半径r=3,图(b)抑制半径r=4。本章基于神经元稀疏分布的LSTM借鉴Dropout、1范数(Lasso)、组稀疏(GroupLasso)等正则化方法的思想,利用稀疏激活的动态模型结构缓解LSTM在增量学习中“灾难性遗忘”问题。图3.3显示了1范数(Lasso)、组稀疏(GroupLasso)、稀疏组索套(SparseGroupLasso)惩罚项和本文结构化稀疏的直观对比。虚线框表示将2维输入层连接到5维输出层的连接矩阵,灰色部分表示矩阵中被对应惩罚项归零的可能元素。Lasso惩罚移除元素的时候不考虑神经元级的优化。组稀疏惩罚移除了输入层第二个神经元的所有连接,因此该神经元可以从网络中移除。通过GroupLasso

【参考文献】:
期刊论文
[1]深度学习的昨天、今天和明天[J]. 余凯,贾磊,陈雨强,徐伟.  计算机研究与发展. 2013(09)
[2]L1正则化机器学习问题求解分析[J]. 孔康,汪群山,梁万路.  计算机工程. 2011(17)
[3]L1/2 regularization[J]. XU ZongBen 1 , ZHANG Hai 1,2 , WANG Yao 1 , CHANG XiangYu 1 & LIANG Yong 3 1 Institute of Information and System Science, Xi’an Jiaotong University, Xi’an 710049, China;2 Department of Mathematics, Northwest University, Xi’an 710069, China;3 University of Science and Technology, Macau 999078, China.  Science China(Information Sciences). 2010(06)



本文编号:3570594

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3570594.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户231a5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com