当前位置:主页 > 科技论文 > 自动化论文 >

基于和谐竞争自编码的文本表示学习研究

发布时间:2020-09-19 16:10
   无监督文本表示是一项有趣且富有挑战性的任务,无监督文本表示通过无监督学习方式学习文本在向量空间中的向量表示,然后用以后续各种文本处理或数据挖掘的任务。网络中大部分数据为文本数据,为有效利用这些数据同时降低人工标注与人为干预的人力成本,目前急需一种准确高效的文本表示方式。自动编码器是一种无监督神经网络,它可以通过尝试在输出层重建其输入来自动学习数据表示。最近,众多的研究提出了多种不同的自动编码器,然而自动编码器仅仅在图像数据的表示学习方面被成功应用,其在文本数据上面的表现还没有被广泛研究。在本文中,我们进行了传统自动编码器AE、K稀疏自动编码器KSAE以及K竞争自动编码器KATE在文本表示学习方面的实验探究,旨在探究在文本数据上自动编码机制、竞争机制以及各种模型结构对表示学习的影响,尝试找出能使竞争自动编码器有效作用于文本表示的机理。同时本次工作在自动编码器中引入了和谐竞争机制,提出和谐竞争自动编码器HCAE,优化竞争机制使竞争过程更加灵活,该模型在不同文本处理任务评测上均取得不错效果。
【学位单位】:哈尔滨工业大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP181;TP391.1
【部分图文】:

文本数据,低频词,幂律分布,内容


图 2-1 用 Bag of Words 方式表示文本内容因为文本数据常常符合幂律分布,低频词占文本数据的很大一部分,常用词频可能又非常高,所以我们这里采用对数化之后的 Bag of Words 模型。对每篇文本的嵌入向量 Rd,向量中的每一维度表示如下: i £ ( ) £ ( ) V ( )其中,V 代表所有文本共用的词典,¢i是单词 i 在文本中的词频统计。一篇文本进行对数化词频统计之后作为输入灌入自动编码器模型,可以看对于每一次的输入,每一维度的值 i 。因为自编码输出层要重构输入,以理论上输出层每一维度的值 ,所以在自动编码器的输出层我们可采用 sigmoid 激活函数。.1.2 损失函数1. 均方误差损失函数(MSE)对于回归问题,损失函数通常采用均方误差(MSE),定义如下:MSE( ) ( ) ( )

激活函数,梯度下降


义为:我们的期望输出, 是此神经元的真实输出( 。在神经网络训练过程中,我们通过梯度下降算置项 b,因此需要计算损失函数对 w 和 b 的导数 ( ) ′( ) ′( ) ( ) ′( ) ′( ) 下降算法更新 w、b: ′( ) ′( ) -2 所示,由于 sigmoid 激活函数的性质,导致 ′( 2-2 非中间区域)都会比较小,由上述梯度下降 的更新会变的非常慢,造成了梯度消失现象。

经典,神经元,输入层,自动编码


图 2-3 经典自动编码器结构的自动编码器常被用于降维或者特征学习,通过反向传播算法进如图 2-3 所示,输入层和输出层表示相同的含义,具有相同的节点的神经元数量完全等于输入层神经元数量,隐藏层的神经元数量的神经元数量。算法的流程可以由图 2-4 表示:图 2-4 经典自动编码算法流程图训练过程尝试将自动编码器的输出尽量重构输入,中间经由隐藏,所以编码可以看做含有输入有效信息的表示。训练完成后这部

【相似文献】

相关期刊论文 前10条

1 李成升;于洋;;基于行波特征量与堆叠自动编码器的电缆早期故障定位方法[J];四川电力技术;2019年04期

2 王宪保;何文秀;王辛刚;姚明海;钱l勌

本文编号:2822721


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2822721.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户31664***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com