基于深度学习的文本质量分析算法研究
发布时间:2021-02-17 15:05
在计算机网络迅速发展的当下,作为互联网用户的我们,被淹没在海量的信息之中。文本信息是我们在网络中触接的最多信息之一。文本数据的信息质量严重的影响着用户获取信息的速度和进行决策的方向。仅仅依靠人力对互联网上海量的文本数据进行分析是不现实的,鲜有组织能够承受如此巨大的人力资源损耗。因此,使用相应的算法对文本的质量进行自动分析是具有非常的意义。与此同时,深度学习飞速发展,大量自然语言处理任务的深度学习解决方案都取得很好的效果。基于上述考虑,本论文进行了对文本质量分析任务的研究,并选择使用深度学习的方法对该任务进行解决。本论文设计了两个方案从不同角度对该任务进行解决。首先,本论文将文本质量分析视为文本在质量属性上的分类问题。本论文提出使用面向类别改进词向量和胶囊记忆网络对文本进行质量属性上的分类。面向类别的改进词向量模型能够有效的结合了文本语料集的类别信息,通过该方法训练得到的词嵌入不仅能够蕴涵浅层语义信息,而且能够引入对最终分类有用的文本类别信息。根据文本质量任务的相关特点,比如文本长度较长、特征模糊等。本论文设计的胶囊记忆网络进行文本的分类。该网络以记忆网络为框架,重新设计并构建了外部记忆...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:86 页
【学位级别】:硕士
【部分图文】:
文本分类流程图
图 2-2 CBOW 模型结构图藏层当中,将所有上下文词汇的向量进行相加求平: = ( ) = ( 示输入层的权重也就是词嵌入查询表(embedding独立热编码的进行表示的, 表C 代表上下文环境当中词汇的个数。将隐藏层中的神经元的值 h 与权值矩阵 W′做点积 = 表示权值矩阵 W′的第 j 列向量。然后,将其结果测结果。预测结果是该段文字可能表示成为词典中下:
第二章 相关理论基础 | = 上文中提到的隐藏层的输入词嵌入的加权表示,长am 模型 模型是 2013 年 Mikolov 在他的论文[41]中提出的。与ip-gram 模型的设计思路是中心目标词的词向量可以汇的词向量。因此,该模型网络的目标是针对输入的的概率。Skip-gram 模型的网络的结构如图 2-3。
【参考文献】:
期刊论文
[1]基于BI-LSTM-CRF模型的中文分词法[J]. 张子睿,刘云清. 长春理工大学学报(自然科学版). 2017(04)
[2]新一代人工智能发展规划[J]. 科技创新与生产力. 2017(08)
[3]基于文献的舒肝解郁胶囊临床应用文本挖掘研究[J]. 濮正平,夏江明,谢巍,何金彩. 中国中药杂志. 2017(17)
[4]基于双线性函数注意力Bi-LSTM模型的机器阅读理解[J]. 刘飞龙,郝文宁,陈刚,靳大尉,宋佳星. 计算机科学. 2017(S1)
[5]基于文本内容特征选择的评论质量检测[J]. 孟园,王洪伟. 现代图书情报技术. 2016(04)
[6]基于汉语篇章框架语义分析的阅读理解问答研究[J]. 王智强,李茹,梁吉业,张旭华,武娟,苏娜. 计算机学报. 2016(04)
[7]面向不平衡数据的隐式篇章关系分类方法研究[J]. 朱珊珊,洪宇,丁思远,姚建民,朱巧明. 中文信息学报. 2015(06)
[8]中文篇章级句间关系自动分析[J]. 姬建辉,张牧宇,秦兵,刘挺. 江西师范大学学报(自然科学版). 2015(02)
[9]中文篇章级句间语义关系识别[J]. 张牧宇,宋原,秦兵,刘挺. 中文信息学报. 2013(06)
[10]基于树核的隐式篇章关系识别[J]. 徐凡,朱巧明,周国栋. 软件学报. 2013(05)
硕士论文
[1]文本评论数据质量分析方法研究[D]. 郭卫丽.重庆大学 2016
本文编号:3038154
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:86 页
【学位级别】:硕士
【部分图文】:
文本分类流程图
图 2-2 CBOW 模型结构图藏层当中,将所有上下文词汇的向量进行相加求平: = ( ) = ( 示输入层的权重也就是词嵌入查询表(embedding独立热编码的进行表示的, 表C 代表上下文环境当中词汇的个数。将隐藏层中的神经元的值 h 与权值矩阵 W′做点积 = 表示权值矩阵 W′的第 j 列向量。然后,将其结果测结果。预测结果是该段文字可能表示成为词典中下:
第二章 相关理论基础 | = 上文中提到的隐藏层的输入词嵌入的加权表示,长am 模型 模型是 2013 年 Mikolov 在他的论文[41]中提出的。与ip-gram 模型的设计思路是中心目标词的词向量可以汇的词向量。因此,该模型网络的目标是针对输入的的概率。Skip-gram 模型的网络的结构如图 2-3。
【参考文献】:
期刊论文
[1]基于BI-LSTM-CRF模型的中文分词法[J]. 张子睿,刘云清. 长春理工大学学报(自然科学版). 2017(04)
[2]新一代人工智能发展规划[J]. 科技创新与生产力. 2017(08)
[3]基于文献的舒肝解郁胶囊临床应用文本挖掘研究[J]. 濮正平,夏江明,谢巍,何金彩. 中国中药杂志. 2017(17)
[4]基于双线性函数注意力Bi-LSTM模型的机器阅读理解[J]. 刘飞龙,郝文宁,陈刚,靳大尉,宋佳星. 计算机科学. 2017(S1)
[5]基于文本内容特征选择的评论质量检测[J]. 孟园,王洪伟. 现代图书情报技术. 2016(04)
[6]基于汉语篇章框架语义分析的阅读理解问答研究[J]. 王智强,李茹,梁吉业,张旭华,武娟,苏娜. 计算机学报. 2016(04)
[7]面向不平衡数据的隐式篇章关系分类方法研究[J]. 朱珊珊,洪宇,丁思远,姚建民,朱巧明. 中文信息学报. 2015(06)
[8]中文篇章级句间关系自动分析[J]. 姬建辉,张牧宇,秦兵,刘挺. 江西师范大学学报(自然科学版). 2015(02)
[9]中文篇章级句间语义关系识别[J]. 张牧宇,宋原,秦兵,刘挺. 中文信息学报. 2013(06)
[10]基于树核的隐式篇章关系识别[J]. 徐凡,朱巧明,周国栋. 软件学报. 2013(05)
硕士论文
[1]文本评论数据质量分析方法研究[D]. 郭卫丽.重庆大学 2016
本文编号:3038154
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3038154.html
最近更新
教材专著