基于极限学习机的文本分类方法研究
发布时间:2021-06-13 17:55
极限学习机(Extreme Learning Machine,ELM)作为一种学习高效的单隐层前馈神经网路学习算法,受到越来越多研究人员的关注。传统的神经网络学习算法需要对大量的参数进行复杂的调整,从模型最后一层往前传递误差时容易过拟合、陷入局部最优解。支持向量机具有其理论优势,但它仅适用于二元分类问题,不适合当前大数据量的文本分类和管理。极限学习机参数简单无需人工设置,在模型的训练中随机设置极限学习机的输入权值和隐藏层的阈值即可以产生模型的最优解。极限学习机具有学习速度快且泛化性能好的特点,在大规模样本学习以及实时处理等问题中表现出巨大的潜力。本文在前人研究工作的基础上,围绕文本分类和极限学习机的若干理论和实际问题展开研究。论文主要的工作包括以下几个方面:(1)当训练样本中异常值过多时,传统的极限学习机会发生过拟合。本文提出了一种新颖的混合距离和密度的模糊隶属度函数自适应模糊极限学习机模型。传统密度隶属度函数是基于样本和它最近的K个样本之间的密度,然而这种方法不能真实反应出样本的实际分布。通过基于量子谐振子模型的聚类算法来无监督地获得样本所属的类别以及在该类别中样本和其他样本之间的密...
【文章来源】:中国科学院大学(中国科学院重庆绿色智能技术研究院)重庆市
【文章页数】:139 页
【学位级别】:博士
【部分图文】:
图2.2?LDA模型图形化表示??
?::」」M??图2.2?LDA模型图形化表示??研宄人员发现那些不在训练文本数据集中但是在测试文本数据集中的特征词??对于改善分类性能有非常大的帮助。gLDA模型对LDA进行了改进,在该模型中??每一个文本分布的概率是由最大相关类别的文本产生的m。通过一个大规模的训练??过的文本数据集应用到一个小的文本数据集上来对单词-主题的映射性能进行改??进。Multi-LDA?Boost是把boosting策略应用到LDA中的一个新颖的分类器,该模??型从很多不同参数的模型中选择一个最佳方案,通过加权的方法来提高分类的性??能[82]。?Li,?Huang和Zhu在2010年提出了两个联合模型Sentiment-LDA和??Dependency-sentiment-LDA用来发现文本中的正语义和负语义[831。Zhao等人2010??提出了?MaxEnt-LDA模型,该模型把最大熵和LDA结合在一起生成一个复合模型,??该模型通过一个指示变量将两个模型结合到一起,该变量从一系列参数的多项式??的分布中得到,最大熵算法用来学习其中用到的训练样本的参数[84]。Sauper,??Haghighi和Barzilay于2011年提出了?HMM-LDA模型
从模型最后一层往前传递误差时,容易过拟合,陷入局部最优解。BPNN在文本分??类中也有着相应的应用E51]。??BP反向传播网络结构如图2.4所示。反向传播网络一共有三层,分别是输入??层,隐藏层和输出层。两个相邻的层是完全相互连接,并且每个连接将权重表示??为的a参数。BP的学习过程就是通过对每一个训练样本求取目标类别和判定类别??之间误差的最小值来不断更新参数〇的过程。BP输入层的节点数量是和具体分类??麵康??输入展?一,诗k?h'、??><?麵??….??y/L—J?{?\?'、.??w??图2.4反向传播神经网络结构图??任务中的训练样本的特征数量相关的,即每一个节点对应着样本特征的每一个维??度。输出节点的数量是和分类任务中所有样本的类别数量相关的。隐藏层的节点??数量是可以人为设定的,隐藏层节点的数量设定没有一个标准规则的。在分类过??程中各层做起的作用分别是:输入层接收样本特征向量以便BP完成分类任务;隐??藏层用来定义训练误差并对模型进行学习;输出层用来产生最后的分类结果。??表2.1显示了?BP神经网络中各层的概念和各层节点的值。假设输入样本的特??征向量为义=|3七…\]。表中每一列对应每个层,每列中的第一行表示的是该??27??
【参考文献】:
期刊论文
[1]基于样本熵与ELM-Adaboost的悬架减振器异响声品质预测[J]. 黄海波,李人宪,黄晓蓉,杨明亮,丁渭平. 振动与冲击. 2016(13)
[2]基于核超限学习机的中文文本情感分类[J]. 于海燕,陈丽如,郑文斌. 中国计量学院学报. 2016(02)
[3]一种用于车牌定位的改进BP神经网络方法[J]. 赵涛,杨晓莉,王绪本,张娜. 计算机仿真. 2007(02)
[4]基于模糊聚类的BP神经网络模型研究及应用[J]. 何勇,项利国. 系统工程理论与实践. 2004(02)
硕士论文
[1]基于粒子群优化的极限学习机的XML文档分类中的研究与应用[D]. 李永强.东北大学 2013
本文编号:3228028
【文章来源】:中国科学院大学(中国科学院重庆绿色智能技术研究院)重庆市
【文章页数】:139 页
【学位级别】:博士
【部分图文】:
图2.2?LDA模型图形化表示??
?::」」M??图2.2?LDA模型图形化表示??研宄人员发现那些不在训练文本数据集中但是在测试文本数据集中的特征词??对于改善分类性能有非常大的帮助。gLDA模型对LDA进行了改进,在该模型中??每一个文本分布的概率是由最大相关类别的文本产生的m。通过一个大规模的训练??过的文本数据集应用到一个小的文本数据集上来对单词-主题的映射性能进行改??进。Multi-LDA?Boost是把boosting策略应用到LDA中的一个新颖的分类器,该模??型从很多不同参数的模型中选择一个最佳方案,通过加权的方法来提高分类的性??能[82]。?Li,?Huang和Zhu在2010年提出了两个联合模型Sentiment-LDA和??Dependency-sentiment-LDA用来发现文本中的正语义和负语义[831。Zhao等人2010??提出了?MaxEnt-LDA模型,该模型把最大熵和LDA结合在一起生成一个复合模型,??该模型通过一个指示变量将两个模型结合到一起,该变量从一系列参数的多项式??的分布中得到,最大熵算法用来学习其中用到的训练样本的参数[84]。Sauper,??Haghighi和Barzilay于2011年提出了?HMM-LDA模型
从模型最后一层往前传递误差时,容易过拟合,陷入局部最优解。BPNN在文本分??类中也有着相应的应用E51]。??BP反向传播网络结构如图2.4所示。反向传播网络一共有三层,分别是输入??层,隐藏层和输出层。两个相邻的层是完全相互连接,并且每个连接将权重表示??为的a参数。BP的学习过程就是通过对每一个训练样本求取目标类别和判定类别??之间误差的最小值来不断更新参数〇的过程。BP输入层的节点数量是和具体分类??麵康??输入展?一,诗k?h'、??><?麵??….??y/L—J?{?\?'、.??w??图2.4反向传播神经网络结构图??任务中的训练样本的特征数量相关的,即每一个节点对应着样本特征的每一个维??度。输出节点的数量是和分类任务中所有样本的类别数量相关的。隐藏层的节点??数量是可以人为设定的,隐藏层节点的数量设定没有一个标准规则的。在分类过??程中各层做起的作用分别是:输入层接收样本特征向量以便BP完成分类任务;隐??藏层用来定义训练误差并对模型进行学习;输出层用来产生最后的分类结果。??表2.1显示了?BP神经网络中各层的概念和各层节点的值。假设输入样本的特??征向量为义=|3七…\]。表中每一列对应每个层,每列中的第一行表示的是该??27??
【参考文献】:
期刊论文
[1]基于样本熵与ELM-Adaboost的悬架减振器异响声品质预测[J]. 黄海波,李人宪,黄晓蓉,杨明亮,丁渭平. 振动与冲击. 2016(13)
[2]基于核超限学习机的中文文本情感分类[J]. 于海燕,陈丽如,郑文斌. 中国计量学院学报. 2016(02)
[3]一种用于车牌定位的改进BP神经网络方法[J]. 赵涛,杨晓莉,王绪本,张娜. 计算机仿真. 2007(02)
[4]基于模糊聚类的BP神经网络模型研究及应用[J]. 何勇,项利国. 系统工程理论与实践. 2004(02)
硕士论文
[1]基于粒子群优化的极限学习机的XML文档分类中的研究与应用[D]. 李永强.东北大学 2013
本文编号:3228028
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3228028.html