基于GDBN和XGBOOST的门户网站评论情感分类研究
发布时间:2021-08-26 11:36
在Web2.0技术广泛普及的时代,互联网信息技术不断发展与成熟,各大社交与电子商务平台快速兴起,网民不但能从互联网上摄取信息,而且还拥有了分享自己想法、观点的话语权等。由于我国网民规模和互联网普及率的不断扩大,门户网站已经成为了主要的信息发布渠道,越来越多的网络用户在门户网站上表达自己的情感、分享自己的观点,这使得门户网站上的评论信息日益增长,产生海量无规律的评论文本数据,且这些数据不断地实时更新。如何在短时间内提取到实时更新的海量无规律的评论文本数据背后蕴藏的巨大商业价值和舆论价值信息并通过建立模型进行情感倾向分类已经成为了自然语言处理领域中的一个重点研究内容。本课题出于精确高效考虑,提出了一种基于遗传深度置信网络(Genetic Deep Belief Networks,GDBN)和XGBoost(eXtreme Gradient Boosting)的门户网站评论情感分类模型。该模型利用GDBN提取从门户网站上爬取的中文评论文本数据的深层次特征,然后通过基于代价敏感学习(Cost Sensitive Learning,CSL)的XGBoost算法进行情感倾向分类。本文的评论情感分类...
【文章来源】:福建师范大学福建省
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
中国网民规模和互联网普及率
福建师范大学陈颖熙工学硕士学位论文-4-果出现偏差。(2)基于机器学习的文本情感分析方法该方法目前在文本情感分类中得到了较为广泛的应用,这类方法可以自动的对被标注的评论文本数据集进行情感倾向的分类,较为常见的机器学习方法主要有条件随机场(ConditionalRandomField)[12]、AdaBoost算法[13]、k-NearestNeighbor算法[14]、支持向量机(SupportVectorMachine,SVM)[15]等方法。该分析方法的流程图如图1-2所示。图1-2文本情感分类流程图Fig.1-2Textemotionclassificationflowchart由图1-2可以看出,基于机器学习的文本情感分析方法主要可以分为以下两个阶段,第一阶段为训练阶段,在训练阶段对实验训练集中的文本进行文本预处理和文本特征提取,其次再用基于机器学习算法建立的文本分类模型进行模型训练,然后对训练好的分类模型进行评估,如果模型对文本情感分类的效果达到期望值,则进入测试阶段,否则重复对分类模型的训练直到其达到期望值;第二阶段为测试阶段,在测试阶段对实验测试集进行与训练阶段同样的方法处理文本数据,然后用已经训练好的基于机器学习算法的分类模型对其进行情感倾向的分类。在整个模型分类过程中,文本特征提取这一环节是基于机器学习的文本情感分析方法的核心,有效的提取待分类文本的特征能使分类模型在文本情感倾向分类实验中得到更好的运用。基于机器学习的文本情感分析方法的分类准确率较高,但是由于其文本特征选择方式采用的是人工选择,所以存在一定的不确定性,并且此方法最大的问题在于难以捕捉文本数据深层次的特征,从而影响文本情感分类的结果。(3)基于深度学习的文本情感分析方法
福建师范大学陈颖熙工学硕士学位论文-8-(3)在对模型提取到的评论文本数据集的深层次特征进行情感倾向分类时,遗传深度置信网络的分类层——反向传播(Back-Propagation,BP)神经网络极易陷入局部极小值,使得网络反复“震荡”无法跳出极小值点去寻找最优解,所以将基于代价敏感学习的XGBoost算法代替BP神经网络,将其与遗传深度置信网络进行融合,提出一种基于GDBN-XGBoost模型的文本情感分析方法,这样不仅保留了遗传深度置信网络提取深层次特征的优点,又能通过优化后的XGBoost算法对提取到的深层次特征精确分类。本文的算法流程框架如图1-3所示。图1-3评论情感分类算法框架图Fig.1-3Commentsentimentclassificationalgorithmframework
【参考文献】:
期刊论文
[1]基于GDBN网络的文本情感倾向分类算法[J]. 陈颖熙,廖晓东,苏例月,陶状. 计算机系统应用. 2019(01)
[2]基于CNN和BiLSTM网络特征融合的文本情感分析[J]. 李洋,董红斌. 计算机应用. 2018(11)
[3]基于词性特征的特征权重计算方法[J]. 胡雯雯,高俊波,施志伟,刘志远. 计算机系统应用. 2018(01)
[4]基于卡方统计的情感文本分类[J]. 周爱武,马那那,刘慧婷. 微电子学与计算机. 2017(08)
[5]情感倾向性分析及应用研究综述[J]. 李建华,刘功申,林祥. 信息安全学报. 2017(02)
[6]面向商品评论文本的情感分析与挖掘[J]. 李涵昱,钱力,周鹏飞. 情报科学. 2017(01)
[7]决策森林研究综述[J]. 黄海新,吴迪,文峰. 电子技术应用. 2016(12)
[8]基于Document Triage的TF-IDF算法的改进[J]. 李镇君,周竹荣. 计算机应用. 2015(12)
[9]Sentiment Analysis for Chinese Text Based on Emotion Degree Lexicon and Cognitive Theories[J]. 武星,吕海涛,卓少剑. Journal of Shanghai Jiaotong University(Science). 2015(01)
[10]基于深度信念网络的文本分类算法[J]. 陈翠平. 计算机系统应用. 2015(02)
硕士论文
[1]基于Scrapy框架的网络爬虫实现与数据抓取分析[D]. 安子建.吉林大学 2017
[2]基于深度学习的手写英文单词检索算法研究及其在历史文本上的应用[D]. 潘炜深.华南理工大学 2016
[3]互联网商品评论情感分析研究[D]. 张卫.重庆大学 2016
[4]基于深度学习的文本情感分析研究[D]. 曹宇慧.哈尔滨工业大学 2016
本文编号:3364170
【文章来源】:福建师范大学福建省
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
中国网民规模和互联网普及率
福建师范大学陈颖熙工学硕士学位论文-4-果出现偏差。(2)基于机器学习的文本情感分析方法该方法目前在文本情感分类中得到了较为广泛的应用,这类方法可以自动的对被标注的评论文本数据集进行情感倾向的分类,较为常见的机器学习方法主要有条件随机场(ConditionalRandomField)[12]、AdaBoost算法[13]、k-NearestNeighbor算法[14]、支持向量机(SupportVectorMachine,SVM)[15]等方法。该分析方法的流程图如图1-2所示。图1-2文本情感分类流程图Fig.1-2Textemotionclassificationflowchart由图1-2可以看出,基于机器学习的文本情感分析方法主要可以分为以下两个阶段,第一阶段为训练阶段,在训练阶段对实验训练集中的文本进行文本预处理和文本特征提取,其次再用基于机器学习算法建立的文本分类模型进行模型训练,然后对训练好的分类模型进行评估,如果模型对文本情感分类的效果达到期望值,则进入测试阶段,否则重复对分类模型的训练直到其达到期望值;第二阶段为测试阶段,在测试阶段对实验测试集进行与训练阶段同样的方法处理文本数据,然后用已经训练好的基于机器学习算法的分类模型对其进行情感倾向的分类。在整个模型分类过程中,文本特征提取这一环节是基于机器学习的文本情感分析方法的核心,有效的提取待分类文本的特征能使分类模型在文本情感倾向分类实验中得到更好的运用。基于机器学习的文本情感分析方法的分类准确率较高,但是由于其文本特征选择方式采用的是人工选择,所以存在一定的不确定性,并且此方法最大的问题在于难以捕捉文本数据深层次的特征,从而影响文本情感分类的结果。(3)基于深度学习的文本情感分析方法
福建师范大学陈颖熙工学硕士学位论文-8-(3)在对模型提取到的评论文本数据集的深层次特征进行情感倾向分类时,遗传深度置信网络的分类层——反向传播(Back-Propagation,BP)神经网络极易陷入局部极小值,使得网络反复“震荡”无法跳出极小值点去寻找最优解,所以将基于代价敏感学习的XGBoost算法代替BP神经网络,将其与遗传深度置信网络进行融合,提出一种基于GDBN-XGBoost模型的文本情感分析方法,这样不仅保留了遗传深度置信网络提取深层次特征的优点,又能通过优化后的XGBoost算法对提取到的深层次特征精确分类。本文的算法流程框架如图1-3所示。图1-3评论情感分类算法框架图Fig.1-3Commentsentimentclassificationalgorithmframework
【参考文献】:
期刊论文
[1]基于GDBN网络的文本情感倾向分类算法[J]. 陈颖熙,廖晓东,苏例月,陶状. 计算机系统应用. 2019(01)
[2]基于CNN和BiLSTM网络特征融合的文本情感分析[J]. 李洋,董红斌. 计算机应用. 2018(11)
[3]基于词性特征的特征权重计算方法[J]. 胡雯雯,高俊波,施志伟,刘志远. 计算机系统应用. 2018(01)
[4]基于卡方统计的情感文本分类[J]. 周爱武,马那那,刘慧婷. 微电子学与计算机. 2017(08)
[5]情感倾向性分析及应用研究综述[J]. 李建华,刘功申,林祥. 信息安全学报. 2017(02)
[6]面向商品评论文本的情感分析与挖掘[J]. 李涵昱,钱力,周鹏飞. 情报科学. 2017(01)
[7]决策森林研究综述[J]. 黄海新,吴迪,文峰. 电子技术应用. 2016(12)
[8]基于Document Triage的TF-IDF算法的改进[J]. 李镇君,周竹荣. 计算机应用. 2015(12)
[9]Sentiment Analysis for Chinese Text Based on Emotion Degree Lexicon and Cognitive Theories[J]. 武星,吕海涛,卓少剑. Journal of Shanghai Jiaotong University(Science). 2015(01)
[10]基于深度信念网络的文本分类算法[J]. 陈翠平. 计算机系统应用. 2015(02)
硕士论文
[1]基于Scrapy框架的网络爬虫实现与数据抓取分析[D]. 安子建.吉林大学 2017
[2]基于深度学习的手写英文单词检索算法研究及其在历史文本上的应用[D]. 潘炜深.华南理工大学 2016
[3]互联网商品评论情感分析研究[D]. 张卫.重庆大学 2016
[4]基于深度学习的文本情感分析研究[D]. 曹宇慧.哈尔滨工业大学 2016
本文编号:3364170
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3364170.html