基于深度学习情绪分类技术对MSM情感分类的应用与研究
发布时间:2021-07-24 12:59
近年来,艾滋病患病人数不断增长,经研究发现通过MSM(男男性接触者)传播是其重要传播途径。为阻止传播,需要一种简单快捷的识别方式对MSM是否患病进行判断预警。当前,通过对目标人物情绪分析进行病情预警研究已成为医学和科技领域的热点。但是,由于目标人物的对话内容信息简单,数据量繁杂,信息判断效率低,根据语义不足以支撑对病情进行快速判断,需要一种快捷分类判断方式对病情进行预警,以便及时发现病患进行阻断。本文是情感分类在病情判断方面的技术应用。在基于对文本情感进行准确分类的基础上,对目标人物的艾滋病患病情况进行快速识别。为提高病情预警效率,缓解识别速度慢、准确率低等问题。本文结合情感分类算法与文本挖掘算法,对传统BERT(用于语言理解的深度双向预训练)算法进行改进,并且提出一种混合BERT算法。该算法对BERT的全连接层进行改进,寻找其最佳阈值来提高准确率的同时,结合文本挖掘KNN(K近邻法)的思想,对文本情感与关键字信息进行相应的权重计算,以达到对文本信息的多重提取的目的,从而实现根据文本信息发现病情并预警。在实验阶段,通过使用基于Python的混合BERT分类预警算法与其它算法进行对比实验...
【文章来源】:青岛科技大学山东省
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
文本情感分析基本流程图
基于深度学习情绪分类技术对MSM情感分类的应用与研究8[30]。在这里对VSM的定义进行说明:给定文档),,...;,;,(2211nnDwtwtwtD,文档D满足两项规定:第一,每一个特征项nkt)1(k,没有其它相同项;第二,特征项kt的顺序被随机打乱,因而处理时无需对其内部结构进行考虑。经前面条件的规范,可将其特征项n,...,,ttt21组成坐标值权重为n,...,,www21的n维坐标系。因此,在文本空间中可以将单词表示为文本向量,称),;...;,;,(2211nnDwtwtwtD为文本D的向量或向量空间模型,其表示结构如图2-2所示:图2-2向量空间模型表示Fig.2-2Vectorspacemodelrepresentation2.3.2文本特征选择对文本进行相应处理时分两步进行。首先,使用分词工具对文本集合进行相应的处理,即对每个文本出现的词以及相应的词频进行统计整理。然后,生成词空间,其表示对文本中出现的每一个词进行合并,因此会有许多不同的词在词空间中出现。对于文本的表示,使用向量空间模型或使用概率统计模型,它们输出结果都是相同的,因为文本特征和词空间的维度没有发生变化。如果表现出稀疏的文本特征,则表示这个词在词空间中占据很小的空间。在进行分类算法时,时间与空间复杂度能对文本特征表示的准确性能产生影响,如果任其随意增加,将对分类性能产生严重的影响。因此,文本的特征选择显得更加重要,文本特征选择指的是对文本特征进行筛选,选出一个特征可以代表文本的类别。以下为特征选择的步骤:(1)从训练文本集中提取所有的特征项,构成文本特征集合F。(2)对集合中每一项使用特征评估函数进行打分处理,然后对处理结果进行高低分排序,得到的有序集合表示为1F。(3)对集合1F中前N个特征项进行提取,其为进行分类时所需要的特征项,用sF进行表示,之后将其用于?
青岛科技大学研究生学位论文11在公式(2-4)中,将其用公式分别列出。到目前为止核函数的选择和参数的确定,都没有严格意义上的规定,但是,为了防止不必要偏差的出现,一般选择径向基函数作为SVM的核函数。其中,r、和d均为常数。),zzsigmoid:K(γγr)z(γ||z(),zRBF:K(z||z)γ),z:K(zpolynomialγγr)z(γzz),zliner:K(zjTijijijidjTijijTijitanh0exp02(2-4)2.5.2循环神经网络(RNN)目前,常见的神经网络是由输入层、隐藏层和输出层组成的,并且对最终分类结果输出是由激活函数实现的。在神经网络层与层之间信息传递的实现,实际上是权重的传递与变化。在神经网络调用训练集进行训练时的准备阶段,需要对其激活函数进行定夺,之后才能将从训练集中学习到的内容存储到权值中,最后在每一层之间建立权连接,形成一个神经网络完整的训练过程。而RNN特殊之处在于建立权连接时,各层神经元也相互进行关联。图2-3标准RNN结构图Fig.2-3StandardRNNstructurediagram标准RNN神经网络如图2-3所示,其中,带有权值的有向箭头代表每一次的变化。在图中,h右边带有权值箭头代表结构中的信息传递,其在循环网络隐藏层中进行体现。标准的RNN结构中,隐藏层的神经元之间同样带有权值。因此,随着训练不断迭代,前面权重的变化将对后面产生影响。图中y代表输出,x代表样本给出的确定值。随着一步步的演变推进与迭代,得到最终想要的结果h。除上述特点之外,标准RNN还具有以下特点:(1)权值共享。图中不仅w全是相同的,并且u和v代表的权值也一样进行共享。
【参考文献】:
期刊论文
[1]混合kNN算法在2型糖尿病预测诊断中的研究[J]. 崔波,朱晓军. 现代电子技术. 2019(20)
[2]艾滋病患者疾病不确定感与负性情绪及应对方式的相关性分析[J]. 楼方圆,徐燕,黄莺. 齐鲁护理杂志. 2019(19)
[3]基于TensorFlow的K-means算法的研究[J]. 李昱锋,李建宏,文永明. 信息技术与网络安全. 2019(05)
[4]基于统计的中文分词算法研究[J]. 邹佳伦,文汉云,王同喜. 电脑知识与技术. 2019(04)
[5]基于卷积神经网络的中文新闻文本分类[J]. 蓝雯飞,徐蔚,王涛. 中南民族大学学报(自然科学版). 2018(01)
[6]基于APACHE SPARK与NLTK的针灸文献词频统计及对比分析[J]. 唐文超,肖彬,温佩彤,吕若云,宁可,杨华元. 中华中医药学刊. 2017(09)
[7]艾滋病患者心理痛苦相关因素分析[J]. 莫小云,曾志励,梁冰林,伍春艳,莫欣欣. 广西医学. 2017(04)
[8]基于贝叶斯分类器的中文垃圾短信辨识[J]. 袁闻,王晓晔,邓高登,韩淼,杨星,谢晓喆. 科技资讯. 2017(05)
[9]一种基于改进的TF-IDF和支持向量机的中文文本分类研究[J]. 郭太勇. 软件. 2016(12)
[10]面向网络新闻领域的评论情感极性分析[J]. 任聪,李石君. 计算机工程与应用. 2017(01)
博士论文
[1]科研项目管理中的文本挖掘方法研究及应用[D]. 姜韶华.大连理工大学 2006
硕士论文
[1]基于机器学习的文本分类技术研究[D]. 兴艳云.青岛科技大学 2019
[2]中文分词中词典分词和模型分词融合的实证研究[D]. 方婷婷.广西师范大学 2019
[3]基于B/S架构的智能家居远程视频监控系统的设计与研究[D]. 徐明亮.上海师范大学 2016
[4]脑血管病医疗论坛的主题与文本情感分析研究[D]. 于皓.北京交通大学 2016
[5]基于支持向量机的图像分类方法研究[D]. 曹健.浙江师范大学 2013
[6]微博情感分析的心理预警模型与识别研究[D]. 张金伟.合肥工业大学 2013
[7]基于关联规则的Web日志挖掘技术研究[D]. 高贤强.西安科技大学 2009
[8]基于支持向量机的分类算法研究[D]. 李小英.东北电力大学 2008
本文编号:3300697
【文章来源】:青岛科技大学山东省
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
文本情感分析基本流程图
基于深度学习情绪分类技术对MSM情感分类的应用与研究8[30]。在这里对VSM的定义进行说明:给定文档),,...;,;,(2211nnDwtwtwtD,文档D满足两项规定:第一,每一个特征项nkt)1(k,没有其它相同项;第二,特征项kt的顺序被随机打乱,因而处理时无需对其内部结构进行考虑。经前面条件的规范,可将其特征项n,...,,ttt21组成坐标值权重为n,...,,www21的n维坐标系。因此,在文本空间中可以将单词表示为文本向量,称),;...;,;,(2211nnDwtwtwtD为文本D的向量或向量空间模型,其表示结构如图2-2所示:图2-2向量空间模型表示Fig.2-2Vectorspacemodelrepresentation2.3.2文本特征选择对文本进行相应处理时分两步进行。首先,使用分词工具对文本集合进行相应的处理,即对每个文本出现的词以及相应的词频进行统计整理。然后,生成词空间,其表示对文本中出现的每一个词进行合并,因此会有许多不同的词在词空间中出现。对于文本的表示,使用向量空间模型或使用概率统计模型,它们输出结果都是相同的,因为文本特征和词空间的维度没有发生变化。如果表现出稀疏的文本特征,则表示这个词在词空间中占据很小的空间。在进行分类算法时,时间与空间复杂度能对文本特征表示的准确性能产生影响,如果任其随意增加,将对分类性能产生严重的影响。因此,文本的特征选择显得更加重要,文本特征选择指的是对文本特征进行筛选,选出一个特征可以代表文本的类别。以下为特征选择的步骤:(1)从训练文本集中提取所有的特征项,构成文本特征集合F。(2)对集合中每一项使用特征评估函数进行打分处理,然后对处理结果进行高低分排序,得到的有序集合表示为1F。(3)对集合1F中前N个特征项进行提取,其为进行分类时所需要的特征项,用sF进行表示,之后将其用于?
青岛科技大学研究生学位论文11在公式(2-4)中,将其用公式分别列出。到目前为止核函数的选择和参数的确定,都没有严格意义上的规定,但是,为了防止不必要偏差的出现,一般选择径向基函数作为SVM的核函数。其中,r、和d均为常数。),zzsigmoid:K(γγr)z(γ||z(),zRBF:K(z||z)γ),z:K(zpolynomialγγr)z(γzz),zliner:K(zjTijijijidjTijijTijitanh0exp02(2-4)2.5.2循环神经网络(RNN)目前,常见的神经网络是由输入层、隐藏层和输出层组成的,并且对最终分类结果输出是由激活函数实现的。在神经网络层与层之间信息传递的实现,实际上是权重的传递与变化。在神经网络调用训练集进行训练时的准备阶段,需要对其激活函数进行定夺,之后才能将从训练集中学习到的内容存储到权值中,最后在每一层之间建立权连接,形成一个神经网络完整的训练过程。而RNN特殊之处在于建立权连接时,各层神经元也相互进行关联。图2-3标准RNN结构图Fig.2-3StandardRNNstructurediagram标准RNN神经网络如图2-3所示,其中,带有权值的有向箭头代表每一次的变化。在图中,h右边带有权值箭头代表结构中的信息传递,其在循环网络隐藏层中进行体现。标准的RNN结构中,隐藏层的神经元之间同样带有权值。因此,随着训练不断迭代,前面权重的变化将对后面产生影响。图中y代表输出,x代表样本给出的确定值。随着一步步的演变推进与迭代,得到最终想要的结果h。除上述特点之外,标准RNN还具有以下特点:(1)权值共享。图中不仅w全是相同的,并且u和v代表的权值也一样进行共享。
【参考文献】:
期刊论文
[1]混合kNN算法在2型糖尿病预测诊断中的研究[J]. 崔波,朱晓军. 现代电子技术. 2019(20)
[2]艾滋病患者疾病不确定感与负性情绪及应对方式的相关性分析[J]. 楼方圆,徐燕,黄莺. 齐鲁护理杂志. 2019(19)
[3]基于TensorFlow的K-means算法的研究[J]. 李昱锋,李建宏,文永明. 信息技术与网络安全. 2019(05)
[4]基于统计的中文分词算法研究[J]. 邹佳伦,文汉云,王同喜. 电脑知识与技术. 2019(04)
[5]基于卷积神经网络的中文新闻文本分类[J]. 蓝雯飞,徐蔚,王涛. 中南民族大学学报(自然科学版). 2018(01)
[6]基于APACHE SPARK与NLTK的针灸文献词频统计及对比分析[J]. 唐文超,肖彬,温佩彤,吕若云,宁可,杨华元. 中华中医药学刊. 2017(09)
[7]艾滋病患者心理痛苦相关因素分析[J]. 莫小云,曾志励,梁冰林,伍春艳,莫欣欣. 广西医学. 2017(04)
[8]基于贝叶斯分类器的中文垃圾短信辨识[J]. 袁闻,王晓晔,邓高登,韩淼,杨星,谢晓喆. 科技资讯. 2017(05)
[9]一种基于改进的TF-IDF和支持向量机的中文文本分类研究[J]. 郭太勇. 软件. 2016(12)
[10]面向网络新闻领域的评论情感极性分析[J]. 任聪,李石君. 计算机工程与应用. 2017(01)
博士论文
[1]科研项目管理中的文本挖掘方法研究及应用[D]. 姜韶华.大连理工大学 2006
硕士论文
[1]基于机器学习的文本分类技术研究[D]. 兴艳云.青岛科技大学 2019
[2]中文分词中词典分词和模型分词融合的实证研究[D]. 方婷婷.广西师范大学 2019
[3]基于B/S架构的智能家居远程视频监控系统的设计与研究[D]. 徐明亮.上海师范大学 2016
[4]脑血管病医疗论坛的主题与文本情感分析研究[D]. 于皓.北京交通大学 2016
[5]基于支持向量机的图像分类方法研究[D]. 曹健.浙江师范大学 2013
[6]微博情感分析的心理预警模型与识别研究[D]. 张金伟.合肥工业大学 2013
[7]基于关联规则的Web日志挖掘技术研究[D]. 高贤强.西安科技大学 2009
[8]基于支持向量机的分类算法研究[D]. 李小英.东北电力大学 2008
本文编号:3300697
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3300697.html