面向论坛文本的大学生情绪识别研究
本文选题:情感分析 + 情绪分析 ; 参考:《华中师范大学》2016年博士论文
【摘要】:大学生的心理健康是当今社会重点关注的问题。由于所处年龄段、生活空间、文化层面的特殊性,大学生情绪比较敏感,容易产生孤独、压抑或自卑等负性情绪,这不仅会影响自己的学习和生活,还容易传染给周围的人,而长期处于负性情绪状态可能导致严重后果。因此,负性情绪分析和个体识别对于增进大学生心理健康、预防和治疗问题行为等都具有重要意义。由于情绪自身的复杂性,长久以来,个体情绪测量主要依赖于心理学量表测评,这种方式需要对被试进行干预,而且被试群体的文化层次和敏感性因素也会在一定程度上影响测量的效果。文本情绪分析技术为情绪的测量提供了一种新的途径,它可以不加干预地对个体情绪进行分析和跟踪,增强研究结论的生态效度,具有良好的发展前景。本文采用基于机器学习的方法对大学生论坛文本内容进行情绪分析,并对大学生负性情绪个体展开识别研究,为后续的心理干预和辅导提供参考。该研究主要面临着两方面的困难:一方面,论坛文本具有长度偏短、话题宽泛而且表达不规范等特点,不利于情绪特征的选择和提取;另一方面,由于情绪文本数量巨大且各类别数量不均衡,严重影响情绪分类的识别准确性。因此,亟需提出一种有效的方案来解决特征选择、特征稀疏性以及情绪类别文本数量不平衡的问题,以提高识别性能。鉴于此,本文的研究工作和创新点主要包含以下三个方面:(1)针对论坛情绪文本特征稀疏性的问题,提出了一种基于多类别特征组合的特征集构建方法。该方法在对论坛文本的特征进行深入分析后,综合词语特征、组合N-gram特征、共现词语特征和词簇特征构建论坛文本情绪分类的特征集。不同类别的特征可以获取文本多个方面和不同程度的情绪线索,综合这些线索可以更加准确地表示文本所包含的情绪。首先在构建词语和组合N-gram两类应用最为广泛的特征基础上,针对传统的特征选择方法关注特征与类别的贡献关系而忽略了特征之间的联系的问题,引入表示词语特征之间共现关系的共现词语特征;针对文本长度较短可能引起的零特征问题,引入基于词向量聚类生成的词簇特征。继而利用特征选择算法对各类别特征进行评估,选择具有良好分类能力的特征构建特征集,并定义冗余规则去除组合过程中带来的特征冗余。将多类别特征组合的特征集构建方法应用于论坛文本的正负性情绪分类,实验结果表明该方法能有效提高分类的识别效果。(2)针对多类别情绪分类中某些情绪类别数量较小的问题,提出一种基于样本中心点距离欠采样的策略选择的子空间分类算法(Strategic Dynamic Subspace and Distance Based Under Sampling Method,SDSDBUSM).该算法基于随机子空间(RSM)算法,主要在两个方面进行改进:一方面针对RSM在生成子空间时,采用完全随机采样可能导致子空间质量不高的问题,提出利用策略选择特征的方法提升子空间质量。通过权重算法计算各特征识别能力,再根据识别能力策略选择良好识别能力的特征,同时保证子空间的差异性和高质量,整体提升集成学习的效果。另一方面考虑到情绪类别帖子不均衡性问题,采用基于样本中心点距离的欠采样的方法,去除子空间中噪声样本和冗余样本,有效地提高了对少数类别的识别效果。实验证明,SDSDBUSM比单分类器算法和传统RSM算法获得更好的性能。(3)针对基于文本情绪研究如何进行个体情绪测量方面的研究不足,提出一种基于论坛文本情绪分类的个体情绪测量的方法。该方法根据大学生用户在论坛中的行为表现,综合多种情绪因子的方式来对个体的情绪进行测量。除了考虑用户在论坛中发布的帖子情绪类别之外,还考虑用户的登陆情况、帖子统计情况、帖子用词情况等多种情绪表达因子,综合计算个体情绪值,进一步根据情绪值划分个体情绪类别。与基于心理学量表的方法相比,这种方法可以提高个体情绪测量效率,动态跟踪被试的情绪变化,为后续心理辅导提供参考和支持。
[Abstract]:The psychological health of college students is a key concern in today's society. Because of the age, living space, and the particularity of the cultural level, college students are more sensitive to emotion, and they are prone to negative emotions such as loneliness, depression or inferiority. This will not only affect their study and life, but also be easily transmitted to the people around them, but they are in a negative mood for a long time. The mood analysis and individual recognition are important for improving college students' mental health, prevention and treatment of problem behavior. The cultural level and sensitivity factors of the subjects also affect the effect of measurement to a certain extent. Text emotional analysis technology provides a new way for the measurement of emotion. It can analyze and track individual emotions without intervention, and enhance the ecological validity of the research conclusions. This paper has a good prospect for development. On the basis of machine learning, this paper makes an emotional analysis on the text content of College Students' forum, and studies the negative emotion individual of college students to provide reference for subsequent psychological intervention and guidance. The research is mainly faced with two difficulties: on the one hand, the text has a short length, wide topic and unstandardized expression, etc. Characteristics are not conducive to the selection and extraction of emotional characteristics; on the other hand, the number of emotional texts is huge and the number of categories is not balanced, which seriously affects the recognition accuracy of the emotional classification. Therefore, an effective solution is urgently needed to solve the problem of feature selection, feature sparsity and unbalance of text in emotional categories. In view of this, the research and innovation of this paper mainly include the following three aspects: (1) a feature set construction method based on multi category feature combination is proposed in view of the sparse feature of the forum mood text. This method combines the features of the forum text and combines the features of the words and combines the N-gram Features, concurrence word features and word cluster features to construct the feature set of the emotional classification of the forum text. The characteristics of different categories can obtain many aspects of text and different degree of emotional clues, which can be more accurate to express the emotions contained in the text. First, the two categories of the two categories are the most widely used in the construction of words and combinations. On the basis of the feature, the traditional feature selection method pays attention to the relationship between the feature and the category, neglects the relationship between the features, and introduces the concurrence word characteristics of the concurrence relation between the characters of the word, and introduces the character of the word cluster based on the word vector clustering to solve the zero feature problem which may be caused by the short text length. Then the feature selection algorithm is used to evaluate the characteristics of each category, select the feature set with good classification ability, and define redundant rules to remove the feature redundancy in the combination process. The feature set construction method of multi category feature combination is applied to the positive and negative emotion classification of the forum text. The experimental results show that the party is in the positive and negative mood. The method can effectively improve the recognition effect of classification. (2) a subspace classification algorithm based on Strategic Dynamic Subspace and Distance Based Under Sampling Method, SDSDBUSM is proposed to solve the problem of the small number of emotional categories in the multi class emotion classification. The subspace (RSM) algorithm is mainly improved in two aspects: on the one hand, aiming at the problem that RSM can lead to the poor subspace quality when the sub space is generated in the generation of subspace, it is proposed to use the strategy selection feature to improve the quality of the subspace. The characteristics of good recognition ability are selected, and the difference and high quality of subspace are ensured, and the effect of integrated learning is improved as a whole. On the other hand, the problem of the unbalance of emotional category posts is considered, and the method of undersampling based on the distance of the sample center is used to remove the noise samples and redundant samples in the subspace. The experimental results show that SDSDBUSM has better performance than single classifier and traditional RSM algorithm. (3) a method of individual emotion measurement based on the emotional classification of forum text is proposed for the study of individual emotion measurement based on text emotion research. This method is based on the university student user. In the form of the behavior of the forum, a variety of emotional factors are used to measure the individual's emotions. In addition to the user's emotional category, the user's landing situation, the post statistics, the post use words and other emotional tables are considered, and the individual emotional values are calculated, and further basis is given. Emotional values are divided into individual emotional categories. Compared with the methods based on psychological scales, this method can improve the efficiency of individual emotion measurement, dynamically track the emotional changes of the subjects, and provide reference and support for subsequent psychological counseling.
【学位授予单位】:华中师范大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:G444
【相似文献】
相关期刊论文 前8条
1 石刚;章宜华;刘辉;;电子数据库的微观结构及词典文本的生成机制[J];安阳工学院学报;2005年06期
2 阎萍,肖东,汪惠明;利用汉语拼音方案实现文本到声音的转换[J];赣南师范学院学报;2000年06期
3 刘霁;周亚东;高峰;赵俊舟;薛峰;;一种基于文本语义的网络敏感话题识别方法[J];深圳信息职业技术学院学报;2011年03期
4 张慷;;一种基于文本先分类再聚类的互联网热点信息发现方法[J];兰州工业学院学报;2013年03期
5 周靖;;改进偏二叉树多类SVM的文本分类[J];广东石油化工学院学报;2011年04期
6 仲志平;刘渝妍;孙建洪;;基于BWC的XML文本数据索引技术研究[J];昆明学院学报;2011年03期
7 许淑慧;AutoCAD和Word间图形数据与文本数据的传递[J];现代技能开发;2003年12期
8 ;[J];;年期
相关会议论文 前10条
1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
相关重要报纸文章 前1条
1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年
相关博士学位论文 前10条
1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年
2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年
3 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年
4 韩磊;汉语句义结构模型分析及其文本表示方法研究[D];北京理工大学;2016年
5 刘林;面向论坛文本的大学生情绪识别研究[D];华中师范大学;2016年
6 张博宇;基于局部特征的场景文本分析方法研究[D];哈尔滨工业大学;2015年
7 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
8 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
9 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
10 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
相关硕士学位论文 前10条
1 王轶霞;基于半监督递归自编码的情感分类研究[D];内蒙古大学;2015年
2 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年
3 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年
4 董秦涛;基于文本的个人情感状态分析研究[D];兰州大学;2015年
5 钟文波;搜索引擎中关键词分类方法评估及推荐应用[D];华南理工大学;2015年
6 黄晨;基于新词识别和时间跨度的微博热点研究[D];上海交通大学;2015年
7 陈红阳;中文微博话题发现技术研究[D];重庆理工大学;2015年
8 王s,
本文编号:1892287
本文链接:https://www.wllwen.com/shoufeilunwen/sklbs/1892287.html