当前位置:主页 > 科技论文 > 软件论文 >

基于主动学习的微博情感分析方法研究

发布时间:2018-05-27 00:05

  本文选题:微博情感分析 + 主动学习 ; 参考:《吉林大学》2017年硕士论文


【摘要】:目前,作为文本挖掘重要分支之一的文本情感分析受到学者的广泛关注。随着互联网的飞速发展和社交媒体的普及,网上产生了大量的用户衍生文本,而这些文本主观性很强并带有明显的情感倾向和丰富的情感信息,具有很高的研究价值。主流的情感分类方法广泛采用了机器学习,这种方法的局限在于需要大规模标注语料作为训练集,这需要花费巨大的成本来标注语料。而在实践当中,容易获得的都是未标注的文本语料,因此,如何利用少量的标注语料和大量的未标注语料进行文本情感分类成为了一个重要课题。本文将主动学习方法结合进基于机器学习的文本情感分类方法中,以解决未标记语料的有效利用问题。由于文本特征矩阵的稀疏性,采用支持向量机作为基分类器在准确度上有着较大优势。边缘采样方法是利用支持向量机进行主动学习的经典方法,但该方法同样存在着错误级联、过拟合和冗余迭代等一些准确率和性能上的问题。本文针对这些问题并在同样使用支持向量机作为基分类器的基础上提出了一个新的主动学习方法(Active Learning in Informative Vector Selection-----ALIVS)。主要工作如下:第一,本研究对文本情感分类和主动学习的理论进行了系统研究,分析了文本情感分类的主要任务、研究流派以及主动学习的基本假设和主流方法等基础理论。并对经典的基于边缘的主动学习方法进行了研究和分析,发现其存在的局限。第二,本研究以上文所述的理论研究为起点,提出新的主动学习方法ALIVS,该方法利用未标记样本集的特点提出了信息向量(Informative Vector)的概念并结合支持向量机发展出一个二级分类的学习流程,该流程基于以下想法:采用两级分类器,第一级主分类器负责情感分类;第二级信息向量分类器利用第一级分类器学习到的分类信息从未标记样本中遴选出最具分类信息的信息向量作为候选标记样本,经专家标记后,加入第一级分类器的训练集中,循环迭代,不断增强第一级分类器的分类能力,进而达成利用大量的未标记文本和少量的标记文本进行有效训练的目标。第三,本研究将该方法应用到基于COAE2014评测的任务4的实际场景中,并与广泛应用的边缘采样方法进行对比,设计实验对该方法的准确度和性能进行了测试和分析。实验结果表明,本文提出的ALIVS方法在提高准确率、降低过拟合及错误级联等方面有着良好的表现,从而证明了该方法的可行性。最后本文对该方法在未来的改进和发展进行了展望。
[Abstract]:At present, as one of the important branches of text mining, text emotional analysis has been widely concerned by scholars. With the rapid development of the Internet and the popularity of social media, a large number of user-derived texts have been generated on the Internet, and these texts are highly subjective, with obvious emotional tendency and rich emotional information, which has high research value. Machine learning is widely used in the mainstream affective classification methods. The limitation of this method lies in the need of large-scale tagging corpus as a training set, which requires a huge cost to annotate the corpus. In practice, it is easy to obtain unannotated text corpus, so how to use a small amount of annotated corpus and a large amount of unlabeled corpus to classify text emotion has become an important topic. In this paper, the active learning method is combined with the text emotion classification method based on machine learning to solve the problem of the effective use of unmarked corpus. Because of the sparsity of text feature matrix, support vector machine (SVM) as the basis classifier has a great advantage in accuracy. Edge sampling is a classical method for active learning using support vector machines, but it also has some problems in accuracy and performance, such as error concatenation, overfitting and redundant iteration. In this paper, we propose a new active learning method, active Learning in Informative Vector Selection-ALIVSs, based on the same support vector machine (SVM) as a basis classifier for these problems. The main work is as follows: first, this study systematically studies the theories of text emotion classification and active learning, analyzes the main tasks of text emotion classification, the basic hypothesis and mainstream methods of active learning. The classical edge-based active learning method is studied and analyzed, and its limitations are found. Second, this study starts with the theoretical research mentioned above. A new active learning method, ALIVS, is proposed in this paper. Based on the characteristics of unlabeled sample sets, the concept of information vector Informative vector is proposed and a secondary classification process is developed by combining support vector machine. The process is based on the following ideas: a two-level classifier is used, and the first primary classifier is responsible for emotion classification; The second level information vector classifier uses the information vector of the first level classifier to select the information vector with the most classified information as the candidate marker sample, and adds the training set of the first level classifier after the expert mark. Cyclic iteration enhances the classification ability of the first level classifier and achieves the goal of using a large number of unmarked text and a small amount of marked text for effective training. Thirdly, this method is applied to the actual scenario of task 4 based on COAE2014 evaluation, and compared with the widely used edge sampling method. The accuracy and performance of the method are tested and analyzed by experiments. The experimental results show that the proposed ALIVS method has a good performance in improving the accuracy, reducing over-fitting and error concatenation, which proves the feasibility of this method. Finally, the improvement and development of this method in the future are prospected.
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 徐兴凯;;信息课上应重视学生的主动学习[J];小学时代(教育研究);2011年10期

2 刘兰芳;;谈学生主动学习习惯的培养[J];科技资讯;2006年30期

3 刘宝峰;;由被动学习转为主动学习的探讨[J];天津职业院校联合学报;2012年08期

4 沈元怿;;基于主动学习的资源优化分配方案研究[J];佛山科学技术学院学报(自然科学版);2006年01期

5 王玲;李琴;隋美玲;肖海军;;基于支持向量机的主动学习方法及其实现[J];长沙大学学报;2014年02期

6 缪树民;STS案例的探讨[J];甘肃科技纵横;2005年06期

7 王颖;高新波;李洁;王秀美;;基于PSVM的主动学习肿块检测方法[J];计算机研究与发展;2012年03期

8 张桂平;李文博;王裴岩;;基于主动学习的本体概念关系判断[J];中文信息学报;2013年04期

9 杨文君;;大学计算机基础教学模式改革探索——问题模式在教学中的应用[J];牡丹江师范学院学报(自然科学版);2006年02期

10 魏钦冰;;大学计算机基础教学模式改革探索——浅析问题模式在教学中的应用[J];职业圈;2007年07期

相关博士学位论文 前1条

1 姚拓中;结合主动学习的视觉场景理解[D];浙江大学;2011年

相关硕士学位论文 前9条

1 陈雄韬;基于聚类的主动学习实例选择方法研究[D];中国矿业大学;2016年

2 张军;基于主动学习和迁移学习的文本情感预测研究[D];山西大学;2016年

3 关雅夫;基于主动学习的微博情感分析方法研究[D];吉林大学;2017年

4 黄辉;基于局部线性重构系数的主动学习[D];温州大学;2014年

5 崔宝今;基于半监督和主动学习的蛋白质关系抽取研究[D];大连理工大学;2008年

6 张江红;多分类主动学习方法在地表分类中的应用[D];南京理工大学;2011年

7 易博;基于主动学习的语义缺失问句补全[D];哈尔滨工业大学;2012年

8 柴思远;结合主动学习的协作分类方法研究[D];吉林大学;2011年

9 高文涛;划分分类模型中主动学习关键技术研究[D];燕山大学;2010年



本文编号:1939511

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1939511.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户13652***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com