基于云模型理论的LDA最大熵模型观点挖掘研究
本文选题:观点挖掘 + LDA模型 ; 参考:《华中师范大学》2016年硕士论文
【摘要】:随着互联网的高速发展,当今社会进入了“互联网+”和大数据时代。电子商务和网络社交媒体的空前繁荣使得人们有了更多在网络上发表评论信息的机会,在线评论中包含着许多有价值的信息,这些信息能很好地服务商家、用户和政府部门。但面对互联网公司在日常运营中累积的用户网络行为所生成的海量在线评论数据,仅靠人工的方式根本无法有效地提取出关键信息。在这种大环境下,观点挖掘技术的诞生为解决以上问题提供了新的思路,而细粒度观点挖掘由于能为用户提供更具体有效的信息,从而获得国内外研究人员的广泛关注。观点挖掘的三大主要任务分别是:情感分类、观点抽取和观点分析,为了完成以上任务,研究人员提出了很多的方法,它们可以被简单归纳为基于规则的方法和基于统计机器学习的方法。早期的观点挖掘使用的大都是基于规则的方法,需要人工定义领域特征词和词的提取规则,虽然在一定程度上满足了观点挖掘的需要,但工作量大、适应性差的特点使得该方法不适合于海量数据的观点挖掘。而以主题模型为代表的基于统计机器学习的观点挖掘方法,以其领域适应性和无监督性得到了研究人员的认可,逐渐替代了基于规则的方法。LDA模型是一种无监督的统计主题模型,它将文档表示为若干词语的集合,类似于一个词袋,其中的词语相互独立没有关联,然后根据变分推断、EM算法、吉布斯采样等方法对文档-主题分布和主题-单词分布进行近似推理求解,从而得到文章中的相关观点。而文档中,词语的位置和语义关系对观点表达有着重要的影响,要想获取更准确和有价值的观点信息,需要对传统LDA模型进行改进后才能用于细粒度观点挖掘。此外,自然语言存在多义性和相关性,导致评论的观点挖掘和建模存在不确定性:一方面进行定性概念描述时存在界限的模糊性;另一方面模型的定量表示又具有随机性。目前的LDA模型用于观点挖掘时,仅考虑了定量的随机性而忽视了定性概念的模糊性。为解决以上问题,本文引入最大熵模型和云模型理论对标准LDA模型进行改进,用于在线评论的细粒度观点挖掘。首先,在LDA模型中加入最大熵模型,充分利用词语的位置和语义信息,对文档中的词进行更细致的划分;其次,将云模型理论用于最大熵LDA模型中,用云模型对文档中具有不确定性的情感进行定性定量转换建模,在此基础上提出情感修正算法,通过贴近度和云期望曲线实现全局情感和主题情感的相似度计算,进而完成对情感偏差的校正,有效提升了观点挖掘的精确度。本文最后进行了仿真实验,并对实验相关结果进行了可视化。实验的结果印证了本文所提出理论的有效性。本文内容主要分为五章,第一章给出了本文的研究背景和意义,分析了当前国内外观点挖掘领域的研究现状。第二章介绍了观点挖掘的理论基础,同时列出了文中所涉及到的数学和建模理论基础。第三章对基于云模型理论的LDA最大熵模型进行了详细介绍,给出相关建模思想和理论推导,在此基础上提出情感修正算法。第四章主要介绍了仿真实验过程和相关结果分析,并对实验结果进行了可视化,验证了本文理论的有效性。第五章对相关研究课题进行了总结和展望。
[Abstract]:With the rapid development of the Internet, today's society entered the era of big data and Internet plus ". The unprecedented prosperity of e-commerce and social media network makes people have more opportunities to comment on the information on the Internet, online reviews contain many valuable information, this information can better service users and businesses Zheng But in the face of the massive online review data generated by the user network behavior accumulated by the Internet Co in the daily operation, the key information can not be extracted by the artificial way. In this environment, the birth of the viewpoint mining technology provides a new way of thinking to solve the above problems, and the fine grained view is excavated from the point of view. In order to provide more specific and effective information for the users, the researchers at home and abroad have received extensive attention. The three main tasks of view mining are: emotional classification, viewpoint extraction and viewpoint analysis. In order to accomplish the above tasks, researchers have put forward a lot of methods, which can be simply summed up as rules based methods and Based on the method of statistical machine learning. Early view mining is mostly based on rule based method. It needs to define the extraction rules of domain feature words and words manually. Although it satisfies the need of view mining to a certain extent, the workload is large and the characteristics of poor adaptability make the method unfit for the view mining of mass data. The method of point mining based on statistical machine learning, represented by the topic model, is recognized by the researchers in terms of its domain adaptability and unsupervised nature, and gradually replaced the rule based.LDA model as an unsupervised statistical theme model, which represents a document as a collection of words, similar to a word bag. The words and expressions are independent and independent of each other. Then according to the variational inference, EM algorithm, Gibbs sampling and other methods to approximate the document theme distribution and the topic word distribution, the relevant views in the article are obtained. In the document, the position and semantic relation of words have an important influence on the opinion expression, and want to get more accurate. The exact and valuable information of view needs to be improved for the traditional LDA model. In addition, the nature language has the ambiguity and correlation, which leads to the uncertainty of the view mining and modeling. On the one hand, the ambiguity in the boundary is stored in the qualitative concept description; on the other hand, the model is quantified. In order to solve the above problems, this paper introduces the maximum entropy model and cloud model to improve the standard LDA model, and uses the maximum entropy model and cloud model theory to mine the fine grained viewpoint of online comments. First, add the LDA model to the LDA model. In the maximum entropy model, we make full use of the position and semantic information of words to make a more detailed division of the words in the document. Secondly, the cloud model theory is used in the maximum entropy LDA model, and the cloud model is used to model the qualitative and quantitative transformation of the uncertain emotion in the document. On this basis, the emotion correction algorithm is proposed and the close degree is adopted. And the cloud expectation curve realizes the similarity calculation of the global emotion and theme emotion, then completes the correction of the emotional deviation, effectively improves the accuracy of the viewpoint mining. Finally, the simulation experiment is carried out, and the experimental results are visualized. The results of the experiment confirm the validity of the proposed theory. This paper is the main content of this paper. The first chapter is divided into five chapters. The first chapter gives the background and significance of the study, analyzes the current status of the research in the field of viewpoint mining at home and abroad. The second chapter introduces the theoretical basis of the viewpoint mining, and lists the mathematical and modeling theoretical basis involved in the article. The third chapter is detailed on the LDA maximum entropy model based on the cloud model theory. In the fourth chapter, the simulation experiment process and the analysis of related results are introduced, and the results of the experiment are visualized, and the validity of the theory is verified. The fifth chapter is a summary and Prospect of the related research subjects.
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 徐扬;;基于最大熵模型的汉语隐喻现象识别[J];计算机工程与科学;2007年04期
2 王素格;杨军玲;张武;;基于最大熵模型与投票法的汉语动词与动词搭配识别[J];小型微型计算机系统;2007年07期
3 李济洪;王瑞波;王凯华;李国臣;;基于最大熵模型的中文阅读理解问题回答技术研究[J];中文信息学报;2008年06期
4 谢法奎;张全;;基于最大熵模型的语义块切分[J];计算机工程与应用;2009年26期
5 樊娜;蔡皖东;赵煜;;基于最大熵模型的观点句主观关系提取[J];计算机工程;2010年02期
6 葛斌;封孝生;谭文堂;肖卫东;;基于多层最大熵模型的句子主干分析[J];计算机科学;2010年12期
7 方明;刘培玉;;基于最大熵模型的评价搭配识别[J];计算机应用研究;2011年10期
8 陆铭;康雨洁;俞能海;;简约语法规则和最大熵模型相结合的混合实体识别[J];小型微型计算机系统;2012年03期
9 董晓凯;莫苏宁;李博;陆伟;;基于最大熵模型下复合特征模板的产品属性挖掘研究[J];苏州科技学院学报(自然科学版);2012年01期
10 高燕;张维维;张艳红;谢燕萍;苏凝;;最大熵模型在最长地点实体识别中的应用[J];广东石油化工学院学报;2012年04期
相关会议论文 前10条
1 赵伟;赵法兴;王东海;韩达奇;;一种基于改进的最大熵模型的汉语词性自动标注的新方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
2 王素格;张武;李德玉;杨军玲;彭其伟;;基于最大熵模型的汉语动词与动词搭配识别[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 林红;胡欣;;最大熵模型的应用[A];新世纪气象科技创新与大气科学发展——中国气象学会2003年年会“地球气候和环境系统的探测与研究”分会论文集[C];2003年
4 李济洪;王凯华;王瑞波;;基于最大熵模型的中文阅读理解技术研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
5 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 谷波;刘开瑛;;决策树模型和最大熵模型在文本分类中的比较研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 朱江涛;赵丽奎;蔡东风;;基于最大熵模型的中文姓名识别方法初探[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 刘方舟;施勤;陶建华;;基于最大熵模型的多音字消歧[A];第九届全国人机语音通讯学术会议论文集[C];2007年
9 王凯华;李济洪;张国华;王瑞波;;基于最大熵模型的中文阅读理解问答系统技术研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 游斓;周雅倩;黄萱菁;吴立德;;基于最大熵模型的QA系统置信度评分算法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
相关博士学位论文 前1条
1 孙承杰;基于判别式模型的生物医学文本挖掘相关问题研究[D];哈尔滨工业大学;2008年
相关硕士学位论文 前10条
1 王梦;基于主题情感纺一最大熵模型的观点挖掘研究[D];华中师范大学;2015年
2 周明震;最大熵模型的T-S模糊化[D];辽宁科技大学;2016年
3 李杰骏;数据挖掘方法在评论分类中的应用研究[D];广东工业大学;2016年
4 王煦祥;面向问答的问句关键词提取技术研究[D];哈尔滨工业大学;2016年
5 司琪;基于云模型理论的LDA最大熵模型观点挖掘研究[D];华中师范大学;2016年
6 杨振磊;基于最大熵模型的智能提问系统研究[D];天津大学;2008年
7 贾丽洁;基于最大熵模型的分词技术研究[D];山东师范大学;2007年
8 刘大保;基于最大熵的智能提问系统及其在审计中的应用[D];哈尔滨工程大学;2013年
9 付琳;利用非广延最大熵模型进行文本分类[D];天津大学;2009年
10 步海慧;基于最大熵模型的中文姓名识别研究[D];山东大学;2006年
,本文编号:1793185
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/1793185.html