观点挖掘中评价对象抽取方法的研究

发布时间:2018-11-11 11:17
【摘要】:观点挖掘,又称情感分析,是指通过自动分析用户评论的文本内容,得到用户对产品、服务、人物、事件和话题等的情感、态度和观点等,具有重要的理论价值和应用价值。观点挖掘分为粗粒度和细粒度两种,虽然粗粒度观点挖掘已经比较成熟,但是细粒度观点挖掘仍然存在很多问题。评价对象抽取是细粒度观点挖掘中一个重要的子任务,目的是从观点文本中抽取细粒度的评价对象,例如产品本身及其组成部分、属性和特征等。目前,评价对象抽取方法主要分为两类:有监督的和无监督的。前者主要基于隐马尔科夫模型和条件随机场,后者主要基于主题模型和句法规则。近年来,有研究表明基于无监督的句法规则的方法表现出很好的性能,但同时面临一些挑战。第一个挑战是如何快速实现评价对象抽取规则。第二个挑战是如何从质量参差不齐的评价对象抽取规则中自动选择高质量的规则。第三个挑战是如何利用大量无标注的评论文本帮助评价对象抽取。针对这些挑战,本文提出以下解决方案。据我们所知,这些解决方案都是本文首次提出。(1)提出一种基于逻辑编程的评价对象抽取框架,以快速实现评价对象抽取规则。本文采用的逻辑编程语言是回答集编程语言(ASP)。首先将评论句子中单词的词性和句法依存关系等信息表示成ASP事实。然后将已知的评价对象抽取规则转化成ASP规则。最后利用现有的ASP回答集求解器自动实现规则。实验结果表明,该方法不仅高效而且简洁。(2)提出两种自动选择规则的方法,以从质量参差不齐的评价对象抽取规则中自动选择高质量的规则用于评价对象抽取。第一种基于贪心算法,第二种基于局部搜索算法(模拟退火算法)。实验结果表明,两种方法都能够有效地从质量参差不齐的初始规则集中选择高质量的规则子集,从而获得比初始规则集更好的抽取结果。(3)提出一种基于语义相似性和相关性的评价对象推荐方法,以利用大量无标注的评论文本帮助评价对象抽取。首先利用互联网上大量无标注的评论文本学习词汇间的语义相似性和相关性知识。然后利用这些知识和少量种子评价对象向新的领域推荐评价对象。实验结果表明,该方法能够有效利用从其它领域学习的知识向新的领域推荐高质量的评价对象。
[Abstract]:Viewpoint mining, also known as emotional analysis, refers to the automatic analysis of the text content of user comments to get the user's feelings, attitudes and opinions on products, services, people, events and topics, etc., which have important theoretical and applied value. Viewpoint mining can be divided into coarse-grained and fine-grained. Although coarse-grained viewpoint mining is mature, there are still many problems in fine-grained viewpoint mining. Evaluation object extraction is an important sub-task in fine-grained viewpoint mining, which aims to extract fine-grained evaluation objects from view text, such as the product itself and its components, attributes and features. At present, evaluation object extraction methods are mainly divided into two categories: supervised and unsupervised. The former is mainly based on hidden Markov model and conditional random field, while the latter is mainly based on topic model and syntactic rules. In recent years, some studies have shown that the method based on unsupervised syntax rules shows good performance, but it faces some challenges at the same time. The first challenge is how to quickly implement evaluation object extraction rules. The second challenge is how to automatically select high-quality rules from different evaluation objects. The third challenge is how to use a large number of unannotated comment texts to help evaluate the object extraction. In response to these challenges, this article proposes the following solutions. As far as we know, these solutions are proposed for the first time in this paper. (1) A evaluation object extraction framework based on logical programming is proposed to implement evaluation object extraction rules quickly. The logical programming language used in this paper is the answer set programming language (ASP). Firstly, the part of speech and syntactic dependencies of the words in a comment sentence are expressed as ASP facts. Then the known evaluation object extraction rules are transformed into ASP rules. Finally, the existing ASP answer set solver is used to realize the rules automatically. The experimental results show that the proposed method is not only efficient but also simple. (2) two methods of automatic rule selection are proposed to automatically select high quality rules from the variable quality evaluation object extraction rules for evaluation object extraction. The first is based on greedy algorithm and the second is based on local search (simulated annealing algorithm). The experimental results show that both methods can effectively select a subset of high quality rules from the initial rule set with uneven quality. In order to obtain better results than the initial rule set. (3) an evaluation object recommendation method based on semantic similarity and correlation is proposed to help evaluate object extraction by using a large number of unannotated comment texts. Firstly, a large number of unannotated comments on the Internet are used to learn the semantic similarity and relevance between words. Then using these knowledge and a small number of seed evaluation objects to recommend evaluation objects to the new field. Experimental results show that this method can effectively use the knowledge learned from other fields to recommend high-quality evaluation objects to new fields.
【学位授予单位】:东南大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 张志强,李天柱,张波,陈少飞,郝亚南;基于文档结构的信息抽取规则的描述语言比较研究[J];河北大学学报(自然科学版);2004年02期

2 彭祥礼;朱小军;查志勇;;Web信息抽取和展现系统的设计与实现[J];电力信息化;2012年02期

3 石倩;陈荣;鲁明羽;;基于规则归纳的信息抽取系统实现[J];计算机工程与应用;2008年21期

4 李洋;;基于Web的信息抽取研究[J];吉林工程技术师范学院学报;2007年12期

5 化柏林;刘一宁;郑彦宁;;针对学术定义的抽取规则构建方法研究[J];情报理论与实践;2011年12期

6 张志远;徐涛;冯霞;;航班信息抽取规则的自动生成技术[J];计算机工程;2011年06期

7 李向阳;戴江山;张亚非;;一种Web信息抽取规则的优化方法[J];兰州理工大学学报;2006年01期

8 曲著伟;李敏强;;基于数据区域发现的信息抽取规则生成方法[J];计算机工程;2009年22期

9 魏保子;王儒敬;;基于多Agent技术的分布式信息抽取系统研究[J];微电子学与计算机;2008年06期

10 方少卿;胡学钢;;基于Web挖掘的信息抽取系统的研究[J];铜陵学院学报;2010年04期

相关会议论文 前2条

1 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

2 杨文柱;徐林昊;郝亚南;陈少飞;李天柱;;个性化的智能Web查询助手的设计与实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

相关博士学位论文 前1条

1 刘倩;观点挖掘中评价对象抽取方法的研究[D];东南大学;2016年

相关硕士学位论文 前10条

1 魏武;复杂结构精确Web信息抽取规则语言与关键技术研究[D];南京大学;2014年

2 罗镭;基于用户交互的半监督式Web信息抽取规则生成技术研究[D];南京大学;2014年

3 咸珂;基于本体的健康知识库自动构建方法研究[D];哈尔滨工业大学;2016年

4 余淼;主题搜索引擎的信息抽取和索引的研究[D];重庆大学;2007年

5 庄重;WEB信息抽取的研究[D];湖北工业大学;2009年

6 於媛;Web信息抽取系统SEU-WIE设计与实现[D];东南大学;2006年

7 张晓欢;基于本体的产品信息抽取系统的研究[D];天津理工大学;2009年

8 狄慧;基于Agent的Web信息抽取研究[D];大连理工大学;2004年

9 陈建辉;基于模式发现的在线就业信息抽取[D];内蒙古工业大学;2006年

10 郭德先;一种模式发现算法及其Web信息抽取应用[D];景德镇陶瓷学院;2008年



本文编号:2324681

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2324681.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c0d52***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com