当前位置:主页 > 文艺论文 > 广告艺术论文 >

评价对象短语识别在情感分析领域的研究与实现

发布时间:2018-10-13 13:09
【摘要】:近年来移动互联网飞速发展,微博作为新兴的社交网络媒介迅速崛起,每天产生了海量的用户社交数据,微博作为移动社交的一种主要载体,内容丰富,数据价值很高。对微博数据进行评价对象短语的识别和情感分析能够为政府舆情监控、企业广告投放、用户行为预测和信息决策提供重要参考。微博情感分析主要包含两个要素:评价对象短语识别和情感倾向性分析。由于微博内容话题分散,识别博文评论对象成为微博情感分析研究的热点和难点,研究表明未登录词识别是导致中文评价对象短语识别率低的重要因素之一。因此,研究基于未登录词识别的微博评价短语抽取方法是一项非常重要而有意义的工作。本文从特征选择、分类器选取和特征模版选择三个方面设计未登录词识别模型的特征向量以提高识别率,再将该算法应用于评价对象短语识别中,并通过微博实际语料验证了实验的有效性。本文的主要工作如下:1、首先提出了一种基于文本词序列、凝聚度、左右自由度等统计特征,作为未登录词识别的特征;再通过朴素贝叶斯、决策树、逻辑回归、支持向量机(SVM)和人工神经网络这五种分类算法对未登录词进行识别,并比较识别结果,选择未登录词识别效果较好的人工神经网络分类算法作为未登录词的判定模型。2、本文接着引入BIO三个符号,使用条件随机场CRFs将评价短语识别问题转化为序列标注问题。在识别评价对象短语时,选择合适的特征模版,并将人工神经网络训练产生的未登录词应用于评价对象短语识别过程。3、选取新浪微博某一天的数据作为本文实验的数据来源,经过人工标注,进行评价对象短语识别实验。实验结果表明,将自动识别的微博文本中的未登录词加入基于CRFs的评价对象短语识别算法后,显著提高了评价对象短语抽取的准确率和召回率。
[Abstract]:In recent years, with the rapid development of mobile Internet, Weibo, as a new social network medium, has a rapid rise, every day has produced a huge amount of social data for users. As a main carrier of mobile social networking, Weibo is rich in content and high in data value. The identification and affective analysis of Weibo data can provide important reference for government public opinion monitoring, enterprise advertising, user behavior prediction and information decision-making. Weibo's affective analysis mainly consists of two elements: target phrase recognition and affective orientation analysis. Due to the scattered content of Weibo, identifying the subject of comment on blog has become a hot and difficult point in the affective analysis of Weibo. The research shows that the recognition of unrecorded words is one of the important factors leading to the low recognition rate of Chinese evaluation object phrases. Therefore, it is very important and meaningful to study the extraction method of Weibo evaluation phrase based on unrecorded word recognition. In this paper, the feature vectors of the unrecorded word recognition model are designed from three aspects: feature selection, classifier selection and feature template selection, to improve the recognition rate, and then the algorithm is applied to the evaluation object phrase recognition. The validity of the experiment is verified by Weibo's actual corpus. The main work of this paper is as follows: 1. First, a statistical feature based on text word sequence, cohesion, left and right degrees of freedom is proposed as the feature of unrecorded word recognition, and then through naive Bayes, decision tree, logic regression, Support vector machine (SVM) and artificial neural network (Ann) are the five classification algorithms to identify unrecorded words, and compare the recognition results. An artificial neural network classification algorithm with good recognition effect for unrecorded words is selected as the decision model of unrecorded words. (2) then, three symbols of BIO are introduced, and the conditional random field CRFs is used to transform the evaluation phrase recognition problem into the sequence tagging problem. When identifying the target phrase, the appropriate feature template is selected, and the unrecorded words generated by artificial neural network training are applied to the process of identifying the evaluation object phrase. 3. The data of one day of Sina Weibo is chosen as the data source of this paper. After manual tagging, the experiment of evaluating object phrase recognition is carried out. The experimental results show that the accuracy and recall rate of phrase extraction of evaluation objects can be significantly improved by adding the unrecorded words in Weibo text which is automatically recognized into the evaluation object phrase recognition algorithm based on CRFs.
【学位授予单位】:东华大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1;TP18

【参考文献】

相关期刊论文 前10条

1 叶成绪;杨萍;刘少鹏;;基于主题词的微博热点话题发现[J];计算机应用与软件;2016年02期

2 李文坤;张仰森;陈若愚;;基于词内部结合度和边界自由度的新词发现[J];计算机应用研究;2015年08期

3 唐波;陈光;王星雅;王非;陈小慧;;微博新词发现及情感倾向判断分析[J];山东大学学报(理学版);2015年01期

4 霍帅;张敏;刘奕群;马少平;;基于微博内容的新词发现方法[J];模式识别与人工智能;2014年02期

5 周红照;侯明午;颜彭莉;张叶青;侯敏;滕永林;;语义特征在评价对象抽取与极性判定中的作用[J];北京大学学报(自然科学版);2014年01期

6 陈飞;刘奕群;魏超;张云亮;张敏;马少平;;基于条件随机场方法的开放领域新词发现[J];软件学报;2013年05期

7 郑敏洁;雷志城;廖祥文;陈国龙;;中文句子评价对象抽取的特征分析研究[J];福州大学学报(自然科学版);2012年05期

8 林江豪;阳爱民;周咏梅;陈锦;蔡泽键;;一种基于朴素贝叶斯的微博情感分类[J];计算机工程与科学;2012年09期

9 顾正甲;姚天f ;;评价对象及其倾向性的抽取和判别[J];中文信息学报;2012年04期

10 徐远方;李成城;;基于SVM和词间特征的新词识别研究[J];计算机技术与发展;2012年05期

相关会议论文 前4条

1 王倩;何婷婷;闻彬;宋乐;张茂元;;基于依存关系的中文情感要素抽取技术研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

2 姚天f ;聂青阳;李建超;李林琳;娄德成;陈珂;付宇;;一个用于汉语汽车评论的意见挖掘系统[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

3 倪茂树;林鸿飞;;基于关联规则和极性分析的商品评论挖掘[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

4 王芳;万常选;;基于可信度的中文完整词自动识别[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

相关硕士学位论文 前4条

1 李文坤;面向微博的新词发现和话题检测技术研究[D];北京信息科技大学;2015年

2 侯立斌;中文事件抽取与缺失角色填充的研究[D];苏州大学;2012年

3 朱洪;面向互联网中文舆情信息的情感倾向分析[D];国防科学技术大学;2011年

4 徐东兴;基于Gate框架的信息抽取系统的研究与实现[D];华东师范大学;2007年



本文编号:2268739

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/2268739.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d6398***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com