当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于条件随机场的网络短评论挖掘系统研究与实现

发布时间:2018-05-21 12:38

  本文选题:评论挖掘 + 情感分析 ; 参考:《华南理工大学》2012年硕士论文


【摘要】:伴随着WEB2.0时代的发展,互联网上的信息内容不断增多,,人们获得准确信息的难度也随着增大。互联网的信息主要是两种:事实信息和观点信息,我们可以通过搜索引擎去获得事实信息却难以有途径去获得互联网上人们对某一事物的观点。因此对评论的挖掘能够为互联网用户提供发现观点信息的途径。 评论挖掘是当前自然语言处理领域研究的热点,主要任务是对评论进行主客观识别和褒贬义分析。当前在评论挖掘领域的研究主要是针对通用领域的,效果不佳,对于特定领域的评论挖掘研究则是过多依赖于人工构建的领域词典。相对于评论文章来说,短评论文本的主要特点是文本短小、内容稀疏、主观性强、构词不规律、领域依赖性强,本文针对短评论的特点采用条件随机场模型和自动构建的领域词典来进行短评论评价对象和情感词信息的提取。 本论文研究并实现了基于条件随机场的网络短评论挖掘系统,主要工作如下: 第一、提取出短评论中的特征对象组合词,然后结合半自动化构建的情感词集构建自定义领域词典; 第二、设计符合评论内容结构特征的条件随机场模型,针对评论的内容规律设计了条件随机场的特征函数,使得条件随机场能够准确地挖掘出评论的特征对象和情感词; 第三、研究了特征对象和情感词的匹配算法,提取出评论中的评价对象与情感词对; 第四、识别出情感词的情感倾向性。 本文将基于条件随机场的网络短评论挖掘系统应用到挖掘点评网站的餐饮评论的服务评价信息,实验结果证明基于条件随机场模型确实可以有效提取出短评论的特征对象和情感词信息,在加入自动构建的领域词典的情况下能够将模型扩展到其它领域的评论中,用户可以通过挖掘的结果了解到该主题的所有评论的有价值观点信息。
[Abstract]:With the development of the WEB2.0 era, the content of information on the Internet is increasing, and the difficulty of obtaining accurate information is also increasing. There are two kinds of information on the Internet: factual information and opinion information. We can obtain factual information through search engine, but it is difficult to obtain people's views on a certain thing on the Internet. Therefore, the mining of comments can provide Internet users with a way to discover viewpoint information. Comment mining is a hot topic in the field of natural language processing. The main task is to identify comments objectively and subjectively. The current research in the field of comment mining is mainly aimed at the general field, and the effect is not good. The research of comment mining in specific fields is too dependent on artificial domain dictionaries. Compared with the comment articles, the main features of the short commentary texts are short text, sparse content, strong subjectivity, irregular word-formation, strong domain dependence. According to the characteristics of short comment, this paper uses conditional random field model and automatic domain dictionary to extract the information of evaluation object and emotion word of short comment. This paper studies and implements a conditional random field based network short comment mining system. The main work is as follows: First, the feature object combination words in short comments are extracted, and then the custom domain dictionary is constructed with the semi-automatic set of emotion words. Secondly, the conditional random field model which accords with the structural features of comment content is designed, and the feature function of conditional random field is designed according to the rule of content of comment, so that the conditional random field can accurately excavate the feature object and emotion word of comment. Thirdly, the matching algorithm of feature objects and affective words is studied, and the evaluation objects and affective word pairs in comments are extracted. Fourth, identify the emotional tendency of emotional words. In this paper, the conditional random field based network short comment mining system is applied to the service evaluation information of the restaurant comment mining site. The experimental results show that the conditional random field model can effectively extract the feature object and affective word information of the short comment, and the model can be extended to the comments in other fields by adding the automatically constructed domain dictionary. Users can get valuable opinion information about all comments on the subject through the results of the mining.
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3

【参考文献】

相关期刊论文 前10条

1 田久乐;赵蔚;;基于同义词词林的词语相似度计算方法[J];吉林大学学报(信息科学版);2010年06期

2 傅赛香,袁鼎荣,黄柏雄,钟智;基于统计的无词典分词方法[J];广西科学院学报;2002年04期

3 程涛;施水才;王霞;吕学强;;基于同义词词林的中文文本主题词提取[J];广西师范大学学报(自然科学版);2007年02期

4 赵伟,戴新宇,尹存燕,陈家骏;一种规则与统计相结合的汉语分词方法[J];计算机应用研究;2004年03期

5 张玉芳;莫凌琳;熊忠阳;耿晓斐;;基于条件随机场的科研论文信息分层抽取[J];计算机应用研究;2009年10期

6 梅立军,周强,臧路,陈祖舜;知网与同义词词林的信息融合研究[J];中文信息学报;2005年01期

7 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期

8 唐慧丰;谭松波;程学旗;;基于监督学习的中文情感分类技术比较研究[J];中文信息学报;2007年06期

9 徐军;丁宇新;王晓龙;;使用机器学习方法进行新闻的情感自动分类[J];中文信息学报;2007年06期

10 刘康;赵军;;基于层叠CRFs模型的句子褒贬度分析研究[J];中文信息学报;2008年01期

相关会议论文 前1条

1 倪茂树;林鸿飞;;基于关联规则和极性分析的商品评论挖掘[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

相关硕士学位论文 前2条

1 杨乐;基于同义词词林的自动文摘系统的研究[D];天津大学;2007年

2 陈建美;中文情感词汇本体的构建及其应用[D];大连理工大学;2009年



本文编号:1919223

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1919223.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b05b6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com