微博对话链的命名实体识别技术研究与实现
发布时间:2018-06-03 13:18
本文选题:命名实体识别 + 微博对话链 ; 参考:《国防科学技术大学》2016年硕士论文
【摘要】:微博文本中蕴含着大量有价值的信息,然而利用现有的方法对微博文本进行命名实体标注,其结果无法达到所需的要求。因此,本论文在现有技术的基础上主要做了以下两方面的改进工作。首先是微博对话链的构建。这部分的工作主要是针对大部分博文文本长度短小不足以提供抽取命名实体所需的足够信息的问题。评论和博文属于同一个对话范围,每条微博的评论或是对博文的内容的进一步扩充,或是对博文内容上下文的描述,因此可以利用评论对微博文本进行扩展。其次是在利用CRFs方法进行命名实体识别的过程中加入角色特征。这部分的工作主要是针对微博文本由于文本语法不规范的特点而影响了命名实体识别效果的问题。命名实体识别除了可以利用文本的语法规律外,还可以利用博文中命名实体的上下文指示信息等语义特征,本论文正是利用了后面这点在命名实体识别过程中加入了人名、地名和组织名角色特征。论文在获取的新浪微博数据上对提出的命名实体识别方法进行了实验验证,取得的正确率、召回率和F值分别为83.5%、77.3%和80.3%,实验结果证明该法可以有效提高针对微博文本的命名实体识别效果。
[Abstract]:There is a lot of valuable information in the Weibo text. However, using the existing methods to annotate the named entity of the Weibo text, the result can not meet the required requirements. Therefore, on the basis of the existing technology, this paper mainly do the following two aspects of improvement work. The first is the construction of Weibo dialog chain. This part focuses on the problem that most blog texts are short enough to provide enough information to extract named entities. Comments and blog posts belong to the same dialogue scope, each Weibo comment is either a further expansion of the content of the blog post or a description of the context of the content of the blog post, so comments can be used to extend the Weibo text. Secondly, role features are added in the process of named entity recognition using CRFs method. This part mainly aims at the problem that Weibo text affects the effect of named entity recognition because of the irregular text syntax. In addition to the grammatical rules of the text, named entity recognition can also use semantic features such as context indication information of named entity in the blog post. This paper makes use of the latter point to add the human name in the process of named entity recognition. The character characteristics of place names and organization names. In this paper, the named entity recognition method is experimentally verified on the acquired Sina Weibo data, and the correct rate is obtained. The recall rate and F value are 77.3% and 80.3% respectively. The experimental results show that this method can effectively improve the effectiveness of named entity recognition for Weibo texts.
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1;TP393.092
【参考文献】
相关期刊论文 前6条
1 王连喜;;微博短文本预处理及学习研究综述[J];图书情报工作;2013年11期
2 张剑峰;夏云庆;姚建民;;微博文本处理研究综述[J];中文信息学报;2012年04期
3 赵军;;命名实体识别、排歧和跨语言关联[J];中文信息学报;2009年02期
4 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[J];通信学报;2006年02期
5 张晓艳;王挺;陈火旺;;命名实体识别研究[J];计算机科学;2005年04期
6 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
相关硕士学位论文 前5条
1 戴敏;中文评价对象抽取中省略现象研究[D];苏州大学;2014年
2 荀晶;面向微博数据的命名实体识别研究与实现[D];东北大学;2013年
3 邹莎莎;文本信息结构抽取方法的研究[D];大连理工大学;2010年
4 刘章勋;中文命名实体识别粒度和特征选择研究[D];哈尔滨工业大学;2010年
5 温锐;中文命名实体识别及其关系抽取研究[D];苏州大学;2005年
,本文编号:1972917
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1972917.html