当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于维基百科的人物关系抽取研究

发布时间:2018-11-04 18:53
【摘要】:在信息抽取研究工作中,人物关系抽取是一个重要的研究课题。针对人物关系抽取的研究工作兴起于MUC会议的评测项目,后来由ACE会议取代。目前,大部分的中文人物关系研究工作所用语料,大都是来自ACE会议的结构化评测语料或者人民日报等较为规范的新闻语料。但在现实应用中,特别是在互联网时代,人们越来越习惯从互联网中检索想要了解的人物、事件等信息,维基百科就是其中一个常用的搜索引擎。维基百科是一个开放的知识库,它包含了丰富的人物关系信息,同时,它也是一个较符合网络文本半结构化特点的知识库。因此,基于维基百科的人物关系抽取与实际生活中的人物关系抽取更为相似。人物关系抽取的主要思想是将其转化为人物关系分类问题。传统的抽取方法主要分为基于知识库、基于机器学习和基于模式匹配。在基于机器学习的方法中又主要分基于核与基于特征向量的分类方法。在人物关系抽取的过程中的两个主要难点是人名识别和人物关系识别。针对上述难点,本文提出了相应的解决办法,具有以下创新点:(1)为解决现有分词工具在人名识别中存在的外文音译人名识别率不高的问题,本文采用抽取维基百科中信息盒数据的方法,构建了基于中文维基百科的人物库;同时利用维基百科中的Link数据构建了基于中文维基百科的外文音译人名词典;(2)本文提出采取模式匹配与特征向量方法融合的层次分类方法进行人物关系分类,利用DAG-SVMs多值分类方法解决人物关系分类中的多值分类问题,以提高分类模型执行速度与性能,同时在人物关系的划分中引入本人关系,以减轻维基百科中存在的“同人不同名”的现象;并通过实验验证了此方法的可行性。本文利用提出的方法构建了一个规模可观的维基百科人物库与人名词典。同时经过实验验证,本文在人物关系识别方面,特别是本人关系与家庭关系的相关分类中性能较好。
[Abstract]:In the research of information extraction, personal-relation extraction is an important research topic. The research on personal-relationship extraction originated from the evaluation project of MUC conference and was replaced by ACE conference. At present, most of the data used in the study of Chinese character relations are structured evaluation materials from ACE conferences or more standardized news materials such as People's Daily. However, in practical applications, especially in the Internet era, people are more and more used to retrieve information from the Internet, such as people, events and so on. Wikipedia is one of the commonly used search engines. Wikipedia is an open knowledge base, which contains a wealth of personal-relationship information. At the same time, it is also a knowledge base which accords with the semi-structured features of network text. Therefore, Wikipedia-based personal-relationship extraction is more similar to real-life personal-relationship extraction. The main idea of personal-relationship extraction is to transform it into personal-relationship classification. The traditional extraction methods are mainly based on knowledge base, machine learning and pattern matching. The methods based on machine learning are mainly classified based on kernel and feature vector. In the process of personal-relationship extraction, the two main difficulties are human name recognition and personal-relationship recognition. In view of the above difficulties, this paper puts forward the corresponding solutions, which have the following innovations: (1) in order to solve the problem that the foreign transliteration recognition rate of the existing word segmentation tools in the human name recognition is not high, In this paper, we use the method of extracting the information box data from Wikipedia, and construct the Chinese character database based on Wikipedia. At the same time, a dictionary of transliteration names of foreign languages based on Chinese Wikipedia is constructed by using the Link data in Wikipedia. (2) in this paper, a hierarchical classification method based on pattern matching and feature vector method is proposed to classify people relationship, and DAG-SVMs multi-value classification method is used to solve the problem of multi-valued classification. In order to improve the execution speed and performance of the classification model, and to introduce the personal relationship into the division of the relationship between people, the phenomenon of "the same person does not have the same name" in Wikipedia can be alleviated. The feasibility of this method is verified by experiments. This paper uses the proposed method to construct a large Wikipedia database of characters and a dictionary of names. At the same time, the experimental results show that the performance of this paper is better in the recognition of personal relationship, especially in the classification of personal relationship and family relationship.
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1

【相似文献】

相关期刊论文 前3条

1 傅宛菊;陈木兰;;中国新魔幻电影的类型化初探[J];东南传播;2014年08期

2 丁海峰;;论电影《海洋天堂》中细节的运用[J];西部广播电视;2013年05期

3 ;[J];;年期

相关会议论文 前3条

1 白劲鹏;;可怕的对称——论《了不起的盖茨比》中的主次人物关系[A];外语语言教学研究——黑龙江省外国语学会第十一次学术年会论文集[C];1997年

2 黄素影;;《天伦》创作小结[A];我的角色与我们的剧团——第六届电影表演艺术学会奖文集[C];1997年

3 吴士余;;重视人物关系的典型化[A];《毛泽东文艺思想研究》第三辑暨全国毛泽东文艺思想研究会第三次年会论文集[C];1983年

相关重要报纸文章 前6条

1 本报记者 张悦;音乐剧《蝶》推出修排版[N];中国艺术报;2008年

2 记者 金朝力;网络视频业首推人脸识别功能[N];北京商报;2010年

3 本文实习记者 张柳青;纪念汶川地震一周年[N];中国电影报;2009年

4 许柏林;小成本拍出大境界[N];人民日报;2012年

5 张克丹 综合整理;青春·理想·奋斗·奉献[N];中国电影报;2009年

6 上海戏剧学院副教授 石俊;问号的力量[N];文汇报;2012年

相关硕士学位论文 前7条

1 唐丞博;谈《追梦时刻》中人物关系的发展和变化[D];云南艺术学院;2016年

2 刘博佳;基于维基百科的人物关系抽取研究[D];北京交通大学;2016年

3 潘云;基于中文在线资源的人物关系抽取研究[D];华东师范大学;2015年

4 徐珊;孙昌涉初期小说的人物关系和作家意识研究[D];山东大学;2009年

5 顾静航;基于信息抽取的人物关系网络构建研究[D];苏州大学;2014年

6 许婷;基于话单挖掘的可视化人物关系分析系统的设计与实现[D];哈尔滨工业大学;2014年

7 范少帅;基于特征向量的人物关系抽取方法研究[D];华东交通大学;2015年



本文编号:2310833

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2310833.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b613f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com