基于信息抽取的实体知识库系统研究

发布时间:2017-12-26 07:11

  本文关键词:基于信息抽取的实体知识库系统研究 出处:《北京交通大学》2017年硕士论文 论文类型:学位论文


  更多相关文章: 信息抽取 命名实体识别 实体关系抽取 条件随机场 句法分析


【摘要】:近年来,互联网发展迅速,网络数据量飞速增长,这使得传统的方法很难从海量的网络数据中有效的提取出有用的信息。信息抽取与实体知识库的提出可以有效的解决这一问题。论文基于信息抽取中命名实体识别与实体关系抽取技术构建实体知识库系统。论文的研究工作得到了国家自然科学基金项目(No.61271308、61172072、61401015)和北京市教育委员会研究生学科建设项目的支持。论文的主要工作如下:论文针对中文的命名实体识别一直存在边界难以界定、命名规则多样等问题,依据相同类别的中文命名实体往往具有结构或规则的相似性的特点,分实体类别采用不同的识别过程,实现命名实体的有效识别。提出通过设置不同的特征模板,使用条件随机场算法训练得到实体识别模板,并且针对识别难度较高的地名实体、组织机构实体采用校准规则,提升整体识别效果,完成命名实体识别模型的构建。此外,论文提出了一种面向网络新闻语料,从大规模数据中抽取实体关系的无监督实体关系抽取模型,该方法可以克服传统实体关系抽取方法所具有的人工投入量大、领域移植性差的缺点。该模型构建新的关系识别函数,对有关系的实体对进行识别;使用句法分析构建规则,提取关系特征词,并结合"上下文窗口"的特征词提取方法的结果,建立关系特征词列表;采用聚类效果较传统k-means算法表现更为优异的相似性传播算法,实现特征词的聚类。经过实体对筛选、特征词提取、特征词聚类,得到实体关系。为了验证方法的有效性,论文使用网络获取的语料,分别对设计的方案进行了实验验证。经过不同实验数据在识别准确率的对比、分析,可以看出,论文提出的方法能够有效地识别命名实体及其关系,提升实体知识库系统的数据采集性能。
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 周鹏程;武川;陆伟;;基于多知识库的短文本实体链接方法研究——以Wikipedia和Freebase为例[J];现代图书情报技术;2016年06期

2 甘丽新;万常选;刘德喜;钟青;江腾蛟;;基于句法语义特征的中文实体关系抽取[J];计算机研究与发展;2016年02期

3 本刊编辑部;;大数据相关知识概述[J];保密科学技术;2015年09期

4 秦兵;刘安安;刘挺;;无指导的中文开放式实体关系抽取[J];计算机研究与发展;2015年05期

5 刘殷;吕学强;刘坤;;条件随机场与多层算法模型的实体自动识别[J];计算机工程与应用;2016年11期

6 郭喜跃;何婷婷;;信息抽取研究综述[J];计算机科学;2015年02期

7 陈耀东;王挺;陈火旺;;半监督学习和主动学习相结合的浅层语义分析[J];中文信息学报;2008年02期

8 冯元勇;孙乐;李文波;张大鲲;;基于单字提示特征的中文命名实体识别快速算法[J];中文信息学报;2008年01期

9 周波;杨国纬;;基于贝叶斯算法的中国人名识别[J];计算机应用;2006年04期

10 车万翔,刘挺,李生;实体关系自动抽取[J];中文信息学报;2005年02期

相关博士学位论文 前3条

1 郭喜跃;面向开放领域文本的实体关系抽取[D];华中师范大学;2016年

2 甘海涛;半监督聚类与分类算法研究[D];华中科技大学;2014年

3 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年

相关硕士学位论文 前4条

1 于永波;Web信息抽取中的若干关键问题研究[D];中国科学技术大学;2015年

2 牛秀萍;基于隐马尔科夫模型词性标注的研究[D];太原理工大学;2013年

3 闫萍;基于统计与规则相结合的命名实体识别研究[D];河南工业大学;2012年

4 杨华;基于最大熵模型的中文命名实体识别方法研究[D];哈尔滨工程大学;2008年



本文编号:1336315

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1336315.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0d299***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com