文本挖掘中的中文实体关系抽取
发布时间:2018-05-09 03:10
本文选题:关系抽取 + 实体识别 ; 参考:《北京邮电大学》2013年硕士论文
【摘要】:当今社会,随着科技的迅速发展,数据特别是网络数据正以指数规律飞速地增长。而作为网络数据中非常重要的一部分,文本数据受到了相当大的重视。为了应对海量文本数据带来的挑战,有效地存储、管理以至于利用文本数据,人们迫切地需要一些能够在海量信息源中迅速找到真正需要信息的自动化工具。信息抽取(Information Extraction)的研究正是为了解决这个问题。 信息抽取,是从结构化或者半结构化的文本自动动抽取特定信息,并以结构化的形式(例如数据库或者XML文档)存储。信息抽取任务一般都会包含了两个紧密相连的任务:命名实体识别和实体关系抽取。本文主要研究的就是基于网络数据的实体关系抽取系统,即如何获取两个命名实体之间关系的问题。主要包括: 1.根据网络数据的特点,设计了基础数据收集的相关方案。该方案允分利用了网络数据的特点以及搜索引擎的功能,并结合页面结构的整体特性,达到了以较低的成本,简洁方便地获取大量相关的网络资源,并抽取中其中的正文文本 2.深入研究了当前主流的关系抽取的方法,并对各种方法的优缺点进行分析,并在此基础上提出了一种关系抽取的方法。该方法同时结合了语句的结构关系以及词语特性两方面的特征,有效地实现了对句子中实体关系的抽取。 3.在以上研究的基础上,实现了从网络数据收集到关系抽取的原型系统。该系统基于B/S框架,完成了本文提出的关系抽取算法,同时提供可视化的展示模块,能够在浏览器中直观地展示关系抽取的相关结果。并利用此系统进行了相关的实验,验证了关系抽取算法的有效性。
[Abstract]:Nowadays, with the rapid development of science and technology, data, especially network data, are increasing exponentially. As a very important part of network data, text data has received considerable attention. In order to meet the challenge of mass text data and store, manage and utilize text data effectively, people urgently need some automation tools which can quickly find the real information in the mass information source. The research of information extraction is to solve this problem. Information extraction is to extract specific information automatically from structured or semi-structured text and store it in a structured form (such as a database or XML document). The task of information extraction usually includes two closely related tasks: named entity identification and entity relation extraction. This paper mainly studies the entity relation extraction system based on network data, that is, how to obtain the relationship between two named entities. These include: 1. According to the characteristics of network data, the related scheme of basic data collection is designed. This scheme makes use of the characteristics of network data and the function of search engine, and combines with the overall characteristics of page structure, achieves the goal of obtaining a large number of related network resources at a lower cost, and extracts the text of the text. 2. The main methods of relation extraction are deeply studied, and the advantages and disadvantages of these methods are analyzed. On the basis of this, a relational extraction method is proposed. This method combines the structural relation of sentence and the character of words and realizes the extraction of entity relation in sentence effectively. 3. Based on the above research, a prototype system from network data collection to relational extraction is implemented. Based on the B / S framework, the system completes the relational extraction algorithm proposed in this paper, and provides a visual display module, which can directly display the related results of the relational extraction in the browser. Experiments are carried out with this system to verify the effectiveness of the relational extraction algorithm.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1
【参考文献】
相关期刊论文 前10条
1 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期
2 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期
3 冯元勇;孙乐;张大鲲;李文波;;基于小规模尾字特征的中文命名实体识别研究[J];电子学报;2008年09期
4 齐鹏;李隐峰;宋玉伟;;基于Python的Web数据采集技术[J];电子科技;2012年11期
5 刘克彬;李芳;刘磊;韩颖;;基于核函数中文关系自动抽取系统的实现[J];计算机研究与发展;2007年08期
6 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
7 王利;刘宗田;王燕华;廖涛;;基于内容相似度的网页正文提取[J];计算机工程;2010年06期
8 黄高辉;姚天f ;刘全升;;基于CRF算法的汉语比较句识别和关系抽取[J];计算机应用研究;2010年06期
9 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期
10 车万翔,刘挺,李生;实体关系自动抽取[J];中文信息学报;2005年02期
,本文编号:1864300
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1864300.html