当前位置:主页 > 科技论文 > 软件论文 >

面向招标数据的命名实体识别方法研究及应用

发布时间:2018-05-14 21:27

  本文选题:招标数据 + 命名实体识别 ; 参考:《北京交通大学》2017年硕士论文


【摘要】:命名实体识别是自然语言处理和数据挖掘领域的热点研究课题之一,随着网络数据的爆发式增长,人们对如何在海量数据中快速准确获取有意义信息的需求不断增加。命名实体识别是关键信息提取的一项核心技术,在信息抽取、信息检索、文本分类等多种自然语言处理的领域中都起着关键性的作用,受到研究人员的极大重视。本文从中文命名实体识别的理论研究出发,针对在招标数据中对命名实体提取和识别的迫切需求,重点研究在招标数据集中命名实体提取规则的设计以及基于混合模型的命名实体识别方法。构建全国招投标网络平台数据集,通过实验充分验证了提出方法的有效性,能够满足招标数据中评审专家名、项目联系人、联系地址、招标机构名、代理机构名和中标机构名六种命名实体提取的实际需求。本文的主要工作及研究成果包括:(1)深入分析招标数据中实体的构成规则以及文本特征,构建适用于识别招标数据中命名实体的边界规则库和实体规则库,采用基于规则的方法对其中的命名实体进行识别研究。(2)提出了一种基于混合模型的命名实体识别方法。该方法采用二阶隐马尔可夫模型作为统计模型,根据模型优化了 Viterbi算法,充分利用上下文信息进行命名实体识别。同时根据招标数据的特点,在统计模型的基础上加入基于规则的前期处理和后期校正处理,提高了命名实体识别效果。(3)针对构建的全国招投标网络平台数据,通过三组实验对本文提出的基于规则的方法、基于混合模型的方法和哈工大的LTP系统以及中科院的NLPIR系统对数据集中六种命名实体的识别效果进行验证。实验结果表明,基于混合模型的方法在针对招标数据的命名实体识别方面具有更好的识别效果。以上研究表明,针对招标数据中的命名实体识别问题,本文提出的基于混合模型的识别方法识别效果良好,可以作为构建一种适用于招标数据的命名实体识别系统的基础方法。运用该方法可以有效提高相关机构在获取招投标信息时的搜索效率和准确度。
[Abstract]:Named entity recognition is one of the hot topics in the field of Natural Language Processing and data mining. With the explosive growth of network data, the demand for how to quickly and accurately obtain meaningful information in massive data is increasing. Named entity recognition is a key technology for key information extraction, information extraction and information inspection. According to the theoretical research of the Chinese named entity recognition, this paper aims at the urgent need to extract and identify the named entities in the bidding data, and focuses on the research on the extraction rules of the named entity in the bid data centralization. The design and the method of naming entity recognition based on the mixed model. Construct the data set of the national bidding network platform. Through the experiment, the validity of the proposed method is fully verified. It can meet the name of the evaluation expert, the contact person, the contact address, the name of the bidding organization, the name of the agency, the name of the agency and the name of the bid agency. The main work and research results of this paper include: (1) in-depth analysis of the constitution rules and textual features of the entity in the bidding data, constructing the boundary rule base and the entity rule base suitable for identifying the named entities in the bidding data, and using the rule based method to identify the named entities. (2) proposed A named entity recognition method based on mixed model is used in this method. The two order hidden Markov model is used as the statistical model, the Viterbi algorithm is optimized according to the model, and the context information is fully used to identify the named entity. Later correction processing improves the effect of named entity recognition. (3) according to the construction of the national bidding network platform data, through three groups of experiments on the rule based method, the hybrid model based method and the LTP system of Harbin Industrial University and the NLPIR system of CAS on the identification of six named entities in the data set. The experimental results show that the hybrid model based method has a better recognition effect on the named entity recognition of the bidding data. The above research shows that the recognition method based on the mixed model proposed in this paper has good recognition effect for the named entity recognition problem in the bidding data, and it can be used as a construction method. The basic method of the named entity recognition system for bidding data, which can effectively improve the search efficiency and accuracy of the relevant agencies when obtaining bidding information.

【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【参考文献】

相关期刊论文 前8条

1 陈基;;命名实体识别综述[J];现代计算机(专业版);2016年03期

2 郭喜跃;何婷婷;;信息抽取研究综述[J];计算机科学;2015年02期

3 梁喜涛;顾磊;;中文分词与词性标注研究[J];计算机技术与发展;2015年02期

4 吴伟成;周俊生;曲维光;;基于统计学习模型的句法分析方法综述[J];中文信息学报;2013年03期

5 郑逢强;林磊;刘秉权;孙承杰;;《知网》在命名实体识别中的应用研究[J];中文信息学报;2008年05期

6 冯元勇;孙乐;李文波;张大鲲;;基于单字提示特征的中文命名实体识别快速算法[J];中文信息学报;2008年01期

7 张小衡,王玲玲;中文机构名称的识别与分析[J];中文信息学报;1997年04期

8 孙茂松,黄昌宁,高海燕,,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期

相关硕士学位论文 前5条

1 王国昱;基于深度学习的中文命名实体识别研究[D];北京工业大学;2015年

2 何红磊;基于词表示方法的生物医学命名实体识别[D];大连理工大学;2015年

3 阚琪;基于条件随机场的命名实体识别及实体关系识别的研究与应用[D];北京交通大学;2015年

4 张学清;规则与统计相结合的音乐领域命名实体识别[D];电子科技大学;2010年

5 赵琳瑛;基于隐马尔科夫模型的中文命名实体识别研究[D];西安电子科技大学;2008年



本文编号:1889493

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1889493.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e28b5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com