当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于实体属性和内容的同义实体识别研究

发布时间:2020-06-11 17:24
【摘要】:同义实体识别任务是指在数据中发现同一命名实体的不同的指代名称的任务。同义实体识别可以有效解决数据冲突、去除冗余数据,进一步提高数据集成度,保证数据的准确性、一致性和完整性,同时也可以有效促进问答系统等应用领域的发展。传统的同义实体识别方法通常只能利用有限的文本信息,识别效果不佳。基于搜索引擎的同义实体识别方法,相比于传统的方法识别效果有较大的提升,但是仍然存在一些问题,基于此,本文开展同义实体识别任务研究工作。(1)针对现有的基于搜索引擎的同义实体识别方法没有充分利用实体信息的问题,本文提出一个新的命名实体之间相似度计算方法VarSim函数,该相似度方法利用搜索引擎返回的实体页面摘要信息,并分析了摘要文本内容中的隐藏有效信息,再结合特征融合技术,提出基于乘法特征融合同义实体识别方法SER-mult-FF。该方法保留并综合了不同命名实体特征对同义命名实体的重要鉴别信息,提高了识别效果。最后通过实验验证了 SER-multi-FF方法进行同义实体识别的优越性。(2)针对现有的基于搜索引擎的同义实体识别方法有手动设计的特征和特定任务专家知识的相似性度量要求,导致该类方法具有较大局限性,本文提出了带属性内容感知实体网络表示的同义命名实体发现算法(CAAEE),该方法结合Network Embedding和命名实体信息构建两个异构网络,通过两个异构网络的联合学习学得命名实体的低维特征向量表示,然后将低维向量空间中实体的距离作为实体间的相似性度量。该方法可以从命名实体的属性和文本描述内容中自动提取有效语义特征,不需要进行手工的特征设计和领域专家知识,提高了同义实体识别的准确性和效率。
【图文】:

评估标准,数据质量,数据准确性


Quality的报告显示:88%企业发展都会在不同程度上受到不准确数据的影响。因逡逑此,,对数据质量的评估在处理数据方面尤为重要。一般地,数据质量评估包括四逡逑个标准,图1.1是数据质量评估的四个标准包括数据准确性、完整性、一致性和及逡逑时性。逡逑(1)

实体类,实体


命名实体是文本内容信息基本组成元素,对命名实体的定义有很多种,常见逡逑的命名实体类别包括人物、地点、机构、专有名词等等。命名实体识别任务就是逡逑把文本中已经存在的命名实体识别出来。图2.1为命名实体识别任务所识别的实体逡逑类型,其中,机构命名实体的表现形式会比较复杂,比如可以是以人名、地名等逡逑命名,也可以是序数词、企业字号等。本文处理的命名实体类型是机构,在机构逡逑实体中包含着许多名称不一样但是指向显示世界同一实体的实体,是相对比较难逡逑识别的实体类型。逡逑Personality逦(§>逦QQUQ逡逑?逦/邋P.-逦|g|逡逑:邋N?ined邋Entitles逦/邋y逦^逡逑Kecog:niHon邋and逦/邋厂逡逑l>d.c!aS,?rication逦/逦/逡逑V.ufjhb逡逑WsKiPKhiA逡逑?邋?邋?逦?邋?邋?逡逑Text邋with邋named逡逑entities邋classiHcutiim逡逑图2.邋1实体识别任务所处理的实体类别逡逑Fig邋2.1邋The邋classification邋of邋entity邋recognition邋task逡逑6逡逑
【学位授予单位】:合肥工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.3

【参考文献】

相关期刊论文 前10条

1 徐U嗞

本文编号:2708219


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2708219.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户98091***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com