实体识别关键技术的研究

发布时间:2017-09-12 03:36

  本文关键词:实体识别关键技术的研究


  更多相关文章: 实体识别 数据质量 质量评估 图聚类 度量学习


【摘要】:实体识别在数据质量管理中起着重要地位。它是数据质量管理的重要研究方向。在一个或多个数据库中,同一个现实世界实体可能具有多种描述方式。实体识别的目的是识别出数据集中描述同一真实世界实体的元组。实体识别的结果可以在数据质量管理的其他阶段,例如数据清洗阶段和数据质量评估阶段,得到广泛应用。同一实体具有不同描述的问题在各种应用领域的信息系统中普遍存在。由于实体识别在数据质量管理中具有重要意义,人们已经开始了实体识别的研究。尽管现有的方法能够在很多应用中有效的识别实体,但是还存在如下的不足:1.当前的实体识别存在重名和异名的问题。重名是指描述现实世界不同实体的数据对象的名字相同,而异名是指描述现实世界中相同实体的数据对象的名字不同。目前实体识别的研究或是只解决了重名问题,即对名字相同的数据对象进行实体划分或是只解决了异名问题,即识别出名字不同但描述相同实体的对象集合,而缺少对一般情况(即重名和异名同时存在的情况)的考虑。2.传统实体识别方法往往是基于元组的相似性比较来获得结果的。它们假设数据集满足紧凑集性质,即指代同一实体的元组的相似度比指代不同实体的元组对的相似度更高。然而,在某些情况下,这样的性质并不成立,则传统的实体识别方法不能有效地识别实体。3.当前实体识别方法中所采用的相似性度量并没有考虑不同词之间所具有的相关性以及某些描述实体重要特征的词对识别实体的重要贡献。基于当前的相似性度量方法,往往不能得到有效的实体识别结果。4.目前的数据质量评估只包括一致性,时效性,完整性和精确性。然而通过实体识别的结果可以评估另一类数据质量问题,即指代同一真实世界中的实体的元组在各属性上的值存在冲突的问题。我们将该问题称为冗余数据上的实体描述冲突问题。当前尚无任何评估实体描述冲突的方法提出。综合上述分析,本文将以信息集成和互联网搜索为背景,研究数据质量管理中实体识别的关键技术,以最大化实体识别结果精确度,最小化时间复杂性为目标,研究基于图模型的实体识别框架、基于规则的实体识别算法、基于距离度量的实体识别算法和基于实体识别结果对数据质量的评估。本文的主要研究成果如下:(1)提出了实体识别问题中的异名和重名同时存在的现象,据我们所知,这是首次在实体识别问题中考虑这两类问题同时出现的情况。本文提出了一种普遍适用的实体识别技术框架EIF,该框架通过将元组之间的相似性关系转化为图模型,从而利用图聚类算法解决实体识别问题。基于所提出的EIF框架,本文设计了识别论文作者的算法。该算法有效地利用了作者名字和合作者信息来实现同时具有异名问题和重名问题的论文集合上的作者识别。实验结果表明基于EIF框架的作者识别算法的结果精确度优于现有方法。(2)针对某些难以用元组相似性比较来识别实体的情况,提出了利用实体描述信息所建立的规则来识别指代相同实体的元组的方法。设计了实体识别规则的语法和语义,定义并分析了实体识别规则系统的独立性,一致性,完整性和有效性。提出了一种有效的规则发现算法和基于规则的实体识别算法,并对算法的正确性和复杂度进行了分析。最后提出了一个规则更新策略。在真实数据上的实验对所提出的算法的效率和有效性进行了验证。(3)以词作为描述实体的特征,分别为元组对上的实体识别和元组集合上的实体识别提出了两种基于词特征的距离度量和距离度量的学习算法。在算法中,通过将训练集中的元组或元组对转换成以词为特征的向量,利用学习算法计算出基于词特征的距离度量。在真实数据上的扩展性实验对我们所提出的度量学习算法的有效性进行了验证。(4)定义了实体描述冲突的数学模型。当实体识别结果的精确性不是100%时,提出了实体描述冲突的范围计算问题。为了解决这个问题,提出了四个基本操作并证明了实体描述冲突范围的计算问题是NP难并为四个基本操作提出四个近似算法,给出了近似比。提出了一个基于四个基本操作的计算实体描述冲突范围的框架。在真实数据和合成数据上对所提出的算法的有效性和效率进行了验证。
【关键词】:实体识别 数据质量 质量评估 图聚类 度量学习
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP311.13;TP391.41
【目录】:
  • 摘要4-6
  • ABSTRACT6-15
  • 第1章 绪论15-31
  • 1.1 研究背景16
  • 1.2 研究现状及分析16-28
  • 1.2.1 实体识别的索引技术17-20
  • 1.2.2 元组对的比较技术20-24
  • 1.2.3 实体识别分类技术24-27
  • 1.2.4 现有工作的不足27-28
  • 1.3 本文的研究内容28-31
  • 1.3.1 基于图模型的实体识别29
  • 1.3.2 基于规则的实体识别29
  • 1.3.3 基于距离度量的实体识别29-30
  • 1.3.4 实体描述信息冲突评估30-31
  • 第2章 基于图模型的实体识别31-44
  • 2.1 引言31-32
  • 2.2 基于图模型的实体识别框架32-36
  • 2.2.1 框架介绍33-34
  • 2.2.2 局部的数据对象划分算法34-35
  • 2.2.3 EIF的例子35-36
  • 2.3 基于EIF的作者识别算法36-38
  • 2.3.1 作者名的归类算法37-38
  • 2.3.2 基于聚类技术的数据对象划分38
  • 2.4 实验评估38-43
  • 2.4.1 实验设置38-39
  • 2.4.2 在真实数据集上的实验结果39-40
  • 2.4.3 比较实验40-41
  • 2.4.4 参数实验41-43
  • 2.5 本章小结43-44
  • 第3章 基于规则的实体识别44-74
  • 3.1 引言44-47
  • 3.2 实体识别规则47-51
  • 3.2.1 实体识别规则的语法47-48
  • 3.2.2 实体识别规则的语义48-49
  • 3.2.3 ER规则集合的性质49-51
  • 3.3 实体识别规则的发现51-63
  • 3.3.1 规则发现问题52-56
  • 3.3.2 PR生成算法56-60
  • 3.3.3 NR生成算法60-62
  • 3.3.4 算法分析62-63
  • 3.4 基于规则的实体识别63-66
  • 3.5 规则的更新66-67
  • 3.6 实验评估67-73
  • 3.6.1 实验设置68-69
  • 3.6.2 比较实验69-70
  • 3.6.3 更新规则的作用70-71
  • 3.6.4 训练集大小和阈值的影响71
  • 3.6.5 效率和可扩展性71-73
  • 3.7 本章小结73-74
  • 第4章 基于距离度量的实体识别74-91
  • 4.1 引言74-76
  • 4.2 背景介绍76-78
  • 4.2.1 主成分分析法77-78
  • 4.2.2 大间隔最近邻学习算法78
  • 4.3 实体识别的度量学习78-85
  • 4.3.1 元组对上实体识别的度量学习79-82
  • 4.3.2 元组集合上实体识别的度量学习82-85
  • 4.4 基于距离度量的实体识别85-86
  • 4.5 实验评估86-90
  • 4.5.1 实验设置86-87
  • 4.5.2 实验结果87-90
  • 4.6 本章小结90-91
  • 第5章 对冗余元组中实体描述的冲突评估91-112
  • 5.1 引言91-93
  • 5.2 实体描述冲突模型93-94
  • 5.3 edc范围计算问题94-97
  • 5.3.1 四个基本运算符94-96
  • 5.3.2 计算复杂性96-97
  • 5.4 edc范围计算框架97-108
  • 5.4.1 Max Dec算法98-100
  • 5.4.2 Min Dec算法100
  • 5.4.3 Max Inc算法100-105
  • 5.4.4 Min Inc算法105-108
  • 5.5 实验评估108-111
  • 5.5.1 实验设置108-109
  • 5.5.2 实验有效性109
  • 5.5.3 参数的影响109-111
  • 5.5.4 实验效率111
  • 5.6 本章小结111-112
  • 结论112-114
  • 参考文献114-126
  • 攻读博士学位期间发表的论文及其他成果126-128
  • 致谢128-129
  • 个人简历129


本文编号:834871

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/834871.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户91d6a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com