基于超图聚类的大数据实体识别算法研究
发布时间:2021-08-12 03:12
现已进入大数据时代,数据量成爆发式增长,数据量的增长带来严重的数据质量问题,使得数据的可用性极大降低,数据清洗变得更加重要。实体识别是数据清洗的重要步骤,主要目的就是准确的识别出同一实体,将数据对象与现实世界的真实实体一一对应,即对数据库中元组对是否指代同一实体进行判别。以此来达成去除冗余,消解不一致的数据清洗效果。通过实体识别可以有效的提高数据同一性。面向大数据的实体识别方法是现在研究的热点之一,但目前面向大数据的实体识别方法在识别效率上依然不尽如人意,目前的实体识别技术多基于领域知识,对领域知识的依赖性很高,领域无关的实体识别算法目前较少,基于图聚类的实体识别算法目前效果比较好,同时Spark计算平台在大数据处理上具有很大的优势,因此本文在基于图聚类的实体识别算法基础上使用Spark计算平台提出基于超图聚类的实体识别算法。本文首先介绍有关实体识别的相关技术以及理论基础,包括实体识别的分块技术和实体识别聚类技术。然后通过使用超图聚类方法,设计并实现在超图模型下的实体识别算法:首先通过建立倒排索引表和频繁项集挖掘的方法对数据进行分块处理,并为超图模型的构建做准备;通过挖掘好的频繁项集构...
【文章来源】:东北师范大学吉林省 211工程院校 教育部直属院校
【文章页数】:49 页
【学位级别】:硕士
【部分图文】:
实体识别过程
图 2.2 滑动窗口分块:将数据进行分块可以看做是将相似元组聚类到一起,因此还进行分块。大多数聚类算法的复杂度都比较高,然而分块方法且高速的聚类方法。因此针对分块特点,Canopy 聚类算法首条记录都映射到空间中,通过距离函数 distance(x,y)快速任取记录中的一点并建立新的块,将与该点距离小于一定阈值除距离远的点,通过不断地迭代重复将元组插入到不同的块中定的阈值,但该聚类方法对聚类中心的选取依赖性较高。:语义分块方法是利用元组之间的关系来进行分块,具体是将,图中点是每个元组,关系是图的边。通过对关系的比较函数。通过语义的分块方法优点是保留了数据原有的语义关系,但的定义。块方法多会依赖对相关领域的专业意见,或不能应用于大多数
另一种聚类方法是基于图的聚类,比如著名的 CENTER 聚类算法,首先将数据元组对生成图,然后对图进行聚类,聚类后的每个子图为一个实体。CENTER聚类算法首先找到每个子图的中心,然后将元组插入到距离最近的中心所代表的类里,这种聚类方式,使得类中心的选取非常重要,会极大的影响最终的分类结果,因此对它的改进之一是:若类的中心相似高,便合并两个类。同时,还有基于密度的聚类,匹配元组密度大,不匹配的密度小。这种方法的好处是不需要根据全局阈值,只根据邻居数量和密度就可以达到聚类的效果。2.2 图聚类通过构建普通图的方式可以更清晰的描述出数据之间的复杂关系。图聚类方法就是将数据对象之间的关系用图来表示,然后对构建好的普通图进行划分,得到子图。最终每个子图之间的关联度比较低,子图内部节点关系比较紧密。图聚类过程如图 2.3 所示。
本文编号:3337465
【文章来源】:东北师范大学吉林省 211工程院校 教育部直属院校
【文章页数】:49 页
【学位级别】:硕士
【部分图文】:
实体识别过程
图 2.2 滑动窗口分块:将数据进行分块可以看做是将相似元组聚类到一起,因此还进行分块。大多数聚类算法的复杂度都比较高,然而分块方法且高速的聚类方法。因此针对分块特点,Canopy 聚类算法首条记录都映射到空间中,通过距离函数 distance(x,y)快速任取记录中的一点并建立新的块,将与该点距离小于一定阈值除距离远的点,通过不断地迭代重复将元组插入到不同的块中定的阈值,但该聚类方法对聚类中心的选取依赖性较高。:语义分块方法是利用元组之间的关系来进行分块,具体是将,图中点是每个元组,关系是图的边。通过对关系的比较函数。通过语义的分块方法优点是保留了数据原有的语义关系,但的定义。块方法多会依赖对相关领域的专业意见,或不能应用于大多数
另一种聚类方法是基于图的聚类,比如著名的 CENTER 聚类算法,首先将数据元组对生成图,然后对图进行聚类,聚类后的每个子图为一个实体。CENTER聚类算法首先找到每个子图的中心,然后将元组插入到距离最近的中心所代表的类里,这种聚类方式,使得类中心的选取非常重要,会极大的影响最终的分类结果,因此对它的改进之一是:若类的中心相似高,便合并两个类。同时,还有基于密度的聚类,匹配元组密度大,不匹配的密度小。这种方法的好处是不需要根据全局阈值,只根据邻居数量和密度就可以达到聚类的效果。2.2 图聚类通过构建普通图的方式可以更清晰的描述出数据之间的复杂关系。图聚类方法就是将数据对象之间的关系用图来表示,然后对构建好的普通图进行划分,得到子图。最终每个子图之间的关联度比较低,子图内部节点关系比较紧密。图聚类过程如图 2.3 所示。
本文编号:3337465
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3337465.html