工业物联网数据的实体识别方法研究
发布时间:2021-08-21 12:56
物联网中的劣质数据处理一直以来都是研究热点之一,针对实体同一性问题的实体识别方法更是受到广泛关注。实体识别是指从数据集合中发现描述现实世界同一实体的不同数据。由于工业物联网数据具有浮动性和实时性,现有实体识别方法不能实现高准确性、高效率的工业物联网数据实体识别。因此,针对工业物联网数据,本文首先提出了一种面向历史数据的渐进式实体识别方法,然后在该方法基础上提出了一种面向实时数据的增量实体识别方法。本文的主要成果如下:为提高工业物联网数据实体识别的准确性,首先,针对工业物联网数据中各属性的数据类型不完全一致的问题,提出利用哈希编码实现数据类型不敏感的属性判等方式,并基于该属性判等方式形成一系列实体匹配条件,进而构建一套实体匹配规则,该匹配规则利用哈希编码的唯一性实现高精度匹配。然后,针对工业物联网数据的数据浮动性,以上述高精度匹配的实体匹配规则为理论基础,利用Merkle-tree的思想提出一种面向历史数据的渐进式实体识别算法(progressive entity resolution for historical data,以下简称PER-H算法)。该算法首先提出了一种数据标准化方法,...
【文章来源】:辽宁大学辽宁省 211工程院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
增量实体识别示意图
第5章实验及分析42图5-3F1值对比图经过上述分析可知,在总体上,本文提出的PER-H算法的识别效果要远好于其他两种经典的实体识别算法。5.2.4效率对比分析由表5-3所展示的数据可以看出,本文提出的PER-H算法在识别效率上并没有优势。但是,由于PER-H算法采用渐进式操作,因此,与其它两种实体识别算法相比,在识别效率上的优劣差距并不大。出现表5-3中结果的主要原因是:三种算法各自使用的主要技术手段有所不同。因此,所消耗的时间各不相同。Part算法的识别过程相对来说比较简单,该算法首先进行属性相似度计算;然后,为各属性分配权重,计算出每个元组对的带权平均相似度;最后,通过判断两个元组的带权平均相似度是否大于事先设定的阈值,进行实体匹配,从而实现对给定数据的实体同一性问题检测。而ERC算法和本文提出的PER-H算法为提高识别准确性分别结合了一些其他技术,使识别过程变得相对复杂。因此,ERC算法和PER-H算法的时间消耗相比于Part算法略高。此外,由于本文提出的PER-H算法需要反复地构建St-Chain结构,造成了一定的时间消耗,对识别效率产生了一定的影响,最终导致PER-H算法的识别效率是三者中最低的。
第5章实验及分析44图5-4IER-RT与PER-H的效率对比图如图5-4所示,随着数据量的不断增加,IER-RT算法的时间消耗始终是呈现接近匀速的缓慢上升趋势,而PER-H算法的时间消耗曲线的上升趋势逐渐加快。虽然二者的上升曲线都接近线性形式,但是,由3.2.4节和4.1.2节中的分析可知,PER-H算法由于排序和递归构造St-Chain等操作造成了一定的时间消耗,其时间复杂度处于区间[n.,n.)内,而IER-RT算法由于利用前期实体识别算法所得的识别结果简化了识别过程,其时间复杂度为O(n)。因此,IER-RT算法的识别效率始终高于PER-H算法,并且,二者的识别效率会随着数据量的增加而逐渐拉开差距,且这个差距将会变得越来越明显。综上所述,针对工业物联网中的实时增量数据,随着数据量的不断增加,PER-H算法的识别效率越来越难以满足增量数据处理的高实时性要求。而IER-RT算法的上升曲线十分接近线性,其运行时间随数据量的不断增加而缓慢增长。因此,相比之下,无论是从算法的时间复杂度这一理论角度,还是从图5-4所展示的实验对比结果这一实际数据来谈,第4章提出的IER-RT算法都更能满足实时增量数据对实体识别过程的高实时性要求。5.4本章小结本章首先介绍并描述了实验所采用的数据集,主要包括一个合成数据集和两个源自UCI的常用公共数据集,并说明了实验数据集中所包含的属性的数据特征。然后,通过与其他两种经典的实体识别算法进行对比分析,测试并验证了第3章提出的PER-H算法在准确率、召回率、F-测度和效率等方面的较高性
【参考文献】:
期刊论文
[1]基于数控机床设备故障领域的命名实体识别[J]. 王欢,朱文球,吴岳忠,何频捷,万烂军. 工程科学学报. 2020(04)
[2]共指消解技术综述[J]. 陈远哲,匡俊,刘婷婷,高明,周傲英. 华东师范大学学报(自然科学版). 2019(05)
[3]一种实体识别的后期处理优化算法[J]. 蒋存锋,赵川. 计算机应用与软件. 2019(06)
[4]基于多路分块的Pay-as-you-go实体识别方法[J]. 孙琛琛,申德荣,寇月,聂铁铮,于戈. 计算机学报. 2019(08)
[5]基于众包标注的中文微博命名实体识别[J]. 房辉,汤文兵,桂海霞,张顺香. 计算机应用与软件. 2019(03)
[6]面向文本命名实体识别的深层网络模型[J]. 李慧林,柴玉梅,孙穆祯. 小型微型计算机系统. 2019(01)
[7]基于细粒度词表示的命名实体识别研究[J]. 林广和,张绍武,林鸿飞. 中文信息学报. 2018(11)
[8]面向大数据实体识别的超图分割算法[J]. 胡志刚,刘佳. 小型微型计算机系统. 2018(07)
[9]基于随机森林的实体识别方法[J]. 杨萌,聂铁铮,申德荣,寇月,于戈. 集成技术. 2018(02)
[10]《工业物联网白皮书》正式发布[J]. 杜玉河. 起重运输机械. 2017(10)
博士论文
[1]实体识别关键技术的研究[D]. 黎玲利.哈尔滨工业大学 2015
硕士论文
[1]基于超图聚类的大数据实体识别算法研究[D]. 莎仁.东北师范大学 2019
[2]基于半监督学习的药品专利实体识别及应用[D]. 王泽.大连理工大学 2019
本文编号:3355643
【文章来源】:辽宁大学辽宁省 211工程院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
增量实体识别示意图
第5章实验及分析42图5-3F1值对比图经过上述分析可知,在总体上,本文提出的PER-H算法的识别效果要远好于其他两种经典的实体识别算法。5.2.4效率对比分析由表5-3所展示的数据可以看出,本文提出的PER-H算法在识别效率上并没有优势。但是,由于PER-H算法采用渐进式操作,因此,与其它两种实体识别算法相比,在识别效率上的优劣差距并不大。出现表5-3中结果的主要原因是:三种算法各自使用的主要技术手段有所不同。因此,所消耗的时间各不相同。Part算法的识别过程相对来说比较简单,该算法首先进行属性相似度计算;然后,为各属性分配权重,计算出每个元组对的带权平均相似度;最后,通过判断两个元组的带权平均相似度是否大于事先设定的阈值,进行实体匹配,从而实现对给定数据的实体同一性问题检测。而ERC算法和本文提出的PER-H算法为提高识别准确性分别结合了一些其他技术,使识别过程变得相对复杂。因此,ERC算法和PER-H算法的时间消耗相比于Part算法略高。此外,由于本文提出的PER-H算法需要反复地构建St-Chain结构,造成了一定的时间消耗,对识别效率产生了一定的影响,最终导致PER-H算法的识别效率是三者中最低的。
第5章实验及分析44图5-4IER-RT与PER-H的效率对比图如图5-4所示,随着数据量的不断增加,IER-RT算法的时间消耗始终是呈现接近匀速的缓慢上升趋势,而PER-H算法的时间消耗曲线的上升趋势逐渐加快。虽然二者的上升曲线都接近线性形式,但是,由3.2.4节和4.1.2节中的分析可知,PER-H算法由于排序和递归构造St-Chain等操作造成了一定的时间消耗,其时间复杂度处于区间[n.,n.)内,而IER-RT算法由于利用前期实体识别算法所得的识别结果简化了识别过程,其时间复杂度为O(n)。因此,IER-RT算法的识别效率始终高于PER-H算法,并且,二者的识别效率会随着数据量的增加而逐渐拉开差距,且这个差距将会变得越来越明显。综上所述,针对工业物联网中的实时增量数据,随着数据量的不断增加,PER-H算法的识别效率越来越难以满足增量数据处理的高实时性要求。而IER-RT算法的上升曲线十分接近线性,其运行时间随数据量的不断增加而缓慢增长。因此,相比之下,无论是从算法的时间复杂度这一理论角度,还是从图5-4所展示的实验对比结果这一实际数据来谈,第4章提出的IER-RT算法都更能满足实时增量数据对实体识别过程的高实时性要求。5.4本章小结本章首先介绍并描述了实验所采用的数据集,主要包括一个合成数据集和两个源自UCI的常用公共数据集,并说明了实验数据集中所包含的属性的数据特征。然后,通过与其他两种经典的实体识别算法进行对比分析,测试并验证了第3章提出的PER-H算法在准确率、召回率、F-测度和效率等方面的较高性
【参考文献】:
期刊论文
[1]基于数控机床设备故障领域的命名实体识别[J]. 王欢,朱文球,吴岳忠,何频捷,万烂军. 工程科学学报. 2020(04)
[2]共指消解技术综述[J]. 陈远哲,匡俊,刘婷婷,高明,周傲英. 华东师范大学学报(自然科学版). 2019(05)
[3]一种实体识别的后期处理优化算法[J]. 蒋存锋,赵川. 计算机应用与软件. 2019(06)
[4]基于多路分块的Pay-as-you-go实体识别方法[J]. 孙琛琛,申德荣,寇月,聂铁铮,于戈. 计算机学报. 2019(08)
[5]基于众包标注的中文微博命名实体识别[J]. 房辉,汤文兵,桂海霞,张顺香. 计算机应用与软件. 2019(03)
[6]面向文本命名实体识别的深层网络模型[J]. 李慧林,柴玉梅,孙穆祯. 小型微型计算机系统. 2019(01)
[7]基于细粒度词表示的命名实体识别研究[J]. 林广和,张绍武,林鸿飞. 中文信息学报. 2018(11)
[8]面向大数据实体识别的超图分割算法[J]. 胡志刚,刘佳. 小型微型计算机系统. 2018(07)
[9]基于随机森林的实体识别方法[J]. 杨萌,聂铁铮,申德荣,寇月,于戈. 集成技术. 2018(02)
[10]《工业物联网白皮书》正式发布[J]. 杜玉河. 起重运输机械. 2017(10)
博士论文
[1]实体识别关键技术的研究[D]. 黎玲利.哈尔滨工业大学 2015
硕士论文
[1]基于超图聚类的大数据实体识别算法研究[D]. 莎仁.东北师范大学 2019
[2]基于半监督学习的药品专利实体识别及应用[D]. 王泽.大连理工大学 2019
本文编号:3355643
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3355643.html