当前位置:主页 > 科技论文 > 软件论文 >

异构记录的高效实体识别算法研究

发布时间:2019-04-29 14:06
【摘要】:随着科学技术的发展,数据规模不断增大,特别是以计算机和互联网为基础的应用中数据爆炸式的增长,这也使得大量的异构数据的获得成为了可能。海量的异构数据带来丰富信息的同时,其本身的异构性也制约着数据的运用价值。为此,对异构数据进行清洗就非常必要。实体识别是数据清洗中非常关键的一步,它的任务是确定并合并属于同一个实体的记录。在很多情况下,原始的数据存储在异构的环境中。特别地,记录的模式各不相同。为了更好的利用这些异构记录,现在大多数方法假设模式识别和数据映射已经完成,从而将不同模式下的异构数据转化成同一模式下的同构数据。然而,我们发现在这种情况下模式信息会丢失信息,这些信息的丢失将会降低实体识别的结果质量。为了更好的利用来自异构数据源中的信息,我们提出了异构记录实体识别算法。首先,我们提出两个关键挑战:模式异构性和描述差异性,并且调研发现现在没有任何一种相似性度量或者它的变形能够被用于找到相似的异构记录对。因此,我们设计了一种比较合并的机制来迭代的发现属于同一实体的异构记录。对于实体识别的核心步骤:记录对相似度求解,我们设计了基于实例的和基于模式的两种算法,可以求不需要模式匹配的先验知识下求解记录对相似度。考虑到算法性能,异构记录和同构记录的识别都具有很高的固有复杂度,我们建立了高效的索引结构来加速算法。基于索引,我们设计了一系列有效的剪枝策略:我们为索引中每一个候选记录对计算出紧的上下界,在线性时间内生成相似记录对候选项;我们为基于实例的相似度求解算法设计了图剪枝策略。真实数据的实验结果表明了我们方法的可行性和高效性。
[Abstract]:......
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 黄柳柳;黄河燕;史树敏;;面向代码相似度检测的指纹选取方法[J];计算机工程与应用;2010年27期

2 郑炜冬;;试卷相似度自动评估技术的研究[J];智能计算机与应用;2011年06期

3 赵涛;肖建;;二型模糊相似度及其应用[J];计算机工程与应用;2013年08期

4 徐志明;李栋;刘挺;李生;王刚;袁树仑;;微博用户的相似性度量及其应用[J];计算机学报;2014年01期

5 李桂林,陈晓云;关于聚类分析中相似度的讨论[J];计算机工程与应用;2004年31期

6 秦玉平;杨兴凯;;基于案例推理的区间属性相似度研究[J];辽宁师范大学学报(自然科学版);2006年04期

7 蒋鹏;;基于本体的应急案例相似度算法研究[J];南昌高专学报;2009年03期

8 何亚;;词语相似度算法的分析与改进[J];硅谷;2011年24期

9 仇丽青;陈卓艳;;基于共同邻居相似度的社区发现算法[J];信息系统工程;2014年05期

10 焦鹏;唐见兵;查亚兵;;仿真可信度评估中相似度方法的改进及其应用[J];系统仿真学报;2007年12期

相关会议论文 前10条

1 刘海波;郑德权;赵铁军;;基于相似度线性加权方法的检索结果聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

2 陆劲挺;路强;刘晓平;;对比相似度计算方法及其在功能树扩展中的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

3 董刊生;方金云;;基于向量距离的词序相似度算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

4 刘晓平;陆劲挺;;任意功能树的物元相似度求解方法[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年

5 王茜;张卫星;;基于分类树相似度加权的协同过滤算法[A];2008年计算机应用技术交流会论文集[C];2008年

6 洪文学;王金甲;常凤香;宋佳霖;刘文远;王立强;;基于图形特征增强的相似度分类器的研究[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(上册)[C];2007年

7 俞荣华;郭志懋;田增平;周傲英;;一个可扩展的数据清洗系统[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

8 崔运钏;刘连忠;;一种可扩展的数据清洗系统的设计与实现[A];2006中国控制与决策学术年会论文集[C];2006年

9 汪爱民;;宝钢全流程合同数据清洗与组织方案的设计和应用[A];全国冶金自动化信息网2014年会论文集[C];2014年

10 蒋勇青;杨奕虹;杨贺;;论数据清洗对信息检索质量的影响及清洗方法[A];2011年中国索引学会年会暨成立二十周年庆典论文集[C];2011年

相关重要报纸文章 前4条

1 中国人民财产保险股份有限公司信息技术部副总经理 鹿慧 编译;在SOA中创建独立的数据清洗服务[N];计算机世界;2009年

2 汪蔚;跨平台异构数据对接是选型根本[N];中国计算机报;2004年

3 西岸;Network Appliance发布新异构数据保护方案[N];通信产业报;2003年

4 王伽 卫江;出入境证件照片应及时更换[N];中国国门时报;2008年

相关博士学位论文 前10条

1 操震洲;矢量数据动态多尺度网络传输研究[D];南京大学;2015年

2 程亮;基于本体的疾病数据整合与挖掘方法研究[D];哈尔滨工业大学;2014年

3 刘振宇;基于区域相似度和特征降维的极化SAR影像分类[D];武汉大学;2013年

4 曹,

本文编号:2468297


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2468297.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2455b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com