基于Web的重复属性自动识别方法
本文关键词:基于Web的重复属性自动识别方法
更多相关文章: 重复属性识别 Web搜索 摘要 URL 查询探针
【摘要】:在建立数据仓库的过程中,需要从多个数据源导入数据。这些数据存在大量相似重复记录,严重影响了数据利用率和决策质量。因此,相似重复记录的检测已经成为数据仓库等领域的热点研究问题,而重复属性的识别是完成相似重复记录检测的关键。提出一种高效的基于Web的重复属性自动识别算法,该算法使用搜索引擎返回的摘要和URL信息计算属性相似度,并使用查询探针提高查询准确度。实验结果表明该算法有较高的查全率。
【作者单位】: 西北工业大学计算机学院;
【关键词】: 重复属性识别 Web搜索 摘要 URL 查询探针
【基金】:国家“973”重点基础发展规划基金(No.2012CB316203) 西北工业大学研究生种子基金(No.Z2013125,No.Z2013126)
【分类号】:TP311.13
【正文快照】: 1引言在数据仓库、电子出版、数字图书馆等应用中,需要集成来自多个信息源的数据[1]。同一个实体在不同信息源中用不完全相同的记录来表示,由于它们在格式、拼写上的差异,导致数据集成时不能被正确识别[2]。例如,在数字图书馆中,两篇文章记录在信息集成时除了会议属性列其他属
【参考文献】
中国期刊全文数据库 前4条
1 齐保元;曹存根;郑宇飞;岳金朋;;领域知识文档的语义检索方法研究[J];计算机工程与应用;2012年03期
2 杨先娣;彭智勇;刘君强;李旭辉;;信息集成研究综述[J];计算机科学;2006年07期
3 张玉芳;张泓博;熊忠阳;;语义相似度计算在语义标注中的应用[J];计算机工程与应用;2013年04期
4 郭志懋,周傲英;数据质量和数据清洗研究综述[J];软件学报;2002年11期
【共引文献】
中国期刊全文数据库 前10条
1 王恩德;刘畅;;面向对象技术在构建数据仓库中的应用研究[J];吉林大学学报(信息科学版);2007年05期
2 孙铁民;于杰;尚程;田大新;张丽华;;基于无监督学习的数据清洗算法[J];吉林大学学报(信息科学版);2008年06期
3 齐波;王成良;;现代汉语短语的机器识别[J];重庆工学院学报(自然科学版);2007年12期
4 周宏广,周继承,刘长生;基于策略模式的缺损数据处理方法[J];长沙航空职业技术学院学报;2004年02期
5 占飞;刘挺;;面向英文辅助写作的词语相似度应用研究[J];智能计算机与应用;2011年03期
6 李志辉;;ETL实施的数据质量问题研究[J];电脑知识与技术;2006年26期
7 高轶;;以课程知识点为基础的专家网络考试系统设计[J];电脑知识与技术;2011年05期
8 邓莎莎;梁建利;;基于互联网的异构数据源集成的研究与实现[J];上海电力学院学报;2005年04期
9 张静;;共享数据库平台在校务管理系统中的规划与实施[J];福建电脑;2008年07期
10 张勤慧;吴东洋;徐波;;EAI技术在数字化校园建设中的应用研究[J];福建电脑;2011年12期
中国重要会议论文全文数据库 前10条
1 刘琛玺;彭传薇;;提高医疗指标效能是新形势下医院管理的迫切需要[A];中国医院协会病案管理专业委员会第十七届学术会议论文集[C];2008年
2 高斯;徐德华;;保险业CRM平台ETL应用研究[A];第十届中国不确定系统年会、第十四届中国青年信息与管理学者大会论文集[C];2012年
3 章成志;周冬敏;苏新宁;;自动标引通用评价模型研究[A];2007年中国索引学会年会暨学术研讨会论文集[C];2007年
4 蒋勇青;杨奕虹;杨贺;;论数据清洗对信息检索质量的影响及清洗方法[A];2011年中国索引学会年会暨成立二十周年庆典论文集[C];2011年
5 陈X;李心科;;基于可扩展数据清理框架的元数据的研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
6 高建忠;;汉语动宾搭配的自动识别研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
7 鲁松;白硕;;词距离的计算方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
8 罗智勇;宋柔;;相似词及其在计算机辅助校对系统中的应用[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 李晓荣;张伟斌;施伯乐;;一类数据实例质量的量化研究[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
中国博士学位论文全文数据库 前10条
1 刘杰;面向数据集成的数据清理关键技术研究[D];中国科学技术大学;2010年
2 高遐;“军民结合”战略实施的制度环境与组织变革研究[D];电子科技大学;2011年
3 黄莉;基于语义关联的重复数据清理技术研究[D];华中科技大学;2011年
4 张崇明;无线传感器网络中的数据异常检测和数据质量问题研究[D];复旦大学;2010年
5 张杨;语义Web服务组合的可信性度量研究[D];重庆大学;2011年
6 郭鸿志;多源语义知识库融合方法研究[D];哈尔滨工业大学;2011年
7 朱倩;面向自由文本的细粒度关系抽取的关键技术研究[D];江苏大学;2011年
8 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
9 刘勇国;基于数据挖掘的网络入侵检测研究[D];重庆大学;2003年
10 许涛;电力系统安全稳定的智能挖掘[D];华北电力大学(北京);2004年
中国硕士学位论文全文数据库 前10条
1 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
2 王君竹;工业控制数据管理系统的设计与开发[D];大连理工大学;2010年
3 高龙;天津港数据集成平台关键技术应用研究[D];大连海事大学;2010年
4 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
5 刘金盼;新闻语料库中基于概念网络的词语相关度计算[D];华东师范大学;2011年
6 王英翔;天津港数据集成处理平台的设计与实现[D];大连海事大学;2010年
7 牛建平;基于数据仓库和数据挖掘技术的油田生产决策分析研究[D];电子科技大学;2010年
8 章芝青;基于语义的单文档自动摘要研究[D];浙江大学;2010年
9 赵俊;ETL在数据中心中的设计与实现[D];东华大学;2011年
10 丁方波;自然语言理解中副词修饰作用的研究及其在产品设计领域的应用[D];西安电子科技大学;2011年
【二级参考文献】
中国期刊全文数据库 前8条
1 俞荣华;田增平;周傲英;;一种检测多语言文本相似重复记录的综合方法[J];计算机科学;2002年01期
2 熊文新;宋柔;;信息检索用户查询语句的停用词过滤[J];计算机工程;2007年06期
3 邱越峰,田增平,季文,
本文编号:1108036
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1108036.html