基于抽样的函数依赖发现
发布时间:2021-04-26 13:56
在关系数据库中,函数依赖发现是一种十分重要的数据库分析技术,在知识发现、数据库语义分析,数据质量评估和数据库设计有广泛的应用。在传统的集中式数据集,函数依赖发现的研究已经十分透彻。然而随着时代的发展,大数据时代的到来,数据信息的总量呈几何倍数增长,数据库的规模也随之飞速增长,以往集中式数据集由于物理设备限制等各种原因,在某些场合已经不再能满足场景需求。在这样的背景下,分布式数据库随之产生,它相比集中式数据库具有更易维护、更易扩展、容错更高的特性。但是同时分布式数据库也带了数据处理与管理更具复杂度的问题,适用于集中式数据库的知识发现也不适用于分布式数据库。而现有的对分布式数据集的函数依赖发现算法虽然能正确的在分布式数据集上进行函数依赖发现,但是主要的验证方法仍然是迁移数据之后集中发现,效率较低。因此本文的主要研究内容为分布式数据集上的并行函数依赖发现。本文从如下几个角度入手来实现高效的函数依赖发现:(1)用抽样验证的方法,对候选的函数依赖先在主节点上的抽样数据集上进行先验验证,如果该候选函数依赖在抽样数据集上即不成立,则根据定理它在分布式数据全集上也必定不成立无需验证,从而节省下原本将该...
【文章来源】:南京财经大学江苏省
【文章页数】:54 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景与意义
1.2 国内外研究和发展现状
1.3 本文的主要工作
1.4 本文结构
第二章 相关理论
2.1 函数依赖理论
2.2 现有函数依赖发现算法
2.2.1 格搜索算法
2.2.2 差异集和同意集合算法
2.2.3 函数依赖生成算法
2.2.4 混合函数依赖发现算法
2.2.5 分布式函数依赖发现算法
2.3 分布式数据库
2.4 分布式计算框架
2.5 本章小结
第三章 抽样验证框架
3.1 抽样验证理论依据
3.2 抽样验证框架
3.3 本章小结
第四章 候选函数依赖的验证
4.1 候选函数依赖的产生
k-1×Fk-1 算法生成候选函数依赖"> 4.2 Fk-1×Fk-1 算法生成候选函数依赖
k-1×Fk-1 算法介绍"> 4.2.1 Fk-1×Fk-1 算法介绍
k-1×Fk-1 生成候选函数依赖"> 4.2.2 Fk-1×Fk-1 生成候选函数依赖
4.3 候选函数依赖的本地验证
4.4 候选函数依赖的全局验证
4.4.1 全局验证并行发现
4.4.2 节点验证结果汇总
4.5 全局验证的Spark实现
4.6 本章小结
第五章 实验与结果分析
5.1 实验设置
5.1.1 实验平台
5.1.2 实验数据
5.2 实验结果与分析
5.2.1 抽样框架剪枝效率
5.2.2 行扩展性
5.2.3 数据倾斜情况
5.2.4 节点扩展性
5.3 本章小结
第六章 总结与展望
6.1 本论文总结
6.2 研究展望
参考文献
致谢
【参考文献】:
期刊论文
[1]分布式数据库中数据交换的实现[J]. 马东波. 产业与科技论坛. 2019(04)
[2]大数据下的分布式数据库HBase[J]. 卓铁农. 计算机产品与流通. 2019(02)
[3]基于依赖的数据一致性研究进展[J]. 余敏,赵晓南,许志. 计算机应用. 2018(S2)
[4]分布式数据库中一致性与可用性的关系[J]. 朱涛,郭进伟,周欢,周烜,周傲英. 软件学报. 2018(01)
[5]重新认识“数据驱动”及因果关系——知识发现图谱中的数据挖掘研究[J]. 舒晓灵,陈晶晶. 中国社会科学评价. 2017(03)
[6]概率数据库中近似函数依赖挖掘算法[J]. 苗东菁,刘显敏,李建中. 计算机研究与发展. 2015(12)
[7]分布式大数据函数依赖发现[J]. 李卫榜,李战怀,陈群,姜涛,刘海龙,潘巍. 计算机研究与发展. 2015(02)
[8]数据库理论教学中关联规则与函数依赖之间联系的探讨[J]. 朱玉全,周李威,陈耿. 计算机应用研究. 2014(07)
[9]大数据技术研究综述[J]. 刘智慧,张泉灵. 浙江大学学报(工学版). 2014(06)
[10]大数据的一个重要方面:数据可用性[J]. 李建中,刘显敏. 计算机研究与发展. 2013(06)
博士论文
[1]基于Hadoop的大规模语义Web本体数据查询与推理关键技术研究[D]. 李韧.重庆大学 2013
[2]分布式环境中信息挖掘与隐私保护相关技术研究[D]. 贾哲.北京邮电大学 2012
硕士论文
[1]基于Hadoop的海量影像数据管理关键技术研究[D]. 霍树民.国防科学技术大学 2010
[2]分布式数据库数据同步的研究与应用[D]. 张雄.华中科技大学 2006
本文编号:3161533
【文章来源】:南京财经大学江苏省
【文章页数】:54 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景与意义
1.2 国内外研究和发展现状
1.3 本文的主要工作
1.4 本文结构
第二章 相关理论
2.1 函数依赖理论
2.2 现有函数依赖发现算法
2.2.1 格搜索算法
2.2.2 差异集和同意集合算法
2.2.3 函数依赖生成算法
2.2.4 混合函数依赖发现算法
2.2.5 分布式函数依赖发现算法
2.3 分布式数据库
2.4 分布式计算框架
2.5 本章小结
第三章 抽样验证框架
3.1 抽样验证理论依据
3.2 抽样验证框架
3.3 本章小结
第四章 候选函数依赖的验证
4.1 候选函数依赖的产生
k-1×Fk-1 算法生成候选函数依赖"> 4.2 Fk-1×Fk-1 算法生成候选函数依赖
k-1×Fk-1 算法介绍"> 4.2.1 Fk-1×Fk-1 算法介绍
k-1×Fk-1 生成候选函数依赖"> 4.2.2 Fk-1×Fk-1 生成候选函数依赖
4.3 候选函数依赖的本地验证
4.4 候选函数依赖的全局验证
4.4.1 全局验证并行发现
4.4.2 节点验证结果汇总
4.5 全局验证的Spark实现
4.6 本章小结
第五章 实验与结果分析
5.1 实验设置
5.1.1 实验平台
5.1.2 实验数据
5.2 实验结果与分析
5.2.1 抽样框架剪枝效率
5.2.2 行扩展性
5.2.3 数据倾斜情况
5.2.4 节点扩展性
5.3 本章小结
第六章 总结与展望
6.1 本论文总结
6.2 研究展望
参考文献
致谢
【参考文献】:
期刊论文
[1]分布式数据库中数据交换的实现[J]. 马东波. 产业与科技论坛. 2019(04)
[2]大数据下的分布式数据库HBase[J]. 卓铁农. 计算机产品与流通. 2019(02)
[3]基于依赖的数据一致性研究进展[J]. 余敏,赵晓南,许志. 计算机应用. 2018(S2)
[4]分布式数据库中一致性与可用性的关系[J]. 朱涛,郭进伟,周欢,周烜,周傲英. 软件学报. 2018(01)
[5]重新认识“数据驱动”及因果关系——知识发现图谱中的数据挖掘研究[J]. 舒晓灵,陈晶晶. 中国社会科学评价. 2017(03)
[6]概率数据库中近似函数依赖挖掘算法[J]. 苗东菁,刘显敏,李建中. 计算机研究与发展. 2015(12)
[7]分布式大数据函数依赖发现[J]. 李卫榜,李战怀,陈群,姜涛,刘海龙,潘巍. 计算机研究与发展. 2015(02)
[8]数据库理论教学中关联规则与函数依赖之间联系的探讨[J]. 朱玉全,周李威,陈耿. 计算机应用研究. 2014(07)
[9]大数据技术研究综述[J]. 刘智慧,张泉灵. 浙江大学学报(工学版). 2014(06)
[10]大数据的一个重要方面:数据可用性[J]. 李建中,刘显敏. 计算机研究与发展. 2013(06)
博士论文
[1]基于Hadoop的大规模语义Web本体数据查询与推理关键技术研究[D]. 李韧.重庆大学 2013
[2]分布式环境中信息挖掘与隐私保护相关技术研究[D]. 贾哲.北京邮电大学 2012
硕士论文
[1]基于Hadoop的海量影像数据管理关键技术研究[D]. 霍树民.国防科学技术大学 2010
[2]分布式数据库数据同步的研究与应用[D]. 张雄.华中科技大学 2006
本文编号:3161533
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3161533.html