网络表格中的外键检测算法研究
发布时间:2021-05-09 13:57
随着信息技术的发展,网络上涌现出越来越多的表格数据。这些结构化的网络表格覆盖面广且信息量大,因而备受人们关注。作为数据库中最重要的约束之一,外键关系对数据分析与集成有着重要的意义。然而对于来自异构数据源的大量的网络表格来讲,其外键关系并未显式指定。因此,发现外键关系对于理解和利用网络表格至关重要。现有的外键关系检测算法存在一定的局限性:一方面,目前的外键关系检测工作大部分针对传统关系表,并依赖表中结构信息进行外键检测,而网络表格通常缺乏列名以及表名等模式信息,因此传统方法对网络表格并不适用。另一方面,现有的外键检测算法只能保证属性列间的语义相关性,却并未考虑由于网络表格的异构性,以及外键关系所需满足的属性参照规则而产生的大量冲突外键。针对以上问题,本文对网络表格中的外键关系检测算法做了深入研究,具体工作如下:(1)提出基于分布拟合的网络表格外键检测算法,以解决网络表格中的外键检测问题。我们首先放松外键关系应满足的规则,通过定义拟合优度来衡量两种分布间拟合程度,以便评估候选对是否为真正的外键关系;此外,我们提出多遍划分策略用于分区图构建,使得我们的算法可以更有效地检测外键关系并可以扩展到...
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
致谢
摘要
ABSTRACT
1 引言
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 网络表格的研究现状
1.2.2 外键检测的研究现状
1.3 本文完成的工作
1.4 本文的组织结构
2 网络表格外键检测的相关技术概述
2.1 外键检测相关的数据源介绍
2.1.1 传统关系型表格
2.1.2 网络关系型表格
2.2 外键检测的相关技术
2.2.1 相似度算法
2.2.2 包含依赖算法
2.2.3 分布检验算法
2.3 本章小结
3 基于分布拟合的网络表格外键检测算法
3.1 问题引入
3.2 网络表格外键检测预处理
3.2.1 网络表格
3.2.2 候选外键
3.3 基于分布拟合的外键检测算法
3.3.1 方案概述
3.3.2 分布拟合
3.3.3 外键发现
3.4 实验结果与分析
3.4.1 分区大小选取
3.4.2 算法性能评估
3.4.3 可扩展性评估
3.4.4 不同数据类型下算法的性能评估
3.5 本章小结
4 网络表格中外键关系的冲突依赖消除
4.1 问题引入
4.2 问题模型
4.2.1 问题定义
4.2.2 系统框架
4.3 外键关系的冲突依赖消除
4.3.1 层结构的构建
4.3.2 外键关系评分
4.3.3 外键关系筛选
4.4 实验结果与分析
4.4.1 实验设置
4.4.2 实验方法
4.4.3 算法性能比较
4.4.4 运行时间评估
4.5 本章小结
5 总结与展望
5.1 研究工作总结
5.2 下一步工作与展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集
【参考文献】:
期刊论文
[1]Web表格的实体列发现算法[J]. 张丽方,王宁,齐飞. 计算机工程. 2017(12)
[2]基于列重合度的网络表格一致性扩展[J]. 齐飞,王宁,张丽方,孙伟娟. 计算机科学. 2017(09)
[3]网络表格间的快照关系发现[J]. 王宁,任红伟. 计算机科学. 2015(07)
硕士论文
[1]实体一致性扩展技术研究[D]. 孙伟娟.北京交通大学 2018
[2]网络表格扩展技术研究[D]. 齐飞.北京交通大学 2017
[3]基于众包的网络表格语义恢复[D]. 刘华西.北京交通大学 2016
[4]网络表格的实体列发现与标识[D]. 任向冉.北京交通大学 2015
[5]网络表格间的关联关系发现[D]. 任红伟.北京交通大学 2015
本文编号:3177426
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
致谢
摘要
ABSTRACT
1 引言
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 网络表格的研究现状
1.2.2 外键检测的研究现状
1.3 本文完成的工作
1.4 本文的组织结构
2 网络表格外键检测的相关技术概述
2.1 外键检测相关的数据源介绍
2.1.1 传统关系型表格
2.1.2 网络关系型表格
2.2 外键检测的相关技术
2.2.1 相似度算法
2.2.2 包含依赖算法
2.2.3 分布检验算法
2.3 本章小结
3 基于分布拟合的网络表格外键检测算法
3.1 问题引入
3.2 网络表格外键检测预处理
3.2.1 网络表格
3.2.2 候选外键
3.3 基于分布拟合的外键检测算法
3.3.1 方案概述
3.3.2 分布拟合
3.3.3 外键发现
3.4 实验结果与分析
3.4.1 分区大小选取
3.4.2 算法性能评估
3.4.3 可扩展性评估
3.4.4 不同数据类型下算法的性能评估
3.5 本章小结
4 网络表格中外键关系的冲突依赖消除
4.1 问题引入
4.2 问题模型
4.2.1 问题定义
4.2.2 系统框架
4.3 外键关系的冲突依赖消除
4.3.1 层结构的构建
4.3.2 外键关系评分
4.3.3 外键关系筛选
4.4 实验结果与分析
4.4.1 实验设置
4.4.2 实验方法
4.4.3 算法性能比较
4.4.4 运行时间评估
4.5 本章小结
5 总结与展望
5.1 研究工作总结
5.2 下一步工作与展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集
【参考文献】:
期刊论文
[1]Web表格的实体列发现算法[J]. 张丽方,王宁,齐飞. 计算机工程. 2017(12)
[2]基于列重合度的网络表格一致性扩展[J]. 齐飞,王宁,张丽方,孙伟娟. 计算机科学. 2017(09)
[3]网络表格间的快照关系发现[J]. 王宁,任红伟. 计算机科学. 2015(07)
硕士论文
[1]实体一致性扩展技术研究[D]. 孙伟娟.北京交通大学 2018
[2]网络表格扩展技术研究[D]. 齐飞.北京交通大学 2017
[3]基于众包的网络表格语义恢复[D]. 刘华西.北京交通大学 2016
[4]网络表格的实体列发现与标识[D]. 任向冉.北京交通大学 2015
[5]网络表格间的关联关系发现[D]. 任红伟.北京交通大学 2015
本文编号:3177426
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3177426.html