基于最优化方法的真值发现算法研究
发布时间:2021-12-09 17:21
随着信息技术的飞速发展,各行各业已迎来大数据时代。分析大量数据的一大挑战是数据的准确性。数据,甚至描述同一个对象或事件,都可以来自多种数据源,如众包平台上的工人和社交媒体用户。然而,噪声数据是不可避免的。面对令人望而生畏的数据规模,利用人工“贴标签”或标注哪个数据源更可靠是不现实的。因此,从多个噪声数据源中识别出正确可用的信息,即真值发现的任务是十分必要的。目前,面向多源数据的真值发现技术主要面临两方面的挑战:在结构层面,基于多源数据的真值发现需考虑数据组成的不同特点和应用场景,精细定义不同场合下的真值发现问题。在算法层面,基于多源数据的真值发现需考虑不同层面的信息冲突,设计高效的算法,利用多种线索挖掘更有价值的信息。现有的真值发现方法在结构层面和算法层面都存在缺陷,不能很好的解决多源数据真值发现相关问题。本文综合运用数据清洗、数据挖掘、自然语言处理的相关理论、技术和方法,对于多源数据真值发现进行了系统研究。本文主要面向三种数据模型:第一种为多源同构数据,其具有明确的实体-属性-数据源的对应结构;第二种为多源异构数据,其不同数据源描述的实体和属性信息可能以不同形式存在;第三种为文本数据...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:144 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景
1.2 研究现状及分析
1.2.1 多源同构数据真值发现分析
1.2.2 多源异构数据真值发现分析
1.2.3 文本数据真值发现分析
1.2.4 现有工作的不足
1.3 本文的主要研究内容
1.4 本文章节安排
第2章 基于函数依赖的多源同构数据真值发现
2.1 引言
2.2 问题定义
2.3 Auto Repair算法
2.3.1 框架
2.3.2 处理独立约束集
2.3.3 处理关联约束集
2.3.4 源间数据聚合
2.3.5 更新源可靠分数
2.3.6 算法性能分析
2.4 实验结果
2.4.1 实验设置
2.4.2 算法在合成数据集上的实验
2.4.3 算法在真实数据集上的实验
2.4.4 实验小结
2.5 本章小结
第3章 基于否定约束的多源同构数据真值发现
3.1 引言
3.2 问题定义
3.3 CTD算法
3.3.1 否定依赖转换
3.3.2 解决方案
3.3.3 算法性能分析
3.3.4 算法改进策略
3.4 实验结果
3.4.1 实验设置
3.4.2 算法有效性评估
3.4.3 算法效率评估
3.5 本章小结
第4章 基于模式发现的多源异构数据真值发现
4.1 引言
4.2 问题定义
4.3 Pattern Finder算法
4.3.1 框架概览
4.3.2 优化目标
4.3.3 迭代过程
4.3.4 算法性能分析
4.3.5 优化分组策略
4.3.6 模式和真值生成
4.4 实验结果
4.4.1 实验设置
4.4.2 算法在合成数据集上的实验
4.4.3 算法在真实数据集上的实验
4.5 本章小结
第5章 基于模式评估的多源文本数据真值发现
5.1 引言
5.2 预备知识
5.2.1 预处理
5.2.2 问题定义
5.3 CNN-LSTM模型
5.3.1 元组编码
5.3.2 模式编码
5.3.3 训练和推理
5.4 实验结果
5.4.1 实验设置
5.4.2 模型有效性评估
5.4.3 模型效率评估
5.5 本章小结
结论
参考文献
攻读博士学位期间发表的论文及其他成果
致谢
个人简历
【参考文献】:
期刊论文
[1]A Survey on Deep Learning-based Fine-grained Object Classification and Semantic Segmentation[J]. Bo Zhao,Jiashi Feng,Xiao Wu,Shuicheng Yan. International Journal of Automation and Computing. 2017(02)
本文编号:3531004
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:144 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景
1.2 研究现状及分析
1.2.1 多源同构数据真值发现分析
1.2.2 多源异构数据真值发现分析
1.2.3 文本数据真值发现分析
1.2.4 现有工作的不足
1.3 本文的主要研究内容
1.4 本文章节安排
第2章 基于函数依赖的多源同构数据真值发现
2.1 引言
2.2 问题定义
2.3 Auto Repair算法
2.3.1 框架
2.3.2 处理独立约束集
2.3.3 处理关联约束集
2.3.4 源间数据聚合
2.3.5 更新源可靠分数
2.3.6 算法性能分析
2.4 实验结果
2.4.1 实验设置
2.4.2 算法在合成数据集上的实验
2.4.3 算法在真实数据集上的实验
2.4.4 实验小结
2.5 本章小结
第3章 基于否定约束的多源同构数据真值发现
3.1 引言
3.2 问题定义
3.3 CTD算法
3.3.1 否定依赖转换
3.3.2 解决方案
3.3.3 算法性能分析
3.3.4 算法改进策略
3.4 实验结果
3.4.1 实验设置
3.4.2 算法有效性评估
3.4.3 算法效率评估
3.5 本章小结
第4章 基于模式发现的多源异构数据真值发现
4.1 引言
4.2 问题定义
4.3 Pattern Finder算法
4.3.1 框架概览
4.3.2 优化目标
4.3.3 迭代过程
4.3.4 算法性能分析
4.3.5 优化分组策略
4.3.6 模式和真值生成
4.4 实验结果
4.4.1 实验设置
4.4.2 算法在合成数据集上的实验
4.4.3 算法在真实数据集上的实验
4.5 本章小结
第5章 基于模式评估的多源文本数据真值发现
5.1 引言
5.2 预备知识
5.2.1 预处理
5.2.2 问题定义
5.3 CNN-LSTM模型
5.3.1 元组编码
5.3.2 模式编码
5.3.3 训练和推理
5.4 实验结果
5.4.1 实验设置
5.4.2 模型有效性评估
5.4.3 模型效率评估
5.5 本章小结
结论
参考文献
攻读博士学位期间发表的论文及其他成果
致谢
个人简历
【参考文献】:
期刊论文
[1]A Survey on Deep Learning-based Fine-grained Object Classification and Semantic Segmentation[J]. Bo Zhao,Jiashi Feng,Xiao Wu,Shuicheng Yan. International Journal of Automation and Computing. 2017(02)
本文编号:3531004
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3531004.html
最近更新
教材专著