大数据相关关系挖掘的若干关键问题研究
发布时间:2020-12-11 10:35
随着信息系统计算能力和存储能力的提升,大数据正源源不断地产生,各行各业收集了琳琅满目的大数据,这些数据中蕴藏着巨大的价值,已经引起全球各界的广泛关注。我国疆域辽阔、人口众多,无时无刻不在产生巨量的数据,这些数据已经成为我国重要的战略资源。大数据往往具有极高的维度和海量的数据,这为大数据分析带来了巨大的机遇与挑战。一方面,海量的数据为大数据分析方法提供全体数据,而不仅仅是数据样本,这能显著提高概率估计算法的精度。另一方面,极高的维度使得传统的机器学习与数据挖掘算法变得不可用,加剧了维数灾难问题,使得因果关系分析变得十分困难。由于相关关系分析具有可解释性强、效率高等优势,受到了越来越多的关注。本文以大数据相关关系挖掘为研究课题,重点研究了目标变量与特征和交互作用之间的相关关系。在机器学习与数据挖掘领域,特征选择被广泛应用于分析特征与目标之间的相关关系,该方法能够得到与目标变量相关的关键特征。因此,本文提出使用特征选择方法分析特征和交互作用与目标变量之间的相关关系,重点研究了大数据相关关系挖掘中的四个关键问题:因子交互作用挖掘问题;因子排序和显著性分析问题;大数据相关关系挖掘方法的效率问题;...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:112 页
【学位级别】:博士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究背景
1.2 研究意义
1.2.1 大数据降维
1.2.2 相关关系挖掘
1.2.3 交互作用挖掘
1.2.4 文本分类特征选择
1.3 研究现状
1.3.1 相关关系分析
1.3.2 特征选择与维数约简
1.3.3 试验设计
1.3.4 量子机器学习
1.4 主要内容与创新
1.5 本文的组织结构
第二章 面向因子交互作用挖掘的信息论特征选择方法
2.1 引言
2.2 信息论背景知识
2.2.1 互信息
2.2.2 交互作用信息
2.3 特征选择算法框架
2.3.1 基于交互作用的特征选择框架
2.3.2 特征选择框架与现有方法之间的联系
2.4 基于信息论的特征选择方法
2.4.1 交互作用信息最大化算法
2.4.2 联合互信息最大化算法
2.5 实验分析
2.5.1 总体性能对比
2.5.2 特征选择性能随特征数量的变化
2.5.3 运行时间对比
2.6 本章小结
第三章 面向因子排序和显著性分析的试验设计特征选择方法
3.1 引言
3.2 试验设计背景知识
3.2.1 试验设计
3.2.2 析因设计
3.2.3 部分析因设计
3.2.4 Taguchi方法
3.3 基于试验设计的特征选择方法
3.3.1 基于析因设计的特征选择方法
3.3.2 基于析因设计的大数据相关关系挖掘算法
3.3.3 基于部分析因设计的特征选择方法
3.3.4 基于Taguchi方法的自动调参方法
3.3.5 多分类问题的解决方案
3.4 实验分析
3.4.1 IMFS的实验结果
3.4.2 IMFS-FDFS的实验结果
3.4.3 交互作用的效果
3.4.4 PM2.5数据上的应用
3.5 本章小结
第四章 面向大数据相关关系挖掘效率的量子加速算法
4.1 引言
4.2 量子计算
4.2.1 量子态与量子门
4.2.2 量子相位估计算法
4.2.3 量子搜索算法
4.2.4 量子计数算法
4.3 量子计算加速过滤式特征选择算法
4.3.1 信息测度
4.3.2 特征选择
4.3.3 量子计算加速概率分布估计
4.3.4 量子算法加速计算最大值
4.3.5 量子搜索算法加速求解变量的值域
4.3.6 复杂度分析
4.4 量子计算加速嵌入式特征选择选算法
4.4.1 嵌入式特征选择算法的矩阵运算
4.4.2 量子计算加速逆矩阵运算
4.4.3 量子计算加速矩阵乘积运算
4.5 本章小结
第五章 相关关系挖掘方法在文本数据上的应用
5.1 引言
5.2 文本特征提取
5.2.1 向量空间模型
5.2.2 N元模型
5.3 文本分类特征选择方法
5.3.1 文档频率法
5.3.2 互信息法
5.3.3 信息增益法
5.3.4 卡方统计法
5.3.5 最大判别法
5.4 实验分析
5.4.1 实验配置
5.4.2 Max-Interaction算法的实验结果
5.4.3 FJMI算法的实验结果
5.5 本章小结
第六章 全文总结与展望
6.1 全文总结
6.2 后续工作展望
致谢
参考文献
攻读博士学位期间取得的成果
【参考文献】:
期刊论文
[1]量子机器学习算法综述[J]. 黄一鸣,雷航,李晓瑜. 计算机学报. 2018(01)
[2]大数据相关分析综述[J]. 梁吉业,冯晨娇,宋鹏. 计算机学报. 2016(01)
[3]大数据与量子计算[J]. 王书浩,龙桂鲁. 科学通报. 2015(Z1)
[4]大数据系统和分析技术综述[J]. 程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰. 软件学报. 2014(09)
[5]Challenges of Big Data analysis[J]. Jianqing Fan,Fang Han,Han Liu. National Science Review. 2014(02)
[6]大数据应用的现状与展望[J]. 张引,陈敏,廖小飞. 计算机研究与发展. 2013(S2)
[7]大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J]. 李国杰,程学旗. 中国科学院院刊. 2012(06)
[8]自动文本分类特征选择方法研究[J]. 张海龙,王莲芝. 计算机工程与设计. 2006(20)
本文编号:2910385
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:112 页
【学位级别】:博士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究背景
1.2 研究意义
1.2.1 大数据降维
1.2.2 相关关系挖掘
1.2.3 交互作用挖掘
1.2.4 文本分类特征选择
1.3 研究现状
1.3.1 相关关系分析
1.3.2 特征选择与维数约简
1.3.3 试验设计
1.3.4 量子机器学习
1.4 主要内容与创新
1.5 本文的组织结构
第二章 面向因子交互作用挖掘的信息论特征选择方法
2.1 引言
2.2 信息论背景知识
2.2.1 互信息
2.2.2 交互作用信息
2.3 特征选择算法框架
2.3.1 基于交互作用的特征选择框架
2.3.2 特征选择框架与现有方法之间的联系
2.4 基于信息论的特征选择方法
2.4.1 交互作用信息最大化算法
2.4.2 联合互信息最大化算法
2.5 实验分析
2.5.1 总体性能对比
2.5.2 特征选择性能随特征数量的变化
2.5.3 运行时间对比
2.6 本章小结
第三章 面向因子排序和显著性分析的试验设计特征选择方法
3.1 引言
3.2 试验设计背景知识
3.2.1 试验设计
3.2.2 析因设计
3.2.3 部分析因设计
3.2.4 Taguchi方法
3.3 基于试验设计的特征选择方法
3.3.1 基于析因设计的特征选择方法
3.3.2 基于析因设计的大数据相关关系挖掘算法
3.3.3 基于部分析因设计的特征选择方法
3.3.4 基于Taguchi方法的自动调参方法
3.3.5 多分类问题的解决方案
3.4 实验分析
3.4.1 IMFS的实验结果
3.4.2 IMFS-FDFS的实验结果
3.4.3 交互作用的效果
3.4.4 PM2.5数据上的应用
3.5 本章小结
第四章 面向大数据相关关系挖掘效率的量子加速算法
4.1 引言
4.2 量子计算
4.2.1 量子态与量子门
4.2.2 量子相位估计算法
4.2.3 量子搜索算法
4.2.4 量子计数算法
4.3 量子计算加速过滤式特征选择算法
4.3.1 信息测度
4.3.2 特征选择
4.3.3 量子计算加速概率分布估计
4.3.4 量子算法加速计算最大值
4.3.5 量子搜索算法加速求解变量的值域
4.3.6 复杂度分析
4.4 量子计算加速嵌入式特征选择选算法
4.4.1 嵌入式特征选择算法的矩阵运算
4.4.2 量子计算加速逆矩阵运算
4.4.3 量子计算加速矩阵乘积运算
4.5 本章小结
第五章 相关关系挖掘方法在文本数据上的应用
5.1 引言
5.2 文本特征提取
5.2.1 向量空间模型
5.2.2 N元模型
5.3 文本分类特征选择方法
5.3.1 文档频率法
5.3.2 互信息法
5.3.3 信息增益法
5.3.4 卡方统计法
5.3.5 最大判别法
5.4 实验分析
5.4.1 实验配置
5.4.2 Max-Interaction算法的实验结果
5.4.3 FJMI算法的实验结果
5.5 本章小结
第六章 全文总结与展望
6.1 全文总结
6.2 后续工作展望
致谢
参考文献
攻读博士学位期间取得的成果
【参考文献】:
期刊论文
[1]量子机器学习算法综述[J]. 黄一鸣,雷航,李晓瑜. 计算机学报. 2018(01)
[2]大数据相关分析综述[J]. 梁吉业,冯晨娇,宋鹏. 计算机学报. 2016(01)
[3]大数据与量子计算[J]. 王书浩,龙桂鲁. 科学通报. 2015(Z1)
[4]大数据系统和分析技术综述[J]. 程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰. 软件学报. 2014(09)
[5]Challenges of Big Data analysis[J]. Jianqing Fan,Fang Han,Han Liu. National Science Review. 2014(02)
[6]大数据应用的现状与展望[J]. 张引,陈敏,廖小飞. 计算机研究与发展. 2013(S2)
[7]大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J]. 李国杰,程学旗. 中国科学院院刊. 2012(06)
[8]自动文本分类特征选择方法研究[J]. 张海龙,王莲芝. 计算机工程与设计. 2006(20)
本文编号:2910385
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2910385.html