基于划分与压缩的加速学习算法研究
发布时间:2021-03-26 04:17
现实世界中运转的许多复杂系统如基因表达、风险评估、经济预测等都可以抽象为特定的预测问题,而这些预测问题的高效解决将对社会的生产生活产生重大意义.机器学习作为一种解决这些复杂预测问题的重要方法,它能够通过从经验中不断学习来提高其自身的学习与预测能力.现阶段,随着信息技术的迅猛发展与各领域大数据的爆发,很多实际应用中的数据规模都呈现出爆炸式增长.数据的大规模性使得已有机器学习方法在解决预测问题时面临巨大挑战.因此,研究高效的机器学习算法具有重要实际应用价值和理论意义.有监督学习是机器学习中应用最为丰富、内容最广泛的部分,如何高效地在大规模数据上训练泛化性能强的学习器是机器学习研究领域面临的关键问题之一.为此,本文以数据划分与数据压缩为研究基础,针对面向海量数据如何提升学习算法的执行效率问题开展了系统研究.主要研究成果如下:(1)针对支持向量机面对大规模数据训练效率较低的问题,借鉴于分而治之的思想,提出了一个基于局部几何信息的高效支持向量机算法.对于给定的大规模数据集,基于支持向量机算法中决策函数由少数支持向量确定的特点,利用线性投影来探究当前数据中的分类决策边界,并深入分析了如何对数据进行...
【文章来源】:山西大学山西省
【文章页数】:126 页
【学位级别】:博士
【文章目录】:
中文摘要
英文摘要
第一章 绪论
1.1 选题背景和研究意义
1.2 国内外研究现状
1.2.1 基于数据划分的加速学习算法
1.2.2 基于数据压缩的加速学习算法
1.3 本文的研究内容和组织框架
第二章 基于局部信息的SVM加速算法
2.1 问题描述
2.2 相关概念
2.3 基于局部信息的SVM加速算法
2.3.1 基于线性投影的数据划分
2.3.2 相关参数值的确定
2.3.3 时间复杂度分析
2.4 实验分析
2.5 本章小结
第三章 基于K-means聚类的k-近邻分类加速算法
3.1 问题描述
3.2 相关概念
3.3 基于数据划分k-近邻分类加速算法的机理分析
3.3.1 问题的转化
3.3.2 数据划分影响的估计
3.4 基于K-means聚类的k-近邻分类加速算法
3.5 实验分析
3.6 本章小结
第四章 基于分层抽样的k-近邻分类加速算法
4.1 问题描述
4.2 基于分层抽样的k-近邻分类加速算法
4.2.1 训练集的分层
4.2.2 样本集的获取
4.2.3 待识别实例的预测
4.3 实验分析
4.4 本章小结
第五章 基于实例选择的k-近邻回归加速算法
5.1 问题描述
5.2 相关概念
5.3 递减的实例选择算法
5.3.1 识别并移除异常实例
5.3.2 识别并移除冗余实例
5.3.3 相关参数值的确定
5.4 实验分析
5.5 本章小结
第六章 基于按需抽样的Logistic回归加速算法
6.1 问题描述
6.2 相关概念
6.3 基于按需抽样的Logistic回归加速算法
6.3.1 样本量自适应确定的按需抽样
6.3.2 按需抽样有效性的理论性分析
6.4 实验分析
6.5 本章小结
第七章 结论与展望
参考文献
攻读博士学位期间取得的研究成果
致谢
个人简况及联系方式
【参考文献】:
期刊论文
[1]大数据挖掘的粒计算理论与方法[J]. 梁吉业,钱宇华,李德玉,胡清华. 中国科学:信息科学. 2015(11)
[2]基于分歧的半监督学习[J]. 周志华. 自动化学报. 2013(11)
[3]重采样方法与机器学习[J]. 毕华,梁洪力,王珏. 计算机学报. 2009(05)
[4]基于加权模糊c均值聚类的快速图像自动分割算法[J]. 杨润玲,高新波. 中国图象图形学报. 2007(12)
[5]学习特征权值对K-均值聚类算法的优化[J]. 王熙照,王亚东,湛燕,袁方. 计算机研究与发展. 2003(06)
[6]一种基于B样条曲面的深度图像重抽样方法[J]. 李松涛,张长水,荣钢,边肇祺,Zhao Dong ming. 计算机学报. 2000(11)
本文编号:3100932
【文章来源】:山西大学山西省
【文章页数】:126 页
【学位级别】:博士
【文章目录】:
中文摘要
英文摘要
第一章 绪论
1.1 选题背景和研究意义
1.2 国内外研究现状
1.2.1 基于数据划分的加速学习算法
1.2.2 基于数据压缩的加速学习算法
1.3 本文的研究内容和组织框架
第二章 基于局部信息的SVM加速算法
2.1 问题描述
2.2 相关概念
2.3 基于局部信息的SVM加速算法
2.3.1 基于线性投影的数据划分
2.3.2 相关参数值的确定
2.3.3 时间复杂度分析
2.4 实验分析
2.5 本章小结
第三章 基于K-means聚类的k-近邻分类加速算法
3.1 问题描述
3.2 相关概念
3.3 基于数据划分k-近邻分类加速算法的机理分析
3.3.1 问题的转化
3.3.2 数据划分影响的估计
3.4 基于K-means聚类的k-近邻分类加速算法
3.5 实验分析
3.6 本章小结
第四章 基于分层抽样的k-近邻分类加速算法
4.1 问题描述
4.2 基于分层抽样的k-近邻分类加速算法
4.2.1 训练集的分层
4.2.2 样本集的获取
4.2.3 待识别实例的预测
4.3 实验分析
4.4 本章小结
第五章 基于实例选择的k-近邻回归加速算法
5.1 问题描述
5.2 相关概念
5.3 递减的实例选择算法
5.3.1 识别并移除异常实例
5.3.2 识别并移除冗余实例
5.3.3 相关参数值的确定
5.4 实验分析
5.5 本章小结
第六章 基于按需抽样的Logistic回归加速算法
6.1 问题描述
6.2 相关概念
6.3 基于按需抽样的Logistic回归加速算法
6.3.1 样本量自适应确定的按需抽样
6.3.2 按需抽样有效性的理论性分析
6.4 实验分析
6.5 本章小结
第七章 结论与展望
参考文献
攻读博士学位期间取得的研究成果
致谢
个人简况及联系方式
【参考文献】:
期刊论文
[1]大数据挖掘的粒计算理论与方法[J]. 梁吉业,钱宇华,李德玉,胡清华. 中国科学:信息科学. 2015(11)
[2]基于分歧的半监督学习[J]. 周志华. 自动化学报. 2013(11)
[3]重采样方法与机器学习[J]. 毕华,梁洪力,王珏. 计算机学报. 2009(05)
[4]基于加权模糊c均值聚类的快速图像自动分割算法[J]. 杨润玲,高新波. 中国图象图形学报. 2007(12)
[5]学习特征权值对K-均值聚类算法的优化[J]. 王熙照,王亚东,湛燕,袁方. 计算机研究与发展. 2003(06)
[6]一种基于B样条曲面的深度图像重抽样方法[J]. 李松涛,张长水,荣钢,边肇祺,Zhao Dong ming. 计算机学报. 2000(11)
本文编号:3100932
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3100932.html