聚类式最小角回归与聚类式坐标下降仿真及实例分析
发布时间:2017-08-20 00:20
本文关键词:聚类式最小角回归与聚类式坐标下降仿真及实例分析
更多相关文章: 聚类式最小角回归 聚类式坐标下降 模型选择 高斯混合模型
【摘要】:随着人工智能的兴起,机器学习作为人工智能的核心被更多的人熟知。机器学习本质上分为有监督学习问题和无监督学习问题。有监督学习问题中,数据本身具备类别标签,学习问题的目标是完成分类或回归。有监督学习过程中,变量的输入和输出是能够被充分观察到的。而无监督学习问题中,数据本身没有类别标签,学习问题的目标是完成聚类。无监督学习过程中,聚类结果可以不代表明确类别含义。而模型选择作为机器学习中的重要一环,是帮助分析数据有效性、探求变量间相关关系以及试洽实际案例的有力工具。传统的模型选择方法往往假定了源数据是独立同分布的,这使得目前模型选择问题的研究,主要针对有限维特征的情况。可是,大规模数据的案例中,源数据来自不同的数据生成过程,已经是不争的公判。这使得数据异质性问题成为模型选择乃至机器学习中不可忽视的问题。在许多实际问题中,数据异质性具体体现为:(1)数据明确属于不同的来源(如本文4.3.1小节中的花卉数据),但可能我们不知道具体的分类。(2)我们明确知晓存在不同的分类(例如本文4.3.2中300个城市的各项指标),但不同城市之间又存在特征(城市大小,发展程度等)的相似性,因此实际中不可能分成300个类别去处理数据。此时,将源数据划分为多少个类别才合适,就变成一个重要的问题。为了解决数据异质性对模型选择带来的糟糕影响,本文提出一类聚类式算法解决这一问题:用分层模型实现对源数据的聚类,在每一层内部独立完成有监督学习,并计算每一种聚类结果对应的学习过程的BIC分数,选择BIC得分最小的那一层做为数据生成过程的个数。聚类式算法,本质上对有监督学习问题求解算法的改进。传统模型选择对于源数据独立同分布的假设,可以看做,将源数据的数据生成过程个数假设为n=1。聚类式算法,将数据生成过程的个数n推广到任意正整数。而数据生成过程的数量,由算法外层的聚类分析完成。基于上述想法,再考虑到高斯分布的广泛性、Lasso回归的优良特征,本文重点研究了聚类式最小角回归与聚类式坐标下降两个算法,通过Python随机数据对新算法进行了仿真模拟,通过Matlab数据集对新算法进行了实例分析。从仿真结果发现,两个聚类式算法的仿真模拟结果一致,并且明显比原估计稳定。从实例分析结果看,聚类式算法的BIC分数较为理想,说明预测结果较好。
【关键词】:聚类式最小角回归 聚类式坐标下降 模型选择 高斯混合模型
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP181;F224
【目录】:
- 中文摘要8-10
- 英文摘要10-12
- 第一章 引言12-16
- §1.1 研究背景及意义12-13
- §1.2 模型选择问题13-14
- §1.3 论文的结构14-16
- 第二章 规范化与模型选择16-26
- §2.1 偏倚与误差的两难选择16-17
- §2.2 AIC、BIC准则与Lasso17-19
- §2.3 交叉验证19-22
- §2.4 特征选择22-24
- §2.5 贝叶斯统计与规范化24-26
- 第三章 聚类分析算法26-36
- §3.1 聚类分析简介26-28
- §3.2 K均值方法28-30
- §3.3 高斯混合模型30-33
- §3.4 因子分析法33-34
- §3.5 最大熵解释34-36
- 第四章 聚类式算法的提出与实现36-55
- §4.1 聚类式最小角回归36-43
- §4.1.1 算法改进36-40
- §4.1.2 仿真模拟40-43
- §4.2 聚类式坐标下降43-49
- §4.2.1 算法改进43-46
- §4.2.2 仿真模拟46-49
- §4.3 实例分析49-55
- §4.3.1 花萼长度预测49-54
- §4.3.2 300 城市人口健康预测54-55
- 第五章 总结与展望55-57
- 参考文献57-60
- 致谢60-61
- 学位论文评阅及答辩情况表61
【相似文献】
中国硕士学位论文全文数据库 前2条
1 耿书敏;聚类式最小角回归与聚类式坐标下降仿真及实例分析[D];山东大学;2016年
2 周蓓;Johansen协整检验中DGP误设的研究与应用[D];华中科技大学;2008年
,本文编号:703717
本文链接:https://www.wllwen.com/jingjilunwen/hongguanjingjilunwen/703717.html