基于正规化回归模型的医疗诊断数据挖掘应用研究
发布时间:2021-08-24 14:16
数据挖掘方法是一种有效的信息抽取和发现方法,这种方法是把数据从医院的数据库系统中提取出来,然后对提取出的数据进行分析评估,找到数据中隐藏的价值,为医疗诊断提供科学依据。对于数据挖掘算法中的随机森林算法(Random Forest,RF)具有可以处理非线性、高维度数据集的优点,因此在很多的领域中得到了广泛的应用。然而,RF算法存在着两个问题:第一,对该算法提出的改进方法都没有得到理论证明从而不能用于实际应用中;第二,对RF算法效率提升的改进仍然有很多不足之处。根据上述存在问题本文分别做出相应分析,提出了一种基于最优抽样倍数和不放回抽样的随机森林算法(Optimal Sampling Times and No Release Random Forest Algorithm,OSNR-RF),对提出的优化算法的合理性进行实验验证。论文主要内容如下:首先,介绍数据挖掘的基本理论知识,说明数据预处理是数据挖掘工作中必不可少的一步,并且详细介绍数据预处理方法中的特征选择算法。同时介绍正规化回归模型以及该模型中的岭回归(Ridge Regression,RR)模型,正规化回归模型具有预测准确率高、模...
【文章来源】:兰州交通大学甘肃省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
特征子集选择流程图
(0) 0i i ,表明ix有着非常显著的作用,然而定的值为负而且,根据古典回归的原理认为ix对 y 的分析的原理认为ix对 y 的显著因素为“负”影响。我们可以看出1 ( k)和2 ( k)都表现出很不稳定的现此种情况主要是因为1x和2x相关性很大,也就是说从变量选择的角度看,我们需要对变量二选一,这号不符合常理的情况。从实际情况出发,1 和2 R 分析给出了相应的解释。,我们需要把所有的回归系数都反映在一张图上才到岭回归分析中去,要是呈现的岭迹图很不稳定,估计能否在岭回归估计中表现良好。图 3.1(e)显此时的最小二乘估计是合理的并且是可行的。如果以通过选择最优的 k 值来进行确定。
值的选择用的岭参数的岭迹分析方法估计的回归系数回归系数的符号不合理的的岭回归系数具有平方和没有发生太大的改变明如图 3.2 可知都趋向于稳定值兰州交通大学工程硕士学位论文参数 k 值选择方法[38]。的岭迹分析方法,选取k值的一般原则是:的回归系数基本稳定;符号不合理的,在用最小二乘估计时其岭估回归系数具有现实意义;平方和没有发生太大的改变;可知,k值的选择取0k处,由图中我们可以都趋向于稳定值,此时取0k k。其岭估由图中我们可以
【参考文献】:
期刊论文
[1]基于随机森林的PM2.5实时预报系统[J]. 侯俊雄,李琦,朱亚杰,冯逍,毛曦. 测绘科学. 2017(01)
[2]主成分回归和岭回归在新疆农业经济的应用[J]. 开璇,张莉莉. 辽宁农业职业技术学院学报. 2017(01)
[3]基于小波变换和随机森林的森林类型分类研究[J]. 吕杰,汪康宁,李崇贵,马婷. 西北林学院学报. 2016(06)
[4]基于随机森林分类模型的DDoS攻击检测方法[J]. 于鹏程,戚湧,李千目. 计算机应用研究. 2017(10)
[5]基于随机森林深度特征选择的人体姿态估计[J]. 朱珏钰,曹亚微,周书仁,李峰. 计算机工程与应用. 2017(02)
[6]大数据相关分析综述[J]. 梁吉业,冯晨娇,宋鹏. 计算机学报. 2016(01)
[7]L1正则化机器学习问题求解分析[J]. 孔康,汪群山,梁万路. 计算机工程. 2011(17)
[8]基于out-of-bag样本的随机森林算法的超参数估计[J]. 李毓,张春霞. 系统工程学报. 2011(04)
[9]特征选择算法综述[J]. 计智伟,胡珉,尹建新. 电子设计工程. 2011(09)
[10]随机森林方法研究综述[J]. 方匡南,吴见彬,朱建平,谢邦昌. 统计与信息论坛. 2011(03)
硕士论文
[1]基于甲状腺疾病的临床数据挖掘与分析研究[D]. 许腾.东华大学 2016
[2]随机森林在文本分类中的应用[D]. 贺捷.华南理工大学 2015
[3]基于排序熵的有序决策树高效算法研究[D]. 陈建凯.河北大学 2014
本文编号:3360145
【文章来源】:兰州交通大学甘肃省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
特征子集选择流程图
(0) 0i i ,表明ix有着非常显著的作用,然而定的值为负而且,根据古典回归的原理认为ix对 y 的分析的原理认为ix对 y 的显著因素为“负”影响。我们可以看出1 ( k)和2 ( k)都表现出很不稳定的现此种情况主要是因为1x和2x相关性很大,也就是说从变量选择的角度看,我们需要对变量二选一,这号不符合常理的情况。从实际情况出发,1 和2 R 分析给出了相应的解释。,我们需要把所有的回归系数都反映在一张图上才到岭回归分析中去,要是呈现的岭迹图很不稳定,估计能否在岭回归估计中表现良好。图 3.1(e)显此时的最小二乘估计是合理的并且是可行的。如果以通过选择最优的 k 值来进行确定。
值的选择用的岭参数的岭迹分析方法估计的回归系数回归系数的符号不合理的的岭回归系数具有平方和没有发生太大的改变明如图 3.2 可知都趋向于稳定值兰州交通大学工程硕士学位论文参数 k 值选择方法[38]。的岭迹分析方法,选取k值的一般原则是:的回归系数基本稳定;符号不合理的,在用最小二乘估计时其岭估回归系数具有现实意义;平方和没有发生太大的改变;可知,k值的选择取0k处,由图中我们可以都趋向于稳定值,此时取0k k。其岭估由图中我们可以
【参考文献】:
期刊论文
[1]基于随机森林的PM2.5实时预报系统[J]. 侯俊雄,李琦,朱亚杰,冯逍,毛曦. 测绘科学. 2017(01)
[2]主成分回归和岭回归在新疆农业经济的应用[J]. 开璇,张莉莉. 辽宁农业职业技术学院学报. 2017(01)
[3]基于小波变换和随机森林的森林类型分类研究[J]. 吕杰,汪康宁,李崇贵,马婷. 西北林学院学报. 2016(06)
[4]基于随机森林分类模型的DDoS攻击检测方法[J]. 于鹏程,戚湧,李千目. 计算机应用研究. 2017(10)
[5]基于随机森林深度特征选择的人体姿态估计[J]. 朱珏钰,曹亚微,周书仁,李峰. 计算机工程与应用. 2017(02)
[6]大数据相关分析综述[J]. 梁吉业,冯晨娇,宋鹏. 计算机学报. 2016(01)
[7]L1正则化机器学习问题求解分析[J]. 孔康,汪群山,梁万路. 计算机工程. 2011(17)
[8]基于out-of-bag样本的随机森林算法的超参数估计[J]. 李毓,张春霞. 系统工程学报. 2011(04)
[9]特征选择算法综述[J]. 计智伟,胡珉,尹建新. 电子设计工程. 2011(09)
[10]随机森林方法研究综述[J]. 方匡南,吴见彬,朱建平,谢邦昌. 统计与信息论坛. 2011(03)
硕士论文
[1]基于甲状腺疾病的临床数据挖掘与分析研究[D]. 许腾.东华大学 2016
[2]随机森林在文本分类中的应用[D]. 贺捷.华南理工大学 2015
[3]基于排序熵的有序决策树高效算法研究[D]. 陈建凯.河北大学 2014
本文编号:3360145
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/3360145.html