基于随机森林和支持向量机的糖尿病风险预测方法研究
发布时间:2021-01-14 18:43
糖尿病治疗时间长,没有立竿见影的治疗方法,并且随着病情的加重,有着严重的并发症,如视网膜功能障碍、脑梗死机率增大和冠状动脉病变等。糖尿病前期的及时发现对于控制糖尿病的发展有极其重要的意义,但是糖尿病前期的病症表现并不明显,单靠某项检测指标很难判断,若在普通体检中增加多个指标,会大大增加时间和费用上的消耗,因此可以建立一个有效的数学模型协助医生对糖尿病前期进行有效的判断,从而提高糖尿病前期的诊断率。当前很多研究表明支持向量机可以对非线性糖尿病数据进行有效的分类,使用随机森林算法可以帮助支持向量机模型从具有小边际效应和复杂相互作用的特征集合中识别出主相关特征。本文使用支持向量机对糖尿病数据进行训练得到分类模型,结合随机森林给出的特征重要度对其加以改进,得到适应性更好的预测模型。本文的主要工作如下:(1)糖尿病数据中包含多个因素,这些因素与目标函数的相关性往往是不同的。针对无关特征对预测模型产生不良影响的问题,提出一种改进的随机森林特征选择方法,该方法采用随机森林算法计算出特征的平均置换重要性并经决策树权重加权后对数据特征排序,采用包裹式评价方式和后向序列法筛选出最优特征子集。实验结果表明该...
【文章来源】:江苏大学江苏省
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
监督学习系统模型
图 2.2 结构风险最小化原理图Figure 2.2 Structural risk minimization schematic 1960 年开始关于小样本机器学习理论的探究,直至学的支持向量机理论,在已得信息有限的情况下,全正确地预测每个样本的能力中寻求最佳平衡点,法在解决小样本、非线性及高维数据识别中展现出究的一个热门。的样本集1 1 2 2 3 3{( , ),( , ),( , ),...,( , )}N NT x y x y x y x y,i x 截距b 和整数 ,使其满足以下条件,如公式(2.6)和
图 2.3 分离超平面Figure 2.3 Separating hyperplane到超平面的距离大小可以体现分类识T x b可以表示点x与超平面之间的相是一致的就可以认为分类结果是正确的引出了间隔函数的概念。 表示)如公式(2.8)所示。( ) ( )T y w x b yf x 于训练数据集T 的函数间隔为超平面之最小值,如公式(2.9)所示。1,..., min ii N 不足以体现可信度,因为按一定比例
【参考文献】:
期刊论文
[1]基于随机森林特征选择算法的鼻咽肿瘤分割[J]. 李鲜,王艳,罗勇,周激流. 计算机应用. 2019(05)
[2]基于随机森林算法和Logistic回归模型的糖尿病风险因素研究[J]. 肖辉,郝元涛,徐晓,朱晓宇. 中国数字医学. 2018(01)
[3]基于特征筛选和二级分类的极化SAR建筑提取算法[J]. 张妙然,刘畅. 中国科学院大学学报. 2018(01)
[4]基于KPCA-LSSVM的健康档案空腹血糖水平预测研究[J]. 江燕,帅仁俊,张姝,查代奉. 计算机工程与应用. 2018(13)
[5]一种改进的SVM算法在乳腺癌诊断方面的应用[J]. 吴辰文,李长生,王伟,梁靖涵,闫光辉. 计算机工程与科学. 2017(03)
[6]基于特征加权的多核支持向量机[J]. 邵朝,李强. 西安邮电大学学报. 2017(02)
[7]决策树模型在2型糖尿病患病风险预测中的应用[J]. 侯玉梅,朱亚楠,朱立春,吴颂,高秋烨. 中国卫生统计. 2016(06)
[8]基于中国农村人群的非侵袭性2型糖尿病风险预测模型的建立[J]. 张红艳,石文惠,张明,尹磊,庞超,冯天平,张璐,任永成,王炳源,杨香玉,周俊梅,韩成义,赵阳,赵景志,胡东生. 中华预防医学杂志. 2016 (05)
[9]多核SVM文本分类研究[J]. 陈海红. 软件. 2015(05)
[10]特征加权的核学习方法[J]. 胡湘萍,李彦勤. 计算机工程与应用. 2015(14)
博士论文
[1]面向医学数据的随机森林特征选择及分类方法研究[D]. 姚登举.哈尔滨工程大学 2016
[2]支持向量机关键技术及其在人体活动识别中的应用研究[D]. 姚毓凯.兰州大学 2015
硕士论文
[1]随机森林算法的优化研究及在文本并行分类上的应用[D]. 张鑫.南京邮电大学 2018
[2]随机森林自适应特征选择和参数优化算法研究[D]. 刘凯.长春工业大学 2018
[3]基于随机森林特征选择的贝叶斯分类模型及应用[D]. 鲁亚会.华北水利水电大学 2017
[4]简化多核支持向量机的研究[D]. 杜海洋.北京交通大学 2015
[5]基于Relief特征选择算法的研究与应用[D]. 李晓岚.大连理工大学 2013
[6]几种特征加权支持向量机方法的比较研究[D]. 马会敏.河北大学 2010
[7]支持向量机中Sigmoid核函数的研究[D]. 刘明.西安电子科技大学 2009
本文编号:2977340
【文章来源】:江苏大学江苏省
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
监督学习系统模型
图 2.2 结构风险最小化原理图Figure 2.2 Structural risk minimization schematic 1960 年开始关于小样本机器学习理论的探究,直至学的支持向量机理论,在已得信息有限的情况下,全正确地预测每个样本的能力中寻求最佳平衡点,法在解决小样本、非线性及高维数据识别中展现出究的一个热门。的样本集1 1 2 2 3 3{( , ),( , ),( , ),...,( , )}N NT x y x y x y x y,i x 截距b 和整数 ,使其满足以下条件,如公式(2.6)和
图 2.3 分离超平面Figure 2.3 Separating hyperplane到超平面的距离大小可以体现分类识T x b可以表示点x与超平面之间的相是一致的就可以认为分类结果是正确的引出了间隔函数的概念。 表示)如公式(2.8)所示。( ) ( )T y w x b yf x 于训练数据集T 的函数间隔为超平面之最小值,如公式(2.9)所示。1,..., min ii N 不足以体现可信度,因为按一定比例
【参考文献】:
期刊论文
[1]基于随机森林特征选择算法的鼻咽肿瘤分割[J]. 李鲜,王艳,罗勇,周激流. 计算机应用. 2019(05)
[2]基于随机森林算法和Logistic回归模型的糖尿病风险因素研究[J]. 肖辉,郝元涛,徐晓,朱晓宇. 中国数字医学. 2018(01)
[3]基于特征筛选和二级分类的极化SAR建筑提取算法[J]. 张妙然,刘畅. 中国科学院大学学报. 2018(01)
[4]基于KPCA-LSSVM的健康档案空腹血糖水平预测研究[J]. 江燕,帅仁俊,张姝,查代奉. 计算机工程与应用. 2018(13)
[5]一种改进的SVM算法在乳腺癌诊断方面的应用[J]. 吴辰文,李长生,王伟,梁靖涵,闫光辉. 计算机工程与科学. 2017(03)
[6]基于特征加权的多核支持向量机[J]. 邵朝,李强. 西安邮电大学学报. 2017(02)
[7]决策树模型在2型糖尿病患病风险预测中的应用[J]. 侯玉梅,朱亚楠,朱立春,吴颂,高秋烨. 中国卫生统计. 2016(06)
[8]基于中国农村人群的非侵袭性2型糖尿病风险预测模型的建立[J]. 张红艳,石文惠,张明,尹磊,庞超,冯天平,张璐,任永成,王炳源,杨香玉,周俊梅,韩成义,赵阳,赵景志,胡东生. 中华预防医学杂志. 2016 (05)
[9]多核SVM文本分类研究[J]. 陈海红. 软件. 2015(05)
[10]特征加权的核学习方法[J]. 胡湘萍,李彦勤. 计算机工程与应用. 2015(14)
博士论文
[1]面向医学数据的随机森林特征选择及分类方法研究[D]. 姚登举.哈尔滨工程大学 2016
[2]支持向量机关键技术及其在人体活动识别中的应用研究[D]. 姚毓凯.兰州大学 2015
硕士论文
[1]随机森林算法的优化研究及在文本并行分类上的应用[D]. 张鑫.南京邮电大学 2018
[2]随机森林自适应特征选择和参数优化算法研究[D]. 刘凯.长春工业大学 2018
[3]基于随机森林特征选择的贝叶斯分类模型及应用[D]. 鲁亚会.华北水利水电大学 2017
[4]简化多核支持向量机的研究[D]. 杜海洋.北京交通大学 2015
[5]基于Relief特征选择算法的研究与应用[D]. 李晓岚.大连理工大学 2013
[6]几种特征加权支持向量机方法的比较研究[D]. 马会敏.河北大学 2010
[7]支持向量机中Sigmoid核函数的研究[D]. 刘明.西安电子科技大学 2009
本文编号:2977340
本文链接:https://www.wllwen.com/yixuelunwen/nfm/2977340.html
最近更新
教材专著