基于随机森林算法的高尿酸血症危险因素分析
发布时间:2021-09-06 10:11
目的采用随机森林算法探讨凉山地区人群高尿酸血症(HUA)患病危险因素。方法利用中国达能膳食营养研究与宣教基金项目(DIC2013-03)数据,用随机森林模型对单因素分析有统计学意义的自变量进行重要性排序并降维,将袋外估算误差率最小的变量集纳入logistic回归模型,分析自变量的作用方向和相对危险度。结果逐步随机森林分析显示,变量数为6时袋外估算误差率最低,重要性排名前六的变量依次是年龄、体质指数(BMI)、每日菌菇类摄入量、性别、每日禽畜肉摄入量、高甘油三脂(TG)血症;logistic回归分析显示,18~34岁、≥65岁组人群HUA患病风险分别是35~44岁组的1.557、1.496倍;男性HUA患病风险是女性的2.755倍;超重(24≤BMI<28)、肥胖组(BMI≥28)HUA患病风险分别是正常BMI组的1.822、2.534倍;高TG血症组HUA患病风险是非高TG血症组的2.379倍;菌菇类高摄入组(大于10g/d)HUA患病风险是低摄入组(小于5g/d)的1.420倍;畜禽肉高摄入组(大于75g/d)HUA患病风险是低摄入组(小于40g/d)组的1.300倍。结论影响...
【文章来源】:中国卫生统计. 2020,37(02)北大核心CSCD
【文章页数】:5 页
【部分图文】:
多因素logistic回归分析
将单因素分析有统计学意义的变量纳入随机森林模型,森林中每棵树节点处预选变量个数设为全部变量数的平方根,树总数设为500棵[22],随机种子数设为123456。分析结果显示,各变量重要性由高到低依次是:年龄、BMI、每日菌菇类摄入量、性别、每日禽畜肉摄入量、高TG血症、吸烟、每日水产品摄入量、锻炼、高TC血症、饮酒、高SBP、高DBP、每日酒精摄入量、低HDL-C血症、高LDL-C血症。详见图1。(2)降维
将重要性排名前六的变量集纳入logistic回归模型,分析结果显示:18~34岁、≥65岁组人群HUA患病风险分别是35~44岁组的1.557、1.496倍;超重(24≤BMI<28)、肥胖组(BMI≥28)HUA患病风险分别是正常BMI组的1.822、2.534倍;菌菇类高摄入组(大于10g/d)HUA患病风险是低摄入组(小于5g/d)的1.420倍;男性HUA患病风险是女性的2.755倍;畜禽肉高摄入组(大于75g/d)HUA患病风险是低摄入组(小于40g/d)组的1.300倍;高TG血症组HUA患病风险是非高TG血症组的2.379倍。详见图3。图3 多因素logistic回归分析
【参考文献】:
期刊论文
[1]随机森林算法对体检人群糖尿病患病风险的预测价值研究[J]. 张占林,孙勇,妥小青,叶勒丹·马汉,龚政,田恬,陈珍,古丽斯亚·海力力,戴江红,姚华. 中国全科医学. 2019(09)
[2]厦门市居民高尿酸血症与膳食嘌呤摄入的相关性研究[J]. 黄佳乐,王新月,李红卫. 营养学报. 2019(01)
[3]四川地区成年人高尿酸血症患病率及相关危险因素的调查性研究[J]. 陶世冰,任艳,冉兴无,高喜莲,钟莉,陈涛,高赟,喻红玲,张翔迅,刘园园,余婷婷,谢小华,田浩明. 四川医学. 2018(02)
[4]贵州省黔南地区农村少数民族居民高尿酸血症患病现状及其危险因素分析[J]. 黄继红,李泌,杨予,宋发友,罗毅,班文芬,李正福,向寿培,罗彩霞,芮静蓉,张丽,韦龙凤. 中国公共卫生. 2018(01)
[5]基于分类树模型的高尿酸血症危险因素分析[J]. 胡梦妍,刘锦波,周春华,李新莉. 中国全科医学. 2018(03)
[6]四川凉山彝族与汉族的健康相关行为比较研究[J]. 刘娅,王启新,周艾婧,龚熠,潘庆,戢路,且亚玲,汤艳,汪敏,杨艳,贾红. 现代预防医学. 2015(19)
[7]运用随机森林分析药品不良反应发生的影响因素[J]. 钱维,王超,吴骋,许金芳,叶小飞,杜文民,贺佳. 中国卫生统计. 2013(02)
[8]高维肺癌病例-对照研究资料的随机森林降维分析[J]. 朱晶晶,赵杨,陆凤,胡志斌,陈峰. 中华预防医学杂志. 2012 (09)
[9]随机森林回归分析及在代谢调控关系研究中的应用[J]. 李贞子,张涛,武晓岩,李康. 中国卫生统计. 2012(02)
[10]随机森林方法在基因表达数据分析中的应用及研究进展[J]. 武晓岩,李康. 中国卫生统计. 2009(04)
硕士论文
[1]基于随机森林和支持向量机的癌症基因数据分析[D]. 梁炉方.山东大学 2017
本文编号:3387265
【文章来源】:中国卫生统计. 2020,37(02)北大核心CSCD
【文章页数】:5 页
【部分图文】:
多因素logistic回归分析
将单因素分析有统计学意义的变量纳入随机森林模型,森林中每棵树节点处预选变量个数设为全部变量数的平方根,树总数设为500棵[22],随机种子数设为123456。分析结果显示,各变量重要性由高到低依次是:年龄、BMI、每日菌菇类摄入量、性别、每日禽畜肉摄入量、高TG血症、吸烟、每日水产品摄入量、锻炼、高TC血症、饮酒、高SBP、高DBP、每日酒精摄入量、低HDL-C血症、高LDL-C血症。详见图1。(2)降维
将重要性排名前六的变量集纳入logistic回归模型,分析结果显示:18~34岁、≥65岁组人群HUA患病风险分别是35~44岁组的1.557、1.496倍;超重(24≤BMI<28)、肥胖组(BMI≥28)HUA患病风险分别是正常BMI组的1.822、2.534倍;菌菇类高摄入组(大于10g/d)HUA患病风险是低摄入组(小于5g/d)的1.420倍;男性HUA患病风险是女性的2.755倍;畜禽肉高摄入组(大于75g/d)HUA患病风险是低摄入组(小于40g/d)组的1.300倍;高TG血症组HUA患病风险是非高TG血症组的2.379倍。详见图3。图3 多因素logistic回归分析
【参考文献】:
期刊论文
[1]随机森林算法对体检人群糖尿病患病风险的预测价值研究[J]. 张占林,孙勇,妥小青,叶勒丹·马汉,龚政,田恬,陈珍,古丽斯亚·海力力,戴江红,姚华. 中国全科医学. 2019(09)
[2]厦门市居民高尿酸血症与膳食嘌呤摄入的相关性研究[J]. 黄佳乐,王新月,李红卫. 营养学报. 2019(01)
[3]四川地区成年人高尿酸血症患病率及相关危险因素的调查性研究[J]. 陶世冰,任艳,冉兴无,高喜莲,钟莉,陈涛,高赟,喻红玲,张翔迅,刘园园,余婷婷,谢小华,田浩明. 四川医学. 2018(02)
[4]贵州省黔南地区农村少数民族居民高尿酸血症患病现状及其危险因素分析[J]. 黄继红,李泌,杨予,宋发友,罗毅,班文芬,李正福,向寿培,罗彩霞,芮静蓉,张丽,韦龙凤. 中国公共卫生. 2018(01)
[5]基于分类树模型的高尿酸血症危险因素分析[J]. 胡梦妍,刘锦波,周春华,李新莉. 中国全科医学. 2018(03)
[6]四川凉山彝族与汉族的健康相关行为比较研究[J]. 刘娅,王启新,周艾婧,龚熠,潘庆,戢路,且亚玲,汤艳,汪敏,杨艳,贾红. 现代预防医学. 2015(19)
[7]运用随机森林分析药品不良反应发生的影响因素[J]. 钱维,王超,吴骋,许金芳,叶小飞,杜文民,贺佳. 中国卫生统计. 2013(02)
[8]高维肺癌病例-对照研究资料的随机森林降维分析[J]. 朱晶晶,赵杨,陆凤,胡志斌,陈峰. 中华预防医学杂志. 2012 (09)
[9]随机森林回归分析及在代谢调控关系研究中的应用[J]. 李贞子,张涛,武晓岩,李康. 中国卫生统计. 2012(02)
[10]随机森林方法在基因表达数据分析中的应用及研究进展[J]. 武晓岩,李康. 中国卫生统计. 2009(04)
硕士论文
[1]基于随机森林和支持向量机的癌症基因数据分析[D]. 梁炉方.山东大学 2017
本文编号:3387265
本文链接:https://www.wllwen.com/yixuelunwen/nfm/3387265.html
最近更新
教材专著