基于机器学习算法的糖尿病预测模型研究
本文选题:糖尿病 切入点:危险因素 出处:《哈尔滨工业大学》2016年硕士论文 论文类型:学位论文
【摘要】:目前,我国慢性病患者人数居世界首位,而糖尿病及其相关并发症是其中重要的一个组成部分,居民对健康需求强烈,因此,非常有建立糖尿病的预测模型的需要,通过建模对普通人群的糖尿病发病风险进行预估,发现高危人群,进而对糖尿病发病进行预报和预警。本文在总结前人研究的基础上,对导致糖尿病的危险因素进行分析,通过对哈尔滨工业大学2014年校医院体检数据集的特征变量进行逐步回归分析,得到与糖尿病显著相关的危险因素,保留其作为BP神经网络模型、支持向量机模型和集成学习模型的输入变量。机器学习算法在处理较为复杂的问题上有较好的准确度和泛化能力。将样本集中2728条数据根据要求按照7:2:1的比例划分成训练集、测试集和独立样本集。基于BP人工神经网络、支持向量机和集成学习模型分别建立进行机器学习仿真模拟。输入变量和模型的各种参数、核函数的选择都对预测结果产生有或多或少的影响。本研究中观察了如网络结构、学习率、惩罚因子、核函数及相关参数的改变对预测结果的影响,然后经过对参数进行调试选择,找到各个算法的最优模型。最后使用独立样本进行测试,三个模型的预测结果与原始数据相关性强,证明建模具有统计意义,其中人工神经网络的最优模型的测试集AUC更高,运行时间更短。所以,最终选择以网络结构为7-1-1的人工神经网络模型为本研究中糖尿病预测的最适模型。
[Abstract]:At present, the number of chronic disease patients in China ranks first in the world, and diabetes mellitus and its related complications are one of the important components, and the residents have a strong demand for health. Therefore, there is a great need to establish a predictive model of diabetes. In this paper, the risk factors of diabetes mellitus are analyzed on the basis of summarizing the previous studies, by modeling and predicting the risk of diabetes in the general population, and finding out the high risk group, and then forecasting and forewarning the onset of diabetes mellitus. By stepwise regression analysis on the characteristic variables of the medical examination data set of Harbin University of Technology in 2014, the risk factors associated with diabetes were obtained, and the risk factors were retained as BP neural network model. The input variables of support vector machine model and integrated learning model. The machine learning algorithm has better accuracy and generalization ability in dealing with more complex problems. 2728 pieces of data in the sample set are divided into training sets according to the requirement of 7: 2: 1. Test set and independent sample set. Based on BP artificial neural network, support vector machine and integrated learning model are built to simulate machine learning. The selection of kernel functions has a more or less effect on the prediction results. In this study, the effects of network structure, learning rate, penalty factors, kernel functions and related parameters on the prediction results were observed. Then the parameters are debugged and selected to find the optimal model of each algorithm. Finally, independent samples are used to test. The prediction results of the three models have strong correlation with the original data, which proves that the modeling has statistical significance. The test set of the optimal model of artificial neural network is higher and the running time is shorter. Therefore, the model of artificial neural network with network structure of 7-1-1 is chosen as the optimal model for predicting diabetes mellitus in this study.
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:F224;R587.1
【相似文献】
相关期刊论文 前10条
1 任宏;人工神经网络及其在预防医学领域的应用[J];上海预防医学杂志;2003年01期
2 赵应征,赵爱国,鲁翠涛,韩铁 ,梅兴国;人工神经网络在药学研究中的应用进展[J];解放军药学学报;2003年06期
3 杨钧,周新华,马大庆;人工神经网络及其在胸部放射学中的应用[J];中华放射学杂志;2004年02期
4 金玉琴;赵群;施诚;;人工神经网络及其在中药研究中的应用[J];医学信息;2007年06期
5 郑义;陆辉;;人工神经网络及其在药学上的应用[J];黑龙江医药;2008年06期
6 李丽霞;张敏;郜艳晖;张丕德;周舒冬;;人工神经网络在医学研究中的应用[J];数理医药学杂志;2009年01期
7 徐俊芳;周晓农;;人工神经网络在传染病研究中的应用[J];中国寄生虫学与寄生虫病杂志;2011年01期
8 王欣萍;孙昕;孙尧;;基于BP人工神经网络模型构建电子病历系统的数据分析[J];中国组织工程研究与临床康复;2011年35期
9 李光芬,强勇;人工神经网络在医学中的应用[J];医学信息;1998年12期
10 艾超,聂邦畿;人工神经网络在医学中的应用与展望[J];现代医学仪器与应用;1999年01期
相关会议论文 前10条
1 吴兵;;一种具有语义分布的自构造的新人工神经网络系统及其应用[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
2 刘R,
本文编号:1603613
本文链接:https://www.wllwen.com/yixuelunwen/nfm/1603613.html