基于PCA-集成学习的甲状腺结节辅助诊断决策研究
发布时间:2021-08-12 00:38
甲状腺癌是人体内分泌系统中患病率最高的疾病之一,近年来发病率逐年上升。超声检查可以识别触诊较难发现的甲状腺结节可疑病灶,是实现早期甲状腺癌筛查的有效手段。医院超声科信息系统中储存了大量的甲状腺患者就诊数据,蕴藏着丰富的医疗信息。通过科学的方法对超声科甲状腺数据进行挖掘与分析,获取有效信息,对辅助医生提高诊断精确性具有重要的现实意义。本研究面向甲状腺结节辅助诊断决策问题,基于合作医院信息系统中的甲状腺超声数据,以辅助医生提高对甲状腺结节良恶性诊断的精度和效率为目标,研究内容主要包括以下几点。首先,基于超声科甲状腺数据,结合医生专业知识对原始数据进行预处理得到标准有效数据,并从整体描述、单个指标与病理结果、多个指标与病理结果、指标与指标四个维度对甲状腺有效数据进行综合分析,初步了解甲状腺数据特点。其次,根据甲状腺数据特点,使用PCA消除甲状腺指标间的相关性并降低输入项的维度,并使用个体分类器与集成学习算法对比,从二分类和多分类相结合的角度,提出基于PCA-集成学习的甲状腺结节辅助诊断模型。最后,基于甲状腺有效数据,从分类效果和运算效率两个角度,对逻辑回归、支持向量机、K近邻法、决策树、随机...
【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【图文】:
论文主要内容框架图
第二章研究基础与相关理论82.2.1逻辑回归算法Martin于1977年首次使用逻辑回归(LogisticRegression,LR)模型对58家金融危机公司进行财务预警[52]。LR属于最优化算法,它预测因变量发生的概率,通过区分预测的概率达到分类的效果[53]。当因变量是二分类问题时,通常采用二元LR。采用二元LR时,通常设因变量Y只有两个状态,分别用0和1表示,则因变量Y发生的概率p=P(Y=1)。假设有k个影响Y取值的影响因素,分别为x0,x1,…,xk,并且p的取值始终在0到1之间,由此可构造sigmoid函数:11zpe(2.1)011kkzxx(2.2)其中β0,β1,…,βk是未知参数,z是关于x的表达式,由此可得LR函数为:0111kkplnxxp(2.3)sigmoid函数的曲线图如图2.1所示,当x等于0时,函数值等于0.5;随着x的减小,函数值减小且无限趋近于0;随着x的增大,函数的值增加并无限趋近于1[54]。图2.1sigmoid函数曲线图Fig2.1Graphofsigmoidfunction根据式2.3可知,LR函数中含有未知参数β0,β1,…,βk,可以使用极大似然值法求解未知参数。设y是0-1类型的二分类变量,x0,x1,…,xk是与y相关的变量,n组观测的数据为(xi1,xi2,…,xik;yi)(i=1,2,…n),则yi与xi1,xi2,…,xik的关系可以表达为:
第二章研究基础与相关理论10哪个类别的元素最多,由此将xq分入所属类别最多的类。根据以上操作过程可知,执行KNN算法时关键的三点分别为:K值的选择、距离的计算以及分类规则的制定。在实际工作中,K值选择可使用交叉验证来进行优化,计算距离可使用欧氏距离、曼哈顿距离等,分类规则的设置时可采用平均加权法或其他权重调配方法。KNN算法操作简单、分类效果较好,而且最突出的特点是不需要预计参数,也不需要训练,因此运算效率较高。2.2.4决策树算法决策树是一种以树的结构将展现分类过程的个体学习器算法,在分类和回归问题中有广泛的应用,其目标是建立一个可以预测目标变量的类或值的训练模型,与其他分类算法相比。决策树通过树的形式来解决问题,树内的每个节点表示一个属性,每个叶节点表示一类标签。采用自上而下的递归方式,在决策树的内部节点比较属性值,并根据不同属性判断从该节点下的分支方向,最后在叶节点得到结论。图2.2为决策树的运算示意图。图2.2决策树结构示意图Fig2.2Structurediagramofdecisiontree决策树的预测方面功能强大,常作为集成学习的弱学习器,目前比较常用的有ID3、C4.5、CART、SLIQ、SPRINT等。决策树通过树的形式展现运算过程,因此具有一定的可解释性。2.3集成学习以上是个体分类器算法,在实际应用中常用集成学习(EnsembleLearning)解决复杂问题。集成学习可分为同质集成和异质集成,同质集成通常使用一个弱分类器做集成,对应的异质集成则采用多个学习器。随着弱学习器的增加,集成学习
【参考文献】:
期刊论文
[1]甲状腺结节和分化型甲状腺癌诊治指南[J]. 中华内分泌代谢杂志. 2012 (10)
[2]主成分分析原始数据的预处理问题[J]. 万星火,檀亦丽. 中国卫生统计. 2005(05)
[3]数据挖掘中的数据预处理[J]. 刘明吉,王秀峰,黄亚楼. 计算机科学. 2000(04)
博士论文
[1]基于电子病历数据的临床决策支持研究[D]. 王昱.浙江大学 2016
硕士论文
[1]面向临床决策支持的贝叶斯网络医嘱推荐方法研究[D]. 刘文洋.北京理工大学 2016
[2]基于随机森林的指数化投资组合构建研究[D]. 韩燕龙.华南理工大学 2015
[3]术前血清促甲状腺激素水平与分化型甲状腺癌的发病风险[D]. 王方梅.上海交通大学 2014
[4]基于人工智能机器学习的文字识别方法研究[D]. 李雷.电子科技大学 2013
本文编号:3337219
【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【图文】:
论文主要内容框架图
第二章研究基础与相关理论82.2.1逻辑回归算法Martin于1977年首次使用逻辑回归(LogisticRegression,LR)模型对58家金融危机公司进行财务预警[52]。LR属于最优化算法,它预测因变量发生的概率,通过区分预测的概率达到分类的效果[53]。当因变量是二分类问题时,通常采用二元LR。采用二元LR时,通常设因变量Y只有两个状态,分别用0和1表示,则因变量Y发生的概率p=P(Y=1)。假设有k个影响Y取值的影响因素,分别为x0,x1,…,xk,并且p的取值始终在0到1之间,由此可构造sigmoid函数:11zpe(2.1)011kkzxx(2.2)其中β0,β1,…,βk是未知参数,z是关于x的表达式,由此可得LR函数为:0111kkplnxxp(2.3)sigmoid函数的曲线图如图2.1所示,当x等于0时,函数值等于0.5;随着x的减小,函数值减小且无限趋近于0;随着x的增大,函数的值增加并无限趋近于1[54]。图2.1sigmoid函数曲线图Fig2.1Graphofsigmoidfunction根据式2.3可知,LR函数中含有未知参数β0,β1,…,βk,可以使用极大似然值法求解未知参数。设y是0-1类型的二分类变量,x0,x1,…,xk是与y相关的变量,n组观测的数据为(xi1,xi2,…,xik;yi)(i=1,2,…n),则yi与xi1,xi2,…,xik的关系可以表达为:
第二章研究基础与相关理论10哪个类别的元素最多,由此将xq分入所属类别最多的类。根据以上操作过程可知,执行KNN算法时关键的三点分别为:K值的选择、距离的计算以及分类规则的制定。在实际工作中,K值选择可使用交叉验证来进行优化,计算距离可使用欧氏距离、曼哈顿距离等,分类规则的设置时可采用平均加权法或其他权重调配方法。KNN算法操作简单、分类效果较好,而且最突出的特点是不需要预计参数,也不需要训练,因此运算效率较高。2.2.4决策树算法决策树是一种以树的结构将展现分类过程的个体学习器算法,在分类和回归问题中有广泛的应用,其目标是建立一个可以预测目标变量的类或值的训练模型,与其他分类算法相比。决策树通过树的形式来解决问题,树内的每个节点表示一个属性,每个叶节点表示一类标签。采用自上而下的递归方式,在决策树的内部节点比较属性值,并根据不同属性判断从该节点下的分支方向,最后在叶节点得到结论。图2.2为决策树的运算示意图。图2.2决策树结构示意图Fig2.2Structurediagramofdecisiontree决策树的预测方面功能强大,常作为集成学习的弱学习器,目前比较常用的有ID3、C4.5、CART、SLIQ、SPRINT等。决策树通过树的形式展现运算过程,因此具有一定的可解释性。2.3集成学习以上是个体分类器算法,在实际应用中常用集成学习(EnsembleLearning)解决复杂问题。集成学习可分为同质集成和异质集成,同质集成通常使用一个弱分类器做集成,对应的异质集成则采用多个学习器。随着弱学习器的增加,集成学习
【参考文献】:
期刊论文
[1]甲状腺结节和分化型甲状腺癌诊治指南[J]. 中华内分泌代谢杂志. 2012 (10)
[2]主成分分析原始数据的预处理问题[J]. 万星火,檀亦丽. 中国卫生统计. 2005(05)
[3]数据挖掘中的数据预处理[J]. 刘明吉,王秀峰,黄亚楼. 计算机科学. 2000(04)
博士论文
[1]基于电子病历数据的临床决策支持研究[D]. 王昱.浙江大学 2016
硕士论文
[1]面向临床决策支持的贝叶斯网络医嘱推荐方法研究[D]. 刘文洋.北京理工大学 2016
[2]基于随机森林的指数化投资组合构建研究[D]. 韩燕龙.华南理工大学 2015
[3]术前血清促甲状腺激素水平与分化型甲状腺癌的发病风险[D]. 王方梅.上海交通大学 2014
[4]基于人工智能机器学习的文字识别方法研究[D]. 李雷.电子科技大学 2013
本文编号:3337219
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3337219.html