当前位置:主页 > 硕博论文 > 医学硕士论文 >

应用特征选择和机器学习算法预测类风湿关节炎病人的中医证型

发布时间:2021-08-31 16:21
  医生对中医证型的准确判断对整个治疗过程有着至关重要的作用,它是了解疾病性质、判定病人身体状态、总体把握病人身体情况的重要概括。本研究通过利用类风湿关节炎患者的基础信息、病史信息以及症状等200个维度的特征信息,对类风湿关节炎的湿热痹阻证(60.5%)、痰瘀痹阻证(19.8%)、肝肾亏虚证(15.8%)和风寒阻络证(4%)等4种中医证型进行分类和预测。首先,针对临床诊断数据高维且稀疏的特性,我们提出缺失值、单一值、相关性、零重要度和低重要度等5个规则进行特征选择,而后应用6种典型的机器学习算法,K近邻算法、支持向量机算法、决策树算法、随机森林算法、人工神经网络算法和AdaBoost算法对病人的中医证型进行预测。经过特征选择,我们将原200维数据降至42维,其中包括年龄、舌诊和脉诊等信息。在验证特征选择的有效性时,我们将42维的特征子集与200维的特征全集在6个算法上的预测效果进行比较。结果显示,特征选择有效提高了预测器的预测精度,并大大降低了数据集的维度,在6个算法中的预测效果均不同程度地高于基于全部特征的预测准确率。特征选择辅助神经网络算法在类风湿关节炎病人的中医证型上的预测效果最好,... 

【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校

【文章页数】:47 页

【学位级别】:硕士

【部分图文】:

应用特征选择和机器学习算法预测类风湿关节炎病人的中医证型


图1四种中医证型的年龄和性别分布图

模型图,中医,临床实践,医师


?第3章???Cumulative?Feature?Importance??1.0,?一"????§aa-?/}??I06'?/?I??r?I??i〇.2-?/??O?I??I??I??ao?-?1??〇?25?50?75?100?125?150?175?200??Number?of?Features??图2累积特征重要度曲线??3.?2.?2预测模型??本研究的核心是构建预测中医证型的模型,以帮助医师在临床实践中判??别病人的疾病状态[51]。不同于很多文章仅用单一方法训练模型,本文介绍??6个典型的机器学习算法,构造分类器,预测中医证型:??K近邻算法(KNN):作为最常用也是最基础的有监督学习的分类算法,??KNN的原理就是在预测分类结果时,根据特征空间中距离它最近的K个邻居??的类别中的多数类作为它的分类标签。KNN算法的核心有两个:变量距离计??算和K值的选龋度量距离的方法有很多,比如曼哈顿距离、马氏距离等,??在研宄中,距离的度量是使用欧氏距离,度量的是两个特征变量之间的相似??度,而K值的选择一般是经验或者应用交叉验证等方法,选择较合适的值,??在我们的研宄中,K的值设为3。??支持向量机算法(SVM):支持向量机模型通过在特征空间中计算距离构??建超平面,选择其中几何距离最大的超平面作为数据分类的边界,并对特征??空间进行划分,从而达到分类效果。对于线性不可分的特征空间,通过选择??核函数和惩罚系数,构造凸二次规划问题来解决。常见的核函数有线性核函??数、多项式函数、高斯核函数和核矩阵等。在小样本数据中,SVM因其几乎??不涉及概率测度和大数定律等问题,大大简化了

特征图,特征图,相关系数,筛除


?第4章???第4章实验结果??4.1特征选择结果??在做特征选择时,我们输入200的特征变量,最后,筛除了?158个变量,??保留了?42个重要特征。被筛除的变量中,有115个特征的缺失值比例高于0.90;??8?个特征含有单一值(f-7,?f-14,f-19,?f-20,?f-21,?f-22,?f-23,f-52)。16?个特征??由于相关系数高于0.70而被删除,图3显示了被删除的特征的相关系数大校??94个变量被标记为零重要度,图4列出了重要度排序最高的10个特征。明显??可以看到,年龄的重要度显著高于其他特征,这意味着年龄是构造模型预测中??医证型的关键指标。除此之外,舌质(f-33),舌苔(f-49,f-75,f-76,f-88,??f-101)和脉诊(f-38,f-40,f-51)也相当重要。如图2所示,重要度排序前46??个特征的累积重要度达0.90。??Correlations?Above?Threshold??■??£?mm?■??■?■??§?■??i?_■?l??i?H??s?r.'.?m?aj,??S?■_圔??■??m?I??■?I心??J?■■?m??5?m?■??(-27??2e?參&4?tW?tea?177?f-156???1?<????■?▲0??^6??167??-5???123?ti63??图3相关系数高于0??70的特征图??Feature?Importances??f ̄49??f-76??f-i〇i?侧■m??0?0C0?a?025?0?050?0?075?0?100?0.125?0?150?C?1?5??N

【参考文献】:
期刊论文
[1]基于文献标引词频统计的《中国中医药学主题词表》选词研究[J]. 温先荣,张晶,刘静,雷蕾,杨策,李海燕.  中国中医药信息杂志. 2013(10)
[2]拉米夫定和苦参碱治疗伴高胆红素血症的慢性乙型肝炎临床观察[J]. 陈从新,刘波,杨家宏,刘克万,徐宁,宋海燕.  实用肝脏病杂志. 2009(04)
[3]中医证型客观化研究述评[J]. 朱蕾蕾,蒋健.  中国中医基础医学杂志. 2007(06)
[4]基于决策树的血瘀证诊断规则自动归纳方法[J]. 瞿海斌,毛利锋,王阶.  中国生物医学工程学报. 2005(06)
[5]脑血管病患者舌象特征的提取与分析方法[J]. 英杰,李重锡,李梢,季梁,刘德麟,马维娅.  北京中医药大学学报. 2005(04)
[6]粗糙集在中医类风湿证候诊断中的应用[J]. 秦中广,毛宗源,邓兆智.  中国生物医学工程学报. 2001(04)



本文编号:3375214

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/mpalunwen/3375214.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e31b7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com