当前位置:主页 > 医学论文 > 中医论文 >

基于随机森林的类风湿关节炎证型判别模型研究

发布时间:2018-06-23 10:56

  本文选题:类风湿关节炎 + 判别模型 ; 参考:《北京中医药大学》2016年硕士论文


【摘要】:类风湿关节炎是一种以侵袭性关节炎为主要表现的全身性自身免疫病,中医是在整体观念指导下辨证论治,尤其在治未病以及对并发症的治疗上,适当的规避了西医治疗中无法早期诊断早期治疗以及对并发症的忽视治疗等状况。而且,中药同西药相比,毒副作用较小,且不良反应较少,既可扶正固本、调节机体免疫功能,又可改善微循环、抗炎、镇痛,达到标本兼治的作用,更适合患者长期服用。“证候”是辨证论治的核心,发现证候理论中所蕴含的客观规律,构建辨证论治的规范依据,是中医证候学研究的方向。证候研究的难点在于:首先,中医临证辨证方法多样,证型不规范,难以进行证候标准化。第二,中医证候是一个非线性的复杂系统,多维多阶,无限组合,单纯运用还原的方法无法对其进行合理的阐释。第三,临床医生对证候的判定过程信息复杂且高度融合,具有模糊性的特点。第四,各症状对证候诊断的鉴别意义不等,中医证候难以量化和客观化。研究目的:中医临证中的证候诊断过程,是医生提取四诊信息中对证候鉴别有意义的症状,并将这些症状进行分类的过程,证候问题实质上就是中医症状的分类问题。数据挖掘领域中专门用于解决分类问题的方法被称为分类算法。本研究将随机森林算法引入到中医证候的研究中来,试解决症状的重要性计算和证型分类问题。研究方法:针对证候研究中证候信息非线性,高维高阶,模糊性,难以衡量各因素重要程度等问题,将数据挖掘领域中的分类算法引入到中医证候诊断的研究过程中来,运用随机森林对类风湿关节炎进行特征选择,并构建证候分类模型;为验证随机森林模型效能,采用支持向量机方法进行建模作为对比实验,对比两模型预测准确率。结果:1.本研究以类风湿关节炎为研究对象,搜集RA文献报道的中医有效辨证信息,参考现有中医证候分类标准,人工对辨证信息进行分型归类,并对各证型下属症状进行术语规范化处理,建立了一个“RA证-症”数据集。2.采用随机森林方法实现了对类风湿关节炎证型判别模型的构建,并对特征症状进行权重计算。3.采用支持向量机方法建立证型判别模型,两种模型准确率对比结果显示随机森林性能优异。结论:1.随机森林模型在中医证候建模过程中表现出了良好的性能,不仅准确率高,还能衡量症状在证候分类中的贡献程度,找出对类风湿关节炎证候分类最有影响的主要症状,研究结果同现行的证候特点相对比,有助于证候表述的完善,适合引入应用于证候规范化研究。2.本研究采用中医证候研究中应用较为成熟广泛的支持向量机方法对同一数据集进行分类建模作为对比实验,研究结果显示随机森林模型预测准确率同支持向量机具有可比性,而且模型性能更为稳定,这在一定程度上可以证明将随机森林方法引入用于证候研究具有可观前景。3.随机森林方法的一大显著优点是在建模过程中能对特征的重要性进行计算,体现在本研究中是实现了对类风湿关节炎证型分类的特征症状的重要性排序,筛选出了对证型判别最有意义的症状特征,这有助于更好的解释模型丰富证候的特异性表述,也为解决证候数据的冗余性提供了一种新的方法,而且为证候研究中的难点定量研究提供了一种新的可能性。
[Abstract]:Rheumatoid arthritis is a systemic autoimmune disease characterized by invasive arthritis. Traditional Chinese medicine is treated with a syndrome differentiation under the guidance of the whole concept, especially in the treatment of the disease and the treatment of complications. It is appropriate to avoid the early diagnosis of early treatment in the treatment of Western medicine and the neglect of the complications. Traditional Chinese medicine, compared with western medicine, has smaller side effects and less adverse reactions. It can not only help to fix the solid, regulate the immune function of the body, but also improve the microcirculation, anti-inflammatory and analgesic effect, which is more suitable for the long-term use of the patient. "Syndrome" is the core of the syndrome differentiation and treatment, and finds the objective law contained in the syndrome theory and constructs the syndrome differentiation theory. The standard basis of treatment is the direction of TCM syndrome research. The difficulty of syndrome research lies in: first, the syndrome differentiation method of TCM syndrome is diverse, the syndrome type is not standardized and the syndrome is difficult to standardize. Second, TCM syndrome is a nonlinear complex system, multidimensional and multi order, unlimited combination, and the simple method of using reduction can not be reasonable. Third, the diagnosis process of the syndromes of the clinicians is complex and highly fused and has the characteristics of fuzziness. Fourth, the differential significance of the symptoms to the syndrome diagnosis is different, the TCM syndromes are difficult to quantify and objectified. The symptoms are the classification of these symptoms, and the syndrome is essentially the classification of TCM symptoms. The methods used to solve the classification problems in the field of data mining are called classification algorithms. This study introduces the random forest algorithm into the research of TCM syndrome, and tries to solve the importance calculation and syndrome classification of the symptoms. Research methods: in view of the problems of syndrome information nonlinear, high elevation and fuzziness, it is difficult to measure the importance of various factors in the study of syndrome, and the classification algorithms in the field of data mining are introduced into the research process of TCM syndrome diagnosis, and the characteristics of rheumatoid arthritis are selected and the syndromes are constructed by using random forest. In order to verify the effectiveness of the random forest model, the support vector machine is used to model the model as a contrast experiment, and the accuracy of the two model is compared. The results are as follows: 1. this study takes rheumatoid arthritis as the research object, collecting the effective syndrome differentiation information reported in RA literature, referring to the existing TCM syndrome classification standards, and artificial information on the syndrome differentiation information. The classification and classification were carried out, and the symptoms of each type of syndrome were normalized, and a "RA syndrome" data set was established..2. was constructed by the random forest method, and the weight calculation of the characteristic symptoms.3. was established by the support vector machine, and the two models were established. The results showed that the performance of the random forest was excellent. Conclusion: the 1. random forest model showed good performance in the process of TCM syndrome modeling. It not only had high accuracy, but also measured the contribution degree of symptoms in the classification of syndromes, found the most influential symptoms of the syndrome classification of rheumatoid arthritis, and the results were the same. The comparison of the characteristics of the syndromes is helpful to the perfection of the expression of syndromes. It is suitable for the introduction and application of the research on the standardization of syndrome..2. this study uses a more mature and extensive support vector machine method to classify the same data set in the study of TCM syndrome as a contrast experiment. The results show that the accuracy of the prediction of the random forest model is the same. The support vector machine has the comparability and the model performance is more stable. This can prove to some extent that a significant advantage of introducing the random forest method into the observable.3. random forest method is that the importance of the characteristics can be calculated in the modeling process, which is embodied in the study. The importance of characteristic symptoms in the syndrome classification of rheumatoid arthritis is sorted, and the most significant symptom features are screened out. This helps to explain the specific expression of the model rich syndrome better, and provides a new method for solving the redundancy of syndrome data, and provides a quantitative study of the difficulties in the study. A new possibility.
【学位授予单位】:北京中医药大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:R259

【相似文献】

相关期刊论文 前10条

1 钱维;王超;吴骋;许金芳;叶小飞;杜文民;贺佳;;运用随机森林分析药品不良反应发生的影响因素[J];中国卫生统计;2013年02期

2 武晓岩;李康;;随机森林方法在基因表达数据分析中的应用及研究进展[J];中国卫生统计;2009年04期

3 李贞子;张涛;武晓岩;李康;;随机森林回归分析及在代谢调控关系研究中的应用[J];中国卫生统计;2012年02期

4 刘永春;宋弘;;基于随机森林的乳腺肿瘤诊断研究[J];电视技术;2014年15期

5 聂斌;王卓;杜建强;朱明峰;林剑鸣;艾国平;熊玲珠;;基于粗糙集和随机森林算法辅助糖尿病并发症分类研究[J];江西师范大学学报(自然科学版);2014年03期

6 武晓岩;李康;;基因表达数据判别分析的随机森林方法[J];中国卫生统计;2006年06期

7 武晓岩;闫晓光;李康;;基因表达数据的随机森林逐步判别分析方法[J];中国卫生统计;2007年02期

8 马广立;赵筱萍;程翼宇;;基于随机森林与Chemistry Development Kit描述符的P-gp底物识别[J];高等学校化学学报;2007年10期

9 苑婕;李晓杰;陈超;宋向岗;王淑美;;基于随机森林算法的川芎成分-靶点-疾病网络的预测研究[J];中国中药杂志;2014年12期

10 ;[J];;年期

相关会议论文 前7条

1 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

2 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年

3 张天龙;梁龙;王康;李华;;随机森林结合激光诱导击穿光谱技术用于的钢铁分类[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年

4 相玉红;张卓勇;;组蛋白去乙酰化酶抑制剂的构效关系研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年

5 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年

6 冯飞翔;冯辅周;江鹏程;刘菁;刘建敏;;随机森林和k-近邻法在某型坦克变速箱状态识别中的应用[A];第八届全国转子动力学学术讨论会论文集[C];2008年

7 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年

相关博士学位论文 前4条

1 曹正凤;随机森林算法优化研究[D];首都经济贸易大学;2014年

2 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年

3 岳明;基于随机森林和规则集成法的酒类市场预测与发展战略[D];天津大学;2008年

4 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年

相关硕士学位论文 前10条

1 钱维;药品不良反应监测中随机森林方法的建立与实现[D];第二军医大学;2012年

2 韩燕龙;基于随机森林的指数化投资组合构建研究[D];华南理工大学;2015年

3 贺捷;随机森林在文本分类中的应用[D];华南理工大学;2015年

4 张文婷;交通环境下基于改进霍夫森林的目标检测与跟踪[D];华南理工大学;2015年

5 李强;基于多视角特征融合与随机森林的蛋白质结晶预测[D];南京理工大学;2015年

6 朱玟谦;一种收敛性随机森林在人脸检测中的应用研究[D];武汉理工大学;2015年

7 肖宇;基于序列图像的手势检测与识别算法研究[D];电子科技大学;2014年

8 李慧;一种改进的随机森林并行分类方法在运营商大数据的应用[D];电子科技大学;2015年

9 赵亚红;面向多类标分类的随机森林算法研究[D];哈尔滨工业大学;2014年

10 黎成;基于随机森林和ReliefF的致病SNP识别方法[D];西安电子科技大学;2014年



本文编号:2056889

资料下载
论文发表

本文链接:https://www.wllwen.com/zhongyixuelunwen/2056889.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户86bdc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com