中医医案文本挖掘的若干关键技术研究
本文选题:本体学习 + 命名实体识别 ; 参考:《山东师范大学》2016年博士论文
【摘要】:中医是我国劳动人民数千年以来在与疾病斗争中形成的丰富诊疗经验的总结,在长期发展过程形成了一种以阴阳五行作为理论基础的独具特色的诊疗体系,留下了大量对中医临床决策有指导价值的文献资料,这些“海量”中医医案文献资料是中医临床诊疗的宝贵资源。目前,应用不同的文本挖掘方法,致力于从“海量”的文献资料中获取可理解的、可用的知识,用于分析中医诊疗的用药规律,以指导中医临床科研、教学及新药研发,已愈来愈成为该领域的研究热点。然而,中医医案文本信息尚未得以有效挖掘和利用,原因在于:构建统一的中医医案本体存在一定的困难;命名实体识别效率不高;文本向量空间表示模型忽略了词间的关联性,不能很好地表示潜在语义信息;传统文本聚类算法在处理数据时存在着对初始值的依赖性过强、易获得局部最优的弊端。针对上述问题,在前期研究基础上,提出基于本体的命名实体识别算法和基于萤火虫算法的中医医案文本聚类方法。本文的研究得到了山东省科技发展计划:“基于医用酶语义的文献数据检索挖掘算法的设计与实现(编号:2010G0020121)”、山东省电子专项工程:“山东省名老中医诊疗辅助决策支持系统的开发与推广(编号:2150511)”及山东省中医药科技发展计划:“基于仿生智能算法的心力衰竭综合防治方案研究(编号:2013-230)”的支持。本文数据来源为全国名老中医、山东省名老中医丁书文教授自2013年6月至2015年6月在山东中医药大学附属医院门诊收集的2400份医案,患者共757例,所用中药共251种。本文的主要研究内容和研究成果总结如下:1.把人工蜂群算法应用于中医医案本体库的构建。设计基于人工蜂群算法的本体学习技术,通过中文分词技术、互信息及规则过滤等策略,以医案中的中医四诊、中医诊断、西医诊断、证型、治法为信息语料进行分析、验证,设计概念提取方法,同时利用小生境技术的融合、演化算法丰富种群的多样性,结合人工蜂群算法寻优速度快的优势抽取非分类关系,构建本体。实验证明,组合的人工蜂群算法在中医医案非分类关系抽取过程中、在个体多样性及平均适应度上均优于普通的人工蜂群算法。2.提出一种基于本体的中医医案命名实体识别方法。应用条件随机场、基于本体的修正及特征模板的修正方法对中医医案命名实体进行识别,构建基于本体的中医医案命名实体识别算法,通过检验性测试,获得中医四诊、中医诊断、西医诊断、证型、治法的最优实验结果。实验表明,基于本体的命名实体识别算法在中医医案命名实体识别时能取得较好效果。3.设计了一种基于词共现组合的中医医案向量空间模型。利用关联规则算法抽取出中医医案的二阶词共现组合,定义词共现的度量方法,构建基于词共现组合的向量空间模型。实验表明,该方法在中医医案知识获取及分类上比经典的向量空间模型具有更高的区分能力,并验证了中医医案辨证诊疗主题与二阶词共现的关联性。4.提出一种基于萤火虫算法的中医医案文本聚类算法。引入粒计算思想,通过适应度变化情况动态确定萤火虫算法的迭代和模拟退火算法的抽样,扩大模拟退火的扰动增加种群的选择范围,并在实验数据上进行验证。实验表明,相对于传统的K-medoids聚类方法,该方法个体多样性表现良好,能够解决较难得到全局最优的问题,文本聚类结果得到了专家的认可,具有一定的临床参考价值。综上所述,本文对中医医案文本挖掘的若干关键技术进行了分析,对适合中医医案文本挖掘的算法进行了设计,并通过文本挖掘系统对算法进行了整合、验证,实验表明,本文提出的设计方案具有有效性和先进性,可为中医临床、科研、教学和新药研发提供参考。
[Abstract]:Traditional Chinese medicine is a summary of the rich diagnosis and treatment experience formed in the struggle against disease for thousands of years in China. In the long course of development, a unique and unique diagnosis and treatment system based on the five lines of yin and Yang has been formed, which has left a large number of literature materials guiding the clinical decision-making of traditional Chinese medicine, and these "massive" medical records of traditional Chinese medicine. Literature is a valuable resource for clinical diagnosis and treatment of traditional Chinese medicine. At present, the use of different text mining methods is devoted to obtaining understandable and available knowledge from "massive" literature to analyze the law of medicine for diagnosis and treatment of traditional Chinese medicine, in order to guide the clinical scientific research, teaching and new medicine research and development of traditional Chinese medicine, and has become a hot topic in this field. However, the text information of TCM medical cases has not been effectively excavated and used. The reason is: there are some difficulties in the construction of a unified traditional Chinese medical case body; the efficiency of the nomenclature entity recognition is not high; the text vector space representation model ignores the correlation between words, and the latent semantic information can not be shown very well; the traditional text clustering algorithm is in the processing number. According to the fact that the dependence of the initial value is too strong and easy to obtain the local optimal disadvantage, on the basis of the previous research, the ontology based named entity recognition algorithm and the Chinese medical case text clustering method based on the firefly algorithm are proposed. The research of this paper has obtained the Shandong Province science and technology development plan: "based on the medical enzyme language" Design and implementation of semantic bibliographic data retrieval mining algorithm (number: 2010G0020121) ", Shandong electronic special project:" development and promotion of Shandong famous old TCM diagnosis and treatment support system (serial number: 2150511) "and Shandong Province Traditional Chinese medicine science and technology development plan:" comprehensive prevention and control scheme based on biomimetic intelligent algorithm for heart failure " Research (numbered: 2013-230) support. The data source is the 2400 medical cases collected by Professor Ding Shuwen, the famous old Chinese medicine of Shandong Province, from June 2013 to June 2015 at the Affiliated Hospital of Shandong University of Traditional Chinese Medicine. There are 757 cases of patients and 251 kinds of Chinese medicine. The main contents and results of this paper are summarized as follows: 1 The artificial bee colony algorithm is applied to the construction of the medical case ontology library of traditional Chinese medicine. The ontology learning technology based on artificial bee colony algorithm is designed. Through the Chinese word segmentation technology, mutual information and rule filtering, the four diagnosis of traditional Chinese medicine, the diagnosis of traditional Chinese medicine, the western medicine diagnosis, the syndrome type and the treatment method are analyzed, verified and the design concept extraction method is used. At the same time, using the fusion of niche technology, the evolutionary algorithm enriches the diversity of the population, and combines the advantage of the artificial bee colony algorithm to extract the fast speed to extract the non classification relationship and construct the ontology. The experiment shows that the combined artificial bee colony algorithm is better than the ordinary one in the individual diversity and the average fitness in the non classification relationship extraction process of medical records. The artificial bee colony algorithm.2. proposed a traditional Chinese medical case named entity recognition method based on the ontology. Based on the airport, the ontology based correction and the feature template correction method, the Chinese medical case named entity was identified, the ontology based medical case naming entity recognition algorithm was constructed, and the four diagnosis of traditional Chinese medicine was obtained through the test test. The best experimental results of traditional Chinese medicine diagnosis, western medicine diagnosis, syndrome type and treatment method. The experiment shows that the ontology based named entity recognition algorithm can achieve good results in the recognition of medical cases named entity recognition of traditional Chinese medicine.3., a vector space model of TCM medical case based on word co occurrence is designed. The two order of TCM medical case is extracted by using association rule algorithm. The combination of word concurrence, the measure method of defining word concurrence and the construction of the vector space model based on the concurrence of words. The experiment shows that the method has a higher distinguishing ability than the classical vector space model in the knowledge acquisition and classification of medical records of traditional Chinese medicine, and verifies the association of the theme of diagnosis and treatment of TCM medical cases with the two order words, and the.4. Based on the algorithm of firefly algorithm, the clustering algorithm of Chinese medical case text is introduced. The idea of particle calculation is introduced to dynamically determine the iteration of the firefly algorithm and the sampling of simulated annealing algorithm. The selection range of the population is increased by increasing the simulated annealing disturbance and verified on the experimental data. The experiment shows that it is relative to the traditional K-med. OIDs clustering method, this method has good individual diversity, and can solve the problem that is difficult to get the global optimal. The result of text clustering has been recognized by experts and has certain clinical reference value. In summary, this paper analyses some key technologies of text mining in TCM medical cases, and makes a calculation for the text mining suitable for medical cases of traditional Chinese medicine. The method is designed, and the algorithm is integrated and verified through the text mining system. The experiment shows that the design scheme proposed in this paper is effective and advanced, which can provide reference for the clinical, scientific research, teaching and new medicine research and development of traditional Chinese medicine.
【学位授予单位】:山东师范大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 张雯雯;许鑫;;文本挖掘工具述评[J];图书情报工作;2012年08期
2 邢鸿飞;;文本挖掘口角升温[J];世界科学;2013年05期
3 蒋良孝,蔡之华;文本挖掘及其应用[J];现代计算机(专业版);2003年02期
4 谌志群;张国煊;;文本挖掘研究进展[J];模式识别与人工智能;2005年01期
5 王娜;李云松;;基于概念格的文本挖掘[J];计算机技术与发展;2006年01期
6 黄维金;顾益军;;刑侦档案文本挖掘系统平台中的文本精炼初探[J];中国人民公安大学学报(自然科学版);2006年02期
7 张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期
8 韩春;田大钢;;对股票市场信息的文本挖掘[J];中国高新技术企业;2008年23期
9 程志;黄荣怀;;文本挖掘及其教育应用[J];现代远距离教育;2008年02期
10 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
相关会议论文 前10条
1 陈林;王晓华;李殿峗;文俊浩;;基于自增模式的文本挖掘研究[A];’2004计算机应用技术交流会议论文集[C];2004年
2 王巍;杨武;张乐君;郑军;;支持网络话题管理的文本挖掘算法分析[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
3 王继成;孙颖;张福炎;;文本挖掘-数据挖掘研究的新课题[A];第十六届全国数据库学术会议论文集[C];1999年
4 高飞;荆继武;向继;;文本挖掘系统的可视化方法研究[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 朱强生;田英;周延泉;何华灿;;基于非负因子分析的模糊文本挖掘[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
6 钱程扬;龙毅;徐震;孙昊;;基于Web文本挖掘的地理位置信息重建技术[A];中国地理学会2007年学术年会论文摘要集[C];2007年
7 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
8 邱晓蕾;张聪超;;基于SVD和部分聚集分类的文本挖掘算法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
9 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
10 陈宇;王强;;聚类算法在Web文本挖掘中的应用研究[A];2009全国计算机网络与通信学术会议论文集[C];2009年
相关重要报纸文章 前4条
1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
2 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
3 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
4 ;用挖掘技术使学术资源利用效益最大化[N];中国计算机报;2007年
相关博士学位论文 前10条
1 曹奇敏;网络信息文本挖掘若干问题研究[D];北京理工大学;2015年
2 陈虹枢;基于主题模型的专利文本挖掘方法及应用研究[D];北京理工大学;2015年
3 李梅;文本挖掘中若干关键技术研究[D];西北农林科技大学;2016年
4 袁锋;中医医案文本挖掘的若干关键技术研究[D];山东师范大学;2016年
5 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
6 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
7 王明春;基于粗糙集的数据及文本挖掘方法研究[D];天津大学;2005年
8 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
9 文翰;面向信息检索的Web文本挖掘方法研究[D];华南理工大学;2012年
10 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年
相关硕士学位论文 前10条
1 张馨允;基于Spark的Web文本挖掘系统的研究与实现[D];吉林大学;2016年
2 王钊;基于Hadoop的文本挖掘研究与应用[D];广东工业大学;2016年
3 黄建澍;面向人大代表议案处理的文本挖掘系统的设计与实现[D];中国科学院大学(工程管理与信息技术学院);2016年
4 徐奇钊;基于文本挖掘的文本情绪分类[D];云南财经大学;2016年
5 邹运怀;基于文本挖掘的道岔故障分类研究[D];北京交通大学;2016年
6 王萍;基于Web文本挖掘的电子商务专业人才市场需求研究[D];重庆工商大学;2016年
7 盛华;聚类分析在文本挖掘中的应用与研究[D];江南大学;2016年
8 刘超;业界专家的媒体发言对公司股价影响的分析[D];上海师范大学;2016年
9 吴亚宇;基于文本挖掘的年报情感与上市公司业绩的关系研究[D];中国地质大学(北京);2016年
10 高希瑞;基于文本挖掘的企业危机预警研究[D];华东师范大学;2011年
,本文编号:2083388
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2083388.html