中医药症状的中文分词与句子相似度研究
本文选题:中医药 + 症状 ; 参考:《浙江大学》2017年硕士论文
【摘要】:中医药是中国传统医药,也是中华民族的文化瑰宝。随着医学技术的发展,中医药由于其整体性、动态性、辩证性等特征,越来越被人们重视。信息技术、人工智能的不断突破,也为中医药的发展提供了新思路。目前国家已将中医药信息化列在国家信息化发展战略纲要中。由于中医药信息化起步较晚、长期投入不足,中医药信息化的研究总体滞后。本文结合自然语言处理技术,对中医药信息化过程中的中医药症状,进行了深入的研究。重点研究了中医药症状分词和中医药症状句子相似度计算,具体贡献如下:1)研究了中医药症状的数据特征。在大量的观察实验和互联网搜索的基础上,将其总结成表达各异、理解不同、表述不清、单字成词、部分字词用法特殊、用字不规范、词典不完善这七大特征。2)研究了中文分词的主要算法、技术难点以及评价指标。分析了每种算法的优点和缺点。针对已有分词算法的不足和中医药症状数据的特征,设计了一种基于双向条件概率统计模型和相对位置的中医药症状分词算法。通过与互信息模型、二元文法模型、正向条件概率模型、双向条件概率模型比较,本论文的方法在准确率和召回率上分别较其他算法平均提高了 13.39%和17.88%。3)研究了汉语句子相似度计算的主要算法、技术难点以及评价指标。分析了每种算法在中医药环境下的优缺点。改进了已有的词语相似度计算方法。提出了中医药症状词语的分级概念,按照症状词语的重要性将其分为六个等级。综合词语相似度和词语重要性两个指标,改进了原来的基于语义向量的句子相似度计算方法。新方法较传统的方法在句子相似度打分的准确性上提高了 11%。4)为使中医药算法可以方便的被中医药领域的研究者使用,本文从中医药信息化角度出发,设计并实现了一个完整的、易用的、可扩展的中医药数据挖掘平台。该平台将所有算法看成一个算子,用户通过组合不同的算子来进行实验。
[Abstract]:Traditional Chinese medicine is a traditional Chinese medicine and a cultural treasure of the Chinese nation. With the development of medical technology, traditional Chinese medicine has been paid more and more attention because of its integrity, dynamics and dialectics. The continuous breakthrough of information technology and artificial intelligence also provides new ideas for the development of traditional Chinese medicine. In the outline of national information development strategy, the research of TCM information is lagging behind due to the late start of Chinese medicine informatization and insufficient long-term investment. This paper studies the symptoms of traditional Chinese medicine in the information process of traditional Chinese medicine, and focuses on the symptoms participle and TCM syndrome of traditional Chinese medicine. Sentence similarity calculation, specific contributions are as follows: 1) study the data characteristics of Chinese medicine symptoms. On the basis of a large number of observation experiments and Internet search, they are summarized into different expressions, different understanding, vague expression, single word formation, special use of words, unstandardized words and incomplete dictionaries, the seven characteristics.2). The main algorithm, technical difficulty and evaluation index of word segmentation. The advantages and disadvantages of each algorithm are analyzed. In view of the shortcomings of the existing segmentation algorithms and the characteristics of TCM symptom data, a Chinese medicine symptom segmentation algorithm based on the two-way conditional probability statistical model and relative position is designed. Through the mutual information model, the two element grammar model is used. Comparison of the positive conditional probability model and two-way conditional probability model, the methods of this paper are improved by 13.39% and 17.88%.3 respectively compared with other algorithms in accuracy and recall. The main algorithms, technical difficulties and evaluation indexes of Chinese sentence similarity calculation are studied. The advantages and disadvantages of each algorithm in the environment of traditional Chinese medicine are analyzed. This paper improves the existing method of calculating the similarity degree of words and phrases. It puts forward the classification concept of Chinese medicine symptom words and divides them into six grades according to the importance of the symptom words. It improves the original sentence similarity calculation method based on the semantic vector based sentence similarity degree and the word importance. The new method is more than the traditional method in the sentence. The accuracy of sub similarity score is improved by 11%.4). In order to make traditional Chinese medicine algorithms easy to be used by researchers in the field of traditional Chinese medicine, this paper designs and implements a complete, easy to use and extensible data mining platform for traditional Chinese medicine from the perspective of Chinese medicine information. This platform regards all algorithms as an operator and users are connected. A combination of different operators is used to experiment.
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【参考文献】
相关期刊论文 前10条
1 孟洪宇;谢晴宇;常虹;孟庆刚;;基于条件随机场的《伤寒论》中医术语自动识别[J];北京中医药大学学报;2015年09期
2 章志华;陆海良;郁钢;;基于TFIDF算法的关键词提取方法[J];信息技术与信息化;2015年08期
3 张帆;刘晓峰;孙燕;;中医医案文献自动分词研究[J];中国中医药信息杂志;2015年02期
4 蔡勇;刘美玲;李玫;胡豪;;一种中医药行业搜索引擎的推荐词产生方式[J];计算机系统应用;2013年05期
5 钟伟金;;基于层层深入的关键词-叙词同义关系自动识别研究[J];情报科学;2013年04期
6 修驰;宋柔;;基于无监督学习的专业领域分词歧义消解方法[J];计算机应用;2013年03期
7 张五辈;白宇;王裴岩;张桂平;;一种中医名词术语自动抽取方法[J];沈阳航空航天大学学报;2011年01期
8 操牡丹;何前锋;王柏;;中医药方剂相似度模型[J];计算机工程;2009年16期
9 周扬;王振国;;基于文本内容理解的中医药数据基础研究——中医药文献语料库的建设[J];中国中医药信息杂志;2007年09期
10 刘华梅,侯汉清;基于情报检索的汉语同义词识别初探[J];情报理论与实践;2005年04期
相关会议论文 前1条
1 李月雷;师瑞峰;林丽冰;周一民;;汉语语句语义相似度的计算方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
相关博士学位论文 前3条
1 周忠眉;中医方剂数据挖掘模式和算法研究[D];浙江大学;2006年
2 李川;中医药数据挖掘系统TCMiner设计、实现与核心技术研究[D];四川大学;2006年
3 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
相关硕士学位论文 前4条
1 康生巧;中医药知识检索系统的研究与实现[D];沈阳航空航天大学;2011年
2 范岩;基于条件随机场模型的中医文献知识发现方法研究[D];北京交通大学;2009年
3 吴毅挺;DartSpora数据挖掘平台的构建及其在中医方剂领域的应用[D];浙江大学;2008年
4 吉哲;《黄帝内经·素问》四字词组英译研究[D];南京中医药大学;2007年
,本文编号:1881539
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1881539.html