基于条件随机场的《伤寒论》中医术语自动识别研究
本文关键词:基于条件随机场的《伤寒论》中医术语自动识别研究,由笔耕文化传播整理发布。
【摘要】:中医古籍是中医学的主要知识资源,蕴藏着丰富的临床经验知识,这些经验多以文献的形式加以记录并传播。研究中医的古籍文献,进一步开发及整理中医的文本信息,可为中医文本的知识发现提供素材。然而,中医书籍汗牛充栋,在经历了数千年的历史变迁后,汉语语法和表达方式形成了巨大的古今差异,同时,中医术语也被赋予了独特的表达形式。因此,在信息技术高速发展的今天,利用最新科技领域的技术和方法解决中医发展中面临的问题,也成为了历史的需要。信息抽取技术可以利用计算机对文本信息进行针对性抽取,以结构化的形式将结果储存到数据库中,这种技术为人们从大量的信息数据中高效、准确的找到自己真正需要的信息提供帮助,也为中医诊疗信息化平台的建设奠定基础。 术语识别是信息抽取准确与否的重要环节,也是领域知识发现、机器翻译、自动问答、知识抽取、信息检索、文本挖掘等应用研究领域的基础。本文通过对目前常用的几种术语识别方法进行了对比分析,认为基于统计和规则相结合的方法更适用于中医文献的研究。通过介绍四种常用的统计模型:隐马尔科夫模型、最大熵模型、最大熵马尔科夫模型和条件随机场模型,分析了这些模型分别应用于中医术语抽取时的优势与不足,本研究最终选定条件随机场模型进行中医术语抽取实验,并对该算法的应用方法进行了详细阐述。《伤寒论》作为中医四大经典著作之一,贯穿并指导着临床实践,其学术价值和实用价值经久不衰。以《伤寒论》作为文本对象,利用条件随机场算法对其进行术语识别研究,以期实现中医术语自动识别模型,并为中医信息化的发展提供参考。 本研究的目的:(1)从中医信息化发展的角度出发,实现中医术语的自动识别过程,为下一步中医诊疗信息化平台的建设提供基础支持。(2)从术语识别模型的性能出发,采用条件随机场融合多特征的方法,进行不同特征组合的多组对比实验,寻找对模型性能影响最佳的特征组合。(3)从中医学文本的研究角度出发,试图寻求可以帮助医学研究者从中医古籍文本中自动获取知识的方法,为中医学者们的进一步研究提供一个可用的辅助工具。 方法:本论文是在国家自然科学基金项目“基于自动问答系统的中医诊疗认知模式研究(No.81072897)”和“基于系统复杂性的中医诊疗信息集成可视化建模研究(No.81273876)”的资助下进行的。实验选用明·赵开美的复刻宋本《伤寒论》作为文本对象;开源软件CRF++0.58工具包作为条件随机场模型的实现。(1)首先分析了目前分词方法的不足及其在中医文本分词应用中的局限,选定采用基于字的分词方法进行术语识别实验。(2)然后对文本进行数据清洗,特征的选择与标注,特征模板编写等准备工作。(3)根据实验设计的不同,将测试文本和训练文本按要求分为四组:字符本身、类别标签;字符本身、词边界、类别标签;字符本身、词性、类别标签;字符本身、词性、词边界、类别标签。(4)把训练文本和事先编写好的特征模板文件带入到CRF++训练工具包中,获得一个模型文件。(5)再把上一步获得的模型文件和测试文本带入到CRF++测试工具包中,获得识别结果。(6)对结果进行测评,分析四组不同实验的识别性能差异。 结果:(1)从对照组和实验组来看,特征的引入大大提高了模型的识别效能;(2)从实验二和实验三来看,实验二准确率、召回率和F值均高于实验三,说明引入“词边界”特征比引入“词性”特征更有助于提高模型的性能;(3)从实验四和其它三组实验结果来看,引入字本身、词边界、词性、类别标签的组合特征,无论是准确率、召回率、还是F值,都较其他实验高,说明该组合特征模型的识别效能最优。 结论:(1)本实验利用计算机实现了《伤寒论》中医术语的识别研究,并且得到了较为良好的识别效果。(2)从实验结果可以看出,即使是性能最好的第四组实验,其结果仍与目前的生物医学领域命名实体识别和英文新闻领域命名实体识别结果存在差距。其原因可能是受到《伤寒论》语法及术语特点的影响。如“发汗吐下后,虚烦不得眠”、“寸口脉浮大,而医反下之”与“脉浮而大,心下反硬”,这里的“下”在第一条和第二条里均是指中医治法中的“下法”,在第三条中仅代表方位词,诸如这样的词为术语识别的准确率带来了影响。(3)本论文在前人工作的基础上,提出了基于条件随机场的《伤寒论》中医术语自动识别方法,实验表明引入多特征融合的模型比单一特征的模型效能要好,可以推断,引入更多的特征或许会进一步提高实验结果。(4)信息抽取技术在中医结构化电子病历及中医专业领域搜索引擎建立中发挥重要的基础作用,对此展开研究为中医信息化的发展带来重要的现实意义。(5)针对当前的术语自动识别现状,下一步工作需要借助计算机技术的发展,继续扩充训练文本的大小,提炼出更多有效的特征,完善数据处理及模板规则,探索更加有效的识别模型。
【关键词】:《伤寒论》 术语抽取 条件随机场 中医术语
【学位授予单位】:北京中医药大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:R222.2
【目录】:
- 中文摘要5-7
- Abstract7-10
- 前言10-11
- 文献综述11-21
- 1. 研究背景和意义11-12
- 2. 相关技术研究现状与进展12-18
- 2.1 信息抽取技术研究12-14
- 2.2 信息抽取技术的分类14-15
- 2.3 命名实体识别研究15-18
- 3. 医学术语识别研究进展18-19
- 3.1 生物医学术语识别研究进展18-19
- 3.2 中医术语识别研究现状19
- 4. 本章小结19-21
- 第一章 条件随机场模型在中医术语识别中的优势21-30
- 1. 统计模型概述21
- 2. 基于条件随机场的中医术语识别模型概要21-23
- 3. 其他常用的术语识别统计模型23-27
- 3.1 隐马尔科夫模型23-25
- 3.2 最大熵模型25-26
- 3.3 最大熵马尔科夫模型26-27
- 4. 四种模型应用于中医术语识别的优势比较27-29
- 5. 本章小结29-30
- 第二章 基于条件随机场的《伤寒论》术语识别研究30-41
- 1. 研究对象及工具的使用30-34
- 1.1 文本选择30
- 1.2 实验环境30
- 1.3 CRF++工具包的格式要求30-32
- 1.4 特征模板的准备32-33
- 1.5 执行过程33-34
- 2. 分词方法的选择34-36
- 2.1 中文文本分词方法34-35
- 2.2 基于词的分词方法的局限性35-36
- 2.3 基于字的分词方法的适用性36
- 3. 《伤寒论》文本预处理36-38
- 3.1 数据清洗36-37
- 3.2 特征选择37-38
- 3.3 类别标识38
- 4. 《伤寒论》术语识别方法38-39
- 4.1 术语识别的步骤38-39
- 4.2 术语识别的框架39
- 5. 本章小结39-41
- 第三章 基于条件随机场的《伤寒论》术语识别实验验证、结果与分析41-49
- 1. 基于条件随机场的《伤寒论》术语识别实验设计41
- 2. 数据示例及实验结果41-46
- 3. 实验测评标准46
- 4. 基于条件随机场的《伤寒论》术语识别结果分析46-48
- 5. 本章小结48-49
- 第四章 术语抽取技术在中医领域的应用展望49-51
- 1. 信息抽取技术辅助电子病历实现结构化49
- 2. 信息抽取技术为中医专业领域搜索引擎的建立提供支持49-51
- 结论51-52
- 参考文献52-56
- 致谢56-57
- 个人简历57
【参考文献】
中国期刊全文数据库 前10条
1 张五辈;白宇;王裴岩;张桂平;;一种中医名词术语自动抽取方法[J];沈阳航空航天大学学报;2011年01期
2 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
3 刘豹;张桂平;蔡东风;;基于统计和规则相结合的科技术语自动抽取研究[J];计算机工程与应用;2008年23期
4 郑家恒;菅小艳;;农作物信息抽取系统的设计与实现[J];计算机工程;2006年07期
5 郑强;刘齐军;王正华;朱云平;;生物医学命名实体识别的研究与进展[J];计算机应用研究;2010年03期
6 卢炳卫;;关于自动问答技术的研究[J];农业图书情报学刊;2006年01期
7 姜吉发,王树西;一种自举的二元关系和二元关系模式获取方法[J];中文信息学报;2005年02期
8 袁毓林;;语义角色的精细等级及其在信息处理中的应用[J];中文信息学报;2007年04期
9 冯志伟;;一个新兴的术语学科——计算术语学[J];术语标准化与信息技术;2008年04期
10 祝清松;冷伏海;;自动术语识别存在的问题及发展趋势综述[J];图书情报工作;2012年18期
中国博士学位论文全文数据库 前1条
1 孙承杰;基于判别式模型的生物医学文本挖掘相关问题研究[D];哈尔滨工业大学;2008年
本文关键词:基于条件随机场的《伤寒论》中医术语自动识别研究,由笔耕文化传播整理发布。
,本文编号:416805
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/416805.html