中文医学术语资源的自动构建方法研究及应用
本文关键词:中文医学术语资源的自动构建方法研究及应用,,由笔耕文化传播整理发布。
【摘要】:医学术语资源对于医学语言处理技术的发展至关重要。覆盖全面和定义良好的医学术语概念以及概念间的关系,是计算机自动处理医学文本实现信息提取、文本理解和知识发现等智能应用的重要基础资源。随着医疗信息化的发展,医疗领域积累了大量的以叙述性文本为主要形式的数据,这些临床文档和报告包含了大量不能从其它数据中获得的临床信息,自动利用这些数据是许多高水平临床应用的广泛需求。然而,目前中文医学术语资源稀缺,严重地影响了相关研究的发展和技术的采用。究其原因,大型医学术语资源构建工作耗时耗力而且需要持续的维护投入,这是中文医学术语资源构建中面临的巨大挑战。本论文针对以上问题,研究基于自然语言处理技术的中文医学术语资源自动构建方法,通过这些方法基于临床语料库构建了中文医学术语资源并开展了相关评估和应用,具体内容如下:首先,利用条件随机场的机器学习算法,结合临床自由文本中术语多样性的特点,设计了一个自动迭代的新术语发现算法,在给定轻量级特定语义类型种子字典的条件下,该算法可以从临床语料库中自动迭代发现新的同类语义术语。该方法能显著提高构建语义术语资源的效率,大大降低人工采集术语的时间成本与人力成本。其次,基于机器翻译技术实现UMLS中3个常用语义类型中文化,结合上述机器学习方法从大规模临床语料中学习获得的术语资源,构建了一个多语义类型的医学术语资源。通过随机抽样的方法,对构建的术语字典进行准确性的评估;在小规模临床语料库中对该字典进行了覆盖性的评估。评估结果表明该字典的准确性和覆盖性良好,为研究组进一步开展相关研究奠定了基础。最后,以构建的术语资源为基础,在临床语料库中展开了三个应用研究,即分析症状术语在语料库中的TF-IDF分布特征,建立了包含10292条症状一解剖部位关系对的知识库,分析了语料库的子语言模式、语义和词性分布特征。为深入理解临床文本的语法、语义和语用提供了定量的指标。本论文设计了快速高效的临床医学术语资源构建的方法,为在中文领域中开展大规模医学术语知识库建设提供了有力的计算工具,同时该方法体系也可以直接服务于很多医学语言处理技术过程,实现临床信息的高效利用。
【关键词】:医学语言处理 医学术语 条件随机场 临床语料库
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1;R-05
【目录】:
- 致谢4-5
- 摘要5-6
- Abstract6-10
- 1 绪论10-17
- 1.1 研究背景与意义10-11
- 1.2 医学语言处理及术语资源国内外发展现状11-15
- 1.2.1 医学语言处理发展11-12
- 1.2.2 临床医学术语集12-14
- 1.2.3 临床医学术语集在医学语言处理中的应用14-15
- 1.3 研究目标和内容15-17
- 2 自动的医学术语发现方法研究17-33
- 2.1 条件随机场18-19
- 2.2 方法设计19-28
- 2.2.1 语料准备20
- 2.2.2 种子字典准备20-23
- 2.2.3 语义标注23-25
- 2.2.4 模板准备25
- 2.2.5 迭代条件设计25-28
- 2.3 方法评估28-32
- 2.4 本章小结32-33
- 3 中文医学术语资源的构建与评估33-41
- 3.1 中文医学术语资源的构建33-37
- 3.1.1 语料库与种子字典准备33-34
- 3.1.2 术语资源建立过程34-36
- 3.1.3 UMLS术语的机器翻译36-37
- 3.2 术语资源建立的结果37-38
- 3.3 术语字典的评估38-40
- 3.3.1 术语资源正确性评估38-39
- 3.3.2 术语资源覆盖性评估39-40
- 3.4 本章小结40-41
- 4 基于中文术语资源的应用41-54
- 4.1 临床语料库症状统计分布41-45
- 4.1.1 症状TF-IDF频率41-43
- 4.1.2 症状分布统计43-44
- 4.1.3 症状与科室关系44-45
- 4.2 症状与解剖部位知识库构建45-48
- 4.2.1 方法设计45-48
- 4.2.2 结果分析48
- 4.3 临床子语言分析48-52
- 4.3.1 方法设计49-50
- 4.3.2 结果分析50-52
- 4.4 本章小结52-54
- 5 总结与展望54-56
- 5.1 总结54-55
- 5.2 展望55-56
- 参考文献56-62
- 作者简历62
【相似文献】
中国期刊全文数据库 前10条
1 刘重光;;医学术语的特性论析[J];绍兴文理学院学报(自然科学版);2004年02期
2 本刊编辑部;;医学术语的特征[J];中华危重症医学杂志(电子版);2009年01期
3 ;医学术语规范用法选登[J];中国全科医学;2010年27期
4 ;医学术语规范用法选登[J];中国全科医学;2010年32期
5 ;医学术语规范用法选登(一)[J];中国全科医学;2010年35期
6 ;医学术语规范用法选登(二)[J];中国全科医学;2010年35期
7 张季平;医学术语构词法讲座(二)[J];新医学;1981年10期
8 张季平;医学术语构词法讲座(四)[J];新医学;1981年12期
9 李森;;应注意医学术语之正确读音[J];中国农村医学;1982年04期
10 张田勘;医学术语的命名、类别及意义[J];山东医科大学学报(社会科学版);1990年03期
中国重要会议论文全文数据库 前2条
1 胡炜华;辜小汉;;编辑工作中医学术语的正确应用[A];学报编辑论丛(第十四集)[C];2006年
2 王顺宝;;FCG的主要不足之处及待解决的问题[A];第四届全国心功能学术研讨会论文摘要集[C];1994年
中国重要报纸全文数据库 前6条
1 秦秋;2008国际医学术语研讨会在京召开[N];科技日报;2008年
2 浙江 韦正光 (主任医师);一学就懂的医学术语[N];家庭医生报;2009年
3 解国记;医学术语中的“阳痿”应由“ED”取代[N];中国医药报;2000年
4 湖北省中医院 唐莉;中医名称不必矫枉过正[N];健康报;2011年
5 主任医师 赵安;住院患者应该了解的医学术语[N];上海中医药报;2009年
6 马琏 李包罗;SNOMED CT的构成与应用[N];计算机世界;2006年
中国硕士学位论文全文数据库 前5条
1 刘彦萍;俄语医学术语的语义生成与派生研究[D];哈尔滨师范大学;2011年
2 徐静昕;俄汉语中医学术语的泛化[D];苏州大学;2015年
3 鞠美芝;中文医学术语资源的自动构建方法研究及应用[D];浙江大学;2016年
4 韩燕;中·韩医学术语对比研究[D];延边大学;2014年
5 王一杨;医学领域本体管理方法及应用系统[D];清华大学;2014年
本文关键词:中文医学术语资源的自动构建方法研究及应用,由笔耕文化传播整理发布。
本文编号:383949
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/383949.html