基于Spark平台的医疗文本数据结构化处理研究与实现
发布时间:2022-10-22 19:13
传统的医疗文本结构化处理方法基本都是医生根据医疗临床经验对医疗文本数据进行人工处理。然而,这种医疗文本结构化处理的方式不但浪费时间和精力,并且结构化处理的准确率无法达到预期的要求。在大数据时代,日益增长的医疗数据给整个医疗行业带来了全新挑战:医院给病人进行诊疗,诊疗过程中会有大量的医疗文本生成。其中,绝大部分的医疗文本数据属于半结构化或非结构化数据。通过将半结构化或非结构化的医疗文本数据转化为计算机能够分析和处理的结构化数据,可在科研应用、临床诊疗、数据共享等方面实现新的突破。医疗文本结构化就是将半结构化或非结构化的医疗文本通过结构化处理转换为结构化数据。目前医疗文本的结构化处理主要分为两个方面:前结构化处理和后结构化处理。前结构化处理主要是通过规范的病例系统进行结构化处理,后结构化处理是通过自然语言处理来对医疗文本进行结构化处理。医疗文本结构化处理的目的就是从医疗文本中自动地提取指标名称和其对应的指标值。为此,本文首先归纳出医疗文本的结构特点和语言特点。根据这些特点,本文提出了基于词向量的医疗文本结构化处理方法。该方法主要有三个核心部分:文本预处理、新词发现和信息抽取。文本预处理需要...
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 本文的研究内容
1.4 本文的组织架构
第二章 相关技术分析与研究
2.1 文本结构化
2.2 中文分词
2.2.1 中文分词
2.2.2 中文分词软件
2.3 Word2vec简介
2.4 新词发现
2.5 信息抽取
2.6 Spark简介
2.6.1 Spark简述
2.6.2 Spark框架
2.6.3 HDFS简介
2.6.4 MapReduce原理
2.6.5 Spark和MapReduce比较
2.7 本章小结
第三章 医疗文本数据特点分析
3.1 结构特点
3.1.1 病程与记录情况文本的结构特点
3.1.2 穿刺文本的结构特点
3.2 语言特点
3.2.1 分词结构特点
3.2.2 信息抽取特点
3.3 本章小结
第四章 基于词向量的结构化处理方法
4.1 医疗文本数据预处理
4.1.1 数据清洗
4.1.2 数据集成与转换
4.1.3 数据规约
4.2 新词发现方法
4.2.1 基本定义
4.2.2 词向量
4.2.3 GetScore算法
4.3 信息抽取方法
4.3.1 基于词库的信息抽取
4.3.2 基于词性的信息抽取
4.3.3 两种信息抽取方法区别
4.4 分布式信息提取
4.4.1 文本预处理
4.4.2 中文分词
4.4.3 词向量
4.4.4 新词发现
4.4.5 信息抽取
4.5 本章小结
第五章 实验验证
5.1 实验环境
5.1.1 单机实验环境
5.1.2 Spark平台实验环境
5.2 实验数据
5.2.1 单机实验数据
5.2.2 Spark平台实验数据
5.3 性能测试与结果分析
5.3.1 词长度分析
5.3.2 新词发现性能对比实验
5.3.3 信息抽取性能对比实验
5.4 本章小结
第六章 总结与展望
6.1 工作总结
6.2 展望
参考文献
攻读学位期间的研究成果目录
致谢
【参考文献】:
期刊论文
[1]中文分词模型的领域适应性方法[J]. 韩冬煦,常宝宝. 计算机学报. 2015(02)
[2]Hadoop系统性能优化与功能增强综述[J]. 董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰. 计算机研究与发展. 2013(S2)
[3]一种改进的云存储系统容错机制[J]. 聂瑞华,张科伦,梁军. 计算机应用研究. 2013(12)
[4]基于条件随机场方法的开放领域新词发现[J]. 陈飞,刘奕群,魏超,张云亮,张敏,马少平. 软件学报. 2013(05)
[5]一种基于依存文法的需求文本策略依赖关系抽取方法[J]. 李天颍,刘璘,赵德旺,曹原. 计算机学报. 2013(01)
[6]统计与词典相结合的领域自适应中文分词[J]. 张梅山,邓知龙,车万翔,刘挺. 中文信息学报. 2012(02)
[7]一种改进的中文分词正向最大匹配算法[J]. 王瑞雷,栾静,潘晓花,卢修配. 计算机应用与软件. 2011(03)
[8]基于词内部模式的新词识别[J]. 林自芳,蒋秀凤. 计算机与现代化. 2010(11)
[9]医学语言处理技术及应用[J]. 李昊旻,段会龙,吕旭东,李莹. 中国数字医学. 2008(11)
[10]基于框架语义标注的自由文本信息抽取研究[J]. 牛之贤,白鹏洲,段富. 计算机工程与应用. 2008(25)
硕士论文
[1]实体关系自动抽取技术的比较研究[D]. 宁海燕.哈尔滨工业大学 2010
[2]基于TABLE布局和隐马尔可夫模型的Web自由文本信息抽取[D]. 陈枫.浙江大学 2007
本文编号:3696707
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 本文的研究内容
1.4 本文的组织架构
第二章 相关技术分析与研究
2.1 文本结构化
2.2 中文分词
2.2.1 中文分词
2.2.2 中文分词软件
2.3 Word2vec简介
2.4 新词发现
2.5 信息抽取
2.6 Spark简介
2.6.1 Spark简述
2.6.2 Spark框架
2.6.3 HDFS简介
2.6.4 MapReduce原理
2.6.5 Spark和MapReduce比较
2.7 本章小结
第三章 医疗文本数据特点分析
3.1 结构特点
3.1.1 病程与记录情况文本的结构特点
3.1.2 穿刺文本的结构特点
3.2 语言特点
3.2.1 分词结构特点
3.2.2 信息抽取特点
3.3 本章小结
第四章 基于词向量的结构化处理方法
4.1 医疗文本数据预处理
4.1.1 数据清洗
4.1.2 数据集成与转换
4.1.3 数据规约
4.2 新词发现方法
4.2.1 基本定义
4.2.2 词向量
4.2.3 GetScore算法
4.3 信息抽取方法
4.3.1 基于词库的信息抽取
4.3.2 基于词性的信息抽取
4.3.3 两种信息抽取方法区别
4.4 分布式信息提取
4.4.1 文本预处理
4.4.2 中文分词
4.4.3 词向量
4.4.4 新词发现
4.4.5 信息抽取
4.5 本章小结
第五章 实验验证
5.1 实验环境
5.1.1 单机实验环境
5.1.2 Spark平台实验环境
5.2 实验数据
5.2.1 单机实验数据
5.2.2 Spark平台实验数据
5.3 性能测试与结果分析
5.3.1 词长度分析
5.3.2 新词发现性能对比实验
5.3.3 信息抽取性能对比实验
5.4 本章小结
第六章 总结与展望
6.1 工作总结
6.2 展望
参考文献
攻读学位期间的研究成果目录
致谢
【参考文献】:
期刊论文
[1]中文分词模型的领域适应性方法[J]. 韩冬煦,常宝宝. 计算机学报. 2015(02)
[2]Hadoop系统性能优化与功能增强综述[J]. 董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰. 计算机研究与发展. 2013(S2)
[3]一种改进的云存储系统容错机制[J]. 聂瑞华,张科伦,梁军. 计算机应用研究. 2013(12)
[4]基于条件随机场方法的开放领域新词发现[J]. 陈飞,刘奕群,魏超,张云亮,张敏,马少平. 软件学报. 2013(05)
[5]一种基于依存文法的需求文本策略依赖关系抽取方法[J]. 李天颍,刘璘,赵德旺,曹原. 计算机学报. 2013(01)
[6]统计与词典相结合的领域自适应中文分词[J]. 张梅山,邓知龙,车万翔,刘挺. 中文信息学报. 2012(02)
[7]一种改进的中文分词正向最大匹配算法[J]. 王瑞雷,栾静,潘晓花,卢修配. 计算机应用与软件. 2011(03)
[8]基于词内部模式的新词识别[J]. 林自芳,蒋秀凤. 计算机与现代化. 2010(11)
[9]医学语言处理技术及应用[J]. 李昊旻,段会龙,吕旭东,李莹. 中国数字医学. 2008(11)
[10]基于框架语义标注的自由文本信息抽取研究[J]. 牛之贤,白鹏洲,段富. 计算机工程与应用. 2008(25)
硕士论文
[1]实体关系自动抽取技术的比较研究[D]. 宁海燕.哈尔滨工业大学 2010
[2]基于TABLE布局和隐马尔可夫模型的Web自由文本信息抽取[D]. 陈枫.浙江大学 2007
本文编号:3696707
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/3696707.html