中文电子病历的新词发现及实体识别研究
发布时间:2021-02-08 10:18
新词发现和命名实体识别是数据挖掘领域的两个重要研究课题。新词发现技术能够识别出未登录词进而改善中文分词的精度。命名实体识别技术可以准确地识别出各类命名实体,是构建知识图谱最重要的技术之一。中文电子病历是医务人员对患者整个就诊过程的专业化记录,由于文本中包含着大量真实的临床医学知识而受到了科研工作者的关注,使用自然语言处理的技术充分挖掘出这些知识,将极大地推动医疗信息化的建设。本文的研究工作如下:(1)提出了一种改进的新词发现方法。该方法首先基于N-gram进行无监督预分词,再将词频、互信息和邻接熵作为主要特征进行新词发现。在得到候选词组后,结合网格搜索获取最优的特征阈值组合。在四个不同领域的语料上,将改进的新词发现方法与使用通用工具进行预分词的方法作对比,实验结果验证了本文的方法具备良好的领域适应性。尤其是电子病历语料,前10%的新词准确率达到了85.9%,其效果大幅超过所对比的方法。(2)针对中文电子病历的命名实体识别问题,提出了一种改进的方法。该方法首先使用无监督的新词发现方法构建领域词典,改善领域内中文分词的精度,然后采用BI-LSTM-CRF框架进行命名实体识别。在电子病历语料...
【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
入院记录Figure2.1Residentadmitrecords入院记录一般由患者的基本信息、主诉、现病史、既往史、个人史、月经史、
第三章改进的新词发现的方法25图3.3频次阈值对新词发现结果的影响Figure3.3Theinfluenceoffrequencythresholdonnewworddiscoveryresults图3.4互信息阈值对新词发现结果的影响Figure3.4Theinfluenceofmutualinformationthresholdonnewworddiscoveryresults图3.5邻接熵阈值对新词发现结果的影响Figure3.5Theinfluenceofbranchentropythresholdonnewworddiscoveryresults
第三章改进的新词发现的方法25图3.3频次阈值对新词发现结果的影响Figure3.3Theinfluenceoffrequencythresholdonnewworddiscoveryresults图3.4互信息阈值对新词发现结果的影响Figure3.4Theinfluenceofmutualinformationthresholdonnewworddiscoveryresults图3.5邻接熵阈值对新词发现结果的影响Figure3.5Theinfluenceofbranchentropythresholdonnewworddiscoveryresults
【参考文献】:
期刊论文
[1]基于CRF和BI-LSTM的命名实体识别方法[J]. 柏兵,侯霞,石松. 北京信息科技大学学报(自然科学版). 2018(06)
[2]N-gram模型综述[J]. 尹陈,吴敏. 计算机系统应用. 2018(10)
[3]基于双向LSTM神经网络电子病历命名实体的识别模型[J]. 杨红梅,李琳,杨日东,周毅. 中国组织工程研究. 2018(20)
[4]一种基于多字互信息与邻接熵的改进新词合成算法[J]. 王欣. 现代计算机(专业版). 2018(11)
[5]命名实体识别研究综述[J]. 刘浏,王东波. 情报学报. 2018(03)
[6]面向中文社交媒体语料的无监督新词识别研究[J]. 张婧,黄锴宇,梁晨,黄德根. 中文信息学报. 2018(03)
[7]面向社会媒体的开放领域新词发现[J]. 张华平,商建云. 中文信息学报. 2017(03)
[8]融合规则与统计的微博新词发现方法[J]. 周霜霜,徐金安,陈钰枫,张玉洁. 计算机应用. 2017(04)
[9]中文电子病历命名实体和实体关系语料库构建[J]. 杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰. 软件学报. 2016(11)
[10]基于互信息改进算法的新词发现对中文分词系统改进[J]. 杜丽萍,李晓戈,于根,刘春丽,刘睿. 北京大学学报(自然科学版). 2016(01)
硕士论文
[1]面向医疗领域的中文命名实体识别[D]. 薛天竹.哈尔滨工业大学 2017
[2]基于主动学习和半监督学习方法的医疗实体及其修饰识别研究[D]. 王润奇.哈尔滨工业大学 2017
本文编号:3023768
【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
入院记录Figure2.1Residentadmitrecords入院记录一般由患者的基本信息、主诉、现病史、既往史、个人史、月经史、
第三章改进的新词发现的方法25图3.3频次阈值对新词发现结果的影响Figure3.3Theinfluenceoffrequencythresholdonnewworddiscoveryresults图3.4互信息阈值对新词发现结果的影响Figure3.4Theinfluenceofmutualinformationthresholdonnewworddiscoveryresults图3.5邻接熵阈值对新词发现结果的影响Figure3.5Theinfluenceofbranchentropythresholdonnewworddiscoveryresults
第三章改进的新词发现的方法25图3.3频次阈值对新词发现结果的影响Figure3.3Theinfluenceoffrequencythresholdonnewworddiscoveryresults图3.4互信息阈值对新词发现结果的影响Figure3.4Theinfluenceofmutualinformationthresholdonnewworddiscoveryresults图3.5邻接熵阈值对新词发现结果的影响Figure3.5Theinfluenceofbranchentropythresholdonnewworddiscoveryresults
【参考文献】:
期刊论文
[1]基于CRF和BI-LSTM的命名实体识别方法[J]. 柏兵,侯霞,石松. 北京信息科技大学学报(自然科学版). 2018(06)
[2]N-gram模型综述[J]. 尹陈,吴敏. 计算机系统应用. 2018(10)
[3]基于双向LSTM神经网络电子病历命名实体的识别模型[J]. 杨红梅,李琳,杨日东,周毅. 中国组织工程研究. 2018(20)
[4]一种基于多字互信息与邻接熵的改进新词合成算法[J]. 王欣. 现代计算机(专业版). 2018(11)
[5]命名实体识别研究综述[J]. 刘浏,王东波. 情报学报. 2018(03)
[6]面向中文社交媒体语料的无监督新词识别研究[J]. 张婧,黄锴宇,梁晨,黄德根. 中文信息学报. 2018(03)
[7]面向社会媒体的开放领域新词发现[J]. 张华平,商建云. 中文信息学报. 2017(03)
[8]融合规则与统计的微博新词发现方法[J]. 周霜霜,徐金安,陈钰枫,张玉洁. 计算机应用. 2017(04)
[9]中文电子病历命名实体和实体关系语料库构建[J]. 杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰. 软件学报. 2016(11)
[10]基于互信息改进算法的新词发现对中文分词系统改进[J]. 杜丽萍,李晓戈,于根,刘春丽,刘睿. 北京大学学报(自然科学版). 2016(01)
硕士论文
[1]面向医疗领域的中文命名实体识别[D]. 薛天竹.哈尔滨工业大学 2017
[2]基于主动学习和半监督学习方法的医疗实体及其修饰识别研究[D]. 王润奇.哈尔滨工业大学 2017
本文编号:3023768
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3023768.html
最近更新
教材专著