基于神经网络的电子病历自动评分系统
发布时间:2021-09-07 10:25
电子病历的自动化评分任务是在人工智能和医疗健康交叉领域里一个重要问题,它是实现利用人工智能处理医疗文本需要迈出的第一步。电子病历被看作是医疗健康领域各种研究和应用任务的丰富资源,例如进一步了解患者健康情况、自动确定患者类别和自动对患者病情诊断并制定治疗计划。然而,在写出优秀的电子病例之前,会花掉大量的时间训练记录电子病历的人员。该过程中最重要的部分是对记录者写入的电子病历进行评分。我们建立了一种基于卷积神经网络的电子病历评分系统,并且将评分过程看作一个从评分标准到电子病历信息映射后的文本模式分类任务。这个任务框架包括两个阶段。第一阶段是评分标准与电子病历之间的关键医学概念信息进行匹配。在关键医学概念匹配中,句子之间语义信息的关联程度尤为重要。因此,我们采用了用带权重的词向量求平均值的办法去得到句子的向量,再通过句子语义的相似性来对含有关联信息的句子进行匹配。第二阶段是文本模式分类,它可以预测评分准则文本中记录的关键概念是否正确或缺失。这一个阶段,本文采用了卷积神经网络来对匹配好了的两个句子进行文本模式的分类。结果表明,我们的神经网络模型评分模型比其他传统的机器学习评分方法具有更好的性能...
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
–1神经网络构建语言模型
上海交通大学硕士学位论文第二章理论基础及背景知识来预测周边词(contextword),一个是用周边词(contextword)预测中心词(targetword)。图2–2Skip-Gram模型如图2–2所示,Skip-gram模型[7]能够从海量的文本数据中去学习高质量的词向量。正如我们前面章节所介绍的那样,Skip-gram模型不涉及到太多的密集的矩阵的乘法。因此,它的训练非常有效率。Skip-gram模型是一种基于神经网络的语言模型,它的目标任务是找到可以用来预测所需要的句子或文本片段中的上下文词汇的词向量表示,如果训练单词集合为{w1,w2,···,wn},那么Skip-gram模型就是求解最大的对数概率。在这如下公式中,k表示训练上下文的窗口有多大,越大的k值意味着更多的训练时间和更高的准确率。L=max1nn∑t=1∑k≤j≤k,j0logp(wt+j|wt)(2–4)Skip-gram的表达式通过一个softmax函数去定义了p(wt+j|wt),用vw和v′w代表w的“输入”向量和“输出”向量表达式,并且用W来表示整个词汇表中的词汇数目。p(wo|wi)=exp(v′woTvwi)∑Ww=1exp(v′wTvwi)(2–5)在算法策略方面,可以用hierarchicalsoftmax和NegativeSampling。其中,hierar-chicalsoftmax是一种效率非常高的近似算法策略。它的优点是在神经网络中不需要对W输出节点进行估计,只需要估计log2(W)就可以得到概率分布。Hierarchical—11—
上海交通大学硕士学位论文第二章理论基础及背景知识量往往会给语义上面完全不相干的单词赋予过多的权重,所以SIF用以下两种方式来解决这个问题。第一种方式是加权,就像上一小节讲到的tf-idf一样,SIF取句子中单词向量的加权平均值。每个单词嵌入由a/(a+p(w))加权,其中a是通常设置为0.001的参数,p(w)是参考语料库中单词的估计频率。第二个方式是去除公共成分,SIF为一组句子计算出embedding结果的主成分。然后从这些句子中减去它们的第一主成分上的投影。这应该消除与频率和语法相关的变化,因为这些变化在语义上的相关性较校因此,SIF对诸如“but”、“just”等不重要的单词进行权重降级,并保存对句子语义贡献最大的信息。其公式如下,vs←1|s|∑w∈sa·vw(2–16)vs←vsμμT·vs(2–17)其中,设w为单词,s为句子。vs为每个句子的向量,vw为每个词向量。2.3.3WMD度量句子向量与之前上面三种方法不同,WMD[9]可以用来直接求句子的相似度而不需要先求句子的向量。WMD不仅可以用来衡量句子之间的相似度,还可以用来衡量文本文档之间的相似度。WMD使用word2vec词向量之间距离的语义属性,将橘子表示为一组加权的词向量。例如,两个句子A和B之间的距离是单词从句子A到句子B需要移动的最小累积距离,以便精确匹配句子B的点集。图2–4显示了我们新度量的示意图。图2–4WordMover’sDistance模型的示意图WMD有以下几个有意思的性质:第一,它的超参数是自由并且易于理解和使用的;第二,它是高度可解释的,因为两个句子的距离可以细分解释为不同个—16—
本文编号:3389379
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
–1神经网络构建语言模型
上海交通大学硕士学位论文第二章理论基础及背景知识来预测周边词(contextword),一个是用周边词(contextword)预测中心词(targetword)。图2–2Skip-Gram模型如图2–2所示,Skip-gram模型[7]能够从海量的文本数据中去学习高质量的词向量。正如我们前面章节所介绍的那样,Skip-gram模型不涉及到太多的密集的矩阵的乘法。因此,它的训练非常有效率。Skip-gram模型是一种基于神经网络的语言模型,它的目标任务是找到可以用来预测所需要的句子或文本片段中的上下文词汇的词向量表示,如果训练单词集合为{w1,w2,···,wn},那么Skip-gram模型就是求解最大的对数概率。在这如下公式中,k表示训练上下文的窗口有多大,越大的k值意味着更多的训练时间和更高的准确率。L=max1nn∑t=1∑k≤j≤k,j0logp(wt+j|wt)(2–4)Skip-gram的表达式通过一个softmax函数去定义了p(wt+j|wt),用vw和v′w代表w的“输入”向量和“输出”向量表达式,并且用W来表示整个词汇表中的词汇数目。p(wo|wi)=exp(v′woTvwi)∑Ww=1exp(v′wTvwi)(2–5)在算法策略方面,可以用hierarchicalsoftmax和NegativeSampling。其中,hierar-chicalsoftmax是一种效率非常高的近似算法策略。它的优点是在神经网络中不需要对W输出节点进行估计,只需要估计log2(W)就可以得到概率分布。Hierarchical—11—
上海交通大学硕士学位论文第二章理论基础及背景知识量往往会给语义上面完全不相干的单词赋予过多的权重,所以SIF用以下两种方式来解决这个问题。第一种方式是加权,就像上一小节讲到的tf-idf一样,SIF取句子中单词向量的加权平均值。每个单词嵌入由a/(a+p(w))加权,其中a是通常设置为0.001的参数,p(w)是参考语料库中单词的估计频率。第二个方式是去除公共成分,SIF为一组句子计算出embedding结果的主成分。然后从这些句子中减去它们的第一主成分上的投影。这应该消除与频率和语法相关的变化,因为这些变化在语义上的相关性较校因此,SIF对诸如“but”、“just”等不重要的单词进行权重降级,并保存对句子语义贡献最大的信息。其公式如下,vs←1|s|∑w∈sa·vw(2–16)vs←vsμμT·vs(2–17)其中,设w为单词,s为句子。vs为每个句子的向量,vw为每个词向量。2.3.3WMD度量句子向量与之前上面三种方法不同,WMD[9]可以用来直接求句子的相似度而不需要先求句子的向量。WMD不仅可以用来衡量句子之间的相似度,还可以用来衡量文本文档之间的相似度。WMD使用word2vec词向量之间距离的语义属性,将橘子表示为一组加权的词向量。例如,两个句子A和B之间的距离是单词从句子A到句子B需要移动的最小累积距离,以便精确匹配句子B的点集。图2–4显示了我们新度量的示意图。图2–4WordMover’sDistance模型的示意图WMD有以下几个有意思的性质:第一,它的超参数是自由并且易于理解和使用的;第二,它是高度可解释的,因为两个句子的距离可以细分解释为不同个—16—
本文编号:3389379
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3389379.html
最近更新
教材专著