面向中医文本的关系抽取技术研究
发布时间:2021-11-04 21:34
随着时代的进步创新,自然语言处理技术也逐渐的应用到中医领域。其中关系抽取旨在挖掘和抽取实体间的关系,或通过预定义的关系抽取目标实体的对应属性。研究内容总体上围绕“实体”和“关系”两个概念展开。因此课题的内容主要包含以下两个部分:首先研究中医文本实体识别的方法。基于统计的机器学习方法比较依赖于人工特征的选择,需要手动从文本中选取各种能够高效表征任务的特征,并将这些特征融入进模型所能识别的特征向量中,后来又提出了一种不仅能够保留句子的上下文关联信息,同时也可以提取相应属性特征的神经网络——双向长短记忆神经网络。研究表明,该神经网络对于时间序列的标注通常可以取得很好的效果。课题采用了双向长短记忆神经网络和条件随机场相结合的模型来实现对于中医文本实体对的识别。其次研究中医文本实体关系抽取的方法。传统的基于机器学习的实体关系抽取方法需要手动选取一些离散特征。针对不同领域的文本,专业性强,更多的是依赖领域专家的经验与判断。由于特征类型的选取直接影响到最终的抽取结果,很多时候,无法预知预先定义的特征是否有效,特征数量的选取也没有既定的规范,实际应用起来也是难度很大。近年来新提出的基于深度学习原理的关...
【文章来源】:华北理工大学河北省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
sigmod函数图
值域的两端且十分平缓,表明输入值对神经元的刺激较小,该区域也被称为神的抑制区[32]。该激活函数也有许多的不足,并不适合所有的神经网络。函数两梯度十分小,接近于 0,只有在原点两端,函数的梯度才有明显的变化。神经训练过程中,通过反向传播跟新模型中的权重参数时,过程中经过 Sigmod 函,容易造成权重参数不能有效的降低模型的损失函数,这样对于权重的更新也了意义,这样的现象叫做梯度弥散。函数图像不是以 0 为中心的,这样会使权重更新效率降低。Sigmod 函数要进数运算,这个对于计算机来说是耗时较长。.2 tanh 函数函数公式:xxxxeeeexxx cosh()sinh()tanh( )函数图如下图 2:
图 3 ReLU 函数Fig.3 ReLU function diagramReLU(Rectified Linear Unit)函数是目前应用较为广泛一个激活函数,相od 函数和tanh 函数,它有以下几个优点:1)在输入为正数的时候,不存在梯度饱和问题;2)计算速度要快很多。ReLU 函数只有线性关系,不管是前向传播还是反都比 Sigmod 和 tanh 要快很多。同样,ReLU 函数也存在如下缺点:1)当输入的值比零小,激活函数的输出恒为零,通常这意味着函数对于负为零。在前向传播过程中,并不会引起太大的问题。但是到了反向传播过程为负,梯度就会只能为0 ,这个和sigmod 函数、tanh 函数有一样的问题;2)ReLU 函数的输出要么是 0,要么是正数,这也就是说,ReLU 函数也不心的函数。
【参考文献】:
期刊论文
[1]关系抽取技术的研究[J]. 赵立鹏,张若伟. 计算机产品与流通. 2018(09)
[2]论中医“证”及“辨证论治”[J]. 朱敬,朱翰学. 中华中医药杂志. 2017(01)
[3]实体词语义信息对中文实体关系抽取的作用研究[J]. 段利国,徐庆,李爱萍,崔敏君. 计算机应用研究. 2017(01)
[4]基于减法聚类的合并最优路径层次聚类算法[J]. 朱琪,张会福,杨宇波,杨泉清. 计算机工程. 2015(06)
[5]信息抽取研究综述[J]. 郭喜跃,何婷婷. 计算机科学. 2015(02)
[6]基于群体智能的半结构化藏文文本聚类算法[J]. 康健,乔少杰,格桑多吉,韩楠,洪西进,尼玛扎西,范小刚. 模式识别与人工智能. 2014(07)
[7]面向大数据集的有效聚类算法[J]. 古凌岚. 计算机工程与设计. 2014(06)
[8]一种改进的文化萤火虫算法[J]. 袁锋,陈守强,刘弘,钟安帅. 计算机仿真. 2014(06)
[9]基于凸组合核函数的中文领域实体关系抽取[J]. 陈鹏,郭剑毅,余正涛,线岩团,严馨,魏斯超. 中文信息学报. 2013(05)
[10]高效挖掘高血压医案关联规则的模型构建[J]. 袁锋,陈守强. 计算机工程与应用. 2011(36)
博士论文
[1]中医医案文本挖掘的若干关键技术研究[D]. 袁锋.山东师范大学 2016
[2]基于文本的领域本体学习方法及其应用研究[D]. 于娟.大连理工大学 2010
[3]面向本体学习的粒计算方法研究[D]. 邱桃荣.北京交通大学 2009
[4]文本挖掘在中医药中的若干应用研究[D]. 周雪忠.浙江大学 2004
硕士论文
[1]基于特征向量的人物关系抽取方法研究[D]. 范少帅.华东交通大学 2015
本文编号:3476453
【文章来源】:华北理工大学河北省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
sigmod函数图
值域的两端且十分平缓,表明输入值对神经元的刺激较小,该区域也被称为神的抑制区[32]。该激活函数也有许多的不足,并不适合所有的神经网络。函数两梯度十分小,接近于 0,只有在原点两端,函数的梯度才有明显的变化。神经训练过程中,通过反向传播跟新模型中的权重参数时,过程中经过 Sigmod 函,容易造成权重参数不能有效的降低模型的损失函数,这样对于权重的更新也了意义,这样的现象叫做梯度弥散。函数图像不是以 0 为中心的,这样会使权重更新效率降低。Sigmod 函数要进数运算,这个对于计算机来说是耗时较长。.2 tanh 函数函数公式:xxxxeeeexxx cosh()sinh()tanh( )函数图如下图 2:
图 3 ReLU 函数Fig.3 ReLU function diagramReLU(Rectified Linear Unit)函数是目前应用较为广泛一个激活函数,相od 函数和tanh 函数,它有以下几个优点:1)在输入为正数的时候,不存在梯度饱和问题;2)计算速度要快很多。ReLU 函数只有线性关系,不管是前向传播还是反都比 Sigmod 和 tanh 要快很多。同样,ReLU 函数也存在如下缺点:1)当输入的值比零小,激活函数的输出恒为零,通常这意味着函数对于负为零。在前向传播过程中,并不会引起太大的问题。但是到了反向传播过程为负,梯度就会只能为0 ,这个和sigmod 函数、tanh 函数有一样的问题;2)ReLU 函数的输出要么是 0,要么是正数,这也就是说,ReLU 函数也不心的函数。
【参考文献】:
期刊论文
[1]关系抽取技术的研究[J]. 赵立鹏,张若伟. 计算机产品与流通. 2018(09)
[2]论中医“证”及“辨证论治”[J]. 朱敬,朱翰学. 中华中医药杂志. 2017(01)
[3]实体词语义信息对中文实体关系抽取的作用研究[J]. 段利国,徐庆,李爱萍,崔敏君. 计算机应用研究. 2017(01)
[4]基于减法聚类的合并最优路径层次聚类算法[J]. 朱琪,张会福,杨宇波,杨泉清. 计算机工程. 2015(06)
[5]信息抽取研究综述[J]. 郭喜跃,何婷婷. 计算机科学. 2015(02)
[6]基于群体智能的半结构化藏文文本聚类算法[J]. 康健,乔少杰,格桑多吉,韩楠,洪西进,尼玛扎西,范小刚. 模式识别与人工智能. 2014(07)
[7]面向大数据集的有效聚类算法[J]. 古凌岚. 计算机工程与设计. 2014(06)
[8]一种改进的文化萤火虫算法[J]. 袁锋,陈守强,刘弘,钟安帅. 计算机仿真. 2014(06)
[9]基于凸组合核函数的中文领域实体关系抽取[J]. 陈鹏,郭剑毅,余正涛,线岩团,严馨,魏斯超. 中文信息学报. 2013(05)
[10]高效挖掘高血压医案关联规则的模型构建[J]. 袁锋,陈守强. 计算机工程与应用. 2011(36)
博士论文
[1]中医医案文本挖掘的若干关键技术研究[D]. 袁锋.山东师范大学 2016
[2]基于文本的领域本体学习方法及其应用研究[D]. 于娟.大连理工大学 2010
[3]面向本体学习的粒计算方法研究[D]. 邱桃荣.北京交通大学 2009
[4]文本挖掘在中医药中的若干应用研究[D]. 周雪忠.浙江大学 2004
硕士论文
[1]基于特征向量的人物关系抽取方法研究[D]. 范少帅.华东交通大学 2015
本文编号:3476453
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3476453.html
最近更新
教材专著