基于免疫学原理的词表示及其应用研究

发布时间:2017-09-02 04:29

  本文关键词:基于免疫学原理的词表示及其应用研究


  更多相关文章: 词表示 词主体 词相似度 关系相似度 命名实体识别 适应性免疫学原理 基于主体建模


【摘要】:自然语言处理研究主要应用机器学习方法,需要对词进行数学表示。词表示就是采用数学形式用词的属性对词进行的表示,在现有研究中,词一般表示成向量,向量的每一维对应词的属性。词表示的学习可以事先独立于具体任务和模型,一旦词表示学习完毕,学习到的词表示可以共享给其他研究人员并整合到现有的自然语言处理研究中。词表示对自然语言处理研究至关重要,已广泛应用于词相似度计算、关系相似度计算、词性标注、句法分析、命名实体识别、情感分析等自然语言处理任务。词表示方法的理论根源是分布式语义假设,即出现在相同上下文的词倾向于表达相似的意义。所以现有词表示研究大多基于大规模语料,应用统计机器学习方法从词的上下文中学习词的向量表示。由于大多数统计机器学习方法缺乏持续学习能力,词表示只能是在给定规模的语料上一次性学习完成。所以现有词表示方法最大的问题就是缺乏持续学习能力,适应性较差,制约了词表示的进一步应用。本文借鉴人体适应性免疫学原理,构建多词主体自治学习模型从语料中学习词表示,试图解决这一问题。首先,本文系统地分析了语言和免疫系统的一致性,奠定本文研究的理论基础;然后,基于一致性,把词模拟成免疫细胞,引入克隆选择原理和免疫网络理论构建多词主体自治学习模型学习词表示;其次,在词相似度计算和关系相似度计算这两个任务上对本文提出的词表示方法进行了评价,这两个任务同时也是词表示的直接应用;最后把词表示应用到中文电子病历命名实体识别这一代表性的信息抽取任务中。主要研究内容包括以下五个方面:1.系统地比较了语言和免疫系统的一致性,深入分析了语言和免疫系统的一致性对词表示研究的重要启发。语言和免疫系统的一致性是本课题的理论基础,一致性对比分析从三个方面展开,首先是学习特点的一致性,都具有持续学习特性;其次是作为语言的最小单位词和免疫系统的重要细胞B细胞存在深刻的一致性;最后是由词组成的语言网络和由B细胞组成的额免疫网络都具有复杂网络特性。这三方面的一致性对模型的设计提供了重要启发,指导词表示学习模型的构建。2.提出基于免疫学原理的词表示方法和多词主体自治学习模型学习词的表示。在面向自治计算框架下采用主体建模方法,引入适应性免疫学原理(克隆选择原理和免疫网络理论),构建多词主体自治学习模型,该模型是一种在线学习模型。模型将词模拟成B细胞,将词的属性表示支配属性向量和依赖属性向量,并模拟成B细胞受体,词之间的依存关系模拟成B细胞之间的识别关系,识别方式是一个词的支配属性向量和另一个词的依赖属性向量进行匹配。在免疫学原理的作用下,模型调节词之间的结合强度,进而学习词的表示。3.基于本文的词表示方法提出一种词相似度计算方法,并通过实验验证词表示方法和词相似度计算方法的有效性。本文的词表示方法把词表示成两个向量,一个代表词的支配属性向量,另一个代表依赖属性向量;本文扩展分布式语义假设为“具有相似的支配上下文和相似的依赖上下文的两个词是相似的”,因此词相似度值需要考虑两个词在支配属性向量上的相似度和依赖属性上的相似度。该方法在评价数据上取得了有效的评价结果。4.基于本文的词表示方法提出一种词关系表示方法和词关系相似度计算方法,并通过实验验证词表示方法和词关系相似度计算方法的有效性。本文把词的结合关系泛化成语义关系,因而把一个词的支配属性向量和另一个词的依赖属性向量匹配后得到的向量作为关系的表示。词之间的关系存在方向性,因此本研究把词的关系表示成两个向量,一个代表词之间的正向关系,一个代表词之间的反向关系,分别对应于词之间的两种结合方式;基于这样的关系表示,本文认为只有在正向关系上和反向关系上同时相似的两个关系对才相似,因此关系相似度值需要考虑两个关系对在正向关系向量上的相似度和反向关系向量上的相似度。该方法在评价数据上取得了有效的评价结果。5.基于本文的词表示方法,引入词表示到命名实体识别模型中,提升中文电子病历命名实体识别的性能。本文首先抽取电子病历中的词,然后从新闻语料上学习到的词表示集中取得词的向量表示,对病历中的词进行聚类,然后把词的聚类作为命名实体识别模型的特征,实现了领域间知识的迁移。对比实验表明本文的词表示能有效提升中文电子病历命名实体识别的性能。综上所述,针对现有词表示方法缺乏持续学习能力这一不足,本文受语言和免疫系统的一致性启发,把词模拟成免疫细胞,基于适应性免疫学原理构建多词主体自治学习模型学习词的表示,并在词相似度计算、词关系相似度计算验证有效,而且成功应用于中文电子病历命名实体识别,取得了一些初步的研究成果。我们期待这些研究成果能够进一步推动自然语言处理领域持续学习研究的发展。
【关键词】:词表示 词主体 词相似度 关系相似度 命名实体识别 适应性免疫学原理 基于主体建模
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 摘要4-6
  • ABSTRACT6-15
  • 第1章 绪论15-36
  • 1.1 课题背景与意义15-17
  • 1.1.1 课题的背景15-17
  • 1.1.2 课题的意义17
  • 1.2 研究现状及分析17-33
  • 1.2.1 词表示与应用研究18-27
  • 1.2.2 人工免疫系统研究27-33
  • 1.3 本文的研究内容33-35
  • 1.4 本文的章节安排35-36
  • 第2章 语言和免疫系统的一致性研究36-48
  • 2.1 引言36-37
  • 2.2 语言和免疫系统的一致性对比37-42
  • 2.2.1 学习特点的一致性37
  • 2.2.2 词和免疫细胞的一致性37-39
  • 2.2.3 语言和免疫系统宏观特性的一致性39-42
  • 2.3 语言和免疫系统的一致性对本研究的启发42-46
  • 2.3.1 模型的在线学习框架42
  • 2.3.2 词模拟成B细胞42-43
  • 2.3.3 词之间的依存关系模拟成B细胞之间的识别关系43-44
  • 2.3.4 语言网络模拟成免疫网络44-45
  • 2.3.5 采用多主体建模方法45-46
  • 2.4 本章小结46-48
  • 第3章 基于免疫学原理的词表示及其自治学习模型48-64
  • 3.1 引言48-49
  • 3.2 基于免疫学原理的词表示方法49-50
  • 3.3 多词主体自治学习模型50-57
  • 3.3.1 模型定义51
  • 3.3.2 环境51-52
  • 3.3.3 词主体52-55
  • 3.3.4 系统目标函数55-56
  • 3.3.5 模型概要与参数56-57
  • 3.4 实验结果与分析57-63
  • 3.4.1 实验数据和实验设计57-58
  • 3.4.2 实验结果58-62
  • 3.4.3 分析62-63
  • 3.5 本章小结63-64
  • 第4章 基于B细胞词表示的词相似度计算64-74
  • 4.1 引言64
  • 4.2 相关工作64-66
  • 4.3 基于B细胞词表示的词相似度计算66-67
  • 4.4 实验结果与分析67-73
  • 4.4.1 初步实验结果67-69
  • 4.4.2 在Sem Eval-2012 Task 4 数据上的实验结果69-73
  • 4.4.3 分析73
  • 4.5 本章小结73-74
  • 第5章 基于B细胞词表示的关系相似度计算74-90
  • 5.1 引言74-75
  • 5.2 相关工作75-77
  • 5.3 基于B细胞词表示的关系相似度计算77-80
  • 5.3.1 关系的表示78-79
  • 5.3.2 关系相似度计算79-80
  • 5.4 实验结果与分析80-89
  • 5.4.1 在Sem Eval-2012 Task 2 数据上的实验结果80-88
  • 5.4.2 分析88-89
  • 5.5 本章小结89-90
  • 第6章 引入B细胞词表示的中文电子病历命名实体识别90-102
  • 6.1 引言90-92
  • 6.2 相关工作92-94
  • 6.3 中文电子病历命名实体识别94-97
  • 6.3.1 中文电子病历命名实体分类体系94-95
  • 6.3.2 中文电子病历文本中词的聚类方法95-97
  • 6.3.3 基于词聚类的中文电子病历命名实体识别97
  • 6.4 实验结果与分析97-101
  • 6.4.1 实验数据和评价指标97-98
  • 6.4.2 实验结果98-100
  • 6.4.3 分析100-101
  • 6.5 本章小结101-102
  • 结论102-104
  • 参考文献104-121
  • 攻读博士学位期间发表的论文及其它成果121-124
  • 致谢124-126
  • 个人简历126


本文编号:776408

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/776408.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户25e93***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com