基于弱监督学习的藏文命名实体识别研究
发布时间:2021-04-25 02:47
命名实体识别是藏文信息处理的基础性和关键性任务之一,藏文命名实体识别就是从藏语文本中发现并分类命名实体,其效果会影响后续的藏文信息抽取和信息检索等任务的性能。当前,藏文命名实体识别以监督式统计机器学习方法为主。传统的特征工程依赖于语言专家的知识和经验抽取命名实体的浅层统计特征,难以表示命名实体的语义信息,而扩大训练集的规模又面临着人工标注语料成本高昂的问题。因此,基于小规模的标注语料构建高性能的藏文命名实体识别模型具有重要的研究价值。本文研究了基于弱监督学习的藏文命名实体识别,主要工作如下:通过未标注文本学习词的分布表示,构造词表示特征表示词的语义信息,加入到藏文人名识别的统计机器学习模型中,提高了模型的识别效果。本文研究了词向量特征、二值化词向量特征、词向量聚类特征和布朗聚类特征等四种词表示特征,结合条件随机场方法构建弱监督的藏文人名识别模型。针对相关研究反映的词向量特征和二值化词向量特征在部分任务中失效的情况,创新性地提出了词表示特征的采样策略。实验表明,词表示特征能够有效表示人名实体的语义信息,将监督式统计模型的F1值由88.66%提高到91.90%。词表示特征的采样能更好地利用...
【文章来源】:中央民族大学北京市 211工程院校 985工程院校
【文章页数】:63 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 命名实体识别研究现状
1.2.2 藏文命名实体识别研究现状
1.2.3 弱监督学习研究现状
1.3 研究内容和组织结构
第二章 相关理论介绍
2.1 条件随机场
2.2 词表示方法
2.2.1 独热表示
2.2.2 分布表示
2.3 本章小结
第三章 基于词表示特征的藏文人名识别
3.1 引言
3.2 词表示特征
3.2.1 词向量
3.2.2 二值化词向量
3.2.3 词向量聚类
3.2.4 布朗聚类
3.3 特征的采样
3.4 基于词表示特征的藏文人名识别
3.4.1 藏文人名词表示特征
3.5 实验与分析
3.5.1 实验设计
3.5.2 实验结果
3.6 本章小结
第四章 结合主动学习和自学习的藏文命名实体识别
4.1 引言
4.2 基于主动学习的藏文命名实体识别
4.2.1 主动学习框架
4.2.2 基于最小置信度的主动采样策略
4.2.3 基于最大正则化对数概率的主动采样策略
4.2.4 基于内容相似度的主动采样策略
4.2.5 实验设计
4.2.6 小结
4.3 基于置信度的自学习采样
4.4 结合主动学习和自学习的藏文命名实体识别
4.4.1 结合主动学习和自学习
4.4.2 基于置信度的结合主动学习和自学习
4.4.3 基于最大正则化对数概率的结合主动学习和自学习
4.4.4 基于内容相似度的结合主动学习和自学习
4.4.5 实验设计
4.5 本章小结
第五章 总结与展望
5.1 总结
5.2 展望
参考文献
致谢
攻读学位期间发表的学术论文目录
【参考文献】:
期刊论文
[1]基于置信度的藏文人名识别的主动学习模型研究[J]. 王志娟,刘飞飞,赵小兵,宋伟. 中文信息学报. 2019(08)
[2]基于CRF和半监督学习的维吾尔文命名实体识别[J]. 王路路,艾山·吾买尔,买合木提·买买提,卡哈尔江·阿比的热西提,吐尔根·依布拉音. 中文信息学报. 2018(11)
[3]A brief introduction to weakly supervised learning[J]. Zhi-Hua Zhou. National Science Review. 2018(01)
[4]深度学习模型的藏文人名识别方法[J]. 珠杰,李天瑞. 高原科学研究. 2017(01)
[5]基于层次特征的藏文人名识别研究[J]. 刘飞飞,王志娟. 计算机应用研究. 2018(09)
[6]主动学习算法研究进展[J]. 杨文柱,田潇潇,王思乐,张锡忠. 河北大学学报(自然科学版). 2017(02)
[7]基于词表示方法的生物医学命名实体识别[J]. 李丽双,何红磊,刘珊珊,黄德根. 小型微型计算机系统. 2016(02)
[8]面向军事文本的命名实体识别[J]. 冯蕴天,张宏军,郝文宁. 计算机科学. 2015(07)
[9]主动学习与自学习的中文命名实体识别[J]. 钟志农,刘方驰,吴烨,伍江江. 国防科技大学学报. 2014(04)
硕士论文
[1]基于跨语言迁移的无监督命名实体识别研究[D]. 吴焕钦.哈尔滨工业大学 2019
[2]基于主动学习的藏文命名实体识别模型研究[D]. 刘飞飞.中央民族大学 2018
[3]主动学习方法及其应用研究[D]. 赵猛.中国科学技术大学 2018
[4]深层神经网络的藏文命名实体识别研究[D]. 贡保才让.青海师范大学 2018
[5]基于样例池类标改变率的主动学习算法终止准则研究[D]. 刘峰涛.河北大学 2011
本文编号:3158554
【文章来源】:中央民族大学北京市 211工程院校 985工程院校
【文章页数】:63 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 命名实体识别研究现状
1.2.2 藏文命名实体识别研究现状
1.2.3 弱监督学习研究现状
1.3 研究内容和组织结构
第二章 相关理论介绍
2.1 条件随机场
2.2 词表示方法
2.2.1 独热表示
2.2.2 分布表示
2.3 本章小结
第三章 基于词表示特征的藏文人名识别
3.1 引言
3.2 词表示特征
3.2.1 词向量
3.2.2 二值化词向量
3.2.3 词向量聚类
3.2.4 布朗聚类
3.3 特征的采样
3.4 基于词表示特征的藏文人名识别
3.4.1 藏文人名词表示特征
3.5 实验与分析
3.5.1 实验设计
3.5.2 实验结果
3.6 本章小结
第四章 结合主动学习和自学习的藏文命名实体识别
4.1 引言
4.2 基于主动学习的藏文命名实体识别
4.2.1 主动学习框架
4.2.2 基于最小置信度的主动采样策略
4.2.3 基于最大正则化对数概率的主动采样策略
4.2.4 基于内容相似度的主动采样策略
4.2.5 实验设计
4.2.6 小结
4.3 基于置信度的自学习采样
4.4 结合主动学习和自学习的藏文命名实体识别
4.4.1 结合主动学习和自学习
4.4.2 基于置信度的结合主动学习和自学习
4.4.3 基于最大正则化对数概率的结合主动学习和自学习
4.4.4 基于内容相似度的结合主动学习和自学习
4.4.5 实验设计
4.5 本章小结
第五章 总结与展望
5.1 总结
5.2 展望
参考文献
致谢
攻读学位期间发表的学术论文目录
【参考文献】:
期刊论文
[1]基于置信度的藏文人名识别的主动学习模型研究[J]. 王志娟,刘飞飞,赵小兵,宋伟. 中文信息学报. 2019(08)
[2]基于CRF和半监督学习的维吾尔文命名实体识别[J]. 王路路,艾山·吾买尔,买合木提·买买提,卡哈尔江·阿比的热西提,吐尔根·依布拉音. 中文信息学报. 2018(11)
[3]A brief introduction to weakly supervised learning[J]. Zhi-Hua Zhou. National Science Review. 2018(01)
[4]深度学习模型的藏文人名识别方法[J]. 珠杰,李天瑞. 高原科学研究. 2017(01)
[5]基于层次特征的藏文人名识别研究[J]. 刘飞飞,王志娟. 计算机应用研究. 2018(09)
[6]主动学习算法研究进展[J]. 杨文柱,田潇潇,王思乐,张锡忠. 河北大学学报(自然科学版). 2017(02)
[7]基于词表示方法的生物医学命名实体识别[J]. 李丽双,何红磊,刘珊珊,黄德根. 小型微型计算机系统. 2016(02)
[8]面向军事文本的命名实体识别[J]. 冯蕴天,张宏军,郝文宁. 计算机科学. 2015(07)
[9]主动学习与自学习的中文命名实体识别[J]. 钟志农,刘方驰,吴烨,伍江江. 国防科技大学学报. 2014(04)
硕士论文
[1]基于跨语言迁移的无监督命名实体识别研究[D]. 吴焕钦.哈尔滨工业大学 2019
[2]基于主动学习的藏文命名实体识别模型研究[D]. 刘飞飞.中央民族大学 2018
[3]主动学习方法及其应用研究[D]. 赵猛.中国科学技术大学 2018
[4]深层神经网络的藏文命名实体识别研究[D]. 贡保才让.青海师范大学 2018
[5]基于样例池类标改变率的主动学习算法终止准则研究[D]. 刘峰涛.河北大学 2011
本文编号:3158554
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3158554.html