非结构化文本是我军政策、命令、指示等信息的主要载体,在军事信息传递中发挥着重要作用。长期以来,军事文本信息处理主要以人工方式为主,受限于人的专业知识和工作效率,与军事信息化、智能化发展的要求日益不相适应。如何实现军事文本信息自动化、智能化处理,成为一项亟待研究的课题。自然语言处理是近年来发展迅速的一门语言学、数学和计算机科学交叉的学科,主要研究如何让计算机准确处理、理解人类的语言文本。作为一种高效的文本信息处理方式,自然语言处理技术在军事文本信息处理领域应用前景广阔。本文在分析军事领域文本特点的基础上,采用面向自然语言处理的统计学习和深度神经网络模型,对军事文本分词、词性标注和依存句法分析等问题作了深入研究,目的是将非结构化文本处理成易于计算机理解的中间形式,为下一步工作奠定基础。由于军事文本领域词语数量较多、长度偏长,导致普通分词方法切分效果并不理想。本文通过分析军事领域文本特点和术语特点,设计了一种统计模型与领域词典相结合的分词方案。该方案在现有条件随机场(CRF)分词模型基础上,采用针对领域长术语的长词位标记法,利用专用领域词典校正初步分词结果,提升领域词语识别率。在小规模领域语料库上进行实验测试,结果表明该方案分词效果优于CRF直接切分效果,并具有良好的可扩展性。针对传统的基于统计模型的词性标注存在人工特征依赖的问题,提出了一种基于注意力长短时记忆网络(LSTM)的词性标注模型。该模型在网络隐含层引入注意力机制,为各时刻隐单元分配不同权重大小,使隐含层更加关注重要特征;在输出层加入标签状态转移概率矩阵,利用标签间转移特征提升序列解码效果。实验结果表明,该模型标注准确率接近当前最佳模型,并具有结构简单、无需人为设计特征等优点。针对现有的基于LSTM的依存句法分析对句子全局结构特征关注不够的问题,提出了一种结合全局向量特征的依存句法分析模型。该模型中设计了一种分段池化的卷积神经网络(CNN)用于提取全局向量特征,并加入到LSTM句法分析模型,提升其全局关注能力。实验结果表明,与现有仅使用LSTM或CNN的句法分析模型相比,该模型在保证一定效率的同时,有效提升了依存句法分析准确率。
【学位单位】:战略支援部队信息工程大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:E91
【参考文献】
相关期刊论文 前10条
1 韩霞;黄德根;;基于半监督隐马尔科夫模型的汉语词性标注研究[J];小型微型计算机系统;2015年12期
2 韩冬煦;常宝宝;;中文分词模型的领域适应性方法[J];计算机学报;2015年02期
3 张凤;高航;;自然语言处理技术在西方国家军事领域的应用现状[J];国防科技;2014年06期
4 穆雷;王祥兵;;军事翻译研究的现状与展望[J];外语研究;2014年01期
5 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[J];中文信息学报;2012年02期
6 于江德;葛彦强;余正涛;;基于条件随机场的汉语词性标注[J];微电子学与计算机;2011年10期
7 何径舟;王厚峰;;基于特征选择和最大熵模型的汉语词义消歧[J];软件学报;2010年06期
8 朱聪慧;赵铁军;郑德权;;基于无向图序列标注模型的中文分词词性标注一体化系统[J];电子与信息学报;2010年03期
9 梁晓波;刘伍颖;孟凡礼;;信息化条件下的军事语料库应用[J];国防科技;2008年02期
10 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
相关博士学位论文 前1条
1 李正华;汉语依存句法分析关键技术研究[D];哈尔滨工业大学;2013年
相关硕士学位论文 前3条
1 宋瑞亮;面向军事领域的命名实体识别及相关信息提取关键技术研究[D];哈尔滨工业大学;2016年
2 杨晓冬;基于本体的作战文书分词的关键技术研究[D];杭州电子科技大学;2014年
3 马学U
本文编号:2810908
本文链接:https://www.wllwen.com/kejilunwen/jingguansheji/2810908.html