当前位置:主页 > 科技论文 > 软件论文 >

政务公文命名实体识别方法研究及应用

发布时间:2024-12-21 20:59
  目前每年政务公文的数量成倍增加,能从中批量的自动的识别、处理和抽取相应的对象并对所有的公文中的人员、组织、机构、职级、职务等属性完成系统的分析和管理。要完成系统的分析和管理其基础是对公文命名实体的识别,因此对于研究命名实体识别有着重大意义。命名实体识别的主要任务是识别出文本具有特殊意义的词或者短文本,包括人名、地方名等,当前命名实体识别问题已经有很多的关注。命名实体识别主流的方法基于机器学习、基于深度学习的方法。本文只针对机器学习方法和深度学习方法进行研究。本文首先详细研究了机器学习的条件随机场方法,通过CRF模型识别出政务公文中的命名实体,并进行了验证实验。之后,用深度学习的循环神经网络(RNN,Recurrent Neural Network)的一个 Bi-LSTM(Bi-directional Long-Short Term Memory)双向长短记忆法进行命名实体识别。其中对Bi-LSTM模型进行命名实体识别,通过在政务公文领域的语料进行大量的实验,实验结果发现在命名实体识别中,双向LSTM模型能够达到比CRF模型更佳的效果。此外本章最主要的研究是将Bi-LSTM和CRF两种方法...

【文章页数】:84 页

【学位级别】:硕士

【部分图文】:

图2-1链式结构??Fig.2-1?Chain?Structures??

图2-1链式结构??Fig.2-1?Chain?Structures??

?北京化工大学硕士学位论文???x?=?xl7x2,...,x???图2-1链式结构??Fig.2-1?Chain?Structures??就是X,?Y,,Y2,那么对应的条件概率(这里以Y2为例求解)那么应该写成如公式(2??-2)下:??P?(Y2|X,Y,,Y2,Y3.......


图2-2长短记忆模块??Fig.2-2?Long-Short?Term?Memory?Module??

图2-2长短记忆模块??Fig.2-2?Long-Short?Term?Memory?Module??

法介绍??LSTM可以在匹配输入和输出序列时使用与上下文相关的信息,并且标准递归祌??经网络(RNN)可访问的上下文信息的范围是有限的。该问题导致隐藏层的输入对??网络输出的影响随着网络循环的重现而降低。因此,为了解决这个问题,长期和短??期记忆结构(LSTM)诞生了。长期和短期....


图2-3长双向长短时记忆模块??Fig.2-3?Bi?Long-Short?Term?Memory?Module??在Forward层从1时刻到t时刻正向计算一遍,得到并保存每个时刻向前隐含层??

图2-3长双向长短时记忆模块??Fig.2-3?Bi?Long-Short?Term?Memory?Module??在Forward层从1时刻到t时刻正向计算一遍,得到并保存每个时刻向前隐含层??

若干输入和后面若干输入共同决定,这样会更加准确。因此提出了双??向循环神经网络,网络结构如下图。可以看到Forward层和Backward层同连接着输??出层,其中包含了?6个共享权值wl-w6。??Output?Layer??t\?T\?t\??w6?\?w6?\?w6??Ba....


图2-4(a)公文示例??Fig.2-4(a)?government?official?document?example??14??

图2-4(a)公文示例??Fig.2-4(a)?government?official?document?example??14??

构比较复杂,??并且有很多新的名词和设定。??第二,岗位和职级中相互的指代和设定。并且其的命名实体指代不清晰,所有的??命名实体的相互影响识别,制约了岗位的识别,如“副局级”,“副局长”??第四,命名实体的在政务公文中没有固定的长度和格式。两个字(“纪委”、“网信??办”),(“....



本文编号:4018900

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/4018900.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户19ddd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com