基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法
本文关键词:基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法
【摘要】:【目的】中文机构名结构复杂、罕见词多,识别难度大,对其进行正确识别对于信息抽取、信息检索、知识挖掘和机构科研评价等情报学中的后续任务意义重大。【方法】基于深度学习的循环神经网络(Recurrent Neural Network,RNN)方法,面向中文汉字和词的特点,重新定义了机构名标注的输入和输出,提出汉字级别的循环网络标注模型。【结果】以词级别的循环神经网络方法为基准,本文提出的字级别模型在中文机构名识别的准确率、召回率和F值均有明显提高,其中F值提高了1.54%。在包含罕见词时提高更为明显,F值提高了11.05%。【局限】在解码时直接使用了贪心策略,易于陷入局部最优,如果使用条件随机场算法进行建模可能获取全局最优结果。【结论】本文方法构架简单,能利用到汉字级别的特征来进行建模,比只使用词特征取得了更好的结果。
【作者单位】: 江苏警官学院图书馆;南京大学计算机科学与技术系;南京交通技师学院中(高)职教育处;南京农业大学信息科学技术学院;
【基金】:江苏省高校哲学社会科学项目“高校危机管理案例知识库构建及知识挖掘研究”(项目编号:2014SJB246) 江苏省警官学院“公安学术语自动抽取技术研究”(项目编号:2015SJYZQ01) 国家自然科学基金项目“基于CSSCI的句法级汉英平行语料库构建及知识挖掘研究”(项目编号:71303120)的研究成果之一
【分类号】:TP391.1;TP183
【正文快照】: 1引言机构泛指机关、团体或其他企事业单位,包括院校、公私企业、政府部门、宗教组织、科研部门、国际组织、体育团队、音乐团体、军队等[1]。机构名的识别效果对信息抽取、信息检索、知识挖掘和机构科研评价等后续任务起着重要的影响。然而,中文机构名中罕见词多、结构复杂,
【相似文献】
中国期刊全文数据库 前10条
1 王文轩;;基于构成模式的部队机构名识别[J];现代计算机(专业版);2013年34期
2 刘杰;;基于统计的中文机构名实体识别的研究[J];佳木斯大学学报(自然科学版);2010年03期
3 冯丽萍;;基于统计的中文组织机构名识别[J];福建电脑;2006年01期
4 夏峗;李志蜀;;基于统计的中文机构名自动识别[J];四川大学学报(自然科学版);2009年03期
5 钟良伍;郑方;;基于中文机构名简称的检索方法研究[J];中文信息学报;2007年01期
6 韦向峰;张全;吴晨;袁毅;;中文问答系统中机构名的处理[J];计算机工程与应用;2008年07期
7 麦合甫热提;米日姑·肉孜;麦热哈巴·艾力;吐尔根·依布拉音;;基于语法语义知识的维吾尔文机构名识别[J];计算机工程与设计;2014年08期
8 冯丽萍;焦莉娟;;结合多特征的支持向量机中文组织机构名识别模型[J];现代计算机(专业版);2010年07期
9 胡万亭;杨燕;尹红风;贾真;刘利;;一种基于词频统计的组织机构名识别方法[J];计算机应用研究;2013年07期
10 陈慧;;中文组织机构名命名规范化问题刍议[J];人文丛刊;2011年00期
中国重要会议论文全文数据库 前5条
1 金朝;蒋宗礼;;中文机构名的识别讨论[A];2011高等职业教育电子信息类专业学术暨教学研讨会论文集[C];2011年
2 雷静;;汉语机构名的构成模式[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 雷静;张舵;冯霞;;基于构成模式的汉语机构名识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
4 计峰;高沫;邱锡鹏;黄萱菁;;中文机构名简称的自动生成研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国重要报纸全文数据库 前5条
1 ;《全国文化机构名址录》面世[N];中国文化报;2003年
2 马文;《全国文化机构名址录》出版[N];中国文化报;2001年
3 记者 王俐君 通讯员 欧志红;湖南名址信息库建设强力启动[N];中国邮政报;2003年
4 记者 刘苏;2000多件证书展示证书文化[N];徐州日报;2010年
5 记者 刘朝君;组织机构名址库年内建成[N];中国邮政报;2003年
中国硕士学位论文全文数据库 前10条
1 陈丹双;POI(Point of Interest)名称识别及其在对话导航系统中的应用[D];复旦大学;2013年
2 王树伟;面向金融文本的实体识别与关系抽取研究[D];哈尔滨工业大学;2014年
3 连誉舜;中文组织机构名检索系统的设计与实现[D];上海交通大学;2013年
4 万如;中文机构名识别的研究[D];大连理工大学;2008年
5 乌兰敖日格乐;中文军事组织机构名的识别[D];大连理工大学;2010年
6 凌雅娟;新闻文本中的中文机构名识别和机构关系抽取研究[D];华东师范大学;2013年
7 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
8 陈霄;基于支持向量机的中文组织机构名识别[D];上海交通大学;2007年
9 米日姑·肉孜;维吾尔文机构名识别研究[D];新疆大学;2013年
10 杨德来;SVM和最大熵相结合的中文机构名自动识别[D];大连理工大学;2006年
,本文编号:1304775
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1304775.html