当前位置:主页 > 科技论文 > 软件论文 >

基于柱搜索和神经网络的组块分析研究

发布时间:2020-09-21 19:43
   组块分析是自然语言处理中的一项基本任务,其分析目标是识别出句子中某些句法相关、结构相对简单、不交叉、非嵌套的句子成分。自从将计算机用于解决自然语言处理问题后,组块分析也成为了语言学与计算机科学的一个交叉性研究课题。由于它可以作为机器翻译、完全句法分析、信息检索、信息抽取等诸多重要任务的前处理阶段,具有广泛的应用需求,故很受研究者的关注。尽管相关研究陆续被做出,但组块分析问题还远远没有被完全解决,它依然是自然语言处理领域内一个需要长期挑战的目标。随着组块分析处理技术从早期的主要基于规则慢慢转变到了后来的主要基于统计和机器学习,基于统计的相关技术成为了处理该任务的主要方法。其中,基于条件随机场等结构化模型来将其建模成一个序列化标注任务进行处理是目前最常用的手段。然而,这类模型在建模该任务时因为采用了马尔科夫假设以致在局部对一个词进行类型决策时无法利用到所有当前已标注词的标注类型信息,从而影响标注准确度,如何缓解这方面限制的研究一直在持续。考虑到上述缺点,本文尝试了基于状态转移的方法来对组块分析任务进行处理。同时,在每一步对状态转移的选择进行决策的过程中,本文使用能学习输入与输出之间非线性关系的神经网络来对各个合法的转移操作进行评估。本文的主要工作包括:首先,基于状态转移和简单单隐层前向反馈神经网络对问题进行建模,然后采用朴素的贪心策略来对模型进行训练和解码,构建了一个效果很强的基线组块分析系统;然后,为了更全局地对整个句子所对应的完整标注序列进行建模,本文接着在解码和训练的过程中采用了柱搜索的搜索策略以及对比散度学习方法来对模型进行学习,实验结果表明,在结合了柱搜索策略对句子进行更全局的建模后,模型在英文和中文的测试集上都比基线系统有了大幅度的提升;最后,针对简单单隐层前向反馈神经网络中所使用的神经网络过于简单、在对单个转移操作进行局部得分计算时对当前已标注信息以及远距离信息的利用还不够充分的缺点,本文将长短期记忆神经网络融入柱搜索框架中,从而更好地对整个候选序列进行得分计算。实验结果表明,在融入长短期记忆神经网络后,模型在英文和中文的测试集上都有所提升,达到了与当前最好结果相当的水平。从基线系统的构建到最后长短期记忆神经网络的融入,本文所用方法的效果在稳步提升,最后的柱搜索与长短期记忆神经网络结合的方法除在中文文本组块分析任务上达到与当前最好结果相当的结果之外,在另外三个任务上都取得了当前最好的结果。
【学位单位】:南京大学
【学位级别】:硕士
【学位年份】:2016
【中图分类】:TP391.1

【相似文献】

相关期刊论文 前10条

1 李晓望;自然语言的结构模型“M-Ph”[J];南京航空航天大学学报;1988年S1期

2 周俊生;戴新宇;陈家骏;曲维光;;基于大间隔方法的汉语组块分析[J];软件学报;2009年04期

3 李业刚;黄河燕;;汉语组块分析研究综述[J];中文信息学报;2013年03期

4 索红光;曹淑英;;基于组块的中文自动文摘系统研究[J];计算机系统应用;2007年03期

5 刘芳,赵铁军,于浩,杨沐昀,方高林;基于统计的汉语组块分析[J];中文信息学报;2000年06期

6 林煜明;李优;;基于SVM的句子组块识别[J];山东大学学报(理学版);2006年03期

7 邹宏梅;王挺;;SVM和基于转换的错误驱动学习相结合的汉语组块识别[J];计算机工程与科学;2007年04期

8 黄德根;于静;;分布式策略与CRFs相结合识别汉语组块[J];中文信息学报;2009年01期

9 谭咏梅;姚天顺;陈晴;李珩;朱靖波;;基于SVM+Sigmoid的汉语组块识别[J];计算机科学;2004年08期

10 黄德根;王莹莹;;基于SVM的组块识别及其错误驱动学习方法[J];中文信息学报;2006年06期

相关会议论文 前10条

1 李素建;刘群;;汉语组块的定义和获取[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

2 黄行;孙宏开;江荻;张济川;唐黎明;;现代藏语名词组块的类型及形式标记特征[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

3 王茂林;;自然口语中的韵律组块过程[A];新世纪的现代语音学——第五届全国现代语音学学术会议论文集[C];2001年

4 罗雪兵;黄德根;周惠巍;李丽双;;基于组合方法的组块识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

5 张捷;蓝国阳;邓梦东;戚晓明;马红旗;;接触法分析组块在滑道上的滑移运动[A];第十六届中国海洋(岸)工程学术讨论会(下册)[C];2013年

6 罗劲;应小萍;;组块破解:一种特殊形态的顿悟[A];第十五届全国心理学学术会议论文摘要集[C];2012年

7 江荻;;现代藏语的句法组块与形式标记[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

8 张志宽;赵顺利;荆鹏;葛仁磊;;一种测量大型组块底部尺寸的新方法[A];2013年中国海洋工程技术年会论文集[C];2013年

9 范模;李达;马巍巍;易丛;白雪平;;南海超大型组块浮托的总体设计与关键技术[A];第十三届中国科协年会第13分会场-海洋工程装备发展论坛论文集[C];2011年

10 任登君;李珩;张俐;姚天顺;;基于词对齐的双语组块对齐[A];第二届全国学生计算语言学研讨会论文集[C];2004年

相关重要报纸文章 前7条

1 记者 齐芳;“顿悟”是怎么发生的[N];光明日报;2011年

2 全国冶金节能减排新技术知识竞赛组委会专家组;陶瓷纤维贴面块助力炉窑节能[N];中国冶金报;2010年

3 刘永安 陈凤玲 于海跃;亚洲最大海上油气平台组块竣工[N];中国船舶报;2013年

4 吴江市盛泽实验小学 薛法根;行走在智慧的教学路上[N];江苏教育报;2011年

5 本报记者 吴莉;我国海上最大油气平台组块完工[N];中国能源报;2013年

6 李代兰;语文中的字词教学[N];济宁日报;2009年

7 执笔 江荻;人文社会科学前沿扫描[N];中国社会科学院院报;2008年

相关博士学位论文 前6条

1 许鑫;浮托安装系统耦合动力响应研究[D];上海交通大学;2014年

2 公彦霏;关于组块机制及其与国际象棋技能之间关系的拓展研究[D];华东师范大学;2015年

3 马国彦;篇章的组块:标记与管界[D];复旦大学;2010年

4 李素建;汉语组块计算的若干研究[D];中国科学院研究生院(计算技术研究所);2002年

5 孙广路;基于统计学习的中文组块分析技术研究[D];哈尔滨工业大学;2008年

6 袁彩霞;中文功能组块分析及应用研究[D];北京邮电大学;2009年

相关硕士学位论文 前10条

1 刘焱青;基于组块3×2交叉验证t检验的模型选择研究[D];山西大学;2015年

2 高博兴;基于rTMS的动作记忆组块的脑功能定位研究[D];上海体育学院;2015年

3 杨金殙;阅读过程中编码单位的探测与识别[D];华东师范大学;2016年

4 程川;基于柱搜索和神经网络的组块分析研究[D];南京大学;2016年

5 张忠炉;汉字字谜任务中限制解除和组块分解机制及其酝酿效应[D];广州大学;2012年

6 常若愚;汉语语义组块识别研究[D];杭州电子科技大学;2015年

7 邹宏梅;组块识别技术的研究与实现[D];国防科学技术大学;2006年

8 张慧;从大卫·卡坦组块理论视角看英语品牌名翻译[D];华中师范大学;2008年

9 孙鹏;产品架构组块变动对汽车维修管理的影响研究[D];北京交通大学;2015年

10 王莹莹;汉语组块识别的研究[D];大连理工大学;2006年



本文编号:2823916

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2823916.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0ef7a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com