当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的细粒度复述抽取技术研究

发布时间:2020-03-18 08:38
【摘要】:复述的相关技术研究很早就在国内外开展了,它是自然语言处理任务中的一个重要领域。复述任务如果按文本粒度划分的话,一般可以分为词汇级,短语级以及句子级;按具体任务划分,可以分为抽取式,判别式以及生成式。本课题基于深度学习的细粒度中文复述抽取技术研究,旨在研究细粒度(词汇和短语)的中文复述抽取,希望能够获取优质的复述资源。复述任务在自然语言处理任务中是偏底层的任务,复述资源的好坏能直接影响很多上层任务,例如:信息检索、问答系统、机器翻译等都能够通过复述资源进行数据增强,进而提升任务效果。考虑到传统方法在复述任务上已经日趋瓶颈,而深度学习相关技术日趋火热,在很多任务上都能够帮助提升效果。本课题基于深度学习的细粒度中文复述抽取技术研究尝试将深度学习的方法引入到中文复述任务中来,希望能够获取到更加优质的复述资源。本课题所要研究的内容主要包括以下三个部分:首先是词汇级中文复述抽取技术研究;然后是中文短语划分的技术研究;最后是短语级中文复述抽取技术研究。在词汇级中文复述抽取任务中,本文提出了基于“枢轴法”的中文候选复述抽取方式,利用丰富的在线英文词典,能够获取到大量的候选复述数据。与此同时,本文还提出了带负采样机制的多模型融合的判别方式用于在候选中文词汇复述的基础上进行判别过滤。通过对最终的中文词汇的复述资源进行随机抽取并人工评价,结果显示:本课题中所提出来的中文词汇复述抽取方法,都要优于目前其他的中文词汇复述抽取方法。在中文短语划分的任务中,本文提出了2*BiLSTM+BiLSTM+CRF的序列标注模型,基于CTB8.0的语料进行模型训练和测试。该模型主要用于在中文单语语料上进行短语划分。通过实验比对,最终证明的本文提出来的模型在中文短语划分上的效果要优于同类模型。在中文短语复述抽取任务中,本文运用预先提出的序列标注模型进行中文短语划分,通过规则过滤获取到大概103万条优质的中文短语。在此基础上进行相关对比实验,本文提出了基于二元注意力机制的递归自编码模型,用以学习中文短语的向量表示,通过计算余弦相似度,以语义距离最相近的40个短语作为候选短语复述,同时按照语义相似度,对短语复述进行排序。最后基于翻译数据和规则,过滤错误或者低质量的候选短语复述。实验对比得出结论,本课题中提出来的中文短语复述抽取方法,要优于目前的其他模型。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP18

【相似文献】

相关期刊论文 前10条

1 许旭阳;韩永峰;宋文政;;事件抽取技术的回顾与展望[J];信息工程大学学报;2011年01期

2 张克菊;韩毅;;关系抽取技术的发展与应用——以生物信息学为例[J];情报科学;2010年01期

3 黄勋;游宏梁;于洋;;关系抽取技术研究综述[J];现代图书情报技术;2013年11期

4 刘振;张智雄;;基于语义标注的知识抽取相关技术的国外进展研究[J];情报科学;2015年08期

5 章顺瑞;骆陈;;基于语义角色分析的事件抽取技术[J];太赫兹科学与电子信息学报;2017年02期

6 高强;游宏梁;;事件抽取技术研究综述[J];情报理论与实践;2013年04期

7 陈英;;基于专家系统的注塑模具关键技术研究[J];柳州职业技术学院学报;2008年02期

8 叶圣涛;张洋;;隐喻抽取技术视阈下的大学生创业动机初探[J];中国市场;2017年18期

9 黄葆华;一种基于内插和抽取技术的样点序列延迟器[J];军事通信技术;1998年03期

10 唐筱璐;;利用ZMET隐喻抽取技术探讨好看簿对于教师的价值[J];中国远程教育;2010年08期

相关会议论文 前7条

1 赵妍妍;秦兵;车万翔;刘挺;;中文事件抽取技术研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

2 王倩;何婷婷;闻彬;宋乐;张茂元;;基于依存关系的中文情感要素抽取技术研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

3 杨洁;季铎;蔡东风;白宇;;基于联合权重的多文档关键词抽取技术[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

4 杨洁;季铎;蔡东风;代翠;;基于TextRank的多文档关键词抽取技术[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

5 陆忠良;苏厚勤;;基于Oracle/Linux环境数据抽取技术的研究与实践[A];第四届中国软件工程大会论文集[C];2007年

6 岳玉波;马渊明;马凯;晏伟;黄丽娟;;OBN数据共反射点道集抽取技术[A];中国石油学会2019年物探技术研讨会论文集[C];2019年

7 穆亚东;周秉锋;;基于信念传播的图像抽取算法[A];中国感光学会第七次全国会员代表大会暨学术年会和第七届青年学术交流会论文摘要集[C];2006年

相关硕士学位论文 前10条

1 颜欣;基于深度学习的细粒度复述抽取技术研究[D];哈尔滨工业大学;2019年

2 陈天琪;面向游戏评论的评价标签抽取技术研究[D];哈尔滨工业大学;2019年

3 赵威;面向用户评论的观点目标和观点词协同抽取技术[D];桂林电子科技大学;2019年

4 罗尚q;基于隐喻抽取技术的目的地风景体验价值研究[D];重庆师范大学;2016年

5 于俊锋;面向电子邮件的近似世系关系抽取技术[D];东北大学;2011年

6 刘培谦;面向海量数据的用户观点抽取技术实现与应用[D];中山大学;2015年

7 刘兆庆;博客社区发现及其主题抽取技术的研究[D];苏州大学;2013年

8 刘克彬;基于核函数的命名实体关系抽取技术研究[D];上海交通大学;2007年

9 张慧敏;Deep Web查询结果抽取技术研究与实现[D];暨南大学;2015年

10 吴刚;基于主题的中文事件抽取技术研究及应用[D];苏州大学;2009年



本文编号:2588508

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2588508.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户66466***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com