当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的中文自动摘要生成

发布时间:2020-03-30 18:21
【摘要】:互联网中日益增长的文本数据导致人们需要花费更多时间用于筛选和甄别文本中的关键信息。自动摘要技术作为一种从长文本中获取关键信息的方法,能够降低信息爆炸时代人们信息获取的时间成本,引起越来越多研究者的关注。自动文摘技术按照生成方式可以分为抽取式摘要和生成式摘要,抽取式摘要技术只能依赖原有文本内容,具有局限性。生成式摘要技术具有较高的灵活性,但在中文摘要生成时仍然有文本初始化难以保持足够信息,高质量数据难以获取等困难。本文通过一系列自然语言处理技术,能够生成更加简明、准确的中文摘要。首先,为了给编码器提供更好的文本向量作为输入,保证文本向量包含足够的语义信息,本文受到Fasttext模型在英文中能够捕获单词前缀和后缀信息的启发,针对中文的结构特点提出基于笔画的文本向量编码。我们使用这种编码方法,构造笔画字典,通过Skip-Gram模型,构成文本向量,完成对汉字部件信息更细致的表示任务。其次,在对在文本生成上主要使用Seq2Seq模型加以优化,主要包括在编码器中使用Bi-LSTM,在一定程度上解决了长序列文本信息丢失以及从后往前信息的补充问题,使用Attention机制捕获输入与输出词之间的关联强弱性,并在测试阶段的解码器中使用Beam Search优化序列的生成效果。本文基于LCSTS数据集训练模型,通过Rouge评分和人工判断两个方面证实我们的编码方法和模型在文本摘要可读性上有所提升。
【图文】:

折线图,字典,解码器,常用词


(c) Rouge-L 评分图 5.1 解码器字典大小对于 Rouge 评分的影响字典的大小从 2K 上升到 11K 的过程中,Rouge-N 的评分中包含的词越全面,模型的效果越好。结合折线图来看 2k 到 8k 的过程中,出现最多有一倍的效果提升,主要原够多的常用词语,汉语常用词的词汇量在 5k 到 8k 之间式提升。大小是影响测试阶段模型输出效果的重要因素,字典过字典过大则影响生成摘要的速度,影响模型效率。图 5码时间的关系。

折线图,单句,邮箱,解码器


(c) Rouge-L 评分图 5.1 解码器字典大小对于 Rouge 评分的影响字典的大小从 2K 上升到 11K 的过程中,Rouge-N 的评分都有中包含的词越全面,模型的效果越好。结合折线图来看,,三 2k 到 8k 的过程中,出现最多有一倍的效果提升,主要原因是够多的常用词语,汉语常用词的词汇量在 5k 到 8k 之间。因式提升。大小是影响测试阶段模型输出效果的重要因素,字典过小会字典过大则影响生成摘要的速度,影响模型效率。图 5.2 展码时间的关系。
【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP18

【相似文献】

相关期刊论文 前10条

1 陈尔聃;;文本自动摘要的迁移学习技术[J];数码世界;2018年12期

2 刘茂福;余博;胡慧君;;基于维基百科的多文档自动摘要系统研究[J];微型机与应用;2011年16期

3 仇丽青;李伟明;;上下文敏感的多文档自动摘要生成方法[J];计算机工程;2010年21期

4 洪田玉;陈志刚;;一种跨语言的自动摘要技术[J];电脑与信息技术;2009年04期

5 郭琳虹;张小松;;文本自动摘要的方法研究[J];福建电脑;2008年06期

6 ;中英文自动摘要系统软件问世[J];情报理论与实践;2001年01期

7 王永成;刘功申;刘传汉;胡佩华;孙展;;论文本的自动摘要[J];中国索引;2003年02期

8 唐建权;何洪波;王闰强;;一种基于聚类的文章自动摘要方法及实现[J];科研信息化技术与应用;2019年01期

9 彭敏;高斌龙;黄济民;刘纪平;;基于高质量信息提取的微博自动摘要[J];计算机工程;2015年07期

10 刘思佳;;内容自动摘要系统的研究[J];数码世界;2019年04期

相关会议论文 前10条

1 刘娜;肖智博;路莹;唐晓君;肖鹏;;自适应主题融合的多文档自动摘要算法[A];2013年中国智能自动化学术会议论文集(第五分册)[C];2013年

2 吴中勤;黄萱菁;吴立德;;基于有监督分类技术的文本自动摘要研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

3 张奇;黄萱菁;吴立德;;一种新的句子相似度度量及其在文本自动摘要中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

4 李芳;何婷婷;;面向查询的多模式自动摘要研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年

5 王荀;李素建;宋涛;姜伯平;;服务于内容侧面发现的框架识别[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

6 杨潇;马军;杨同峰;杜言琦;邵海敏;;基于主题模型LDA的多文档自动摘要[A];第五届全国信息检索学术会议论文集[C];2009年

7 章彦星;张铭;邓志鸿;;基于特征的用户评论自动摘要[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

8 王婵;李静;王栋;程杰;来风刚;;互联网舆论收集与分析系统[A];2015电力行业信息化年会论文集[C];2015年

9 王晖;马军;;面向Web论坛的多文档摘要方法[A];第五届全国信息检索学术会议论文集[C];2009年

10 桂卓民;何婷婷;陈劲光;李芳;;一种面向查询的多文档自动文摘系统实现方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

相关重要报纸文章 前4条

1 横舟;你爱机器,但它不会爱你[N];检察日报;2017年

2 记者 周蓉蓉 薛海滨 龚杰;IBM软件强势出击[N];计算机世界;2003年

3 本报记者 胡珉琦;一本AI写作的科研综述 你读吗[N];中国科学报;2019年

4 本报记者 张彤;让计算机说中国话[N];网络世界;2004年

相关博士学位论文 前9条

1 王勇臻;基于深度学习的学术文献自动摘要方法研究[D];大连海事大学;2018年

2 张世博;面向网络评论信息的自动摘要技术研究与应用[D];北京邮电大学;2019年

3 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年

4 郑义;多媒体信息自动摘要及其相关技术研究[D];复旦大学;2003年

5 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年

6 赵烨;大规模图像集自动摘要技术研究[D];合肥工业大学;2014年

7 生龙;二型模糊系统理论及应用[D];电子科技大学;2012年

8 温源;互联网文本信息挖掘与个性化推荐的研究[D];北京交通大学;2014年

9 李梅;文本挖掘中若干关键技术研究[D];西北农林科技大学;2016年

相关硕士学位论文 前10条

1 柳斌;基于深度学习的中文自动摘要生成[D];南京邮电大学;2019年

2 赵君;基于TextRank算法的中文文献自动摘要提取研究[D];华中科技大学;2019年

3 肖树一;基于指针生成网络模型的自动摘要研究[D];山东科技大学;2018年

4 杨成荣;基于门控卷积神经网络的代码自动摘要算法[D];云南大学;2019年

5 易志伟;基于深度学习的多语种自动摘要系统的研究与实现[D];延边大学;2019年

6 贾星宇;基于深度学习的短文自动摘要生成算法研究[D];西安科技大学;2019年

7 李伟男;基于深度学习的新闻自动摘要技术[D];西安电子科技大学;2019年

8 王帅;面向长文本的两阶段自动摘要算法关键技术研究[D];国防科技大学;2017年

9 陈达;基于TextRank和Word2Vec的短文本自动摘要算法研究[D];武汉理工大学;2018年

10 董晨西;基于深度学习的短文本自动摘要方法研究[D];北京邮电大学;2019年



本文编号:2607883

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2607883.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户11227***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com