基于语义重构的文本摘要算法
本文关键词:基于语义重构的文本摘要算法,由笔耕文化传播整理发布。
【摘要】:互联网技术的快速发展产生了数据爆炸和信息过载的问题,同时现代生活节奏的加快催生了用户快速阅读的需求,使得文本自动摘要技术成为了当今科学界的研究热点。相比其他自然语言处理任务,自动摘要技术的挑战在于摘要的评价指标无法精准量化,极具主观性,而且自动摘要往往深受冗余信息的困扰。目前主流的自动摘要算法是通过预先定义某个指标,对所有句子进行打分,然后对句子排序并抽取top-k作为生成摘要。然而这些抽取排序模型一方面对句子独立打分,孤立了句子之间的联系,忽略了文章的结构信息;一方面选取的评分指标通常是词素级别或者统计特征,缺乏语义信息。针对这些缺点,我们设想一个高质量的摘要能够很好地还原原文的语义,进而提出了语义重构模型:通过寻找能够以最小损失重构原文语义的句子集作为最后的生成摘要。本文的工作主要包括两个方面:(1)针对词袋模型的高维稀疏、缺乏语义信息的现象,设计了两种简单有效的语义向量化方式表示文本,分别是基于神经语言模型的词嵌入加权方法和基于多层自编码网络的深度降维方法。并通过句子分类实验证明了这两种向量化方式都能得到紧凑且具有语义的文本表示。(2)分别设计了基于二次规划的线性重构策略和更为平滑灵活的非线性重构策略,以得到能最佳还原原文的句子并作为结果摘要。另外通过冗余消减手段在改进了重构策略并提高了摘要质量。最后在DUC标准数据集上的摘要实验对比,证明了本文的语义重构模型的合理性和有效性。
【关键词】:自动摘要 语义重构 词嵌入 语义表示
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要6-7
- Abstract7-10
- 第一章 绪论10-16
- 1.1 自动摘要的研究背景10-11
- 1.2 自动摘要的分类11-12
- 1.3 自动摘要的挑战12-14
- 1.4 本文工作和组织结构14-16
- 第二章 文本摘要的相关研究16-26
- 2.1 句子排序抽取法16-20
- 2.1.1 基于统计信皇16-18
- 2.1.2 句子聚类和图模型18-19
- 2.1.3 机器学习19-20
- 2.2 基于语言学方法20-22
- 2.2.1 词汇链20-21
- 2.2.2 LSA21
- 2.2.3 互参信息和修辞结构21-22
- 2.3 特殊文体或领域的摘要方法22-26
- 2.3.1 医学摘要22-23
- 2.3.2 期刊摘要23
- 2.3.3 邮件摘要23-24
- 2.3.4 网页摘要24-26
- 第三章 文本的语义表示26-37
- 3.1 引言26-27
- 3.2 词嵌入加权27-30
- 3.3 深度降维30-34
- 3.4 实验对比34-36
- 3.5 本章小结36-37
- 第四章 原文语义重构策略37-59
- 4.1 线性重构策略37-43
- 4.1.1 目标函数38-42
- 4.1.2 优化方法42-43
- 4.2 非线性重构策略43-50
- 4.2.1 模型结构及训练44-49
- 4.2.2 摘要提取49-50
- 4.3 冗余消减50-52
- 4.4 实验对比52-58
- 4.4.1 数据集和评测工具52-54
- 4.4.2 对比实验介绍54
- 4.4.3 实验结果及分析54-58
- 4.5 本章小结58-59
- 第五章 总结与展望59-61
- 5.1 工作总结59-60
- 5.2 未来展望60-61
- 参考文献61-66
- 致谢66-67
- 附录67-68
【相似文献】
中国期刊全文数据库 前10条
1 马汉华;邵志清;过弋;;基于认知心理学模型的自动文本摘要生成技术[J];华东理工大学学报(自然科学版);2009年06期
2 孙春葵,李蕾,杨晓兰,钟义信;基于知识的文本摘要系统研究与实现[J];计算机研究与发展;2000年07期
3 程倩倩;田大钢;;基于基本要素方法的中文自动文本摘要模型[J];现代图书情报技术;2010年02期
4 胡侠;林晔;王灿;林立;;自动文本摘要技术综述[J];情报杂志;2010年08期
5 刘冬平;李振坤;熊建斌;;基于统计的音乐摘要研究[J];现代计算机(专业版);2010年02期
6 王知津;基于句子选择的自动文本摘要方法及其评价[J];现代图书情报技术;1998年01期
7 邹剑章;周经野;陈益强;胡明清;;基于事件框架的移动摘要方法研究[J];微计算机信息;2010年12期
8 廖涛;刘宗田;王利;;多主题文本摘要抽取的研究与实现[J];计算机工程;2011年06期
9 龙珑;邓伟;;绿网摘要提取系统算法研究[J];微型机与应用;2013年12期
10 张龙凯;王厚峰;;文本摘要问题中的句子抽取方法研究[J];中文信息学报;2012年02期
中国重要会议论文全文数据库 前3条
1 王慧芳;张勇;邢春晓;张文珂;杨吉江;;文本摘要算法集成与实现[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 伊力亚尔·加尔木哈买提;尼亚子别克·阿不都加勒力;;哈萨克文自动文本摘要方法浅谈[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
3 张龙凯;王厚峰;;文本摘要中的句子抽取方法研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国硕士学位论文全文数据库 前10条
1 谢松山;非领域知识依赖的文本摘要方法的研究[D];西南大学;2015年
2 王斌;面向微博的观点摘要关键技术研究[D];山西大学;2015年
3 Ahmad Najibullah;印尼文文本摘要的句子提取和还原[D];南昌大学;2015年
4 王晓阳;一种基于概念格的中文文本摘要方法研究[D];北京理工大学;2015年
5 吴振东;基于图模型聚类的文本摘要方法研究[D];浙江工商大学;2015年
6 许盛伍;在线热点新闻推荐系统研究和实现[D];南京航空航天大学;2015年
7 孙秀胜;基于概念对象模型的文本摘要技术研究[D];山东财经大学;2016年
8 张弛;基于语义重构的文本摘要算法[D];南京大学;2016年
9 丛艳;自动文本摘要方法的研究及应用[D];华北电力大学(北京);2004年
10 闫英杰;偏重摘要技术及其应用研究[D];大连理工大学;2007年
本文关键词:基于语义重构的文本摘要算法,,由笔耕文化传播整理发布。
本文编号:320637
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/320637.html