基于TextRank算法的单文档自动文摘研究
本文关键词:基于TextRank算法的单文档自动文摘研究,由笔耕文化传播整理发布。
【摘要】:信息时代的来临引发了文献的指数级增长,信息用户迅速由信息贫乏过渡到信息过载,传统手工文摘速度已经远远落后于用户的需要。起于1958年的自动文摘研究一直是信息自动处理领域的热点。其中,基于图的自动文摘主要利用文本中的词汇或者语义信息构建拓扑结构图,TextRank是其代表性的算法之一。借鉴了PageRank的算法思想,TextRank算法将文档划分为由若干文本单元(词项或者句子)构成的节点,文本单元间的相似度构成节点间的边,形成图模型,利用PageRank算法对图模型进行迭代直至收敛,然后对所有节点进行排序,输出关键词或文摘句。TextRank算法作为一种无监督方法,无需训练语料,可以运用在多种不同的领域。本文对TextRank算法自动文摘过程中的句子相似度、句子权重计算等部分进行了改进,提出了一种面向英文语料的单文档自动文摘方法。本文的研究工作包括以下几个方面:(1)研究问题。对基于TextRank算法自动文摘的主要步骤进行了梳理与分析,发现预处理以及迭代计算部分已经较为成熟,改进空间有限,而句子相似度以及句子权重计算则尚有较大的提升空间。(2)句子相似度。本文比较了基于编辑距离、WordNet语义词典、BM25以及经典TextRank的相似度算法;分析发现基于BM25相似度计算方法的自动文摘效果最优,同时也发现BM25计算公式中的IDF(si)部分,当n(si)大于N/2时,IDF(si)取负值,从而得到一个取负值的权重。对此,本文提出了两种BM25的改进思路,其一是采用经典TF-IDF计算公式中的IDF计算部分替换BM25原有的IDF(si)计算公式,并对经典IDF计算公式的分母采用拉普拉斯加1平滑;另一则是对BM25原有的IDF(5i)计算公式,当n(si)小于等于N/2时,公式不变,IDF(Si)取正值,当n(si)大于N/2时,用α·avglDF替换原来的公式。其中,a是调节参数(0≤α≤), avgIDF是所有词项的平均IDF值。(3)句子权重。经典TextRank方法考虑了句子的全局信息,但是忽视了句子本身的特征。对此,提出了将句子位置、线索词与经典TextRank加以整合的句子权重计算方案。(4)文摘实验。语料库为DUC2002,具体的工作包括:语料的预处理(分句、分词、词性标注、词项过滤);句子相似性计算;句子权重计算;文摘生成。(5)文摘评价。评价方法采用ROUGE,主要考查了面对不同文摘抽取任务时的表现(100个单词、压缩10%、压缩20%)。实验表明,在ROUGE的各项指标上,本文提出的句子相似度计算方法与句子权重计算方法均比经典TextRank方法有所提高。同时,本文给出了在面对不同文摘抽取任务时BM25改进方法的α取值策略。实验表明,本文改进的基于TextRank算法的单文档自动文摘方法具有一定的创新性与适用性。
【关键词】:自动文摘 TextRank BM25 单文档自动文摘
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1;G250.7
【目录】:
- 摘要5-7
- Abstract7-14
- 第一章 绪论14-17
- 1.1 研究背景14
- 1.2 研究目的与意义14-15
- 1.3 创新点15
- 1.4 论文结构安排15-17
- 第二章 研究综述17-37
- 2.1 自动文摘17-30
- 2.1.1 自动文摘的定义及其分类17-19
- 2.1.2 自动文摘方法19-28
- 2.1.3 自动文摘评价28-30
- 2.2 TextRank算法30-37
- 2.2.1 基于TextRank的关键词抽取31-32
- 2.2.2 基于TextRank的文摘句抽取32-37
- 第三章 研究设计37-46
- 3.1 句子相似度计算37-43
- 3.1.1 基于信息量的相似度计算方法38
- 3.1.2 基于编辑距离的相似度计算方法38-39
- 3.1.3 基于语义词典的相似度计算方法39
- 3.1.4 基于BM25的相似度计算方法39-41
- 3.1.5 基于BM25的改进相似度计算方法41-43
- 3.2 句子权重计算43-46
- 3.2.1 基于TextRank的句子权重43-44
- 3.2.2 基于位置的句子权重44
- 3.2.3 基于线索词的句子权重44-46
- 第四章 实验与分析46-63
- 4.1 实验语料库46
- 4.2 实验环境46-47
- 4.3 语料库预处理47-50
- 4.3.1 内容提取47-48
- 4.3.2 文本分割48-50
- 4.4 实验指标50
- 4.5 句子相似性分析50-61
- 4.5.1 固定长度文摘(100个词项)51-54
- 4.5.2 可变长度文摘(压缩10%)54-57
- 4.5.3 可变长度文摘(压缩20%)57-61
- 4.6 句子权重分析61-63
- 4.6.1 固定长度文摘(100个词项)61
- 4.6.2 可变长度文摘(压缩10%)61-62
- 4.6.3 可变长度文摘(压缩20%)62-63
- 第五章 结语63-65
- 5.1 研究结论63-64
- 5.2 进一步研究工作64-65
- 参考文献65-73
- 附录73-79
- 附录1:DUC 2002原文AP880912-0095示例73-74
- 附录2:本文提出的文摘方法产生AP880912-0095的文摘74-75
- 附录3:DUC 2002原文LA122190-0149示例75-78
- 附录4:本文提出的文摘方法产生LA122190-0149的文摘78-79
- 致谢79-80
【相似文献】
中国期刊全文数据库 前10条
1 金博,史彦军,滕弘飞,艾景波;自动文摘技术及应用[J];计算机应用研究;2004年12期
2 陆和健;李祝启;;网络信息自动文摘研究[J];情报科学;2008年10期
3 林莉;;自动文摘的生成方法与评价研究[J];图书馆学刊;2009年05期
4 王建波,王开铸;自然语言篇章理解及基于理解的自动文摘研究[J];中文信息学报;1992年02期
5 王开铸,李俊杰,李秀坤,吴岩,张军;自动文摘系统的历史和现状[J];电脑学习;1995年04期
6 王开铸,吴岩,刘挺,张军;自动文摘设计模型[J];电脑学习;1995年05期
7 王开铸,吴岩,刘挺;基于理解的自动文摘系统设计[J];电脑学习;1996年02期
8 李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期
9 胡舜耕,钟义信,魏超成;基于多Agent技术的自动文摘研究[J];计算机工程与应用;2000年09期
10 宋今,赵东岩;基于语料库与层次词典的自动文摘研究(英文)[J];软件学报;2000年03期
中国重要会议论文全文数据库 前10条
1 桂卓民;何婷婷;陈劲光;李芳;;一种面向查询的多文档自动文摘系统实现方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 刘茂福;金可佳;姬东鸿;张晓龙;;统计与规则相结合的指代消解在事件自动文摘中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 耿崇;宋丹;薛德军;张灿;;基于词位置与同现特征的中文自动文摘研究[A];第五届全国信息检索学术会议论文集[C];2009年
4 刘海涛;老松杨;吴玲达;;基于段落自适应聚类的自动文摘系统研究[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 李成城;;基于修辞结构理论的自动文摘研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
6 吕静;昝红英;;基于语义统计的中文自动文摘研究[A];第三届学生计算语言学研讨会论文集[C];2006年
7 王红玲;黄超超;张明慧;周国栋;;面向冗余度控制的中文多文档自动文摘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 卢冶;林鸿飞;赵晶;;中文自动文摘系统的综合评价模式[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 邵伟;何婷婷;胡珀;肖华松;;一种面向查询的多文档文摘句选择策略[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 王小磊;张瑾;许洪波;;基于交互增强原理的多文档自动文摘算法[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国重要报纸全文数据库 前1条
1 教育部语言文字应用研究所副所长 靳光瑾 中国社会科学院语言文字应用系研究生 易江燕;话题发现技术:决策参考的“探测器”[N];中国社会科学报;2014年
中国博士学位论文全文数据库 前10条
1 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
2 李鹏;面向主题的多文档自动文摘关键技术研究[D];上海交通大学;2013年
3 胡珀;融合上下文信息的自动文摘研究[D];武汉大学;2013年
4 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
5 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
6 徐永东;多文档自动文摘关键技术研究[D];哈尔滨工业大学;2007年
7 张琳;基于引用聚类的多文档自动文摘技术研究[D];大连海事大学;2013年
8 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
9 刘德喜;基于基本要素的多文档自动文摘研究[D];武汉大学;2007年
10 郑义;多媒体信息自动摘要及其相关技术研究[D];复旦大学;2003年
中国硕士学位论文全文数据库 前10条
1 陈奕辰;基于句子权重和篇章结构的自动文摘算法的研究与实现[D];湖南师范大学;2015年
2 苏彬;基于Word2Vec的自动文摘系统的设计与实现[D];河北科技大学;2015年
3 孙佩佩;面向事件的自动文摘研究[D];安徽理工大学;2016年
4 曹洋;基于TextRank算法的单文档自动文摘研究[D];南京大学;2016年
5 朱荷香;中文自动文摘系统的研究与实现[D];南京师范大学;2008年
6 石子言;用户驱动的特定领域自动文摘系统设计与实现[D];东北师范大学;2009年
7 孟庆富;生物医学多文档自动文摘系统设计与实现[D];哈尔滨工业大学;2010年
8 马长林;中文自动文摘技术若干问题的研究[D];华中师范大学;2002年
9 胡珀;基于自适应聚类的中文自动文摘研究[D];华中师范大学;2005年
10 柴晓丽;自动文摘技术的研究与应用[D];长春理工大学;2007年
本文关键词:基于TextRank算法的单文档自动文摘研究,由笔耕文化传播整理发布。
,本文编号:350123
本文链接:https://www.wllwen.com/tushudanganlunwen/350123.html