基于改进HMM下自动摘要的生成

发布时间：2017-12-11 11:37

本文关键词：基于改进HMM下自动摘要的生成

【摘要】：现代社会计算机技术不断发展,电子化的信息和文本咨询呈现爆炸性增长,网络也早已经成为人们获取和传递信息最重要的方式。要在海量的信息中快速锁定自己感兴趣的内容需要花费人们大量的时间,所以有效、简易的信息检索技术是当前互联网时代最需要的。而自动摘要(Automatic Summarization)生成技术是对信息进行总结、浓缩的有力工具。为计算机编写程序生成的自动摘要需要具有以下特点:(1)概括性的表达原文的主旨大意;(2)语言简洁明了,篇幅较短;(3)语义连贯通顺,具有可理解性和可读性。本文分析了传统的自动摘要生成方法,大多都是计算句子权重来提取相对比较重要的句子组成摘要,并没有考虑前后句子间的关联程度。所以本文将隐马尔科夫模型(HMM)中的状态转移特性运用到自动摘要中,使得生成的摘要更能符合上下文语境。并且在这基础上进一步改进传统HMM模型,加入了观察状态的后向释放概率,验证结果表明生成的摘要准确率有明显的提高。具体工作如下:首先,文中采用的是以web新闻文本作为对象来研究自动摘要的相关技术理论。由于web新闻网页的特殊性,实现了正则表达式和行块分布算法相结合的正文文本提取方法,并用最大正向匹配算法和TF-IDF词频统计算法对得到的正文文本进行分析处理。然后,对传统HMM进行深入研究,将隐藏状态序列按照句子的重要程度依次定为“A”、“B”、“C”、“D”、“E”,结合句子的词频、位置、标题相关程度、线索词四种句子特征进行HMM的建立并用于自动摘要的生成中。对比发现,该模型生成的摘要比基于普通句子权重方法生成的摘要更能体现上下文语境的连贯性。最后,将HMM模型根据web新闻文本的特点进行改进,使得观察状态的释放不仅跟t时刻的隐藏状态有关还与t+1时刻的隐藏状态有关,进一步细化了摘要句的提取概率。其中模型训练学习算法和Viterbi算法也根据模型的改进进行相应调整,实现基于改进HMM模型的自动摘要生成。实验对比改进HMM模型与传统HMM模型生成摘要的质量和运行时间,验证了改进HMM的可行性。
【学位授予单位】：浙江理工大学
【学位级别】：硕士
【学位授予年份】：2017
【分类号】：TP391.1

【参考文献】

中国期刊全文数据库前10条

1 刘培玉;荀静;费绍栋;朱振方;;基于隐马尔可夫模型的主观句识别[J];中文信息学报;2016年04期

2 高庆宁;吴鹏;张晶晶;;基于文档对象模型与行块分布算法的网页信息抽取[J];情报理论与实践;2016年04期

3 罗毅辉;熊曙初;;一种集成框架下的分布式多文档自动摘要方法[J];情报杂志;2013年11期

4 吴志川;毛琛;韩蕾;陈立军;;高度可伸缩的稀疏矩阵乘法[J];计算机科学与探索;2013年11期

5 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期

6 黄承慧;印鉴;侯f ;;一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J];计算机学报;2011年05期

7 周瑛;张铃;;有限混合模型在文本分类中的应用研究[J];计算机技术与发展;2010年06期

8 刘海天;赵政文;盛光磊;;隐马尔可夫模型及其在自然语言处理中的应用[J];微处理机;2009年03期

9 陈艳;;初识HTML语言[J];科技信息;2009年03期

10 白晓红;;言语失误及其成因与结果(英文)[J];语文学刊;2008年23期