会议摘要提取技术与评估方法的研究
发布时间:2017-08-29 16:21
本文关键词:会议摘要提取技术与评估方法的研究
更多相关文章: 有监督学习 无监督学习 支持向量机 最大边际相关 ROUGE值
【摘要】:信息技术的发展日新月异,人们获得信息的渠道也是多种多样,用户如何从海量的信息中获得所需要的摘要信息已经成为当今信息领域研究的一个热门话题。现如今,每天的会议数不胜数,且由于会议的本身自发性的特征,从而很容易出现一些与会议内容无关的话题,人们若是花费时间去参加这些会议或者浏览会议全部内容必定浪费大量的时间,若是人们能够通过浏览会议摘要就可以获得会议有效信息的话,不仅能够节约冗长的参会时间,而且也提高了信息访问的工作效率。自动会议摘要提取系统使得用户仅仅通过浏览会议摘要就可以知道会议的内容,从而避免了用户访问冗余信息,该系统目前引起了研究者的广泛关注。提取技术主要包括有监督学习方法和无监督学习方法,在使用有监督学习方法进行会议摘要提取时,摘要提取的任务被视为一个二元分类问题旨在决定一个句子是否为摘要句。有监督学习方法重点描述了支持向量机SVM方法,SVM二元分类方法是近几年广泛使用的分类方法,SVM在很多二元分类任务中具有较好的性能,然而那些接近分类面的样本本身不具备划分摘要句与非摘要句的明显特征,虽然这些样本的置信值有大小区分,但是仍然是处于分类上的一个模糊地带,相互之间不存在明显的优先级。针对SVM存在的一些缺陷,后又使用MMR方法对SVM进行了后处理,并通过实验表明MMR方法不仅可以去除摘要中的冗余信息,而且相比单纯使用SVM方法进行摘要提取时性能更高。本文以会议文本为处理对象,以SVM和MMR摘要提取算法为基础,针对当前会议是围绕某个特定的主题进行讨论和交流的特点,提出了一种基于主题的MMR与SVM相融合的会议摘要提取方法。这种方法以主题关键词为依据进行打分,并对MMR打分方法进行了改进的同时也兼顾句子位置特征等信息进行评分及重要性排序,使用ROUGE值评估方法进行摘要提取性能的评估。前人的研究中针对会议摘要提取算法已经给出了大量的改进算法和不同的评估方法。结果表明,将基于主题的MMR与SVM相融合的摘要系统分别与SVM摘要系统、MMR摘要系统以及SVM与MMR相结合摘要系统进行对比时,前者提取的摘要效果更好。大部分的研究是针对会议摘要提取算法的改进和使用,有的研究使用有监督摘要提取方法进行摘要句与非摘要句分类来提取会议摘要,有的研究者认为,会议语料库是庞大的,人为的标注也是费时费力的,因此他们使用无监督摘要提取方法进行会议摘要,也有的结合了有监督学习方法和无监督学习方法优点,提出了一种半监督学习方法来提取会议摘要,也有的研究者将多种算法进行结合进行摘要的提取等等。根据会议所具有的自发语音的特征进行研究的少之又少。本研究根据会议所特有的特征,提出一种基于主题的会议摘要提取方法,该方法主要是沿着一个会议中某一个或者若干个特定话题进行摘要句的提取,实验结果表明,基于主题的摘要提取方法在会议文本中表现出了较高的性能与优点,更便于用户的阅读与理解。
【关键词】:有监督学习 无监督学习 支持向量机 最大边际相关 ROUGE值
【学位授予单位】:太原理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1;TP18
【目录】:
- 摘要3-5
- Abstract5-10
- 第一章 绪论10-20
- 1.1 课题来源和意义10-15
- 1.1.1 摘要与语音摘要10-11
- 1.1.2 会议摘要的一般定义11-13
- 1.1.3 会议摘要当前研究现状13-15
- 1.2 会议摘要的应用及价值15-17
- 1.3 本文主要研究内容和组织结构17-18
- 1.4 本章小结18-20
- 第二章 会议摘要提取方法与评估20-28
- 2.1 会议语料库简介20-21
- 2.2 会议摘要提取方法21-26
- 2.2.1 无监督学习方法提取摘要21-23
- 2.2.2 有监督学习方法提取摘要23-25
- 2.2.3 其他方法25-26
- 2.3 会议摘要提取评估方法26-27
- 2.3.1 ROUGE值评估方法26-27
- 2.3.2 金字塔评估方法27
- 2.4 本章小结27-28
- 第三章 SVM与MMR融合的会议摘要技术28-40
- 3.1 会议文本特征选择及预处理28-32
- 3.1.1 会议文本预处理28-29
- 3.1.2 词汇特征29-30
- 3.1.3 结构和话语特征30-31
- 3.1.4 主题相关特征31-32
- 3.2 会议摘要提取技术描述32-33
- 3.3 会议摘要提取SVM二元分类算法33-37
- 3.3.1 支持向量机分类34-37
- 3.4 SVM与MMR相融合算法37-39
- 3.5 本章小结39-40
- 第四章 基于主题的SVM与MMR融合的会议摘要技术40-50
- 4.1 基于主题的会议摘要提出40-42
- 4.2 基于主题的会议摘要提取技术42-45
- 4.2.1 提取主题相关信息42-43
- 4.2.2 句子重要性排序43
- 4.2.3 句子置信值打分43-44
- 4.2.4 摘要句顺序调整44-45
- 4.3 实验仿真及结果分析45-48
- 4.3.1 ICSI语料库以及对其预处理45
- 4.3.2 评估方法45
- 4.3.3 实验结果及分析45-48
- 4.4 本章小结48-50
- 第五章 总结与展望50-52
- 参考文献52-58
- 致谢58-60
- 攻读学位期间发表的学术论文目录60
【相似文献】
中国期刊全文数据库 前1条
1 钱寿初;;第5届国际生物医学审稿和出版大会将于2005年召开[J];中国科技期刊研究;2003年03期
中国重要报纸全文数据库 前5条
1 本报记者 周龙 整理;市委七届十二次全委扩大会暨全市经济工作会议摘要[N];白银日报;2014年
2 ;全省经济工作和城镇化工作会议摘要[N];甘肃日报;2013年
3 本报记者 朱小兵;沃野绽放报春花[N];台州日报;2012年
4 方舟子;脚踏两只船的院士候选人[N];北京科技报;2005年
5 唐先武;渠氏技术:一朝花开里外香[N];科技日报;2004年
中国硕士学位论文全文数据库 前1条
1 孟令阁;会议摘要提取技术与评估方法的研究[D];太原理工大学;2016年
,本文编号:754267
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/754267.html