面向新闻文档的自动微博生成算法研究与实现
发布时间:2017-10-13 11:35
本文关键词:面向新闻文档的自动微博生成算法研究与实现
更多相关文章: 自动微博生成 潜在语义分析 奇异值分解 关键短语提取 自动微博评估
【摘要】:网上每天产生巨量新闻,普通用户不容易通过手机浏览这些信息。从海量新闻信息中找到自己感兴趣的信息非常耗时,因此我们迫切需要有效的压缩工具对大量信息进行提炼、浓缩。文本的总结不仅可以压缩文本信息,而且可以支持文本的其它处理,如信息存储、信息检索和数据挖掘等。本文在面向新闻文档的总结技术的基础上,为了提高用户阅览和选择感兴趣信息的效率,提出新闻文档自动生成微博这一全新概念,采用不同方法实现生成微博,并利用不同方式进行对比分析。本文主要内容和贡献如下:第一,提出面向新闻文档的自动生成微博的概念。通过文本信息处理,并生成不超过140字的主题后,人们只需阅读少量信息就能确定是否需要进行全文阅览,这将大大提高人们获取电子文本信息的效率。第二,本文探索了面向中文新闻文档自动总结技术的研究。通过对现阶段几种流行的自动总结技术,如基于统计的自动总结,基于自然语言理解的文档总结,得到它们自身的优点和缺点,并在此基础上提出采用基于关键短语自动生成微博。提取出能够代表和抽象原文的关键词短语为第一级总结,根据生成的关键短语选择总结性句子作为微博。第三,采用基于潜在语义分析模型生成微博。这种方法识别语义重要的句子来创建微博,努力选择具有较高排序分数,且彼此不同的句子。尝试创建对文档主要内容有较大覆盖范围且较小冗余度的微博。对由不同模型生成的微博结果采用不同的方法进行比较和分析。第四,实现新闻文档的自动微博生成系统。实现了两种自动生成微博的方法,方面,采用基于统计方法生成关键概念作为文档的第一级别的总结,然后根据关键概念和句子之间的关系选择总结性的句子作为微博。另一方面,采用基于潜在语义分析方法提取潜在重要的句子作为微博结果。
【关键词】:自动微博生成 潜在语义分析 奇异值分解 关键短语提取 自动微博评估
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;TP393.092
【目录】:
- 摘要6-7
- Abstract7-11
- 第1章 绪论11-16
- 1.1 课题的研究背景和意义11-12
- 1.2 文档的自动微博生成12-14
- 1.2.1 文本自动微博生成研究现状12-13
- 1.2.2 典型自动微博系统分析13-14
- 1.3 本文的主要内容和结构安排14-16
- 第2章 自动微博生成综述16-22
- 2.1 自动微博生成定义16
- 2.2 自动微博生成影响因素16-18
- 2.3 自动生成微博评价方法18-19
- 2.4 文本预处理技术19
- 2.5 自动微博生成研究中的关键技术19-21
- 2.6 本章小结21-22
- 第3章 基于关键短语自动生成微博22-34
- 3.1 关键短语生成22-25
- 3.1.1 候选关键短语选择22-24
- 3.1.2 候选关键短语权重计算24-25
- 3.1.3 关键短语提取25
- 3.2 基于关键短语生成微博25-29
- 3.2.1 微博句子选择26-27
- 3.2.2 基于关键短语生成微博的详细算法27-28
- 3.2.3 候选句子位置阈值选择28-29
- 3.3 实验结果29-33
- 3.3.1 数据集29-30
- 3.3.2 微博生成效果的评价方法30
- 3.3.3 基于关键短语自动生成微博算法分析30-33
- 3.4 本章小结33-34
- 第4章 基于LSA自动微博生成34-55
- 4.1 基于LSA的自动生成微博算法框架34-35
- 4.2 潜在语义分析(LSA)技术35-39
- 4.2.1 文本的矩阵表示36
- 4.2.2 奇异值分解36-38
- 4.2.3 潜在语义空间定义38-39
- 4.3 词项权重计算模型39-42
- 4.3.1 词项权重的定义39-40
- 4.3.2 权重计算方法40-42
- 4.4 基于LSA生成微博技术42-45
- 4.4.1 文本分析与权重计算42-43
- 4.4.2 语义分析43-44
- 4.4.3 自动微博生成44-45
- 4.5 实验结果45-53
- 4.5.1 实验数据集介绍45
- 4.5.2 评价方法45-48
- 4.5.3 基于LSA生成微博实验结果48-53
- 4.6 本章小结53-55
- 第5章 自动微博生成系统设计与实现55-64
- 5.1 系统总体设计55-56
- 5.1.1 系统主要功能模块55-56
- 5.1.2 系统处理流程56
- 5.2 自动微博生成系统实现56-59
- 5.2.1 基于关键短语生成微博模块57-58
- 5.2.2 基于潜在语义分析模型生成微博模块58-59
- 5.3 系统应用分析59-63
- 5.4 小结63-64
- 结论64-65
- 致谢65-66
- 参考文献66-71
- 攻读硕士学位期间发表的论文及科研成果71
【参考文献】
中国期刊全文数据库 前1条
1 王建波,杜春玲,王开铸;基于篇章理解的自动文摘研究[J];中文信息学报;1995年03期
中国博士学位论文全文数据库 前1条
1 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
,本文编号:1024655
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1024655.html