当前位置:主页 > 管理论文 > 移动网络论文 >

面向新闻文档的自动微博生成算法研究与实现

发布时间:2017-10-13 11:35

  本文关键词:面向新闻文档的自动微博生成算法研究与实现


  更多相关文章: 自动微博生成 潜在语义分析 奇异值分解 关键短语提取 自动微博评估


【摘要】:网上每天产生巨量新闻,普通用户不容易通过手机浏览这些信息。从海量新闻信息中找到自己感兴趣的信息非常耗时,因此我们迫切需要有效的压缩工具对大量信息进行提炼、浓缩。文本的总结不仅可以压缩文本信息,而且可以支持文本的其它处理,如信息存储、信息检索和数据挖掘等。本文在面向新闻文档的总结技术的基础上,为了提高用户阅览和选择感兴趣信息的效率,提出新闻文档自动生成微博这一全新概念,采用不同方法实现生成微博,并利用不同方式进行对比分析。本文主要内容和贡献如下:第一,提出面向新闻文档的自动生成微博的概念。通过文本信息处理,并生成不超过140字的主题后,人们只需阅读少量信息就能确定是否需要进行全文阅览,这将大大提高人们获取电子文本信息的效率。第二,本文探索了面向中文新闻文档自动总结技术的研究。通过对现阶段几种流行的自动总结技术,如基于统计的自动总结,基于自然语言理解的文档总结,得到它们自身的优点和缺点,并在此基础上提出采用基于关键短语自动生成微博。提取出能够代表和抽象原文的关键词短语为第一级总结,根据生成的关键短语选择总结性句子作为微博。第三,采用基于潜在语义分析模型生成微博。这种方法识别语义重要的句子来创建微博,努力选择具有较高排序分数,且彼此不同的句子。尝试创建对文档主要内容有较大覆盖范围且较小冗余度的微博。对由不同模型生成的微博结果采用不同的方法进行比较和分析。第四,实现新闻文档的自动微博生成系统。实现了两种自动生成微博的方法,方面,采用基于统计方法生成关键概念作为文档的第一级别的总结,然后根据关键概念和句子之间的关系选择总结性的句子作为微博。另一方面,采用基于潜在语义分析方法提取潜在重要的句子作为微博结果。
【关键词】:自动微博生成 潜在语义分析 奇异值分解 关键短语提取 自动微博评估
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;TP393.092
【目录】:
  • 摘要6-7
  • Abstract7-11
  • 第1章 绪论11-16
  • 1.1 课题的研究背景和意义11-12
  • 1.2 文档的自动微博生成12-14
  • 1.2.1 文本自动微博生成研究现状12-13
  • 1.2.2 典型自动微博系统分析13-14
  • 1.3 本文的主要内容和结构安排14-16
  • 第2章 自动微博生成综述16-22
  • 2.1 自动微博生成定义16
  • 2.2 自动微博生成影响因素16-18
  • 2.3 自动生成微博评价方法18-19
  • 2.4 文本预处理技术19
  • 2.5 自动微博生成研究中的关键技术19-21
  • 2.6 本章小结21-22
  • 第3章 基于关键短语自动生成微博22-34
  • 3.1 关键短语生成22-25
  • 3.1.1 候选关键短语选择22-24
  • 3.1.2 候选关键短语权重计算24-25
  • 3.1.3 关键短语提取25
  • 3.2 基于关键短语生成微博25-29
  • 3.2.1 微博句子选择26-27
  • 3.2.2 基于关键短语生成微博的详细算法27-28
  • 3.2.3 候选句子位置阈值选择28-29
  • 3.3 实验结果29-33
  • 3.3.1 数据集29-30
  • 3.3.2 微博生成效果的评价方法30
  • 3.3.3 基于关键短语自动生成微博算法分析30-33
  • 3.4 本章小结33-34
  • 第4章 基于LSA自动微博生成34-55
  • 4.1 基于LSA的自动生成微博算法框架34-35
  • 4.2 潜在语义分析(LSA)技术35-39
  • 4.2.1 文本的矩阵表示36
  • 4.2.2 奇异值分解36-38
  • 4.2.3 潜在语义空间定义38-39
  • 4.3 词项权重计算模型39-42
  • 4.3.1 词项权重的定义39-40
  • 4.3.2 权重计算方法40-42
  • 4.4 基于LSA生成微博技术42-45
  • 4.4.1 文本分析与权重计算42-43
  • 4.4.2 语义分析43-44
  • 4.4.3 自动微博生成44-45
  • 4.5 实验结果45-53
  • 4.5.1 实验数据集介绍45
  • 4.5.2 评价方法45-48
  • 4.5.3 基于LSA生成微博实验结果48-53
  • 4.6 本章小结53-55
  • 第5章 自动微博生成系统设计与实现55-64
  • 5.1 系统总体设计55-56
  • 5.1.1 系统主要功能模块55-56
  • 5.1.2 系统处理流程56
  • 5.2 自动微博生成系统实现56-59
  • 5.2.1 基于关键短语生成微博模块57-58
  • 5.2.2 基于潜在语义分析模型生成微博模块58-59
  • 5.3 系统应用分析59-63
  • 5.4 小结63-64
  • 结论64-65
  • 致谢65-66
  • 参考文献66-71
  • 攻读硕士学位期间发表的论文及科研成果71

【参考文献】

中国期刊全文数据库 前1条

1 王建波,杜春玲,王开铸;基于篇章理解的自动文摘研究[J];中文信息学报;1995年03期

中国博士学位论文全文数据库 前1条

1 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年



本文编号:1024655

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1024655.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户87c89***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com