当前位置:主页 > 管理论文 > 移动网络论文 >

网络新闻热点发现研究

发布时间:2017-09-19 06:29

  本文关键词:网络新闻热点发现研究


  更多相关文章: 自动摘要 关联规则 互信息 热度计算 top-N


【摘要】:随着互联网的普及,网络用户数量不断增加,互联网成为人们关注新闻动态、时事政治和发表观点的重要平台。与传统媒体相比较,网络新闻内容涉及更全面,更新速度更快,所以网络舆论也就成为社会舆论的一种重要表现形式。通过了解网络热点话题,及时掌握流行观点具有十分重要的意义。本文针对网络新闻语料进行热点发现研究,主要工作如下:新词发现是中文自然语言处理的基础,本文利用改进的关联规则算法对网络新闻进行挖掘,相邻、有序地输出频繁字符串集合,能有效地发现词典中未登录词以及当前网络中流行的热词。本文针对复合式新词的问题给出了一种支持度比对的方法。在热点新闻挖掘中,给出了根据互信息计算字符串的相似度,形成热点新闻的关键词集合,再进行热度计算的方法。在选取新闻语料进行处理时,由于新闻具有很强的时效性,同一时间关于同一主题的不同报道会陈述某些相同的信息。本文改进传统的自动摘要算法,首先利用二元分类器对事件句与非事件句进行初步判定,把事件句作为摘要句的候选集合,降低了运算的时间。由于新闻数据量较大,逐一进行分词和关联规则计算效率太低。于是针对爬虫技术提取到的网络新闻的特点,本文对新闻内容进行自动摘要处理,选取一定比例的摘要句与新闻标题作为语料集进行实验。为了解决多新闻网站新闻数据量大且不易处理的问题,本文给出了一种新闻热点快速查找的方法。先找出单个新闻网站的新闻热点排名,再利用top-N算法对排名结果进行综合快速排名。本文选取网易、搜狐和新浪三大新闻网站从2013年2月25日到2015年3月31日的数据为语料源对本文的方法进行验证。实验结果表明,本文的方法能有效地发现网络新闻的热点新闻。
【关键词】:自动摘要 关联规则 互信息 热度计算 top-N
【学位授予单位】:河北大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;TP393.092
【目录】:
  • 摘要5-6
  • Abstract6-9
  • 第1章 绪论9-15
  • 1.1 研究背景和意义9
  • 1.2 热点发现研究现状9-11
  • 1.3 热点发现存在的问题11-12
  • 1.4 本文主要研究内容与论文组织结构12-14
  • 1.4.1 主要研究内容12-13
  • 1.4.2 论文组织结构13-14
  • 1.5 本章小结14-15
  • 第2章 相关知识15-22
  • 2.1 网络新闻特点15-17
  • 2.1.1 新闻文本特征15
  • 2.1.2 网络新闻概念15-16
  • 2.1.3 网络热词概念16-17
  • 2.2 自动摘要技术17-21
  • 2.2.1 自动摘要技术分类17-18
  • 2.2.2 自动摘要特征项18-20
  • 2.2.3 新闻文本特征表示20-21
  • 2.2.4 语句平滑处理21
  • 2.3 本章小结21-22
  • 第3章 频繁模式挖掘22-29
  • 3.1 数据预处理22-24
  • 3.1.1 新闻语料的预处理22
  • 3.1.2 事件句筛选22-23
  • 3.1.3 摘要生成23-24
  • 3.2 关联规则的思想24-25
  • 3.3 基于改进的频繁模式的新词识别算法25-28
  • 3.3.1 IFP算法25-27
  • 3.3.2 复合式新词判定27-28
  • 3.4 本章小结28-29
  • 第4章 新闻热点发现29-35
  • 4.1 词共现模型29-30
  • 4.2 事件关联建模30-31
  • 4.2.1 事件热词提取30
  • 4.2.2 事件热词关联建模30-31
  • 4.3 热点新闻排名31-32
  • 4.4 基于top-N新闻热点快速查找32-33
  • 4.5 本章小结33-35
  • 第5章 实验数据与结果分析35-44
  • 5.1 实验设计35
  • 5.2 实验结果及分析35-43
  • 5.2.1 新词发现35-37
  • 5.2.2 自动摘要37-38
  • 5.2.3 热点排名38-42
  • 5.2.4 基于top-N新闻热点快速查找实验结果42-43
  • 5.3 本章小结43-44
  • 第6章 总结与展望44-46
  • 6.1 论文工作总结44
  • 6.2 工作展望44-46
  • 参考文献46-48
  • 致谢48-49
  • 攻读学位期间取得的科研成果49

【参考文献】

中国期刊全文数据库 前6条

1 李钝;曹元大;万月亮;;Internet中的新词识别[J];北京邮电大学学报;2008年01期

2 崔世起;刘群;孟遥;于浩;西野文人;;基于大规模语料库的新词检测[J];计算机研究与发展;2006年05期

3 常鹏;冯楠;;基于词共现的文档表示模型[J];中文信息学报;2012年01期

4 郭冲;;基于新闻标题的网络热词发现算法[J];计算机与现代化;2013年03期

5 刘哲;黄永峰;罗芳;陈跻;王丙坤;;网络新词识别算法研究[J];计算机工程与科学;2013年09期

6 赵文清;侯小可;;基于词共现图的中文微博新闻话题识别[J];智能系统学报;2012年05期



本文编号:880045

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/880045.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b113e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com