Web热点信息发现系统的设计与实现
发布时间:2017-05-20 12:15
本文关键词:Web热点信息发现系统的设计与实现,,由笔耕文化传播整理发布。
【摘要】:近几年来,Web网站技术发展迅速,已经彻底改变了互联网的面貌。Web网站现在更加强调自由创作和用户参与活动,越来越多的网民在新一代Web平台上创造了海量生动有趣的信息内容。越来越丰富的互联网信息资源使得用户难以在信息浩瀚的数据海洋中寻找到自己真正感兴趣的信息。因此,各种各样的信息检索和搜索引擎技术得到了广泛关注和巨大发展。 随着互联网的飞速发展,网络媒体已经成为继报纸、广播、电视之后的“第四大媒体”。由于网络新闻所具备的开放性、信息传播的快速性等特点,使其成为热点信息传播的主要途径,也是产生热点信息的重要来源。因此,如何自动的从巨大的网络资源中发现当前的热点事件及实体具有非常重要的意义。 热点信息包括热点话题及热点词语,是指某段时间内社会上发生的重大事件或人们普遍关注的对象;本文通过研究现有的话题检测与跟踪以及关键词的自动抽取等技术,利用这些技术来自动发现网络新闻报道中热点信息,设计并实现了Web热点信息发现系统。本文研究内容的创新点主要包括:(1)新闻网页的分类抓取及文本预处理操作;(2)针对高维向量的稀疏问题,提出了一种稀疏向量压缩存储和相似度计算方法;(3)热点信息的自动发现功能;(4)热点信息的展示功能。通过对热点话题和热点词语进行统计分析,最终以各种图表的方式进行了展示。
【关键词】:Web网站技术 热点信息 自我发现 文本预处理 关键词自动抽取
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092
【目录】:
- 摘要5-6
- Abstract6-12
- 第1章 绪论12-17
- 1.1 研究背景和意义12-13
- 1.2 国内外研究现状13-15
- 1.2.1 话题的检测与跟踪研究现状13-14
- 1.2.2 关键词自动抽取研究现状14-15
- 1.3 研究内容与创新点15-16
- 1.4 论文结构16-17
- 第2章 相关理论和关键技术17-25
- 2.1 PAT-Tree技术17-19
- 2.2 网页正文抽取技术19-20
- 2.3 文本相似度计算方法20-21
- 2.4 文本聚类21-24
- 2.4.1 文本聚类概述21-22
- 2.4.2 常用静态聚类算法22-24
- 2.4.3 常用动态聚类算法24
- 2.5 本章小结24-25
- 第3章 Web页面采集与文本预处理25-35
- 3.1 网络爬虫设计与实现25-28
- 3.1.1 真实站点目录层次结构抽取25-27
- 3.1.2 网页分类抓取实现27-28
- 3.2 网页正文抽取28-30
- 3.3 文本预处理30-34
- 3.3.1 中文分词31
- 3.3.2 停用词处理31-32
- 3.3.3 特征词抽取及权重处理32-33
- 3.3.4 稀疏向量压缩矩阵及相似度计算33-34
- 3.4 本章小结34-35
- 第4章 热点信息发现35-52
- 4.1 热点信息发现功能划分35
- 4.2 热点词语发现35-46
- 4.2.1 热点命名实体抽取36-39
- 4.2.2 热点非实体串识别39-46
- 4.3 热点话题发现与跟踪46-51
- 4.3.1 热点话题定义46
- 4.3.2 话题检测与跟踪的设计与实现46-49
- 4.3.3 话题的热度分析49
- 4.3.4 话题发现与跟踪的类图49-51
- 4.4 本章小结51-52
- 第5章 热点信息分析及测试52-64
- 5.1 软件测试方法52
- 5.2 测试流程52-53
- 5.3 测试用例53
- 5.4 热点话题分析与测试结果53-61
- 5.4.1 话题标题抽取与测试54-59
- 5.4.2 话题趋势图分析与测试59-60
- 5.4.3 话题信息岛图分析与测试60-61
- 5.5 热点词语分析与测试结果61-63
- 5.5.1 热点词语分析与测试61-62
- 5.5.2 热点词语趋势与测试62
- 5.5.3 热点词语频率分析与测试62-63
- 5.6 本章小结63-64
- 结论64-66
- 参考文献66-70
- 致谢70
【相似文献】
中国硕士学位论文全文数据库 前1条
1 徐慧;Web热点信息发现系统的设计与实现[D];湖南大学;2014年
本文关键词:Web热点信息发现系统的设计与实现,由笔耕文化传播整理发布。
本文编号:381591
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/381591.html