基于微博信息分析对旅游景点热度预测系统的设计与实现
发布时间:2017-05-28 05:12
本文关键词:基于微博信息分析对旅游景点热度预测系统的设计与实现,由笔耕文化传播整理发布。
【摘要】:微博作为目前最流行的社会化网络媒体,其对旅游景点热度预测方面有一定的作用和意义,不仅可以帮助用户在选择游玩景点时提供决策参考的价值,还可以帮助商家给用户提供个性化的旅游景点推荐,甚至在预防突发事件的发生上也有一定的重要作用。要想实现旅游景点热度预测系统,需要解决如下一些问题:一是,微博数据库的数据量正在爆炸式的增长,其数据量之大,已经超出了传统的技术对数据的处理能力。二是,,传统的关键词提取算法只考虑关键词与它出现的文本数之间的关系,但是忽略了关键词在一个类别内的分布情况,从而导致对微博中关键词提取的准确性下降问题。三是,为了得到有效关键用户需要消除僵尸粉的干扰、广告用户的影响。四是,目前的相关研究都是针对过去的内容或当前的信息记录,没有做到预测性,因此需要设计相关算法。 面对以上的问题,本文首先通过设计算法来消除僵尸粉的干扰以及广告用户的影响来得到有效的关键用户集合;其次,对海量微博信息进行了分类,从中分离出有关旅游方面的微博,对得到的旅游相关微博信息进行中文分词,进而使用改进后的TF-IDF函数进行词语权值计算,得到在某段时间内高频的旅游类关键词;然后通过对用户之间的行为影响力的分析,结合关键用户集合和高频旅游类关键词集合来分析计算旅游信息的传播趋势,从而可以预测旅游景点的热度;最后将该系统移植到Hadoop分布式框架中。实验表明,该系统是有效可行的并且Hadoop框架能快速的处理海量数据。
【关键词】:微博 Hadoop 海量数据 用户影响力 旅游景点热度预测
【学位授予单位】:杭州电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092;TP391.1
【目录】:
- 摘要5-6
- ABSTRACT6-9
- 第一章 绪论9-15
- 1.1 课题研究背景及意义9-10
- 1.2 国内外研究现状10-13
- 1.2.1 微博关键词提取10-11
- 1.2.2 微博用户影响力11-13
- 1.3 课题研究的主要内容13-14
- 1.4 论文结构14-15
- 第二章 相关理论与技术15-25
- 2.1 云计算的相关介绍15-20
- 2.1.1 云计算的定义15-16
- 2.1.2 Hadoop 概述及集群高层体系结构16-17
- 2.1.3 Hadoop 文件系统(HDFS)17-19
- 2.1.4 MapReduce 编程模型19-20
- 2.2 微博关键词提取20-21
- 2.2.1 TF-IDF 算法的基本概念20
- 2.2.2 TF-IDF 算法的基本原理20-21
- 2.3 微博用户21-22
- 2.3.1 僵尸粉的基本概念21-22
- 2.3.2 关键用户的基本概念22
- 2.4 微博用户影响力22-24
- 2.4.1 用户影响力的基本概念22-23
- 2.4.2 用户影响力的评价因素23-24
- 2.5 本章小结24-25
- 第三章 旅游景点热度预测系统的需求分析与设计25-34
- 3.1 需求分析25
- 3.2 系统总体设计25-27
- 3.3 数据采集模块的设计27
- 3.4 提取关键用户模块的设计27-30
- 3.4.1 消除僵尸粉干扰的算法设计28
- 3.4.2 关键用户提取算法设计28-30
- 3.5 基于改进 TF-IDF 算法的高频旅游类关键词提取模块的设计30-31
- 3.6 关键用户行为影响力分析模块的设计31-32
- 3.6.1 好友联合影响概率的概念31
- 3.6.2 好友联合影响概率计算方法31-32
- 3.7 旅游信息传播趋势分析模块的设计32
- 3.8 本章小结32-34
- 第四章 旅游景点热度预测系统的实现34-40
- 4.1 数据采集模块的实现34-35
- 4.2 提取关键用户模块的实现35
- 4.3 基于改进 TF-IDF 算法的高频旅游类关键词提取模块的实现35-37
- 4.4 关键用户行为影响力模块的实现37-38
- 4.5 旅游信息传播趋势分析模块的实现38-39
- 4.6 本章小结39-40
- 第五章 实验与分析40-54
- 5.1 实验环境40
- 5.2 数据采集及存储40-41
- 5.3 实验流程与结果分析41-50
- 5.3.1 获得关键用户41-42
- 5.3.2 获得高频旅游类关键词42-45
- 5.3.3 获得关键用户行为影响力45-49
- 5.3.4 预测旅游景点热度49-50
- 5.4 实验结果验证50-53
- 5.5 本章小结53-54
- 第六章 总结与展望54-57
- 6.1 本文完成的主要研究工作54-55
- 6.2 不足之处及后期工作展望55-57
- 致谢57-58
- 参考文献58-61
- 附录61-62
- 详细摘要62-64
【参考文献】
中国期刊全文数据库 前10条
1 王小妮;高学东;倪晓明;;基于云计算的分布式数据挖掘平台架构[J];北京信息科技大学学报(自然科学版);2011年05期
2 谷琼;朱莉;蔡之华;袁红星;;基于决策树技术的高校研究生信息库数据挖掘研究[J];电子技术应用;2006年01期
3 梁爽;;基于SOA的云计算框架模型的研究与实现[J];计算机工程与应用;2011年35期
4 张建勋;古志民;郑超;;云计算研究进展综述[J];计算机应用研究;2010年02期
5 刘非凡;赵军;吕碧波;徐波;于浩;夏迎炬;;面向商务信息抽取的产品命名实体识别研究[J];中文信息学报;2006年01期
6 韩法旺;;基于云计算模式的图像检索研究[J];情报科学;2011年10期
7 廉捷;周欣;曹伟;刘云;;新浪微博数据挖掘方案[J];清华大学学报(自然科学版);2011年10期
8 王晓光;;微博客用户行为特征与关系特征实证分析——以“新浪微博”为例[J];图书情报工作;2010年14期
9 李海蓉;;基于概念向量空间的文档语义分类模型研究[J];图书情报工作;2011年24期
10 平亮;宗利永;;基于社会网络中心性分析的微博信息传播研究——以Sina微博为例[J];图书情报知识;2010年06期
本文关键词:基于微博信息分析对旅游景点热度预测系统的设计与实现,由笔耕文化传播整理发布。
本文编号:401986
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/401986.html