当前位置:主页 > 科技论文 > 搜索引擎论文 >

社交媒体数据分析平台的设计与实现

发布时间:2017-09-04 04:39

  本文关键词:社交媒体数据分析平台的设计与实现


  更多相关文章: 社交媒体 数据分析 微博 可视化


【摘要】:社交媒体迅速发展,无处不在。人们利用社交媒体分享自己的生活见闻,发表对事物的意见、观点及经验。新浪微博等社交媒体产生大量的第一手消费者信息,越来越多的数据变得触手可得。目前,许多企业把社交媒体当作一个推广渠道,并没有充分利用社交媒体产生的有关消费人群的大量数据信息。本系统以新浪微博为主,首先,利用其API以一种基于分布式的数据采集方式获取社交媒体数据。其次,将获取到的数据通过Hadoop实现数据存储分析,实现Hadoop与Solr相结合并充分地发挥了两者的长处。由于使用Hadoop的预先分词技术和分布式结构,使得Solr搜索引擎的索引生成得到了高效的优化。最后,经过对社交媒体数据分析后,实现分析结果可视化。 本文针对新浪微博产生的数据,设计实现了社交媒体数据分析系统。该系统主要负责新浪微博等社交媒体数据的获取和分析,主要任务是建设Hadoop平台,实现微博数据获取的分布式计算系统;建设网站实现数据分析。数据分析实现的功能主要包括社会关系网络分析、用户群分析、用户情感分析、客户城市地图、话题趋势分析等。本文对社交媒体数据分析系统的项目背景和国内外发展现状进行了阐述,讲述了本系统的社会价值和潜在的商业价值,接着详细分析和研究了社交媒体数据分析平台项目中用到的关键技术,然后对该系统进行了业务分析和功能分析,研究了其功能性需求和非功能性需求,以综上分析为基础描述了本项目的总体架构设计和功能模块划分,并且对各功能模块的详细设计与实现进行了阐述。本人在该系统的生命周期中参与了需求分析、概要设计、详细设计、开发测试工作,主要负责社交关系网络分析模块、用户群分析模块、用户情感分析模块、客户城市地图模块。 本系统已经通过公司内测。本人设计实现的功能模块均能够正常运行,并且各模块的运行情况与用户需求相符合。
【关键词】:社交媒体 数据分析 微博 可视化
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.52
【目录】:
  • 致谢5-6
  • 摘要6-7
  • ABSTRACT7-11
  • 1 引言11-15
  • 1.1 系统研究背景和意义11-12
  • 1.1.1 项目选题背景11-12
  • 1.1.2 项目研究意义12
  • 1.2 国内外发展现状12-13
  • 1.3 主要研究工作13
  • 1.4 项目目标13-14
  • 1.5 论文结构安排14
  • 1.6 本章小结14-15
  • 2 本课题涉及的关键技术15-28
  • 2.1 HDFS文件系统15-16
  • 2.2 Hadoop16-18
  • 2.3 NoSQL18-21
  • 2.3.1 列存储18-19
  • 2.3.2 键-值存储19-20
  • 2.3.3 文档存储20-21
  • 2.3.4 选择合适的NoSQL21
  • 2.4 搜索引擎服务器Solr21-24
  • 2.4.1 搜索引擎工具包22-23
  • 2.4.2 搜索引擎服务器与体系结构23-24
  • 2.5 文本分析技术24-26
  • 2.5.1 分词工具24
  • 2.5.2 语义扩展24-25
  • 2.5.3 潜在狄利克雷分布25-26
  • 2.6 数据可视化工具26-27
  • 2.7 本章小结27-28
  • 3 系统需求分析28-35
  • 3.1 系统业务分析28-30
  • 3.2 系统功能分析30-32
  • 3.2.1 数据获取模块功能分析30
  • 3.2.2 数据分析模块功能分析30-32
  • 3.3 系统非功能性需求分析32-34
  • 3.3.1 用户界面需求32
  • 3.3.2 性能需求32-33
  • 3.3.3 系统安全性要求33
  • 3.3.4 跨平台要求33
  • 3.3.5 可复用性要求33-34
  • 3.3.6 可靠性要求34
  • 3.4 本章小结34-35
  • 4 概要设计35-39
  • 4.1 系统架构设计35-37
  • 4.1.1 展示层35-36
  • 4.1.2 业务层36
  • 4.1.3 服务层36-37
  • 4.1.4 数据层37
  • 4.2 包结构设计37-38
  • 4.3 本章小结38-39
  • 5 系统设计与实现39-53
  • 5.1 数据获取模块的设计与实现39-43
  • 5.1.1 数据获取模块的设计40-42
  • 5.1.2 数据获取模块的实现42-43
  • 5.2 数据分析模块的设计与实现43-52
  • 5.2.1 社交关系网络分析子模块的设计与实现44-46
  • 5.2.2 用户群分析子模块的设计与实现46-48
  • 5.2.3 客户城市地图子模块的设计与实现48-50
  • 5.2.4 用户情绪分析子模块的设计与实现50-52
  • 5.3 本章小结52-53
  • 6 系统测试53-62
  • 6.1 测试环境53
  • 6.2 测试方法和用例53-56
  • 6.2.1 功能测试54-55
  • 6.2.2 压力测试55-56
  • 6.3 系统运行结果展示56-61
  • 6.3.1 数据获取模块界面56
  • 6.3.2 数据分析模块界面56-61
  • 6.4 本章小结61-62
  • 7 总结与展望62-63
  • 参考文献63-65
  • 作者简历65-67
  • 学位论文数据集67

【参考文献】

中国期刊全文数据库 前10条

1 姚砺,束永安;软件测试自动化关键技术的研究[J];安徽大学学报(自然科学版);2003年04期

2 李龙;李芝棠;涂浩;史春永;;一种分布式微博数据采集平台的设计与实现[J];广西大学学报(自然科学版);2011年S1期

3 吴斌杰;徐子玮;虞飞华;;基于API的微博信息采集系统设计与实现[J];电脑知识与技术;2013年17期

4 傅灵丽;代俊秋;刘金河;;Web应用系统的自动化测试解决方案[J];河北工业大学学报;2010年04期

5 姚科;;开放API:新浪微博必经之路?[J];互联网天地;2010年08期

6 张丽波;软件自动化测试的设计与实施[J];佳木斯大学学报(自然科学版);2004年04期

7 庞磊;李寿山;周国栋;;基于情绪知识的中文微博情感分类方法[J];计算机工程;2012年13期

8 廉捷;周欣;曹伟;刘云;;新浪微博数据挖掘方案[J];清华大学学报(自然科学版);2011年10期

9 魏振钢;宋庆国;张建军;张子振;;基于以太网的分布式智能门禁系统[J];计算机工程与设计;2007年04期

10 仇钧;刘功申;;基于关系的微博重要度算法研究[J];信息安全与通信保密;2013年01期



本文编号:789422

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/789422.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ffecc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com