基于新浪微博数据的处理与用户行为分析
本文关键词:基于新浪微博数据的处理与用户行为分析
更多相关文章: 社交网络 网络爬虫 机器学习 特征提取 用户行为 情感分类 预测
【摘要】:随着互联网技术的不断发展,社交网络在人们的日常生活中扮演着越来越重要的角色,同时也在改变着信息的传播方式,从原来的平面媒体与电视广播相结合到现在多元化平台的改变。人们获取热门信息和自己感兴趣的信息的方式也与社交网络变得越来越密不可分。伴随而来的是通过分析大量的用户数据对用户的各种行为进行深度挖掘,从而优化信息传递效率,节约人们从海量信息中提取对自身有价值信息的时间,并挖掘其潜在的巨大的商业价值。国外社交网络Facebook与Twitter的巨大成功也在很大程度上促进了国内社交网络平台的发展。本文以国内的热门社交网络平台新浪微博的用户信息与微博信息为研究对象,主要完成了以下四个方面的工作。第一,研究了目前比较流行的网络爬虫技术。通过比较和综合分析,设计并实现了一个分别对微博内容、用户信息、用户关系信息、微博关系信息等数据进行采集并存储,然后利用获取到的数据按需进行特征提取的数据采集系统。对于获取到的微博数据,根据数据之间的关联关系设计了相应的数据库。此外,在爬取数据的过程中,不仅使用多线程技术大幅提高了爬虫的工作效率,还设计了多APP Key复用机制,突破了新浪对API调用次数的限制,从而使爬虫系统可以持续工作运行。第二,为了对用户的转发行为进行预测,并找出对用户转发行为有重要影响的微博特征,本文通过研究新浪微博包括用户和微博内容在内的13项特征,进行机器学习,建立了特征分析模型,找出影响微博转发的重要因子。首次对特征因子组合进行研究,探求特征之间的关联程度。同时用不同的机器学习算法进行模型训练比较最后的预测结果,找出预测准确率最高的算法。第三,针对情感预测问题,建立了基于混合分类器的情感预测模型(Hybrid Classifier Sentiment Prediction Model,简称HCSPM)。该模型针结合四种常见的机器学习分类算法,提取了四个不同分类器的预测标签和预测得分,通过加权计算,对微博的情感分类进行预测。第四,为了对提高研究过程中的实验效率和对实验结果更加直观、准确的分析,本文设计了用户行为分析系统,结合了不同的分类算法,使得在分析用户行为时更加清晰和高效。综上,本文通过基于微博数据的爬取与处理,对微博用户的行为进行了分析,并在最后提出了今后进一步研究的主要方向。
【关键词】:社交网络 网络爬虫 机器学习 特征提取 用户行为 情感分类 预测
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092;TP391.1
【目录】:
- 致谢5-6
- 摘要6-7
- ABSTRACT7-9
- 序言9-12
- 1 引言12-20
- 1.1 研究背景12-14
- 1.2 研究意义14-15
- 1.3 国内外研究现状15-18
- 1.3.1 关于微博的预测研究15-16
- 1.3.2 关于微博转发行为预测的研究16-17
- 1.3.3 微博情感分析的预测17-18
- 1.4 本文主要工作18-19
- 1.5 论文组织结构19-20
- 2 微博数据的获取与存储20-33
- 2.1 爬虫系统的设计与调度20-23
- 2.2 微博数据的获取23-30
- 2.2.1 用户信息获取23-25
- 2.2.2 用户关系获取25-27
- 2.2.3 微博内容获取27-30
- 2.3 数据库设计30-32
- 2.4 本章小结32-33
- 3 基于微博特征的用户转发行为预测33-52
- 3.1 预测模型的设计与描述33
- 3.2 特征提取33-35
- 3.3 基本分类算法35-44
- 3.3.1 支持向量机算法36-39
- 3.3.2 K近邻算法39-40
- 3.3.3 朴素贝叶斯算法40-42
- 3.3.4 C4.5决策树42-44
- 3.4 实验内容44-51
- 3.4.1 实验环境45
- 3.4.2 文本分类评价指标45-46
- 3.4.3 实验描述及结果分析46-51
- 3.5 本章小结51-52
- 4 基于分类器混合模型的微博情感预测52-58
- 4.1 数据处理52
- 4.2 HCSPM52-54
- 4.2.1 HCSPM工作原理52-53
- 4.2.2 HCSPM情感分类步骤53-54
- 4.3 实验内容54-57
- 4.3.1 实验环境54
- 4.3.2 HCSPM性能分析54-57
- 4.3.3 实验结果比较与分析57
- 4.4 本章小结57-58
- 5 用户行为分析系统的设计与实现58-66
- 5.1 系统概述58-61
- 5.1.1 需求分析58-59
- 5.1.2 系统工作流程59-61
- 5.2 系统功能模块设计61-65
- 5.2.1 转发行为预测模块设计62-63
- 5.2.2 用户情感预测模块设计63-65
- 5.3 本章小结65-66
- 6 结论与展望66-67
- 参考文献67-70
- 作者简历及攻读硕士/博士学位期间取得的研究成果70-72
- 学位论文数据集72
【相似文献】
中国期刊全文数据库 前10条
1 马维亮;;用户行为分析系统在宽带网络中的应用[J];科技信息(科学教研);2008年23期
2 乔志伟;;基于用户行为的3G业务分析与探讨[J];移动通信;2010年12期
3 龚尚福;姜晓旭;;基于用户行为分析的广告欺诈点击检测[J];计算机应用与软件;2011年04期
4 陶彩霞;谢晓军;陈康;郭利荣;刘春;;基于云计算的移动互联网大数据用户行为分析引擎设计[J];电信科学;2013年03期
5 毛承洁;张龙;庞川;陈洁敏;;社会网络服务及其用户行为分析[J];华南师范大学学报(自然科学版);2013年02期
6 雒江涛;胡燕清;徐孝娜;周进艳;;基于CDMA2000 1x EVDO网络的用户行为分析模型设计[J];电视技术;2013年07期
7 许春玲;范志刚;郑小盈;李明齐;;有线电视用户行为分析实践[J];网络新媒体技术;2014年01期
8 李朝阳;谢传中;;一种移动互联网用户行为分析系统的顶层设计[J];江西通信科技;2014年01期
9 刘英梅;;大数据时代的信息用户行为分析[J];科技情报开发与经济;2014年05期
10 陆群峰;;宽带上网用户行为分析[J];有线电视技术;2006年02期
中国重要会议论文全文数据库 前7条
1 赵勇;;移动互联网用户行为分析系统技术架构浅析[A];2012全国无线及移动通信学术大会论文集(下)[C];2012年
2 冯铭;王保进;蔡建宇;;基于云计算的可重构移动互联网用户行为分析系统的设计[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
3 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年
4 赵艳梅;朱晓燕;;转变运维模式,迎接移动互联网新挑战[A];中国通信学会信息通信网络技术委员会2011年年会论文集(上册)[C];2011年
5 刘奕群;张敏;马少平;;用户行为分析在网络信息检索中的应用概述[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 毛翔博;齐观德;李石坚;潘纲;;基于位置轨迹加权网络图的用户行为分析识别算法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
7 尔古打机;苏小龙;朱征;;基于用户行为分析的移动终端偏好模型研究[A];第八届(2013)中国管理学年会——商务智能分会场论文集[C];2013年
中国重要报纸全文数据库 前3条
1 谭景华邋杨国良;IP网络用户行为分析方法的探讨[N];人民邮电;2007年
2 本报记者 逄丹;建设用户行为分析智慧模型[N];通信产业报;2010年
3 李中朝邋通讯员 黄伟;重庆电信建成宽带用户行为分析系统[N];人民邮电;2007年
中国博士学位论文全文数据库 前6条
1 王琪;新媒体系统中用户行为分析与系统设计[D];复旦大学;2014年
2 罗海艳;移动用户网络行为分析与预测方法研究[D];沈阳农业大学;2015年
3 刘鹏;网络用户行为分析的若干问题研究[D];北京邮电大学;2010年
4 延皓;基于流量监测的网络用户行为分析[D];北京邮电大学;2011年
5 窦伊男;根据多维特征的网络用户分类研究[D];北京邮电大学;2010年
6 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
中国硕士学位论文全文数据库 前10条
1 江惠彬;基于Web日志的用户行为分析系统的研究与实现[D];华南理工大学;2015年
2 李亚飞;基于用户行为分析的冰箱设计研究[D];山东大学;2015年
3 石钊;基于网络用户行为分析的用户推荐反馈系统的设计[D];北京化工大学;2015年
4 李婷蔚;基于移动校园应用的用户行为分析及性能改进[D];电子科技大学;2014年
5 王颖颖;基于Hadoop的用户行为分析系统的设计与实现[D];北京工业大学;2015年
6 马仕玉;聚类算法及其在校园网用户行为分析中的应用[D];重庆交通大学;2015年
7 徐娟;基于用户行为分析的核能领域垂直检索系统研究[D];合肥工业大学;2015年
8 陈嘉翼;基于小波聚类的网络用户行为分析研究[D];重庆大学;2015年
9 胡晓祥;基于飞天云平台的海量网络用户行为分析技术研究[D];南京大学;2014年
10 汪传章;基于博弈论的云用户行为分析预测模型研究与分析[D];东华理工大学;2016年
,本文编号:572164
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/572164.html