在线社区中的用户行为分析及热度预测
本文关键词: 在线社区 Scrapy爬虫 回复网络 用户分类 热贴预测 出处:《浙江大学》2017年硕士论文 论文类型:学位论文
【摘要】:随着Web 2.0的日益普及,各类在线社区也应运而生。在线社区具有现实社区所不具有的超时空性、符号性以及虚拟性,因而吸引了越来越多的互联网用户参与到其中。如何从这些在线社区中产生的海量数据中挖掘出有价值的信息也成为了当下热门的研究课题。本文基于百度贴吧的数据集对贴吧中的用户行为进行了分析,同时也提出了一种热贴预测模型。本文的工作主要包括以下几个方面:(1)设计并实现了基于Scrapy的网络爬虫,对百度贴吧中某贴吧于7、8月间产生的数据进行了采集。经过数据预处理后,数据集包含了约6万个主题贴、249万个回复贴以及22万个用户的信息,通过实验发现主题贴的获回贴数满足幂律分布;(2)基于上文获取的数据集构建了贴吧用户之间的回复网络,验证了该回复网络也具有社交网络的小世界和无标度特性。并且从活跃时间、发贴数、获回贴数以及回复时延四个角度对贴吧用户行为进行了分析。最后,对贴吧用户进行了聚类研究,通过额外引入"平均回复时延"这一用户行为指标,得到了有趣的分类结果并对其进行了详细阐述;(3)提出了一种基于时间阀值T的热贴预测模型,提取了与上文构建的回复网络相关的特征,并结合其他三类特征,对贴子最终能否成为热门贴进行预测,并通过实验验证了该预测模型的有效性。最后,通过对比实验分析了不同的时间阀值T、不同的分类模型以及不同的特征组合对预测效果产生的影响。
[Abstract]:With the increasing popularity of Web 2.0, all kinds of online communities have emerged. Online communities have the transcendental, symbolic and virtual properties that the real community does not have. Therefore, it attracts more and more Internet users to participate in it. How to extract valuable information from the massive data generated from these online communities has also become a hot research topic at present. This paper is based on Baidu Tieba. The user behavior in the post bar is analyzed in the data set of. At the same time, a hot patch prediction model is proposed. The main work of this paper includes the following aspects: 1) designed and implemented the Scrapy based web crawler. The data generated in August was collected. After data preprocessing, the dataset contained about 60, 000 topic posts, 2. 49 million reply posts and 220,000 users' information. It is found by experiments that the number of reposted objects meets the power law distribution. Based on the data set obtained above, a reply network between the users of the post bar is constructed, which verifies that the response network also has the small-world and scale-free characteristics of the social network, and posts from the active time. Finally, the user behavior is analyzed from four aspects: the number of posts returned and the response delay. Finally, the user behavior index of "average reply delay" is introduced by clustering the users. Some interesting classification results are obtained and explained in detail. (3) A hot patch prediction model based on time threshold T is proposed. The features related to the response network constructed above are extracted, and the other three kinds of features are combined to predict whether the post will eventually become a hot sticker. The effectiveness of the prediction model is verified by experiments. Finally, the effects of different time threshold T, different classification models and different feature combinations on the prediction results are analyzed through comparative experiments.
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13;TP393.09
【相似文献】
相关期刊论文 前10条
1 王文莲;张志宇;;预测模型智能选择的探讨[J];中国管理信息化;2006年02期
2 师瑞峰;周一民;;基于数据挖掘的人口数据预测模型综述[J];计算机工程与应用;2008年09期
3 姚光圻;赵荣黎;;场强预测模型分析及应用[J];移动通讯装备;1987年05期
4 唐芸,秦秀华,苏杰南;一种简易预测模型的应用[J];林业调查规划;2002年02期
5 吴学雁;辜敏;漆晨曦;;综合运用各种建模方法提高预测模型的准确度[J];广东通信技术;2006年06期
6 张飞飞;吴杰;吕智慧;;云计算资源管理中的预测模型综述[J];计算机工程与设计;2013年09期
7 廖灿平,柳玉柏;科技期刊发行量的灰色预测模型[J];编辑学报;1990年04期
8 刘晓雁,方忆冈;“读者需求”预测模型[J];晋图学刊;1997年02期
9 张慧敏;宋东;郭勇;王彦松;;故障预测模型的评价方法研究[J];测控技术;2013年05期
10 谢开贵,何斌,郑继明;灰色预测模型建模方法探讨[J];重庆邮电学院学报;1998年03期
相关会议论文 前10条
1 鄢小彬;肖新平;;基于灰色马尔可夫模型的煤矿安全预测[A];第九届中国青年信息与管理学者大会论文集[C];2007年
2 罗荣桂;黄敏镁;;基于自适应神经模糊推理系统的服务业发展预测模型[A];Well-off Society Strategies and Systems Engineering--Proceedings of the 13th Annual Conference of System Engineering Society of China[C];2004年
3 王亮;刘豹;徐德民;;预测模型的选择及其智能化实现[A];科学决策与系统工程——中国系统工程学会第六次年会论文集[C];1990年
4 肖健华;吴今培;;基于支持向量机的预测模型及应用[A];2003年中国智能自动化会议论文集(下册)[C];2003年
5 李阳旭;邓辉文;;一种新的企业市场预测模型及其比较研究[A];2004年中国管理科学学术会议论文集[C];2004年
6 马志元;;城市区域经济、人口、能源、环境综合系统预测模型及应用[A];中国城市建设与环境保护实践——城市建设与环境保护学术研讨会论文集[C];1997年
7 李兆芹;姚克敏;;一种新的疾病发病率预测模型研究[A];首届长三角气象科技论坛论文集[C];2004年
8 李兆芹;姚克敏;;一种新的疾病发病率预测模型研究[A];首届长三角科技论坛——气象科技发展论坛论文集[C];2004年
9 张晓f^;;全球煤炭产量的灰色预测模型[A];中国现场统计研究会第十三届学术年会论文集[C];2007年
10 肖会敏;樊为刚;;基于神经网络的粮食产量预测模型[A];04'中国企业自动化和信息化建设论坛暨中南六省区自动化学会学术年会专辑[C];2004年
相关重要报纸文章 前10条
1 刘庆;“预测模型”要缓行[N];网络世界;2006年
2 特约记者 刘京涛;华东化工销售员工设计价格预测模型见成效[N];中国石油报;2010年
3 南方日报记者 彭琳 实习生 周鹏程;预测世界杯之外 大数据还能做什么[N];南方日报;2014年
4 本报记者 张超;预测模型:推算SARS起落潮[N];科技日报;2003年
5 本报记者 段佳;机器“品肉师”替您“尝鲜”[N];大众科技报;2010年
6 BMC首席IT技术官 Mahendra Durai IDC顾问 Eric Hatcher Randy Perry;预测智能:管理复杂基础架构的锁钥[N];中国计算机报;2010年
7 张琳 赵伟;巧用Excel构建利润预测模型[N];财会信报;2007年
8 杨宜勇(作者为国家发改委经济研究所副所长);发挥信息化对就业的“增补效应”[N];第一财经日报;2005年
9 本报记者 汤浔芳 实习记者 董文萍;“孵化器”模式:大数据的垂直运营样本[N];21世纪经济报道;2014年
10 本报记者 安丰;深部找矿的探镜[N];中国国土资源报;2006年
相关博士学位论文 前10条
1 师懿;城市交通规划环评中空气污染预测模型研究[D];中国地质大学;2015年
2 张丽;牦牛肉用品质特性及近红外预测模型和产量等级系统的研究[D];中国农业科学院;2015年
3 王菲;肉牛饲料有效能值预测模型的建立与评价[D];中国农业大学;2016年
4 文江平;农村地区成人2型糖尿病发生风险相关生物标志物的筛选及预测模型的建立[D];中国人民解放军医学院;2016年
5 白云鹏;华法林稳态剂量预测模型在瓣膜置换术后抗凝治疗中的应用[D];天津医科大学;2016年
6 孙鹏;风电机组状态异常辨识广义模型与运行风险评估方法研究[D];重庆大学;2016年
7 马新;基于灰色系统与核方法的油藏动态预测方法研究[D];西南石油大学;2016年
8 付中涛;基于切削力预测模型的复杂曲面铣削进给速度优化研究[D];华中科技大学;2015年
9 周闯;原发性肝癌术后转移复发分子预测模型的优化整合与临床转化[D];复旦大学;2012年
10 孙忠林;煤矿安全生产预测模型的研究[D];山东科技大学;2009年
相关硕士学位论文 前10条
1 刘冰;基于神经网络的纤维热磨过程能耗预测模型的研究[D];东北林业大学;2015年
2 张念;铁路轨道几何不平顺趋势预测的关键算法研究[D];西南交通大学;2015年
3 田振伟;城市能源预测模型的研究与应用[D];昆明理工大学;2015年
4 吴迪;基于模糊决策树算法的安全库存量预测模型[D];中国地质大学(北京);2015年
5 齐雯;采用灰色预测模型改进的HHT算法在故障诊断中的应用[D];华南理工大学;2015年
6 王萍;膀胱癌遗传分数的计算及发病风险预测模型的构建[D];复旦大学;2013年
7 石大宏;基于序列的蛋白质—核苷酸绑定位点预测研究[D];南京理工大学;2015年
8 熊盛华;基于BP神经网络的混合预测模型的实例研究[D];兰州大学;2015年
9 赵Z,
本文编号:1486993
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1486993.html