基于微博的数据获取与过滤技术研究
本文关键词:基于微博的数据获取与过滤技术研究
【摘要】:随着社交网络平台的快速发展,人们越来越依赖像微博、微信等互联网社交平台的信息传递与情感表达,同时各式各样的社会问题也逐渐通过网络平台舆论的推动迅速暴露并传播蔓延,从而爆发成为热点。近年来新浪微博平台凭借其消息实时性、传播裂变性而逐渐成为国内大事件扩散和网络舆论爆发的重要平台。微博中的意见领袖,作为微博平台舆论点的关键,由于其知名度高,粉丝数量庞大,在公众舆论事件中其名人效应也会被放大,舆论影响力随之增大,他们发布或转发的微博更容易导致舆论讨论的高潮,进而形成微博热门话题。所以实时获取意见领袖的微博数据既是话题聚类分析的数据保障,也是舆情分析的重要方法之一。目前对于微博意见领袖的数据获取方法主要有两种,一种是基于微博开放平台API,该方法可以方便快速地批量获取意见领袖的微博信息,但是接口限定了采集速率;另一种方法是采用定向网络爬虫,该方法可以获得比较完整的数据,但是频繁访问大量意见领袖,面临账号被封的危险。本文分析了微博数据抓取的研究现状与背景,在此基础上提出一种新的数据抓取方式:基于关注-分组模式的数据采集方案,利用微博的工作特点,实时定向接收意见领袖推送的消息列表进而实现对意见领袖数据的抓取。将基于此方法抓取到的微博数据采用SVM的分类算法进行二分类,剔除娱乐类信息,保留社会类微博数据,进而实现微博数据的初步过滤,本文基于此设计思想实现了基于微博的数据获取与初步过滤系统。本文最后对基于API、基于定向网络爬虫与基于关注-分组模式的三种数据获取方法进行了实验分析与对比,实验结果表明本文提出的基于关注-分组模式的数据获取方法较传统方法具有较好的性能,既能保证数据的实时性,又能保证数据的完整性。同时采用基于SVM的分类算法进行数据初步过滤,也能达到较好的预期分类效果,整个系统设计能够达到为微博舆情分析提供全面准确的数据支持。
【学位授予单位】:中国地质大学(北京)
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092
【相似文献】
中国期刊全文数据库 前10条
1 夏松江;1024至65536道核谱数据获取与处理系统[J];核电子学与探测技术;1987年05期
2 张献州;铁路地理信息系统数据获取技术[J];铁路计算机应用;2001年08期
3 薛辉,孙如霞,尹春勇;网络数据获取方法浅析[J];网络安全技术与应用;2005年08期
4 赵沁平;;自然现象的数据获取与模拟[J];中国科学:信息科学;2011年04期
5 周新志,白荣生,温良弼,,黄艳文;一种计算机多道脉冲分析系统中的数据获取接口[J];核电子学与探测技术;1996年04期
6 芮小平,杨崇俊,王盼成;3维城市模型中的数据获取和组织方案研究[J];地理学与国土研究;2002年02期
7 王纪海;基于苹果-Ⅱ微机的数据获取与处理系统[J];中国核科技报告;1988年S2期
8 贾向军 ,王效忠 ,许小明;中子多重性测量数据获取软件的开发[J];中国原子能科学研究院年报;2001年00期
9 张英;互联网下的数据获取和Web获取[J];教育信息化;2004年06期
10 吴剑峰,许祖润,吴世英;多功能网络化核数据获取和处理系统[J];核电子学与探测技术;2005年01期
中国重要会议论文全文数据库 前6条
1 王博亮;张业;王嘉逊;谢杰镇;方青;吴世辉;;中国数字人虚拟眼的数据获取与研究进展[A];人体断面数据获取与图像处理研讨会论文汇编[C];2005年
2 张建国;;日本卫星JERS-1数据获取技术系统[A];空间探测的今天和未来——中国空间科学学会空间探测专业委员会第七次学术会议论文集(上册)[C];1994年
3 骆云飞;王书民;;机载LiDAR系统在道路勘测中的数据获取及应用[A];第四届“测绘科学前沿技术论坛”论文精选[C];2012年
4 刘广栋;安琪;刘树彬;;外热式等离子体实验装置数据获取和处理系统[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
5 杨文静;房宗良;李莉;胡洁微;文其林;;基于LabVIEW的谱数据获取软件设计[A];第十五届全国核电子学与核探测技术学术年会论文集[C];2010年
6 林金锌;朱节清;顾连学;乐安全;;XYH-86小面积X荧光涂层测厚仪的数据获取和处理[A];第五次全国核电子学与核探测器学术会议论文集(下)[C];1990年
中国重要报纸全文数据库 前4条
1 范京生;从数据获取与更新到智慧服务[N];中国测绘报;2011年
2 国家测绘地理信息局重庆测绘院 王冬滨;关于开展地理国情监测工作的几点思考[N];中国测绘报;2011年
3 记者 祝桂峰 通讯员 张荣;构建“智慧广州”又添新技术[N];中国矿业报;2012年
4 童国庆;系统控制和数据获取技术在美国哥伦比亚灌区的应用[N];中国水利报;2007年
中国博士学位论文全文数据库 前1条
1 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
中国硕士学位论文全文数据库 前10条
1 亚森·伊斯马伊力;跨语言社会舆情分析的数据获取技术研究[D];新疆大学;2015年
2 陈加洋;基于FPGA硬件算法的核能谱数据获取研究[D];兰州大学;2016年
3 谭文斌;基于电商平台的产品评论大数据获取及应用[D];贵州师范大学;2016年
4 李北格;基于微博的数据获取与过滤技术研究[D];中国地质大学(北京);2016年
5 袁学东;团簇特性研究中的多通道实时数据获取和调控[D];四川大学;2000年
6 吴剑峰;网络化、多功能核数据获取和处理系统[D];四川大学;2002年
7 赵东旭;气体中子探测器数据获取与分析软件研制[D];长沙理工大学;2010年
8 卓林;增量式Deep Web数据获取技术研究[D];苏州大学;2011年
9 郭建兵;面向特定领域的Deep Web数据获取技术研究[D];苏州大学;2012年
10 张哲冰;基于C2C网站信誉研究的网络数据获取与实现[D];兰州大学;2008年
本文编号:1264060
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1264060.html