社交网络挖掘方案研究
本文关键词:社交网络挖掘方案研究
更多相关文章: 新浪微博 数据挖掘 Android SDK 新浪API 网络爬虫 信息采集
【摘要】:随着社交网络普及,社交网络的数据获取成为首先要解决的问题。针对如何获取社交网站的数据,提出了基于API和网络爬虫的两种方法。通过采取对比试验,分别用两种方式在单位时间内抓取微博,比较抓取的微博条数。实验结果表明,基于API抓取的速度比较快,但是稳定性和数据完整性欠佳;基于网路爬虫方式抓取的速度比较慢,但是稳定性和数据完整性较好。最后提出通过采用两种方式相结合的方式,能够进一步提高抓取效率。
【作者单位】: 南京理工大学;
【关键词】: 新浪微博 数据挖掘 Android SDK 新浪API 网络爬虫 信息采集
【基金】:国家社会科学基金项目(13BTQ046)
【分类号】:TP393.092;TP391.1
【正文快照】: 根据中国互联网络信息中心(CNNIC)发布了第33次《中国互联网络发展状况统计报告》指出:社交网站的整体覆盖率为61.7%,中国互联网用户总数已经达到6.18亿,互联网的渗透率已经达到67.8%。其中微博等社交网络的使用规模为2.81亿,网中微博的使用率[1]为45.5%。社交网络的使用率越
【参考文献】
中国期刊全文数据库 前9条
1 蒋宗礼;田晓燕;赵旭;;一种基于语义分析的主题爬虫算法[J];计算机工程与科学;2010年09期
2 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
3 吴黎兵;柯亚林;何炎祥;刘楠;;分布式网络爬虫的设计与实现[J];计算机应用与软件;2011年11期
4 宋海洋;刘晓然;钱海俊;;一种新的主题网络爬虫爬行策略[J];计算机应用与软件;2011年11期
5 韩宇贞,朱华生;基于Base64编码的数据加密技术[J];南昌水专学报;2002年04期
6 卢体广;刘新;刘任任;;微博数据通用抓取算法[J];计算机工程;2014年05期
7 廉捷;周欣;曹伟;刘云;;新浪微博数据挖掘方案[J];清华大学学报(自然科学版);2011年10期
8 黄延炜;刘嘉勇;;新浪微博数据获取技术研究[J];信息安全与通信保密;2013年06期
9 朱云鹏;冯枫;陈江宁;;多策略融合的中文微博数据采集方法[J];计算机工程与设计;2013年11期
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
3 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
4 唐武生;田立红;曹伟;;Base64编码的实现与应用研究[J];长春大学学报;2006年04期
5 唐武生;徐慧莉;张洪昭;;本科教学工作水平评估网站的建设[J];长春大学学报;2006年12期
6 任斌;毛应爽;;基于本体的主动学习主题爬行的研究与实现[J];长春工程学院学报(自然科学版);2011年01期
7 武昊;廖安平;何超英;侯东阳;;基于主题相关度的地理信息Web服务爬虫研究[J];地理与地理信息科学;2012年02期
8 张超;闫宏印;;多线程网络爬虫的设计与实现[J];电脑开发与应用;2012年06期
9 吴聪聪;赵建立;;基于本体的主题爬虫的研究[J];电脑知识与技术;2011年03期
10 王迁;王丽娜;;对收费网站中作品提供链接的法律性质——评“娱乐基地”诉百度案[J];电子知识产权;2007年08期
中国重要会议论文全文数据库 前5条
1 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
2 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
3 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
4 方春林;郭晓勇;;基于主题的微博数据采集系统设计与实现[A];广西计算机学会2014年学术年会论文集[C];2014年
5 彭鑫;秦秋莉;;基于相关度分析的主题聚焦爬虫研究[A];第六届ABB杯全国自动化系统工程师论文大赛论文集[C];2013年
中国博士学位论文全文数据库 前10条
1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
4 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
5 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
6 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
7 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
8 杨志;基于本体的语义互操作研究[D];北京邮电大学;2012年
9 王永刚;以数据为中心的在线社会网络若干安全问题研究[D];北京大学;2013年
10 刘行军;微博用户及其信息传播影响因素研究[D];华中师范大学;2013年
中国硕士学位论文全文数据库 前10条
1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
2 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
3 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
4 史炜;个性化搜索引擎的研究与设计[D];电子科技大学;2010年
5 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年
6 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年
7 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
8 张朝威;面向企业竞争情报的主题搜索研究与实现[D];西安电子科技大学;2010年
9 刘永信;主题搜索与Web挖掘的研究及系统实现[D];西安电子科技大学;2009年
10 姜博;基于聚焦爬虫的web信息采集技术研究[D];北方工业大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
2 陈媛;E-mail传输的自动解码系统[J];电脑开发与应用;2000年02期
3 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期
4 姚科;;开放API:新浪微博必经之路?[J];互联网天地;2010年08期
5 李盛韬,赵章界,余智华;基于主题的Web信息采集系统的设计与实现[J];计算机工程;2003年17期
6 蒋宗礼;田晓燕;赵旭;;一种基于语义分析的主题爬虫算法[J];计算机工程与科学;2010年09期
7 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
8 高弋坤;;新浪微博用户数再创新高[J];通信世界;2011年46期
9 邹永斌;陈兴蜀;王文贤;;基于贝叶斯分类器的主题爬虫研究[J];计算机应用研究;2009年09期
10 姚峰;;Java平台中Base64编码/解码算法的改进[J];计算机应用与软件;2008年12期
中国硕士学位论文全文数据库 前2条
1 朱少龙;基于微博的社会化媒体分析系统的设计与实现[D];哈尔滨工业大学;2011年
2 谭思亮;聚焦爬行系统的设计—算法视角[D];中国科学院研究生院(成都计算机应用研究所);2006年
【相似文献】
中国期刊全文数据库 前10条
1 李林容;;社交网络的特性及其发展趋势[J];新闻界;2010年05期
2 陈琛;沙昊;;社交网络的开放融合图谱[J];通信世界;2010年48期
3 杨宇良;;网络让我们更远还是更近[J];互联网天地;2011年01期
4 陈昱;;社交网络革命与国家安全关系[J];情报杂志;2011年S2期
5 劳伦·考克斯;;请在工作时更新你的状态[J];科技创业;2011年05期
6 斯蒂芬·卡斯;;在线社区能否解决隐私问题[J];科技创业;2011年08期
7 陈云鹏;;电子商务引领社交网络走进2.0时代[J];上海信息化;2012年01期
8 马文刚;;智慧的物联社交网络[J];上海信息化;2012年03期
9 朱乾龙;张倩;杜娟;;我国社交网络繁荣背后面临深层次问题困扰[J];世界电信;2012年06期
10 刘华;;社交网络的融合之路[J];软件工程师;2012年07期
中国重要会议论文全文数据库 前10条
1 赵云龙;李艳兵;;社交网络用户的人格预测与关系强度研究[A];第七届(2012)中国管理学年会商务智能分会场论文集(选编)[C];2012年
2 宫广宇;李开军;;对社交网络中信息传播的分析和思考——以人人网为例[A];首届华中地区新闻与传播学科研究生学术论坛获奖论文[C];2010年
3 杨子鹏;乔丽娟;王梦思;杨雪迎;孟子冰;张禹;;社交网络与大学生焦虑缓解[A];心理学与创新能力提升——第十六届全国心理学学术会议论文集[C];2013年
4 毕雪梅;;体育虚拟社区中的体育社交网络解析[A];第九届全国体育科学大会论文摘要汇编(4)[C];2011年
5 杜p,
本文编号:782558
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/782558.html