基于众包的社交网络数据采集模型设计与实现
本文关键词:基于众包的社交网络数据采集模型设计与实现
更多相关文章: 社交网络 众包模式 分布式计算 信息采集 Web爬虫 Hadoop分布式文件系统
【摘要】:社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题Deep Web爬虫系统4个模块。通过主题Deep Web爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据,利用Hadoop分布式文件系统对爬取数据进行快速处理并存储结果数据。实验结果表明,主题Deep Web爬虫系统配置简单,支持功能扩展和目标信息直接获取,数据采集模型具有较快的数据获取速度及较高的信息检索效率。
【作者单位】: 四川大学计算机学院;中国科学院高能物理研究所计算中心;中国科学院声学研究所;
【关键词】: 社交网络 众包模式 分布式计算 信息采集 Web爬虫 Hadoop分布式文件系统
【基金】:国家“863”计划基金资助项目“基于媒体大数据的大众信息消费服务平台及应用示范”(SS2014AA012305)
【分类号】:TP391.3;TP311.13
【正文快照】: 中文引用格式:高梦超,胡庆宝,程耀东,等.基于众包的社交网络数据采集模型设计与实现[J].计算机工程,2015,41(4):36-40.英文引用格式:Gao Mengchao,Hu Qingbao,Cheng Yaodong,et al.Design and Implementation of Crowdsourcing-basedSocial Netw ork Data Collection M odel[J
【参考文献】
中国期刊全文数据库 前3条
1 崔杰;李陶深;兰红星;;基于Hadoop的海量数据存储平台设计与开发[J];计算机研究与发展;2012年S1期
2 陈康;郑纬民;;云计算:系统实例与研究现状[J];软件学报;2009年05期
3 黄延炜;刘嘉勇;;新浪微博数据获取技术研究[J];信息安全与通信保密;2013年06期
【共引文献】
中国期刊全文数据库 前10条
1 魏东泽;来学嘉;;一种安全的高可靠性P2P云存储备份模型初探参考文献[J];信息安全与技术;2011年09期
2 王继鹏;;高等教育云计算服务平台构建策略初探[J];安阳师范学院学报;2011年05期
3 刘真;刘峰;张宝鹏;马飞;高石玉;;云计算模型在铁路大规模数据处理中的应用[J];北京交通大学学报;2010年05期
4 徐小龙;程春玲;熊婧夷;王汝传;;一种基于移动Agent的云端计算任务安全分割与分配算法[J];北京理工大学学报;2011年08期
5 李建卓;;云计算及其发展综述[J];宝鸡文理学院学报(自然科学版);2010年03期
6 董晓霞;吕廷杰;;云计算研究综述及未来发展[J];北京邮电大学学报(社会科学版);2010年05期
7 邓仲华;朱秀芹;;云计算环境下的隐私权保护初探[J];图书与情报;2010年04期
8 马晓亭;陈臣;;基于成本收益分析的云计算环境下数字图书馆建设研究[J];图书与情报;2011年06期
9 朱德新;宋雅娟;;海量数据分析及处理算法实现[J];长春大学学报;2011年08期
10 黄小龙;;浅谈云计算技术在教育领域的应用[J];成功(教育);2011年08期
中国重要会议论文全文数据库 前10条
1 万丹丹;王宏;;云计算在编辑工作中的应用探讨[A];学术期刊编辑学理论与实践[C];2010年
2 郭捷夫;;基于云计算模型的绿色IT数据中心构建方案研究[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
3 汪云凤;李心科;;云服务环境下的服务聚合方法研究[A];2011中国仪器仪表与测控技术大会论文集[C];2011年
4 张白兰;杨向红;李家龙;刘伟;林创燕;邱正能;;物联网综述[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
5 任伟;叶敏;刘宇靓;;云安全的信任管理研究[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
6 周轩;黄璞;;基于云计算的OMS平台移动业务测试系统[A];中国通信学会第六届学术年会论文集(上)[C];2009年
7 唐玲;;云计算及其安全问题的研究[A];Proceedings of 2011 National Teaching Seminar on Cryptography and Information Security(NTS-CIS 2011) Vol.1[C];2011年
8 丁辉;赵炜妹;;基于云计算应用一级部署的研究[A];2011电力通信管理暨智能电网通信技术论坛论文集[C];2011年
9 赵伟;陈承收;李立军;;基于MapReduce云计算模型的碰撞检测算法[A];'2010系统仿真技术及其应用学术会议论文集[C];2010年
10 潘松柏;张云勇;陈清金;魏进武;;云计算安全需求和策略[A];2010年全国通信安全学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 吴吉义;基于DHT的开放对等云存储服务系统研究[D];浙江大学;2011年
2 王铁军;非结构化对等网络资源定位技术研究[D];电子科技大学;2010年
3 江颉;面向电子服务的访问控制关键技术研究[D];浙江大学;2010年
4 张泽华;云计算联盟建模及实现的关键技术研究[D];云南大学;2010年
5 李铮;多媒体云计算平台关键技术研究[D];中国科学技术大学;2011年
6 康俊锋;云计算环境下高分辨率遥感影像存储与高效管理技术研究[D];浙江大学;2011年
7 林云;汽车物流服务供应链体系构建与应用研究[D];重庆大学;2011年
8 朱智强;混合云服务安全若干理论与关键技术研究[D];武汉大学;2011年
9 方雷;基于云计算的土地资源服务高效处理平台关键技术探索与研究[D];浙江大学;2011年
10 葛显龙;面向云配送模式的车辆调度问题及算法研究[D];重庆大学;2011年
中国硕士学位论文全文数据库 前10条
1 孔楠;基于云计算平台的商业服务模式研究[D];上海外国语大学;2010年
2 康兴元;面向模具企业的注塑模设计知识网络化管理系统研究[D];大连理工大学;2010年
3 姜健;云计算在企业物资供应系统的应用研究[D];辽宁工程技术大学;2009年
4 薛师;云计算与网格计算的比较研究[D];河南理工大学;2010年
5 刘震宇;基于VMware vSphere4.0的PC服务器资源池构建[D];大连海事大学;2010年
6 梁文迪;一体化资产管理系统中财务模块的设计与实现[D];华南理工大学;2010年
7 胡清;基于云计算的券商网络营销服务平台研究与设计[D];南昌大学;2010年
8 李婵;基于云计算的智能手机数据挖掘平台的架构和实现[D];武汉理工大学;2010年
9 贺鹏;云计算的开发云的研究与实现[D];电子科技大学;2011年
10 李克然;基于云计算的电子商务数据管理模式研究[D];西安电子科技大学;2011年
【二级参考文献】
中国期刊全文数据库 前8条
1 姚科;;开放API:新浪微博必经之路?[J];互联网天地;2010年08期
2 李俊,李勇;联邦式异构数据库应用系统的集成框架和实现技术的研究[J];计算机应用研究;2001年04期
3 余华鸿;李颖;张玉川;;数据仓库概述[J];科技信息(科学教研);2007年13期
4 廉捷;周欣;曹伟;刘云;;新浪微博数据挖掘方案[J];清华大学学报(自然科学版);2011年10期
5 陈康;郑纬民;;云计算:系统实例与研究现状[J];软件学报;2009年05期
6 陈雷;刘嘉勇;;基于HTTP协议的POST数据分析与还原[J];通信技术;2011年04期
7 王政霄;黄征;;一种中文微博观点抽取技术[J];信息安全与通信保密;2013年01期
8 仇钧;刘功申;;基于关系的微博重要度算法研究[J];信息安全与通信保密;2013年01期
中国硕士学位论文全文数据库 前1条
1 朱少龙;基于微博的社会化媒体分析系统的设计与实现[D];哈尔滨工业大学;2011年
,本文编号:684825
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/684825.html