DeepWeb可配置聚焦爬虫设计与实现
本文关键词:DeepWeb可配置聚焦爬虫设计与实现
【摘要】:大数据时代如何精确而有效地抓取用户所需要的数据成为了一个至关重要的问题,提出一种可配置的聚焦网络爬虫框架,基于配置文件的设置,构建一个数据采集精确、可控性强的聚焦网络爬虫。在此基础上改进聚焦爬虫工作流程,实现Deep Web表单自动提交以及Deep Web数据抓取。实验通过高能物理研究所网站与手机腾讯微博的数据爬取以及爬虫在高能物理研究所大数据平台上的实际运行效果说明了爬虫设计的有效性与实用性。
【作者单位】: 中国科学院高能物理研究所;中国科学院大学;
【关键词】: 聚焦爬虫 Deep Web 大数据
【分类号】:TP393.092;TP391.3
【正文快照】: 今天我们的世界已经进入了以数据为中心的范式上——“大数据”时代。数据量的爆炸性剧增,数以亿计、十亿计的计算机和移动设备不断产生着海量的信息:以社交网络新浪微博为例,截至2012年底,其注册用户总数达到了5.03亿,每日活跃用户数达到了4 620万人,用户每日发微博总量超过1
【参考文献】
中国期刊全文数据库 前4条
1 赵永鑫;雷霖;;Heritrix在电子信息垂直搜索平台中的应用[J];成都大学学报(自然科学版);2013年02期
2 李晓明,凤旺森;两种对URL的散列效果很好的函数[J];软件学报;2004年02期
3 刘高军;夏景隆;;基于Heritrix的网络爬虫研究与应用[J];软件导刊;2013年05期
4 朱敏;罗省贤;;基于Heritrix的面向特定主题的聚焦爬虫研究[J];计算机技术与发展;2012年02期
【共引文献】
中国期刊全文数据库 前10条
1 张智江;王志军;张尼;;一种可应用于大流量环境的双层散列算法研究[J];电信科学;2011年S1期
2 何淑庆;李村合;张培颖;;URL分级散列在分布式搜索引擎中的应用[J];电子技术应用;2006年07期
3 吴翠雁;黄建波;李浩;袁华;;基于主动哈希和多级缓存的域名解析策略[J];广西师范大学学报(自然科学版);2009年01期
4 李华波;吴礼发;赖海光;郑成辉;黄康宇;;有效的爬行Ajax页面的网络爬行算法[J];电子科技大学学报;2013年01期
5 孙小华;王福顺;杨会英;赵艳;王风国;;基于智能手机的农业信息服务系统研究[J];科技和产业;2013年06期
6 赵永鑫;雷霖;;Heritrix在电子信息垂直搜索平台中的应用[J];成都大学学报(自然科学版);2013年02期
7 徐凤刚;许俊奎;潘清;;可扩展Hash方法的一种改进算法[J];计算机工程与应用;2006年04期
8 万源;万方;王大震;;一种并行Crawler系统中的URL分配算法设计[J];计算机工程与应用;2006年S1期
9 丁振国;赵大勇;;基于双数组有限状态机的URL访问控制算法[J];计算机工程与应用;2007年36期
10 马如林;蒋华;张庆霞;;基于贝叶斯方法和信息指纹的博客评论过滤[J];计算机工程与应用;2008年24期
中国重要会议论文全文数据库 前3条
1 黄高平;苏金树;陈曙辉;;一种基于高速链路的Hash算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
2 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
3 张智江;王志军;张尼;;一种可应用于大流量环境下的双层散列算法研究[A];中国通信学会信息通信网络技术委员会2011年年会论文集(下册)[C];2011年
中国博士学位论文全文数据库 前3条
1 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年
2 谢鲲;布鲁姆过滤器查询算法及其应用研究[D];湖南大学;2007年
3 杨希;智能网络磁盘(IND)存储管理方法研究[D];中南大学;2012年
中国硕士学位论文全文数据库 前10条
1 司贺华;网络内容审计系统关键技术研究与实现[D];哈尔滨工程大学;2010年
2 郭海燕;搜索引擎中网络爬虫技术研究[D];西安电子科技大学;2009年
3 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
4 张立;文本搜索引擎的探究与设计[D];华南理工大学;2011年
5 魏一帆;分布式信息采集系统Web划分技术研究[D];哈尔滨工业大学;2010年
6 孙守兴;基于可扩展哈希算法的并行爬虫动态负载均衡实现[D];哈尔滨工业大学;2010年
7 王先平;面向海量URL数据存取的快速文件系统[D];哈尔滨工业大学;2010年
8 耿乐群;基于主动搜索的论坛内容监管技术研究[D];哈尔滨工程大学;2011年
9 郭林;面向XML文档的数据挖掘技术研究[D];大连理工大学;2005年
10 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
【二级参考文献】
中国期刊全文数据库 前10条
1 秦海峰;许南山;山岚;;基于P2P架构的搜索引擎技术探究[J];福建电脑;2008年07期
2 李勇;韩亮;;主题搜索引擎中网络爬虫的搜索策略研究[J];计算机工程与科学;2008年03期
3 白万民;苏希乐;;Heritrix在垂直搜索引擎中的应用[J];计算机时代;2011年09期
4 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
5 白坤;耿国华;;基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J];计算机应用与软件;2009年01期
6 刘杰;;垂直搜索引擎的应用研究[J];企业技术开发;2011年13期
7 杨颂;欧阳柳波;;基于Heritrix的面向电子商务网站增量爬虫研究[J];软件导刊;2010年07期
8 杨定中;赵刚;王泰;;网络爬虫在Web信息搜索与数据挖掘中应用[J];计算机工程与设计;2009年24期
9 沈贺丹;潘亚楠;邵良杉;;关于搜索引擎的研究综述[J];计算机技术与发展;2006年04期
10 严莉莉;王倩倩;孟杰;张燕平;;基于聚类的个性化元搜索引擎设计[J];计算机技术与发展;2007年04期
【相似文献】
中国期刊全文数据库 前10条
1 段晓飞;张素智;马红;;基于Deep Web的模式匹配算法研究[J];郑州轻工业学院学报(自然科学版);2008年03期
2 侯毅;;基于Deep Web的主题搜索引擎的系统设计[J];数字技术与应用;2011年02期
3 王贤;苏晓珂;黄青松;;基于Zipf Estimator的Deep Web最佳查询词选择[J];计算机技术与发展;2007年03期
4 方丽;李锡辉;;基于Deep Web挖掘的搜索策略[J];福建电脑;2008年03期
5 茅琴娇;冯博琴;潘善亮;;Deep web站点查询界面的潜在语义分析(英文)[J];Journal of Southeast University(English Edition);2008年03期
6 马也;张峥;张辉;;基于决策树的查询接口识别技术[J];微计算机信息;2008年33期
7 金灵芝;王小玲;朱守中;;Deep Web数据源自动分类[J];微计算机信息;2009年12期
8 金库;聂培尧;林培光;;一种Web数据库大小估算新方法[J];信息技术与信息化;2010年02期
9 郭少杰;陈雅冰;;Deep Web技术在科学数据共享平台中的应用[J];广东科技;2010年14期
10 刘伟;孟小峰;凌妍妍;;一种基于图模型的Web数据库采样方法[J];软件学报;2008年02期
中国重要会议论文全文数据库 前10条
1 余伟;李石君;洪辉;田建伟;;基于覆盖关系的Deep Web数据源排名[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 梁浩;左万利;任斐;赫枫龄;;基于启发式信息的Deep Web查询接口属性抽取[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 王英;左万利;王鑫;彭涛;;Deep Web查询转换研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 闫中敏;李庆忠;彭朝晖;董永权;丁艳辉;张永新;徐秀星;;DWDIS:面向分析的Deep Web数据集成系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
6 王英;左万利;彭涛;赫枫龄;彭钊;;应用领域本体知识库自动填充Deep Web入口表单[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
7 朱命冬;申德荣;寇月;聂铁铮;于戈;;一种应用于Deep Web环境下的重复记录识别模型[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 陶然;江锦华;吴羽;陈刚;;基于树合并的Deep Web查询接口集成[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 艾静;王仲远;孟小峰;;C-Rank:一种Deep Web数据记录可信度评估方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
10 凌妍妍;刘伟;王仲远;艾静;孟小峰;;Deep Web数据集成中的实体识别方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
中国博士学位论文全文数据库 前10条
1 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
2 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
3 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
4 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
5 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
6 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
7 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
8 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
9 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
10 赵朋朋;Deep Web信息集成若干关键技术研究[D];苏州大学;2008年
中国硕士学位论文全文数据库 前10条
1 陈文;Deep Web入口识别和个性化搜索研究与设计[D];江苏大学;2010年
2 刘冬兰;Deep Web数据抽取中自适应包装器问题研究[D];山东大学;2013年
3 李秀兰;基于结果模式的Deep Web语义标注研究[D];兰州理工大学;2011年
4 刘凯;Deep Web数据集成关键技术研究[D];长春工业大学;2012年
5 李英军;Deep Web自适应跨领域查询策略研究[D];东北大学;2011年
6 谢莹;Deep Web查询结果抽取及注释[D];吉林大学;2010年
7 李三义;基于模型匹配的Deep Web数据库分类[D];吉林大学;2010年
8 张成奇;支持Ajax的Deep Web爬虫设计与实现[D];上海交通大学;2010年
9 杜鑫;Deep Web数据源发现与采样研究[D];山东大学;2011年
10 朱旭东;基于本体学习的Deep Web语义标注关键问题研究[D];苏州大学;2012年
本文关键词:DeepWeb可配置聚焦爬虫设计与实现
,
本文编号:512034
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/512034.html