分布式开放存取期刊爬虫的设计与实现
本文关键词:分布式开放存取期刊爬虫的设计与实现
【摘要】:开放存取(open access,OA)期刊属于网络深层资源且分散在互联网中,传统的搜索引擎不能对其建立索引,不能满足用户获取OA期刊资源的需求,从而造成了开放资源的浪费。针对如何集中采集万维网上分散的开放存取期刊资源的问题,提出了一个面向OA期刊的分布式主题爬虫架构。该架构采用主从分布式设计,提出了基于用户预定义规则的OA期刊页面学术信息提取方法,由一个主控中心节点控制多个可动态增减的爬行节点,采用基于Chrome浏览器的插件机制来实现分布式爬行节点的可扩展性和部署的灵活性。
【作者单位】: 华南师范大学计算机学院;
【关键词】: 分布式爬虫 开放存取期刊 插件机制
【基金】:国家自然科学基金 No.61272067 国家高技术研究发展计划(863计划) No.2013AA01A212 国家科技支撑计划项目 No.2012BAH27F05 广东省自然科学基金团队研究项目 No.S2012030006242 广东省重大科技专项计划项目 No.2012A080104019 广东省科技计划项目 No.2011B080100031~~
【分类号】:TP311.52
【正文快照】: 1引言开放存取(open access,OA)期刊是一种用户可以免费使用的互联网学术资源,是一种重要的OA资源,而且不受任何的访问限制[1]。OA期刊为研究人员免费获取学术论文提供了一条崭新的途径,已经成为当代图书馆数字资源不可或缺的一部分。但是,随着互联网上OA期刊的快速增长,OA期
【参考文献】
中国期刊全文数据库 前4条
1 程维红;任胜利;;中国科技期刊开放存取出版现状[J];编辑学报;2007年03期
2 周德懋;李舟军;;高性能网络爬虫:研究综述[J];计算机科学;2009年08期
3 陈琼,苏文健;基于网页结构树的Web信息抽取方法[J];计算机工程;2005年20期
4 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
3 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
4 程维红;任胜利;王应宽;方梅;路文如;;对建设中国科协科技期刊网络平台的问卷调查[J];编辑学报;2008年05期
5 林志祥;甘可建;钟均行;;网络编辑岗位设置在科技期刊网络化进程中的重要性[J];编辑学报;2008年05期
6 欧红叶;黄颖;游中胜;李若溪;;学术期刊编辑对开放获取认识的调查与分析[J];编辑学报;2008年06期
7 陈竹;;我国科技期刊数字化出版的发展思路[J];编辑学报;2011年S1期
8 孔琪颖;蔡斐;张利平;徐晓;;学术期刊品牌网络营销——以《航空学报》中、英文版为例[J];编辑学报;2011年S1期
9 余望;;OA期刊与传统学术期刊的比较及我国发展OA期刊应注意的问题[J];中国编辑;2007年06期
10 李军;吴寒涛;;基于开放存取的我国体育科技期刊出版模式研究[J];首都体育学院学报;2009年05期
中国博士学位论文全文数据库 前10条
1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
4 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
5 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
6 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
7 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
8 胡德华;生物医学类开放存取期刊学术质量评价及其评价体系研究[D];中南大学;2009年
9 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
10 吕志军;面向数字化的科技期刊出版业务流程研究[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
2 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
3 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
4 史炜;个性化搜索引擎的研究与设计[D];电子科技大学;2010年
5 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年
6 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年
7 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
8 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年
9 张朝威;面向企业竞争情报的主题搜索研究与实现[D];西安电子科技大学;2010年
10 刘永信;主题搜索与Web挖掘的研究及系统实现[D];西安电子科技大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 李若溪;黄颖;欧红叶;游中胜;Fytton Rowland;;国际学术出版开放式访问(OA):Ⅰ.实践与前沿问题研究进展[J];编辑学报;2006年03期
2 李若溪;Fytton Rowland;;国际学术出版开放式访问(OA):Ⅱ.开放访问期刊“作者付费模式”的实践与争论[J];编辑学报;2006年04期
3 孔令娥;电子时代的馆际互借[J];大学图书馆学报;2000年04期
4 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期
5 张敏,高剑峰,马少平;基于链接描述文本及其上下文的Web信息检索[J];计算机研究与发展;2004年01期
6 张三峰;吴国新;;一种面向动态异构网络的容错非对称DHT方法[J];计算机研究与发展;2007年06期
7 余锦,史树明;分布式网页排序算法及其传输模式分析[J];计算机工程与应用;2004年29期
8 万源;万方;王大震;;一种并行Crawler系统中的URL分配算法设计[J];计算机工程与应用;2006年S1期
9 周雪忠;吴朝晖;;文本知识发现:基于信息抽取的文本挖掘[J];计算机科学;2003年01期
10 李晶;陈恩红;;Web信息抽取[J];计算机科学;2003年06期
【相似文献】
中国期刊全文数据库 前10条
1 冯蓓;许洁;;我国开放存取期刊平台的发展思路与对策[J];中国科技期刊研究;2010年04期
2 陈美家;;中国大陆开放存取期刊实践现状研究[J];图书与情报;2012年01期
3 陈晋;;开放存取期刊的经济运作模式[J];图书馆学刊;2012年06期
4 秦文珍;刘淑瑞;肖琼;;开放存取期刊质量评价方法及其应用比较探析[J];科技情报开发与经济;2013年06期
5 秦珂;;开放存取期刊的出版模式透视[J];编辑之友;2006年03期
6 刘辉;;开放获取期刊的现状与评价分析[J];图书馆建设;2006年04期
7 方翠;李荣素;;开放存取期刊版权问题分析[J];图书馆建设;2006年05期
8 陶雯;胡德华;曲艳吉;王敏;;开放存取期刊质量评价方法研究[J];图书情报工作;2006年10期
9 刘海霞;孙振球;胡德华;刘双阳;;开放存取期刊的经济学分析[J];情报理论与实践;2007年01期
10 胡德华;尹加帮;陶雯;;发展中国家的开放存取期刊研究[J];情报杂志;2007年02期
中国重要会议论文全文数据库 前2条
1 程林仙;;学术交流新方式—开放存取期刊[A];陕西省气象学会2006年学术交流会论文集[C];2006年
2 沈锡宾;杨先海;吴国仕;;基于Web 2.0技术的公开评议开放存取期刊管理系统的分析与设计[A];第七届中国科技期刊发展论坛论文集[C];2011年
中国重要报纸全文数据库 前1条
1 苏金燕 中国社会科学院文献计量与科学评价研究中心;开放存取期刊质量也有评估之法[N];中国社会科学报;2011年
中国博士学位论文全文数据库 前1条
1 周金娉;开放存取期刊学术影响力研究[D];吉林大学;2013年
中国硕士学位论文全文数据库 前7条
1 路世玲;开放存取期刊的学术影响力研究[D];郑州大学;2012年
2 李亚芳;学术型开放存取期刊的质量评估[D];山西大学;2012年
3 陈美家;开放存取期刊发展现状及出版运作机制研究[D];福建师范大学;2012年
4 李姗姗;开放存取期刊的质量评价研究[D];吉林大学;2013年
5 徐桂芬;科研人员对开放存取期刊的接受研究[D];吉林大学;2013年
6 魏志鹏;开放存取期刊的盈利模式研究[D];兰州大学;2014年
7 蒋静;开放存取期刊综合评价指标体系研究[D];华东师范大学;2011年
,本文编号:773729
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/773729.html