Paperopen中的OA论文垂直蜘蛛设计
本文选题:开放阅读 + 搜索引擎 ; 参考:《情报杂志》2008年06期
【摘要】:描述了Paperopen项目中OA期刊论文蜘蛛的总体设计方案、蜘蛛调度机制、论文全文文件命名原则、数据库设计以及页面爬取和蜘蛛调度需要注意的问题,提出通过插件技术可解决一些杂志社网站存在的论文全文链接转向问题。Paperopen采用deep web技术能够获取隐藏在数据库后面的论文数据。采用该方案设计的蜘蛛工作正常,每天可爬取论文1万篇左右,大大提高执行效率。
[Abstract]:This paper describes the overall design scheme, spider scheduling mechanism, naming principle of full text file, database design, page crawling and spider scheduling in Paperopen project. This paper puts forward that using plug-in technology can solve the problem of full-text link turning in some magazines' websites. Paperopen can obtain the paper data hidden behind the database by using deep web technology. The spider designed by this scheme works normally and can crawl about 10, 000 papers a day, which greatly improves the execution efficiency.
【作者单位】: 西北工业大学机电学院 西北工业大学机电学院 陕西省科技信息研究所 陕西省科技信息研究所
【基金】:陕西省科学技术研究发展计划项目“科技论文开放获取搜索引擎研究”(编号:2007K04-11)
【分类号】:TP317.1
【参考文献】
相关期刊论文 前2条
1 刘畅;;综合搜索引擎与垂直搜索引擎的比较研究[J];情报科学;2007年01期
2 邵斐;孙济庆;;一种适用于动态网页的网络蜘蛛爬行策略研究[J];情报杂志;2007年05期
相关硕士学位论文 前1条
1 王骏;基于垂直搜索引擎技术的房源信息分析系统的设计与实现[D];苏州大学;2006年
【共引文献】
相关期刊论文 前10条
1 祝伟华;李嘉毅;刘斌斌;;二手汽车交易信息垂直搜索网的设计[J];重庆工学院学报(自然科学版);2008年08期
2 赵洋;滕桂法;张玉新;何冬梅;;基于Internet的农业信息垂直搜索引擎的设计[J];河北农业大学学报;2009年06期
3 毕建涛;霍云福;;垂直搜索引擎赢利模式探讨[J];大连大学学报;2008年03期
4 陈洪猛;;基于垂直搜索技术的搜索引擎解决方案[J];电脑应用技术;2008年01期
5 刘金亮;吴芳;孟海江;;智能化垂直搜索系统的构建[J];电脑知识与技术;2010年02期
6 县小平;;主题搜索引擎的PageRank算法研究[J];甘肃高师学报;2011年05期
7 康亚娟;;站内搜索的研究与实现[J];信息技术;2011年08期
8 梁秀娟;;互联网信息服务商用模式研究进展[J];决策与信息(财经观察);2008年06期
9 吴飞;吴兵;申志斌;;新一代网络教学平台特征和技术难点的分析与探讨[J];开放教育研究;2009年01期
10 高一波;赵先章;孙硕;黄河;;面向垂直搜索引擎的基于知识的语义关联算法[J];计算机工程;2009年11期
相关博士学位论文 前2条
1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
2 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
相关硕士学位论文 前10条
1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
2 陈志刚;网络Flash资源爬行器的设计与实现[D];山东师范大学;2011年
3 文星;基于位置感知的Web文本搜索技术研究[D];大连海事大学;2011年
4 李琚彪;质检舆情监控系统中信息检索的研究[D];北京邮电大学;2011年
5 周兵;基于分布式精准采集的垂直搜索引擎的研究与实现[D];北京邮电大学;2011年
6 刘欢;职位匹配系统的设计与实现[D];华东师范大学;2011年
7 刘志伟;数学搜索引擎研究[D];兰州大学;2011年
8 赵思佳;基于规则引擎的个性化网页爬虫研究[D];中南大学;2010年
9 樊峻;基于CORESEEK的中文信息搜索系统的研究与应用[D];安徽理工大学;2011年
10 张赢;个性化多媒体资源垂直搜索引擎技术研究[D];华东交通大学;2009年
【二级参考文献】
相关期刊论文 前10条
1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
2 黄建莲;中国搜索引擎服务市场的现状及发展[J];华北科技学院学报;2005年03期
3 赫枫龄,左万利;用有向图法解决网页爬行中循环链接问题[J];吉林大学学报(理学版);2004年03期
4 钟涛,陈新明,万钧,张世永;中文文本WEB搜索引擎的设计与实现[J];计算机工程与应用;2001年17期
5 张晓刚,李明树;智能搜索引擎技术的研究与发展[J];计算机工程与应用;2001年24期
6 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期
7 沈红芳;互联网搜索引擎及其功能优化模型[J];情报科学;2000年01期
8 朱华;中文搜索引擎结构初探[J];情报科学;2001年11期
9 郝凤英;垂直网站及其信息服务模式[J];情报理论与实践;2002年02期
10 黄水清;江苏科技信息网指南车搜索引擎的设计与探讨[J];情报学报;2000年06期
相关博士学位论文 前1条
1 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
【相似文献】
相关期刊论文 前10条
1 张继刚;搜索引擎使用技巧[J];网络与信息;1999年09期
2 ;关键词搜索[J];每周电脑报;2000年38期
3 陈冰;;饿狼一样的网站提交工具——“提交饿狼”[J];科学之友;2000年07期
4 许斗;从Google看新一代搜索引擎的发展趋向[J];芜湖职业技术学院学报;2001年01期
5 周毅华;从搜索引擎的分类看其应用技巧[J];图书馆理论与实践;2002年06期
6 邹小筑;搜索引擎的选择与使用技巧[J];图书馆学研究;2002年05期
7 林燕;Google搜索引擎的搜索功能与使用技巧[J];河北科技图苑;2003年05期
8 林中;GOOGLE搜索引擎的关键词检索[J];中国信息导报;2003年03期
9 封剑待封喉;吸星大法“搜”天下 笑傲网络任我行——搜索引擎绝对专题[J];网络与信息;2003年07期
10 闫凡蕾;建设站内搜索的好帮手——Search Engine Maker[J];少年电世界;2003年08期
相关会议论文 前10条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
6 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
7 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
8 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
9 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
10 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年
相关重要报纸文章 前10条
1 李一鑫;搜索排名的红与黑[N];财经时报;2007年
2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,,还是门户[N];中国计算机报;2005年
5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
8 本报记者 赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
9 孙t;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
相关博士学位论文 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
相关硕士学位论文 前10条
1 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
2 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
3 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
4 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
5 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
6 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
7 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
8 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年
9 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年
10 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年
本文编号:1830610
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1830610.html