文件搜索引擎数据采集策略的优化
本文关键词: 文件传输协议 搜索引擎 时效性 更新频率 队列排序 出处:《计算机工程与设计》2009年03期 论文类型:期刊论文
【摘要】:在研究传统FTP文件搜索引擎的检索时效性问题的基础上,认为数据采集更新策略是提高其检索结果可访问性的关键影响因素,为此提出了一种有针对性的数据采集更新模型。该模型研究了数据采集更新频率与队列排序两个因子对检索时效性的影响,其中更新频率被设计用于解决在怎样尽可能降低服务器负载压力的前提下保证较高的平均有效下载比率的问题,而队列排序用于解决在一次数据采集更新中怎样确定FTP站点队列采集对象顺序的策略优化。实验结果表明,该策略可以有效地提高检索结果的平均有效链接比率。
[Abstract]:Based on the research on the timeliness of the traditional FTP file search engine, it is considered that the strategy of data acquisition and updating is the key factor to improve the accessibility of the search results. In this paper, a new data acquisition and update model is proposed, which studies the effects of data acquisition and update frequency and queue ranking on the timeliness of retrieval. The update frequency is designed to solve the problem of how to ensure a high average effective download rate while minimizing the server load pressure. Queue sorting is used to solve the problem of how to determine the order of FTP site queue collection objects in a data acquisition update. Experimental results show that the strategy can effectively improve the average effective link ratio of retrieval results.
【作者单位】: 清华大学计算机与信息管理中心;
【基金】:清华大学基础研究基金项目(JCQN2005042)
【分类号】:TP391.3
【参考文献】
相关期刊论文 前4条
1 谢欣,刘菲菲,李晓明;天网千帆——一种新型文件搜索引擎[J];华南理工大学学报(自然科学版);2004年S1期
2 陈华,王继民,韩近强,谢欣;互联网上FTP文件的分布特征及启示[J];计算机工程与应用;2004年01期
3 彭波;;大规模搜索引擎检索系统框架与实现要点[J];计算机工程与科学;2006年03期
4 李世明;赵恒永;李世友;;专题搜索引擎中信息过滤的研究与实现[J];计算机工程与设计;2006年08期
【共引文献】
相关期刊论文 前4条
1 李艳梅;图书馆FTP服务器的建立和安全分析[J];安徽大学学报(自然科学版);2005年03期
2 谢欣,刘菲菲,李晓明;天网千帆——一种新型文件搜索引擎[J];华南理工大学学报(自然科学版);2004年S1期
3 张颖超;段雪英;;个性化搜索引擎系统机制的研究[J];计算机工程与设计;2007年13期
4 陈金阳,蒋建中,李晓静,郭军利,张良胜;FTP文件信息采集过滤系统的研究实现[J];信息工程大学学报;2004年04期
相关会议论文 前1条
1 喻宏勇;赵铁军;郑德权;王月颖;;一种面向文件的高效检索方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
相关硕士学位论文 前8条
1 黄素珍;并行多元搜索引擎的研究与设计[D];广西大学;2001年
2 关峪;基于P2P技术的即时通信系统研究与实现[D];北京交通大学;2007年
3 冯月;基于专业搜索引擎网络蜘蛛搜索策略研究[D];电子科技大学;2007年
4 徐金雷;专业搜索引擎的排序算法研究[D];南京师范大学;2007年
5 李文泽;个性化垂直搜索引擎研究[D];河南大学;2007年
6 刘佳;中文搜索引擎的设计与实现[D];东华大学;2008年
7 魏春燕;基础教育多媒体网络教学资源检索研究[D];山东师范大学;2008年
8 罗理;基于Web对象的分布式抓取及存储的设计与研究[D];昆明理工大学;2008年
【二级参考文献】
相关期刊论文 前8条
1 王建勇,单松巍,雷鸣,谢正茂,李晓明;海量Web搜索引擎系统中用户行为的分布特征及其启示[J];中国科学E辑;2001年04期
2 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
3 陈华,王继民,韩近强,谢欣;互联网上FTP文件的分布特征及启示[J];计算机工程与应用;2004年01期
4 徐德智,吴敏,陆文彦;基于Agent的专业搜索引擎的研究和构造[J];计算机工程;2002年10期
5 冯是聪,张志刚,李晓明;一种中文网页自动分类方法的实现及应用[J];计算机工程;2004年05期
6 邹海山,吴勇,吴月珠,陈阵;中文搜索引擎中的中文信息处理技术[J];计算机应用研究;2000年12期
7 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
8 胡红霞,王振兴,李申堂;搜索引擎技术的现状及发展趋势[J];信息工程大学学报;2001年04期
【相似文献】
相关期刊论文 前10条
1 ;创新工业搜索引擎[J];中国制造业信息化;2011年12期
2 胡风华;王磊;;基于知识库系统的智能搜索引擎研究[J];中国新技术新产品;2011年18期
3 方亚会;;Google失败后快速切换搜索引擎[J];电脑迷;2011年11期
4 李国锋;李春伟;;网络搜索引擎技术探析[J];廊坊师范学院学报;2005年04期
5 冷国华;;网页快照帮我快速获取资料[J];电脑爱好者;2011年10期
6 闫淑红;;基于搜索引擎的信息查询技术研究[J];电脑开发与应用;2011年07期
7 康亚娟;;浅谈站内信息搜索系统[J];硅谷;2011年13期
8 孙掌印;;搜索引擎Yahoo与Google的比较分析[J];科技情报开发与经济;2011年17期
9 冯庆峰;;信息时代如何获取信息[J];成功(教育);2011年08期
10 王巧玲;彭静;王春红;;中文分词技术的研究及在Nutch中的实现[J];科技信息;2011年19期
相关会议论文 前10条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
3 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
4 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
5 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
6 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年
7 陈磊;茹立云;马少平;;基于用户日志挖掘的搜索引擎广告效果分析[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 申琪君;;电子地图搜索引擎比较[A];中国地理学会2007年学术年会论文摘要集[C];2007年
9 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年
10 萨晓静;;网络化生存下的图书馆改革之路[A];福建省图书馆学会2008年学术年会论文集[C];2008年
相关重要报纸文章 前10条
1 本报记者 朱杰;搜索引擎应用性能分析报告[N];中国计算机报;2009年
2 记者 李建伟;第4代搜索引擎在郑州问世[N];中国知识产权报;2009年
3 记者 赵志鹏;媒体称俄拟建国家搜索引擎[N];新华每日电讯;2010年
4 吴前;搜索引擎“碳排量”惊人[N];中国文化报;2010年
5 记者 李大庆;新型搜索引擎能向用户直接提供所需内容[N];科技日报;2010年
6 深圳大学传播学院、传媒与文化发展研究中心 周裕琼;谁动了我的大脑[N];社会科学报;2010年
7 李大庆;新型搜索引擎直接为用户提供所需内容[N];中国技术市场报;2010年
8 余建斌;搜索引擎市场“烽烟四起”[N];中国高新技术产业导报;2010年
9 迈巴赫 编译;搜索引擎20年[N];计算机世界;2010年
10 记者 秦羽 通讯员 施银峰;全球搜索引擎营销大会在甬举行[N];宁波日报;2010年
相关博士学位论文 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
8 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
9 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
10 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
相关硕士学位论文 前10条
1 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
2 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
3 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
4 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
5 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
6 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
7 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年
8 张朝斌;企业级搜索引擎的优化设计与实现[D];华南理工大学;2010年
9 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年
10 闻峥;基于Lucene的搜索引擎优化[D];北京交通大学;2011年
,本文编号:1543615
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1543615.html