当前位置:主页 > 科技论文 > 搜索引擎论文 >

多线程搜索器的设计与实现

发布时间:2019-01-22 12:57
【摘要】:随着校园网网页数量的不断增长,校园网搜索引擎应运而生。校园网搜索引擎系统的性能很大程度上取决于网络搜索器的性能,采集网页的速度是网络搜索器的1个重要指标。为了提高采集网页的速度,本文设计实现了1个多线程搜索器,并对内蒙古工业大学校园网进行了测试。实验表明,多线程搜索器可以把采集网页的速度从单线程0.9页/s提高到6.9页/s,采集网页的速度提高了7倍多。由此说明,采用多线程设计搜索器对提高搜索器采集网页的速度是很明显的。
[Abstract]:With the increasing number of campus web pages, the campus network search engine emerges as the times require. The performance of campus network search engine system depends on the performance of network searcher to a great extent, and the speed of collecting web pages is an important index of network searcher. In order to improve the speed of web page acquisition, a multithread searcher is designed and implemented in this paper, and the campus network of Inner Mongolia University of Technology is tested. The experiment results show that the speed of collecting web pages can be increased from 0.9 page / s to 6.9 pages / s, and the speed of collecting web pages can be increased more than 7 times. Therefore, it is obvious to use multithread to design searcher to improve the speed of web page acquisition.
【作者单位】: 内蒙古工业大学信息工程学院;
【基金】:内蒙古工业大学科学研究项目(X200806)
【分类号】:TP391.3

【参考文献】

相关期刊论文 前3条

1 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期

2 徐文杰;陈庆奎;;增量更新并行W eb爬虫系统[J];计算机应用;2009年04期

3 马志强;刘利民;苏依拉;马瑞明;;基于Lucene的站内搜索引擎研究[J];内蒙古工业大学学报(自然科学版);2009年01期

相关博士学位论文 前1条

1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年

相关硕士学位论文 前1条

1 朱良峰;主题网络爬虫的研究与设计[D];南京理工大学;2008年

【共引文献】

相关期刊论文 前7条

1 郎凤举;;HTMLParser提取网页超链接研究[J];电脑编程技巧与维护;2010年02期

2 辛玉玲;;搜索引擎相关技术研究概述[J];舰船电子工程;2008年10期

3 朱爱兵;俞海平;;高校校园网资源搜索技术研究[J];计算机与信息技术;2008年09期

4 余静;刘万军;;基于网页分块的主题爬虫研究[J];计算机与信息技术;2008年10期

5 马志强;刘利民;苏依拉;马瑞明;;基于Lucene的站内搜索引擎研究[J];内蒙古工业大学学报(自然科学版);2009年01期

6 马志强;赵汐;贾鹏;;基于网页的站内信息采集技术的研究与实现[J];内蒙古大学学报(自然科学版);2009年02期

7 马志强;;一种给批量汉字加注带有声调拼音的方法[J];微电子学与计算机;2008年04期

相关会议论文 前1条

1 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年

相关博士学位论文 前3条

1 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年

2 刘东飞;智能双语搜索方法及搜索引擎的研究[D];武汉理工大学;2009年

3 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年

相关硕士学位论文 前10条

1 韩晓娟;深层网信息挖掘技术的研究在化工领域的应用[D];北京化工大学;2009年

2 潘守慧;个性化垂直搜索引擎关键技术研究[D];山东科技大学;2009年

3 李博;博客检索的关键技术研究[D];哈尔滨工业大学;2009年

4 王桂梅;主题网络爬虫关键技术研究[D];哈尔滨工业大学;2009年

5 邹海亮;可定制的聚焦网络爬虫[D];东华大学;2009年

6 王翠;高校图书馆网站的人性化设计研究与实践[D];曲阜师范大学;2009年

7 郑鹏;搜索引擎中的相似网页探测算法研究[D];华中科技大学;2008年

8 陈靖;垂直育儿搜索引擎研究[D];西南大学;2010年

9 任斌;基于本体的主动学习主题爬行的研究与实现[D];吉林大学;2010年

10 刘鹏鹏;面向患者需求的医学搜索引擎的研究与实现[D];浙江大学;2010年

【二级参考文献】

相关期刊论文 前10条

1 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期

2 张利彪,周春光,刘小华,马铭;粒子群算法在求解优化问题中的应用[J];吉林大学学报(信息科学版);2005年04期

3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期

4 瞿锋;陈纪元;;汉语自动分词算法综述[J];福建电脑;2006年04期

5 杨维,李歧强;粒子群优化算法综述[J];中国工程科学;2004年05期

6 沈文勤,李庆超,邵志清;搜索引擎的渐增式爬行和备份式更新模式[J];华东理工大学学报;2004年03期

7 张茂元;张金隆;卢正鼎;邹春燕;;基于特征相关学习的网页信息提取方法[J];华中科技大学学报(自然科学版);2007年07期

8 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期

9 张岩,李文辉,孟宇,庞云阶;应用PSO的快速纹理合成算法[J];计算机研究与发展;2005年03期

10 李凯,赫枫龄,左万利;PageRank-Pro——一种改进的网页排序算法[J];吉林大学学报(理学版);2003年02期

相关博士学位论文 前1条

1 董道国;高维数据索引结构研究[D];复旦大学;2005年

相关硕士学位论文 前4条

1 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年

2 刘玮玮;搜索引擎中主题爬虫的研究与实现[D];南京理工大学;2006年

3 王思力;面向大规模信息检索的中文分词技术研究[D];中国科学院研究生院(计算技术研究所);2006年

4 冯月;基于专业搜索引擎网络蜘蛛搜索策略研究[D];电子科技大学;2007年

【相似文献】

相关期刊论文 前10条

1 何祥彬;周荷琴;李方勇;;基于CUDA平台的DR图像增强处理加速算法[J];中国医疗器械杂志;2010年01期

2 张小东;冯小平;罗越;;基于ADSP-BF537的VDK/LwIP嵌入式实时操作系统设计与应用[J];电子元器件应用;2010年01期

3 宋忠强;李欣;;深海动力环境监测中数据管理系统的实现[J];现代电子技术;2010年02期

4 刘鑫;郝丽娜;刘斌;邓军;;超声波定位系统串行通信模块设计[J];现代电子技术;2010年02期

5 王小燕;;一种高效点播流媒体服务器的设计与实现[J];计算机工程与科学;2010年02期

6 周强;费章君;王强;杨仕友;;基于H.264的嵌入式网络视频服务器的设计与开发[J];计算机应用;2010年02期

7 张小强;彭林;黄春;谢伦国;;面向STM的松弛存储一致性算法[J];计算机工程与科学;2010年01期

8 高昂;;JVM上的Ruby发展近况[J];程序员;2010年01期

9 周怡;蔡永铭;郑先容;刘军;郭穗勋;;让医学生的计算机程序设计课程“动”起来[J];计算机教育;2010年02期

10 胡振波;;Rails性能优化之路[J];程序员;2010年01期

相关会议论文 前10条

1 刘文志;李晓霞;;MD模拟中基于GPU的范德华非键作用计算[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年

2 陈凤明;曲静雅;林金明;;海水中痕量酚和腐植酸的全自动化学发光分析仪的研制[A];中国化学会第27届学术年会第09分会场摘要集[C];2010年

3 魏振钢;王小华;高云;孙喜洲;杨妍妍;;多核技术及并行算法在数据结构课程体系中的实施[A];2010国际信息技术与应用论坛论文集[C];2010年

4 赵伟;陈承收;李立军;;基于MapReduce云计算模型的碰撞检测算法[A];'2010系统仿真技术及其应用学术会议论文集[C];2010年

5 刘九;林孔升;尚汪洋;蔡德霞;;基于Java多线程的隐藏数组下标变换过程的代码迷惑[A];广西计算机学会2010年学术年会论文集[C];2010年

6 常天海;陈名开;梁添;;基于空间材料二次电子发射系数自动测试系统[A];2010’全国半导体器件技术研讨会论文集[C];2010年

7 高昕;文斐;梁福田;陈炼;金革;;Labwindows/CVI在大气环境监测激光雷达数据采集系统中的应用[A];第十五届全国核电子学与核探测技术学术年会论文集[C];2010年

8 陈虎;唐海浩;廖江苗;彭江峰;;面向批量插入优化的并行存储引擎MTPower[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年

9 郑亮;Taras Gerya;张怀;David A.Yuen;石耀霖;;GPU的内存与线程机制及其在地球动力学计算中的算例[A];中国地球物理2010——中国地球物理学会第二十六届年会、中国地震学会第十三次学术大会论文集[C];2010年

10 林子雨;林琛;冯少荣;张东站;;MESHJOIN~*:实时数据仓库环境下的数据流更新算法[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年

相关重要报纸文章 前10条

1 本报记者 李雪昆;政府网站—— 内涵比长相更重要[N];中国新闻出版报;2010年

2 本报记者 宋家雨;POWER 7热点技术揭秘[N];网络世界;2010年

3 陈曦;Chatroulene引发随机社交潮流[N];电脑报;2010年

4 商报记者 罗添;高性能电脑走下神坛[N];北京商报;2010年

5 谢涛;萧洁云就任SAP中国区总裁 稳定团队成首要任务[N];电脑商报;2010年

6 本报驻伦敦记者 郭林;英国互联网监管疏而不漏[N];光明日报;2010年

7 记者 刘霞;新发现最大类太阳系可能拥有7颗行星[N];科技日报;2010年

8 记者 唐先武 通讯员 陈明;“天河一号”运算性能跃上世界之巅[N];科技日报;2010年

9 本报记者 邹大斌;HTML 5将加速Web应用时代的到来[N];计算机世界;2010年

10 ;向虚拟世界“开战”[N];中国教育报;2010年

相关博士学位论文 前10条

1 刘晓;汶川地震区斜坡动力反应研究[D];中国地质大学;2010年

2 王颖;嵌入式可重构计算系统的设计技术研究[D];复旦大学;2009年

3 李凤华;分布式信息系统安全的理论与关键技术研究[D];西安电子科技大学;2009年

4 黄凯;面向特定应用的MPSoC设计流程平台研究[D];浙江大学;2008年

5 姜丽;多Agent协商研究[D];吉林大学;2007年

6 田新华;面向性能优化的压缩cache技术研究[D];国防科学技术大学;2007年

7 姚英彪;高性能嵌入式RISC微处理器核设计研究[D];浙江大学;2006年

8 夏均忠;基于网络的军车安全性能智能检测和隐患预警系统的研究[D];天津大学;2005年

9 庞文尧;基于C/S模式的远程控制系统研究开发[D];浙江大学;2003年

10 翟巍;三维GIS中大规模场景数据获取、组织及调度方法的研究与实现[D];大连理工大学;2003年

相关硕士学位论文 前10条

1 黄琰;基于GPRS/Internet的拉床远程监控系统[D];浙江大学;2010年

2 冯粮城;面向数字化制鞋的三维鞋楦资源管理[D];浙江大学;2010年

3 刘童;基于Java3D的多参数测井仪三维模拟[D];沈阳工业大学;2010年

4 邓淳瑜;基于ACE架构的多终端远程接入服务系统研究[D];大连海事大学;2010年

5 孟冬梅;录井公司数据访问层的设计与实现[D];大连海事大学;2010年

6 叶丹丹;无线抄表网应用平台系统的设计与实现[D];吉林大学;2010年

7 王星;媒体数字信号处理器MediaDSP6410微结构研究[D];浙江大学;2010年

8 赵青芝;基于IP网络的视频传输及监控系统设计与实现[D];浙江大学;2010年

9 龚兴华;无人值守广播电视的远程监测系统研制[D];南京理工大学;2010年

10 陆辉;基于Web服务的GPRS自动抄表软件系统设计与实现[D];华北电力大学(北京);2010年



本文编号:2413226

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2413226.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0a412***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com