当前位置:主页 > 科技论文 > 搜索引擎论文 >

主题搜索ROBOT综合爬行策略的研究

发布时间:2019-02-12 19:37
【摘要】:在分析、评价常用主题搜索ROBOT爬行策略的基础上,将三重过滤技术与改进的Shark启发式搜索算法相结合,设计了自动主题搜索引擎ROBOT的综合爬行策略。由于综合爬行策略在爬行中兼顾了网页的相关性、主题精度和网页质量,因此应用综合爬行策略在Web上下载主题相关网页时,既可利用链接分析扩大某个主题的资源覆盖度,又可保证搜索结果与主题高度相关。
[Abstract]:Based on the analysis and evaluation of the common topic search ROBOT crawling strategy, a comprehensive crawling strategy for ROBOT, an automatic subject search engine, is designed by combining the triple filtering technique with the improved Shark heuristic search algorithm. Because the integrated crawling strategy takes into account the relevance of the web page, the precision of the topic and the quality of the web page in the crawling process, when the integrated crawling strategy is used to download the relevant web pages on the Web, the link analysis can be used to expand the coverage of the resources of a topic. It also ensures that search results are highly relevant to the topic.
【作者单位】: 湖北工业大学计算机学院 湖北工业大学计算机学院 湖北工业大学计算机学院
【基金】:湖北省自然科学基金(2004ABA061)
【分类号】:TP393.09

【参考文献】

相关期刊论文 前3条

1 朱炜;王超;李俊;潘金贵;;Web超链分析算法研究[J];计算机科学;2003年09期

2 欧阳柳波,李学勇,李国徽,王鑫;专业搜索引擎搜索策略综述[J];计算机工程;2004年13期

3 曾春,邢春晓,周立柱;基于内容过滤的个性化搜索算法[J];软件学报;2003年05期

【共引文献】

相关期刊论文 前10条

1 汪洁;朱军;;基于Linux的中文垃圾邮件过滤系统设计与实现[J];安徽农业大学学报;2011年02期

2 姚克娟,李晋宏;应用Agent技术实现个性化信息服务[J];北方工业大学学报;2004年03期

3 李伟;黄颖;;基于HtmlParser的网页信息提取[J];兵工自动化;2007年07期

4 陈悦;陈运;杨义先;胡迪;;基于遗传算法的聚焦爬虫搜索策略设计与研究[J];成都信息工程学院学报;2011年05期

5 王冬青;;远程教育个性化学习支持服务研究[J];中国远程教育;2008年08期

6 杨仁广;孟祥增;;网络多媒体教学资源主题搜索研究[J];电化教育研究;2009年05期

7 付涛;;基于背景的Web广泛主题发现方法[J];电脑学习;2010年02期

8 高磊;徐东平;;启发式算法在搜索引擎的应用[J];电脑知识与技术(学术交流);2007年02期

9 王冬;张运波;黄应红;;中文信息检索关键技术分析[J];电脑知识与技术(学术交流);2007年17期

10 张丽敏;;垂直搜索引擎的主题爬虫策略[J];电脑知识与技术;2010年15期

相关会议论文 前2条

1 刘勘;尹承明;陈凡;;图书借阅信息的分析与挖掘[A];第二十五届中国数据库学术会议论文集(一)[C];2008年

2 袁晓洁;窦志成;刘芳;张路;;一种基于动态用户模型的个性化Web搜索算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年

相关博士学位论文 前10条

1 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年

2 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年

3 张晓刚;面向软件过程改进的知识管理技术研究[D];中国科学院研究生院(软件研究所);2004年

4 张树人;从社会性软件、Web2.0到复杂适应信息系统研究[D];中国人民大学;2006年

5 张丙奇;个性化需求的描述、获取与推断—案例研究[D];中国科学院研究生院(计算技术研究所);2005年

6 赵鹏;复杂网络与互联网个性化信息服务的研究[D];中国科学技术大学;2006年

7 周斌;面向公众服务的电子政务研究[D];同济大学;2007年

8 张磊;基于本体的主动式知识系统及其若干关键技术研究[D];南京航空航天大学;2006年

9 董宝力;Web制造资源的语义发现关键技术研究[D];浙江大学;2007年

10 臧铖;个性化搜索中隐私保护的关键问题研究[D];浙江大学;2008年

相关硕士学位论文 前10条

1 吴则则;支持动态演进的用户兴趣模型挖掘方法研究[D];山东科技大学;2010年

2 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年

3 孟庆海;基于社会书签的个性化查询词扩展技术研究[D];哈尔滨工程大学;2010年

4 韩兆国;电信计费帐务系统核心模块的设计[D];哈尔滨工程大学;2010年

5 唐微;网络信息提取系统关键技术研究[D];大连理工大学;2009年

6 闫兆法;基于多模态粒子群优化的社会网络分析研究[D];大连理工大学;2010年

7 张囡囡;面向教育硕士培养的个性化教育资源平台的研究[D];辽宁师范大学;2010年

8 李永春;主题搜索引擎的研究与实现[D];哈尔滨理工大学;2010年

9 胡福华;基于可信相似度传递的协同过滤算法研究与应用[D];浙江大学;2011年

10 周晓红;基于内容与链接的页面价值算法研究[D];电子科技大学;2010年

【二级参考文献】

相关期刊论文 前1条

1 曾春,邢春晓,周立柱;个性化服务技术综述[J];软件学报;2002年10期

【相似文献】

相关期刊论文 前10条

1 陈汶滨;夏学梅;;基于聚焦爬虫的手机天气预报系统[J];今日科苑;2009年02期

2 王芳;陈海建;;深入解析Web主题爬虫的关键性原理[J];微型电脑应用;2011年07期

3 杨学明;刘柏嵩;;基于本体的网络爬虫技术研究[J];情报学报;2007年05期

4 郑力明;易平;;基于HTMLParser信息提取的网络爬虫设计[J];微计算机信息;2009年15期

5 陈丽君;;深层网网络爬虫设计[J];计算机与信息技术;2009年Z2期

6 陈哲;;垂直搜索中网页抓取技术的研究[J];科技信息;2009年22期

7 贺财平;覃事刚;刘建勋;;Web服务搜索引擎的设计与实现[J];计算机应用与软件;2011年01期

8 刘明辉;张志平;张新民;;网络资源聚合方法探析[J];机械管理开发;2008年05期

9 王舜燕;李蕾;吴兵华;;基于ID3分类算法的深度网络爬虫设计[J];现代图书情报技术;2008年06期

10 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期

相关会议论文 前10条

1 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年

2 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年

3 李宇翔;李双红;李茹;;基于社区问答的问题相关度检测研究[A];第六届全国信息检索学术会议论文集[C];2010年

4 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年

5 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

6 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

7 侯丹青;李舟军;邹蕴珂;;一种跨站脚本漏洞检测系统的设计与实现[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年

8 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年

9 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

10 胡乐江;;基于风险投资家尽职调查的项目选择方法[A];2002年中国管理科学学术会议论文集[C];2002年

相关重要报纸文章 前10条

1 世纪证券综合研究所 刘昆;业绩与仓位变动相关度不高[N];证券时报;2006年

2 本报评论员 戎国彭;股票与期货,哪个离你更近?[N];杭州日报;2008年

3 联合证券 王慧;中小板保持强势[N];中国证券报;2008年

4 李云林;美国债券市场的六个特点[N];学习时报;2007年

5 本报记者 丰捷;高校需要准确定位[N];光明日报;2009年

6 吉宝飞;新年度棉价要看八大因素[N];中华合作时报;2008年

7 蒋瑛琨 彭艳;震荡市中的ETF选择[N];上海证券报;2007年

8 中信建投期货 孙晓飞邋钱灿;台、港股市大幅振荡 期现走势基本一致[N];期货日报;2007年

9 王妍;蓝筹发力 业绩的作用有多大[N];金融时报;2008年

10 李俊;背离原油 国际糖价跟着黄金走[N];第一财经日报;2008年

相关博士学位论文 前10条

1 杨建波;基于多小波及遗传算法的数字水印技术研究[D];吉林大学;2005年

2 曲卫民;中文XML信息检索系统的研究[D];中国科学院研究生院(软件研究所);2004年

3 冯登国;频谱理论及其在通信保密技术中的应用[D];西安电子科技大学;1995年

4 肖仕武;同步发电机定子绕组内部故障暂态仿真及其应用的研究[D];华北电力大学(北京);2003年

5 洪宇;基于语义结构和时序特征的话题检测与跟踪技术研究[D];哈尔滨工业大学;2009年

6 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年

7 钟茂生;基于内容相关度计算的文本结构分析方法研究[D];上海交通大学;2010年

8 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年

9 白岩;基于本体的移动Agent通信技术研究[D];吉林大学;2006年

10 徐慧明;可识别潮流转移的广域后备保护及其控制策略研究[D];华北电力大学(北京);2007年

相关硕士学位论文 前10条

1 王攀;主题搜索引擎的设计与实现[D];华中科技大学;2007年

2 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年

3 黄晓鹏;基于网络爬虫技术的内容探测系统设计与实现[D];北京邮电大学;2010年

4 夏亮;主题搜索引擎网络爬虫搜索策略的研究与实现[D];北京化工大学;2010年

5 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年

6 赵艳;基于网络爬虫的跨站脚本漏洞动态检测技术研究[D];西南交通大学;2011年

7 姚永祥;基于XTM的政务知识导航系统的研究与实现[D];大连理工大学;2006年

8 李艳群;网络教育资源的建设及查询方法研究[D];山东师范大学;2005年

9 张正龙;基于LUCENE的主题搜索引擎研究与实现[D];重庆大学;2008年

10 刘金;模块化设计在中央空调产品项目开发中的应用[D];上海交通大学;2009年



本文编号:2420723

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2420723.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户47963***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com