当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于网页内容块策略的主题爬行

发布时间:2018-05-31 02:25

  本文选题:定题搜索 + 主题爬行 ; 参考:《计算机工程与应用》2008年09期


【摘要】:因特网的迅速发展对传统的爬行器和搜索引擎提出了巨大的挑战。各种针对特定领域、特定人群的搜索引擎应运而生。Web主题信息搜索系统(网络蜘蛛)是主题搜索引擎的最主要的部分,它的任务是将搜集到的符合要求的Web页面返回给用户或保存在索引库中。Web上的信息资源如此广泛,如何全面而高效地搜集到感兴趣的内容是网络蜘蛛的研究重点。提出了基于网页分块技术的主题爬行,实验结果表明,相对于其它的爬行算法,提出的算法具有较高的效率、爬准率、爬全率及穿越隧道的能力。
[Abstract]:The rapid development of the Internet poses a great challenge to the traditional crawlers and search engines. A variety of search engines for specific areas, specific groups of search engines emerge as the times require. Web subject information search system (web spider) is the most important part of the theme search engine. Its task is to return the collected Web pages to users or to store the information resources on the index library. How to collect the content of interest is the research focus of web spiders. A topic crawling algorithm based on web partitioning technology is proposed. The experimental results show that the proposed algorithm has higher efficiency, accuracy rate, total crawling rate and the ability to cross the tunnel than other crawling algorithms.
【作者单位】: 沈阳炮兵学院基础部计算机实验中心 沈阳炮兵学院基础部计算机实验中心 沈阳炮兵学院基础部计算机实验中心
【分类号】:TP391.9

【参考文献】

相关期刊论文 前1条

1 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期

【共引文献】

相关硕士学位论文 前3条

1 林乐彬;Inar网络爬虫的设计与实现[D];哈尔滨工业大学;2006年

2 韩亮;基于本体的消防信息检索系统的研究[D];大连海事大学;2008年

3 操卫平;基于结构化向量空间模型的中文信息检索系统研究与实现[D];北京工业大学;2008年

【二级参考文献】

相关期刊论文 前1条

1 赫枫龄,陶文学,李凯,周力,左万利;新一代网络搜索引擎系统CHINA_VIVI的实现[J];吉林大学学报(理学版);2003年02期

【相似文献】

相关期刊论文 前8条

1 宋聚平,王永成,尹中航,滕伟;面向主题的网页搜索系统[J];上海交通大学学报;2003年03期

2 陈定权;基于超链分析的Web资源自动发现技术[J];图书情报工作;2003年09期

3 龙宇巍,王永成,许欢庆;定题搜索引擎Robot的设计与算法[J];计算机仿真;2004年04期

4 陈樤;企业竞争情报的服务模式[J];软件工程师;2004年06期

5 谭思亮;;一种新的主题爬行算法[J];微计算机信息;2007年06期

6 吴晓平;张长利;朱丽娜;;基于网页内容块策略的主题爬行[J];计算机工程与应用;2008年09期

7 李晓亚;赫枫龄;左万利;;基于网页分块技术主题爬行器的实现[J];吉林大学学报(理学版);2007年06期

8 张忠元;王洪肖;;基于网页分块技术的主题爬行[J];中国高新技术企业;2008年16期

相关博士学位论文 前3条

1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年

2 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年

3 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年

相关硕士学位论文 前10条

1 肖晓军;数字图书馆信息服务子系统若干项目的设计和实现[D];国防科学技术大学;2001年

2 王煜;基于页面划分的网面预测[D];吉林大学;2005年

3 张长利;网页相似性算法的研究与实现[D];吉林大学;2005年

4 柳周频;基于链接上下文的网页预测[D];吉林大学;2006年

5 刘志强;基于文本经验模型的主题爬行系统[D];吉林大学;2006年

6 董静茹;基于链接背景信息的启发式主题爬行[D];吉林大学;2006年

7 辛锐铭;分块主题爬行[D];吉林大学;2006年

8 姜鑫;基于网页连通信息的主题爬行技术研究与实现[D];吉林大学;2007年

9 张超群;基于网页分块技术的主题爬行[D];吉林大学;2007年

10 姚忠存;锚文本增量主题爬行[D];吉林大学;2007年



本文编号:1957927

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1957927.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d2fc8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com