当前位置:主页 > 科技论文 > 搜索引擎论文 >

主题搜索引擎中爬虫搜索策略的研究

发布时间:2017-10-05 04:24

  本文关键词:主题搜索引擎中爬虫搜索策略的研究


  更多相关文章: 网络爬虫 主题搜索引擎 搜索策略 向量空间模型


【摘要】:为了解决传统主题爬虫效率偏低的问题,传统主题爬虫会选择最有价值的链接进行访问,仅简单地计算链接的相关性,却忽视待分析URL之间的相关性关系,致使主题爬虫爬取效率较低。提出一种基于链接模型的相关性判别算法,综合利用有标种子URL和无标的待判别URL实现对无标URL的相关性判别,并推导出迭代初值选取对结果的不敏感性。实验结果表明,与传统的网络爬虫算法相关性判别方法相比,提出的方法效率更高。
【作者单位】: 兰州文理学院电子信息工程学院;兰州理工大学计算机与通信学院;
【关键词】网络爬虫 主题搜索引擎 搜索策略 向量空间模型
【基金】:甘肃联合大学科研能力提升计划项目(No.2012YBTS05)
【分类号】:TP391.3
【正文快照】: 1引言随着互联网的快速发展,信息量爆炸式增长,传统的搜索引擎在信息的覆盖率和搜索结果相关性、准确性等方面呈现下降趋势。截止2011年12月底,中国网页数量为866亿个[1],比2010年同期增长44.3%,全球数字信息总量约为1.9 ZB(1 ZB=1×1 021 GB),到2020年,全球数字信息总量将达

【相似文献】

中国期刊全文数据库 前10条

1 童亚拉;;自适应动态演化粒子群算法在Web主题信息搜索中的应用[J];武汉大学学报(信息科学版);2008年12期

2 林海霞;司海峰;张微微;;基于Java技术的主题网络爬虫的研究与实现[J];微型电脑应用;2009年02期

3 刘汉兴;刘财兴;;主题爬虫的搜索策略研究[J];计算机工程与设计;2008年12期

4 赵善明;崔翔;杨书涛;;主题搜索引擎搜索浅析[J];才智;2008年13期

5 陈哲;;垂直搜索中网页抓取技术的研究[J];科技信息;2009年22期

6 王舜燕;李蕾;吴兵华;;基于ID3分类算法的深度网络爬虫设计[J];现代图书情报技术;2008年06期

7 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期

8 王芳;陈海建;;深入解析Web主题爬虫的关键性原理[J];微型电脑应用;2011年07期

9 刘洁清;吴京慧;;面向主题的个人实时搜索引擎的设计与实现[J];现代图书情报技术;2006年05期

10 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期

中国重要会议论文全文数据库 前10条

1 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年

2 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年

3 王典乐;任照峰;牟灵泉;;基于并行计算和网络应用的暖通空调CAD搜索策略应用探讨[A];全国暖通空调制冷2002年学术年会论文集[C];2002年

4 何伟;李庆忠;郑永清;崔立真;;社区云计算环境中的一种数据分布及搜索策略[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

5 李慧敏;邬群勇;王钦敏;;Robot技术在空间信息服务搜索中的应用研究[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年

6 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

7 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

8 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年

9 熊凌;;计算机视觉中的图像匹配综述[A];12省区市机械工程学会2006年学术年会湖北省论文集[C];2006年

10 罗凡;彭秀增;申春;李肃义;;MySQL中InnoDB引擎索引树的搜索策略[A];2006年全国理论计算机科学学术年会论文集[C];2006年

中国重要报纸全文数据库 前2条

1 寿栋邋芯语;揭开企业搜索的技术面纱[N];计算机世界;2008年

2 广东省广州华南师大附小 王继华;概念图对提高网络学习效率的作用[N];中国电脑教育报;2005年

中国博士学位论文全文数据库 前10条

1 杨光;基于大型科学仪器工作站的屏幕图像识别与压缩技术研究[D];吉林大学;2011年

2 张焱;地面背景下成像目标跟踪技术研究[D];国防科学技术大学;2008年

3 黄樟灿;演化计算的搜索策略研究[D];武汉大学;2004年

4 聂栋栋;数字图像和视频修复理论及其算法研究[D];上海交通大学;2007年

5 董兴业;启发式算法及其在同顺序流水作业问题中的应用[D];北京交通大学;2008年

6 徐婕;基于对等网络的资源搜索策略的研究[D];华中科技大学;2007年

7 徐琨;交通视频监控中的车辆检测与跟踪方法研究[D];长安大学;2009年

8 杨新武;遗传归纳逻辑程序设计技术研究[D];北京工业大学;2003年

9 余亮;等球Packing问题的启发式研究[D];华中科技大学;2012年

10 刘亚波;关联规则挖掘方法的研究及应用[D];吉林大学;2005年

中国硕士学位论文全文数据库 前10条

1 王攀;主题搜索引擎的设计与实现[D];华中科技大学;2007年

2 王洪威;主题网络爬虫的分析与设计[D];北京邮电大学;2013年

3 郭谢;基于Web Community识别的专业搜索引擎研究[D];浙江大学;2006年

4 刘星;搜索引擎的研究与实现[D];华中科技大学;2007年

5 韩磊;新闻预定服务系统[D];山东大学;2007年

6 金梅;网络爬虫性能提升与功能拓展的研究与实现[D];吉林大学;2012年

7 芮虎;比价购物平台中网络爬虫的设计与实现[D];华东理工大学;2013年

8 赵茉莉;网络爬虫系统的研究与实现[D];电子科技大学;2013年

9 夏亮;主题搜索引擎网络爬虫搜索策略的研究与实现[D];北京化工大学;2010年

10 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年



本文编号:974767

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/974767.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户552fe***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com