基于VSM主题爬虫爬行策略的研究
本文关键词:基于VSM主题爬虫爬行策略的研究
【摘要】:网络爬虫作为搜索引擎重要的组成部分,其抓取网页资源主题相关性的高低直接决定爬虫性能的好坏。文章在VSM模型的基础上引入关键词的同义、继承、属性等关系的相关词汇来增强VSM模型的语义,通过实验进行验证,改进能够取得较好的抓取效果。
【作者单位】: 兰州交通大学电信学院;
【分类号】:TP391.1
【正文快照】: 0引言随着互联网的快速发展,网络上的信息量也急速增加。传统的搜索引擎已经不可能提供给用户既全面又具有专业深度的服务了,垂直搜索引擎应运而生。主题网络爬虫作为垂直搜索引擎的抓取模块,负责搜集网上的网页信息。主题爬虫的好坏直接影响着搜索引擎的服务质量,故作为搜索
【参考文献】
中国期刊全文数据库 前2条
1 苏喻;郑诚;马中杰;;基于语义的VSM模型改进[J];计算机应用与软件;2011年08期
2 徐猛;胡平;;基于VSM的网页主题相关性算法的研究[J];微计算机信息;2009年12期
【共引文献】
中国期刊全文数据库 前6条
1 冯秀珍;赵翠芬;;面向主题相关的网站架构优化方法研究[J];科技管理研究;2012年03期
2 左晓飞;刘怀亮;范云杰;赵辉;;基于概念语义场的文本聚类算法研究[J];情报杂志;2012年05期
3 郑小波;郑诚;封军;;基于Nutch专题搜索引擎的研究[J];微计算机信息;2010年30期
4 郭钢;李浩;周婧;;基于词语语义和隐喻逻辑的顾客非结构化需求分析[J];中国机械工程;2013年08期
5 邢丽;;基于云计算的信息推荐系统研究[J];物流技术;2013年03期
6 何利益;陆国锋;罗鹏;;动态新闻主题信息推荐系统设计[J];指挥信息系统与技术;2013年04期
中国硕士学位论文全文数据库 前10条
1 苏喻;基于语义的文本聚类搜索研究[D];安徽大学;2011年
2 谭胜;互联网新闻实时信息采集及主题探测研究[D];南京航空航天大学;2011年
3 刘佳;基于P2P的主题爬行与搜索路由研究[D];武汉理工大学;2010年
4 王洋;基于主题词同现图的网页相关度研究[D];华南理工大学;2010年
5 易清亮;面向主题的P2P搜索引擎的研究[D];西华大学;2010年
6 郭倩;主题网站的自动发现与判定方法研究[D];南京航空航天大学;2012年
7 戚璐瑶;一种基于关联规则挖掘的查询扩展算法及应用研究[D];南京航空航天大学;2012年
8 芮虎;比价购物平台中网络爬虫的设计与实现[D];华东理工大学;2013年
9 褚宏爽;主题搜索引擎网络爬虫的设计与实现[D];北京邮电大学;2013年
10 张俊;基于Lucene的产品比价搜索系统的研究与设计[D];上海师范大学;2013年
【二级参考文献】
中国期刊全文数据库 前3条
1 姜华;;一种基于本体的概念语义相似度计算研究[J];计算机应用与软件;2009年07期
2 孙吉贵;刘杰;赵连宇;;聚类算法研究[J];软件学报;2008年01期
3 张冬慧;孙波;徐照财;程显毅;;文本自动分类关键技术研究[J];微计算机信息;2008年06期
【相似文献】
中国期刊全文数据库 前10条
1 曾水香;罗林波;;基于改进Hits算法的多主题爬虫研究与实现[J];福建电脑;2010年05期
2 关慧芬;师军;马继红;;基于遗传算法的主题爬行技术研究[J];计算机与数字工程;2008年10期
3 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
4 戚欣;;基于本体的主题网络爬虫设计[J];武汉理工大学学报;2009年03期
5 李广丽;;基于网页内容评价和Web图的启发式垂直搜索策略的设计[J];情报理论与实践;2009年09期
6 张敏;杜华;;垂直搜索引擎系统的设计与实现[J];情报科学;2011年03期
7 邹永斌;陈兴蜀;王文贤;;基于贝叶斯分类器的主题爬虫研究[J];计算机应用研究;2009年09期
8 任小燕;康小军;;面向教育资源的垂直搜索引擎应用研究[J];软件导刊;2007年13期
9 柴嘉斌;李广华;李长春;;主题爬虫搜索策略的研究[J];科技信息;2011年12期
10 金明珠;丁岳伟;;基于动态主题库的主题爬虫[J];计算机应用;2009年S2期
中国重要会议论文全文数据库 前10条
1 吴炜;梁昆;李瑞轩;辜希武;卢正鼎;;一种基于主题相关度的网页排序算法[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
2 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
3 李素建;李芸;纪鹭宁;徐睿峰;;词典匹配和串频统计相结合在自动主题分析中的应用[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 赵恩彪;隋金君;王自亮;李智;;电荷法测量粉尘浓度技术研究[A];第八届全国采矿学术会议论文集[C];2009年
5 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 张靖;赵明清;;粗糙集理论在建立线性计量经济模型中的应用[A];中国企业运筹学学术交流大会论文集[C];2005年
7 肖诗斌;孙丽华;王弘尉;施水才;;指标信息抽取技术的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 丁春;;论自由词向关键词转换的意义[A];学报编辑论丛(第十二集)[C];2004年
9 齐敏霞;左廷荣;于晓明;;寿光商务小区暖通空调节能设计[A];全国暖通空调制冷2008年学术年会资料集[C];2008年
10 柏桂荣;章勇;;基于RSS的用户兴趣模型研究[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
中国重要报纸全文数据库 前10条
1 窦毅;“不花钱”让你排位更靠前[N];中国经营报;2007年
2 本报记者 朱薇;抄袭网页基本布局风格也侵权[N];经济参考报;2006年
3 朱薇;重庆:抄袭网页基本布局风格,也是侵权[N];新华每日电讯;2006年
4 ;美国开发出网页标注新技术[N];人民邮电;2006年
5 ;四月,点击传媒关键词[N];中国妇女报;2003年
6 陈华芳 龚萍;2003教育信息化关键词[N];中国教育报;2004年
7 本报记者 陈晨曦;竞体工作会上的关键词[N];人民日报;2003年
8 本报记者 李娇龙;营销有招一点通[N];中国图书商报;2004年
9 韩晓玲 楚静;历史文化语义学走向成熟[N];中国社会科学院院报;2007年
10 ;“十字真经”建设服务型政府[N];常州日报;2007年
中国博士学位论文全文数据库 前10条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 汲业;面向图像的垂直搜索引擎关键技术研究[D];大连海事大学;2013年
5 曲刚;环境不确定条件下企业组织间协作关系研究[D];大连理工大学;2007年
6 孙伟;香叶天竺葵精油的植物生物学及其药理研究[D];华东师范大学;2005年
7 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
8 黄鹏;基于文本和视觉信息融合的Web图像检索[D];浙江大学;2008年
9 冯松鹤;面向感知的图像检索及自动标注算法研究[D];北京交通大学;2009年
10 刘刚;面向领域的软件需求一致性验证方法研究[D];哈尔滨工程大学;2008年
中国硕士学位论文全文数据库 前10条
1 刘朋;基于Lucene的垂直搜索引擎关键技术的研究应用[D];武汉理工大学;2009年
2 罗林波;基于网页内容和链接的主题爬虫研究与实现[D];海南大学;2010年
3 梁淼;面向问答类网站的垂直搜索引擎的研究与实现[D];北京邮电大学;2013年
4 海涛;垂直搜索引擎数据采集技术的研究与实现[D];华北电力大学(北京);2008年
5 邱伟林;面向领域的垂直搜索引擎的研究与实现[D];大连海事大学;2011年
6 王俊;面向房产领域的垂直搜索引擎研究与实现[D];南昌大学;2012年
7 白玉昭;垂直搜索引擎的研究与实现[D];江南大学;2012年
8 关小敏;垂直搜索引擎的研究与实现[D];北京邮电大学;2012年
9 朱健琛;个性化新闻搜索引擎的研究与设计[D];电子科技大学;2012年
10 孙逸雪;基于时态信息的主题搜索引擎的研究与实现[D];中国科学技术大学;2009年
,本文编号:1182862
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1182862.html