基于主题相关度的地理信息Web服务爬虫研究
本文关键词: 地理信息Web服务 服务检索 爬虫 主题相关度 出处:《地理与地理信息科学》2012年02期 论文类型:期刊论文
【摘要】:针对通用搜索引擎对于地理信息Web服务检索存在的不足,提出了一种基于主题相关度的服务爬虫方法,利用向量空间模型表示主题特征,通过引入特征值权重的计算方法分析页面内容与主题的相关度,过滤与主题无关的页面;并利用改进的PageRank算法从URL和锚文本两方面分析链接的重要性,优化爬取队列。实验表明,该方法在服务检索效率和抓取能力上都取得了良好的效果。
[Abstract]:Aiming at the shortcomings of general search engine in Web service retrieval, a service crawler method based on topic correlation is proposed, which uses vector space model to represent topic feature. By introducing the method of calculating the weight of feature value to analyze the relevance between the content of the page and the topic, the paper filters the page independent of the topic, and uses the improved PageRank algorithm to analyze the importance of the link from the two aspects of the URL and the anchor text. The experimental results show that the proposed method has good performance in both service retrieval efficiency and retrieval ability.
【作者单位】: 武汉大学遥感信息工程学院;国家基础地理信息中心;中国矿业大学环境与测绘学院;
【基金】:国家自然科学基金项目(41001216)
【分类号】:P208
【参考文献】
相关期刊论文 前10条
1 陈军;丁明柱;蒋捷;周旭;翟勇;朱武;;从离线数据提供到在线地理信息服务[J];地理信息世界;2009年02期
2 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
3 蒋宗礼;徐学可;李帅;;一种基于超链接引导的主题搜索的主题敏感爬行方法[J];计算机应用;2008年04期
4 李卫疆;赵铁军;朴星海;;一种新的面向主题的爬行算法[J];计算机应用研究;2009年05期
5 柴嘉斌;李广华;李长春;;主题爬虫搜索策略的研究[J];科技信息;2011年12期
6 张翔;周明全;李智杰;董丽丽;;基于PageRank与Bagging的主题爬虫研究[J];计算机工程与设计;2010年14期
7 陈永彬;张琢;张添;;一种基于蚁群算法的主题爬虫搜索策略[J];微型机与应用;2011年01期
8 李志义;;网络爬虫的优化策略探略[J];现代情报;2011年10期
9 白玉琪,杨崇俊;空间信息搜索引擎研究[J];中国矿业大学学报;2004年01期
10 白玉琪,杨崇俊,刘冬林,朱华吉,卢亚辉,芮小平;基于OpenGIS WMS的空间信息搜索引擎系统原型[J];中国图象图形学报;2004年01期
【共引文献】
相关期刊论文 前10条
1 曹元;张巍;李俊;刘茶;潘金贵;;专用GPS车辆监控系统的设计与实现[J];安防科技;2008年02期
2 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
3 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
4 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
5 任斌;毛应爽;;基于本体的主动学习主题爬行的研究与实现[J];长春工程学院学报(自然科学版);2011年01期
6 张建兵;杨崇俊;;基于网格的海量分布式空间信息搜索研究[J];地理信息世界;2007年04期
7 黄方;刘定生;李国庆;王建;于文洋;赵灵军;;SIG中空间信息可视化与互操作实现研究[J];地理信息世界;2008年03期
8 陈军;蒋捷;周旭;翟勇;朱武;丁明柱;;地理信息公共服务平台的总体技术设计研究[J];地理信息世界;2009年03期
9 陈晓慧;陈荣国;卫文学;;基于网络爬虫的Web服务抓取解析器的设计与实现[J];地理信息世界;2010年03期
10 武昊;廖安平;彭舒;;面向服务契约的地理信息Web服务自适应集成方法研究[J];测绘通报;2012年01期
相关会议论文 前4条
1 刘林;王霓虹;;开放式地理信息系统的数据处理国内外研究新进展[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
2 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
3 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
4 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
相关博士学位论文 前10条
1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
4 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
5 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
6 王建涛;基于Web的地理信息服务的研究与实践[D];中国人民解放军信息工程大学;2005年
7 张建兵;基于网格的空间信息服务关键技术研究[D];中国科学院研究生院(遥感应用研究所);2006年
8 邓吉秋;基于XML与FFM的空间信息网络集成[D];中南大学;2006年
9 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
10 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
相关硕士学位论文 前10条
1 陈晓慧;空间信息服务管理平台的设计与实现[D];山东科技大学;2010年
2 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
3 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
4 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
5 史炜;个性化搜索引擎的研究与设计[D];电子科技大学;2010年
6 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年
7 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年
8 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
9 张朝威;面向企业竞争情报的主题搜索研究与实现[D];西安电子科技大学;2010年
10 刘永信;主题搜索与Web挖掘的研究及系统实现[D];西安电子科技大学;2009年
【二级参考文献】
相关期刊论文 前10条
1 陈军;论数字化地理空间基础框架的建设与应用[J];测绘工程;2002年03期
2 陈军;何超英;朱武;彭震中;金舒平;;汶川抗震救灾的基础地理信息综合应急服务[J];地理信息世界;2008年06期
3 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
4 卢世光,丁方忠;搜索引擎使用技术回顾和发展趋势探讨[J];广东通信技术;1999年05期
5 杨沛,郑启伦,彭宏;Inherit/Feedback:一种新的Web主题挖掘方法[J];计算机研究与发展;2004年05期
6 沈学华,周志华,吴建鑫,陈兆乾;Boosting和Bagging综述[J];计算机工程与应用;2000年12期
7 李开荣,陈宏建,陈];一种动态自适应蚁群算法[J];计算机工程与应用;2004年29期
8 陶剑文;;基于蚁群计算的自适应Web检索算法设计[J];计算机工程与应用;2007年15期
9 蒋玲艳;张军;钟树鸿;;蚁群算法的参数分析[J];计算机工程与应用;2007年20期
10 周德懋;李舟军;;高性能网络爬虫:研究综述[J];计算机科学;2009年08期
相关博士学位论文 前1条
1 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
相关硕士学位论文 前2条
1 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
2 刘玮玮;搜索引擎中主题爬虫的研究与实现[D];南京理工大学;2006年
【相似文献】
相关期刊论文 前10条
1 王敦清,廖灏溶,林祖华;爬虫恙螨属二新种(蜱螨目:恙螨科)[J];动物分类学报;1980年04期
2 徐业华,徐荫祺;爬虫恙螨属一新种——(真螨目:恙螨科)[J];动物分类学报;1983年04期
3 李宏伟;常小慧;黄海文;;基于ASP.NET的地理信息Web服务研究[J];测绘科学;2007年04期
4 徐春;;汉、英平行语料库的研究与构建[J];科技信息;2011年17期
5 柳贺;何忠焕;;基于REST的地理信息公共服务平台的Web服务研究[J];江西测绘;2011年02期
6 梁娟珠;陈崇成;;地理信息Web服务的研究进展综述[J];微计算机应用;2008年05期
7 谢能付;王文生;段延娥;;基于概念空间的领域信息爬虫设计研究[J];江西师范大学学报(自然科学版);2008年02期
8 朱yN;;基于多线程的超级节点爬虫算法的设计与实现[J];青海科技;2009年05期
9 ;大千世界有趣的生物钟[J];草原税务;1999年01期
10 崔林卫;苏伟;郭卫;李廉;;基于Nutch的Web数学公式提取[J];广西师范大学学报(自然科学版);2011年01期
相关会议论文 前5条
1 王珏;卢艳平;张泽宏;邹永宁;;一种有记忆的变窗“爬虫”图像边界跟踪方法[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
2 梁循;杨健;陈华;曾月卿;;互联网金融信息搜索[A];中国优选法统筹法与经济数学研究会第七届全国会员代表大会暨第七届中国管理科学学术年会论文集[C];2005年
3 张素智;李宝燕;樊得强;;面向用户和领域本体的Web信息采集系统[A];计算机研究新进展(2010)——河南省计算机学会2010年学术年会论文集[C];2010年
4 任进兴;朱志斌;;日本球坚蚧的发生规律与周年综合防治历[A];当代昆虫学研究——中国昆虫学会成立60周年纪念大会暨学术讨论会论文集[C];2004年
5 郑林森;;苏东坡与九龙文化[A];2002中国未来与发展研究报告[C];2002年
相关重要报纸文章 前10条
1 本报记者 汪若菡 ;“知识爬虫”:赛特集团信息系统“掘金”互联网[N];21世纪经济报道;2003年
2 宝宝;话说“长虫”[N];大众科技报;2001年
3 Lfireboy;假字当头小心[N];中国电脑教育报;2003年
4 邓正明;活灵活现世外桃源[N];中国商报;2005年
5 陈鹤琴;不要恐吓哄骗打骂孩子[N];中国教育资讯报;2002年
6 史春生;新加坡七大主题游园[N];中国绿色时报;2004年
7 [美]尼考尔·怀斯文;欢迎小朋友光临的房子[N];中国教师报;2003年
8 记者 高原;发明创意五花八门 昭显身边科技[N];大众科技报;2004年
9 春桃;夏季如何选用气雾杀虫剂[N];山西经济日报;2000年
10 上海 朱立强;你的网络情报员——X-Info[N];电脑报;2003年
相关博士学位论文 前3条
1 陆铭;WEB2.0网络热点发现与个性化检索研究[D];中国科学技术大学;2012年
2 徐和祥;Deep Web集成中若干技术研究[D];复旦大学;2008年
3 吴明晖;面向服务的语义模型驱动企业应用软件开发方法及关键技术研究[D];浙江大学;2011年
相关硕士学位论文 前10条
1 罗伟;基于移动Agent的主题搜索引擎研究[D];中南民族大学;2008年
2 顾凯;中文视频搜索的构筑与实践[D];北京邮电大学;2006年
3 常小慧;地理信息Web服务实现技术的应用研究[D];解放军信息工程大学;2006年
4 郭婧;地理信息Web服务研究与实践[D];解放军信息工程大学;2007年
5 吴建强;垂直搜索引擎爬虫系统的研究与实现[D];贵州大学;2008年
6 张慧;旅游信息垂直搜索系统的设计与实现[D];北京邮电大学;2009年
7 刘亦科;基于网站目录及链接分析的Spider爬行策略的研究与实现[D];北京化工大学;2009年
8 杨溥;搜索引擎中爬虫的若干问题研究[D];北京邮电大学;2009年
9 杨增辉;基于主题的Hidden Web信息获取研究[D];西安理工大学;2008年
10 李继宝;吃玩网中Deep Web数据集成研究[D];山东大学;2008年
,本文编号:1531646
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1531646.html