当前位置:主页 > 科技论文 > 软件论文 >

一种基于本体语义的灾害主题爬虫策略

发布时间:2017-08-24 16:14

  本文关键词:一种基于本体语义的灾害主题爬虫策略


  更多相关文章: 主题爬虫 本体 语义相似度 向量空间模型 相关度计算 锚文本


【摘要】:为高效精确地提取存在于互联网中的灾害主题网页文本信息,引入本体语义,提出一种新的灾害主题爬虫策略。给出本体语义支持的灾害主题爬虫框架和流程,改进本体概念语义相似度计算方法,利用语义相似度计算主题语义向量,通过HTML位置加权获取网页文本特征向量,并进行主题相关度计算。设计URL锚文本主题相关度计算方法,分析URL链接优先度,优化爬行队列。选取地震灾害和气象灾害2个主题进行测试与分析,实验结果表明,该策略能有效提高稳定性和爬准率。
【作者单位】: 信息工程大学地理空间信息学院;四川省应急测绘与防灾减灾工程技术研究中心;国防信息学院;
【关键词】主题爬虫 本体 语义相似度 向量空间模型 相关度计算 锚文本
【基金】:国家自然科学基金(41271392,41401463,41571394) 四川省应急测绘与防灾减灾工程技术研究中心开放基金(K2015B014)
【分类号】:TP391.1
【正文快照】: 中文引用格式:马雷雷,李宏伟,连世伟,等.一种基于本体语义的灾害主题爬虫策略[J].计算机工程,2016,42(11):50-56.英文引用格式:Ma Leilei,Li Hongwei,Lian Shiwei,et al.A Strategy of Disaster Focused Crawler Based on OntologySemantics[J].Computer Engineering,2016,42(

【相似文献】

中国期刊全文数据库 前10条

1 何利益;陆国锋;罗鹏;;动态新闻主题信息推荐系统设计[J];指挥信息系统与技术;2013年04期

2 张宇;宋巍;刘挺;李生;;基于URL主题的查询分类方法[J];计算机研究与发展;2012年06期

3 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期

4 吕聚旺;都云程;王弘蔚;施水才;;基于新型主题信息量化方法的Web主题信息提取研究[J];现代图书情报技术;2008年12期

5 刘艳敏;刘飚;封化民;宋国森;方勇;;Web页面主题信息抽取研究与实现[J];计算机工程与应用;2006年21期

6 姚双良;;基于主题的Deep Web聚焦爬虫研究与设计[J];西北师范大学学报(自然科学版);2013年02期

7 王鑫;;元数据在主题信息网关中的应用[J];情报探索;2009年05期

8 李卫疆;赵铁军;朴星海;;一种新的面向主题的爬行算法[J];计算机应用研究;2009年05期

9 王玉国,王淑霞,李启鹏;注重Html型帮助制作的规范化及主题大纲的作用[J];通化师范学院学报;2005年02期

10 刘健;汤小春;晋峰;;基于主题元搜索的结果整合算法研究[J];计算机工程与应用;2010年35期

中国重要会议论文全文数据库 前4条

1 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年

2 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

3 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

4 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

中国博士学位论文全文数据库 前2条

1 杨肖;基于主题的互联网信息抓取研究[D];浙江大学;2014年

2 薛利;面向证券应用的WEB主题观点挖掘若干关键问题研究[D];复旦大学;2013年

中国硕士学位论文全文数据库 前10条

1 yち,

本文编号:732270


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/732270.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7809d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com