一种基于本体语义的灾害主题爬虫策略
本文关键词:一种基于本体语义的灾害主题爬虫策略
更多相关文章: 主题爬虫 本体 语义相似度 向量空间模型 相关度计算 锚文本
【摘要】:为高效精确地提取存在于互联网中的灾害主题网页文本信息,引入本体语义,提出一种新的灾害主题爬虫策略。给出本体语义支持的灾害主题爬虫框架和流程,改进本体概念语义相似度计算方法,利用语义相似度计算主题语义向量,通过HTML位置加权获取网页文本特征向量,并进行主题相关度计算。设计URL锚文本主题相关度计算方法,分析URL链接优先度,优化爬行队列。选取地震灾害和气象灾害2个主题进行测试与分析,实验结果表明,该策略能有效提高稳定性和爬准率。
【作者单位】: 信息工程大学地理空间信息学院;四川省应急测绘与防灾减灾工程技术研究中心;国防信息学院;
【关键词】: 主题爬虫 本体 语义相似度 向量空间模型 相关度计算 锚文本
【基金】:国家自然科学基金(41271392,41401463,41571394) 四川省应急测绘与防灾减灾工程技术研究中心开放基金(K2015B014)
【分类号】:TP391.1
【正文快照】: 中文引用格式:马雷雷,李宏伟,连世伟,等.一种基于本体语义的灾害主题爬虫策略[J].计算机工程,2016,42(11):50-56.英文引用格式:Ma Leilei,Li Hongwei,Lian Shiwei,et al.A Strategy of Disaster Focused Crawler Based on OntologySemantics[J].Computer Engineering,2016,42(
【相似文献】
中国期刊全文数据库 前10条
1 何利益;陆国锋;罗鹏;;动态新闻主题信息推荐系统设计[J];指挥信息系统与技术;2013年04期
2 张宇;宋巍;刘挺;李生;;基于URL主题的查询分类方法[J];计算机研究与发展;2012年06期
3 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
4 吕聚旺;都云程;王弘蔚;施水才;;基于新型主题信息量化方法的Web主题信息提取研究[J];现代图书情报技术;2008年12期
5 刘艳敏;刘飚;封化民;宋国森;方勇;;Web页面主题信息抽取研究与实现[J];计算机工程与应用;2006年21期
6 姚双良;;基于主题的Deep Web聚焦爬虫研究与设计[J];西北师范大学学报(自然科学版);2013年02期
7 王鑫;;元数据在主题信息网关中的应用[J];情报探索;2009年05期
8 李卫疆;赵铁军;朴星海;;一种新的面向主题的爬行算法[J];计算机应用研究;2009年05期
9 王玉国,王淑霞,李启鹏;注重Html型帮助制作的规范化及主题大纲的作用[J];通化师范学院学报;2005年02期
10 刘健;汤小春;晋峰;;基于主题元搜索的结果整合算法研究[J];计算机工程与应用;2010年35期
中国重要会议论文全文数据库 前4条
1 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年
2 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前2条
1 杨肖;基于主题的互联网信息抓取研究[D];浙江大学;2014年
2 薛利;面向证券应用的WEB主题观点挖掘若干关键问题研究[D];复旦大学;2013年
中国硕士学位论文全文数据库 前10条
1 yち,
本文编号:732270
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/732270.html