面向情报获取的主题采集工具设计与实现
本文关键词:面向情报获取的主题采集工具设计与实现
【摘要】:面向互联网的主题采集是情报获取的重要手段,面对爆发式增长的互联网信息资源,设计并实现一套由采集准备、URL分析及提取、模板学习、正文抽取等几阶段组成的主题采集工具,其中URL分析与提取采用基于链接类型的URL筛选方法,实现正文网页URL的筛选;模板学习和正文抽取部分采用基于DOM树的节点比对方法,完成模板的构建与正文抽取。实验结果表明,本文所提出的主题采集工具采集准确率较高,能够适应目前情报信息采集的需求。
【作者单位】: 上海宝山钢铁股份有限公司;上海理工大学图书馆;华东师范大学商学院信息学系;
【基金】:上海市科技发展基金软科学研究项目“大数据环境下基于领域本体的情报处理分析方法研究——以钢铁行业为例”(项目编号:14692107100)研究成果之一
【分类号】:TP393.092
【正文快照】: 1引言大数据时代,伴随着互联网上信息爆炸式的增长,依靠传统的人工手段越来越难以从互联网上快速准确地获取所需信息。另一方面,随着企业对竞争情报的愈发重视,互联网上的信息采集、整理与分析也成为了企业情报部门较为重要的一项工作。面对上述矛盾,如何在耗费较少资源的前提
【参考文献】
中国期刊全文数据库 前4条
1 杜义华,及俊川;通用互联网信息采集系统的设计与初步实现[J];计算机应用研究;2005年01期
2 罗立宏;陈志;;基于语义分析的垂直搜索网络蜘蛛[J];计算机工程与设计;2008年18期
3 谷俊;;中文专利本体半自动构建系统设计[J];图书情报工作;2013年03期
4 许鑫;黄仲清;邓三鸿;;互联网侨情信息采集系统设计与实现[J];现代图书情报技术;2010年Z1期
【共引文献】
中国期刊全文数据库 前10条
1 刘瑛;;XML网页的链接解析与信息采集研究[J];硅谷;2010年10期
2 郑文标;;互联网技术在海外华文网站研究中的应用[J];华侨大学学报(哲学社会科学版);2011年02期
3 王琦;张戈;何婧;;基于Lucene与Heritrix的图书垂直搜索引擎的研究与实现[J];计算机时代;2010年02期
4 李涛;王润孝;魏薇;罗志清;;基于LonWorks的设备管理系统的设计与实现——以铁路水电设备为例[J];制造业自动化;2006年10期
5 陈娟;;构建基于关联规则的网络行为挖掘系统[J];科学技术与工程;2007年13期
6 王聪睿;张翠肖;;一种基于本体的垂直搜索引擎系统模型[J];河北省科学院学报;2013年02期
7 陈永江;仲兆满;陈宗华;;HTMLUNIT在网络信息采集系统中的应用[J];淮海工学院学报(自然科学版);2013年04期
8 杨艺;代春艳;;基于IOCC的定题Web信息发现机制研究[J];计算机工程与设计;2008年22期
9 陈艳春;;竞争情报采集系统研究[J];石家庄铁道学院学报(自然科学版);2008年02期
10 许鑫;谷俊;袁丰平;周群芳;;面向专利本体的语义检索分析系统的设计与实现[J];图书情报工作;2014年09期
中国硕士学位论文全文数据库 前10条
1 连惠杰;基于主题的教育信息定向采集系统[D];南京理工大学;2011年
2 吴静;网络舆情信息采集系统的设计与实现[D];电子科技大学;2011年
3 宋治国;数据挖掘在Internet有害信息过滤中的应用[D];山东师范大学;2006年
4 魏善岭;面向互动型网络媒体的不良信息检测与过滤[D];大连海事大学;2009年
5 徐海;基于Lucene垂直搜索引擎的研究与实现[D];西安科技大学;2009年
6 刘毅;网络舆情信息理论体系的构建研究[D];天津外国语学院;2007年
7 黄仲清;互联网主题信息定向采集研究[D];华东师范大学;2010年
8 李伟;基于J2EE的网络舆情分析系统的设计与实现[D];南京大学;2012年
9 孙岳;山东省汽车产业链研发与标准公共服务平台[D];山东大学;2012年
10 刘显一;基于Lucene和Heritrix的主题搜索引擎的设计与实现[D];北京邮电大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 崔继馨,张鹏,杨文柱;基于DOM的Web信息抽取[J];河北农业大学学报;2005年03期
2 郭红,郭朝珍,苏群;多网站信息采集与异构信息集成应用[J];福州大学学报(自然科学版);2001年05期
3 潘以锋;;基于Lucene的网站全文检索系统的开发[J];广西教育学院学报;2006年05期
4 吴清江;吴政;刘琳琅;;面向侨务信息主题的搜索引擎系统[J];华侨大学学报(自然科学版);2006年04期
5 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
6 邹娟;周经野;邓成;;一种基于语义分析的中文特征值提取方法[J];计算机工程与应用;2005年36期
7 张斌;刘增良;余达太;黄洪;;基于粗糙集和模糊聚类的政务本体学习模型[J];计算机工程与应用;2010年25期
8 肖建华,蒋明,何瑗,柏文阳;二次搜索系统的设计与实现[J];计算机应用研究;2003年09期
9 钱兵;王永成;高凯;;面向搜索引擎的自然语言理解的设计与实现[J];计算机应用研究;2006年12期
10 温春;王晓斌;石昭祥;;中文领域本体学习中术语的自动抽取[J];计算机应用研究;2009年07期
中国硕士学位论文全文数据库 前1条
1 宁力;搜索引擎中网页查重方法的研究[D];北京化工大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 李鑫;王勇;冯志强;;炮兵侦察情报获取与处理[J];舰船电子工程;2009年03期
2 郑军;;用户情报获取智能障碍初探[J];图书情报工作;1992年05期
3 郑金;王甜甜;;大型国有电网企业用户对情报获取便捷性的关注度研究[J];图书情报知识;2014年04期
4 王昕;王梦雅;;大型国有电网企业用户情报获取渠道研究[J];信息资源管理学报;2013年04期
5 陶秀杰;鲜冉;;大型国有电网企业用户情报获取及时性关注度研究[J];图书与情报;2014年03期
6 王春华,江丽霞;全网络方式培养学生的情报获取能力[J];科技情报开发与经济;2005年06期
7 陶秀杰;杨丹丹;;大型国有电网企业用户情报获取动因研究[J];信息资源管理学报;2013年04期
8 李敏;;基于企业知识情境构建的Web竞争情报获取研究[J];图书馆工作与研究;2013年08期
9 石景岚;童力;郭伟锋;;炮兵指挥信息系统情报获取能力优化[J];无线电通信技术;2012年01期
10 刘培兰;;知识经济时代竞争情报获取策略及其法律与道德问题[J];现代情报;2007年04期
中国重要会议论文全文数据库 前2条
1 李雪飞;孙永侃;熊正祥;林宗祥;;海战情报获取能力评价研究[A];第13届中国系统仿真技术及其应用学术年会论文集[C];2011年
2 刘夫力;程公;刘玮;;大型足球比赛对手情报获取与处理方法的归析[A];2013年全国竞技体育科学论文报告会论文摘要集[C];2013年
中国重要报纸全文数据库 前4条
1 穆志勇;透视战场情报获取的新趋势[N];解放军报;2008年
2 于淼 军事科学院国防政策研究中心研究员;军方智库关注七大战略焦点[N];中国国防报;2014年
3 赵先刚;变与不变[N];解放军报;2012年
4 特约记者 王茂华;开展八项改造 点亮六院未来[N];中国航天报;2014年
中国硕士学位论文全文数据库 前2条
1 翁R土,
本文编号:1142686
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1142686.html