探究ID3分类算法的深度网络爬虫设计方法
本文关键词:探究ID3分类算法的深度网络爬虫设计方法
【摘要】:随着网络技术不断的发展,互联网作为海量信息的载体已全面渗透到经济社会的各个领域,推动着我国向信息化社会发展。搜索引擎技术正在从以移动互联网为标志的个人需求精准搜索向以物联网为标志的实体搜索发展。本文探讨了一种按照ID3算法分类的深度网络爬虫设计方法,该方法按照ID3算法对页面进行收集、分析、处理和分类,从而提取深度表单数据,能够使搜索引擎减少搜索盲区,有效的改善和优化搜索结果。
【作者单位】: 十堰广播电视大学教育学院理工部;
【关键词】: ID算法 深度网络 爬虫算法
【分类号】:TP391.3;TP393.092
【正文快照】: 1引言随着互联网的飞速发展,信息的产生量以爆炸式的速度增长,互联网已经成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。经过大量的研究表明,目前互联网上存在着很多网页是不能够通过超级链接的设置而进行访问的。有很多深度位置的网页便成为了引擎搜
【参考文献】
中国期刊全文数据库 前6条
1 姚全珠;杨增辉;张楠;田元;;基于启发式查询词选择算法的Hidden Web获取研究[J];计算机工程与应用;2007年34期
2 苏潭英;郭宪勇;金鑫;;一种基于Lucene的中文全文检索系统[J];计算机工程;2007年23期
3 李静静;闫宏飞;;中文网页信息检索测试集的构建、分析及应用[J];中文信息学报;2008年01期
4 曹强;;基于Lucene的Web站点站内全文检索系统的设计与实现[J];图书情报工作;2007年09期
5 方巍;胡鹏昱;赵朋朋;崔志明;;基于语义的Deep Web数据源自动发现技术[J];微电子学与计算机;2007年09期
6 赵朋朋;崔志明;高岭;仲华;;关于中国Deep Web的规模、分布和结构[J];小型微型计算机系统;2007年10期
【共引文献】
中国期刊全文数据库 前10条
1 赵刚;冒亚明;刘斌;;基于Oracle和Lucene.net的文档管理系统[J];电脑知识与技术;2008年S2期
2 周文勤;;使用Heritrix和Lucence的全文检索解决方案[J];甘肃联合大学学报(自然科学版);2012年04期
3 卓林;;基于本体和语义相似度的Deep Web数据源发现技术[J];计算机光盘软件与应用;2012年20期
4 胡宏伟;虞萍;周南;乔军;;基于Lucene的文献资料全文检索系统的设计与实现[J];重庆理工大学学报(自然科学);2014年11期
5 杨丽华;袁方;姚增利;王煜;;基于启发式规则的Deep Web接口发现[J];河北大学学报(自然科学版);2010年01期
6 佟兴帆;邓辉宇;李志明;;上海光源产品管理系统及其全文检索子系统的改进[J];核技术;2011年07期
7 詹青;崔宾阁;;基于网格的Deep Web数据集成系统研究[J];计算机与信息技术;2009年Z2期
8 刘启刚;;网络课程答疑系统的研究与设计[J];江苏广播电视大学学报;2009年03期
9 张亮;陆余良;房珊瑶;;基于量子自组织神经网络的Deep Web分类方法研究[J];计算机科学;2011年06期
10 刘玉奎;周立柱;范举;;中文深度万维网数据库的现状研究[J];计算机学报;2011年02期
中国博士学位论文全文数据库 前3条
1 孟祥福;Web数据库柔性查询关键技术研究[D];东北大学;2010年
2 方巍;基于本体的Deep Web信息集成关键技术研究[D];苏州大学;2009年
3 李雁妮;深网数据集成与挖掘关键问题的建模及算法研究[D];西安电子科技大学;2013年
中国硕士学位论文全文数据库 前10条
1 吴世勇;基于聚类分析的搜索引擎自动性能评价研究[D];江西师范大学;2010年
2 王兆宇;个性化站内搜索引擎的设计与应用[D];东华大学;2011年
3 马静;基于web的数字化资源全文检索系统的设计与实现[D];西安电子科技大学;2010年
4 刘照然;远程教育中智能答疑系统的研究与实现[D];西安电子科技大学;2010年
5 席敏;基于单汉字索引的全文检索系统的研究与实现[D];西安电子科技大学;2010年
6 吴代文;基于Lucene的二次全文检索系统设计与实现[D];西安电子科技大学;2009年
7 丁士敏;基于Ajax/Lucene的站内搜索技术研究与实现[D];西安电子科技大学;2008年
8 孟繁佳;航运企业动态电子商务系统的研究与应用[D];大连海事大学;2011年
9 邓蓉;基于本体的深度搜索系统关键词库的构造与研究[D];江西师范大学;2011年
10 张仲祥;基于领域本体的Deep Web数据源聚焦技术研究[D];广西师范大学;2011年
【二级参考文献】
中国期刊全文数据库 前5条
1 闫宏飞,李晓明;关于中国Web的大小、形状和结构[J];计算机研究与发展;2002年08期
2 曹元大,贺海军,涂哲明,王琴;全文检索字索引技术的研究与实现[J];计算机工程;2002年06期
3 陈士杰,张sソ,
本文编号:748887
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/748887.html