当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于ID3分类算法的深度网络爬虫设计

发布时间:2018-11-15 13:16
【摘要】:针对目前Web信息挖掘中存在的信息覆盖率较低的问题,对网络爬虫系统进行研究,提出一种针对深度网络的、基于ID3分类算法的Web页面收集方法。对Web页面的特征进行分析、处理和分类,提取包含深度网页的表单,通过自动提交这些表单来进行更深和更广的页面获取,实验表明该方法可以有效减少现有搜索引擎的盲区,改善搜索结果。
[Abstract]:Aiming at the problem of low information coverage in Web information mining, this paper studies the web crawler system, and proposes a Web page collection method based on ID3 classification algorithm for deep network. This paper analyzes, processes and classifies the features of Web pages, extracts the forms with depth pages, and automatically submits these forms to obtain deeper and wider pages. Experiments show that this method can effectively reduce the blind spots of existing search engines. Improve search results.
【作者单位】: 武汉理工大学计算机科学与技术学院;
【分类号】:TP391.3

【参考文献】

相关期刊论文 前3条

1 马瑜;王有刚;;ID3算法应用研究[J];信息技术;2006年12期

2 曲开社,成文丽,王俊红;ID3算法的一种改进算法[J];计算机工程与应用;2003年25期

3 娄卓男,吴志强;近几年国外隐蔽网络研究概述[J];图书情报工作;2004年01期

【共引文献】

相关期刊论文 前10条

1 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期

2 李用江,回雁雁;基于ADO.NET的海洋经济生物MIS系统[J];安阳师范学院学报;2004年05期

3 蔡茂蓉;;基于VRML和Java的远程虚拟教学系统[J];兵工自动化;2005年06期

4 张辉;吴辉;刘瑞;周刚;;科技资源信息检索关键技术[J];北京航空航天大学学报;2006年09期

5 高影繁;马润波;刘玉树;;一种快速文本归类算法的设计与实现[J];北京理工大学学报;2006年12期

6 朱学冬;胡平;;基于最优二叉树的多故障分类器的设计[J];北京联合大学学报(自然科学版);2009年02期

7 李耀辉,刘保军;基于Hash散列分布的数字信息并行存贮[J];燕山大学学报;2004年01期

8 张蕾;李小平;张晓华;;基于数据仓库和数据挖掘的电力企业决策支持系统[J];电力科学与工程;2005年04期

9 王爱莲;秦月明;;一种全文检索试验系统的开发与实现[J];电脑开发与应用;2008年12期

10 王桂芹;黄道;;决策树算法研究及应用[J];电脑应用技术;2008年01期

相关会议论文 前6条

1 来旭;李国辉;徐蕊;;基于云图和雨量的关联规则挖掘[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年

2 刘东升;;基于Mobile Agent的分布式ID3挖掘模型[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年

3 郭承霞;王爱继;陈庆海;;基于领域本体的智能信息检索模型研究[A];2009国际信息技术与应用论坛论文集(上)[C];2009年

4 维尼拉·木沙江;吴俊森;吐尔根·依布拉音;;维吾尔文搜索引擎的倒排索引设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

5 康海燕;樊孝忠;马礼;;自然语言理解的检索技术在数字图书馆中的应用[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

6 刘广艳;孙莹;黄保海;林培光;;基于本体方法的改进VSM语义检索模型[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年

相关博士学位论文 前10条

1 常春;Ontology在农业信息管理中的构建和转化[D];中国农业科学院;2004年

2 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年

3 柳伟;易错信道下基于内容的差错控制方法研究[D];国防科学技术大学;2005年

4 宋峻峰;面向语义Web的领域本体表示、推理、集成及其应用研究[D];国防科学技术大学;2006年

5 胡熠;面向信息检索的文本内容分析[D];上海交通大学;2007年

6 郭勇;基于语义的网络知识获取相关技术研究[D];国防科学技术大学;2007年

7 李华;面向知识服务的传统农具数字博物馆设计与构建[D];南京农业大学;2008年

8 付畅俭;基于内容的视频结构挖掘方法研究[D];国防科学技术大学;2008年

9 吴琼;面向真实性检测的数字图像盲取证方法研究[D];国防科学技术大学;2008年

10 栾悉道;多媒体数据语义建模及应用研究[D];国防科学技术大学;2008年

相关硕士学位论文 前10条

1 郭慧;数据挖掘技术对放射工作人员知觉压力因素分析[D];郑州大学;2010年

2 韩成勇;高校学评教决策支持系统设计与实现[D];苏州大学;2010年

3 张睿;ID3决策树算法分析与改进[D];兰州大学;2010年

4 杨洋;企业内容管理系统的设计与实现[D];电子科技大学;2010年

5 牛建平;基于数据仓库和数据挖掘技术的油田生产决策分析研究[D];电子科技大学;2010年

6 王晓庆;基于RBF网络的文本自动分类的研究[D];江西师范大学;2003年

7 周祥东;视频特征提取和视频镜头分析[D];中国人民解放军国防科学技术大学;2002年

8 汤义;基于MPEG-7标准的视频描述与检索[D];中国人民解放军国防科学技术大学;2002年

9 周梦麟;基于电信数据挖掘的研究与应用[D];浙江工业大学;2004年

10 董志勇;Web信息检索中基于超链接的网页评估算法的研究[D];河海大学;2004年

【二级参考文献】

相关期刊论文 前6条

1 曲开社,成文丽,王俊红;ID3算法的一种改进算法[J];计算机工程与应用;2003年25期

2 郭景峰,米浦波,刘国华;决策树算法的并行性研究[J];计算机工程;2002年08期

3 娄臻亮,张永清;基于ID3算法的实例学习及其在注塑模浇口选型中的应用[J];模具技术;1997年06期

4 滕皓,赵国毅,韩保胜;改进决策树的研究[J];济南大学学报(自然科学版);2002年03期

5 杨明,张载鸿;决策树学习算法ID3的研究[J];微机发展;2002年05期

6 李国伟,周颜,李钜;ID3算法在硕士研究生报名中的应用[J];中原工学院学报;2005年03期

【相似文献】

相关期刊论文 前10条

1 徐远纯,盛昭瀚,柳炳祥;一种基于决策树的客户流失危机分析方法[J];计算机与现代化;2004年08期

2 李艺明 ,张应利;数据挖掘在移动通信业客户流失管理中的应用[J];广东通信技术;2005年03期

3 夏伟;;决策树分类算法-ID3的改进[J];黑龙江科技信息;2009年07期

4 李世娟;马骥;白鹭;;基于改进ID3算法的决策树构建[J];沈阳大学学报;2009年06期

5 陈伟;;改进的ID3算法构造决策树[J];淮南师范学院学报;2010年03期

6 郑力明;易平;;基于HTMLParser信息提取的网络爬虫设计[J];微计算机信息;2009年15期

7 陈丽君;;深层网网络爬虫设计[J];计算机与信息技术;2009年Z2期

8 陈哲;;垂直搜索中网页抓取技术的研究[J];科技信息;2009年22期

9 贺财平;覃事刚;刘建勋;;Web服务搜索引擎的设计与实现[J];计算机应用与软件;2011年01期

10 段玉春;朱晓艳;孙玉强;;一种改进的ID3算法[J];南阳师范学院学报;2006年09期

相关会议论文 前10条

1 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年

2 高晖;陈国勋;;IDF算法——ID3算法的模糊化改进[A];模糊集理论与应用——98年中国模糊数学与模糊系统委员会第九届年会论文选集[C];1998年

3 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年

4 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年

5 卜亚杰;胡朝举;;一种改进的ID3算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年

6 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

7 王楠;慕晓冬;王宁燕;宋洪军;李佳晨;张阳子;;针对多线程架构的决策树查询算法优化及应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年

8 侯丹青;李舟军;邹蕴珂;;一种跨站脚本漏洞检测系统的设计与实现[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年

9 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年

10 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

相关重要报纸文章 前9条

1 王猛祥 徐明华;六度分隔:下一代网络交际[N];中国计算机报;2004年

2 Victor;电子邮件跟踪服务面世[N];人民邮电;2004年

3 伍裕标;网络监控STOP![N];中国电脑教育报;2003年

4 商建刚;当你电子邮件地址被拍卖(上)[N];中国计算机报;2001年

5 记者 郭丽君;封堵涉黄网站3500个[N];光明日报;2010年

6 记者 邵素宏;中移动新型拨测系统“扫黄”显威力[N];人民邮电;2010年

7 马季;网络文学遭遇“版权困境”[N];人民日报海外版;2010年

8 记者 曹莉;泛华北(环渤海)工程信息共享平台功能升级[N];中国建设报;2011年

9 上海 陈曦;谷歌之后,谁来制衡百度?[N];电脑报;2010年

相关博士学位论文 前4条

1 牛晓太;多模式智能谈判支持系统的理论与方法研究[D];武汉大学;2004年

2 陈苗;海量地学数据查询优化关键技术的研究[D];吉林大学;2008年

3 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年

4 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

相关硕士学位论文 前10条

1 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年

2 黄晓鹏;基于网络爬虫技术的内容探测系统设计与实现[D];北京邮电大学;2010年

3 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年

4 赵艳;基于网络爬虫的跨站脚本漏洞动态检测技术研究[D];西南交通大学;2011年

5 郭海燕;搜索引擎中网络爬虫技术研究[D];西安电子科技大学;2009年

6 张媚;Ajax友好的网络爬虫设计与实现[D];暨南大学;2011年

7 龚勇;搜索引擎中网络爬虫的研究[D];武汉理工大学;2010年

8 王佳;支持Ajax技术的主题网络爬虫系统研究与实现[D];北京交通大学;2011年

9 宋婷;基于SVM的网络爬虫检测研究与实现[D];天津大学;2010年

10 成文丽;基于决策树的数据挖掘算法的技术研究[D];太原理工大学;2003年



本文编号:2333410

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2333410.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fb856***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com