基于决策树的搜索引擎恶意网页检测研究与实现
本文关键词:基于决策树的搜索引擎恶意网页检测研究与实现,由笔耕文化传播整理发布。
《湖南大学》 2013年
基于决策树的搜索引擎恶意网页检测研究与实现
周浩
【摘要】:随着互联网的快速发展,网络信息呈爆炸式的增长,具有资源整合功能的搜索引擎已经成为人们获取信息的首要途径。然而大量钓鱼网页、恶意代码链接充斥其中,给用户带来极大的安全隐患,避免用户访问恶意的搜索链接具有深远而现实的意义。然而,现有的搜索引擎安全防御工具检测范围有限。本文力图改善搜索引擎网页检测的覆盖面,利用机器学习具有处理同类事物的泛化能力,让检测系统更加智能化。 为了正确而迅速地判定搜索引擎网页的安全性,将网页分为正常网页和恶意网页,判定规则通过机器学习中的分类模型来获得。 首先,对大量的恶意网页与正常网页进行深入分析,,除了考虑网页自身特征之外,选取了多种新的特征来检测恶意网页,包括Google PageRank值及搜索结果数、Alexa流量信息、域名信息、WOT声誉值等。相对于以往检测网页所选择的特征而言,本文得到的网页特征更具有健壮性、权威性,能够更好的区分恶意网页与正常网页,使得网页检测更具真实性、可靠性。 其次,采用多种提取技术获得所选的网页特征,利用机器学习中的分类算法,如朴素贝叶斯、支持向量机、K最近邻、决策树算法等从网页特征集中生成分类模型。对分类性能优越且判决复杂度低的J48决策树模型加权叠加后,分类精度达到95.19%,能有效的评估网页的安全性,适合用来对搜索引擎网页进行快速分类。 最后,扩展了Chrome浏览器的功能,将机器学习生成的决策树模型应用到搜索引擎网页检测中。当浏览器扩展探测到用户通过搜索引擎进行查询后,对于每个搜索引擎网页,利用异步的XMLHttpRequest从网络中提取分类模型中的特征,将检测的结果通过图标的形式及时反馈到搜索引擎网页旁边。通过在多款主流搜索引擎的大量搜索测试表明,所开发的扩展能够非常准确且有效的对任意搜索引擎网页进行检测。
【关键词】:
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP393.08;TP391.3
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【共引文献】
中国期刊全文数据库 前10条
1 王尔丹;人群运动与密度估计技术研究[J];安全;2005年03期
2 冯学军;;最小二乘支持向量机的研究与应用[J];安庆师范学院学报(自然科学版);2009年01期
3 周德强;冯建中;;建筑物沉降预测的改进Verhulst模型研究[J];地下空间与工程学报;2011年01期
4 王立平;孔小梅;付梦印;王美玲;张甲文;姜明;;Temperature Drift Modeling of FOG Based on LS-WSVM[J];Journal of China Ordnance;2008年03期
5 王亮;胡静涛;;基于LS-SVM的光刻过程R2R预测控制方法[J];半导体技术;2012年06期
6 田盛丰;基于核函数的学习算法[J];北方交通大学学报;2003年02期
7 薛彦轶;刘晓东;;基于最小二乘支持向量机的航材备件需求建模[J];兵工自动化;2007年06期
8 高博;谭永红;张新良;;基于在线LSSVM的超声波电机转速预测器[J];兵工自动化;2007年09期
9 张丽叶;郑绍钰;;基于LS-SVM的装备研制费用建模与分析[J];兵工自动化;2009年02期
10 纪凤珠;王长龙;王瑾;孙钦蕾;;基于稀疏化LS-SVM的漏磁缺陷三维轮廓重构[J];兵工学报;2008年05期
中国重要会议论文全文数据库 前10条
1 宋海鹰;桂卫华;阳春华;;基于核偏最小二乘的简约最小二乘支持向量机及其应用研究[A];第二十六届中国控制会议论文集[C];2007年
2 宋海鹰;桂卫华;阳春华;;基于最小二乘支持向量机的Hammerstein-Wiener模型辨识[A];第二十六届中国控制会议论文集[C];2007年
3 ;Inverse System Control of Nonlinear Systems Using LS-SVM[A];第二十六届中国控制会议论文集[C];2007年
4 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
5 ;A CDMA Signal Receiver Based on LS-SVM[A];第二十六届中国控制会议论文集[C];2007年
6 ;LS-SVM Based Stable Generalized Predictive Control[A];第二十七届中国控制会议论文集[C];2008年
7 阎纲;梁昔明;龙祖强;李翔;;一种新的提前一步预测控制算法[A];第二十七届中国控制会议论文集[C];2008年
8 孙玉坤;王博;丁慎平;;基于模糊支持向量机的赖氨酸发酵软测量[A];第二十七届中国控制会议论文集[C];2008年
9 ;GA Based LS-SVM Classifier for Waste Water Treatment Process[A];第二十七届中国控制会议论文集[C];2008年
10 柴伟;孙先仿;乔俊飞;;有监督的等距映射和k近邻分类结合用于集员辨识[A];第二十九届中国控制会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年
3 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
4 许伟;基于进化算法的复杂化工过程智能建模方法及其应用[D];华东理工大学;2011年
5 向国齐;支持向量回归机代理模型设计优化及应用研究[D];电子科技大学;2010年
6 桑永胜;空间数据分析的神经计算方法[D];电子科技大学;2010年
7 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
8 包鑫;稳健回归技术及其在光谱分析中的应用[D];浙江大学;2010年
9 甘良志;核学习算法与集成方法研究[D];浙江大学;2010年
10 邵咏妮;水稻生长生理特征信息快速无损获取技术的研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 曾传华;基于颜色和纹理特征的竹条分级方法研究[D];华中农业大学;2010年
2 田文娟;基于支持向量机的人民币序列号识别方法的研究[D];山东科技大学;2010年
3 孟培培;基于3S的土地督察信息系统研究[D];山东科技大学;2010年
4 李海清;支持向量机在金融市场预测中的应用[D];辽宁师范大学;2010年
5 李光远;基于在线聚类和最小二乘支持向量机的模糊建模方法研究[D];郑州大学;2010年
6 王巧立;微生物发酵过程的建模与优化控制研究[D];郑州大学;2010年
7 曲昆鹏;基于支持向量机的杂草识别研究[D];哈尔滨工程大学;2010年
8 田向伟;基于参数优化LSSVM在转炉煤气系统预测中的应用[D];大连理工大学;2010年
9 穆大芸;多变量时间序列预测与储备池优化方法研究[D];大连理工大学;2010年
10 高和东;GPU并行计算在LSSVM建模中的研究与应用[D];大连理工大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 张晓宇;吴向前;张平洋;;农业网站中垃圾网页过滤方法的研究[J];网络安全技术与应用;2011年01期
2 张继刚;搜索引擎使用技巧[J];网络与信息;1999年09期
3 ;关键词搜索[J];每周电脑报;2000年38期
4 陈冰;;饿狼一样的网站提交工具——“提交饿狼”[J];科学之友;2000年07期
5 许斗;从Google看新一代搜索引擎的发展趋向[J];芜湖职业技术学院学报;2001年01期
6 周毅华;从搜索引擎的分类看其应用技巧[J];图书馆理论与实践;2002年06期
7 邹小筑;搜索引擎的选择与使用技巧[J];图书馆学研究;2002年05期
8 林燕;Google搜索引擎的搜索功能与使用技巧[J];河北科技图苑;2003年05期
9 林中;GOOGLE搜索引擎的关键词检索[J];中国信息导报;2003年03期
10 封剑待封喉;吸星大法“搜”天下 笑傲网络任我行——搜索引擎绝对专题[J];网络与信息;2003年07期
中国重要会议论文全文数据库 前10条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
6 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
7 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
8 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
9 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
10 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年
中国重要报纸全文数据库 前10条
1 李一鑫;[N];财经时报;2007年
2 周文林;[N];经济参考报;2007年
3 惠正一;[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;[N];中国计算机报;2005年
5 陈珊;[N];人民邮电;2005年
6 赵法忠;[N];中国经营报;2005年
7 金朝力;[N];北京商报;2006年
8 本报记者 赵晓辉 孟昭丽;[N];中国证券报;2006年
9 孙琎;[N];第一财经日报;2006年
10 姜蕊;[N];中国高新技术产业导报;2006年
中国博士学位论文全文数据库 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 郑文良;基于简单本体的农业P2P搜索引擎关键技术研究[D];沈阳农业大学;2013年
10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
中国硕士学位论文全文数据库 前10条
1 周浩;基于决策树的搜索引擎恶意网页检测研究与实现[D];湖南大学;2013年
2 胡金栋;网页正文提取及去重技术研究[D];浙江大学;2011年
3 张彬;基于lucene的搜索引擎[D];上海师范大学;2010年
4 邬柏;支持AJAX的分布式爬虫系统的研究与实现[D];华中科技大学;2013年
5 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
6 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
7 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
8 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
9 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
10 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
本文关键词:基于决策树的搜索引擎恶意网页检测研究与实现,由笔耕文化传播整理发布。
本文编号:126552
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/126552.html