当前位置:主页 > 管理论文 > 移动网络论文 >

欺诈网页挖掘中特征优选及检测性能研究

发布时间:2020-11-20 15:46
   随着信息时代的蓬勃发展,互联网在带给人们方便的同时,也带来了许多安全问题,其中,以网页欺诈为核心的网络诈骗行为肆意横行。欺诈网页通过各种伪装手段欺骗搜索引擎,提高自身网页排名,从而达到广告、非法传销等目的。在网页欺诈与反欺诈的博弈里,如何快速有效、低成本地检测出欺诈网页,加速构建和谐、安全的互联网环境,成了刻不容缓的问题。在欺诈网页检测的研究中存在两个挑战:一方面,网页基本特征的高维、冗余增加了欺诈网页检测的计算消耗和计算代价,影响检测效率;另一方面,挖掘欺诈网页的过程中可能会泄露敏感数据的隐私。为了应对上述两个挑战,提出了多种有效的特征选择算法,并在此基础上进一步提出一种兼顾数据隐私保护和检测性能的特征选择算法,以及一个高效安全的欺诈网页检测模型。本文首先深入研究了欺诈网页的基本分类以及对应的网页基本特征,并将研究重点放在网页基本特征的优选上,通过分析多种特征选择算法,提出一种基于信息增益(Information Gain,IG)和遗传算法(Genetic Algorithm,GA)的改进特征选择算法IFS-BIGGA,并且得到了最佳最小的特征子集(OMFS)。为了分析对比IFS-BIGGA算法的有效性,本文另外实现了三种基于随机森林和邻域粗糙集的高效的特征选择算法,实验结果证明了IFS-BIGGA算法优于其他特征选择算法。考虑到欺诈网页挖掘中数据隐私保护的重要性,本文结合网页特征选择,在IFSBIGGA的基础上,加入基于条件熵的隐私度和置信度,实现了基于隐私保护的级联特征选择算法PPGAFS,解决了欺诈网页挖掘中提高欺诈网页检测性能和保护数据隐私之间的矛盾,并在此基础上提出了一个高效安全的欺诈网页检测模型WSDM,主要包括数据离散化、数据平衡化、特征选择和分类检测四个阶段。为了验证提出算法和模型的有效性,在WEBSPAM-UK2007数据集上进行了多组对比实验,实验结果表明了提出的基于PPGAFS的欺诈网页检测模型优于其他多种新提出的检测方案,有效保护了数据隐私,并且提高了欺诈网页检测性能。
【学位单位】:西南交通大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP393.092
【文章目录】:
摘要
abstract
第1章 绪论
    1.1 研究背景和意义
    1.2 国内外研究现状
    1.3 研究内容和论文组织结构
        1.3.1 研究内容
        1.3.2 论文组织结构
第2章 相关技术研究
    2.1 网页欺诈类型及相关网页特征
        2.1.1 链接欺诈与基于链接的特征
        2.1.2 内容欺诈与基于内容的特征
        2.1.3 隐藏型欺诈与隐藏型特征
    2.2 特征选择与分类
        2.2.1 特征选择
        2.2.2 分类算法
    2.3 总结
第3章 基于信息增益和遗传算法改进特征选择策略
    3.1 改进的信息增益-特征选择
    3.2 改进的遗传算法
        3.2.1 染色体编码
        3.2.2 遗传算子
    3.3 基于信息增益和遗传算法的改进特征选择算法IFS-BIGGA
    3.4 数据集与评价指标
        3.4.1 数据集
        3.4.2 评价指标
        3.4.3 箱型图
    3.5 基于IFS-BIGGA的特征选择实验与结果分析
        3.5.1 实验参数设置
        3.5.2 特征选择实验结果
        3.5.3 验证性实验与结果分析
    3.6 三种特征选择算法与实验结果对比
        3.6.1 基于比例删除的随机森林特征选择算法PDRFFS
RFFS'>        3.6.2 基于卡方检验的随机森林特征选择算法Chi-SquareRFFS
        3.6.3 基于邻域粗糙集的特征选择算法FHARA
    3.7 本章小结
第4章 基于隐私保护的级联特征选择算法
    4.1 隐私度与置信度
    4.2 隐私保护-特征选择
    4.3 基于隐私保护和遗传算法的级联特征选择算法PPGAFS
    4.4 数据集与评价指标
    4.5 实验与结果分析
    4.6 本章小结
第5章 一个高效安全的欺诈网页检测模型
    5.1 欺诈网页检测模型WSDM
    5.2 基于WSDM的验证实验
    5.3 本章小结
总结与展望
    总结
    展望
致谢
参考文献
攻读硕士期间发表的论文

【参考文献】

相关期刊论文 前10条

1 王嘉卿;朱焱;陈同孝;张真诚;;欺诈网页检测中基于遗传算法的特征优选[J];计算机应用;2018年01期

2 卢晓勇;陈木生;;基于随机森林和欠采样集成的垃圾网页检测[J];计算机应用;2016年03期

3 韦莎;朱焱;;主题相似度与链接权重相结合的垃圾网页排序检测[J];计算机应用;2016年03期

4 陆钊;李石君;;基于链接相似度和作弊系数的Spam网页识别算法[J];计算机工程与科学;2015年10期

5 吴少华;程书宝;胡勇;;基于SVM的Web攻击检测技术[J];计算机科学;2015年S1期

6 宋源;梁雪春;张然;;基于统计特性随机森林算法的特征选择[J];计算机应用;2015年05期

7 董师师;黄哲学;;随机森林理论浅析[J];集成技术;2013年01期

8 罗武;方逵;朱兴辉;;网络搜索引擎排序算法研究进展[J];湖南农业科学;2010年07期

9 常璐,夏祖奇;搜索引擎的几种常用排序算法[J];图书情报工作;2003年06期

10 沈学华,周志华,吴建鑫,陈兆乾;Boosting和Bagging综述[J];计算机工程与应用;2000年12期


相关硕士学位论文 前5条

1 孙丹丹;集成URL新特征的网络钓鱼检测机制研究[D];西南交通大学;2017年

2 江雄伟;伪装型垃圾网页检测技术的研究与实现[D];西南交通大学;2014年

3 李法良;集成Web质量的垃圾网页分级检测机制研究[D];西南交通大学;2013年

4 王莉丽;隐藏型垃圾网页检测研究[D];西南交通大学;2013年

5 周政;隐藏型垃圾网页检测技术的研究与实现[D];西南交通大学;2012年



本文编号:2891640

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2891640.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f145f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com