当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于欠采样和不平衡集成分类的垃圾网页检测研究

发布时间:2020-05-01 00:41
【摘要】:垃圾网页指的是那些在搜索引擎查询结果中具有良好的排名而实际价值却较差的网站和网页。垃圾网页之所以会出现,是由于搜索引擎用户倾向于只点击那些排名靠前的链接。为了取得靠前的排名,各网站便想方设法采取各种手段优化网站。而通过正当手段提高网站排名,成本极其高昂,于是各种网页作弊手段轮番上阵。垃圾网页削弱了搜索引擎的权威性,浪费了大量计算与存储资源,剥夺了合法网站的正当利益,降低了搜索结果的质量。垃圾网页检测已成为搜索引擎最为重要的任务之一。本文根据垃圾网页检测WEBSPAM-UK2006和WEBSPAM-UK2007数据集的特点,围绕其基于内容的特征、基于链接的特征、基于链接转换的特征以及基于网络图的相关特征,采用欠采样集成C4.5决策树的方法,进行垃圾网页检测研究。主要工作以及取得的成果可概括为如下四个方面。(1)提出三种随机欠采样集成算法(C4.5+RUS-once、C4.5+RUS-multiple、C4.5+RUS-replacement)用于垃圾网页检测,这些方法从样本平衡和多样化的角度,提升分类性能,特别是后两种方法,通过欠采样集成的方式,创立大量多样化的C4.5分类器并集成,将垃圾网页检测的性能达到现有的最优结果。另外,还提出一种同时基于样本欠采样和特征集划分两种子分类器多样化方法(C4.5+FP+RUS),其分类性能也达到了现有的最优结果,大幅度提高垃圾网页检测的分类效果。(2)提出一种免疫克隆选择算法(ICFSUS-ERC4.5)用于特征选择,选择出多个最优特征子集用于垃圾网页检测,充分利用样本欠采样和特征选择两种子分类器多样化方法,进一步提升了垃圾网页检测的分类性能,其分类结果超过了现有的最优分类方法的结果。(3)对免疫网络优化算法(opt-aiNet)加以改进,提出一种基于免疫网络特征划分和欠采样集成的分类器(NFPUS-EC4.5)用于垃圾网页检测。针对特征划分结合欠采样集成的方法可提高垃圾网页检测的准确率的结论,提出一种设想:是否有一种最优的特征划分方法,基于此种特征划分的特征子集训练得到的集成分类器是是最优的?针对这样一种设想,对免疫网络优化算法opt-aiNet加以改进用于特征划分。但最终的实验结果表明:基于免疫网络的特征划分算法,确实是一种良好的寻优算法,但将其用于分类任务,仅对训练集有效,对测试集无效,即容易导致过度拟合,对于提高分类器的最终分类效果并没有作用。(4)根据协同森林算法Co-Forest的基本思想,提出一种协同训练算法,利用网页特征集是充分且冗余的这一假设,针对特征子集和样本子集的差异性,构建多个集成分类器,训练未知样本用于增强最终的集成分类器。实验结果表明,该改进协同森林算法利用未标注样本,提高了最终的分类性能。
【图文】:

示例,曲线,公式,分类器


如公式(2.6)所示。假正率越低,说明分类器错分为正少。FPFPRFP TN (2.6)正率(True Positive Rate,TPR)为被正确分类的正例数与所有真正的比值,如公式(2.7)所示,该值等于查全率。TPTPR recallTP FN (2.7)负率(True Negative Rate,TNR)为被正确分类的负例数与所有真正的比值,如公式(2.8)所示。1TNTNR FPRFP TN (2.8)负率(False Negative Rate,FNR)为被分类器错分为负例的正例数正例数之间的比值,如公式(2.9)所示。1FNFNR TPRTP FN (2.9)

欠采样,过程框架


欠采样集成分类器再次集成起来,以提升其分类性能。3.2 随机欠采样集成分类器3.2.1 研究框架本章研究提出的用于垃圾网页检测的随机欠采样集成分类的过程框架如图3.1所示,共分训练阶段和测试阶段2个阶段。其中训练阶段包括3个步骤。首先采用随机欠采样方法将不平衡数据集转换成多个平衡数据集。这里尝试采纳3种随机欠采样方法,并比较它们之间的性能差异,,最终选定其中一种最好的随机
【学位授予单位】:南昌大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP393.092

【参考文献】

相关期刊论文 前9条

1 房晓南;张化祥;高爽;;基于SMOTE和随机森林的Web spam检测[J];山东大学学报(工学版);2013年01期

2 杨咚咚;焦李成;公茂果;余航;;求解偏好多目标优化的克隆选择算法[J];软件学报;2010年01期

3 詹永照;陈亚必;;具有噪声过滤功能的协同训练半监督主动学习算法[J];模式识别与人工智能;2009年05期

4 戚玉涛;刘芳;焦李成;;基于分布式人工免疫算法的数值优化[J];电子学报;2009年07期

5 杨明;尹军梅;吉根林;;不平衡数据分类方法综述[J];南京师范大学学报(工程技术版);2008年04期

6 戚玉涛;焦李成;刘芳;;基于并行人工免疫算法的大规模TSP问题求解[J];电子学报;2008年08期

7 戚玉涛;刘芳;焦李成;;求解TSP问题免疫算法的动态疫苗策略[J];西安电子科技大学学报;2008年01期

8 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的搜索引擎用户行为分析[J];中文信息学报;2007年01期

9 张向荣,焦李成;基于免疫克隆选择算法的特征选择[J];复旦学报(自然科学版);2004年05期

相关博士学位论文 前3条

1 计华;Web Spam特征分析及其检测技术研究[D];山东师范大学;2015年

2 牛小飞;基于遗传规划和集成学习的Web Spam检测关键技术研究[D];山东大学;2012年

3 李军;不平衡数据学习的研究[D];吉林大学;2011年

相关硕士学位论文 前2条

1 闫欣;综合过采样和欠采样的不平衡数据集的学习研究[D];东北电力大学;2016年

2 孙丽娜;集成异种分类器分类稀有类[D];郑州大学;2007年



本文编号:2646362

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2646362.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f43ef***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com