基于欠采样和不平衡集成分类的垃圾网页检测研究
【图文】:
如公式(2.6)所示。假正率越低,说明分类器错分为正少。FPFPRFP TN (2.6)正率(True Positive Rate,TPR)为被正确分类的正例数与所有真正的比值,如公式(2.7)所示,该值等于查全率。TPTPR recallTP FN (2.7)负率(True Negative Rate,TNR)为被正确分类的负例数与所有真正的比值,如公式(2.8)所示。1TNTNR FPRFP TN (2.8)负率(False Negative Rate,FNR)为被分类器错分为负例的正例数正例数之间的比值,如公式(2.9)所示。1FNFNR TPRTP FN (2.9)
欠采样集成分类器再次集成起来,以提升其分类性能。3.2 随机欠采样集成分类器3.2.1 研究框架本章研究提出的用于垃圾网页检测的随机欠采样集成分类的过程框架如图3.1所示,共分训练阶段和测试阶段2个阶段。其中训练阶段包括3个步骤。首先采用随机欠采样方法将不平衡数据集转换成多个平衡数据集。这里尝试采纳3种随机欠采样方法,并比较它们之间的性能差异,,最终选定其中一种最好的随机
【学位授予单位】:南昌大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP393.092
【参考文献】
相关期刊论文 前9条
1 房晓南;张化祥;高爽;;基于SMOTE和随机森林的Web spam检测[J];山东大学学报(工学版);2013年01期
2 杨咚咚;焦李成;公茂果;余航;;求解偏好多目标优化的克隆选择算法[J];软件学报;2010年01期
3 詹永照;陈亚必;;具有噪声过滤功能的协同训练半监督主动学习算法[J];模式识别与人工智能;2009年05期
4 戚玉涛;刘芳;焦李成;;基于分布式人工免疫算法的数值优化[J];电子学报;2009年07期
5 杨明;尹军梅;吉根林;;不平衡数据分类方法综述[J];南京师范大学学报(工程技术版);2008年04期
6 戚玉涛;焦李成;刘芳;;基于并行人工免疫算法的大规模TSP问题求解[J];电子学报;2008年08期
7 戚玉涛;刘芳;焦李成;;求解TSP问题免疫算法的动态疫苗策略[J];西安电子科技大学学报;2008年01期
8 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的搜索引擎用户行为分析[J];中文信息学报;2007年01期
9 张向荣,焦李成;基于免疫克隆选择算法的特征选择[J];复旦学报(自然科学版);2004年05期
相关博士学位论文 前3条
1 计华;Web Spam特征分析及其检测技术研究[D];山东师范大学;2015年
2 牛小飞;基于遗传规划和集成学习的Web Spam检测关键技术研究[D];山东大学;2012年
3 李军;不平衡数据学习的研究[D];吉林大学;2011年
相关硕士学位论文 前2条
1 闫欣;综合过采样和欠采样的不平衡数据集的学习研究[D];东北电力大学;2016年
2 孙丽娜;集成异种分类器分类稀有类[D];郑州大学;2007年
本文编号:2646362
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2646362.html