基于AHP与SVM的微博机器用户检测方法
发布时间:2019-11-21 00:22
【摘要】:以新浪微博中的用户为研究对象,分析并提取机器用户的特征,提出一种新的微博机器用户检测方法。通过层次分析法构建分类指标体系,对各指标特征进行量化评估,利用支持向量机(SVM)算法构建机器用户检测模型。测试SVM中不同核函数对各分类指标的重要性预测,并与量化评估结果进行比对,同时测试不同核函数模型的分类精度,对比两项结果综合选择出最优分类器。实验结果表明,该方法能够对微博中的机器用户进行较为精确的检测。
【图文】:
计算机工程2017年4月15日1总体思路目前对于网络中的各种机器用户的识别取得了很多成果,从不同的切入点分析机器用户的特征以建立区分模型。但在已有的识别方法中,均未考虑到机器用户特征的权重问题。分析并提取微博机器用户的特征,运用层次分析法构建分类指标体系,建立判断矩阵来量化各个分类指标的权重,利用支持向量机算法构建了机器用户检测模型,将分类指标的权重值考虑到分类模型中,其基本思路如图1所示。图1机器用户识别模型建立的基本框架2基于层次分析法的机器用户分类模型2.1机器用户特征分析依靠程序自动地发布大量垃圾博文,其本身的用户行为以及发布的博文内容都与正常使用微博的正常用户存在很大差异。本文从2个角度对机器用户进行特征分析,即用户行为特征和博文内容特征。2.1.1用户行为特征用户行为特征方法如下:1)用户被关注度。使用微博时会因自己在现实生活中的社交圈子而获得一部分数量的“粉丝”。但机器用户则不同,他们不存在自己的“社交圈”,其发布的博文内容也大多是以营销、炒作为目的,其内容并不足以吸引普通用户去关注,也就是说机器用户会有很少的“粉丝”数量,并且他们为了让更多的人看到他们,会大量地关注其他普通用户。用户被关注度可以表示为:用户关注度=粉丝数关注人数+粉丝数可以看出,机器用户的被关注度非常校2)互粉率。互粉率也是表现用户正常社交的重要指标。普通用户利用微博来进行日常的社交活动,互粉好友在其关注的人和粉丝数中一定会占有一定的比重。而机器用户的身份都是由是机器人程序创建的,其存在的目的并不是社交。因此,机器用户的互粉好友会非常少或几乎没有。互粉率可表示为:互粉率=互粉数关注人数+粉丝数3)时间合理度。发博时间合理度表现
第43卷第4期张晓艺,路燕,翟惠良:基于AHP与SVM的微博机器用户检测方法户分类体系,,将分类特征进行分层,以得到机器用户分类体系模型。模型分为3层,即目标层A、准则层B和指标层C。机器用户分类指标体系如图2所示。图2机器用户分类指标体系2.2.2各分类特征权重的确定分类特征的权重确定步骤如下:步骤1判断矩阵的建立。本次实验选取10位经常使用新浪微博的学生,对层次体系结构中的各项指标进行两两比较,采用“1~9”的评判方法进行赋值,建立两两判断矩阵[9]。判断矩阵是进行相对重要程度计算的重要依据[10],可表示为:A=(aij)n×n其中,aij代表矩阵元素Ui与Uj相对于其上一层元素重要性的比例标度,比值越大,则Ui的重要度就越高。各层的比较标度如表1、表2所示。表1机器用户分类体系用户行为特征评价要素的比较标度分类要素用户被关注度互粉率时间合理度用户被关注度136互粉率1/315时间合理度1/61/51得到判断矩阵为:U1=1361/3151/61/51表2机器用户分类体系博文内容特征评价要素的比较标度分类要素关键词词频链接比例提及比例标签比例关键词词频1486链接比例1/4153提及比例1/81/511/3标签比例1/61/331得到判断矩阵为:U2=14861/41531/81/511/31/61/331步骤2权重的确定。对判断矩阵中的每一列进行归一化处理之后,对归一化的值进行求和,再将求和结果进行归一化,即可得到特征向量的值。经过计算[11],最终得到机器用户分类体系中目标层、准则层和指标层的各分类指标的权重,如表3所示。表3各分类指标体系权重目标层(A)准则层(B)指标权重(B)指标层(C)指标权重(C)指标总?
本文编号:2563758
【图文】:
计算机工程2017年4月15日1总体思路目前对于网络中的各种机器用户的识别取得了很多成果,从不同的切入点分析机器用户的特征以建立区分模型。但在已有的识别方法中,均未考虑到机器用户特征的权重问题。分析并提取微博机器用户的特征,运用层次分析法构建分类指标体系,建立判断矩阵来量化各个分类指标的权重,利用支持向量机算法构建了机器用户检测模型,将分类指标的权重值考虑到分类模型中,其基本思路如图1所示。图1机器用户识别模型建立的基本框架2基于层次分析法的机器用户分类模型2.1机器用户特征分析依靠程序自动地发布大量垃圾博文,其本身的用户行为以及发布的博文内容都与正常使用微博的正常用户存在很大差异。本文从2个角度对机器用户进行特征分析,即用户行为特征和博文内容特征。2.1.1用户行为特征用户行为特征方法如下:1)用户被关注度。使用微博时会因自己在现实生活中的社交圈子而获得一部分数量的“粉丝”。但机器用户则不同,他们不存在自己的“社交圈”,其发布的博文内容也大多是以营销、炒作为目的,其内容并不足以吸引普通用户去关注,也就是说机器用户会有很少的“粉丝”数量,并且他们为了让更多的人看到他们,会大量地关注其他普通用户。用户被关注度可以表示为:用户关注度=粉丝数关注人数+粉丝数可以看出,机器用户的被关注度非常校2)互粉率。互粉率也是表现用户正常社交的重要指标。普通用户利用微博来进行日常的社交活动,互粉好友在其关注的人和粉丝数中一定会占有一定的比重。而机器用户的身份都是由是机器人程序创建的,其存在的目的并不是社交。因此,机器用户的互粉好友会非常少或几乎没有。互粉率可表示为:互粉率=互粉数关注人数+粉丝数3)时间合理度。发博时间合理度表现
第43卷第4期张晓艺,路燕,翟惠良:基于AHP与SVM的微博机器用户检测方法户分类体系,,将分类特征进行分层,以得到机器用户分类体系模型。模型分为3层,即目标层A、准则层B和指标层C。机器用户分类指标体系如图2所示。图2机器用户分类指标体系2.2.2各分类特征权重的确定分类特征的权重确定步骤如下:步骤1判断矩阵的建立。本次实验选取10位经常使用新浪微博的学生,对层次体系结构中的各项指标进行两两比较,采用“1~9”的评判方法进行赋值,建立两两判断矩阵[9]。判断矩阵是进行相对重要程度计算的重要依据[10],可表示为:A=(aij)n×n其中,aij代表矩阵元素Ui与Uj相对于其上一层元素重要性的比例标度,比值越大,则Ui的重要度就越高。各层的比较标度如表1、表2所示。表1机器用户分类体系用户行为特征评价要素的比较标度分类要素用户被关注度互粉率时间合理度用户被关注度136互粉率1/315时间合理度1/61/51得到判断矩阵为:U1=1361/3151/61/51表2机器用户分类体系博文内容特征评价要素的比较标度分类要素关键词词频链接比例提及比例标签比例关键词词频1486链接比例1/4153提及比例1/81/511/3标签比例1/61/331得到判断矩阵为:U2=14861/41531/81/511/31/61/331步骤2权重的确定。对判断矩阵中的每一列进行归一化处理之后,对归一化的值进行求和,再将求和结果进行归一化,即可得到特征向量的值。经过计算[11],最终得到机器用户分类体系中目标层、准则层和指标层的各分类指标的权重,如表3所示。表3各分类指标体系权重目标层(A)准则层(B)指标权重(B)指标层(C)指标权重(C)指标总?
【相似文献】
相关期刊论文 前3条
1 刘正勇;涂庆华;宋骏飞;;AHP法在校园网系统质量评价体系中的应用分析[J];制造业自动化;2011年09期
2 王健;王慧强;赵国生;;基于不确定型AHP的网络生存能力模糊综合评估[J];计算机科学;2006年06期
3 ;[J];;年期
相关硕士学位论文 前2条
1 奚平;基于AHP的学生健康成长网络监控系统设计与实现[D];电子科技大学;2013年
2 赵奎;基于INTRANET的群体AHP的信用评级系统及其实现[D];合肥工业大学;2004年
本文编号:2563758
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2563758.html