当前位置:主页 > 科技论文 > 软件论文 >

微博垃圾博主的行为分析与检测

发布时间:2020-10-12 08:57
   随着互联网的日益发展,越来越多的组织或个人开始通过社交网络获取信息。社交网络的用户群体巨大,用户关系通常是基于同学、朋友或者亲人等社会关系,信息在传播过程中更容易被接受。于是便产生了许多通过发布有害链接、病毒,暴力、色情信息等对普通用户危害较大的微博来获取不正当利益的用户。然而,随着反作弊技术的不断提升以及社交网络系统的不断自我完善,这一类的作弊行为已经几乎不复存在。作弊者的行为逐渐趋于隐藏化,对用户造成的危害变小且相对间接,这种危害更多地体现在对用户从社交网络汲取信息效率的影响。本文从产生上述的影响的大小以及产生这种影响的行为的主动性等方面进行考虑,定义了不同类型的微博垃圾用户,然后对各种类型的微博用户的行为进行研究与分析。本文设计了大规模并行微博爬虫爬取了500多万条微博,对原数据集进行了扩充。同时从用户个人信息、用户行为、用户关系、用户微博博文四个方面对新数据集进行预处理,进一步提取特征,构建了包含手机广告被动营销用户、明星以及体育赛事被动宣传用户以及典型微博垃圾用户的中文微博样本集。同时,对用户的微博内容进行了分词和主题生成,构建了基于微博内容的主题词库。在此基础上,本文对数据集做平衡处理之后,通过对比实验,对不同特征组合的贡献效果进行了比较,最终选出了最优分类检测效果下的特征组合。之后,本文比较了两两不同子类的特征差异度,据此使用了基于多元分类的DAG-SVM算法对数据进行分类,并与其他算法进行了性能对比,在分类效果上具有优势。最后,本文设计了基于综合权重的多元SVM分类算法,根据任意两个子类间互相分错的样本个数来计算每个二元子分类器的权重,将其加入目标函数后进行分类,提高了分类的准确性。
【学位单位】:西南交通大学
【学位级别】:硕士
【学位年份】:2016
【中图分类】:TP393.092;TP391.1
【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 研究背景和意义
    1.2 国内外研究现状
        1.2.1 国内研究现状
        1.2.2 国外研究现状
    1.3 研究内容和目标
    1.4 论文结构安排
第2章 微博垃圾博主行为分析与相关检测技术
    2.1 微博垃圾博主的行为分析
    2.2 基于微博博文链接内容的微博推广联盟的检测
    2.3 基于支持向量机的微博垃圾博主分类算法
        2.3.1 支持向量机分类算法概述
        2.3.2 支持向量机分类算法的优点与不足
    2.4 本章小结
第3章 中文微博样本集与微博主题词库的构建
    3.1 中文微博样本集的数据获取与存储
        3.1.1 用户授权控制部分
        3.1.2 数据获取部分
        3.1.3 数据持久化部分
    3.2 数据集预处理
    3.3 基于主题生成模型的微博博文关键词数据样本集构建
        3.3.1 微博博文主题生成
        3.3.2 博文主题关键字选择
    3.4 数据集标注
    3.5 本章小结
第4章 垃圾微博用户特征分析与选择
    4.1 特征选择与分析
        4.1.1 用户行为特征分析与选择
        4.1.2 用户个人资料特征特征分析与选择
        4.1.3 用户微博内容特征分析与选择
        4.1.4 用户关系特征分析与选择
    4.2 实验对比
        4.2.1 数据集平衡
        4.2.2 分类性能评价标准
        4.2.3 特征贡献与特征组合
    4.3 本章小结
第5章 微博垃圾博主检测
    5.1 基于多元分类支持向量机的多层次微博博主检测
        5.1.1 多元支持向量机的主要实现方式
        5.1.2 快速多元支持向量机分类算法
        5.1.3 对比实验
    5.2 基于综合权重的多层次微博垃圾博主检测算法
        5.2.1 综合权重的计算
        5.2.2 对比实验
    5.3 本章小结
第6章 总结与展望
    6.1 总结
    6.2 展望
致谢
参考文献

【相似文献】

相关期刊论文 前10条

1 陈翔;杨明静;;基于SVM与多数据集的摔倒检测方法研究[J];信息通信;2018年04期

2 刘悦婷;;基于近邻密度改进的SVM不平衡数据集分类算法[J];延边大学学报(自然科学版);2018年01期

3 覃希;苏一丹;张雯;;商空间框架下的大规模SVM数据集约减法[J];计算机科学;2013年12期

4 黄秀丽;王蔚;;SVM在非平衡数据集中的应用[J];计算机技术与发展;2009年06期

5 业宁,梁作鹏,董逸生,王厚立;一种SVM非线性回归算法[J];计算机工程;2005年20期

6 赵小强;张露;;基于SVM的高维不平衡数据集分类算法[J];南京大学学报(自然科学);2018年02期

7 应维云;覃正;赵宇;李兵;李秀;;SVM方法及其在客户流失预测中的应用研究[J];系统工程理论与实践;2007年07期

8 刘悦婷;张燕;孙伟刚;;基于局部密度改进的SVM不平衡数据集分类算法[J];宁夏大学学报(自然科学版);2019年03期

9 李书玲;刘蓉;张鎏钦;刘红;;基于改进型SVM算法的语音情感识别[J];计算机应用;2013年07期

10 刘进军;;基于惩罚的SVM和集成学习的非平衡数据分类算法研究[J];计算机应用与软件;2014年01期


相关博士学位论文 前10条

1 张婧;基于SVM的肺结节自动识别方法研究[D];华南理工大学;2011年

2 张元侠;基于SVM学习模型的换挡决策研究[D];吉林大学;2019年

3 李鑫;基于位置社交网络的地点推荐方法及应用研究[D];中国科学技术大学;2015年

4 杜威;社交网络中媒体数据处理关键技术研究[D];中国科学院大学(中国科学院沈阳计算技术研究所);2017年

5 刘立;基于多个社交网络的用户关系分析[D];北京理工大学;2016年

6 曾雪;在线社交网络用户的分类及采样研究[D];电子科技大学;2013年

7 张君;用户行为驱动的社交网络演化分析[D];清华大学;2015年

8 罗贵珣;社交网络中观点演化模式及信息转发预测研究[D];北京交通大学;2018年

9 王健;突发公共事件背景下在线社交网络信息扩散及治理研究[D];南京师范大学;2018年

10 唐兴;线上社交网络中用户个体行为挖掘方法研究[D];西安电子科技大学;2016年


相关硕士学位论文 前10条

1 孙子川;微博垃圾博主的行为分析与检测[D];西南交通大学;2016年

2 赵弘阳;基于数据集的社交特性挖掘[D];浙江大学;2014年

3 许双;基于频繁子图挖掘的小群体社交网络用户关系分析[D];北京邮电大学;2016年

4 杨也康;社交网络上的可信度分析[D];北京邮电大学;2016年

5 宋艳红;社交网络中异常用户的识别与研究[D];长春理工大学;2017年

6 任毅;社交网络数据提取与分析[D];北京邮电大学;2016年

7 冯雪艳;社交网络中基于成本的广告投放策略的设计与实现[D];东南大学;2017年

8 李志永;基于SVM的煤与瓦斯突出区域分类预测模型研究[D];太原科技大学;2010年

9 吴琪;移动社交网络中的位置预测方法研究[D];重庆邮电大学;2016年

10 蔡丹莉;混合核函数SVM的蛋白质相互作用预测方法研究[D];福州大学;2014年



本文编号:2837919

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2837919.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户57295***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com