当前位置:主页 > 管理论文 > 移动网络论文 >

微博垃圾信息大规模爆发的检测方法研究及应用

发布时间:2021-03-08 01:01
  近年来,随着Web2.0技术的不断发展与成熟,社交网络作为Web2.0时代的代表,逐渐渗透到人们的生活当中,并影响和改变着人们生活的方方面面。从2009年开始,微博作为社交网络的一个重要组成部分,进入了中国用户的视野,并由于其简短写作和快捷发布、实时感和动态感强、用户间互动频繁等特点,被越来越多的用户所青睐。然而,由于微博的发布门槛不高,以及相关的法律体系不完善,致使垃圾信息以及无意义信息在微博平台上大量出现。此外,由于黑客入侵、计算机漏洞、病毒等原因,造成大量的用户账号被黑客劫持,并通过这批账号在短时间内大量地发布同一内容的垃圾信息,从而造成了某种垃圾微博信息的大规模爆发的现象。本文以微博文本作为主要研究对象,并针对垃圾信息大规模爆发的检测需求,对相似微博文本的聚类以及微博文本垃圾信息的判定这两个关键技术进行重点研究。由于传统的simhash算法在微博短文本的聚类效果不佳,本文提出了以文本连续分块的方式提取特征、并以FF-FID(Feature Frequency-Feature In Documents)设置特征权重的方法计算simhash指纹,从而使simhash算法在微博文本中... 

【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校

【文章页数】:91 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
目录
第一章 绪论
    1.1 引言
    1.2 国内外研究现状
    1.3 论文的主要工作
    1.4 论文组织结构
第二章 相关理论与技术
    2.1 聚类算法
        2.1.1 simhash 算法
        2.1.2 K-Means 算法
        2.1.3 DBSCAN 算法
        2.1.4 聚类效果评测指标
    2.2 分类算法
        2.2.1 决策树算法
        2.2.2 SVM 算法
        2.2.3 分类评测指标
    2.3 小结
第三章 检测系统总体设计
    3.1 垃圾微博定义
    3.2 微博垃圾大规模爆发的检测需求
    3.3 检测系统的设计目标
    3.4 检测系统框架设计
        3.4.1 信息采集模块设计
        3.4.2 文本聚类模块设计
        3.4.3 文本分类模块设计
    3.5 系统关键术语定义
    3.6 小结
第四章 关键算法的设计与实现
    4.1 算法设计目标
    4.2 基于微博文本的特征提取及特征权重设置方法
        4.2.1 传统的 simhash 方法在微博文本应用的不足
        4.2.2 基于文本连续分块的特征提取方法
        4.2.3 FF-FID 特征权重设置方法
        4.2.4 算法效果及验证
        4.2.5 实验设计与结果分析
    4.3 基于微博文本的大规模文本聚类
        4.3.1 经过改进的大规模数据集聚类算法
        4.3.2 文本奇异跳变
        4.3.3 基于分块奇异跳变统计的大规模文本聚类算法
        4.3.4 基于中文文本的 simhash 指纹的聚类
        4.3.5 实验设计与结果分析
        4.3.6 算法效果评价
    4.4 文本簇判定
        4.4.1 用户行为特征
        4.4.2 基于决策树的微博文本可读性分类算法
        4.4.3 微博文本垃圾属性分类的特征提取方式
        4.4.4 实验设计与结果分析
        4.4.5 算法效果评价
    4.5 小结
第五章 检测系统的详细实现
    5.1 微博信息采集模块的设计与实现
        5.1.1 微博文本去噪
        5.1.2 文本指纹计算
    5.2 微博文本聚类模块的实现
        5.2.1 初始文本聚类子模块的实现
        5.2.2 文本簇合并子模块的实现
    5.3 微博文本分类模块的实现
        5.3.1 分类器训练子模块的实现
        5.3.2 预测子模块的实现
    5.4 系统运行效果及分析
        5.4.1 实验目标及环境
        5.4.2 实验数据
        5.4.3 实验设计与结果分析
    5.5 小结
总结与展望
参考文献
攻读硕士学位期间取得的研究成果
致谢
附件



本文编号:3070128

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3070128.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1fdc7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com