微博水军识别研究
发布时间:2021-02-10 08:33
伴随社交媒体的快速发展,如何辨别水军发帖,对网络文本分析变得越来越重要。本文深入研究了如何利用文本特征词方法,通过文本内容的建模,和使用机器学习的方式对水军进行判别,除文本判别的模型,本文也通过文本聚类方式来辨别水军贴。此外,本文也通过对发文账号进行分类判别建模以及发帖账号间的社群发现方法来对水军进行判别。因为水军的特征是分散在各个不同的线索中,而且高质量水军的训练样本也是非常难以进行大量获取,本文的最大特点是综合运用了多种不同的模型,针对不同类型的水军的特点进行多种方法的识别,同时在各种方法上根据中文社交媒体环境的特点,进行了独特优化处理,通过实践,形成了一套成熟可靠,有实际操作性的水军判别方法。
【文章来源】:华东师范大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:77 页
【学位级别】:硕士
【部分图文】:
快消品水军文章长度从发文长度直方图也可以明显看到,70到130字中间,集中出现了大量类
快餐行业水军发文长度从数据集直方图看出,营销活动还是造成了很主要的影响,但其影响程度不如快消数据集集中
图 5 车行业水军发文长度2.4 数据预处理数据预处理的过程虽然步骤简单,但是实践证明,缺少这些步骤,的文本处理是有很大影响的,例如,如果没有进行网址链接字段的清理址的文本在分词阶段,就会伴随生成很多无意义的词,而这些词混杂在特征词一起建模,就会对模型效果产生一定的干扰。预处理的主要步骤有1. 使用正则表达式,去除正文中的 HTML 标签2. 使用正则表达式,去除正文中的网址3. 使用 ASCII 码扫描去除,特殊干扰符号
【参考文献】:
期刊论文
[1]Semi-Supervised Learning in Large Scale Text Categorization[J]. 许泽文,李建强,刘博,毕敬,李蓉,毛睿. Journal of Shanghai Jiaotong University(Science). 2017(03)
[2]基于内容和支撑向量基算法的微博用户识别和分类[J]. 谢忠红,张琳,孔佳玮. 金陵科技学院学报. 2017(02)
[3]基于网络关系的微博水军集团发现方法[J]. 叶施仁,叶仁明,朱明峰. 计算机工程与应用. 2017(06)
[4]基于多特征的网络水军识别方法[J]. 杨臻,张明慧,肖汉. 激光杂志. 2016(12)
[5]基于关系图特征的微博水军发现方法[J]. 程晓涛,刘彩霞,刘树新. 自动化学报. 2015(09)
[6]一种基于逻辑回归算法的水军识别方法[J]. 张良,朱湘,李爱平,王志华,鲁鹏. 信息安全与技术. 2015(04)
[7]网络“水军”探测方法研究[J]. 王烁,徐健,刘颖. 现代图书情报技术. 2014(Z1)
[8]基于综合指数和熵值法的微博水军自动识别[J]. 袁旭萍,王仁武,翟伯荫. 情报杂志. 2014(07)
[9]网络水军识别研究[J]. 莫倩,杨珂. 软件学报. 2014(07)
[10]面向微博的概率图水军识别模型[J]. 韩忠明,许峰敏,段大高. 计算机研究与发展. 2013(S2)
本文编号:3027091
【文章来源】:华东师范大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:77 页
【学位级别】:硕士
【部分图文】:
快消品水军文章长度从发文长度直方图也可以明显看到,70到130字中间,集中出现了大量类
快餐行业水军发文长度从数据集直方图看出,营销活动还是造成了很主要的影响,但其影响程度不如快消数据集集中
图 5 车行业水军发文长度2.4 数据预处理数据预处理的过程虽然步骤简单,但是实践证明,缺少这些步骤,的文本处理是有很大影响的,例如,如果没有进行网址链接字段的清理址的文本在分词阶段,就会伴随生成很多无意义的词,而这些词混杂在特征词一起建模,就会对模型效果产生一定的干扰。预处理的主要步骤有1. 使用正则表达式,去除正文中的 HTML 标签2. 使用正则表达式,去除正文中的网址3. 使用 ASCII 码扫描去除,特殊干扰符号
【参考文献】:
期刊论文
[1]Semi-Supervised Learning in Large Scale Text Categorization[J]. 许泽文,李建强,刘博,毕敬,李蓉,毛睿. Journal of Shanghai Jiaotong University(Science). 2017(03)
[2]基于内容和支撑向量基算法的微博用户识别和分类[J]. 谢忠红,张琳,孔佳玮. 金陵科技学院学报. 2017(02)
[3]基于网络关系的微博水军集团发现方法[J]. 叶施仁,叶仁明,朱明峰. 计算机工程与应用. 2017(06)
[4]基于多特征的网络水军识别方法[J]. 杨臻,张明慧,肖汉. 激光杂志. 2016(12)
[5]基于关系图特征的微博水军发现方法[J]. 程晓涛,刘彩霞,刘树新. 自动化学报. 2015(09)
[6]一种基于逻辑回归算法的水军识别方法[J]. 张良,朱湘,李爱平,王志华,鲁鹏. 信息安全与技术. 2015(04)
[7]网络“水军”探测方法研究[J]. 王烁,徐健,刘颖. 现代图书情报技术. 2014(Z1)
[8]基于综合指数和熵值法的微博水军自动识别[J]. 袁旭萍,王仁武,翟伯荫. 情报杂志. 2014(07)
[9]网络水军识别研究[J]. 莫倩,杨珂. 软件学报. 2014(07)
[10]面向微博的概率图水军识别模型[J]. 韩忠明,许峰敏,段大高. 计算机研究与发展. 2013(S2)
本文编号:3027091
本文链接:https://www.wllwen.com/xinwenchuanbolunwen/3027091.html