基于社交网络的暴力语言检测研究
发布时间:2022-01-14 23:08
在过去的十年里,越来越多的人使用社交网络,诸如微博、Facebook和Twitter等,使得这些社交网络平台的用户数量和用户生成的内容信息呈指数级增长。信息的传播利于新思想、新观点的传递,促进了人们的沟通和交流,但同时也导致了攻击、谩骂、诋毁等网络暴力语言的发生。这些网络暴力语言不仅给用户带来了精神和心理上的痛苦,也严重影响了网络社交和谐环境。目前大部分社交网络平台没有采取有效的管理,只针对少量常见的网络暴力词汇进行过滤和屏蔽,由于社交网络的文本评论动辄几万条甚至上百万条,不可能依靠人工完成对这些网络暴力语言的识别,所以研究可以自动识别和检测网络暴力语言的方法对于干预网络暴力、净化网络环境有十分重要的意义。本文针对网络暴力语言的特点和表现形式,从新浪微博爬取数据集,使用一种半监督学习通过少量人工干预的方式选取特征,经过8次迭代,建立了一个高质量的网络暴力语言语料库并在此基础上研究网络暴力语言文本的检测方法。本文对比了支持向量机SVM、朴素贝叶斯NB、逻辑回归LR三种机器学习算法模型的分类效果,其中SVM结合N-gram特征的精确率可以达到78%。为了进一步提高文本分类精确率,解决在文本...
【文章来源】:中北大学山西省
【文章页数】:53 页
【学位级别】:硕士
【部分图文】:
神经网络语言模型
图2-2双卷积核神经网络结构示意图
中北大学学位论文223基于半监督学习的网络暴力语言语料库由于没有公开的中文网络暴力语言资源,难以对自动检测网络暴力语言的方法进行验证,所以我们首要的任务是构建一个关于网络暴力语言文本的数据集,本章将介绍详细的步骤方法。设计思路半监督学习作为一种适用范围很广的机器学习技术,会同时利用带标签的和不带标签的样本数据去提升分类性能。网络暴力语言文本收集的过程中,面临已标注数据少,而未标注数据多的现实情况。如果通过网络爬虫大量爬取,获取的数据质量相关性低,数据特征可能较为稀疏,所以我们设计了一种方法收集数据,逐步标记网络暴力语言文本,建立网络暴力语言的语料库。具体实施的方法步骤如图3-1所示。图3-1网络暴力语言数据收集处理步骤图Figure3-1stepsofcollectingandprocessingdataofcyberbullyinglanguage第一步,结合领域专家定义的语言规则采取人工收集和网络数据采集工具并行的方式,从微博抓取含有网络暴力语言的文本数据,通过分词,统计高频词汇,构造网络暴力语言初始特征集合。通过多人投票打分的方式,为每个特征加权赋值,构造一个初始的高精度的网络暴力语言分类器。已爬取的语料网络暴力语言分类器网络暴力语言数据集不确定语料集合非网络暴力语言数据集网络暴力语言特征网络暴力语言特征库
【参考文献】:
期刊论文
[1]融合情感与语义信息的情感分析方法[J]. 孟仕林,赵蕴龙,关东海,翟象平. 计算机应用. 2019(07)
[2]贝叶斯公式在数据挖掘中的应用[J]. 王文相. 数学学习与研究. 2017(13)
[3]深度学习:多层神经网络的复兴与变革[J]. 山世光,阚美娜,刘昕,刘梦怡,邬书哲. 科技导报. 2016(14)
[4]基于word embedding和CNN的情感分类模型[J]. 蔡慧苹,王丽丹,段书凯. 计算机应用研究. 2016(10)
[5]特征选择方法综述[J]. 姚旭,王晓丹,张玉玺,权文. 控制与决策. 2012(02)
[6]数据挖掘中的数据预处理[J]. 刘明吉,王秀峰,黄亚楼. 计算机科学. 2000(04)
博士论文
[1]基于支持向量机的聚类及文本分类研究[D]. 平源.北京邮电大学 2012
硕士论文
[1]网络语言暴力现象分析[D]. 任仝.吉林大学 2019
[2]网络语言暴力的成因分析及对策研究[D]. 李宪玲.华中师范大学 2010
本文编号:3589395
【文章来源】:中北大学山西省
【文章页数】:53 页
【学位级别】:硕士
【部分图文】:
神经网络语言模型
图2-2双卷积核神经网络结构示意图
中北大学学位论文223基于半监督学习的网络暴力语言语料库由于没有公开的中文网络暴力语言资源,难以对自动检测网络暴力语言的方法进行验证,所以我们首要的任务是构建一个关于网络暴力语言文本的数据集,本章将介绍详细的步骤方法。设计思路半监督学习作为一种适用范围很广的机器学习技术,会同时利用带标签的和不带标签的样本数据去提升分类性能。网络暴力语言文本收集的过程中,面临已标注数据少,而未标注数据多的现实情况。如果通过网络爬虫大量爬取,获取的数据质量相关性低,数据特征可能较为稀疏,所以我们设计了一种方法收集数据,逐步标记网络暴力语言文本,建立网络暴力语言的语料库。具体实施的方法步骤如图3-1所示。图3-1网络暴力语言数据收集处理步骤图Figure3-1stepsofcollectingandprocessingdataofcyberbullyinglanguage第一步,结合领域专家定义的语言规则采取人工收集和网络数据采集工具并行的方式,从微博抓取含有网络暴力语言的文本数据,通过分词,统计高频词汇,构造网络暴力语言初始特征集合。通过多人投票打分的方式,为每个特征加权赋值,构造一个初始的高精度的网络暴力语言分类器。已爬取的语料网络暴力语言分类器网络暴力语言数据集不确定语料集合非网络暴力语言数据集网络暴力语言特征网络暴力语言特征库
【参考文献】:
期刊论文
[1]融合情感与语义信息的情感分析方法[J]. 孟仕林,赵蕴龙,关东海,翟象平. 计算机应用. 2019(07)
[2]贝叶斯公式在数据挖掘中的应用[J]. 王文相. 数学学习与研究. 2017(13)
[3]深度学习:多层神经网络的复兴与变革[J]. 山世光,阚美娜,刘昕,刘梦怡,邬书哲. 科技导报. 2016(14)
[4]基于word embedding和CNN的情感分类模型[J]. 蔡慧苹,王丽丹,段书凯. 计算机应用研究. 2016(10)
[5]特征选择方法综述[J]. 姚旭,王晓丹,张玉玺,权文. 控制与决策. 2012(02)
[6]数据挖掘中的数据预处理[J]. 刘明吉,王秀峰,黄亚楼. 计算机科学. 2000(04)
博士论文
[1]基于支持向量机的聚类及文本分类研究[D]. 平源.北京邮电大学 2012
硕士论文
[1]网络语言暴力现象分析[D]. 任仝.吉林大学 2019
[2]网络语言暴力的成因分析及对策研究[D]. 李宪玲.华中师范大学 2010
本文编号:3589395
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3589395.html
最近更新
教材专著