基于深度学习的不文明文本过滤方法研究
发布时间:2020-04-19 14:52
【摘要】:随着互联网的普及,网络社交平台已经深深的融入了人们的生活。人们可以自由的在微博、贴吧、新闻等网络平台上发表自己的观点。由于网络平台的开放性,网络平台中出现了很多不文明的语言,对网络环境造成了极大的负面影响。为了构建和谐的网络语言环境,本文对不文明文本的过滤进行了相关研究。针对网络文本数量巨大和形式多变的特点,本文将深度学习技术应用于不文明文本的分类识别。对比传统的过滤方法在分类识别的精度上取得了一定的提高。本文的主要工作包括以下三个部分:第一,构建不文明文本数据集。目前对网络不文明文本的研究工作相对较少,没有标准的不文明文本数据集可供研究。针对数据匮乏的问题,本文爬取新浪微博、百度贴吧、腾讯新闻等相关网络平台的文本数据,制定数据筛选方法,通过人工标注的方式构建了一个不文明文本数据集。第二,构建不文明文本分类模型,区分不文明文本和正常文本。根据网络不文明文本的特点,引入卷积神经网络对不文明文本进行分类。针对不文明词汇在文本分词过程中精度不足的问题,本文构建了一种融合字粒度和词粒度特征提取的并行卷积神经网络模型(CW-CNN模型)。CW-CNN模型很好的解决了不文明词汇分词不准确导致的性能下降问题。CW-CNN模型对比词粒度特征输入的卷积神经网络模型,在精确率上提高了9.3%、召回率提高了9.9%、F1值提高了9.2%。第三,构建不文明文本不文明程度分析模型,区分不文明程度高的文本和不文明程度低的文本。卷积神经网络模型在不文明文本分类任务上确实具有较好的效果,但是其在特征提取的时候受到卷积核大小的影响,只能提取文本的局部特征,无法捕获长距离词语之间的特征相关性,在不文明文本的不文明程度分析任务上卷积神经网络存在一定的不足。针对其不足,本文结合卷积神经网络、循环神经网络和注意力机制构建了一种用于不文明文本不文明程度分析的深度学习模型(BiLSTM-CNN模型)。通过实验对比,在不文明文本不文明程度分析上,BiLSTM-CNN模型比CW-CNN模型在精确率、召回率和F1值上均提高了约3.4%。
【图文】:
CBOW邋(continuous邋bag-of-words)模型通过上下文的词向量来预测中心词汇逡逑的概率分布,并且每个上下文相关词向量对中心词汇的概率分布影响权重相同。逡逑CBOW结构如图2.】所示,CBOW模型的计算公式如公式2.4。逡逑1邋丁逡逑L邋=log邋p(wt|wt_c,,邋Wt-h邋wt+1,,…wt+c)逦(公式2.4)逡逑t=i逡逑其中Wt表示当前词汇,wt+cr表示与距离在c个单位以内逡逑的词汇,通过相邻的C个词汇可以计算vvt的概率分布,然后使用隐藏层进行均值逡逑计算得到词汇%的词向量表示。逡逑Skip-Gram模型的思想是利用当前词汇%去预测上下文词语的概率分布,其逡逑结构如图2.1所示,Skip-Gram模型的计算公式如公式2.5。逡逑T邋T逡逑L邋=邋Z邋logp(wt+i|wt)逦(公式2.5)逡逑t=l邋-c<i<c逡逑相比于神经网络语言模型而言,CBOW模型和Skip-Gram模型在神经网络的逡逑隐藏层和输出层进行了优化,通过使用Huffman树结构根据每个词的词频大小相逡逑应的增加或减少神经网络的层次结构
SVM方法被广泛地应用到模式识别和分类问题。使用最基本的数据形式喂入逡逑支持向量机分类器就能够取得不错的分类效果,支持向量机的分类决策效果的优逡逑劣取决于分类边界,即分隔超平面,在图2.2中H表示的为分隔超平面,叱和?^2为逡逑对应的支持向量机,在高维空间中平面可以由公式2.11表示。逡逑0)Tx邋+邋b邋=邋0逦(公式邋2.11)逡逑在样本空间中,某个点x到分隔超平面H的距离计算公式如公式2.12。逡逑|(0T邋+邋b|逡逑d邋=邋—r ̄—逦(公式邋2.12)逡逑|M|逡逑将分隔超平面归一化之后有逡逑yi[(0)邋?邋Xj)邋+邋b]邋-邋1邋>邋0逦(公式2.13)逡逑其中y;邋=邋±1是文本的类别,七表示对于的文本,距离分类平面最近的样本称为“支逡逑11逡逑
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP18
本文编号:2633417
【图文】:
CBOW邋(continuous邋bag-of-words)模型通过上下文的词向量来预测中心词汇逡逑的概率分布,并且每个上下文相关词向量对中心词汇的概率分布影响权重相同。逡逑CBOW结构如图2.】所示,CBOW模型的计算公式如公式2.4。逡逑1邋丁逡逑L邋=log邋p(wt|wt_c,,邋Wt-h邋wt+1,,…wt+c)逦(公式2.4)逡逑t=i逡逑其中Wt表示当前词汇,wt+cr表示与距离在c个单位以内逡逑的词汇,通过相邻的C个词汇可以计算vvt的概率分布,然后使用隐藏层进行均值逡逑计算得到词汇%的词向量表示。逡逑Skip-Gram模型的思想是利用当前词汇%去预测上下文词语的概率分布,其逡逑结构如图2.1所示,Skip-Gram模型的计算公式如公式2.5。逡逑T邋T逡逑L邋=邋Z邋logp(wt+i|wt)逦(公式2.5)逡逑t=l邋-c<i<c逡逑相比于神经网络语言模型而言,CBOW模型和Skip-Gram模型在神经网络的逡逑隐藏层和输出层进行了优化,通过使用Huffman树结构根据每个词的词频大小相逡逑应的增加或减少神经网络的层次结构
SVM方法被广泛地应用到模式识别和分类问题。使用最基本的数据形式喂入逡逑支持向量机分类器就能够取得不错的分类效果,支持向量机的分类决策效果的优逡逑劣取决于分类边界,即分隔超平面,在图2.2中H表示的为分隔超平面,叱和?^2为逡逑对应的支持向量机,在高维空间中平面可以由公式2.11表示。逡逑0)Tx邋+邋b邋=邋0逦(公式邋2.11)逡逑在样本空间中,某个点x到分隔超平面H的距离计算公式如公式2.12。逡逑|(0T邋+邋b|逡逑d邋=邋—r ̄—逦(公式邋2.12)逡逑|M|逡逑将分隔超平面归一化之后有逡逑yi[(0)邋?邋Xj)邋+邋b]邋-邋1邋>邋0逦(公式2.13)逡逑其中y;邋=邋±1是文本的类别,七表示对于的文本,距离分类平面最近的样本称为“支逡逑11逡逑
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP18
【参考文献】
相关期刊论文 前3条
1 骆昌日;何婷婷;;网络语言的特点及其情感性意义[J];武汉理工大学学报(社会科学版);2015年02期
2 林鸿飞,姚天顺;基于示例的中文文本过滤模型[J];大连理工大学学报;2000年03期
3 田范江,李丛蓉,王鼎兴;进化式信息过滤方法研究[J];软件学报;2000年03期
相关硕士学位论文 前2条
1 马英财;社交网络下的垃圾信息过滤技术的研究[D];哈尔滨理工大学;2014年
2 杨明明;社会网络平台中的垃圾信息过滤技术研究[D];哈尔滨理工大学;2013年
本文编号:2633417
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2633417.html