不良短文本变体的识别
发布时间:2021-01-20 04:42
互联网技术的发展给人们的生活带来极大的便利,人们通过网络获取信息变得越来越便捷。大量的信息充斥着我们生活的同时,一些不良分子出于利益的目的,发布了一些包含有色情暴力、政治敏感和广告促销等不良敏感信息。这些不良信息会对人们的财产和身心健康造成恶劣的影响,也给社会和国家带来不稳定因素。现有的网络监管平台通过设置敏感词的关键词表来对这些不良信息进行过滤,这种方法对不良文本中使用的规范敏感词的识别效果很好,实现起来也比较简单,然而近年来,很多恶意的发布者为了避开网络监管平台的审查,会将不良文本中的敏感词进行变体,这些变体的敏感词特征多样,含义隐晦,给网络监管平台的识别带来极大的挑战。针对上述的问题,本文通过研究不良文本变体特点、分析现有的过滤算法优缺点的基础之上,提出了基于Stacking组合的不良文本变体的识别模型,并在这基础上进行改进。首先,目前用于不良文本变体识别任务的开放语料相对匮乏,本文收集了网络上一些不良文本及其变体,然后通过去除非法字符、中文分词等文本预处理,来构建文本的数据集。接着在研究词向量的离散表示和分布表示的基础之上,结合不良文本变体的特点,使用Word2vec进行词语向...
【文章来源】:西南交通大学四川省 211工程院校 教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
中国网民规模和互联网普及率
用于识别敏感词变体具有理论上的意义也有实际应用的主要内容及论文组织结构要内容文本变体的任务,首先介绍其背景意义、研究现状的优缺点。然后分析了不良文本变体的特点,再经到适合本次任务的文本数据;接着对比不同词向量词的联系,通过分布表示词向量。接着研究基于深神经网络、循环神经网络和多层感知机算法在本次于前文研究的基础之上,将前文的模型作为初级分 Stacking 组合模型,同时根据 Stacking 算法的特点不良文本变体进行识别,进一步提升识别的准确率能,和传统的不良文本变体模型进行对比。本文的研
图 2-1 文本分类流程如上图所示,文本的整个分类流程为:(1)文本预处理:收集数据集之后,需要将数据集进行清洗。(2)特征提取:建立模型提取特征。(3)文本表示:将文本数据转化成数字向量,为特征提取做准备。(4)分类器:最后进行判别分类,并根据给定的指标进行分类效果的评价。其中特征工程部分是文本分类中相当重要的一部分,特征工程的是“数据 信息”的过程,决定了结果的上限,而分类器则是“信息 知识”的过程,是去逼近这个上限的,所以,特征工程的好坏深刻影响分类的结果,并且特征工程是没有通用性的,需要具体任务具体分析。2.3 文本预处理在文本相关的任务中,文本预处理是非常重要的,我们需要花几乎一半的时间在这上面,而中文文本和英文文本的预处理流程是不同的。首先,英文每个单词之间是有空格的,而中文是没有的,所以中文在分词的时候不能简单地用空格和标点符号进行
【参考文献】:
期刊论文
[1]全媒体语境下消防宣传路径分析[J]. 孙艺嘉,李婷婷,李玺峰. 新闻研究导刊. 2019(02)
[2]中文分词算法研究综述[J]. 汪文妃,徐豪杰,杨文珍,吴新丽. 成组技术与生产现代化. 2018(03)
[3]一种基于关联规则的中文变体词识别算法[J]. 赵俊杰. 重庆理工大学学报(自然科学). 2018(03)
[4]面向中文敏感词变形体的识别方法研究[J]. 付聪,余敦辉,张灵莉. 计算机应用研究. 2019(04)
[5]一种基于Java Web的敏感词过滤方法研究与实现[J]. 傅明建. 智能计算机与应用. 2017(04)
[6]基于短文本情感分析的敏感信息识别[J]. 李扬,潘泉,杨涛. 西安交通大学学报. 2016(09)
[7]基于混合余弦相似度的中文文本层次关系挖掘[J]. 董洋溢,李伟华,于会. 计算机应用研究. 2017(05)
[8]基于字符串匹配的中文分词算法的研究[J]. 常建秋,沈炜. 工业控制计算机. 2016(02)
[9]基于区位码字典对数控程序进行中文注释[J]. 杨超,谢剑刚. 中国科技信息. 2015(17)
[10]不良文本变体关键词识别的词汇串相似度计算[J]. 李少卿,吴承荣,曾剑平,钟亦平. 计算机应用与软件. 2015(03)
硕士论文
[1]基于深度学习的垃圾邮件文本分类方法[D]. 李雨亭.中北大学 2018
[2]统计与规则相结合的中文分词模型设计与实现[D]. 贺欢.西南交通大学 2013
[3]基于理解的汉语分词系统的设计与实现[D]. 苏勇.电子科技大学 2011
[4]手机垃圾短信过滤平台的分析与应用[D]. 张春麟.北京邮电大学 2010
[5]基于贝叶斯的中文垃圾邮件过滤系统的设计与实现[D]. 黄志刚.电子科技大学 2007
本文编号:2988397
【文章来源】:西南交通大学四川省 211工程院校 教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
中国网民规模和互联网普及率
用于识别敏感词变体具有理论上的意义也有实际应用的主要内容及论文组织结构要内容文本变体的任务,首先介绍其背景意义、研究现状的优缺点。然后分析了不良文本变体的特点,再经到适合本次任务的文本数据;接着对比不同词向量词的联系,通过分布表示词向量。接着研究基于深神经网络、循环神经网络和多层感知机算法在本次于前文研究的基础之上,将前文的模型作为初级分 Stacking 组合模型,同时根据 Stacking 算法的特点不良文本变体进行识别,进一步提升识别的准确率能,和传统的不良文本变体模型进行对比。本文的研
图 2-1 文本分类流程如上图所示,文本的整个分类流程为:(1)文本预处理:收集数据集之后,需要将数据集进行清洗。(2)特征提取:建立模型提取特征。(3)文本表示:将文本数据转化成数字向量,为特征提取做准备。(4)分类器:最后进行判别分类,并根据给定的指标进行分类效果的评价。其中特征工程部分是文本分类中相当重要的一部分,特征工程的是“数据 信息”的过程,决定了结果的上限,而分类器则是“信息 知识”的过程,是去逼近这个上限的,所以,特征工程的好坏深刻影响分类的结果,并且特征工程是没有通用性的,需要具体任务具体分析。2.3 文本预处理在文本相关的任务中,文本预处理是非常重要的,我们需要花几乎一半的时间在这上面,而中文文本和英文文本的预处理流程是不同的。首先,英文每个单词之间是有空格的,而中文是没有的,所以中文在分词的时候不能简单地用空格和标点符号进行
【参考文献】:
期刊论文
[1]全媒体语境下消防宣传路径分析[J]. 孙艺嘉,李婷婷,李玺峰. 新闻研究导刊. 2019(02)
[2]中文分词算法研究综述[J]. 汪文妃,徐豪杰,杨文珍,吴新丽. 成组技术与生产现代化. 2018(03)
[3]一种基于关联规则的中文变体词识别算法[J]. 赵俊杰. 重庆理工大学学报(自然科学). 2018(03)
[4]面向中文敏感词变形体的识别方法研究[J]. 付聪,余敦辉,张灵莉. 计算机应用研究. 2019(04)
[5]一种基于Java Web的敏感词过滤方法研究与实现[J]. 傅明建. 智能计算机与应用. 2017(04)
[6]基于短文本情感分析的敏感信息识别[J]. 李扬,潘泉,杨涛. 西安交通大学学报. 2016(09)
[7]基于混合余弦相似度的中文文本层次关系挖掘[J]. 董洋溢,李伟华,于会. 计算机应用研究. 2017(05)
[8]基于字符串匹配的中文分词算法的研究[J]. 常建秋,沈炜. 工业控制计算机. 2016(02)
[9]基于区位码字典对数控程序进行中文注释[J]. 杨超,谢剑刚. 中国科技信息. 2015(17)
[10]不良文本变体关键词识别的词汇串相似度计算[J]. 李少卿,吴承荣,曾剑平,钟亦平. 计算机应用与软件. 2015(03)
硕士论文
[1]基于深度学习的垃圾邮件文本分类方法[D]. 李雨亭.中北大学 2018
[2]统计与规则相结合的中文分词模型设计与实现[D]. 贺欢.西南交通大学 2013
[3]基于理解的汉语分词系统的设计与实现[D]. 苏勇.电子科技大学 2011
[4]手机垃圾短信过滤平台的分析与应用[D]. 张春麟.北京邮电大学 2010
[5]基于贝叶斯的中文垃圾邮件过滤系统的设计与实现[D]. 黄志刚.电子科技大学 2007
本文编号:2988397
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2988397.html
最近更新
教材专著