基于编码器和卷积神经网络的非法信息分类技术研究
发布时间:2021-05-25 21:11
随着互联网的高速发展,网络上出现越来越多的非法信息,比如色情、暴力、毒品等信息,如何检测出这些非法信息成为当下重点研究问题。非法信息分类属于自然语言处理中的文本分类任务,但是与传统的文本分类相比,网络搜索query文本存在着噪声多、长度短、新词多等特点,所以如何构建出高效的文本表示模型和文本特征提取模型是一个研究的重点。文本分类技术涉及到自然语言处理、数据挖掘等领域的许多技术。影响文本分类准确度的因素有许多,包括文本的预处理、文本特征表示、特征选择以及分类器的选择和优化等。传统的文本表示方法,如布尔模型、向量空间模型,存在数据稀疏和维数灾难等问题。为了进一步挖掘文本中隐藏的信息,出现了基于神经网络的分布式向量表示方法,如word2vec,这种分布式向量仅仅包含了词的语义信息,忽略了词的属性信息,同时这种特征提取方法忽略了文本的结构信息。基于上述的研究,做了如下工作:(1)对文本特征表示模型进行了改进,提出了集成多种特征的文本表示模型(LMCW)。该方法首先利用word2vec工具在搜索query数据集上训练出包含语义信息的分布式词向量,接着使用词汇的互信息对词向量加权,同时再利用wor...
【文章来源】:北京工业大学北京市 211工程院校
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题背景与意义
1.2 国内外研究现状
1.2.1 文本特征表示与特征选择方法研究现状
1.2.2 文本分类算法研究现状
1.3 主要面临问题及本文研究内容
1.3.1 主要面临问题
1.3.2 本文研究内容
1.4 论文结构安排
第2章 相关理论与技术
2.1 文本分类流程概述
2.2 文本预处理
2.2.1 中文分词
2.2.2 常用分词工具
2.2.3 停用词过滤
2.3 文本表示
2.3.1 文本特征表示方法
2.3.2 文本特征选择方法
2.4 文本分类方法
2.4.1 逻辑回归算法和Softmax回归算法
2.4.2 支持向量机算法
2.5 卷积神经网络
2.6 评价指标
2.7 本章小结
第3章 集成多种特征的文本表示模型
3.1 WORD2VEC模型介绍
3.1.1 CBOW模型
3.1.2 Skip-gram模型
3.1.3 Word2vec训练效果
3.2 基于先验知识的属性信息表示模型(PKL)
3.2.1 建立非法信息先验知识库
3.2.2 属性标注
3.3 基于加权与平均的WORD2VEC文本表示模型
3.3.1 加权词向量表示模型
3.3.2 借助外部信息的字向量表示模型
3.3.3 集成两种特征的文本表示模型
3.4 集成多种特征的文本表示模型
3.5 实验过程及分析
3.5.1 实验数据集
3.5.2 实验环境
3.5.3 文本表示模型维度对分类效果的影响
3.5.4 单文本表示模型维度对LMCW模型效果的影响
3.5.5 实验结论
3.6 本章小结
第4章 基于深度学习的非法信息分类
4.1 TRANSFORMER模型概述
4.1.1 Transformer编码器
4.1.2 Transformer解码器
4.2 基于LMCW模型的非法信息分类
4.2.1 Transformer模型提取特征
4.2.2 CNN网络提取特征
4.3 实验过程及设计
4.3.1 文本表示模型维度对分类效果的影响
4.3.2 Epoch次数对分类效果的影响
4.3.3 实验结论
4.4 本章小结
结论
参考文献
攻读硕士学位期间所发表的学术论文
致谢
【参考文献】:
期刊论文
[1]融合attention机制的BI-LSTM-CRF中文分词模型[J]. 黄丹丹,郭玉翠. 软件. 2018(10)
[2]吕苏语口语标注语料的自动分词方法研究[J]. 于重重,操镭,尹蔚彬,张泽宇,郑雅. 计算机应用研究. 2017(05)
[3]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春. 计算机科学. 2016(06)
[4]基于字符串匹配的中文分词算法的研究[J]. 常建秋,沈炜. 工业控制计算机. 2016(02)
[5]一种基于信息增益的特征选择方法[J]. 黄志艳. 山东农业大学学报(自然科学版). 2013(02)
[6]数据降维技术研究现状及其进展[J]. 毕达天,邱长波,张晗. 情报理论与实践. 2013(02)
[7]一种基于朴素贝叶斯的微博情感分类[J]. 林江豪,阳爱民,周咏梅,陈锦,蔡泽键. 计算机工程与科学. 2012(09)
[8]特征选择方法综述[J]. 姚旭,王晓丹,张玉玺,权文. 控制与决策. 2012(02)
[9]文本分类中特征选择方法的比较与改进[J]. 单丽莉,刘秉权,孙承杰. 哈尔滨工业大学学报. 2011(S1)
[10]支持向量机理论与算法研究综述[J]. 丁世飞,齐丙娟,谭红艳. 电子科技大学学报. 2011(01)
硕士论文
[1]文本相似度算法在自动评分系统中的应用研究[D]. 欧阳经纶.湘潭大学 2017
[2]网络不良信息检测系统的设计与实现[D]. 徐征.中国科学院大学(工程管理与信息技术学院) 2014
[3]基于内容的敏感信息过滤系统研究[D]. 彭浩林.武汉科技大学 2011
[4]基于统计机器学习算法的汉语分词系统的研究[D]. 刘武.北京邮电大学 2006
本文编号:3206014
【文章来源】:北京工业大学北京市 211工程院校
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题背景与意义
1.2 国内外研究现状
1.2.1 文本特征表示与特征选择方法研究现状
1.2.2 文本分类算法研究现状
1.3 主要面临问题及本文研究内容
1.3.1 主要面临问题
1.3.2 本文研究内容
1.4 论文结构安排
第2章 相关理论与技术
2.1 文本分类流程概述
2.2 文本预处理
2.2.1 中文分词
2.2.2 常用分词工具
2.2.3 停用词过滤
2.3 文本表示
2.3.1 文本特征表示方法
2.3.2 文本特征选择方法
2.4 文本分类方法
2.4.1 逻辑回归算法和Softmax回归算法
2.4.2 支持向量机算法
2.5 卷积神经网络
2.6 评价指标
2.7 本章小结
第3章 集成多种特征的文本表示模型
3.1 WORD2VEC模型介绍
3.1.1 CBOW模型
3.1.2 Skip-gram模型
3.1.3 Word2vec训练效果
3.2 基于先验知识的属性信息表示模型(PKL)
3.2.1 建立非法信息先验知识库
3.2.2 属性标注
3.3 基于加权与平均的WORD2VEC文本表示模型
3.3.1 加权词向量表示模型
3.3.2 借助外部信息的字向量表示模型
3.3.3 集成两种特征的文本表示模型
3.4 集成多种特征的文本表示模型
3.5 实验过程及分析
3.5.1 实验数据集
3.5.2 实验环境
3.5.3 文本表示模型维度对分类效果的影响
3.5.4 单文本表示模型维度对LMCW模型效果的影响
3.5.5 实验结论
3.6 本章小结
第4章 基于深度学习的非法信息分类
4.1 TRANSFORMER模型概述
4.1.1 Transformer编码器
4.1.2 Transformer解码器
4.2 基于LMCW模型的非法信息分类
4.2.1 Transformer模型提取特征
4.2.2 CNN网络提取特征
4.3 实验过程及设计
4.3.1 文本表示模型维度对分类效果的影响
4.3.2 Epoch次数对分类效果的影响
4.3.3 实验结论
4.4 本章小结
结论
参考文献
攻读硕士学位期间所发表的学术论文
致谢
【参考文献】:
期刊论文
[1]融合attention机制的BI-LSTM-CRF中文分词模型[J]. 黄丹丹,郭玉翠. 软件. 2018(10)
[2]吕苏语口语标注语料的自动分词方法研究[J]. 于重重,操镭,尹蔚彬,张泽宇,郑雅. 计算机应用研究. 2017(05)
[3]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春. 计算机科学. 2016(06)
[4]基于字符串匹配的中文分词算法的研究[J]. 常建秋,沈炜. 工业控制计算机. 2016(02)
[5]一种基于信息增益的特征选择方法[J]. 黄志艳. 山东农业大学学报(自然科学版). 2013(02)
[6]数据降维技术研究现状及其进展[J]. 毕达天,邱长波,张晗. 情报理论与实践. 2013(02)
[7]一种基于朴素贝叶斯的微博情感分类[J]. 林江豪,阳爱民,周咏梅,陈锦,蔡泽键. 计算机工程与科学. 2012(09)
[8]特征选择方法综述[J]. 姚旭,王晓丹,张玉玺,权文. 控制与决策. 2012(02)
[9]文本分类中特征选择方法的比较与改进[J]. 单丽莉,刘秉权,孙承杰. 哈尔滨工业大学学报. 2011(S1)
[10]支持向量机理论与算法研究综述[J]. 丁世飞,齐丙娟,谭红艳. 电子科技大学学报. 2011(01)
硕士论文
[1]文本相似度算法在自动评分系统中的应用研究[D]. 欧阳经纶.湘潭大学 2017
[2]网络不良信息检测系统的设计与实现[D]. 徐征.中国科学院大学(工程管理与信息技术学院) 2014
[3]基于内容的敏感信息过滤系统研究[D]. 彭浩林.武汉科技大学 2011
[4]基于统计机器学习算法的汉语分词系统的研究[D]. 刘武.北京邮电大学 2006
本文编号:3206014
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3206014.html
最近更新
教材专著