基于模糊文本还原的不良文本过滤方法研究
发布时间:2025-03-19 03:07
互联网的高速发展为信息的及时共享创造了良好的条件,网络中的信息也呈指数级的增长。但不容忽视的是,网络的发展是把双刃剑,一方面,大量丰富的信息涌入到互联网中,这使得用户能够更加高效便捷地获取所需要的信息;另一方面,不法分子也利用网络传播速度快这一特点,不断散播反动、色情等不良信息,危害网络健康环境,对现实社会的稳定和人民生活带来了不良影响,这种影响体现在青少年身上尤为明显。因此,净化网络环境、实现对网络中不良信息的有效过滤是当前网络安全建设中亟待解决的问题。网络中的信息存在的形式多种多样,其中以文本形式的信息为主,因此对于不良文本的过滤是不良信息过滤的重要组成部分。现阶段,对不良文本的过滤方法可以分为两种,一是借用文本分类的思想,将文本分为正常文本和不良文本,然后通过一定的方式将不良文本进行过滤;二是使用收集到的敏感词表对文本中的词汇进行匹配。本文借鉴二者的长处,设计了不良文本的过滤方法,本文的主要工作包括:(1)给出了模糊文本的定义。不良文本中会包含有各种不良词汇,不法分子为了能够将这类不良文本在网络中进行传播,发送前通常会将这些不良文本进行模糊处理。我们通过对大量语料的统计和分析,在多...
【文章页数】:54 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
变量注释表
1 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.3 论文创新点
1.4 论文组织结构
2 相关理论与技术研究
2.1 信息熵与困惑度
2.2 中文自动分词
2.3 循环神经网络
2.4 本章小结
3 模糊文本的判定与还原
3.1 模糊文本的定义
3.2 模糊文本的判定
3.3 字形模糊文本的还原
3.4 本章小结
4 基于拼音转汉字的字音模糊还原方案
4.1 汉字转拼音
4.2 拼音转汉字
4.3 拼音模糊文本的还原
4.4 本章小结
5 基于模糊文本还原的不良文本过滤
5.1 实验数据
5.2 实验环境
5.3 评价指标
5.4 实验对比与结果分析
5.5 本章小结
6 总结与展望
6.1 本文总结
6.2 未来工作展望
参考文献
作者简历
致谢
学位论文数据集
本文编号:4036599
【文章页数】:54 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
变量注释表
1 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.3 论文创新点
1.4 论文组织结构
2 相关理论与技术研究
2.1 信息熵与困惑度
2.2 中文自动分词
2.3 循环神经网络
2.4 本章小结
3 模糊文本的判定与还原
3.1 模糊文本的定义
3.2 模糊文本的判定
3.3 字形模糊文本的还原
3.4 本章小结
4 基于拼音转汉字的字音模糊还原方案
4.1 汉字转拼音
4.2 拼音转汉字
4.3 拼音模糊文本的还原
4.4 本章小结
5 基于模糊文本还原的不良文本过滤
5.1 实验数据
5.2 实验环境
5.3 评价指标
5.4 实验对比与结果分析
5.5 本章小结
6 总结与展望
6.1 本文总结
6.2 未来工作展望
参考文献
作者简历
致谢
学位论文数据集
本文编号:4036599
本文链接:https://www.wllwen.com/xinwenchuanbolunwen/4036599.html