网络PDF文档敏感内容防控系统设计与实现
发布时间:2024-04-02 21:54
随着信息技术的飞速发展,网络充斥在我们生活的各个角落。在带给人们种种便利的同时,互联网也成为涉及色情、暴力、反动等不良敏感文本迅速传播的媒介。PDF作为一种轻便的文档形式,越来越多地出现在网络传输中,其中携带的不良文本信息的传播,不仅污染网络环境,也危害着社会的和谐稳定。然而,针对PDF文本内容防控的研究还没有完全成熟,如何高效准确地辨别PDF文档中文本内容的敏感性是一个重要课题。由于PDF文档汉字编码的特殊性且缺少足够的开源资源,目前国内针对在线网络环境下中文PDF文档敏感内容防控方面的研究还不充足,所以展开针对网络传输的PDF文档的敏感内容防控仍然是网络安全领域函待解决的关键问题。由于PDF文档的敏感内容防控系统需要在实时在线网络环境下运行,所以在PDF文档解析及敏感性判别的过程中,对处理速率和识别准确度等有很高的要求。本文在实现网络PDF文档敏感内容防控系统的基础上,提出了PDF文档stream流标签快速定位算法SLQP算法和文本内容流高效匹配算法PB-WM算法,以及基于注意力的双向区域LSTM网络模型进行目标情感分析来优化系统的识别准确度。对于内容标签的定位,实际上即为一种特殊...
【文章页数】:80 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 课题研究背景及意义
1.2 国内外研究现状及存在问题
1.3 论文主要工作及内容安排
第2章 PDF文档解析及stream标签快速定位技术
2.1 PDF文档解析技术
2.1.1 PDF文档结构
2.1.1.1 PDF物理组织结构
2.1.1.2 PDF逻辑组织结构
2.1.2 PDF对象和内容流
2.1.3 PDF汉字编码及转码映射表
2.2 PDF文档stream标签快速定位技术
2.2.1 PDF文档文本内容流定位问题
2.2.2 PDF文档stream标签快速定位算法
2.2.3 实验结果与分析
2.2.3.1 实验环境
2.2.3.2 PDF文档stream标签定位模拟实验及分析
2.3 本章小结
第3章 PDF文本内容多模式匹配算法研究
3.1 经典多模式匹配算法
3.1.1 AC算法
3.1.2 ACBM算法
3.1.3 WM算法
3.2 一种适用于中文PDF文本内容的高效多模式匹配算法
3.2.1 WM算法在PDF文本匹配中的算法分析
3.2.2 PB-WM算法
3.2.3 算法性能分析
3.2.3.1 实验环境
3.2.3.2 中文PDF文本内容匹配模拟实验及分析
3.3 基于Word2vec的词汇相似匹配
3.3.1 词向量和语言模型
3.3.2 Word2vec模型
3.3.3 词汇相似匹配
3.4 本章小结
第4章 目标情感分析模型研究与实现
4.1 特定目标情感分析
4.2 基于注意力机制和LSTM网络的目标情感分析模型
4.2.1 LSTM
4.2.2 注意力机制
4.2.3 基于注意力的双向区域LSTM网络模型
4.3 实验结果与分析
4.3.1 实验环境及数据处理
4.3.2 特定目标情感分析模拟实验及分析
4.4 本章小结
第5章 PDF文档敏感内容防控系统的设计与实现
5.1 系统流程和框架设计
5.2 系统模块分析
5.2.1 TCP反向代理模块
5.2.2 HTTP协议解析模块
5.2.3 PDF文本内容敏感识别模块
5.2.4 界面模块
5.3 系统测试与分析
5.3.1 PDF文本敏感词匹配测试
5.3.2 PDF文本敏感词情感倾向性测试
5.3.3 系统性能测试
5.4 本章小结
结论
致谢
参考文献
攻读硕士期间发表的论文及科研成果
本文编号:3946259
【文章页数】:80 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 课题研究背景及意义
1.2 国内外研究现状及存在问题
1.3 论文主要工作及内容安排
第2章 PDF文档解析及stream标签快速定位技术
2.1 PDF文档解析技术
2.1.1 PDF文档结构
2.1.1.1 PDF物理组织结构
2.1.1.2 PDF逻辑组织结构
2.1.2 PDF对象和内容流
2.1.3 PDF汉字编码及转码映射表
2.2 PDF文档stream标签快速定位技术
2.2.1 PDF文档文本内容流定位问题
2.2.2 PDF文档stream标签快速定位算法
2.2.3 实验结果与分析
2.2.3.1 实验环境
2.2.3.2 PDF文档stream标签定位模拟实验及分析
2.3 本章小结
第3章 PDF文本内容多模式匹配算法研究
3.1 经典多模式匹配算法
3.1.1 AC算法
3.1.2 ACBM算法
3.1.3 WM算法
3.2 一种适用于中文PDF文本内容的高效多模式匹配算法
3.2.1 WM算法在PDF文本匹配中的算法分析
3.2.2 PB-WM算法
3.2.3 算法性能分析
3.2.3.1 实验环境
3.2.3.2 中文PDF文本内容匹配模拟实验及分析
3.3 基于Word2vec的词汇相似匹配
3.3.1 词向量和语言模型
3.3.2 Word2vec模型
3.3.3 词汇相似匹配
3.4 本章小结
第4章 目标情感分析模型研究与实现
4.1 特定目标情感分析
4.2 基于注意力机制和LSTM网络的目标情感分析模型
4.2.1 LSTM
4.2.2 注意力机制
4.2.3 基于注意力的双向区域LSTM网络模型
4.3 实验结果与分析
4.3.1 实验环境及数据处理
4.3.2 特定目标情感分析模拟实验及分析
4.4 本章小结
第5章 PDF文档敏感内容防控系统的设计与实现
5.1 系统流程和框架设计
5.2 系统模块分析
5.2.1 TCP反向代理模块
5.2.2 HTTP协议解析模块
5.2.3 PDF文本内容敏感识别模块
5.2.4 界面模块
5.3 系统测试与分析
5.3.1 PDF文本敏感词匹配测试
5.3.2 PDF文本敏感词情感倾向性测试
5.3.3 系统性能测试
5.4 本章小结
结论
致谢
参考文献
攻读硕士期间发表的论文及科研成果
本文编号:3946259
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3946259.html
最近更新
教材专著