当前位置:主页 > 科技论文 > 自动化论文 >

基于BP神经网络的多重邮件过滤系统的研究与设计

发布时间:2021-04-25 20:31
  随着互联网网络的高速发展,人与人之间在信息交流中使用电子邮件的频率与日俱增,它逐渐成为一个重要的沟通媒介。但是,随着电子邮件的不断普及,伴随而来的是垃圾邮件的泛滥,控制不好甚至会影响了人们的正常工作与生活。目前已有的垃圾邮件过滤仍存在诸多不足,不能很好地将垃圾邮件区分过滤。针对这项不足,如何更好地加强对垃圾邮件过滤技术的研究便显得尤为重要。本次研究是要设计一种基于统计的邮件过滤系统模型。模型训练选用BP神经网络学习算法。实验过程对公共PU语料库进行数据预处理和算法训练得到大量模型,接着进行模型选择,最终通过模型组合得到垃圾邮件过滤系统主辅多重协同模型。邮件在该模型的过滤过程中会被分成多股数据流进入FC层,并分别在Output层输出结果,再根据子模型虚报率(FALLOUT)计算权值得到最终判断结果。论文预处理过程包括了基于Hadoop的词频统计、基于改进TF算法的词典降维和向量空间模型(VSM)形式矩阵生成。词频统计得到总特征词列表、合法邮件特征词列表、垃圾邮件特征词列表和每封邮件特征词列表。本研究针对数据预处理改进了传统的TF算法,通过词频统计对语料库特征词集合进行降维,将维度落在20... 

【文章来源】:深圳大学广东省

【文章页数】:64 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 本文研究内容
    1.4 本文组织结构
第二章 邮件过滤相关理论及实验平台
    2.1 邮件过滤原理
        2.1.1 服务器端和客户端的邮件过滤
        2.1.2 三种邮件过滤技术原理
        2.1.3 特征选择技术
    2.2 基于统计的邮件过滤算法
        2.2.1 贝叶斯
        2.2.2 K近邻
        2.2.3 支持向量机
        2.2.4 BP神经网络算法
    2.3 Hadoop平台及MapReduce编程模式
        2.3.1 Hadoop平台
        2.3.2 MapReduce编程模式
    2.4 小结
第三章 数据采集、词典维数与预处理
    3.1 实验语料库选择
    3.2 语料库子集划分
    3.3 基于Hadoop实验数据词频统计
    3.4 基于改进的TF算法词典降维
        3.4.1 初步降维
        3.4.2 词典降维
        3.4.3 生成VSM形式的稀疏矩阵
    3.5 数据处理实验
        3.5.1 Hadoop的配置
        3.5.2 实验过程
        3.5.3 实验结果
    3.6 小结
第四章 基于BP神经网络邮件过滤研究
    4.1 算法训练及模型选择
        4.1.1 学习率(Learning Rate)选择
        4.1.2 模型仿真及最优模型选择
    4.2 实验最优模型与SVM基函数训练模型比较
    4.3 小结
第五章 多重过滤系统的设计与实现
    5.1 多重邮件过滤系统的流程设计
    5.2 指标测试结果
        5.2.1 重要评价指标
        5.2.2 基于AUC的评价指标
    5.3 模型运算量评估
    5.4 模型内存占用率评估
    5.5 小结
第六章 总结与展望
    6.1 总结
    6.2 展望
参考文献
致谢


【参考文献】:
期刊论文
[1]DNS服务器浅谈[J]. 杨龙.  电脑知识与技术. 2017(21)
[2]Hadoop MapReduce短作业执行性能优化[J]. 顾荣,严金双,杨晓亮,袁春风,黄宜华.  计算机研究与发展. 2014(06)
[3]垃圾邮件优化过滤方法的研究与仿真[J]. 邵叶秦.  计算机仿真. 2013(12)
[4]基于邻接表的进路广度搜索算法分析[J]. 文冬林.  科技资讯. 2013(34)
[5]文本分类中TF-IDF方法的改进研究[J]. 覃世安,李法运.  现代图书情报技术. 2013(10)
[6]一种智能垃圾邮件过滤模型的仿真研究[J]. 雷剑刚,孙细斌.  计算机仿真. 2013(05)
[7]VSM信息检索中的数据稀疏问题分析与规避策略[J]. 梁士金.  图书情报工作. 2013(01)
[8]Matlab神经网络工具NNTool的应用与仿真[J]. 唐忠,谢涛.  计算机与现代化. 2012(12)
[9]Hadoop HDFS和MapReduce架构浅析[J]. 郝树魁.  邮电设计技术. 2012(07)
[10]基于AUC的分类器评价和设计综述[J]. 汪云云,陈松灿.  模式识别与人工智能. 2011(01)

硕士论文
[1]邮件服务器的设计与实现[D]. 韩颖.吉林大学 2014
[2]ID3算法、朴素贝叶斯算法和BP神经网络算法的比较和分析研究[D]. 林士杰.内蒙古大学 2013
[3]基于改进SVM的垃圾邮件过滤系统研究与实现[D]. 陈孝礼.山东师范大学 2011
[4]基于神经网络集成的垃圾邮件过滤系统设计[D]. 刘宝萍.山西财经大学 2010
[5]Exchange邮件传输过程的安全性研究[D]. 金晶.上海交通大学 2009
[6]基于内容的垃圾邮件过滤技术研究[D]. 杨丽华.西南交通大学 2006
[7]基于支持向量机理论的垃圾邮件过滤模型[D]. 张羽.电子科技大学 2006
[8]基于内容的垃圾邮件过滤研究[D]. 潘文锋.中国科学院研究生院(计算技术研究所) 2004



本文编号:3160048

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3160048.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d0208***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com