当前位置:主页 > 管理论文 > 移动网络论文 >

基于SAE-LBP网页分类的研究

发布时间:2017-08-05 16:33

  本文关键词:基于SAE-LBP网页分类的研究


  更多相关文章: SAE LBP 网页分类 深度学习 神经网络


【摘要】:随着互联网的发展,网页的数目呈现井喷状增加,也预示着大数据时代的到来。杂乱、大量的网页文本,增加了人们对信息的查找与过滤的难度。为了方便对网页文本的检索与挖掘,对网页文本的分类就显得十分重要。 一般地,网页分类器采用了支持向量机(Support Vector Machine, SVM)、后向传播(Back Propagation, BP)神经网络和Naive Bayes等传统分类算法,并通过信息增益、互信息和最大熵等模型进行特征选择。其中,信息增益取得了较好的性能,但是,信息增益的阈值很难确定。此外,BP神经网络在高层次应用中,表现出了容易陷入局部极小值、对复杂函数泛化能力较差、训练效率较低等问题。针对这些问题,本文结合稀疏自动编码器(Sparse Auto-Encoder, SAE)和LBP(Layer-wise Back Propagation)神经网络,提出一种基于SAE-LBP的网页分类器。本文主要工作如下: 1.根据网页文本的半结构化特征,改进了文本特征表示的权重计算,相对于传统的BP神经网络,提升了分类准确率1%左右。本文通过统计特定数据集各个标签出现的数量,并结合各个标签的作用进行分析,对HTML标签进行分类并设置权重。 2.针对网页文本的稀疏特性,采用SAE对网页文本进行高层次地特征选择,相对于传统的BP神经网络,提升了分类准确率4%左右。SAE通过在BP神经网络模型加入了稀疏性表示,更好地描述了网页文本的稀疏特性。SAE通过在BP神经网络模型加入了对参数的惩罚,有效地避免了过拟合问题。 3.针对BP神经网络的梯度下降算法中的传统学习率自动调整容易震荡、调整过慢等问题,改进了传统的学习率自动调整算法,相对于传统的BP神经网络,提升了时间性能40%~60%。算法通过设置一个下限,避免了学习率调整次数过多问题。另外,在误差上升频率过大时,及时降低学习率,避免了迭代的震荡。算法还通过设置一个上限,防止下次迭代就遭遇误差上升。 4.针对BP神经网络采用随机初始化值不易于快速收敛的问题,采用LBP神经网络训练算法对BP神经网络进行叠加训练,相对于传统的BP神经网络,有效地提升时间性能40%~60%。LBP神经网络训练算法从3层开始,叠加训练BP神经网络,直到目标层数。预训练低层次BP神经网络时,将低层次参数逼近最优值。叠加预训练只需要迭代有限次数即可,不需要训练到BP神经网络完全收敛。采用LBP神经网络训练算法,使得低层次的BP神经网络参数更加地接近最优值,避免了不必要的迭代。 基于SAE-LBP的网页分类器采用SAE进行深度特征选取,有效提升了分类准确率;采用基于学习率自动调整的LBP神经网络算法进行训练,有效提升了时间性能。实验表明,相对于传统的BP神经网络,基于SAE-LBP的网页分类器的分类正确率提升了5.19%,时间性能提升了83.86%。
【关键词】:SAE LBP 网页分类 深度学习 神经网络
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092;TP391.1
【目录】:
  • 摘要5-7
  • ABSTRACT7-14
  • 第一章 绪论14-20
  • 1.1 概述14-15
  • 1.2 国内外相关研究15-17
  • 1.3 本文的研究内容17-18
  • 1.4 本文的组织结构18-20
  • 第二章 网页分类器基本原理20-34
  • 2.1 预处理21-23
  • 2.1.1 HTML解析21-22
  • 2.1.2 分词与词性标注22-23
  • 2.2 文本特征表示23-26
  • 2.2.1 布尔模型23-24
  • 2.2.2 统计语言模型24-25
  • 2.2.3 向量空间模型25-26
  • 2.3 特征选取26-31
  • 2.3.1 传统特征选取方法27-31
  • 2.4 分类模型31-32
  • 2.4.1 神经网络31-32
  • 2.4.2 支持向量机32
  • 2.5 评价方法32-33
  • 2.6 本章小结33-34
  • 第三章 基于学习率自动调整的梯度下降34-46
  • 3.1 BP神经网络34-41
  • 3.1.1 BP神经网络结构34-37
  • 3.1.2 BP神经网络模型37-38
  • 3.1.3 BP神经网络求解38-41
  • 3.2 学习率41-45
  • 3.2.1 学习率自动调整算法42-43
  • 3.2.2 改进的学习率自动调整算法43-45
  • 3.3 本章小结45-46
  • 第四章 基于SAE-LBP的网页分类46-60
  • 4.1 基于深度学习的特征选取46-50
  • 4.1.1 自动编码器47-49
  • 4.1.2 降噪自动编码器49
  • 4.1.3 稀疏自动编码器49-50
  • 4.2 稀疏自动编码器50-53
  • 4.2.1 稀疏自动编码器模型51-52
  • 4.2.2 稀疏自动编码器求解52-53
  • 4.3 LBP神经网络53-55
  • 4.3.1 LBP神经网络53-55
  • 4.3.2 基于学习率自动调整的LBP神经网络55
  • 4.4 基于SAE-LBP的网页分类55-58
  • 4.5 本章小结58-60
  • 第五章 实验结果与分析60-68
  • 5.1 数据集60-61
  • 5.2 HTML标签权值设置相关实验61-62
  • 5.3 SAE进行特征提取相关实验62-63
  • 5.4 BP神经网络优化相关实验63-65
  • 5.5 基于SAE-LBP网页分类相关实验65-66
  • 5.6 本章小结66-68
  • 第六章 总结与展望68-70
  • 6.1 本文的主要工作与贡献68-69
  • 6.2 展望未来69-70
  • 参考文献70-74
  • 致谢74-76
  • 在读期间发表的学术论文与取得的研究成果76

【参考文献】

中国期刊全文数据库 前10条

1 刘晓勇;;基于GA与SVM融合的网页分类算法[J];辽宁工程技术大学学报(自然科学版);2010年05期

2 张婕;山岚;;CBC算法在网页分类中的应用研究[J];北京化工大学学报(自然科学版);2013年S1期

3 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期

4 徐燕;李锦涛;王斌;孙春明;张森;;文本分类中特征选择的约束研究[J];计算机研究与发展;2008年04期

5 李新福;;组合降维技术在中文网页分类中的应用[J];计算机工程与应用;2007年24期

6 段军峰;黄维通;陆玉昌;;中文网页分类研究与系统实现[J];计算机科学;2007年06期

7 兰均;施化吉;李星毅;徐敏;;基于特征词复合权重的关联网页分类[J];计算机科学;2011年03期

8 李粤,李星,刘辉,许静芳;一种改进的文本网页分类特征选择方法[J];计算机应用;2004年07期

9 黄科,马少平;基于统计分词的中文网页分类[J];中文信息学报;2002年06期

10 汤亚玲;崔志明;;行为特征分析模式下的网页分类技术研究[J];计算机工程;2012年20期



本文编号:625875

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/625875.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5e484***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com