基于深度学习的高效网页分类技术的研究与分析

发布时间:2021-02-23 02:49
  近年来,随着网络通信技术的飞速发展,互联网逐步融入到日常生活的各个方面,网页数量更是呈现指数式增长趋势。面对海量且复杂的网页信息,如何高效地组织和管理这些信息日趋成为一个棘手的问题。网页分类作为互联网信息组织和管理的一个基础步骤,在搜索引擎、主题爬虫、恶意网页识别和维护目录式网站等许多应用中发挥着至关重要的作用。传统Web挖掘通常利用网页特征工程结合机器学习算法进行网页分类,然而随着网页结构的复杂化,网页的有效特征提取越来越困难,从而导致传统机器学习方法在网页自动分类上效果一般。因此,本文提出了基于深度学习的高效网页分类算法,针对网页的文本内容、标题等信息,利用深度神经网络,搭建一种多通道输入,复合特征抽取结构的分类模型。该模型能有效地提高网页分类的准确率,满足特定领域内网页的高效自动分类需求。本文的主要工作如下:1、分析了传统机器学习方法在网页挖掘中的优缺点并介绍了深度学习在网页分类中的特点和优势;阐述了网页数据的采集和存储技术;研究并分析了词向量技术;分析了注意力机制在网页分类问题上的可行之处;研究了卷积神经网络,循环神经网络的核心算法原理及科学应用。2、设计了基于深度学习的高效网... 

【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校

【文章页数】:73 页

【学位级别】:硕士

【部分图文】:

基于深度学习的高效网页分类技术的研究与分析


污之侧时dZ,e‘算法示禽图

示意图,元算法,示意图


对于一个单独神经元而言,如上图(2-3)所示,假设输入l=al,输入2=a2,输??入3=a3;权值l=wl,权值2=w2,权值3=w3;输出=z。则神经元模型可简单理??解为Z=g(al*wl+a2*w2+a3*w3)。其中函数g称之为激活函数,常见激活函数有??Sigmoid,?tanh,?ReLU。??多个神经元构成了神经网络,而神经网络构成了深度学习任务的主体,多层??神经网络构成深度网络对数据进行“高级特征”的提取,最终数据依然会流入神??经网络(一般为全连接网络)并通过激活函数获得类别或者类别概率。??我们分析网页数据的特点,首先网页不同于传统文本结构化的创作方式,网??页的信息分布是无规律的,文本开头可能是导航栏而不是标题,占网页文字信息??篇幅最大的也可能不是网页主题内容而是广告推荐。抽取与类别最大关联的特征??是网页分类算法的基础。卷积神经网络可以设定不同大小的卷积核,不同尺度的??卷积核用来提取文本的关键信息,在原理上类似于多窗口大小的n-gram。卷积提??取出的特征会更多地关注局部,最后将信息综合起来就得到了全局的信息。对于??信息量较大的网页,希望神经网络能够“理解”前后语义,在提取特征时考虑到??上下文的信息,这就需要用到循环神经网络。搭配使用卷积神经网络和循环神经??

特征图,卷积,一维


特征映射结构一般采用Sigmoid函数作为卷积网络的激活函数,Sigmoid的??输出会使得特征映射具有位移不变性。此外,由于一个特征图上的神经元共享权??值,因此减少了卷积网络中自由参数的个数,减少了计算量。卷积神经网络中的??每一个卷积层都会连接一个用来求局部最值或平均值,进行二次特征提取的计算??层,这种特有的两次特征提取结构可以减小特征分辨率。??卷积神经网络在图像领域获得过巨大成功,著名的LeNet-5,?ResNet,AlexNet??都是以卷积神经网络为基础构建的。然而网页数据和图像数据不同,网页数据可??以归结为文本数据。众所周知,图像数据的输入是二维的,虽然文本经过词向量??表达后是二维数据,但是在词向量维度上即Embedding-Level上的二维卷积是没??有意义的,因为只有完整的词向量维度才表征了一个完整的单词,所以文本是一??维数据。因此,本文算法中的卷积神经网络都采用一维卷积。一维卷积带来的问??题是需要通过设计不同尺寸(Kernel_Size)的卷积核(Filter)获取不同宽度的视野,??在下一章算法设计与实现中将详细阐述。??一维卷积网络[19]的工作方式不同于传统二维卷积,其工作方式如下图2-4所??

【参考文献】:
期刊论文
[1]结合TFIDF方法与Skip-gram模型的文本分类方法研究[J]. 邬明强,张奎.  电子技术与软件工程. 2018(06)
[2]Scrapy分布式爬虫原理分析与概述[J]. 米硕,孙瑞彬,李欣,明晓,赵汝程.  中国新通信. 2018(04)
[3]分布式爬虫任务调度策略的优化[J]. 王霓虹,张露露.  黑龙江大学自然科学学报. 2016(05)
[4]基于深度学习的网页分类算法研究[J]. 陈芊希,范磊.  微型电脑应用. 2016(02)
[5]一种基于N-Gram改进的文本特征提取算法[J]. 于津凯,王映雪,陈怀楚.  图书情报工作. 2004(08)
[6]用Naive Bayes方法协调分类Web网页[J]. 范焱,郑诚,王清毅,蔡庆生,刘洁.  软件学报. 2001(09)

硕士论文
[1]基于URL+文本的网页主题分类模型研究[D]. 程元堃.武汉邮电科学研究院 2018
[2]基于GPU的深度学习算法并行化研究[D]. 晋雅茹.东南大学 2017
[3]基于深度卷积神经网络的语义图像检索研究[D]. 陈修远.电子科技大学 2017
[4]基于深度学习的钓鱼网站检测技术的研究[D]. 许珑于.电子科技大学 2017
[5]基于文本分析的推荐系统研究与实现[D]. 张婷.电子科技大学 2017
[6]基于多标签的海量文本的分类算法的研究与设计[D]. 方泽阳.北京邮电大学 2017
[7]基于URL模式的网页分类算法研究[D]. 杨镒铭.中国科学技术大学 2016



本文编号:3046902

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3046902.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9533f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com