当前位置:主页 > 管理论文 > 移动网络论文 >

基于多特征和组合分类器的网页分类

发布时间:2020-07-25 11:13
【摘要】:网络上有着丰富的信息资源,并且随着时间的推移,网上的信息量爆炸式地增长。网页的分类有助于网页信息检索和管理,如开发和维护网页目录、改进搜索引擎质量、过滤网页内容等。网页是一种半结构化的数据,不同网页的内容和结构不太一样,且网页上有广告、版权声明等信息,这给网页的分类带来了挑战。本文研究网页分类方法,以提高网页分类的性能。首先,提出一种融合文本和结构特征的网页分类方法。采用树状分布的HTML标签表示网页的结构,遍历HTML标签构建向量表示网页结构特征。通过向量转化工具word2vec将title、meta等关键标签中的文本转化为向量表示文本特征,将文本特征和结构特征两种不同的特征以向量的形式融合起来,对网页进行分类。实验结果表明,融合文本和结构特征的网页分类方法更加全面和有效,取得了比单一特征更好的分类效果。其次,提出一种基于置信度的组合分类器的方法,然后基于文本和结构特征的融合以及分类器的组合构建网页分类系统。不同分类器有不同的特点,多个分类器的组合可以实现分类器性能的互补。我们计算一组样本的分类准确率作为相应分类结果的置信度,接着基于置信度采用投票、比较大小等决策策略,组合多个子分类器,得出组合分类器的分类结果。基于特征融合和分类器组合的网页分类系统包括数据采集与处理模块、特征提取与向量化模块、子分类器分类模块和组合分类模块。在Amazon数据集、7-web-genres数据集、DMOZ数据集中进行实验,网页分类的准确率分别达到94.2%、95.4%、95.7%,提出的网页分类方法相比同类网页分类方法准确率更高。第三,提出一种移动端网页的分类方法。移动端设备小屏、竖屏的设计使得移动端网页呈现列表式的简单结构,网页内容多以信息流的形式出现,重要的信息出现在前面。针对移动端网页的这些特征,我们提出采用信息流定位的算法,提取主旨信息、头部信息和信息流信息进行分类。采集移动端网页进行实验,结果表明,我们提出的移动端网页分类方法准确率达到97.2%。
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP393.092;TP301.6
【图文】:

网页,目标网,子网,配偶


子网页(Child邋page)、兄弟网页(Sibling邋page)和配偶网页(Spouse邋page)的标签类别逡逑组合起来帮助目标网页分类,相比常见的网页文本分类准确率有了很大的提高。逡逑如图1.1所示,如果当前网页被认定为目标网页(Targetpage),那么父网页指的是逡逑通过超链接指向目标网页的网页,子网页指的是目标网页通过超链接指向的网页,逡逑兄弟网页是父网页指向的不同于目标网页的网页,配偶网页则是另一个同样指向逡逑子网页的网页。逡逑/兄弟网页逡逑(Sibling邋page)逡逑父网页逦_逦 ̄逡逑(Parent邋page)逦目标网页逦;逡逑(Tafget邋page)逦子网页逡逑/邋(Child邋page)逡逑逦r逡逑配偶网页逡逑(Spouse邋page)逡逑图1.1相邻网页的关系图逡逑3逡逑

架构图,架构,调度器,网址


Scrapy是一个为了爬取网页内容、提取结构性数据而编写的应用框架,其优逡逑点在于可以根据使用者的需求进行修改,从而方便地应用,Scrapy在数据挖掘、逡逑网页监测和自动化测试等方面有着广泛的用途[24],架构如图2.1所示.逡逑调度器逡逑逦J-逦逦\逦f互联网逡逑管道 ̄——Scrapy引下载器逡逑^逦下载器逡逑存储数据\逦h爬虫逦,逡逑\逦中间件逦^返回数据响应逡逑一邋 ̄ ̄1逡逑I逡逑4.爬虫逡逑图2.1邋Scrapy架构图逡逑图2.1中各个组件的功能分别是:逡逑Scrapy引擎(Engine):负责处理整个系统内部的数据流,在调度器、下载器、逡逑爬虫、管道之间进行通讯,传递信号和数据。逡逑调度器(Scheduler):调度器用一个队列保存所要爬取网页的网址,当Scrapy逡逑引擎发送请求(Request)时,调度器将网址整理和排列,压入网址队列。调度器决逡逑定下一个爬取的网址是什么,当引擎需要时交还给引擎。逡逑7逡逑

示意图,示意图,长期记忆,信息


度弥散;反之,如果#大于1,每一次误差累乘%误差传递到初始神经单元逡逑可能会是一个很大的数,这种情况被称之为梯度爆炸。因此当序列很长的时候,逡逑RNN失去了学习的能力,这个问题可以被图2.3所示的长短期记忆[28](Long逡逑Short-Term邋Memory,邋LSTM)解决。逡逑逦*(0t)邋0utPut逡逑\邋Forget逡逑Gate逡逑图2.3长短期记忆网络示意图逡逑长短期记忆(LSTM)网络是RNN的一种特殊类型,可以学习长期依赖的信息。逡逑LSTM通过门来判断信息是否有用,与普通RNN相比,LSTM多了邋3个控制门逡逑(Gate):输入门(Input邋Gate)、输出门(Output邋Gate)、遗忘门(Forget邋Gate)。当新的逡逑输入来临,模型要忘掉不再需要的长期记忆信息,然后学习输入中需要的部分,逡逑保存在长期记忆中,并且决定对当前输出而言哪些信息是有用的。逡逑11逡逑

【相似文献】

相关期刊论文 前10条

1 ;网页分类新标准启用儿童上网浏览有保证[J];电脑知识与技术;2002年07期

2 库尔班·麦麦提;吾守尔·斯拉木;;网页分类技术研究现状与发展趋势的图谱分析[J];现代电子技术;2019年13期

3 费玉莲;姜波;李渊;;面向异步通信机制的网页分类研究[J];计算机应用;2008年02期

4 张茂元;邹春燕;卢正鼎;;一种基于变调整学习规则的模糊网页分类方法研究[J];计算机研究与发展;2007年01期

5 郭淼霞;;中文网页分类研究综述[J];赤峰学院学报(自然科学版);2011年12期

6 宗永升;张yN;;支持向量机与K近邻结合的网页分类方法[J];计算机仿真;2010年09期

7 黄科,马少平;基于统计分词的中文网页分类[J];中文信息学报;2002年06期

8 傅向华;刘国;陈冬剑;;一种核心子集选择训练的大规模中文网页分类方法[J];小型微型计算机系统;2011年08期

9 单松巍,冯是聪,李晓明;几种典型特征选取方法在中文网页分类上的效果比较[J];计算机工程与应用;2003年22期

10 张义忠,赵明生,梁久祯;基于自组织特征映射的网页分类研究[J];信息与控制;2003年02期

相关会议论文 前2条

1 李立宇;唐世渭;杨冬青;叶恒强;王腾蛟;;COMMIX-Classifier—自动网页分类系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

2 米晓芳;秦洋;王立宏;宋宜斌;;基于潜在语义差异的医学网页分类[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年

相关硕士学位论文 前10条

1 邓立;基于多特征和组合分类器的网页分类[D];浙江大学;2019年

2 朱红波;基于SVM的多示例多标签网页分类[D];中国石油大学(华东);2017年

3 王文杰;基于多示例多标签框架的网页分类信息丢失的研究[D];中国石油大学(华东);2017年

4 唐磊;基于多示例多标签支持向量机不平衡网页分类[D];中国石油大学(华东);2017年

5 吴琦炜;基于深度学习的高效网页分类技术的研究与分析[D];北京邮电大学;2019年

6 刘佳男;面向机构官网的数据抽取研究[D];哈尔滨工业大学;2018年

7 杜宇昆;基于链接特征的视频广告过滤技术[D];电子科技大学;2018年

8 张丹;面向内容的网页分类方法研究与实现[D];南京邮电大学;2017年

9 黄美宁;基于用户行为分析的网页分类系统的研究与实现[D];北京邮电大学;2011年

10 王海江;基于Spark的新闻网页分类系统的设计与实现[D];北京邮电大学;2017年



本文编号:2769751

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2769751.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户af7e4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com