基于多特征和组合分类器的网页分类

发布时间：2020-07-25 11:13

【摘要】：网络上有着丰富的信息资源,并且随着时间的推移,网上的信息量爆炸式地增长。网页的分类有助于网页信息检索和管理,如开发和维护网页目录、改进搜索引擎质量、过滤网页内容等。网页是一种半结构化的数据,不同网页的内容和结构不太一样,且网页上有广告、版权声明等信息,这给网页的分类带来了挑战。本文研究网页分类方法,以提高网页分类的性能。首先,提出一种融合文本和结构特征的网页分类方法。采用树状分布的HTML标签表示网页的结构,遍历HTML标签构建向量表示网页结构特征。通过向量转化工具word2vec将title、meta等关键标签中的文本转化为向量表示文本特征,将文本特征和结构特征两种不同的特征以向量的形式融合起来,对网页进行分类。实验结果表明,融合文本和结构特征的网页分类方法更加全面和有效,取得了比单一特征更好的分类效果。其次,提出一种基于置信度的组合分类器的方法,然后基于文本和结构特征的融合以及分类器的组合构建网页分类系统。不同分类器有不同的特点,多个分类器的组合可以实现分类器性能的互补。我们计算一组样本的分类准确率作为相应分类结果的置信度,接着基于置信度采用投票、比较大小等决策策略,组合多个子分类器,得出组合分类器的分类结果。基于特征融合和分类器组合的网页分类系统包括数据采集与处理模块、特征提取与向量化模块、子分类器分类模块和组合分类模块。在Amazon数据集、7-web-genres数据集、DMOZ数据集中进行实验,网页分类的准确率分别达到94.2%、95.4%、95.7%,提出的网页分类方法相比同类网页分类方法准确率更高。第三,提出一种移动端网页的分类方法。移动端设备小屏、竖屏的设计使得移动端网页呈现列表式的简单结构,网页内容多以信息流的形式出现,重要的信息出现在前面。针对移动端网页的这些特征,我们提出采用信息流定位的算法,提取主旨信息、头部信息和信息流信息进行分类。采集移动端网页进行实验,结果表明,我们提出的移动端网页分类方法准确率达到97.2%。
【学位授予单位】：浙江大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：TP393.092;TP301.6
【图文】：

网页,目标网,子网,配偶

子网页（Ｃｈｉｌｄ邋ｐａｇｅ）、兄弟网页（Ｓｉｂｌｉｎｇ邋ｐａｇｅ）和配偶网页（Ｓｐｏｕｓｅ邋ｐａｇｅ）的标签类别逡逑组合起来帮助目标网页分类，相比常见的网页文本分类准确率有了很大的提高。逡逑如图１．１所示，如果当前网页被认定为目标网页（Ｔａｒｇｅｔｐａｇｅ），那么父网页指的是逡逑通过超链接指向目标网页的网页，子网页指的是目标网页通过超链接指向的网页，逡逑兄弟网页是父网页指向的不同于目标网页的网页，配偶网页则是另一个同样指向逡逑子网页的网页。逡逑／兄弟网页逡逑（Ｓｉｂｌｉｎｇ邋ｐａｇｅ）逡逑父网页逦＿逦￣逡逑（Ｐａｒｅｎｔ邋ｐａｇｅ）逦目标网页逦；逡逑（Ｔａｆｇｅｔ邋ｐａｇｅ）逦子网页逡逑／邋（Ｃｈｉｌｄ邋ｐａｇｅ）逡逑逦ｒ逡逑配偶网页逡逑（Ｓｐｏｕｓｅ邋ｐａｇｅ）逡逑图１．１相邻网页的关系图逡逑３逡逑

架构图,架构,调度器,网址

Ｓｃｒａｐｙ是一个为了爬取网页内容、提取结构性数据而编写的应用框架，其优逡逑点在于可以根据使用者的需求进行修改，从而方便地应用，Ｓｃｒａｐｙ在数据挖掘、逡逑网页监测和自动化测试等方面有着广泛的用途［２４］，架构如图２．１所示．逡逑调度器逡逑逦Ｊ－逦逦＼逦ｆ互联网逡逑管道￣——Ｓｃｒａｐｙ引下载器逡逑＾逦下载器逡逑存储数据＼逦ｈ爬虫逦，逡逑＼逦中间件逦＾返回数据响应逡逑一邋￣￣１逡逑Ｉ逡逑４．爬虫逡逑图２．１邋Ｓｃｒａｐｙ架构图逡逑图２．１中各个组件的功能分别是：逡逑Ｓｃｒａｐｙ引擎（Ｅｎｇｉｎｅ）：负责处理整个系统内部的数据流，在调度器、下载器、逡逑爬虫、管道之间进行通讯，传递信号和数据。逡逑调度器（Ｓｃｈｅｄｕｌｅｒ）：调度器用一个队列保存所要爬取网页的网址，当Ｓｃｒａｐｙ逡逑引擎发送请求（Ｒｅｑｕｅｓｔ）时，调度器将网址整理和排列，压入网址队列。调度器决逡逑定下一个爬取的网址是什么，当引擎需要时交还给引擎。逡逑７逡逑

示意图,示意图,长期记忆,信息

度弥散；反之，如果＃大于１，每一次误差累乘％误差传递到初始神经单元逡逑可能会是一个很大的数，这种情况被称之为梯度爆炸。因此当序列很长的时候，逡逑ＲＮＮ失去了学习的能力，这个问题可以被图２．３所示的长短期记忆［２８］（Ｌｏｎｇ逡逑Ｓｈｏｒｔ－Ｔｅｒｍ邋Ｍｅｍｏｒｙ，邋ＬＳＴＭ）解决。逡逑逦＊（0ｔ）邋０ｕｔＰｕｔ逡逑＼邋Ｆｏｒｇｅｔ逡逑Ｇａｔｅ逡逑图２．３长短期记忆网络示意图逡逑长短期记忆（ＬＳＴＭ）网络是ＲＮＮ的一种特殊类型，可以学习长期依赖的信息。逡逑ＬＳＴＭ通过门来判断信息是否有用，与普通ＲＮＮ相比，ＬＳＴＭ多了邋３个控制门逡逑（Ｇａｔｅ）：输入门（Ｉｎｐｕｔ邋Ｇａｔｅ）、输出门（Ｏｕｔｐｕｔ邋Ｇａｔｅ）、遗忘门（Ｆｏｒｇｅｔ邋Ｇａｔｅ）。当新的逡逑输入来临，模型要忘掉不再需要的长期记忆信息，然后学习输入中需要的部分，逡逑保存在长期记忆中，并且决定对当前输出而言哪些信息是有用的。逡逑１１逡逑

【相似文献】