基于多特征和组合分类器的网页分类
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP393.092;TP301.6
【图文】:
子网页(Child邋page)、兄弟网页(Sibling邋page)和配偶网页(Spouse邋page)的标签类别逡逑组合起来帮助目标网页分类,相比常见的网页文本分类准确率有了很大的提高。逡逑如图1.1所示,如果当前网页被认定为目标网页(Targetpage),那么父网页指的是逡逑通过超链接指向目标网页的网页,子网页指的是目标网页通过超链接指向的网页,逡逑兄弟网页是父网页指向的不同于目标网页的网页,配偶网页则是另一个同样指向逡逑子网页的网页。逡逑/兄弟网页逡逑(Sibling邋page)逡逑父网页逦_逦 ̄逡逑(Parent邋page)逦目标网页逦;逡逑(Tafget邋page)逦子网页逡逑/邋(Child邋page)逡逑逦r逡逑配偶网页逡逑(Spouse邋page)逡逑图1.1相邻网页的关系图逡逑3逡逑
Scrapy是一个为了爬取网页内容、提取结构性数据而编写的应用框架,其优逡逑点在于可以根据使用者的需求进行修改,从而方便地应用,Scrapy在数据挖掘、逡逑网页监测和自动化测试等方面有着广泛的用途[24],架构如图2.1所示.逡逑调度器逡逑逦J-逦逦\逦f互联网逡逑管道 ̄——Scrapy引下载器逡逑^逦下载器逡逑存储数据\逦h爬虫逦,逡逑\逦中间件逦^返回数据响应逡逑一邋 ̄ ̄1逡逑I逡逑4.爬虫逡逑图2.1邋Scrapy架构图逡逑图2.1中各个组件的功能分别是:逡逑Scrapy引擎(Engine):负责处理整个系统内部的数据流,在调度器、下载器、逡逑爬虫、管道之间进行通讯,传递信号和数据。逡逑调度器(Scheduler):调度器用一个队列保存所要爬取网页的网址,当Scrapy逡逑引擎发送请求(Request)时,调度器将网址整理和排列,压入网址队列。调度器决逡逑定下一个爬取的网址是什么,当引擎需要时交还给引擎。逡逑7逡逑
度弥散;反之,如果#大于1,每一次误差累乘%误差传递到初始神经单元逡逑可能会是一个很大的数,这种情况被称之为梯度爆炸。因此当序列很长的时候,逡逑RNN失去了学习的能力,这个问题可以被图2.3所示的长短期记忆[28](Long逡逑Short-Term邋Memory,邋LSTM)解决。逡逑逦*(0t)邋0utPut逡逑\邋Forget逡逑Gate逡逑图2.3长短期记忆网络示意图逡逑长短期记忆(LSTM)网络是RNN的一种特殊类型,可以学习长期依赖的信息。逡逑LSTM通过门来判断信息是否有用,与普通RNN相比,LSTM多了邋3个控制门逡逑(Gate):输入门(Input邋Gate)、输出门(Output邋Gate)、遗忘门(Forget邋Gate)。当新的逡逑输入来临,模型要忘掉不再需要的长期记忆信息,然后学习输入中需要的部分,逡逑保存在长期记忆中,并且决定对当前输出而言哪些信息是有用的。逡逑11逡逑
【相似文献】
相关期刊论文 前10条
1 ;网页分类新标准启用儿童上网浏览有保证[J];电脑知识与技术;2002年07期
2 库尔班·麦麦提;吾守尔·斯拉木;;网页分类技术研究现状与发展趋势的图谱分析[J];现代电子技术;2019年13期
3 费玉莲;姜波;李渊;;面向异步通信机制的网页分类研究[J];计算机应用;2008年02期
4 张茂元;邹春燕;卢正鼎;;一种基于变调整学习规则的模糊网页分类方法研究[J];计算机研究与发展;2007年01期
5 郭淼霞;;中文网页分类研究综述[J];赤峰学院学报(自然科学版);2011年12期
6 宗永升;张yN;;支持向量机与K近邻结合的网页分类方法[J];计算机仿真;2010年09期
7 黄科,马少平;基于统计分词的中文网页分类[J];中文信息学报;2002年06期
8 傅向华;刘国;陈冬剑;;一种核心子集选择训练的大规模中文网页分类方法[J];小型微型计算机系统;2011年08期
9 单松巍,冯是聪,李晓明;几种典型特征选取方法在中文网页分类上的效果比较[J];计算机工程与应用;2003年22期
10 张义忠,赵明生,梁久祯;基于自组织特征映射的网页分类研究[J];信息与控制;2003年02期
相关会议论文 前2条
1 李立宇;唐世渭;杨冬青;叶恒强;王腾蛟;;COMMIX-Classifier—自动网页分类系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 米晓芳;秦洋;王立宏;宋宜斌;;基于潜在语义差异的医学网页分类[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
相关硕士学位论文 前10条
1 邓立;基于多特征和组合分类器的网页分类[D];浙江大学;2019年
2 朱红波;基于SVM的多示例多标签网页分类[D];中国石油大学(华东);2017年
3 王文杰;基于多示例多标签框架的网页分类信息丢失的研究[D];中国石油大学(华东);2017年
4 唐磊;基于多示例多标签支持向量机不平衡网页分类[D];中国石油大学(华东);2017年
5 吴琦炜;基于深度学习的高效网页分类技术的研究与分析[D];北京邮电大学;2019年
6 刘佳男;面向机构官网的数据抽取研究[D];哈尔滨工业大学;2018年
7 杜宇昆;基于链接特征的视频广告过滤技术[D];电子科技大学;2018年
8 张丹;面向内容的网页分类方法研究与实现[D];南京邮电大学;2017年
9 黄美宁;基于用户行为分析的网页分类系统的研究与实现[D];北京邮电大学;2011年
10 王海江;基于Spark的新闻网页分类系统的设计与实现[D];北京邮电大学;2017年
本文编号:2769751
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2769751.html