级联式低消耗大规模网页分类在线获取方法
本文选题:大规模网页数据获取 + 网页分类 ; 参考:《计算机应用》2017年04期
【摘要】:针对海量网页在线自动高效获取网页分类系统设计中如何更有效地平衡准确度与资源开销之间的矛盾问题,提出一种基于级联式分类器的网页分类方法。该方法利用级联策略,将在线与离线网页分类方法结合,各取所长。级联分类系统的一级分类采用在线分类方法,仅利用锚文本中网页标题包含的特征预测其分类,同时计算分类结果的置信度,分类结果的置信度由分类后验概率分布的信息熵度量。若置信度高于阈值(该阈值采用多目标粒子群优化算法预先计算取得),则触发二级分类器。二级分类器从下载的网页正文中提取特征,利用预先基于网页正文特征训练的分类器进行离线分类。结果表明,相对于单独的在线法和离线法,级联分类系统的F1值分别提升了10.85%和4.57%,并且级联分类系统的效率比在线法未降低很多(30%左右),而比离线法的效率提升了约70%。级联式分类系统不仅具有更高的分类能力,而且显著地减少了分类的计算开销与带宽消耗。
[Abstract]:Aiming at the problem of how to balance the contradiction between accuracy and resource cost more effectively in the design of online automatic and efficient web page classification system for massive web pages, a web page classification method based on cascade classifier is proposed. This method combines online and offline web page classification methods with concatenation strategy. The first level classification of cascaded classification system adopts online classification method. Only the features contained in the page title in anchor text are used to predict the classification, and the confidence degree of the classification result is calculated at the same time. The confidence of classification results is measured by the information entropy of the posteriori probability distribution. If the confidence level is higher than the threshold (the threshold is obtained by multi-objective particle swarm optimization algorithm in advance), the two-level classifier is triggered. The second level classifier extracts features from the downloaded text of a web page and uses a classifier based on the training of page text features to carry out offline classification. The results show that the F _ 1 value of the cascade classification system increases by 10.85% and 4.57% respectively compared with the single on-line method and offline method, and the efficiency of the cascade classification system is less than that of the on-line method by about 30%, and the efficiency of the cascade classification system is increased by about 70% compared with the offline method. The cascade classification system not only has a higher classification capability but also significantly reduces the computational overhead and bandwidth consumption of the classification.
【作者单位】: 成都信息工程大学软件工程学院;广东省气象台;
【基金】:国家自然科学基金资助项目(61501063,61501064) 四川省科技计划项目(2016JY0240) 四川省教育厅科研基金资助项目(15ZB0177)~~
【分类号】:TP393.092
【相似文献】
相关期刊论文 前10条
1 高波,张忠能,查志琴;基于文字链接比的网页分类的研究[J];计算机工程与应用;2004年27期
2 鲁明羽;沈抖;郭崇慧;陆玉昌;;面向网页分类的网页摘要方法[J];电子学报;2006年08期
3 张茂元;邹春燕;卢正鼎;;一种基于变调整学习规则的模糊网页分类方法研究[J];计算机研究与发展;2007年01期
4 刘蓉;周建中;;一种网页分类中基于图的半指导学习算法[J];计算机应用研究;2008年03期
5 肖靖;唐宁九;;网络监控系统中的实用网页分类技术[J];软件导刊;2009年01期
6 刘思含;贾美娟;;树匹配算法在网页分类中的应用[J];电脑学习;2010年04期
7 薛永大;;网页分类技术研究综述[J];电脑知识与技术;2012年25期
8 黄科,马少平;基于统计分词的中文网页分类[J];中文信息学报;2002年06期
9 孙建涛,沈抖,陆玉昌,石纯一;网页分类技术[J];清华大学学报(自然科学版);2004年01期
10 程传鹏;;中文网页分类的研究与实现[J];中原工学院学报;2007年01期
相关会议论文 前7条
1 李立宇;唐世渭;杨冬青;叶恒强;王腾蛟;;COMMIX-Classifier—自动网页分类系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 万中英;王明文;廖海波;左家莉;;维数约简在网页分类中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
3 彭涛;左万利;赫枫龄;张长利;;基于粒子群优化算法的网页分类技术[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
4 刘艳民;;中文网页分类方法的研究[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
5 张迪;郑德权;赵铁军;于浩;;Blog网页分类与识别技术研究[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
6 张东娜;彭宏;吴铁峰;;一种基于粗集与贝叶斯分类器的中文网页分类方法[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
7 米晓芳;秦洋;王立宏;宋宜斌;;基于潜在语义差异的医学网页分类[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
相关硕士学位论文 前10条
1 周军;中文网页自动分类系统及关键技术研究与实现[D];国防科学技术大学;2013年
2 王绵绵;基于MIMLRBF神经网络的网页分类方法[D];中国石油大学(华东);2014年
3 王晶;面向通信管理的电子政务系统及其网页分类的研究与实现[D];上海交通大学;2009年
4 韩培培;网页分类及存储查询系统的设计及实现[D];燕山大学;2010年
5 张祥;一个网页分类系统的研究与实现[D];北京邮电大学;2013年
6 伍菲;面向主题型的网页分类技术的研究与实现[D];华中科技大学;2011年
7 段昕;基于视觉特征中文网页分类方法的研究[D];山东大学;2007年
8 汪雷;基于文本挖掘的网页分类系统研究与实现[D];武汉理工大学;2013年
9 许世明;中文网页分类技术研究及预分类算法实现[D];西安电子科技大学;2009年
10 刘康炜;基于支持向量机的网页分类技术研究[D];中国石油大学;2009年
,本文编号:1998745
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1998745.html