基于多示例多标签支持向量机的网页分类方法
本文选题:多示例多标签 + 网页分类 ; 参考:《中国石油大学(华东)》2014年硕士论文
【摘要】:随着互联网的普及,网络的信息量呈指数增长,给人们从互联网上获取有用信息带来了巨大的挑战,由此网页分类技术应运而生,它可以帮助人们有效的组织和利用网络上的海量信息。在众多网页自动分类算法中,多示例多标签框架下的支持向量机因其出色的学习能力,已成为机器学习界的研究热点。介绍了网页分类的一般流程及关键技术,分析了支持向量机的发展、基本原理以及常用训练算法,阐述了目前几种常用的多示例多标签框架下的训练算法,研究了最新的多示例多标签框架下的支持向量机算法——E-MIMLSVM+算法。针对目前多示例多标签支持向量机中的信息丢失问题,即标签与示例间的联系信息和标签之间联系信息,对多示例多标签支持向量机算法进行改进,提出了基于集成分类器链的E-MIMLSVM+算法的改进方法,集成分类器链是一种能够利用标签间联系信息的技术,这种技术因采用了特征空间和示例空间上的随机子集选取策略,具有较低的时间复杂度和空间复杂度,能够极大地提高算法的分类速度和准确率。针对传统监督学习中存在的小样本问题,提出了多示例多标签框架下的直推式支持向量机分类算法,这是一种半监督学习方法,在已标记样本的数量有限的情况下,可以充分利用大量的未标记样本来训练分类模型,由于大量未标记样本的参与使得训练出的分类模型能够更加准确地反映样本数据的分布规律,在遇到新样本时分类模型可以给出更适合的分类输出,有效地提高了分类算法的泛化能力。最后,根据改进算法设计网页分类系统,并进行了分类实验和实验结果分析。实验数据表明,改进算法能够提高分类速度和准确率。
[Abstract]:With the popularity of the Internet, the amount of information on the network has increased exponentially, which has brought great challenges to people to obtain useful information from the Internet. As a result, the technology of web page classification has emerged as the times require. It can help people to effectively organize and use the vast amount of information on the network. Among many automatic web page classification algorithms, support vector machine (SVM) based on multi-example and multi-label framework has become a hot topic in the field of machine learning because of its excellent learning ability. This paper introduces the general flow and key technology of web page classification, analyzes the development, basic principle and common training algorithm of support vector machine, and expounds several common training algorithms under the framework of multi-example and multi-label. In this paper, the new support vector machine (SVM) algorithm based on multi-example and multi-label framework is studied. Aiming at the problem of information loss in multi-example multi-tag support vector machine, that is, the contact information between tag and example and the contact information between tags, the algorithm of multi-example multi-label support vector machine is improved. An improved method of E-MIMLSVM algorithm based on ensemble classifier chain is proposed. The integrated classifier chain is a technique that can utilize the information between tags. This technique adopts the strategy of random subset selection in feature space and sample space. With low time complexity and space complexity, the classification speed and accuracy of the algorithm can be greatly improved. In order to solve the problem of small sample in traditional supervised learning, this paper proposes a classification algorithm of direct push support vector machine (SVM) under the framework of multi-example and multi-label, which is a semi-supervised learning method, with a limited number of labeled samples. A large number of unlabeled samples can be fully used to train the classification model. Because of the participation of a large number of unlabeled samples, the trained classification model can more accurately reflect the distribution of sample data. When new samples are encountered, the classification model can give a more suitable classification output, which effectively improves the generalization ability of the classification algorithm. Finally, the web page classification system is designed according to the improved algorithm, and the classification experiments and experimental results are carried out. Experimental data show that the improved algorithm can improve the classification speed and accuracy.
【学位授予单位】:中国石油大学(华东)
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092
【相似文献】
相关期刊论文 前10条
1 林茜卡;傅秀芬;滕少华;李云;;协同标签系统的应用研究[J];暨南大学学报(自然科学与医学版);2009年01期
2 吴超;周波;;基于复杂网络的社会化标签分析[J];浙江大学学报(工学版);2010年11期
3 吴金成;曹娇;赵文栋;张磊;;标签集中式发布订阅机制性能分析[J];指挥控制与仿真;2010年06期
4 李晓燕;陈刚;寿黎但;董金祥;;一种面向协作标签系统的图片检索聚类方法[J];中国图象图形学报;2010年11期
5 袁柳;张龙波;;基于概率主题模型的标签预测[J];计算机科学;2011年07期
6 张斌;张引;高克宁;郭朋伟;孙达明;;融合关系与内容分析的社会标签推荐[J];软件学报;2012年03期
7 王永刚;严寒冰;许俊峰;胡建斌;陈钟;;垃圾标签的抵御方法研究[J];计算机研究与发展;2013年10期
8 汪祥;贾焰;周斌;陈儒华;韩毅;;基于交互关系的微博用户标签预测[J];计算机工程与科学;2013年10期
9 顾亦然;陈敏;;一种三部图网络中标签时间加权的推荐方法[J];计算机科学;2012年08期
10 赵亚楠;董晶;董佳梁;;基于社会化标注的博客标签推荐方法[J];计算机工程与设计;2012年12期
相关会议论文 前6条
1 朱广飞;董超;王衡;汪国平;;照片标签的智能化管理[A];第四届和谐人机环境联合学术会议论文集[C];2008年
2 房冠南;袁彩霞;王小捷;李江;宋占江;;面向对话语料的标签推荐[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 梅放;林鸿飞;;基于社会化标签的移动音乐检索[A];第五届全国信息检索学术会议论文集[C];2009年
4 李静;林鸿飞;;基于用户情感标签的音乐检索算法[A];第六届全国信息检索学术会议论文集[C];2010年
5 骆雄武;万小军;杨建武;吴於茜;;基于后缀树的Web检索结果聚类标签生成方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 王波;唐常杰;段磊;尹佳;左R,
本文编号:1894454
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1894454.html