基于MIMLRBF神经网络的网页分类方法
[Abstract]:With the development and popularization of science and technology and network, massive information is released through the network. In order to obtain useful information from a large number of web pages, the automatic classification technology of web pages emerges as the times require. It is a kind of automatic labeling method of web pages based on machine learning. Among them, the RBF neural network with multi-example and multi-label learning framework has excellent learning and classification ability, and has become a research hotspot in machine learning. This paper introduces the development course, principle and related technology of RBF neural network, analyzes the training classification algorithm of RBF neural network, and studies the new learning framework and related algorithm of multi-example and multi-label. The MIMLRBF neural network algorithm which uses RBF neural network to solve multi-example and multi-label problem is discussed. In the case of unbalanced sample set the MIMLRBF neural network produces an imbalance in the number of hidden layer neurons and neglects the classes with fewer samples during training which makes the classification effect worse. In order to solve this problem, an improved algorithm is proposed. Firstly, the class with fewer samples is determined. According to the number of samples in this class, the initial cluster center is selected for each class, which is far away from each class. According to the size of the samples, we can determine whether we can be a new cluster center. Finally, we use the correlation algorithm to optimize the center object. A cluster center corresponds to a hidden layer neuron, so the number of hidden layer neurons can be determined dynamically according to the number of samples, which tends to balance and reduces the effect of imbalance on network performance. The classical MIMLRBF neural network algorithm selects a uniform width parameter value for each radial basis function without considering the density of samples near each center point. To solve this problem, an improved algorithm considering the distribution of samples in clusters is proposed. First, the correlation algorithm is used to find the center points of each class, and the average distance and variance between the center points are calculated. The distribution of the center points reflects the distribution of the whole sample set, and then the variance of the sample distribution in each cluster is calculated. This value reflects the distribution of samples in each cluster, and finally determines the appropriate width value for each radial basis function according to the cluster distribution and the overall sample distribution, thus making the whole network smoother. Finally, the algorithm is compared with three classical algorithms on two general data sets, and the improved algorithm is applied to the web page classification system. Experimental data show that the classification efficiency and effect of the proposed improved algorithm are superior.
【学位授予单位】:中国石油大学(华东)
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092;TP183
【相似文献】
相关期刊论文 前10条
1 高波,张忠能,查志琴;基于文字链接比的网页分类的研究[J];计算机工程与应用;2004年27期
2 鲁明羽;沈抖;郭崇慧;陆玉昌;;面向网页分类的网页摘要方法[J];电子学报;2006年08期
3 张茂元;邹春燕;卢正鼎;;一种基于变调整学习规则的模糊网页分类方法研究[J];计算机研究与发展;2007年01期
4 刘蓉;周建中;;一种网页分类中基于图的半指导学习算法[J];计算机应用研究;2008年03期
5 肖靖;唐宁九;;网络监控系统中的实用网页分类技术[J];软件导刊;2009年01期
6 刘思含;贾美娟;;树匹配算法在网页分类中的应用[J];电脑学习;2010年04期
7 薛永大;;网页分类技术研究综述[J];电脑知识与技术;2012年25期
8 黄科,马少平;基于统计分词的中文网页分类[J];中文信息学报;2002年06期
9 孙建涛,沈抖,陆玉昌,石纯一;网页分类技术[J];清华大学学报(自然科学版);2004年01期
10 程传鹏;;中文网页分类的研究与实现[J];中原工学院学报;2007年01期
相关会议论文 前7条
1 李立宇;唐世渭;杨冬青;叶恒强;王腾蛟;;COMMIX-Classifier—自动网页分类系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 万中英;王明文;廖海波;左家莉;;维数约简在网页分类中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
3 彭涛;左万利;赫枫龄;张长利;;基于粒子群优化算法的网页分类技术[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
4 刘艳民;;中文网页分类方法的研究[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
5 张迪;郑德权;赵铁军;于浩;;Blog网页分类与识别技术研究[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
6 张东娜;彭宏;吴铁峰;;一种基于粗集与贝叶斯分类器的中文网页分类方法[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
7 米晓芳;秦洋;王立宏;宋宜斌;;基于潜在语义差异的医学网页分类[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
相关硕士学位论文 前10条
1 周军;中文网页自动分类系统及关键技术研究与实现[D];国防科学技术大学;2013年
2 王绵绵;基于MIMLRBF神经网络的网页分类方法[D];中国石油大学(华东);2014年
3 王晶;面向通信管理的电子政务系统及其网页分类的研究与实现[D];上海交通大学;2009年
4 韩培培;网页分类及存储查询系统的设计及实现[D];燕山大学;2010年
5 张祥;一个网页分类系统的研究与实现[D];北京邮电大学;2013年
6 伍菲;面向主题型的网页分类技术的研究与实现[D];华中科技大学;2011年
7 段昕;基于视觉特征中文网页分类方法的研究[D];山东大学;2007年
8 汪雷;基于文本挖掘的网页分类系统研究与实现[D];武汉理工大学;2013年
9 许世明;中文网页分类技术研究及预分类算法实现[D];西安电子科技大学;2009年
10 刘康炜;基于支持向量机的网页分类技术研究[D];中国石油大学;2009年
,本文编号:2165014
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2165014.html