基于支持向量机主动学习的网页分类方法
发布时间:2021-11-09 09:14
随着互联网技术的迅速发展以及信息量爆炸式的增长,如何对这些海量数据进行自动分类已成为当今网页分类领域研究热点。在众多网页自动分类算法中,支持向量机(SVM)以其出色的学习能力和较高的分类精度,已被各个互联网公司的科研部门所采纳。本文中介绍了支持向量机的研究现状、理论基础和训练过程。分析了主动学习思想在支持向量机中的应用以及多类别分类问题。针对在传统主动学习算法中随机或者根据先验概率来选取初始样本点的问题,以及在选取训练集时奇异点对整体算法的影响等因素,提出了一种新的选择标准:首先应用最大最小距离算法获取初始聚类中心,然后应用K-means算法得到精确的聚类中心并以聚类中心作为初始样本点,从而避免了随机地选择初始样本点;在进行训练样本点选取时应用样本点缩减的思想,将缩减后的样本集聚类,以聚类中心作为新的训练点,该方法能够减小选到奇异点的风险。由于支持向量机只能处理两类分类问题,而现实的网页分类通常为多类别分类。所以本文结合训练集缩减聚类选择的主动学习方法,提出一种基于二叉树的多类主动学习分类算法。最后,将改进的主动学习训练算法应用到网页分类中,对改进算法进行试验对比。实验结果表明,改进算...
【文章来源】:中国石油大学(华东)山东省 211工程院校 教育部直属院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
非线
27 图3-6 查全率与查全率对比Fig3-6 Comparison of recall and precision表3-5是使用改进算法和主动学习算法所得到分类器分别对测试集样本进行分类所得到的查准率和查全率的值,而图 3-6 则是对这两组数据通过图表的形式进行更直观的展示。从上述结果中不难看出,两类算法都具有很好的可扩展性,即对新的未知样本能够有一个很好的分类,但改进算法整体的性能是高于主动学习算法的。从图表中我们还能看出一个客观的结论,那就是查准率和查全率一般是成反比的关系,即查全率高的查准率往往比较低,这也从另一方面验证了我们程序的正确性。3.5 本章小结在本章中针对主动学习中存在的问题提出了一种改进算法。由于基于主动学习算法选取初始样本点的随机性或者根据先验概率而没有一个选取标准的问题。本文提出了先聚类,然后选取聚类中心点作为初始训练样本点的方法,在该过程中首先采用最大最小距离法得到初始的聚类中心,然后应用 K-means 算法优化聚类中心从而得到最终的初始样本点
Fig4-1 the process of DAG decision码分类多类分类问题时,我们最好根据该问题的特征来构造出这些两类分类的决策函数,最后根据这些决策函策函数。不失一般性,我们来考虑将 M 个类进行分 L 个小的两类分类问题。数据进行预处理完后将得阵ijMLSs ( ),该矩阵是 M L阶。该矩阵的第i行把第i类在第 j 个两类分类问题中看作是正类的话别看成是负类,并且 1ijs 。下面解决的问题就是函数。我们以第 j 个两类问题为例,那么就能对于任意一个输入值x,应该先用得到的 L 个决策
【参考文献】:
期刊论文
[1]基于集成的非均衡数据分类主动学习算法[J]. 李卓然,张永. 计算机应用与软件. 2012(06)
[2]文本分类中改进型CHI特征选择方法的研究[J]. 裴英博,刘晓霞. 计算机工程与应用. 2011(04)
[3]一种基于中心文档的KNN中文文本分类算法[J]. 鲁婷,王浩,姚宏亮. 计算机工程与应用. 2011(02)
[4]支持带有通配符的字符串匹配算法[J]. 运正佳,李轶男,杨晓春. 计算机科学与探索. 2010(11)
[5]属性加权的朴素贝叶斯集成分类器[J]. 张雯,张化祥. 计算机工程与应用. 2010(29)
[6]对网络爬虫技术的研究[J]. 杨靖韬,陈会果. 科技创业月刊. 2010(10)
[7]基于统计方法的Web新词分词方法研究[J]. 张敏,王春红. 计算机工程与科学. 2010(05)
[8]一种基于预分类的高效SVM中文网页分类器[J]. 许世明,武波,马翠,邸思,徐洪奎,杜如虚. 计算机工程与应用. 2010(01)
[9]主动学习研究综述[J]. 龙军,殷建平,祝恩,赵文涛. 计算机研究与发展. 2008(S1)
[10]中文文本分类中的特征选择算法研究[J]. 胡佳妮,徐蔚然,郭军,邓伟洪. 光通信研究. 2005(03)
硕士论文
[1]中文Web文档倾向性自动分类研究[D]. 胡蓉.四川大学 2003
本文编号:3485049
【文章来源】:中国石油大学(华东)山东省 211工程院校 教育部直属院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
非线
27 图3-6 查全率与查全率对比Fig3-6 Comparison of recall and precision表3-5是使用改进算法和主动学习算法所得到分类器分别对测试集样本进行分类所得到的查准率和查全率的值,而图 3-6 则是对这两组数据通过图表的形式进行更直观的展示。从上述结果中不难看出,两类算法都具有很好的可扩展性,即对新的未知样本能够有一个很好的分类,但改进算法整体的性能是高于主动学习算法的。从图表中我们还能看出一个客观的结论,那就是查准率和查全率一般是成反比的关系,即查全率高的查准率往往比较低,这也从另一方面验证了我们程序的正确性。3.5 本章小结在本章中针对主动学习中存在的问题提出了一种改进算法。由于基于主动学习算法选取初始样本点的随机性或者根据先验概率而没有一个选取标准的问题。本文提出了先聚类,然后选取聚类中心点作为初始训练样本点的方法,在该过程中首先采用最大最小距离法得到初始的聚类中心,然后应用 K-means 算法优化聚类中心从而得到最终的初始样本点
Fig4-1 the process of DAG decision码分类多类分类问题时,我们最好根据该问题的特征来构造出这些两类分类的决策函数,最后根据这些决策函策函数。不失一般性,我们来考虑将 M 个类进行分 L 个小的两类分类问题。数据进行预处理完后将得阵ijMLSs ( ),该矩阵是 M L阶。该矩阵的第i行把第i类在第 j 个两类分类问题中看作是正类的话别看成是负类,并且 1ijs 。下面解决的问题就是函数。我们以第 j 个两类问题为例,那么就能对于任意一个输入值x,应该先用得到的 L 个决策
【参考文献】:
期刊论文
[1]基于集成的非均衡数据分类主动学习算法[J]. 李卓然,张永. 计算机应用与软件. 2012(06)
[2]文本分类中改进型CHI特征选择方法的研究[J]. 裴英博,刘晓霞. 计算机工程与应用. 2011(04)
[3]一种基于中心文档的KNN中文文本分类算法[J]. 鲁婷,王浩,姚宏亮. 计算机工程与应用. 2011(02)
[4]支持带有通配符的字符串匹配算法[J]. 运正佳,李轶男,杨晓春. 计算机科学与探索. 2010(11)
[5]属性加权的朴素贝叶斯集成分类器[J]. 张雯,张化祥. 计算机工程与应用. 2010(29)
[6]对网络爬虫技术的研究[J]. 杨靖韬,陈会果. 科技创业月刊. 2010(10)
[7]基于统计方法的Web新词分词方法研究[J]. 张敏,王春红. 计算机工程与科学. 2010(05)
[8]一种基于预分类的高效SVM中文网页分类器[J]. 许世明,武波,马翠,邸思,徐洪奎,杜如虚. 计算机工程与应用. 2010(01)
[9]主动学习研究综述[J]. 龙军,殷建平,祝恩,赵文涛. 计算机研究与发展. 2008(S1)
[10]中文文本分类中的特征选择算法研究[J]. 胡佳妮,徐蔚然,郭军,邓伟洪. 光通信研究. 2005(03)
硕士论文
[1]中文Web文档倾向性自动分类研究[D]. 胡蓉.四川大学 2003
本文编号:3485049
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3485049.html
最近更新
教材专著