基于并行机器学习的大规模专利分类
发布时间:2020-07-18 04:42
【摘要】:当今社会很多实际问题都可以归结为大规模的模式识别问题,比如对网页信息的数据挖掘、交通系统客流分析等等。然而对于大规模问题,即使像SVM等高效算法依然难以真正突破这个瓶颈。另一方面,现在计算资源越来越丰富,利用丰富的并行计算资源来解决大规模的实际问题是一个可行的方法。专利文本分类问题是一个大规模、不平衡问题,实现专利分类具有很高的现实意义,例如分析某领域技术发展趋势等。为了解决专利文本分类等实际问题,我们利用现在越来越丰富的计算资源,采用基于并行的算法结构,从而实现对原问题有效的模式分类。吕宝粮和他的合作者提出了一种并行的支持向量机,称为最小最大模块化网络(M3),它是基“分而治之”的思想解决大规模问题的有效的学习算法。M3将大规模问题进行分解,使其转变为大量小规模问题,从而实现了并行化。被分解成的小规模问题相对简单,容易解决,而且这些问题相互独立,最后将子问题的解规则进行合并,从而得到原问题的解。专利分类要求分类精度高、分类效果好,为了解决实际问题,我们在非对称选择算法、对称选择算法和决策树选择算法的基础上,提出了基于辅助分类器的集成策略。实验证明,基于辅助分类器的集成策略可以有效提高分类精度。同时,我们采用了多种将大规模问题转化为小规模问题的划分策略和多种子模块集成策略,进行组合实验并进行了详细比较,相对于传统支持向量机,采用基于专利数据集先验知识的划分方法和辅助分类器集成策略有很好的性能表现。基于辅助分类器集成策略有较强的一般性和适应性,可以自动拟合子分类器权重,本文的大量实验验证了上述观点。
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP181;N18
本文编号:2760427
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP181;N18
【引证文献】
相关期刊论文 前1条
1 马芳;;基于RBFNN的专利自动分类研究[J];现代图书情报技术;2011年12期
本文编号:2760427
本文链接:https://www.wllwen.com/projectlw/zzkxlw/2760427.html