极大不相关多元逻辑回归及其在大规模文本分类中的应用

发布时间:2021-12-10 06:29
  随着数据规模的不断增大,普通的多元逻辑回归已经不能够满足大数据处理的需求。其一,大规模数据中通常含有较多重复冗余的信息,也就是说多个不同的类别之间可能包含相似或相同的特征,这些特征将严重影响分类算法的决策,最终导致错误的分类结果。其二,随着数据规模的增大,计算所需的资源已经超过单一机器的极限,导致算法训练时间过长,或是根本无法进行。针对数据冗余问题,本文提出了一种极大不相关多元逻辑回归(Maximal Uncorrelated Multinomial Logistic Regression,MUMLR)分类模型。其主要思想是通过增加极大不相关正则项来降低数据中共同信息的权重,尽量保留更多不相关、有判别的信息。此外,鉴于多元逻辑回归与神经网络的关系,本文将“极大不相关”在多元逻辑回归中取得的成果应用到了神经网络中,并提出了极大不相关神经网络(Maximal Uncorrelated Neural Networks,MUNN)。极大不相关神经网络同时具备了极大不相关多元逻辑回归算法的高鲁棒性和神经网络模型强大的拟合能力,使得该算法具有广阔的应用前景。针对数据规模超出单一机器处理极限的问题,... 

【文章来源】:重庆邮电大学重庆市

【文章页数】:65 页

【学位级别】:硕士

【部分图文】:

极大不相关多元逻辑回归及其在大规模文本分类中的应用


MNIST数据集中手写体1和7

公开数据,收敛性,算法


22(c) (d)图 3.3 不同算法在各公开数据集上的收敛性(a) (b)0246810121 2 3 4 5 6 7 8 9 10NormMUMLR WDMLR SMLR02468101 3 5 7 9 11 13 15 17 19NormMUMLR WDMLR SMLR

识别率,不相关,一致性


(c) RCV1 (d) Realsim图 4.1 一致性极大不相关多元逻辑回归识别率根据图 4.1-4.2 可知,随着数据规模的增大,串行算法的计算时间显著增用一致性极大不相关多元逻辑回归可以显著提高算法的运行效率,并能在一度上提高算法的识别率。由图 4.1(a)和图 4.1(b)可以看出,当数据分块不太多的情况下,算法的识着分块的个数线性增高,当数据分块个数过大时,算法的识别率开始出现下成这种结果的主要原因是,当数据块数不是很多的情况下,每个节点都包含数据块,这意味着每个节点都能够得到充分的训练。当数据块数继续增大时节点包含的数据逐渐减少,模型的泛化性能必然降低。对于图 4.1(c)和图 4.1(于数据集规模较大,虽然划分为较多块数,每个节点仍然含有较多的数据进,因此在实验中,算法的识别率呈持续上升的趋势。

【参考文献】:
期刊论文
[1]利用年际增量法对西北东部汛期降水的定量预测研究[J]. 吕廷珍,邓少格,胡轶佳,张凯.  干旱气象. 2015(03)



本文编号:3532074

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3532074.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5c695***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com