机器学习分类算法在居民收入预测中的应用
发布时间:2021-10-09 08:40
随着数据量指数级别的增长和计算机硬件设备的不断完善,机器学习算法迎来了发展的黄金时代。以熟知的互联网公司为例,百度的语音搜索、科大讯飞的语音识别、字节跳动的个性化推荐算法和滴滴出行的智能调度算法,都是机器学习算法在日常生活中的应用。分类算法作为机器学习算法中最常见的算法,有着坚实的数学理论基础,为大数据的处理和人工智能的发展提供了有效的方法。本文对机器学习中经典分类算法的研究背景和意义进行了阐述,并对机器学习中分类算法的国内外研究现状进行了总结。其中,重点介绍了四种经典的监督学习分类算法(逻辑回归、朴素贝叶斯、SVM和决策树)和一种集成学习的分类算法(随机森林),并详细地研究和分析了它们背后的数学原理。本文利用20世纪90年代美国人口普查数据,对居民年收入是否大于50k$进行分类预测。首先,利用数据类型转换、缺失值处理和数据标准化等方法,对数据进行预处理;其次使用三种经典的监督学习分类算法(逻辑回归、朴素贝叶斯和SVM)和一种集成学习的分类算法(随机森林)对预处理后的数据进行分类,并且使用混淆矩阵、准确率、精确率、召回率、F1值和ROC曲线对分类结果进行评价;最后基于SVM算法在分类超...
【文章来源】:华北电力大学(北京)北京市 211工程院校 教育部直属院校
【文章页数】:50 页
【学位级别】:硕士
【部分图文】:
1零阴id函数胭
2.3.2支持向量机的求解方法??支持向量机分类器的最优化问题,是目标函数为二次函数、约束条件为线性的??典型二次规划问题。目标函数为:??1?T??max—?sJ^y^co?xf?+?b)>\,i?=?\,2,...,n?(2-16)??Ml??为了方便求f和引入核函数,我们考虑目标1数的对偶问题:??"7?min?丄|卜2|???./.,乂(《7'?+?/))之?V?=?l,2”“,n?(2-17)??x?2??接下来,导入拉格朗日变量求解对偶问题,定义拉格朗日函数为:??1??L{〇),?bM)?=?-?||r/r?j?-?2]?or,?x,?+?6)?-1)?(2-18)??^?/=1??分别对仏6求偏导,并令1?=?0和&?=?〇,可得:??d(〇?db??
<45000?^?>=45000?<40?^?>=40??嫁?4?;;4?r^vt:??图2-5决策树例子??如图2-5所示为一个使用决策树来预测客户是否会购买产品的例子。其中,性??别属性是顶端的内部节点,被称为根节点。收入和年龄是内部节点,分别对应两个??属性。是和否则是叶子节点,位于树中最后分支的末端。一个节点的深度是从根节??点到叶子节点所需的最小步数,节点收入和年龄的深度都是1,而叶子节点的深度??都是2。图中的决策树显示收入低于45000的女性和年龄小于40的男性会被分类为??会购买产品的人群。在遍历决策树之后,发现女性的年龄与是否购买产品无关,而??男性的收入也与是否购买产品无关。??(开)
【参考文献】:
期刊论文
[1]改进SVM-KNN的不平衡数据分类[J]. 王超学,张涛,马春森. 计算机工程与应用. 2016(04)
[2]灰色建模中数据缺失值处理方法探讨[J]. 鲁纯. 辽宁省交通高等专科学校学报. 2013(02)
[3]不同缺失值处理方法对随机缺失数据处理效果的比较[J]. 花琳琳,施念,杨永利,赵天仪,施学忠. 郑州大学学报(医学版). 2012(03)
[4]基于AUC的分类器评价和设计综述[J]. 汪云云,陈松灿. 模式识别与人工智能. 2011(01)
[5]基于实例与MATLAB的ROC曲线绘制比较研究[J]. 石昊苏. 电子设计工程. 2010(09)
[6]工业过程数据中缺失值处理方法的研究[J]. 郭超,陆新建. 计算机工程与设计. 2010(06)
[7]基于K近邻的支持向量机分类方法[J]. 和文全,薛惠峰,解丹蕊,杜喆. 计算机仿真. 2008(11)
[8]缺失值处理方法比较研究[J]. 胡红晓,谢佳,韩冰. 商场现代化. 2007(15)
[9]SVM-KNN分类器——一种提高SVM分类精度的新方法[J]. 李蓉,叶世伟,史忠植. 电子学报. 2002(05)
本文编号:3426022
【文章来源】:华北电力大学(北京)北京市 211工程院校 教育部直属院校
【文章页数】:50 页
【学位级别】:硕士
【部分图文】:
1零阴id函数胭
2.3.2支持向量机的求解方法??支持向量机分类器的最优化问题,是目标函数为二次函数、约束条件为线性的??典型二次规划问题。目标函数为:??1?T??max—?sJ^y^co?xf?+?b)>\,i?=?\,2,...,n?(2-16)??Ml??为了方便求f和引入核函数,我们考虑目标1数的对偶问题:??"7?min?丄|卜2|???./.,乂(《7'?+?/))之?V?=?l,2”“,n?(2-17)??x?2??接下来,导入拉格朗日变量求解对偶问题,定义拉格朗日函数为:??1??L{〇),?bM)?=?-?||r/r?j?-?2]?or,?x,?+?6)?-1)?(2-18)??^?/=1??分别对仏6求偏导,并令1?=?0和&?=?〇,可得:??d(〇?db??
<45000?^?>=45000?<40?^?>=40??嫁?4?;;4?r^vt:??图2-5决策树例子??如图2-5所示为一个使用决策树来预测客户是否会购买产品的例子。其中,性??别属性是顶端的内部节点,被称为根节点。收入和年龄是内部节点,分别对应两个??属性。是和否则是叶子节点,位于树中最后分支的末端。一个节点的深度是从根节??点到叶子节点所需的最小步数,节点收入和年龄的深度都是1,而叶子节点的深度??都是2。图中的决策树显示收入低于45000的女性和年龄小于40的男性会被分类为??会购买产品的人群。在遍历决策树之后,发现女性的年龄与是否购买产品无关,而??男性的收入也与是否购买产品无关。??(开)
【参考文献】:
期刊论文
[1]改进SVM-KNN的不平衡数据分类[J]. 王超学,张涛,马春森. 计算机工程与应用. 2016(04)
[2]灰色建模中数据缺失值处理方法探讨[J]. 鲁纯. 辽宁省交通高等专科学校学报. 2013(02)
[3]不同缺失值处理方法对随机缺失数据处理效果的比较[J]. 花琳琳,施念,杨永利,赵天仪,施学忠. 郑州大学学报(医学版). 2012(03)
[4]基于AUC的分类器评价和设计综述[J]. 汪云云,陈松灿. 模式识别与人工智能. 2011(01)
[5]基于实例与MATLAB的ROC曲线绘制比较研究[J]. 石昊苏. 电子设计工程. 2010(09)
[6]工业过程数据中缺失值处理方法的研究[J]. 郭超,陆新建. 计算机工程与设计. 2010(06)
[7]基于K近邻的支持向量机分类方法[J]. 和文全,薛惠峰,解丹蕊,杜喆. 计算机仿真. 2008(11)
[8]缺失值处理方法比较研究[J]. 胡红晓,谢佳,韩冰. 商场现代化. 2007(15)
[9]SVM-KNN分类器——一种提高SVM分类精度的新方法[J]. 李蓉,叶世伟,史忠植. 电子学报. 2002(05)
本文编号:3426022
本文链接:https://www.wllwen.com/jingjilunwen/shijiejingjilunwen/3426022.html