基于多元统计和机器学习的成绩分析及研究
发布时间:2021-09-02 00:44
以学生的考试成绩作为选拔人才的主要方法,在我们的日常生活中早已屡见不鲜。从素质教育的学生时代到成人的职场生活,考试成绩一般都会是衡量我们能力的重要指标。尤其是在素质教育的中学时代,大到重要的升学考试,小至各种各样的随堂测试,这样海量的成绩数据充斥在学生和教师周围,但是对这些数据的使用,学校教师和学生有时为了方便仅限于一些简单的描述性统计分析,这不仅仅造成这种数据资源的浪费,而且对于教师管理学生不能够及时提供有效的、科学的、全面的、有针对性的建议。所以,能够找到一种适用范围广,有学习能力的数据分析的技术来对学生的成绩进行分析,透过数据表面,找出潜藏在繁冗数据中的关键的、有利的信息,变得十分必要。本文首先介绍了多元统计分析中聚类分析和因子分析的理论知识,重点介绍了对变量进行聚类的R型聚类,因子分析中主要介绍了主成分法的参数估计方法及方差最大的正交旋转。接着介绍了机器学习中的k近邻法分类与支持向量机分类两种分类方法的基本原理及思想。随后本文选取某具有代表性的学校的高一学生的几次综合成绩进行实例分析,通过R型聚类分析将原始的九个变量聚成三类,再运用因子综合评价模型进行因子分析,提取出了第一因子...
【文章来源】:湘潭大学湖南省
【文章页数】:51 页
【学位级别】:硕士
【部分图文】:
聚类分析原理
分类理论分类就是通过训练集建立分类模型对测试集进行分题都有一些自变量,它们共同组成一个多维空间。可用绝对距离等作为距离的度量方式[30]。k 近邻法分类就为训练集中离该点距离最近的 k 个点中大多数点所算法的思想是:首先,计算出待测新样本与各个训练测样本距离最小的 k 个邻居样本,再根据这 k 个邻居应该归属的类别[31]。预测集中未知数据的类别,先找到训练集中距离未知 k 个近邻中多数邻居所属类别,就把预测数据分为该示在二维空间中的一个分类场景,红色的三角形和蓝打标记的两种数据的分布,绿色的圆形数据是待分类
值如果过小的话可能导致所得的分类结果没有太大信度;k 值如果太大的话可能会在分类过程中掺杂着一些不必要的噪音数据,同样得到不可信的结果以在实际的算法使用过程中,需要对 k 这个参数进行反复的调试,才可以达个比较理想的效果[33]64。.2 支持向量机分类理论.2.1 支持向量机分类原理支持向量机(简称 SVM)是由 Vapnik 等学者们根据统计学习理论的原理的机器学习方面的一种研究方法,它的理论基础是 VC 维理论和结构风险最[34]。支持向量机分类是通过控制风险到最小来使模型的泛化效果达到最好,从使经验风险和置信度范围达到最小[35]81。简单来说就是找到能区分特征空间间隔的分类器,把问题转化成一个凸二次规划问题的求解[35]81。以二维数据:
本文编号:3377970
【文章来源】:湘潭大学湖南省
【文章页数】:51 页
【学位级别】:硕士
【部分图文】:
聚类分析原理
分类理论分类就是通过训练集建立分类模型对测试集进行分题都有一些自变量,它们共同组成一个多维空间。可用绝对距离等作为距离的度量方式[30]。k 近邻法分类就为训练集中离该点距离最近的 k 个点中大多数点所算法的思想是:首先,计算出待测新样本与各个训练测样本距离最小的 k 个邻居样本,再根据这 k 个邻居应该归属的类别[31]。预测集中未知数据的类别,先找到训练集中距离未知 k 个近邻中多数邻居所属类别,就把预测数据分为该示在二维空间中的一个分类场景,红色的三角形和蓝打标记的两种数据的分布,绿色的圆形数据是待分类
值如果过小的话可能导致所得的分类结果没有太大信度;k 值如果太大的话可能会在分类过程中掺杂着一些不必要的噪音数据,同样得到不可信的结果以在实际的算法使用过程中,需要对 k 这个参数进行反复的调试,才可以达个比较理想的效果[33]64。.2 支持向量机分类理论.2.1 支持向量机分类原理支持向量机(简称 SVM)是由 Vapnik 等学者们根据统计学习理论的原理的机器学习方面的一种研究方法,它的理论基础是 VC 维理论和结构风险最[34]。支持向量机分类是通过控制风险到最小来使模型的泛化效果达到最好,从使经验风险和置信度范围达到最小[35]81。简单来说就是找到能区分特征空间间隔的分类器,把问题转化成一个凸二次规划问题的求解[35]81。以二维数据:
本文编号:3377970
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3377970.html