由粗到精和特征筛选的精确回归预测方法及其在二语习得中的应用
发布时间:2021-09-24 13:13
针对数据分布不均匀且因素多而容易造成预测不精确的问题,提出一种结合由粗到精与特征筛选的精确回归预测方法.首先,由于数据分布不均匀且预测区间大,直接预测难以精确地拟合,提出一种由粗到精的预测方法,并使用决策树进行粗分类,预测目标所在的子区间,然后在子区间内实现精确的回归预测.其次,如果数据量少且特征因素多会引起过拟合,而且部分冗余特征会影响模型的预测精度,因此,提出一种基于特征筛选的回归预测方法以提高预测精度.在大学生的英语成绩与其人格因素数据集上进行相关实验,结果证明了由粗到精和特征筛选方法与传统回归模型相比精度更高且稳定性更好.通过提出的人格因素与英语成绩回归预测模型,可以制定合理的培养方案弥补学生人格因素中的短板,提升学生的自身竞争能力,从而更好地推动中国的英语教育.
【文章来源】:兰州理工大学学报. 2020,46(06)北大核心
【文章页数】:8 页
【部分图文】:
算法整体框架图
在分类问题中,表示基于特征对实例进行分类的过程,是定义在特征空间与类空间上的条件概率分布,具有高可读性且分类速度快.学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型;预测时,对新的数据,沿着树结构根据特征进行下行判断,得到分类结果.决策树分类模型如图2所示.本文使用C4.5决策树算法对目标子区间进行预测,该算法从根节点开始,对节点计算所有可能特征的信息增益比(information gain ratio),选择信息增益比最大的特征作为节点,由该特征的不同取值建立子节点,再对子节点递归使用以上方法,构建决策树.
本节通过引入Pearson相关系数来度量自变量与因变量之间的相关性,由此进行特征筛选来提高数据的预测精度,尤其对含有较多特征的数据具有较好效果.基于Pearson特征筛选的回归预测模型的流程图如图3所示.首先计算特征与目标的Pearson相关性,得到一组关于特征与目标T的Pearson相关系数r(Ai,T),按照一定筛选原则P,如 | r (A i ,Τ) |>Ρ(0≤Ρ≤1) 对特征进行筛选.给定n个数据样本点{(x1,y1),(x2,y2),…,(xn,yn)},其中每个xi由m个特征属性(Ai1,Ai2,…,Aim)描述实例,Aij表示样本xi的第j个属性上的取值.如果特征Ai(i<m)的相关系数 | r (A i ,Τ) |>Ρ ,则保留此特征,反之则舍弃该特征.通过这样的筛选方法可以得到一个新的特征集,该特征集是原始数据特征集的子集.该方法通过筛掉一些极弱相关和无关特征,减少了模型的计算复杂度,使模型可以从数据信息中学习到更多的有效信息.2 实验结果及其分析
【参考文献】:
期刊论文
[1]大学英语四级考试成绩预测模型构建与实证分析[J]. 赵光,王栓宏,孙珩. 中国西部科技. 2015(04)
[2]基于数据挖掘的英语四级成绩分析与预测[J]. 王士虎,吕纪荣,冯波. 电脑知识与技术. 2014(03)
[3]非英语专业大学生CET4成绩影响因素的结构模型[J]. 答会明. 心理科学. 2007(03)
[4]大学生心理健康状况及其影响因素的逐步回归分析[J]. 范存欣,马绍斌,林汉生,王惠苏. 中国学校卫生. 2001(03)
本文编号:3407818
【文章来源】:兰州理工大学学报. 2020,46(06)北大核心
【文章页数】:8 页
【部分图文】:
算法整体框架图
在分类问题中,表示基于特征对实例进行分类的过程,是定义在特征空间与类空间上的条件概率分布,具有高可读性且分类速度快.学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型;预测时,对新的数据,沿着树结构根据特征进行下行判断,得到分类结果.决策树分类模型如图2所示.本文使用C4.5决策树算法对目标子区间进行预测,该算法从根节点开始,对节点计算所有可能特征的信息增益比(information gain ratio),选择信息增益比最大的特征作为节点,由该特征的不同取值建立子节点,再对子节点递归使用以上方法,构建决策树.
本节通过引入Pearson相关系数来度量自变量与因变量之间的相关性,由此进行特征筛选来提高数据的预测精度,尤其对含有较多特征的数据具有较好效果.基于Pearson特征筛选的回归预测模型的流程图如图3所示.首先计算特征与目标的Pearson相关性,得到一组关于特征与目标T的Pearson相关系数r(Ai,T),按照一定筛选原则P,如 | r (A i ,Τ) |>Ρ(0≤Ρ≤1) 对特征进行筛选.给定n个数据样本点{(x1,y1),(x2,y2),…,(xn,yn)},其中每个xi由m个特征属性(Ai1,Ai2,…,Aim)描述实例,Aij表示样本xi的第j个属性上的取值.如果特征Ai(i<m)的相关系数 | r (A i ,Τ) |>Ρ ,则保留此特征,反之则舍弃该特征.通过这样的筛选方法可以得到一个新的特征集,该特征集是原始数据特征集的子集.该方法通过筛掉一些极弱相关和无关特征,减少了模型的计算复杂度,使模型可以从数据信息中学习到更多的有效信息.2 实验结果及其分析
【参考文献】:
期刊论文
[1]大学英语四级考试成绩预测模型构建与实证分析[J]. 赵光,王栓宏,孙珩. 中国西部科技. 2015(04)
[2]基于数据挖掘的英语四级成绩分析与预测[J]. 王士虎,吕纪荣,冯波. 电脑知识与技术. 2014(03)
[3]非英语专业大学生CET4成绩影响因素的结构模型[J]. 答会明. 心理科学. 2007(03)
[4]大学生心理健康状况及其影响因素的逐步回归分析[J]. 范存欣,马绍斌,林汉生,王惠苏. 中国学校卫生. 2001(03)
本文编号:3407818
本文链接:https://www.wllwen.com/wenyilunwen/yuyanxuelw/3407818.html