基于决策树的大学生心理危机预警模型研究及应用
发布时间:2021-07-08 00:30
近年来高校心理问题学生数量呈现逐年上升趋势,自杀已成为15-34岁青少年人群死亡的最主要原因,给家庭、学校和社会带来巨大创伤和损失,有效做好心理危机预警及干预至关重要。但是,当前的大学生心理危机预警手段较为单一,绝大多数仅停留在传统的新生入学阶段SCL量表测试,预警效果有限且时效性差。因此,有效借助新技术对学生的属性行为数据进行挖掘分析,实现心理危机预警,对学生管理者做好心理健康工作具有重要意义。本文提出一种基于决策树算法的大学生心理危机预警方法,通过评估后选用C4.5分类算法对可能产生心理危机的显著特征属性进行分析,根据特征属性的不同取值情况判断出该学生是否可能存在心理危机。在特征属性的选取过程中,本文借鉴了学生管理专家的意见并对部分属性进行二元Logistic回归分析后,最终选出性格特征、家庭构成、家庭经济、家庭关系、请假类型、挂科情况六个最为显著的特征属性用于决策树建模,并提取预警结果呈阳性的14条规则对模型加以描述。根据相关文献对模型进行定性评价,证明其具备可信度和参考价值;对比不同数据集对模型的定量检验结果可知,模型预测的整体准确率可达到95%以上,精确率达80%以上,召回率...
【文章来源】:北京林业大学北京市 211工程院校 教育部直属院校
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
技术路线图
基于决策树的大学生心理危机预警模型研究及应用14性的取值含义如表2.3所示。用于模型构建的标准训练集数据片段如图2.1所示。图2.1训练集数据片段Figure2.1DatasectionofthetrainingsetC4.5算法的核心思想是在决策树各节点选择出信息增益率最大的属性标记为当前节点,然后该过程递归直至生成完整决策树。具体的信息增益率计算过程为:定义2.1类别信息熵设S是训练样本集,S由s个数据样本构成,假设样本S中的不同类别有m个,定义它们为Ci(i=1,2,…,m)。设si为类别Ci中的样本个数,那么对于一个给定的样本数据集,其类别信息熵也就是分类所需的信息量计算公式为:(1,2,…,)=∑log2=1(2-5)公式2-5中,pi是任意样本属于Ci的概率,一般可用来表示,其中S=S1+S2+…+Sm。定义2.2条件信息熵设属性A具有v个不同值{a1,a2,…av},可以用属性A将S划分成v个子集{S1,S2,…,SV},假设其中的Sj包含S中在属性A上具有相同值aj(j=1,2,…,v)的所有样本。设sij是子集Sj中类Ci的样本个数,那么由属性A划分成子集的条件信息熵的计算公式为:()=-∑1+2++(1+2++)=1(2-6)(1+2++)=-∑log2=1(2-7)
基于决策树的大学生心理危机预警模型研究及应用16(3)计算特征属性的信息增益量性格特征=(54,539)性格特征=0.0868(4)计算特征属性的分裂信息熵性格特征=(502,91)=0.6184(5)计算特征属性的信息增益率性格特征=性格特征性格特征=0.1404根据上述同样的步骤,可求得剩余各个特征属性的信息增益率分别是:家庭经济=家庭经济家庭经济=0.073家庭关系=家庭关系家庭关系=0.067家庭构成=家庭构成家庭构成=0.068挂科情况=挂科情况挂科情况=0.077请假类型=请假类型请假类型=0.034(6)生成决策树由上述计算结果可以看出,在所有特征属性中,“性格特征”的信息增益率为最大,按照C4.5算法思路,选择“性格特征”标记根节点。而“性格特征”属性具有两个属性值,因此所有训练集样本会被划分为两部分,决策树根节点如下图所示:图2.2决策树根节点Figure2.2Therootnode
本文编号:3270677
【文章来源】:北京林业大学北京市 211工程院校 教育部直属院校
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
技术路线图
基于决策树的大学生心理危机预警模型研究及应用14性的取值含义如表2.3所示。用于模型构建的标准训练集数据片段如图2.1所示。图2.1训练集数据片段Figure2.1DatasectionofthetrainingsetC4.5算法的核心思想是在决策树各节点选择出信息增益率最大的属性标记为当前节点,然后该过程递归直至生成完整决策树。具体的信息增益率计算过程为:定义2.1类别信息熵设S是训练样本集,S由s个数据样本构成,假设样本S中的不同类别有m个,定义它们为Ci(i=1,2,…,m)。设si为类别Ci中的样本个数,那么对于一个给定的样本数据集,其类别信息熵也就是分类所需的信息量计算公式为:(1,2,…,)=∑log2=1(2-5)公式2-5中,pi是任意样本属于Ci的概率,一般可用来表示,其中S=S1+S2+…+Sm。定义2.2条件信息熵设属性A具有v个不同值{a1,a2,…av},可以用属性A将S划分成v个子集{S1,S2,…,SV},假设其中的Sj包含S中在属性A上具有相同值aj(j=1,2,…,v)的所有样本。设sij是子集Sj中类Ci的样本个数,那么由属性A划分成子集的条件信息熵的计算公式为:()=-∑1+2++(1+2++)=1(2-6)(1+2++)=-∑log2=1(2-7)
基于决策树的大学生心理危机预警模型研究及应用16(3)计算特征属性的信息增益量性格特征=(54,539)性格特征=0.0868(4)计算特征属性的分裂信息熵性格特征=(502,91)=0.6184(5)计算特征属性的信息增益率性格特征=性格特征性格特征=0.1404根据上述同样的步骤,可求得剩余各个特征属性的信息增益率分别是:家庭经济=家庭经济家庭经济=0.073家庭关系=家庭关系家庭关系=0.067家庭构成=家庭构成家庭构成=0.068挂科情况=挂科情况挂科情况=0.077请假类型=请假类型请假类型=0.034(6)生成决策树由上述计算结果可以看出,在所有特征属性中,“性格特征”的信息增益率为最大,按照C4.5算法思路,选择“性格特征”标记根节点。而“性格特征”属性具有两个属性值,因此所有训练集样本会被划分为两部分,决策树根节点如下图所示:图2.2决策树根节点Figure2.2Therootnode
本文编号:3270677
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3270677.html