基于大数据的职业病诱发原因分析研究
发布时间:2022-02-20 07:42
随着时代的快速发展,提高国民经济的同时,我国职业病却保持在一个久居不下的地位中,并且导致疾病发生的原因越来越多。疾病的产生在威胁劳动者身体健康的同时还造成了巨大的经济损失。因此,本文为了有效的落实疾病预防工作的同时,辅助医生决策帮助促进国民经济的绿色发展。本文围绕职业病预警模型的相关技术进行研究,即通过模型的建立来进行了深入的研究。首先对疾病致病诱发因素分析研究,本论文从数据集中性别、年龄等40个特征中筛选出最终几个重要特征,并通过重要性大小来表明每个指标对疾病发生的影响。利用改进的随机森林算法和关联规则来创建模型,剔除重要性程度较低的特征,挖掘出特征与特征之间的联系,找到潜在着的有价值的规律,根据支持度和可信度,分析结果提出决策规则,通过对比已有算法来验证模型分类和挖掘特征的准确性。最后利用这些规则来反馈给相应的医务人员,力争从源头预防控制职业病危害,找到诱发原因,提前把控疾病的发生,进而为我国疾病预测预防提供一定的参考意见。
【文章来源】:上海应用技术大学上海市
【文章页数】:54 页
【学位级别】:硕士
【部分图文】:
职业病致病相关因素分析图
上海应用技术大学硕士学位论文第7页图2.2决策树模型Fig.2.2Decisiontreemodel2.2.2特征选择的标准决策树生成的最主要的步骤就是如何选择最佳划分的特征,就是影响对样本集具有最佳效果最佳准确率特征,通过不停的划分,每一个独立的分支结点所代表样本集的不纯度也慢慢变低,从而容易将这些归之为一类。因此,特征选择就是依据不纯度的改变尽可能的完善分类的结果,独立的数据不纯度有各自的标准,不受别的所影响,从而计算的方式也不相同。A.信息增益信息熵是最常用的一种指标,它代表随机变量的不确定度,熵越小,数据集纯度越高。在分类问题中,假设样本集为D,一共有k个类,且D中样本属于第i类的概率为ip,则D的熵定义如下:ni2ii1H(D)plogp(2-1)条件熵代表某给定条件下随机变量的不确定度。假设离散型特征A有n个不同取值12n{a,a,...,a},其中iAa的概率为ip,且D中满足iAa的子集为iD,则在给定特征A的条件下样本集D的条件熵定义为:nniiiii1i1H(DA)PH(DAa)PH(D)(2-2)显然,H(D)衡量了原始数据集的不纯度,H(D|A)衡量了数据集被A划分之后的不纯度。它们的差反映了数据纯度的增量,定义为信息增益:
8页上海应用技术大学硕士学位论文第G(D,A)HDHDA(2-3)使得信息增益最大的特征值即为最优划分特征。B.信息增益比信息增益在特征多的时候,容易会造成选择的误差,所以需要通过矫正的方式进行修改,在信息增益的基础上增加一个罚项,称之为信息增益比,定义如下:RAG(D,A)G(D,A)(2-4)H(D)其中nAi2ii1H(D)plogp(2-5)可以发现当A的取值越来越多的时候,AH(D)的值相对应就变得大起来,至此虽然增加了一些计算量,但是信息增益的偏好结果得到了一定的改善。C.基尼指数另外一种可以度量数据集中不存度的方式是基尼指数,当基尼指数越来越小的时候,数据集的纯度就变得越高,将基尼指数定义如下:kk2iiii1i1Gini(D)p(1p)1p(2-6)在数据集中根据特征A进行划分的时候,样本的基尼指数定义为:niii1Gini(D,A)pGini(D)(2-7)在进行划分后,当样本集中基尼指数最小的时候,称之为最佳特征。图2.3表现了二类分类时基尼指数、熵之半和分类误差率的关系,其中横坐标表示的是概率,纵坐标表示的是损失。图2.3两种指标的比较Fig.2.3Comparisonoftwoindexes2.2.3决策树的剪枝和生成决策树在分类的时候,容易过拟合,就是说创建的模型因为复杂的缘故,对训练集
本文编号:3634585
【文章来源】:上海应用技术大学上海市
【文章页数】:54 页
【学位级别】:硕士
【部分图文】:
职业病致病相关因素分析图
上海应用技术大学硕士学位论文第7页图2.2决策树模型Fig.2.2Decisiontreemodel2.2.2特征选择的标准决策树生成的最主要的步骤就是如何选择最佳划分的特征,就是影响对样本集具有最佳效果最佳准确率特征,通过不停的划分,每一个独立的分支结点所代表样本集的不纯度也慢慢变低,从而容易将这些归之为一类。因此,特征选择就是依据不纯度的改变尽可能的完善分类的结果,独立的数据不纯度有各自的标准,不受别的所影响,从而计算的方式也不相同。A.信息增益信息熵是最常用的一种指标,它代表随机变量的不确定度,熵越小,数据集纯度越高。在分类问题中,假设样本集为D,一共有k个类,且D中样本属于第i类的概率为ip,则D的熵定义如下:ni2ii1H(D)plogp(2-1)条件熵代表某给定条件下随机变量的不确定度。假设离散型特征A有n个不同取值12n{a,a,...,a},其中iAa的概率为ip,且D中满足iAa的子集为iD,则在给定特征A的条件下样本集D的条件熵定义为:nniiiii1i1H(DA)PH(DAa)PH(D)(2-2)显然,H(D)衡量了原始数据集的不纯度,H(D|A)衡量了数据集被A划分之后的不纯度。它们的差反映了数据纯度的增量,定义为信息增益:
8页上海应用技术大学硕士学位论文第G(D,A)HDHDA(2-3)使得信息增益最大的特征值即为最优划分特征。B.信息增益比信息增益在特征多的时候,容易会造成选择的误差,所以需要通过矫正的方式进行修改,在信息增益的基础上增加一个罚项,称之为信息增益比,定义如下:RAG(D,A)G(D,A)(2-4)H(D)其中nAi2ii1H(D)plogp(2-5)可以发现当A的取值越来越多的时候,AH(D)的值相对应就变得大起来,至此虽然增加了一些计算量,但是信息增益的偏好结果得到了一定的改善。C.基尼指数另外一种可以度量数据集中不存度的方式是基尼指数,当基尼指数越来越小的时候,数据集的纯度就变得越高,将基尼指数定义如下:kk2iiii1i1Gini(D)p(1p)1p(2-6)在数据集中根据特征A进行划分的时候,样本的基尼指数定义为:niii1Gini(D,A)pGini(D)(2-7)在进行划分后,当样本集中基尼指数最小的时候,称之为最佳特征。图2.3表现了二类分类时基尼指数、熵之半和分类误差率的关系,其中横坐标表示的是概率,纵坐标表示的是损失。图2.3两种指标的比较Fig.2.3Comparisonoftwoindexes2.2.3决策树的剪枝和生成决策树在分类的时候,容易过拟合,就是说创建的模型因为复杂的缘故,对训练集
本文编号:3634585
本文链接:https://www.wllwen.com/yixuelunwen/yufangyixuelunwen/3634585.html