面向桑黄发酵实验不平衡数据的处理方法及其研究
发布时间:2021-01-11 07:20
信息产业高速发展的今天,数据已经成为各行各业的生产要素,海量数据的伴随着企业的生产和运营产生,总量增长迅猛。在生物实验中也出现了大量的新增实验数据,这些数据具有纬度高,相似性高,数据不平衡性等特点,传统方法难以应对。本文以桑黄数据为基础,在此基础上采用不平衡数据方法和数据挖掘方法对数据进行了分类处理和预测建模。通过对大量生物实验产生的数据进行分析,生物实验数据具有一定的不平衡性。本文采用KK-SMOTE(k-means and k-neighbors on SMOTE)的不均衡数据过采样方法对桑黄发酵数据进行了预处理。为桑黄发酵条件特征属性进行准确的数据挖掘提供了前提条件,并建立了基于逻辑回归和BP神经网络的桑黄产量分类模型,通过不同的实验条件参数来分析并预测该组实验条件是否为高产实验条件,为产量预测分析做准备。BP(Backpropagation Neural Network)神经网络是高效且简单的预测模型。本文根据桑黄发酵实验数据实验梯度小特性建立了LM算法的BP神经网络产量预测模型,并和传统的回归模型进行了对比。遗传算法(Genetic Algorithm)的模型机理是通过计算机...
【文章来源】: 辛月振 中国石油大学(华东)
【文章页数】:53 页
【学位级别】:硕士
【部分图文】:
Sigmoid函数图
数据挖掘及不平衡数据处理方法第10页图2-2过拟合示意图Fig2-2Overfitting问题的主要原因是模型要求过于严苛,为追求模型一致假设而使条件要求过高。解决方法如下1)减少特征数可用人工选择要保留的特征;模型选择算法;2)正则化保留所有特征,但减少θ的大小减少特征或多或少会损失数据信息,而正则化方法比较复杂,多用于多特征数据。正则化方法正则化方法相对而言对数据样本的改动小,对模型风险较校正则化方法通过在增加正则化惩罚项来影响模型使模型避免过拟合。正则项可以有许多形式,在回归问题中常采用平方损失(L2范数)。模型的损失函数如下:J(θ)=12∑(())2+∑2=1=1(2-8)λ是正则项系数,下面对λ意义进行解释。若λ值很大,说明正则项对模型惩罚大,对拟合数据的损失惩罚校此时模型不会过分拟合数据但有可能会出现欠拟合。若λ值很小,说明正则项对模型惩罚小,对拟合数据的损失惩罚大。此时模型注重拟合训练数据但有可能会出现过拟合。正则化后θ的更新变为:θjθjam∑(hθ(xi)yi)mi=1xijλmθj(2-9)正则化后的线性回归的NormalEquation的公式为:
中国石油大学(华东)工程硕士学位论文第35页图4-1误差值范围图Fig4-1Rangediagramoferrorvalue图4-2误差百分比图Fig4-2Percentagediagramoferror4.5产量预测建立与对比分析通过传统回归模型与分类-BP神经网络模型的比较,见表4-3,传统回归分析模型所用到的数据量比较少,预测曲线拟合主要集中在高产数据集。所得到的模型对寻找最优产量效果较好,对边界条件预测准确率差。尽管如此,所得到的回归模型误差为11%,BP神经网络模型误差8.7%。BP神经网络模型所采用的数据集能够覆盖更多原始数据范围,对整体数据都有较好的预测性能。由于采用了分类策略,对边界条件和最优产量预测都有比较好的效果。
【参考文献】:
期刊论文
[1]基于多子代遗传算法优化BP神经网络[J]. 付晓明,王福林,尚家杰. 计算机仿真. 2016(03)
[2]直接观测值回归与间接观测值回归方法的比较研究[J]. 别必鑫,魏世丽,余哲. 经纬天地. 2015(06)
[3]生物数据库建立与应用的研究[J]. 王甜,何惠欣,罗亚彬,张妍,刘秋红,张善飞. 生物技术世界. 2015(03)
[4]一种基于信息熵的异常数据挖掘算法[J]. 陈玉明,吴克寿,李向军. 控制与决策. 2013(06)
[5]面向不均衡数据集的ISMOTE算法[J]. 许丹丹,王勇,蔡立军. 计算机应用. 2011(09)
[6]基于聚类融合的不平衡数据分类方法[J]. 陈思,郭躬德,陈黎飞. 模式识别与人工智能. 2010(06)
[7]类别不平衡的分类方法及在生物信息学中的应用[J]. 邹权,郭茂祖,刘扬,王峻. 计算机研究与发展. 2010(08)
[8]带车辆路线安排的多配送中心选址问题的求解——基于SPSS和遗传算法[J]. 胡贤满,张燕,李珍萍. 物流技术. 2010(01)
[9]一种基于核SMOTE的非平衡数据集分类方法[J]. 曾志强,吴群,廖备水,高济. 电子学报. 2009(11)
[10]药用真菌桑黄(phellinus sp.)抗癌功能的研究进展[J]. 王稳航,李玉,李兰会. 现代生物医学进展. 2006(10)
博士论文
[1]基于神经网络的不平衡数据分类方法研究[D]. 杨泽平.华东理工大学 2015
[2]基于基因表达数据的肿瘤分类算法研究[D]. 陆慧娟.中国矿业大学 2012
[3]基于数字化的生物分类鉴定及知识集成研究[D]. 张小斌.浙江大学 2007
硕士论文
[1]基于少数类样本重组的不平衡数据分类研究[D]. 李轩.湖南大学 2016
[2]基于BP神经网络及其优化算法的汽车车速预测[D]. 谢浩.重庆大学 2014
[3]基于人工神经网络的油田开发指标预测模型及算法研究[D]. 杨婷婷.东北石油大学 2013
[4]药用菌桑黄代谢黄酮的调控研究[D]. 刘伟.中国石油大学(华东) 2012
[5]桑黄黄酮研究[D]. 刘晨.吉林大学 2011
[6]BP神经网络的改进研究及应用[D]. 刘天舒.东北农业大学 2011
[7]类别不平衡数据的集成学习研究[D]. 王晓芹.山东师范大学 2010
[8]遗传算法在函数优化中的应用研究[D]. 金芬.苏州大学 2008
本文编号:2970342
【文章来源】: 辛月振 中国石油大学(华东)
【文章页数】:53 页
【学位级别】:硕士
【部分图文】:
Sigmoid函数图
数据挖掘及不平衡数据处理方法第10页图2-2过拟合示意图Fig2-2Overfitting问题的主要原因是模型要求过于严苛,为追求模型一致假设而使条件要求过高。解决方法如下1)减少特征数可用人工选择要保留的特征;模型选择算法;2)正则化保留所有特征,但减少θ的大小减少特征或多或少会损失数据信息,而正则化方法比较复杂,多用于多特征数据。正则化方法正则化方法相对而言对数据样本的改动小,对模型风险较校正则化方法通过在增加正则化惩罚项来影响模型使模型避免过拟合。正则项可以有许多形式,在回归问题中常采用平方损失(L2范数)。模型的损失函数如下:J(θ)=12∑(())2+∑2=1=1(2-8)λ是正则项系数,下面对λ意义进行解释。若λ值很大,说明正则项对模型惩罚大,对拟合数据的损失惩罚校此时模型不会过分拟合数据但有可能会出现欠拟合。若λ值很小,说明正则项对模型惩罚小,对拟合数据的损失惩罚大。此时模型注重拟合训练数据但有可能会出现过拟合。正则化后θ的更新变为:θjθjam∑(hθ(xi)yi)mi=1xijλmθj(2-9)正则化后的线性回归的NormalEquation的公式为:
中国石油大学(华东)工程硕士学位论文第35页图4-1误差值范围图Fig4-1Rangediagramoferrorvalue图4-2误差百分比图Fig4-2Percentagediagramoferror4.5产量预测建立与对比分析通过传统回归模型与分类-BP神经网络模型的比较,见表4-3,传统回归分析模型所用到的数据量比较少,预测曲线拟合主要集中在高产数据集。所得到的模型对寻找最优产量效果较好,对边界条件预测准确率差。尽管如此,所得到的回归模型误差为11%,BP神经网络模型误差8.7%。BP神经网络模型所采用的数据集能够覆盖更多原始数据范围,对整体数据都有较好的预测性能。由于采用了分类策略,对边界条件和最优产量预测都有比较好的效果。
【参考文献】:
期刊论文
[1]基于多子代遗传算法优化BP神经网络[J]. 付晓明,王福林,尚家杰. 计算机仿真. 2016(03)
[2]直接观测值回归与间接观测值回归方法的比较研究[J]. 别必鑫,魏世丽,余哲. 经纬天地. 2015(06)
[3]生物数据库建立与应用的研究[J]. 王甜,何惠欣,罗亚彬,张妍,刘秋红,张善飞. 生物技术世界. 2015(03)
[4]一种基于信息熵的异常数据挖掘算法[J]. 陈玉明,吴克寿,李向军. 控制与决策. 2013(06)
[5]面向不均衡数据集的ISMOTE算法[J]. 许丹丹,王勇,蔡立军. 计算机应用. 2011(09)
[6]基于聚类融合的不平衡数据分类方法[J]. 陈思,郭躬德,陈黎飞. 模式识别与人工智能. 2010(06)
[7]类别不平衡的分类方法及在生物信息学中的应用[J]. 邹权,郭茂祖,刘扬,王峻. 计算机研究与发展. 2010(08)
[8]带车辆路线安排的多配送中心选址问题的求解——基于SPSS和遗传算法[J]. 胡贤满,张燕,李珍萍. 物流技术. 2010(01)
[9]一种基于核SMOTE的非平衡数据集分类方法[J]. 曾志强,吴群,廖备水,高济. 电子学报. 2009(11)
[10]药用真菌桑黄(phellinus sp.)抗癌功能的研究进展[J]. 王稳航,李玉,李兰会. 现代生物医学进展. 2006(10)
博士论文
[1]基于神经网络的不平衡数据分类方法研究[D]. 杨泽平.华东理工大学 2015
[2]基于基因表达数据的肿瘤分类算法研究[D]. 陆慧娟.中国矿业大学 2012
[3]基于数字化的生物分类鉴定及知识集成研究[D]. 张小斌.浙江大学 2007
硕士论文
[1]基于少数类样本重组的不平衡数据分类研究[D]. 李轩.湖南大学 2016
[2]基于BP神经网络及其优化算法的汽车车速预测[D]. 谢浩.重庆大学 2014
[3]基于人工神经网络的油田开发指标预测模型及算法研究[D]. 杨婷婷.东北石油大学 2013
[4]药用菌桑黄代谢黄酮的调控研究[D]. 刘伟.中国石油大学(华东) 2012
[5]桑黄黄酮研究[D]. 刘晨.吉林大学 2011
[6]BP神经网络的改进研究及应用[D]. 刘天舒.东北农业大学 2011
[7]类别不平衡数据的集成学习研究[D]. 王晓芹.山东师范大学 2010
[8]遗传算法在函数优化中的应用研究[D]. 金芬.苏州大学 2008
本文编号:2970342
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2970342.html