当前位置:主页 > 科技论文 > 农业技术论文 >

农业数据异常检验模型构建及实证分析

发布时间:2020-08-03 16:24
【摘要】:数据是提取有效信息、制定科学决策、驱动农业现代化发展的重要力量。我国是农业大国,农业在国民经济中处于基础地位,悠久的农业历史使我国在生产、流通、消费等各个环节中都积累了丰富的数据。近年来,随着农业现代化进程加快及乡村振兴战略的提出,各种信息技术快速涌入农业领域,农业数据量呈现爆炸性增长态势。我国农业目前因信息技术滞后、数据涵盖面广、数据源复杂、与时空密切相关、生产周期长的特点,数据质量问题层出不穷,数据集中不仅存在许多一般的异常数据,还存在许多看似正常,实则产生于完全不同机制的异常数据,数据分析工作面临着“数据丰富、信息贫乏”的困境。在大数据时代,既无法杜绝异常数据的产生,也难以通过技术手段将其消除。因此,构建异常数据检验模型,从数据集中挖掘出看似正常实则异常的数据,找出其背后隐含的信息,并加以利用,力求制定出更多科学决策具有重要意义。本文以两个异常数据检验工具——Benford定律、SVR为基础,构建了Benford-SVR异常数据检验模型,分析了农业自然领域的降水量数据集和社会领域生产数据集,丰富了我国农业数据异常检验的理论和技术手段,展望了异常数据检验模型未来的发展方向。首先,本文从研究背景和意义展开,以提高异常检验的效率和准确率为目的进行了相关方法研究,选择了Benford定律和SVR两个异常数据挖掘有效工具,阐述了Benford定律以数据集首位数为1-9的概率满足的一个固定对数分布的特点筛选异常数据池的基本原理,以及SVR有强大的非线性映射能力,能从整体上考虑回归曲线的平滑性,不倾向于消除个别大的回归误差的异常点挖掘的方法;其次,针对Benford定律筛选异常数据集效率高,但范围略大,而SVR挖掘异常数据点精度高、鲁棒性高,但主要面向小样本的特点,借助于组合模型的思想,构建了Benford-SVR异常数据检验模型,该模型在Benford定律筛选出异常数据池的基础上,选定高质量数据集作为SVR的训练样本,异常数据池中的数据作为预测样本,从中挖掘异常数据;再次,用Benford-SVR异常数据检验模型对我国65年降水量数据集、河北省7个市4年生产数据集进行实证分析,得出我国降水量数据集整体及局部质量都较高,而河北省沧州、邯郸、邢台数据集质量较好,而保定、石家庄、唐山、张家口数据集可疑,并从中挖掘出异常较大的数据点;最后,根据实证分析结果,指出了Benford-SVR异常数据检验模型是检验农业自然科学领域及社会科学领域的有效方法,快速准确的挖掘出数据集中的异常数据点,但无监督学习模式会存在偶然性误差,后续工作中要对异常数据点加以识别,力求能挖掘其背后隐含的有效信息。本文研究结果表明:Benford-SVR异常数据检验模型能有效检验自然科学领域的降水量数据集、社会科学领域的生产数据集,高效、精准的挖掘其中异常数据点,优势显著。未来的发展需要各领域学者深入研究其本质,加强对其它算法的研究结合,进而改善、拓展其应用,加强农业数据异常挖掘的效率和精度,提高农业领域的数据利用率,促进农业发展。
【学位授予单位】:中国农业科学院
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP274.2;S126
【图文】:

平面图,最优分类,平面,分离平面


图 2. 2 最优分类平面Fig. 2.2 Optimal classification plane分类中样本满足 f(x) ≥ 1 ,则 f(x)=1 为距分离平面最近所有样本进行分类则应满足公式: ( · ) 1 ≥ 0, = 1,··· ,n min 2就是分类间隔最大,12min 2是最优分类

核函数


图 2. 4 SVR 核函数变换Fig.2.4 SVR kernel function transformation中,我们知道任意满足 Mercer 定理的函数都可以作为核函数,从而核函数有有以下 4 种:式核函数:K(x, ) = ( , ) , ∈ , ≥ 0

异常点,二维数据,示例,空间


图 3. 1 二维数据空间中的异常点示例3.1An example of outliers in a two-dimensional data sp和 N2是两个样本集,它们包含了大部分数据,但是中的点距离较远,单独聚为一类,这些点一般成为被集异常、上下文异常,具体含义为:

【参考文献】

相关期刊论文 前10条

1 吴建寨;张建华;孔繁涛;;中国粮食生产与消费的空间格局演变[J];农业技术经济;2015年11期

2 许世卫;王东杰;李哲敏;;大数据推动农业现代化应用研究[J];中国农业科学;2015年17期

3 吴建寨;沈辰;王盛威;张建华;孔繁涛;;中国蔬菜生产空间集聚演变、机制、效应及政策应对[J];中国农业科学;2015年08期

4 Saeid Shokri;Mohammad Taghi Sadeghi;Mahdi Ahmadi Marvast;Shankar Narasimhan;;Improvement of the prediction performance of a soft sensor model based on support vector regression for production of ultra-low sulfur diesel[J];Petroleum Science;2015年01期

5 项前;徐兰;刘彬;吕志军;杨建国;;基于粗糙集与支持向量机的加工过程异常检测[J];计算机集成制造系统;2015年09期

6 许世卫;;农业大数据与农产品监测预警[J];中国农业科技导报;2014年05期

7 丁立中;贾磊;廖士中;;支持向量学习的多参数同时调节[J];软件学报;2014年09期

8 翁钢民;李凌雁;;旅游客流量预测:基于季节调整的PSO-SVR模型研究[J];计算机应用研究;2014年03期

9 刘云霞;曾五一;;关于综合利用Benford法则与其他方法评估统计数据质量的进一步研究[J];统计研究;2013年08期

10 刘祖建;陈冰;陈蔚烨;王春霞;梁盛铭;陈观浩;;广东省西南部稻飞虱发生期和发生程度的气象预测模型[J];中国农业气象;2013年02期

相关硕士学位论文 前2条

1 赵子;数据挖掘算法研究及其在处方分析系统的应用[D];南京理工大学;2017年

2 黄雯;数据挖掘算法及其应用研究[D];南京邮电大学;2013年



本文编号:2779887

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/nykj/2779887.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f825e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com