当前位置:主页 > 科技论文 > 自动化论文 >

基于机器学习方法的地理标志大米产地确证技术研究

发布时间:2018-08-21 11:11
【摘要】:探讨机器学习方法在地理标志大米产地确证技术上应用的可行性,建立相邻区域的产地确证模型,可为构建地理标志大米保护体系提供理论依据。本研究采集来自吉林省梅河口市及其相邻区域的水稻样本166份,通过原子分光光度计检测大米样本中10种矿物质元素(Cu、Zn、Fe、Mn、K、Ca、Na、Mg、Pb、Cd)含量。将仪器分析得到的数据通过sampling包实现数据分层抽样,以7:3的比例划分训练集和测试集。分别利用机器学习方法中的随机森林(Random Forest,RF)和支持向量机(Support Vector Machine,SVM)建立模型,并与线性判别分析(Linear Discriminant Analysis,LDA)方法建立的多元统计判别模型进行了比较。主要结论如下:(1)随机森林和支持向量机这两种机器学习方法能够应用于地理标志大米产地确证中,建立的相邻区域产地确证模型具有较高的判别精度,其预测的准确率分别为96%、94%。(2)RF模型通过特征选择和参数优化,从10个元素中选取8个元素为特征子集,将原始参数mtry=3 ntree=500优化为mtry=1 ntree=600,优化后仅通过8个元素即可构建RF模型,外部测试集准确率由94%提高至96%,泛化能力提高。(3)支持向量机分别以四个核函数(线性核、高斯核、多项式核、Sigmoid核)为基础建立了确证模型,经参数优化后基于四个核函数的模型精度均有提高,其中线性核函数模型精度最高,所用支持向量和优化参数最少,因此基于线性核函数进一步进行特征选择,优化后模型的外部测试集准确率由91.67%提高至94%。(4)LDA模型经特征选择优化后外部测试集准确率为92%。机器学习方法(RF,SVM)建立的模型与之相比较,对初始数据没有假设前提的约束,泛化能力更强,对未知数据的预测更加准确,均优于LDA模型。(5)三种方法在模型精度与泛化能力、过拟合程度以及模型构建代价的比较结果说明,RF模型最优,其预测精度高,泛化能力强,过拟合程度低,模型构建代价小。
[Abstract]:This paper discusses the feasibility of applying machine learning method to the identification technology of geographical indication rice producing area, and establishes the model of producing area confirmation in adjacent regions, which can provide the theoretical basis for the construction of geographical indication rice protection system. In this study, 166 rice samples from Meiehekou City, Jilin Province, and their adjacent regions were collected. The contents of 10 mineral elements (Cu ~ (2 +) Zn ~ (Zn) Fe ~ (2 +) K _ (+) K _ (+) (Na) mg _ (Pb) (CD) in rice samples were determined by atomic spectrophotometer (AAS). The data obtained by instrument analysis are stratified by sampling package, and the training set and test set are divided according to 7:3 scale. The models of Random forest (RF) and support vector machine (Support Vector machine) were established and compared with the multivariate statistical discriminant model established by the linear discriminant analysis (Linear Discriminant) method. The main conclusions are as follows: (1) the two machine learning methods, random forest and support vector machine, can be applied to the identification of rice geographical indication. The prediction accuracy of RF model is 96 / 94 respectively. (2) the RF model selects 8 elements from 10 elements as feature subsets and optimizes the original parameter mtry=3 ntree=500 to mtry=1 ntree600. After optimization, the RF model can be constructed by only 8 elements. The accuracy of external test set is improved from 94% to 96%, and the generalization ability is improved. (3) support vector machine is based on four kernel functions (linear kernel, Gao Si kernel, polynomial kernel Sigmoid kernel). After parameter optimization, the accuracy of the model based on four kernel functions is improved, among which the linear kernel function model has the highest accuracy, the support vector and the optimized parameters are the least, so the feature selection is further based on the linear kernel function. The accuracy of the external test set of the optimized model is improved from 91.67% to 94. (4) the accuracy of the external test set of the LDA model is 922 after the feature selection and optimization. Compared with the model established by the machine learning method (RFS-SVM), it has no presupposition constraints on the initial data, has stronger generalization ability, and is more accurate in predicting unknown data than the LDA model. (5) the accuracy and generalization ability of the three methods are better than that of the LDA model. The comparison of the degree of overfitting and the cost of constructing the model shows that the RF model is optimal, with high prediction accuracy, strong generalization ability, low degree of overfitting and low cost of model construction.
【学位授予单位】:吉林农业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:S511;TP181

【参考文献】

相关期刊论文 前10条

1 钱丽丽;冷候喜;宋雪健;鹿保鑫;史蕊;张东杰;;基于PLS-DA判别法对黑龙江大米产地溯源的研究[J];食品工业;2017年01期

2 郝莉花;张平;;近红外光谱技术在食品产地溯源中的应用研究进展[J];农产品加工;2016年24期

3 钱丽丽;吕海峰;鹿保鑫;左锋;张东杰;;地理标志大米的仿生电子鼻分类识别[J];中国粮油学报;2016年08期

4 李仲;刘明地;吉守祥;;基于红外光谱和随机森林的枸杞产地鉴别[J];计算机与应用化学;2016年07期

5 张力;艾海新;张吉宽;胡桓;刘宏生;马树才;;基于随机森林和特征选择方法的蛋白质热稳定性影响因素预测[J];现代食品科技;2016年07期

6 杨飚;尚秀伟;;加权随机森林算法研究[J];微型机与应用;2016年03期

7 钱丽丽;张爱武;吕海峰;宋春蕾;张东杰;;大米理化指标指纹在产地溯源的探究[J];中国粮油学报;2016年01期

8 孙娟;张晖;王立;钱海峰;齐希光;;基于拉曼光谱的大米快速分类判别方法[J];食品与机械;2016年01期

9 陶梦琳;顾文涛;汪子青;侯珂惠;崔书盛;唐道超;秦娜;张大永;万军;;基于支持向量机的黄连饮片产地识别研究[J];中草药;2015年21期

10 徐大江;马占峰;高文佳;罗海峰;;基于电感耦合等离子体质谱法测定蜂蜜同位素进行产地溯源[J];食品安全质量检测学报;2015年10期

相关重要报纸文章 前2条

1 王彦;;保护“五常大米” 依法解决地理标志产品乱象[N];黑龙江日报;2015年

2 赵赫男;;“吉林大米”如何成为“白金名片”[N];吉林日报;2015年

相关博士学位论文 前1条

1 夏立娅;大米产地特征因子及溯源方法研究[D];河北大学;2013年

相关硕士学位论文 前9条

1 朱思宇;大米产地的模式识别研究[D];黑龙江科技大学;2016年

2 刘笑笑;基于RF-RFE算法的森林生物量遥感特征选择方法研究[D];山东农业大学;2016年

3 丁然;基于随机森林大豆籽粒外观品质识别系统的设计与实现[D];东北农业大学;2015年

4 言思敏;地理标志产品武夷岩茶的产地识别技术研究[D];中国计量学院;2015年

5 王蓉;基于稀疏主成分和SVM的白酒类别的定性研究[D];武汉轻工大学;2014年

6 钟敏;用碳氮稳定同位素对大米产地溯源的研究[D];大连海事大学;2013年

7 任洪玲;大米原产地品质分析与鉴别[D];河南工业大学;2012年

8 王全才;随机森林特征选择[D];大连理工大学;2011年

9 惠娜;近红外光谱分析技术在党参及复方丹参片质量控制中的应用[D];兰州大学;2011年



本文编号:2195536

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2195536.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b3969***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com