当前位置:主页 > 科技论文 > 物理论文 >

稀硫化PLS回归方法在光谱学中的应用与实现

发布时间:2020-05-01 00:47
【摘要】:光谱测量是一种常用的物质检测技术,特点是分析速率高、无损耗、绿色低成本且容易实时在线分析。根据其自身的优势,光谱测量技术已经被广泛应用于医药、农业、化工业等科学领域。然而,通过光谱测量得到的数据一般具有“高维度、低样本”的特征,并且谱带间存在严重的重叠问题,使得光谱数据较为复杂,难以直观地做出分析与判断。基于这一问题,本文使用近红外光谱测量技术,面向多组分分析,重点研究化学计量学中的多元回归方法,利用不同的算法进行建模分析并比较实验结果。偏最小二乘是近红外光谱分析中应用最为广泛的一种算法,它能够有效克服高维光谱数据中的多重相关性问题,提取有效信息,降低模型中的变量维度。但究其本质,偏最小二乘算法中的隐变量是原自变量的线性组合,它将所有的原始变量都带入模型进行预测分析,从而可能存在无关或者冗余的变量信息,使得模型相对于原始变量并没有实现变量选择,变量信息无法解释,因此需要引入稀疏化方法,从真正意义上达到变量选择的效果。本文的研究工作着手于模型稀疏化,从协方差估计、重加权和阈值约束三个方面达到对光谱数据的波长选择,除此以外还对样本进行选择,利用波长选择的思想处理样本选择问题。主要工作如下:1.本文提出基于稀疏矩阵变换(SMT)的协方差估计方法,通过具有高度相关性的变量之间的坐标转换达到剔除部分无效或冗余变量的效果,使得变量之间相互独立,提高协方差估计的稳定性和准确性。将SMT估计加入偏最小二乘算法中,并继续对偏最小二乘建模过程中进行重加权处理,得到稀疏化的偏最小二乘(SPLS)方法,最后将PLS和SMT-PLS以及SMT-SPLS这三种回归方法进行分析对比。2.提出基于框架的稀疏化学习方法,其本质思想是对多元回归方法计算得到的回归系数值再次进行函数处理,设定阈值从而剔除部分无效变量,该框架算法的优势在于迭代多次进行稀疏化变量选择。同时,将框架与稀疏化的偏最小二乘方法相集成(IRLS-SPLS),达到不仅能在框架中使用不同的函数对自变量进行加权惩罚,还能循环多次处理回归系数。最后通过软件程序实现并将结果与其他多元回归方法相比较。3.借鉴变量选择的思想用于样本选择,利用非线性的偏最小二乘方法对样本进行自动选择,再加入权重值对结果再次稀疏,或者结合稀疏化迭代框架的设计对样本进行迭代选择。在本设计点中针对于大样本量的数据,如果样本量过少则不适用于稀疏化方法,否则会使得模型欠拟合。
【图文】:

特征提取


对食品、农业、医药中的试验试剂进行样品分析、医药化学中分子设计、新药及结构性能研宄等等。逡逑代光谱分析仪器为我们提供了数以千记甚至更多的波长数据,这些光谱数据反收的频率信息,其中可能存在各成分的谱带严重重叠、特征吸收不明显等问题。际分析中与目标相关的自变量个数有限,庞大的变量数会影响到模型的预测能过拟合问题。因此需要对高维度的变量进行降维处理,,它不仅能够便于计算处释,而且其更深层次的意义在于可以提取有效的信息和摈弃无用的噪声数据[1高维光谱数据的处理分为两类,即波长选择和样本选择,其中都包含特征提取技术[15]。波长选择[16’邋17]的目的是通过一些方法能够找到对目标有显著影响的者综合变量,减少无关信息对目标测定的影响。样本选择[18]则是从光谱测量样本中进行选择,样本选择可以剔除异常样本点对建模的影响,但如果校正样合适,那么模型建立的再好也不适用于未知数据的分析,使得建模没有意义。了数据降维两类方法的不同,从图形上看,左图将a到e的五个变量揉合为h变量,而右图只是选择出b和d两个变量作为新的分析变量。逡逑3逦.逦3逡逑

近红外光谱,原数据,玉米,特征值


图4.2标准化处理后玉米近红外光谱图逡逑验分析逡逑米数据集中,变量维度远大于样本个数,并且变量之间存在严重的多重样本协方差的真实计算值,首先可以直接利用MATLAB程序计算样本的求特征值与特征向量,但是其特征值结果比较复杂,为了验证该计算是次对该协方差的逆矩阵进行求解,发现MATLAB自带的求逆矩阵函数提示异矩阵,其计算结果可能不准确,结合在特征值对角矩阵中出现的很多异展示中也显得差异较大这一情况判断该样本并不适合直接计算其协方差中深蓝色代表样本的真实计算特征值,部分缺失是因为该部分特征值算结果中发现绝大部分特征值为复数,在变量个数为70之后其计算差
【学位授予单位】:扬州大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:O433.1

【参考文献】

相关期刊论文 前10条

1 李仲达;林建浩;王美今;;大数据时代的高维统计:稀疏建模的发展及其应用[J];统计研究;2015年10期

2 刘柳;陶大程;;Lasso问题的最新算法研究[J];数据采集与处理;2015年01期

3 刘建伟;崔立鹏;刘泽宇;罗雄麟;;正则化稀疏模型[J];计算机学报;2015年07期

4 褚小立;陆婉珍;;近五年我国近红外光谱分析技术研究与应用进展[J];光谱学与光谱分析;2014年10期

5 刘伟;赵众;袁洪福;宋春风;李效玉;;光谱多元分析校正集和验证集样本分布优选方法研究[J];光谱学与光谱分析;2014年04期

6 殷弘;汪宝彬;;惩罚的偏最小二乘(英文)[J];数学杂志;2013年01期

7 刘绪平;胡昌勤;田克仁;钟瑞建;;近红外光谱定量分析样本选择理论研究进展[J];药物分析杂志;2010年07期

8 柳艳云;胡昌勤;;近红外分析中光谱波长选择方法进展与应用[J];药物分析杂志;2010年05期

9 褚小立,袁洪福,陆婉珍;近红外分析中光谱预处理及波长选择方法进展与应用[J];化学进展;2004年04期

10 褚小立,袁洪福,王艳斌,陆婉珍;遗传算法用于偏最小二乘方法建模中的变量筛选[J];分析化学;2001年04期

相关博士学位论文 前1条

1 曾雪强;偏最小二乘降维方法的研究与应用[D];上海大学;2009年

相关硕士学位论文 前2条

1 郭婷婷;偏最小二乘及稀疏偏最小二乘回归的应用研究[D];昆明理工大学;2015年

2 范永东;模型选择中的交叉验证方法综述[D];山西大学;2013年



本文编号:2646367

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wulilw/2646367.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fa6ee***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com