当前位置:主页 > 科技论文 > 自动化论文 >

基于误差统计特性分析的优化建模方法

发布时间:2020-11-08 11:47
   各类数据的积累和快速增长给数据分析带来巨大的挑战。作为数据分析的核心技术,机器学习从已有数据中提取规则或知识,从而在未知情境下为人类提供决策依据。我们希望机器学习模型能够较好地匹配数据,然而模型的适应性远远不及数据的复杂性。任何模型都无法确保完全匹配各种数据,这种不完全匹配关系往往通过误差体现出来。如何合理有效地利用误差是机器学习领域持续研究了数十年的问题,期间出现了很多经典的基于误差的学习算法或技术,如误差反向传播算法、AdaBoost、自步学习等,这些工作推动了机器学习的发展,充分展示了误差所蕴含的宝贵价值。关于误差的学习方法研究是机器学习中很多学习问题的共性话题,也是一个有生命力、具有开放性且大有可为的方向。统计学是研究一定规模数据的主流工具之一,大数据分析面临的困难更加凸显了统计学的重要性。因此,利用统计学方法研究误差的特性,进而提升数据分析效果是一个自然的思路。本文主要围绕机器学习中的三种误差——训练误差、测试误差和漂移误差,从数据质量提升和模型/参数优化两个层面开展系统深入的研究。在数据层面,给出时差序列数据的相关性分析和距离度量方法;提出分类与回归通用的噪声过滤算法。在模型层面,完善了交叉验证(cross-validation,CV)的误差估计理论;提出面向特定类型数据的准确、稳定、高效的CV方法;提出面向适定学习问题的超参数优化方法。本文的主要研究工作概括如下:(1)提出适用于时差序列数据的相关性分析、曲线排齐和距离度量方法。时差的存在可能导致序列相关性产生误判或者距离度量出现偏差,进而干扰或误导序列数据分析。本文通过研究时差序列相关系数的统计特征,提出伪相关的识别方法和时差序列相关性判定方法;为消除时差,提出一种适用面更广的曲线排齐优化准则,并给出高效的优化问题求解方法;提出的最大平移相关距离可以度量具有相位和振幅漂移的时差序列之间的距离。这些方法可以有效排除时差对序列数据分析的干扰,为更深层次的序列分析做好了准备。(2)建立了监督学习的弹性噪声过滤体系。从概率角度给出基于模型预测的噪声过滤方法的前提假设及其有效性原理,解释了典型过滤器之间的联系;证明了置信区间内误差的低噪性,阐述了噪声与误差之间的联系;进而提出区间不敏感过滤算法,算法具有宽松的假设,而且其有效性得到合理解释。这些工作不仅完善了已有方法的理论基础,而且算法的核心概念——区间不敏感误差可为相关的误差学习方法提供新的视角和思路。(3)给出了误差估计的准确性与稳定性的关系,并从理论上找出了CV中影响误差估计的关键因素。利用测试误差的方差分析技术给出CV估计的准确性与稳定性的度量方式,证明了两者之间的量化关系,从而为通过减小方差来提升准确度提供理论指导;同时给出CV方差与相关变量之间的关系,作为调整CV方差的策略依据;在分类问题上的结果能够从理论上解释一些经典的实验结果,并针对分类和回归问题提出一种统一的标准化方差,它可作为一个稳定的误差度量。这部分工作为提高误差估计的准确性和稳定性提供了理论指导,对模型选择具有重要意义。(4)针对序列数据的自相关性特征提出Markov交叉验证方法(M-CV)以更好地估计模型误差。序列的周期性、重复性或相关性会导致时序模型误差估计产生偏差,本文给出相应的三个CV准则;并提出一种Markov交叉验证方法,其序列划分方法可以确保每个子集内的样本保持一定距离,可避免过拟合或序列信息损失的问题(可能导致误差的低估或高估);此外从理论上证明了M-CV误差估计具有低方差性,从而确保M-CV的稳定性,实验结果也表明M-CV比其它CV具有更低的偏差、方差以及时间成本。(5)提出基于训练误差的最小对称相似准则来解决超参数优化问题。常规的网格搜索交叉验证方法过程复杂且有一定的随机性,本文用训练误差之间的相似性来解决参数优化问题。提出一种基于训练结果的方向相似度,来度量模型泛化误差的相似度;在此基础上证明了对称方向相似度在最佳参数处取得最小值;提出了最小对称相似准则(MSSC),可用于五类学习任务的超参数优化,其时间复杂度低于CV且结果具有唯一性。所提出的方向相似度为训练结果和预测误差建立了桥梁,使得从训练结果角度研究泛化能力成为可能。本文通过数据与模型之间的误差统计特性分析,在数据质量提升和模型/参数优化方面开展研究,取得的研究成果完善和拓展了误差学习的理论与应用范围,为复杂数据的分析提供了有效的方法,具有重要的理论意义和应用价值。
【学位单位】:山西大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:TP181
【文章目录】:
中文摘要
ABSTRACT
符号说明
第一章 引言
    1.1 研究背景和意义
    1.2 国内外研究现状
        1.2.1 基于误差的数据质量优化方法
        1.2.2 基于误差的模型(参数)优化方法
    1.3 本文的研究内容和组织结构
第二章 时差序列的数据分析
    2.1 时差序列的研究现状
        2.1.1 时差序列的相关性分析
        2.1.2 时差序列的距离度量
    2.2 时差序列的相关性分析
        2.2.1 相关系数的上下界
        2.2.2 伪相关的统计特征
        2.2.3 时差序列的相关性判别
        2.2.4 实验结果与分析
    2.3 时差序列的曲线排齐
        2.3.1 曲线排齐优化准则及其求解算法
        2.3.2 实验结果与分析
    2.4 时差序列的距离度量
        2.4.1 最大平移相关距离
        2.4.2 二次距离
        2.4.3 聚类结果与分析
    2.5 本章小结
第三章 区间不敏感噪声过滤
    3.1 经典过滤器的形式化分析
        3.1.1 监督学习中的噪声和误差
        3.1.2 基于模型预测的过滤:假设与缺陷
        3.1.3 基于集成的过滤
    3.2 区间低噪声定理
    3.3 区间不敏感过滤
        3.3.1 回归中的区间不敏感过滤
        3.3.2 分类问题的区间不敏感过滤
        3.3.3 实验结果及分析
    3.4 本章小结
第四章 基于误差方差的交叉验证估计
    4.1 误差估计准确性与稳定性的关系
        4.1.1 准确性与稳定性度量
        4.1.2 期望绝对偏差与交叉验证方差的关系
        4.1.3 假设和结论的验证
    4.2 误差方差及其影响因素
        4.2.1 三种交叉验证方差
        4.2.2 方差与各因素的关系
        4.2.3 实验与分析
    4.3 本章小结
第五章 面向序列数据的误差估计
    5.1 相关工作
    5.2 Markov交叉验证
        5.2.1 时间序列模型
        5.2.2 序列数据的划分准则
        5.2.3 Markov交叉验证算法
    5.3 性质分析与比较
        5.3.1 M-CV的性质
        5.3.2 时序交叉验证的比较
    5.4 对比实验及分析
        5.4.1 数据、模型和评价准则
        5.4.2 交叉验证的表现
        5.4.3 模型比较
    5.5 本章小结
第六章 基于方向相似度的超参数优化
    6.1 准备工作
    6.2 超参数的方向相似度
        6.2.1 分类中的方向相似度:从训练误差到预测误差
        6.2.2 回归/拟合中的方向相似度
        6.2.3 密度估计中的方向相似度
        6.2.4 聚类中的方向相似度
    6.3 最小对称相似准则
        6.3.1 假设
        6.3.2 对称方向相似度
        6.3.3 最小对称相似准则
        6.3.4 复杂度分析
    6.4 实验结果与分析
        6.4.1 SVC分类
        6.4.2 SVR回归
        6.4.3 B样条曲线拟合
        6.4.4 核密度估计
        6.4.5 密度峰值聚类
    6.5 本章小结
结论及展望
参考文献
攻读博士学位期间取得的研究成果
致谢
个人简况及联系方式

【参考文献】

相关期刊论文 前10条

1 王铭军;潘巧明;刘真;陈为;;可视数据清洗综述[J];中国图象图形学报;2015年04期

2 姜高霞;王文剑;;时序数据曲线排齐的相关性分析方法[J];软件学报;2014年09期

3 邹朋成;王建东;杨国庆;张霞;王丽娜;;辅助信息自动生成的时间序列距离度量学习[J];软件学报;2013年11期

4 宋金玉;陈爽;郭大鹏;王内蒙;;数据质量及数据清洗方法[J];指挥信息系统与技术;2013年05期

5 龚书;瞿有利;田盛丰;;多文档文摘语义单元自动去噪器的监督学习方法[J];计算机研究与发展;2013年04期

6 曹莹;苗启广;刘家辰;高琳;;AdaBoost算法研究进展与展望[J];自动化学报;2013年06期

7 曹建军;刁兴春;陈爽;邵衍振;;数据清洗及其一般性系统框架[J];计算机科学;2012年S3期

8 黄刚;袁满;吴秀英;丛慧刚;;元数据驱动的数据质量评估体系架构研究[J];计算机工程与应用;2013年08期

9 刘汉中;;基于自相关视角的弱平稳过程之间的伪回归分析[J];统计与信息论坛;2012年04期

10 王晓原;张敬磊;吴芳;;交通流数据清洗规则研究[J];计算机工程;2011年20期



本文编号:2874738

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2874738.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7208f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com