当前位置:主页 > 硕博论文 > 社科博士论文 >

面向大规模数据分析与分类的正则化回归算法

发布时间:2018-04-03 14:35

  本文选题:数据降维 切入点:稀疏表示 出处:《安徽大学》2017年博士论文


【摘要】:随着互联网技术的飞速发展及数据收集成本的不断降低,大数据时代已经来临。大规模数据分析是指对规模巨大的数据进行分析,从中获得有利于对个体或者群组进行辨识的对象,大规模数据分析技术的社会及市场需求也变得十分紧迫。降维是对数据预处理及进一步分析的有效方式,通常采用变量选择或者函数变换等途径来描述关键的数据结构(如局部性,判别性等等),因而在回归分析、机器学习、数据挖掘和模式识别等领域占据着十分重要的地位。数据降维往往能够提供对数据更加本质和深刻的理解,因而广泛用于特征匹配、模型解释、数据表示等。在过去二十年中,回归方法因模型直观和理论丰富等特点受到了广泛的关注,分片逆回归(SIR)由于它在降维方面的有效性也吸引了很多研究者。然而,SIR的两个缺点限制了它进一步的应用。第一,在高维数情况下SIR的计算复杂度较高。第二,在改进特征选择和模型解释能力方面,投影子空间的稀疏性没有很好的挖掘出来。另一方面,怎样从足够的辅助数据集中挖掘判别信息,去改进机器智能系统的理解和分析能力,在大数据时代是一个更加值得深入研究的课题。并且它有非常广泛的应用空间,包括图像分类、视频检索、金融数据聚类或预测。在图像识别方面,比如,图像分辨率的差异容易导致训练集与测试集的数据特征有较大的差异,为直接数据降维(如主成分分析)带来了性能上的困难;同一个对象在不同尺度或者不同视角下的观测结果,往往能够提供优势互补的数据描述。领域自适应的任务是提取每个领域的判别特征并且同时提高目标域的分类性质。迁移学习的方法提供了一些可能的方法来解决上面提到的问题。用目标域中非常少的有标签的数据并同时借助于源域中大量的有标签的数据去学习领域自适应,期望用迁移源域中的判别信息去提高目标域的分类特性。本文主要针对上述两个分面,从算法角度推出新的模型及数值解。本文第二章提出在谱空间里计算SIR的投影向量,从而以更快的速度得到一个近似的回归解。此外,自适应的lasso获得一个稀疏的全局最优解,这在变量选择问题上有着十分重要的意义。为了完成带遮挡的鲁棒模式分类问题,第二章提出了一个基于相关熵和分类回归的模型。在回归系数中使用一个光滑的惩罚项替代了稀疏的限制,使得基于回归模型的分类算法在应用中更加灵活。更加具体的学术贡献如下:(1)在特征谱空间中求解判别式回归系数,减小数据分析的计算复杂度。(2)引入回归系数的稀疏约束,增强高维数据分析模型解的解释性。(3)针对例外点和噪音数据,设计快速,稳健的分类算法。用高维面部图像和基因微阵列数据去评估新的算法,并且和其他一些先进的方法做了对比新方法获得了有竞争力的结果。本文第三章提出基于低秩表示和依条件转换的迁移学习方法(LRCT),为了减少实际中可能的限制,包括计算的复杂性,和进一步提升分类的性能。受低秩表示方法及其成功应用的启发,LRCT希望找到一组特征表示,以合适的方式表达出数据局部和光滑特性的变换投影矩阵,用最小重构误差把非均匀的数据投影到一个共享子空间上。新方法的创新点主要体现在通过一些概率假设建立了一个中间域(I),然后在中间域I和目标域T之间求得有效的低秩表示。具体的学术贡献总结如下:(1)在因果关系框架下研究条件分布不匹配问题,建立从中间域I到目标域T之间的低秩表示关系,并由此学习领域自适应特征。因此新的方法从依条件不变的特征中去利用低秩结构。(2)在数值优化问题上,本文重新参数化密度比(densityratio)函数,把这个参数化的方程转化成经典的二次规划问题,然后用选择优化策略的方法求解新的目标函数。与已有方法做比较,新的方法明显的减少了计算的时间。(3)特别前,第三章基于多步不动点近似迭代原理,针对新模型建立了一个新的数值优化方案。实验结果表明,新算法在迭代优化过程中能够减少了一个内循环,这对大规模的数据低秩表示来说是非常重要的。本文第四章对进一步的工作做出展望。
[Abstract]:With the rapid development of Internet technology and the decreasing cost of data collection , the data age has come . Large - scale data analysis is a very important issue in the fields of regression analysis , machine learning , data mining and pattern recognition . In this paper , we propose a new method based on low rank representation and conditional transformation . In order to reduce the practical limitations , we propose a new numerical optimization scheme based on low rank representation and conditional transformation .

【学位授予单位】:安徽大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:C81

【相似文献】

相关期刊论文 前10条

1 曹建玲;;从数据分析谈统计特色[J];价值工程;2012年15期

2 张文霖;;数据分析初体验[J];数据;2013年05期

3 刘江娜;;大数据时代:为什么数据分析能让你的企业脱颖而出[J];现代企业教育;2013年03期

4 尹青春;谈试题中的数据分析[J];生物学教学;1993年11期

5 刘悦红;;数据分析观念的内涵及其教育价值[J];大连教育学院学报;2012年02期

6 张文霖;;数据分析六步曲[J];数据;2013年06期

7 张文霖;;数据分析师那些事儿[J];数据;2013年07期

8 立山;探索数据分析简介(Ⅰ)[J];数理统计与管理;1988年02期

9 立山;探索数据分析(Ⅱ)[J];数理统计与管理;1988年03期

10 立山;探索数据分析(Ⅴ)[J];数理统计与管理;1988年06期

相关会议论文 前10条

1 申敏;;数据分析的原则和一般方法[A];2010年云南电力技术论坛论文集(文摘部分)[C];2010年

2 刘刚;;小学生数据分析观念的培养[A];中华教育理论与实践科研论文成果选编(第五卷)[C];2013年

3 石勇;;在银行和金融数据分析中的评分方法[A];Data Analysis, Econo-physics and Risk Management--Proceedings of CCAST (World Laboratory) Workshop[C];2001年

4 吴一平;;基于数据分析的离校工作改进[A];中国高等教育学会教育信息化分会第十二次学术年会论文集[C];2014年

5 吕大青;;送变电施工企业中数据分析的运用[A];第二届浙江中西部科技论坛论文集(第一卷)[C];2005年

6 李小花;李姝;;大数据分析在指挥信息系统中的应用[A];2014第二届中国指挥控制大会论文集(下)[C];2014年

7 范丽伟;唐焕文;唐一源;;空间独立成分分析在fMRⅠ数据分析中的应用[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年

8 张军;李婕;;中国国民休闲状态变化研究——基于网上数据分析[A];第十五届全国区域旅游学术开发研讨会暨度假旅游论坛论文册[C];2010年

9 徐小龙;王汝传;姜波;;一种新的基于P2P的电信海量数据分析业务模式[A];普适计算及其软件新技术——第三届长三角计算机科技论坛文集[C];2006年

10 邵东华;;高速公路的平面控制复测与数据分析[A];第四届“测绘科学前沿技术论坛”论文精选[C];2012年

相关重要报纸文章 前10条

1 匿铭;数据分析的“磨刀阶段”[N];中华读书报;2013年

2 胡英;澳发布政府可信数据分析指导草案[N];人民邮电;2014年

3 郑爱民;陕西加强消费维权数据分析利用[N];中国工商报;2014年

4 本报驻美国记者 吴成良;“数据分析”成了“金饭碗”[N];人民日报;2014年

5 本报记者 杨群;大数据分析亮出专家的“自贸研判”[N];解放日报;2014年

6 周桂生 汤建国;数据分析行业登陆湖南,带来巨大商机[N];中国企业报;2008年

7 朱文明 甫瀚公司咨询专家;数据分析提升决策智慧[N];中国审计报;2009年

8 ;国采中心空调协议供货数据分析[N];政府采购信息报;2010年

9 武虹 审计署驻沈阳特派办;以数据分析为统领开展数字化审计工作[N];中国审计报;2012年

10 杰弗尼;行走在大数据分析误区旁的零售商[N];中国商报;2013年

相关博士学位论文 前7条

1 刘岳;区域地球化学数据分析及成矿信息融合模型研究[D];中国地质大学;2015年

2 徐晓琳;面向大规模数据分析与分类的正则化回归算法[D];安徽大学;2017年

3 董媛香;基于软集合的不完备不一致数据分析及决策方法研究[D];重庆大学;2014年

4 张睿;数据分析在污染控制领域的节能优化应用[D];中国科学技术大学;2014年

5 陈宜治;函数型数据分析若干方法及应用[D];浙江工商大学;2011年

6 郭广报;基于并行统计计算的金融数据分析[D];山东大学;2012年

7 孙建强;生物磁共振数据分析中的几个问题[D];中国科学院研究生院(武汉物理与数学研究所);2014年

相关硕士学位论文 前10条

1 周儒军;基于Hadoop的分布式监控平台的研究与实现[D];华南理工大学;2015年

2 施建辉;中职生职业道德认识现状调查研究[D];上海师范大学;2015年

3 丁国辉;核磁共振数据分析中的两个问题[D];中国科学院研究生院(武汉物理与数学研究所);2015年

4 张清;面向精准广告投放的数据分析与可视化系统设计与实现[D];山东大学;2015年

5 周徐;基于分层采样的DeepWeb数据分析方法研究[D];苏州大学;2015年

6 王佳琦;纠正性反馈对高中生英语冠词习得的影响[D];内蒙古师范大学;2015年

7 顾星竹;基于Hadoop的PCF系统的设计与实现[D];南京大学;2014年

8 张海洋;大数据的统计分析技术比较研究[D];南京大学;2014年

9 扎娟娟;银保通管理系统的构建与实施[D];电子科技大学;2014年

10 关晨静;高中生英语跨文化交际能力的调查研究[D];江西师范大学;2015年



本文编号:1705613

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/sklbs/1705613.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a7aa8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com