基于机器学习的数据补全、标注和检索若干问题研究

发布时间:2017-09-25 10:43

  本文关键词:基于机器学习的数据补全、标注和检索若干问题研究


  更多相关文章: 大数据 矩阵补全 主动学习 近邻检索


【摘要】:随着互联网的飞速发展,人们进入了大数据时代。在大数据时代如何对数据进行理解和检索成为研究人员广泛关注的问题,在推荐系统、人脸识别、图像检索等众多实际问题中有着广泛的应用。但是在大数据时代,关于数据本身,我们还面临着很多挑战。第一点,虽然可以很容易的收集到大量数据,但是由于各方面的原因,真实数据经常可能是缺失的、不完整的、或者被部分被干扰的,所以如何进行数据补全和恢复是一个难题。第二点,数据的分类、识别和理解经常需要依赖大量的标注数据,但是大数据时代,虽然数据总量多,但是大部分数据都是没有标注信息的,而人工标注所有数据耗时耗力,因此如何选择最重要、最有信息含量的那部分数据进行标注,从而降低标注成本,也是一个重要的科研问题。第三点,大数据时代,如何在对数据进行理解的基础上,进行快速准确的数据检索,精确的了解用户意图,并给用户进行实时反馈,也是一大挑战。针对这三方面的问题,本论文开展了以下工作:1.为了更好的进行数据信息恢复,我们提出了一个基于矩阵截断式核范数的矩阵补全算法。本文在传统的基于矩阵核范数的矩阵补全思路启发下,进一步对矩阵核范数进行了精细化的修改,将传统核范数定义中的最大的r的奇异值去掉,由此定义了新的矩阵截断式核范数。通过这种修改,基于矩阵截断式核范数的优化问题能够对矩阵的秩的优化问题进行更好的近似,从而得到更好的低秩解。同时,我们提出了两种高效的矩阵截断式核范数的优化算法,分别对应于硬限制和软限制条件下目标函数的求解。而且,该工作给出了一种一般性的替代矩阵核范数的思路,可以广泛应用到多种采用矩阵核范数的问题中。2.我们称对数据进行自动采样,选择最有信息量的数据进行标注的过程为主动学习。本文在传统主动学习算法基础上,进一步利用核空间理论,将基于距离敏感重构的主动学习算法成功其推广为其非线性形式。传统基于距离敏感重构的主动学习算法只是简单的通过线性重构去表示数据分布,但在很多的实际问题中,数据分布往往非常复杂。而核空间理论表明,可以通过选择适当的核函数,将原始数据点映射到无穷维再生希尔伯特核空间(RKHS)中。而研究表明,在一个充分高维的空间里,数据的复杂非线性结构更可能被展开成简单的几何结构。因此,我们在核空间中对原始算法进行了重新推导,并提出了一种全新的优化算法进行核空间目标函数的快速求解。实验表明,通过引入核空间,我们对数据几何信息的刻画更加准确了,取得了更好的效果。3.为了加速数据检索的速度,提高数据检索的精度,本文提出了一个综合数据结构和哈希算法的近似最近邻检索框架。传统上,基于数据结构的检索算法和基于哈希算法的检索算法是最近邻检索中的两个独立的研究方向。本文提出的框架可以融合多种数据结构(如K-means树,K近邻图等)和任意哈希算法,实现两者的优势互补。一方面,我们将数据结构中使用的传统欧式距离度量改进成汉明距离,大大加速数据结构中每一步搜索的计算速度;另一方面,我们对每个数据点的哈希编码利用数据结构进行了重新组织,因此避免了对哈希编码进行线性暴力搜索,将线性复杂度降低为对数复杂度。还有很重要的一点是,传统哈希算法由于需要线性遍历,往往只能采用较短的哈希编码(比如32或者64),这时哈希编码对真实距离的近似往往精度较低。而在本文的框架中,我们可以支持更长的哈希编码(如512或者1024),因此能够得到更高的检索精度。
【关键词】:大数据 矩阵补全 主动学习 近邻检索
【学位授予单位】:浙江大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP311.13
【目录】:
  • 摘要5-7
  • Abstract7-15
  • 1 绪论15-29
  • 1.1 研究背景15-17
  • 1.1.1 数据补全15
  • 1.1.2 数据标注15-16
  • 1.1.3 数据理解16
  • 1.1.4 数据检索16-17
  • 1.2 国内外相关工作17-25
  • 1.2.1 数据补全17-19
  • 1.2.2 数据标注19-20
  • 1.2.3 数据理解20-24
  • 1.2.4 数据检索24-25
  • 1.3 本文研究内容和主要贡献25-26
  • 1.4 论文各章节的组织结构26-29
  • 2 基于截断式核范数的矩阵补全29-51
  • 2.1 研究动机29
  • 2.2 截断式核范数正则化29-32
  • 2.2.1 记号29-30
  • 2.2.2 目标函数推导30-32
  • 2.3 优化算法32-37
  • 2.3.1 基于ADMM的优化34-35
  • 2.3.2 基于APGL的优化35-37
  • 2.4 实验结果37-50
  • 2.4.1 合成数据集实验37-39
  • 2.4.2 真实视觉数据集的实验39-44
  • 2.4.3 事件矩阵恢复实验44-50
  • 2.5 总结50-51
  • 3 基于核空间非线性距离敏感重构的主动学习51-71
  • 3.1 研究动机51-53
  • 3.1.1 记号51
  • 3.1.2 相关工作51-53
  • 3.2 线性距离敏感重构的基本思路53-57
  • 3.2.1 目标函数53-54
  • 3.2.2 线性距离敏感重构的求解54-57
  • 3.3 贪心序列式选择算法57-59
  • 3.4 核空间非线性主动学习59-63
  • 3.5 复杂度分析63
  • 3.6 实验63-69
  • 3.6.1 对比方法63-65
  • 3.6.2 简单的合成数据集实验65-66
  • 3.6.3 真实数据集66-67
  • 3.6.4 结果67-69
  • 3.6.5 参数选择69
  • 3.7 总结69-71
  • 4 基于数据结构和哈希投影的近邻检索框架71-85
  • 4.1 研究动机71-72
  • 4.2 综合近似近邻检索框架72-75
  • 4.2.1 算法72-74
  • 4.2.2 复杂度分析74-75
  • 4.3 实验75-83
  • 4.3.1 比较的算法75-79
  • 4.3.2 实验数据集79-80
  • 4.3.3 算法评估80
  • 4.3.4 参数选择80-81
  • 4.3.5 结果81-83
  • 4.4 总结83-85
  • 5 总结与展望85-89
  • 5.1 本文工作总结85-86
  • 5.2 未来工作展望86-89
  • 参考文献89-97
  • 攻读博士学位期间主要的研究成果97-99
  • 致谢99

【相似文献】

中国期刊全文数据库 前10条

1 郭莹;;数据空间关键问题探究[J];软件导刊;2012年07期

2 厉剑;张绍雄;刘俊杰;李成柱;;大数据引发信息时代新变革[J];大众科技;2013年12期

3 李斌;;大数据及其发展趋势研究[J];广西教育;2013年35期

4 张晓军;孟祥武;;数字化周期[J];计算机科学;2002年05期

5 崔晨;吴扬扬;;基于活动的数据空间数据关系发现[J];微型机与应用;2011年11期

6 贾云得;;微型数字存贮遥测装置数据预存贮方法[J];遥测遥控;1989年06期

7 靳小龙;王元卓;程学旗;;大数据的研究体系与现状[J];信息通信技术;2013年06期

8 朝乐门;;数据空间及其信息资源管理视角研究[J];情报理论与实践;2013年11期

9 黄一凡;;合并分区 数据无损有妙招[J];电脑爱好者;2011年23期

10 葛敬军;胡长军;刘歆;李扬;刘震宇;;面向领域科学数据的虚拟数据空间共享模型[J];小型微型计算机系统;2014年03期

中国重要会议论文全文数据库 前5条

1 李鸿奎;陈洪艳;;大连市房地产基础地理信息系统的设计和建设[A];中国地理信息系统协会第九届年会论文集[C];2005年

2 董彦磊;申德荣;寇月;聂铁铮;;数据空间中数据组织模型以及关联关系发现模型的研究[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

3 庞怡;许洪光;张志敏;;针对海量科技信息的存储研究[A];信息时代——科技情报研究学术论文集(第三辑)[C];2008年

4 季承;;Oracle利用HWM高水标记收缩数据空间方案[A];2013电力行业信息化年会论文集[C];2013年

5 季承;;Oracle利用HWM高水标记收缩数据空间方案[A];2013电力行业信息化年会论文集[C];2013年

中国重要报纸全文数据库 前6条

1 牛泽亚;用户如何在数据空间里“被遗忘”?[N];人民邮电;2014年

2 风格;指引大数据未来发展方向的九大真理[N];中华读书报;2013年

3 录音整理 本报记者 刘文强 杨丰源;创新驱动,奋力奔向大数据时代[N];贵阳日报;2014年

4 中国人民大学信息学院 李玉坤;云计算与数据空间[N];中国计算机报;2008年

5 整理 本报记者 苏丹丹;把握大数据机遇 推动文化产业跨越发展[N];中国文化报;2013年

6 安徽国税局 赵为民;税务综合数据平台的设想[N];计算机世界;2007年

中国博士学位论文全文数据库 前10条

1 李晓娜;面向SaaS应用的多租户数据放置机制研究[D];山东大学;2015年

2 张德兵;基于机器学习的数据补全、标注和检索若干问题研究[D];浙江大学;2015年

3 姜朔;数据空间中数据集成若干关键问题研究[D];东华大学;2014年

4 陈鹏;面向情景感知计算的时空数据管理、查询、分析与相关算法研究[D];华东师范大学;2013年

5 杨丹;数据空间中基于语义的实体搜索关键技术研究[D];东北大学;2012年

6 王晓蕊;华北克拉通地球化学科学数据的管理及应用研究[D];中国地质大学;2008年

7 张晓东;数字河口平台建设关键技术研究[D];中国海洋大学;2009年

8 汪陈应;XML数据编码与存储管理关键技术研究[D];南开大学;2010年

9 李韧;基于Hadoop的大规模语义Web本体数据查询与推理关键技术研究[D];重庆大学;2013年

10 刘江涛;面向多领域用户模型的自适应网络制图服务机制研究[D];武汉大学;2012年

中国硕士学位论文全文数据库 前10条

1 权西瑞;云环境下数据版权保护方法的研究[D];西安建筑科技大学;2015年

2 向兵;中药颗粒调剂设备中辅助硬件及自动封口机的设计[D];东北师范大学;2015年

3 崔晨;基于活动的数据空间的数据关系发现和数据重要性评价[D];华侨大学;2011年

4 童蓉;基于GIS的社区公共卫生信息平台应用研究[D];上海交通大学;2010年

5 刘莉;数据空间数据的相关性研究[D];华侨大学;2013年

6 赵宁;数据空间内面向语义的资源组织与管理模型研究[D];东北大学;2009年

7 王洋;数据空间中数据资源之间关联关系发现与语义查询研究[D];东北大学;2011年

8 常飞;基于实时数据的动态异常检测方法研究[D];天津理工大学;2013年

9 朱军;基于EnCase的电子数据取证系统设计与实现[D];天津大学;2011年

10 于维贺;个人数据空间中关联关系可视化技术的研究与实现[D];东北大学;2010年



本文编号:916893

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/916893.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f0e96***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com