基于Spark和PU-learning的分布式机器学习平台的研究与实现
发布时间:2021-05-01 01:13
近年来,随着互联网技术的发展,企业数据总量正逐年增多,在企业内被当做资源核心和财富。为了挖掘数据蕴藏着的潜在价值,机器学习将继续扮演着重要的核心作用。在工业界,大型企业一般会构建分布式机器学习平台,提供更高效的机器学习服务能力。然而目前的分布式机器学习平台还存在着以下问题:1)目前工业界对外服务的商用分布式机器学习平台构建在企业内部的特定的集群环境中且难以对外部署,因此对于数据的保密安全等级要求比较高的国家卫健委等国家级组织和企业来说,将数据放在此类商用平台上进行分析时候存在顾虑,需要一个可以部署在这些国家级组织和企业的内部环境中的机器学习平台。2)在算法层面,卫健委的人口资源数据中存在着的大量未标记的数据,例如在孕前优生数据中,由于需要“随访”才能确定新生儿是否患有缺陷疾病且大量的人群未“随访”,这些未标记人群中存在沉默的患病潜在人群。这正是致力于利用未标记数据的基于正例样本和无标记样本的PU学习算法(Positive and Unlabeled Learning,简称PU-learning,是一种半监督学习算法)所解决的问题,然而目前PU学习算法只有单机版的实现,阻碍了平台对这类数...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 引言
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 分布式机器学习平台的研究现状
1.2.2 PU学习算法的研究现状
1.3 论文主要研究内容
1.4 硕士在读期间主要工作
1.5 论文章节安排
第二章 相关技术及研究
2.1 分布式计算框架Spark
2.1.1 Spark概述
2.1.2 Spark类MapReduce编程模型
2.1.3 Spark抽象单元
2.2 PU学习算法“两步骤”方法
2.3 PU学习算法优化技术
2.3.1 Rocchio算法
2.3.2 Spy算法
2.3.3 SMOTE重采样算法
2.3.4 集成学习算法
2.4 基于Spark的REST服务引擎
第三章 PU学习算法分布式版本的改进与实现
3.1 问题的提出
3.2 算法设计
3.3 算法实现
3.4 算法实验与分析
3.4.1 实验环境
3.4.2 实验数据
3.4.3 实验评估指标
3.4.4 实验结果与分析
第四章 PU学习算法扩展框架的设计与实现
4.1 问题的提出
4.2 算法设计
4.2.1 Bagging和Boosting融合策略
4.2.2 基于互信息的权重更新的Wrapper策略
4.3 算法实现
4.4 算法实验与分析
4.4.1 实验环境与实验数据
4.4.2 实验评估指标
4.4.3 实验结果与分析
第五章 基于Spark的分布式机器学习平台的设计与实现
5.1 系统需求分析
5.1.1 系统业务需求
5.1.2 系统功能需求
5.2 系统总体设计
5.2.1 功能结构设计
5.2.2 技术架构设计
5.2.3 整体架构设计
5.3 数据库设计
5.4 系统模块的设计与实现
5.4.1 资源管理模块
5.4.2 算法实现模块
5.4.3 日志审计模块
5.5 平台测试与评估
5.5.1 页面展示
5.5.2 平台测试
第六章 总结与展望
6.1 工作总结
6.2 工作展望
参考文献
致谢
攻读学位期间取得的研究成果
本文编号:3169850
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 引言
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 分布式机器学习平台的研究现状
1.2.2 PU学习算法的研究现状
1.3 论文主要研究内容
1.4 硕士在读期间主要工作
1.5 论文章节安排
第二章 相关技术及研究
2.1 分布式计算框架Spark
2.1.1 Spark概述
2.1.2 Spark类MapReduce编程模型
2.1.3 Spark抽象单元
2.2 PU学习算法“两步骤”方法
2.3 PU学习算法优化技术
2.3.1 Rocchio算法
2.3.2 Spy算法
2.3.3 SMOTE重采样算法
2.3.4 集成学习算法
2.4 基于Spark的REST服务引擎
第三章 PU学习算法分布式版本的改进与实现
3.1 问题的提出
3.2 算法设计
3.3 算法实现
3.4 算法实验与分析
3.4.1 实验环境
3.4.2 实验数据
3.4.3 实验评估指标
3.4.4 实验结果与分析
第四章 PU学习算法扩展框架的设计与实现
4.1 问题的提出
4.2 算法设计
4.2.1 Bagging和Boosting融合策略
4.2.2 基于互信息的权重更新的Wrapper策略
4.3 算法实现
4.4 算法实验与分析
4.4.1 实验环境与实验数据
4.4.2 实验评估指标
4.4.3 实验结果与分析
第五章 基于Spark的分布式机器学习平台的设计与实现
5.1 系统需求分析
5.1.1 系统业务需求
5.1.2 系统功能需求
5.2 系统总体设计
5.2.1 功能结构设计
5.2.2 技术架构设计
5.2.3 整体架构设计
5.3 数据库设计
5.4 系统模块的设计与实现
5.4.1 资源管理模块
5.4.2 算法实现模块
5.4.3 日志审计模块
5.5 平台测试与评估
5.5.1 页面展示
5.5.2 平台测试
第六章 总结与展望
6.1 工作总结
6.2 工作展望
参考文献
致谢
攻读学位期间取得的研究成果
本文编号:3169850
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3169850.html