当前位置:主页 > 科技论文 > 自动化论文 >

大规模PU学习

发布时间:2018-11-20 10:36
【摘要】:基于正样本和无标记样本的机器学习方法称为Positive and Unlabeled Learn-ing,简称 PU 学习。PU 学习在现实中有很多应用场景,例如某产品已有的用户数据可以视为正样本,企业须要基于这些正样本在海量未知用户中发掘潜在的新用户,该过程称为Lookalike扩展。本文根据应用场景的不同,将PU学习分为两类,一类是PU分类算法,一类是PU矩阵补全算法。第一类PU分类算法,主要针对某一特定的任务进行建模,例如某产品的Lookalike扩展。第二类PU矩阵补全算法,主要针对两类实体间的关系进行建模,例如单类协同过滤和多标记学习等应用。很多时候,除了能获取实体间的关系矩阵外,还有一些辅助的特征信息,例如单类协同过滤中,我们可获得用户或商品的特征数据,此时使用PU归纳式矩阵补全算法会取得更好的效果。已有的PU学习方法均是基于单机进行的,但是在大数据时代,数据规模不断增长,实用的机器学习算法应当具备可分布式的能力。本文在大数据处理平台Spark上,设计并实现了已有PU学习算法的分布式版本。此外,我们从多任务学习的方法中受到启发,提出了聚类PU归纳式矩阵补全的新方法。本文工作主要包括如下内容:一、实现了已有PU分类算法的分布式版本,包括分布式的两步骤方法和分布式代价敏感学习法,在企业级Lookalike数据集上,对比了各种策略的效果,并验证了算法具有一定的可扩展性。二、实现了已有PU归纳式矩阵补全算法的分布式版本,在推荐系统和多标记学习的标准数据集上进行了实验,验证了算法具有较强的可扩展性。三、提出了基于聚类思想的PU归纳式矩阵补全算法,实现了分布式版本,在推荐系统和多标记学习的标准数据集上,与已有的PU归纳式矩阵补全算法进行对比。新算法在AUC上获得较大提升,且具有一定的可扩展性。
[Abstract]:The machine learning method based on positive samples and unlabeled samples is called Positive and Unlabeled Learn-ing, for short PU learning. In reality, PU learning has many application scenarios, for example, the existing user data of a product can be regarded as positive samples. Based on these positive samples, enterprises need to discover potential new users among a large number of unknown users. This process is called Lookalike extension. In this paper, PU learning is divided into two categories according to the different application scenarios, one is the PU classification algorithm, the other is the PU matrix complement algorithm. The first kind of PU classification algorithm is mainly used to model a particular task, such as the Lookalike extension of a product. The second kind of PU matrix complement algorithm is mainly used to model the relationship between two kinds of entities, such as single-class cooperative filtering and multi-label learning. In many cases, in addition to obtaining relational matrices between entities, there are also auxiliary feature information, such as feature data for users or commodities in single-class collaborative filtering. In this case, PU inductive matrix complement algorithm will achieve better results. The existing PU learning methods are based on single machine, but in big data era, the data scale is increasing, and the practical machine learning algorithm should have the ability to distribute. In this paper, we design and implement the distributed version of PU learning algorithm on big data processing platform Spark. In addition, we propose a new method of clustering PU inductive matrix complement, which is inspired by the multitask learning method. The main contents of this paper are as follows: first, the distributed version of the existing PU classification algorithm is implemented, including the distributed two-step method and the distributed cost-sensitive learning method. On the enterprise level Lookalike data set, the effects of various strategies are compared. The extensibility of the algorithm is verified. Secondly, the distributed version of the existing PU inductive matrix complement algorithm is implemented. Experiments are carried out on the recommendation system and the standard data set of multi-label learning, and it is proved that the algorithm has strong extensibility. Thirdly, the PU inductive matrix complement algorithm based on clustering idea is proposed, and the distributed version is implemented. The algorithm is compared with the existing PU inductive matrix complement algorithm on the recommendation system and the standard data set of multi-label learning. The new algorithm improves greatly on AUC and has certain expansibility.
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP181

【相似文献】

相关期刊论文 前6条

1 张立荣;PU湿法仿真皮[J];今日科技;1994年04期

2 ;高档PU聚酯漆应市[J];兰州科技情报;1995年03期

3 于成业;何小海;滕奇志;钟国韵;李元;;基于非规则PU模式的HEVC视频编码方法[J];电视技术;2014年09期

4 王好;;太极服务器4CPU起步[J];每周电脑报;1998年12期

5 富震;;基于SVM主动学习技术的PU文本分类[J];计算技术与自动化;2014年01期

6 张义伟;曾田;;基于486CPU的SDRAM控制器的设计与实现[J];电子元器件应用;2005年06期

相关会议论文 前10条

1 贾丽霞;张国腾;;PU/蒙脱土纳米复合材料的性能研究[A];中国硅酸盐学会2003年学术年会论文摘要集[C];2003年

2 贾丽霞;张国腾;;PU/蒙脱土纳米复合材料的性能研究[A];第十五届玻璃钢/复合材料学术年会论文集[C];2003年

3 贾丽霞;张国腾;;PU/蒙脱土纳米复合材料的性能研究[A];第十五届玻璃钢/复合材料学术年会论文集[C];2003年

4 赵雅平;张生栋;毛国淑;;同位素稀释-萃取液闪法测量高放废水中~(241)Pu的浓度[A];中国化学会第26届学术年会现代核化学与放射化学分会场论文集[C];2008年

5 张长利;左万利;彭涛;赫枫龄;彭钊;邵慧勇;;基于无监督聚类的PU文本分类方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年

6 于静;马应明;郑军芳;司高华;;Pu在高盐地下水中的存在形态及其迁移性能分析[A];中国核科学技术进展报告——中国核学会2009年学术年会论文集(第一卷·第5册)[C];2009年

7 杨宗q;;PU硬泡防火应用研究[A];2006年绝热隔音材料轻质建筑板材新技术新产品论文集[C];2006年

8 谭建新;陈耀中;林漳基;;腐殖酸还原Pu(Ⅵ)的动力学研究(英文)[A];中国高放废物地质处置十年进展[C];2004年

9 于静;王旭辉;司高华;王江;金玉仁;韩小元;;Pu(Ⅳ)、Pu(Ⅴ)在不同质地砂土中分配系数研究[A];中国化学会第26届学术年会现代核化学与放射化学分会场论文集[C];2008年

10 吴伦强;杨明太;向方寿;高戈;刘钧;;萃取分离同位素稀α-谱法测量土壤中的~(239)Pu[A];加入WTO和中国科技与可持续发展——挑战与机遇、责任和对策(下册)[C];2002年

相关重要报纸文章 前7条

1 马澄清;上海弗列加新增PU空滤芯生产线 Shanghai Fleetguard Increase PU Air Filter Production Line[N];机电商报;2009年

2 张兴刚;二甲醚用作泡沫PU发泡剂可行[N];中国化工报;2008年

3 记者 刘永红;石狮服装PU产业迎来发展的大好时光[N];石狮日报;2011年

4 张兴刚;天然油脂制PU中间体列入重大专项[N];中国化工报;2008年

5 新华;PU方块地毯需求前景看好[N];中国化工报;2007年

6 邱美辉;石狮PU革企业完成技术升级[N];中国化工报;2006年

7 顾定槐;中国PU产业应集聚发展[N];中国化工报;2006年

相关硕士学位论文 前6条

1 李硕;PU学习场景下代价敏感数据流分类算法研究[D];西北农林科技大学;2015年

2 高鹏;大规模PU学习[D];南京大学;2017年

3 王勋来;~(239)Pu在高庙子膨润土中的吸附行为研究[D];成都理工大学;2012年

4 李晨;PU数据流挖掘研究[D];西北农林科技大学;2011年

5 朱朦琪;碳纳米管混杂功能化及其PU复合材料制备[D];汕头大学;2010年

6 沈芳芳;PU涂层面料与粘合衬的配伍研究[D];东华大学;2013年



本文编号:2344680

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2344680.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cb052***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com