大规模PU学习
[Abstract]:The machine learning method based on positive samples and unlabeled samples is called Positive and Unlabeled Learn-ing, for short PU learning. In reality, PU learning has many application scenarios, for example, the existing user data of a product can be regarded as positive samples. Based on these positive samples, enterprises need to discover potential new users among a large number of unknown users. This process is called Lookalike extension. In this paper, PU learning is divided into two categories according to the different application scenarios, one is the PU classification algorithm, the other is the PU matrix complement algorithm. The first kind of PU classification algorithm is mainly used to model a particular task, such as the Lookalike extension of a product. The second kind of PU matrix complement algorithm is mainly used to model the relationship between two kinds of entities, such as single-class cooperative filtering and multi-label learning. In many cases, in addition to obtaining relational matrices between entities, there are also auxiliary feature information, such as feature data for users or commodities in single-class collaborative filtering. In this case, PU inductive matrix complement algorithm will achieve better results. The existing PU learning methods are based on single machine, but in big data era, the data scale is increasing, and the practical machine learning algorithm should have the ability to distribute. In this paper, we design and implement the distributed version of PU learning algorithm on big data processing platform Spark. In addition, we propose a new method of clustering PU inductive matrix complement, which is inspired by the multitask learning method. The main contents of this paper are as follows: first, the distributed version of the existing PU classification algorithm is implemented, including the distributed two-step method and the distributed cost-sensitive learning method. On the enterprise level Lookalike data set, the effects of various strategies are compared. The extensibility of the algorithm is verified. Secondly, the distributed version of the existing PU inductive matrix complement algorithm is implemented. Experiments are carried out on the recommendation system and the standard data set of multi-label learning, and it is proved that the algorithm has strong extensibility. Thirdly, the PU inductive matrix complement algorithm based on clustering idea is proposed, and the distributed version is implemented. The algorithm is compared with the existing PU inductive matrix complement algorithm on the recommendation system and the standard data set of multi-label learning. The new algorithm improves greatly on AUC and has certain expansibility.
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP181
【相似文献】
相关期刊论文 前6条
1 张立荣;PU湿法仿真皮[J];今日科技;1994年04期
2 ;高档PU聚酯漆应市[J];兰州科技情报;1995年03期
3 于成业;何小海;滕奇志;钟国韵;李元;;基于非规则PU模式的HEVC视频编码方法[J];电视技术;2014年09期
4 王好;;太极服务器4CPU起步[J];每周电脑报;1998年12期
5 富震;;基于SVM主动学习技术的PU文本分类[J];计算技术与自动化;2014年01期
6 张义伟;曾田;;基于486CPU的SDRAM控制器的设计与实现[J];电子元器件应用;2005年06期
相关会议论文 前10条
1 贾丽霞;张国腾;;PU/蒙脱土纳米复合材料的性能研究[A];中国硅酸盐学会2003年学术年会论文摘要集[C];2003年
2 贾丽霞;张国腾;;PU/蒙脱土纳米复合材料的性能研究[A];第十五届玻璃钢/复合材料学术年会论文集[C];2003年
3 贾丽霞;张国腾;;PU/蒙脱土纳米复合材料的性能研究[A];第十五届玻璃钢/复合材料学术年会论文集[C];2003年
4 赵雅平;张生栋;毛国淑;;同位素稀释-萃取液闪法测量高放废水中~(241)Pu的浓度[A];中国化学会第26届学术年会现代核化学与放射化学分会场论文集[C];2008年
5 张长利;左万利;彭涛;赫枫龄;彭钊;邵慧勇;;基于无监督聚类的PU文本分类方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 于静;马应明;郑军芳;司高华;;Pu在高盐地下水中的存在形态及其迁移性能分析[A];中国核科学技术进展报告——中国核学会2009年学术年会论文集(第一卷·第5册)[C];2009年
7 杨宗q;;PU硬泡防火应用研究[A];2006年绝热隔音材料轻质建筑板材新技术新产品论文集[C];2006年
8 谭建新;陈耀中;林漳基;;腐殖酸还原Pu(Ⅵ)的动力学研究(英文)[A];中国高放废物地质处置十年进展[C];2004年
9 于静;王旭辉;司高华;王江;金玉仁;韩小元;;Pu(Ⅳ)、Pu(Ⅴ)在不同质地砂土中分配系数研究[A];中国化学会第26届学术年会现代核化学与放射化学分会场论文集[C];2008年
10 吴伦强;杨明太;向方寿;高戈;刘钧;;萃取分离同位素稀α-谱法测量土壤中的~(239)Pu[A];加入WTO和中国科技与可持续发展——挑战与机遇、责任和对策(下册)[C];2002年
相关重要报纸文章 前7条
1 马澄清;上海弗列加新增PU空滤芯生产线 Shanghai Fleetguard Increase PU Air Filter Production Line[N];机电商报;2009年
2 张兴刚;二甲醚用作泡沫PU发泡剂可行[N];中国化工报;2008年
3 记者 刘永红;石狮服装PU产业迎来发展的大好时光[N];石狮日报;2011年
4 张兴刚;天然油脂制PU中间体列入重大专项[N];中国化工报;2008年
5 新华;PU方块地毯需求前景看好[N];中国化工报;2007年
6 邱美辉;石狮PU革企业完成技术升级[N];中国化工报;2006年
7 顾定槐;中国PU产业应集聚发展[N];中国化工报;2006年
相关硕士学位论文 前6条
1 李硕;PU学习场景下代价敏感数据流分类算法研究[D];西北农林科技大学;2015年
2 高鹏;大规模PU学习[D];南京大学;2017年
3 王勋来;~(239)Pu在高庙子膨润土中的吸附行为研究[D];成都理工大学;2012年
4 李晨;PU数据流挖掘研究[D];西北农林科技大学;2011年
5 朱朦琪;碳纳米管混杂功能化及其PU复合材料制备[D];汕头大学;2010年
6 沈芳芳;PU涂层面料与粘合衬的配伍研究[D];东华大学;2013年
,本文编号:2344680
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2344680.html