基于PU学习的分布式移动互联网流量分析与预测

发布时间：2020-10-13 00:05

　　近年来,随着移动通信技术的发展和移动终端的普及,移动用户数量激增,数以亿计的用户每天产生海量的移动流量记录。如何对如此大量的数据进行高效和准确的分析,从而充分理解移动互联网流量特性,掌握移动用户的上网行为,为用户提供更加优质的移动网络服务,成为了移动运营商和互联网内容提供商都非常关心的研究课题。本文研究通过分布式大数据处理技术和机器学习方法相结合的方式来对海量移动互联网流量数据进行分析和预测。重点研究了其中的两个问题,一个是移动用户和服务器的交互行为预测,另一个是移动视频流量识别。通过分析发现,这两个问题都有着相同的特性:都可以当做二分类问题来处理,以及数据都只有少量正例样本和大量无标记样本。因此,本课题尝试利用在文本分类问题中使用较多的PU学习算法来解决。本文的主要创新点如下:(1)针对移动用户和服务器交互预测问题,设计了 194维的特征来表征每一条用户和服务器连接记录,并提出了改进的基于Spy的PU学习算法。在Spark平台上,基于MLlib机器学习库设计并实现了基于K-means的PU学习算法、基于Biased-SVM的PU学习算法以及改进的基于Spy的PU学习算法。通过在真实移动流量数据上的实验,验证了基于PU学习算法来预测用户的服务器交互行为具有良好的性能。(2)针对移动视频流量识别问题,设计了 105维的特征向量来表示每一条移动流量记录,并从真实的移动流量数据中过滤了部分移动视频相关的数据作为该任务的实验数据集。通过实验分析了 Spark平台上设计并实现的三种PU学习算法的性能,验证了基于PU学习算法进行移动视频流量识别具有较好的准确性。这对于更加高效准确地对移动互联网流量进行分析,提升网络服务质量具有很大帮助。
【学位单位】：北京邮电大学
【学位级别】：硕士
【学位年份】：2018
【中图分类】：TN929.5;TP393.06
【部分图文】：

总体结构,平台,处理平台,结构化数据

为了提供一体化的大数据处理平台，Ｓｐａｒｋ不仅向用户提供了类ＭａｐＲｅｄｕｃｅ??编程模型，还向用户提供了一组工具集，以满足不同场景下的大数据处理需求。??Ｓｐａｒｋ的总体结构图如图２－１所示［３］。??Ｓｐａｒｋ?ＳＱＬ?ｃ?Ｓｐａｒｋ?ＭＬｌｉｂ?ＧｒａｐｈＸ??Ｓｔｒｅａｍｉｎｇ??Ａｐａｃｈｅ?Ｓｐａｒｋ??Ｓｔａｎｄａｌｏｎｅ?ＹＡＲＮ?Ｍｅｓｏｓ??图２－１?Ｓｐａｒｋ平台总体结构图??１．?Ｓｐａｒｋ?ＳＱＬ是Ｓｐａｒｋ中用来处理结构化数据的一个模块，主要用于结构化??数据的处理和对Ｓｐａｒｋ数据执行类ＳＱＬ的查询。通过ＳｐａｒｋＳＱＬ，可以针对不同??格式的数据执行ＥＴＬ操作（如ＪＳＯＮ，?Ｐａｒｑｕｅｔ，数据库）然后完成特定的查询操??８??

移动互联网,省会城市,数据采集,流量

图２－２移动互联网流量采集??本文所使用的移动互联网流量记录数据采集自中国南方某省会城市连续７??天的移动上网流量，平均每天有近１０亿条流量记录，其中每一条流量记录都包??含了时间，加密的用户手机号，服务器ＩＰ地址，服务类型，连接时长，上下行??报文数等八十多个字段。其中主要的一些字段信息如表２－２所示，本文将基于这??些数据进行后续的研宄。??表２－２?—些重要的信息字段说明??字段名?字段含义或格式?ｔ?举例??手机号码?用户上网的手机号码，加密处理?８６１３８＊＊＊＊００００??流开始时间?连接开始时间，ＵＴＣ格式?｜?１３８８１７０５６５．４４６０００??流结束时间?连接结束时间，ＵＴＣ格式?１３８８１７０５７８．２４１０００??服务器ＩＰ地址?点分十进制ＩＰ?１１１．３０．１２３．１１??业务类型?ｗｅｂ／ｗａｐｌ／ｗａｐ２／ｍｍｓ／ｔｘｔ?等?ｗｅｂ??ＷＥＢ／ＷＡＰ?请求．?士??Ｈ〇ＳＴ?子?Ｗ?串?ｉｓｄｓｐｅｅｄ．ｑｑ．ｃｏｍ??

样本数据,无标记,学习算法,过程

?对有间谍的无标记数据进行分类，选取被分类为负例的概率大于某个阈值的样??本作为可靠的负例样本。具体的流程如图３－４所示。??Ｐｏｓｉｔｉｖｅ?Ｐｏｓｉｔｉｖｅ?Ｌｉｋｅｌｙ?Ｐｏｓｉｔｉｖｅ??ｙ７ｐｙ＼?ｆ?ＶｏｙＡ?Ｖ７７７－??織?ｐ＊ｐ〇Ｓｉｔ叫赫滅??關?ｆａｄ??Ｕｎｌａｂｅｌｅｄ?Ｎｅｇａｔｉｖｅ?＾＾＾＾Ｌｉｋｅｌｙ?Ｎｅｇａｔｉｖｅ??Ｓｐｙ＝（ｌ－Ｐ）＊Ｐｏｓｉｔｉｖｅ／??Ｉ?ｉｚｚ＾??ｉ?ａ＊Ｕｎｌａｂｅｌｅｄ＾?：．：父：??、、Ｕｎ??＞〇〇－？Ｓ＾??／？ｖ＾ｖ＾ｓ／Ｖ?：?？??ｂ＾ｊｊ??Ｖ?ＶＶ＇??ｖ＞－＇Ｗ??ｃｘ＇：＇：．??ｆ．ｖＶ＇ｖ．．：：??图３－４改进的基于Ｓｐｙ的ＰＵ学习算法提取可靠负例的过程??假设我们的正例样本数据集为Ｐ，抽样ａ后的无标记样本数据集为Ｕ，从正例??样本中抽取Ｓｐｙ的比例为Ｐ，抽取后的Ｓｐｙ集合为Ｓ，由于无标记样本数据集远??大于有标记的正例样本数据集，我们选择从无标记样本中随机抽取一部分来进行??下一步的操作，抽取比例为ａ。整个改进的基于Ｓｐｙ的ＰＵ学习算法可以描述为：??首先，从正例样本集合中抽取比例为Ｐ的Ｓｐｙ样本集合Ｓ，将Ｓ加入到无标记样本??集Ｕ中，构成集合Ｕ?＋?Ｓ，利用Ｐ－Ｓ和Ｕ?＋?Ｓ训练二分类器ｑ，这里的分类器可以??采用多种分类算法，比如ＳＶＭ，朴素贝叶斯，逻辑回归，随机森林等等，然后??利用分类器（：１对１］?＋?５进行分类
【参考文献】

相关博士学位论文前2条

1 任亚峰;基于标注和未标注数椐的虚假评论识别研究[D];武汉大学;2015年

2 可婷;部分监督分类问题的研究[D];中国农业大学;2014年

相关硕士学位论文前4条

1 高鹏;大规模PU学习[D];南京大学;2017年

2 张荷;基于PU学习的软件故障检测方法研究[D];西北农林科技大学;2015年

3 孙科;基于Spark的机器学习应用框架研究与实现[D];上海交通大学;2015年

4 李晨;PU数据流挖掘研究[D];西北农林科技大学;2011年

本文编号：2838469

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/2838469.html

上一篇：基于生成对抗学习的图像去雾
下一篇：乌海十中算法与程序设计课程专题学习网站的设计与开发

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|