基于PU学习的分布式移动互联网流量分析与预测
发布时间:2020-10-13 00:05
近年来,随着移动通信技术的发展和移动终端的普及,移动用户数量激增,数以亿计的用户每天产生海量的移动流量记录。如何对如此大量的数据进行高效和准确的分析,从而充分理解移动互联网流量特性,掌握移动用户的上网行为,为用户提供更加优质的移动网络服务,成为了移动运营商和互联网内容提供商都非常关心的研究课题。本文研究通过分布式大数据处理技术和机器学习方法相结合的方式来对海量移动互联网流量数据进行分析和预测。重点研究了其中的两个问题,一个是移动用户和服务器的交互行为预测,另一个是移动视频流量识别。通过分析发现,这两个问题都有着相同的特性:都可以当做二分类问题来处理,以及数据都只有少量正例样本和大量无标记样本。因此,本课题尝试利用在文本分类问题中使用较多的PU学习算法来解决。本文的主要创新点如下:(1)针对移动用户和服务器交互预测问题,设计了 194维的特征来表征每一条用户和服务器连接记录,并提出了改进的基于Spy的PU学习算法。在Spark平台上,基于MLlib机器学习库设计并实现了基于K-means的PU学习算法、基于Biased-SVM的PU学习算法以及改进的基于Spy的PU学习算法。通过在真实移动流量数据上的实验,验证了基于PU学习算法来预测用户的服务器交互行为具有良好的性能。(2)针对移动视频流量识别问题,设计了 105维的特征向量来表示每一条移动流量记录,并从真实的移动流量数据中过滤了部分移动视频相关的数据作为该任务的实验数据集。通过实验分析了 Spark平台上设计并实现的三种PU学习算法的性能,验证了基于PU学习算法进行移动视频流量识别具有较好的准确性。这对于更加高效准确地对移动互联网流量进行分析,提升网络服务质量具有很大帮助。
【学位单位】:北京邮电大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TN929.5;TP393.06
【部分图文】:
为了提供一体化的大数据处理平台,Spark不仅向用户提供了类MapReduce??编程模型,还向用户提供了一组工具集,以满足不同场景下的大数据处理需求。??Spark的总体结构图如图2-1所示[3]。??Spark?SQL?c?Spark?MLlib?GraphX??Streaming??Apache?Spark??Standalone?YARN?Mesos??图2-1?Spark平台总体结构图??1.?Spark?SQL是Spark中用来处理结构化数据的一个模块,主要用于结构化??数据的处理和对Spark数据执行类SQL的查询。通过SparkSQL,可以针对不同??格式的数据执行ETL操作(如JSON,?Parquet,数据库)然后完成特定的查询操??8??
图2-2移动互联网流量采集??本文所使用的移动互联网流量记录数据采集自中国南方某省会城市连续7??天的移动上网流量,平均每天有近10亿条流量记录,其中每一条流量记录都包??含了时间,加密的用户手机号,服务器IP地址,服务类型,连接时长,上下行??报文数等八十多个字段。其中主要的一些字段信息如表2-2所示,本文将基于这??些数据进行后续的研宄。??表2-2?—些重要的信息字段说明??字段名?字段含义或格式?t?举例??手机号码?用户上网的手机号码,加密处理?86138****0000??流开始时间?连接开始时间,UTC格式?|?1388170565.446000??流结束时间?连接结束时间,UTC格式?1388170578.241000??服务器IP地址?点分十进制IP?111.30.123.11??业务类型?web/wapl/wap2/mms/txt?等?web??WEB/WAP?请求.?士??H〇ST?子?W?串?isdspeed.qq.com??
?对有间谍的无标记数据进行分类,选取被分类为负例的概率大于某个阈值的样??本作为可靠的负例样本。具体的流程如图3-4所示。??Positive?Positive?Likely?Positive??y7py\?f?VoyA?V777-??織?p*p〇Sit叫赫滅??關?fad??Unlabeled?Negative?^^^^Likely?Negative??Spy=(l-P)*Positive/??I?izz^??i?a*Unlabeled^?:.:父:??、、Un??>〇〇-?S^??/?v^v^s/V?:????b^jj??V?VV'??v>-'W??cx':':.??f.vV'v..::??图3-4改进的基于Spy的PU学习算法提取可靠负例的过程??假设我们的正例样本数据集为P,抽样a后的无标记样本数据集为U,从正例??样本中抽取Spy的比例为P,抽取后的Spy集合为S,由于无标记样本数据集远??大于有标记的正例样本数据集,我们选择从无标记样本中随机抽取一部分来进行??下一步的操作,抽取比例为a。整个改进的基于Spy的PU学习算法可以描述为:??首先,从正例样本集合中抽取比例为P的Spy样本集合S,将S加入到无标记样本??集U中,构成集合U?+?S,利用P-S和U?+?S训练二分类器q,这里的分类器可以??采用多种分类算法,比如SVM,朴素贝叶斯,逻辑回归,随机森林等等,然后??利用分类器(:1对1]?+?5进行分类
【参考文献】
本文编号:2838469
【学位单位】:北京邮电大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TN929.5;TP393.06
【部分图文】:
为了提供一体化的大数据处理平台,Spark不仅向用户提供了类MapReduce??编程模型,还向用户提供了一组工具集,以满足不同场景下的大数据处理需求。??Spark的总体结构图如图2-1所示[3]。??Spark?SQL?c?Spark?MLlib?GraphX??Streaming??Apache?Spark??Standalone?YARN?Mesos??图2-1?Spark平台总体结构图??1.?Spark?SQL是Spark中用来处理结构化数据的一个模块,主要用于结构化??数据的处理和对Spark数据执行类SQL的查询。通过SparkSQL,可以针对不同??格式的数据执行ETL操作(如JSON,?Parquet,数据库)然后完成特定的查询操??8??
图2-2移动互联网流量采集??本文所使用的移动互联网流量记录数据采集自中国南方某省会城市连续7??天的移动上网流量,平均每天有近10亿条流量记录,其中每一条流量记录都包??含了时间,加密的用户手机号,服务器IP地址,服务类型,连接时长,上下行??报文数等八十多个字段。其中主要的一些字段信息如表2-2所示,本文将基于这??些数据进行后续的研宄。??表2-2?—些重要的信息字段说明??字段名?字段含义或格式?t?举例??手机号码?用户上网的手机号码,加密处理?86138****0000??流开始时间?连接开始时间,UTC格式?|?1388170565.446000??流结束时间?连接结束时间,UTC格式?1388170578.241000??服务器IP地址?点分十进制IP?111.30.123.11??业务类型?web/wapl/wap2/mms/txt?等?web??WEB/WAP?请求.?士??H〇ST?子?W?串?isdspeed.qq.com??
?对有间谍的无标记数据进行分类,选取被分类为负例的概率大于某个阈值的样??本作为可靠的负例样本。具体的流程如图3-4所示。??Positive?Positive?Likely?Positive??y7py\?f?VoyA?V777-??織?p*p〇Sit叫赫滅??關?fad??Unlabeled?Negative?^^^^Likely?Negative??Spy=(l-P)*Positive/??I?izz^??i?a*Unlabeled^?:.:父:??、、Un??>〇〇-?S^??/?v^v^s/V?:????b^jj??V?VV'??v>-'W??cx':':.??f.vV'v..::??图3-4改进的基于Spy的PU学习算法提取可靠负例的过程??假设我们的正例样本数据集为P,抽样a后的无标记样本数据集为U,从正例??样本中抽取Spy的比例为P,抽取后的Spy集合为S,由于无标记样本数据集远??大于有标记的正例样本数据集,我们选择从无标记样本中随机抽取一部分来进行??下一步的操作,抽取比例为a。整个改进的基于Spy的PU学习算法可以描述为:??首先,从正例样本集合中抽取比例为P的Spy样本集合S,将S加入到无标记样本??集U中,构成集合U?+?S,利用P-S和U?+?S训练二分类器q,这里的分类器可以??采用多种分类算法,比如SVM,朴素贝叶斯,逻辑回归,随机森林等等,然后??利用分类器(:1对1]?+?5进行分类
【参考文献】
相关博士学位论文 前2条
1 任亚峰;基于标注和未标注数椐的虚假评论识别研究[D];武汉大学;2015年
2 可婷;部分监督分类问题的研究[D];中国农业大学;2014年
相关硕士学位论文 前4条
1 高鹏;大规模PU学习[D];南京大学;2017年
2 张荷;基于PU学习的软件故障检测方法研究[D];西北农林科技大学;2015年
3 孙科;基于Spark的机器学习应用框架研究与实现[D];上海交通大学;2015年
4 李晨;PU数据流挖掘研究[D];西北农林科技大学;2011年
本文编号:2838469
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2838469.html