移动流量中基于用户访问序列的表示学习及其应用
发布时间:2020-03-31 08:42
【摘要】:近年来,随着移动设备和4G网络的普及,移动互联网深刻的影响着人们的生活方式。理解和分析移动应用服务、挖掘用户行为特点对提供更好的移动网络服务有着重要的意义。本文基于真实的移动互联网流量提出一套通用的知识挖掘方法,利用基于神经网络的表示学习技术,自动的学习域名和用户的表示向量,并将其应用到多个不同的机器学习任务场景中。本文的主要工作如下:(1)基于大规模移动DPI流量,利用分布式处理技术抽取用户的访问序列。基于用户访问序列数据,利用三层的神经网络,以预测周围域名的目标来学习出域名和用户的表示向量,并将其应用到聚类、分类等各种机器学习系统中。(2)对于从DPI数据中学习到的域名向量,我们将其应用到域名分类的任务中。实验表明,利用域名表示向量对不同公司的域名分类正确率能够达到93%,对不同业务类别的域名分类正确率能够达到85%;此外我们还通过度量域名的余弦距离进行域名的关系挖掘。(3)对于从DPI数据中学习到的用户向量,我们将其应用到用户聚类中,并借助于人工标注的知识规则对聚类结果进行了详细的商业兴趣分析;此外,我们基于用户表示向量进行特征转化,再利用孤立森林算法来进行用户异常检测。实验验证了我们的方法的有效性。
【图文】:
爱好逦1000逦0逦1逡逑深度学习逦0逦]逦0逦0逦0逦0逡逑自然语言处理逦0100逦0逦0逡逑运动逦0逦0逦1逦0逦0逦0逡逑基于共现矩阵的办法能够解决向量体现语意的问题,但是没有解决维度太高逡逑的问题,每个向量的维度仍然等于语料库的不同词的个数,并且向量仍然非常稀逡逑疏。我们可以通过降维的方法来将这高维度且系数的向量降低至低维度空间。常逡逑用的方法有矩阵奇异值分解集和非负矩阵分解。虽然矩阵分解能够降低维度,但逡逑是矩阵分解也会有它的问题,首先矩阵分解对计算要求比较高,其次它很难去学逡逑习新的词,因为他在分解前需要构建全局的共现矩阵。逡逑2.2.3基于神经网络的分布式表示模型逡逑2.2.3.1神经网络语言模型逡逑基于神经网络去学习词的分布式表示最初是由Bengi0[12I提出,该模型是基逡逑yL经网络建立的统计语言模型,简称力NNLM,其神经网络结构如图2-1所示。逡逑Softmax逡逑'逡逑
逦.依赖逡逑图2-2邋CBOWyL经网络结构逡逑具体的网络结构如图2-2所示。对于输入的语料数据,依据输入的超参数窗逡逑口大小m,将每句话切分为若干个滑动窗口,,对每个窗口内其算法过程如下:逡逑1.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN929.5;TP393.06
本文编号:2608843
【图文】:
爱好逦1000逦0逦1逡逑深度学习逦0逦]逦0逦0逦0逦0逡逑自然语言处理逦0100逦0逦0逡逑运动逦0逦0逦1逦0逦0逦0逡逑基于共现矩阵的办法能够解决向量体现语意的问题,但是没有解决维度太高逡逑的问题,每个向量的维度仍然等于语料库的不同词的个数,并且向量仍然非常稀逡逑疏。我们可以通过降维的方法来将这高维度且系数的向量降低至低维度空间。常逡逑用的方法有矩阵奇异值分解集和非负矩阵分解。虽然矩阵分解能够降低维度,但逡逑是矩阵分解也会有它的问题,首先矩阵分解对计算要求比较高,其次它很难去学逡逑习新的词,因为他在分解前需要构建全局的共现矩阵。逡逑2.2.3基于神经网络的分布式表示模型逡逑2.2.3.1神经网络语言模型逡逑基于神经网络去学习词的分布式表示最初是由Bengi0[12I提出,该模型是基逡逑yL经网络建立的统计语言模型,简称力NNLM,其神经网络结构如图2-1所示。逡逑Softmax逡逑'逡逑
逦.依赖逡逑图2-2邋CBOWyL经网络结构逡逑具体的网络结构如图2-2所示。对于输入的语料数据,依据输入的超参数窗逡逑口大小m,将每句话切分为若干个滑动窗口,,对每个窗口内其算法过程如下:逡逑1.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN929.5;TP393.06
【参考文献】
相关期刊论文 前10条
1 段旭磊;张仰森;孙yN卓;;微博文本的句向量表示及相似度计算方法研究[J];计算机工程;2017年05期
2 黄仁;张卫;;基于word2vec的互联网商品评论情感倾向研究[J];计算机科学;2016年S1期
3 周昌令;栾兴龙;肖建国;;基于深度学习的域名查询行为向量空间嵌入[J];通信学报;2016年03期
4 刘知远;孙茂松;林衍凯;谢若冰;;知识表示学习研究进展[J];计算机研究与发展;2016年02期
5 陈维政;张岩;李晓明;;网络表示学习[J];大数据;2015年03期
6 李跃鹏;金翠;及俊川;;基于word2vec的关键词提取算法[J];科研信息化技术与应用;2015年04期
7 熊大平;王健;林鸿飞;;一种基于LDA的社区问答问句相似度计算方法[J];中文信息学报;2012年05期
8 朱连江;马炳先;赵学泉;;基于轮廓系数的聚类有效性分析[J];计算机应用;2010年S2期
9 关健,刘大昕;基于主成分分析的无监督异常检测[J];计算机研究与发展;2004年09期
10 刘志刚,李德仁,秦前清,史文中;支持向量机在多类分类问题中的推广[J];计算机工程与应用;2004年07期
本文编号:2608843
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2608843.html