社交网络中的用户地址预测

发布时间:2021-01-19 18:49
  在社交网络中,用户的实际地理位置往往出现在各种应用场景中,例如,基于地址的时事、以及名胜古迹的推荐。然而,出于对个人隐私的保护,只有少量的用户才回在社交平台上发布自己的实时位置。因此,为了得到用户较为精确的位置以便于向基于地址应用提供服务,本文提出了一个通过挖掘用户发布在社交平台上的信息对其所处地理位置进行预测的框架。该框架从三个不同的角度出发来构建相应的模型,分别是:基于内容的模型,基于时间序列的模型以及基于内容和时间的联合模型。在基于内容的模型中,我们用文本相关的算法衡量语义与地址之间的关系,并过滤掉与地址无关的内容以进一步加强文本与地址之间的关联。在基于时序的模型中利用用户历史数据来挖掘其日常行为习惯,通过分析用户行为规律来预测当前时刻所处位置。基于时序与文本特征融合了前两个模型,同时从这两种特征中获取地址信息。在本论文用户地址预测任务中,主要的研究工作分为以下四个部分。(一)对爬取到的原始数据进行过滤,过滤出不包含任何地址相关词的微博。并定义地址相关词概念,即通过关键词提取算法找出和地址关联性较强的单词。(二)对用户微博文本内容进行数据处理,如分词、去停止词。改进已有的word... 

【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校

【文章页数】:81 页

【学位级别】:硕士

【部分图文】:

社交网络中的用户地址预测


word2vec采用的两种词向量生成模型

训练模型,权重矩阵


图 2-2 CBOW 训练模型单词的 one-hot 向量,这些向量通过一个相同的输入权重矩阵 × ,阵乘积加权平均后作为隐层向量;再由输出权重矩阵 × ′和激活函率分布,最终以最大概率的 index 所指向的单词作为预测的中心词,词词向量则是由该单词 one-hot 与权重矩阵乘积而来。Skip-gramip-gram 模型只是逆转了 CBOW 模型的因果关系,即已知当前词语单词,因此模型的输入是当前值,而输出是该词的上下文。训练样本t 向量作为模型的输入,同 CBOW 模型一样,在该模型中也假设给定到的词表大小为 10000,预期得到的词向量维数是 300,那么隐层参 × 。由于 one-hot 向量的表达形式,隐层的权重矩阵也可以有词的词向量矩阵。于是该模型的具体训练模型可以由图 2-3 表示

训练模型


图 2-3 Skip-gram 训练模型以上两个小节分别介绍了 word2vec 中两种常用模型在基于神经网络的思得词向量矩阵。但这样的模型需要在输出层进行 计算输出概率的词,计算量很大,处理过程耗时。因此训练过程中使用经过优化的数据结构和的方式来进行优化改进。.3 卷积神经网络卷积神经网络(Convolutional Neural Networks, CNN)是一种包含卷积计有深度结构的前馈神经网络,是深度学习的代表算法之一[24,25]。现在 CNN 为众多科学领域、特别是模式分类领域的研究热点之一,例如图像分类、目和检测等。并且网络越来越广泛的应用也是由于其避免了对数据加载的复处理。目前,CNN 在计算机视觉领域已经取得了很大的进展,同时也逐渐语言处理(NLP)中得到不错的成绩。本论文将依据用户微博文本特征来预测的任务,通过卷积神经网络框架转换成了文本分类任务。

【参考文献】:
期刊论文
[1]基于改进激活函数的卷积神经网络研究[J]. 曲之琳,胡晓飞.  计算机技术与发展. 2017(12)
[2]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春.  计算机科学. 2016(06)



本文编号:2987527

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2987527.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3f75b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com