融合兴趣的微博相似用户挖掘研究
发布时间:2021-11-24 21:05
随着Internet相关技术的不断提高与广泛应用,在线社交网络成为了人们分享信息的主要方式,微博作为社交网络中的重要信息交互平台,受到了大量用户的青睐。随着微博用户的增多,社交平台的用户数据呈指数级增长,相关系统应用也越来越多。用户的相似度计算是社交平台相关应用的一个重要基础,如社会化推荐,社区发现等,被众多的研究者关注。如何更准确地挖掘出微博社交网络中的相似用户,帮助平台为用户提供更好的服务,是当前研究的一个热点问题。本研究以此为目的,对微博用户进行了深入分析,提出了一种挖掘微博相似用户的方法。首先,本文针对微博用户影响力评估方法存在的问题,提出了一种微博重要用户挖掘算法,接着,对重要用户进行聚类,为用户生成兴趣表示,结合用户的背景信息,提出了一种融合兴趣的微博用户相似度计算方法。具体工作如下:(1)研究了微博用户的影响力分析,提出了一种改进Page Rank的微博重要用户挖掘方法。首先分析了用户的背景信息,为每个用户定义基本的自身影响力,针对用户一段时间不活跃,影响力被误判下降的问题,基于用户博文的交互信息,引入了博文传播率的计算方式,最后,基于用户的社交关系,通过改进Page R...
【文章来源】:重庆理工大学重庆市
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
标签的词向量及相似度从图4.3可以看出,词嵌入向量的维度是128,“导演”和“明星”两个标签对应词
4融合兴趣的微博用户相似度计算方法39图4.4词向量二维可视化从图4.4可以看到,词向量被映射到二维平面中,语义更相似的词语更加接近。图中的“动画”和“动漫”更相近,“电影”和“电视”更相近,“帅哥”和“美女”更相近,表明它们具有更高的语义相似性。基于Word2Vec生成词向量的表示方法,在计算词语间的相似度时,能提供更加丰富的上下文信息,更准确地表达标签的语义相似性。对词向量进行聚类,不同聚类数的CH指标如图4.5所示。图4.5不同聚类数的CH值图4.5是将这些重要用户聚成2到25个不同类别的结果。可以看到,当k8时,CH值较好,但发现依此建立用户的兴趣向量,较多被关注的用户在同一个类中,模型的准确率较差。当k10时,算法的准确率相对较好。经过多次的对比实验,将重要用户聚成10个类,并依此构建普通用户的兴趣向量,故不同数据集的聚类数要根据实际情况而定。
【参考文献】:
期刊论文
[1]一种改进的微博用户影响力评估算法[J]. 黄贤英,阳安志,刘小洋,刘广峰. 计算机工程. 2019(12)
[2]融合兴趣的微博用户相似度计算研究[J]. 黄贤英,阳安志,刘小洋,刘广峰. 计算机应用研究. 2020(01)
[3]微博文本的句向量表示及相似度计算方法研究[J]. 段旭磊,张仰森,孙祎卓. 计算机工程. 2017(05)
[4]基于多源信息相似度的微博用户推荐算法[J]. 姚彬修,倪建成,于苹苹,李淋淋,曹博. 计算机应用. 2017(05)
[5]一种基于用户动态兴趣和社交网络的微博推荐方法[J]. 陈杰,刘学军,李斌,章玮. 电子学报. 2017(04)
[6]基于微博的用户相似度计算研究[J]. 郑志蕴,贾春园,王振飞,李钝. 计算机科学. 2017(02)
[7]基于背景和内容的微博用户兴趣挖掘[J]. 仲兆满,管燕,胡云,李存华. 软件学报. 2017(02)
[8]融合标签关联关系与用户社交关系的微博推荐方法[J]. 马慧芳,贾美惠子,张迪,蔺想红. 电子学报. 2017(01)
[9]社会网络节点影响力分析研究[J]. 韩忠明,陈炎,刘雯,原碧鸿,李梦琪,段大高. 软件学报. 2017(01)
[10]用户兴趣相似性度量的关系预测算法[J]. 黄宏程,陆卫金,胡敏,魏青. 计算机科学与探索. 2017(07)
本文编号:3516752
【文章来源】:重庆理工大学重庆市
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
标签的词向量及相似度从图4.3可以看出,词嵌入向量的维度是128,“导演”和“明星”两个标签对应词
4融合兴趣的微博用户相似度计算方法39图4.4词向量二维可视化从图4.4可以看到,词向量被映射到二维平面中,语义更相似的词语更加接近。图中的“动画”和“动漫”更相近,“电影”和“电视”更相近,“帅哥”和“美女”更相近,表明它们具有更高的语义相似性。基于Word2Vec生成词向量的表示方法,在计算词语间的相似度时,能提供更加丰富的上下文信息,更准确地表达标签的语义相似性。对词向量进行聚类,不同聚类数的CH指标如图4.5所示。图4.5不同聚类数的CH值图4.5是将这些重要用户聚成2到25个不同类别的结果。可以看到,当k8时,CH值较好,但发现依此建立用户的兴趣向量,较多被关注的用户在同一个类中,模型的准确率较差。当k10时,算法的准确率相对较好。经过多次的对比实验,将重要用户聚成10个类,并依此构建普通用户的兴趣向量,故不同数据集的聚类数要根据实际情况而定。
【参考文献】:
期刊论文
[1]一种改进的微博用户影响力评估算法[J]. 黄贤英,阳安志,刘小洋,刘广峰. 计算机工程. 2019(12)
[2]融合兴趣的微博用户相似度计算研究[J]. 黄贤英,阳安志,刘小洋,刘广峰. 计算机应用研究. 2020(01)
[3]微博文本的句向量表示及相似度计算方法研究[J]. 段旭磊,张仰森,孙祎卓. 计算机工程. 2017(05)
[4]基于多源信息相似度的微博用户推荐算法[J]. 姚彬修,倪建成,于苹苹,李淋淋,曹博. 计算机应用. 2017(05)
[5]一种基于用户动态兴趣和社交网络的微博推荐方法[J]. 陈杰,刘学军,李斌,章玮. 电子学报. 2017(04)
[6]基于微博的用户相似度计算研究[J]. 郑志蕴,贾春园,王振飞,李钝. 计算机科学. 2017(02)
[7]基于背景和内容的微博用户兴趣挖掘[J]. 仲兆满,管燕,胡云,李存华. 软件学报. 2017(02)
[8]融合标签关联关系与用户社交关系的微博推荐方法[J]. 马慧芳,贾美惠子,张迪,蔺想红. 电子学报. 2017(01)
[9]社会网络节点影响力分析研究[J]. 韩忠明,陈炎,刘雯,原碧鸿,李梦琪,段大高. 软件学报. 2017(01)
[10]用户兴趣相似性度量的关系预测算法[J]. 黄宏程,陆卫金,胡敏,魏青. 计算机科学与探索. 2017(07)
本文编号:3516752
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3516752.html