当前位置:主页 > 管理论文 > 移动网络论文 >

博文主题影响力和用户主题影响力评估方法研究

发布时间:2018-05-21 05:52

  本文选题:微博 + 文本聚类 ; 参考:《华南理工大学》2015年硕士论文


【摘要】:随着微博的不断发展,微博庞大的用户群和海量的博文信息带来了严重的信息超载问题,许多有价值的信息都被掩藏在了信息的洪流之中。为了更有效地处理和利用微博中的信息,从微博中相关主题下较有影响力的博文信息和用户入手是一个解决之道。如何理解微博中的博文主题影响力和用户主题影响力呢?用什么指标去衡量主题影响力的大小呢?直观的经验判断已经无法满足现实中的需求,构建有效的评估模型已经成为一个需要迫切解决的问题。本文首先对微博文本进行聚类以产生基于不同主题的类簇,对此介绍了数据处理中常用的文本聚类算法,其中着重介绍了Clustering Using Representatives(CURE)算法的原理及其不足,并重点分析了CURE算法中的代表点选择方法,最后在原有代表点选择算法的基础上基于代表点的密度和分散度进行改进;同时,根据博文文本简短、噪声大的特殊性,在计算博文文本的距离时,使用基于Term Frequency and Inverse Document Frequency(TF_IDF)的Vector Space Model(VSM)与基于Jensen Shannon(JS)距离的Latent Dirichlet Allocation(LDA)模型相结合的方式对距离计算进行适应性改进。基于这两点改进本文提出了一个CURE based on Density and Scatter(DSCURE)算法,最后通过实验对比证实了该算法所作改进的有效性。其次,通过分析微博上的信息传播特点,本文提出了一种博文主题影响力评估模型。该模型主要考虑了博文的主题相关性、博文内容的质量和博文的时效性。其中,针对博文内容质量的度量,我们根据Page Rank的质量假设,认为反馈较好的博文表明该博文的质量也高,因此主要从博文的转发等级、评论或转发用户的质量方面度量博文的内容质量;针对博文的时效性的度量,本文基于统计学中的瑞利分布(Rayleigh Distribution)提出了一个动态调整参数的博文活跃度模型来描述博文活跃度先上升后下降的趋势。最后通过实验证明了该影响力模型的合理性和有效性。最后,本文在这些研究的基础上,综合考虑用户的个人属性特征、用户的博文特征和网络结构因素,在Leader Rank的基础上提出了一种用户主题影响力评估算法——Quality Rank,并用matlab软件实现Quality Rank算法,通过将其与其它影响力排序算法的排序结果进行对比分析并对该算法不同时段的排序结果进行分析,最后得出该算法能有效的评估用户主题影响力,排序结果也更显合理。
[Abstract]:With the development of Weibo, the huge user group of Weibo and the huge amount of blog information bring serious information overload problem, and many valuable information are hidden in the flood of information. In order to deal with and utilize the information in Weibo more effectively, it is a solution to start with the influential blog information and users under the related topics in Weibo. How do you understand the influence of blog themes and user themes in Weibo? What indicators are used to measure the impact of the theme? The intuitionistic empirical judgment can not meet the needs of reality, and it has become an urgent problem to build an effective evaluation model. In this paper, we first cluster the Weibo text to produce clusters based on different topics. In this paper, we introduce the text clustering algorithms commonly used in data processing, especially the principle and shortcomings of the Clustering Using representatives-CURE algorithm. The method of representative point selection in CURE algorithm is analyzed emphatically. Finally, the algorithm is improved based on the density and dispersion of the representative point. At the same time, according to the particularity of the short text and the large noise of the blog text, the algorithm is improved based on the density and dispersion of the representative point selection algorithm. When calculating the distance of blog text, the adaptive improvement of distance calculation is carried out by combining the Vector Space Model VSM-based with Jensen Shannon JS distance and Latent Dirichlet allocation LDA-based model. Based on these two improvements, this paper proposes a CURE based on Density and cattermaster DSCURE algorithm. Finally, the effectiveness of the improved algorithm is verified by experimental comparison. Secondly, by analyzing the characteristics of information dissemination on Weibo, this paper puts forward a model for evaluating the influence of blog themes. This model mainly considers the theme relevance, the content quality and the timeliness of blog posts. Among them, according to the quality assumption of Page Rank, we think that the better feedback shows that the quality of the blog is also high, so we mainly from the post forwarding level, A measure of the content quality of a blog post in terms of the quality of comments or retweets; a measure of the timeliness of a blog post, In this paper, based on Rayleigh distribution in statistics, we present a dynamic parameter adjustment model of blog activity to describe the trend that the activity of blog increases first and then decreases. Finally, the rationality and validity of the influence model are proved by experiments. Finally, on the basis of these studies, this paper synthetically considers the user's personal attributes, user's blog features and network structure factors. On the basis of Leader Rank, this paper puts forward an algorithm for evaluating the influence of user's topic, quality rank, and implements Quality Rank algorithm with matlab software. By comparing the sorting results with those of other influential sorting algorithms and analyzing the sorting results of different periods of time, it is concluded that the algorithm can effectively evaluate the influence of user themes, and the sorting results are more reasonable.
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;TP393.092

【参考文献】

相关期刊论文 前10条

1 沈洁;赵雷;杨季文;李榕;;一种基于划分的层次聚类算法[J];计算机工程与应用;2007年31期

2 赵妍;赵学民;;基于CURE的用户聚类算法研究[J];计算机工程与应用;2012年11期

3 倪维健;黄亚楼;李飞;刘赏;;一种基于加权多代表点的层次聚类算法[J];计算机科学;2005年05期

4 贺玲;吴玲达;蔡益朝;;数据挖掘中的聚类算法综述[J];计算机应用研究;2007年01期

5 郭俊,樊彦国;一种改进的CURE聚类算法[J];内蒙古石油化工;2005年08期

6 杨长春;俞克非;叶施仁;严水歌;丁虹;杨晶;;一种新的中文微博社区博主影响力的评估方法[J];计算机工程与应用;2012年25期

7 代应;王旭;邢乐斌;;报废汽车回收监督的进化博弈分析[J];西南交通大学学报;2009年03期

8 朱庆华;窦一杰;;绿色供应链中政府与核心企业进化博弈模型[J];系统工程理论与实践;2007年12期

9 冯兴杰,黄亚楼;增量式CURE聚类算法研究[J];小型微型计算机系统;2004年10期

10 张赛;徐恪;李海涛;;微博类社交网络中信息传播的测量与分析[J];西安交通大学学报;2013年02期

相关硕士学位论文 前9条

1 周昭涛;文本聚类分析效果评价及文本表示研究[D];中国科学院研究生院(计算技术研究所);2005年

2 刘耀庭;社交网络结构研究[D];浙江大学;2008年

3 黄翼彪;开源中文分词器的比较研究[D];郑州大学;2013年

4 马俊;基于话题传播的微博用户影响力分析[D];解放军信息工程大学;2013年

5 于淼;微博消息影响力评估及最大化算法研究[D];哈尔滨工程大学;2013年

6 程志强;基于新浪微博主题的用户影响力研究[D];东北大学;2013年

7 朱郭峰;基于领域的微博用户影响力评估方法的研究[D];西南大学;2014年

8 贺幸;微博影响力传播模型的改进与验证[D];中国科学技术大学;2014年

9 邱荣财;基于Spark平台的CURE算法并行化设计与应用[D];华南理工大学;2014年



本文编号:1918002

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1918002.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6e670***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com