基于可信度评测的话题发现方法
本文关键词: 微博 话题发现 可信度 Single-Pass 可信热点话题 出处:《哈尔滨工程大学》2014年硕士论文 论文类型:学位论文
【摘要】:凭借创新式的信息生产机制和网络传播机制,微博平台成为社会热点重要的发源地和传播途径,这使得热点话题发现技术不断研究与发展。然而,由于微博的匿名性以及即时性等特征,使得一些人为编造的不可信话题同时在网上流传开来。于是,对于微博信息的可信度的研究就显得至关重要,这不仅影响着整个网络的舆论导向,更影响着社会的安定和谐。在以往的可信度研究中,都是基于一些已有的热点话题进行可信度评测,最后验证该话题的置信值与现实情况的对比。然而,一些不可信的话题已经作为网络的热点传播开来,并不能从源头上阻止这些话题的传播。因此,本文结合话题发现的相关方法、微博信息的特征并结合可信度相关的研究提出了一种基于可信度评测的话题发现方法。本文首先提出了可信热点话题的概念,通过对可信热点话题的定义、评测指标,构架了可信热点话题的发现框架。在框架中,主要包括用户可信度评测、微博数据准备、话题提取、可信热点话题获取。在用户可信度评测算法中,本文不仅考虑用户的基本属性对用户可信度的影响,还提出了一种利用相对可信度来分配用户可信度的算法。在微博信息预处理过程中,本文考虑到时间对于一个事件的重要性,把时间作为了文本相似度计算中的一个重要因素。最后本文基于Single-Pass算法进行了文本向量聚类,把聚类得到的话题,按照可信热点话题评价指标,进行评价得到可信热点话题。最后,本文利用微博平台上的数据对本文中提到的用户可信度评测算法、时间因素对热点话题的影响、可信热点话题的TDT检测指标进行了实验。实验中用户可信度评测算法与传统的PageRank算法作了比较、热点话题时间因素与非热点话题时间因素的比较、用户可信度话题发现算法与SPHA算法比较,验证了本文提出的基于可信度评测的话题发现方法在话题发现过程中的准确性以及效率。
[Abstract]:With the innovative information production mechanism and network communication mechanism, Weibo platform has become an important place of origin and dissemination of social hot spots, which makes hot topic discovery technology research and development. Because of Weibo's anonymity and immediacy, some people have made up untrusted topics that have been circulated on the Internet at the same time. Therefore, the study of the credibility of Weibo's information is of great importance. This not only affects the public opinion orientation of the whole network, but also affects the stability and harmony of the society. Finally verify the confidence of the topic compared with the actual situation. However, some untrusted topics have been spread as a hot spot of the network, can not stop the spread of these topics from the source. Therefore, In this paper, a method of topic discovery based on credibility evaluation is proposed, which combines the relevant methods of topic discovery, the characteristics of Weibo information and the research of credibility. In this paper, the concept of trusted hot topic is put forward. Through the definition of trusted hot topic and evaluation index, this paper constructs a framework for the discovery of trusted hot topic. In the framework, it mainly includes user credibility evaluation, Weibo data preparation, topic extraction, In the algorithm of user credibility evaluation, this paper not only considers the influence of the user's basic attributes on the user's credibility, This paper also proposes an algorithm to allocate user credibility by using relative credibility. In the process of Weibo information preprocessing, this paper considers the importance of time for an event. Time is regarded as an important factor in text similarity calculation. Finally, text vector clustering based on Single-Pass algorithm is carried out. Finally, this paper uses the data on Weibo platform to evaluate the user credibility algorithm mentioned in this paper, and the influence of time factors on hot topics. The TDT detection index of trusted hot topic is tested. In the experiment, the user reliability evaluation algorithm is compared with the traditional PageRank algorithm, and the time factor of hot topic is compared with that of non-hot topic. Compared with the SPHA algorithm, the accuracy and efficiency of the proposed topic discovery method based on credibility evaluation are verified.
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1;TP393.092
【参考文献】
相关期刊论文 前10条
1 马雯雯;魏文晗;邓一贵;;基于隐含语义分析的微博话题发现方法[J];计算机工程与应用;2014年01期
2 卞先华;陈亮;郑倩冰;;基于文本内容和社会结构的可信度[J];重庆理工大学学报(自然科学);2013年01期
3 王晟;王子琪;张铭;;个性化微博推荐算法[J];计算机科学与探索;2012年10期
4 李劲;张华;吴浩雄;向军;;基于特定领域的中文微博热点话题挖掘系统BTopicMiner[J];计算机应用;2012年08期
5 窦炳琳;李澍淞;张世永;;基于结构的社会网络分析[J];计算机学报;2012年04期
6 杨亮;林原;林鸿飞;;基于情感分布的微博热点事件发现[J];中文信息学报;2012年01期
7 刘挺;车万翔;李正华;;语言技术平台[J];中文信息学报;2011年06期
8 袁毅;;微博客信息传播结构、路径及其影响因素分析[J];图书情报工作;2011年12期
9 江敏;肖诗斌;王弘蔚;施水才;;一种改进的基于《知网》的词语语义相似度计算[J];中文信息学报;2008年05期
10 王永恒;贾焰;杨树强;;海量短语信息文本聚类技术研究[J];计算机工程;2007年14期
相关硕士学位论文 前9条
1 刘立群;基于时间信息的舆情话题发现技术研究[D];哈尔滨工业大学;2013年
2 陈慧;基于贝叶斯模型的微博虚假话题数据分析研究[D];山东大学;2013年
3 麦艺华;面向中文微博的社会网络分析及应用[D];华南理工大学;2012年
4 孙胜平;中文微博客热点话题检测与跟踪技术研究[D];北京交通大学;2011年
5 王宏勇;网络舆情热点发现与分析研究[D];西南交通大学;2011年
6 吴泽衡;基于话题检测和情感分析的互联网热点分析与监控技术研究[D];华南理工大学;2011年
7 杨冠超;微博客热点话题发现策略研究[D];浙江大学;2011年
8 张静;基于微博的网络热点发现模型及平台研究[D];华中科技大学;2010年
9 刘星星;热点事件发现及事件内容特征自动抽取研究[D];华中师范大学;2009年
,本文编号:1539329
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1539329.html