基于影响力和兴趣特征的微博转发预测实现方法
本文选题:兴趣 + 影响力 ; 参考:《北京交通大学》2017年硕士论文
【摘要】:近年来,互联网的普及带来了社交网络应用的蓬勃发展,在社交网络平台上,用户可以采用多种方式进行信息交互,随时随地了解最新信息,并参与到感兴趣事件的讨论中。这种新的信息交互模式极大地缩短了事件扩散的时间,因此在拥有海量信息内容和庞大的用户群体的社交平台上,对事件的转发进行预测,具有重大实际意义。本文以新浪微博为研究对象,从内容兴趣特征和用户影响力两个方面对微博事件的转发预测进行了系统研究,其中的研究工作得到了国家自然科学基金项目(61172072)和北京市教育委员会研究生学科建设项目的支持,论文的主要内容如下:研究了微博内容兴趣特征提取方法。本文通过新浪API采集微博数据,针对微博短文本的特性,提出了两种微博短文本兴趣特征提取方案。方案一通过构造LDA模型,进行吉布森抽样得到每条微博的兴趣特征的分布概率;方案二通过改进的短文本TF-IDF方法,根据词权重得出每条微博的兴趣特征。通过Perplexity指标对两种方案进行比较分析,最后选用LDA模型进行兴趣特征提取。建立了基于兴趣的微博用户影响力计算模型。本文针对微博社交网络的多样性特点,提出基于兴趣的用户影响力算法模型。该算法采用LDA模型提取微博内容兴趣特征,构建特定兴趣下用户关系网络;在用户兴趣下进行影响力计算时,首次引入微博用户流行率的概念,并把用户间兴趣相似度作为转移概率,从而提高了影响力值计算精度。在实验阶段,本文将模型与经典微博用户PageRank影响力算法进行对比实验。通过比较Spearman等级相关系数,论证了基于兴趣的微博用户影响力模型算法具有更高的准确性。实现了基于微博内容兴趣特征和用户影响力的微博转发预测方法。本文对微博事件转发预测原理进行了研究,建立了 BP神经网络预测模型,并对模型进行了仿真实验。在采用50000条实验数据对仿真系统完成训练后,模型的实验预测结果准确率可达85%。本文还通过引入两个模型进行对比实验,借助ROC评价结果得到基于兴趣特征和用户影响力模型,能够对微博转发情况进行有效预测的结论。
[Abstract]:In recent years, the popularity of the Internet has brought the vigorous development of social network applications. On the social network platform, users can exchange information in a variety of ways, learn the latest information anytime, anywhere, and participate in the discussion of interesting events.This new mode of information interaction greatly shortens the time of event diffusion, so it is of great practical significance to predict the event forwarding on the social platform with massive information content and huge user group.Taking Weibo of Sina as the research object, this paper makes a systematic study on the forwarding prediction of Weibo event from two aspects of content interest characteristics and user influence.The research work is supported by the National Natural Science Foundation of China 61172072) and the postgraduate subject construction project of Beijing Education Commission. The main contents of this paper are as follows: the extraction method of Weibo's content interest feature is studied.In this paper, Weibo data are collected by Sina API, and two kinds of interesting feature extraction schemes are put forward according to the characteristics of the short text of Weibo.Scheme 1, by constructing LDA model, carries out Gibson sampling to get the distribution probability of each Weibo's interest feature, and scheme 2 obtains the interest feature of each Weibo according to the word weight according to the improved short text TF-IDF method.The two schemes are compared and analyzed by Perplexity index. Finally, LDA model is used to extract the feature of interest.An interest-based model for calculating Weibo's user influence is established.According to the diversity of Weibo social network, this paper proposes an interest-based user influence algorithm model.The algorithm uses LDA model to extract the features of Weibo's content interest, constructs the user relationship network under specific interest, and introduces the concept of user popularity of Weibo for the first time when calculating the influence of user interest.The similarity of interest among users is taken as the transfer probability, which improves the accuracy of calculating the influence value.In the experiment stage, the model is compared with the classical Weibo user PageRank influence algorithm.By comparing the Spearman rank correlation coefficient, it is proved that Weibo user influence model algorithm based on interest has higher accuracy.Based on Weibo's content interest feature and user's influence, this paper realizes the Weibo forwarding prediction method.In this paper, the principle of Weibo event forwarding prediction is studied, the BP neural network prediction model is established, and the simulation experiment of the model is carried out.After training the simulation system with 50000 experimental data, the prediction accuracy of the model can reach 85%.This paper also introduces two models to carry on the contrast experiment, obtains based on the interest characteristic and the user influence model by the ROC appraisal result, can carry on the effective forecast to the Weibo forwarding situation.
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092
【相似文献】
相关期刊论文 前10条
1 科卞;信号细微特征提取分析技术[J];电子科技大学学报;2000年02期
2 马少华,高峰,李敏,吴成东;神经网络分类器的特征提取和优选[J];基础自动化;2000年06期
3 管聪慧,宣国荣;多类问题中的特征提取[J];计算机工程;2002年01期
4 胡威;李建华;陈波;;入侵检测建模过程中特征提取最优化评估[J];计算机工程;2006年12期
5 朱玉莲;陈松灿;赵国安;;推广的矩阵模式特征提取方法及其在人脸识别中的应用[J];小型微型计算机系统;2007年04期
6 赵振勇;王保华;王力;崔磊;;人脸图像的特征提取[J];计算机技术与发展;2007年05期
7 冯海亮;王丽;李见为;;一种新的用于人脸识别的特征提取方法[J];计算机科学;2009年06期
8 朱笑荣;杨德运;;基于入侵检测的特征提取方法[J];计算机应用与软件;2010年06期
9 王菲;白洁;;一种基于非线性特征提取的被动声纳目标识别方法研究[J];软件导刊;2010年05期
10 陈伟;瞿晓;葛丁飞;;主观引导特征提取法在光谱识别中的应用[J];科技通报;2011年04期
相关会议论文 前10条
1 尚修刚;蒋慰孙;;模糊特征提取新算法[A];1997中国控制与决策学术年会论文集[C];1997年
2 潘荣江;孟祥旭;杨承磊;王锐;;旋转体的几何特征提取方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
3 薛燕;李建良;朱学芳;;人脸识别中特征提取的一种改进方法[A];第十三届全国图象图形学学术会议论文集[C];2006年
4 杜栓平;曹正良;;时间—频率域特征提取及其应用[A];2005年全国水声学学术会议论文集[C];2005年
5 黄先锋;韩传久;陈旭;周剑军;;运动目标的分割与特征提取[A];全国第二届信号处理与应用学术会议专刊[C];2008年
6 魏明果;;方言比较的特征提取与矩阵分析[A];2009系统仿真技术及其应用学术会议论文集[C];2009年
7 林土胜;赖声礼;;视网膜血管特征提取的拆支跟踪法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
8 秦建玲;李军;;基于核的主成分分析的特征提取方法与样本筛选[A];2005年中国机械工程学会年会论文集[C];2005年
9 刘红;陈光,
本文编号:1740659
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1740659.html