当前位置:主页 > 社科论文 > 新闻传播论文 >

基于用户与消息特征的微博转发预测模型研究

发布时间:2020-10-21 23:18
   随着互联网的迅猛发展,社会化媒体技术日新月异,微博已成为传播信息的主要网络平台。作为一种新的媒体工具,微博已经融入到人们的学习、工作、生活中来,不仅改变了社会大众的旧有的社交方式,而且彻底颠覆了传统的信息传播模式。新浪微博是成立于2009年的微博平台,它是一个基于粉丝-关注网络结构的信息发布、分享、传播、获取平台,允许超过2亿用户分享微博消息:任何一条微博的字符数都被限定在140个之内。微博用户可以关注其他用户,通过这种方式来获取他们发布的微博消息。如果一个用户觉得一条微博很有趣并且值得分享,他就可以把这条微博传递给自己的粉丝,这种行为被称为转发。通常用户会转发那些有趣的或与他们粉丝有关的内容。按照惯例,转发会用特殊的关键字来表示,例如(转)。进行转发通常是为了向自己的粉丝传播信息。研究微博用户转发行为,预测微博转发概率,确定影响微博转发概率的因素,在热点挖掘、产品营销、舆情监控、谣言控制等方面有重要的现实意义。相比传统的社交网络和媒体网络,微博社区中的用户关系更加多样,消息传播机制更加复杂,因此,影响用户转发行为的因素也就更多,研究难度相应的也会加大。本文利用新浪微博平台数据,分析了影响微博转发的属性特征,包括用户特征,例如用户影响力、粉丝活跃度等,以及微博消息本身的内容特征,并挑选出对微博转发影响较大的一些属性作为参数,以此来构建一种基于用户和消息特征的微博转发概率预测模型。本文主要研究内容如下:一、本文分析了新浪微博平台的数据获取方法。在研究初期,将从新浪微博平台抓取大量用户数据及消息数据,因此,本文详细介绍了两种常用的数据获取方法:微博开放平台API和网络爬虫,并比较了这两种方法的优劣。本文采用新浪微博开放平台API获取原始数据,并对数据进行预处理,将预处理后的数据存储到数据库当中。为了解决新浪开放平台中API调用次数限制的问题,采用多账户多应用轮换的方法来提高请求频率。同时,通过程序延时请求来避免数据中断的问题。在数据预处理阶段,使用中文分词词典和停用词表来平滑数据和去除数据噪声。这部分数据是本工作的基础数据,也可作为其他研究的基础数据。二、本文介绍了影响微博转发的用户特征和消息特征,并从中挑选出对用户微博转发贡献较大的15个属性特征,将其添加到我们的模型中,构成了模型的15个维度。其中比较典型的有用户影响力、粉丝活跃度、内容特征以及情感特征等,将这些指标转化为二元属性因子,用1表示是,用0表示否,这样所有的属性都被转化为数值型,便于我们建立模型。对于用户特征,通过粉丝数-关注数算法、用户标签数算法等分析了它们与微博转发之间的关联关系,并确定各个属性的阈值,这些阈值对微博转发预测起到了至关重要的作用。对于消息特征,在前人研究的基础上提出了内容特征、情感特征及时间特征,另外,利用LDA文档主题生成模型挖掘了微博中隐含的潜在主题,以此来作为模型的一个重要特征属性。三、本文提出了一种基于用户和消息特征的微博转发预测分析方法。综合分析了各种影响微博转发的因素之后,将预测问题转化为分类问题,提出了一种二分类逻辑回归预测模型。该模型的实现需要两个过程:训练过程和预测过程。在一个大的训练集上学习了所有属性的权重,对于主题特征,由于微博涵盖的主题太多,因此需要单独进行训练。在预测阶段,对于每一条新的微博,为其建立一个特征空间向量,并对每个特征判断其0、1值,将其输入到模型中后,便可以得到一个分类的输出。证明了预测哪些微博会被转发是可行的。通过分析预测模型学习到的参数,确定出那些对微博的转发有较强贡献的特征,这使我们可以进一步研究在微博社区中,哪些内容是有趣的。
【学位单位】:南华大学
【学位级别】:硕士
【学位年份】:2016
【中图分类】:G206;TP391.1
【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 研究背景与意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2 研究现状
    1.3 本文的结构与内容
第2章 数据获取技术
    2.1 网络爬虫技术
    2.2 新浪微博开放平台
    2.3 两种数据获取方法的对比
    2.4 数据预处理
    2.5 本章小结
第3章 微博转发的用户特征影响因素
    3.1 用户影响力对微博转发的预测
        3.1.1 基本思想
        3.1.2 算法实现
        3.1.3 实验分析
    3.2 粉丝平均标签数对微博转发的预测
        3.2.1 基本思想
        3.2.2 算法实现
        3.2.3 实验分析
    3.3 粉丝活跃度对微博转发的预测
        3.3.1 基本思想
        3.3.2 实验分析
    3.4 本章小结
第4章 微博转发的消息特征影响因素
    4.1 内容特征
        4.1.1 基本特征
        4.1.2 情感特征
    4.2 时间戳
    4.3 LDA文档主题生成模型
        4.3.1 定义
        4.3.2 LDA核心公式
        4.3.3 LDA学习过程
        4.3.4 LDA模型训练及预测实验分析
    4.4 本章小结
第5章 基于用户与消息特征的逻辑回归预测模型
    5.1 分类模型介绍
    5.2 模型分析
    5.3 结果分析
        5.3.1 权重训练
        5.3.2 权重分析
        5.3.3 转发预测
    5.4 评价标准
    5.5 本章小结
第6章 总结与展望
    6.1 论文总结
    6.2 未来展望
参考文献
攻读硕士学位期间发表的论文
致谢

【相似文献】

相关期刊论文 前10条

1 沈晖;短消息的新武器[J];中国计算机用户;2002年28期

2 空中来客;老机也疯狂──短消息与电话本[J];数字通信;2001年03期

3 FF;;不让QQ显示发送消息时间[J];电脑迷;2005年11期

4 张漫,李冰,梁吉胜,王永安;基于Delphi中消息的处理及应用[J];煤矿机械;2005年04期

5 何腾蛟;吴跃;;基于JavaScript的消息管理机制[J];计算机应用;2009年S1期

6 JOSH NOSSITER ,宋艳萍;快速发送消息的灵活性[J];今日电子;1996年06期

7 钱少先;Windows下消息循环及运行机制[J];安庆师范学院学报(自然科学版);1997年02期

8 ;Sms(短消息)网上发[J];数字生活;2001年03期

9 ;通过Internet网发送移动短消息[J];邮电商情;2001年07期

10 竹子兰;;“甜似蜜”蜂房小技巧(之网络秘技篇)[J];电脑应用文萃;2002年12期


相关博士学位论文 前4条

1 张小明;基于分布对象的异步消息的研究与实现[D];中国人民解放军国防科学技术大学;2001年

2 王乐;短语消息聚类相关技术研究[D];国防科学技术大学;2008年

3 王红;移动agent关键技术研究[D];中国科学院研究生院(计算技术研究所);2002年

4 华东明;安全协议的形式化方法及其应用的研究[D];中国科学院研究生院(计算技术研究所);2005年


相关硕士学位论文 前10条

1 刘伟唯;消息群发及反馈系统的设计与实现[D];内蒙古大学;2015年

2 成海霞;基于发布订阅模式的医疗消息推送系统[D];浙江大学;2015年

3 罗达诗;面向演化的程序设计语言[D];兰州大学;2015年

4 刘丽华;基于VoIP/IM技术的通信系统及其漫游方法的设计与实现[D];西南交通大学;2015年

5 许作亮;应急广播消息采编软件的设计与实现[D];电子科技大学;2015年

6 王默涵;面向移动互联网的Presence/IM机制的设计与实现[D];中国科学院研究生院(沈阳计算技术研究所);2015年

7 刘松;基于HornetQ与Restful service的异步消息平台的设计与实现[D];南京大学;2013年

8 邱继东;手机快讯系统的研究与实现[D];电子科技大学;2013年

9 宋晓宇;DSRC/WAVE自适应消息调整器及应用研究[D];大连理工大学;2015年

10 徐婷婷;基于HL7的HIS与PACS网关设计和实现[D];南方医科大学;2015年



本文编号:2850734

资料下载
论文发表

本文链接:https://www.wllwen.com/xinwenchuanbolunwen/2850734.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c5b8d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com