基于短视频平台的用户分析模型研究与实现
发布时间:2021-08-02 10:50
互联网和多媒体新闻行业迅猛发展,移动端的短视频平台逐渐进入大众化时代,短视频平台逐渐成为大势发展的风口。由于时间简短、内容丰富、随时随地可以观看,从而逐渐占领了用户的碎片化时间。用户呈指数化增长飙升,庞大的用户流量引起了电商行业与广告行业的兴趣,通过视频主播以合作代言的形式推广产品,形成了一种新的盈利模式。但是过亿级的用户量,会给电商和广告行业在寻找合作用户时带来困难,所以如果能够在庞大基数的用户中筛选出用户影响力较大的用户,或者能够发掘出有可能的电商潜在合作用户,就能够节省一定量的时间或成本。本次论文旨在从这个角度出发,对研究短视频行业与电商行业的快速融合有着一定的实践意义。本文首先阐述了社交网络中用户影响力计算的研究现状,介绍了基于粉丝数量的In-Degree入度算法以及基于Page Rank思想的关联算法,指出了他们所存在的一些不足,如Page Rank的关联算法中粉丝将PR值均匀分给关注的用户,存在不合理性。针对以上算法的不足之处,引出了基于微博网络平台的SF-UIR影响力算法,探讨SF-UIR算法在短视频平台的应用实现。通过实验将用户得到的影响力排序名次与该用户在因子分析得分...
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
HackerNews得分时间对应
第2章短视频平台的用户影响力计算14主要考虑第一项影响因素,用户自身的影响力计算。2.5实验及结果分析本节在短视频平台用户数据集下应用实现SF-UIR影响力算法和因子得分排序,对比分析两种情况下的用户排名顺位,分析平台的官方认证以及时间周期内的高质量作品对影响力产生的作用,评估SF-UIR影响力算法在短视频平台环境下的可用性。2.5.1抖音短视频平台的用户影响力计算基于微博网络的SF-UIR算法通过用户自身的影响力和用户粉丝分配的影响力,通过这两项指标来计算该用户在网络环境中的影响力。在章节2.4中分析比较了微博网络和短视频平台的交互方式和使用方式的差异性,考虑到粉丝的分配影响力在短视频平台的不适用性,所以本次实验主要考虑第一项因素,用户自身的影响力计算。实验数据集为抖音短视频平台获取的542位用户,用户类型包括:优质视频作者、人气视频作者、专业领域的认证用户(优质篮球领域作者、抖音音乐人、优质美食自媒体等)、明星用户、普通用户。部分数据集样本如图2.2所示,第2列为用户的平台ID、第5列为星座序号、第6列为用户的位置、第7列为头像的存储地址、第8列为用户的个性签名、第9列为平台的官方认证,更具体的数据集信息会在章节4.1中说明。图2.2短视频平台的用户数据集样本
第3章基于短视频平台的多标签学习25主要来说明本文实验应用到的分类器模型。3.3.1ML-KNNCover和Hart在1968年提出KNN近邻算法,KNN近邻是数据挖掘中常用的分类算法之一。KNN通过使用某种度量测量与已经标注分类好的样本实例最近的K个样本,被选择出的K个样本判断为与标注样本属于同一类别。K为邻近数,取值若过小会被有噪声的成分影响效果;取值若过大,会有近似误差,与目标较远的样本也可能影响预测效果,K值增大会让学习模型变得简单化。KNN算法示例如图3.1所示,KNN邻近算法过程简述如下:(1)根据度量规则计算出测试样本与标记好的样本实例之间的距离,关于常用的选取的度量有:余弦值、欧几里得距离、相关度、曼哈顿距离;(2)根据计算出的距离,按递增排序;(3)在排序队列中找出距离最小的K个点;(4)根据K个点出现类别的频率,统计出频率最高的类别作为测试样本的被预测分类。KNN算法简单有效易实现,但是需要计算测试样本和已标注好的训练数据集中的所有样本的距离,所以耗费时间较多,若数据集随机分布,分类效果会较差。图3.1KNN算法示例[51]对于多标签学习问题,Zhang、Zhou等人在2007年提出ML-KNN算法[36-38],
【参考文献】:
期刊论文
[1]论短视频对传统媒体转型的促进作用[J]. 万勇. 中国报业. 2019(24)
[2]国内短视频发展现状及问题思考[J]. 林文婧,毕秋敏. 视听. 2018(11)
[3]基于PageRank的用户影响力评价改进算法[J]. 王顶,徐军,段存玉,吴玥瑶,孙静. 哈尔滨工业大学学报. 2018(05)
[4]ML-kNN算法在大数据集上的高效应用[J]. 陆凯,徐华. 计算机工程与应用. 2019(01)
[5]一种改进PageRank的微博用户影响力计算方法[J]. 郑远飞,陈晓升,王志文,陈坚旋,陈珂. 广东石油化工学院学报. 2016(03)
[6]如何用SPSS快速计算主成分的结果[J]. 林海明. 统计与决策. 2011(12)
[7]支持向量机理论与算法研究综述[J]. 丁世飞,齐丙娟,谭红艳. 电子科技大学学报. 2011(01)
[8]如何正确应用SPSS软件做主成分分析[J]. 李小胜,陈珍珍. 统计研究. 2010(08)
[9]统计分析在学生成绩评估中的应用[J]. 苏斌,谢友芹. 系统工程理论与实践. 2006(07)
[10]BP人工神经网络用于肺鳞癌预后预测[J]. 黄德生,周宝森,刘延龄,魏庆琤,李金荣. 中国卫生统计. 2000(06)
博士论文
[1]多标签数据分类技术研究[D]. 刘阳.西安电子科技大学 2018
[2]基于用户行为的信任感知推荐方法研究[D]. 张亚楠.哈尔滨工程大学 2014
硕士论文
[1]基于标签特征和相关性的多标签分类研究[D]. 李锋.西安电子科技大学 2019
[2]基于SVM的多示例多标签网页分类[D]. 朱红波.中国石油大学(华东) 2017
[3]基于标签相关性和三层BP神经网络的多标签分类算法研究[D]. 廖丽芳.厦门大学 2017
[4]基于主成分分析与因子分析数学模型的应用研究[D]. 解素雯.山东理工大学 2016
[5]基于有效粉丝的用户影响力计算的研究与实现[D]. 王焱楠.西安电子科技大学 2015
[6]基于社区热度的开源软件排序关键技术研究[D]. 范强.国防科学技术大学 2015
[7]微博社会网络构造与分析技术研究[D]. 陆毅.复旦大学 2011
[8]基于用户行为及关系的社交网络节点影响力评价[D]. 康书龙.北京邮电大学 2011
[9]BP神经网络在土地利用分类中的应用分析[D]. 孟治国.吉林大学 2004
本文编号:3317430
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
HackerNews得分时间对应
第2章短视频平台的用户影响力计算14主要考虑第一项影响因素,用户自身的影响力计算。2.5实验及结果分析本节在短视频平台用户数据集下应用实现SF-UIR影响力算法和因子得分排序,对比分析两种情况下的用户排名顺位,分析平台的官方认证以及时间周期内的高质量作品对影响力产生的作用,评估SF-UIR影响力算法在短视频平台环境下的可用性。2.5.1抖音短视频平台的用户影响力计算基于微博网络的SF-UIR算法通过用户自身的影响力和用户粉丝分配的影响力,通过这两项指标来计算该用户在网络环境中的影响力。在章节2.4中分析比较了微博网络和短视频平台的交互方式和使用方式的差异性,考虑到粉丝的分配影响力在短视频平台的不适用性,所以本次实验主要考虑第一项因素,用户自身的影响力计算。实验数据集为抖音短视频平台获取的542位用户,用户类型包括:优质视频作者、人气视频作者、专业领域的认证用户(优质篮球领域作者、抖音音乐人、优质美食自媒体等)、明星用户、普通用户。部分数据集样本如图2.2所示,第2列为用户的平台ID、第5列为星座序号、第6列为用户的位置、第7列为头像的存储地址、第8列为用户的个性签名、第9列为平台的官方认证,更具体的数据集信息会在章节4.1中说明。图2.2短视频平台的用户数据集样本
第3章基于短视频平台的多标签学习25主要来说明本文实验应用到的分类器模型。3.3.1ML-KNNCover和Hart在1968年提出KNN近邻算法,KNN近邻是数据挖掘中常用的分类算法之一。KNN通过使用某种度量测量与已经标注分类好的样本实例最近的K个样本,被选择出的K个样本判断为与标注样本属于同一类别。K为邻近数,取值若过小会被有噪声的成分影响效果;取值若过大,会有近似误差,与目标较远的样本也可能影响预测效果,K值增大会让学习模型变得简单化。KNN算法示例如图3.1所示,KNN邻近算法过程简述如下:(1)根据度量规则计算出测试样本与标记好的样本实例之间的距离,关于常用的选取的度量有:余弦值、欧几里得距离、相关度、曼哈顿距离;(2)根据计算出的距离,按递增排序;(3)在排序队列中找出距离最小的K个点;(4)根据K个点出现类别的频率,统计出频率最高的类别作为测试样本的被预测分类。KNN算法简单有效易实现,但是需要计算测试样本和已标注好的训练数据集中的所有样本的距离,所以耗费时间较多,若数据集随机分布,分类效果会较差。图3.1KNN算法示例[51]对于多标签学习问题,Zhang、Zhou等人在2007年提出ML-KNN算法[36-38],
【参考文献】:
期刊论文
[1]论短视频对传统媒体转型的促进作用[J]. 万勇. 中国报业. 2019(24)
[2]国内短视频发展现状及问题思考[J]. 林文婧,毕秋敏. 视听. 2018(11)
[3]基于PageRank的用户影响力评价改进算法[J]. 王顶,徐军,段存玉,吴玥瑶,孙静. 哈尔滨工业大学学报. 2018(05)
[4]ML-kNN算法在大数据集上的高效应用[J]. 陆凯,徐华. 计算机工程与应用. 2019(01)
[5]一种改进PageRank的微博用户影响力计算方法[J]. 郑远飞,陈晓升,王志文,陈坚旋,陈珂. 广东石油化工学院学报. 2016(03)
[6]如何用SPSS快速计算主成分的结果[J]. 林海明. 统计与决策. 2011(12)
[7]支持向量机理论与算法研究综述[J]. 丁世飞,齐丙娟,谭红艳. 电子科技大学学报. 2011(01)
[8]如何正确应用SPSS软件做主成分分析[J]. 李小胜,陈珍珍. 统计研究. 2010(08)
[9]统计分析在学生成绩评估中的应用[J]. 苏斌,谢友芹. 系统工程理论与实践. 2006(07)
[10]BP人工神经网络用于肺鳞癌预后预测[J]. 黄德生,周宝森,刘延龄,魏庆琤,李金荣. 中国卫生统计. 2000(06)
博士论文
[1]多标签数据分类技术研究[D]. 刘阳.西安电子科技大学 2018
[2]基于用户行为的信任感知推荐方法研究[D]. 张亚楠.哈尔滨工程大学 2014
硕士论文
[1]基于标签特征和相关性的多标签分类研究[D]. 李锋.西安电子科技大学 2019
[2]基于SVM的多示例多标签网页分类[D]. 朱红波.中国石油大学(华东) 2017
[3]基于标签相关性和三层BP神经网络的多标签分类算法研究[D]. 廖丽芳.厦门大学 2017
[4]基于主成分分析与因子分析数学模型的应用研究[D]. 解素雯.山东理工大学 2016
[5]基于有效粉丝的用户影响力计算的研究与实现[D]. 王焱楠.西安电子科技大学 2015
[6]基于社区热度的开源软件排序关键技术研究[D]. 范强.国防科学技术大学 2015
[7]微博社会网络构造与分析技术研究[D]. 陆毅.复旦大学 2011
[8]基于用户行为及关系的社交网络节点影响力评价[D]. 康书龙.北京邮电大学 2011
[9]BP神经网络在土地利用分类中的应用分析[D]. 孟治国.吉林大学 2004
本文编号:3317430
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3317430.html