当前位置:主页 > 社科论文 > 新闻传播论文 >

微博用户年龄范围的自动识别与实证分析

发布时间:2017-10-03 04:01

  本文关键词:微博用户年龄范围的自动识别与实证分析


  更多相关文章: 微博 用户年龄 年龄识别 机器学习


【摘要】:微博作为当前最流行的网络社交媒体之一,已经成为人们实时分享、交流、获取和传播信息的重要平台,每天有上亿用户在微博平台上进行社交活动。通过了解用户的年龄信息,能够更详细地分析微博上不同人群的特点,更深入地挖掘微博内容,从而获得用户产生的海量数据背后所蕴含的巨大价值。然而,绝大部分微博用户并没有年龄信息,不仅如此,随着微博API平台的关闭,微博数据的获取越来越困难,这就给以往通过微博用户的全部资料分析用户年龄信息的研究带来了极大的挑战。本文研究的目的在于在仅依赖微博文本的情况下,构建用户年龄范围的自动识别模型,并将模型应用于微博用户年龄范围的识别,以此分析微博平台上不同年龄段用户群体的特性。本文从新浪微博上人工标注了5466个用户作为模型的训练样本、选择了95万用户作为微博用户群体的后期分析样本,采用机器学习中的方法对数据进行试验和分析。本文的研究内容主要包括以下两个方面:第一,基于用户的微博文本,构建用户年龄范围自动识别模型。本文以人工标注的方式选取了5466个有年龄信息的用户,获取了他们的微博信息。以微博中词语的使用、表情符号、标点符号等为属性特征,采用四种机器学习的方法对用户的年龄段进行自动识别,比较各分类模型的结果,最终得出以逻辑回归算法得到的识别模型效果最佳。第二,分析微博上不同年龄段用户群体的特点。本文从新浪微博上选取了95万个用户并获取了他们的微博文本,利用之前得到的年龄段自动识别模型对这些用户所处的年龄阶段进行识别。然后,根据用户的年龄信息,从用户的年龄分布情况、活跃时间、“社交圈”规模以及微博中讨论的话题这四个方面,分析比较了不同年龄范围用户群体的特点。本文构建的微博用户年龄范围自动识别模型,具有较强的可移植性,能够平移到其他社交网络平台的用户年龄研究。此外,对微博上不同年龄范围用户的特性分析在政治、经济和法律方面都很多价值,也能够为其他基于微博的研究提供用户的年龄信息。
【关键词】:微博 用户年龄 年龄识别 机器学习
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:G206;F224
【目录】:
  • 摘要4-5
  • ABSTRACT5-8
  • 第1章 绪论8-17
  • 1.1 课题研究背景8-10
  • 1.2 研究意义10-11
  • 1.3 国内外研究现状11-14
  • 1.3.1 国外研究现状11-12
  • 1.3.2 国内研究现状12-13
  • 1.3.3 研究现状综述13-14
  • 1.4 研究内容与方法14-15
  • 1.4.1 研究内容14-15
  • 1.4.2 研究方法15
  • 1.5 论文结构框架15-17
  • 第2章 相关概念与理论基础17-29
  • 2.1 研究问题分析17
  • 2.2 微博相关概念简述17-18
  • 2.2.1 微博的界定17
  • 2.2.2 微博的功能17-18
  • 2.2.3 微博的特点18
  • 2.2.4 微博平台上的数据类型18
  • 2.3 微博用户年龄的划分及其依据18-20
  • 2.4 机器学习的理论20-28
  • 2.4.1 特征处理的相关算法21-22
  • 2.4.2 相关分类算法模型22-28
  • 2.5 本章小结28-29
  • 第3章 微博用户年龄段自动识别模型的构建29-49
  • 3.1 模型设计思路29
  • 3.2 样本数据的获取与预处理29-35
  • 3.2.1 样本数据的获取29-33
  • 3.2.2 样本数据的预处理33-35
  • 3.3 样本数据中用户年龄特征的提取35-41
  • 3.3.1 用户年龄的特征抽取35-39
  • 3.3.2 用户年龄特征空间的构建39-41
  • 3.4 微博用户年龄段自动识别分类器的构建41-48
  • 3.4.1 选择分类模型41
  • 3.4.2 四种分类模型的特点分析和实施过程41-43
  • 3.4.3 用户年龄段自动识别的流程43-45
  • 3.4.4 四种年龄模型分类结果的对比分析45-48
  • 3.5 本章小结48-49
  • 第4章 微博用户年龄段自动识别的实证研究49-57
  • 4.1 微博用户的年龄范围识别49-50
  • 4.1.1 微博用户的数据获取与预处理49
  • 4.1.2 微博用户的特征值统计49-50
  • 4.1.3 利用逻辑回归模型对用户分类50
  • 4.2 微博用户的实证分析50-56
  • 4.2.1 微博用户的年龄分布状况50-51
  • 4.2.2 微博用户的活跃情况51-52
  • 4.2.3 微博用户的社交规模52-54
  • 4.2.4 微博用户的发博偏好情况54-56
  • 4.3 本章小结56-57
  • 结论57-58
  • 参考文献58-62
  • 附录1 样本数据中的常用的表情符号62-65
  • 附录2 文中使用的主要程序代码65-72
  • 致谢72


本文编号:963007

资料下载
论文发表

本文链接:https://www.wllwen.com/xinwenchuanbolunwen/963007.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dbeff***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com