基于微博数据的微博用户性别判断研究
发布时间:2017-03-21 16:14
本文关键词:基于微博数据的微博用户性别判断研究,,由笔耕文化传播整理发布。
【摘要】:随着互联网的高速发展,越来越多的人开始享受互联网带来的便利。微博作为一项基于网络的社交应用,因为其快捷、社交性的特点,成为人们发表言论、讨论社会话题等的一项重要工具。正是由于其用户群体庞大、传播速度快、具有群体效应等特点,广告媒体、社会舆情监督部门等急切需要通过微博分析,挖掘出可用的信息。另外,如何通过对微博内容及用户资料,研究用户的行为习惯、检测网络欺诈行为等,也是诸如Twitter、Facebook、腾讯、新浪微博等社交媒体研究工作的一个重要部分。如果能够通过微博用户的性别、年龄、爱好等特征进行有效的预测,必然会在以上提到的方面发挥巨大的作用。目前国内外虽然已经针对微博的信息挖掘做了相当多的工作,但这些工作主要集中在话题发现、微博情感分析、意见领袖发现、社交群体挖掘等方向,而针对用户的属性信息,如性别、年龄分类的研究较少。本文仅选取与用户性别相关的特征,通过对微博内容以及能够获取到的用户个人信息,设计了分类算法,在用户的性别分类判断方面做了一些研究工作。本文的主要贡献和创新点如下:1.以腾讯微博为例,研究了腾讯微博的开放平台接口和微博特点,提出了基于微博内容的用户名自动发现算法和海量微博文本自动下载算法。在对腾讯微博的内容进行分析时,发现其中有很多和其他用户的互动,而这些操作都涉及到其他用户的用户名,据此提出了用户名自动发现算法;结合腾讯官方开放平台提供的微博数据下载接口,利用自动发现的用户名,设计了海量微博数据自动下载算法、用户信息自动下载算法,建立了微博语料库,包括微博文本信息和用户的个人资料。2.根据对微博内容和用户信息的统计分析,提出了根据昵称和动词进行性别分类的算法以及分类时特征词提取的方法。通过对下载的海量微博内容和用户个人资料的抽样统计分析,发现用户的昵称大都与汉语的人名相似,而汉语人名具有比较强的性别区分性,因此提出了一种基于昵称的性别分类方法,以昵称中的单个字为特征进行了分类研究;在对微博文本进行分词后,对动词在两种性别中出现频次的统计分析,发现部分动词具有较大的性别区分度,根据这个特点提出了一种基于动词的性别分类算法,设计了动词特征项选取的标准。通过实验对比和分析,发现以上提出的算法,在性别分类中具有较好的准确率。
【关键词】:微博 性别判断 机器学习 特征选择
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
- 摘要5-6
- Abstract6-10
- 第一章 绪论10-15
- 1.1 研究背景10-11
- 1.2 研究目的和意义11-12
- 1.3 国内外研究现状12-14
- 1.3.1 微博内容挖掘研究现状12-13
- 1.3.2 微博用户关系挖掘研究现状13-14
- 1.4 本文研究内容与结构14-15
- 第二章 相关研究技术15-26
- 2.1 基本分类算法15-17
- 2.1.1 朴素贝叶斯分类器15-16
- 2.1.2 决策树分类器16
- 2.1.3 κ近邻分类器16-17
- 2.2 数据表示模型17-18
- 2.3 汉语分词方法18-22
- 2.3.1 基于规则的分词方法19-21
- 2.3.2 基于统计模型的分词方法21-22
- 2.4 分类算法评价标准22-25
- 2.4.1 正确率p、召回率r和F值22-23
- 2.4.2 微平均和宏平均23-25
- 2.5 本章小结25-26
- 第三章 海量微博数据自动获取方法研究26-38
- 3.1 API参数说明26-30
- 3.1.1 微博内容下载参数26-28
- 3.1.2 个人资料下载参数28-30
- 3.2 海量微博数据下载30-35
- 3.2.1 海量微博下载的难点30
- 3.2.2 用户名自动发现算法30-31
- 3.2.3 海量微博数据下载算法31-33
- 3.2.4 用户个人资料下载算法33-35
- 3.3 数据抽取35-36
- 3.3.1 数据抽取方法35
- 3.3.2 遇到的问题及解决方案35-36
- 3.4 微博语料库介绍36-37
- 3.5 本章小结37-38
- 第四章 基于机器学习的微博用户性别预测38-56
- 4.1 数据预处理及特征分析38-41
- 4.1.1 微博文本内容预处理38-40
- 4.1.2 用户个人资料预处理40-41
- 4.2 实验数据特征分析41-44
- 4.2.1 昵称数据的统计分析41-42
- 4.2.2 动词数据的统计分析42-44
- 4.3 根据用户昵称进行性别分类44-49
- 4.3.1 分类算法设计44-45
- 4.3.2 实验与分析45-49
- 4.4 根据微博内容进行性别分类49-54
- 4.4.1 分类算法设计49-50
- 4.4.2 特征词选取方法50
- 4.4.3 实验与分析50-54
- 4.5 本章小结54-56
- 第五章 总结与展望56-58
- 5.1 本文总结56
- 5.2 展望56-58
- 参考文献58-62
- 攻读硕士学位期间参加的科研项目与公开发表的学术论文62-63
- 致谢63
【参考文献】
中国期刊全文数据库 前5条
1 刘志明;刘鲁;;基于机器学习的中文微博情感分类实证研究[J];计算机工程与应用;2012年01期
2 韩忠明;张玉沙;张慧;万月亮;黄今慧;;有效的中文微博短文本倾向性分类算法[J];计算机应用与软件;2012年10期
3 张珊;于留宝;胡长军;;基于表情图片与情感词的中文微博情感分析[J];计算机科学;2012年S3期
4 平亮;宗利永;;基于社会网络中心性分析的微博信息传播研究——以Sina微博为例[J];图书情报知识;2010年06期
5 朱艳辉;栗春亮;徐叶强;柳位平;;一种基于多重词典的中文文本情感特征抽取方法[J];湖南工业大学学报;2011年02期
中国硕士学位论文全文数据库 前1条
1 左晓娜;微博的传播机制及影响力研究[D];陕西师范大学;2011年
本文关键词:基于微博数据的微博用户性别判断研究,由笔耕文化传播整理发布。
本文编号:259946
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/259946.html