基于微博客的需求检测与性格分析的研究
发布时间:2022-01-01 08:55
随着社交网络的流行,微博客已成为人们日常生活中分享信息的重要方式,用户以140左右的文字更新信息。2012年12月底,新浪微博的注册用户已超过5亿,每天活跃用户数达4600多万,因此每天产生的数据是巨大的,如何从这些海量的数据中挖掘出有价值的信息是很有必要性和挑战性的任务。本文从两个方面研究了从微博中挖掘有用的信息。首先,本文研究了基于新浪微博的需求检测。文中通过定义一个四元组来表示用户的需求信息,然后将原问题看作是一个二元分类问题,即能识别出或不能识别出四元组。文中以特定话题形式的微博为模板,抽取了基于词的、基于距离和基于话题的特征,分类算法通过支持向量机来实现。实验结果表明,基于词的和基于距离的特征组合,对于自动识别需求信息有较好的结果。其次,本文研究了微博上的用户性格分析。传统的性格分析都是以常规文本为研究对象,微博与常规文本有很大不同,用户的随意性更强,真实性也会更高。性格分析以“五大性格”模型为研究基础,将预测未知用户的性格看作一个多元分类问题。分类算法采用决策树,特征选择主要包括基于词的特征、LIWC特征和MRC特征。实验结果表明,相比于直接基于词的特征,LIWC的MRC特...
【文章来源】:东北大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
目录
第1章 绪论
1.1 研究背景
1.2 本文的研究动机
1.3 国内外研究现状
1.4 本文组织安排
第2章 基础研究工作
2.1 数据预处理
2.1.1 数据下载
2.1.2 分词
2.1.3 去除停用词
2.2 词典的构造
2.3 词性标记
2.3.1 隐马尔可夫模型
2.3.2 条件随机场
2.4 分类算法
2.4.1 决策树
2.4.2 贝叶斯分类
2.4.3 支持向量机
2.4.4 分类算法的比较
2.5 聚类简介
2.5.1 K均值聚类算法
2.5.2 LDA
2.6 文本需求检测
2.6.1 任务定义
2.6.2 需求检测分析
2.7 传统性格分析
2.8 本章小结
第3章 需求检测
3.1 背景知识介绍
3.1.1 Zipf定律
3.1.2 几种简单的需求检测方法
3.2 基准系统的搭建
3.2.1 任务定义
3.2.2 数据下载
3.2.3 数据处理
3.2.4 实验方法
3.2.5 实验评估
3.3 改进的方法
3.3.1 距离特征
3.3.2 上下文特征
3.3.3 主题特征
3.4 本章总结
第4章 性格分析
4.1 任务定义
4.1.1 背景意义
4.1.2 五大性格介绍
4.2 数据下载
4.3 实验方法
4.3.1 基于词的特征
4.3.2 LIWC特征
4.3.3 MRC心理学特征
4.3.4 皮尔逊系数
4.4 实验分析
4.4.1 基于所有词的实验
4.4.2 基于LIWC和MRC的实验
4.4.3 基于皮尔逊系数的实验
4.5 本章小结
第5章 工作总结与展望
5.1 工作总结
5.2 未来工作展望
参考文献
致谢
攻读硕士期间参加的科研项目
【参考文献】:
期刊论文
[1]中文微博情感分析研究综述[J]. 周胜臣,瞿文婷,石英子,施询之,孙韵辰. 计算机应用与软件. 2013(03)
[2]一种面向情感分析的微博表情情感词典构建及应用[J]. 王文远,王大玲,冯时,李任斐,王琳. 计算机与数字工程. 2012(11)
[3]基于主题情感混合模型的无监督文本情感分析[J]. 孙艳,周学广,付伟. 北京大学学报(自然科学版). 2013(01)
本文编号:3562041
【文章来源】:东北大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
目录
第1章 绪论
1.1 研究背景
1.2 本文的研究动机
1.3 国内外研究现状
1.4 本文组织安排
第2章 基础研究工作
2.1 数据预处理
2.1.1 数据下载
2.1.2 分词
2.1.3 去除停用词
2.2 词典的构造
2.3 词性标记
2.3.1 隐马尔可夫模型
2.3.2 条件随机场
2.4 分类算法
2.4.1 决策树
2.4.2 贝叶斯分类
2.4.3 支持向量机
2.4.4 分类算法的比较
2.5 聚类简介
2.5.1 K均值聚类算法
2.5.2 LDA
2.6 文本需求检测
2.6.1 任务定义
2.6.2 需求检测分析
2.7 传统性格分析
2.8 本章小结
第3章 需求检测
3.1 背景知识介绍
3.1.1 Zipf定律
3.1.2 几种简单的需求检测方法
3.2 基准系统的搭建
3.2.1 任务定义
3.2.2 数据下载
3.2.3 数据处理
3.2.4 实验方法
3.2.5 实验评估
3.3 改进的方法
3.3.1 距离特征
3.3.2 上下文特征
3.3.3 主题特征
3.4 本章总结
第4章 性格分析
4.1 任务定义
4.1.1 背景意义
4.1.2 五大性格介绍
4.2 数据下载
4.3 实验方法
4.3.1 基于词的特征
4.3.2 LIWC特征
4.3.3 MRC心理学特征
4.3.4 皮尔逊系数
4.4 实验分析
4.4.1 基于所有词的实验
4.4.2 基于LIWC和MRC的实验
4.4.3 基于皮尔逊系数的实验
4.5 本章小结
第5章 工作总结与展望
5.1 工作总结
5.2 未来工作展望
参考文献
致谢
攻读硕士期间参加的科研项目
【参考文献】:
期刊论文
[1]中文微博情感分析研究综述[J]. 周胜臣,瞿文婷,石英子,施询之,孙韵辰. 计算机应用与软件. 2013(03)
[2]一种面向情感分析的微博表情情感词典构建及应用[J]. 王文远,王大玲,冯时,李任斐,王琳. 计算机与数字工程. 2012(11)
[3]基于主题情感混合模型的无监督文本情感分析[J]. 孙艳,周学广,付伟. 北京大学学报(自然科学版). 2013(01)
本文编号:3562041
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3562041.html