基于微博的用户饮食特色及表达习惯分析
发布时间:2017-06-01 13:14
本文关键词:基于微博的用户饮食特色及表达习惯分析,由笔耕文化传播整理发布。
【摘要】:随着互联网的快速发展,社会媒体越来越被广泛使用,成为人们生活方式的一部分。通过社会媒体积累的数据也因而正经历着爆发性的增长。通过挖掘社会媒体文本获得信息,相比于社会学研究中传统的问卷调查方式,有着更真实、数据量大、费用低等优点,因而越来越被广泛使用。但在社会媒体文本挖掘中,传统的基于词表的方法存在准确率低的问题。针对此问题,本文提出了基于依存句法分析的方法和基于机器学习的方法,除了分词信息,还应用词性标注、句法分析等自然语言处理信息,并在饮食行为识别上进行了实验。实验证明了基于依存句法分析的方法在准确率上相比基于词表的方法有大幅提升;基于机器学习的方法则相比另两种方法准确率都高,虽然召回率要低于基于词表方法,但仍然是综合表现最佳的模型。用基于机器学习的模型,可以从大规模微博语料中识别出饮食行为,并与原微博属性对应起来。然后从性别、地区、时间三个维度对微博用户的饮食习惯特色进行分析和交叉分析,用词云的形式可视化地展现了结果。此外,还进行了针对某一食品在地区、时间的热度分布的统计,也能从一定程度描述饮食习惯特色。此外,还探索了如何分析不同用户群体的饮食表达特色。最终得到了描述不同群体饮食表达特色的几个维度,并用词云展示了关于饮食表达特色的分析结果。
【关键词】:文本挖掘 社会媒体 饮食习惯特色分析 饮食表达特色分析
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;TP393.092
【目录】:
- 摘要4-5
- ABSTRACT5-9
- 第1章 绪论9-16
- 1.1 课题背景和意义9-11
- 1.1.1 课题背景9-10
- 1.1.2 研究的目的和意义10-11
- 1.2 国内外相关研究11-13
- 1.2.1 基于词表的社会媒体文本挖掘12
- 1.2.2 利用社会媒体文本挖掘社会信息12
- 1.2.3 语言表达特色分析12-13
- 1.2.4 国内外文献综述的简析13
- 1.3 本文研究内容13-15
- 1.3.1 基于依存句法分析的饮食行为识别13-14
- 1.3.2 基于机器学习的饮食行为识别14
- 1.3.3 微博用户饮食习惯特色分析14
- 1.3.4 微博用户饮食表达特色分析14
- 1.3.5 研究内容总结14-15
- 1.4 本章小结15-16
- 第2章 基于依存句法分析的饮食行为识别16-28
- 2.1 引言16
- 2.2 食品词表构建16-20
- 2.2.1 基于百科的词表初步构建16-17
- 2.2.2 词表优化17-20
- 2.3 基于依存句法分析的饮食行为识别20-22
- 2.3.1 依存句法分析20
- 2.3.2 识别规则20-22
- 2.3.3 实现方法22
- 2.4 对比实验22-27
- 2.4.1 语料构建及标注22-25
- 2.4.2 评价标准25
- 2.4.3 实验结果及分析25-27
- 2.5 本章小结27-28
- 第3章 基于机器学习的饮食行为识别28-34
- 3.1 引言28
- 3.2 CRF模型简介28-29
- 3.3 特征选择29-31
- 3.4 实验结果及分析31-33
- 3.4.1 对比实验31
- 3.4.2 特征作用分析31-32
- 3.4.3 错误分析32-33
- 3.5 本章小结33-34
- 第4章 微博用户饮食习惯特色分析34-45
- 4.1 引言34
- 4.2 饮食习惯特色的含义34-35
- 4.3 饮食习惯特色挖掘35-37
- 4.3.1 数据集35-36
- 4.3.2 挖掘方法36
- 4.3.3 可视化36-37
- 4.4 分析结果展示37-44
- 4.4.1 性别维度下的结果37-38
- 4.4.2 地区维度下的结果38-39
- 4.4.3 时间维度下的结果39-40
- 4.4.4 交叉条件下的结果40-41
- 4.4.5 基于食品的分析结果41-44
- 4.4.6 其他分析结果44
- 4.5 本章小结44-45
- 第5章 微博用户饮食表达特色分析45-51
- 5.1 引言45
- 5.2 饮食表达特色的含义45
- 5.3 饮食表达特色的挖掘和结果展示45-50
- 5.3.1 动词父节点搭配特色46-48
- 5.3.2 形容词父节点搭配特色48-49
- 5.3.3 副词修饰父节点搭配特色49-50
- 5.5 本章小结50-51
- 结论51-52
- 参考文献52-55
- 附录1饮食习惯特色分析结果55-57
- 攻读学位期间发表的学术论文57-59
- 致谢59-60
【参考文献】
中国期刊全文数据库 前1条
1 刘挺;马金山;;汉语自动句法分析的理论与方法[J];当代语言学;2009年02期
中国硕士学位论文全文数据库 前1条
1 刘龙;音乐领域全局实体关系抽取研究[D];哈尔滨工业大学;2010年
本文关键词:基于微博的用户饮食特色及表达习惯分析,,由笔耕文化传播整理发布。
本文编号:412686
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/412686.html