融入公众情感投入的微博话题快速发现及影响力度量方法
发布时间:2017-08-03 21:31
本文关键词:融入公众情感投入的微博话题快速发现及影响力度量方法
更多相关文章: 微博 话题发现 情感词 情感密集期 影响力评估
【摘要】:随着移动社交网络的快速发展,以微博为代表的短文本信息大量涌现,并以几何方式保持增长,具有非结构化、海量性、实时性、自媒体性等特点。聚集大量涉及公众日常生活有价值的信息,称之为话题。微博文本在移动互联网时代正慢慢承担着短信、博客、即时通讯等功能,不同于传统新闻,不受标题、关键字等固定格式拘束,同时大量短文本信息的同时涌入也为话题信息的抓取、提炼过程带来挑战。微博作为一种移动社交工具,话题信息新颖性、影响力的需求越来越受到公众关注,在恰当的时间、地点发现最有价值的话题也逐渐成为保持用户活跃度的重要手段,而传统话题发现方法不能满足相关话题的发现质量需求。因此,如何解决海量数据环境下的微博话题发现效率以及发现质量问题,从而更好地挖掘分析移动环境下的网络信息,已成为新的研究热点。 基于以上问题,本文提出了一种融入公众情感投入的微博话题快速发现及影响力度量方法,主要研究内容包括以下几个方面: 第一,针对海量的微博文本,本文提出了一种融入公众情感投入的微博话题快速发现方法。主要由情感词库构建、情感密集期检测、微博话题发现三部分组成。第一部分,基于大规模微博语料库和三大著名情感词集,采用TFDF值以及双字Hash索引表实现具体情感词库的构建;第二部分,基于Sigmoid函数挖掘情感密集期,抽取相应情感文本;第三部分,基于改进的模糊聚类算法,在约简后的文本集中,建立名词性实体表,不断迭代优化目标函数。该方法以情感词为基础,在微博话题发现中融入公众情感,可以有效约简微博文本集,大幅提升信息处理效率,发现高质量话题。 第二,本文根据情感词与文本数的依存关系提出了情感密集期的概念。情感密集期挖掘算法综合考虑了微博的传播特性,融入微博转发、评论等影响因素,采用了Sigmoid函数抑制高频次商业微博对话题发现的影响,可以有效挖掘公众情感投入的密集期,提升话题发现质量与效率。 第三,随着移动互联网的高速发展,人们越来越离不开社交网络。为解决用户节点在社交网络中的差异化影响问题,本文提出了一种融入公众情感投入的用户节点影响力度量方法。研究新兴网络结构下的微博用户影响力评估方法,避免用户话题兴趣差异造成的影响。主要从用户的真实情感表达出发,以情感词为基础定义了用户的话题情感浓度值,衡量用户对话题的兴趣,提升影响力评估精度。
【关键词】:微博 话题发现 情感词 情感密集期 影响力评估
【学位授予单位】:浙江工商大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;TP393.092
【目录】:
- 摘要2-4
- ABSTRACT4-7
- 目录7-9
- 第1章 绪论9-17
- 1.1 研究背景与意义9-10
- 1.2 国内外研究现状10-14
- 1.2.1 传统话题研究11-12
- 1.2.2 微博话题研究12
- 1.2.3 微博话题影响力传播12-13
- 1.2.4 现状总结13-14
- 1.3 本文研究内容及组织架构14-17
- 第2章 相关介绍及理论研究17-33
- 2.1 微博相关概述17-18
- 2.2 微博挖掘技术18-23
- 2.2.1 微博挖掘表征模型18-20
- 2.2.2 微博数据模型及常用聚类算法研究20-23
- 2.3 微博话题发现技术23-33
- 2.3.1 微博话题特点分析23-24
- 2.3.2 微博话题检测相关技术24-27
- 2.3.3 微博话题发现技术27-30
- 2.3.4 微博用户影响力评估技术30-33
- 第3章 融入公众情感投入的微博话题快速发现方法33-55
- 3.1 融入公众情感投入的微博话题快速发现模型33-35
- 3.1.1 基础定义33-34
- 3.1.2 模型架构34-35
- 3.2 基于情感词的公众情感投入衡量35-40
- 3.2.1 情感词库构建35-37
- 3.2.2 情感词库索引37
- 3.2.3 情感密集期检测37-40
- 3.3 改进的微博话题发现算法40-42
- 3.3.1 模糊聚类算法40-41
- 3.3.2 改进的微博话题发现算法41-42
- 3.4 实验结果及分析42-53
- 3.4.1 实验环境及数据采集43
- 3.4.2 数据清洗43-48
- 3.4.3 实验数据分析48-50
- 3.4.4 实验结果分析50-53
- 3.5 本章小结53-55
- 第4章 融入公众情感投入的微博用户影响力度量方法55-67
- 4.1 微博影响力传播模式55-58
- 4.1.1 微博影响力传播模型55-58
- 4.1.2 微博用户行为分析58
- 4.2 融入公众情感投入的微博用户影响力度量方法58-61
- 4.2.1 相关问题58-59
- 4.2.2 融入话题情感浓度的微博影响力度量方法59-61
- 4.3 实验结果及分析61-64
- 4.3.1 实验数据分析61-62
- 4.3.2 影响力评估结果及分析62-64
- 4.4 本章小结64-67
- 第5章 总结与展望67-69
- 5.1 总结67-68
- 5.2 展望68-69
- 参考文献69-75
- 附录1 攻读硕士学位期间学术成果75
- 附录2 攻读硕士学位期间参与的项目75-76
- 致谢76-77
【参考文献】
中国期刊全文数据库 前10条
1 刘志明;刘鲁;;微博网络舆情中的意见领袖识别及分析[J];系统工程;2011年06期
2 张晨逸;孙建伶;丁轶群;;基于MB-LDA模型的微博主题挖掘[J];计算机研究与发展;2011年10期
3 樊鹏翼;王晖;姜志宏;李沛;;微博网络测量研究[J];计算机研究与发展;2012年04期
4 齐淼;张化祥;;改进的模糊C-均值聚类算法研究[J];计算机工程与应用;2009年20期
5 李稚楹;杨武;谢治军;;PageRank算法研究综述[J];计算机科学;2011年S1期
6 施聪莺;徐朝军;杨晓江;;TFIDF算法研究综述[J];计算机应用;2009年S1期
7 张晓艳;王挺;;话题发现与追踪技术研究[J];计算机科学与探索;2009年04期
8 李庆虎,陈玉健,孙家广;一种中文分词词典新机制——双字哈希机制[J];中文信息学报;2003年04期
9 骆卫华;于满泉;许洪波;王斌;程学旗;;基于多策略优化的分治多层聚类算法的话题发现研究[J];中文信息学报;2006年01期
10 孙宏纲;陆余良;刘金红;龚笔宏;;基于HowNet的VSM模型扩展在文本分类中的应用研究[J];中文信息学报;2007年06期
,本文编号:616457
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/616457.html