当前位置:主页 > 科技论文 > 软件论文 >

基于数据挖掘在社交网络中热点话题的研究

发布时间:2017-09-25 16:31

  本文关键词:基于数据挖掘在社交网络中热点话题的研究


  更多相关文章: 社交网络 热点话题 朴素贝叶斯分类 单遍聚类


【摘要】:随着信息技术的高速发展以及互联网的普及,社交网络已经成为人们生活中不可或缺的一部分,作为一种新兴的社交平台,社交网络正在逐渐改变人们的交流习惯。在社交网络用户数与信息量不断扩大的同时,如何在海量信息中快速而准确地挖掘出用户关注的热点话题,已经成为当今一个热门的研究方向。热点话题发现是通过运用统计分析和数据挖掘等相关技术,利用社交网络中用户发表的言论对话题进行挖掘,最终向用户呈现如新浪微博展示的一个热门话题排行榜。与传统互联网媒体相比,当前社交网络消息文本具有高维性、稀疏性、主题分布不均匀性、网络用语不规范等特点,且信息量呈爆炸式增长,导致传统的话题发现技术直接应用在社交网络中在准确度与效率方面都存在巨大问题。本文通过分析比较各种算法的优缺点进而选用朴素贝叶斯分类算法与单遍聚类(Single-pass)算法作为话题发现的算法,并对算法进行深入的研究分析其存在的问题,分别对其进行改进。本文主要的研究工作有以下几个方面:(1)深入研究当前社交网络中消息文本的特点,详细阐述了话题发现的基本流程,分析并比较话题发现过程中的相关算法,设计并实现一种自动获取实验数据的方式。针对当前社交网络的特点分析目前话题发现技术存在的问题,进而提出一种先分类后聚类的方式挖掘热点话题。(2)针对当前社交网络特点,朴素贝叶斯分类算法进行分类时准确度与速度方面都存在问题,本文引入方差过滤对其进行改进,将改进后的朴素贝叶斯分类算法结合Hadoop平台形成并行的分类,从而达到提高分类的准确度与速度的目的。通过新浪API获取公开的数据集进行对比实验,验证改进算法的有效性。(3)提出基于块的单遍聚类(Single-pass)算法,该算法主要是通过分块的思想来降低传统单遍聚类(Single-pass)算法的时间复杂度,提高聚类的效率;通过新浪API获取公开的数据集进行对比实验,验证改进算法的优势,最后验证了先分类后聚类较直接聚类获取热点话题的优越性。
【关键词】:社交网络 热点话题 朴素贝叶斯分类 单遍聚类
【学位授予单位】:浙江理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 绪论9-16
  • 1.1 本文研究背景与意义9-10
  • 1.2 国内外研究现状10-13
  • 1.2.1 国外研究现状10-11
  • 1.2.2 国内研究现状11-13
  • 1.3 本文主要的研究内容13-14
  • 1.4 论文的组织结构14-16
  • 第二章 社交网络热点话题发现的相关技术介绍16-28
  • 2.1 社交网络特点16-18
  • 2.1.1 短文本和多样性16-17
  • 2.1.2 网状传播17-18
  • 2.2 社交网络数据采集18-19
  • 2.3 热点话题发现的相关技术19-27
  • 2.3.1 文本的获取与预处理20-21
  • 2.3.2 文本的模型构建21-23
  • 2.3.3 文本间相似度的计算23-24
  • 2.3.4 文本聚类算法24-25
  • 2.3.5 文本分类算法25-27
  • 2.4 本章小结27-28
  • 第三章 结合Hadoop平台和改进后的朴素贝叶斯分类算法28-44
  • 3.1 引言28
  • 3.2 Hadoop平台28-30
  • 3.2.1 MapReduce简介29
  • 3.2.2 MapReduce工作流程29-30
  • 3.3 朴素贝叶斯分类算法的改进方法30-36
  • 3.3.1 传统的朴素贝叶斯分类算法31-32
  • 3.3.2 改进的朴素贝叶斯分类算法32-36
  • 3.4 结合Hadoop平台与改进后的朴素贝叶斯分类算法36-38
  • 3.5 实验及结果分析38-42
  • 3.5.1 实验环境与数据集38-39
  • 3.5.2 实验过程与结果分析39-42
  • 3.6 本章小结42-44
  • 第四章 基于块的单遍聚类(Single-pass)算法44-57
  • 4.1 引言44
  • 4.2 传统的单遍聚类(Single-pass)算法44-46
  • 4.3 基于块的单遍聚类(Single-pass)算法46-51
  • 4.3.1 分块算法47-48
  • 4.3.2 块内Single-pass聚类48-49
  • 4.3.3 块的合并49-51
  • 4.3.4 基于块的单遍聚类(Single-pass)算法理论性能分析51
  • 4.4 实验及实验结果分析51-55
  • 4.4.1 实验环境与数据集52
  • 4.4.2 实验过程与结果分析52-55
  • 4.5 本章小结55-57
  • 第五章 总结与展望57-59
  • 5.1 全文工作总结57-58
  • 5.2 展望58-59
  • 参考文献59-63
  • 致谢63-64
  • 攻读学位期间的研究成果64

【相似文献】

中国期刊全文数据库 前10条

1 ;基于位置的手机社交网络“贝多”正式发布[J];中国新通信;2008年06期

2 曹增辉;;社交网络更偏向于用户工具[J];信息网络;2009年11期

3 ;美国:印刷企业青睐社交网络营销新方式[J];中国包装工业;2010年Z1期

4 李智惠;柳承烨;;韩国移动社交网络服务的类型分析与促进方案[J];现代传播(中国传媒大学学报);2010年08期

5 贾富;;改变一切的社交网络[J];互联网天地;2011年04期

6 谭拯;;社交网络:连接与发现[J];广东通信技术;2011年07期

7 陈一舟;;社交网络的发展趋势[J];传媒;2011年12期

8 殷乐;;全球社交网络新态势及文化影响[J];新闻与写作;2012年01期

9 许丽;;社交网络:孤独年代的集体狂欢[J];上海信息化;2012年09期

10 李玲丽;吴新年;;科研社交网络的发展现状及趋势分析[J];图书馆学研究;2013年01期

中国重要会议论文全文数据库 前10条

1 赵云龙;李艳兵;;社交网络用户的人格预测与关系强度研究[A];第七届(2012)中国管理学年会商务智能分会场论文集(选编)[C];2012年

2 宫广宇;李开军;;对社交网络中信息传播的分析和思考——以人人网为例[A];首届华中地区新闻与传播学科研究生学术论坛获奖论文[C];2010年

3 杨子鹏;乔丽娟;王梦思;杨雪迎;孟子冰;张禹;;社交网络与大学生焦虑缓解[A];心理学与创新能力提升——第十六届全国心理学学术会议论文集[C];2013年

4 毕雪梅;;体育虚拟社区中的体育社交网络解析[A];第九届全国体育科学大会论文摘要汇编(4)[C];2011年

5 杜p,

本文编号:918458


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/918458.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户72cad***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com