基于k-means算法在微博数据挖掘中的应用
本文关键词:基于k-means算法在微博数据挖掘中的应用
更多相关文章: 微博 数据挖掘 用户兴趣 k-means算法 PSO-kmeans算法
【摘要】:二十一世纪的今天,微博已经成为人们生活中不可以缺少的一部分,而且并以飞速的方式迅猛发展,其作为一种新型的可关注分享信息的社交媒体,具有发布快、形式多样、内容量少等特点正好迎合了用户对信息的实时、准确以及多样性的需求,因此广大用户对微博非常喜爱,主要由于用户可以通过微博在任何时间、地点分享或关注自己喜爱的事物。微博用户在使用微博时,根据其自己不同的兴趣爱好、生活习惯会选择关注不同的好友和浏览不同信息。因此,可以根据微博用户的兴趣爱好就可以了解其喜好与关注的信息。不同的微博用户有不同的喜好,如“物以类聚,人以群分”,故对于具有相同爱好的用户可为微博的推广营销以及好友推荐等提供新的切入点与研究思路。微博的数据量非常庞大,如何快速有效的从中挖掘出自己想要的数据信息显得非常重要。数据挖掘的方法可以在庞大的数据中挖掘出有价值的数据信息,该方法中所应用到的数学算法已经非常成熟,并在很多行业得到应用,如电信、金融以及网站等,然而在微博用户兴趣群发现上还存在很多问题需要解决。本文应用数学分析和挖掘的方法对微博数据进行处理,探索出微博用户的兴趣、爱好以及习惯,并通过该方法希望可以将数据挖掘的方法应用到微博挖掘的研究中,为微博数据的分析提供新的研究思路与借鉴途径。本文选取新浪微博为研究对象,对微博用户的兴趣群进行数据挖掘聚类分析。该过程中首先需要将微博数据进行可视化处理,这样可以清楚微博数据的分布特性,从而可以对微博数据进行预处理。由于本文所用新浪微博的数据量非常庞大,而且该数据中多数是不低于三维的数据,从而对微博进行直观评价显得较为复杂。本文采用k-means算法对新浪微博数据进行挖掘聚类分析,然而由于传统k-means算法对新浪数据进行挖掘聚类分析容易受初始聚类中心点的影响和对数据进行迭代求解过程中容易陷入局部最优。针对传统的k-means算法存在上述的缺陷,本文在k-means算法中引入粒子群(PSO)算法,改进后的PSO-kmeans算法由于PSO算法的引入使得该算法的变得较为简单,参数设置也变得较少,可以加速算法收敛速度,从而可以有效的解决粒子受初始聚类中心点的影响和跳出局部最优的束缚,提高聚类效果。最后,本文应用三种不同的度量指数对微博数据挖掘聚类分析的结果进行评价,评价的指数显示改进的PSO-kmeans算法的聚类结果比传统的k-means算法聚类结果更优异。
【关键词】:微博 数据挖掘 用户兴趣 k-means算法 PSO-kmeans算法
【学位授予单位】:天津工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 学位论文主要创新点3-4
- 摘要4-5
- Abstract5-9
- 第一章 绪论9-25
- 1.1 课题的研究背景及意义9-10
- 1.1.1 课题的研究背景9
- 1.1.2 课题的研究意义9-10
- 1.2 数据挖掘10-15
- 1.3 国内外相关研究现状15-23
- 1.3.1 微博特征研究现状15-16
- 1.3.2 聚类算法研究现状16-19
- 1.3.3 k-means算法研究现状19-23
- 1.4 本课题研究的内容23-25
- 第二章 数据挖掘技术基本理论25-35
- 2.1 数据挖掘技术25-26
- 2.1.1 数据挖掘的背景和概念25
- 2.1.2 数据挖掘过程25-26
- 2.2 数据挖掘的方法26-27
- 2.3 聚类分析27-32
- 2.3.1 聚类分析的概念27-28
- 2.3.2 不同的聚类类型28-29
- 2.3.3 主要的聚类算法29-32
- 2.4 聚类评价的比较32-33
- 2.4.1 聚类过程评价32-33
- 2.4.2 聚类结果评价33
- 2.5 本章小结33-35
- 第三章 微博用户兴趣群体分类模型构建与实现35-53
- 3.1 微博相关知识35-37
- 3.1.1 微博的定义35-36
- 3.1.2 微博用户特点36-37
- 3.2 微博用户兴趣群发现与分类模型37-38
- 3.3 微博文本聚类关键技术38-50
- 3.3.1 分词38-40
- 3.3.2 停用词处理40-41
- 3.3.3 特征选择41-42
- 3.3.4 文本表示方法42-44
- 3.3.5 微博用户兴数据标注化44-50
- 3.4 基于数据挖掘的微博用户兴趣发现的实现50-52
- 3.4.1 样本数据特点与聚类算法选择50-52
- 3.4.2 SPSS实现过程52
- 3.5 本章小结52-53
- 第四章 基于粒子群的k-means聚类算法及应用53-75
- 4.1 聚类算法基本概念53
- 4.2 相关工作分析53-55
- 4.3 K-means算法55-57
- 4.3.1 算法思想55-57
- 4.3.2 算法的特点57
- 4.4 粒子群优化算法57-59
- 4.4.1 算法的原理57-59
- 4.4.2 算法的流程59
- 4.5 基于改进粒子群优化的k-means算法59-67
- 4.5.1 粒子群编码方案及适应度评价60-61
- 4.5.2 粒子群算法的参数设置61-62
- 4.5.3 粒子群优化算法与k-means算法的转换时机62-63
- 4.5.4 粒子变异操作63-64
- 4.5.5 改进算法的过程描述64-67
- 4.6 实验67-73
- 4.6.1 实验数据的采集67-68
- 4.6.2 算法流程68
- 4.6.3 实验数据预处理68-70
- 4.6.4 实验结果分析70-73
- 4.7 聚类挖掘结果比较73
- 4.8 本章小结73-75
- 第五章 结论与展望75-77
- 5.1 课题工作总结75
- 5.2 展望75-77
- 参考文献77-83
- 发表论文和参加科研情况83-85
- 致谢85
【相似文献】
中国期刊全文数据库 前10条
1 香丽芸;浅谈数据挖掘及其应用[J];昌吉师专学报;2001年02期
2 郑雪燕,张杰明,岳洋;数据挖掘语言[J];计算机时代;2001年11期
3 刘明晶;数据挖掘[J];华南金融电脑;2001年04期
4 张伟;刘勇国;彭军;廖晓峰;吴中福;;数据挖掘发展研究[J];计算机科学;2001年07期
5 钟晓;马少平;张钹;俞瑞钊;;数据挖掘综述[J];模式识别与人工智能;2001年01期
6 朱建平,张润楚;数据挖掘的发展及其特点[J];统计与决策;2002年07期
7 傅岚;在数据海洋中打捞信息数据挖掘[J];科技广场;2002年11期
8 李峻;数据挖掘,企业洞察先机的“慧眼”[J];中国计算机用户;2002年48期
9 罗可,蔡碧野,卜胜贤,谢中科;数据挖掘及其发展研究[J];计算机工程与应用;2002年14期
10 ;2002数据挖掘研讨班[J];计算机工程;2002年06期
中国重要会议论文全文数据库 前10条
1 史东辉;蔡庆生;张春阳;;一种新的数据挖掘多策略方法研究[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
2 张弦;;数据挖掘在农业中的应用[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年
3 魏顺平;;教育数据挖掘:现状与趋势[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
4 关清平;沉培辉;;概率网络在数据挖掘上的应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
5 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年
6 聂茹;田森平;;Web数据挖掘及其在电子商务中的应用[A];中南六省(区)自动化学会第24届学术年会会议论文集[C];2006年
7 李菊;王军;;数据挖掘在客户关系管理的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
8 肖阳;李启贤;;数据挖掘在中国钢铁行业中的应用[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年
9 杨磊;王贵成;汪勇;张占胜;;SQL Server 2005在数据挖掘中的应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
10 谢中;邱玉辉;;面向商务网站有效性的数据挖掘方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
中国重要报纸全文数据库 前10条
1 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年
2 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
3 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
4 《网络世界》记者 王莹;数据挖掘保险业的新蓝海[N];网络世界;2012年
5 刘俊丽;基于地理化的网络数据挖掘与分析提升投资有效性[N];人民邮电;2014年
6 本报记者 连晓东;数据挖掘:金融信息化新热点[N];中国电子报;2002年
7 本报记者 凤小华 朱仁康;“数字挖掘软件”引领中国信息化新浪潮[N];中国电子报;2003年
8 本报记者 史延廷;“成功企业数据挖掘暨数量化管理论坛”在京举办[N];中国旅游报;2002年
9 朱小宁;数据挖掘:信息化战争的基础工程[N];解放军报;2005年
10 本报记者 王小平;从“大集中”走向数据挖掘[N];金融时报;2002年
中国博士学位论文全文数据库 前10条
1 于自强;海量流数据挖掘相关问题研究[D];山东大学;2015年
2 张馨;全基因组SNP芯片应用于CNV和L0H分析的软件比对与数据挖掘[D];复旦大学;2011年
3 彭计红;基于数据挖掘的痴呆中医证的研究[D];南京中医药大学;2015年
4 李秋虹;基于MapReduce的大规模数据挖掘技术研究[D];复旦大学;2013年
5 邬文帅;基于多目标决策的数据挖掘方法评估与应用[D];电子科技大学;2015年
6 谢邦彦;整合数据挖掘与TRIZ理论的质量管理方法研究[D];首都经济贸易大学;2010年
7 何伟全;云南高校学生意外伤害因素关联规则挖掘及风险管控体系研究[D];昆明理工大学;2015年
8 段功豪;基于多结构数据挖掘的滑坡灾害预测模型研究[D];中国地质大学;2016年
9 白晓明;基于数据挖掘的复合材料宏—细观力学模型研究[D];哈尔滨工业大学;2016年
10 蓝永豪(LAM Wing Ho);基于数据挖掘技术分析当代中医名家痤疮验方经验研究[D];南京中医药大学;2016年
中国硕士学位论文全文数据库 前10条
1 林仁红;基于数据挖掘的机遇识别与评价研究[D];首都经济贸易大学;2007年
2 张彦俊;游戏运营中的数据挖掘[D];复旦大学;2011年
3 焦亚召;基于多核函数FCM算法在数据挖掘聚类中的应用研究[D];昆明理工大学;2015年
4 王杰锋;物联网能耗数据智能分析及其应用平台设计[D];江南大学;2015年
5 刘学建;数据挖掘在电子商务推荐系统中的应用研究[D];昆明理工大学;2015年
6 戴阳阳;基于数据挖掘的金融时间序列预测研究与应用[D];江南大学;2015年
7 石思优;基于主题模型的医疗数据挖掘研究[D];广东技术师范学院;2015年
8 陈丹;移动互联网信令挖掘实现智慧营销的设计与实现应用研究[D];华南理工大学;2015年
9 陈思;基于数据挖掘的大学生客户识别模型的研究[D];昆明理工大学;2015年
10 位长帅;基于客户数据挖掘的电信客户关系管理研究[D];西南交通大学;2015年
,本文编号:546977
本文链接:https://www.wllwen.com/guanlilunwen/yingxiaoguanlilunwen/546977.html