当前位置:主页 > 管理论文 > 信息管理论文 >

新浪微博客户的数据聚类分类研究

发布时间:2017-07-30 18:04

  本文关键词:新浪微博客户的数据聚类分类研究


  更多相关文章: 新浪微博 客户的数据 聚类 分类研究


【摘要】:随着互联网技术的不断发展,越来越的多互联网产品进入人们的生活,微博便是近年来,在全世界范围内蓬勃发展。风靡全球的微博客凭其140内的文字,时时刻刻在向世界传达着各种信息。目前,在中国,微博已俨然成为了新的新闻发布渠道,消息中心,社交网络中心,以及娱乐中心。 在我国,新浪微博独领风骚,在微博运营领域独占鳌头。然而微博的用户也独具特点,他们大多善于接触新鲜事物,是互联网的资深用户。在微博运营越来越商业化的同时,,如何抓住用户,如何营销才是用户不会反感成为了目前紧要的问题。本论文立足于新浪微博运营商的角度出发,探索微博用户的挖掘,对客户进行分类,以促进新浪微博运营商实施新的营销策略。 本文分为了理论部分与实证两个主要部分分别为理论部分和实证部分。理论部分主要介绍了在文章用到的理论知识,首先是对数据挖掘的理解,对微博使用者的分析,与从商业角度进行的客户分类。接着,本文介绍了文章的主体模型,也就是CRISP-DM模型,这个模型贯穿在整个数据挖掘实证的过程中,再次,介绍了数据预处理与数据清洗,以及数据挖掘算法。在实证部分,本文使用了SPSS CLEMENTIN12.0软件进行实证分析。SPSS CLEMENTIN是一款以数据流为中心的数据挖掘软件。在这个部分首先进行聚类挖掘接着进行分类挖掘,这样做的目的是,通过对客户进行聚类,找出微博用户的大致类别,从而应用到分类挖掘里。 纵览全文,本论文围绕新浪微博用户的挖掘分类而展开,通过实证对比分析不同类别新浪微博用户的特征,并在最后做出总结和展望。
【关键词】:新浪微博 客户的数据 聚类 分类研究
【学位授予单位】:首都经济贸易大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:F49;F224;TP311.13
【目录】:
  • 摘要4-5
  • Abstract5-9
  • 第一章 绪论9-12
  • 1.1 研究背景和意义9-10
  • 1.1.1 研究背景9-10
  • 1.1.2 研究意义10
  • 1.2 研究内容和目标10-11
  • 1.2.1 研究内容10
  • 1.2.2 研究目标10-11
  • 1.3 国内外研究现状11
  • 1.4 文章结构11-12
  • 第二章 数据挖掘与分类标准12-19
  • 2.1 数据挖掘概述12-14
  • 2.1.1 概念12
  • 2.1.2 功能12-13
  • 2.1.3 数据挖掘项目实施步骤13-14
  • 2.1.4 应用与发展趋势14
  • 2.2 微博用户分类标准14-15
  • 2.2.1 微博用户群分析14-15
  • 2.3 客户细分理论15-18
  • 2.3.1 微博营销15-16
  • 2.3.2 客户细分定义16-17
  • 2.3.3 客户细分的意义17
  • 2.3.4 客户细分方法17-18
  • 2.4 客户细分理论下微博用户分类18-19
  • 第三章 CRISP DM 模型与数据 ETL19-27
  • 3.1 CRISP DM 模型19-21
  • 3.1.1 数据挖掘过程模型19
  • 3.1.2 Fayyad 与 SEMMA 模型19-21
  • 3.2 CRISP DM 模型21-23
  • 3.2.1 CRISP DM 生命周期22-23
  • 3.3 数据获取23-24
  • 3.4 数据验证24-25
  • 3.5 数据 ETL25
  • 3.6 数据清洗功能25-27
  • 第四章 对新浪微博用户的分类挖掘27-34
  • 4.1 聚类算法27-29
  • 4.1.1 K means 算法28-29
  • 4.2 决策树算法29-34
  • 4.2.1 决策树算法原理30
  • 4.2.2 ID3 算法30-32
  • 4.2.2.1 信息熵定义30-31
  • 4.2.2.2 ID3 算法31-32
  • 4.2.2.3 ID 算法优缺点分析32
  • 4.2.3 CART 算法32-34
  • 4.2.3.1 CART 算法定义32-33
  • 4.2.3.2 Gini 指标33
  • 4.2.3.3 CART 算法结构33-34
  • 第五章 挖掘实证分析34-51
  • 5.1 聚类挖掘实证分析34-51
  • 5.1.1 微博聚类挖掘业务理解35
  • 5.1.2 微博用户数据理解与数据准备35-37
  • 5.1.3 建立聚类挖掘模型37-42
  • 5.1.3.1 建立 k means 模型37-39
  • 5.1.3.2 建立多层聚类模型39-41
  • 5.1.3.3 评估与部署41-42
  • 5.1.4 决策树实证分析42-51
  • 5.1.4.1 以下是使用 ID3 算法也 CART 算法建模的实证过程分析42
  • 5.1.4.2 建立 ID3 挖掘模型42-47
  • 5.1.4.3 建立 CART 挖掘模型47-51
  • 第六章 总结和展望51-53
  • 6.1 本文内容总结51-52
  • 6.2 本文的创新之处52
  • 6.3 本文的不足与展望52-53
  • 参考文献53-55
  • 致谢55-56
  • 攻读硕士学位期间发表的论文56-57

【参考文献】

中国期刊全文数据库 前6条

1 许卓;;微博客的传播优势及发展前景探析[J];今传媒;2010年01期

2 吕巍,蒋波,陈洁;基于K-means算法的中国移动市场顾客行为细分策略研究[J];管理学报;2005年01期

3 张宁,贾自艳,史忠植;数据仓库中ETL技术的研究[J];计算机工程与应用;2002年24期

4 王永恒;贾焰;杨树强;;大规模文本数据库中的短文分类方法[J];计算机工程与应用;2006年22期

5 王克龙,王玲,王平立,宋斌;数据仓库中ETL技术的探讨与实践[J];计算机应用与软件;2005年11期

6 崔争艳;;基于语义的微博短信息分类[J];现代计算机(专业版);2010年08期



本文编号:595456

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/sjfx/595456.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c6ef2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com