当前位置:主页 > 管理论文 > 移动网络论文 >

微博分析系统的设计与实现

发布时间:2017-07-29 20:28

  本文关键词:微博分析系统的设计与实现


  更多相关文章: 微博分析 文本分类 微博位置推断 条件随机场


【摘要】:随着近几年互联网产业的发展,社交网络与人类的生活正在变得越来越密不可分。微博作为社交网络的典型代表,正在受到越来越广泛的关注。微博上的数据越来越丰富,其信息可以涵盖科技、人文、政治等诸多领域。面对这样的海量数据,用户却越来越难以找到需要的信息。 微博分析的主要目的就是对海量的微博数据进行筛选和归纳,帮助用户尽快找到需要的信息。本课题就是实现了这样一个微博分析系统。本系统从机构内部的群体用户信息着手,分析用户特征。 本课题对系统的整体框架进行了设计,将系统分成数据获取、数据存储、数据分析几个主要模块,尽可能提升系统的稳定性与可扩展性。系统基于Hadoop平台设计,提高了对于大数据的处理能力。在数据获取模块,我们结合网页爬虫和微博API实现了一个功能健全的微博爬虫,完成了数据存储、更新等功能。在数据存储模块,我们对数据库表进行了设计,以实现系统运行效率与存储空间之间的平衡。 数据分析模块,本课题从群体、社团内部、用户个人交往圈三个层次着手,进行了用户交往圈、文本、LBS(基于位置的服务)等领域,多个模块的分析,主要功能点包括社团发现、影响力计算、热点话题、关键词提取、微博位置推断等。 其中,微博位置推断模块是本文的研究重点。这部分主要是为了解决微博上位置信息过少的问题,从而为LBS其他方面的研究,例如基于微博位置的推荐等内容奠定基础。在这方面,本课题利用词语的空间、时间分布,优化了地区性词语抽取的效果,同时,通过对用户行为和用户关系的关注,大大改善了位置推断的效果。同时,为了更好的解决微博位置类型标注问题,我们还研究了微博文本分类算法,并且取得了良好效果。
【关键词】:微博分析 文本分类 微博位置推断 条件随机场
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 绪论9-18
  • 1.1 课题背景与意义9-10
  • 1.2 国内外研究现状10-17
  • 1.2.1 微博分析系统10-15
  • 1.2.2 短文本分类技术15-16
  • 1.2.3 微博位置推断研究现状16-17
  • 1.3 本文的研究工作17
  • 1.4 论文组织形式17-18
  • 第二章 相关技术18-25
  • 2.1 新词发现18
  • 2.2 词向量技术18-20
  • 2.3 条件随机场20-22
  • 2.4 文本分类算法22-23
  • 2.5 Hadoop简介23-24
  • 2.6 本章小结24-25
  • 第三章 微博位置推断技术研究25-44
  • 3.1 微博用户地理位置推断25-38
  • 3.1.1 地区性词语的提取27-30
  • 3.1.2 单条微博位置推断30-31
  • 3.1.3 微博用户位置推断31-33
  • 3.1.4 实验结果与分析33-38
  • 3.2 微博位置类型推断38-43
  • 3.2.1 算法原理38-39
  • 3.2.2 算法流程39-40
  • 3.2.3 实验结果与分析40-43
  • 3.3 本章小结43-44
  • 第四章 基于Hadop的微博分析系统总体设计44-54
  • 4.1 系统概述44
  • 4.2 系统需求分析44-46
  • 4.3 系统概要设计46-53
  • 4.3.1 系统整体框架46-49
  • 4.3.2 数据库设计49-53
  • 4.4 本章小结53-54
  • 第五章 基于Hadoop的微博分析系统实现54-67
  • 5.1 系统详细设计与实现54-64
  • 5.1.1 数据获取层54-55
  • 5.1.2 数据分析层55-64
  • 5.2 系统实现与效果展示64-67
  • 5.2.1 部署环境说明64
  • 5.2.2 效果展示64-67
  • 第六章 总结与展望67-68
  • 参考文献68-71
  • 致谢71-72
  • 攻读硕士学位期间发表的论文72

【参考文献】

中国期刊全文数据库 前5条

1 闫瑞;曹先彬;李凯;;面向短文本的动态组合分类算法[J];电子学报;2009年05期

2 林小俊;张猛;暴筱;李军;吴玺宏;;基于概念网络的短文本分类方法[J];计算机工程;2010年21期

3 王细薇;樊兴华;赵军;;一种基于特征扩展的中文短文本分类方法[J];计算机应用;2009年03期

4 张志飞;苗夺谦;高灿;;基于LDA主题模型的短文本分类方法[J];计算机应用;2013年06期

5 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期



本文编号:590983

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/590983.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a6dfc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com