当前位置:主页 > 管理论文 > 移动网络论文 >

面向机构的微博挖掘系统

发布时间:2021-07-08 07:18
  微博客是一种基于WEB2.0的新型的信息发布和获取平台,它具有短小、便捷、灵活等特点。自2006年诞生以来,微博在短时间内就积聚了大最用户,并迅速影响和改变着人们获取和发布信息的习惯。本文设计了一种在微博平台上面分析获取与某一目标机构有关的数据发掘系统,试图在微博平台提供的海量数据中发掘出与某一特定机构相关的评论、事件等等相关内容,并同时通过发掘微博中的社交网络关系和微博内容来发掘与目标机构相关的用户群。本系统在数据上依托于微博平台提供的开放API接口,实时通过检索接口和关注目标机构的官方账户等方式获取初始数据,终过对数据进行垃圾过滤后,系统结合微博的文本内容和和微博发布者的社交关系来评价微博的相关性,并采用动态聚类的方法从微博中发现相关话题。在发掘与目标机构相关话题的过程中,系统将通过不断的更新分类器训练语料,动态的发掘当前机构的相关关键字集合。此外,系统定义了用户相关度的概念,综合考虑一个用户在社交网络上和文本语义上的相关性,并通过该指标发掘在社交关系上较为相关或发布相关微博较为活跃的用户。此外,系统还将通过基于社区发现的方法从与官方账户相关的社交网络中发掘出整体上与目标机构相关的... 

【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校

【文章页数】:58 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 研究的背景
    1.2 国内和国外研究现状
    1.3 论文的结构
第2章 系统总休设计
    2.1 微博基本功能简介
    2.2 系统框架概述
    2.3 系统设计所需条件
第3章 相关内容挖掘
    3.1 爬虫模块
        3.1.1 调用微博检索接口
        3.1.2 官方账户及相关用户微博爬取
        3.1.3 爬虫模块的工作流程
    3.2 分类器
        3.2.1 传统基于向量空间模型的建模
        3.2.2 引入时间因子的改进建模方法
        3.2.3 分类器设计
    3.3 话题聚类
        3.3.1 K-means聚类算法简介
        3.3.2 基于时间窗过滤的动态增量聚类
第4章 相关用户获取
    4.1 模块任务说明
    4.2 用户关系数据集
        4.2.1 用户关系爬虫
        4.2.2 徽博接口的访问限制问题
        4.2.3 用相关系数据概况
    4.3 用户与目标机构的相关度
        4.3.1 用户相似度的设计
        4.3.2 语义内容相关度的计算
        4.3.3 社交网络相关度的计算
    4.4 基于社区发现的方法发掘相关用户
        4.4.1 相关社区挖掘算法介绍
        4.4.2 与目标机构相关社交网络的社区挖掘
        4.4.3 通过社区发现发掘相关用户的缺陷
第5章 系统的整合和实现
    5.1 系统整合仟务概述
        5.1.1 系统各模块数据的存储和协调
        5.1.2 系统各模块的运行周期
    5.2 系统前台搭建
第6章 总结和展望
参考文献
致谢
攻读学位期间发表的学术论文目录



本文编号:3271122

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3271122.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户82c2d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com