当前位置:主页 > 管理论文 > 移动网络论文 >

基于词共现模型的微博热点话题发现方法研究

发布时间:2021-08-19 21:30
  当今社会是一个网络化的时代,互联网的存在对社会的影响是空前的。随着互联网的迅猛发展,通过互联网传播的信息更是爆炸式的增长,数据信息量也在疯狂增长。微博作为一种新兴的网络信息载体,逐渐成为公众获取各方面信息和发布信息的重要渠道。自国内微博平台诞生以来,很多热点话题首先由微博平台爆出,进而被传统媒体关注,进一步成为社会热点话题。也有不法分子利用微博平台进行谣言的散播,破坏社会稳定,因此针对中文微博热点话题的发现对于热点话题的及时发现和舆论正确的导向都具有极其重要的意义。微博作为新兴的一种网络信息载体,具有内容简短(限制在140字以内)、语法结构不规范等特点,因此针对中文微博信息的数据挖掘方法研究成为国内研究中文信息挖掘领域的重要方向之一。本文通过引入了词共现模型,来重点解决微博内容简短的问题;对传统的词共现模型进行改进,提高了系统发现微博热点话题的性能;随后引入中文知识库“知网”,并与词共现模型结合起来,通过引入语义信息提高了系统发现微博热点话题的性能;针对系统处理微博数据量巨大的问题,在分析了Hadoop分布式计算平台的基础上,分别将传统的特征项提取算法TF-IDF和词共现算法进行了改进... 

【文章来源】:中国地质大学(北京)北京市 211工程院校 教育部直属院校

【文章页数】:69 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 引言
    1.2 研究背景及意义
    1.3 国内外研究现状
        1.3.1 基于语义方法的研究
        1.3.2 基于统计学方法的研究
    1.4 论文组织及结构
        1.4.1 论文主要研究内容
        1.4.2 论文结构安排
第2章 微博话题发现相关理论研究
    2.1 中文微博功能与特点
        2.1.1 微博功能
        2.1.2 微博传播特点
    2.2 文本聚类
        2.2.1 聚类算法的分类
        2.2.2 文本聚类算法
    2.3 文本预处理
        2.3.1 文本分词
        2.3.2 文本特征表示
        2.3.3 文本特征提取
    2.4“知网(Hownet)”
        2.4.1“知网”基础概念
        2.4.2 义原相似度计算
        2.4.3 概念相似度计算
        2.4.4 词语相似度计算
    2.5 本章小结
第3章 词共现方法发现微博热点话题
    3.1 词共现模型
    3.2 词共现图模型
    3.3 改进的词共现方法
    3.4 结合“知网”的词共现算法
    3.5 本章小结
第4章 系统的设计与实现
    4.1 系统整体框架
    4.2 数据收集模块
    4.3 数据预处理模块
    4.4 热点话题发现模块
    4.5 话题展示模块
    4.6 本章小结
第5章 基于Hadoop平台算法的实现
    5.1 Hadoop简介
        5.1.1 HDFS
        5.1.2 MapReduce
        5.1.3 Hadoop整体架构
    5.2 MapReduce编程基本原理
    5.3 TF-IDF的Hadoop实现
        5.3.1 TF-IDF算法简介
        5.3.2 改进适用微博的TF-IDF算法
        5.3.3 Hadoop平台算法的实现
    5.4 词共现模型的Hadoop实现
    5.5 本章小结
第6章 实验及结果分析
    6.1 实验环境
    6.2 实验效果评价指标
    6.3 实验结果与分析
        6.3.1 传统词共现算法阈值确定
        6.3.2 词共现方法与K-Means算法比较
        6.3.3 传统词共现方法与结合“知网”词共现算法比较
        6.3.4 传统词共现方法与改进词共现算法比较
        6.3.5 传统词共现方法与Hadoop平台算法运行速度比较
    6.4 本章小结
第7章 总结与展望
    7.1 本文工作总结
    7.2 未来工作展望
致谢
参考文献
附录


【参考文献】:
期刊论文
[1]基于隐含语义分析的微博话题发现方法[J]. 马雯雯,魏文晗,邓一贵.  计算机工程与应用. 2014(01)
[2]MB-SinglePass:基于组合相似度的微博话题检测[J]. 周刚,邹鸿程,熊小兵,黄永忠.  计算机科学. 2012(10)
[3]微博意见领袖对网络舆论的影响[J]. 张萌,余芬芬.  新闻世界. 2012(07)
[4]基于隐主题分析和文本聚类的微博客中新闻话题的发现[J]. 路荣,项亮,刘明荣,杨青.  模式识别与人工智能. 2012(03)
[5]一种中文微博新闻话题检测的方法[J]. 郑斐然,苗夺谦,张志飞,高灿.  计算机科学. 2012(01)
[6]一种基于名词的微博语义计算方法[J]. 时睿,封化民.  北京电子科技学院学报. 2011(04)
[7]基于MB-LDA模型的微博主题挖掘[J]. 张晨逸,孙建伶,丁轶群.  计算机研究与发展. 2011(10)
[8]微博在我国的传播现状及传播特征分析[J]. 殷俊,何芳.  河南大学学报(社会科学版). 2011(03)
[9]微博的历史、现状与发展趋势[J]. 谢耘耕,徐颖.  现代传播(中国传媒大学学报). 2011(04)
[10]云端的小飞象—Hadoop[J]. 孙牧.  程序员. 2008(10)

博士论文
[1]多文档自动文摘关键技术研究[D]. 徐永东.哈尔滨工业大学 2007

硕士论文
[1]基于话题识别的中文邮件管理技术研究[D]. 张霞.北京邮电大学 2008



本文编号:3352178

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3352178.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e9e29***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com