当前位置:主页 > 管理论文 > 移动网络论文 >

基于倒排索引的微博话题检测

发布时间:2021-06-27 10:05
  随着微博这种新兴的社交平台迅速发展,越来越多的用户使用,并且在上面发布事件信息,由于微博的传播速度非常迅速,对新闻传播的意义非常大,从微博数据中发现热点事件有着极大的需求。但是由于微博数据拥有规模大、噪声多、文本较短等特点,给话题检测与跟踪带来了巨大的挑战。本文在别人研究关于话题检测与跟踪的基础上,分析传统的话题检测与跟踪算法的缺点,提出一个基于倒排索引的方法来提高算法的处理速度,但不降低算法的精度。通过对微博数据分析,人工建立一些规则对微博数据进行噪声处理。然后对数据建立倒排索引,并进行话题检测与跟踪。对于每天获取的新的事件,根据事件的熵值和用户数量对事件进行排序,将列表前20的事件与之前的旧事件进行合并。在合并之前,利用基于衰老理论的方法来得到需要合并的旧事件集合。本文同时分析了AP聚类算法在微博数据集上的结果。为了验证算法效率的提升,本文通过在不同级别的数据集上对比传统的SINGLE-PASS算法和基于倒排索引的改进算法的处理时间,通过实验对比得知,基于倒排索引改进的算法能达到6-7倍的速度提升,性能远远高于传统的文本聚类算法。由于实验没有标准的语料集合,本文通过人工标注的方式获... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:62 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 课题研究的目的和意义
    1.2 国内外相关技术及研究现状
        1.2.1 TDT概述及任务
        1.2.2 热点事件发现及跟踪相关研究
        1.2.3 关于微博的研究现状
    1.3 本文主要研究内容
第2章 相关技术介绍
    2.1 微博数据的预处理
        2.1.1 微博文档的表示方式
        2.1.2 文档相似度计算方法
        2.1.3 话题的表示和相似度计算
        2.1.4 噪声处理
    2.2 相关算法的介绍
        2.2.1 AP聚类算法
        2.2.2 倒排索引算法
        2.2.3 子话题合并
        2.2.4 话题结果的表示
        2.2.5 过滤话题无关的结果
    2.3 本章小结
第3章 微博话题检测与跟踪算法
    3.1 算法的处理流程
    3.2 噪声处理
    3.3 倒排索引的建立
    3.4 话题检测与跟踪算法
    3.5 AP聚类算法
    3.6 本章小结
第4章 系统实现
    4.1 微博数据的收集及整理
        4.1.1 数据收集
        4.1.2 数据整理
    4.2 热点事件发现
    4.3 数据存储及展示
    4.4 本章小结
第5章 实验结果分析
    5.1 实验环境和实验数据获取
        5.1.1 实验环境
        5.1.2 实验数据获得
        5.1.3 评测方法
    5.2 实验结果对比
        5.2.1 算法速度提升
        5.2.2 精度对比
    5.3 本章小结
结论
参考文献
致谢


【参考文献】:
期刊论文
[1]话题检测与跟踪的评测及研究综述[J]. 洪宇,张宇,刘挺,李生.  中文信息学报. 2007(06)
[2]基于改进向量空间模型的话题识别与跟踪[J]. 宋丹,王卫东,陈英.  计算机技术与发展. 2006(09)
[3]话题识别与跟踪中的层次化话题识别技术研究[J]. 于满泉,骆卫华,许洪波,白硕.  计算机研究与发展. 2006(03)
[4]基于多策略优化的分治多层聚类算法的话题发现研究[J]. 骆卫华,于满泉,许洪波,王斌,程学旗.  中文信息学报. 2006(01)
[5]一种基于动态进化模型的事件探测和追踪算法[J]. 贾自艳,何清,张海俊,李嘉佑,史忠植.  计算机研究与发展. 2004(07)
[6]话题识别与跟踪研究[J]. 李保利,俞士汶.  计算机工程与应用. 2003(17)
[7]面向动态演化的话题检测研究[J]. 赵华,赵铁军,于浩,张姝.  高技术通讯. 2006 (12)
[8]基于HowNet的话题跟踪及倾向性分类研究[J]. 金珠,林鸿飞,赵晶.  情报学报. 2005 (05)



本文编号:3252644

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3252644.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b1250***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com