基于层次主题模型的网络热点分析研究与实现

发布时间：2021-02-13 00:54

　　随着互联网技术的发展和移动设备的普及,文本数据呈现爆炸式的增长,每天所积累、存储的数据量越来越多。面对如此海量的数据,如何从众多杂乱无章的数据中获取到实际需要和关注的信息变得困难异常。因此,找到一种有效避免信息过载,从海量数据中快速获取有效信息的方法,在今天已经成为热点问题之一。虽然搜索引擎的出现为人们从海量数据中寻找有用信息提供了极大的帮助。然而搜索引擎一般是基于关键词匹配来完成信息的查找,查询结果是离散化和碎片化的,不能很好的体现获取信息的时序性和关联性。所以主题模型在信息提取中的应用,对于用户在新闻资讯中个性化和垂直化的分析需求具有非常重要的现实意义。本文主要从关键词提取、层次主题发现、主题演变可视化分析和网络热点分析系统集成4个方面展开研究与实现。1)关键词提取,基于TextRank模型进行研究,分析了当前TextRank模型关键词提取的特点,提出了一种词在文档内的词距和位置分布加权的TextRank模型,应用于网络新闻文本的关键词提取。词在文档内的词距和位置分布加权是马尔可夫链的应用扩展,通过迭代计算权重用于生成TextRank模型的概率转移矩阵。本文改进模型与其他模型进行实...

【文章来源】：北京邮电大学北京市 211工程院校教育部直属院校

【文章页数】：75 页

【学位级别】：硕士

【文章目录】：
摘要
ABSTRACT
第一章绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 本文研究内容与主要工作
        1.3.1 文本关键词提取
        1.3.2 文本层次主题发现
        1.3.3 主题演变可视化分析
        1.3.4 网络热点分析系统集成
    1.4 文章组织结构
    1.5 本章小结
第二章相关技术介绍
    2.1 文本数据采集
    2.2 文本数据预处理
        2.2.1 分词
        2.2.2 停用词
        2.2.3 词选择
    2.3 文本表示模型
        2.3.1 词袋模型
        2.3.2 Word2Vec模型
    2.4 文本建模
        2.4.1 K-means模型
        2.4.2 LDA模型
        2.4.3 TextRank模型
        2.4.4 HLTA模型
        2.4.5 PEM-HLTA模型
    2.5 可视化及工具
    2.6 本章小结
第三章文本关键词提取
    3.1 数据获取及预处理
    3.2 TextRank模型及改进
    3.3 实验
        3.3.1 评价标准
        3.3.2 结果及分析
    3.4 本章小结
第四章文本层次主题提取
    4.1 数据集及预处理
        4.1.1 词预处理
        4.1.2 文档BoW表示
        4.1.3 互信息
    4.2 PEM-HLTA算法及改进
TF-IDF的词选择">        4.2.1 基于PW_TF-IDF的词选择
        4.2.2 改进Aitken加速PEM-HLTA
    4.3 实验
        4.3.1 评价标准
        4.3.2 结果及分析
    4.4 本章小结
第五章主题演变可视化分析
    5.1 主题数据生成及预处理
        5.1.1 主题数据生成
        5.1.2 主题文档关联度计算
        5.1.3 主题热度计算
        5.1.4 主题相似度计算
    5.2 可视化分析模型
    5.3 可视化分析实验
    5.4 本章小结
第六章网络热点分析系统集成
    6.1 网络热点分析系统结构设计
    6.2 数据层模块功能介绍
    6.3 基础层模块功能介绍
        6.3.1 数据采集模块设计
        6.3.2 词向量字典
    6.4 核心层模块功能介绍
        6.4.1 核心算法功能数据流程设计
        6.4.2 核心算法功能模块设计
        6.4.3 核心层与可视层数据传输模块设计
    6.5 可视层模块功能介绍
    6.6 本章小结
第七章总结与展望
    7.1 总结
    7.2 未来研究方向
参考文献
致谢
攻读学位期间发表的学术论文

【参考文献】：
期刊论文
[1]多源媒体文本主题演变的可视分析[J]. 张怡,邵裕东,张加万.  计算机辅助设计与图形学学报. 2017(12)
[2]基于改进的TF-IDF算法及共现词的主题词抽取算法[J]. 公冶小燕,林培光,任威隆,张晨,张春云.  南京大学学报(自然科学). 2017(06)
[3]基于词向量和EMD距离的短文本聚类[J]. 黄栋,徐博,许侃,林鸿飞,杨志豪.  山东大学学报(理学版). 2017(07)
[4]自动关键词抽取研究综述[J]. 赵京胜,朱巧明,周国栋,张丽.  软件学报. 2017(09)
[5]一种基于TextRank的单文本关键字提取算法[J]. 柳林青,余瀚,费宁,陈春玲.  计算机应用研究. 2018(03)
[6]词向量聚类加权TextRank的关键词抽取[J]. 夏天.  数据分析与知识发现. 2017(02)
[7]新闻数据可视分析系统[J]. 肖剑楠,刘梦尘,刘世霞.  计算机辅助设计与图形学学报. 2016(11)
[8]在线社交网络中地域性话题发现[J]. 曹玖新,胥帅,陈高君,赵力阳,周涛,刘波.  计算机学报. 2017(07)
[9]融合Word2vec与TextRank的关键词抽取研究[J]. 宁建飞,刘降珍.  现代图书情报技术. 2016(06)
[10]基于因果模型的主题热度计算与预测方法[J]. 杜慧,郭岩,范意兴,张瑾,余智华,程学旗.  中文信息学报. 2016(02)

博士论文
[1]概率主题模型的研究及其在多媒体主题发现和演化中的应用[D]. 周厚奎.浙江大学 2017

本文编号：3031710

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3031710.html

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|