基于联合非负矩阵分解的话题检测及变迁分析方法研究
本文关键词:基于联合非负矩阵分解的话题检测及变迁分析方法研究
更多相关文章: 联合非负矩阵分解 话题模型 时序性异同话题 优质话题 话题检测及变迁分析
【摘要】:随着互联网技术的大力推广与发展,互联网新闻媒体如雨后春笋般兴起,网络新闻也逐渐成为人们获取信息资讯的重要来源。但由于网络新闻具有时序性和分散性等特点,同一新闻事件可能在一段时间内被不同媒体重复报道,同时话题内容的侧重点也会随时间迁移发生变化,因此人们往往难以迅速的从海量网络新闻中获得热点话题。面对海量的新闻报道,如何快速准确的获取新闻事件的热点话题,帮助人们了解整个新闻事件的来龙去脉是亟待解决的问题,也是话题检测及变迁分析领域研究的重点和热点。话题检测及变迁分析的基本任务是:通过对大规模的文本数据集进行分析来检测和追踪其包含的潜在话题,同时进一步分析该话题随时间变化的规律。目前大多数话题检测方法仅考虑新闻报道的文本结构信息,忽略了新闻报道在时间维度上的连续性,导致检测出的热点话题相异度较高,即针对同一新闻事件的热点话题内容在时间维度上不具有连贯性,难以满足人们的需求。针对网络新闻具有时序性这一重要特征,本文提出了一种新的话题检测及变迁分析方法,即基于联合非负矩阵分解的话题检测及变迁分析方法(Joint-NMF Based Topic Detection and Evolution Analysis Approach,ToD)。本文研究的内容主要包括:1)针对热点话题会随着时间发展而动态演变的特点,本文设计了一种新的联合非负矩阵分解算法(Novel Joint Non-Negative Matrix Factorization,NJNMF)来发现网络新闻中的时序性异同话题。该方法通过对不同时间下的时序性新闻文档集进行联合非负矩阵分解,发现不同的时序性新闻文档集之间相似或者异同的话题,进而分析热点话题随着时间发展的变化趋势。2)针对NJNMF方法需同时处理多个时序性新闻文档集的特点,在该方法中添加了惩罚因子并定义新的迭代规则,使得该方法具有同时发现不同时序性新闻文档集之间相似话题和异同话题的能力。3)针对非负矩阵分解在话题检测过程中会引入噪声数据的问题,本文利用话题熵的概念,提出了优质话题选取方法,有效的减少噪声话题对话题检测效果的影响。本文的实验基于三个真实的数据集:20Newsgroups、LTN2011和LTN2014(墨西哥非法移民相关新闻报道)。为了验证ToD方法的有效性和可用性,本文首先在20Newsgroups数据集上进行了对比实验;然后,在LTN2011数据集上分析了墨西哥移民案例在不同时间内的话题检测结果;最后,在LTN2014数据集上分析了墨西哥移民案例在不同媒体之间的话题检测结果。实验结果表明,与现有的话题检测方法相比,ToD方法的话题检测准确率更高,并且具有良好的话题变迁分析能力。
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【参考文献】
中国期刊全文数据库 前8条
1 舒振球;赵春霞;;基于局部学习的受限非负矩阵分解算法[J];华中科技大学学报(自然科学版);2015年07期
2 王鑫;李璐;王晓芳;;基于Nystr?m谱聚类的词典学习[J];计算机工程与应用;2014年06期
3 杜世强;石玉清;王维兰;马明;;基于图正则化的半监督非负矩阵分解[J];计算机工程与应用;2012年36期
4 刘海峰;陈琦;张以皓;;一种基于互信息的改进文本特征选择[J];计算机工程与应用;2012年25期
5 楚克明;李芳;;基于LDA模型的新闻话题的演化[J];计算机应用与软件;2011年04期
6 崔凯;周斌;贾焰;梁政;;一种基于LDA的在线主题演化挖掘模型[J];计算机科学;2010年11期
7 宦若虹;杨汝良;;基于小波域NMF特征提取的SAR图像目标识别方法[J];电子与信息学报;2009年03期
8 刘云峰,齐欢,代建民;基于潜在语义空间维度特性的多层文档聚类[J];清华大学学报(自然科学版);2005年S1期
中国博士学位论文全文数据库 前1条
1 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
中国硕士学位论文全文数据库 前3条
1 李谦;非负矩阵分解及其在高维数据应用中的研究[D];北京交通大学;2014年
2 蓝龙;半监督非负矩阵分解算法及其在文本聚类中的应用[D];国防科学技术大学;2012年
3 刘玲玲;文本分类中的特征选择研究[D];中国石油大学;2011年
,本文编号:1275912
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1275912.html