面向新闻文本的话题发现研究
发布时间:2021-07-13 07:00
随着科学技术的进步,人类进入了大数据时代。随之产生了大量杂乱无序的网络信息,如何从这些信息中找到用户感兴趣的内容是文本挖掘研究领域的一个热点和难点。近年来,对于新闻热点话题发现的研究基本都依据向量空间模型(Vector Space Model,VSM)和LDA(Latent Dirichlet Allocation)模型进行,而如何提高聚类的效果一直是新闻话题发现研究领域存在的基本问题。所以本文将不同的模型-向量空间模型(VSM)、二元共现潜在语义向量空间模型(Co-occurrence Latent Semantic Vector Space Model,CLSVSM)和LDA主题模型应用到话题发现领域进行研究分析。首先,针对VSM模型存在的缺点,依据词性提取关键词来构造VSM模型。然后基于TF-IDF权值法利用K-means、凝聚式层次聚类方法进行聚类的分析比较。其次,二元CLSVSM模型挖掘了关键词之间的潜在的语义信息而比VSM模型的聚类精度更高。所以本文将二元CLSVSM模型应用到话题发现领域,从聚类效果和主题识别等方面与另外两种模型进行了对比讨论。最后,对本文的数据集-搜狗新...
【文章来源】:山西大学山西省
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
数据挖掘过程
第二章 基于向量空间模型的话题发现理论( ) ( )12 21 1, ,mik jkki j i jm mik jkk kx xdist x x sim x xx x== = = = (2.根据文本的相似度,可以基于各种聚类方法进行聚类分析。.1.3 聚类算法与评价指标文本聚类(Text clustering),是一种无监督的机器学习的方法[4]。在进行的聚类分析时无需训练数据集,故在自动化处理方面的能力很高;同时在获本信息的摘要等方面起着非常重要的作用[27]。依据是使聚类结果中同一个簇档信息的相似性大,即差异尽量小;使不同类别里的文本信息的相似度小,异尽量大[28]。文本聚类的过程如图 2.1:
图 2.2 基于划分法的算法流程图在所有的依据划分的方法中,K-means 聚类方法是最经典也是被应用最多的种。本文采用 K-means 算法进行新闻文本的聚类分析,该算法比较容易实现,过需要在事先设定一个值k ,即确定要划分的簇的个数[31]。其算法流程如下:输入:生成的类别的个数k ,文本集合d 。输出:平方误差最小时的k 个类别。第一步,从文本集合中选取k 个初始点做为这k 个类的中心,即1 2, , ,kd d d ;第二步,对于文本集合中剩余的文档id ,逐个计算该文档与每个簇的中心的离;第三步,将该文档id 归入距离最小的类别中,并重新计算这 k 个类别的中心,一个类别的中心为该类别中所有样本(点)的平均值;第四步,一直循环第二、三步,直到中心点不再变化。K-means 算法可以有效处理文本集比较大的文本,具有良好的统计意义,时复杂度是 ( kn),k 表示类别的个数,n表示文本集中文档的个数。
【参考文献】:
期刊论文
[1]基于共现潜在语义向量空间模型的语义核构建[J]. 牛奉高,张亚宇. 情报学报. 2017(08)
[2]基于KL距离的卷积神经网络人脸特征提取模型[J]. 罗可,周安众. 长沙理工大学学报(自然科学版). 2017(02)
[3]基于卷积神经网络的职位描述文本分类方法[J]. 陶宏曜,梁栋屹. 软件. 2017(06)
[4]自动关键词抽取研究综述[J]. 赵京胜,朱巧明,周国栋,张丽. 软件学报. 2017(09)
[5]基于LDA主题模型的移动应用相似度构建方法[J]. 褚征,于炯,王佳玉,王跃飞. 计算机应用. 2017(04)
[6]基于加权word2vec的微博情感分析[J]. 李锐,张谦,刘嘉勇. 通信技术. 2017(03)
[7]基于密度的改进聚类算法比较[J]. 郭文娟. 甘肃科技. 2017(01)
[8]基于Spark和改进的TF-IDF算法的用户特征分析[J]. 张舒雅,王占刚. 软件工程. 2016(10)
[9]基于多类别语义词簇的新闻读者情绪分类[J]. 温雯,吴彪,蔡瑞初,郝志峰,王丽娟. 计算机应用. 2016(08)
[10]文本挖掘在中文信息分析中的应用研究述评[J]. 李尚昊,朝乐门. 情报科学. 2016(08)
硕士论文
[1]面向海量商品数据的分布式层次聚类算法设计与实现[D]. 周俊林.浙江大学 2017
[2]面向对话文本的主题分割技术研究[D]. 王炳浩.哈尔滨工业大学 2016
[3]基于谱聚类的文本聚类算法研究[D]. 张吉文.贵州大学 2015
[4]基于新型多标记集成学习方法的文本分类研究[D]. 张涛.南京邮电大学 2015
[5]多中心聚类算法的研究与改进[D]. 徐祥.安徽大学 2015
[6]基于聚类分析的烟草行业客户细分研究[D]. 庞夫星.山东财经大学 2014
[7]基于LDA模型的新闻话题发现研究[D]. 马晓姝.东北师范大学 2014
[8]基于后缀树的文本聚类方法研究[D]. 张中贤.华南理工大学 2013
[9]基于文档团的Markov网络检索模型[D]. 汤皖宁.江西师范大学 2013
[10]基于隐含语义分析的微博热点话题发现策略[D]. 马雯雯.重庆大学 2013
本文编号:3281594
【文章来源】:山西大学山西省
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
数据挖掘过程
第二章 基于向量空间模型的话题发现理论( ) ( )12 21 1, ,mik jkki j i jm mik jkk kx xdist x x sim x xx x== = = = (2.根据文本的相似度,可以基于各种聚类方法进行聚类分析。.1.3 聚类算法与评价指标文本聚类(Text clustering),是一种无监督的机器学习的方法[4]。在进行的聚类分析时无需训练数据集,故在自动化处理方面的能力很高;同时在获本信息的摘要等方面起着非常重要的作用[27]。依据是使聚类结果中同一个簇档信息的相似性大,即差异尽量小;使不同类别里的文本信息的相似度小,异尽量大[28]。文本聚类的过程如图 2.1:
图 2.2 基于划分法的算法流程图在所有的依据划分的方法中,K-means 聚类方法是最经典也是被应用最多的种。本文采用 K-means 算法进行新闻文本的聚类分析,该算法比较容易实现,过需要在事先设定一个值k ,即确定要划分的簇的个数[31]。其算法流程如下:输入:生成的类别的个数k ,文本集合d 。输出:平方误差最小时的k 个类别。第一步,从文本集合中选取k 个初始点做为这k 个类的中心,即1 2, , ,kd d d ;第二步,对于文本集合中剩余的文档id ,逐个计算该文档与每个簇的中心的离;第三步,将该文档id 归入距离最小的类别中,并重新计算这 k 个类别的中心,一个类别的中心为该类别中所有样本(点)的平均值;第四步,一直循环第二、三步,直到中心点不再变化。K-means 算法可以有效处理文本集比较大的文本,具有良好的统计意义,时复杂度是 ( kn),k 表示类别的个数,n表示文本集中文档的个数。
【参考文献】:
期刊论文
[1]基于共现潜在语义向量空间模型的语义核构建[J]. 牛奉高,张亚宇. 情报学报. 2017(08)
[2]基于KL距离的卷积神经网络人脸特征提取模型[J]. 罗可,周安众. 长沙理工大学学报(自然科学版). 2017(02)
[3]基于卷积神经网络的职位描述文本分类方法[J]. 陶宏曜,梁栋屹. 软件. 2017(06)
[4]自动关键词抽取研究综述[J]. 赵京胜,朱巧明,周国栋,张丽. 软件学报. 2017(09)
[5]基于LDA主题模型的移动应用相似度构建方法[J]. 褚征,于炯,王佳玉,王跃飞. 计算机应用. 2017(04)
[6]基于加权word2vec的微博情感分析[J]. 李锐,张谦,刘嘉勇. 通信技术. 2017(03)
[7]基于密度的改进聚类算法比较[J]. 郭文娟. 甘肃科技. 2017(01)
[8]基于Spark和改进的TF-IDF算法的用户特征分析[J]. 张舒雅,王占刚. 软件工程. 2016(10)
[9]基于多类别语义词簇的新闻读者情绪分类[J]. 温雯,吴彪,蔡瑞初,郝志峰,王丽娟. 计算机应用. 2016(08)
[10]文本挖掘在中文信息分析中的应用研究述评[J]. 李尚昊,朝乐门. 情报科学. 2016(08)
硕士论文
[1]面向海量商品数据的分布式层次聚类算法设计与实现[D]. 周俊林.浙江大学 2017
[2]面向对话文本的主题分割技术研究[D]. 王炳浩.哈尔滨工业大学 2016
[3]基于谱聚类的文本聚类算法研究[D]. 张吉文.贵州大学 2015
[4]基于新型多标记集成学习方法的文本分类研究[D]. 张涛.南京邮电大学 2015
[5]多中心聚类算法的研究与改进[D]. 徐祥.安徽大学 2015
[6]基于聚类分析的烟草行业客户细分研究[D]. 庞夫星.山东财经大学 2014
[7]基于LDA模型的新闻话题发现研究[D]. 马晓姝.东北师范大学 2014
[8]基于后缀树的文本聚类方法研究[D]. 张中贤.华南理工大学 2013
[9]基于文档团的Markov网络检索模型[D]. 汤皖宁.江西师范大学 2013
[10]基于隐含语义分析的微博热点话题发现策略[D]. 马雯雯.重庆大学 2013
本文编号:3281594
本文链接:https://www.wllwen.com/xinwenchuanbolunwen/3281594.html