当前位置:主页 > 管理论文 > 统计学论文 >

基于主题模型的文本聚类研究与应用

发布时间:2022-01-26 23:17
  新世纪以来,互联网技术和新媒体技术迅速发展,社会进入了充满海量数据信息的时代。信息时代涌现出各种信息载体的互联网新媒体平台类似Twitter、微博和头条,文本信息的承载媒介从纸质报刊逐渐变为网络数字媒体,网络文本日益成为现代社会的一种主要信息媒体传播形式。近年来网络文本(比如新闻,博客等)的数量出现了爆发式的增加,产生了海量半结构性或非结构性文本数据。文本挖掘领域的技术热点问题是如何从这些互联网平台产生的海量文本数据中提取出有价值的信息。本文基于主题模型进行网络文本聚类的研究,改善了传统向量空间模型在挖掘文本语义内部潜在联系上的缺陷,也克服了传统向量空间模型在文本聚类过程中可能存在一些严重的高纬性和稀疏性问题,通过将LDA主题模型计算得到的文本相似度与基于TF-IDF特征提取的VSM模型计算得到的文本相似度进行线性组合,提出了VLDA文本聚类模型,考虑结合网络文本的特征词和主题信息实现聚类分析。该模型按照一定的特征比例系数来计算文本相似度,然后利用K均值聚类算法进行网络文本的聚类,相对于单一的VSM模型和LDA主题模型,文本聚类效果有明显的提高。同时研究发现一方面... 

【文章来源】:山西大学山西省

【文章页数】:54 页

【学位级别】:硕士

【部分图文】:

基于主题模型的文本聚类研究与应用


研究内容技术路线图

流程图,文本,主题,流程


第二章相关理论与技术概述5第二章相关理论与技术概述2.1文本主题挖掘流程介绍首先介绍本文主要研究技术路线,如图2.1所示,本文以网络文本为研究对象,通过python软件进行网络文本语料的采集,接着对爬虫获取的原始文本语料数据进行数据清洗和预处理、然后建立文本表示模型,最后实现网络文本的聚类和主题挖掘,接下来会详细介绍文本聚类研究中所涉及到的关键理论与技术。图2.1网络文本主题挖掘流程2.1.1网络文本爬虫技术本文利用python软件实现网络文本数据爬虫,即按照既定规则在今日头条网站上自动爬取网页新闻内容。网络爬虫的具体流程如下:(1)调用Python的Reques模块,使用Get函数通过HTTP库向爬虫目标网站发起请求,具体包含User-Agent、Headers和Cookie等信息。(2)使用Get函数从给定的URL获取响应内容,数据类型可能包含HTML文件和JSON字符串等。(3)获取服务器端文件到本地,使用正则表达式解析HTML内容,或者将解析文件可以直接转为Json对象,解析Json内容。(4)保存数据,把解析内容后的数据存为文本或者到本地数据库。2.1.2文本清洗和预处理技术(1)文本数据清洗为了提升文本数据的有效性与准确性,要通过一定的处理方式完成对文本数据的清洗,比如html解析,去除非中文字符等处理。网络文本的预处理是实现将文本数据转化为结构化数据的必要准备工作,一般地要将清洗过文本语料数据进行中文分词、去除停用词等方法处理,才可以开展下一步文本表示模型构建工作。

流程图,文本,聚类,流程图


基于主题模型的文本聚类研究与应用16Step4计算V_LDA模型相似度S的值,根据公式3.4计算。Step5使用K-means算法进行聚类计算,计算F1值评价聚类结果。图3.3基于V_LDA文本聚类流程图通常在度量向量空间模型(VSM)中文本之间的相似度使用夹角余弦值,称为余弦相似度,假设存在两个文本1D和2D,12D,DD,其中1D和2D能够使用向量表示成111121,,nDwwKw和221222,,nDwwKw,则文本1D和2D的余弦相似度计算如公式3-所示:12121121212222211,cosnkkknnkkkkwwDDsimDDDDwwg(3.1)由以上公式可知,当12simD,D1说明文本1D和2D有相对较高的相似度。假定某一篇文本id,基于TF-IDF特征提取构造的文本-词项矩阵为_12,,iTfidfndwwwK,其中n为特征词的个数。则根据公式可得,文本id和jd的相似度为,TFIDFijSdd;同样基于LDA主题模型的构造的文本-主题分布为_12,,iLDATdttKt,其中T为潜在主题的个数,则基于LDA主题模型计算文本id和jd的相似度为,LDAijSdd1cosijTFIDFijijddSSddg(3.2)2cosijLDAijijddSSddg(3.3)则对两种相似度进行线性组合为12,1ijSddSS,(3.4)其中为特征比例系数,,ijSdd记作为V_LDA模型的文本相似度。

【参考文献】:
期刊论文
[1]基于Labeled-LDA模型的文本特征提取方法[J]. 王瑞,龙华,邵玉斌,杜庆治.  电子测量技术. 2020(01)
[2]基于词向量和增量聚类的短文本聚类算法[J]. 杨波,杨文忠,殷亚博,何雪琴,袁婷婷,刘泽洋.  计算机工程与设计. 2019(10)
[3]融合多粒度信息的文本向量表示模型[J]. 聂维民,陈永洲,马静.  数据分析与知识发现. 2019(09)
[4]基于词向量和BTM的短文本话题演化分析[J]. 张佩瑶,刘东苏.  数据分析与知识发现. 2019(03)
[5]基于Sentence-LDA主题模型的短文本分类[J]. 张浩,钟敏.  计算机与现代化. 2019(03)
[6]结合字词向量的主题向量模型[J]. 张青,韩立新,刘合兵.  电子测量技术. 2019(03)
[7]一种基于频繁词集表示的新文本聚类方法[J]. 张雪松,贾彩燕.  计算机研究与发展. 2018(01)
[8]基于VSM和LDA混合模型的文本聚类研究[J]. 刘晓蒙,熊海涛.  电脑知识与技术. 2018(01)
[9]LDA主题模型在文本聚类中的应用[J]. 邹晓辉.  数字技术与应用. 2017(12)
[10]基于词向量和EMD距离的短文本聚类[J]. 黄栋,徐博,许侃,林鸿飞,杨志豪.  山东大学学报(理学版). 2017(07)

硕士论文
[1]融合主题模型与词向量的短文本分类方法研究[D]. 邵云飞.西安电子科技大学 2019
[2]基于LDA主题模型的高校新闻话题发现研究[D]. 伊秀娟.北京交通大学 2019



本文编号:3611304

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3611304.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f60bd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com