基于主题模型和句向量的文本语义挖掘研究
发布时间:2021-06-17 02:17
随着互联网的快速发展,各种信息数据以指数级别的速度增加,海量杂乱无章的文本数据分布在各行各业,而文本挖掘中用户特征分析、推荐系统、舆情监控等任务的实现均依赖于高质量文本数据的获取。如何从这些复杂混乱的文本中快速有效地挖掘出有意义的语义信息成为自然语言领域内的一项重要任务。主题模型是一种有效的文本主题挖掘方法,它将文本按照主题划分成若干个有意义的簇,且同一类别内的所有文档能够共享同一主题,该方法在文本挖掘领域取得了广泛应用。但是网络中的短文本大多存在数据稀疏问题且在不同语境下的词语拥有不同的含义。对于具有高稀疏性且非结构化等特点的高维文本数据,传统的文本主题提取方法难免会造成上下文语义的缺失,进而影响到文本语义挖掘的效果。因此,论文将句向量模型引入到主题模型,在LDA模型和Doc2vec模型的基础上,从以下两个方面展开了研究:1.针对主题模型中上下文语义缺失问题,论文提出了Doc-LDA算法。即将包含上下文特征信息的Doc2vec向量和具有文本全局信息的LDA模型相结合来处理文本。在Doc-LDA模型中,首先将语料库中的文本通过Doc2vec训练得到文档向量,再用LDA模型得到的每个主题...
【文章来源】:兰州交通大学甘肃省
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
空间向量模型向量生成过程
兰州交通大学硕士学位论文-29-3.4实验与分析3.4.1实验方案本文通过python的requests库爬取中国知网中“计算机技术”主题下的摘要文本,共7923条,采用Jieba分词,去除停用词后保存为文本文件,一行数据代表一份文档。经过预处理后得到的文档如图3.2所示。之后对语料库DOC通过Doc2vec模型训练词向量,向量模型参数如表3.1所示。图3.2分词后的部分数据用LDA对语料库DOC进行主题采样。LDA算法选用Gibbs采样,算法过程如3.1.2节所示。设定LDA模型中=50/K,=0.01。经过LDA、Doc-LDA模型分别得到主题分布、距离分布。最后,将本文提出的Doc-LDA模型与LDA、Word2vec以及LDA+Word2vec进行聚类效果的比较。选用K-Means聚类算法验证模型的有效性。表3.1Doc2vec参数设置参数取值Size(句向量的维度)100Window(窗口长度)10min_count(最小出现的次数)2Workers(线程数)2Dm(模型类别)1
基于主题模型和句向量的文本语义挖掘研究-38-以上模型分为两个部分,如图4.2所示,第一部分采用LDA模型训练整个语料集,经过多次迭代得到全局主题,该部分的数据输入为经过数据预处理的文本文件,一行数据代表一份评论信息,输出结果为主题-词矩阵。由于LDA模型是从所有语料库中的词语以Gibbs抽样来得到主题分布的,因此此处得到的主题分布具有全局性;第二部分是子数据集的处理,先通过LDA模型得到每个子数据集的主题分布,主题分布表示为一组词语及其概率大小组成,接着判断是否出现了新的主题,判断依据子数据集中出现的主题是否同LDA模型得到的一致,若一致,则继续用新模型算法DBOW-LDA对预处理后的子数据集进行文本相似性表示。4.3实验与分析微博热门评论文本相对于知网中的摘要数据而言数据形式更为复杂,无关词语数量更大,对于文本表示形式的要求更高。因此采用评论信息作为数据集,首先进行LDA模型处理得到文档主题,再通过前一节提出的DBOW-LDA模型对子数据集进行句向量表示来得到局部主题,最后通过准确率、召回率以及F值对实验方法进行性能评价。4.3.1实验方案数据集来源于微博爬取的关于“滴滴丑闻”热门事件的评论信息,用request库爬取,爬取的原始数据如图4.3所示。数据采集后,将数据分为全部数据集和子数据集,子数据集是以天数为时间节点划分的每一天的评论信息。对这两部分数据分别进行分词和去停用词等数据处理过程,处理后的数据共有78233条。之后将所有数据形成的语料库通过LDA模型进行主题建模,设定LDA的值、Doc2vec的取值与章节3.2一致,其中,超参数中=50/K,=0.01,LDA中主题个数N的值经过主观选取,最终得到每一个文本的主题分布。图4.3爬取的原始数据
本文编号:3234256
【文章来源】:兰州交通大学甘肃省
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
空间向量模型向量生成过程
兰州交通大学硕士学位论文-29-3.4实验与分析3.4.1实验方案本文通过python的requests库爬取中国知网中“计算机技术”主题下的摘要文本,共7923条,采用Jieba分词,去除停用词后保存为文本文件,一行数据代表一份文档。经过预处理后得到的文档如图3.2所示。之后对语料库DOC通过Doc2vec模型训练词向量,向量模型参数如表3.1所示。图3.2分词后的部分数据用LDA对语料库DOC进行主题采样。LDA算法选用Gibbs采样,算法过程如3.1.2节所示。设定LDA模型中=50/K,=0.01。经过LDA、Doc-LDA模型分别得到主题分布、距离分布。最后,将本文提出的Doc-LDA模型与LDA、Word2vec以及LDA+Word2vec进行聚类效果的比较。选用K-Means聚类算法验证模型的有效性。表3.1Doc2vec参数设置参数取值Size(句向量的维度)100Window(窗口长度)10min_count(最小出现的次数)2Workers(线程数)2Dm(模型类别)1
基于主题模型和句向量的文本语义挖掘研究-38-以上模型分为两个部分,如图4.2所示,第一部分采用LDA模型训练整个语料集,经过多次迭代得到全局主题,该部分的数据输入为经过数据预处理的文本文件,一行数据代表一份评论信息,输出结果为主题-词矩阵。由于LDA模型是从所有语料库中的词语以Gibbs抽样来得到主题分布的,因此此处得到的主题分布具有全局性;第二部分是子数据集的处理,先通过LDA模型得到每个子数据集的主题分布,主题分布表示为一组词语及其概率大小组成,接着判断是否出现了新的主题,判断依据子数据集中出现的主题是否同LDA模型得到的一致,若一致,则继续用新模型算法DBOW-LDA对预处理后的子数据集进行文本相似性表示。4.3实验与分析微博热门评论文本相对于知网中的摘要数据而言数据形式更为复杂,无关词语数量更大,对于文本表示形式的要求更高。因此采用评论信息作为数据集,首先进行LDA模型处理得到文档主题,再通过前一节提出的DBOW-LDA模型对子数据集进行句向量表示来得到局部主题,最后通过准确率、召回率以及F值对实验方法进行性能评价。4.3.1实验方案数据集来源于微博爬取的关于“滴滴丑闻”热门事件的评论信息,用request库爬取,爬取的原始数据如图4.3所示。数据采集后,将数据分为全部数据集和子数据集,子数据集是以天数为时间节点划分的每一天的评论信息。对这两部分数据分别进行分词和去停用词等数据处理过程,处理后的数据共有78233条。之后将所有数据形成的语料库通过LDA模型进行主题建模,设定LDA的值、Doc2vec的取值与章节3.2一致,其中,超参数中=50/K,=0.01,LDA中主题个数N的值经过主观选取,最终得到每一个文本的主题分布。图4.3爬取的原始数据
本文编号:3234256
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3234256.html
最近更新
教材专著