文本向量表示模型及其改进研究
发布时间:2020-12-26 01:48
文本挖掘是实现知识发现、自然语言处理最为关键的一步.文本挖掘与一般数据挖掘的本质的区别在于,文本的数据形式是半结构化的,因之对文本数据进行挖掘的首要任务是文本数据的结构化表示.然而,现有的文本表示方法存在语义信息提取不充分、表示模型的维数很高、模型构建复杂度大等问题.从而对文本表示模型进行深入研究并对模型中现有的问题着手改进是十分必要的.围绕文本挖掘的核心文本表示问题,本文在梳理、归纳现有文本向量表示模型的基础上,以共现分析理论、长尾理论、布尔运算法则为支撑,对文本向量表示模型中的几个核心问题展开了较为深入的研究并作出相应改进.本文首先介绍了文本向量表示模型的研究背景,目的,意义及国内外研究现状,并指出文章的主要研究内容、研究方法及创新之处.其次是对文本向量表示模型的相关理论研究.对本文的所用到的共现分析理论、长尾理论、布尔代数运算法则作了介绍;详细梳理、归纳了文本表示模型的发展路径.对发展过程中的重要关键模型构建的数学思想作了对比分析并指出各模型的适用范围和不足之处,厘清文本向量表示模型的构建原理和发展脉络;第三,是对文本向量表示模型的关键技术的改进研究.针对文本向量表示的新模型-共...
【文章来源】:山西大学山西省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
特征词共现关系图
实验基本流程图
图 4.2 GCLSVSM 聚类山丘图图可以看出山丘图的峰是比较明显的,这表明 GCLSVSM 可以对,故下面分别用词袋模型、CLSVSM 和本文所提出的 GCLSVSM 三新闻数据进行50次聚类实验并记录其熵值和纯度,用Excel表计算
本文编号:2938799
【文章来源】:山西大学山西省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
特征词共现关系图
实验基本流程图
图 4.2 GCLSVSM 聚类山丘图图可以看出山丘图的峰是比较明显的,这表明 GCLSVSM 可以对,故下面分别用词袋模型、CLSVSM 和本文所提出的 GCLSVSM 三新闻数据进行50次聚类实验并记录其熵值和纯度,用Excel表计算
本文编号:2938799
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/2938799.html