基于统计学习方法的高斯LDA模型的文本聚类研究
发布时间:2018-01-29 04:23
本文关键词: 文本聚类 主题模型 词向量 高斯LDA模型 出处:《华侨大学》2017年硕士论文 论文类型:学位论文
【摘要】:科学技术的发展日新月异,人们与互联网的联系越来越紧密,随着智能设备的普及,人们在使用智能设备的过程中不断产生大量的文本数据,如何从这些文本数据中汲取我们所需的信息,是当前文本信息挖掘的热点,而文本聚类是文本挖掘信息领域的研究重点,而文本标记的关键基础又是文本聚类,与此同时,文本聚类技术又是自然语言处理技术的最基础技术,在文本聚类领域,困难主要可以概括为以下三点:第一,聚类的结果与客观使用需求的匹配;第二,聚类的结果的描述问题;第三,文本聚类结果的有效性评估问题。本文综合讨论以上三点,提出了基于统计学习方法的高斯LDA主题模型的文本聚类方法。本文主要在以下三个方面进行了相关工作:第一,针对国内外相关研究进行了详细的对比研究和综述,并指出现阶段研究的优势及不足。第二,将词向量模型以文本扩展的形式引入,对LDA模型的先验信息进行改进,引入高斯LDA模型,将潜在主题特征知识融入词向量空间,深层次挖掘出文本内部语义知识,提高文本聚类质量,并在Python下实现了高斯LDA模型。第三,利用基于统计学习方法高斯LDA模型,结合文本相关主题词及主题的概率分布情况,以及词向量模型,提出了一种基于词向量语义相似度的聚类结果评价方法。中英文语料上的试验结果对比分析显示,本文方法相对于传统的LDA以及传统的高斯LDA模型,聚类有效性有了一定的提升,且基于主题词对主题的描述较为清晰,从而验证了基于统计方法的改良高斯LDA模型的文本聚类方法的有效性。
[Abstract]:With the rapid development of science and technology, people are more and more closely connected with the Internet. With the popularity of smart devices, people continue to produce a large number of text data in the process of using smart devices. How to extract the information we need from these text data is a hot topic in text information mining. Text clustering is the research focus in the field of text mining information, and the key foundation of text marking is text clustering. At the same time, text clustering technology is the most basic technology of natural language processing technology. In the field of text clustering, the difficulties can be summarized as follows: first, the result of clustering and objective use of the needs of matching; Second, the description of clustering results; Thirdly, the effectiveness of text clustering results is evaluated. The above three points are discussed comprehensively in this paper. This paper proposes a text clustering method of Gao Si LDA topic model based on statistical learning method. This paper mainly focuses on the following three aspects: first. This paper makes a detailed comparative study and a summary of relevant studies at home and abroad, and points out the advantages and disadvantages of the current research. Secondly, the word vector model is introduced in the form of text expansion. The priori information of LDA model is improved, Gao Si LDA model is introduced, the latent subject feature knowledge is integrated into the word vector space, the semantic knowledge inside the text is mined deeply, and the quality of text clustering is improved. Gao Si LDA model is implemented under Python. Thirdly, the statistical learning method Gao Si LDA model is used to combine the probability distribution of text related theme words and topics, as well as word vector model. This paper proposes a clustering result evaluation method based on semantic similarity of word vectors. The comparative analysis of the experimental results in Chinese and English corpus shows that this method is compared with the traditional LDA and Gao Si LDA model. The clustering validity has been improved, and the topic description is clear based on the theme words, which verifies the validity of the text clustering method based on the improved Gao Si LDA model.
【学位授予单位】:华侨大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【参考文献】
相关期刊论文 前8条
1 马化腾;;“互联网+”激活更多信息能源[J];中国中小企业;2015年06期
2 杨中国;李洪奇;朱丽萍;刘蔷;;基于语义模式和引用分布的科技文献信息抽取[J];山东大学学报(理学版);2015年03期
3 朱建平;刘晓葳;欧阳汉;;《统计研究》的历史阶段性回顾与特征分析[J];统计研究;2014年09期
4 冷伏海;白如江;祝清松;;面向科技文献的混合语义信息抽取方法研究[J];图书情报工作;2013年11期
5 周丽红;刘勘;;基于关联规则的科技文献分类研究[J];图书情报工作;2012年04期
6 胡燕;吴虎子;钟珞;;中文文本分类中基于词性的特征提取方法研究[J];武汉理工大学学报;2007年04期
7 李彦平,张佳骥;文本聚类中的降维技术研究[J];无线电工程;2005年06期
8 侯汉清;;分类法的发展趋势简论[J];情报科学;1981年01期
相关硕士学位论文 前2条
1 耿大伟;基于Python技术的校园网搜索引擎的设计与实现[D];燕山大学;2015年
2 王俊英;基于科技文献的中文文本分类算法研究[D];燕山大学;2007年
,本文编号:1472511
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1472511.html