一种基于统计流形学习的文本分类算法

发布时间:2018-03-23 17:11

  本文选题:文本分类 切入点:流形学习 出处:《中国科学技术大学》2017年硕士论文


【摘要】:文本是一种常见的数据形式,人们每天都会使用文本这一信息载体与他人进行交流,互联网中每时每刻都会产生海量的文本数据。文本分类在信息检索、数据挖掘、情感分析等任务上都发挥着巨大的作用。根据提取特征方式的不同,文本分类算法可以分为以下三大类:基于统计的文本分类算法,基于语义相似度的文本分类算法以及基于深度学习的文本分类算法。常见的基于统计的文本分类算法有词频-逆向文件频率模型(TF-IDF),朴素贝叶斯等等。这些方法把词作为特征项,词出现的次数作为权值,然后把文本表示为一个特征向量,最后使用分类器进行文本分类。这些方法假设相似的文本中有很多相同的词,但是这忽略了不同词之间的语义相似性。基于语义相似度的文本分类方法通常根据文本的主题信息对文本的相似度进行度量,如主题模型等等,但是这些方法不能够清晰地捕捉到词和文本的主题多样性。近年来,深度学习方法吸引了许多研究者的注意,但是这些方法,比如卷积神经网络或者循环神经网络等等,也有着一些不足。比如梯度消失问题以及大规模参数训练带来的时间消耗。本文提出了一种基于统计流形学习的文本分类算法,它提供了一个基于潜在主题分布的文本概率模型表示。该模型假设同一个主题下的词服从高斯分布,然后文本被表示为一个混合高斯模型,最后利用统计流形学习的方法可以对文本之间的距离进行度量。本文的主要工作包括:(1)从文本的生成过程出发,提出了一种文本表示的概率模型。每个主题被表示为一个高斯分布,文本被表示为一个高斯混合模型。这种概率模型可以对文本和词的主题多样性进行较好的描述。(2)通过使用概率模型对文本上的主题分布进行描述,文本建模的计算时间复杂度降低为O(n),n是文本中单词数量。主题模型中训练速度和语料依赖性的问题得到了改良。(3)通过统计流形学习方法,对文本概率模型的距离进行了度量,提供了一种度量概率模型的新思路。(4)在实验部分,通过三组不同任务的实验,验证了本文所提算法的有效性以及高斯混合模型描述混合主题下词向量分布的能力。
[Abstract]:Text is a common data form. People use text to communicate with others every day. Text categorization is used in information retrieval and data mining. According to the different ways of extracting features, text classification algorithms can be divided into the following three categories: statistical based text classification algorithm, Text classification algorithm based on semantic similarity and text classification algorithm based on in-depth learning. Common statistical text classification algorithms include word frequency reverse file frequency model TF-IDFU, naive Bayes and so on. The number of occurrences of a word is used as a weight, then the text is represented as a feature vector, and finally a classifier is used to classify the text. These methods assume that there are many identical words in similar text. But this ignores the semantic similarity between different words. Text classification methods based on semantic similarity usually measure the text similarity according to the subject information of the text, such as topic model, etc. However, these methods can not clearly capture the diversity of words and texts. In recent years, in-depth learning methods have attracted the attention of many researchers, but these methods, such as convolution neural networks or cyclic neural networks, etc. For example, the gradient vanishing problem and the time consumption caused by large-scale parameter training. In this paper, a text classification algorithm based on statistical manifold learning is proposed. It provides a representation of the text probabilistic model based on the distribution of potential topics, which assumes that the words under the same theme are distributed from Gao Si, and then the text is represented as a mixed Gao Si model. Finally, the distance between texts can be measured by using the method of statistical manifold learning. A probabilistic model for text representation is proposed. Each topic is represented as a Gao Si distribution. The text is represented as a Gao Si mixed model. This probability model can describe the topic diversity of the text and word better by using the probabilistic model to describe the topic distribution on the text. The computational time complexity of text modeling is reduced to the number of words in the text. The problem of training speed and corpus dependence in the topic model is improved. The distance of the text probability model is measured by using the statistical manifold learning method. This paper provides a new way to measure the probability model. In the experiment part, the validity of the proposed algorithm and the ability of Gao Si hybrid model to describe the word vector distribution under the mixed theme are verified by three groups of experiments with different tasks.
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 陈敏,汤晓安;在Microsoft Access中引入文本文件[J];微型电脑应用;1995年02期

2 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期

3 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期

4 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期

5 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期

6 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期

7 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期

8 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期

9 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期

10 江伟;潘昊;;基于优化的多核学习方法的Web文本分类的研究[J];计算机技术与发展;2013年10期

相关会议论文 前10条

1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年

2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年

3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年

7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年

10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

相关重要报纸文章 前1条

1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年

相关博士学位论文 前10条

1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年

2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年

3 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年

4 韩磊;汉语句义结构模型分析及其文本表示方法研究[D];北京理工大学;2016年

5 刘林;面向论坛文本的大学生情绪识别研究[D];华中师范大学;2016年

6 张博宇;基于局部特征的场景文本分析方法研究[D];哈尔滨工业大学;2015年

7 胡卉芪;空间文本数据的量质融合与推送[D];清华大学;2016年

8 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年

9 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年

10 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年

相关硕士学位论文 前10条

1 王轶霞;基于半监督递归自编码的情感分类研究[D];内蒙古大学;2015年

2 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年

3 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年

4 董秦涛;基于文本的个人情感状态分析研究[D];兰州大学;2015年

5 钟文波;搜索引擎中关键词分类方法评估及推荐应用[D];华南理工大学;2015年

6 黄晨;基于新词识别和时间跨度的微博热点研究[D];上海交通大学;2015年

7 陈红阳;中文微博话题发现技术研究[D];重庆理工大学;2015年

8 王s,

本文编号:1654398


资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1654398.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ad24f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com