基于语义簇构建隐马尔可夫模型的文本分类方法研究
发布时间:2019-09-02 14:44
【摘要】:文本分类作为文本挖掘领域中一个非常重要的研究方向,对文本数据的组织、管理和处理具有重要意义,在信息检索、数字图书馆、搜索引擎、文本信息过滤等领域有着广泛的应用。虽然文本分类的研究已经取得不小的进展,但目前为止仍有一些尚待解决的问题,例如,相关特征词的信息度量,分类器的增量更新和在线更新,以及分类器性能随类别数增加而降低等问题。本文围绕上述问题展开研究,提出了一种基于语义簇构建隐马尔可夫模型的文本自动分类方法,主要工作和创新点包括以下几个方面: (1)特征词分类信息的度量 在对比了几种已有的特征词分类信息的度量方法后,借鉴TF-IDF权重,对公式进行了调整,使之可以针对特征词的不同类别度量分类信息的权重,然后利用不同分类信息权重将特征词进行向量表示,实验表明特征词向量可以很好的表达特征词的分类信息。 (2)提出建立层次语义簇模型的方法 利用层次聚类方法对特征词向量进行聚类,所得层次语义簇簇内相似度大,簇内特征词分类信息相近,能够表征这一类具有相似分类特性的特征词。通过层次语义簇模型提出一种将文本序列化表示方法,文本序列表现出状态转移的特性。然后考察了聚类迭代截止阈值的确定问题和特征词间相似度计算量过大的问题,并给出相应解决方案。实验表明语义簇模型能够达到降维和突出分类信息的目的。 (3)文本分类器结构设计 针对训练集类别建立相互独立的隐马尔可夫模型,并据此提出了一种文本分类器结构,分类器中文本模型互不耦合,文本模型与分类判决器相互独立。然后讨论了利用所提出的文本分类器结构实现增量更新和在线更新的方法和工作量。 实验表明,该方法一方面可以在大文本数据量情况下有效利用文本分类信息,提高分类精度;同时,相比于其他方法,算法性能受到类别数目的影响较小。
【图文】:
2.1 文本分类的相关理论文本自动分类属于模式识别的范畴,它分析待分类文档的模式和特征,并与预先提供的已知分类的文档进行比对,找出模式和特征最接近的待分类文档的类别。文本自动分类的整个过程涉及许多相关技术,,其中比较重要的有特征降维、文档模型表示和分类器选择。2.1.1 文本的分类过程图 2-1 所示为文本分类的流程。
第二章 课题相关理论介绍论中一些方法进行衡量,然后通过设定阈值的方式对特征进行取舍[32]。常用的特征选择方法有,信息增益、互信息、2 统计、交叉熵等等[33]。特征抽取是将原有特征进行映射变换得到新的特征的过程,主要是将原有特征中某些分散的特征信息进行集中表示,从而达到消除歧义,去除冗余等目的。常用的特征抽取方法有,主元分析(Principal Components Analysis)、潜在语义索引(LatenSemantic Analysis)和特征词聚类等。
【学位授予单位】:北京化工大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1
本文编号:2530993
【图文】:
2.1 文本分类的相关理论文本自动分类属于模式识别的范畴,它分析待分类文档的模式和特征,并与预先提供的已知分类的文档进行比对,找出模式和特征最接近的待分类文档的类别。文本自动分类的整个过程涉及许多相关技术,,其中比较重要的有特征降维、文档模型表示和分类器选择。2.1.1 文本的分类过程图 2-1 所示为文本分类的流程。
第二章 课题相关理论介绍论中一些方法进行衡量,然后通过设定阈值的方式对特征进行取舍[32]。常用的特征选择方法有,信息增益、互信息、2 统计、交叉熵等等[33]。特征抽取是将原有特征进行映射变换得到新的特征的过程,主要是将原有特征中某些分散的特征信息进行集中表示,从而达到消除歧义,去除冗余等目的。常用的特征抽取方法有,主元分析(Principal Components Analysis)、潜在语义索引(LatenSemantic Analysis)和特征词聚类等。
【学位授予单位】:北京化工大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1
【参考文献】
相关期刊论文 前9条
1 吴云芳;王淼;金澎;俞士汶;;多分类器集成的汉语词义消歧研究[J];计算机研究与发展;2008年08期
2 胡和平;曾庆锐;路松峰;;中文词聚类研究[J];计算机工程与科学;2006年01期
3 孙茂松,左正平,邹嘉彦;基于k-近似的汉语词类自动判定[J];计算机学报;2000年02期
4 闻扬,苑春法,黄昌宁;基于搭配对的汉语形容词-名词聚类[J];中文信息学报;2000年06期
5 毛伟;徐蔚然;郭军;;基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统[J];中文信息学报;2006年03期
6 钟茂生;刘慧;刘磊;;词汇间语义相关关系量化计算方法[J];中文信息学报;2009年02期
7 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
8 冯扬;罗森林;潘丽敏;刘莉莉;陈开江;;基于概念簇的文本向量构建方法[J];通信学报;2010年S1期
9 宗成庆;曹右琦;俞士汶;;中文信息处理60年[J];语言文字应用;2009年04期
相关博士学位论文 前2条
1 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
2 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
本文编号:2530993
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2530993.html