基于松弛策略的文本层次分类体系构建与分类方法研究
本文关键词:基于松弛策略的文本层次分类体系构建与分类方法研究,由笔耕文化传播整理发布。
【摘要】:随着数字化信息资源的日益增长,大量的文本数据不断涌现,为了有效的管理和使用这些文本数据,人们提出了文本自动分类技术,它可以处理和组织庞大的非结构化的文本数据,提高文本数据的检索效率。通常的文本分类多采用平面分类方法,当文本数量和类别数量较多时,平面分类方法的分类性能急剧下降,尤其表现在分类时间上。层次分类被用在文本的多类分类任务中,在保证分类准确率基本不受影响的前提下,文本层次分类的分类速度更快。为了进一步提高文本层次分类的准确率,在文本层次结构构建方面,本文提出了基于松弛策略的层次结构构建算法,并且针对层次结构的特点提出了基于松弛策略层次结构的软决策分类算法。另外,本文尝试了将不同的文本特征提取方法应用在层次分类任务中。本文的主要工作包括:(1)层次分类中“阻滞”问题的解决——松弛策略文本层次分类中普遍存在“阻滞”问题,为了进一步提高准确性,缓解“阻滞”问题引起的性能下降问题,本文对文本层次结构构建方法进行研究和改进,提出了基于松弛策略的层次结构构建方法,并在该层次结构上进行文本层次分类。(2)提高层次分类性能——软决策方法利用文本层次方法得到的最终的分类结果并不一定是全局最优的,再加上“阻滞”问题的存在,使得文本层次分类的准确率普遍较低。对此,本文在松弛策略层次结构中使用软决策方法进行文本层次分类,并且针对松弛策略层次结构自身的特点,对层次分类算法进行改进,从而进一步提高了文本层次分类性能。(3)特征选择与特征计算方法的有效运用——最小信息熵理论(LIT)本文对不同的文本特征提取方法进行了尝试,引入了最小信息熵模型LIT(Least Information Theory),考查不同的特征提取方法对文本层次分类算法的适用性。在特征选择方面,引入了最少信息增益LIG(Least Information Gain)进行实验;在特征计算方面,本文引入了最少信息熵理论中的LIB(Least Information Binary)、LIF(Least Information Frequency)、LIB*LIF方法进行实验。实验结果表明,使用本文提出的方法构建出来的文本层次结构更加合理,在该结构上使用软决策方法进行层次分类算法改进后,分类准确性逐步提升,性能优于传统的分类算法。同时,LIT特征选择和特征计算方法的引入能够大幅度提升分类性能。
【关键词】:松弛策略 软决策 层次构建 层次分类 特征提取
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要4-5
- Abstract5-10
- 第1章 绪论10-20
- 1.1 选题背景和研究意义10-11
- 1.2 国内外研究现状11-17
- 1.2.1 文本特征提取11-12
- 1.2.2 文本层次结构构建12-15
- 1.2.3 文本层次分类15-17
- 1.3 本文主要的研究内容17-18
- 1.4 本文组织结构18-20
- 第2章 文本分类知识20-30
- 2.1 文本分类概述20-21
- 2.2 文本特征提取方法21-25
- 2.2.1 特征选择22-24
- 2.2.2 特征计算24-25
- 2.3 文本分类方法25-29
- 2.3.1 支持向量机25-26
- 2.3.2 朴素贝叶斯26-27
- 2.3.3 决策树27-28
- 2.3.4 随机森林28-29
- 2.3.5 k-近邻29
- 2.4 本章小结29-30
- 第3章 基于松弛策略的层次结构构建方法30-38
- 3.1 松弛策略类别分割30-32
- 3.1.1 K-Means聚类30
- 3.1.2 松弛策略30-31
- 3.1.3 基于松弛因子的类别分割31-32
- 3.2 层次结构构建32-34
- 3.3 节点分类器训练34-36
- 3.3.1 分类器训练集划分34-35
- 3.3.2 分类器训练算法35-36
- 3.4 本章小结36-38
- 第4章 基于软决策的层次分类方法38-48
- 4.1 基于LIT(Least Information Theory)的特征计算方法38-39
- 4.1.1 最少信息熵(LIT)模型38-39
- 4.1.2 最少信息熵二项模型39
- 4.1.3 最少信息熵频率模型39
- 4.2 基于LIG(Least Information Gain)的特征选择方法39-40
- 4.2.1 最少信息增益(LIG)模型39-40
- 4.2.2 DF*LIG特征选择方法40
- 4.2.3 DF*IG特征选择方法40
- 4.3 软决策层次分类40-43
- 4.3.1 软决策方法40-42
- 4.3.2 基于软决策的层次分类算法42-43
- 4.4 松弛策略层次结构中的应用43-46
- 4.4.1 基于松弛策略层次结构的改进43-44
- 4.4.2 基于松弛策略层次结构的软决策分类算法44-46
- 4.5 本章小结46-48
- 第5章 实验结果与分析48-72
- 5.1 数据集48-50
- 5.1.1 路透社新闻故事语料库(RCV1)48-49
- 5.1.2 谭松波中文文本分类语料库(TanCorp)49-50
- 5.2 层次结构构建结果50-57
- 5.3 性能评测标准57-58
- 5.4 基于松弛策略的层次结构构建方法评测58-66
- 5.4.1 参数 对分类性能的影响58-59
- 5.4.2 与其他分类方法的性能比较59-60
- 5.4.3 特征数量对分类性能的影响60-62
- 5.4.4 特征选择方法对分类性能的影响62-63
- 5.4.5 特征计算方法对分类性能的影响63-64
- 5.4.6 不同类型的节点分类器对分类性能的影响64-66
- 5.5 基于软决策的层次分类方法评测66-69
- 5.5.1 基于软决策的层次分类算法评测66-68
- 5.5.2 基于松弛策略层次结构的软决策分类算法评测68-69
- 5.6 层次分类方法之间的性能比较69-71
- 5.7 本章小结71-72
- 结论72-74
- 参考文献74-78
- 攻读硕士期间的主要科研成果78-80
- 致谢80
【相似文献】
中国期刊全文数据库 前10条
1 王义章;层次分类模型的构造及实现[J];计算机应用研究;1994年04期
2 陆彦婷;陆建峰;杨静宇;;层次分类方法综述[J];模式识别与人工智能;2013年12期
3 古平;罗志恒;欧阳源怞;;基于增量模式的文档层次分类研究[J];计算机工程;2014年01期
4 何力;丁兆云;贾焰;韩伟红;;大规模层次分类中的候选类别搜索[J];计算机学报;2014年01期
5 谭金波;;一种改进的文档层次分类方法[J];现代图书情报技术;2007年02期
6 古平;朱庆生;张程;庄致;;一种融合本体和上下文的自适应层次分类模型[J];北京理工大学学报;2009年10期
7 史铁林,王雪,何涛,杨叔子;层次分类诊断模型[J];华中理工大学学报;1993年01期
8 张金;王桥;陈卓宁;;基于规则动态解析的层次分类树控件[J];机械工程师;2007年01期
9 李文;苗夺谦;卫志华;王炜立;;基于阻塞先验知识的文本层次分类模型[J];模式识别与人工智能;2010年04期
10 高波;赵政;;文本层次分类系统的研究[J];计算机工程与应用;2006年11期
中国重要会议论文全文数据库 前1条
1 周毅;江云亮;张铭;熊宇红;冯是聪;;基于“链接”层次分类的主题爬取[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
中国博士学位论文全文数据库 前2条
1 何力;面向互联网文本的大规模层次分类技术研究[D];国防科学技术大学;2014年
2 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
中国硕士学位论文全文数据库 前10条
1 朱丽;基于层次分类的病性分析[D];南京理工大学;2015年
2 杜晓燕;基于松弛策略的文本层次分类体系构建与分类方法研究[D];北京工业大学;2016年
3 张薇娟;基于模糊认知图的分步文本层次分类研究[D];天津师范大学;2008年
4 肖雪;中文文本层次分类研究及其在唐诗分类中的应用[D];重庆大学;2006年
5 孔照昆;中文文本层次分类方法研究及应用[D];扬州大学;2013年
6 王栋;基于SVM的分类方法在内容管理中的应用[D];西北大学;2006年
7 谷峰;中文网页层次分类研究[D];华侨大学;2007年
8 李慧;蛋白质功能预测的层次化分类方法研究[D];吉林大学;2010年
9 白振田;基于向量空间模型与规则匹配相结合的文本层次分类系统的研究[D];南京农业大学;2006年
10 蔺燕;西藏民族学院分层次分类型教学研究[D];西藏民族学院;2014年
本文关键词:基于松弛策略的文本层次分类体系构建与分类方法研究,由笔耕文化传播整理发布。
,本文编号:432132
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/432132.html