基于集成学习的短文本主客观分类研究
本文关键词:基于集成学习的短文本主客观分类研究
更多相关文章: 主客观分类 集成学习 动态集成 Bagging
【摘要】:随着信息化的进一步发展,人们迫切需要一种能够在短时间内从海量文本中获取有用知识的技术。为此,搜索引擎、自动摘要、意见挖掘、观点句抽取等信息提取技术得到了飞速发展。主客观分类作为文本分类中的基础问题,也受到广大研究者们的重视。传统主客观分类一般采用机器学习方法进行训练和分类,但由于中文文本内在的复杂性,使用传统机器学习进行主客观分类的性能遇到了瓶颈。本文在主客观分类中引入集成学习思想,将有利于提高分类器的泛化能力,同时也有助于改善分类的准确性和稳定性。本文使用集成学习方法解决主客观分类问题,首先介绍了主客观分类方法和集成学习相关理论知识,然后根据主客观文本的基本特征进行集成分类器的构建工作,主要完成了以下的研究内容:(1)收集和整理了主观线索特征,引入主观线索密度的概念,并描述了文本主观线索密度的计算方法。在此基础上,将文本依据主观线索特征进行划分,并使用朴素贝叶斯分类器进行主客观分类工作。最后针对上述分类器提出了一种基于Bagging方法的集成化方案。实验结果表明,基于主观线索特征进行主客观分类的方法具有一定的效果,在集成学习环境下表现更佳。同时这种分类方法对新测试样本具有良好的适应性。(2)针对文本中的词汇、词性、语义依存等多类特征,本文将其融合后进行主客观分类。对各类特征进行CHI值的计算并排序,确定各类特征的最优特征维度。在融合实验中,为了达到更好的效果,尝试各种特征组合方式进行实验,并最终确定了较优的特征组合方式。为了应对复杂多变的主客观分类问题,本文将动态集成学习引入到主客观分类问题中,提出一种改进的动态集成分类方法。这种方法能够针对特定区域的分类样本进行基分类器的重选择。实验数据表明,与传统主客观分类方法比较,在使用动态集成学习方法后,分类效果较好,尤其是在准确率指标上有较大提升。
【关键词】:主客观分类 集成学习 动态集成 Bagging
【学位授予单位】:安徽工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要4-5
- Abstract5-8
- 第一章 绪论8-13
- 1.1 研究背景及意义8-9
- 1.2 主客观分类研究现状9-10
- 1.3 集成学习研究现状10-11
- 1.4 本文研究内容11
- 1.5 论文组织结构11-13
- 第二章 相关理论概述13-25
- 2.1 主客观分类13-16
- 2.1.1 主客观分类问题描述13
- 2.1.2 主客观分类流程13-16
- 2.2 文本分类方法16-18
- 2.2.1 朴素贝叶斯分类器16-17
- 2.2.2 支持向量机基分类器17-18
- 2.2.3 KNN分类方法18
- 2.3 集成学习理论基础18-24
- 2.3.1 集成学习的概念18-19
- 2.3.2 集成学习的作用19-20
- 2.3.3 集成学习的有效性原理20-21
- 2.3.4 集成学习的主要算法21-24
- 2.4 本章小结24-25
- 第三章 基于主观线索的集成主客观分类25-36
- 3.1 主观线索特征25-27
- 3.2 文本线索密度的计算27-28
- 3.3 基于线索密度的集成主客观分类28-32
- 3.3.1 基于朴素贝叶斯的主客观分类28-29
- 3.3.2 朴素贝叶斯分类器集成29-32
- 3.4 实验结果与分析32-35
- 3.4.1 实验设置32-33
- 3.4.2 结果分析33-35
- 3.5 本章小结35-36
- 第四章 基于融合特征的动态集成主客观分类36-50
- 4.1 主客观分类特征36-38
- 4.2 主客观特征选择38-40
- 4.2.1 特征选择流程38-39
- 4.2.2 基于CHI统计量的特征选择39-40
- 4.3 动态集成主客观分类器构建40-46
- 4.3.1 动态集成框架40-41
- 4.3.2 两类动态集成学习方法的比较41-43
- 4.3.3 基于KNN和k-means的改进动态集成学习43-46
- 4.4 实验结果与分析46-49
- 4.4.1 实验设置46
- 4.4.2 结果分析46-49
- 4.5 本章小结49-50
- 第五章 总结与展望50-52
- 5.1 总结50
- 5.2 展望50-52
- 参考文献52-56
- 在学研究成果56-57
- 致谢57
【相似文献】
中国期刊全文数据库 前10条
1 袁汉宁;;双层多示例集成学习[J];武汉理工大学学报(信息与管理工程版);2011年05期
2 俞扬;周志华;;集成学习中完全随机学习策略研究[J];计算机工程;2006年17期
3 张沧生;崔丽娟;杨刚;倪志宏;;集成学习算法的比较研究[J];河北大学学报(自然科学版);2007年05期
4 陈凯;;基于聚类技术的集成学习差异性研究[J];南京工业职业技术学院学报;2008年04期
5 李凯;崔丽娟;;集成学习算法的差异性及性能比较[J];计算机工程;2008年06期
6 潘志松;燕继坤;;少数类的集成学习[J];南京航空航天大学学报;2009年04期
7 陈凯;马景义;;一种选择性SER-BagBoosting Trees集成学习研究[J];计算机科学;2009年09期
8 陈全;赵文辉;李洁;江雨燕;;选择性集成学习算法的研究[J];计算机技术与发展;2010年02期
9 张燕平;曹振田;赵姝;郑尧军;杜玲;窦蓉蓉;;一种新的决策树选择性集成学习方法[J];计算机工程与应用;2010年17期
10 饶峰;;核机器集成学习算法的误差分析[J];重庆文理学院学报(自然科学版);2010年04期
中国重要会议论文全文数据库 前4条
1 关菁华;刘大有;贾海洋;;自适应多分类器集成学习算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 刘伍颖;王挺;;一种多过滤器集成学习垃圾邮件过滤方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
4 李烨;蔡云泽;许晓鸣;;基于支持向量机集成的故障诊断[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 阿里木·赛买提(Alim.Samat);基于集成学习的全极化SAR图像分类研究[D];南京大学;2015年
2 王永明;集成回归问题若干关键技术研究[D];华东师范大学;2015年
3 常征;基于混合集成学习的眼部与四肢交互动作建模与识别[D];北京科技大学;2016年
4 张春霞;集成学习中有关算法的研究[D];西安交通大学;2010年
5 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
6 尹华;面向高维和不平衡数据分类的集成学习研究[D];武汉大学;2012年
7 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
8 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年
9 侯勇;特征提取与集成学习算法的研究及应用[D];北京科技大学;2015年
10 李烨;基于支持向量机的集成学习研究[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 高伟;基于半监督集成学习的情感分类方法研究[D];苏州大学;2015年
2 宋文展;基于抽样的集成进化算法研究[D];广西大学;2015年
3 汤莹;迁移与集成学习在文本分类中的应用研究[D];江苏科技大学;2015年
4 刘政;基于知识元和集成学习的中文微博情感分析[D];大连理工大学;2015年
5 丘桥云;结合文本倾向性分析的股评可信度计算研究[D];哈尔滨工业大学;2014年
6 秦海;融合非标记样本选择的集成学习研究[D];湘潭大学;2015年
7 李想;基于多示例的集成学习理论与应用研究[D];合肥工业大学;2014年
8 李震宇;基于集成学习的数字图像隐写定量分析[D];解放军信息工程大学;2014年
9 王希玲;基于选择性集成学习的网络入侵检测方法研究[D];青岛科技大学;2016年
10 陈范曙;基于信息整合的药物相关信息挖掘方法研究[D];华东师范大学;2016年
,本文编号:749275
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/749275.html