当前位置:主页 > 科技论文 > 软件论文 >

基于集成学习的标题分类算法研究

发布时间:2018-02-25 09:19

  本文关键词: 自然语言处理 标题分类 集成学习 改进随机森林 OOB二维权重分布 出处:《计算机应用研究》2017年04期  论文类型:期刊论文


【摘要】:标题分类是对一个标题性语句进行分类,通常这个标题是不超过20个字的短文本,内容精炼且概括性强。针对标题文本的特征稀疏性和含义不确定性,提出了一种融合随机森林与贝叶斯多项式的标题分类算法。该算法将贝叶斯多项式模型引入到随机森林底层分类器构建过程中,同时利用随机森林附带的OOB数据提出了一种基于二维权重分布的投票机制。最后在图书馆真实书目数据上进行实验,针对分类性能与当前基于LDA主题扩展的SVM算法进行对比,实验结果表明在一定条件下,该方法性能稳定、表现较佳。
[Abstract]:Title categorization is the classification of a title statement, usually a short text with no more than 20 words, which is concise and general. A title classification algorithm combining stochastic forest and Bayesian polynomials is proposed, in which Bayesian polynomial model is introduced into the process of constructing stochastic forest classifier. At the same time, a voting mechanism based on two-dimensional weight distribution is proposed by using the OOB data attached to random forest. Finally, an experiment is carried out on the real bibliographic data of the library, and the classification performance is compared with the current SVM algorithm based on the extension of LDA topic. The experimental results show that the performance of this method is stable and good under certain conditions.
【作者单位】: 宁波大学信息科学与工程学院;
【基金】:国家社会科学基金资助项目(15FTQ002)
【分类号】:TP391.1

【参考文献】

相关期刊论文 前4条

1 葛文镇;刘柏嵩;王洋洋;赵福青;;基于层级类别信息的标题自动分类研究[J];计算机应用研究;2016年07期

2 吕超镇;姬东鸿;吴飞飞;;基于LDA特征扩展的短文本分类[J];计算机工程与应用;2015年04期

3 翟延冬;王康平;张东娜;黄岚;周春光;;一种基于WordNet的短文本语义相似性算法[J];电子学报;2012年03期

4 宁亚辉;樊兴华;吴渝;;基于领域词语本体的短文本分类[J];计算机科学;2009年03期

【共引文献】

相关期刊论文 前10条

1 史庆伟;刘雨诗;张丰田;;基于微博文本的词对主题演化模型[J];计算机应用;2017年05期

2 张磊;;文本分类及分类算法研究综述[J];电脑知识与技术;2016年34期

3 黄贤英;李沁东;刘英涛;;结合词性的短文本相似度算法及其在文本分类中的应用[J];电讯技术;2017年01期

4 郝伟学;于剑;周雪忠;;本体对齐技术概述及其在中医领域的应用探讨[J];世界科学技术-中医药现代化;2017年01期

5 张谦;高章敏;刘嘉勇;;基于Word2vec的微博短文本分类研究[J];信息网络安全;2017年01期

6 段旭磊;张仰森;郭正斌;;微博文本聚类中特征扩展策略研究[J];计算机工程与应用;2017年13期

7 储涛涛;;基于LDA主题模型的用户兴趣发现方法[J];软件;2016年12期

8 王震;代岩岩;陈亮;林晓兰;;基于LDA模型的95598热点业务工单挖掘分析[J];电子技术与软件工程;2016年22期

9 张群;王红军;王伦文;;一种结合上下文语义的短文本聚类算法[J];计算机科学;2016年S2期

10 李湘东;刘康;丁丛;廖香鹏;;基于知网语义特征扩展的题名信息分类[J];图书馆杂志;2017年02期

【二级参考文献】

相关期刊论文 前10条

1 姚长青;杜永萍;;降维技术在专利文本聚类中的应用研究[J];情报学报;2014年05期

2 张素智;刘婧姣;;基于语义的KNN短文本分类算法研究[J];郑州轻工业学院学报(自然科学版);2012年06期

3 何力;贾焰;韩伟红;谭霜;陈志坤;;大规模层次分类问题研究及其进展[J];计算机学报;2012年10期

4 翟延冬;王康平;张东娜;黄岚;周春光;;一种基于WordNet的短文本语义相似性算法[J];电子学报;2012年03期

5 刘金岭;严云洋;;基于上下文的短信文本分类方法[J];计算机工程;2011年10期

6 姚全珠;宋志理;彭程;;基于LDA模型的文本分类研究[J];计算机工程与应用;2011年13期

7 祝翠玲;马军;张冬梅;;面向层次分类的文本特征选择方法[J];模式识别与人工智能;2011年01期

8 鲁婷;王浩;姚宏亮;;一种基于中心文档的KNN中文文本分类算法[J];计算机工程与应用;2011年02期

9 张东娜;周春光;刘彦斌;郭东伟;;一种基于WordNet和Corpus Statistics的语义相似性计算方法[J];吉林大学学报(理学版);2010年05期

10 贺涛;曹先彬;谭辉;;基于免疫的中文网络短文本聚类算法[J];自动化学报;2009年07期

【相似文献】

相关期刊论文 前10条

1 袁汉宁;;双层多示例集成学习[J];武汉理工大学学报(信息与管理工程版);2011年05期

2 俞扬;周志华;;集成学习中完全随机学习策略研究[J];计算机工程;2006年17期

3 张沧生;崔丽娟;杨刚;倪志宏;;集成学习算法的比较研究[J];河北大学学报(自然科学版);2007年05期

4 陈凯;;基于聚类技术的集成学习差异性研究[J];南京工业职业技术学院学报;2008年04期

5 李凯;崔丽娟;;集成学习算法的差异性及性能比较[J];计算机工程;2008年06期

6 潘志松;燕继坤;;少数类的集成学习[J];南京航空航天大学学报;2009年04期

7 陈凯;马景义;;一种选择性SER-BagBoosting Trees集成学习研究[J];计算机科学;2009年09期

8 陈全;赵文辉;李洁;江雨燕;;选择性集成学习算法的研究[J];计算机技术与发展;2010年02期

9 张燕平;曹振田;赵姝;郑尧军;杜玲;窦蓉蓉;;一种新的决策树选择性集成学习方法[J];计算机工程与应用;2010年17期

10 饶峰;;核机器集成学习算法的误差分析[J];重庆文理学院学报(自然科学版);2010年04期

相关会议论文 前4条

1 关菁华;刘大有;贾海洋;;自适应多分类器集成学习算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年

2 刘伍颖;王挺;;一种多过滤器集成学习垃圾邮件过滤方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

3 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年

4 李烨;蔡云泽;许晓鸣;;基于支持向量机集成的故障诊断[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年

相关博士学位论文 前10条

1 阿里木·赛买提(Alim.Samat);基于集成学习的全极化SAR图像分类研究[D];南京大学;2015年

2 王永明;集成回归问题若干关键技术研究[D];华东师范大学;2015年

3 常征;基于混合集成学习的眼部与四肢交互动作建模与识别[D];北京科技大学;2016年

4 张春霞;集成学习中有关算法的研究[D];西安交通大学;2010年

5 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年

6 尹华;面向高维和不平衡数据分类的集成学习研究[D];武汉大学;2012年

7 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年

8 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年

9 侯勇;特征提取与集成学习算法的研究及应用[D];北京科技大学;2015年

10 李烨;基于支持向量机的集成学习研究[D];上海交通大学;2007年

相关硕士学位论文 前10条

1 高伟;基于半监督集成学习的情感分类方法研究[D];苏州大学;2015年

2 宋文展;基于抽样的集成进化算法研究[D];广西大学;2015年

3 汤莹;迁移与集成学习在文本分类中的应用研究[D];江苏科技大学;2015年

4 刘政;基于知识元和集成学习的中文微博情感分析[D];大连理工大学;2015年

5 丘桥云;结合文本倾向性分析的股评可信度计算研究[D];哈尔滨工业大学;2014年

6 秦海;融合非标记样本选择的集成学习研究[D];湘潭大学;2015年

7 李想;基于多示例的集成学习理论与应用研究[D];合肥工业大学;2014年

8 李震宇;基于集成学习的数字图像隐写定量分析[D];解放军信息工程大学;2014年

9 王希玲;基于选择性集成学习的网络入侵检测方法研究[D];青岛科技大学;2016年

10 陈范曙;基于信息整合的药物相关信息挖掘方法研究[D];华东师范大学;2016年



本文编号:1533841

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1533841.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5eb60***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com