基于HDP的监督多标签文本分类研究
本文选题:多标签 + 文本分类 ; 参考:《计算机工程与应用》2017年23期
【摘要】:随着互联网和信息技术的发展,大量的多标签文本数据快速产生。在文本分类中如何确定合适的分类数目以及如何更加准确地辨别文档的标签是亟待解决的问题。提出的HL_LDA模型通过层次狄利克雷过程自动确定分类的数目,通过发掘多标签文档的标签之间的层次信息提高分类的质量。实验结果表明在不同类型的数据集中,和经典的LDA,SVM等方法相比,HL_LDA在精度,F1-score等评估指标上明显优于现有的方法。
[Abstract]:With the development of Internet and information technology, a large number of multi-label text data are produced quickly.How to determine the appropriate number of classifiers and how to identify the tags of documents more accurately is an urgent problem in text categorization.The proposed HL_LDA model automatically determines the number of classification by the hierarchical Drickley process, and improves the quality of the classification by mining the hierarchical information between the tags of the multi-label document.The experimental results show that compared with the classical LDA-SVM method in different data sets, HLSP LDA is superior to the existing methods in accuracy evaluation such as F1-score.
【作者单位】: 武汉大学计算机学院;武汉大学软件工程国家重点实验室;
【基金】:青年科学基金项目(No.60903035) 国家自然科学基金(No.61572373) 国家重点研发计划(No.2017YFC0803808)
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 曹自强;李素建;;HDP与互信息相结合的中文无指导分词[J];中文信息学报;2013年06期
2 陈敏,汤晓安;在Microsoft Access中引入文本文件[J];微型电脑应用;1995年02期
3 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期
4 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期
5 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期
6 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
7 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期
8 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期
9 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期
10 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期
相关会议论文 前10条
1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
7 朱广飞;董超;王衡;汪国平;;照片标签的智能化管理[A];第四届和谐人机环境联合学术会议论文集[C];2008年
8 房冠南;袁彩霞;王小捷;李江;宋占江;;面向对话语料的标签推荐[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 梅放;林鸿飞;;基于社会化标签的移动音乐检索[A];第五届全国信息检索学术会议论文集[C];2009年
10 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
相关重要报纸文章 前1条
1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年
相关博士学位论文 前10条
1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年
2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年
3 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年
4 韩磊;汉语句义结构模型分析及其文本表示方法研究[D];北京理工大学;2016年
5 张博宇;基于局部特征的场景文本分析方法研究[D];哈尔滨工业大学;2015年
6 胡卉芪;空间文本数据的量质融合与推送[D];清华大学;2016年
7 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
8 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
9 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
10 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
相关硕士学位论文 前10条
1 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年
2 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年
3 董秦涛;基于文本的个人情感状态分析研究[D];兰州大学;2015年
4 钟文波;搜索引擎中关键词分类方法评估及推荐应用[D];华南理工大学;2015年
5 黄晨;基于新词识别和时间跨度的微博热点研究[D];上海交通大学;2015年
6 陈红阳;中文微博话题发现技术研究[D];重庆理工大学;2015年
7 王s,
本文编号:1771194
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1771194.html