基于LDA的弱监督文本分类方法
本文选题:文本分类 + 潜在狄利克雷分布 ; 参考:《计算机工程与设计》2017年01期
【摘要】:针对传统的文本分类方法需要大量人工标注好的训练数据,且数据标注的好坏会影响结果等问题,通过对LDA及其相关模型的研究,提出一种基于LDA的弱监督文本分类算法。无需人工标注训练数据,在处理文本时,引入词向量,保持文本中的词序,加入二元语法。实验结果表明,该方法节省了人力、物力,取得了较优效果。
[Abstract]:Based on the research of LDA and its correlation model , a weak supervised text classification algorithm based on LDA is proposed for the traditional text classification method , and a weak supervised text classification algorithm based on LDA is proposed .
【作者单位】: 郑州大学信息工程学院;
【基金】:国家社会科学基金项目(14BYY096) 国家自然科学基金项目(61402419、61272221) 国家863高技术研究发展计划基金项目(2012AA011101) 计算语言学教育部重点实验室(北京大学)开放课题基金项目(201401) 国家973重点基础研究发展计划基金项目(2014CB340504) 河南省高等学校重点科研基金项目(15A520098)
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 陈林;杨丹;;独立于语种的文本分类方法[J];计算机工程与科学;2008年06期
2 张燕平;徐庆鹏;苏守宝;邢猛;;一种基于贪婪覆盖的文本分类方法[J];计算机技术与发展;2009年01期
3 焦庆争;蔚承建;;一种基于特征投票的文本分类方法[J];计算机工程;2010年09期
4 孟海东;张炼;吕海林;;基于图模型的文本分类方法的研究[J];计算机与现代化;2010年09期
5 仲兆满;李存华;;基于重要事件的文本分类方法研究[J];微电子学与计算机;2012年03期
6 赫芳;王洋;;网络的简监督文本分类方法[J];计算机与网络;2012年17期
7 朱志宁;万小容;黄青松;;一种改进的基于信噪比的文本分类方法[J];宁波广播电视大学学报;2005年04期
8 朱斐;刁红军;吕强;;一种富文本分类方法的设计和实现[J];计算机应用与软件;2007年12期
9 台德艺;谢飞;胡学钢;;新的基于簇划分文本分类方法[J];计算机工程与设计;2009年06期
10 杨林波;王士同;;基于类别分布特征的快速文本分类方法[J];计算机工程与设计;2009年05期
相关会议论文 前9条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 姚天f ;彭思崴;;汉语主客观文本分类方法的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 李月伦;李湘;常宝宝;袁毓林;;一种基于认知情景框架的文本分类方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
4 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 陈毅恒;秦兵;刘挺;林建国;李生;;基于错误预测的文本分类方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
6 宋鑫颖;周志逵;;一种基于SVM的主动学习文本分类方法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
7 卢娇丽;郑家恒;;基于粗糙集的文本分类方法研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
9 张政;周水庚;周傲英;;一种新的基于kNN和Rocchio的文本分类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
相关硕士学位论文 前10条
1 江大鹏;基于词向量的短文本分类方法研究[D];浙江大学;2015年
2 陈远超;基于MapReduce的大数据文本分类方法研究[D];浙江师范大学;2015年
3 年素磊;自由文本分类技术研究[D];南京大学;2014年
4 谭建平;基于半监督的SVM迁移学习文本分类方法[D];广东工业大学;2016年
5 黄旭;基于机器学习的汉语短文本分类方法研究与实现[D];黑龙江大学;2016年
6 朱斐;一种富文本分类方法的研究与实现[D];苏州大学;2006年
7 李萍;基于改进词语权重的文本分类方法研究[D];东北师范大学;2010年
8 王燕霞;基于相关主题模型的文本分类方法研究[D];苏州大学;2010年
9 张建兴;一种提取类核的快速文本分类方法[D];兰州理工大学;2010年
10 陈林;独立于语种的文本分类方法[D];重庆大学;2007年
,本文编号:1983738
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1983738.html