LSI__LDA:一种混合特征降维方法
发布时间:2018-02-16 09:53
本文关键词: 文本分类 特征降维 潜在语义索引 潜在狄利克雷分配 出处:《计算机应用研究》2017年08期 论文类型:期刊论文
【摘要】:LDA没有考虑到数据输入,在原始输入空间上对所有词进行主题标签,因对非作用词同样分配主题,致使主题分布不精确。针对其不足,提出了一种结合LSI和LDA的特征降维方法,预先采用LSI将原始词空间映射到语义空间,再根据语义关系筛选出原始特征集中关键的特征,最后通过LDA模型在更小、更切题的文档子集上采样建模。对复旦大学中文语料进行文本分类,新方法的分类精度较单独使用LDA模型的效果提高了1.50%。实验表明提出的LSI__LDA模型在文本分类中有更好的分类性能。
[Abstract]:LDA does not take data input into account, and labels all words in the original input space, so the topic distribution is imprecise because of the same assignment of topics to non-functional words. In view of its inadequacies, a method of feature dimensionality reduction combining LSI and LDA is proposed. The original word space is mapped to the semantic space by LSI in advance, and then the key features in the original feature set are selected according to the semantic relations. Finally, through the LDA model, the features are smaller. Sample modeling on a more topical subset of documents. Text categorization of the Chinese corpus of Fudan University, The accuracy of the new method is 1.50% higher than that of using LDA model alone. The experimental results show that the proposed LSI__LDA model has better classification performance in text classification.
【作者单位】: 辽宁工程技术大学软件学院;
【基金】:国家自然科学基金青年科学基金资助项目(61401185) 辽宁省教育厅科学研究一般项目(L2013133)
【分类号】:TP391.1
【参考文献】
相关期刊论文 前5条
1 李锋刚;梁钰;GAO Xiao-zhi;ZENGER Kai;;基于LDA-wSVM模型的文本分类研究[J];计算机应用研究;2015年01期
2 沈竞;;基于信息增益的LDA模型的短文本分类[J];重庆文理学院学报(自然科学版);2011年06期
3 徐戈;王厚峰;;自然语言处理中主题模型的发展[J];计算机学报;2011年08期
4 曹娟;张勇东;李锦涛;唐胜;;一种基于密度的自适应最优LDA模型选择方法[J];计算机学报;2008年10期
5 李文波;孙乐;张大鲲;;基于Labeled-LDA模型的文本分类新算法[J];计算机学报;2008年04期
相关硕士学位论文 前1条
1 于成龙;基于特征提取的特征选择研究[D];南京邮电大学;2011年
【共引文献】
相关期刊论文 前10条
1 苏婧琼;刘建霞;谢s,
本文编号:1515236
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1515236.html