词向量与LDA相融合的短文本分类方法
[Abstract]:[objective] to solve the problem of poor focus and serious characteristic sparsity in the short essay. This paper designs a short text classification method based on the combination of word vector and LDA subject model. [methods] Fine semantic modeling of short text is carried out at the level of "word" granularity and "text" granularity at the same time. Firstly, based on the Word2Vec training word vector and the additive averaging method, we synthesize the short text vector of word granularity level, train the LDA topic model based on Gibbs sampling method, and extend the feature of the short text according to the principle of maximum subject probability. Then, based on the word vector similarity, the extended feature weights are calculated to get the text vector at the granularity level of "text". Finally, a short text representation model combining word vector and LDA is constructed by vector splicing. On this basis, the nearest neighbor classification algorithm is used to complete the short text classification. [results] compared with the traditional vector space model, word vector and LDA topic model, these three classification methods are based on a single model. The accuracy rate of word vector and LDA fusion method was improved, and the recall rate and FK-1 value were increased by at least 3.741% and 3.9% respectively. [limitation] was only applied to nearest neighbor classifier. It has not been extended to many different classifiers, such as naive Bayes and support vector machines. [conclusion] based on the combination of word vector and LDA, the text representation model is used to classify. It can effectively overcome the problem of short text focus and feature sparsity, and improve the performance of short text classification.
【作者单位】: 中国人民解放军电子工程学院;
【基金】:国家自然科学基金项目“动态数据挖掘的构造性机器学习方法研究”(项目编号:61273302)的研究成果之一
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 胡吉明;陈果;;基于动态LDA主题模型的内容主题挖掘与演化[J];图书情报工作;2014年02期
2 刘培奇;孙捷焓;;基于LDA主题模型的标签传递算法[J];计算机应用;2012年02期
3 程艳花;谭怒涛;黄磊;王建英;;图像分块重构和LDA融合的人脸识别方法[J];计算机工程与应用;2009年27期
4 黄正鹏;;一种改进的LDA+算法[J];福建电脑;2008年08期
5 张燕平;窦蓉蓉;赵姝;曹振田;;基于集成学习的规范化LDA人脸识别[J];计算机工程;2010年14期
6 赵炜;陈俊杰;李海芳;;融合LDA和多类SVM的图像语义映射研究[J];计算机工程与应用;2009年18期
7 吴秀清;范丽亚;;基于QR分解和支持向量的伪逆LDA[J];聊城大学学报(自然科学版);2011年04期
8 郑世卓;崔晓燕;;基于半监督LDA的文本分类应用研究[J];软件;2014年01期
9 楚克明;李芳;;基于LDA话题关联的话题演化[J];上海交通大学学报;2010年11期
10 刘杰;张福生;冯达;;基于LDA的潜艇机械噪声识别算法研究[J];舰船电子工程;2013年04期
相关会议论文 前2条
1 楚克明;李芳;;基于LDA新闻话题的演化[A];第五届全国信息检索学术会议论文集[C];2009年
2 Jussi Koskinen;蔺春涛;高冬;;线阵探测器(LDA)的现状及发展趋势(英文)[A];2004年CT和三维成像学术年会论文集[C];2004年
相关硕士学位论文 前10条
1 陈小艳;融合结构信息的LDA扣件状态识别研究[D];西南交通大学;2015年
2 袁胜文;基于LDA的中文科技文献话题演化研究[D];河南工业大学;2015年
3 雷鹏;基于LDA的智能电视家庭成员识别方法研究[D];山东大学;2016年
4 杨帆;基于LDA主题模型和标签聚类的党建信息推送策略研究[D];云南大学;2016年
5 黄勇;改进的互信息与LDA结合的特征降维方法研究[D];华中师范大学;2016年
6 楚克明;基于LDA的新闻话题演化研究[D];上海交通大学;2010年
7 王敏;基于LDA主题模型的图像场景分类[D];西安电子科技大学;2013年
8 程龙龙;基于LDA的行为定向广告投放算法研究[D];辽宁大学;2014年
9 刘海旭;基于PCA和LDA的文本分类系统设计与实现[D];北京邮电大学;2013年
10 周振宇;基于LDA的微博与传统媒体的话题对比研究[D];上海交通大学;2013年
,本文编号:2159541
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2159541.html