当前位置:主页 > 科技论文 > 软件论文 >

词向量与LDA相融合的短文本分类方法

发布时间:2018-08-02 13:10
【摘要】:【目的】针对短文本主题聚焦性差以及严重的特征稀疏问题,设计一种基于词向量与LDA主题模型相融合的短文本分类方法。【方法】从"词"粒度及"文本"粒度层面同时对短文本进行精细语义建模,首先基于Word2Vec训练词向量并通过相加平均法合成"词"粒度层面的短文本向量,基于吉布斯采样法训练LDA主题模型并根据主题概率最大原则对短文本进行特征扩展,然后基于词向量相似度计算扩展特征权重得到"文本"粒度层面的短文本向量,最后通过向量拼接构建词向量与LDA相融合的短文本表示模型,在此基础上通过最近邻分类算法完成短文本分类。【结果】相比传统的基于向量空间模型、基于词向量、基于LDA主题模型这三种基于单一模型的分类方法,词向量与LDA相融合的分类方法准确率、召回率、F_1值均有提升,分别至少提升3.7%,4.1%和3.9%。【局限】仅应用于最近邻分类器,尚未推广应用到朴素贝叶斯和支持向量机等多种不同的分类器。【结论】基于词向量与LDA相融合的短文本表示模型进行分类,能有效克服短文本的主题聚焦性差及特征稀疏性问题,提高短文本分类性能。
[Abstract]:[objective] to solve the problem of poor focus and serious characteristic sparsity in the short essay. This paper designs a short text classification method based on the combination of word vector and LDA subject model. [methods] Fine semantic modeling of short text is carried out at the level of "word" granularity and "text" granularity at the same time. Firstly, based on the Word2Vec training word vector and the additive averaging method, we synthesize the short text vector of word granularity level, train the LDA topic model based on Gibbs sampling method, and extend the feature of the short text according to the principle of maximum subject probability. Then, based on the word vector similarity, the extended feature weights are calculated to get the text vector at the granularity level of "text". Finally, a short text representation model combining word vector and LDA is constructed by vector splicing. On this basis, the nearest neighbor classification algorithm is used to complete the short text classification. [results] compared with the traditional vector space model, word vector and LDA topic model, these three classification methods are based on a single model. The accuracy rate of word vector and LDA fusion method was improved, and the recall rate and FK-1 value were increased by at least 3.741% and 3.9% respectively. [limitation] was only applied to nearest neighbor classifier. It has not been extended to many different classifiers, such as naive Bayes and support vector machines. [conclusion] based on the combination of word vector and LDA, the text representation model is used to classify. It can effectively overcome the problem of short text focus and feature sparsity, and improve the performance of short text classification.
【作者单位】: 中国人民解放军电子工程学院;
【基金】:国家自然科学基金项目“动态数据挖掘的构造性机器学习方法研究”(项目编号:61273302)的研究成果之一
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 胡吉明;陈果;;基于动态LDA主题模型的内容主题挖掘与演化[J];图书情报工作;2014年02期

2 刘培奇;孙捷焓;;基于LDA主题模型的标签传递算法[J];计算机应用;2012年02期

3 程艳花;谭怒涛;黄磊;王建英;;图像分块重构和LDA融合的人脸识别方法[J];计算机工程与应用;2009年27期

4 黄正鹏;;一种改进的LDA+算法[J];福建电脑;2008年08期

5 张燕平;窦蓉蓉;赵姝;曹振田;;基于集成学习的规范化LDA人脸识别[J];计算机工程;2010年14期

6 赵炜;陈俊杰;李海芳;;融合LDA和多类SVM的图像语义映射研究[J];计算机工程与应用;2009年18期

7 吴秀清;范丽亚;;基于QR分解和支持向量的伪逆LDA[J];聊城大学学报(自然科学版);2011年04期

8 郑世卓;崔晓燕;;基于半监督LDA的文本分类应用研究[J];软件;2014年01期

9 楚克明;李芳;;基于LDA话题关联的话题演化[J];上海交通大学学报;2010年11期

10 刘杰;张福生;冯达;;基于LDA的潜艇机械噪声识别算法研究[J];舰船电子工程;2013年04期

相关会议论文 前2条

1 楚克明;李芳;;基于LDA新闻话题的演化[A];第五届全国信息检索学术会议论文集[C];2009年

2 Jussi Koskinen;蔺春涛;高冬;;线阵探测器(LDA)的现状及发展趋势(英文)[A];2004年CT和三维成像学术年会论文集[C];2004年

相关硕士学位论文 前10条

1 陈小艳;融合结构信息的LDA扣件状态识别研究[D];西南交通大学;2015年

2 袁胜文;基于LDA的中文科技文献话题演化研究[D];河南工业大学;2015年

3 雷鹏;基于LDA的智能电视家庭成员识别方法研究[D];山东大学;2016年

4 杨帆;基于LDA主题模型和标签聚类的党建信息推送策略研究[D];云南大学;2016年

5 黄勇;改进的互信息与LDA结合的特征降维方法研究[D];华中师范大学;2016年

6 楚克明;基于LDA的新闻话题演化研究[D];上海交通大学;2010年

7 王敏;基于LDA主题模型的图像场景分类[D];西安电子科技大学;2013年

8 程龙龙;基于LDA的行为定向广告投放算法研究[D];辽宁大学;2014年

9 刘海旭;基于PCA和LDA的文本分类系统设计与实现[D];北京邮电大学;2013年

10 周振宇;基于LDA的微博与传统媒体的话题对比研究[D];上海交通大学;2013年



本文编号:2159541

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2159541.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3d8a6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com