当前位置:主页 > 科技论文 > 软件论文 >

结合词向量和聚类算法的新闻评论话题演进分析

发布时间:2018-10-29 18:53
【摘要】:话题演进分析主要是挖掘话题内容随着时间流的演进情况。话题的内容可用关键词来表示。利用word2vec对75万篇新闻和微博文本进行训练,得到词向量模型。将文本流处理后输入模型,获得时间序列下所有词汇的词向量,利用K-means对词向量进行聚类,从而实现话题关键词的抽取。实验对比了基于PLSA和LDA主题模型下的话题抽取效果,发现本文的话题分析效果优于主题模型的方法。同时,采集足够大量、内容足够丰富的语料,可训练得到泛化能力比较强的模型,有利于实时话题演进分析研究工作。
[Abstract]:The analysis of topic evolution is mainly to excavate the evolution of topic content with time flow. The content of the topic can be expressed by key words. Using word2vec to train 750000 news articles and Weibo texts, a word vector model is obtained. After the text flow is processed, the word vectors of all the words in the time series are obtained, and the word vectors are clustered by K-means to extract the topic keywords. The results of topic extraction based on PLSA and LDA are compared, and it is found that the method of topic analysis is better than that of topic model. At the same time, we can train the model with strong generalization ability by collecting enough data and abundant data, which is beneficial to the research work of real-time topic evolution analysis.
【作者单位】: 广东外语外贸大学语言工程与计算实验室;广东外语外贸大学思科信息学院;
【基金】:国家社科基金项目(12BYY045) 广东省哲学社会科学“十二五”规划项目(GD15YTS01)
【分类号】:TP391.1

【相似文献】

相关会议论文 前2条

1 周小亮;;和谐视角下西方主流经济理论对体制改革绩效评价的理论演进分析[A];中华外国经济学说研究会第19次年会暨外国经济学说与国内外经济发展新格局(会议文集)[C];2011年

2 王言鑫;;基于投影寻踪-协调度模型的社会经济复合系统可持续发展能力演进分析——以大连市为例[A];地理学与生态文明建设——中国地理学会2008年学术年会论文摘要集[C];2008年

相关硕士学位论文 前1条

1 于兆永;生产性服务业集聚演进分析[D];重庆工商大学;2012年



本文编号:2298510

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2298510.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1b993***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com