基于词嵌入与概率主题模型的社会媒体话题识别
[Abstract]:Word embedding technology can capture the semantic information of words from large corpus and combine it with probabilistic topic model to solve the problem of lack of semantic information in standard subject model. Therefore, the word-topic mixed model is constructed by improving the word embedding and topic model. An external corpus is introduced into the topic embedding (TWE) model to obtain the initial topic and word representation. By defining the conditional probability distribution of the topic vector and word embedding, the feature representation and the topic vector are integrated into the topic model. At the same time, the KL divergence of neologism-theme distribution function and original word-theme distribution function is minimized. Experimental results show that the proposed model performs better in word representation and topic detection than Word2vec,TWE,LDA and LFLDA models.
【作者单位】: 深圳大学计算机与软件学院;
【基金】:国家自然科学基金(61472258) 深圳市基础研究计划项目(JCYJ20140509172609162)
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 周亦鹏;杜军平;;基于时空情境模型的主题跟踪[J];华南理工大学学报(自然科学版);2012年08期
2 何利益;陆国锋;罗鹏;;动态新闻主题信息推荐系统设计[J];指挥信息系统与技术;2013年04期
3 张宇;宋巍;刘挺;李生;;基于URL主题的查询分类方法[J];计算机研究与发展;2012年06期
4 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
5 吕聚旺;都云程;王弘蔚;施水才;;基于新型主题信息量化方法的Web主题信息提取研究[J];现代图书情报技术;2008年12期
6 刘艳敏;刘飚;封化民;宋国森;方勇;;Web页面主题信息抽取研究与实现[J];计算机工程与应用;2006年21期
7 姚双良;;基于主题的Deep Web聚焦爬虫研究与设计[J];西北师范大学学报(自然科学版);2013年02期
8 王鑫;;元数据在主题信息网关中的应用[J];情报探索;2009年05期
9 李卫疆;赵铁军;朴星海;;一种新的面向主题的爬行算法[J];计算机应用研究;2009年05期
10 王玉国,王淑霞,李启鹏;注重Html型帮助制作的规范化及主题大纲的作用[J];通化师范学院学报;2005年02期
相关会议论文 前4条
1 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年
2 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
相关博士学位论文 前10条
1 杨肖;基于主题的互联网信息抓取研究[D];浙江大学;2014年
2 薛利;面向证券应用的WEB主题观点挖掘若干关键问题研究[D];复旦大学;2013年
3 杜建光;面向社会媒体的文本和属性分析技术研究[D];北京理工大学;2015年
4 丁效;基于社会媒体的市场行情预测方法研究[D];哈尔滨工业大学;2016年
5 付博;面向社会媒体的用户消费意图分析关键技术研究[D];哈尔滨工业大学;2015年
6 沈钧戈;基于社会媒体的旅游数据挖掘与个性化推荐[D];西安电子科技大学;2016年
7 秦海龙;面向社会媒体的用户在线社交圈识别与分析[D];哈尔滨工业大学;2016年
8 李洋;社会媒体信息推荐关键技术研究[D];哈尔滨工业大学;2017年
9 郭亮;基于社会媒体挖掘的社会化搜索研究[D];北京邮电大学;2014年
10 周厚奎;概率主题模型的研究及其在多媒体主题发现和演化中的应用[D];浙江大学;2017年
相关硕士学位论文 前10条
1 解琰;主题优化过滤方法研究与应用[D];大连海事大学;2015年
2 卢洋;基于主题模型的混合推荐算法研究[D];电子科技大学;2014年
3 黄志;基于维基歧义页的搜索结果聚类方法研究[D];北京理工大学;2015年
4 王亮;基于主题模型的文本挖掘的研究[D];大连理工大学;2015年
5 任昱凤;基于Hadoop的分布式主题爬虫及其实现[D];陕西师范大学;2015年
6 韩琳;基于贝叶斯主题爬虫的研究与实现[D];北京工业大学;2015年
7 黎楠;面向专利的主题挖掘技术研究及应用[D];北京工业大学;2015年
8 黄文强;安卓技术信息的主题爬虫技术研究与实现[D];东南大学;2015年
9 yち,
本文编号:2372198
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2372198.html