当前位置:主页 > 科技论文 > 软件论文 >

基于词嵌入与概率主题模型的社会媒体话题识别

发布时间:2018-12-11 08:07
【摘要】:词嵌入技术能从大语料库中捕获词语的语义信息,将其与概率主题模型结合可解决标准主题模型缺乏语义信息的问题。为此,同时对词嵌入和主题模型进行改进,构建词-主题混合模型。在主题词嵌入(TWE)模型中引入外部语料库获得初始主题和单词表示,通过定义主题向量和词嵌入的条件概率分布,将词嵌入特征表示和主题向量集成到主题模型中,同时最小化新词-主题分布函数和原始词-主题分布函数的KL散度。实验结果表明,与Word2vec、TWE、LDA和LFLDA模型相比,该模型在词表示和主题检测方面性能更好。
[Abstract]:Word embedding technology can capture the semantic information of words from large corpus and combine it with probabilistic topic model to solve the problem of lack of semantic information in standard subject model. Therefore, the word-topic mixed model is constructed by improving the word embedding and topic model. An external corpus is introduced into the topic embedding (TWE) model to obtain the initial topic and word representation. By defining the conditional probability distribution of the topic vector and word embedding, the feature representation and the topic vector are integrated into the topic model. At the same time, the KL divergence of neologism-theme distribution function and original word-theme distribution function is minimized. Experimental results show that the proposed model performs better in word representation and topic detection than Word2vec,TWE,LDA and LFLDA models.
【作者单位】: 深圳大学计算机与软件学院;
【基金】:国家自然科学基金(61472258) 深圳市基础研究计划项目(JCYJ20140509172609162)
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 周亦鹏;杜军平;;基于时空情境模型的主题跟踪[J];华南理工大学学报(自然科学版);2012年08期

2 何利益;陆国锋;罗鹏;;动态新闻主题信息推荐系统设计[J];指挥信息系统与技术;2013年04期

3 张宇;宋巍;刘挺;李生;;基于URL主题的查询分类方法[J];计算机研究与发展;2012年06期

4 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期

5 吕聚旺;都云程;王弘蔚;施水才;;基于新型主题信息量化方法的Web主题信息提取研究[J];现代图书情报技术;2008年12期

6 刘艳敏;刘飚;封化民;宋国森;方勇;;Web页面主题信息抽取研究与实现[J];计算机工程与应用;2006年21期

7 姚双良;;基于主题的Deep Web聚焦爬虫研究与设计[J];西北师范大学学报(自然科学版);2013年02期

8 王鑫;;元数据在主题信息网关中的应用[J];情报探索;2009年05期

9 李卫疆;赵铁军;朴星海;;一种新的面向主题的爬行算法[J];计算机应用研究;2009年05期

10 王玉国,王淑霞,李启鹏;注重Html型帮助制作的规范化及主题大纲的作用[J];通化师范学院学报;2005年02期

相关会议论文 前4条

1 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年

2 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

3 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

4 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

相关博士学位论文 前10条

1 杨肖;基于主题的互联网信息抓取研究[D];浙江大学;2014年

2 薛利;面向证券应用的WEB主题观点挖掘若干关键问题研究[D];复旦大学;2013年

3 杜建光;面向社会媒体的文本和属性分析技术研究[D];北京理工大学;2015年

4 丁效;基于社会媒体的市场行情预测方法研究[D];哈尔滨工业大学;2016年

5 付博;面向社会媒体的用户消费意图分析关键技术研究[D];哈尔滨工业大学;2015年

6 沈钧戈;基于社会媒体的旅游数据挖掘与个性化推荐[D];西安电子科技大学;2016年

7 秦海龙;面向社会媒体的用户在线社交圈识别与分析[D];哈尔滨工业大学;2016年

8 李洋;社会媒体信息推荐关键技术研究[D];哈尔滨工业大学;2017年

9 郭亮;基于社会媒体挖掘的社会化搜索研究[D];北京邮电大学;2014年

10 周厚奎;概率主题模型的研究及其在多媒体主题发现和演化中的应用[D];浙江大学;2017年

相关硕士学位论文 前10条

1 解琰;主题优化过滤方法研究与应用[D];大连海事大学;2015年

2 卢洋;基于主题模型的混合推荐算法研究[D];电子科技大学;2014年

3 黄志;基于维基歧义页的搜索结果聚类方法研究[D];北京理工大学;2015年

4 王亮;基于主题模型的文本挖掘的研究[D];大连理工大学;2015年

5 任昱凤;基于Hadoop的分布式主题爬虫及其实现[D];陕西师范大学;2015年

6 韩琳;基于贝叶斯主题爬虫的研究与实现[D];北京工业大学;2015年

7 黎楠;面向专利的主题挖掘技术研究及应用[D];北京工业大学;2015年

8 黄文强;安卓技术信息的主题爬虫技术研究与实现[D];东南大学;2015年

9 yち,

本文编号:2372198


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2372198.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bc180***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com