基于MB-HDP模型的微博主题挖掘
本文关键词:基于MB-HDP模型的微博主题挖掘
更多相关文章: 主题挖掘 微博 分层Dirichlet过程 MB-HDP
【摘要】:主题模型是挖掘微博潜在主题的重要工具.然而,现有的主题模型多由Latent Dirichlet Allocation(LDA)派生,它需要用户预先指定主题数目.为了自动挖掘微博主题,作者提出了一个基于分层Dirichlet过程(Hierarchical Dirichlet Process,HDP)的非参数贝叶斯模型MB-HDP.首先,针对微博应用场景,假设消息是不可交换的;接着,利用微博的时间信息、用户兴趣以及话题标签,聚合主题相关的消息以解决微博短文本的数据稀疏问题;然后,扩展Chinese Restaurant Franchise(CRF)对微博数据进行主题建模;最后,设计一个相应的Markov Chain Monte Carlo(MCMC)采样方法,推导MB-HDP模型的分布参数.实验表明,在生成主题质量、内容困惑度和模型复杂度等指标上,MB-HDP模型明显优于LDA和HDP两种模型.
【作者单位】: 中山大学信息科学与技术学院计算机科学系;
【关键词】: 主题挖掘 微博 分层Dirichlet过程 MB-HDP
【基金】:国家自然科学基金(61033010,61272065,61472453,U1401256) 广东省自然科学基金(S2011020001182,S2012010009311) 广东省科技计划项目(2011B040200007,2011B031700004,2012A010701013)资助~~
【分类号】:TP393.092;TP391.1
【正文快照】: 东省自然科学基金(S2011020001182,S2012010009311)、广东省科技计划项目(2011B040200007,2011B031700004,2012A010701013)资1引言Twitter是全球最流行的微博服务,它允许用户通过网页、WAP页面、外部程序和手机短信等发布140字符以内的消息,实现信息分享.截止到2012年,Twitter
【参考文献】
中国期刊全文数据库 前2条
1 徐戈;王厚峰;;自然语言处理中主题模型的发展[J];计算机学报;2011年08期
2 周建英;王飞跃;曾大军;;分层Dirichlet过程及其应用综述[J];自动化学报;2011年04期
【共引文献】
中国期刊全文数据库 前10条
1 朱然;李德华;;新闻聚合系统中的数据挖掘技术初探[J];电脑知识与技术;2013年01期
2 葛昊;叶艳;包西林;吴敏;;基于主题模型的英语写作批阅系统个性化推荐模块设计与实现[J];科技和产业;2013年06期
3 刘江鸣;徐金安;张玉洁;;基于隐主题马尔科夫模型的多特征自动文摘[J];北京大学学报(自然科学版);2014年01期
4 郑诚;熊大康;刘倩倩;;基于卡方特征选择和LDA主题模型的中文短文本分类[J];电脑知识与技术;2014年13期
5 邹晓辉;孙静;;LDA主题模型[J];智能计算机与应用;2014年05期
6 章登义;欧阳黜霏;吴文李;;针对时间序列多步预测的聚类隐马尔科夫模型[J];电子学报;2014年12期
7 张学峰;陈渤;王鹏辉;刘宏伟;;一种基于Dirichelt过程隐变量支撑向量机模型的目标识别方法[J];电子与信息学报;2015年01期
8 阳小兰;钱程;;基于主题提取和记忆模型的新闻推荐系统设计[J];计算机与数字工程;2012年06期
9 张素兰;郭平;张继福;胡立华;;图像语义自动标注及其粒度分析方法[J];自动化学报;2012年05期
10 梁鹏;黎绍发;覃姜维;罗剑高;;基于半监督学习的增量图像分类方法[J];模式识别与人工智能;2012年01期
中国重要会议论文全文数据库 前1条
1 刘娜;肖智博;路莹;唐晓君;肖鹏;;自适应主题融合的多文档自动摘要算法[A];2013年中国智能自动化学术会议论文集(第五分册)[C];2013年
中国博士学位论文全文数据库 前10条
1 张磊;基于机器学习的图像检索若干问题研究[D];山东大学;2011年
2 黄双萍;通用视觉目标识别的关键技术研究[D];华南理工大学;2011年
3 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
4 蔡伟宏;基于非参数贝叶斯方法的资产配置[D];华中科技大学;2012年
5 张冬梅;文本情感分类及观点摘要关键问题研究[D];山东大学;2012年
6 贾冬梅;基于数据挖掘方法的聂莉芳教授治疗慢性肾小球肾炎经验研究[D];中国中医科学院;2012年
7 朱浩;一类动态贝叶斯网络模型及其应用研究[D];重庆大学;2012年
8 孟宪勇;图模型基础理论研究[D];东北师范大学;2012年
9 解晓萌;复杂背景下运动目标检测和识别关键技术研究[D];华南理工大学;2012年
10 王志军;面向标识商品的RFID网络情境信息管理研究[D];东华大学;2013年
中国硕士学位论文全文数据库 前10条
1 刘红艳;基于hLDA层次主题模型的多文档摘要技术研究[D];北京邮电大学;2012年
2 孙昌年;基于主题模型的文本相似度计算研究与实现[D];安徽大学;2012年
3 刘兵强;流形学习方法预测MicroRNA[D];燕山大学;2012年
4 高永强;非类别限定的物体识别学习模型构建[D];南华大学;2012年
5 孔宁;文献学科特征挖掘及分类研究[D];东北林业大学;2012年
6 何明哲;语音片段检索算法的研究与应用[D];华南理工大学;2012年
7 李丕绩;WEB图像排序与互摘要[D];山东大学;2012年
8 崇信毅;基于视频监控数据的人群行为分析[D];北京交通大学;2012年
9 邹鸿程;微博话题检测与追踪技术研究[D];解放军信息工程大学;2012年
10 韩永峰;网络新闻突发事件信息抽取技术研究[D];解放军信息工程大学;2012年
【二级参考文献】
中国期刊全文数据库 前4条
1 李文波;孙乐;张大鲲;;基于Labeled-LDA模型的文本分类新算法[J];计算机学报;2008年04期
2 曹娟;张勇东;李锦涛;唐胜;;一种基于密度的自适应最优LDA模型选择方法[J];计算机学报;2008年10期
3 石晶;胡明;石鑫;戴国忠;;基于LDA模型的文本分割[J];计算机学报;2008年10期
4 徐谦;周俊生;陈家骏;;Dirichlet过程及其在自然语言处理中的应用[J];中文信息学报;2009年05期
,本文编号:904298
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/904298.html