结合互信息和主题模型的微博话题发现方法
本文选题:词共现矩阵 + 对称非负矩阵分解 ; 参考:《计算机工程与应用》2016年06期
【摘要】:为了解决短文本信息流的特征稀疏性对热点话题发现带来的挑战,提出了结合词语互信息和概率主题模型的微博热点话题发现方法。通过建立词共现矩阵并应用对称非负矩阵分解算法获取词项-主题矩阵,再利用概率潜在语义分析模型进行主题发现,最终通过定义微博热度分析和排序,有效地支持微博热点话题发现。实验表明,此方法能有效地进行话题聚类并检测出热点话题。
[Abstract]:In order to solve the challenge of feature sparsity of short text information flow to hot topic discovery, a method of Weibo hot topic discovery based on word mutual information and probabilistic topic model is proposed.By establishing word co-occurrence matrix and applying symmetric non-negative matrix decomposition algorithm to obtain word item-topic matrix, and then using probabilistic latent semantic analysis model to discover topic, finally, by defining Weibo heat degree analysis and ranking.Effectively support Weibo hot topic discovery.Experiments show that this method can effectively cluster and detect hot topics.
【作者单位】: 西北师范大学计算机科学与工程学院;
【基金】:国家自然科学基金(No.61163039,No.61363058) 甘肃省教育厅项目(No.2013A-016)
【分类号】:TP391.1;TP393.092
【相似文献】
相关期刊论文 前10条
1 吴玲达,谢毓湘,栾悉道,肖鹏;互联网多媒体主题信息自动收集与处理系统的研制[J];计算机应用研究;2005年05期
2 蒋凡,高俊波,张敏,王煦法;BBS中主题发现原型系统的设计与实现[J];计算机工程与应用;2005年31期
3 周亦鹏;杜军平;;基于时空情境模型的主题跟踪[J];华南理工大学学报(自然科学版);2012年08期
4 陈雄;都云程;李渝勤;施水才;;基于页面结构分析的论坛主题信息定位方法研究[J];微计算机信息;2010年27期
5 何利益;陆国锋;罗鹏;;动态新闻主题信息推荐系统设计[J];指挥信息系统与技术;2013年04期
6 关慧芬;师军;;基于本体的主题爬虫技术研究[J];计算机仿真;2009年10期
7 张宇;宋巍;刘挺;李生;;基于URL主题的查询分类方法[J];计算机研究与发展;2012年06期
8 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
9 吕聚旺;都云程;王弘蔚;施水才;;基于新型主题信息量化方法的Web主题信息提取研究[J];现代图书情报技术;2008年12期
10 朱梦麟;李光耀;周毅敏;;基于树比较的Web页面主题信息抽取[J];微型机与应用;2011年19期
相关会议论文 前6条
1 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年
2 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
相关博士学位论文 前4条
1 杨肖;基于主题的互联网信息抓取研究[D];浙江大学;2014年
2 赵一鸣;基于多维尺度分析的潜在主题可视化研究[D];华中师范大学;2013年
3 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
4 薛利;面向证券应用的WEB主题观点挖掘若干关键问题研究[D];复旦大学;2013年
相关硕士学位论文 前10条
1 解琰;主题优化过滤方法研究与应用[D];大连海事大学;2015年
2 杨春艳;基于语义和引用加权的文献主题提取研究[D];浙江大学;2015年
3 卢洋;基于主题模型的混合推荐算法研究[D];电子科技大学;2014年
4 黄志;基于维基歧义页的搜索结果聚类方法研究[D];北京理工大学;2015年
5 王亮;基于主题模型的文本挖掘的研究[D];大连理工大学;2015年
6 任昱凤;基于Hadoop的分布式主题爬虫及其实现[D];陕西师范大学;2015年
7 韩琳;基于贝叶斯主题爬虫的研究与实现[D];北京工业大学;2015年
8 黎楠;面向专利的主题挖掘技术研究及应用[D];北京工业大学;2015年
9 刘学江;超大规模社交网络中基于结构与主题的社团挖掘[D];电子科技大学;2015年
10 薛耀兵;科技文献中的主题发现与趋势预测[D];哈尔滨工业大学;2013年
,本文编号:1767698
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1767698.html