基于潜在语义分析的微博主题挖掘模型研究
本文关键词: 微博 短文本 主题挖掘 LDA模型 增量聚类 出处:《图书情报工作》2012年24期 论文类型:期刊论文
【摘要】:为了弥补目前微博平台主题挖掘方法的不足,兼顾到微博信息的稀疏性、多维性、海量性等特点,提出根据微博信息特点进行有针对性的预处理后,使用基于先验概率的潜在语义分析模型LDA(Latent Dirichlet Alloca-tion)进行微博主题挖掘,并在LDA建模的基础上,设计文本增量聚类算法,进一步实现主题结构的识别,从而使用户更好地理解主题及其结构。通过在真实微博数据集上的实验,证明该模型能有效进行主题挖掘和主题结构的识别。
[Abstract]:In order to make up for the deficiency of the current method of topic mining of Weibo platform, and to take into account the characteristics of the sparsity, multi-dimension and magnanimity of Weibo information, it is proposed that after the targeted preprocessing is carried out according to the characteristics of Weibo information, Based on the priori probabilistic latent semantic analysis model LDA(Latent Dirichlet Alloca-tion, Weibo topic mining is carried out, and on the basis of LDA modeling, a text incremental clustering algorithm is designed to further realize the recognition of topic structure. Through experiments on real Weibo data set, it is proved that the model can be used effectively for topic mining and topic structure recognition.
【作者单位】: 武汉大学信息资源研究中心;
【基金】:国家自然科学基金资助项目“社会化媒体集成检索与语义分析方法研究”(项目编号:71273194) 教育部人文社会科学重点研究基地重大项目“面向决策的企业信息资源集成研究”(项目编号:2009JJD870002)研究成果之一
【分类号】:H030;G206
【参考文献】
相关期刊论文 前1条
1 郑斐然;苗夺谦;张志飞;高灿;;一种中文微博新闻话题检测的方法[J];计算机科学;2012年01期
【共引文献】
相关期刊论文 前2条
1 程亮;邱云飞;孙鲁;;微博谣言检测方法研究[J];计算机应用与软件;2013年02期
2 赵文清;侯小可;;基于词共现图的中文微博新闻话题识别[J];智能系统学报;2012年05期
相关硕士学位论文 前1条
1 麦艺华;面向中文微博的社会网络分析及应用[D];华南理工大学;2012年
【二级参考文献】
相关期刊论文 前4条
1 洪宇;张宇;刘挺;李生;;话题检测与跟踪的评测及研究综述[J];中文信息学报;2007年06期
2 曹鹏;李静远;满彤;刘悦;程学旗;;Twitter中近似重复消息的判定方法研究[J];中文信息学报;2011年01期
3 崔争艳;;基于语义的微博短信息分类[J];现代计算机(专业版);2010年08期
4 蔡晓婷;;突发性事件中的微博客传播[J];新闻爱好者;2010年11期
【相似文献】
相关期刊论文 前10条
1 崔秀美;;微博在语言教学中的应用探究[J];中国教育技术装备;2010年36期
2 姜珍婷;周凯;;从微博看现代汉语新变化[J];江西科技师范学院学报;2010年04期
3 李高新;;微博在语言教学中的应用[J];考试周刊;2010年53期
4 张曼;;微博新词新语探析[J];学理论;2011年23期
5 辛亚宁;;说“微博”[J];现代语文(语言研究版);2010年09期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相关硕士学位论文 前5条
1 李新娟;微博热门话题意义生成的符号学分析[D];西北师范大学;2012年
2 邬智慧;中文微博的语体特征研究[D];华中师范大学;2012年
3 张昕;微博中的汉英语码转换分析[D];重庆师范大学;2011年
4 向昭;微博言语交际特征研究[D];吉林大学;2012年
5 陈萌;“微时代”背景下的社会流行用语研究[D];上海外国语大学;2013年
,本文编号:1511373
本文链接:https://www.wllwen.com/wenyilunwen/yuyanxuelw/1511373.html