当前位置:主页 > 管理论文 > 移动网络论文 >

基于主题模型的微博重要话题发现与排序方法

发布时间:2018-03-30 19:49

  本文选题:微博客 切入点:关键词排序 出处:《计算机研究与发展》2013年S1期


【摘要】:近年来,以Twitter和新浪微博为代表的微博客正在世界范围内流行起来.根据微博的特点,提出一种与特定主题(比如某种产品)相关的话题发现和排序的新方法.首先,在互联网上收集并格式化出现了感兴趣的词的微博.对于这些微博中的所有词汇,综合考虑影响力、突发性和相关性3个要素对其重要性进行评估.其次,对词的重要性做出估量后,以含有同一关键词的微博的集合为输入文档训练LDA模型.然后通过对主题关键词的概率分布的推导,实现词的聚类和主题的挖掘.这一方法可以克服微博的长度限制所带来的数据稀缺性问题.最后,通过真实数据集上的实验表明了该方法的有效性.
[Abstract]:In recent years, micro blog in Sina Twitter and micro-blog as the representative of the world is popular. According to the characteristic of micro-blog, and presents a specific theme (such as a new product) methods related to topic detection and ranking. First, collect and format on the Internet are interested in micro-blog word. For all of these words in micro-blog, considering the influence of the 3 elements of burstiness and correlation to assess its importance. Secondly, make a measure of the importance of words, in the same micro-blog keyword set containing the input document for training the LDA model. Then through the derivation of the probability distribution of keywords, mining word clustering and topic. This method can overcome the problems caused by the scarcity of data in micro-blog's length limit. Finally, through experiments on real data sets show the effectiveness of the proposed method.

【作者单位】: 清华大学软件学院信息系统与工程研究所;
【基金】:国家“八六三”高技术研究发展计划基金项目(2012AA040911)
【分类号】:TP393.092;TP391.1

【参考文献】

相关期刊论文 前2条

1 张晨逸;孙建伶;丁轶群;;基于MB-LDA模型的微博主题挖掘[J];计算机研究与发展;2011年10期

2 洪宇;张宇;刘挺;李生;;话题检测与跟踪的评测及研究综述[J];中文信息学报;2007年06期

【共引文献】

相关期刊论文 前10条

1 焦健;瞿有利;;知网的话题更新与跟踪算法研究[J];北京交通大学学报;2009年05期

2 鲁明羽;姚晓娜;魏善岭;;基于模糊聚类的网络论坛热点话题挖掘[J];大连海事大学学报;2008年04期

3 许志凯;徐志明;李栋;李生;;面向互联网新闻的话题检测与追踪[J];智能计算机与应用;2011年03期

4 仓玉;洪宇;姚建民;朱巧明;;基于时序话题模型的新事件检测[J];智能计算机与应用;2011年03期

5 张瑛;张娅婷;;动态文本会话抽取技术研究[J];电视技术;2011年11期

6 谢林燕;戚银城;孙卓;;地点信息在话题检测中的应用[J];电子科技;2012年01期

7 潘文富;郭友实;;网络舆情监测技术研究综述[J];福建电脑;2011年08期

8 石大文;张晖;;基于LDA模型的BBS话题演化[J];工业控制计算机;2012年05期

9 施侃晟;刘海涛;白英彩;宋文涛;周书勇;;便于快速信息融合的主题检测算法[J];电子科技大学学报;2012年06期

10 孙乃利;王玉龙;沈奇威;;微博客意见领袖识别的研究[J];电信技术;2012年12期

相关会议论文 前10条

1 彭楠峗;王厚峰;凌晨添;;基于层次聚类的网络新闻热点发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

2 张辉;李国辉;陈俊;;一种基于新闻要素建模的新事件探测方法[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【oral】[C];2011年

3 骆卫华;于满泉;许洪波;王斌;程学旗;;基于多策略优化的分治多层聚类算法的话题发现研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

4 刘星星;何婷婷;龚海军;陈龙;;网络热点事件发现系统的设计[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

5 李军;李涓子;;新闻专题内子话题划分[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

6 楚克明;李芳;;基于LDA新闻话题的演化[A];第五届全国信息检索学术会议论文集[C];2009年

7 李恒训;张华平;秦鹏;于满泉;刘金刚;;基于主题词的网络热点话题发现[A];第五届全国信息检索学术会议论文集[C];2009年

8 单斌;李芳;;基于种子文档和话题模型的话题演化研究[A];第六届全国信息检索学术会议论文集[C];2010年

9 曹俊喜;刘云;徐希源;;电力行业网络舆情监测分析技术研究与系统设计[A];2012年电力通信管理暨智能电网通信技术论坛论文集[C];2013年

10 刘娜;肖智博;路莹;唐晓君;肖鹏;;自适应主题融合的多文档自动摘要算法[A];2013年中国智能自动化学术会议论文集(第五分册)[C];2013年

相关博士学位论文 前10条

1 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年

2 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年

3 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年

4 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年

5 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年

6 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年

7 郝秀兰;文本分类技术与应用研究[D];复旦大学;2008年

8 洪宇;基于语义结构和时序特征的话题检测与跟踪技术研究[D];哈尔滨工业大学;2009年

9 钟茂生;基于内容相关度计算的文本结构分析方法研究[D];上海交通大学;2010年

10 付剑锋;面向事件的知识处理研究[D];上海大学;2010年

相关硕士学位论文 前10条

1 赵慧杰;面向论坛的话题发现、跟踪及传播技术研究[D];哈尔滨工程大学;2010年

2 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年

3 印文涛;基于星型K部图的网络视频话题挖掘和可视化的研究[D];浙江大学;2011年

4 白志杰;新闻视频主题追踪技术研究[D];解放军信息工程大学;2009年

5 刘嵩;网络中文事件自动检测技术研究[D];解放军信息工程大学;2010年

6 李恒训;网络论坛采集及热点话题发现研究[D];首都师范大学;2011年

7 兰凯梅;BBS热点话题发现与监控系统[D];北京交通大学;2011年

8 孙胜平;中文微博客热点话题检测与跟踪技术研究[D];北京交通大学;2011年

9 刘晓东;话题检测与跟踪系统的构建[D];北京邮电大学;2011年

10 吴泽衡;基于话题检测和情感分析的互联网热点分析与监控技术研究[D];华南理工大学;2011年

【二级参考文献】

相关期刊论文 前6条

1 赵华;赵铁军;张姝;王浩畅;;基于内容分析的话题检测研究[J];哈尔滨工业大学学报;2006年10期

2 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期

3 于满泉;骆卫华;许洪波;白硕;;话题识别与跟踪中的层次化话题识别技术研究[J];计算机研究与发展;2006年03期

4 李保利,俞士汶;话题识别与跟踪研究[J];计算机工程与应用;2003年17期

5 骆卫华;于满泉;许洪波;王斌;程学旗;;基于多策略优化的分治多层聚类算法的话题发现研究[J];中文信息学报;2006年01期

6 宋丹;王卫东;陈英;;基于改进向量空间模型的话题识别与跟踪[J];计算机技术与发展;2006年09期

【相似文献】

相关期刊论文 前10条

1 胥桂仙,朴泰雄,杨丹丹,徐小博,高旭;中文文本挖掘中最长频繁序列的发现算法[J];中央民族大学学报(自然科学版);2004年01期

2 渡部勇;;文本挖掘技术应用于专利检索分析[J];微电脑世界;2007年12期

3 苏芳仲,林世平;Web文本挖掘中的一种中文分词算法研究及其实现[J];福州大学学报(自然科学版);2004年S1期

4 付国瑜;;Web文本分类挖掘[J];科学咨询(决策管理);2008年03期

5 曹丽君;刘西印;杨燕萍;;WEB页面文本挖掘的价值与未来探究[J];商场现代化;2008年09期

6 韩洁;;Web文本挖掘技术在信息生产领域的应用研究[J];硅谷;2010年08期

7 胥桂仙,杨丹丹,高旭,陈立新;中文文本挖掘中姓名特征提取技术的研究[J];中央民族大学学报(自然科学版);2003年04期

8 刘春艳,张爱连,胡铁军;数据挖掘及其在信息服务业应用的研究现状[J];医学情报工作;2004年06期

9 吕冬煜,党齐民;基于文本挖掘的可视化竞争情报提取[J];计算机应用与软件;2005年02期

10 李文炬;文本挖掘技术在农业科技基础数据库中应用的探讨[J];农业网络信息;2005年11期

相关会议论文 前10条

1 杨潇;马军;杨同峰;杜言琦;邵海敏;;基于主题模型LDA的多文档自动摘要[A];第五届全国信息检索学术会议论文集[C];2009年

2 王继成;孙颖;张福炎;;文本挖掘-数据挖掘研究的新课题[A];第十六届全国数据库学术会议论文集[C];1999年

3 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

4 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年

5 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

6 陈林;王晓华;李殿峗;文俊浩;;基于自增模式的文本挖掘研究[A];’2004计算机应用技术交流会议论文集[C];2004年

7 翁伟;王厚峰;;基于LDA的关键词抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年

8 耿焕同;吴祥;毕硕本;;基于潜在语义分析的BBS主题发现算法研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

9 刘振鹿;王大玲;冯时;张一飞;方东昊;;一种基于LDA的潜在语义区划分及Web文档聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年

10 张明慧;王红玲;周国栋;;LDA主题驱动的中文多文档自动文摘方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年

相关重要报纸文章 前10条

1 ;用挖掘技术使学术资源利用效益最大化[N];中国计算机报;2007年

2 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年

3 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年

4 Tazi;Excel排序有技巧[N];电脑报;2003年

5 龙马;Excel排序技巧两则[N];中国电脑教育报;2003年

6 广东 黄陀;基本算法简介(四)[N];电脑报;2001年

7 中国虫;算法演义[N];电脑报;2003年

8 PALADIN;对算法进行分析(2)[N];电脑报;2003年

9 伍裕标;列示文件有妙法[N];中国电脑教育报;2003年

10 ;让中文文件名按笔画排序[N];中国电脑教育报;2004年

相关博士学位论文 前10条

1 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年

2 周亦鹏;基于软件人的情境主题分析及应用研究[D];北京科技大学;2012年

3 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年

4 李博;基于LDA和LSA的医学文本和影像分析模型及应用研究[D];吉林大学;2012年

5 文翰;面向信息检索的Web文本挖掘方法研究[D];华南理工大学;2012年

6 张金松;基于引文上下文分析的文献检索技术研究[D];大连海事大学;2013年

7 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年

8 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年

9 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年

10 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年

相关硕士学位论文 前10条

1 刘明岩;面向语义关系发现的文本挖掘研究[D];南京理工大学;2010年

2 李钝;基于粗糙集理论的文本挖掘技术研究[D];山西大学;2003年

3 程春惠;公安犯罪案件文本挖掘关键技术研究[D];浙江大学;2010年

4 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年

5 姚继伟;基于XML的Web文本挖掘的研究[D];吉林大学;2010年

6 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年

7 唐明;文本挖掘及其在多文化交流平台中的应用[D];西南大学;2006年

8 李明;数据清洗技术在文本挖掘中的应用[D];南京理工大学;2008年

9 靳晓恩;数字图书馆的知识发现研究[D];湘潭大学;2008年

10 周荣鹏;生物医学文献中命名实体的识别[D];大连理工大学;2009年



本文编号:1687390

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1687390.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户afec1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com