面向微博的新词发现和话题检测技术研究
本文关键词:面向微博的新词发现和话题检测技术研究
更多相关文章: 数据采集 新词发现 话题检测 LDA 模型 关键词提取
【摘要】:随着互联网技术的发展和移动终端服务的普及,微博这一新型社交媒体得到了迅速的发展,受到了个人、企业和政府的青睐。如今,许多新闻和热点话题都是通过微博发表并传播的,如何从大量微博中及时发现重要的信息对个人、企业,甚至政府都有具有重要意义。因此,本文研究了面向微博的新词发现和话题检测技术,主要研究内容如下: (1)研究了针对微博的数据采集方法。 详细介绍了传统数据采集方法和基于微博API的数据采集方法的原理,分析了这两种方法在采集微博数据方面的优缺点。最后,结合微博网页结构的特征,提出了一种适合微博的数据采集方法,并且用该方法采集了300万条微博数据,为微博话题检测提供了丰富的语料资源。 (2)研究了面向微博的新词发现方法。 详细介绍了新词发现的国内外研究现状,介绍了新词发现领域中常用到的统计量和算法,分析了各种新词发现方法的原理和优缺点。最后,通过计算词内部结合度和词边界自由度发现新词,并用该方法参加了COAE2014的相关评测,取得了较好的成绩。 (3)研究了面向微博的话题检测方法。 详细介绍了微博话题检测的国内外研究现状,介绍了话题检测领域中常用到的聚类算法和相似度计算方法,介绍了LDA主题模型的原理。最后,,提出了基于LDA模型和多层聚类的话题检测方法。该方法首先用LDA模型对微博语料建模,提取微博语义信息;然后,结合微博的时序性,改进了传统Single-Pass算法,将改进的Single-Pass聚类和层次聚类相结合进行话题检测。 (4)研究了话题关键词提取方法。 目前,有关话题关键词提取方面的研究较少。本文利用多层聚类得到的结果作为话题关键词提取的语料,首先,对语料进行分词和去停用词;然后,在话题内部统计该话题中出现的词语的TF值;接着,在所有语料中统计这些词语的IDF值;最后,通过TF值和IDF值计算得到词语的TF-IDF值,将TF-IDF值排名前三的词语作为该话题的关键词。通过实验证明,该方法是有效的。
【学位授予单位】:北京信息科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;TP393.092
【参考文献】
中国期刊全文数据库 前10条
1 张晨逸;孙建伶;丁轶群;;基于MB-LDA模型的微博主题挖掘[J];计算机研究与发展;2011年10期
2 郑斐然;苗夺谦;张志飞;高灿;;一种中文微博新闻话题检测的方法[J];计算机科学;2012年01期
3 邱云飞;程亮;;微博突发话题检测方法研究[J];计算机工程;2012年09期
4 行小帅,潘进,焦李成;基于免疫规划的K-means聚类算法[J];计算机学报;2003年05期
5 孙晓;黄德根;宋海玉;任福继;;Chinese New Word Identification:A Latent Discriminative Model with Global Features[J];Journal of Computer Science & Technology;2011年01期
6 林自芳;蒋秀凤;;基于词内部模式的新词识别[J];计算机与现代化;2010年11期
7 路荣;项亮;刘明荣;杨青;;基于隐主题分析和文本聚类的微博客中新闻话题的发现[J];模式识别与人工智能;2012年03期
8 马彬;洪宇;陆剑江;姚建民;朱巧明;;基于线索树双层聚类的微博话题检测[J];中文信息学报;2012年06期
9 马雯雯;魏文晗;邓一贵;;基于隐含语义分析的微博话题发现方法[J];计算机工程与应用;2014年01期
10 史剑虹;陈兴蜀;王文贤;;基于隐主题分析的中文微博话题发现[J];计算机应用研究;2014年03期
本文编号:1215853
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1215853.html