当前位置:主页 > 科技论文 > 软件论文 >

中文微博短文本主题挖掘方法研究与原型系统开发

发布时间:2018-02-04 22:58

  本文关键词: 微博短文本 文本聚类 主题挖掘 频繁闭项集 词对共现 出处:《大连海事大学》2017年硕士论文 论文类型:学位论文


【摘要】:近年来,随着互联网与智能移动设备的快速发展,以Twitter、微博等为代表的社交媒体应用变得越来越受欢迎,短文本交互日益普遍,对海量的微博数据进行分析主题,及时获取人们关注的热点话题以及满足用户在大量产生的信息中查找自己的需求具有重要的现实意义。微博文本内容短小,特征词稀疏并且规模庞大,对于微博这种具有特殊特征的短文本,选取有效的方法进行主题识别,进行细粒度的主题检索,最大程度的满足用户需求是目前需要解决的重要问题。本文主要针对短文本的信息抽取开展相关研究工作,研究重点聚焦于中文微博类短文本的内隐主题提取,在现有对文本聚类和主题模型的研究基础上,针对中文微博短文本语料库,展开了相关研究。主要研究工作和成果包括:(1)对预处理后的微博语料集进行基于top-k频繁闭词集的短文本聚类,聚类过程中对频繁词集挖掘算法进行了改进,避免了 min_support的多次尝试以及频繁词集数据量巨大的问题,并且以频繁词集作为类簇的描述信息,得到微博文本的粗粒度分类。(2)针对类簇内主题不明确并且短文本存在的特征稀疏问题,结合LDA模型和BTM模型提出了一种基于词对共现LDA模型的类簇内潜在主题挖掘方法,对每篇文档的词对进行建模,提高短文本主题特征的性能,得到细粒度的类簇内隐含主题。(3)根据短文本聚类和细粒度类簇内主题挖掘相结合的思想,设计出了微博内隐主题挖掘系统,不仅能够准确的得出微博短文本的划分类簇,而且能够实现在类簇上进一步挖掘主题的目的,最终实现了对微博平台内微博信息的内隐主题的自动化提取与分类存储。
[Abstract]:In recent years, with the rapid development of the Internet and smart mobile devices, social media applications, such as Twitter, Weibo and so on, have become more and more popular. It is very important to analyze the theme of the massive Weibo data, to get the hot topics that people pay attention to in time and to meet the needs of users to find their own in a large number of generated information. Weibo text content is short. Feature words are sparse and large in scale. For Weibo short text with special characteristics, an effective method is selected for topic recognition and fine-grained topic retrieval. To meet the needs of users to the greatest extent is an important issue to be solved. This paper mainly focuses on the information extraction of short text, focusing on the implicit topic extraction of Chinese Weibo short text. Based on the existing research on text clustering and topic models, this paper aims at the Chinese Weibo short text corpus. The main research work and results include: 1) the text clustering of the pretreated Weibo corpus based on the frequent closed words set of top-k. In the process of clustering, the algorithm of mining frequent word sets is improved to avoid the problems of min_support 's multiple attempts and the huge amount of data of frequent word sets. And the frequent word set is used as the description information of the cluster to obtain the coarse-grained classification of Weibo text. Combined with LDA model and BTM model, a method of potential topic mining in clusters based on word pair co-occurrence LDA model is proposed, which can model the word pairs of each document and improve the performance of the topic features of the short text. According to the idea of combination of short text clustering and topic mining in fine-grained cluster, a Weibo implicit topic mining system is designed. Not only can we accurately get the short text of Weibo divided into clusters, but also can achieve the purpose of further mining topics on the cluster. Finally, the automatic extraction and classification of the implicit topics of Weibo information in Weibo platform are realized.
【学位授予单位】:大连海事大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 赵芳芳;蒋志鹏;关毅;;中文分词和词性标注联合模型综述[J];智能计算机与应用;2014年03期

2 谢昊;江红;;一种面向微博主题挖掘的改进LDA模型[J];华东师范大学学报(自然科学版);2013年06期

3 唐晓波;房小可;;基于文本聚类与LDA相融合的微博主题检索模型研究[J];情报理论与实践;2013年08期

4 徐硕;乔晓东;朱礼军;张运良;薛春香;;共现聚类分析的新方法:最大频繁项集挖掘[J];情报学报;2012年02期

5 郑斐然;苗夺谦;张志飞;高灿;;一种中文微博新闻话题检测的方法[J];计算机科学;2012年01期

6 张晨逸;孙建伶;丁轶群;;基于MB-LDA模型的微博主题挖掘[J];计算机研究与发展;2011年10期

7 徐戈;王厚峰;;自然语言处理中主题模型的发展[J];计算机学报;2011年08期

8 奉国和;郑伟;;国内中文自动分词技术研究综述[J];图书情报工作;2011年02期

9 刘红芝;;中文分词技术的研究[J];电脑开发与应用;2010年03期

10 何孝金;傅彦;陈安龙;;基于相对距离的密度聚类算法[J];计算机应用研究;2009年04期

相关硕士学位论文 前3条

1 李保国;基于聚类与LDA的新闻评论主题挖掘研究[D];武汉纺织大学;2016年

2 苏冲;基于最大频繁项集的搜索引擎查询结果聚类方法[D];哈尔滨工业大学;2009年

3 王新丽;中文文本分类系统的研究与实现[D];天津大学;2007年



本文编号:1491393

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1491393.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8b86a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com