基于词三角的短文本主题模型算法
[Abstract]:With the rise of social networks and question-and-answer websites, short text has become the main way of information transmission on the network, such as the title of traditional web pages, the titles of various news and blogs are short text forms. At the same time, Weibo, Twitter, Facebook and other sites such as the main data form is also short text. Therefore, mining topic information from short text has a wide range of application scenarios, such as the discovery of sudden topics from Weibo, the use of text topic information for personalized recommendation and so on. Topic model is an effective method to mine potential topic information from text. However, due to the sparse data of "document-word" in short text, the traditional topic model is not effective in short text topic mining. In view of the limitation of traditional theme model in the field of short text, this paper presents a new theme model of short text, namely, Network word Triangle thematic Model (WTTM), which overcomes the problem of data sparsity and achieves satisfactory results in the experiment. The main work of this paper is as follows: (1) aiming at the problem that the common word network can not indicate the intersection of different document subnetworks, the strategy of constructing word network is improved. This makes it possible to judge whether the two pairs of words are from the same document by comparing the labels on the two sides, so as to determine whether they are at the intersection of the documents. (2) in view of the problem of weak semantic relevance of the common "word-word" co-occurrence relationship, This paper puts forward the strategy of searching for the specific word triangle structure from the word network, and excavates the word triangle structure which represents the stronger thematic relevance among the words in the word network, and the words in the word triangle have stronger semantic relevance. In this paper, we put forward the network word triangulation thematic model (WTTM) and compare it with LDA and BTM. The experimental results show that, WTTM has some advantages over LDA and BTM in short text mining. (4) on the basis of word triangle structure, we expand the lexical cluster structure and analyze the influence of the number of nodes in the lexical cluster on the effect of topic mining. With the increase of the number of nodes in the lexical cluster, the experimental results of thematic aggregation degree of the lexical cluster model are improved to a certain extent.
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 高玮军;马栋林;张其文;;一种基于本体的文本主题提取方法研究[J];计算机应用与软件;2012年02期
2 麻志毅,姚天顺;基于情境的文本主题求解[J];计算机研究与发展;1998年04期
3 王小华;徐宁;谌志群;;基于共词分析的文本主题词聚类与主题发现[J];情报科学;2011年11期
4 张其文;李明;;文本主题的自动提取方法研究与实现[J];计算机工程与设计;2006年15期
5 侯风巍;郭东军;李世磊;徐钊峰;;基于信息反馈的文本主题分类过滤方法[J];通信学报;2009年S1期
6 刘兴林;彭宏;马千里;;基于增量词集频率的文本主题词提取算法研究[J];计算机应用研究;2010年09期
7 康恺;林坤辉;周昌乐;;基于主题词频数特征的文本主题划分[J];计算机应用;2006年08期
8 王科,刘渊,罗万伯,高行宇,高常波;基于中文文本主题跟踪的网络信息分析[J];四川大学学报(工程科学版);2004年01期
9 刘菲;黄萱菁;吴立德;;利用关联规则挖掘文本主题词的方法[J];计算机工程;2008年07期
10 禹龙;田生伟;黄俊;;维吾尔语评论文本主题抽取研究[J];中文信息学报;2013年04期
相关会议论文 前1条
1 丁秉公;黄昌宁;黄德根;;文本主题识别研究及应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
相关博士学位论文 前1条
1 常鹏;基于词共现的文本主题挖掘模型和算法研究[D];天津大学;2010年
相关硕士学位论文 前10条
1 张文跃;基于改进shark-search算法的主题爬虫的研究与实现[D];内蒙古大学;2015年
2 梁剑;基于LDA文本主题挖掘的个性化推送及其在Spark平台的实现[D];华南理工大学;2016年
3 吴敏;网络短文本主题聚类研究[D];华中科技大学;2015年
4 邹远航;面向短文本主题发现及分类研究[D];南京大学;2015年
5 蔡洋;基于词三角的短文本主题模型算法[D];南京大学;2017年
6 梁文婷;汉语文本主题分析技术的研究与实现[D];重庆大学;2008年
7 蒋建慧;文本主题段落内部概念关系抽取技术研究[D];上海交通大学;2009年
8 郭剑飞;基于LDA多模型中文短文本主题分类体系构建与分类[D];哈尔滨工业大学;2014年
9 田钰琨;基于主题链的海量投诉文本主题抽取方法研究[D];东北师范大学;2012年
10 李宇坤;短文本主题分析的相关问题研究[D];北京邮电大学;2014年
,本文编号:2135203
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2135203.html