当前位置:主页 > 科技论文 > 软件论文 >

基于词三角的短文本主题模型算法

发布时间:2018-07-21 10:18
【摘要】:随着社交网络和问答网站的兴起,短文本已成为网络上信息传递的主要方式,例如传统网页的标题、各类新闻和博客的标题等都是短文本形式的。同时,微博、知乎、Twitter、Facebook等网站的主要数据形式也是短文本。因此,从短文本中挖掘主题信息有着广泛的应用场景,例如从微博中发现突发性话题,利用文本主题信息进行个性化推荐等等。主题模型是有效的从文本中挖掘潜在主题信息的方法,然而由于短文本中"文档-词"的数据过于稀疏,传统的主题模型在短文本主题挖掘方面的效果并不理想。针对传统主题模型在短文本领域的局限性,本文提出了一种新的短文本主题模型——网络词三角主题模型(WTTM),克服了数据稀疏性的问题,并在试验中取得了较理想的效果。本文的主要工作如下:1)针对普通词网络无法指示不同文档子网络交汇部分的问题,对词网络构建策略做出了改进,利用词对出现的文档序号集合作为对应边的标签,使得可以通过对比两条边的标签来判断对应的两个词对是否来自同一文档,从而判断其是否处于文档交汇处;2)针对普通"词-词"共现关系语义关联较弱的问题,提出了从词网络中寻找特定词三角结构的策略,挖掘词网络中代表着词之间更强主题关联性的词三角结构,词三角中的词有着更强的语义关联性,和更强的主题集中性;3)以词三角为文本主题的基本单元,提出了网络词三角主题模型(WTTM),并与LDA和BTM进行了对比实验,实验结果表明,在短文本主题挖掘方面,WTTM相对于LDA和BTM都具有一定优势;4)在词三角结构的基础上进行词团结构的拓展,分析词团中的节点个数对主题挖掘效果的影响。随着词团中节点个数的增加,词团主题模型主题聚合度的实验结果也取得了一定提升。
[Abstract]:With the rise of social networks and question-and-answer websites, short text has become the main way of information transmission on the network, such as the title of traditional web pages, the titles of various news and blogs are short text forms. At the same time, Weibo, Twitter, Facebook and other sites such as the main data form is also short text. Therefore, mining topic information from short text has a wide range of application scenarios, such as the discovery of sudden topics from Weibo, the use of text topic information for personalized recommendation and so on. Topic model is an effective method to mine potential topic information from text. However, due to the sparse data of "document-word" in short text, the traditional topic model is not effective in short text topic mining. In view of the limitation of traditional theme model in the field of short text, this paper presents a new theme model of short text, namely, Network word Triangle thematic Model (WTTM), which overcomes the problem of data sparsity and achieves satisfactory results in the experiment. The main work of this paper is as follows: (1) aiming at the problem that the common word network can not indicate the intersection of different document subnetworks, the strategy of constructing word network is improved. This makes it possible to judge whether the two pairs of words are from the same document by comparing the labels on the two sides, so as to determine whether they are at the intersection of the documents. (2) in view of the problem of weak semantic relevance of the common "word-word" co-occurrence relationship, This paper puts forward the strategy of searching for the specific word triangle structure from the word network, and excavates the word triangle structure which represents the stronger thematic relevance among the words in the word network, and the words in the word triangle have stronger semantic relevance. In this paper, we put forward the network word triangulation thematic model (WTTM) and compare it with LDA and BTM. The experimental results show that, WTTM has some advantages over LDA and BTM in short text mining. (4) on the basis of word triangle structure, we expand the lexical cluster structure and analyze the influence of the number of nodes in the lexical cluster on the effect of topic mining. With the increase of the number of nodes in the lexical cluster, the experimental results of thematic aggregation degree of the lexical cluster model are improved to a certain extent.
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 高玮军;马栋林;张其文;;一种基于本体的文本主题提取方法研究[J];计算机应用与软件;2012年02期

2 麻志毅,姚天顺;基于情境的文本主题求解[J];计算机研究与发展;1998年04期

3 王小华;徐宁;谌志群;;基于共词分析的文本主题词聚类与主题发现[J];情报科学;2011年11期

4 张其文;李明;;文本主题的自动提取方法研究与实现[J];计算机工程与设计;2006年15期

5 侯风巍;郭东军;李世磊;徐钊峰;;基于信息反馈的文本主题分类过滤方法[J];通信学报;2009年S1期

6 刘兴林;彭宏;马千里;;基于增量词集频率的文本主题词提取算法研究[J];计算机应用研究;2010年09期

7 康恺;林坤辉;周昌乐;;基于主题词频数特征的文本主题划分[J];计算机应用;2006年08期

8 王科,刘渊,罗万伯,高行宇,高常波;基于中文文本主题跟踪的网络信息分析[J];四川大学学报(工程科学版);2004年01期

9 刘菲;黄萱菁;吴立德;;利用关联规则挖掘文本主题词的方法[J];计算机工程;2008年07期

10 禹龙;田生伟;黄俊;;维吾尔语评论文本主题抽取研究[J];中文信息学报;2013年04期

相关会议论文 前1条

1 丁秉公;黄昌宁;黄德根;;文本主题识别研究及应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年

相关博士学位论文 前1条

1 常鹏;基于词共现的文本主题挖掘模型和算法研究[D];天津大学;2010年

相关硕士学位论文 前10条

1 张文跃;基于改进shark-search算法的主题爬虫的研究与实现[D];内蒙古大学;2015年

2 梁剑;基于LDA文本主题挖掘的个性化推送及其在Spark平台的实现[D];华南理工大学;2016年

3 吴敏;网络短文本主题聚类研究[D];华中科技大学;2015年

4 邹远航;面向短文本主题发现及分类研究[D];南京大学;2015年

5 蔡洋;基于词三角的短文本主题模型算法[D];南京大学;2017年

6 梁文婷;汉语文本主题分析技术的研究与实现[D];重庆大学;2008年

7 蒋建慧;文本主题段落内部概念关系抽取技术研究[D];上海交通大学;2009年

8 郭剑飞;基于LDA多模型中文短文本主题分类体系构建与分类[D];哈尔滨工业大学;2014年

9 田钰琨;基于主题链的海量投诉文本主题抽取方法研究[D];东北师范大学;2012年

10 李宇坤;短文本主题分析的相关问题研究[D];北京邮电大学;2014年



本文编号:2135203

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2135203.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8511d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com