基于词向量的短文本主题建模研究
本文关键词:基于词向量的短文本主题建模研究
更多相关文章: 短文本 主题建模 word2vec 词向量 高斯分布
【摘要】:随着网络技术和社交媒体的快速发展,越来越多的用户可以随时随地接入网络,便捷地使用网络服务,如新浪微博、Twitter、百度知道、新闻评论、购物评价等。用户使用这些应用服务,会在互联网领域内留下海量的短文本信息,其中隐藏着有价值的内容,面对如此海量的短文本资源,如何挖掘这些信息,是目前短文本处理亟待解决的重要问题。近年来,主题模型技术取得了很大的成功,已成为智能化处理文本信息的主要方式之一。然而,直接将传统主题模型应用在短文本上会面临严重的稀疏问题,主要由于短文本长度较短,词共现信息不足,传统主题模型在文档水平利用词共现信息推理主题会非常困难。针对短文本主题建模面临的稀疏问题,本文利用词向量相加,融合词向量的语义,扩充短文本的表示,解决短文本稀疏问题,提出了隐含词向量模型(Latent Word Embedding Modeling,LWEM)。主要工作如下:(1)分析研究短文本主题建模稀疏问题。短文本经过预处理之后,通常少则几个词,多则十几个词,在文档水平词频和词共现信息都很稀疏,上下文信息不丰富,基于如此有限的信息推理短文本的主题结构会非常困难。(2)利用词向量相加扩充短文本的表示,提出基于词向量的短文本主题建模模型。词向量可以从大量的语料集合中学习到词语的语义关系,利用词向量增强短文本主题建模的能力是本文的目的。本文提出利用词向量的基本数学性质——可加性,即利用词向量A加词向量B,融合词向量A和词向量B的语义生成词向量C,并将其加入到原来的短文本文档中,扩充短文本的表示,解决短文本的稀疏问题。LWEM模型假设存在文档、主题和词向量的三层结构,考虑到短文本在文档级别的稀疏问题,LWEM模型假设整个语料集合服从一个主题分布,主题服从高斯分布,在词向量上进行建模。(3)通过实验评估本文提出的LWEM模型主题建模的能力。本文通过利用Twitter和新浪微博等实际应用的短文本资料为基础构建了实验的数据集,使用gensim库的Word2Vec工具训练词向量。在这两个数据集上分别应用了DMM模型、LDA模型、BTM模型和本文提出的LWEM模型,对主题一致性、分类性能进行了比较,实验结果证实了本文提出的方法可以有效解决短文本主题建模稀疏问题。
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【相似文献】
中国期刊全文数据库 前10条
1 王小芳;王瑞芳;张树功;;基于最优化控制模型的文本主题域划分[J];吉林大学学报(理学版);2009年04期
2 高玮军;马栋林;张其文;;一种基于本体的文本主题提取方法研究[J];计算机应用与软件;2012年02期
3 麻志毅,姚天顺;基于情境的文本主题求解[J];计算机研究与发展;1998年04期
4 王小华;徐宁;谌志群;;基于共词分析的文本主题词聚类与主题发现[J];情报科学;2011年11期
5 张其文;李明;;文本主题的自动提取方法研究与实现[J];计算机工程与设计;2006年15期
6 侯风巍;郭东军;李世磊;徐钊峰;;基于信息反馈的文本主题分类过滤方法[J];通信学报;2009年S1期
7 刘兴林;彭宏;马千里;;基于增量词集频率的文本主题词提取算法研究[J];计算机应用研究;2010年09期
8 康恺;林坤辉;周昌乐;;基于主题词频数特征的文本主题划分[J];计算机应用;2006年08期
9 王科,刘渊,罗万伯,高行宇,高常波;基于中文文本主题跟踪的网络信息分析[J];四川大学学报(工程科学版);2004年01期
10 刘菲;黄萱菁;吴立德;;利用关联规则挖掘文本主题词的方法[J];计算机工程;2008年07期
中国重要会议论文全文数据库 前1条
1 丁秉公;黄昌宁;黄德根;;文本主题识别研究及应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国博士学位论文全文数据库 前1条
1 常鹏;基于词共现的文本主题挖掘模型和算法研究[D];天津大学;2010年
中国硕士学位论文全文数据库 前10条
1 张文跃;基于改进shark-search算法的主题爬虫的研究与实现[D];内蒙古大学;2015年
2 梁剑;基于LDA文本主题挖掘的个性化推送及其在Spark平台的实现[D];华南理工大学;2016年
3 吴敏;网络短文本主题聚类研究[D];华中科技大学;2015年
4 邹远航;面向短文本主题发现及分类研究[D];南京大学;2015年
5 蔡洋;基于词三角的短文本主题模型算法[D];南京大学;2017年
6 刘世群;基于词向量的短文本主题建模研究[D];吉林大学;2017年
7 梁文婷;汉语文本主题分析技术的研究与实现[D];重庆大学;2008年
8 蒋建慧;文本主题段落内部概念关系抽取技术研究[D];上海交通大学;2009年
9 郭剑飞;基于LDA多模型中文短文本主题分类体系构建与分类[D];哈尔滨工业大学;2014年
10 田钰琨;基于主题链的海量投诉文本主题抽取方法研究[D];东北师范大学;2012年
,本文编号:1290082
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1290082.html