基于深度学习的主题建模方法研究
本文选题:神经网络主题模型 + 深度学习 ; 参考:《武汉大学》2017年硕士论文
【摘要】:主题模型是文本语义信息的抽取模型,也是文本语义表征的有效方法。通过主题建模,不仅可以识别出隐含在文本中的主题语义单元,还能够将文本表示在语义信息更为丰富的主题特征空间上,从而有助于文本分类聚类、突发事件检测、主题演化分析、推荐系统等任务。然而,传统的概率主题模型由于其浅层的特征结构以及概率化的生成模式依旧面临着模型可扩展性不足、主题语义连贯性不足、推断上下文一致性不足、特征表达能力不足等问题。深度学习技术的不断成熟为自然语言处理领域带来了新的发展契机,也为主题模型提供了新的构建思路。当前,词嵌入、知识嵌入、神经网络等深度学习方法在文本语义特征表达方面取得了突破性的进展,为构建深层次的具有语义连贯性的主题模型提供了可能。然而,基于深度学习的主题建模尚在起步阶段,如何将两者有机结合仍是一个亟待解决的研究课题。本文将深度学习技术运用到传统的文本主题建模过程中,旨在构建具有深层语义表征的深度主题模型。具体来说,本文工作主要分为以下三部分:首先,本文提出了基于知识库约束的词嵌入模型SG_TransE(Skip-Gram with TransE)来实现词汇的向量化表示。SG_TransE融合了 Skip-Gram模型和TransE知识翻译模型,能够使产生的词嵌入蕴含知识语义。其次,本文提出了基于深度语义强化的概率主题模型DGPU-LDA(Double Generalized Polya Urn with LDA)。该模型一方面结合本文设计的基于双向LSTM的文档语义编码框架 DS-Bi-LSTM(Document Semantic Bi-directional LSTM)来实现文档宏观语义的嵌入表示,另一方面采用文档-主题和词汇-词汇双GPU语义强化机制以及LSTM来刻画参数推断过程中的吉布斯采样过程。最后,本文对DGPU-LDA模型进行神经网络重构,提出了 NS-LDA(Neural Semantic LDA)模型。NS-LDA同样融合了 DS-Bi-LSTM文档语义编码框架,并使用隐藏层分别将文档-主题和主题-词汇两部分信息进行编码,进而通过乘积操作得到词汇在文档中的打分并将其作为神经网络的输出。在搜狗新闻数据集以及20新闻组数据集上的实验结果表明,本文提出的基于深度学习的主题模型DGPU-LDA以及NS-LDA在主题语义连贯性、文本分类准确率方面相对于一些比较前沿的主题模型具有一定的优势,同时也表明了本文提出的深度主题模型在文本语义特征表达方面的有效性。
[Abstract]:Topic model is not only a text semantic information extraction model, but also an effective method of text semantic representation.Through the topic modeling, not only can the topic semantic unit hidden in the text be identified, but also the text can be represented in the topic feature space with more abundant semantic information, which is helpful to the text classification and clustering, and the detection of unexpected events.Topic evolution analysis, recommendation system and other tasks.However, the traditional probabilistic topic models are still faced with insufficient extensibility, semantic coherence and contextual consistency due to their shallow feature structures and probabilistic generation patterns.Lack of feature expression and other problems.The maturity of deep learning technology brings new opportunities to the field of natural language processing and provides a new way to construct thematic models.At present, depth learning methods such as word embedding, knowledge embedding and neural network have made a breakthrough in the representation of semantic features of text, which provides the possibility for the construction of a deep semantic coherence thematic model.However, the topic modeling based on deep learning is still in its infancy, and how to combine the two is still a research topic to be solved urgently.In this paper, the deep learning technology is applied to the traditional text topic modeling process, aiming at constructing the deep topic model with deep semantic representation.Specifically, the work of this paper is divided into three parts: firstly, this paper proposes a word embedding model based on knowledge base constraint (SG_TransE(Skip-Gram with Transe) to realize the vectorization of vocabulary. SGSP integrates Skip-Gram model and TransE knowledge translation model.The resulting words can be embedded in the knowledge semantics.Secondly, a probabilistic topic model, DGPU-LDA(Double Generalized Polya Urn with LDAA, is proposed based on deep semantic enhancement.On the one hand, this model combines the document semantic coding framework DS-Bi-LSTM(Document Semantic Bi-directional LSTM based on bidirectional LSTM designed in this paper to realize the embedded representation of document macro semantics.On the other hand, document topic and lexical lexical dual GPU semantic enhancement mechanism and LSTM are used to describe Gibbs sampling process in the process of parameter inference.Finally, this paper reconstructs the DGPU-LDA model by neural network, and proposes the NS-LDA(Neural Semantic LDA-model. NS-LDA also integrates the DS-Bi-LSTM document semantic coding framework, and uses the hidden layer to encode the document-topic and subject-vocabulary information separately.Then the word score in the document is obtained by the product operation and used as the output of the neural network.The experimental results on Sogou news data set and 20 newsgroup data set show that the topic model DGPU-LDA and NS-LDA proposed in this paper are subject semantic coherence based on in-depth learning.The accuracy of text classification has some advantages over some advanced topic models, and it also shows the effectiveness of the depth topic model proposed in this paper in the semantic feature representation of text.
【学位授予单位】:武汉大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 吴玲达,谢毓湘,栾悉道,肖鹏;互联网多媒体主题信息自动收集与处理系统的研制[J];计算机应用研究;2005年05期
2 蒋凡,高俊波,张敏,王煦法;BBS中主题发现原型系统的设计与实现[J];计算机工程与应用;2005年31期
3 周亦鹏;杜军平;;基于时空情境模型的主题跟踪[J];华南理工大学学报(自然科学版);2012年08期
4 陈雄;都云程;李渝勤;施水才;;基于页面结构分析的论坛主题信息定位方法研究[J];微计算机信息;2010年27期
5 何利益;陆国锋;罗鹏;;动态新闻主题信息推荐系统设计[J];指挥信息系统与技术;2013年04期
6 关慧芬;师军;;基于本体的主题爬虫技术研究[J];计算机仿真;2009年10期
7 张宇;宋巍;刘挺;李生;;基于URL主题的查询分类方法[J];计算机研究与发展;2012年06期
8 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
9 吕聚旺;都云程;王弘蔚;施水才;;基于新型主题信息量化方法的Web主题信息提取研究[J];现代图书情报技术;2008年12期
10 朱梦麟;李光耀;周毅敏;;基于树比较的Web页面主题信息抽取[J];微型机与应用;2011年19期
相关会议论文 前6条
1 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年
2 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
相关博士学位论文 前4条
1 杨肖;基于主题的互联网信息抓取研究[D];浙江大学;2014年
2 赵一鸣;基于多维尺度分析的潜在主题可视化研究[D];华中师范大学;2013年
3 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
4 薛利;面向证券应用的WEB主题观点挖掘若干关键问题研究[D];复旦大学;2013年
相关硕士学位论文 前10条
1 解琰;主题优化过滤方法研究与应用[D];大连海事大学;2015年
2 杨春艳;基于语义和引用加权的文献主题提取研究[D];浙江大学;2015年
3 卢洋;基于主题模型的混合推荐算法研究[D];电子科技大学;2014年
4 黄志;基于维基歧义页的搜索结果聚类方法研究[D];北京理工大学;2015年
5 王亮;基于主题模型的文本挖掘的研究[D];大连理工大学;2015年
6 任昱凤;基于Hadoop的分布式主题爬虫及其实现[D];陕西师范大学;2015年
7 韩琳;基于贝叶斯主题爬虫的研究与实现[D];北京工业大学;2015年
8 黎楠;面向专利的主题挖掘技术研究及应用[D];北京工业大学;2015年
9 刘学江;超大规模社交网络中基于结构与主题的社团挖掘[D];电子科技大学;2015年
10 黄文强;安卓技术信息的主题爬虫技术研究与实现[D];东南大学;2015年
,本文编号:1762401
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1762401.html