当前位置:主页 > 科技论文 > 软件论文 >

融合知识的主题模型研究及应用

发布时间:2018-03-24 15:57

  本文选题:主题模型 切入点:先验知识 出处:《南京理工大学》2017年硕士论文


【摘要】:随着互联网信息的爆炸式发展,网络上的资源和数据越来越丰富,使得人们理解这些动态的海量文本变得非常困难。为了应对这种挑战,我们需要从海量文本中抽取出关键概念,以便人们直观、快速地理解和处理,因此主题模型就应运而生。主题模型算法通过对原始文本中词汇的分析,挖掘隐含其中的主题,这些主题之间的关系,以及随时间演变的情况。但是,近年来研究人员发现,这些没有融合任何人类知识的无监督模型往往会导致生成的主题解释性不强,也就是说,无法生成语义连贯的主题。并且,这些传统的主题模型通常需要大量训练数据。为了解决这些问题,本文进行了融合知识的主题模型研究,并对其在微博话题发现上的应用进行了探索:(1)本文设计了一个融合先验知识的主题模型PLTM,通过对主题模型中两个重要概率分布之一——主题-词分布的改进,从人工提供先验知识和自动挖掘两方面扩展了传统主题模型。并且,针对实际应用中的文本往往会以数据流形式出现的特点,对PLTM模型进行了在线扩展,并设计了两种在线方法。(2)在微博热点话题发现的任务中,设计了增量PLTM模型与两层k-均值聚类和层次聚类的混合聚类结合的方法。本文针对微博语料的特点,采取了较为细致的文本预处理方法,将模型关注的数据对象规模大大减小,并且减少了数据噪音的干扰。与此同时,利用融合知识的主题模型方法,有效地解决了微博短文本数据稀疏性的问题;使用两层k-均值和层次聚类的混合聚类算法,可以快速地将微博聚集到相应的话题下。(3)针对上述两部分的研究工作,本文分别在亚马逊评论数据集和微博数据集中进行了实验分析,验证了模型的实用性和有效性,并且设计了一个用户交互的系统,可以直观地体现模型在实际应用中的效果。
[Abstract]:With the explosive development of Internet information, more and more resources and data are available on the Internet, which makes it very difficult for people to understand these dynamic massive texts. We need to extract the key concepts from the massive text so that people can understand and process them intuitively and quickly, so the topic model comes into being. But in recent years, researchers have found that these unsupervised models that do not integrate any human knowledge tend to lead to less explanatory topics generated, that is, These traditional topic models usually require a lot of training data. In order to solve these problems, the topic model of integrating knowledge is studied in this paper. In this paper, we design a topic model PLTMM, which combines prior knowledge, and improves the topic-word distribution, one of the two important probability distributions in the topic model. In this paper, the traditional topic model is extended from the aspects of manual prior knowledge and automatic mining, and the PLTM model is extended online in view of the fact that the text often appears in the form of data stream in practical applications. In the task of hot topic discovery of Weibo, we design an incremental PLTM model combined with mixed clustering of two-layer K-means clustering and hierarchical clustering. In this paper, we aim at the characteristics of Weibo corpus. A detailed text preprocessing method is adopted to reduce the size of the data object concerned by the model and reduce the interference of the data noise. At the same time, the topic model method of integrating knowledge is used. It effectively solves the problem of data sparsity in Weibo's short text. By using the mixed clustering algorithm based on two-layer k-means and hierarchical clustering, we can quickly gather Weibo under the corresponding topic. In this paper, an experimental analysis on Amazon comment dataset and Weibo dataset is carried out to verify the practicability and validity of the model, and a user interaction system is designed, which can directly reflect the effect of the model in practical application.
【学位授予单位】:南京理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 吴玲达,谢毓湘,栾悉道,肖鹏;互联网多媒体主题信息自动收集与处理系统的研制[J];计算机应用研究;2005年05期

2 蒋凡,高俊波,张敏,王煦法;BBS中主题发现原型系统的设计与实现[J];计算机工程与应用;2005年31期

3 周亦鹏;杜军平;;基于时空情境模型的主题跟踪[J];华南理工大学学报(自然科学版);2012年08期

4 陈雄;都云程;李渝勤;施水才;;基于页面结构分析的论坛主题信息定位方法研究[J];微计算机信息;2010年27期

5 何利益;陆国锋;罗鹏;;动态新闻主题信息推荐系统设计[J];指挥信息系统与技术;2013年04期

6 关慧芬;师军;;基于本体的主题爬虫技术研究[J];计算机仿真;2009年10期

7 张宇;宋巍;刘挺;李生;;基于URL主题的查询分类方法[J];计算机研究与发展;2012年06期

8 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期

9 吕聚旺;都云程;王弘蔚;施水才;;基于新型主题信息量化方法的Web主题信息提取研究[J];现代图书情报技术;2008年12期

10 朱梦麟;李光耀;周毅敏;;基于树比较的Web页面主题信息抽取[J];微型机与应用;2011年19期

相关会议论文 前6条

1 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年

2 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

3 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

4 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

6 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

相关博士学位论文 前4条

1 杨肖;基于主题的互联网信息抓取研究[D];浙江大学;2014年

2 赵一鸣;基于多维尺度分析的潜在主题可视化研究[D];华中师范大学;2013年

3 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年

4 薛利;面向证券应用的WEB主题观点挖掘若干关键问题研究[D];复旦大学;2013年

相关硕士学位论文 前10条

1 解琰;主题优化过滤方法研究与应用[D];大连海事大学;2015年

2 杨春艳;基于语义和引用加权的文献主题提取研究[D];浙江大学;2015年

3 卢洋;基于主题模型的混合推荐算法研究[D];电子科技大学;2014年

4 黄志;基于维基歧义页的搜索结果聚类方法研究[D];北京理工大学;2015年

5 王亮;基于主题模型的文本挖掘的研究[D];大连理工大学;2015年

6 任昱凤;基于Hadoop的分布式主题爬虫及其实现[D];陕西师范大学;2015年

7 韩琳;基于贝叶斯主题爬虫的研究与实现[D];北京工业大学;2015年

8 黎楠;面向专利的主题挖掘技术研究及应用[D];北京工业大学;2015年

9 刘学江;超大规模社交网络中基于结构与主题的社团挖掘[D];电子科技大学;2015年

10 黄文强;安卓技术信息的主题爬虫技术研究与实现[D];东南大学;2015年



本文编号:1658998

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1658998.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9ee78***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com