当前位置:主页 > 科技论文 > 软件论文 >

短文本流中主题模型及其应用研究

发布时间:2018-12-14 19:49
【摘要】:快速获取文档主题对于文本内容挖掘和语义理解有非常重要的作用。随着计算机的快速发展和人工智能时代的来临,人类对于机器理解自然语言的语义有着更深层次的需求,文档主题建模或者称作主题挖掘在信息检索、人工智能、自然语言理解、数据挖掘领域占据比较重要的地位。经典的狄利克雷主题模型主要针对相对较长的文本,这些经典的模型能够方便的获得文档的主题和潜在的语义,但是在短文本流中并不能取得很好的效果。本文主要针对短文本流中的主题建模进行研究。随着社交媒体的快速发展,有数以亿计的用户活跃在发布短文本的社交平台上,包括脸书网,Twitter,新浪微博,微信等。这些平台上每天都产生亿级的短文本消息,我们通过分析挖掘这些短文本内容可以获得大众的兴趣,舆论导向和个性化的用户兴趣。这项研究对于个性化的服务包括个性化推荐、搜索、精准广告投放等有重要意义。本文的工作包括:结合外部知识的狄利克雷主题模型,该方法考虑改进经典的基于长文本内容的隐含语义模型,通过引入自媒体发布的内容,丰富短文本中词与词之间的共现,以提高性能。其中,引入的自媒体内容则是用户关注的一类高质量博主所发布的高质量内容,该方法的本质是给潜在语义模型提供了更多高质量的共现词对,从而提高主题建模的质量。本文将该主题模型应用于短文本环境中用户的兴趣建模,并结合微博平台的特征提出了个性化微博再排序框架。即通过分析用户在某个时间段发布的文本内容来推断用户兴趣,同时考虑用户和微博发布者之间的互动信息及微博发布者的特征,将用户一个时间段内接收到的微博根据用户兴趣进行再排序最终推送给用户。实验证明,结合外部知识的主题模型可以很好的挖掘用户的兴趣,推荐更多用户感兴趣的微博给用户。动态狄利克雷多项混合用户主题模型,考虑用户兴趣随时间变化的特性和短文本本身的内容特征,本文进行用户层面的动态主题建模。根据用户当前时间段发布的短文本内容和上一时间段用户的兴趣,来追踪用户动态变化的兴趣,其中用户的兴趣表示为混合主题多项分布。在短文本环境下为了更好的推断的主题分布,针对短文本词与词之间共现的稀疏特性,改进狄利克雷生成模型及其吉布斯采样过程。通过该模型,可以通过用户在不同时间段的兴趣分布(主题分布)。同时本文将该改进的主题模型应用于动态用户聚类,使得用户聚类的结果具有可解释性。实验结果表明,在短文本流中,我们的模型可以更好的推断用户随时间变化的兴趣,同时给出更合理动态变化的用户群组结果。
[Abstract]:Getting document topics quickly is very important for text content mining and semantic understanding. With the rapid development of computer and the advent of the era of artificial intelligence, human beings have a deeper demand for machine understanding the semantics of natural language. Document topic modeling or topic mining in information retrieval, artificial intelligence, Natural language understanding, data mining field plays a more important role. The classical Delikley topic models are mainly for relatively long text. These classical models can easily obtain the topic and potential semantics of the document, but they can not achieve good results in the short text flow. This paper focuses on the topic modeling in the short text stream. With the rapid development of social media, hundreds of millions of users are active on short text publishing social platforms, including Facebook, Twitter, Sina Weibo, WeChat, etc. On these platforms, hundreds of millions of short text messages are generated every day. Through analyzing and mining these short text contents, we can gain public interest, public opinion orientation and personalized user interest. This research is of great significance for personalized services, including personalized recommendation, search, accurate advertising, and so on. The work of this paper includes: combining with the Delikley topic model of external knowledge, this method considers the improvement of the classical implicit semantic model based on long text content, and enriches the co-occurrence between words and words in the short text by introducing the content published by the media. To improve performance. The introduced self-media content is a kind of high-quality content published by a class of high-quality bloggers concerned by users. The essence of this method is to provide more high-quality co-occurrence pairs to the potential semantic model, thus improving the quality of topic modeling. In this paper, the topic model is applied to the modeling of user's interest in the short text environment, and the framework of individualized Weibo reordering is put forward according to the features of Weibo platform. That is, by analyzing the text content published by the user at a certain time to infer the interest of the user, and at the same time considering the interactive information between the user and Weibo publisher and the characteristics of Weibo publisher, Weibo received by the user within a period of time according to user interests to sort the final push to the user. Experimental results show that the topic model combined with external knowledge can well tap the interests of users and recommend Weibo, who is interested in more users, to give them. In this paper, the dynamic theme modeling at the user level is carried out by considering the characteristics of user interest over time and the content characteristics of the short text. According to the short text content published by the user in the current time period and the interest of the user in the previous period, the interest of the user is traced to the dynamic change of the user, where the interest of the user is expressed as a multi-item distribution of mixed topics. In order to better infer the topic distribution in short text environment, we improve the Delikley generation model and its Gibbs sampling process in view of the sparsity of cooccurrence between the short text and the word. Through this model, the distribution of interest (topic distribution) of users in different time periods can be obtained. At the same time, the improved topic model is applied to dynamic user clustering, which makes the result of user clustering interpretable. The experimental results show that our model can better infer the interest of users over time in short text flow, and give more reasonable dynamic change of user group results.
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 陈敏,汤晓安;在Microsoft Access中引入文本文件[J];微型电脑应用;1995年02期

2 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期

3 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期

4 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期

5 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期

6 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期

7 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期

8 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期

9 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期

10 江伟;潘昊;;基于优化的多核学习方法的Web文本分类的研究[J];计算机技术与发展;2013年10期

相关会议论文 前10条

1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年

2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年

3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年

7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年

10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

相关重要报纸文章 前1条

1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年

相关博士学位论文 前10条

1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年

2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年

3 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年

4 韩磊;汉语句义结构模型分析及其文本表示方法研究[D];北京理工大学;2016年

5 刘林;面向论坛文本的大学生情绪识别研究[D];华中师范大学;2016年

6 张博宇;基于局部特征的场景文本分析方法研究[D];哈尔滨工业大学;2015年

7 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年

8 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年

9 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年

10 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年

相关硕士学位论文 前10条

1 王轶霞;基于半监督递归自编码的情感分类研究[D];内蒙古大学;2015年

2 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年

3 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年

4 董秦涛;基于文本的个人情感状态分析研究[D];兰州大学;2015年

5 钟文波;搜索引擎中关键词分类方法评估及推荐应用[D];华南理工大学;2015年

6 黄晨;基于新词识别和时间跨度的微博热点研究[D];上海交通大学;2015年

7 陈红阳;中文微博话题发现技术研究[D];重庆理工大学;2015年

8 王s,

本文编号:2379217


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2379217.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户126e3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com