基于词对伪文档的短文本主题模型研究
本文关键词:基于词对伪文档的短文本主题模型研究
更多相关文章: 主题模型 主题聚类 机器学习 短文本 文本分析
【摘要】:随着信息技术的不断发展,人们每天都会面对超过自身接受范围的信息量。因此对文本进行主题分类,并为人们推送特定的信息就成了一个热门的研究议题。众多在线社交平台和在线新闻媒体出现在人们的生活之中,包括微博、新闻门户、在线问答网站等。从这些网络平台和媒体上人们可以获取各种短文本形式的文本数据,绝大多数的数据都是没有类别的,因此短文本的主题自动聚类研究有非常广阔的应用前景。理解这些短文本数据内潜在的主题结构是非常重要的。本文的工作围绕短文本数据集上的主题聚类问题展开研究。针对短文本数据集的稀疏性问题,基于共现词语能够体现更多语义信息的思想,本文提出了一个基于词共现网络的词对伪文档主题模型(BPDTM)。本文在新闻标题和知乎问题标题数据集上进行主题聚合度、文本聚类和文本分类的实验。实验结果表明BPDTM模型表现优于LDA和BTM模型,这证明了BPDTM模型在短文本主题聚类问题上是有效的。本文的主要工作有:1) 定义了词共现网络中的词对三角关系,并据此构造词对伪文档集。2) 基于词对伪文档集,提出了针对短文本数据集的词对伪文档主题模型。3) 提出了一种降低模型时间开销的方法,在保证了模型性能的基础上,显著减少模型运行时间。
【关键词】:主题模型 主题聚类 机器学习 短文本 文本分析
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 中文摘要6-7
- 英文摘要7-12
- 第一章 绪论12-16
- 1.1 研究背景及意义12-13
- 1.2 论文的内容和贡献13-14
- 1.3 论文组织结构14-16
- 第二章 背景知识16-26
- 2.1 引言16
- 2.2 背景知识16-20
- 2.2.1 词袋模型16
- 2.2.2 词权重计算16-18
- 2.2.3 词语相似性度量18-19
- 2.2.4 潜在狄利克雷分配模型与吉布斯采样19-20
- 2.3 研究现状20-24
- 2.3.1 非概率主题模型21-22
- 2.3.2 概率主题模型22-23
- 2.3.3 短文本主题模型23-24
- 2.4 本章小结24-26
- 第三章 基于词共现网络的伪文档构造26-36
- 3.1 引言26-27
- 3.2 词共现网络27-28
- 3.3 词三角关系28-29
- 3.4 词三角关系挖掘与伪文档集构造29-31
- 3.4.1 词三角关系挖掘29-30
- 3.4.2 伪文档集构造30-31
- 3.5 伪文档集规模削减算法31-35
- 3.5.1 主题模型时间复杂度分析31-33
- 3.5.2 伪文档集规模削减算法33-35
- 3.6 本章小结35-36
- 第四章 词对伪文档集主题模型36-59
- 4.1 引言36-37
- 4.2 词对伪文档集主题模型37-41
- 4.2.1 词对伪文档集主题模型生成式算法37-40
- 4.2.2 原文档主题判定40-41
- 4.3 BPDTM模型参数学习41-45
- 4.4 数据集与实验设置45-49
- 4.4.1 数据集45-47
- 4.4.2 数据预处理47-49
- 4.4.3 实验环境49
- 4.5 实验对比和分析49-58
- 4.5.1 主题聚合度49-52
- 4.5.2 文本聚类52-56
- 4.5.3 文本分类56-58
- 4.6 本章小结58-59
- 第五章 总结与展望59-61
- 5.1 总结59-60
- 5.2 展望60-61
- 参考文献61-64
- 致谢64-65
- 附录65-66
【相似文献】
中国期刊全文数据库 前10条
1 何尧;张顺淼;;利用未标识文档提高中心分类法性能的研究[J];电脑知识与技术(学术交流);2007年16期
2 付剑波;王明文;罗远胜;张华伟;;基于团模型的文档重排算法研究[J];中文信息学报;2009年01期
3 陈钒;冯志勇;李晓红;赵庚;;基于语言节奏的大规模文档去重算法研究[J];计算机工程与应用;2011年11期
4 颜学雄;王清贤;;基于属性的内部文档访问控制[J];计算机工程与设计;2009年05期
5 罗三定,冯元勇,沈德耀,贾维嘉;基于概念的文档评价模型[J];计算机工程;2002年08期
6 毛存礼;余正涛;吴则建;郭剑毅;线岩团;;专家证据文档识别无向图模型[J];软件学报;2013年11期
7 马维亚;基于PDF文档的网络学习资源建设[J];长春理工大学学报;2004年04期
8 许继红;;浅谈基于PDF文档的网络学习资源建设[J];天津职业院校联合学报;2006年05期
9 安亮;;PDF文档的网络学习资源建设[J];科教文汇(下半月);2006年04期
10 郑瑞银;史晓红;胡文伟;;谈基于PDF文档的网络学习资源建设[J];科技广场;2007年09期
中国重要会议论文全文数据库 前9条
1 李立;何婷婷;瞿国忠;张勇;;基于文档扩展的中文信息检索系统[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
2 曹慧;;一种xml文档相似性距离的计算方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一)[C];2005年
3 沙芸;周俊武;张国英;;基于主题关键词的新闻去重算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 温俊;阳国贵;;XML文档集公共模式获取技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
5 张刚;王斌;程学旗;;基于链接的分布式信息检索文档划分研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 梁红;李伟生;;XML文档的并行聚类算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 杨洁;季铎;蔡东风;白宇;;基于联合权重的多文档关键词抽取技术[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 杨建武;陈晓鸥;;XML文档集的聚类研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
9 贾候萍;万小军;黄小江;杨建武;肖建国;;多文档摘要系统中句子排序研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国重要报纸全文数据库 前2条
1 ;中国软件首个国际联盟标准UOML诞生[N];网络世界;2008年
2 Linux逍遥客;用好OpenOffice的细小功能[N];电脑报;2004年
中国博士学位论文全文数据库 前4条
1 岳琳;文档融合关键技术研究[D];吉林大学;2016年
2 李旭;基于指纹和语义知识表示的中文文档复制检测方法[D];燕山大学;2010年
3 刘喜平;XML文档搜索中的查询处理技术研究[D];江西财经大学;2010年
4 龚书;抽取式多文档文摘的文本表示研究[D];北京交通大学;2013年
中国硕士学位论文全文数据库 前10条
1 蒋澜;基于词对伪文档的短文本主题模型研究[D];南京大学;2016年
2 岳大鹏;基于话题的多文档文摘技术研究[D];国防科学技术大学;2011年
3 李延龙;基于查询网络的文档推荐策略研究[D];东北大学;2011年
4 李旭;基于串匹配方法的文档复制检测系统研究[D];燕山大学;2006年
5 张志涛;基于参考文档的信息检索模型的研究[D];哈尔滨工业大学;2010年
6 管冬根;Web文档中信息的获取与表示研究[D];重庆大学;2003年
7 周丹;基于子主题的多文档摘要关键技术研究[D];北京邮电大学;2008年
8 衡伟;面向多文档摘要的主题建模方法研究[D];北京邮电大学;2014年
9 姚超;中文多文档文摘关键技术研究[D];哈尔滨工业大学;2007年
10 李大任;基于参考文档模型的个性化Web检索研究[D];哈尔滨工业大学;2011年
,本文编号:795478
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/795478.html