基于Labeled-LDA的文本分类研究与实现
发布时间:2017-08-04 17:14
本文关键词:基于Labeled-LDA的文本分类研究与实现
更多相关文章: 标签隐含狄利克雷分布 主题模型 多标签分类 特征提取 数据偏斜处理
【摘要】:随着移动互联网与社会网络的高速发展,人们可以随时随地产生和分享信息,这些信息大多都可以转化成为文本内容而沉淀下来。对这些文本内容的快速、高质量的进行分类处理已成为文本挖掘和自然语言处理领域学者们的研究重点。 目前,文本分类技术已经在搜索引擎、个性化推荐系统、舆情监控等应用领域得到了广泛的应用,是实现高效管理和准确定位海量信息的重要一环。但是当前文本分类的性能并不理想,有非常大的改进空间。 本文重点研究基于主题模型(Topic Model,标签LDA)的文本分类技术。主要的研究内容包括: 1)针对传统LDA模型无法纳入标签信息的问题,Labeled-LDA通过将标签和类别进行映射起来,能够很好的对原始数据和标签信息进行建模。但是这种硬性的关联会造成过拟合,导致分类性能的降低。而且Labeled-LDA模型中的标签和类别是一一映射的,本文提出一种改进的标签LDA模型,将类别映射为若干个主题之间的组合,同时将主题分为共享和自有的部分,来使得更好的符合真实文本的产生式过程。改进的标签LDA模型生成的结果具有更好的多标签分类的能力,同时还可以用于摘要和聚类等应用。 2)原始数据的偏斜是影响分类系统性能的一大问题。在总结处理该问题的基础上,提出了一种基于主题模型的偏斜处理方法。实验表明,经过该步骤处理后的分类系统性能优于传统方法,并且在不同偏斜程度的语料集上效果比较稳定。
【关键词】:标签隐含狄利克雷分布 主题模型 多标签分类 特征提取 数据偏斜处理
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 绪论9-17
- 1.1 研究背景及意义9-12
- 1.2 国内外研究现状12-15
- 1.3 本文的主要研究内容15-16
- 1.4 论文的结构安排16-17
- 第二章 主题模型的发展17-32
- 2.1 浅层语义分析LSA17-20
- 2.1.1 LSA的原理18-19
- 2.1.2 LSA的优缺点19-20
- 2.2 概率浅层语义分析PLSA20-22
- 2.2.1 PLSA的原理20-21
- 2.2.2 PLSA的特点21-22
- 2.3 隐含狄利克雷分布LDA22-30
- 2.3.1 基本概念22-25
- 2.3.2 文档产生过程25-27
- 2.3.3 训练及推导27-30
- 2.3.4 LDA的应用30
- 2.4 监督主题模型SUPERVISED TOPIC MODEL30-32
- 2.4.1 Supervised Topic Model的代表31-32
- 第三章 文本分类32-48
- 3.1 文本分类概述32-33
- 3.2 文本分类系统构成33-36
- 3.3 常用文本分类方法36-41
- 3.3.1 朴素贝叶斯37-38
- 3.3.2 决策树38
- 3.3.3 支持向量机SVM38-41
- 3.4 分类评价方法41-44
- 3.4.1 准确率与召回率42-43
- 3.4.2 宏平均和微平均43-44
- 3.4.3 多标签分类评价44
- 3.5 传统主题模型用于文本分类44-48
- 3.5.1 LDA用于特征提取45-46
- 3.5.2 CTM结合SVM进行分类46-48
- 第四章 改进LABELED LDA用于文本分类48-60
- 4.1 标签狄利克雷分配LABELED LDA48-50
- 4.1.1 Labeled LDA的原理48-50
- 4.1.2 Labeled LDA的特点50
- 4.2 改进LABELED LDA文本分类过程50-56
- 4.2.1 模型描述50-53
- 4.2.2 参数推导53-54
- 4.2.3 实验效果分析54-56
- 4.3 语料数据偏斜问题56-60
- 4.3.1 基于Labeled-LDA模型的偏斜数据处理57-58
- 4.3.2 实现效果分析58-60
- 第五章 总结与展望60-62
- 5.1 本文的总结工作60-61
- 5.2 未来展望61-62
- 参考文献62-64
- 致谢64
【参考文献】
中国期刊全文数据库 前6条
1 李文波;孙乐;张大鲲;;基于Labeled-LDA模型的文本分类新算法[J];计算机学报;2008年04期
2 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
3 邱均平,沙勇忠,刘焕成;论数字图书馆的知识管理[J];情报资料工作;2001年05期
4 艾丹祥,张玉峰;利用主题图建立概念知识库[J];图书情报知识;2003年02期
5 刘海峰;陈琦;刘守生;苏展;;一种基于数据偏斜的改进KNN文本分类[J];微电子学与计算机;2010年03期
6 刘建国;周涛;汪秉宏;;个性化推荐系统的研究进展[J];自然科学进展;2009年01期
,本文编号:620757
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/620757.html