贝叶斯统计在文本挖掘的若干研究
发布时间:2020-12-19 00:40
随着信息时代的发展,越来越多非结构化的文本信息不断出现,我们需要新的工具来整理、搜索和理解这些文本信息,以便获取有价值的信息。文本挖掘(text mining)是解决这一系列问题的有效工具。在文本挖掘中,最常使用的是文本分类(Text classification)。文本分类是文本挖掘中有监督的学习过程,目的是基于文档内容将文档分配到一个或者多个预定义类别。由于文本信息构造复杂性、变化多样性和高维性,这给文本分类任务有效地提取文本特征带来了极大的挑战。概率主题模型(probabilistic topic models)是文本挖掘中提取文本特征的有效工具。主要是通过贝叶斯统计方法发现文本中的隐藏语义结构,进而获取有效的特征。因此,文本分类和概率主题模型是文本挖掘中非常有意义的研究课题。本文不仅关注文本分类,并探索了基于贝叶斯非参数的概率主题模型在文本分类中特征表示及其特征选择,主要工作如下:(1)波利亚罐子(Polya urn)模型是广泛应用于统计和文本挖掘的基本模型,大多数训练模型的算法都非常缓慢和复杂,因此通常很难适应大数据集。本文对波利亚罐子模型的极大似然估计(MLE)提出了一种新...
【文章来源】:华东师范大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:112 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT(英文摘要)
主要符号对照表
第一章 引言
§1.1 研究背景
§1.2 研究现状
§1.2.1 特征表示与特征选择
§1.2.2 机器学习分类方法
§1.2.3 深度学习分类方法
§1.2.4 主题模型的研究现状
§1.3 研究的主要内容
第二章 波利亚罐子模型及其在文本分类上的应用
§2.1 引言
§2.2 波利亚罐子模型
§2.3 参数估计
§2.3.1 极大似然估计
§2.3.2 一个新的计算算法
§2.3.3 极大似然估计的渐进性质
§2.4 随机模拟
§2.5 波利亚罐子模型在文本分类上的应用
§2.5.1 数据描述
§2.5.2 文本预处理
§2.5.3 分类方法和评估准则
§2.5.4 结果比较
§2.6 定理证明
§2.6.1 定理3.1的证明
§2.6.2 定理3.2的证明
第三章 基于分层狄利克雷过程的图挖掘主题模型
§3.1 引言
§3.2 相关模型分析
§3.2.1 隐狄利克雷分配模型
§3.2.2 图挖掘模型
§3.2.3 分层狄利克雷过程
§3.3 基于分层狄利克雷过程的图挖掘主题模型
§3.4 后验推断
§3.5 实例分析
§3.5.1 数据描述
§3.5.2 实验设计
§3.5.3 评估准则
§3.5.4 结果分析
§3.5.5 阈值的选择
§3.6 后验分布的推导及相关定理证明
§3.6.1 基于分层狄利克雷过程的图挖掘主题模型的后验分布推导
§3.6.2 定理4.1的证明
第四章 基于隐马尔可夫模型的Pitman-Yor先验概率主题模型
§4.1 引言
§4.2 模型及估计方法
§4.2.1 符号
§4.2.2 Pitman-Yor过程和相关的贝叶斯非参数过程
§4.3 相关的模型
§4.3.1 隐马尔可夫主题模型
§4.3.2 分层Pitman-Yor过程主题模型
§4.4 基于隐马尔可夫模型的Pitman-Yor先验概率主题模型
§4.4.1 模型构建
§4.5 基于隐马尔可夫模型的Pitman-Yor先验概率主题模型的变量推断
§4.5.1 后验推断
§4.5.2 参数估计
§4.5.3 迭代算法的收敛性
§4.6 实例分析
§4.6.1 数据集
§4.6.2 实验设置
§4.6.3 结果分析
§4.7 变量推断的相关证明
第五章 基于句子的分层Pitman-Yor主题模型
§5.1 引言
§5.2 相关的工作回顾
§5.2.1 基于句子的隐狄利克雷分配模型
§5.2.2 Pitman-Yor过程及分层Pitman-Yor过程
§5.3 基于句子的分层Pitman-Yor主题模型
§5.4 基于句子的分层Pitman-Yor主题模型的后验推断
§5.5 实列分析
§5.5.1 文本建模
§5.5.2 文本分类
第六章 结论与展望
参考文献
致谢
在学期间的研究成果及发表的论文
本文编号:2924913
【文章来源】:华东师范大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:112 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT(英文摘要)
主要符号对照表
第一章 引言
§1.1 研究背景
§1.2 研究现状
§1.2.1 特征表示与特征选择
§1.2.2 机器学习分类方法
§1.2.3 深度学习分类方法
§1.2.4 主题模型的研究现状
§1.3 研究的主要内容
第二章 波利亚罐子模型及其在文本分类上的应用
§2.1 引言
§2.2 波利亚罐子模型
§2.3 参数估计
§2.3.1 极大似然估计
§2.3.2 一个新的计算算法
§2.3.3 极大似然估计的渐进性质
§2.4 随机模拟
§2.5 波利亚罐子模型在文本分类上的应用
§2.5.1 数据描述
§2.5.2 文本预处理
§2.5.3 分类方法和评估准则
§2.5.4 结果比较
§2.6 定理证明
§2.6.1 定理3.1的证明
§2.6.2 定理3.2的证明
第三章 基于分层狄利克雷过程的图挖掘主题模型
§3.1 引言
§3.2 相关模型分析
§3.2.1 隐狄利克雷分配模型
§3.2.2 图挖掘模型
§3.2.3 分层狄利克雷过程
§3.3 基于分层狄利克雷过程的图挖掘主题模型
§3.4 后验推断
§3.5 实例分析
§3.5.1 数据描述
§3.5.2 实验设计
§3.5.3 评估准则
§3.5.4 结果分析
§3.5.5 阈值的选择
§3.6 后验分布的推导及相关定理证明
§3.6.1 基于分层狄利克雷过程的图挖掘主题模型的后验分布推导
§3.6.2 定理4.1的证明
第四章 基于隐马尔可夫模型的Pitman-Yor先验概率主题模型
§4.1 引言
§4.2 模型及估计方法
§4.2.1 符号
§4.2.2 Pitman-Yor过程和相关的贝叶斯非参数过程
§4.3 相关的模型
§4.3.1 隐马尔可夫主题模型
§4.3.2 分层Pitman-Yor过程主题模型
§4.4 基于隐马尔可夫模型的Pitman-Yor先验概率主题模型
§4.4.1 模型构建
§4.5 基于隐马尔可夫模型的Pitman-Yor先验概率主题模型的变量推断
§4.5.1 后验推断
§4.5.2 参数估计
§4.5.3 迭代算法的收敛性
§4.6 实例分析
§4.6.1 数据集
§4.6.2 实验设置
§4.6.3 结果分析
§4.7 变量推断的相关证明
第五章 基于句子的分层Pitman-Yor主题模型
§5.1 引言
§5.2 相关的工作回顾
§5.2.1 基于句子的隐狄利克雷分配模型
§5.2.2 Pitman-Yor过程及分层Pitman-Yor过程
§5.3 基于句子的分层Pitman-Yor主题模型
§5.4 基于句子的分层Pitman-Yor主题模型的后验推断
§5.5 实列分析
§5.5.1 文本建模
§5.5.2 文本分类
第六章 结论与展望
参考文献
致谢
在学期间的研究成果及发表的论文
本文编号:2924913
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/2924913.html