基于贝叶斯网络的话题追踪模型研究
发布时间:2021-10-01 23:18
互联网的迅猛发展、网民数量的极速增长导致网络信息呈指数级暴增,使得用户从繁杂的信息中获取关注的新闻信息越来越困难。追踪用户关注话题的后续新闻信息,可以有效节约用户的查询时间,同时可将新闻信息按话题组织分类,故话题追踪技术变得尤为重要。在信息量庞大的网络环境下,如何高效组织新闻信息是话题追踪面临的最大挑战。现有的概率话题模型主要包括潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)话题模型、语言话题模型、朴素贝叶斯网络话题模型和信念网络话题模型。上述模型在话题追踪时,都存在概率推导繁琐和存储推导过程中的数据占用大量空间的问题。为解决该问题,将简单贝叶斯网络检索模型的相关知识用于话题追踪,提出两个话题追踪模型。论文的工作主要包括两个方面:(1)针对概率话题模型追踪效率低、推理过程计算量大的问题,借鉴简单贝叶斯网络检索模型的思想,提出简单贝叶斯网络静态话题追踪模型(Simple Bayesian Network Static Topic Tracking model,SBNSTT模型),给出模型的拓扑结构、话题和报道相似度计算公式。SBNSTT模型是含术语和话...
【文章来源】:河北大学河北省
【文章页数】:48 页
【学位级别】:硕士
【部分图文】:
贝叶斯网络
第二章相关理论与技术11以图2-1所示贝叶斯网络为例,其中节点的集合,由条件独立性假设、贝叶斯相关知识得到联合概率127pX,X,X,如公式(2.5)所示。71271,,iiipXXXpXpaX(2.5)2.1.3简单贝叶斯网络检索模型简单贝叶斯网络检索模型由Campos等[7]在2003年提出,模型的拓扑结构如图2-2所示。图2-2简单贝叶斯网络检索模型简单贝叶斯网络检索模型中包含术语节点和文档节点,若文档中含有某术语,则有一条该术语节点指向文档节点的有向唬查询独立于模型,当检索时查询作为证据引入。信息检索时一般是用户输入几个关键字作为查询条件,通过计算条件概率jpDQ衡量查询Q和文档jD间的相似度。一篇文档可能含有上百个索引术语,直接计算这些条件概率时间复杂度太高,因此需要给出合理的概率估计算法。概率估计算法的核心是估计文档中属于查询的每个术语的贡献。术语节点it,需要计算其边缘相关概率ipt。假设术语集中术语总个数为M,且每个术语等概率发生,则1iptM。文档节点jD,需要估计一组条件概率分布jjpDpaD。如果一个文档包含jn个术语,每个术语由一个二值变量表示,总共需要估计的条件概率分布为2jn个。一般规模的文档,每个文档的索引术语大于100个,则组合的数目大于1002,数目巨大,就会面临计算这些概率花费时间过长,存储这些概率值占用空间过大等问题。为解决该问题Campos等[7]采用估计的方法,通过设计估计函数以减少计算量,只有当条件概率在推导过程中需要时,才对其进行估计,估计函数如公式(2.6)所示。
第二章相关理论与技术15(1)LDA话题模型LDA是由Blei等[44]提出的一种非监督主题学习模型,常用来识别大规模文档集和语料库中隐藏的主题信息。LDA及其扩展已成为当前概率话题模型领域的研究热点之一。LDA话题模型是一种基于分层式的贝叶斯模型,包含报道层、话题层和特征词层,如图2-3所示。图2-3LDA话题模型在图2-3中L为话题的总个数,记第i个话题为iT,M为语料库中文本总数量,记第m篇报道为mS,mN是mS中特征词的总数,m,nk是mS中的第n个词,m,nT是m,nk所在的话题。是每个话题下特征词多项分布的狄利克雷先验参数,是每篇报道下话题多项分布的狄利克雷先验参数。隐含变量m表示mS的话题狄利克雷分布,隐含变量i表示iT下的特征词狄利克雷分布。LDA话题模型是一种生成模型,即一篇报道中每个特征词都是通过“报道以一定概率选择了某个话题,话题以一定概率选择了某个特征词”的过程得到。生成一篇报道的过程如下:①每一篇报道mS,从话题分布m中抽取一个话题iT;②从话题iT对应的特征词分布i中抽取一个特征词;③重复①②直至遍历报道中的每一个特征词。生成的报道mS中,词语m,nk的概率计算如公式(2.10)所示。,,1LmnmmniimipkSpkTpTS(2.10)
【参考文献】:
期刊论文
[1]CNNIC发布第44次《中国互联网络发展状况统计报告》[J]. 于朝晖. 网信军民融合. 2019(09)
[2]基于文本聚类的网络微博舆情话题识别与追踪技术研究[J]. 闫俊伢,马尚才. 重庆理工大学学报(自然科学). 2019(09)
[3]基于双向量模型的自适应微博话题追踪方法[J]. 黄畅,郭文忠,郭昆. 小型微型计算机系统. 2019(06)
[4]基于N-Gram语言模型的并行自适应新闻话题追踪算法[J]. 屈庆涛,刘其成,牟春晓. 山东大学学报(工学版). 2018(06)
[5]贝叶斯网络在信息检索中的应用[J]. 郑伟,侯宏旭,武静. 情报科学. 2018(06)
[6]基于朴素贝叶斯网络的微博话题追踪技术研究[J]. 冯军军,贺晓春,王海沛. 计算机与数字工程. 2017(11)
[7]面向舆情事件的子话题标签生成模型ET-TAG[J]. 周楠,杜攀,靳小龙,刘悦,程学旗. 计算机学报. 2018(07)
[8]一种融合用户关系的自适应微博话题跟踪方法[J]. 柏文言,张闯,徐克付,张志明. 电子学报. 2017(06)
[9]基于SOM聚类的微博话题发现[J]. 宋莉娜,冯旭鹏,刘利军,黄青松. 计算机应用研究. 2018(03)
[10]基于BTM的微博舆情热点发现[J]. 王亚民,胡悦. 情报杂志. 2016(11)
博士论文
[1]基于信念网络的话题识别与追踪模型研究[D]. 吴树芳.河北大学 2015
本文编号:3417530
【文章来源】:河北大学河北省
【文章页数】:48 页
【学位级别】:硕士
【部分图文】:
贝叶斯网络
第二章相关理论与技术11以图2-1所示贝叶斯网络为例,其中节点的集合,由条件独立性假设、贝叶斯相关知识得到联合概率127pX,X,X,如公式(2.5)所示。71271,,iiipXXXpXpaX(2.5)2.1.3简单贝叶斯网络检索模型简单贝叶斯网络检索模型由Campos等[7]在2003年提出,模型的拓扑结构如图2-2所示。图2-2简单贝叶斯网络检索模型简单贝叶斯网络检索模型中包含术语节点和文档节点,若文档中含有某术语,则有一条该术语节点指向文档节点的有向唬查询独立于模型,当检索时查询作为证据引入。信息检索时一般是用户输入几个关键字作为查询条件,通过计算条件概率jpDQ衡量查询Q和文档jD间的相似度。一篇文档可能含有上百个索引术语,直接计算这些条件概率时间复杂度太高,因此需要给出合理的概率估计算法。概率估计算法的核心是估计文档中属于查询的每个术语的贡献。术语节点it,需要计算其边缘相关概率ipt。假设术语集中术语总个数为M,且每个术语等概率发生,则1iptM。文档节点jD,需要估计一组条件概率分布jjpDpaD。如果一个文档包含jn个术语,每个术语由一个二值变量表示,总共需要估计的条件概率分布为2jn个。一般规模的文档,每个文档的索引术语大于100个,则组合的数目大于1002,数目巨大,就会面临计算这些概率花费时间过长,存储这些概率值占用空间过大等问题。为解决该问题Campos等[7]采用估计的方法,通过设计估计函数以减少计算量,只有当条件概率在推导过程中需要时,才对其进行估计,估计函数如公式(2.6)所示。
第二章相关理论与技术15(1)LDA话题模型LDA是由Blei等[44]提出的一种非监督主题学习模型,常用来识别大规模文档集和语料库中隐藏的主题信息。LDA及其扩展已成为当前概率话题模型领域的研究热点之一。LDA话题模型是一种基于分层式的贝叶斯模型,包含报道层、话题层和特征词层,如图2-3所示。图2-3LDA话题模型在图2-3中L为话题的总个数,记第i个话题为iT,M为语料库中文本总数量,记第m篇报道为mS,mN是mS中特征词的总数,m,nk是mS中的第n个词,m,nT是m,nk所在的话题。是每个话题下特征词多项分布的狄利克雷先验参数,是每篇报道下话题多项分布的狄利克雷先验参数。隐含变量m表示mS的话题狄利克雷分布,隐含变量i表示iT下的特征词狄利克雷分布。LDA话题模型是一种生成模型,即一篇报道中每个特征词都是通过“报道以一定概率选择了某个话题,话题以一定概率选择了某个特征词”的过程得到。生成一篇报道的过程如下:①每一篇报道mS,从话题分布m中抽取一个话题iT;②从话题iT对应的特征词分布i中抽取一个特征词;③重复①②直至遍历报道中的每一个特征词。生成的报道mS中,词语m,nk的概率计算如公式(2.10)所示。,,1LmnmmniimipkSpkTpTS(2.10)
【参考文献】:
期刊论文
[1]CNNIC发布第44次《中国互联网络发展状况统计报告》[J]. 于朝晖. 网信军民融合. 2019(09)
[2]基于文本聚类的网络微博舆情话题识别与追踪技术研究[J]. 闫俊伢,马尚才. 重庆理工大学学报(自然科学). 2019(09)
[3]基于双向量模型的自适应微博话题追踪方法[J]. 黄畅,郭文忠,郭昆. 小型微型计算机系统. 2019(06)
[4]基于N-Gram语言模型的并行自适应新闻话题追踪算法[J]. 屈庆涛,刘其成,牟春晓. 山东大学学报(工学版). 2018(06)
[5]贝叶斯网络在信息检索中的应用[J]. 郑伟,侯宏旭,武静. 情报科学. 2018(06)
[6]基于朴素贝叶斯网络的微博话题追踪技术研究[J]. 冯军军,贺晓春,王海沛. 计算机与数字工程. 2017(11)
[7]面向舆情事件的子话题标签生成模型ET-TAG[J]. 周楠,杜攀,靳小龙,刘悦,程学旗. 计算机学报. 2018(07)
[8]一种融合用户关系的自适应微博话题跟踪方法[J]. 柏文言,张闯,徐克付,张志明. 电子学报. 2017(06)
[9]基于SOM聚类的微博话题发现[J]. 宋莉娜,冯旭鹏,刘利军,黄青松. 计算机应用研究. 2018(03)
[10]基于BTM的微博舆情热点发现[J]. 王亚民,胡悦. 情报杂志. 2016(11)
博士论文
[1]基于信念网络的话题识别与追踪模型研究[D]. 吴树芳.河北大学 2015
本文编号:3417530
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3417530.html
最近更新
教材专著