基于信念网络的话题识别与追踪模型研究

发布时间:2017-11-24 13:21

  本文关键词:基于信念网络的话题识别与追踪模型研究


  更多相关文章: 话题识别与追踪 信念网络 话题模型 误报检测 特征选择 互信息


【摘要】:向量空间检索模型在话题识别与追踪领域的成功应用,从理论上证明用于信息检索的贝叶斯网络模型亦可用于该领域。信念网络模型属于基于贝叶斯网络的检索模型的一种,论文尝试将其用于话题识别与追踪模型的构建,为该领域提出新的研究方法。特征选择是话题模型构建的基础,互信息是文本处理领域一种有效的特征选择方法。在基本互信息的基础上,将出现相同高频词的新闻报道进行聚类,计算聚类后术语的互信息,将追踪到的相关报道的发生时间和话题的发生时间量化为时间距离,使其反比影响互信息的动态更新,得到基于聚类的动态互信息计算方法,用于计算新闻报道中术语的权重。为了获得TDT4语料中,每个话题的初始特征子集规模,给出基于类内距离最小、类间距离最大的目标函数,并采用坐标下降法对其求解。结合信念网络模型和新闻报道的特点,给出四个基于信念网络的话题模型BSTM-I、BSTM-II、BDTM-I和BDTM-II。BSTM-I包括三类节点:新报道节点、术语节点和话题节点,弧体现节点间的隶属关系。BSTM-II在BSTM-I的基础上加入事件节点,弧的指向和意义不变,为体现核心报道、核心事件的重要性,BSTM-II对核心报道、核心事件中的术语权重进行了两次线性提高调整。BDTM-I属于动态话题模型,节点类型和弧的意义与上述模型相同,不同的是在话题追踪过程中,其术语层会随着话题的发展而不断更新,重复出现的术语权重采用求和平均的方法更新,新出现的术语作为新的节点插入术语层。以上三个话题模型沿用了传统建模思想,具备和以往模型相同的优缺点。BDTM-II打破传统建模的思想,运用信念网络模型提供了一个灵活框架的优势,将术语节点分为两类:初始核心术语节点和更新术语节点,并采用析取手段将它们作为两类证据进行归并。依据模型的拓扑结构,给出了上述四个模型计算新闻报道和话题相似度的概率推导过程,用于判断新的新闻报道是否和话题相关。通过系统分析动态话题追踪的误报原因,提出动态话题追踪中的误报检测。该方法首先分析了时间距离、相似度差值、相似话题分布及与核心内容相似度分别如何影响误报检测,然后通过将这四项内容线性调和得到了误报检测因子的计算方法,用于判断追踪到的相关报道是否属于误报,若属于误报,则对部分特征权重进行衰减,并确定模型结构是否需要调整。实验采用TDT4语料,结合DET曲线验证了以上研究内容的合理性和有效性。
【学位授予单位】:河北大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.1

【相似文献】

中国期刊全文数据库 前10条

1 张鸿久;何熹;;数字化电厂模型层次分析[J];现代商贸工业;2009年20期

2 易先清,罗雪山,罗爱民;活动模型描述工具的设计与实现[J];系统工程与电子技术;2004年08期

3 阎光伟;;点采样模型的多样性编辑与绘制[J];计算机工程;2007年10期

4 周颖;郑国梁;李宣东;;模型层次与自省思想研究[J];计算机应用与软件;2005年12期

5 蔡国永;林煜明;;RBAC模型的扩充及其应用[J];计算机工程与应用;2008年03期

6 ;MathWorks现代化的基于模型的设计[J];工业设计;2012年08期

7 陈文超;陈宁;李文全;李峰;;基于交通管理GIS的道路模型研究与实现[J];计算机工程与设计;2007年09期

8 罗军,吕德文,陈松,李茜;基于E-R模型层次化的录入技术[J];重庆大学学报(自然科学版);2003年07期

9 李文军;周晓聪;李师贤;;并发模型的分类与层次[J];计算机科学;2000年03期

10 周伯鑫;CEOOM──一个面向复杂环境的语义元模型[J];东南大学学报;1995年S1期

中国重要会议论文全文数据库 前1条

1 张松;崔铁军;蔡畅;邬雨笋;李伟;;一种基于空间认知的三维地物模型[A];2009`中国地理信息产业论坛暨第二届教育论坛就业洽谈会论文集[C];2009年

中国博士学位论文全文数据库 前5条

1 李钦;面向模型的组合理论研究[D];华东师范大学;2011年

2 吴树芳;基于信念网络的话题识别与追踪模型研究[D];河北大学;2015年

3 翟文正;基于模型的异构多核嵌入式系统开发研究[D];上海大学;2013年

4 季庆光;高安全级操作系统形式设计的研究[D];中国科学院研究生院(软件研究所);2004年

5 徐本柱;变结构工序状态网的模型与算法研究[D];合肥工业大学;2011年

中国硕士学位论文全文数据库 前10条

1 赵伟;基于经济关系的互联网层次化建模与演化分析[D];上海交通大学;2010年

2 吴菲;基于MOF的可执行模型工具的研究与实现[D];吉林大学;2008年

3 朱尚武;基于KⅢ的嗅觉仿生模型及其应用研究[D];湖南大学;2012年

4 王政;基于模糊的RBAC模型的研究与应用[D];大连理工大学;2009年

5 陈龙飞;农资电子商务智能推荐模型研究[D];河北经贸大学;2014年

6 朱岳;基于三维分枝模型的树木模拟算法研究及其实现[D];湖南大学;2005年

7 周品;基于CBR的离散模拟模型可复用性研究[D];华中科技大学;2010年

8 贾文质;基于动态权限策略的CAD模型安全保护[D];浙江工业大学;2009年

9 盛兵;基于变维向量空间的钣金件多态模型数字化定义技术研究[D];西北工业大学;2005年

10 张倩;用于网络评论文本挖掘的主题模型研究[D];北京交通大学;2014年



本文编号:1222394

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1222394.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5b16d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com