当前位置:主页 > 科技论文 > 自动化论文 >

基于贝叶斯网的新闻关注度预测

发布时间:2020-04-10 02:23
【摘要】:随着今日头条、网易新闻等各大新闻平台的发展,基于互联网产生了海量且规模不断激增的网页新闻。网页新闻实时性、交互性和便捷的特点,使其成为了主流的信息获取渠道。带来便捷的同时,网页新闻数量的激增却带来了信息爆炸的问题,用户很难从海量新闻中筛选出自己感兴趣的新闻,由于新闻数量过多而使得新闻平台难以有针对性地发布或推送新闻。利用人们通常更容易对那些关注度较高的新闻感兴趣这一特点,新闻关注度预测可为上述问题提供解决方案。新闻平台可根据预测的新闻关注度来选择关注度较高的新闻并推送给用户,也可将预测的关注度用于改善新闻网站的布局,为在线广告投放提供一种策略(例如,在预测到某条新闻将要受到关注后选择在其中投放广告,从而提高广告的点击率),也有助于提高信息的有效性,避免用户被不感兴趣的信息所干扰。目前研究人员提出了许多方法用于新闻关注度的预测,如分类或回归、神经网络和随机森林等。其中,以分类或回归的方法应用最为广泛,这两种方法的预测思想相同,都是将新闻表示成一组基于影响新闻关注度的特征,利用基于这组特征的数据集训练模型来预测新闻的关注度。但是,这些方法并未考虑新闻关注度相关的特征之间的相互依赖关系。贝叶斯网作为一种有效的不确定性知识表达和推理工具,可以对这些特征间的依赖关系进行建模、并进行推理,本文基于贝叶斯网来预测新闻的关注度。具体而言,本文的主要研究内容如下:(1)在提取特征用于模型构建的过程中,针对新闻关键词太多而无法单独衡量每个关键词对新闻关注度影响的问题,本文利用不同等级的关键词集合表达关键词对新闻关注度的影响,将关键词对新闻关注度的影响的研究问题转化为新闻关键词等级对新闻关注度影响的研究。(2)在构建预测模型的过程中,针对评分搜索方法构建的模型结构依赖关系不合理问题,本文提出一种基于约束与评分搜索的结构学习方法对结构学习进行约束限定,确保结构学习得到的结构依赖关系表达合理。(3)通过今日头条爬取的1.7万余条数据进行实验,测试了本文方法的有效性和可行性,并设计并实现了相应的原型系统。
【图文】:

新闻,不确定性知识,相关因素,贝叶斯网


分析来达到预测的目的。图U中的化展示了现有的方法考虑的相关因素与新闻关逡逑注度的相互影响关系,即分析每个因素对新闻关注度的影响。但实际中,这些相关逡逑因素不是孤立存在的,它们之间存在着相互影响关系,如图1.1中的G2所示,即关逡逑键词的不同将会影响网页新闻的类型和情感偏向,而关键词和情感偏向影响着新逡逑闻关注度。本文在考虑这些因素对新闻关注度影响的同时,考虑这些因素间的相互逡逑依赖关系对新闻关注度的影响。逡逑2逡逑

贝叶斯网,属性,依赖关系


作为一种应用于复杂系统和数据分析的有效工定性依赖关系、充分利用样本数据和相关领域知识,的应用。逡逑结构分和参数0两部分构成,e邋=<>,分是一个的属性,DAG中的边代表属性间的依赖关系,,参赖关系程度。假设属性&在分中的父节点集为;^(&),概率表^i|7Ii邋=邋PO^paO^)),则整个BN的联合概率POi,…,xn)邋=邋nU0f|pa0i)出了邋3个节点的简单贝叶斯网,它刻画了下雨(/?)、的关系,其中r和F代表事件发生与未发生。根据可以表示为:逡逑P(R,S,G)邋=邋P(S\R)P(G\S,R)P(R)数0求解出BN的联合概率分布。逡逑—___逦R逡逑
【学位授予单位】:云南大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP18

【参考文献】

相关期刊论文 前1条

1 孔庆超;毛文吉;;基于动态演化的讨论帖流行度预测[J];软件学报;2014年12期



本文编号:2621615

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2621615.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b26fc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com