当前位置:主页 > 社科论文 > 新闻传播论文 >

基于数据挖掘的网络新闻热点发现系统设计与实现

发布时间:2022-01-19 12:48
  随着互联网技术的蓬勃发展,网络媒体已经成为了人们获取新闻的一个重要渠道。网络新闻因其新闻传播速度快、传播范围广等特点,每日产生的新闻数据量极为可观。研究新闻热点的数据挖掘策略能够对推荐优质、高价值的新闻内容有着重要的理论与实用价值。除此之外,优秀的新闻热点发现系统还有助于新闻工作者和政府部门开展新闻舆情追踪等相关工作。目前的新闻热点发现系统相关的研究还处于初级阶段,相关的理论算法和系统的研究较少,基于上述原因需求,本文设计了新闻热点发现系统中的关键算法模型,并基于上述模型完成了一个基于数据挖掘算法的新闻热点发现系统:1)基于新闻文本特征和词向量化算法,本文提出了以标签向量为核心的文本标签向量模型,并针对该模型设计了新闻文本相似度计算公式。2)基于文本标签向量模型,本文设计了基于改进DBSCAN算法的Label-Vec密度聚类算法;Label-Vec算法利用Hash桶对文本空间进行了分割,有效减少了聚类过程中核心对象的比较次数,在减少了算法复杂度的同时也优化了算法性能。3)基于LDA主题模型,本文设计了热点话题发现模型,该模型可以在每个聚类簇下通过LDA模型获取簇的关键主题,并基于此生成... 

【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校

【文章页数】:78 页

【学位级别】:硕士

【部分图文】:

基于数据挖掘的网络新闻热点发现系统设计与实现


图3-1三层神经网络语言模型??如图3-1所示,在NNLM中,输入层为单词的one-hot?embedding

模型图,模型,词序,训练模型


模型中的embedding层与softmax层直接相连;2.NNLM模型中存在??词序信息,CboW模型改为将所有单词均输入同一个embedding层3.在前后文中??纳入了?future?word信息。CBoW模型如图3-2所示。???SUM???VVm?]?|?叭+!?1?[?Wt.i?[?[??图3-2?CBoW模型??Skip-gram模型与CBoW模型基本一致,其主要区别是Skip-gram通过从??context中预测target?word来训练模型。Skip-gram模型如图3-3所示。??28??

聚类过程,算法,样本序列


??上述定义的内容可由图3-4直观表示,其中圆圈的半径r为对应的领域参数??£,领域参数MinPts=3。??图3-4?DBSCAN算法聚类过程??图3-4中,浅色点对应的e-邻域为以该点为球心,半径为r的超球。浅色点??均为核心对象,超球内的所有点都是浅色点的密度直达对象。图中用浅色的箭头??展示了两组样本序列,对应的每组样本序列均为密度可达路径,由密度可达定义??可知,样本序列中的每一个点均由上一个点密度可达,且上述样本序列所在邻域??中的所有样本点密度相连。??DBSCAN算法的核心思想是:通过密度直达定义推出密度可达范围,按照??密度可达关系导出最大密度相连样本集合并形成一个簇。??DBSCAN算法步骤如下:??输入:样本集D,领域参数(e,MinPts),样本距离计算公式

【参考文献】:
期刊论文
[1]协同过滤推荐算法综述[J]. 李晓瑜.  商丘师范学院学报. 2018(09)
[2]基于改进Single-Pass算法的网络新闻话题发现[J]. 孙红光,高星,孙铁利,杨凤芹,彭杨,冯国忠.  吉林大学学报(理学版). 2018(01)
[3]面向中文新闻话题检测的多向量文本聚类方法[J]. 李欣雨,袁方,刘宇,李琮.  郑州大学学报(理学版). 2016(02)
[4]机器学习及其算法和发展研究[J]. 张润,王永滨.  中国传媒大学学报(自然科学版). 2016(02)
[5]关联规则挖掘综述[J]. 崔妍,包志强.  计算机应用研究. 2016(02)
[6]基于改进的TF-IDF算法的微博话题检测[J]. 陈朔鹰,金镇晟.  科技导报. 2016(02)
[7]Word2vec的工作原理及应用探究[J]. 周练.  科技情报开发与经济. 2015(02)
[8]EM算法研究与应用[J]. 王爱平,张功营,刘方.  计算机技术与发展. 2009(09)
[9]增量决策树知识获取[J]. 李明哲,叶春明.  电脑知识与技术. 2009(23)
[10]中文分词算法概述[J]. 龙树全,赵正文,唐华.  电脑知识与技术. 2009(10)

硕士论文
[1]基于密度的聚类算法及在新闻话题发现中的应用研究[D]. 刘颖莹.山东师范大学 2016
[2]基于DBSCAN的文本聚类算法研究[D]. 刘宏超.江西财经大学 2016
[3]基于局部敏感哈希的近似最近邻查询研究[D]. 刘英帆.西安电子科技大学 2014



本文编号:3596878

资料下载
论文发表

本文链接:https://www.wllwen.com/xinwenchuanbolunwen/3596878.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户83c2c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com