面向网络新闻的热点话题挖掘技术研究

发布时间:2021-01-31 21:57
  随着移动互联网快速地发展,人们习惯于浏览网络新闻页面获取相关资讯,各大网络新闻平台随时随地报道社会新闻,使得人们面临着新闻内容交叉重复、话题多样广泛、热门话题筛选比较复杂等问题。人们很难获取热点话题或兴趣话题,无法了解话题的趋势变化过程,热点话题可能会因新的新闻产生而被淹没。因此,如何从网络新闻中发现热点话题和分析热点话题的趋势变化已成为亟待解决的重要问题,本文重点研究热点话题的挖掘和分析热点话题的趋势变化过程,向用户展示不同时间粒度内的热点话题,分析热点话题的趋势,主要的研究工作如下:1、提出了复合模型的新闻话题挖掘算法。首先,本文引入三元组的存储结构改进凝聚型层次聚类算法,减少算法的运行时间。在此基础上,将改进凝聚型层次聚类算法和K-means算法相结合。先对文本集采用改进凝聚型层次聚类算法,根据聚类有效性评估指标和改进最大最小距离算法,自动发现新闻话题数和初始聚类中心。然后使用K-means算法对文本集进行聚类,获得最终的新闻话题。通过对比实验结果表明,复合模型聚类算法的效果优于传统单一聚类算法。2、提出了一种话题热度的评估方法。鉴于传统TF-PDF热度评估算法只考虑了媒体关注度... 

【文章来源】:南京理工大学江苏省 211工程院校

【文章页数】:69 页

【学位级别】:硕士

【部分图文】:

面向网络新闻的热点话题挖掘技术研究


“央视315晚会”话题词云

文本,新闻,改革开放


硕士学位论文面向网络新闻的热点话题挖掘技术研究45为了更加形象地描述该模块的功能,本文展示一篇文本处理的过程来说明该模块,原始新闻文本见图5.6所示。图5.6“改革开放40年”的相关新闻文本上述文本经过NLRPIR分词后的结果如图5.7所示图5.7文本分词后的结果所示根据上述右边图中显示的词权重,过滤掉停用词和权重小的词,最后得到的文本

文本,权重,新闻,网络新闻


硕士学位论文面向网络新闻的热点话题挖掘技术研究45为了更加形象地描述该模块的功能,本文展示一篇文本处理的过程来说明该模块,原始新闻文本见图5.6所示。图5.6“改革开放40年”的相关新闻文本上述文本经过NLRPIR分词后的结果如图5.7所示图5.7文本分词后的结果所示根据上述右边图中显示的词权重,过滤掉停用词和权重小的词,最后得到的文本


本文编号:3011646

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3011646.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6d23e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com