基于LDA主题模型的高校新闻话题发现研究

发布时间:2025-01-14 21:48
  “互联网+”时代,网络新媒体得到了迅速发展,网络新闻逐渐成为人们获取信息的主要来源。高校学生作为网民中的主力军,对于新闻信息的获取更加依赖于网络。因此,如何从高校学生浏览的社会新闻中挖掘出不同的话题类型,及时掌握高校学生对于社会新闻话题的关注度及异常关注情况,引导学生正确看待社会新闻事件,对于高校思想教育工作的开展具有十分重要的意义。本文以学生浏览的社会新闻为研究对象,采用能够进行语义挖掘的LDA主题模型来对新闻文本进行表示,在对现阶段话题发现流程中涉及到的技术进行深入研究后,针对高校新闻话题发现技术中存在的问题提出了改进方案,使高校新闻话题发现的结果更为准确,具体工作开展如下:(1)针对标准LDA对新闻文本建模存在主题分布向高频词倾斜的问题,本文在优化了数据预处理流程的基础上提出一种基于标题加权的LDA主题模型。首先,通过整合停用词表及权值过滤的方式对文本建模的预处理流程进行优化,达到文本特征降维的目的,并在一定程度上降低无效高频词在主题中的分布概率。其次,由于新闻标题对新闻内容具有高度概括的作用,利用这一特点在LDA模型中引入了标题加权策略,建立标题-权值索引表对模型训练过程中的Gi...

【文章页数】:73 页

【学位级别】:硕士

【部分图文】:

图1一高校新闻话题发现流程

图1一高校新闻话题发现流程

在LDA主题模型及其在话题检测与跟踪方面的应用研宄也取得了一系列的研宄成??果[3?5],清华大学的王嘉琦%]提出了一种基于LDA的增量式话题检测方法,在??LDA主题模型中加入了以降维为手段的文本信息,结合时间衰减函数,实现了在??语料库不断积累的过程中文本数目保持不变的目的,....


图2-1新闻话题发现基本流程??Figure?2-1?Basic?process?of?news?topic?discovery??

图2-1新闻话题发现基本流程??Figure?2-1?Basic?process?of?news?topic?discovery??

了常见的话题类型[38],并且说明了话题可以是可预知的,例如涉及到选举的话题;??也可以是不可预知的,例如涉及到自然灾害的话题。??话题发现的一般流程主要分以下几步,如图2-1所示:??々.C?AC?AC??3?r?3?r????|?闻?闻?闻????新闻语料收集—卜预一卜,__....


图2-2新闻文本采集过程??Figure?2-2?News?text?collection?process??

图2-2新闻文本采集过程??Figure?2-2?News?text?collection?process??

BeautifulSoup是Python中的一个模块,该模块用于接收一个HTML或XML??字符串,然后将其进行格式化,之后便可以使用它提供的方法进行快速查找指定元??素,从而使得在HTML或XML中查找指定元素变得简单。图2-2为采用Python??语言采集新闻数据的流程及所用....


图2一向量空间模型

图2一向量空间模型

通大学硕士学位论文?相关理论向量空间模型??文本表示模型中,由于结构简单并且方便计算,向量空间模型(Vector,VSM)?在文本处理领域得到了广泛应用。该模型可以将新闻数据化为空间中的向量表示,然后以向量在空间上的相似度来表征文本。??VSM模型中,每篇文档可以表示成《维向量,....



本文编号:4027168

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/4027168.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e6fab***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com