基于LDA主题模型的高校新闻话题发现研究
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
图1一高校新闻话题发现流程
在LDA主题模型及其在话题检测与跟踪方面的应用研宄也取得了一系列的研宄成??果[3?5],清华大学的王嘉琦%]提出了一种基于LDA的增量式话题检测方法,在??LDA主题模型中加入了以降维为手段的文本信息,结合时间衰减函数,实现了在??语料库不断积累的过程中文本数目保持不变的目的,....
图2-1新闻话题发现基本流程??Figure?2-1?Basic?process?of?news?topic?discovery??
了常见的话题类型[38],并且说明了话题可以是可预知的,例如涉及到选举的话题;??也可以是不可预知的,例如涉及到自然灾害的话题。??话题发现的一般流程主要分以下几步,如图2-1所示:??々.C?AC?AC??3?r?3?r????|?闻?闻?闻????新闻语料收集—卜预一卜,__....
图2-2新闻文本采集过程??Figure?2-2?News?text?collection?process??
BeautifulSoup是Python中的一个模块,该模块用于接收一个HTML或XML??字符串,然后将其进行格式化,之后便可以使用它提供的方法进行快速查找指定元??素,从而使得在HTML或XML中查找指定元素变得简单。图2-2为采用Python??语言采集新闻数据的流程及所用....
图2一向量空间模型
通大学硕士学位论文?相关理论向量空间模型??文本表示模型中,由于结构简单并且方便计算,向量空间模型(Vector,VSM)?在文本处理领域得到了广泛应用。该模型可以将新闻数据化为空间中的向量表示,然后以向量在空间上的相似度来表征文本。??VSM模型中,每篇文档可以表示成《维向量,....
本文编号:4027168
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/4027168.html