基于深度学习的网络热点话题推荐研究
发布时间:2024-05-12 18:45
随着互联网技术的高速发展和全球化普及,网民规模不断扩大,网络也成为网民获取信息的重要平台。新闻文本信息呈爆炸式的涌现在网络上,因此从大量冗余的文本信息中提取出有价值的信息已成为当前计算机领域中的一项重要研究内容。如果仅靠人工处理这些杂乱无章的舆情数据,不仅会增加工作量,而且准确程度也会由于受主观意识的影响而降低。基于上述研究背景,本文对热点话题推荐研究的出发点是:如何从海量的、种类多样的信息中迅速发现目前最热门、网络平台讨论最多的话题推荐展示给网民。传统的热点话题研究方法不仅需要对数据集进行人工标注,而且在大数据集下容易出现维度灾难的问题。近年来深度学习作为前沿领域与多学科融合并取得众多突破,在自然语言处理领域上的运用也为网络热点话题推荐带来了新的解决思路。本文主要工作内容如下:对于传统语言模型无法避免在词语向量化的过程中忽略主要信息以及无法结合整体内容进行文本分析的问题,本文结合卷积神经网络通过卷积核上下滑动提取文本特征的特点,设计了基于卷积神经网络的词特征文本表示方法。本文使用Word2Vec预训练语言模型实现词向量的转化,并引入TF-IDF算法增强文本特征,最后通过卷积神经网络实...
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
本文编号:3971738
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
图2.1文本空间向量表示图
沈阳工业大学硕士学位论文82.3文本特征表示文本特征表示就是将自然语言的数据信息根据一定规则转化为可供计算机识别的数字化表示。文本特征表示是自然语言处理的核心技术,目前被广泛应用在文本相似度分析、文本分类、文本聚类等众多领域并取得良好的成绩和发展。大多数针对热点话题发现研究中通过....
图2.2LDA模型向量矩阵图
沈阳工业大学硕士学位论文10含多个主题词,因此主题模型会自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少[18]。主题模型从诞生到现在发展迅速,至今在各领域被广泛应用。1999年,ThomasHofmann在其之上,发表....
图2.3LDA主题模型图
沈阳工业大学硕士学位论文10含多个主题词,因此主题模型会自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少[18]。主题模型从诞生到现在发展迅速,至今在各领域被广泛应用。1999年,ThomasHofmann在其之上,发表....
图2.4信息在神经元间传导过程
共同形成的。在这里,将定义为观察变量,和z定义为隐藏变量。经过反复迭代,直至结果收敛。主题模型虽然在大数据文本处理上,尽可能减少词语对文本的表示,简化了计算并获取了良好的成绩,然而主题模型本质上仍属于“词袋模型”,无法避免忽略语义间联系的问题,而且得到的文本比较稀疏,得到的文本特....
本文编号:3971738
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3971738.html