基于特征选择和词向量加权的新闻话题检测研究

发布时间：2023-12-02 08:57

　　话题检测是处理互联网新闻数据的一种重要方法。主要任务是从新闻数据中自动检测和组织潜在的话题信息,对网络中分散的信息进行有效地汇集和整理,帮助人们从众多数据中发现未知话题事件,使人们能够从整体上了解该事件的详细内容,有效解决信息过载问题。在话题检测任务中,文本聚类思想是一种有效的解决方法,基于文本聚类思想的话题检测模型主要包括数据获取、特征选择、文本模型化以及聚类策略,本文主要从新闻文本的特征选择和文本建模表示两个方面对新闻话题检测进行研究。(1)针对原始新闻文本噪声特征较多,无监督度特征选择方法特征选择能力有限,而有监督特征选择方法无法直接以用于话题检测任务,提出一种基于多K-means聚类结果的特征选择方法(Feature Selection Method based on Multi-K-means Clustering Results,FS-MKCR)。该方法利用K-means聚类结果取决于集群数目和初始中心点的选取这一特点,通过在不同初始条件下的K-means聚类结果上采用有监督的特征选择方法过滤噪声特征,获得最优特征子集。该方法将有监督特征选择方法应用于新闻话题检测这一无监督...

【文章页数】：48 页

【学位级别】：硕士

【文章目录】：
摘要
Abstract
第一章绪论
    §1.1 研究背景及意义
    §1.2 研究现状
    §1.3 研究内容
    §1.4 本文结构
第二章相关理论及技术
    §2.1 数据源获取方法
        §2.1.1 网络爬虫
        §2.1.2 Scrapy爬虫框架
    §2.2 特征选择
        §2.2.1 信息增益
        §2.2.2 卡方统计
        §2.2.3 期望交叉熵
        §2.2.4 文档频率
    §2.3 文本模型化
        §2.3.1 向量空间模型
        §2.3.2 主题模型
        §2.3.3 词嵌入模型
    §2.4 话题检测的聚类算法
        §2.4.1 基于层次的聚类算法
        §2.4.2 基于划分的聚类算法
        §2.4.3 基于密度的聚类算法
    §2.5 本章小结
第三章基于FS-MKCR的新闻话题检测
    §3.1 问题分析
    §3.2 基于FS-MKCR的新闻话题检测模型
        §3.2.1 基于多K-means聚类结果的特征选择方法
        §3.2.2 基于FS-MKCR的新闻话题检测模型
    §3.3 实验结果及分析
        §3.3.1 实验数据
        §3.3.2 性能评价指标
        §3.3.3 实验预处理和实验设置
        §3.3.4 实验结果及分析
    §3.4 本章小结
第四章基于改进期望交叉熵特征选择的新闻话题检测
    §4.1 问题分析
    §4.2 基于改进期望交叉熵的新闻话题检测模型
        §4.2.1 期望交叉熵算法的改进
        §4.2.2 基于改进期望交叉熵算法的新闻话题检测模型
    §4.3 实验结果及分析
    §4.4 本章小结
第五章基于词向量加权的新闻话题检测
    §5.1 问题分析
    §5.2 基于word2vec加权的新闻话题检测模型
        §5.2.1 基于word2vec加权的文本模型化表示
        §5.2.2 基于Word2vec加权的新闻话题检测模型
    §5.3 实验结果及分析
    §5.4 本章小结
第六章总结与展望
    §6.1 工作总结
    §6.2 下一步工作
参考文献
致谢
作者在攻读硕士期间主要研究成果

本文编号：3869336

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/xinwenchuanbolunwen/3869336.html

上一篇：电视访谈节目主持人的素养研究
下一篇：《海峡时报》上的中国产品品牌形象研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|