网络新闻热点话题检测分析与趋势研究
发布时间:2020-06-13 21:10
【摘要】:随着“互联网+”时代的到来,网络逐渐成为人们获取信息、传播信息的重要渠道,大量网络新闻在丰富人民生活的同时,也蕴藏了大量的价值,比如网络新闻在舆情、股市预测等方面都有着重要应用。但是网络新闻交错纷杂、杂乱无章,人们往往无法获取及时有效的信息,网络新闻话题检测以及趋势研究则能很好地解决的这一问题,网络新闻话题检测主要是为了从海量的网络新闻中检测热点话题,方便人们关注社会焦点。本文在传统的话题检测方法基础上进行了一些改进。首先本文的数据来源于爬取的2018年1月份各大门户网站八个类别下的网络新闻数据,然后本文在话题模型的选取上采用Word2vec与LDA联合建模的方式;其次本文在对文本聚类前采用文本分类的方式进行预处理,从而可以得到不同类别的网络新闻;然后本文设计了一种双层SinglePass聚类进行话题发现;最后本文对话题的趋势进行了研究,通过话题热度以及话题指数的计算公式获取话题的趋势。根据研究结果表明,本文采用的Word2vec与LDA联合建模方式效果优异,实验表明在与单模型的比较中效果上有明显提升;而本文构建的基于Word2vec与卷积神经网络的分类模型取得了良好的效果,分类准确率达到90%以上,根据此算法可以得到八个类别下的新闻;其次本文设计的双层Single-Pass聚类的聚类效果优异,并且能够处理连续时间的网络新闻,具有较强的灵活性,根据本文算法给出了2018年1月2日以及2018年第一周的各类别热点话题;最后本文提出的热点话题趋势研究的方法在实际的话题案例分析中,与权威的搜索引擎百度指数的对比,发现效果大致相同,侧面印证了本文话题的趋势研究的有效性。所以通过本文的模型可以从海量的网络新闻中检测出热点话题,并对话题趋势进行研究,这对用户、企业还是政府都有较强的应用价值。
【图文】:
图 1.1 本文话题检测与趋势研究流程图1.3 本文的创新之处本文具体的创新点从研究内容以及研究方法上分别阐述。1.3.1 研究内容上的创新国内外研究在热门话题检测过程中基本采用聚类算法,并没有将分类考虑进去,本文则在话题聚类之前对网络新闻进行分类,从而将网络新闻按照不同类别划分,这样不仅可以减少话题检测时聚类的计算量,并且还可以得到不同类别下的热门话题。1.3.2 研究方法上的创新研究方法的创新主要体现在 2 个方面。(1)新闻话题模型的创新新闻话题模型是话题检测的核心之一,目前广泛使用的方法有向量空间模型与主题模型,本文引入 Word2vec 模型,并与传统的主题模型 LDA 联合建模的方式应用到话题
第 2 章 文本表示模型及相似度算法话题检测的前提在于话题模型的构建,而构建话题模型则需要对文本预处理。本章首先对爬取下来的数据进行预处理,采用 Word2vec 与 LDA 模型对文本建模,,以及尝试利用 Word2vec 与 LDA 模型联合建模的方式来计算文本相似度。2.1 文本预处理文本预处理阶段是将文本数据转化成结构化数据的过程,首先本文采用 python 网络爬虫技术将爬取的下来的网络新闻形成一个数据集,进而对文本进行中文分词,将文本切割成分散的独立词集,并对各词语进行词性标注,并构建停用词表去除无关的干扰词。本文数据来源于 2018 年 1 月份全月的新浪、搜狐、网易等门户网站的新闻数据,主要包括:国内、国际、社会、娱乐、科技、军事、体育、财经八个类别。采用 python的爬虫框架进行爬取。爬取新闻网页链接的四个字段:新闻标题、新闻发布时间、新闻类别、新闻内容。爬取的数据格式如图 2.1 所示,
【学位授予单位】:首都经济贸易大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:F724.6;F274
本文编号:2711748
【图文】:
图 1.1 本文话题检测与趋势研究流程图1.3 本文的创新之处本文具体的创新点从研究内容以及研究方法上分别阐述。1.3.1 研究内容上的创新国内外研究在热门话题检测过程中基本采用聚类算法,并没有将分类考虑进去,本文则在话题聚类之前对网络新闻进行分类,从而将网络新闻按照不同类别划分,这样不仅可以减少话题检测时聚类的计算量,并且还可以得到不同类别下的热门话题。1.3.2 研究方法上的创新研究方法的创新主要体现在 2 个方面。(1)新闻话题模型的创新新闻话题模型是话题检测的核心之一,目前广泛使用的方法有向量空间模型与主题模型,本文引入 Word2vec 模型,并与传统的主题模型 LDA 联合建模的方式应用到话题
第 2 章 文本表示模型及相似度算法话题检测的前提在于话题模型的构建,而构建话题模型则需要对文本预处理。本章首先对爬取下来的数据进行预处理,采用 Word2vec 与 LDA 模型对文本建模,,以及尝试利用 Word2vec 与 LDA 模型联合建模的方式来计算文本相似度。2.1 文本预处理文本预处理阶段是将文本数据转化成结构化数据的过程,首先本文采用 python 网络爬虫技术将爬取的下来的网络新闻形成一个数据集,进而对文本进行中文分词,将文本切割成分散的独立词集,并对各词语进行词性标注,并构建停用词表去除无关的干扰词。本文数据来源于 2018 年 1 月份全月的新浪、搜狐、网易等门户网站的新闻数据,主要包括:国内、国际、社会、娱乐、科技、军事、体育、财经八个类别。采用 python的爬虫框架进行爬取。爬取新闻网页链接的四个字段:新闻标题、新闻发布时间、新闻类别、新闻内容。爬取的数据格式如图 2.1 所示,
【学位授予单位】:首都经济贸易大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:F724.6;F274
【参考文献】
相关期刊论文 前10条
1 李跃鹏;金翠;及俊川;;基于word2vec的关键词提取算法[J];科研信息化技术与应用;2015年04期
2 贺敏;杜攀;张瑾;刘悦;程学旗;;基于动量模型的微博突发话题检测方法[J];计算机研究与发展;2015年05期
3 贾瑷玮;;基于划分的聚类算法研究综述[J];电子设计工程;2014年23期
4 方星星;吕永强;;基于改进的single-pass网络舆情话题发现研究[J];计算机与数字工程;2014年07期
5 何跃;帅马恋;冯韵;;中文微博热点话题挖掘研究[J];统计与信息论坛;2014年06期
6 张小明;李舟军;巢文涵;;基于增量型聚类的自动话题检测研究[J];软件学报;2012年06期
7 单斌;李芳;;基于LDA话题演化研究方法综述[J];中文信息学报;2010年06期
8 杨潇;马军;杨同峰;杜言琦;邵海敏;;主题模型LDA的多文档自动文摘[J];智能系统学报;2010年02期
9 俞辉;;基于PLSA模型的Web用户聚类算法研究[J];计算机工程与科学;2008年07期
10 王煜;王正欧;白石;;用于文本分类的改进KNN算法[J];中文信息学报;2007年03期
相关硕士学位论文 前2条
1 程嘉晖;基于深度卷积神经网络的飞行器图像识别算法研究[D];浙江大学;2017年
2 马晓姝;基于LDA模型的新闻话题发现研究[D];东北师范大学;2014年
本文编号:2711748
本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/2711748.html