深度学习与SVM相融合的新闻分类技术研究
发布时间:2022-10-20 18:55
随着信息处理技术和网络传输技术的急速发展,进入了信息爆炸的空前时代,人们急切的想通过互联网获得世界各地的最新新闻资讯,但每个人关注新闻的时间有限,无法快速的从杂乱的新闻消息中获得自己想看,关心的内容。新闻分类是一项对新闻进行分门别类的技术,能够按照新闻内容的领域、涵盖范围、种类等划分方式,将新产生的新闻进行自动化归类。用户可根据新闻类目快速找到自己所需要的资讯内容。新闻分类属于一种监督性的机器学习技术,算法需要根据已经标注好正确类别的新闻内容进行模型训练,再用模型对未知类别的新闻进行自动化分类。文章根据新闻类目标注需求设计了一个新闻标注系统,采用众筹的思想,让各个类别领域的人员参与新闻类别标注,为了保证标注质量,设计了一套标注规范及标注效果验证方法。根据新闻内容特点,文章对传统文本分类算法进行研究,综合分析算法原理及应用范围,选择了适合新闻分类的SVM算法。以SVM算法为基础,设计了一个基于SVM的新闻自动分类架构,并对架构中每个模块的设计思想进行了详细的介绍。针对SVM分类算法特点,对算法模型指标进行改进,将算法计算需要的特征进行关键特征选择操作,不断对特征抽取进行迭代运算,选取对分...
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
引言
第1章 绪论
1.1 课题的研究背景及意义
1.2 国内外研究现状
1.3 论文主要研究内容
1.4 论文的组织结构
第2章 分类系统基本原理及算法
2.1 分类系统介绍
2.2 常用的文本分类算法
2.3 深度学习分类算法
2.4 TensorFlow和Sk-learn
2.5 本章小结
第3章 基于SVM算法的分类系统设计
3.1 分类系统架构设计
3.2 数据收集和存储模块
3.2.1 新闻类目确认
3.2.2 新闻类别标注
3.2.3 新闻内容获取
3.2.4 新闻内容存储
3.3 数据分析和处理模块
3.3.1 语料预处理
3.3.2 特征选择
3.3.3 文本向量表示
3.3.4 归一化处理
3.4 分类模块
3.5 本章小结
第4章 融合深度学习特征的分类研究
4.1 深度卷积网络构建
4.2 数据收集和存储模块
4.3 TensorFlow实现图片卷积特征提取
4.4 特征融合及模型训练
4.5 本章小结
第5章 实验设计与结果分析
5.1 实验设计
5.2 算法性能评测指标
5.3 实验环境
5.4 实验结果及分析
5.5 本章小结
结论
参考文献
致谢
导师简介
作者简介
学位论文数据集
【参考文献】:
期刊论文
[1]一种新闻网页关键信息的提取算法[J]. 向菁菁,耿光刚,李晓东. 计算机应用. 2016(08)
[2]基于事件要素加权的新闻摘要提取方法[J]. 郭艳卿,赵锐,孔祥维,付海燕,蒋金平. 计算机科学. 2016(01)
[3]Framework Construction and Application for Global Health Information Platform[J]. ZHOU Jing,Lü Chaozhen,JI Donghong,LIANG Xiaohui. Wuhan University Journal of Natural Sciences. 2015(02)
[4]深度学习的研究与发展[J]. 张建明,詹智财,成科扬,詹永照. 江苏大学学报(自然科学版). 2015(02)
[5]深度学习研究进展[J]. 刘建伟,刘媛,罗雄麟. 计算机应用研究. 2014(07)
[6]Deep Learning算法分析和模型改进[J]. 鲁向拥,陈悦,张瞳,葛贝. 计算机光盘软件与应用. 2014(06)
[7]“新闻是新近信息的媒介互动”——试论新媒体传播背景下“新闻”的定义[J]. 陈响园. 编辑之友. 2013(11)
[8]基于LDA主题模型的短文本分类方法[J]. 张志飞,苗夺谦,高灿. 计算机应用. 2013(06)
[9]KNN分类算法改进研究进展[J]. 奉国和,吴敬学. 图书情报工作. 2012(21)
[10]深度学习研究综述[J]. 孙志军,薛磊,许阳明,王正. 计算机应用研究. 2012(08)
博士论文
[1]文本分类中文本表示模型和特征选择算法研究[D]. 杨杰明.吉林大学 2013
硕士论文
[1]基于词向量的短文本分类方法研究[D]. 江大鹏.浙江大学 2015
[2]基于Deep Learning的领域概念抽取方法研究[D]. 洪俊.华东师范大学 2014
[3]基于卷积神经网络的深度学习算法与应用研究[D]. 陈先昌.浙江工商大学 2014
[4]文本分类特征选择与分类算法的改进[D]. 郑俊飞.西安电子科技大学 2012
[5]KNN文本分类中特征词权重算法的研究[D]. 赵小华.太原理工大学 2010
[6]中文分词关键技术研究[D]. 曹卫峰.南京理工大学 2009
[7]中文文本分类技术研究[D]. 旺建华.吉林大学 2007
本文编号:3695119
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
引言
第1章 绪论
1.1 课题的研究背景及意义
1.2 国内外研究现状
1.3 论文主要研究内容
1.4 论文的组织结构
第2章 分类系统基本原理及算法
2.1 分类系统介绍
2.2 常用的文本分类算法
2.3 深度学习分类算法
2.4 TensorFlow和Sk-learn
2.5 本章小结
第3章 基于SVM算法的分类系统设计
3.1 分类系统架构设计
3.2 数据收集和存储模块
3.2.1 新闻类目确认
3.2.2 新闻类别标注
3.2.3 新闻内容获取
3.2.4 新闻内容存储
3.3 数据分析和处理模块
3.3.1 语料预处理
3.3.2 特征选择
3.3.3 文本向量表示
3.3.4 归一化处理
3.4 分类模块
3.5 本章小结
第4章 融合深度学习特征的分类研究
4.1 深度卷积网络构建
4.2 数据收集和存储模块
4.3 TensorFlow实现图片卷积特征提取
4.4 特征融合及模型训练
4.5 本章小结
第5章 实验设计与结果分析
5.1 实验设计
5.2 算法性能评测指标
5.3 实验环境
5.4 实验结果及分析
5.5 本章小结
结论
参考文献
致谢
导师简介
作者简介
学位论文数据集
【参考文献】:
期刊论文
[1]一种新闻网页关键信息的提取算法[J]. 向菁菁,耿光刚,李晓东. 计算机应用. 2016(08)
[2]基于事件要素加权的新闻摘要提取方法[J]. 郭艳卿,赵锐,孔祥维,付海燕,蒋金平. 计算机科学. 2016(01)
[3]Framework Construction and Application for Global Health Information Platform[J]. ZHOU Jing,Lü Chaozhen,JI Donghong,LIANG Xiaohui. Wuhan University Journal of Natural Sciences. 2015(02)
[4]深度学习的研究与发展[J]. 张建明,詹智财,成科扬,詹永照. 江苏大学学报(自然科学版). 2015(02)
[5]深度学习研究进展[J]. 刘建伟,刘媛,罗雄麟. 计算机应用研究. 2014(07)
[6]Deep Learning算法分析和模型改进[J]. 鲁向拥,陈悦,张瞳,葛贝. 计算机光盘软件与应用. 2014(06)
[7]“新闻是新近信息的媒介互动”——试论新媒体传播背景下“新闻”的定义[J]. 陈响园. 编辑之友. 2013(11)
[8]基于LDA主题模型的短文本分类方法[J]. 张志飞,苗夺谦,高灿. 计算机应用. 2013(06)
[9]KNN分类算法改进研究进展[J]. 奉国和,吴敬学. 图书情报工作. 2012(21)
[10]深度学习研究综述[J]. 孙志军,薛磊,许阳明,王正. 计算机应用研究. 2012(08)
博士论文
[1]文本分类中文本表示模型和特征选择算法研究[D]. 杨杰明.吉林大学 2013
硕士论文
[1]基于词向量的短文本分类方法研究[D]. 江大鹏.浙江大学 2015
[2]基于Deep Learning的领域概念抽取方法研究[D]. 洪俊.华东师范大学 2014
[3]基于卷积神经网络的深度学习算法与应用研究[D]. 陈先昌.浙江工商大学 2014
[4]文本分类特征选择与分类算法的改进[D]. 郑俊飞.西安电子科技大学 2012
[5]KNN文本分类中特征词权重算法的研究[D]. 赵小华.太原理工大学 2010
[6]中文分词关键技术研究[D]. 曹卫峰.南京理工大学 2009
[7]中文文本分类技术研究[D]. 旺建华.吉林大学 2007
本文编号:3695119
本文链接:https://www.wllwen.com/xinwenchuanbolunwen/3695119.html