基于机器学习的中文期刊论文自动分类研究
本文关键词:基于机器学习的中文期刊论文自动分类研究,由笔耕文化传播整理发布。
【摘要】:随着电子期刊的不断增加,电子期刊论文的数量在与日俱增,电子期刊论文的合理分类成为了一个亟待解决的问题。传统的人工分类在大数据环境下已经显得力不从心,在期刊论文分类方面人工分类也存在这个问题,将自动分类的方法应用于期刊论文分类方面能有效解决这个问题。 机器学习理念的出现让自动分类快速发展起来,本文将机器学习的思想运用到期刊论文的自动分类领域,选用中国知网的期刊论文数据作为实验样本,对样本进行预处理后分为训练样本和测试样本,采用机器学习中的监督学习“先学习,后测试”的理念,先对训练样本进行学习,然后利用学习到的分类器对测试样本进行分类,对比真实的类别和测试实验给出的类别,分析机器学习在期刊论文自动分类方面的可行性。 本文的自动分类实验选用的分类算法是支持向量机算法和BP神经网络算法,通过对这两个算法在正确率、训练量和实验时间方面进行比较实验,选择出相对更加适合本文研究对象的机器学习算法——支持向量机算法,同时通过对比实验选择出适合本文研究对象的支持向量机算法参数,为机器学习实验提供了最佳环境。 在良好的机器学习环境下,本文的实验样本来源于中国知网的电子期刊论文数据,包括论文的题名、关键词和摘要等主要信息,通过对比分析知道综合这三种特征来源更加能够提高期刊论文自动分类的实验效果,并且通过对比实验找到了一组相对合适的加权比重。 期刊论文的传统分类方法是中国图书馆分类法,简称中图法,但是中图法存在分类繁杂、类目较多的特点,这显然不是自动分类的体系,本文利用层次分类法的理念将中图法转化为一个三层的分类体系,分别进行分类实验,从第一层到第三层的实验正确率分别达到了95.05%、92.89%和89.02%,三层的综合正确率也接近80%,这是一个比较可观的实验结果,证明了机器学习在期刊论文的自动分类方面的可行性,为期刊论文的分类问题提出了新的思路。
【关键词】:机器学习 期刊论文 文本自动分类 支持向量机 层次分类法
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1;TP181;G254.1
【目录】:
- 摘要5-7
- ABSTRACT7-10
- 第1章 引言10-14
- 1.1 研究背景10
- 1.2 文本自动分类的研究现状综述10-13
- 1.3 论文结构13-14
- 第2章 机器学习及常用分类算法概述14-28
- 2.1 机器学习14-17
- 2.1.1 机器学习概念14
- 2.1.2 机器学习类别14-16
- 2.1.3 机器学习模型16-17
- 2.2 自动分类算法17-28
- 2.2.1 支持向量机算法18-25
- 2.2.2 BP神经网络算法25-28
- 第3章 机器学习系统设计和优化28-43
- 3.1 数据准备28-33
- 3.2 实验模型33-36
- 3.3 分类算法的选择和优化36-40
- 3.3.1 分类算法的选择36-38
- 3.3.2 支持向量机算法的参数优化38-40
- 3.4 特征来源选取标准40-43
- 第4章 基于支持向量机的中文期刊论文自动分类43-50
- 4.1 影响分类实验效果的其他因素44-47
- 4.1.1 特征维度44
- 4.1.2 不同类别的数据量平衡问题44-45
- 4.1.3 样本量影响45-46
- 4.1.4 训练样本与测试样本比例46-47
- 4.2 基于层次模型的期刊论文自动分类47-50
- 第5章 结论50-52
- 5.1 本文总结50-51
- 5.2 不足与展望51-52
- 参考文献52-55
- 致谢55
【参考文献】
中国期刊全文数据库 前10条
1 王奕;;基于概率潜在语义分析的中文文本分类研究[J];甘肃联合大学学报(自然科学版);2011年04期
2 奉国和;;SVM分类核函数及参数选择比较[J];计算机工程与应用;2011年03期
3 张保富;施化吉;;一种基于粗糙集文本自动分类的改进算法[J];计算机工程与应用;2011年24期
4 谈文蓉;杨宪泽;谈进;;基于相似分类的文献理解及自动文摘系统研究[J];计算机科学;2006年09期
5 缪建明;张全;赵金仿;;基于文章标题信息的汉语自动文本分类[J];计算机工程;2008年20期
6 蒋健安;陆介平;倪巍伟;孙志挥;;一种面向专利文献数据的文本自动分类方法[J];计算机应用;2008年01期
7 王怡,盖杰,武港山,王继成;基于潜在语义分析的中文文本层次分类技术[J];计算机应用研究;2004年08期
8 刘大宁;杨永乐;白林;;SVM核函数对分类精度影响的研究[J];佳木斯大学学报(自然科学版);2012年04期
9 刁倩,张惠惠,王永成,何骥;中文文献自动分类中的知识库构造及其仿人算法[J];情报学报;2000年03期
10 何浩,杨海棠;一种基于N-Gram技术的中文文献自动分类方法[J];情报学报;2002年04期
中国硕士学位论文全文数据库 前1条
1 陈玉芹;多类别科技文献自动分类系统[D];华中科技大学;2008年
本文关键词:基于机器学习的中文期刊论文自动分类研究,由笔耕文化传播整理发布。
,本文编号:338626
本文链接:https://www.wllwen.com/wenshubaike/xingzhengshiwu/338626.html