基于机器学习模型的论文自动分类模型研究
发布时间:2021-11-25 22:39
随着数字图书馆的发展,每年发表的论文数目也越来越大,为了方便大家查阅学习,论文的分类管理成为了亟待解决的问题。传统的人工分类不仅耗费时间,而且会由于分类工作者的主观因素导致分类结果出现偏差。因此寻找一个合适的机器学习模型来实现论文的自动分类成为了解决这一问题的最佳方法。本文主要通过分析容易被错判的论文和被正确分类的论文之间的差别,寻找优化模型的方法,以期可以得到一个理想的分类模型和论文分类管理方案。本文从中国知网上按照论文被索引次数的大小选取7000篇硕士论文作为样本数据。通过Python中的分词包对论文进行分词,并以TF-IDF算法计算每个特征词的权重。随机森林算法、支持向量机算法和AdaBoost算法是文本挖掘领域应用最广泛的三个模型,本文通过交叉验证的方法,并以分类的准确率和模型训练时间为评价指标从这三个模型中选择出最适合的模型。在进行初步预测后,发现被误判的论文的题名、关键字、摘要中包含的特征词的均较少,导致变量不显著而被错分到比较接近的类别中去了。本文通过构建知识图谱模型,并引用与论文关系最接近的论文中的特征词补充到论文中去。再次对优化后的模型进行预测,预测的正确率明显提升,...
【文章来源】:天津财经大学天津市
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
图2.?1交叉验证??
.?2.?4基于知识理解筛选特征词??将分词后的词语以列表的形式保存,并分别统计各个类别的词和对应的词频。分不同类别的论文做次云图。再根据各学科领域的知识,筛选出能代表各个学科领特征词。以下是对特征词的筛选示例。??数学是研宄数量、结构、变化、空间以及信息等概念的一门学科。从数学类论文字词云图可以看出,数学论文高频词如全局、混合、边值问题、混合、分支、信息熵量、整体、方程组、导数、相似、积极算子、相似性、指数函数、级数、可视化、研究、微积分、最优控制等都是数量、结构、变化空间以及信息的范畴。其作为数论文的识别词汇是较为合理的。数学作为一门基础理论学科,在很多学科都有应用。??此有些词汇如传染病、捕食者、细胞、染色、媒体报道等。应是数学知识的应用领词汇,他们的出现具有偶然性,不能作为数学的专有特征,因此不能放在数学关键频词包里。??
;波导调制■劈热%s办,巧-|^itgnAb??麵探测超导体嘯1伊敦■■色散i艺太阳目匕??图3.?2物理类论文特征词词云图??从地球物理类论文的关键字的词云图可以看出,如地面、重力、拾取、地表水、体??积、速度、泥沙、面向变迁、盆地、面波位场、压缩、磁测、黄河、构造、地幔、勘测??等都为都为地理类专业词汇。如波形、磁法、电法、重力等均属于物理学的专业词汇。??这些词均可以作为地球物理学的关键字高频词包。???往罌寒麵泥沙毫K靈?南》肩If场蔚重力??If師賴_^?篇—謹??巨!散__峨雜臓腿讓tefe界面任意…??&黯可舊遗警識睡澀3地幔勘探构造??图3.?3地球物理类论文特征词词云图??金融学是以融资货币和货币资金的经济活动为研究对象的学科。如图3.?4金融类论??文关键字词云图,金融类的关键字高频的词汇。如贸易、存货、垄断、协调效应、汇率、??征信、货币等都属于金融学的专业词汇。其中也有一些词如热情、毕业生并不属于金融??学的专业范畴。??17??
【参考文献】:
期刊论文
[1]基于数据仓库的上海图书馆流通分析报告实践[J]. 宋歌笙,刘靓洲. 图书馆杂志. 2015(02)
[2]基于OPAC日志用户行为分析的图书采购新方法[J]. 侯志江,侯玲娟. 图书馆建设. 2015(01)
[3]SVM核函数对分类精度影响的研究[J]. 刘大宁,杨永乐,白林. 佳木斯大学学报(自然科学版). 2012(04)
[4]一种基于粗糙集文本自动分类的改进算法[J]. 张保富,施化吉. 计算机工程与应用. 2011(24)
[5]基于概率潜在语义分析的中文文本分类研究[J]. 王奕. 甘肃联合大学学报(自然科学版). 2011(04)
[6]基于粗糙集特征加权的文本分类[J]. 徐欣,黄理灿,赵玉虹. 浙江理工大学学报. 2011(04)
[7]基于支持向量机的医学期刊文章自动分类研究[J]. 王东波,苏新宁,朱丹浩,年洪东. 情报理论与实践. 2011(04)
[8]SVM分类核函数及参数选择比较[J]. 奉国和. 计算机工程与应用. 2011(03)
[9]基于KNN算法的文本自动分类方法研究——以学术期刊栏目自动归类为例[J]. 李湘东,徐朋,黄莉,沈祥兴. 图书情报知识. 2010(04)
[10]基于机器学习的文本自动分类研究进展[J]. 张雪英. 情报学报. 2006 (06)
硕士论文
[1]基于多元线性回归模型的电影票房预测系统设计与实现[D]. 任丹.中山大学 2015
[2]基于RBF神经网络的时间序列预测技术的研究[D]. 沈艳.安徽农业大学 2012
本文编号:3518921
【文章来源】:天津财经大学天津市
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
图2.?1交叉验证??
.?2.?4基于知识理解筛选特征词??将分词后的词语以列表的形式保存,并分别统计各个类别的词和对应的词频。分不同类别的论文做次云图。再根据各学科领域的知识,筛选出能代表各个学科领特征词。以下是对特征词的筛选示例。??数学是研宄数量、结构、变化、空间以及信息等概念的一门学科。从数学类论文字词云图可以看出,数学论文高频词如全局、混合、边值问题、混合、分支、信息熵量、整体、方程组、导数、相似、积极算子、相似性、指数函数、级数、可视化、研究、微积分、最优控制等都是数量、结构、变化空间以及信息的范畴。其作为数论文的识别词汇是较为合理的。数学作为一门基础理论学科,在很多学科都有应用。??此有些词汇如传染病、捕食者、细胞、染色、媒体报道等。应是数学知识的应用领词汇,他们的出现具有偶然性,不能作为数学的专有特征,因此不能放在数学关键频词包里。??
;波导调制■劈热%s办,巧-|^itgnAb??麵探测超导体嘯1伊敦■■色散i艺太阳目匕??图3.?2物理类论文特征词词云图??从地球物理类论文的关键字的词云图可以看出,如地面、重力、拾取、地表水、体??积、速度、泥沙、面向变迁、盆地、面波位场、压缩、磁测、黄河、构造、地幔、勘测??等都为都为地理类专业词汇。如波形、磁法、电法、重力等均属于物理学的专业词汇。??这些词均可以作为地球物理学的关键字高频词包。???往罌寒麵泥沙毫K靈?南》肩If场蔚重力??If師賴_^?篇—謹??巨!散__峨雜臓腿讓tefe界面任意…??&黯可舊遗警識睡澀3地幔勘探构造??图3.?3地球物理类论文特征词词云图??金融学是以融资货币和货币资金的经济活动为研究对象的学科。如图3.?4金融类论??文关键字词云图,金融类的关键字高频的词汇。如贸易、存货、垄断、协调效应、汇率、??征信、货币等都属于金融学的专业词汇。其中也有一些词如热情、毕业生并不属于金融??学的专业范畴。??17??
【参考文献】:
期刊论文
[1]基于数据仓库的上海图书馆流通分析报告实践[J]. 宋歌笙,刘靓洲. 图书馆杂志. 2015(02)
[2]基于OPAC日志用户行为分析的图书采购新方法[J]. 侯志江,侯玲娟. 图书馆建设. 2015(01)
[3]SVM核函数对分类精度影响的研究[J]. 刘大宁,杨永乐,白林. 佳木斯大学学报(自然科学版). 2012(04)
[4]一种基于粗糙集文本自动分类的改进算法[J]. 张保富,施化吉. 计算机工程与应用. 2011(24)
[5]基于概率潜在语义分析的中文文本分类研究[J]. 王奕. 甘肃联合大学学报(自然科学版). 2011(04)
[6]基于粗糙集特征加权的文本分类[J]. 徐欣,黄理灿,赵玉虹. 浙江理工大学学报. 2011(04)
[7]基于支持向量机的医学期刊文章自动分类研究[J]. 王东波,苏新宁,朱丹浩,年洪东. 情报理论与实践. 2011(04)
[8]SVM分类核函数及参数选择比较[J]. 奉国和. 计算机工程与应用. 2011(03)
[9]基于KNN算法的文本自动分类方法研究——以学术期刊栏目自动归类为例[J]. 李湘东,徐朋,黄莉,沈祥兴. 图书情报知识. 2010(04)
[10]基于机器学习的文本自动分类研究进展[J]. 张雪英. 情报学报. 2006 (06)
硕士论文
[1]基于多元线性回归模型的电影票房预测系统设计与实现[D]. 任丹.中山大学 2015
[2]基于RBF神经网络的时间序列预测技术的研究[D]. 沈艳.安徽农业大学 2012
本文编号:3518921
本文链接:https://www.wllwen.com/tushudanganlunwen/3518921.html