当前位置:主页 > 科技论文 > 软件论文 >

基于机器学习算法的数据分类应用研究

发布时间:2021-08-06 23:10
  当下随着互联网的迅速发展,网络产生的信息的数量在以前所未有的速度增长,如何更好的整合这些庞大的数据,解决信息混乱的问题,目前是信息产业方面重点研究的课题之一。随着机器学习算法的不断创新,特别是深度学习的快速发展和分布式计算的成熟,使得对数据的整合处理成为可能。在数据挖掘和机器学习领域中,研究如何对数据划分种类具有非常重要的意义,一方面可以更有效地管理数据信息,另一方面也为后续的检测、识别等研究奠定了非常坚实的基础。本文的主要研究内容是:针对文本数据,以朴素贝叶斯方法为基础,概述了中文文本分类的理论和步骤以及朴素贝叶斯分类器的理论思想。实验阶段,数据集选择搜狗全网新闻数据集中的10个类别作为训练集和测试集,进行分词和删除停用词处理,然后使用TF-IDF进行特征降维处理,使用朴素贝叶斯分类器进行新闻数据分类,同时引入多个评价指标对模型最终的分类结果进行测评。最终朴素贝叶斯分类器在准确率、召回率和F1值这3个评价指标上都达到了 97%,取得了良好的效果。针对图像数据,以卷积神经网络的典型模型VGG-16为基础,提出了一种改进的方法,然后检验改进模型的效果。首先搭建了基于Windows平台的T... 

【文章来源】:宁夏大学宁夏回族自治区 211工程院校

【文章页数】:66 页

【学位级别】:硕士

【图文】:

基于机器学习算法的数据分类应用研究


图2.1机器学习类比人类学习??

模型图,模型,正方形,距离圆


?图2.?2?KNN模型??图2.2形象的表示了?KNN实现分类的具体情形。图中分别用三角形和正方形表示已知??类别的数据,待分类的目标用打问号的圆形来表示。在具体的操作中,最重要的超参数就是??K值,K值的不同会影响到最终的分类结果。在图中的实线框内,即K值为3,在图中的表??示就是距离圆形数据最近的3个样本点,明显可以看出包括有2个三角形和1个正方形,这??就可以判定圆形数据同三角形数据是同一个类别。在图中的虚线框内,即K值为5,在图中??的表示就是距离圆形数据最近的5个样本点,明显可以看出包括有2个三角形和3个正方形,??这就可以判定圆形数据同正方形数据是同一个类别。??因为KNN是监督算法,所以需要加载打标好的数据集,可以是二分类也可以是多分类??数据,然后设定一个K值。在预测的过程中,需要针对每一个预测对象计算它与所有数据??集的距离

输入数据,函数,数据集,区间


而且在参数设计上也比较有利于调参,同时,逻辑回归还具备特征评估的作用124二”。??作为线性模型,逻辑回归就是通过一条曲线来区分不同的数据集。以最直观的二分类为??例,如图2.3所示,数据是二维的,一种用圆形表示,一种用方形表示,通过逻辑回归算法??进行训练,生成一条直线对两种不同的数据集进疔分类。??201???15?.??.V.?-??*??10?..?-????■?■?■?■?■?■??0?■?■■?■?_?■??■??-4?-3-2-10?1?2?3?4??XI??图2.?3逻辑回归二分类??逻辑回归需要对输入数据进行一些矩阵运算,所以入参矩阵的每个数据都是数值型的。??同时,因为逻辑回归是一种监督学习算法,所以输入数据要打标,以二分类为例,通常目标??序列都是表示成0和1的形式。逻辑回归生成的模型如公式2.2所示。??y?=?w]xj^w2xX2+c?(2-2)??其屮,W代表输入数据的两个特征,y代表输出类别,Wl,w2.c是通过训练得到的模型??参数。逻辑回归从训练到预测有关键的3个步骤,一个是如何将结果区间表示到[0.1],另一??个是如何求解每个特征的系数以及如何利用模型进行预测。??(1)?Sigmoid函数是一个成S型分布的函数,Sigmoid函数的公式表示为:??^(0?=-^7?(2.3)??\?+?e??Sigmoid函数可以把结果区间均匀地表示在[0.1]的范围中。??(2)


本文编号:3326660

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3326660.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4213b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com