基于支持向量机的并行文本分类方法研究

发布时间:2021-04-23 17:12
  文本数据与其他数据类型相比较具有占用网络资源少,更容易上传和下载等优点,这使得网络资源中大部分数据信息以文本形式存在。由于互联网与人们的生活紧密的联系在一起,网络对人们生活的影响也越来越大,如何在海量数据中快速分析网络观点、预测网络情绪并正确引导网络舆情成为当今人们急需解决的问题。文本数据分类技术是解决这一问题的关键技术之一。“如何将文本数据准确、快速、实时分类?”始终是文本数据分类问题的热点研究内容。针对文本分类问题,提出了精简训练数据集的SPO-SVM方法,给出了基于支持向量机的文本数据分类方法。主要内容包括文本数据的预处理、SPO-SVM的训练数据集精简和文本数据集的分类方法。文本数据预处理主要包括分词、特征词提取、文本向量化。分词及特征词提取后形成特征词向量,特征词向量在多个类别文本之间具有一定的类别区分度。文本向量化后输出量化的训练样本集文件,能够满足支持向量机训练所需要的数据格式。精简数据集的SPO-SVM方法是对支持向量机训练数据集精简的方法,采用超球面划分的方法将训练数据进行区域划分。区域内数据归为一组数据,组内采用样本类别异、同作为是否进行数据约简的判断条件,给出了S... 

【文章来源】:辽宁工业大学辽宁省

【文章页数】:64 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
1 绪论
    1.1 论文的选题背景及意义
    1.2 国内外研究历史及现状
    1.3 论文的主要内容
    1.4 本章小结
2 相关理论与技术
    2.1 文本数据预处理
        2.1.1 文本数据预处理概述
        2.1.2 文本数据分词原理
        2.1.3 文本数据特征提取及向量化过程
    2.2 支持向量机
        2.2.1 支持向量机数学模型
        2.2.2 支持向量机核函数
        2.2.3 SMO算法
    2.3 分布式计算框架集群环境
        2.3.1 分布式文件存储系统HDFS
        2.3.2 分布式计算框架Spark
        2.3.3 分布式协调服务系统ZooKeeper
        2.3.4 分布式数据仓库Hive
        2.3.5 分布式数据库Hbase
    2.4 本章小结
3 基于支持向量机的文本数据分类方法
    3.1 文本数据的特征提取方法
        3.1.1 文本数据分词处理
        3.1.2 文本数据特征提取
        3.1.3 文本数据向量化
    3.2 精简支持向量机训练数据集的SPO-SVM方法
        3.2.1 SPO-SVM方法
        3.2.2 基于支持向量机训练数据集的SPO-SVM算法设计
    3.3 基于支持向量机和SPO-SVM的文本分类方法设计
    3.4 实验设计与结果分析
    3.5 本章小结
4 基于支持向量机算法的并行文本分类
    4.1 基于Spark并行计算框架的支持向量机分类方法及优化
    4.2 实验环境搭建
    4.3 基于HDFS、Hive的文本数据清洗
    4.4 实验设计及结果分析
    4.5 本章小结
5 结论和展望
    5.1 总结
    5.2 展望
参考文献
致谢


【参考文献】:
期刊论文
[1]大数据环境下Hive访问控制技术研究[J]. 陈娇,朱焱,丁国富.  软件导刊. 2018(12)
[2]基于异类近邻的支持向量机加速算法[J]. 陈景年,胡顺祥,徐力.  计算机工程. 2018(05)
[3]一种新的支持向量机核函数评估方法[J]. 杨朝,何明浩,韩俊,蒋莹.  雷达科学与技术. 2017(06)
[4]基于SVM的高维混合特征短文本情感分类[J]. 王义真,郑啸,后盾,胡昊.  计算机技术与发展. 2018(02)
[5]基于TF-IDF和余弦相似度的文本分类方法[J]. 武永亮,赵书良,李长镜,魏娜娣,王子晏.  中文信息学报. 2017(05)
[6]Hadoop平台分布式SVM算法分类研究[J]. 满蔚仕,吉元元.  计算机系统应用. 2017(08)
[7]典型半监督分类算法的研究分析[J]. 孟岩,汪云云.  计算机技术与发展. 2017(10)
[8]一种混合核函数的支持向量机[J]. 刘高辉,杨星.  微型机与应用. 2017(11)
[9]基于改进TF-IDF特征提取的文本分类模型研究[J]. 周源,刘怀兰,杜朋朋,廖岭.  情报科学. 2017(05)
[10]基于Aho-Corasick自动机算法的概率模型中文分词CPACA算法[J]. 徐懿彬.  电子科技大学学报. 2017(02)

硕士论文
[1]基于支持向量机的海量文本分类并行化技术研究[D]. 任倚天.北京理工大学 2016



本文编号:3155715

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3155715.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6eb2b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com