基于物流车队应用SVM文本挖掘研究
发布时间:2017-03-21 19:06
本文关键词:基于物流车队应用SVM文本挖掘研究,,由笔耕文化传播整理发布。
【摘要】:随着计算机技术和系统工程学的飞速发展,在全球信息化大潮的推动下,数据挖掘已成为研究中活跃份子之一,从数据中发现有价值的知识模式已成为具有重要意义的研究领域。支持向量机是一种新型机器学习方法,它较好地解决了非线性、高维数等问题,已经应用在许多领域,如手写数字识别、对象识别、文本分类等。但是新的方法也存在问题需要解决,如文本分类具有类别和样本数目多、噪音多、各类别样本数目不均衡等特点,使得支持向量机用于文本分类时存在训练速度和分类速度较慢的缺点。 为了解决实体物流公司车队车辆使用情况不易监控,保养维护不能及时到位等问题,本文针对物流公司车队行车记录进行文本挖掘,监控每一次运输任务对车辆使用强度,利用信息技术对车辆保养维修做到精细化管理。行车记录挖掘基于中文分词处理技术,利用TF×IDF方法将特征项进行加权,并用向量空间方法将行车记录文本表达为数学方式经行后续挖掘计算。在特征项降维处理中,通过实验对信息增益、交叉熵、互信息和χ2统计四种降维方法进行比较,观察出信息增益和互信息最合适行车记录特点,最终作为降维方法。行车记录分类采用支持向量机算法。标准支持向量机只能用于单标号样本分类,本文针对多类分类问题,提出了树形结构构建多类支持向量机分类器。为了优化分类器效率,提出使用聚类算法思想,构造平衡二叉树结构,以提高分类器分类速度。还对常用的h次多项式核函数,高斯径向基核函数和S型核函数三种核函数经行实验,找出准确性较高的核函数。在系统设计上,各个模块采用低耦合方式设计,便于监视文本挖掘过程中各个环节的输出值,并提高系统灵活性,使各个模块便于维护和修改。
【关键词】:支持向量机 文本分类 平衡二叉树结构 低耦合
【学位授予单位】:天津财经大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:C931.6;F253.9
【目录】:
- 内容摘要4-5
- Abstract5-8
- 第1章 引言8-10
- 1.1 研究背景8
- 1.2 本文内容安排8-9
- 1.3 研究方法9-10
- 第2章 文献综述10-13
- 2.1 国外研究现状10-11
- 2.2 国内研究现状11-13
- 第3章 中文文本分类技术13-22
- 3.1 本文分类概述13-14
- 3.2 文本预处理及中文分词14
- 3.3 向量空间模型表示文本14-18
- 3.4 文本分类算法18-21
- 3.5 分类器性能评估21-22
- 第4章 基于SVM文本分类的研究22-30
- 4.1 SVM概述22-23
- 4.2 线性可分的SVM23-25
- 4.3 非线性可分的SVM25-27
- 4.4 SVM训练算法27-30
- 第5章 基于支持向量机的多类分类研究30-39
- 5.1 多类SVM研究现状30-32
- 5.2 一种改进的多类SVM32-35
- 5.3 基于聚类算法改进的二叉树SVM35-39
- 第6章 系统建模和设计39-52
- 6.1 系统背景及目的39-40
- 6.2 系统模型设计及改进40-42
- 6.3 系统结构42-43
- 6.4 分词模块研究与设计43-46
- 6.5 文本表示模块研究与设计46-49
- 6.6 SVM训练模块研究与设计49-52
- 第7章 实验分析52-56
- 7.1 实验环境及评价指标52-53
- 7.2 降维算法实验53-55
- 7.3 支持向量机核函数实验55-56
- 第8章 总结与展望56-58
- 8.1 总结56-57
- 8.2 研究工作展望57-58
- 参考文献58-61
- 后记61
【参考文献】
中国期刊全文数据库 前5条
1 张文生,王珏,戴国忠;支持向量机中引入后验概率的理论和方法研究[J];计算机研究与发展;2002年04期
2 李雪蕾,张冬茉;一种基于向量空间模型的文本分类方法[J];计算机工程;2003年17期
3 应志伟,柴佩琪,陈其晖;文语转换系统中基于语料的汉语自动分词研究[J];计算机应用;2000年02期
4 秦进,陈笑蓉,汪维家,陆汝占;文本分类中的特征抽取[J];计算机应用;2003年02期
5 周茜,赵明生,扈e
本文编号:260134
本文链接:https://www.wllwen.com/guanlilunwen/yunyingzuzhiguanlilunwen/260134.html