基于决策树的多维属性文本推理识别
发布时间:2023-03-04 13:08
随着当今世界逐渐从信息化转型为数据化,数据量呈现爆炸式增长,大量结构化数据充斥着人们的生活。与此同时,由于人们认知世界的维度不同,使得不同数据源中同一属性有不同的描述,导致数据在对接的过程中出现不一致的问题,更有甚者由于数据量大,导致数据在爬取、采集和清洗等一序列处理中丢失了原有属性类型,给数据的存储、管理以及分析带来了极大的挑战。因此,如何有效地对这些属性类别未知的结构化数据进行快速自动地分类、识别及整理,成为模式识别和数据挖潜领域中急需解决的问题。文本分类作为数据挖掘中用来描述和区分数据类型的模型,能够对未知信息进行有效的整理和分类。常用的文本分类算法有:决策树算法、贝叶斯算法、支持向量机方法、神经网络算法等,其中大部分都是有监督的机器学习算法。由于,有监督学习的分类训练集是需要事先给出类别标签的,而往往这些标签都是靠人工标注的,实际操作中既费时又费力;加上传统分类算法对于已有标签之外的属性文本是无法做到自动推理分类的,使得现有的决策树分类在属性文本识别的应用中存在着一定的不足。针对监督学习方法实现无类别标签分类和未知属性文本自动分类识别问题,本文以机器学习中决策树分类模型为基础,...
【文章页数】:71 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 本课题主要内容及创新点
第2章 属性分类相关技术及理论介绍
2.1 属性文本分类预处理
2.1.1 缺失值及噪音数据处理
2.1.2 数据集成处理
2.1.3 数据规范及离散化处理
2.2 属性文本特征选择算法
2.2.1 TF-IDF与特征属性选择
2.2.2 信息增益与特征属性选择
2.2.3 Relief算法与属性特征选择
2.3 高维特征降维方法
2.3.1 主成分分析PCA
2.3.2 线性判别分析LDA
2.4 决策树分类算法
2.4.1 ID3算法
2.4.2 C4.5 算法
2.4.3 CART算法
2.5 属性分类的评测指标
2.5.1 召回率、正确率和F-测度值
2.5.2 微平均和宏平均
2.6 本章小结
第3章 基于决策树的属性自动推理算法
3.1 基于决策树与相似度策略的属性融合算法
3.1.1 C4.5 算法改进
3.1.2 属性类别相似度策略
3.1.3 属性融合
3.2 基于改进融合的属性自动推理算法
3.2.1 基于改进融合算法的判决器
3.2.2 基于判决结果的机器学习
3.3 本章小结
第4章 属性自动推理识别系统的设计
4.1 系统框架概述
4.2 属性文本预处理子系统
4.2.1 预处理子系统概述
4.2.2 特征选取及降维处理
4.3 属性文本自动分类子系统
4.3.1 自动分类子系统概述
4.3.2 决策树生成模块
4.3.3 属性融合判决模块
4.3.4 融合结果改进模块
4.4 属性文本定向识别子系统
4.4.1 定向识别子系统概述
4.4.2 基于正则表达式的规则识别模块
4.4.3 基于Trie树和有限状态自动机的实体识别模块
4.5 本章小结
第5章 实验结果及分析
5.1 实验环境及数据
5.2 实验过程及评价指标
5.3 实验结果对比分析
5.4 本章小结
第6章 总结与展望
参考文献
致谢
附录1 攻读硕士学位期间参与的项目和发表的论文
附录2 主要英文缩写语对照表
本文编号:3754343
【文章页数】:71 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 本课题主要内容及创新点
第2章 属性分类相关技术及理论介绍
2.1 属性文本分类预处理
2.1.1 缺失值及噪音数据处理
2.1.2 数据集成处理
2.1.3 数据规范及离散化处理
2.2 属性文本特征选择算法
2.2.1 TF-IDF与特征属性选择
2.2.2 信息增益与特征属性选择
2.2.3 Relief算法与属性特征选择
2.3 高维特征降维方法
2.3.1 主成分分析PCA
2.3.2 线性判别分析LDA
2.4 决策树分类算法
2.4.1 ID3算法
2.4.2 C4.5 算法
2.4.3 CART算法
2.5 属性分类的评测指标
2.5.1 召回率、正确率和F-测度值
2.5.2 微平均和宏平均
2.6 本章小结
第3章 基于决策树的属性自动推理算法
3.1 基于决策树与相似度策略的属性融合算法
3.1.1 C4.5 算法改进
3.1.2 属性类别相似度策略
3.1.3 属性融合
3.2 基于改进融合的属性自动推理算法
3.2.1 基于改进融合算法的判决器
3.2.2 基于判决结果的机器学习
3.3 本章小结
第4章 属性自动推理识别系统的设计
4.1 系统框架概述
4.2 属性文本预处理子系统
4.2.1 预处理子系统概述
4.2.2 特征选取及降维处理
4.3 属性文本自动分类子系统
4.3.1 自动分类子系统概述
4.3.2 决策树生成模块
4.3.3 属性融合判决模块
4.3.4 融合结果改进模块
4.4 属性文本定向识别子系统
4.4.1 定向识别子系统概述
4.4.2 基于正则表达式的规则识别模块
4.4.3 基于Trie树和有限状态自动机的实体识别模块
4.5 本章小结
第5章 实验结果及分析
5.1 实验环境及数据
5.2 实验过程及评价指标
5.3 实验结果对比分析
5.4 本章小结
第6章 总结与展望
参考文献
致谢
附录1 攻读硕士学位期间参与的项目和发表的论文
附录2 主要英文缩写语对照表
本文编号:3754343
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3754343.html