数据挖掘导论英文版_数据挖掘导论(中文版)pdf格式【完整电子版】
本文关键词:数据挖掘导论,由笔耕文化传播整理发布。
数据挖掘导论一书基本上涵盖了数据挖掘的许多经典算法,分类,聚类,,关联规则,是一本比较适合对数据挖掘感兴趣的人阅读的书籍。该书内容以实例为重,给出了常用算法的伪代码,和《模式识别》、《模式分类》等专著比起来,该书略去了各个定理的证明部分,并通过大量枚举具体的分类实例,来简要说明算法的流程和意义。本节内容东坡小编为大家整理带来的是一份pdf格式完整电子版数据挖掘导论(中文版),欢迎有需要的朋友前来下载查阅。
数据挖掘导论(中文版)简介本书是明尼苏达大学和密歇根州立大学数据挖掘课程的教材,由于独具特色,正式出版之前就已经被斯坦福大学、得克萨斯大学奥斯汀分校等众多名校采用。
该书全面介绍了数据挖掘,涵盖了五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都有两章。前一章涵盖基本概念、代表性算法和评估技术,而后一章讨论高级概念和算法。这样读者在透彻地理解数据挖掘的基础的同时,还能够了解更多重要的高级主题。
数据挖掘中文版目录第1章 绪论1
1.1 什么是数据挖掘2
1.2 数据挖掘要解决的问题2
1.3 数据挖掘的起源3
1.4 数据挖掘任务4
1.5 本书的内容与组织7
文献注释7
参考文献8
习题10
第2章 数据13
2.1 数据类型14
2.1.1 属性与度量15
2.1.2 数据集的类型18
2.2 数据质量22
2.2.1 测量和数据收集问题22
2.2.2 关于应用的问题26
2.3 数据预处理27
2.3.1 聚集27
2.3.2 抽样28
2.3.3 维归约30
2.3.4 特征子集选择31
2.3.5 特征创建33
2.3.6 离散化和二元化34
2.3.7 变量变换38
2.4 相似性和相异性的度量38
2.4.1 基础39
2.4.2 简单属性之间的相似度和相异度40
2.4.3 数据对象之间的相异度41
2.4.4 数据对象之间的相似度43
2.4.5 邻近性度量的例子43
2.4.6 邻近度计算问题48
2.4.7 选取正确的邻近性度量50
文献注释50
参考文献52
习题53
第3章 探索数据59
3.1 鸢尾花数据集59
3.2 汇总统计60
3.2.1 频率和众数60
3.2.2 百分位数61
3.2.3 位置度量:均值和中位数61
3.2.4 散布度量:极差和方差62
3.2.5 多元汇总统计63
3.2.6 汇总数据的其他方法64
3.3 可视化64
3.3.1 可视化的动机64
3.3.2 一般概念65
3.3.3 技术67
3.3.4 可视化高维数据75
3.3.5 注意事项79
3.4 OLAP和多维数据分析79
3.4.1 用多维数组表示鸢尾花数据80
3.4.2 多维数据:一般情况81
3.4.3 分析多维数据82
3.4.4 关于多维数据分析的最后评述84
文献注释84
参考文献85
习题86
第4章 分类:基本概念、决策树与模型评估89
4.1 预备知识89
4.2 解决分类问题的一般方法90
4.3 决策树归纳92
4.3.1 决策树的工作原理92
4.3.2 如何建立决策树93
4.3.3 表示属性测试条件的方法95
4.3.4 选择最佳划分的度量96
4.3.5 决策树归纳算法101
4.3.6 例子:Web 机器人检测102
4.3.7 决策树归纳的特点103
4.4 模型的过分拟合106
4.4.1 噪声导致的过分拟合107
4.4.2 缺乏代表性样本导致的过分拟合109
4.4.3 过分拟合与多重比较过程109
4.4.4 泛化误差估计110
4.4.5 处理决策树归纳中的过分拟合113
4.5 评估分类器的性能114
4.5.1 保持方法114
4.5.2 随机二次抽样115
4.5.3 交叉验证115
4.5.4 自助法115
4.6 比较分类器的方法116
4.6.1 估计准确度的置信区间116
4.6.2 比较两个模型的性能117
4.6.3 比较两种分类法的性能118
文献注释118
参考文献120
习题122
第5章 分类:其他技术127
5.1 基于规则的分类器127
5.1.1 基于规则的分类器的工作原理128
5.1.2 规则的排序方案129
5.1.3 如何建立基于规则的分类器130
5.1.4 规则提取的直接方法130
5.1.5 规则提取的间接方法135
5.1.6 基于规则的分类器的特征136
5.2 最近邻分类器137
5.2.1 算法138
5.2.2 最近邻分类器的特征138
5.3 贝叶斯分类器139
5.3.1 贝叶斯定理139
5.3.2 贝叶斯定理在分类中的应用140
5.3.3 朴素贝叶斯分类器141
5.3.4 贝叶斯误差率145
5.3.5 贝叶斯信念网络147
5.4 人工神经网络150
5.4.1 感知器151
5.4.2 多层人工神经网络153
5.4.3 人工神经网络的特点155
5.5 支持向量机156
5.5.1 最大边缘超平面156
5.5.2 线性支持向量机:可分情况157
5.5.3 线性支持向量机:不可分情况162
5.5.4 非线性支持向量机164
5.5.5 支持向量机的特征168
5.6 组合方法168
5.6.1 组合方法的基本原理168
5.6.2 构建组合分类器的方法169
5.6.3 偏倚—方差分解171
5.6.4 装袋173
5.6.5 提升175
5.6.6 随机森林178
5.6.7 组合方法的实验比较179
5.7 不平衡类问题180
5.7.1 可选度量180
5.7.2 接受者操作特征曲线182
5.7.3 代价敏感学习184
5.7.4 基于抽样的方法186
5.8 多类问题187
文献注释189
参考文献190
习题193
第6章 关联分析:基本概念和算法201
6.1 问题定义202
6.2 频繁项集的产生204
6.2.1 先验原理205
6.2.2 Apriori算法的频繁项集产生206
6.2.3 候选的产生与剪枝208
6.2.4 支持度计数210
6.2.5 计算复杂度213
6.3 规则产生215
6.3.1 基于置信度的剪枝215
6.3.2 Apriori算法中规则的产生215
6.3.3 例:美国国会投票记录217
6.4 频繁项集的紧凑表示217
6.4.1 极大频繁项集217
6.4.2 闭频繁项集219
6.5 产生频繁项集的其他方法221
6.6 FP增长算法223
6.6.1 FP树表示法224
6.6.2 FP增长算法的频繁项集产生225
6.7 关联模式的评估228
6.7.1 兴趣度的客观度量228
6.7.2 多个二元变量的度量235
6.7.3 辛普森悖论236
6.8 倾斜支持度分布的影响237
文献注释240
参考文献244
习题250
第7章 关联分析:高级概念259
7.1 处理分类属性259
7.2 处理连续属性261
7.2.1 基于离散化的方法261
7.2.2 基于统计学的方法263
7.2.3 非离散化方法265
7.3 处理概念分层266
7.4 序列模式267
7.4.1 问题描述267
7.4.2 序列模式发现269
7.4.3 时限约束271
7.4.4 可选计数方案274
7.5 子图模式275
7.5.1 图与子图276
7.5.2 频繁子图挖掘277
7.5.3 类Apriori方法278
7.5.4 候选产生279
7.5.5 候选剪枝282
7.5.6 支持度计数285
7.6 非频繁模式285
7.6.1 负模式285
7.6.2 负相关模式286
7.6.3 非频繁模式、负模式和负相关模式比较287
7.6.4 挖掘有趣的非频繁模式的技术288
7.6.5 基于挖掘负模式的技术288
7.6.6 基于支持度期望的技术290
文献注释292
参考文献293
习题295
第8章 聚类分析:基本概念和算法305
8.1 概述306
8.1.1 什么是聚类分析306
8.1.2 不同的聚类类型307
8.1.3 不同的簇类型308
8.2 K均值310
8.2.1 基本K均值算法310
8.2.2 K均值:附加的问题315
8.2.3 二分K均值316
8.2.4 K均值和不同的簇类型317
8.2.5 优点与缺点318
8.2.6 K均值作为优化问题319
8.3 凝聚层次聚类320
8.3.1 基本凝聚层次聚类算法321
8.3.2 特殊技术322
8.3.3 簇邻近度的Lance-Williams公式325
8.3.4 层次聚类的主要问题326
8.3.5 优点与缺点327
8.4 DBSCAN327
8.4.1 传统的密度:基于中心的方法327
8.4.2 DBSCAN算法328
8.4.3 优点与缺点329
8.5 簇评估330
8.5.1 概述332
8.5.2 非监督簇评估:使用凝聚度和分离度332
8.5.3 非监督簇评估:使用邻近度矩阵336
8.5.4 层次聚类的非监督评估338
8.5.5 确定正确的簇个数339
8.5.6 聚类趋势339
8.5.7 簇有效性的监督度量340
8.5.8 评估簇有效性度量的显著性343
文献注释344
参考文献345
习题347
第9章 聚类分析:其他问题与算法355
9.1 数据、簇和聚类算法的特性355
9.1.1 例子:比较K均值和DBSCAN355
9.1.2 数据特性356
9.1.3 簇特性357
9.1.4 聚类算法的一般特性358
9.2 基于原型的聚类359
9.2.1 模糊聚类359
9.2.2 使用混合模型的聚类362
9.2.3 自组织映射369
9.3 基于密度的聚类372
9.3.1 基于网格的聚类372
9.3.2 子空间聚类374
9.3.3 DENCLUE:基于密度聚类的一种基于核的方案377
9.4 基于图的聚类379
9.4.1 稀疏化379
9.4.2 最小生成树聚类380
9.4.3 OPOSSUM:使用METIS的稀疏相似度最优划分381
9.4.4 Chameleon:使用动态建模的层次聚类381
9.4.5 共享最近邻相似度385
9.4.6 Jarvis-Patrick聚类算法387
9.4.7 SNN密度388
9.4.8 基于SNN密度的聚类389
9.5 可伸缩的聚类算法390
9.5.1 可伸缩:一般问题和方法391
9.5.2 BIRCH392
9.5.3 CURE393
9.6 使用哪种聚类算法395
文献注释397
参考文献398
习题400
第10章 异常检测403
10.1 预备知识404
10.1.1 异常的成因404
10.1.2 异常检测方法404
10.1.3 类标号的使用405
10.1.4 问题405
10.2 统计方法406
10.2.1 检测一元正态分布中的离群点407
10.2.2 多元正态分布的离群点408
10.2.3 异常检测的混合模型方法410
10.2.4 优点与缺点411
10.3 基于邻近度的离群点检测411
10.4 基于密度的离群点检测412
10.4.1 使用相对密度的离群点检测413
10.4.2 优点与缺点414
10.5 基于聚类的技术414
10.5.1 评估对象属于簇的程度415
10.5.2 离群点对初始聚类的影响416
10.5.3 使用簇的个数416
10.5.4 优点与缺点416
文献注释417
参考文献418
习题420
附录A 线性代数423
附录B 维归约433
附录C 概率统计445
附录D 回归451
附录E 优化457
数据挖掘中文版内容截图PC官方版 安卓官方手机版 IOS官方手机版
本文关键词:数据挖掘导论,由笔耕文化传播整理发布。
本文编号:178346
本文链接:https://www.wllwen.com/wenshubaike/mishujinen/178346.html