scikit learn中文文档_Scikit-Learn机器学习介绍(中文翻译)
本文关键词:scikit-learn,由笔耕文化传播整理发布。
翻译自:
本章内容在本章中,我们会介绍在使用scikit-learn中遇到的 机器学习 (machine learning)术语,以及一个简单的机器学习例子。
机器学习:问题设定
一般来说,机器学习问题可以这样来理解:我们有n个 样本 (sample)的数据集,想要预测未知数据的属性。如果描述每个样本的数字不只一个,比如一个多维的条目(也叫做 多变量数据 (multivariate data)),那么这个样本就有多个属性或者 特征 。
我们可以将学习问题分为以下几类:
scikit-learn有一些标准数据集,比如用于分类的 iris 和 digits 数据集,和用于回归的 波士顿房价 (boston house prices)数据集。
下面,我们会用shell里的Python解释器来加载iris和digits数据集。$表示shell提示符,>>>表示Python解释器提示符:
$ python >>> from sklearn import datasets >>> iris = datasets.load_iris() >>> digits = datasets.load_digits()
数据集类似字典对象,包括了所有的数据和关于数据的元数据(metadata)。数据被存储在.data成员内,是一个n_samples*n_features的数组。在有监督问题的情形下,一个或多个因变量(response variables)被储存在.target成员中。有关不同数据集的更多细节可以在 被找到。
例如,在digits数据集中,,digits.data是可以用来分类数字样本的特征:
>>> print(digits.data) # doctest: +NORMALIZE_WHITESPACE [[ 0. 0. 5. ..., 0. 0. 0.] [ 0. 0. 0. ..., 10. 0. 0.] [ 0. 0. 0. ..., 16. 9. 0.] ..., [ 0. 0. 1. ..., 6. 0. 0.] [ 0. 0. 2. ..., 12. 0. 0.] [ 0. 0. 10. ..., 12. 1. 0.]]digits.target给出了digits数据集的真实值,即每个数字图案对应的我们想预测的真实数字:
>>> digits.target array([0, 1, 2, ..., 8, 9, 8])数据数组的形式数据是一个2维n_samples*n_features的数组,尽管原始数据集可能会有不同的形式。在digits数据集中,每个原始样本是一个8*8的数组,可以用以下方式访问:
>>> digits.images[0] array([[ 0., 0., 5., 13., 9., 1., 0., 0.], [ 0., 0., 13., 15., 10., 15., 5., 0.], [ 0., 3., 15., 2., 0., 11., 8., 0.], [ 0., 4., 12., 0., 0., 8., 8., 0.], [ 0., 5., 8., 0., 0., 9., 8., 0.], [ 0., 4., 11., 0., 1., 12., 7., 0.], [ 0., 2., 14., 5., 10., 12., 0., 0.], [ 0., 0., 6., 13., 10., 0., 0., 0.]])说明了如何从原始问题里将数据形式化,以便scikit-learn使用。
学习和预测
在digits数据集中,我们的任务是给定一个图案,预测其表示的数字是什么。我们的样本有10个可能的分类(数字0到9),我们将匹配一个 预测器 (estimator)来 预测 (predict)未知样本所属的分类。
在scikit-learn中,分类的预测器是一个Python对象,来实现fit(X, y)和predict(T)方法。
下面这个预测器的例子是classsklearn.svm.SVC,实现了 支持向量机分类 。创建分类器需要模型参数,但现在,我们暂时先将预测器看作是一个黑盒:
>>> from sklearn import svm >>> clf = svm.SVC(gamma=0.001, C=100.)
选择模型参数
在这个例子里我们手动设置了gamma值。可以通过这些工具例如 (grid search)和 (cross validation)来自动找到参数的最佳取值。
给预测器取个名字叫做clf(claasifier)。现在预测器必须来 匹配 (fit)模型,也就是说,它必须从模型中 学习 (learn)。这个过程是通过将训练集传递给fit方法来实现的。我们将除了最后一个样本的数据全部作为训练集。通过Python语法[:-1]来选择训练集,这会生成一个新的数组,包含了除最后一个条目的digits.data:
>>> clf.fit(digits.data[:-1], digits.target[:-1]) # doctest: +NORMALIZE_WHITESPACE SVC(C=100.0, cache_size=200, class_weight=None, coef0=0.0, degree=3, gamma=0.001, kernel='rbf', max_iter=-1, probability=False, random_state=None, shrinking=True, tol=0.001, verbose=False)现在你可以预测新值了,具体来说,我们可以询问分类器,digits数据集里最后一个图案所代表的数字是什么,我们并没有用最后一个数据来训练分类器。
>>> clf.predict(digits.data[-1]) array([8])
最一个图案如下:
如你所见,这项任务很具有挑战性:这个图案的分辨率很差。你能和分类器得到一致结果吗?
一个更复杂的分类问题的例子在这里: (Recognizing hand-written digits),供学习参考。
模型持久性(Model persistence)可以采用Python内建的持久性模型 pickle 来保存scikit的模型:
>>> from sklearn import svm >>> from sklearn import datasets >>> clf = svm.SVC() >>> iris = datasets.load_iris() >>> X, y = iris.data, iris.target >>> clf.fit(X, y) # doctest: +NORMALIZE_WHITESPACE SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0, degree=3, gamma=0.0, kernel='rbf', max_iter=-1, probability=False, random_state=None, shrinking=True, tol=0.001, verbose=False) >>> import pickle >>> s = pickle.dumps(clf) >>> clf2 = pickle.loads(s) >>> clf2.predict(X[0]) array([0]) >>> y[0] 0在scikit的特定情形下,用joblib’s来代替pickle(joblib.dump&joblib.load)会更吸引人,在大数据下效率更高,但只能pickle到磁盘而不是字符串:
>>> from sklearn.externals import joblib >>> joblib.dump(clf, 'filename.pkl') # doctest: +SKIP你可以在之后重新加载pickled模型(可以在另一个Python程序里):
>>> clf = joblib.load('filename.pkl') # doctest:+SKIP注意:joblib.dump返回一个文件名列表。每个包含在clf对象中独立的numpy数组是在文件系统中是按顺序排列的一个独立文件。当用joblib.load重新加载模型时,所有文件必须在同一个目录下。
注意pickle有一些安全性和维护性问题。请参考 章节获得更多关于scikit-learn模型持久性的信息。
本文关键词:scikit-learn,由笔耕文化传播整理发布。
本文编号:116391
本文链接:https://www.wllwen.com/wenshubaike/kaixinbaike/116391.html