python机器学习:机器学习模型评价-交叉验证与留一验证
一篇文章写清楚一个问题,关注我,自学python!
解决一个机器学习问题都是从问题建模开始,我们首先要收集问题资料,深入理解问题后将其抽象成机器可预测的问题。那么我们的学习模型表现究竟怎么样,该如何进行评估呢?今天就给大家写一写交叉验证与留一验证。
交叉验证
交叉验证有时也称为交叉比对,如:10折交叉比对。
交叉验证是一种统计学上将数据样本切割成较小子集的实用方法。首先在一个子集上做训练, 而其它子集则用来做后续对此分析的确认及验证。
为什么需要交叉验证呢?
假设有一个未知模型有一个或者多个未知的参数,并且有一个训练集。训练模型的过程就是对该模型的参数进行调整,使得该模型能够最大的反映出训练集的特征。
但是我们常常会因为训练集过小或者参数不合适而产生过度拟合的情况,测试集的测试效果就可以将这种过拟合验证出来。验证一次不够呀,这时我们就将样本循环分为训练集和测试集,而可以从多个角度去学习样本,避免陷入局部的极值。这就是交叉验证,在这个过程中,无论是训练样本还是测试样本都得到了尽可能多的学习。
一句话:交叉验证让学习更加透彻!
为了保证交叉验证结果的稳定性,对一个样本数据集需要多次不同的划分,得到不同的互补子集,进行多次交叉验证。取多次验证的平均值作为验证结果。
留一验证
留一法就是每次只留下一个样本做测试集,其它样本做训练集,如果有k个样本,则需要训练k次,测试k次。
如果设原始数据有N个样本,那么每个样本单独作为验证集,其余的N-1个样本作为训练集,留一验证会得到N个模型,用这N个模型最终的验证集的分类准确率的平均数作为性能指标。
k折交叉验证python实例操作
首先给大家带来一个10折交叉验证,代码如下:
import pandas as pd
col = ["num_preg", "plasma_glucose_conc", "D_blood_pressure", "skin_fold_thickness", "serum_insulin", "body_mass_index", "pedigree_func", "age", "diabetes"]
diabetes_data = pd.read_csv("dataset/diabetes.txt", names = col)
X = diabetes_data.drop('diabetes', axis = 1)
y = diabetes_data.diabetes
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=3)
from sklearn.neural_network import MLPClassifier
mlp = MLPClassifier(max_iter=1000)
mlp.fit(x_train, y_train)
from sklearn.model_selection import cross_validate
cv_results = cross_validate(mlp, X, y, cv=10, scoring=["accuracy", "precision", "recall"])
cv_results
解释一下以上代码,首先读入数据(关注后私信获取),然后指定值和标签,然后划分训练集和测试集,然后训练模型(此处我训练了一个多层感知机模型,模型训练见之前文章),然后进行交叉验证。
此例子,我进行了10折,大家可以修改cv参数换成别的折。通过以下代码即可得到10折交叉验证后模型的平均准确度、精确度、召回率。
print("Accuracy: ", cv_results["test_accuracy"].mean())
print("Precision: ", cv_results["test_precision"].mean())
print("Recall: ", cv_results["test_recall"].mean())
留一验证python实例操作
from sklearn.model_selection import LeaveOneOut
cv_results = cross_validate(mlp, X, y,
cv=LeaveOneOut(), scoring=["accuracy"])
cv_results
import LeaveOneOut后同样还是改变cv参数为LeaveOneOut即可以实现留一验证,这个验证非常耗时间,我电脑跑这个用了快10分钟,大家可以试试看,得到结果如下图:
最后我们可以输出留一验证的平均模型正确率:
cv_results['test_accuracy'].mean()
小结
今天给大家介绍了机器学习模型验证的交叉验证与留一验证及代码实现方法。感谢大家耐心看完。发表这些东西的主要目的就是督促自己,希望大家关注评论指出不足,一起进步。内容我都会写的很细,用到的数据集也会在原文中给出链接,你只要按照文章中的代码自己也可以做出一样的结果,一个目的就是零基础也能懂,因为自己就是什么基础没有从零学Python的,加油。
(站外链接发不了,请关注后私信回复“数据链接”获取本头条号所有使用数据)
往期内容: