python机器学习:机器学习模型评价-交叉验证与留一验证

一篇文章写清楚一个问题,关注我,自学python!

解决一个机器学习问题都是从问题建模开始,我们首先要收集问题资料,深入理解问题后将其抽象成机器可预测的问题。那么我们的学习模型表现究竟怎么样,该如何进行评估呢?今天就给大家写一写交叉验证与留一验证。

交叉验证

交叉验证有时也称为交叉比对,如:10折交叉比对。

交叉验证是一种统计学上将数据样本切割成较小子集的实用方法。首先在一个子集上做训练, 而其它子集则用来做后续对此分析的确认及验证。

为什么需要交叉验证呢?

假设有一个未知模型有一个或者多个未知的参数,并且有一个训练集。训练模型的过程就是对该模型的参数进行调整,使得该模型能够最大的反映出训练集的特征。

但是我们常常会因为训练集过小或者参数不合适而产生过度拟合的情况,测试集的测试效果就可以将这种过拟合验证出来。验证一次不够呀,这时我们就将样本循环分为训练集和测试集,而可以从多个角度去学习样本,避免陷入局部的极值。这就是交叉验证,在这个过程中,无论是训练样本还是测试样本都得到了尽可能多的学习。

一句话:交叉验证让学习更加透彻!

为了保证交叉验证结果的稳定性,对一个样本数据集需要多次不同的划分,得到不同的互补子集,进行多次交叉验证。取多次验证的平均值作为验证结果。

留一验证

留一法就是每次只留下一个样本做测试集,其它样本做训练集,如果有k个样本,则需要训练k次,测试k次。

如果设原始数据有N个样本,那么每个样本单独作为验证集,其余的N-1个样本作为训练集,留一验证会得到N个模型,用这N个模型最终的验证集的分类准确率的平均数作为性能指标。

k折交叉验证python实例操作

首先给大家带来一个10折交叉验证,代码如下:

import pandas as pd
col = ["num_preg", "plasma_glucose_conc", "D_blood_pressure", "skin_fold_thickness", "serum_insulin", "body_mass_index", "pedigree_func", "age", "diabetes"]
diabetes_data = pd.read_csv("dataset/diabetes.txt", names = col)

X = diabetes_data.drop('diabetes', axis = 1)
y = diabetes_data.diabetes


from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=3)

from sklearn.neural_network import MLPClassifier
mlp = MLPClassifier(max_iter=1000)
mlp.fit(x_train, y_train)

from sklearn.model_selection import cross_validate
cv_results = cross_validate(mlp, X, y, cv=10, scoring=["accuracy", "precision", "recall"])
cv_results

解释一下以上代码,首先读入数据(关注后私信获取),然后指定值和标签,然后划分训练集和测试集,然后训练模型(此处我训练了一个多层感知机模型,模型训练见之前文章),然后进行交叉验证。

此例子,我进行了10折,大家可以修改cv参数换成别的折。通过以下代码即可得到10折交叉验证后模型的平均准确度、精确度、召回率。

print("Accuracy: ", cv_results["test_accuracy"].mean())
print("Precision: ", cv_results["test_precision"].mean())
print("Recall: ", cv_results["test_recall"].mean())


留一验证python实例操作

from sklearn.model_selection import LeaveOneOut

cv_results = cross_validate(mlp, X, y,
                            cv=LeaveOneOut(), scoring=["accuracy"])
cv_results

import LeaveOneOut后同样还是改变cv参数为LeaveOneOut即可以实现留一验证,这个验证非常耗时间,我电脑跑这个用了快10分钟,大家可以试试看,得到结果如下图:


最后我们可以输出留一验证的平均模型正确率:

cv_results['test_accuracy'].mean()


小结

今天给大家介绍了机器学习模型验证的交叉验证与留一验证及代码实现方法。感谢大家耐心看完。发表这些东西的主要目的就是督促自己,希望大家关注评论指出不足,一起进步。内容我都会写的很细,用到的数据集也会在原文中给出链接,你只要按照文章中的代码自己也可以做出一样的结果,一个目的就是零基础也能懂,因为自己就是什么基础没有从零学Python的,加油。

(站外链接发不了,请关注后私信回复“数据链接”获取本头条号所有使用数据)

往期内容:

python机器学习:如何储存训练好的模型并重新调用

python机器学习:分类问题学习模型的评价方法及代码实现

相关文章

5分钟,快速入门 Python JWT 接口认证

来源:AirPython作者:星安果1. 前言大家好,我是安果!为了反爬或限流节流,后端编写接口时,大部分 API 都会进行权限认证,只有认证通过,即:数据正常及未过期才会返回数据,否则直接报错本篇文...

Python软件包存储库PyPI上线“数字认证”功能:一键验明真身

IT之家 11 月 16 日消息,Python 软件包存储库 PyPI 现已上线数字认证(Digital Attestations)功能,这项功能允许软件包维护者在发布包时附加经过身份验证的数字签章,...

Python:教你使用正则表达式 (RegEx) 验证电子邮件地址

正则表达式,或简称RegEx,是可用于文本搜索和替换操作、验证、字符串拆分等的模式表达式。这些模式由字符、数字和特殊字符组成,其形式使模式与我们正在搜索的某些文本段相匹配。正则表达式广泛用于模式匹配,...

(值得收藏)Python爬虫过程中验证码识别的三种解决方案

前言在Python爬虫过程中,有些网站需要验证码通过后方可进入网页,目的很简单,就是区分是人阅读访问还是机器爬虫。验证码问题看似简单,想做到准确率很高,也是一件不容易的事情。为了更好学习爬虫,后续推文...

2020年最新的过某宝滑块验证技术,Python大牛轻松搞定技术难题

致谢:Charles未晞Charles的皮卡丘提供解决思路,此文实为借鉴。前言:利用selenium模拟登录淘宝,外界传言这个确实很难过,有各种轨迹检测。但是我没想到淘宝的滑块验证码这么容易就能过。私...