在 Python中处理大型机器学习数据集的简单方法
本文的目标受众:
- 想要对大量数据集执行 Pandas/NumPy 操作的人。
- 希望使用Python在大数据上执行机器学习任务的人。
本文将使用 .csv 格式的文件来演示 python 的各种操作,其他格式如数组、文本文件等也是如此。
为什么我们不能将 pandas 用于大型机器学习数据集呢?
我们知道 Pandas 使用计算机内存 (RAM) 来加载您的机器学习数据集,但是,如果您的计算机有8 GB 的内存 (RAM),那么为什么 pandas 仍然无法加载 2 GB 的数据集呢?原因是使用 Pandas 加载 2 GB 文件不仅需要 2 GB RAM,还需要更多内存,因为总内存需求取决于数据集的大小以及您将在该数据集上执行的操作。
以下是加载到计算机内存中的不同大小的数据集的快速比较:
此外,Pandas只使用操作系统的一个内核,这使得处理速度很慢。换句话说,我们可以说pandas不支持并行(将一个问题分解成更小的任务)。
假设电脑有 4 个内核,下图是加载 CSV 文件的时候 pandas 使用的内核数:
普遍不使用 pandas 处理大型机器学习数据集的主要原因有以下两点,一是计算机内存使用量,二是缺乏并行性。在 NumPy 和 Scikit-learn中,对于大数据集也面临同样的问题。
为了解决这两个问题,可以使用名为Dask的python库,它能够使我们在大型数据集上执行pandas、NumPy和ML等各种操作。
Dask是如何工作的?
Dask是在分区中加载你的数据集,而pandas通常是将整个机器学习数据集作为一个dataframe。在Dask中,数据集的每个分区都被认为是一个pandas dataframe。
Dask 一次加载一个分区,因此您不必担心出现内存分配错误问题。
以下是使用 dask 在计算机内存中加载不同大小的机器学习数据集的比较:
Dask 解决了并行性问题,因为它将数据拆分为多个分区,每个分区使用一个单独的内核,这使得数据集上的计算更快。
假设电脑有 4 个内核,以下是 dask 在加载 5 GB csv 文件时的方式:
要使用 dask 库,您可以使用以下命令进行安装:
pip install dask
Dask 有几个模块,如dask.array、dask.dataframe 和 dask.distributed,只有在您分别安装了相应的库(如 NumPy、pandas 和 Tornado)后才能工作。
如何使用 dask 处理大型 CSV 文件?
dask.dataframe 用于处理大型 csv 文件,首先我尝试使用 pandas 导入大小为 8 GB 的数据集。
import pandas as pd
df = pd.read_csv(“data.csv”)
它在我的 16 GB 内存笔记本电脑中引发了内存分配错误。
现在,尝试使用 dask.dataframe 导入相同的 8 GB 数据
dask 只用了一秒钟就将整个 8 GB 文件加载到 ddf 变量中。
让我们看看 ddf 变量的输出。
如您所见,执行时间为 0.5 秒,这里显示已划分为 119 个分区。
您还可以使用以下方法检查数据帧的分区数:
默认情况下,dask 将我的 8 GB CSV 文件加载到 119 个分区(每个分区大小为 64MB),这是根据可用的物理内存和电脑的内核数来完成的。
还可以在加载 CSV 文件时使用 blocksize 参数指定我自己的分区数。
现在指定了一个字符串值为 400MB 的 blocksize 参数,这使得每个分区大小为 400 MB,让我们看看有多少个分区
关键点:使用 Dask DataFrames 时,一个好的经验法则是将分区保持在 100MB 以下。
使用以下方法可调用dataframe的特定分区:
也可通过使用负索引来调用最后一个分区,就像我们在调用列表的最后一个元素时所做的那样。
让我们看看数据集的形状:
您可以使用 len() 检查数据集的行数:
Dask 已经包含了示例数据集。我将使用时间序列数据向您展示 dask 如何对数据集执行数学运算。
导入dask.datasets后,ddf_20y 加载了从 2000 年 1 月 1 日到 2021 年 12 月 31 日的时间序列数据。
让我们看看我们的时间序列数据的分区数。
20 年的时间序列数据分布在 8035 个分区中。
在 pandas 中,我们使用 head 打印数据集的前几行,dask 也是这样。
让我们计算一下 id 列的平均值。
dask不会打印dataframe的总行数,因为它使用惰性计算(直到需要时才显示输出)。为了显示输出,我们可以使用compute方法。
假设我想对数据集的每一列进行归一化(将值转换为0到1之间),Python代码如下:
循环遍历列,找到每列的最小值和最大值,并使用简单的数学公式对这些列进行归一化。
关键点:在我们的归一化示例中,不要认为会发生实际的数值计算,它只是惰性求值(在需要之前永远不会向您显示输出)。
为什么要使用 Dask 数组?
Dask 将数组分成小块,其中每个块都是一个 NumPy 数组。
dask.arrays 用于处理大数组,以下Python代码使用 dask 创建了一个 10000 x 10000 的数组并将其存储在 x 变量中。
调用该 x 变量会产生有关数组的各种信息。
查看数组的特定元素
对dask 数组进行数学运算的Python示例:
正如您所看到的,由于延迟执行,它不会向您显示输出。我们可以使用compute来显示输出:
dask 数组支持大多数 NumPy 接口,如下所示:
- 数学运算:+, *, exp, log, ...
- sum(), mean(), std(), sum(axis=0), ...
- 张量/点积/矩阵乘法:tensordot
- 重新排序/转置:transpose
- 切片:x[:100, 500:100:-2]
- 使用列表或 NumPy 数组进行索引:x[:, [10, 1, 5]]
- 线性代数:svd、qr、solve、solve_triangular、lstsq
但是,Dask Array 并没有实现完整 NumPy 接口。
你可以从他们的官方文档中了解更多关于 dask.arrays 的信息。
什么是Dask Persist?
假设您想对机器学习数据集执行一些耗时的操作,您可以将数据集持久化到内存中,从而使数学运算运行得更快。
从 dask.datasets 导入了时间序列数据
让我们取数据集的一个子集并计算该子集的总行数。
计算总行数需要 27 秒。
我们现在使用 persist 方法:
持久化我们的子集总共花了 2 分钟,现在让我们计算总行数。
同样,我们可以对持久化数据集执行其他操作以减少计算时间。
persist应用场景:
- 数据量大
- 获取数据的一个子集
- 对子集应用不同的操作
为什么选择 Dask ML?
Dask ML有助于在大型数据集上使用流行的Python机器学习库(如Scikit learn等)来应用ML(机器学习)算法。
什么时候应该使用 dask ML?
- 数据不大(或适合 RAM),但训练的机器学习模型需要大量超参数,并且调优或集成技术需要大量时间。
- 数据量很大。
正如你所看到的,随着模型大小的增加,例如,制作一个具有大量超参数的复杂模型,它会引起计算边界的问题,而如果数据大小增加,它会引起内存分配错误。因此,在这两种情况下(红色阴影区域)我们都使用 Dask 来解决这些问题。
如官方文档中所述,dask ml 库用例:
- 对于内存问题,只需使用 scikit-learn(或其他ML 库)。
- 对于大型模型,使用 dask_ml.joblib 和scikit-learn estimators。
- 对于大型数据集,使用 dask_ml estimators。
让我们看一下 Dask.distributed 的架构
Dask 让您能够在计算机集群上运行任务。在 dask.distributed 中,只要您分配任务,它就会立即开始执行。
简单地说,client就是提交任务的你,执行任务的是Worker,调度器则执行两者之间通信。
python -m pip install dask distributed –upgrade
如果您使用的是单台机器,那么就可以通过以下方式创建一个具有4个worker的dask集群
如果需要dashboard,可以安装bokeh,安装bokeh的命令如下:
pip install bokeh
就像我们从 dask.distributed 创建客户端一样,我们也可以从 dask.distributed 创建调度程序。
要使用 dask ML 库,您必须使用以下命令安装它:
pip install dask-ml
我们将使用 Scikit-learn 库来演示 dask-ml 。
假设我们使用 Grid_Search 方法,我们通常使用如下Python代码
使用 dask.distributed 创建一个集群:
要使用集群拟合 scikit-learn 模型,我们只需要使用 joblib